CN114579743A - 基于注意力的文本分类方法、装置及计算机可读介质 - Google Patents

基于注意力的文本分类方法、装置及计算机可读介质 Download PDF

Info

Publication number
CN114579743A
CN114579743A CN202210208152.5A CN202210208152A CN114579743A CN 114579743 A CN114579743 A CN 114579743A CN 202210208152 A CN202210208152 A CN 202210208152A CN 114579743 A CN114579743 A CN 114579743A
Authority
CN
China
Prior art keywords
text
vector
attention
convolution
convolution kernel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210208152.5A
Other languages
English (en)
Inventor
马伯睿
朱亚杰
王章定
魏德山
王波
王聚洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hozon New Energy Automobile Co Ltd
Original Assignee
Hozon New Energy Automobile Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hozon New Energy Automobile Co Ltd filed Critical Hozon New Energy Automobile Co Ltd
Priority to CN202210208152.5A priority Critical patent/CN114579743A/zh
Publication of CN114579743A publication Critical patent/CN114579743A/zh
Priority to PCT/CN2022/115420 priority patent/WO2023165102A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Acoustics & Sound (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种基于注意力的文本分类方法及装置,该方法包括:S11获取待分类文本;S12将待分类文本映射成词向量,将词向量作为卷积核筛选单元的输入数据;S13初始化卷积核筛选单元的卷积核;S14根据输入数据生成注意力向量,注意力向量表示各个通道的权重;S15根据注意力向量对卷积核进行加权聚合,生成聚合卷积核;S16使用聚合卷积核对输入数据进行卷积,获得卷积后的特征图向量;S17将特征图向量作为输入数据,重复执行M次步骤S13‑S16,将最后一次获得的特征图向量作为卷积核筛选单元的输出向量;S18将输出向量作全连接后进行归一化处理,得到待分类文本的分类结果。本申请将卷积计算由多次减少为一次,减少了卷积后的特征图数量,降低了计算复杂度。

Description

基于注意力的文本分类方法、装置及计算机可读介质
技术领域
本申请主要涉及计算机技术领域,具体地涉及一种基于注意力的文本分类方法、装置及计算机可读介质。
背景技术
在车载语音对话中,车机的语音系统需要根据用户的语音来识别用户的意图。例如,说“播放爱我中华”,该句子对应的分类是“音乐”,所要执行的动作是“播放”,所要播放的内容是歌曲“爱我中华”;说“导航到全聚德”,该句子对应的分类是“地图导航”,所要执行的动作是“导航”,所要到达的终点是“全聚德”等。当人听到这些句子时,可以根据已有的知识很快得知该句子的含义。但是对于机器来说,其本身并不具备这些知识,想要从一句语句中获得用户的意图,需要通过大量的数据进行训练和学习,才能获得正确的分类结果或识别结果。目前,在车载语音对话的识别中,可以采用卷积神经网络模型来进行文本分类,以获知用户的意图,并执行相应的命令。
目前卷积神经网络的主流方式为将获得的文本向量化表示,然后通过卷积计算的方式提取出输入文本的特征图,最终将特征图输入全连接网络来建立特征图与类别之间的关系映射。为了提高分类的准确性,往往会采取增加多个不同的静态卷积核进行计算。这导致了在每一次采用了此设计的卷积神经网络进行分类时往往要进行上百次的卷积运算,同时,大量的卷积运算会产生大量的特征图,继而导致后续建立映射的全连接网络计算量巨大,消耗大量的算力与时间。
申请内容
本申请所要解决的技术问题是提供一种基于注意力的文本分类方法、装置及存储介质,解决多个卷积核卷积后导致大量冗余特征图的问题。
本申请提供一种基于注意力的文本分类方法,方法包括采用下面的步骤建立分类模型:
步骤S11:获取待分类文本,待分类文本包括至少一个词语;
步骤S12:将待分类文本映射成词向量,将词向量作为卷积核筛选单元的输入数据,词向量的维度为C×H×W,其中,C为通道数,H为总高度,W为总宽度,C、H、W都为正整数;
步骤S13:初始化卷积核筛选单元的卷积核;
步骤S14:根据输入数据生成注意力向量,注意力向量表示各个通道的权重;
步骤S15:根据注意力向量对卷积核进行加权聚合,生成聚合卷积核;
步骤S16:使用聚合卷积核对输入数据进行卷积,获得卷积后的特征图向量;
步骤S17:将特征图向量作为输入数据,重复执行M次步骤S13-S16,M是大于1的正整数,将最后一次获得的特征图向量作为卷积核筛选单元的输出向量;
步骤S18:将输出向量作全连接后进行归一化处理,得到待分类文本的分类结果。
在本申请的一实施例中,步骤S14包括:
步骤S21:根据输入数据生成输入数据的全局特征向量;以及
步骤S22:根据全局特征向量生成注意力向量。
在本申请的一实施例中,步骤S21包括:对输入数据进行全局池化,获得全局特征向量。
在本申请的一实施例中,采用全局平均池化对输入数据进行全局池化,全局平均池化的公式为:
Figure BDA0003532008650000021
其中,w表示输入数据,u表示全局特征向量,GAP表示全局平均池化函数,w(i,j)是输入数据中高度为i、宽度为j的词向量。
在本申请的一实施例中,步骤S22包括:
步骤S31:将全局特征向量输入至第一全连接层中,获得第一隐藏层函数;
步骤S32:将第一隐藏层函数输入至第二全连接层中,获得注意力向量,注意力向量的大小为N*1,其中,N是卷积核的个数。
在本申请的一实施例中,在步骤S31中,采用下面的公式获得第一隐藏层函数:
h1=FC(u)=δ(W1u+b1)
其中,h1表示第一隐藏层函数,FC表示全连接函数,u表示全局特征向量,δ为ReLU激活函数,W1为第一权重矩阵,b1为第一偏置;
在步骤S32中,采用下面的公式获得注意力向量:
h2=FC(h1)=σ(W2h1+b2)
其中,h2表示注意力向量,σ为Sigmoid激活函数,W2为第二权重矩阵,b2为第二偏置。
在本申请的一实施例中,步骤S15包括采用下面的公式根据注意力向量对卷积核进行加权聚合,生成聚合卷积核:
Katt=h2K
Figure BDA0003532008650000031
K={k1,k2,…kN}
其中,K表示卷积核,其中包括N个卷积核k1-kN,Katt表示根据注意力向量h2和卷积核K乘积获得的注意力卷积核,Kagg表示N个注意力卷积核相加所获得的聚合卷积核。
在本申请的一实施例中,步骤S18包括:
步骤S81:将输出向量输入至第三全连接层,获得第三隐藏函数;
步骤S82:对第三隐藏函数进行批归一化处理,获得归一化第三隐藏函数;
步骤S83:将归一化第三隐藏函数输入至第四全连接层获得目标特征向量,第四全连接层的大小等于待分类文本的标签的数量;
步骤S84:将目标特征向量输入到softmax激活函数中进行归一化处理,得到分类结果,分类结果用于表示每个词向量属于各个类别的概率。
在本申请的一实施例中,采用下面的公式表示步骤S81:
h3=FC(vout)=W3vout+b3
其中,h3表示第三隐藏函数,vout表示输出向量,W3为第三权重矩阵,b3为第三偏置;
采用下面的公式表示步骤S82:
hnorm=BN(h3)
其中,hnorm表示归一化第三隐藏函数,BN表示批归一化处理函数;
采用下面的公式表示步骤S83:
h4=FC(w4hnorm+b4)
其中,h4表示目标特征向量,W4为第四权重矩阵,b4为第四偏置;
采用下面的公式表示步骤S84:
y′=softmax(h4)
其中,y'表示分类结果。
在本申请的一实施例中,方法还包括:训练分类模型;使用经训练的分类模型对输入文本进行分类。
在本申请的一实施例中,步骤S12中将待分类文本映射成词向量的步骤包括:
对待分类文本进行分词和停用词处理,得到预处理后的文本;
将预处理后的文本向量化表示,得到词向量。
在本申请的一实施例中,采用word2vec将预处理后的文本向量化表示,得到词向量。
在本申请的一实施例中,步骤S11包括:获取用户输入的语音信息,对语音信息进行语音识别,得到语音信息对应的语音文本,将语音文本作为待分类文本。
本申请为解决上述技术问题还提供一种基于注意力的文本分类装置,装置包括:存储器,用于存储可由处理器执行的指令;处理器,用于执行指令以实现上述方法。
本申请为解决上述技术问题还提供一种存储有计算机程序代码的计算机可读介质,计算机程序代码在由处理器执行时实现上述方法。
本申请的技术方案相比现有技术的有益效果如下:
本申请的基于注意力的文本分类方法将卷积核筛选单元生成的注意力向量应用于卷积核上,基于注意力的卷积核聚合方法能够大幅增强有能力提取出重要特征的卷积核,同时抑制难以提取出有用信息的卷积核以获得比传统卷积神经网络方法更强大的对于输入文本的特征的表达能力与重要特征的筛选能力。同时,本申请的基于注意力的文本分类方法将卷积计算由多次减少为一次,大大的减小了卷积后的特征图数量,计算复杂度得到了大幅度的降低。
附图说明
为让本申请的上述目的、特征和优点能更明显易懂,以下结合附图对本申请的具体实施方式作详细说明,其中:
图1是本申请一实施例的基于注意力的文本分类方法的示例性流程示意图;
图2是本申请一实施例的基于注意力的文本分类方法的示例性结构示意图;
图3是本申请一实施例的卷积核筛选单元的示例性结构示意图;
图4是本申请一实施例的基于注意力的文本分类方法装置的系统框图。
具体实施方式
为让本申请的上述目的、特征和优点能更明显易懂,以下结合附图对本申请的具体实施方式作详细说明。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,但是本申请还可以采用其它不同于在此描述的其它方式来实施,因此本申请不受下面公开的具体实施例的限制。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
此外,尽管本申请中所使用的术语是从公知公用的术语中选择的,但是本申请说明书中所提及的一些术语可能是申请人按他或她的判断来选择的,其详细含义在本文的描述的相关部分中说明。此外,要求不仅仅通过所使用的实际术语,而是还要通过每个术语所蕴含的意义来理解本申请。
本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各种步骤。同时,或将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
本申请提出一种基于注意力的文本分类方法,可以用于车机系统涉及语音对话的场景,根据该方法对用户的语音进行分析分类,可以有效地获得用户的意图,以指示车机执行相应的任务。
图1是本申请一实施例的基于注意力的文本分类方法的示例性流程示意图。如图1所示,本申请实施例的文本分类方法包括如下步骤:
步骤S11:获取待分类文本,待分类文本包括至少一个词语;
步骤S12:将待分类文本映射成词向量,将词向量作为卷积核筛选单元的输入数据,词向量的维度为C×H×W,其中,C为通道数,H为总高度,W为总宽度,C、H、W都为正整数;
步骤S13:初始化卷积核筛选单元的卷积核;
步骤S14:根据输入数据生成注意力向量,注意力向量表示各个通道的权重;
步骤S15:根据注意力向量对卷积核进行加权聚合,生成聚合卷积核;
步骤S16:使用聚合卷积核对输入数据进行卷积,获得卷积后的特征图向量;
步骤S17:将特征图向量作为输入数据,重复执行M次步骤S13-S16,M是大于1的正整数,将最后一次获得的特征图向量作为卷积核筛选单元的输出向量;
步骤S18:将输出向量作全连接后进行归一化处理,得到待分类文本的分类结果。
以下结合图1-3对上述的步骤S11-S18进行说明。
在步骤S11中,待分类文本可以是用户通过输入设备直接输入的文本,也可以是通过识别设备识别出的文本,本申请对文本的获取方式不作限制。在一些实施例中,步骤S11包括:获取用户输入的语音信息,对语音信息进行语音识别,得到语音信息对应的语音文本,将语音文本作为待分类文本。具体地,通过麦克风等输入设备采集用户输入的语音信息,然后对输入语音进行预处理,其中预处理包括分帧,加窗,预加重等,然后对预处理后的输入语音进行特征提取,最后根据特征进行模式匹配,得到语音信息对应的语音文本。本申请对语音识别的算法不作限制,可以是模型匹配法、概率统计方法,也可以是辨别器分类方法。
待分类文本可以是包括多个句子的文本,每个句子至少包括一个词语。根据应用场景的不同,待分类文本可以为划分不同的种类。在车辆的人机对话中,待分类文本大体可以分为音乐、导航、通话、命令等类别,例如,用户说“播放爱我中华”,该句子对应的分类是“音乐”;用户说“导航到全聚德”,该句子对应的分类是“地图导航”;用户说“打电话给小明”,该句子对应的分类是“通话”。当人听到这些句子时,可以根据已有的知识很快得出该句子对应的分类。而基于神经网络的模型需要不断训练学习,才能对句子进行正确分类。
在计算机中,词语通常有两种表示方式,一种是离散表示,例如one-hot把每个词表示为一个长向量,这个向量的维度是词表大小,向量中只有一个维度的值为1,其余维度为0,这个维度就代表了当前的词。这种表示方式不能展示词与词之间的关系,而且会导致特征空间非常大,因此不利于后续的分类任务。另一种是分布式表示,是将词转化成一种分布式表示,又称词向量。分布式表示将词表示成一个定长的连续的稠密向量。词向量之间存在相似关系且能够包含更多信息,每一维都有特定的含义,非常适合分类任务。
在步骤S12中,可以通过词向量工具将待分类文本映射成词向量。在一些实施例中,采用word2vec词向量工具将待分类文本表示成一个定长的连续的稠密向量,得到词向量。
图2是本申请一实施例的基于注意力的文本分类方法的示例性结构示意图。如图2所示,词向量201的维度为C×H×W,其中,C为通道数,H为总高度,W为总宽度,C、H、W都为正整数。具体地,词向量201可以是一个句子,句子包括H个词,每个词由W维度表示,句子可以通过C个不同类的词向量表征,表示词向量有C个通道。本申请对词向量工具不作限制,还可以采用fastText或者Glove等词向量工具。
参考图2所示,其中还包括卷积核209、全局平均池化层202、第一全连接层203、ReLu激活函数204、第二全连接层205、Sigmoid激活函数206、第三全连接层207、批归一化函数208以及卷积核209,是本发明的文本分类方法所建立的分类模型中的结构,在后文中将结合这些结构对本发明的文本分类方法进行说明。
在一些实施例中,在将待分类文本映射成词向量之前,还包括对待分类文本预处理,具体地,包括如下步骤:
对待分类文本进行分词和停用词处理,得到预处理后的文本;将预处理后的文本向量化表示,得到词向量。具体地,获取待分类文本中的句子,将获取到的句子通过分词工具进行分词处理,分词工具可以是jieba、snowNLP、thulac等,对此不作限制。经过分词后,再通过word2vec、fastText或者Glove等词向量工具将词训练成词向量。
文本分类的关键在于准确提炼文档或者句子的中心思想,而提炼中心思想的方法是抽取文档或句子的关键词作为特征,基于这些特征去训练分类器并分类。目前可以通过卷积核与输入文本作卷积计算的方式提取出输入文本的特征图,最终将特征图输入全连接网络来建立特征图与期望输出之间的关系映射。因此,卷积核的设置至关重要,当前模型为了提高分类的准确性,往往会采取增加多个不同的静态卷积核进行计算。这导致了在每一次采用了此设计的卷积神经网络进行分类时往往要进行上百次的卷积运算,同时,大量的卷积运算会产生大量的特征图,继而导致后续建立映射的全连接网络计算量巨大,消耗大量的算力与时间。因此,需要采用卷积核筛选单元对卷积核进行筛选,在保证分类准确性的同时,减少卷积核的数量。在本申请中,通过卷积核筛选单元筛选出一个具有代表性的卷积核,用于提取输入文本的特征图。
在步骤S13中,初始化卷积核筛选单元的卷积核。
图3是本申请一实施例的卷积核筛选单元的示例性流程示意图。如图3所示,首先,执行步骤S13随机初始化卷积核筛选单元的卷积核,该卷积核可以是图2中所示的卷积核209。卷积核的宽度与词向量的宽度一致,卷积核的通道数与词向量的通道数一致,高度可任意设置。
本发明对初始化卷积核的方法不做限制,可以随机产生初始的卷积核,或者使用默认卷积核作为初始卷积核。
如图3所示,其中的输入数据来自步骤S14,将词向量作为卷积核筛选单元的输入数据,根据输入数据生成注意力向量,注意力向量表示各个通道的权重。卷积核筛选单元关注通道与通道之间的关系,卷积核筛选单元可以学习到不同通道的特征的重要程度。在一些实施例中,根据输入数据生成注意力向量具体包括如下步骤:
步骤S21:根据输入数据生成输入数据的全局特征向量;以及
步骤S22:根据全局特征向量生成注意力向量。
在一些实施例中,步骤S21包括:对输入数据进行全局池化,获得全局特征向量。由于卷积只是在一个局部空间内进行操作,难以获得足够的信息来提取通道之间的关系。因此,考虑将一个通道上整个空间特征(H x W)编码为一个全局特征向量。可以采用最大池化和全连接层进行全局池化,获得全局特征向量,也可以采用如图3所示的全局平均池化执行步骤S21对输入数据进行全局池化,获得全局特征向量。全局特征向量的维度为C×1×1。全局平均池化的公式为:
Figure BDA0003532008650000091
其中,w表示输入数据,u表示全局特征向量,GAP表示全局平均池化函数,w(i,j)是输入数据中高度为i、宽度为j的词向量。该步骤可以由图2中的全局平均池化层202来执行。
步骤S21获得了全局特征向量,接下来需要另外一种运算来抓取通道之间的关系。在一些实施例中,采用两个全连接层的门限结构来抓取通道之间的关系。其中第一个全连接层起到降维的作用,第二个全连接层恢复原始的维度。
在一些实施例中,如图3所示,步骤S22包括:
步骤S31:将全局特征向量输入至第一全连接层中,获得第一隐藏层函数。可以采用下面的公式获得第一隐藏层函数:
h1=FC(u)=δ(W1u+b1)
其中,h1表示第一隐藏层函数,FC表示全连接函数,u表示全局特征向量,δ为ReLU激活函数,W1为第一权重矩阵,b1为第一偏置。步骤S31中的第一全连接层可以是图2中的第一全连接层203。
步骤S32:将第一隐藏层函数输入至第二全连接层中,获得注意力向量,注意力向量的大小为N×1×1,其中,N是卷积核的个数。可以采用下面的公式获得注意力向量:
h2=FC(h1)=σ(W2h1+b2)
其中,h2表示注意力向量,FC表示全连接函数,σ为Sigmoid激活函数,W2为第二权重矩阵,b2为第二偏置。步骤S32中的第二全连接层可以是图2中的第二全连接层205。
在步骤S15中,根据注意力向量对卷积核进行加权聚合,生成聚合卷积核。采用下面的公式根据注意力向量对卷积核进行加权聚合,生成聚合卷积核:
Katt=h2K
Figure BDA0003532008650000101
K={k1,k2,…kN}
其中,K表示卷积核,其中包括N个卷积核k1-kN,Katt表示根据注意力向量h2和卷积核K乘积获得的注意力卷积核,Kagg表示N个注意力卷积核相加所获得的聚合卷积核。
在步骤S16中,使用聚合卷积核对输入数据进行卷积,获得卷积后的特征图向量。上述整个过程可以看做是学习各个通道之间的权重,然后将权重应用到卷积核上,使得模型对不同的通道的特征具有不同的注意力,这种注意力机制让模型可以更加关注信息量最大的通道的特征,而抑制那些不重要的通道的特征。
如图3所示,在步骤S17中,将特征图向量作为输入数据,重复执行M次步骤S13-S16,M是大于1的正整数,具体的M的值按照应用场景的需要设置,对此不作限制。将最后一次获得的特征图向量作为卷积核筛选单元的输出向量。通过重复执行M次步骤S13-S16,使得卷积核筛选单元筛选出的特征图向量更具代表性,后续分类的正确性越高。
在步骤S18中,将输出向量作全连接后进行归一化处理,得到待分类文本的分类结果。在应用激活函数之前,先对一个层的输出进行归一化,将所有批数据强制在统一的数据分布下,然后再将其输入到下一层,使整个神经网络在各层的中间输出的数值更稳定,从而使深层神经网络更容易收敛而且降低模型过拟合的风险。
如图2所示,在一些实施例中,步骤S18包括:
步骤S81:将输出向量输入至第三全连接层207,获得第三隐藏层函数,第三隐藏层函数的公式可表示为:
h3=FC(vout)=W3vout+b3
其中,h3表示第三隐藏层函数,FC表示全连接函数,vout表示输出向量,W3为第三权重矩阵,b3为第三偏置。
步骤S82:对第三隐藏层函数进行批归一化处理,获得归一化第三隐藏层函数。批归一化处理通过一定的规范化手段,把每层神经网络任意神经元这个输入值的分布强行拉回到均值为0方差为1的标准正态分布,使得激活输入值落在非线性函数对输入比较敏感的线性区域,其对应的导数远离导数饱和区,这样输入的小变化就会导致损失函数较大的变化,避免梯度消失问题产生,学习收敛速度快,能大大加快训练速度。归一化第三隐藏层函数的公式可表示为:
hnorm=BN(h3)
其中,hnorm表示归一化第三隐藏层函数,BN表示批归一化处理函数。步骤S82中的批归一化处理函数可以是图2中的批归一化处理函数208。
步骤S83:将归一化第三隐藏层函数输入至第四全连接层(图2中未示出)获得目标特征向量,第四全连接层的大小等于待分类文本的标签的数量。目标特征向量的公式可表示为:
h4=FC(w4hnorm+b4)
其中,h4表示目标特征向量,W4为第四权重矩阵,b4为第四偏置。
步骤S84:将目标特征向量输入到softmax激活函数中进行归一化处理,得到分类结果,分类结果用于表示每个词向量属于各个类别的概率。分类结果的公式可表示为:
y′=softmax(h4)
其中,y'表示分类结果,softmax表示激活函数。
在一些实施例中,方法还包括训练该分类模型;使用经训练的分类模型对输入文本进行分类。具体地,利用训练集训练上述分类模型,训练集包括多个语句以及每个语句所属的类别,将训练集输入分类模型中进行前向传播训练,在训练过程中使用损失函数进行反向传播训练,通过反向传播更新输入层的超参数,最终获得训练好的分类模型。在一些实施例中,使用multi-class cross-entropy loss作为损失函数进行反向传播训练,本申请对损失函数的形式不作限制。分类模型训练完成后,可以使用经训练的分类模型对测试集或实际获得的待分类文本进行分类。
在文本分类时,通常卷积神经网络在进行卷积时为了获得输入文本的多方面的特征会采用多个卷积核而导致模型计算复杂度大量提升从而消耗大量算力资源。为了解决上述技术问题,本申请的基于注意力的文本分类方法将卷积核筛选单元生成的注意力向量应用于卷积核上,基于注意力的卷积核聚合方法能够大幅增强有能力提取出重要特征的卷积核,同时抑制难以提取出有用信息的卷积核以获得比传统卷积神经网络方法更强大的对于输入文本的特征的表达能力与重要特征的筛选能力。同时,本申请的基于注意力的文本分类方法将卷积计算由多次减少为一次,大大的减小了卷积后的特征图数量,计算复杂度得到了大幅度的降低。
本申请还包括一种基于注意力的文本分类装置,包括存储器和处理器。其中,该存储器用于存储可由处理器执行的指令;处理器用于执行该指令以实现前文所述的一种基于注意力的文本分类方法。
图4是本申请一实施例的基于注意力的文本分类装置的系统框图。参考图4所示,该文本分类装置400可包括内部通信总线401、处理器402、只读存储器(ROM)403、随机存取存储器(RAM)404以及通信端口405。当应用在个人计算机上时,该文本分类装置400还可以包括硬盘406。内部通信总线401可以实现该文本分类装置400组件间的数据通信。处理器402可以进行判断和发出提示。在一些实施例中,处理器402可以由一个或多个处理器组成。通信端口405可以实现该语义分析装置400与外部的数据通信。在一些实施例中,该文本分类装置400可以通过通信端口405从网络发送和接受信息及数据。该文本分类装置400还可以包括不同形式的程序储存单元以及数据储存单元,例如硬盘406,只读存储器(ROM)403和随机存取存储器(RAM)404,能够存储计算机处理和/或通信使用的各种数据文件,以及处理器402所执行的可能的程序指令。处理器执行这些指令以实现方法的主要部分。处理器处理的结果通过通信端口传给用户设备,在用户界面上显示。
上述的文本分类方法可以实施为计算机程序,保存在硬盘406中,并可加载到处理器402中执行,以实施本申请的文本分类方法。
本申请还包括一种存储有计算机程序代码的计算机可读介质,该计算机程序代码在由处理器执行时实现前文所述的基于注意力的文本分类方法。
基于注意力的文本分类方法实施为计算机程序时,也可以存储在计算机可读存储介质中作为制品。例如,计算机可读存储介质可以包括但不限于磁存储设备(例如,硬盘、软盘、磁条)、光盘(例如,压缩盘(CD)、数字多功能盘(DVD))、智能卡和闪存设备(例如,电可擦除可编程只读存储器(EPROM)、卡、棒、键驱动)。此外,本文描述的各种存储介质能代表用于存储信息的一个或多个设备和/或其它机器可读介质。术语“机器可读介质”可以包括但不限于能存储、包含和/或承载代码和/或指令和/或数据的无线信道和各种其它介质(和/或存储介质)。
应该理解,上文所描述的实施例仅是示意。本文描述的实施例可在硬件、软件、固件、中间件、微码或者其任意组合中实现。对于硬件实现,处理器可以在一个或者多个特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器和/或设计为执行本文所述功能的其它电子单元或者其结合内实现。
本申请的一些方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。处理器可以是一个或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理器件(DAPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器或者其组合。此外,本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。例如,计算机可读介质可包括,但不限于,磁性存储设备(例如,硬盘、软盘、磁带……)、光盘(例如,压缩盘CD、数字多功能盘DVD……)、智能卡以及闪存设备(例如,卡、棒、键驱动器……)。
计算机可读介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等等、或合适的组合形式。计算机可读介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机可读介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、射频信号、或类似介质、或任何上述介质的组合。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述申请披露仅仅作为示例,而并不构成对本申请的限定。虽然此处并没有明确说明,本领域技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议,所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。
同时,本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外,本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本申请一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。

Claims (15)

1.一种基于注意力的文本分类方法,其特征在于,包括采用下面的步骤建立分类模型:
步骤S11:获取待分类文本,所述待分类文本包括至少一个词语;
步骤S12:将所述待分类文本映射成词向量,将所述词向量作为卷积核筛选单元的输入数据,所述词向量的维度为C×H×W,其中,C为通道数,H为总高度,W为总宽度,C、H、W都为正整数;
步骤S13:初始化所述卷积核筛选单元的卷积核;
步骤S14:根据所述输入数据生成注意力向量,所述注意力向量表示各个通道的权重;
步骤S15:根据所述注意力向量对所述卷积核进行加权聚合,生成聚合卷积核;
步骤S16:使用所述聚合卷积核对所述输入数据进行卷积,获得卷积后的特征图向量;
步骤S17:将所述特征图向量作为所述输入数据,重复执行M次所述步骤S13-S16,M是大于1的正整数,将最后一次获得的所述特征图向量作为所述卷积核筛选单元的输出向量;以及
步骤S18:将所述输出向量作全连接后进行归一化处理,得到所述待分类文本的分类结果。
2.如权利要求1所述的文本分类方法,其特征在于,所述步骤S14包括:
步骤S21:根据所述输入数据生成所述输入数据的全局特征向量;以及
步骤S22:根据所述全局特征向量生成所述注意力向量。
3.如权利要求2所述的文本分类方法,其特征在于,所述步骤S21包括:对所述输入数据进行全局池化,获得所述全局特征向量。
4.如权利要求3所述的文本分类方法,其特征在于,采用全局平均池化对所述输入数据进行全局池化,所述全局平均池化的公式为:
Figure FDA0003532008640000011
其中,w表示所述输入数据,u表示所述全局特征向量,GAP表示全局平均池化函数,w(i,j)是所述输入数据中高度为i、宽度为j的词向量。
5.如权利要求2所述的文本分类方法,其特征在于,所述步骤S22包括:
步骤S31:将所述全局特征向量输入至第一全连接层中,获得第一隐藏层函数;
步骤S32:将所述第一隐藏层函数输入至第二全连接层中,获得所述注意力向量,所述注意力向量的大小为N*1,其中,N是所述卷积核的个数。
6.如权利要求5所述的文本分类方法,其特征在于,在所述步骤S31中,采用下面的公式获得所述第一隐藏层函数:
h1=FC(u)=δ(W1u+b1)
其中,h1表示所述第一隐藏层函数,FC表示全连接函数,u表示所述全局特征向量,δ为ReLU激活函数,W1为第一权重矩阵,b1为第一偏置;
在所述步骤S32中,采用下面的公式获得所述注意力向量:
h2=FC(h1)=σ(W2h1+b2)
其中,h2表示所述注意力向量,σ为Sigmoid激活函数,W2为第二权重矩阵,b2为第二偏置。
7.如权利要求6所述的文本分类方法,其特征在于,所述步骤S15包括采用下面的公式根据所述注意力向量对所述卷积核进行加权聚合,生成聚合卷积核:
Katt=h2K
Figure FDA0003532008640000021
K={k1,k2,…kN}
其中,K表示所述卷积核,其中包括N个卷积核k1-kN,Katt表示根据所述注意力向量h2和卷积核K乘积获得的注意力卷积核,Kagg表示N个所述注意力卷积核相加所获得的所述聚合卷积核。
8.如权利要求1所述的文本分类方法,其特征在于,所述步骤S18包括:
步骤S81:将所述输出向量输入至第三全连接层,获得第三隐藏函数;
步骤S82:对所述第三隐藏函数进行批归一化处理,获得归一化第三隐藏函数;
步骤S83:将所述归一化第三隐藏函数输入至第四全连接层获得目标特征向量,所述第四全连接层的大小等于所述待分类文本的标签的数量;
步骤S84:将所述目标特征向量输入到softmax激活函数中进行归一化处理,得到所述分类结果,所述分类结果用于表示每个所述词向量属于各个类别的概率。
9.如权利要求8所述的文本分类方法,其特征在于,采用下面的公式表示所述步骤S81:
h3=FC(vout)=W3vout+b3
其中,h3表示所述第三隐藏函数,vout表示所述输出向量,W3为第三权重矩阵,b3为第三偏置;
采用下面的公式表示所述步骤S82:
hnorm=BN(h3)
其中,hnorm表示所述归一化第三隐藏函数,BN表示批归一化处理函数;
采用下面的公式表示所述步骤S83:
h4=FC(w4hnorm+b4)
其中,h4表示所述目标特征向量,W4为第四权重矩阵,b4为第四偏置;
采用下面的公式表示所述步骤S84:
y′=softmax(h4)
其中,y′表示所述分类结果。
10.如权利要求1所述的文本分类方法,其特征在于,还包括:训练所述分类模型;使用经训练的所述分类模型对输入文本进行分类。
11.如权利要求1所述的文本分类方法,其特征在于,所述步骤S12中将所述待分类文本映射成词向量的步骤包括:
对所述待分类文本进行分词和停用词处理,得到预处理后的文本;以及
将所述预处理后的文本向量化表示,得到所述词向量。
12.如权利要求11所述的文本分类方法,其特征在于,采用word2vec将所述预处理后的文本向量化表示,得到所述词向量。
13.如权利要求1所述的文本分类方法,其特征在于,所述步骤S11包括:获取用户输入的语音信息,对所述语音信息进行语音识别,得到所述语音信息对应的语音文本,将所述语音文本作为待分类文本。
14.一种基于注意力的文本分类装置,包括:
存储器,用于存储可由处理器执行的指令;
处理器,用于执行所述指令以实现如权利要求1-13任一项所述的方法。
15.一种存储有计算机程序代码的计算机可读介质,所述计算机程序代码在由处理器执行时实现如权利要求1-13任一项所述的方法。
CN202210208152.5A 2022-03-04 2022-03-04 基于注意力的文本分类方法、装置及计算机可读介质 Pending CN114579743A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210208152.5A CN114579743A (zh) 2022-03-04 2022-03-04 基于注意力的文本分类方法、装置及计算机可读介质
PCT/CN2022/115420 WO2023165102A1 (zh) 2022-03-04 2022-08-29 基于注意力的文本分类方法、装置及计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210208152.5A CN114579743A (zh) 2022-03-04 2022-03-04 基于注意力的文本分类方法、装置及计算机可读介质

Publications (1)

Publication Number Publication Date
CN114579743A true CN114579743A (zh) 2022-06-03

Family

ID=81771123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210208152.5A Pending CN114579743A (zh) 2022-03-04 2022-03-04 基于注意力的文本分类方法、装置及计算机可读介质

Country Status (2)

Country Link
CN (1) CN114579743A (zh)
WO (1) WO2023165102A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115048524A (zh) * 2022-08-15 2022-09-13 中关村科学城城市大脑股份有限公司 文本分类展示方法、装置、电子设备和计算机可读介质
WO2023165102A1 (zh) * 2022-03-04 2023-09-07 合众新能源汽车股份有限公司 基于注意力的文本分类方法、装置及计算机可读介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117349399A (zh) * 2023-10-18 2024-01-05 湘南学院 文本分类语料库的构建方法及其系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334605B (zh) * 2018-02-01 2020-06-16 腾讯科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
CN110263162B (zh) * 2019-06-05 2023-05-26 创新先进技术有限公司 卷积神经网络及其进行文本分类的方法、文本分类装置
CN110968697B (zh) * 2019-12-20 2023-06-16 合肥讯飞数码科技有限公司 文本分类方法、装置、设备及可读存储介质
CN111597340A (zh) * 2020-05-22 2020-08-28 迪爱斯信息技术股份有限公司 一种文本分类方法及装置、可读存储介质
CN114579743A (zh) * 2022-03-04 2022-06-03 合众新能源汽车有限公司 基于注意力的文本分类方法、装置及计算机可读介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023165102A1 (zh) * 2022-03-04 2023-09-07 合众新能源汽车股份有限公司 基于注意力的文本分类方法、装置及计算机可读介质
CN115048524A (zh) * 2022-08-15 2022-09-13 中关村科学城城市大脑股份有限公司 文本分类展示方法、装置、电子设备和计算机可读介质
CN115048524B (zh) * 2022-08-15 2022-10-28 中关村科学城城市大脑股份有限公司 文本分类展示方法、装置、电子设备和计算机可读介质

Also Published As

Publication number Publication date
WO2023165102A1 (zh) 2023-09-07

Similar Documents

Publication Publication Date Title
KR102071582B1 (ko) 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치
CN109446430B (zh) 产品推荐的方法、装置、计算机设备及可读存储介质
CN114579743A (zh) 基于注意力的文本分类方法、装置及计算机可读介质
CN110990543A (zh) 智能对话的生成方法、装置、计算机设备及计算机存储介质
CN108717439A (zh) 一种基于注意力机制和特征强化融合的中文文本分类方法
CN106776713A (zh) 一种基于词向量语义分析的海量短文本聚类方法
CN109271493A (zh) 一种语言文本处理方法、装置和存储介质
CN112257449B (zh) 命名实体识别方法、装置、计算机设备和存储介质
CN110929836B (zh) 神经网络训练及图像处理方法和装置、电子设备、介质
CN112417894A (zh) 一种基于多任务学习的对话意图识别方法及识别系统
CN110851594A (zh) 一种基于多通道深度学习模型的文本分类方法及其装置
CN111540367A (zh) 语音特征提取方法、装置、电子设备和存储介质
CN112418320B (zh) 一种企业关联关系识别方法、装置及存储介质
CN110287311A (zh) 文本分类方法及装置、存储介质、计算机设备
CN109308316B (zh) 一种基于主题聚类的自适应对话生成系统
CN114678030A (zh) 基于深度残差网络和注意力机制的声纹识别方法及装置
CN115393933A (zh) 一种基于帧注意力机制的视频人脸情绪识别方法
CN113761942B (zh) 基于深度学习模型的语义分析方法、装置及存储介质
CN112632248A (zh) 问答方法、装置、计算机设备和存储介质
CN112989843B (zh) 意图识别方法、装置、计算设备及存储介质
CN113870863A (zh) 声纹识别方法及装置、存储介质及电子设备
CN114022192A (zh) 一种基于智能营销场景的数据建模方法及系统
CN111462762B (zh) 一种说话人向量正则化方法、装置、电子设备和存储介质
Chinmayi et al. Emotion Classification Using Deep Learning
CN114969195B (zh) 对话内容挖掘方法和对话内容评估模型的生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 314500 988 Tong Tong Road, Wu Tong Street, Tongxiang, Jiaxing, Zhejiang

Applicant after: United New Energy Automobile Co.,Ltd.

Address before: 314500 988 Tong Tong Road, Wu Tong Street, Tongxiang, Jiaxing, Zhejiang

Applicant before: Hezhong New Energy Vehicle Co.,Ltd.