CN110727765B - 基于多注意力机制的问题分类方法、系统及存储介质 - Google Patents

基于多注意力机制的问题分类方法、系统及存储介质 Download PDF

Info

Publication number
CN110727765B
CN110727765B CN201910958230.1A CN201910958230A CN110727765B CN 110727765 B CN110727765 B CN 110727765B CN 201910958230 A CN201910958230 A CN 201910958230A CN 110727765 B CN110727765 B CN 110727765B
Authority
CN
China
Prior art keywords
matrix
vector
word
attention mechanism
word vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910958230.1A
Other languages
English (en)
Other versions
CN110727765A (zh
Inventor
余本功
朱梦迪
汲浩敏
王胡燕
张强
杨善林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201910958230.1A priority Critical patent/CN110727765B/zh
Publication of CN110727765A publication Critical patent/CN110727765A/zh
Application granted granted Critical
Publication of CN110727765B publication Critical patent/CN110727765B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施方式提供一种基于多注意力机制的问题分类方法、系统及存储介质,属于问题分类技术领域。所述问题分类方法包括:获取待分类的文本;采用word2vec模型将所述文本转化为对应的词向量序列;根据词向量序列形成基于疑问词注意力机制的词向量矩阵;采用预设的标注集对所述文本进行词性标注并编码以形成词性向量序列;采用公式(1)分别计算所述词向量序列中的每个向量的系数;采用公式(2)对每个系数进行标准化处理;采用公式(3)确定词性注意力机制的词向量矩阵;将两种词向量矩阵进行卷积操作形成组合矩阵;将组合矩阵输入LSTM得到具有时序特征的特征矩阵,接着使用自注意力机制得到特征向量,根据特征向量确定文本的类别。

Description

基于多注意力机制的问题分类方法、系统及存储介质
技术领域
本发明涉及问题分类技术领域,具体地涉及一种基于多注意力机制的问题分类方法、系统及存储介质。
背景技术
近几年来,随着互联网的大范围普及,越来越多的人参与到网络信息交互中,促进了问答系统的迅猛发展。问答系统作为信息检索领域的延伸,能够为用户提出的自然语言问题提供一个正确且简明扼要的答案,满足用户的信息需求。问答系统一般包括问题分类、信息检索、答案抽取三个部分,其中问题分类无疑是问答系统的基础任务,只有对问题进行正确的分析、归类,才能有效的缩小候选答案空间,制定合适的答案选择策略,从而更精准的找到正确答案。因此,如何更快速、准确的识别出问题的类别,对于问答系统非常关键,也逐渐成为学术界的研究热点。
基于规则的问题分类方法是最早用于问题分类的方法,但是需要人工标注大量规则,费时费力,有很大的局限性,分类效果较差,目前应用较少。基于机器学习的问题分类方法主要在特征提取和分类器选择上面做研究:Zhang等使用SVM算法对问题进行分类,并使用treekernel来提取特征;冶忠林等提出一种基于语义扩展的问题分类方法,先用搜索引擎对问题进行搜索,得到一系列相关网页数据,将数据处理后使用主题模型得到与问题相关的特征词,计算特征词与类别词之间的相似度,从而得到问题的类别;张青等先利用卡方统计量特征选择方法选出问题文本的特征词,将其作为特征扩展的依据,然后用外部知识库预训练的LDA模型得到问题文本的相应主题下的主题词作为扩展特征词,最后用支持向量机分类器对扩展后的文本进行分类。但是机器学习算法不能提取到丰富的语义特征,分类性能受限。
基于深度学习的方法用词向量作为文本的初始特征表示,且能够提取到深层次的文本语义信息,大大提高了分类的效果。郭宝震等对用两种训练算法得到的词向量分别进行注意力建模,然后输入给CNN进行卷积和池化提取特征;张栋等联合问题和答案一起进行词向量训练,并用未标注样本和已标注样本联合学习词向量,扩充了问题的语义信息,之后用卷积神经网络进行分类;谢雨飞等用依存句法树对问题文本进行语义扩展,同时利用基于注意力机制的长短时记忆网络LSTM(Long and Short System)得到文本向量。但现有的深度学习问题分类方法也有以下问题:
第一:现有的深度学习模型使用的词向量并没有重点关注问题文本的疑问词特征和词性特征。和普通的文本分类不同,问题文本简短,包含的语义信息相对较少,所以问题文本中的疑问词和名词、动词对问题分类非常重要。
第二:现有的深度学习模型没有提取问题文本的潜在主题信息,只是用卷积神经网络或长短时记忆网络提取文本特征,并没有进一步挖掘问题文本的潜在主题信息;而且有的方法只是单一的使用卷积神经网络或者长短时记忆网络,并没有把两者的优势结合起来,卷积神经网络能够捕捉从数据中抽取深层语义特征,长短时记忆网络能够对文本的时序特征进行建模,保留文本的上下文语义信息。
发明内容
本发明实施方式的目的是提供一种基于多注意力机制的问题分类方法、系统及存储介质,该问题分类方法、系统及存储介质能够更加准确地对文本进行分类。
为了实现上述目的,本发明实施方式提供一种基于多注意力机制的问题分类方法,所述问题分类方法包括:
获取待分类的文本Q={q1,…,qn};
采用word2vec模型将所述文本Q转化为对应的词向量序列X={x1,…,xn};
根据所述词向量序列X形成基于疑问词注意力机制的词向量矩阵;
采用预设的标注集对所述文本Q进行词性标注并编码以形成词性向量序列
Figure BDA0002228085840000031
采用公式(1)分别计算所述词向量序列X中的每个向量xi的系数,
Figure BDA0002228085840000032
其中,
Figure BDA0002228085840000033
为向量xi的系数,
Figure BDA0002228085840000034
为所述词性向量序列Xp的第i个向量,Wp为对应的自注意力机制的参数矩阵,bp为对应的自注意力机制的线性偏差;
采用公式(2)对每个所述系数
Figure BDA0002228085840000035
进行标准化处理,
Figure BDA0002228085840000036
其中,
Figure BDA0002228085840000037
为经过标准化处理后的向量xi的系数,n为所述词向量序列X中的向量的数量;
采用公式(3)确定基于词性注意力机制的词向量矩阵,
Figure BDA0002228085840000038
其中,
Figure BDA0002228085840000039
为基于词性注意力机制的词向量矩阵的第i个向量;
采用卷积神经网络根据基于所述疑问词注意力机制得到的词向量矩阵和所述词性注意力机制得到的词向量矩阵形成用于表示所述文本的局部特征的组合矩阵;
采用LSTM神经网络将所述组合矩阵转化为具有时序特征的特征矩阵;
采用公式(4)确定所述特征矩阵中每个向量的系数,
at=σ(WLTht+bLT),(4)
其中,at为所述特征矩阵中向量ht的系数,向量ht为所述LSTM神经网络的输出,WLT为对应的自注意力机制的参数矩阵,bLT为对应的自注意力机制的线性偏差;
采用公式(5)对每个所述系数at进行标准化处理以得到所述特征矩阵中每个向量的权重,
Figure BDA0002228085840000041
其中,A为所述特征矩阵的权重,
Figure BDA0002228085840000042
at为所述特征矩阵中的第t个向量的系数;
采用公式(6)确定所述文本的特征向量,
T=AH,(6)
其中,T为所述特征向量,A为所述特征矩阵的权重,H为所述特征矩阵;
将所述特征向量输入分类器中以得到所述文本的类别。
可选地,所述采用word2vec模型将所述文本Q转化为对应的词向量序列X={x1,…,xn}包括:
采用word2vec模型中的CBOW单元将所述文本转化为对应的所述词向量序列X={x1,…,xn}。
可选地,所述根据所述词向量序列X形成基于疑问词注意力机制的词向量矩阵包括:
提取所述词向量序列X中的表示疑问词的疑问词向量xe
采用公式(7)分别对所述疑问词向量xe和所述词向量序列X中的每个向量xi进行内积运算以得到所述疑问词向量xe对每个所述向量xi的系数,
Figure BDA0002228085840000043
其中,
Figure BDA0002228085840000044
为向量xi的系数,xe为所述疑问词向量,innerproduct为所述内积运算;
采用公式(8)对系数
Figure BDA0002228085840000045
进行标准化处理,
Figure BDA0002228085840000051
其中,
Figure BDA0002228085840000052
为经过标准化处理后的向量xi的系数。
可选地,所述采用卷积神经网络根据基于所述疑问词注意力机制得到的词向量矩阵和所述词性注意力机制得到的词向量矩阵形成用于表示所述文本的局部特征的组合矩阵包括:
分别从基于疑问词注意力机制得到的词向量矩阵和基于词性注意力机制得到的词向量矩阵中选取出对应的滑动窗口矩阵,对选取出的滑动窗口矩阵进行卷积计算以得到第一组合矩阵和第二组合矩阵,其中所述第一组合矩阵和所述第二组合矩阵均包括多个向量,每个向量包括多个元素;
将所述第一组合矩阵和所述第二组合矩阵按照每个元素在对应的向量中的次序进行重排以形成所述组合矩阵。
可选地,所述分别从基于疑问词注意力机制得到的词向量矩阵和基于词性注意力机制得到的词向量矩阵中选取出对应的滑动窗口矩阵,对选取出的滑动窗口矩阵进行卷积计算以得到第一组合矩阵和第二组合矩阵包括:
根据公式(9)和公式(10)进行所述卷积计算,
Figure BDA0002228085840000053
Figure BDA0002228085840000054
其中,
Figure BDA0002228085840000055
Figure BDA0002228085840000056
为所述第一组合矩阵和所述第二组合矩阵中的元素,
Figure BDA0002228085840000059
Figure BDA0002228085840000057
为所述滑动窗口矩阵,we和wp对应的卷积神经网络的参数矩阵,be、bp为对应的卷积神经网络的线性偏差,f为卷积神经网络的激活函数。
可选地,所述将所述第一组合矩阵和所述第二组合矩阵按照每个元素在对应的向量中的次序进行重排以形成所述组合矩阵包括:
根据公式(11)进行所述重排,
Figure BDA0002228085840000058
其中,
Figure BDA0002228085840000061
为第一组合矩阵和第二组合矩阵中每个向量的第i个元素组成的新的向量,
Figure BDA0002228085840000062
为所述第一组合矩阵中的向量,
Figure BDA0002228085840000063
为所述第二组合矩阵中的向量。
可选地,所述采用LSTM神经网络将所述组合矩阵转化为具有时序特征的特征矩阵包括:
采用公式(12)至公式(17)对所述组合矩阵进行处理以形成所述特征矩阵,
it=σ(Wiht-1+Uixt+bi),(12)
ft=σ(Wfht-1+Ufxt+bf),(13)
ot=σ(Woht-1+Uoxt+bo),(14)
Figure BDA0002228085840000064
Figure BDA0002228085840000065
ht=ot⊙tanh(ct),(17)
其中,it为所述LSTM神经网络的输入门,σ为sigmoid函数,Wi、Ui、Wf、Uf、Wo、Uo、Wc、Uc为对应的神经网络学习的参数矩阵,ht-1、ht为所述LSTM神经网络输出的隐藏状态向量的第t-1个向量和第t个向量,xt为上一步卷积并重排后的向量,bi、bf、bo、bc为对应的所述LSTM神经网络的线性偏差,ft为所述LSTM神经网络的遗忘门,ot为所述LSTM神经网络的输出门,ct、ct-1为所述LSTM神经网络的记忆细胞,⊙为两个向量的Hadamard积。
另一方面,本发明提供一种基于多注意力机制的问题分类系统,所述问题分类系统包括处理器,所述处理器用于执行如上述任一所述的问题分类方法。
再一方面,本发明还提供一种存储介质,所述存储介质存储有指令,所述指令用于被机器读取以使得所述机器执行如上述任一所述的问题分类方法。
通过上述技术方案,本发明提供的基于多注意力机制的问题分类方法、系统及存储介质通过同时结合文本的疑问词注意力机制和词性注意力机制,采用卷积神经网络确定文本的局部特征,LSTM神经网络确定文本的具有时序特征的组合矩阵,自注意力机制计算组合矩阵每个向量的权重从而得到对应的特征向量,再将该特征向量输入分类器中以得到该文本的类别,解决了现有技术中由于没有结合疑问词注意力机制和词性注意力机制而导致的分类结果的不准确的技术问题,提高了文本分类的准确性。
本发明实施方式的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明实施方式的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施方式,但并不构成对本发明实施方式的限制。在附图中:
图1是根据本发明的一个实施方式的基于多注意力机制的问题分类方法的流程图;
图2是根据本发明的一个实施方式的基于多注意力机制的问题分类方法的部分流程图;
图3是根据本发明的一个实施方式的基于多注意力机制的问题分类方法的部分流程图;
图4是根据本发明的一个示例的第一组合矩阵的示意图;
图5是根据本发明的一个示例的第二组合矩阵的示意图;
图6是根据本发明的一个示例的根据第一组合矩阵和第二组合矩阵重排得到组合矩阵的过程的示意图。
具体实施方式
以下结合附图对本发明实施方式的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明实施方式,并不用于限制本发明实施方式。
在本发明实施方式中,在未作相反说明的情况下,使用的方位词如“上、下、顶、底”通常是针对附图所示的方向而言的或者是针对竖直、垂直或重力方向上而言的各部件相互位置关系描述用词。
另外,若本发明实施方式中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施方式之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
如图1所示是根据本发明的一个实施方式的基于多注意力机制的问题分类方法的流程图。在图1中,该问题分类方法可以包括:
在步骤S10中,获取待分类的文本Q={q1,…,qn}。在该实施方式中,该待分类的文本可以是例如一个带有疑问词的语句,且该语句中可以有且仅有一个疑问词。由此,如果待分类的文本是包括大量语句的文本集,那么在本发明提供的问题分类方法中,也可以包括将该文本集分成多个包括有且仅有一个疑问词的语句的步骤,从而分别对该有且仅有一个疑问词的语句进行分类。
在步骤S11中,采用word2vec模型将该文本Q转化为对应的词向量序列。在该实施方式中,可以采用word2vec模型中的CBOW单元将文本Q转化为对应的词向量序列。对于该词向量序列,可以是例如公式(1)所示,
X={x1,…,xi,…,xn},(1)
其中,X为该词向量序列,xi为该文本中第i个单词在该词向量序列中对应的向量,n为该词向量序列X中向量的数量;
在步骤S12中,根据词向量序列X形成基于疑问词注意力机制的词向量矩阵。对于形成该词向量矩阵的具体方式,可以是本领域人员所知的多种形式。在本发明的一个示例中,该具体方式可以包括如图2中所示出的步骤。在图2中,该具体方式可以包括:
在步骤S121中,提取词向量序列X中的表示疑问词的疑问词向量xe。其中,对于如何确定该疑问词向量xe的具体方式,可以是通过查找预设的疑问词表的方式来确定该文本Q中包括的疑问词,再针对该疑问词确定表示该疑问词的疑问词向量xe。对于该疑问词表,可以是本领域人员所知的多种语义库。
在步骤S122中,采用公式(2)分别对疑问词向量xe和词向量序列X中的每个向量xi进行内积运算以得到疑问词向量xe对每个向量xi的系数,
Figure BDA0002228085840000091
其中,
Figure BDA0002228085840000092
为向量xi的系数,innerproduct为内积运算。其中,在计算该疑问词向量xe对自身的系数时,其值可以为1。
在步骤S123中,采用公式(3)对每个系数
Figure BDA0002228085840000093
进行标准化处理,
Figure BDA0002228085840000094
其中,
Figure BDA0002228085840000095
为经过标准化处理后的向量xi的系数。因此,基于疑问词注意力机制的词向量矩阵则可以采用公式(4)来确定,
Figure BDA0002228085840000096
在步骤S13中,采用预设的标注集对待分类的文本Q进行词性标注并编码以形成词性向量序列
Figure BDA0002228085840000101
在该实施方式中,由于该词性向量序列Xp是由词性标注并编码得到的。那么,该词性向量序列Xp则可以是用于表示词性向量的向量序列。对于进行词性标注所采用的标注集,则可以是例如中科院计算所的标注集等。另外,得到该词性向量序列的编码方式可以是例如one-hot编码的形式。
在步骤S14中,采用公式(5)分别计算每个向量xi的系数,
Figure BDA0002228085840000102
其中,
Figure BDA0002228085840000103
为向量xi的系数,
Figure BDA0002228085840000104
为词性向量序列Xp的第i个向量,Wp是对应的自注意力机制(词性注意力机制)的参数矩阵,bp是对应的自注意力机制(词性注意力机制)的线性偏差。
在步骤S15中,采用公式(6)对每个系数
Figure BDA00022280858400001011
进行标准化处理,
Figure BDA0002228085840000105
其中,
Figure BDA0002228085840000106
为经过标准化处理后的向量xi的系数,n为词向量序列X中的向量的数量,该系数
Figure BDA0002228085840000107
是由系数
Figure BDA0002228085840000108
进行归一化(标准化)处理后得到;
在步骤S16中,采用公式(7)确定基于词性注意力机制的词向量矩阵,
Figure BDA0002228085840000109
其中,
Figure BDA00022280858400001010
为基于词性注意力机制得到的词向量矩阵中的第i个向量,xi为词向量序列X中的第i个向量;
在步骤S17中,采用卷积神经网络根据基于疑问词注意力机制得到的词向量矩阵和词性注意力机制得到的词向量矩阵形成用于表示该文本的局部特征的组合矩阵。具体地,该步骤S17可以包括如图3中所示出的步骤。在图3中,该步骤S17可以包括:
在步骤S171中,分别从基于疑问词注意力机制得到的词向量矩阵和基于词性注意力机制得到的词向量矩阵中选取出对应的滑动窗口矩阵,对选取出的滑动窗口矩阵进行卷积计算以得到第一组合矩阵和第二组合矩阵。其中,该第一组合矩阵和第二组合矩阵均可以包括多个向量,每个向量可以包括多个元素。该滑动窗口矩阵为多个,且每个滑动窗口矩阵可以经过卷积计算后作为第一组合矩阵或第二组合矩阵中的一个元素。具体地,该滑动窗口矩阵可以采用公式(8)和公式(9)来表示,
Figure BDA0002228085840000111
Figure BDA0002228085840000112
其中,“,”表示行向量的连接,
Figure BDA00022280858400001114
为从基于疑问词注意力机制得到的词向量矩阵选取出的滑动窗口矩阵,
Figure BDA0002228085840000113
为从基于词性注意力机制得到的词向量矩阵中选取出的滑动窗口矩阵。
对于该卷积运算,可以是采用公式(10)和公式(11)来表示,
Figure BDA0002228085840000114
Figure BDA0002228085840000115
其中,
Figure BDA0002228085840000116
Figure BDA0002228085840000117
为分别为第一组合矩阵和第二组合矩阵中的元素,
Figure BDA0002228085840000118
Figure BDA0002228085840000119
为滑动窗口矩阵,we和wp为对应的卷积神经网络的参数矩阵,be、bp为对应的卷积神经网络的线性偏差,f为卷积神经网络的激活函数。在该示例中,该f可以采用relu函数;
在步骤S172中,将第一组合矩阵和第二组合矩阵按照每个元素在对应的向量中的次序进行重排以形成组合矩阵。在该实施方式中,可以采用公式(12)进行该重排操作,
Figure BDA00022280858400001110
其中,
Figure BDA00022280858400001111
为第一组合矩阵和第二组合矩阵中每个向量的第i个元素组成的新的向量,
Figure BDA00022280858400001112
为第一组合矩阵中的向量,
Figure BDA00022280858400001113
为第二组合矩阵中的向量。进一步地,以图4中所示出的第一组合矩阵A和图5中示出的第二组合矩阵B为例,该重排过程可以是如图6所示。
在图4中,该第一组合矩阵可以包括向量a1、a2、a3。其中,向量a1可以包括元素a11、a12、a13;向量a2可以包括元素a21、a22、a23;向量a3可以包括元素a31、a32、a33
在图5中,该第二组合矩阵可以包括向量b1、b2、b3。其中,向量b1可以包括元素b11、b12、b13;向量b2可以包括元素b21、b22、b23;向量b3可以包括元素b31、b32、b33
在图6中,经过重排得到的组合矩阵的首个向量
Figure BDA0002228085840000123
可以为图6中示出的虚线框内的元素的集合,即包括第一组合矩阵A中的元素a11、a21、a31以及第二组合矩阵中的元素b11、b21、b31的集合。
在步骤S18中,采用LSTM神经网络将组合矩阵转化为具有时序特征的特征矩阵。具体地,该LSTM神经网络将该组合矩阵转化为具有时序特征的特征矩阵的具体方式可以是例如采用公式(14)至公式(19)对该组合矩阵进行处理,
it=σ(Wiht-1+Uixt+bi),(14)
ft=σ(Wfht-1+Ufxt+bf),(15)
ot=σ(Woht-1+Uoxt+bo),(16)
Figure BDA0002228085840000121
Figure BDA0002228085840000122
ht=ot⊙tanh(ct),(19)
其中,it为LSTM神经网络的输入门,σ为sigmoid函数,Wi、Ui、Wf、Uf、Wo、Uo、Wc、Uc为对应的神经网络学习的参数矩阵,ht-1、ht为该LSTM神经网络输出的隐藏状态向量的第t-1个向量和第t个向量(在该LSTM神经网络为双向LSTM的情况下,该ht则可以是由双向LSTM的前向LSTM的输出和后向LSTM的输出串接合并得到,从而包括该文本的上下文信息),xt为上一步卷积并重排后的向量,bi、bf、bo、bc为对应的LSTM神经网络的线性偏差,ft为LSTM神经网络的遗忘门,ot为LSTM神经网络的输出门,ct、ct-1为LSTM神经网络的记忆细胞,⊙为两个向量的Hadamard积。
在步骤S19中,采用公式(20)确定特征矩阵中每个向量的系数,
at=σ(WLTht+bLT),(20)
其中,at为特征矩阵中向量ht的系数,该向量ht为LSTM神经网络的输出,WLT为对应的自注意力机制的参数矩阵,bLT为对应的自注意力机制的线性偏差;
在步骤S20中,采用公式(21)对每个系数at进行标准化处理以得到特征矩阵中每个向量的权重,
Figure BDA0002228085840000131
其中,A为该特征矩阵的权重,
Figure BDA0002228085840000132
at为特征矩阵中的第t个向量的系数;
在步骤S21中,采用公式(22)确定文本的特征向量,
T=AH,(22)
其中,T为特征向量,A为特征矩阵的权重,H为特征矩阵;
在步骤S22中,将该特征向量输入分类器中以得到该文本所属的类别。
另一方面,本发明还提供一种基于多注意力机制的问题分类系统,该问题分类系统可以包括处理器,该处理器可以用于执行如上述任一的问题分类方法。
再一方面,本发明还提供一种存储介质,该存储介质可以存储有指令,该指令可以用于被机器读取以使得机器执行如上述任一的问题分类方法。
实施例:
采用如下三种数据集对现有技术中的五种问题分类模型以及本发明提供的方法的技术效果进行测试,其中,三种数据集包括:
1、百度实验室提供的数据集,该数据集包括6205条数据,即包括6205个问句以及相应的答案,其中的问句例如:《机械设计基础》这本书的作者是谁?相应的答案为:杨可桢,程光蕴,李仲;
2、中国计算机学会(CCF)2016年国际自然语言处理与中文计算会议问答评测的公开问题集(以下简称该数据集为NLPCC2016),包含9604条数据,其中的问句例如:鲁迅的《朝花夕拾》全书共多少字?相应的答案为:100千字;
3、CCF 2017年国际自然语言处理与中文计算会议问答评测的公开问题集(以下简称该数据集为NLPCC 2017),包含9518条数据,其中的问句例如:长乐公主是什么朝代的人?相应的答案为:西魏。
现有技术中的问题分类模型包括:
1、支持向量机SVM模型,基于Li等人提出的使用线性核函数的SVM模型,采用词袋模型进行文本表示,并运用词频-逆文本频率指数TF-IDF算法对单词进行权重计算,是效果较好的传统分类模型;
2、卷积神经网络CNN模型,由Kim等人提出的基础卷积神经网络模型,由卷积层、池化层及全连接层组成;
3、长短时记忆LSTM模型,适合于处理和预测时间序列中间隔和延迟相对较长的文本序列;
4、卷积-长短时记忆C-LSTM模型,Zhou等人将卷积神经网络和长短时记忆模型相结合,由卷积提出特征后输入给长短时记忆模型,采用了新颖的向量重排模式;
5、MAC-LSTM模型,Xu等人在C-LSTM模型的基础上增加了基于注意力机制的疑问词向量排列矩阵和连接层注意力矩阵。
采用上述五种问题分类模型以及本发明提供的方法(Multi-Level AttentionConvolution LSTM,MLA-CLSTM)对上述三种数据集进行分类,其分类结果的准确率如表1所示,
待测试的模型或方法 准确率
SVM 71.39%
CNN 84.52%
LSTM 85.34%
C-LSTM 88.57%
MAC-LSTM 90.31%
MLA-CLSTM 92.86%
从表1中可以看出,本申请提供的方法的准确率明显高于现有技术中的其他模型。
通过上述技术方案,本发明提供的基于多注意力机制的问题分类方法、系统及存储介质通过同时结合文本的疑问词注意力机制和词性注意力机制,采用卷积神经网络确定文本的局部特征,LSTM神经网络确定文本的具有时序特征的组合矩阵,自注意力机制计算组合矩阵每个向量的权重从而得到对应的特征向量,再将该特征向量输入分类器中以得到该文本的类别,解决了现有技术中由于没有结合疑问词注意力机制和词性注意力机制而导致的分类结果的不准确的技术问题,提高了文本分类的准确性。
以上结合附图详细描述了本发明例的可选实施方式,但是,本发明实施方式并不限于上述实施方式中的具体细节,在本发明实施方式的技术构思范围内,可以对本发明实施方式的技术方案进行多种简单变型,这些简单变型均属于本发明实施方式的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明实施方式对各种可能的组合方式不再另行说明。
本领域技术人员可以理解实现上述实施方式方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
此外,本发明实施方式的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明实施方式的思想,其同样应当视为本发明实施方式所公开的内容。

Claims (5)

1.一种基于多注意力机制的问题分类方法,其特征在于,所述问题分类方法包括:
获取待分类的文本Q={q1,...,qn},其中,q1,...,qn为所述文本Q中的词语;
采用word2vec模型将所述文本Q转化为对应的词向量序列X={x1,...xi,...,xn},其中,xi为词向量序列X中的第i个向量,且1≤i≤n,n为所述词向量序列X中向量的数量;
根据所述词向量序列X形成基于疑问词注意力机制的词向量矩阵;
采用预设的标注集对所述文本Q进行词性标注并编码以形成词性向量序列
Figure FDA0003117539720000011
采用公式(1)分别计算所述词向量序列X中的每个向量xi的系数,
Figure FDA0003117539720000012
其中,
Figure FDA0003117539720000013
为向量xi的系数,
Figure FDA0003117539720000014
为所述词性向量序列Xp的第i个向量,Wp为对应的自注意力机制的参数矩阵,bp为对应的自注意力机制的线性偏差;
采用公式(2)对每个所述系数
Figure FDA0003117539720000015
进行标准化处理,
Figure FDA0003117539720000016
其中,
Figure FDA0003117539720000017
为经过标准化处理后的向量xi的系数,n为所述词向量序列X中的向量的数量;
采用公式(3)确定基于词性注意力机制的词向量矩阵,
Figure FDA0003117539720000018
其中,
Figure FDA0003117539720000019
为基于词性注意力机制的词向量矩阵的第i个向量;
采用卷积神经网络根据基于所述疑问词注意力机制得到的词向量矩阵和所述词性注意力机制得到的词向量矩阵形成用于表示所述文本的局部特征的组合矩阵;
采用LSTM神经网络将所述组合矩阵转化为具有时序特征的特征矩阵;
采用公式(4)确定所述特征矩阵中每个向量的系数,
at=σ(WLTht+bLT), (4)
其中,at为所述特征矩阵中向量ht的系数,向量ht为所述LSTM神经网络的输出,WLT为对应的自注意力机制的参数矩阵,bLT为对应的自注意力机制的线性偏差;
采用公式(5)对每个所述系数at进行标准化处理以得到所述特征矩阵中每个向量的权重,
Figure FDA0003117539720000021
其中,A为所述特征矩阵的权重,
Figure FDA0003117539720000022
at为所述特征矩阵中的第t个向量的系数;
采用公式(6)确定所述文本的特征向量,
T=AH, (6)
其中,T为所述特征向量,H为所述特征矩阵;
将所述特征向量输入分类器中以得到所述文本的类别;
所述根据所述词向量序列X形成基于疑问词注意力机制的词向量矩阵包括:
提取所述词向量序列X中的表示疑问词的疑问词向量xe
采用公式(7)分别对所述疑问词向量xe和所述词向量序列X中的每个向量xi进行内积运算以得到所述疑问词向量xe对每个所述向量xi的系数,
Figure FDA0003117539720000023
其中,
Figure FDA0003117539720000024
为向量xi的系数,xe为所述疑问词向量,innerproduct为所述内积运算;
采用公式(8)对系数
Figure FDA0003117539720000025
进行标准化处理,
Figure FDA0003117539720000031
其中,
Figure FDA0003117539720000032
为经过标准化处理后的向量xi的系数;
所述采用卷积神经网络根据基于所述疑问词注意力机制得到的词向量矩阵和所述词性注意力机制得到的词向量矩阵形成用于表示所述文本的局部特征的组合矩阵包括:
分别从基于疑问词注意力机制得到的词向量矩阵和基于词性注意力机制得到的词向量矩阵中选取出对应的滑动窗口矩阵,对选取出的滑动窗口矩阵进行卷积计算以得到第一组合矩阵和第二组合矩阵,其中所述第一组合矩阵和所述第二组合矩阵均包括多个向量,每个向量包括多个元素;
将所述第一组合矩阵和所述第二组合矩阵按照每个元素在对应的向量中的次序进行重排以形成所述组合矩阵;
所述分别从基于疑问词注意力机制得到的词向量矩阵和基于词性注意力机制得到的词向量矩阵中选取出对应的滑动窗口矩阵,对选取出的滑动窗口矩阵进行卷积计算以得到第一组合矩阵和第二组合矩阵包括:
根据公式(9)和公式(10)进行所述卷积计算,
Figure FDA0003117539720000033
Figure FDA0003117539720000034
其中,
Figure FDA0003117539720000035
Figure FDA0003117539720000036
为所述第一组合矩阵和所述第二组合矩阵中的元素,
Figure FDA0003117539720000037
Figure FDA0003117539720000038
为所述滑动窗口矩阵,we和wp为对应的卷积神经网络的参数矩阵,be、bp为对应的卷积神经网络的线性偏差,f为卷积神经网络的激活函数;
所述将所述第一组合矩阵和所述第二组合矩阵按照每个元素在对应的向量中的次序进行重排以形成所述组合矩阵包括:
根据公式(11)进行所述重排,
Figure FDA0003117539720000039
其中,
Figure FDA0003117539720000041
为第一组合矩阵和第二组合矩阵中每个向量的第i个元素组成的新的向量,
Figure FDA0003117539720000042
为所述第一组合矩阵中的向量,
Figure FDA0003117539720000043
为所述第二组合矩阵中的向量。
2.根据权利要求1所述的问题分类方法,其特征在于,所述采用word2vec模型将所述文本Q转化为对应的词向量序列X={x1,...,xn}包括:
采用word2vec模型中的CBOW单元将所述文本转化为对应的所述词向量序列X={x1,...,xn}。
3.根据权利要求1所述的问题分类方法,其特征在于,所述采用LSTM神经网络将所述组合矩阵转化为具有时序特征的特征矩阵包括:
采用公式(12)至公式(17)对所述组合矩阵进行处理以形成所述特征矩阵,
it=σ(Wiht-1+Uixt+bi), (12)
ft=σ(Wfht-1+Ufxt+bf), (13)
ot=σ(Woht-1+Uoxt+bo), (14)
Figure FDA0003117539720000044
Figure FDA0003117539720000045
ht=ot⊙tanh(ct), (17)
其中,it为所述LSTM神经网络的输入门,σ为sigmoid函数,Wi、Ui、Wf、Uf、Wo、Uo、Wc、Uc为对应的神经网络学习的参数矩阵,ht-1、ht为所述LSTM神经网络输出的隐藏状态向量的第t-1个向量和第t个向量,xt为上一步卷积并重排后的向量,bi、bf、bo、bc为对应的所述LSTM神经网络的线性偏差,ft为所述LSTM神经网络的遗忘门,ot为所述LSTM神经网络的输出门,ct、ct-1为所述LSTM神经网络的记忆细胞,⊙为两个向量的Hadamard积。
4.一种基于多注意力机制的问题分类系统,其特征在于,所述问题分类系统包括处理器,所述处理器用于执行如权利要求1至3任一所述的问题分类方法。
5.一种存储介质,其特征在于,所述存储介质存储有指令,所述指令用于被机器读取以使得所述机器执行如权利要求1至3任一所述的问题分类方法。
CN201910958230.1A 2019-10-10 2019-10-10 基于多注意力机制的问题分类方法、系统及存储介质 Active CN110727765B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910958230.1A CN110727765B (zh) 2019-10-10 2019-10-10 基于多注意力机制的问题分类方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910958230.1A CN110727765B (zh) 2019-10-10 2019-10-10 基于多注意力机制的问题分类方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN110727765A CN110727765A (zh) 2020-01-24
CN110727765B true CN110727765B (zh) 2021-12-07

Family

ID=69219853

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910958230.1A Active CN110727765B (zh) 2019-10-10 2019-10-10 基于多注意力机制的问题分类方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN110727765B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111708888B (zh) * 2020-06-16 2023-10-24 腾讯科技(深圳)有限公司 基于人工智能的分类方法、装置、终端和存储介质
CN111783469A (zh) * 2020-06-29 2020-10-16 中国计量大学 一种提取文本句子特征的方法
CN111798445B (zh) * 2020-07-17 2023-10-31 北京大学口腔医院 一种基于卷积神经网络的牙齿图像龋坏识别方法及系统
CN111949790A (zh) * 2020-07-20 2020-11-17 重庆邮电大学 基于lda主题模型与分层神经网络的情感分类方法
CN112668559B (zh) * 2021-03-15 2021-06-18 冠传网络科技(南京)有限公司 一种多模态信息融合的短视频情感判定装置及方法
CN113988002B (zh) * 2021-11-15 2024-06-14 天津大学 一种基于神经聚类方法的近似注意力系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5461388B2 (ja) * 2008-03-10 2014-04-02 国立大学法人横浜国立大学 Wwwを情報源として記述的な回答が可能な質問応答システム
CN103902733A (zh) * 2014-04-18 2014-07-02 北京大学 基于疑问词扩展的信息检索方法
CN105824933A (zh) * 2016-03-18 2016-08-03 苏州大学 基于主述位的自动问答系统及其实现方法
CN108804677A (zh) * 2018-06-12 2018-11-13 合肥工业大学 结合多层级注意力机制的深度学习问题分类方法及系统
CN108846130A (zh) * 2018-06-29 2018-11-20 北京百度网讯科技有限公司 一种问题文本生成方法、装置、设备和介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10339168B2 (en) * 2016-09-09 2019-07-02 International Business Machines Corporation System and method for generating full questions from natural language queries

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5461388B2 (ja) * 2008-03-10 2014-04-02 国立大学法人横浜国立大学 Wwwを情報源として記述的な回答が可能な質問応答システム
CN103902733A (zh) * 2014-04-18 2014-07-02 北京大学 基于疑问词扩展的信息检索方法
CN105824933A (zh) * 2016-03-18 2016-08-03 苏州大学 基于主述位的自动问答系统及其实现方法
CN108804677A (zh) * 2018-06-12 2018-11-13 合肥工业大学 结合多层级注意力机制的深度学习问题分类方法及系统
CN108846130A (zh) * 2018-06-29 2018-11-20 北京百度网讯科技有限公司 一种问题文本生成方法、装置、设备和介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A C-LSTM Neural Network for Text Classification;Chunting Zhou等;《https://arxiv.org/abs/1511.08630》;20151130;全文 *
基于F-BiGRU情感分析的产品选择方法;余本功等;《数据分析与知识发现》;20181231(第9期);第22-30页 *

Also Published As

Publication number Publication date
CN110727765A (zh) 2020-01-24

Similar Documents

Publication Publication Date Title
CN110727765B (zh) 基于多注意力机制的问题分类方法、系统及存储介质
CN110209806B (zh) 文本分类方法、文本分类装置及计算机可读存储介质
TWI753034B (zh) 特徵向量的產生、搜索方法、裝置及電子設備
CN108804677B (zh) 结合多层级注意力机制的深度学习问题分类方法及系统
CN110969020B (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN106257440B (zh) 语义信息生成方法和语义信息生成装置
Hu et al. Convolutional neural network architectures for matching natural language sentences
CN110532353B (zh) 基于深度学习的文本实体匹配方法、系统、装置
CN107229610A (zh) 一种情感数据的分析方法及装置
US20150095017A1 (en) System and method for learning word embeddings using neural language models
CN108197109A (zh) 一种基于自然语言处理的多语言分析方法和装置
Gong et al. Machine learning for multimedia content analysis
CN110704601A (zh) 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN110134792B (zh) 文本识别方法、装置、电子设备以及存储介质
KR20150037924A (ko) 제품 인식에 근거한 정보 분류 기법
CN112115716A (zh) 一种基于多维词向量下文本匹配的服务发现方法、系统及设备
CN113128557B (zh) 基于胶囊网络融合模型的新闻文本分类方法、系统及介质
CN112395412B (zh) 文本分类的方法、装置以及计算机可读介质
CN110705247A (zh) 基于χ2-C的文本相似度计算方法
CN113220832A (zh) 一种文本处理方法及装置
CN112417153A (zh) 文本分类方法、装置、终端设备和可读存储介质
Sousa et al. Word sense disambiguation: an evaluation study of semi-supervised approaches with word embeddings
Ranjan et al. Document classification using lstm neural network
CN109190112B (zh) 基于双通道特征融合的专利分类方法、系统及存储介质
US20220156489A1 (en) Machine learning techniques for identifying logical sections in unstructured data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant