CN109815484B - 基于交叉注意力机制的语义相似度匹配方法及其匹配装置 - Google Patents

基于交叉注意力机制的语义相似度匹配方法及其匹配装置 Download PDF

Info

Publication number
CN109815484B
CN109815484B CN201811573321.5A CN201811573321A CN109815484B CN 109815484 B CN109815484 B CN 109815484B CN 201811573321 A CN201811573321 A CN 201811573321A CN 109815484 B CN109815484 B CN 109815484B
Authority
CN
China
Prior art keywords
matrix
vector
splicing
characterization
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811573321.5A
Other languages
English (en)
Other versions
CN109815484A (zh
Inventor
周涛涛
周宝
陈远旭
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811573321.5A priority Critical patent/CN109815484B/zh
Publication of CN109815484A publication Critical patent/CN109815484A/zh
Priority to PCT/CN2019/089483 priority patent/WO2020124959A1/zh
Application granted granted Critical
Publication of CN109815484B publication Critical patent/CN109815484B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于交叉注意力机制的语义相似度匹配方法、装置、计算机设备及存储介质,适用于语音交互技术领域,能够实现在语义层面上对两个语句进行交叉表征。本发明首先通过word2vec对两个语句中的每个分词进行词向量表征,分别通过双向LSTM后得到两个拼接矩阵,进而使两个拼接矩阵之间相互进行交叉表征,得到任意句子中的每个分词相对于另一个句子的重要程度。在此基础上再进行最大化处理并输入全连接层,最终获取两个语句之间的匹配度得分。本发明提出的上述方案克服了现有技术中单独使用LSTM或者交互式匹配时存在的局限性,使得两个语句之间的匹配度计算更为精确完整,趋近真实情境。

Description

基于交叉注意力机制的语义相似度匹配方法及其匹配装置
技术领域
本发明涉及语音交互技术领域,尤其涉及一种基于交叉注意力机制的语义相似度匹配方法、装置、计算机设备及存储介质。
背景技术
目前公认的基于深度学习的语义相似度匹配方法包括:1)Siamese结构,即先将两个句子或文本分别通过卷积神经网络(CNN)、LSTM等神经网络进行表征得到两个句子向量,再进行相似度计算;2)交互式匹配的方法,即先将两个句子的词向量之间进行内积操作,得到一个三维矩阵作,再输入CNN、LSTM等神经网络中。然而Siamese结构仅对两个句子进行独立的表征,未能精确表征两者之间的交互关系。另一方面,交互式匹配的方法仅考虑到点对点的内积操作,仅能够表达两个句子间的局部相关性,无法有效地进行语义关系的表征。
发明内容
本发明的目的是提供一种基于交叉注意力机制的语义相似度匹配方法、装置、计算机设备及存储介质,用于解决现有技术存在的问题。
为实现上述目的,本发明提供一种基于交叉注意力机制的语义相似度匹配方法,包括:
获取第一基础语句中的多个第一基础词,获取第二基础语句中的多个第二基础词;
对每个所述第一基础词和所述第二基础词进行词向量表征,得到多个第一基础向量和多个第二基础向量;
将所述多个第一基础向量和多个第二基础向量分别通过双向LSTM模型,得到多个第一拼接向量和多个第二拼接向量;其中所述第一拼接向量由所述第一基础向量通过双向LSTM模型后得到的第一向前输入向量和第一向后输入向量组合而成;所述第二拼接向量由第二基础向量通过双向LSTM模型后得到的第二向前输入向量和第二向后输出向量组合而成;
根据所述多个第一拼接向量生成第一拼接矩阵,所述第一拼接矩阵的列向量为所述第一拼接向量;根据所述多个第二拼接向量生成第二拼接矩阵,所述第二拼接矩阵的列向量为所述第二拼接向量;
用所述第二拼接矩阵中的所有列向量分别对所述第一拼接矩阵中的每个列向量进行交叉表征,得到第一表征矩阵;用所述第一拼接矩阵中的所有列向量分别对所述第二拼接矩阵中的每个列向量进行交叉表征,得到第二表征矩阵;
分别对所述第一表征矩阵和所述第二表征矩阵进行最大化处理,得到第一最大化矩阵和第二最大化矩阵;
将所述第一最大化矩阵和所述第二最大化矩阵拼接后输入全连接层和池化层,得到所述第一基础语句和所述第二基础语句的匹配值。
进一步,所述词向量表征是通过word2vec模型得到的。
进一步,将所述多个第一基础向量和多个第二基础向量分别通过双向LSTM模型,得到多个第一拼接向量和多个第二拼接向量的步骤包括:
将第i个第一基础向量
Figure BDA0001916114610000021
经过双向LSTM模型后分别输出
Figure BDA0001916114610000022
Figure BDA0001916114610000023
其中
Figure BDA0001916114610000024
是向前输入LSTM得到的第一向前输入向量,
Figure BDA0001916114610000025
是向后输入LSTM得到的第一向后输入向量,则第一拼接向量为
Figure BDA0001916114610000026
将第i个第二基础向量
Figure BDA0001916114610000027
经过双向LSTM模型后分别输出
Figure BDA0001916114610000028
Figure BDA0001916114610000029
其中
Figure BDA0001916114610000031
是向前输入LSTM得到的第二向前输入向量,
Figure BDA0001916114610000032
是向后输入LSTM得到的第二向后输入向量,则第二拼接向量为
Figure BDA0001916114610000033
进一步,用所述第二拼接矩阵中的所有列向量分别对所述第一拼接矩阵中的每个列向量进行交叉表征,得到第一表征矩阵的步骤包括:
计算第一拼接矩阵P中的第i个列向量pi与第二拼接矩阵Q中的每一个列向量qj的余弦相似度αij,并进行加权求和后得到P中的第i个列向量pi在第二拼接矩阵Q中的第一表征向量p′i
Figure BDA0001916114610000034
其中N为列向量qj的个数;
将所有的第一表征向量p′i作为列向量形成第一表征矩阵P’;
用所述第一拼接矩阵中的所有列向量分别对所述第二拼接矩阵中的每个列向量进行交叉表征,得到第二表征矩阵的步骤包括:
计算第二拼接矩阵Q中的第i个列向量qi与第一拼接矩阵P中的每一个列向量pj的余弦相似度αij,并进行加权求和后得到Q中的第i个列向量qi在第一拼接矩阵P中的第二表征向量q′i
Figure BDA0001916114610000035
其中N为列向量pj的个数;
将所有的第二表征向量q′i作为列向量形成第二表征矩阵Q’。
进一步,所述分别对所述第一表征矩阵和所述第二表征矩阵进行最大化处理,得到第一最大化矩阵和第二最大化矩阵的步骤包括:
对于第一表征矩阵中的每个列向量p′i,选取该列的最大值p′imax作为该列向量的值,得到第一最大化矩阵(p′1max,p′2max,…p′Nmax);
对于第二表征矩阵中的每个列向量q′i,选取该列的最大值q′imax作为该列向量的值,得到第二最大化矩阵(q′1max,q′2max,…q′Nmax)。
为实现上述目的,本发明还提供一种基于交叉注意力机制的语义相似度匹配装置,包括:
基础词获取模块,获取第一基础语句中的多个第一基础词,获取第二基础语句中的多个第二基础词;
词向量表征模块,适用于对每个所述第一基础词和所述第二基础词进行词向量表征,得到多个第一基础向量和多个第二基础向量;
双向LSTM模块,适用于将所述多个第一基础向量和多个第二基础向量分别通过双向LSTM模型,得到多个第一拼接向量和多个第二拼接向量;其中所述第一拼接向量由所述第一基础向量通过双向LSTM模型后得到的第一向前输入向量和第一向后输入向量组合而成;所述第二拼接向量由第二基础向量通过双向LSTM模型后得到的第二向前输入向量和第二向后输出向量组合而成;
拼接模块,适用于根据所述多个第一拼接向量生成第一拼接矩阵,所述第一拼接矩阵的列向量为所述第一拼接向量;根据所述多个第二拼接向量生成第二拼接矩阵,所述第二拼接矩阵的列向量为所述第二拼接向量;
交叉表征模块,适用于用所述第二拼接矩阵中的所有列向量分别对所述第一拼接矩阵中的每个列向量进行交叉表征,得到第一表征矩阵;用所述第一拼接矩阵中的所有列向量分别对所述第二拼接矩阵中的每个列向量进行交叉表征,得到第二表征矩阵;
最大化模块,适用于分别对所述第一表征矩阵和所述第二表征矩阵进行最大化处理,得到第一最大化矩阵和第二最大化矩阵;
匹配模块,适用于将所述第一最大化矩阵和所述第二最大化矩阵拼接后输入全连接层和池化层,得到所述第一基础语句和所述第二基础语句的匹配值。
进一步,所述双向LSTM模块包括:
第一双向LSTM子模块,适用于将第i个第一基础向量
Figure BDA0001916114610000051
经过双向LSTM模型后分别输出
Figure BDA0001916114610000052
Figure BDA0001916114610000053
其中
Figure BDA0001916114610000054
是向前输入LSTM得到的第一向前输入向量,
Figure BDA0001916114610000055
是向后输入LSTM得到的第一向后输入向量,则第一拼接向量为
Figure BDA0001916114610000056
Figure BDA0001916114610000057
第二双向LSTM子模块,适用于将第i个第二基础向量
Figure BDA0001916114610000058
经过双向LSTM模型后分别输出
Figure BDA0001916114610000059
Figure BDA00019161146100000510
其中
Figure BDA00019161146100000511
是向前输入LSTM得到的第二向前输入向量,
Figure BDA00019161146100000512
是向后输入LSTM得到的第二向后输入向量,则第二拼接向量为
Figure BDA00019161146100000513
Figure BDA00019161146100000514
进一步,所述交叉表征模块包括第一交叉表征子模块和第二交叉表征子模块,其中:
第一交叉子模块适用于计算第一拼接矩阵P中的第i个列向量pi与第二拼接矩阵Q中的每一个列向量qj的余弦相似度αij,并进行加权求和后得到P中的第i个列向量pi在第二拼接矩阵Q中的第一表征向量p′i
Figure BDA00019161146100000515
其中N为列向量qj的个数;
将所有的第一表征向量p′i作为列向量形成第一表征矩阵P’;
第二交叉表征子模块适用于计算第二拼接矩阵Q中的第i个列向量qi与第一拼接矩阵P中的每一个列向量pj的余弦相似度αij,并进行加权求和后得到Q中的第i个列向量qi在第一拼接矩阵P中的第二表征向量q′i
Figure BDA00019161146100000516
其中N为列向量pj的个数;
将所有的第二表征向量q′i作为列向量形成第二表征矩阵Q’。
为实现上述目的,本发明还提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
为实现上述目的,本发明还提供计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本发明基于注意力机制的方法,分别对两个句子进行相互表征,从而在表征阶段已实现对两个句子在语义层面上的交互作用。与现有技术相比,本发明具有以下有益效果:
(1)本发明采用双向LSTM对语句进行预表征,作为交叉表征层的输入,能够抽象出语句的长程序列结构,从而使交叉表征层能够挖掘语义间的长程匹配性。
(2)本发明采用注意力机制,计算一个句子的每个单词在另一个句子下的表征。相比于传统的基于点对点的语义相似度匹配方法,该方法不但包含词语与另一个语句中的每个词语、短语的局部关系,还包含词语在语义层面下的表征。
(3)本发明采用最大池化(max pooling)的方法将交叉匹配后的语句编码为一个向量。相比于传统的采用CNN或LSTM编码的方法,在保证模型表征能力的基础上,显著降低了模型参数数量,从而降低了模型的训练时间。
附图说明
图1为本发明的语义相似度匹配方法实施例一的流程图;
图2为本发明的语义相似度匹配装置实施例一的程序模块示意图;
图3为本发明的语义相似度匹配装置实施例一的硬件结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的基于交叉注意力机制的语义相似度匹配方法、装置、计算机设备及存储介质,适用于语音交互技术领域,能够实现在语义层面上对两个语句进行交叉表征。本发明首先通过word2vec对两个语句中的每个分词进行词向量表征,分别通过双向LSTM后得到两个拼接矩阵,进而使两个拼接矩阵之间相互进行交叉表征,得到任意句子中的每个分词相对于另一个句子的重要程度。在此基础上再进行最大化处理并输入全连接层,最终获取两个语句之间的匹配度得分。本发明提出的上述方案克服了现有技术中单独使用LSTM或者交互式匹配时存在的局限性,使得两个语句之间的匹配度计算更为精确完整,趋近真实情境。
实施例一
请参阅图1,本实施例的一种基于交叉注意力机制的语义相似度匹配方法,包括以下步骤:
S1:获取第一基础语句中的多个第一基础词,获取第二基础语句中的多个第二基础词。
本步骤用于对包含在句子中的所有单词进行划分。例如,句子1为“我是中国人”,对其进行划分可得到“我”、“是”和“中国人”共三个基础词。又例如句子2为“I amChinese”,对其进行划分可得到“I”、“am”和“Chinese”共三个基础词。
S2:对每个所述第一基础词和所述第二基础词进行词向量表征,得到多个第一基础向量和多个第二基础向量。
本步骤优选采用word2vec词向量模型对句子中的每个词进行表征,其优点在于word2vec词向量模型一方面降低了输入的维度,另一方面经word2vec模型训练好的词向量相比于传统的one-hot-encoder或者主题模型,充分利用了词的上下文并提供更加丰富的语义信息。
经word2vec模型训练后的每个基础词被表征为计算机可以理解的向量形式,例如[0.792,-0.177,-0.107,……]。本发明将经过word2vec模型后得到的向量称为基础向量,例如,句子1中的基础词“我”、“是”、“中国人”经向量表征后得到三个第一基础向量分别为
Figure BDA0001916114610000081
Figure BDA0001916114610000082
句子2中的基础词“I”、“am”和“Chinese”经向量表征后得到三个第二基础向量分别为
Figure BDA0001916114610000083
Figure BDA0001916114610000084
S3:将多个第一基础向量和多个第二基础向量分别通过双向LSTM模型,得到多个第一拼接向量和多个第二拼接向量;其中所述第一拼接向量由所述第一基础向量通过双向LSTM模型后得到的第一向前输入向量和第一向后输入向量组合而成;所述第二拼接向量由第二基础向量通过双向LSTM模型后得到的第二向前输入向量和第二向后输出向量组合而成。
本步骤中,将第i个第一基础向量
Figure BDA0001916114610000085
经过双向LSTM模型后分别输出为
Figure BDA0001916114610000086
Figure BDA0001916114610000087
其中
Figure BDA0001916114610000088
是向前输入LSTM得到的第一向前输入向量,
Figure BDA0001916114610000089
是向后输入LSTM得到的第一向后输入向量,则第一拼接向量为
Figure BDA00019161146100000810
例如句子1中包含
Figure BDA00019161146100000811
Figure BDA00019161146100000812
Figure BDA00019161146100000813
共三个第一基础向量,其中
Figure BDA00019161146100000814
经过双向LSTM模型后分别输出
Figure BDA0001916114610000091
Figure BDA0001916114610000092
则第一基础向量
Figure BDA0001916114610000093
所对应的第一拼接向量p1
Figure BDA0001916114610000094
本步骤中,将第i个第二基础向量
Figure BDA0001916114610000095
经过双向LSTM模型后分别输出
Figure BDA0001916114610000096
Figure BDA0001916114610000097
其中
Figure BDA0001916114610000098
是向前输入LSTM得到的第二向前输入向量,
Figure BDA0001916114610000099
是向后输入LSTM得到的第二向后输入向量,则第二拼接向量为
Figure BDA00019161146100000910
例如句子2中包含
Figure BDA00019161146100000911
Figure BDA00019161146100000912
Figure BDA00019161146100000913
共三个第二基础向量,其中
Figure BDA00019161146100000914
经过双向LSTM模型后分别输出
Figure BDA00019161146100000915
Figure BDA00019161146100000916
则第二基础向量
Figure BDA00019161146100000917
所对应的第二拼接向量q1
Figure BDA00019161146100000918
S4:根据所述多个第一拼接向量生成第一拼接矩阵,所述第一拼接矩阵的列向量为所述第一拼接向量;根据所述多个第二拼接向量生成第二拼接矩阵,所述第二拼接矩阵的列向量为所述第二拼接向量。
本步骤利用前文中得到的第一拼接向量和第二拼接向量分别得到第一拼接矩阵和第二拼接矩阵。例如,句子1包括三个第一拼接向量p1、p2和p3,则根据这三个第一拼接向量组成的第一拼接矩阵为[p1,p2,p3]。句子2包括三个第二拼接向量q1、q2和q3,则根据这三个第一拼接向量组成的第一拼接矩阵为[q1,q2,q3]。
S5:用所述第二拼接矩阵中的所有列向量分别对所述第一拼接矩阵中的每个列向量进行交叉表征,得到第一表征矩阵;用所述第一拼接矩阵中的所有列向量分别对所述第二拼接矩阵中的每个列向量进行交叉表征,得到第二表征矩阵。
本步骤中,第一表征矩阵P′由第一表征向量p′i组成,第一表征向量p′i的计算公式如下:
Figure BDA00019161146100000919
其中:
上式中,αij表示第一拼接矩阵P中的第i个第一拼接向量pi与第二拼接矩阵Q中的每一个第二拼接向量qj的余弦相似度,N为第二拼接向量qj的个数。例如,句子1对应的第一拼接矩阵P中包括三个第一拼接向量p1、p2和p3,句子2对应的第二拼接矩阵Q中包括三个第二拼接向量q1、q2和q3,则第一拼接向量p1所对应的第一表征向量p1′为:p1′=α11q112q213q3。相应的,当包含三个第一表征向量p′i时,第一表征矩阵P′可以表示为[p1′,p2′,p3′]。
本步骤中,第二表征矩阵Q′由第二表征向量q′i组成,第二表征向量q′i的计算公式如下:
Figure BDA0001916114610000101
其中:
上式中,αij表示第二拼接矩阵Q中的第i个第二拼接向量qi与第一拼接矩阵P中的每一个第二拼接向量pj的余弦相似度,N为第一拼接向量pj的个数。例如,句子1对应的第一拼接矩阵P中包括三个第一拼接向量p1、p2和p3,句子2对应的第二拼接矩阵Q中包括三个第二拼接向量q1、q2和q3,则第二拼接向量q1所对应的第一表征向量q′1为:q′1=α11p112p213p3。相应的,当包含三个第二表征向量q′i时,第二表征矩阵Q′可以表示为[q′1,q′2,q′3]。
S6:分别对所述第一表征矩阵和所述第二表征矩阵进行最大化处理,得到第一最大化矩阵和第二最大化矩阵。
本步骤中,分别对于第一表征矩阵P′和第二表征矩阵Q′中的每一列取最大值,即选取每个表征向量的最大值。例如向量p′i中包括k个数值,选取这k个数值中的最大值p′imax作为向量p′i的值。对于包含三个第一表征向量的第一表征矩阵P′,经最大池化后得到的第一最大化矩阵Pmax表示为[p1max,p2max,p3max],由于p1max、p2max和p3max均为单个数值,上述第一最大化矩阵Pmax是一维矩阵。
类似的,对于包含三个第二表征向量的第二表征矩阵Q′,经最大池化后得到的第二最大化矩阵Qmax表示为[q′1max,q′2max,q′3max]。由于q′1max、q′2max和q′3max均为单个数值,上述第二最大化矩阵Qmax是一维矩阵。
S7:将所述第一矩阵和所述第二最大化矩阵拼接后输入全连接层和池化层,得到所述第一基础语句和所述第二基础语句的匹配值。
本步骤将第一最大化矩阵Pmax和第二最大化矩阵Qmax进行拼接,得到拼接矩阵PmaxQmax可表示为[p1max,p2max,p3max,q′1max,q′2max,q′3max]。拼接矩阵PmaxQmax经过全连接网络层和softmax层后便可输出句子1与句子2的相似度匹配值。上述全连接网络层和池化层的处理方式属于现有技术,本文不再赘述。
请继续参阅图2,示出了一种语义相似度匹配装置,在本实施例中,语义相似度匹配装置10可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述语义相似度匹配方法。本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述语义相似度匹配装置10在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
基础词获取模块11,获取第一基础语句中的多个第一基础词,获取第二基础语句中的多个第二基础词;
词向量表征模块12,适用于对每个所述第一基础词和所述第二基础词进行词向量表征,得到多个第一基础向量和多个第二基础向量;
双向LSTM模块13,适用于将所述多个第一基础向量和多个第二基础向量分别通过双向LSTM模型,得到多个第一拼接向量和多个第二拼接向量;其中所述第一拼接向量由所述第一基础向量通过双向LSTM模型后得到的第一向前输入向量和第一向后输入向量组合而成;所述第二拼接向量由第二基础向量通过双向LSTM模型后得到的第二向前输入向量和第二向后输出向量组合而成;
拼接模块14,适用于根据所述多个第一拼接向量生成第一拼接矩阵,所述第一拼接矩阵的列向量为所述第一拼接向量;根据所述多个第二拼接向量生成第二拼接矩阵,所述第二拼接矩阵的列向量为所述第二拼接向量;
交叉表征模块15,适用于用所述第二拼接矩阵中的所有列向量分别对所述第一拼接矩阵中的每个列向量进行交叉表征,得到第一表征矩阵;用所述第一拼接矩阵中的所有列向量分别对所述第二拼接矩阵中的每个列向量进行交叉表征,得到第二表征矩阵;
最大化模块16,适用于分别对所述第一表征矩阵和所述第二表征矩阵进行最大化处理,得到第一最大化矩阵和第二最大化矩阵;
匹配模块17,适用于将所述第一最大化矩阵和所述第二最大化矩阵拼接后输入全连接层和池化层,得到所述第一基础语句和所述第二基础语句的匹配值。
进一步,所述双向LSTM模块13包括:
第一双向LSTM子模块131,适用于将第i个第一基础向量
Figure BDA0001916114610000121
经过双向LSTM模型后分别输出
Figure BDA0001916114610000122
Figure BDA0001916114610000123
其中
Figure BDA0001916114610000124
是向前输入LSTM得到的第一向前输入向量,
Figure BDA0001916114610000125
是向后输入LSTM得到的第一向后输入向量,则第一拼接向量为
Figure BDA0001916114610000126
第二双向LSTM子模块132,适用于将第i个第二基础向量
Figure BDA0001916114610000127
经过双向LSTM模型后分别输出
Figure BDA0001916114610000128
Figure BDA0001916114610000129
其中
Figure BDA00019161146100001210
是向前输入LSTM得到的第二向前输入向量,
Figure BDA00019161146100001211
是向后输入LSTM得到的第二向后输入向量,则第二拼接向量为
Figure BDA00019161146100001212
本实施例还提供一种计算机设备,如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本实施例的计算机设备20至少包括但不限于:可通过系统总线相互通信连接的存储器21、处理器22,如图3所示。需要指出的是,图3仅示出了具有组件21-22的计算机设备20,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器21(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备20的内部存储单元,例如该计算机设备20的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备20的外部存储设备,例如该计算机设备20上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备20的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备20的操作系统和各类应用软件,例如实施例一的语义相似度匹配装置10的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备20的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行语义相似度匹配装置10,以实现实施例一的语义相似度匹配方法。
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储语义相似度匹配装置10,被处理器执行时实现实施例一的语义相似度匹配方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
流程图中或在此以其它方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
本技术领域的普通技术人员可以理解,实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于交叉注意力机制的语义相似度匹配方法,其特征在于,包括:
获取第一基础语句中的多个第一基础词,获取第二基础语句中的多个第二基础词;
对每个所述第一基础词和所述第二基础词进行词向量表征,得到多个第一基础向量和多个第二基础向量;
将所述多个第一基础向量和多个第二基础向量分别通过双向LSTM模型,得到多个第一拼接向量和多个第二拼接向量;其中所述第一拼接向量由所述第一基础向量通过双向LSTM模型后得到的第一向前输入向量和第一向后输入向量组合而成;所述第二拼接向量由第二基础向量通过双向LSTM模型后得到的第二向前输入向量和第二向后输出向量组合而成;
根据所述多个第一拼接向量生成第一拼接矩阵,所述第一拼接矩阵的列向量为所述第一拼接向量;根据所述多个第二拼接向量生成第二拼接矩阵,所述第二拼接矩阵的列向量为所述第二拼接向量;
用所述第二拼接矩阵中的所有列向量分别对所述第一拼接矩阵中的每个列向量进行交叉表征,得到第一表征矩阵;用所述第一拼接矩阵中的所有列向量分别对所述第二拼接矩阵中的每个列向量进行交叉表征,得到第二表征矩阵;
分别对所述第一表征矩阵和所述第二表征矩阵进行最大化处理,得到第一最大化矩阵和第二最大化矩阵;
将所述第一最大化矩阵和所述第二最大化矩阵拼接后输入全连接层和池化层,得到所述第一基础语句和所述第二基础语句的匹配值。
2.根据权利要求1所述的语义相似度匹配方法,其特征在于,所述词向量表征是通过word2vec模型得到的。
3.根据权利要求2所述的语义相似度匹配方法,其特征在于,将所述多个第一基础向量和多个第二基础向量分别通过双向LSTM模型,得到多个第一拼接向量和多个第二拼接向量的步骤包括:
将第i个第一基础向量
Figure FDA0003465443670000021
经过双向LSTM模型后分别输出
Figure FDA0003465443670000022
Figure FDA0003465443670000023
其中
Figure FDA0003465443670000024
是向前输入LSTM得到的第一向前输入向量,
Figure FDA0003465443670000025
是向后输入LSTM得到的第一向后输入向量,则第一拼接向量为
Figure FDA0003465443670000026
将第i个第二基础向量
Figure FDA0003465443670000027
经过双向LSTM模型后分别输出
Figure FDA0003465443670000028
Figure FDA0003465443670000029
其中
Figure FDA00034654436700000210
是向前输入LSTM得到的第二向前输入向量,
Figure FDA00034654436700000211
是向后输入LSTM得到的第二向后输入向量,则第二拼接向量为
Figure FDA00034654436700000212
4.根据权利要求3所述的语义相似度匹配方法,其特征在于:
用所述第二拼接矩阵中的所有列向量分别对所述第一拼接矩阵中的每个列向量进行交叉表征,得到第一表征矩阵的步骤包括:
计算第一拼接矩阵P中的第i个列向量pi与第二拼接矩阵Q中的每一个列向量qj的第一余弦相似度αij,并进行加权求和后得到P中的第i个列向量pi在第二拼接矩阵Q中的第一表征向量p′i
Figure FDA00034654436700000213
其中N为列向量qj的个数;
将所有的第一表征向量p′i作为列向量形成第一表征矩阵P’;
用所述第一拼接矩阵中的所有列向量分别对所述第二拼接矩阵中的每个列向量进行交叉表征,得到第二表征矩阵的步骤包括:
计算第二拼接矩阵Q中的第i个列向量qi与第一拼接矩阵P中的每一个列向量pj的第二余弦相似度βij,并进行加权求和后得到Q中的第i个列向量qi在第一拼接矩阵P中的第二表征向量q′i
Figure FDA0003465443670000031
其中N为列向量pj的个数;
将所有的第二表征向量q′i作为列向量形成第二表征矩阵Q’。
5.根据权利要求3所述的语义相似度匹配方法,其特征在于:所述分别对所述第一表征矩阵和所述第二表征矩阵进行最大化处理,得到第一最大化矩阵和第二最大化矩阵的步骤包括:
对于第一表征矩阵中的每个列向量p′i,选取该列的最大值p′imax作为该列向量的值,得到第一最大化矩阵(p′1max,p′2max,…p′Nmax);
对于第二表征矩阵中的每个列向量q′i,选取该列的最大值q′imax作为该列向量的值,得到第二最大化矩阵(q′1max,q′2max,…q′Nmax)。
6.一种基于交叉注意力机制的语义相似度匹配装置,其特征在于,包括:
基础词获取模块,获取第一基础语句中的多个第一基础词,获取第二基础语句中的多个第二基础词;
词向量表征模块,适用于对每个所述第一基础词和所述第二基础词进行词向量表征,得到多个第一基础向量和多个第二基础向量;
双向LSTM模块,适用于将所述多个第一基础向量和多个第二基础向量分别通过双向LSTM模型,得到多个第一拼接向量和多个第二拼接向量;其中所述第一拼接向量由所述第一基础向量通过双向LSTM模型后得到的第一向前输入向量和第一向后输入向量组合而成;所述第二拼接向量由第二基础向量通过双向LSTM模型后得到的第二向前输入向量和第二向后输出向量组合而成;
拼接模块,适用于根据所述多个第一拼接向量生成第一拼接矩阵,所述第一拼接矩阵的列向量为所述第一拼接向量;根据所述多个第二拼接向量生成第二拼接矩阵,所述第二拼接矩阵的列向量为所述第二拼接向量;
交叉表征模块,适用于用所述第二拼接矩阵中的所有列向量分别对所述第一拼接矩阵中的每个列向量进行交叉表征,得到第一表征矩阵;用所述第一拼接矩阵中的所有列向量分别对所述第二拼接矩阵中的每个列向量进行交叉表征,得到第二表征矩阵;
最大化模块,适用于分别对所述第一表征矩阵和所述第二表征矩阵进行最大化处理,得到第一最大化矩阵和第二最大化矩阵;
匹配模块,适用于将所述第一最大化矩阵和所述第二最大化矩阵拼接后输入全连接层和池化层,得到所述第一基础语句和所述第二基础语句的匹配值。
7.根据权利要求6所述的语义相似度匹配装置,其特征在于,所述双向LSTM模块包括:
第一双向LSTM子模块,适用于将第i个第一基础向量
Figure FDA0003465443670000041
经过双向LSTM模型后分别输出
Figure FDA0003465443670000042
Figure FDA0003465443670000043
其中
Figure FDA0003465443670000044
是向前输入LSTM得到的第一向前输入向量,
Figure FDA0003465443670000045
是向后输入LSTM得到的第一向后输入向量,则第一拼接向量为
Figure FDA0003465443670000046
Figure FDA0003465443670000047
第二双向LSTM子模块,适用于将第i个第二基础向量
Figure FDA0003465443670000048
经过双向LSTM模型后分别输出
Figure FDA0003465443670000049
Figure FDA00034654436700000410
其中
Figure FDA00034654436700000411
是向前输入LSTM得到的第二向前输入向量,
Figure FDA00034654436700000412
是向后输入LSTM得到的第二向后输入向量,则第二拼接向量为
Figure FDA00034654436700000413
Figure FDA00034654436700000414
8.根据权利要求7所述的语义相似度匹配装置,其特征在于,所述交叉表征模块包括第一交叉表征子模块和第二交叉表征子模块,其中:
第一交叉子模块适用于计算第一拼接矩阵P中的第i个列向量pi与第二拼接矩阵Q中的每一个列向量qj的第一余弦相似度αij,并进行加权求和后得到P中的第i个列向量pi在第二拼接矩阵Q中的第一表征向量p′i
Figure FDA0003465443670000051
其中N为列向量qj的个数;
将所有的第一表征向量p′i作为列向量形成第一表征矩阵P’;
第二交叉表征子模块适用于计算第二拼接矩阵Q中的第i个列向量qi与第一拼接矩阵P中的每一个列向量pj的第二余弦相似度βij,并进行加权求和后得到Q中的第i个列向量qi在第一拼接矩阵P中的第二表征向量q′i
Figure FDA0003465443670000052
其中N为列向量pj的个数;
将所有的第二表征向量q′i作为列向量形成第二表征矩阵Q’。
9.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至5任一项所述方法的步骤。
CN201811573321.5A 2018-12-21 2018-12-21 基于交叉注意力机制的语义相似度匹配方法及其匹配装置 Active CN109815484B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201811573321.5A CN109815484B (zh) 2018-12-21 2018-12-21 基于交叉注意力机制的语义相似度匹配方法及其匹配装置
PCT/CN2019/089483 WO2020124959A1 (zh) 2018-12-21 2019-05-31 基于交叉注意力机制的语义相似度匹配方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811573321.5A CN109815484B (zh) 2018-12-21 2018-12-21 基于交叉注意力机制的语义相似度匹配方法及其匹配装置

Publications (2)

Publication Number Publication Date
CN109815484A CN109815484A (zh) 2019-05-28
CN109815484B true CN109815484B (zh) 2022-03-15

Family

ID=66602262

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811573321.5A Active CN109815484B (zh) 2018-12-21 2018-12-21 基于交叉注意力机制的语义相似度匹配方法及其匹配装置

Country Status (2)

Country Link
CN (1) CN109815484B (zh)
WO (1) WO2020124959A1 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815484B (zh) * 2018-12-21 2022-03-15 平安科技(深圳)有限公司 基于交叉注意力机制的语义相似度匹配方法及其匹配装置
CN110543549B (zh) * 2019-08-30 2022-02-22 北京百分点科技集团股份有限公司 语义等价性判断方法和装置
CN110543551B (zh) * 2019-09-04 2022-11-08 北京香侬慧语科技有限责任公司 一种问题语句处理方法和装置
CN110941951B (zh) * 2019-10-15 2022-02-15 平安科技(深圳)有限公司 文本相似度计算方法、装置、介质及电子设备
CN111241851A (zh) * 2020-04-24 2020-06-05 支付宝(杭州)信息技术有限公司 语义相似度确定方法、装置及处理设备
CN112085091B (zh) * 2020-09-07 2024-04-26 中国平安财产保险股份有限公司 基于人工智能的短文本匹配方法、装置、设备及存储介质
CN114330355A (zh) * 2020-10-09 2022-04-12 腾讯科技(深圳)有限公司 文本处理方法、装置、电子设备及存储介质
CN112836010B (zh) * 2020-10-22 2024-04-05 新长城科技有限公司 用于专利的检索方法、存储介质及装置
CN112364666B (zh) * 2020-11-12 2023-12-08 虎博网络技术(上海)有限公司 文本表征方法、装置及计算机设备
CN112541362B (zh) * 2020-12-08 2022-08-23 北京百度网讯科技有限公司 一种泛化处理的方法、装置、设备和计算机存储介质
CN113033170B (zh) * 2021-04-23 2023-08-04 中国平安人寿保险股份有限公司 表格标准化处理方法、装置、设备及存储介质
CN114492451B (zh) * 2021-12-22 2023-10-24 马上消费金融股份有限公司 文本匹配方法、装置、电子设备及计算机可读存储介质
CN115456176B (zh) * 2022-10-10 2023-07-21 延边大学 一种基于知识增强的文本匹配方法及系统
CN116069606B (zh) * 2023-01-10 2023-07-07 山东大学 一种软件系统性能故障预测方法及系统
CN116563147B (zh) * 2023-05-04 2024-03-26 北京联合大学 一种水下图像增强系统及方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016127458A1 (zh) * 2015-02-15 2016-08-18 深圳市前海安测信息技术有限公司 改进的基于语义词典的词语相似度计算方法和装置
CN106372055A (zh) * 2016-08-23 2017-02-01 北京谛听机器人科技有限公司 一种人机自然语言交互中的语义相似处理方法及系统
CN107291699A (zh) * 2017-07-04 2017-10-24 湖南星汉数智科技有限公司 一种句子语义相似度计算方法
CN108132931A (zh) * 2018-01-12 2018-06-08 北京神州泰岳软件股份有限公司 一种文本语义匹配的方法及装置
CN108614815A (zh) * 2018-05-07 2018-10-02 华东师范大学 句子交互方法和装置
CN108875074A (zh) * 2018-07-09 2018-11-23 北京慧闻科技发展有限公司 基于交叉注意力神经网络的答案选择方法、装置和电子设备
CN108932342A (zh) * 2018-07-18 2018-12-04 腾讯科技(深圳)有限公司 一种语义匹配的方法、模型的学习方法及服务器

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11080595B2 (en) * 2016-11-04 2021-08-03 Salesforce.Com, Inc. Quasi-recurrent neural network based encoder-decoder model
CN108268643A (zh) * 2018-01-22 2018-07-10 北京邮电大学 一种基于多粒度lstm网络的深层语义匹配实体链接方法
CN109815484B (zh) * 2018-12-21 2022-03-15 平安科技(深圳)有限公司 基于交叉注意力机制的语义相似度匹配方法及其匹配装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016127458A1 (zh) * 2015-02-15 2016-08-18 深圳市前海安测信息技术有限公司 改进的基于语义词典的词语相似度计算方法和装置
CN106372055A (zh) * 2016-08-23 2017-02-01 北京谛听机器人科技有限公司 一种人机自然语言交互中的语义相似处理方法及系统
CN107291699A (zh) * 2017-07-04 2017-10-24 湖南星汉数智科技有限公司 一种句子语义相似度计算方法
CN108132931A (zh) * 2018-01-12 2018-06-08 北京神州泰岳软件股份有限公司 一种文本语义匹配的方法及装置
CN108614815A (zh) * 2018-05-07 2018-10-02 华东师范大学 句子交互方法和装置
CN108875074A (zh) * 2018-07-09 2018-11-23 北京慧闻科技发展有限公司 基于交叉注意力神经网络的答案选择方法、装置和电子设备
CN108932342A (zh) * 2018-07-18 2018-12-04 腾讯科技(深圳)有限公司 一种语义匹配的方法、模型的学习方法及服务器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Attention driven multi-modal similarity learning;Xinjian Gao et al.;《Information Sciences》;20180331;第432卷;第530-542页 *
基于多尺度相似度特征的答案选择算法;陈柯锦等;《系统工程与电子技术》;20180630;第40卷(第6期);第1398-1404页 *

Also Published As

Publication number Publication date
WO2020124959A1 (zh) 2020-06-25
CN109815484A (zh) 2019-05-28

Similar Documents

Publication Publication Date Title
CN109815484B (zh) 基于交叉注意力机制的语义相似度匹配方法及其匹配装置
CN111639163A (zh) 问题生成模型的训练方法、问题生成方法及其相关设备
JP6677419B2 (ja) 音声対話方法及び装置
CN110795938B (zh) 文本序列分词方法、装置及存储介质
CN110413773B (zh) 智能文本分类方法、装置及计算机可读存储介质
CN110990555B (zh) 端到端检索式对话方法与系统及计算机设备
CN110866098B (zh) 基于transformer和lstm的机器阅读方法、装置及可读存储介质
WO2023134082A1 (zh) 图像描述语句生成模块的训练方法及装置、电子设备
CN110866115A (zh) 序列标注方法、系统、计算机设备及计算机可读存储介质
CN111985243B (zh) 情感模型的训练方法、情感分析方法、装置及存储介质
JP7229345B2 (ja) 文処理方法、文復号方法、装置、プログラム及び機器
CN112348911A (zh) 基于语义约束的堆叠文本生成细粒度图像方法及系统
CN114861635B (zh) 一种中文拼写纠错方法、装置、设备及存储介质
CN113947095A (zh) 多语种文本翻译方法、装置、计算机设备及存储介质
CN110502620B (zh) 导诊相似问题对生成方法、系统及计算机设备
CN112699213A (zh) 语音意图识别方法、装置、计算机设备及存储介质
CN114358023B (zh) 智能问答召回方法、装置、计算机设备及存储介质
CN109657127B (zh) 一种答案获取方法、装置、服务器及存储介质
JP2024515199A (ja) 要素テキスト処理方法、装置、電子機器及び記憶媒体
WO2020052060A1 (zh) 用于生成修正语句的方法和装置
CN113505595A (zh) 文本短语抽取方法、装置、计算机设备及存储介质
CN112182157B (zh) 在线序列标注模型的训练方法、在线标注方法及相关设备
CN112232052A (zh) 文本拼接方法、装置、计算机设备及存储介质
US20230334075A1 (en) Search platform for unstructured interaction summaries
CN112347242B (zh) 摘要生成方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant