CN109145290B

CN109145290B - 基于字向量与自注意力机制的语义相似度计算方法

Info

Publication number: CN109145290B
Application number: CN201810823575.1A
Authority: CN
Inventors: 宋士祺; 于丁文; 宫俊
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2018-07-25
Filing date: 2018-07-25
Publication date: 2020-07-07
Anticipated expiration: 2038-07-25
Also published as: CN109145290A

Abstract

本发明提供一种基于字向量与自注意力机制的语义相似度计算方法，S1、面向指定领域搜集、爬取网络语料知识库，并生成每一个汉字的字向量表示；S2、字向量依次替换句子S₁、S₂中的每一个汉字生成句向量；对句子S₁、S₂中的每一个字向量依次进行位置编码与注意力机制模型计算得到句子的语义信息向量；S3、对得到的语义信息向量A′₁、A′₂进行相似度计算，获得两个向量之间的语义相似度。本发明的技术方案解决了现有技术中的句子的语义相似度计算准确率与速度不足的的问题。

Description

基于字向量与自注意力机制的语义相似度计算方法

技术领域

本发明涉及自然语言处理技术领域，具体而言，尤其涉及一种基于字向量与自注意力机制的语义相似度计算方法。

背景技术

句子相似度计算广泛应用于信息检索、机器翻译、文本挖掘、自动问答系统等领域。如基于实例的问答系统，需要计算自然问句与数据库中实例的句子语义相似度，返回最相似问题的答案。由于中文的一词多义以及口语的灵活多变等特性，提高句子的语义相似度计算是自然语言领域一个亟待解决的问题。

传统的计算语义相似度主要分为两种：一种是基于数理统计的方法，一种是基于机器学习的方法。基于数理统计的方法是根据词频、词性等进行统计计算，并没有真正涉及语义信息的计算。基于机器学习的方法是根据知识库来建立语义关系模型，但没有完整考虑整个句子的中词与词之间的语义信息。

发明内容

根据上述提出句子的语义相似度计算准确率与速度不足的技术问题，而提供一种基于字向量与自注意力机制的语义相似度计算方法。本发明主要利用通过位置编码与自注意力机制计算可以更好的获得句子的语义信息，从而提高语义相似度计算的准确率与速度。

本发明采用的技术手段如下：

一种基于字向量与自注意力机制的语义相似度计算方法，包括：

S1、面向指定领域搜集、爬取网络语料知识库，并生成每一个汉字的字向量表示。

S2、字向量依次替换句子S₁、S₂中的每一个汉字生成句向量。

对句子S₁、S₂中的每一个字向量依次进行位置编码与注意力机制模型计算得到句子的语义信息向量。

S3、对得到的语义信息向量A＇₁、A′₂进行相似度计算，获得两个向量之间的语义相似度。

进一步地，步骤S1中，具体包括以下步骤：

S11、使用集搜客进行网络语料爬取，获取相应语料。

S12、对语料进行预处理，去除停用词、标点符号、无用数字等，整理获得原始语料知识库。

S13、对单独每一个句子按照字进行切分，以句子为训练单位单个汉字依次输入Word2vec工具的CBOW算法生成维度为Model的字向量模型。

因为，字包含的语义比词的语义要丰富，并且字的数量远远小于词的数量，训练时间与参数要小很多，还能够避免因为分词错误导致的语义错误。

进一步地，步骤S2中，具体包括以下步骤：

S21、假设句子S₁、S₂分别包含n、m个字，则句向量表示为S₁＝(w₁₁，w₁₂，…，w_1n)、S₂＝(w₂₁，w₂₂，…，w_2n)；句子S₁为n×Model的矩阵，句子S₂为m×Model的矩阵，w_ik代表第i个句子第k个字的向量化表示。

S22、句子S中的每个字向量只是单纯的罗列，没有包含句子顺序信息，因此，对句向量中的每个字进行位置编号然后对每个字向量分别进行Position Embedding构造，构造公式为：

PE(t,2i)＝sin(t/10000^2i/Model)；

PE(t,2i+1)＝cos(t/10000^2i/Model)；

公式中t为字向量在句子中位置的编号,i为当前字向量的第i个元素，Model即为字向量的维度。

S23、依次构造得到的位置向量PE与字向量进行简单的相加操作，得到S′₁、S′₂。

S24、对当前句子S′₁、S′₂中分别进行自注意力计算，得到句子内部的语义联系，计算公式为：

公式中第一次输入Q＝K＝V都是相同的句向量S′，也就是前面构造过的句向量。

其意义为针对S′的每个字向量依次与S′中的所有字进行内积并进行归一化处理以获得两个字之间的相似度，除以

进行调节作用，使内积不至于过大影响计算，也就是对当前句向量进行标准的自注意力计算。

S25、对当前注意力机制循环计算k次，每次得到的输出作为下一次训练的输入，最终将每次循环计算的结果进行线性映射到Model维内，得到最终的语义信息向量A′；

句向量S′₁经过注意力计算得到n×Model维的向量A′₁,S′₂得到m×Model维的向量A′₂。

进一步地，步骤S3中，具体包括以下步骤：

S31、对于A′₁、A′₂将它们理解为句向量S₁、S₂经过计算后的另一种表示方法，此时A′₁＝(a′₁₁，a′₁₂，…，a′_1n)、A′₂＝(a′₂₁，a′₂₂，…，a′_2m)；

S32、α与β为句子成分系数，α+β＝1，在当前模型我们取α＝β＝0.5；

S33、当前公式计算规则表示为A′₁中的n维向量都会与A′₂中的m维向量进行相似度比较，取最大值依次进行累加；A′₂中的m维向量都会与A′₁中的n维向量进行相同操作；两部分分别乘句子成分系数α与β，最后相加获得语义相似度；相似度计算公式为：

进一步地，步骤S25中，当前注意力机制循环计算次数k，2≤k≤5。

与现有技术相比较，本发明所述的基于字向量与自注意力机制的语义相似度计算方法，面向特定领域搜集、爬取网络语料知识库；语料预处理，训练生成相应字向量；字向量依次替换要进行相似度计算句子中的每一个汉字生成句向量；对句向量中的每一个字向量依次进行位置向量构造与自注意力机制模型计算得到最终的语义信息；对两个句子的最终语义信息进行相似度公式计算，获得两个句子之间的语义相似度，该方法训练参数少、训练时间短，并且通过位置编码与自注意力机制计算可以更好的获得句子的语义信息，最终提高语义相似度计算的准确率与速度。

基于上述理由本发明可在自然语言处理等领域广泛推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于字向量与自注意力机制的句子语义相似度计算方法的流程图。

图2为本发明基于自注意力机制的语义信息计算模型结构图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1所示，本发明提供了一种基于字向量与自注意力机制的语义相似度计算方法，包括：

S11、使用集搜客进行网络语料爬取，获取相应语料。

因为字包含的语义比词的语义要丰富，并且字的数量远远小于词的数量，训练时间与参数要小很多，还可以避免因为分词错误导致的语义错误。

S21、假设句子S₁、S₂分别包含n、m个字，则句向量表示为S₁＝(w₁₁，w₁₂，…，w_1n)、S₂＝(w₂₁，w₂₂，…，w_2n)。

句子S₁为n×Model的矩阵，句子S₂为m×Model的矩阵，w_ik代表第i个句子第k个字的向量化表示。

PE(t,2i)＝sin(t/10000^2i/Model)；

PE(t,2i+1)＝cos(t/10000^2i/Model)；

图2为本发明一种基于自注意力机制的语义信息计算模型结构图。首先输入句向量，然后按照公式进行自注意力机制计算也就是图中阴影部分，循环计算m次最后进行拼连与线性映射得到最终的语义向量A′。

S25、对当前注意力机制循环计算k，优选的，2≤k≤5，每次得到的输出作为下一次训练的输入，最终将每次循环计算的结果进行线性映射到Model维内，得到最终的语义信息向量A′；句向量S′₁经过注意力计算得到n×Model维的向量A′₁,S′₂得到m×Model维的向量A′₂。

S3、对得到的语义信息向量A′₁、A′₂进行相似度计算，获得两个向量之间的语义相似度。

S31、对于A′₁、A′₂将它们理解为句向量S₁、S₂经过计算后的另一种表示方法，此时A′₁＝(a′₁₁，a′₁₂，…，a′_1n)、A′₂＝(a′₂₁，a′₂₂，…，a′_2m)。

S32、α与β为句子成分系数，α+β＝1，在当前模型我们取α＝β＝0.5。

通过当前模型计算可以成功计算出两个句子之间的语义相似度，对于语义不同的句子具有良好的语义区分功能，能够应用在基于实体对或知识库的智能问答系统中。

本发明中，注意力机制模型计算，通过对每一个句子中的字向量依次与当前句子中的所有其余字向量进行相似度计算以获得他们之间的联系，也就是语义信息。

GooSeeker，是集搜客GooSeeker网页抓取和整理软件。

Word2vec工具，一个将单词转换成向量形式的工具，在这里就是将汉字转换成model维度的向量表示开源工具包。

(Word2vec，是为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系，该向量为神经网络之隐藏层。)

CBOW算法，CBOW是Word2vec工具包中生成词向量的一种模型，叫做连续词袋模型。该模型不包含词在句子中的顺序信息，只是通过上下文来预测当前中心词。我们在这里通过该模型来获得当前字的向量表示。

Position Embedding构造，这部分构造分为sin与cos，这样我们对于第PE_pos+n可以被前面的PE_pos表示(因为进过sin与cos计算我们可以表示当前平面内的所有点)。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于字向量与自注意力机制的语义相似度计算方法，其特征在于，包括：

S1、面向指定领域搜集、爬取网络语料知识库，并生成每一个汉字的字向量表示；

S2、字向量依次替换句子S₁、S₂中的每一个汉字生成句向量；

对句子S₁、S₂中的每一个字向量依次进行位置编码与注意力机制模型计算得到句子的语义信息向量；

S3、对得到的语义信息向量A′₁、A′₂进行相似度计算，获得两个向量之间的语义相似度；

步骤S2中，具体包括以下步骤：

S21、假设句子S₁、S₂分别包含n、m个字，则句向量表示为S₁＝(w₁₁，w₁₂，…，w_1n)、S₂＝(w₂₁，w₂₂，…，w_2n)；

句子S₁为n×Model的矩阵，句子S₂为m×Model的矩阵，w_ik代表第i个句子第k个字的向量化表示；

PE(t,2i)＝sin(t/10000^2i/Model)；

PE(t,2i+1)＝cos(t/10000^2i/Model)；

公式中t为字向量在句子中位置的编号,i为当前字向量的第i个元素，Model即为字向量的维度；

S23、依次构造得到的位置向量PE与字向量进行简单的相加操作，得到S′₁、S′₂；

公式中第一次输入Q＝K＝V都是相同的句向量S′，也就是前面构造过的句向量；

2.根据权利要求1所述的基于字向量与自注意力机制的语义相似度计算方法，其特征在于，

步骤S1中，具体包括以下步骤：

S11、使用集搜客进行网络语料爬取，获取相应语料；

S12、对语料进行预处理，去除停用词、标点符号、无用数字，整理获得原始语料知识库；

3.根据权利要求2所述的基于字向量与自注意力机制的语义相似度计算方法，其特征在于，

步骤S3中，具体包括以下步骤：

4.根据权利要求1所述的基于字向量与自注意力机制的语义相似度计算方法，其特征在于，

步骤S25中，当前注意力机制循环计算次数k，2≤k≤5。