CN110929527B

CN110929527B - 一种确定语义相似度方法及装置

Info

Publication number: CN110929527B
Application number: CN201911121502.9A
Authority: CN
Inventors: 徐猛; 付骁弈
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2023-05-09
Anticipated expiration: 2039-11-15
Also published as: CN110929527A

Abstract

本申请提供一种语义相似度确定方法，包括获取第一目标文本的向量和第二目标文本的向量；分别将所述获取的第一目标文本的向量和第二目标文本的向量输入循环神经网络进行编码，得到第一目标文本的表示特征和第二目标文本的表示特征；根据所获取的第一目标文本的表示特征和第二目标文本的表示特征，获取第一目标文相似度权重矩阵和第二目标文本的相似度权重矩阵；根据所获取第一目标文相似度权重矩阵和第二目标文本的相似度权重矩阵，确定出第一目标文本和第二目标文本的语义相似度。本申请能够获得多维度的语义特征，提高语义分析的精确度。

Description

一种确定语义相似度方法及装置

技术领域

本文涉及计算机技术，尤指一种确定语义相似度方法及装置。

背景技术

随着互联网和人工智能的迅速发展，各种交互式人机对话系统都涌现了出来，与此同时，用户的搜索量也大大增加。对于以上应用而言，如何准确的从知识库或者语料库中检索到符合用户意图的句子则非常关键，直接影响用户的体验。针对这一问题，本专利提出了一种基于神经网络和注意力机制的语义相似度计算方法，来获取同一含义但不同表达方式的句子之间的语义相似度，为人机对话和搜索引擎的相关应用场景提供算法支撑。

现有主要方法有其他神经网络模型和基于预训练的模型，其他神经网络模型如matchPyramid,ESIM等，虽然也是基于神经网络的模型，但是仍有不足，如matchPyramid，该模型将文本数据比作图像来看，采用卷积等操作进行处理，但毕竟两者之间有所差别，并不能提出足够的特征；同时ESIM类模型虽然也采用了双向LSTM网络进行编码，但是只计算了简单的注意力权重，并不能表示全面的语义特征。而且以上模型均为考虑句子的位置信息，特征提取不足。

基于预训练的模型，一般而言匹配的精确度比较高，但是由于模型参数太多导致一次前向计算的时间较长，这并不符合实际应用的需求。

发明内容

本申请提供了一种确定语义相似度方法及装置，能够达到获得多维度的语义特征，提高语义分析的精确度的目的。

本申请提供了一种语义相似度确定方法，包括：获取第一目标文本的向量和第二目标文本的向量；分别将所述获取的第一目标文本的向量和第二目标文本的向量输入循环神经网络进行编码，得到第一目标文本的表示特征和第二目标文本的表示特征；根据所获取的第一目标文本的表示特征和第二目标文本的表示特征，获取第一目标文本相似度权重矩阵和第二目标文本的相似度权重矩阵；在所述第一目标文相似度权重矩阵中，每一行代表第一目标文本中对应的文本单元与第二目标文本所有文本单元的权重；在第二目标文本的相似度权重矩阵中，每一行代表第二目标文本中对应的文本单元与第一目标文本所有文本单元的权重；根据所获取第一目标文相似度权重矩阵和第二目标文本的相似度权重矩阵，确定出第一目标文本和第二目标文本的语义相似度。

在一个示例性实施例中，上述获取第一目标文本的向量和第二目标文本的向量，包括：采用词嵌入分别得到第一目标文本的文本向量和第二目标文本的文本向量；采用位置嵌入分别得到第一目标文本的位置向量和第二目标文本位置向量；将所述第一目标文本的文本向量和位置向量进行合并得到所述第一目标文本的向量；将所述第二目标文本的文本向量和位置向量进行合并得到所述第二目标文本的向量。

在一个示例性实施例中，上述采用词嵌入分别得到第一目标文本的文本向量和第二目标文本向量，包括：将所述第一目标文本的长度和第二目标文本的长度均调整为预定长度；分别对第一目标文本和第二目标文本中的文本单元进行编码映射，分别获取第一目标文本的文本单元的索引和第二目标文本的文本单元的索引；根据所述预定长度和所述第一目标文本中文本单元的索引得到第一目标文本的文本向量；根据所述预定长度和所述第二目标文本中文本单元的索引得到第二目标文本的文本向量。

在一个示例性实施例中，上述采用位置嵌入分别得到第一目标文本的位置向量和第二目标文本的位置向量，包括：获取第一目标文本原始长度和第二目标文本的原始长度；将所述第一目标文本的原始长度和第二目标文本的原始长度均调整为预定长度；分别对第一目标文本和第二目标文本中的文本单元进行编码映射，分别获取第一目标文本的文本单元的位置和第二目标文本的文本单元的位置；根据所述预定长度和所述第一目标文本中文本单元的位置得到第一目标文本的位置向量；根据所述预定长度和所述第二目标文本中文本单元的位置得到第二目标文本的位置向量。

在一个示例性实施例中，上述分别将所述获取的第一向量和第二向量输入循环神经网络进行编码，得到第一目标文本的表示特征和第二目标文本的表示特征，包括：分别将所述获取的第一目标文本的向量和第二目标文本的向量输入双向LSTM网络进行编码；将所得的两个方向的关于所述第一目标文本的向量的输出结果进行合并得到第一目标文本的表示特征；将所得的两个方向的关于所述第二目标文本的向量的输出结果进行合并得到第二目标文本的表示特征。

在一个示例性实施例中，上述根据所述第一目标文本的表示特征和第二目标文本的表示特征，获取第一目标文本相似度权重矩阵和第二目标文本的相似度权重矩阵，包括：分别将第一目标文本的表示特征和第二目标文本的表示特征进行线性变换映射到高维度空间，获得第一目标文本的高维度特征和第二目标文本的高维度特征；将获取的第一目标文本的高维度特征和第二目标文本的高维度特征进行维度转换，得到转换后的第一目标文本的转换维度特征和第二目标文本的转换维度特征；将得到的第一目标文本的转换维度特征和转置后的第二目标文本的转换维度特征进行矩阵相乘得到第一目标文本的相似度权重矩阵对得到的第一目标文本的相似度权重矩阵进行转置得到第二目标文本的相似度权重矩阵。

在一个示例性实施例中，上述根据所获取第一目标文相似度权重矩阵和第二目标文本的相似度权重矩阵，确定出第一目标文本和第二目标文本的语义相似度，包括：对所述第一目标文本的表示特征和第二目标文本的相似度权重矩阵进行矩阵相乘后进行维度转换，得到第一目标文本的加权特征；对所述第二目标文本的表示特征和第一目标文本的相似度权重矩阵进行矩阵相乘后进行维度转换，得到第二目标文本的加权特征；根据第一目标文本的加权特征和第二目标文本的加权特征，分别采用两个隐层的特定节点数的单向LSTM网络得到特征后进行池化操作，得到所述第一目标文本语义表示向量和第二目标文本的语义表示向量；对得到的第一目标文本语义表示向量矩阵表示和第二目标文本的语义表示向量矩阵表示采用余弦相似度计算确定出第一目标文本和第二目标文本的语义相似度。

在一个示例性实施例中，上述将获取的第一目标文本的高维度特征和第二目标文本的高维度特征进行维度转换，得到转换后的第一目标文本的转换维度特征和第二目标文本的转换维度特征，包括：将获取的第一目标文本的高维度特征和第二目标文本的高维度特征分别进行多维度转换，将原来的单个语义空间映射到多个语义空间，得到转换后的第一目标文本的转换维度特征和第二目标文本的转换维度特征。

在一个示例性实施例中，上述将所述第一目标文本的原始长度和第二目标文本的原始长度均调整为预定长度之前，还包括：去除所述第一目标文本和第二目标文本中指定特征。

本申请还提供一种语义相似度确认装置，包括：向量获取模块，用于获取第一目标文本的向量和第二目标文本的向量；编码模块，用于分别将所述获取的第一目标文本的向量和第二目标文本的向量输入循环神经网络进行编码，得到第一目标文本的表示特征和第二目标文本的表示特征；分析模块，用于根据所获取的第一目标文本的表示特征和第二目标文本的表示特征，获取第一目标文相似度权重矩阵和第二目标文本的相似度权重矩阵；在所述第一目标文相似度权重矩阵中，每一行代表第一目标文本中对应的每一个文本单元与第二目标文本所有文本单元的权重；在第二目标文本的相似度权重矩阵中，每一行代表第二目标文本中对应的每一个文本单元与第一目标文本所有文本单元的权重；分析模块，还用于根据所获取第一目标文相似度权重矩阵和第二目标文本的相似度权重矩阵，确定出第一目标文本和第二目标文本的语义相似度。

与相关技术相比，本申请通过对目标文本进行编码可以获取多维度的语义特征信息。

在一个示例性实施例中，本申请相比传统的注意力机制或者自注意力机制，采用多头注意力机制将目标文本的特征映射到多个语义空间，从而得到更加全面的语义特征。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的其他优点可通过在说明书、权利要求书以及附图中所描述的方案来实现和获得。

附图说明

附图用来提供对本申请技术方案的理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1为本申请实施例方法流程图；

图2为本申请实施例装置示意图。

具体实施方式

本申请描述了多个实施例，但是该描述是示例性的，而不是限制性的，并且对于本领域的普通技术人员来说显而易见的是，在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合，并在具体实施方式中进行了讨论，但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外，任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用，或可以替代任何其它实施例中的任何其他特征或元件。

本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合，以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合，以形成另一个由权利要求限定的独特的发明方案。因此，应当理解，在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此，除了根据所附权利要求及其等同替换所做的限制以外，实施例不受其它限制。此外，可以在所附权利要求的保护范围内进行各种修改和改变。

此外，在描述具有代表性的实施例时，说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而，在该方法或过程不依赖于本文所述步骤的特定顺序的程度上，该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的，其它的步骤顺序也是可能的。因此，说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外，针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤，本领域技术人员可以容易地理解，这些顺序可以变化，并且仍然保持在本申请实施例的精神和范围内。

下面将结合附图及实施例对本申请的技术方案进行更详细的说明。

如图1所示，本发明实施例一种语义相似度确定方法，包括如下步骤：

S1、获取第一目标文本的向量A和第二目标文本的向量B；

示例性的，目标文本可以为句子、段落等等。

S2、分别将所述获取的第一目标文本的向量A和第二目标文本的向量B输入循环神经网络进行编码，得到第一目标文本的表示特征T₁₁和第二目标文本的表示特征T₁₂；

示例性的，循环神经网络可以为循环神经网络RNN、LSTM、GRU等等。

S3、根据所获取的第一目标文本的表示特征T₁₁和第二目标文本的表示特征T₁₂，获取第一目标文相似度权重矩阵T₄₁和第二目标文本的相似度权重矩阵T₄₂；在所述第一目标文相似度权重矩阵T₄₁中，每一行代表第一目标文本中对应的每一个文本单元与第二目标文本所有文本单元的权重；在第二目标文本的相似度权重矩阵T₄₂中，每一行代表第二目标文本中对应的每一个文本单元与第一目标文本所有文本单元的权重；

S4、根据所获取第一目标文相似度权重矩阵T₄₁和第二目标文本的相似度权重矩阵T₄₂，确定出第一目标文本和第二目标文本的语义相似度。

在一个示例性实施例中文本单元可以为单个字符、字等，也可以为词语等。

在一个示例性实施例中，步骤S1中，所述获取第一目标文本的向量A和第二目标文本的向量B，包括如下步骤：

S10、采用词嵌入分别得到第一目标文本的文本向量D₁和第二目标文本的文本向量D₂；

S11、采用位置嵌入分别得到第一目标文本的位置向量P₁和第二目标文本位置向量P₂；

S12、将所述第一目标文本的文本向量D1和位置向量P1进行合并得到所述第一目标文本的向量A；将所述第二目标文本的文本向量D2和位置向量P2进行合并得到所述第二目标文本的向量B。

在一个示例性实施例中，步骤S10中，所述采用词嵌入分别得到第一目标文本的文本向量D₁和第二目标文本向量D₂，包括：

S101、获取第一目标文本原始长度M₁和第二目标文本的原始长度M₂；将所述第一目标文本的原始长度M₁和第二目标文本的原始长度均调整为预定长度S；

示例性的，当第一目标文本为句子sent₁，第二目标文本为句子sent₂，将不同长度两个句子通过填充和裁剪的方式保持同一长度S，同时计算mask(掩膜)，mask记录句子的原始长度，比如一句话原始长度为28，填充到长度S，那么前28个值为1，后S-28个值为0。在训练数据时可以对于语义相似的目标文本标记为1，语义不相似的目标文本标记为0。

S102、分别对第一目标文本和第二目标文本中的文本单元进行编码映射，分别获取第一目标文本的文本单元的索引ID₁和第二目标文本的文本单元的索引ID₂；

示例性的，如果语料库中一共有20000个字，那么就生成一个id从0至19999的一个字典数据，每个字对应一个不同的id，同理每一个id对应一个不同的字。

S103、根据所述第一目标的预定长度S和文本单元的索引ID1得到第一目标文本的文本向量D₁；根据所述第二目标的预定长度S和文本单元的索引ID₂得到第二目标文本的文本向量D₂。

示例性的，因计算机无直接处理汉字，因此需要将一句话转换为到数字的一系列表示。假设语料中一共有20000个不同的汉字(包括其他常用符号),每个汉字随机初始化为一个300维的向量，那么即可得到一个维度为[20000,300]的向量D，其中对于索引id从0至19999，每个id对应一个不同的汉字。那么对两句话(长度均为S)中的每一个字，都可以在D中找到对应的id,从而获取对应的向量，因此可以得到两个维度为[S,300]的向量。

在一个示例性实施例中，步骤S11中，所述采用位置嵌入分别得到第一目标文本的位置向量P₁和第二目标文本的位置向量P₂，包括如下步骤：

S110、获取第一目标文本原始长度M1和第二目标文本的原始长度M2；将所述第一目标文本的原始长度M₁和第二目标文本的原始长度均调整为预定长度S；

示例性的，如上述所述，当第一目标文本为句子sent₁，第二目标文本为句子sent₂，将不同长度的句子通过填充和裁剪的方式保持同一长度S，同时计算mask，mask记录句子的原始长度，比如一句话原始长度为28，填充到长度S，那么前28个值为1，后S-28个值为0。

S111、分别对第一目标文本和第二目标文本中的文本单元进行编码映射，分别获取第一目标文本的文本单元的位置ID₁和第二目标文本的文本单元的位置ID₂；S112、根据所述第一目标的预定长度S和文本单元的位置ID1得到第一目标文本的位置向量P₁；根据所述第二目标的预定长度S和文本单元的位置ID₂得到第二目标文本的位置向量P₂。

为了获取目标文本中不同字符的位置信息，采用了位置向量P(类似于向量D)，设定P的维度为[200,50]，其中S＝200为目标文本的最大长度，50为对应位置的特征数。假设第一、第二目标文本为句子，句子sent₁和句子sent₂的原始长度分别为61和28，那么sent1的位置id即为1,2,3,4,..,61，剩下的S-61个为0，同理sent2的位置id即为1,2,3,4,...,28，剩下的S-28个为0。对于每一个位置id，都可以在向量P中找到对应的向量，因此可以得到两个维度为[S,50]的向量。

得到上述每个句子的文本和位置向量后，再分别对每个句子的文本和位置向量进行合并后得到每个句子的向量。在一个示例实施例中，采用将句子的文本和位置向量进行横向拼接合并。因此，以上两个句子sent₁和sent₂分别可以得到一个维度为[S,350]的向量。

在一个示例性实施例中，步骤S2中，所述分别将所述获取的第一向量A和第二向量B输入循环神经网络进行编码，得到第一目标文本的表示特征T11和第二目标文本的表示特征T₁₂，包括如下步骤：

S20、分别将所述获取的第一目标文本的向量A和第二目标文本的向量B输入双向LSTM网络进行编码；所述循环神经网络包括所述双向LSTM网络；

S21、将所得的两个方向的关于所述第一目标文本的向量A的输出结果进行合并得到第一目标文本的表示特征T₁₁；将所得的两个方向的关于所述第二目标文本的向量B的输出结果进行合并得到第二目标文本的表示特征T₁₂。

示例性的，将所得的两个词嵌入和位置嵌入的结果分别使用双向LSTM网络进行特征提取，然后将双向长短期记忆网络所得的两个方向的输出结果进行合并，得到两个句子sent₁和sent₂的最终编码结果：表示特征T₁₁，T₁₂，两个句子sent₁和sent₂表示特征T₁₁，T₁₂维度均为[S,E]。

在一个示例性实施例中，步骤S3中，所述根据所述第一目标文本的表示特征T₁₁和第二目标文本的表示特征T₁₂，获取第一目标文本相似度权重矩阵T₄₁和第二目标文本的相似度权重矩阵T₄₂，包括如下步骤：

S31、分别将第一目标文本的表示特征T₁₁和第二目标文本的表示特征T₁₂进行线性变换映射到高维度空间，获得第一目标文本的高维度特征T₂₁和第二目标文本的高维度特征T₂₂；所述高维度空间为高于第一目标文本的表示特征和第二目标文本的表示特征维度空间的维度空间；

S32、将获取的第一目标文本的高维度特征T₂₁和第二目标文本的高维度特征T₂₂进行维度转换，得到转换后的第一目标文本的转换维度特征T₃₁和第二目标文本的转换维度特征T₃₂；

S33、将得到的第一目标文本的转换维度特征T₃₁和转置后的第二目标文本的转换维度特征T₃₂进行矩阵相乘得到第一目标文本的相似度权重矩阵T₄₁；对得到的第一目标文本的相似度权重矩阵T₄₁进行转置得到第二目标文本的相似度权重矩阵T₄₂。

具体的，分别根据第一目标文本和第二目标文本的mask进行softmax计算，获得第一目标文本的相似度权重矩阵T₄₁＝T₃₁*(T₃₂)^T和第二目标文本的相似度权重矩阵T₄₂；其中，所述第一目标文本的mask是根据获取第一目标文本原始长度M₁和预定长度S获得；所述第一目标文本的mask是根据所述第二目标文本的原始长度M₂和预定长度S。

示例性的，采用多头注意力机制计算相似性权重矩阵，当第一目标文本为句子，sent₁第二目标文本为句子sent₂，将所得到的句子sent₁表示特征T₁₁进行线性变换的结果映射成一个维度为[S,512]的新的特征：句子sent₁的高维度特征T₂₁；同理得到句子sent₂的高维度特征T₂₂，即：句子sent₁的高维度特征T₁₁与句子sent₂的高维度特征T₁₂分别乘以一个维度为[E,512]的矩阵。

其次，将句子sent1的高维度特征T₂₁和句子sent₂的高维度特征T₂₂分别进行维度转换，由原来的维度[S,512]->[8,S,64],得到句子sent₁和sent₂的新的特征T₃₁,T₃₂。即由原来的一个语义空间映射到8个语义空间，增强了句子的语义特征和语义表达能力。

然后，对句子sent₁和句子sent₂的新的特征T₃₁,T₃₂进行矩阵相乘得到：句子sent₁的相似度权重矩阵T₄₁＝T₃₁*(T₃₂)^T，T为转置操作；句子sent₂的相似度权重矩阵T₄₂＝(T₄₁)^T。具体的，句子sent₁和句子sent₂根据各自的mask分别进行softmax计算，得到句子sent₁的相似度权重矩阵T₄₁,句子sent₂的相似度权重矩阵T₄₂。在数据处理阶段，短句子需要被填充，因此在计算softmax的时候，需要使用Mask屏蔽掉这些填充的数据，只根据真实长度计算。句子sent₁的相似度权重矩阵T₄₁和句子sent₂的相似度权重矩阵T₄₂维度均为[8,S,S]。但是两者含义不同：在句子sent₁的相似度权重矩阵T₄₁中，每一行代表句子sent₁中对应的每一个字与句子sent₂所有字的权重。在句子sent₂的相似度权重矩阵T₄₂中，每一行代表句子sent₂中对应的每一个字与句子sent₁所有字的权重。第句子sent₁的相似度权重矩阵T₄₁和句子sent₂的相似度权重矩阵T₄₂即为相似性权重矩阵。

在一个示例性实施例中，步骤S3中，所述根据所获取第一目标文相似度权重矩阵T₄₁和第二目标文本的相似度权重矩阵T₄₂，确定出第一目标文本和第二目标文本的语义相似度，还包括如下步骤：

S36、对所述第一目标文本的表示特征T₁₁和第二目标文本的相似度权重矩阵T₄₂进行矩阵相乘后进行维度转换，得到第一目标文本的加权特征T₅₁；

对所述第二目标文本的表示特征T₁₂和第一目标文本的相似度权重矩阵T₄₁进行矩阵相乘后进行维度转换，得到第二目标文本的加权特征T₅₂。

示例性的，对于所得到的句子sent₁、句子sent₂的相似度权重矩阵T₄₁、T₄₂以及句子sent₁、句子sent₂的表示特征T₁₁与T₁₂，将句子sent₁的相似度权重矩阵T₄₁与句子sent₂的表示特征T₁₂进行矩阵相乘得到句子sent₂的加权特征T₅₂＝T₄₁*T₁₂；将句子sent₂的相似度权重矩阵T₄₂与句子sent₁的表示特征T₁₁进行矩阵相乘得到句子sent₁的加权特征T₅₁＝T₄₂*T₁₁，T₅₁与T₅₂的维度均为[8,S,64]，然后分别进行维度转换即[8,S,64]->[S,512]，依旧记为T₅₁,T₅₂。

S37、根据第一目标文本的加权特征T₅₁和第二目标文本的加权特征T₅₂，分别采用两个隐层的特定节点数的单向LSTM网络得到特征后进行池化操作得到所述第一目标文本语义表示向量T₇₁和第二目标文本的语义表示向量T₇₂；

S38、对得到的第一目标文本语义表示向量矩阵表示T₇₁和第二目标文本的语义表示向量矩阵表示T₇₂采用余弦相似度计算确定出第一目标文本和第二目标文本的语义相似度。

对所得的句子sent₁、句子sent₂的加权特征T₅₁、T₅₂，因维度较高，因此需要降低维度，提取宏观语义特征。将句子sent₁、句子sent₂的加权特征T₅₁,T₅₂分别通过两个隐层节点数较少(如100)的单向LSTM网络得到特征T₆₁和T₆₂，两者维度均为[S,100]，然后将T₆₁,T₆₂进行池化操作可得到两个维度为[100]的最终句子sent₁、句子sent₂的语义表示向量T₇₁、T₇₂。

将所得的句子sent₁、句子sent₂的语义表示向量T₇₁、T₇₂进行余弦相似度计算，得到最终的得分，示例性的，得分处于0-1之间。在训练阶段，可以采用均方误差(MSE)计算两个句子之间的相似性误差并进行反向传播。在预测阶段，输出两个句子的相似性得分。

在一个示例性实施例中，步骤S101和步骤S110中，所述第一目标文本原始长度M₁和第二目标文本的原始长度M₂；将所述第一目标文本的原始长度M₁和第二目标文本的原始长度均调整为预定长度S之前，还包括步骤：去除所述第一目标文本和第二目标文本中指定特征。

示例性的，在进行语义相似度计算前，首先要对数据进行清洗，去除句子中的一些不必要的符号如表情符号、网址链接以及多余的标点等。

如图2所示，本发明实施例一种语义相似度确定装置，包括如下模块：

向量获取模块10，用于获取第一目标文本的向量A和第二目标文本的向量B；

示例性的，目标文本可以为词语、句子、段落等。

编码模块20，用于分别将所述获取的第一目标文本的向量A和第二目标文本的向量B输入循环神经网络进行编码，得到第一目标文本的表示特征T₁₁和第二目标文本的表示特征T₁₂；

分析模块30，用于根据所获取的第一目标文本的表示特征T₁₁和第二目标文本的表示特征T₁₂，获取第一目标文相似度权重矩阵T₄₁和第二目标文本的相似度权重矩阵T₄₂；在所述第一目标文相似度权重矩阵T₄₁中，每一行代表第一目标文本中对应的每一个文本单元与第二目标文本所有文本单元的权重；在第二目标文本的相似度权重矩阵T₄₂中，每一行代表第二目标文本中对应的每一个文本单元与第一目标文本所有文本单元的权重；分析模块30，还用于根据所获取第一目标文相似度权重矩阵T₄₁和第二目标文本的相似度权重矩阵T₄₂，确定出第一目标文本和第二目标文本的语义相似度。

在一个示例性实施例中，向量获取模块10获取第一目标文本的向量A和第二目标文本的向量B，是指：

向量获取模块10，用于采用词嵌入分别得到第一目标文本的文本向量D₁和第二目标文本的文本向量D₂；

向量获取模块10，用于采用位置嵌入分别得到第一目标文本的位置向量P₁和第二目标文本位置向量P₂；

向量获取模块10，用于将所述第一目标文本的文本向量D1和位置向量P1进行合并得到所述第一目标文本的向量A；将所述第二目标文本的文本向量D2和位置向量P2进行合并得到所述第二目标文本的向量B。

在一个示例性实施例中，向量获取模块10采用词嵌入分别得到第一目标文本的文本向量D₁和第二目标文本向量D₂，是指：

向量获取模块10，用于获取第一目标文本原始长度M₁和第二目标文本的原始长度M₂；将所述第一目标文本的原始长度M₁和第二目标文本的原始长度均调整为预定长度S；

示例性的，当第一目标文本为句子sent₁，第二目标文本为句子sent₂，将不同长度两个句子通过填充和裁剪的方式保持同一长度S，同时计算mask，mask记录句子的原始长度，比如一句话原始长度为28，填充到长度S，那么前28个值为1，后S-28个值为0。并对于语义相似的两个目标文本，标记为1，语义不相似的目标文本标记为0，来对训练数据进行提前标记。

向量获取模块10，用于分别对第一目标文本和第二目标文本中的文本单元进行编码映射，分别获取第一目标文本的文本单元的索引ID₁和第二目标文本的文本单元的索引ID₂；

示例性的，如果语料库中一共有20000个字，那么就生成一个id从0至19999的一个字典数据，文本单元对应一个不同的id，同理每一个id对应一个不同的字。S103、根据所述第一目标的预定长度S和文本单元的索引ID1得到第一目标文本的文本向量D₁；根据所述第二目标的预定长度S和文本单元的索引ID₂得到第二目标文本的文本向量D₂。示例性的，因计算机无直接处理汉字，因此需要将一句话转换为到数字的一系列表示。假设语料中一共有20000个不同的汉字(包括其他常用符号),每个汉字随机初始化为一个300维的向量，那么即可得到一个维度为[20000,300]的向量D，其中对于索引id从0至19999，每个id对应一个不同的汉字。那么对两句话(长度均为S)中的每一个字，都可以在D中找到对应的id,从而获取对应的向量，因此可以得到两个维度为[S,300]的向量。

在一个示例性实施例中，向量获取模块10采用位置嵌入分别得到第一目标文本的位置向量P₁和第二目标文本的位置向量P₂，包括如下步骤：

示例性的，当第一目标文本为句子sent₁，第二目标文本为句子sent₂，将不同长度的句子通过填充和裁剪的方式保持同一长度S，同时计算mask，mask记录句子的原始长度，比如一句话原始长度为28，填充到长度S，那么前28个值为1，后S-28个值为0。并对于语义相似的两个句子，标记为1，语义不相似的句子标记为0。

向量获取模块10，用于分别对第一目标文本和第二目标文本中的文本单元进行编码映射，分别获取第一目标文本的文本单元的位置ID₁和第二目标文本的文本单元的位置ID₂；S112、根据所述第一目标的预定长度S和文本单元的位置ID1得到第一目标文本的位置向量P₁；根据所述第二目标的预定长度S和文本单元的位置ID₂得到第二目标文本的位置向量P₂。

再对于每个句子得到的文本和位置向量进行合并得到每个句子的向量。在一个示例实施例中，采用将句子的文本和位置向量进行横向拼接合并。因此，以上两个句子sent₁和sent₂分别可以得到一个维度为[S,350]的向量。

在一个示例性实施例中，编码模块20，用于分别将所述获取的第一向量A和第二向量B输入循环神经网络进行编码，得到第一目标文本的表示特征T11和第二目标文本的表示特征T₁₂，是指：

编码模块20，用于分别将所述获取的第一目标文本的向量A和第二目标文本的向量B输入双向LSTM网络进行编码；所述循环神经网络包括所述双向LSTM网络；

编码模块20，用于将所得的两个方向的关于所述第一目标文本的向量A的输出结果进行合并得到第一目标文本的表示特征T₁₁；将所得的两个方向的关于所述第二目标文本的向量B的输出结果进行合并得到第二目标文本的表示特征T₁₂。

示例性的，将所得的两个词嵌入和位置嵌入的结果分别使用双向LSTM网络进行特征提取，然后将双向长短期记忆网络所得的两个方向的输出结果进行合并，得到两个句子sent₁和sent₂的最终编码结果：表示特征T₁₁，T₁₂，两个句子sent₁和sent₂表示特征T₁₁，T₁₂维度均为为[S,E]。

在一个示例性实施例中，分析模块30，用于根据所述第一目标文本的表示特征T₁₁和第二目标文本的表示特征T₁₂，获取第一目标文本相似度权重矩阵T₄₁和第二目标文本的相似度权重矩阵T₄₂，是指：

分析模块30，用于分别将第一目标文本的表示特征T₁₁和第二目标文本的表示特征T₁₂进行线性变换映射到高维度空间，获得第一目标文本的高维度特征T₂₁和第二目标文本的高维度特征T₂₂；

分析模块30，用于将获取的第一目标文本的高维度特征T₂₁和第二目标文本的高维度特征T₂₂进行维度转换，得到转换后的第一目标文本的转换维度特征T₃₁和第二目标文本的转换维度特征T₃₂；

分析模块30，用于将得到的第一目标文本的转换维度特征T₃₁和转置后的第二目标文本的转换维度特征T₃₂进行矩阵相乘得到第一目标文本的相似度权重矩阵T₄₁；对得到的第一目标文本的相似度权重矩阵T₄₁进行转置得到第二目标文本的相似度权重矩阵T₄₂。；

具体的，分析模块30，用于分别根据第一目标文本和第二目标文本的mask进行softmax计算，获得第一目标文本的相似度权重矩阵T₄₁＝T₃₁*(T₃₂)^T和第二目标文本的相似度权重矩阵T₄₂；其中，所述第一目标文本的mask是根据获取第一目标文本原始长度M₁和预定长度S获得；所述第二目标文本的mask是根据所述第二目标文本的原始长度M₂和预定长度S。

示例性的，当第一目标文本为句子sent₁，第二目标文本为句子sent₂，将所得到的句子sent₁表示特征T₁₁进行线性变换的结果映射成一个维度为[S,512]的新的特征：句子sent₁的高维度特征T₂₁；同理得到句子sent₂的高维度特征T₂₂，即：句子sent₁的高维度特征T₁₁与句子sent₂的高维度特征T₁₂分别乘以一个维度为[E,512]的矩阵。

其次，将句子sent1的高维度特征T₂₁和句子sent₂的高维度特征T₂₂分别进行维度转换，由原来的维度[S,512]->[8,S,64]，维度变化：512＝8*64，相当于把512分成8份，每份64。得到句子sent₁和sent₂的新的特征T₃₁,T₃₂。即由原来的一个语义空间映射到8个语义空间，增强了句子的语义特征和语义表达能力。

句子sent₁和句子sent₂的新的特征T₃₁,T₃₂进行矩阵相乘得到：句子sent₁的相似度权重矩阵T₄₁＝T₃₁*(T₃₂)^T，T为转置操作；句子sent₂的相似度权重矩阵T₄₂＝(T₄₁)^T。具体的，句子sent₁,句子sent₂根据各自的mask分别进行softmax计算sent1的相似度权重矩阵T₄₁,句子sent₂的相似度权重矩阵T₄₂。句子sent₁的相似度权重矩阵T₄₁和句子sent₂的相似度权重矩阵T₄₂维度均为[8,S,S]。但是两者含义不同：在句子sent₁的相似度权重矩阵T₄₁中，每一行代表句子sent₁中对应的每一个字与句子sent₂所有字的权重。在句子sent₂的相似度权重矩阵T₄₂中，每一行代表句子sent₂中对应的每字与句子sent₁所有字的权重。第句子sent₁的相似度权重矩阵T₄₁和句子sent₂的相似度权重矩阵T₄₂即为相似性权重矩阵。

在一个示例性实施例中，步骤S3中，分析模块30，用于根据所获取第一目标文相似度权重矩阵T₄₁和第二目标文本的相似度权重矩阵T₄₂，确定出第一目标文本和第二目标文本的语义相似度，还指：

分析模块30，用于对所述第一目标文本的表示特征T₁₁和第二目标文本的相似度权重矩阵T₄₂进行矩阵相乘后进行维度转换，得到第一目标文本的加权特征T₅₁；对所述第二目标文本的表示特征T₁₂和第一目标文本的相似度权重矩阵T₄₁进行矩阵相乘后进行维度转换，得到第二目标文本的加权特征T₅₂。

示例性的，对于所得到的句子sent₁、句子sent₂的相似度权重矩阵T₄₁、T₄₂以及句子sent₁、句子sent₂的表示特征T₁₁与T₁₂，将句子sent₁的相似度权重矩阵T₄₁与句子sent₂的表示特征T₁₂进行矩阵相乘得到句子sent₂的加权特征T₅₂＝T₄₁*T₁₂；将句子sent₂的相似度权重矩阵T₄₂与句子sent₁的表示特征T₁₁进行矩阵相乘得到句子sent₁的加权特征T₅₁＝T₄₂*T₁₁，T₅₁与T₅₂的维度均为[8,S,64],然后分别进行维度转换即[8,S,64]->[S,512],依旧记为T₅₁,T₅₂。

分析模块30，用于根据第一目标文本的加权特征T₅₁和第二目标文本的加权特征T₅₂，分别采用两个隐层的特定节点数的单向LSTM网络得到特征后进行池化操作得到所述第一目标文本语义表示向量T₇₁和第二目标文本的语义表示向量T₇₂；

分析模块30，用于对得到的第一目标文本语义表示向量矩阵表示T₇₁和第二目标文本的语义表示向量矩阵表示T₇₂采用余弦相似度计算确定出第一目标文本和第二目标文本的语义相似度。

对所得的句子sent₁、句子sent₂的加权特征T₅₁、T₅₂，因维度较高，因此需要降低维度，提取宏观语义特征。将句子sent₁、句子sent₂的加权特征T₅₁,T₅₂分别通过两个隐层节点数较少(如100)的单向LSTM网络得到特征T₆₁和T₆₂，两者维度均为[S,100]，然后将T₆₁,T₆₂进行池化操作可得到两个维度为[100]的最终句子sent₁、句子sent₂的语义表示向量T₇₁,T₇₂。

将所得的句子sent₁、句子sent₂的语义表示向量T₇₁、T₇₂进行余弦相似度计算，得到最终的得分，示例性的，得分处于0-1之间。在训练阶段，采用均方误差(MSE)计算两个句子之间的相似性误差并进行反向传播。在预测阶段，输出两个句子的相似性得分。

例如对数据进行清洗，去除句子中的一些不必要的符号如表情符号、网址链接以及多余的标点等。本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

Claims

1.一种语义相似度确定方法，其特征在于，包括：

获取第一目标文本的向量和第二目标文本的向量；

分别将所获取的第一目标文本的向量和第二目标文本的向量输入循环神经网络进行编码，得到第一目标文本的表示特征和第二目标文本的表示特征；

根据所得到的第一目标文本的表示特征和第二目标文本的表示特征，获取第一目标文本相似度权重矩阵和第二目标文本的相似度权重矩阵；在所述第一目标文相似度权重矩阵中，每一行代表第一目标文本中对应的文本单元与第二目标文本所有文本单元的权重；在第二目标文本的相似度权重矩阵中，每一行代表第二目标文本中对应的文本单元与第一目标文本所有文本单元的权重；

根据所获取第一目标文相似度权重矩阵和第二目标文本的相似度权重矩阵，确定出第一目标文本和第二目标文本的语义相似度；

所述根据所述第一目标文本的表示特征和第二目标文本的表示特征，获取第一目标文本相似度权重矩阵和第二目标文本的相似度权重矩阵，包括：

分别将第一目标文本的表示特征和第二目标文本的表示特征进行线性变换映射到高维度空间，获得第一目标文本的高维度特征和第二目标文本的高维度特征；

将获得的第一目标文本的高维度特征和第二目标文本的高维度特征进行维度转换，得到转换后的第一目标文本的转换维度特征和第二目标文本的转换维度特征；

将得到的第一目标文本的转换维度特征和转置后的第二目标文本的转换维度特征进行矩阵相乘得到第一目标文本的相似度权重矩阵；

对得到的第一目标文本的相似度权重矩阵进行转置得到第二目标文本的相似度权重矩阵；

所述根据所获取第一目标文相似度权重矩阵和第二目标文本的相似度权重矩阵，确定出第一目标文本和第二目标文本的语义相似度，包括：

对所述第一目标文本的表示特征和第二目标文本的相似度权重矩阵进行矩阵相乘后进行维度转换，得到第一目标文本的加权特征；

对所述第二目标文本的表示特征和第一目标文本的相似度权重矩阵进行矩阵相乘后进行维度转换，得到第二目标文本的加权特征；

根据第一目标文本的加权特征和第二目标文本的加权特征，分别采用两个隐层的特定节点数的单向LSTM网络得到特征后进行池化操作，得到所述第一目标文本语义表示向量和第二目标文本的语义表示向量；对得到的第一目标文本语义表示向量矩阵表示和第二目标文本的语义表示向量矩阵表示采用余弦相似度计算确定出第一目标文本和第二目标文本的语义相似度。

2.根据权利要求1所述的方法，其特征在于，所述获取第一目标文本的向量和第二目标文本的向量，包括：

采用词嵌入分别得到第一目标文本的文本向量和第二目标文本的文本向量；

采用位置嵌入分别得到第一目标文本的位置向量和第二目标文本位置向量；

将所述第一目标文本的文本向量和位置向量进行合并得到所述第一目标文本的向量；

将所述第二目标文本的文本向量和位置向量进行合并得到所述第二目标文本的向量。

3.根据权利要求2所述的方法，其特征在于，所述采用词嵌入分别得到第一目标文本的文本向量和第二目标文本向量，包括：

将所述第一目标文本的长度和第二目标文本的长度均调整为预定长度；

分别对第一目标文本和第二目标文本中的文本单元进行编码映射，分别获取第一目标文本的文本单元的索引ID和第二目标文本的文本单元的索引ID；

根据所述预定长度和所述第一目标文本中文本单元的索引ID得到第一目标文本的文本向量；

根据所述预定长度和所述第二目标文本中文本单元的索引ID得到第二目标文本的文本向量。

4.根据权利要求2所述的方法，其特征在于，所述采用位置嵌入分别得到第一目标文本的位置向量和第二目标文本的位置向量，包括：

获取第一目标文本原始长度和第二目标文本的原始长度；将所述第一目标文本的原始长度和第二目标文本的原始长度均调整为预定长度；

分别对第一目标文本和第二目标文本中的文本单元进行编码映射，分别获取第一目标文本的文本单元的位置ID和第二目标文本的文本单元的位置ID；

根据所述预定长度和所述第一目标文本中文本单元的位置ID得到第一目标文本的位置向量；

根据所述预定长度和所述第二目标文本中文本单元的位置ID得到第二目标文本的位置向量。

5.根据权利要求1所述的方法，其特征在于，所述分别将所述获取的第一向量和第二向量输入循环神经网络进行编码，得到第一目标文本的表示特征和第二目标文本的表示特征，包括：

分别将所述获取的第一目标文本的向量和第二目标文本的向量输入双向LSTM网络进行编码；

将所得的两个方向的关于所述第一目标文本的向量的输出结果进行合并得到第一目标文本的表示特征；

将所得的两个方向的关于所述第二目标文本的向量的输出结果进行合并得到第二目标文本的表示特征。

6.根据权利要求1所述的方法，其特征在于，所述将获得的第一目标文本的高维度特征和第二目标文本的高维度特征进行维度转换，得到转换后的第一目标文本的转换维度特征和第二目标文本的转换维度特征，包括：

将获取的第一目标文本的高维度特征和第二目标文本的高维度特征分别进行多维度转换，将原来的单个语义空间映射到多个语义空间，得到转换后的第一目标文本的转换维度特征和第二目标文本的转换维度特征。

7.根据权利要求3或4所述的方法，其特征在于，将所述第一目标文本的原始长度和第二目标文本的原始长度均调整为预定长度之前，还包括：去除所述第一目标文本和第二目标文本中指定特征。

8.一种语义相似度确认装置，其特征在于，包括：

向量获取模块，用于获取第一目标文本的向量和第二目标文本的向量；

编码模块，用于分别将所述获取的第一目标文本的向量和第二目标文本的向量输入循环神经网络进行编码，得到第一目标文本的表示特征和第二目标文本的表示特征；

分析模块，用于根据所获取的第一目标文本的表示特征和第二目标文本的表示特征，获取第一目标文相似度权重矩阵和第二目标文本的相似度权重矩阵；在所述第一目标文相似度权重矩阵中，每一行代表第一目标文本中对应的每一个文本单元与第二目标文本所有文本单元的权重；在第二目标文本的相似度权重矩阵中，每一行代表第二目标文本中对应的每一个文本单元与第一目标文本所有文本单元的权重；分析模块，还用于根据所获取第一目标文相似度权重矩阵和第二目标文本的相似度权重矩阵，确定出第一目标文本和第二目标文本的语义相似度；