CN112926339B

CN112926339B - 文本相似度确定方法、系统、存储介质以及电子设备

Info

Publication number: CN112926339B
Application number: CN202110258338.7A
Authority: CN
Inventors: 郭元凯; 王斌; 孟二利; 史亮
Original assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2021-03-09
Filing date: 2021-03-09
Publication date: 2024-02-09
Anticipated expiration: 2041-03-09
Also published as: US12045578B2; EP4057180A1; CN112926339A; US20220292265A1

Abstract

本公开涉及一种文本相似度确定方法、系统、存储介质以及电子设备，涉及计算机技术领域，该方法包括：确定第一文本对应第一编码序列和第二文本对应的第二编码序列，并根据第一编码序列以及第二编码序列，分别得到第一编码序列对应的第一融合特征和第二编码序列对应的第二融合特征，然后将第一融合特征、第二融合特征转换为对应的用于表示语义的第一语义特征和第二语义特征，并根据该第一语义特征和第二语义特征来计算第一文本与第二文本的相似度。可以综合考虑第一文本与第二文本的字符串特征以及语义特征来计算文本相似度，使得计算到的文本相似度更加准确。

Description

文本相似度确定方法、系统、存储介质以及电子设备

技术领域

本公开涉及计算机技术领域，尤其涉及一种文本相似度确定方法、系统、存储介质以及电子设备。

背景技术

目前，文本相似度计算被广泛应用于各个业务场景中，比如，智能客服、文档分类与聚类、文献查重等领域。在相关技术中，一般通过统计一组文本中的字符的重复度来衡量该组文本是否相似。但是这种相似度算法无法考虑该组文本的语义信息，当该组文本的表意相同、但是字符不同时，这种基于字符重复度的相似度算法并不能实现较好的识别效果。

发明内容

为克服相关技术中存在的问题，本公开提供一种文本相似度确定方法、系统、存储介质以及电子设备。

根据本公开实施例的第一方面，提供一种文本相似度确定方法，包括：

获取需要进行文本相似度计算的第一文本以及第二文本；

确定所述第一文本与所述第二文本之间的字符串特征；

分别将所述第一文本和所述第二文本转换为向量编码，得到所述第一文本对应第一编码序列和所述第二文本对应的第二编码序列；

根据所述第一编码序列、以及所述第二编码序列，得到所述第一编码序列对应的第一融合特征和所述第二编码序列对应的第二融合特征；

根据所述字符串特征、所述第一编码序列、以及所述第一融合特征，得到所述第一文本的第一语义特征；以及

根据所述字符串特征、所述第二编码序列、以及所述第二融合特征，得到所述第二文本的第二语义特征；

根据所述第一语义特征以及所述第二语义特征，确定所述第一文本与所述第二文本之间的文本相似度。

在一些实施例中，所述分别将所述第一文本和所述第二文本转换为向量编码，得到所述第一文本对应第一编码序列和所述第二文本对应的第二编码序列，包括：

分别将所述第一文本和所述第二文本中的字符转换为对应的特征向量，得到所述第一文本对应的字符特征向量和所述第二文本对应的字符特征向量；

分别对所述第一文本对应的字符特征向量和所述第二文本对应的字符特征向量进行编码，得到所述第一编码序列和所述第二编码序列。

在一些实施例中，所述根据所述第一编码序列、以及所述第二编码序列，得到所述第一编码序列对应的第一融合特征和所述第二编码序列对应的第二融合特征，包括：

将所述第一编码序列与所述第二编码序列中的元素相乘，得到对齐矩阵；

基于所述对齐矩阵，结合第一预设计算式，得到所述第一融合特征，其中，所述第一预设计算式为：

其中，为所述第一融合特征中的第i个元素，l_b为所述第二编码序列的长度，e_ij为所述对齐矩阵中的第i行第j列的元素，e_ik为所述对齐矩阵中的第i行第k列的元素，/>为所述第二编码序列中的第j个元素；

基于所述对齐矩阵，结合第二预设计算式，得到所述第二融合特征，其中，所述第二预设计算式为：

其中，为所述第二融合特征中的第i个元素，l_a为所述第一编码序列的长度，e_ij为所述对齐矩阵中的第i行第j列的元素，e_kj为所述对齐矩阵中的第k行第j列的元素，/>为所述第一编码序列中的第i个元素。

在一些实施例中，所述根据所述字符串特征、所述第一编码序列、以及所述第一融合特征，得到所述第一文本的第一语义特征，包括：

将所述第一编码序列、所述第一融合特征、所述第一编码序列与所述第一融合特征之间的差值、所述第一编码序列与所述第一融合特征的点积、以及所述字符串特征进行拼接，得到所述第一文本的全局特征；

对所述第一文本的全局特征进行编码，得到所述第一语义特征。

在一些实施例中，所述根据所述字符串特征、所述第二编码序列、以及所述第二融合特征，得到所述第二文本的第二语义特征，包括：

将所述第二编码序列、所述第二融合特征、所述第二编码序列与所述第二融合特征之间的差值、所述第二编码序列与所述第二融合特征的点积、以及所述字符串特征进行拼接，得到所述第二文本的全局特征；

对所述第二文本的全局特征进行编码，得到所述第二语义特征。

在一些实施例中，所述根据所述第一语义特征以及所述第二语义特征，确定所述第一文本与所述第二文本之间的文本相似度，包括：

分别对所述第一语义特征和所述第二语义特征进行池化处理，得到所述第一语义特征对应的池化结果和所述第二语义特征对应的池化结果；

对所述第一语义特征对应的池化结果和所述第二语义特征对应的池化结果进行拼接，得到拼接特征；

根据所述拼接特征，计算所述第一文本与所述第二文本的文本相似度。

在一些实施例中，所述字符串特征包括词频-逆文本频率、编辑距离、曼哈顿距离以及Jaccard相似系数中的至少一种。

根据本公开实施例的第二方面，提供一种文本相似度确定系统，包括：

获取模块，被配置为获取需要进行文本相似度计算的第一文本以及第二文本；

字符串特征计算模块，被配置为确定所述第一文本与所述第二文本之间的字符串特征；

向量编码模块，被配置为分别将所述第一文本和所述第二文本转换为向量编码，得到所述第一文本对应第一编码序列和所述第二文本对应的第二编码序列；

特征融合模块，被配置为根据所述第一编码序列、以及所述第二编码序列，得到所述第一编码序列对应的第一融合特征和所述第二编码序列对应的第二融合特征；

拼接模块，被配置为根据所述字符串特征、所述第一编码序列、以及所述第一融合特征，得到所述第一文本的第一语义特征；以及

文本相似度计算模块，被配置为根据所述第一语义特征以及所述第二语义特征，确定所述第一文本与所述第二文本之间的文本相似度。

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述存储器中存储的指令，以实现本公开第一方面所述的方法的步骤。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现本公开第一方面所提供的文本相似度确定方法的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：通过根据字符串特征、第一编码序列、以及第一融合特征得到能够用于综合表示第一文本的语义表示的第一语义特征，以及根据字符串特征、第二编码序列、以及第二融合特征得到能够用于综合表示第二文本的语义表示的第二语义特征，并根据该第一语义特征和第二语义特征来计算第一文本与第二文本的相似度。可以综合考虑第一文本与第二文本的字符串特征以及语义特征来计算文本相似度，使得计算到的文本相似度更加准确。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种文本相似度确定方法的流程图；

图2是根据一示例性实施例示出的将文本转换为向量编码的流程图；

图3是根据一示例性实施例示出的计算第一语义特征的流程图；

图4是根据一示例性实施例示出的计算第二语义特征的流程图；

图5是根据一示例性实施例示出的计算文本相似度的流程图；

图6是根据一示例性实施例示出的文本相似度确定方法的原理图；

图7是根据一示例性实施例示出的文本相似度确定系统的框图；

图8是根据一示例性实施例示出的一种电子设备800的框图；

图9是根据一示例性实施例示出的一种电子设备1900的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种文本相似度确定方法的流程图，如图1所示，该文本相似度确定方法可以用于电子设备中，包括以下步骤。

在步骤S110中，获取需要进行文本相似度计算的第一文本以及第二文本。

这里，第一文本和第二文本可以是任意一组需要进行文本相似度计算的文本。例如，在智能问答的应用中，输入文本与知识库中的任一文本进行文本相似度计算。

在步骤S120中，确定所述第一文本与所述第二文本之间的字符串特征。

这里，字符串特征可以反映第一文本与第二文本在字符上的相似度，该字符串特征可以包括词频-逆文本频率、编辑距离、曼哈顿距离以及Jaccard相似系数中的至少一种。

其中，词频-逆文本频率(Term Frequency-Inverse Document Frequency，TF-IDF)用于评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。词频(term frequency，TF)指的是某一个词语在该文件中出现的次数，逆向文本频率(inverse document frequency，IDF是指如果包含词条t的文档越少，则IDF越大，说明词条t具有很好的类别区分能力。

编辑距离(Minimum Edit Distance，MED)是指从第一文本转换成第二文本所需要的最少编辑操作次数。

曼哈顿距离一般用于标明两个点上在标准坐标系上的绝对轴距总和，可以通过score＝1/(euclideanDistance+1)得到相似度，其中，score为相似度，euclideanDistance为曼哈顿距离。

Jaccard相似系数是指第一文本与第二文本的交集和第一文本与第二文本的合集之间的比值，即第一文本与第二文本共有的词除以第一文本与第二文本所有的词为Jaccard相似系数。

值得说明的是，词频-逆文本频率、编辑距离、曼哈顿距离以及Jaccard相似系数的计算方法为现有技术，在此不作详细说明。

应当理解的是，虽然在本公开中的字符串特征包括词频-逆文本频率、编辑距离、曼哈顿距离以及Jaccard相似系数中的至少一种，但在实际应用中，也可以包括其他能够用于表达第一文本与第二文本在字符上的相似度的特征，例如，汉明距离、欧几里得距离、余弦相似性等。

在步骤S130中，分别将所述第一文本和所述第二文本转换为向量编码，得到所述第一文本对应第一编码序列和所述第二文本对应的第二编码序列。

这里，向量编码是指将第一文本、第二文本中的字词转换为向量，可以利用神经网络模型将第一文本、第二文本中的字词转换为向量。

在步骤S140中，根据所述第一编码序列、以及所述第二编码序列，得到所述第一编码序列对应的第一融合特征和所述第二编码序列对应的第二融合特征。

这里，第一融合特征是指在第一文本中融合第二文本，使得第一文本能够与第二文本进行交互，融合第一文本与第二文本之间的特征。第二融合特征是指在第二文本中融合第一文本，使得第二文本能够与第一文本进行交互，融合第二文本与第一文本之间的特征。

其中，可以将第一编码序列与第二编码序列进行矩阵对应元素相乘，得到对齐矩阵，然后在对齐矩阵上使用注意力机制，使得第一文本与第二文本互相加权，得到第一融合特征和第二融合特征。

在步骤S150中，根据所述字符串特征、所述第一编码序列、以及所述第一融合特征，得到所述第一文本的第一语义特征。

这里，可以直接将字符串特征、第一编码序列以及第一融合特征进行拼接，得到该第一语义特征。也可以是将第一编码序列、第一融合特征、第一编码序列与第一融合特征之间的差值、第一编码序列与第一融合特征的点积、以及字符串特征进行拼接，得到该第一语义特征。其中，第一语义特征是可以表示第一文本的语义表示的特征信息。

在步骤S160中，根据所述字符串特征、所述第二编码序列、以及所述第二融合特征，得到所述第二文本的第二语义特征。

这里，可以直接将字符串特征、第二编码序列以及第二融合特征进行拼接，得到该第二语义特征。也可以是将第二编码序列、第二融合特征、第二编码序列与第二融合特征之间的差值、第二编码序列与第二融合特征的点积、以及字符串特征进行拼接，得到该第一语义特征。其中，第二语义特征是可以表示第二文本的语义表示的特征信息。

在步骤S170中，根据所述第一语义特征以及所述第二语义特征，确定所述第一文本与所述第二文本之间的文本相似度。

这里，在得到第一语义特征和第二语义特征之后，可以根据该第一语义特征和第二语义特征，计算第一文本与第二文本的文本相似度。具体可以是通过计算第一语义特征和第二语义特征之间的欧式距离，计算第一文本与第二文本之间的文本相似度。也可以利用Sigmoid激活函数第一语义特征和第二语义特征进行打分，得到第一文本与第二文本之间的文本相似度。

由此，通过根据字符串特征、第一编码序列、以及第一融合特征得到能够用于综合表示第一文本的语义表示的第一语义特征，以及根据字符串特征、第二编码序列、以及第二融合特征得到能够用于综合表示第二文本的语义表示的第二语义特征，并根据该第一语义特征和第二语义特征来计算第一文本与第二文本的相似度。可以综合考虑第一文本与第二文本的字符串特征以及语义特征来计算文本相似度，使得计算到的文本相似度更加准确。

图2是根据一示例性实施例示出的将文本转换为向量编码的流程图。如图2所示，在一些可实现的实施方式中，步骤S130中，分别将所述第一文本和所述第二文本转换为向量编码，得到所述第一文本对应第一编码序列和所述第二文本对应的第二编码序列，可以包括：

在步骤S131中，分别将所述第一文本和所述第二文本中的字符转换为对应的特征向量，得到所述第一文本对应的字符特征向量和所述第二文本对应的字符特征向量。

这里，字符特征向量是指将第一文本、第二文本的字符转换为低维稠密的特征表示，可以通过神经网络模型中的嵌入层分别将第一文本的字符和第二文本中的字符转换成对应的字符特征向量。其中，嵌入层通过使用预训练的词向量进行初始化，并在神经网络的训练过程中不断更新的，嵌入层通过接收第一文本和第二文本的字符，将对应的字符转换成对应的低维稠密的特征表示。通过嵌入层进行的词嵌入，使得每个字符都会有对应的特征向量，相似的词的特征向量之间的距离会跟近。

在步骤S132中，分别对所述第一文本对应的字符特征向量和所述第二文本对应的字符特征向量进行编码，得到所述第一编码序列和所述第二编码序列。

这里，第一编码序列是指融合了第一文本的上下文特征的编码序列，第二编码序列是指融合了第二文本的上下文特征的编码序列。其中，嵌入层输出的第一文本对应的字符特征向量和第二文本对应的字符特征向量，可以作为上下文编码层的输入，该上下文编码层可以采用BiLSTM(Bi-directional Long Short-Term Memory)结构分别对输入的第一文本对应的字符特征向量和第二文本对应的字符特征向量进行编码，得到第一编码序列和第二编码序列。其中，BiLSTM包括一个前向的LSTM和一个后向的LSTM，用于进行上下文信息建模。

由此，通过分别对第一文本对应的字符特征向量和第二文本对应的字符特征向量进行编码，可以得到融合第一文本的上下文信息的第一编码序列以及融合第二文本的上下文信息的第二编码序列，从而在文本相似度计算过程中，能够考虑文本的上下文信息，提高文本相似度计算结果。

在一些可实现的实施方式中，步骤S140中，根据所述第一编码序列、以及所述第二编码序列，得到所述第一编码序列对应的第一融合特征和所述第二编码序列对应的第二融合特征，包括：

这里，第一编码序列与第二编码序列通过矩阵对应元素相乘得到对齐矩阵。其中，对齐矩阵中的元素可以表示为：

其中，e_ij为所述对齐矩阵中的第i行第j列中的元素，为所述第一编码序列中的第i个元素，/>为所述第二编码序列中的第j个元素，T表示矩阵的转置。

在获得对齐矩阵后，在对齐矩阵上使用注意力机制，使得第一文本与第二文本互相加权，能够将第一文本与第二文本进行交互，融合第一文本与第二文本之间的特征。其中，注意力机制是利用上述的第一预设计算式以及第二预设计算式对第一文本以及第二文本进行特征融合。

图3是根据一示例性实施例示出的计算第一语义特征的流程图。如图3所示，在一些可实现的实施方式中，步骤S150中，根据所述字符串特征、所述第一编码序列、以及所述第一融合特征，得到所述第一文本的第一语义特征，包括：

在步骤S151中，将所述第一编码序列、所述第一融合特征、所述第一编码序列与所述第一融合特征之间的差值、所述第一编码序列与所述第一融合特征的点积、以及所述字符串特征进行拼接，得到所述第一文本的全局特征。

这里，可以通过神经网络模型的融合推理层将第一编码序列、第一融合特征以及字符串特征进行汇总并重新编码。其中，字符串特征在输入融合推理层之前，可以将字符串特征输出全连接层进行特征空间的变换，使得字符串特征与第一融合特征处于同一个特征空间。融合推理层将第一编码序列、第一融合特征、第一编码序列与第一融合特征之间的差值、第一编码序列与第一融合特征的点积、以及所述字符串特征进行拼接，得到第一文本的全局特征。

在步骤S152中，对所述第一文本的全局特征进行编码，得到所述第一语义特征。

这里，在得到第一文本的全局特征之后，融合推理层将第一文本的全局特征经过BiLSTM进行混合编码，得到第一语义特征。其中，第一语义特征是指第一文本的语义表示。

由此，通过将第一编码序列、第一融合特征以及字符串特征进行混合编码，能够得到表示第一文本的全局特征的第一语义特征。

图4是根据一示例性实施例示出的计算第二语义特征的流程图。如图4所示，在一些可实现的实施方式中，步骤S160中，根据所述字符串特征、所述第二编码序列、以及所述第二融合特征，得到所述第二文本的第二语义特征，包括：

在步骤S161中，将所述第二编码序列、所述第二融合特征、所述第二编码序列与所述第二融合特征之间的差值、所述第二编码序列与所述第二融合特征的点积、以及所述字符串特征进行拼接，得到所述第二文本的全局特征。

这里，可以通过神经网络模型的融合推理层将第二编码序列、第二融合特征以及字符串特征进行汇总并重新编码。其中，字符串特征在输入融合推理层之前，可以将字符串特征输出全连接层进行特征空间的变换，使得字符串特征与第二融合特征处于同一个特征空间。融合推理层将第一编码序列、第二融合特征、第二编码序列与第二融合特征之间的差值、第二编码序列与第二融合特征的点积、以及所述字符串特征进行拼接，得到第二文本的全局特征。

在步骤S162中，对所述第二文本的全局特征进行编码，得到所述第二语义特征。

这里，在得到第二文本的全局特征之后，融合推理层将第二文本的全局特征经过BiLSTM进行混合编码，得到第二语义特征。其中，第二语义特征是指第二文本的语义表示。

由此，通过将第二编码序列、第二融合特征以及字符串特征进行混合编码，能够得到表示第二文本的全局特征的第二语义特征。

应当理解的是，第一语义特征和第二语义特征可以通过同一个融合推理层得到。

图5是根据一示例性实施例示出的计算文本相似度的流程图。如图5所示，在一些可实现的实施方式中，步骤S170中，根据所述第一语义特征以及所述第二语义特征，确定所述第一文本与所述第二文本之间的文本相似度，包括：

在步骤S171中，分别对所述第一语义特征和所述第二语义特征进行池化处理，得到所述第一语义特征对应的池化结果和所述第二语义特征对应的池化结果。

这里，第一语义特征和第二语义特征分别作为池化层的输入，池化层分别对第一语义特征和第二语义特征进行平均池化和最大池化，得到对应的池化结果。其中，通过池化处理，可以对第一语义特征和第二语义特征进行过滤，去除冗杂信息。

在步骤S172中，对所述第一语义特征对应的池化结果和所述第二语义特征对应的池化结果进行拼接，得到拼接特征。

这里，池化层的输出结果包括第一语义特征对应的池化结果和第二语义特征对应的池化结果，将第一文本的池化结果与第二文本的池化结果进行拼接，得到拼接特征。

在步骤S173中，根据所述拼接特征，计算所述第一文本与所述第二文本的文本相似度。

这里，在得到拼接特征之后，可以利用Sigmoid激活函数对该拼接特征进行打分，得到第一文本与第二文本之间的文本相似度。例如，分数包括[0，1]，分数越高说明第一文本与第二文本的文本相似度越大。

下面，结合附图6对上述实施方式进行详细说明：

图6是根据一示例性实施例示出的文本相似度确定方法的原理图。如图6所示，可以通过神经网络模型进行文本相似度计算，其中，该神经网络模型包括依次连接的输入层、嵌入层、上下文编码层、编码层、软对齐注意力层、编码层、池化层、Softmax。

输入层包括两种输入特征，一种是字符串特征，一种是第一文本和第二文本的文本特征。其中，字符串特征在送入输入层之前，可以先进行归一化处理，以去除特征数据间量纲的影响，保证各个特征处于同一个量级，有助于模型的稳定性。具体是利用如下计算式进行归一化处理：

其中，为第i个字符串特征的归一化结果，x_i为第i个字符串特征，x_max是最大值，x_min是最小值。

而文本特征在送入输入层之前，可以通过预定义的词表将第一文本、第二文本转化为对应的文本ID序列。例如，第一文本为：“今天我请客。”，第二文本为“今天我买单。”，在送入输入层之前，将“今天我请客。”和“今天我买单。”转换为对应的文本ID序列。

嵌入层(Char Embedding)接收输入层输入的文本ID序列，通过预训练的词向量将第一文本和第二文本中的字符转换为对应的特征向量，得到第一文本对应的字符特征向量和第二文本对应的字符特征向量。

上下文编码层接收嵌入层的输出结果，利用BiLSTM对第一文本对应的字符特征向量和第二文本对应的字符特征向量进行编码，得到第一编码序列和第二编码序列。

软对齐注意力层接收上下文编码层的输出结果，将经过BiLSTM编码后的第一编码序列和第二编码序列中的元素进行相乘，得到对齐矩阵。然后在对齐矩阵上使用注意力机制，使得第一文本和第二文本相互加权，得到第一文本的第一语义特征和第二文本的第二语义特征。其中，注意力机制可以是注意力层(Attention Layer)执行的。

融合推理层将字符串特征、第一编码序列、第二编码序列、第一融合特征、第二融合特征进行汇总，并将第一编码序列、第一融合特征、第一编码序列与第一融合特征之间的差值、第一编码序列与第一融合特征的点积、以及字符串特征进行拼接，得到第一文本的全局特征，然后利用BiLSTM对第一文本的全局特征进行重新编码，得到第一语义特征；以及将第二编码序列、第二融合特征、第二编码序列与第二融合特征之间的差值、第二编码序列与第二融合特征的点积、以及字符串特征进行拼接，得到第二文本的全局特征，然后利用BiLSTM对第二文本的全局特征进行重新编码，得到第二语义特征。

其中，字符串特征从输入层输入，经过全连接层(Fully Connected Layers)处理为与第一融合特征处于同一特征空间的数据。

池化层(Pooling Layer)接收融合推理层的输出结果，将第一语义特征、第二语义特征进行平均池化和最大池化，得到第一语义特征的池化结果和第二语义特征的池化结果，并将第一语义特征的池化结果和第二语义特征的池化结果进行拼接，得到拼接特征。

Softmax接收池化层输出的拼接特征，利用Sigmoid激活函数对该拼接特征进行打分，得到第一文本与第二文本之间的文本相似度。

值得说明的是，发明人利用公开数据集对上述神经网络模型进行训练，并用测试集对该神经网络模型进行验证，该神经网络模型的精确率达到80.87％，召回率为93.45％，F1分数(F1-score)为86.7％。因此，本公开提供的一种文本相似度确定方法在实际应用中具有较高的识别准确度。

图7是根据一示例性实施例示出的文本相似度确定系统的框图。参照图7，该系统500包括：

获取模块520，被配置为获取需要进行文本相似度计算的第一文本以及第二文本；

字符串特征计算模块530，被配置为确定所述第一文本与所述第二文本之间的字符串特征；

向量编码模块540，被配置为分别将所述第一文本和所述第二文本转换为向量编码，得到所述第一文本对应第一编码序列和所述第二文本对应的第二编码序列；

特征融合模块550，被配置为根据所述第一编码序列、以及所述第二编码序列，得到所述第一编码序列对应的第一融合特征和所述第二编码序列对应的第二融合特征；

拼接模块560，被配置为根据所述字符串特征、所述第一编码序列、以及所述第一融合特征，得到所述第一文本的第一语义特征；以及

文本相似度计算模块570，被配置为根据所述第一语义特征以及所述第二语义特征，确定所述第一文本与所述第二文本之间的文本相似度。

在一些可实现的实施方式中，所述向量编码模块540具体被配置为：分别将所述第一文本和所述第二文本中的字符转换为对应的特征向量，得到所述第一文本对应的字符特征向量和所述第二文本对应的字符特征向量；

在一些可实现的实施方式中，所述特征融合模块550具体被配置为：将所述第一编码序列与所述第二编码序列中的元素相乘，得到对齐矩阵；

在一些可实现的实施方式中，所述拼接模块560具体配置为：将所述第一编码序列、所述第一融合特征、所述第一编码序列与所述第一融合特征之间的差值、所述第一编码序列与所述第一融合特征的点积、以及所述字符串特征进行拼接，得到所述第一文本的全局特征；

在一些可实现的实施方式中，所述拼接模块560具体配置为：将所述第二编码序列、所述第二融合特征、所述第二编码序列与所述第二融合特征之间的差值、所述第二编码序列与所述第二融合特征的点积、以及所述字符串特征进行拼接，得到所述第二文本的全局特征；

在一些可实现的实施方式中，所述文本相似度计算模块570具体配置为：分别对所述第一语义特征和所述第二语义特征进行池化处理，得到所述第一语义特征对应的池化结果和所述第二语义特征对应的池化结果；

在一些可实现的实施方式中，所述字符串特征包括词频-逆文本频率、编辑距离、曼哈顿距离以及Jaccard相似系数中的至少一种。

关于上述实施例中的系统，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开还提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现本公开提供的文本相似度确定方法的步骤。

图8是根据一示例性实施例示出的一种电子设备800的框图。例如，电子设备800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图8，电子设备800可以包括以下一个或多个组件：处理组件802，存储器804，电力组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制电子设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的文本相似度确定方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在电子设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件806为电子设备800的各种组件提供电力。电力组件806可以包括电源管理系统，一个或多个电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当电子设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当电子设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为电子设备800提供各个方面的状态评估。例如，传感器组件814可以检测到电子设备800的打开/关闭状态，组件的相对定位，例如所述组件为电子设备800的显示器和小键盘，传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变，用户与电子设备800接触的存在或不存在，电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的文本相似度确定方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由电子设备800的处理器820执行以完成上述文本相似度确定方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的文本相似度确定方法的代码部分。

图9是根据一示例性实施例示出的一种电子设备1900的框图。例如，电子设备1900可以被提供为一服务器。参照图9，电子设备1900包括处理组件1922，其进一步包括一个或多个处理器，以及由存储器1932所代表的存储器资源，用于存储可由处理组件1922的执行的指令，例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1922被配置为执行指令，以执行上述文本相似度确定方法。

电子设备1900还可以包括一个电源组件1926被配置为执行电子设备1900的电源管理，一个有线或无线网络接口1950被配置为将电子设备1900连接到网络，和一个输入输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统，例如Windows Server^TM，Mac OS X^TM，Unix^TM，Linux^TM，FreeBSD^TM或类似。

本领域技术人员在考虑说明书及实践本公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种文本相似度确定方法，其特征在于，包括：

获取需要进行文本相似度计算的第一文本以及第二文本；

确定所述第一文本与所述第二文本之间的字符串特征；

2.根据权利要求1所述的文本相似度确定方法，其特征在于，所述分别将所述第一文本和所述第二文本转换为向量编码，得到所述第一文本对应第一编码序列和所述第二文本对应的第二编码序列，包括：

3.根据权利要求1所述的文本相似度确定方法，其特征在于，所述根据所述第一编码序列、以及所述第二编码序列，得到所述第一编码序列对应的第一融合特征和所述第二编码序列对应的第二融合特征，包括：

4.根据权利要求1所述的文本相似度确定方法，其特征在于，所述根据所述字符串特征、所述第一编码序列、以及所述第一融合特征，得到所述第一文本的第一语义特征，包括：

5.根据权利要求1所述的文本相似度确定方法，其特征在于，所述根据所述字符串特征、所述第二编码序列、以及所述第二融合特征，得到所述第二文本的第二语义特征，包括：

6.根据权利要求1所述的文本相似度确定方法，其特征在于，所述根据所述第一语义特征以及所述第二语义特征，确定所述第一文本与所述第二文本之间的文本相似度，包括：

7.根据权利要求1所述的文本相似度确定方法，其特征在于，所述字符串特征包括词频-逆文本频率、编辑距离、曼哈顿距离以及Jaccard相似系数中的至少一种。

8.一种文本相似度确定系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述存储器中存储的指令，以实现如权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该程序指令被处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。