CN111639661A

CN111639661A - 文本相似度判别方法

Info

Publication number: CN111639661A
Application number: CN201910808602.2A
Authority: CN
Inventors: 刘凤余; 张琦; 郭冬; 黄建强
Original assignee: Shanghai Zhuofan Information Technology Co ltd
Current assignee: Shanghai Zhuofan Information Technology Co ltd
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2020-09-08

Abstract

一种文本相似度判别方法，对去停用词后的第一和第二待判别文本均按词级和字符级分割；对词级分割后的第一和第二待判别分割文本训练量化获得第一和第二词级待判别数字向量，对字符级分割后的第一和第二待判别分割文本训练量化获得第一和第二字符级待判别数字向量；将第一词级和字符级待判别数字向量输入第一编码器训练，将第二词级和字符级待判别数字向量输入第二编码器训练；两编码器的输出结果分别相减及点乘并拼接；将拼接后数字向量进行平均池化和最大池化并拼接；将池化拼接后数字向量作为全连接层的输入以输出二维数字向量；将二维数字向量作为分类器的输入以获得分类二维数字向量，分析第一待判别文本和第二待判别文本的相似度。

Description

文本相似度判别方法

技术领域

本发明涉及文本相似度判别技术领域，特别是涉及一种文本相似度判别方法。

背景技术

在人机对话领域，文本相似度计算在问答检索中有着重要的应用。随着深度学习的广泛应用，越来越多的神经网络模型在计算文本相似度时有很好的效果。在深度学习中，用于文本相似度计算的模型，代表性的有基于LSTM和CNN编码结构的孪生网络，但是这些文本计算模型存在特征提取不全，泛化性差的的缺点，为了解决上述问题，提出一种新型文本相似度判断方法。

发明内容

本发明针对现有技术存在的问题和不足，提供一种新的文本相似度判别方法。

本发明是通过下述技术方案来解决上述技术问题的：

本发明提供一种文本相似度判别方法，其特点在于，其包括以下步骤：

S1、对第一待判别文本和第二待判别文本进行去停用词预处理，对作为训练语料的去停用词后的第一待判别文本和第二待判别文本均按照词级和字符级进行分割；

S2、对词级分割后的第一待判别分割文本和第二待判别分割文本进行训练量化以获得第一词级待判别数字向量和第二词级待判别数字向量，对字符级分割后的第一待判别分割文本和第二待判别分割文本进行训练量化以获得第一字符级待判别数字向量和第二字符级待判别数字向量；

S3、将第一词级待判别数字向量和第一字符级待判别数字向量输入至第一编码器的第一层神经网络中进行训练以输出第一层待判别数字向量一，将第二词级待判别数字向量和第二字符级待判别数字向量输入至第二编码器的第一层神经网络中进行训练以输出第一层待判别数字向量二；

S4、将第一层待判别数字向量一、第一词级待判别数字向量和第一字符级待判别数字向量输入至第一编码器的第二层神经网络中进行训练以输出第二层待判别数字向量一，将第一层待判别数字向量二、第二词级待判别数字向量和第二字符级待判别数字向量输入至第二编码器的第二层神经网络中进行训练以输出第二层待判别数字向量二；

S5、将第二层待判别数字向量一、第一层待判别数字向量一、第一词级待判别数字向量和第一字符级待判别数字向量输入至第一编码器的第三层神经网络中进行训练以输出第三层每一个时刻的输出向量，得到第一待判别文本的表示矩阵，将第二层待判别数字向量二、第一层待判别数字向量二、第二词级待判别数字向量和第二字符级待判别数字向量输入至第二编码器的第三层神经网络中进行训练以输出第三层每一个时刻的输出向量，得到第二待判别文本的表示矩阵；

S6、将第一待判别文本的表示矩阵输入至第一编码器的卷积神经网络中进行训练以输出第一卷积待判别数字向量，将第二待判别文本的表示矩阵输入至第二编码器的卷积神经网络中进行训练以输出第二卷积待判别数字向量；

S7、分别将第一卷积待判别数字向量和第二卷积待判别数字向量进行相减以及点乘，将相减后的数字向量和点乘后的数字向量进行融合拼接；

S8、将拼接后的数字向量进行平均池化和最大池化，将平均池化后的数字向量和最大池化后的数字向量进行融合拼接；

S9、将池化拼接后的数字向量作为全连接层的输入以输出一行两列的二维数字向量；

S10、将二维数字向量作为分类器的输入以获得分类二维数字向量，从而分析出第一待判别文本和第二待判别文本的相似度。

较佳地，在步骤S2中，对词级分割后的第一待判别分割文本和第二待判别分割文本按照skip-gram方法进行训练量化。

较佳地，在步骤S2中，对字符级分割后的第一待判别分割文本和第二待判别分割文本按照glove方法进行训练量化。

较佳地，在步骤S10中，分类二维数字向量中的行第一列表示的是第一待判别文本和第二待判别文本不相似的概率，分类二维数字向量中的行第二列表示的是第一待判别文本和第二待判别文本相似的概率，若相似的概率大于不相似的概率输出数字1，若不相似的概率大于相似的概率输出数字0。

较佳地，第一编码器和第二编码器均采用biGRU编码器。

较佳地，分类器采用softmax分类器。

在符合本领域常识的基础上，上述各优选条件，可任意组合，即得本发明各较佳实例。

本发明的积极进步效果在于：

本发明根据输入的文本对，判断文本是否相似度，由于其新型的编码结构，文本相似度的判别准确度得到有效的提高。

附图说明

图1和图2为本发明较佳实施例的文本相似度判别方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1和图2所示，本实施例提供一种文本相似度判别方法，其包括以下步骤：

步骤101、对第一待判别文本和第二待判别文本进行去停用词预处理，对作为训练语料的去停用词后的第一待判别文本和第二待判别文本均按照词级和字符级进行分割。

步骤102、对词级分割后的第一待判别分割文本和第二待判别分割文本按照skip-gram方法进行训练量化以获得第一词级待判别数字向量和第二词级待判别数字向量，对字符级分割后的第一待判别分割文本和第二待判别分割文本按照glove方法进行训练量化以获得第一字符级待判别数字向量和第二字符级待判别数字向量。

步骤103、将第一词级待判别数字向量和第一字符级待判别数字向量输入至第一编码器的第一层神经网络中进行训练以输出第一层待判别数字向量一，将第二词级待判别数字向量和第二字符级待判别数字向量输入至第二编码器的第一层神经网络中进行训练以输出第一层待判别数字向量二。

其中，第一编码器和第二编码器均采用biGRU编码器。

步骤104、将第一层待判别数字向量一、第一词级待判别数字向量和第一字符级待判别数字向量输入至第一编码器的第二层神经网络中进行训练以输出第二层待判别数字向量一，将第一层待判别数字向量二、第二词级待判别数字向量和第二字符级待判别数字向量输入至第二编码器的第二层神经网络中进行训练以输出第二层待判别数字向量二。

步骤105、将第二层待判别数字向量一、第一层待判别数字向量一、第一词级待判别数字向量和第一字符级待判别数字向量输入至第一编码器的第三层神经网络中进行训练以输出第三层每一个时刻的输出向量，得到第一待判别文本的表示矩阵，将第二层待判别数字向量二、第一层待判别数字向量二、第二词级待判别数字向量和第二字符级待判别数字向量输入至第二编码器的第三层神经网络中进行训练以输出第三层每一个时刻的输出向量，得到第二待判别文本的表示矩阵。

步骤106、将第一待判别文本的表示矩阵输入至第一编码器的卷积神经网络中进行训练以输出第一卷积待判别数字向量，将第二待判别文本的表示矩阵输入至第二编码器的卷积神经网络中进行训练以输出第二卷积待判别数字向量。

步骤107、分别将第一卷积待判别数字向量和第二卷积待判别数字向量进行相减以及点乘，将相减后的数字向量和点乘后的数字向量进行融合拼接。

步骤108、将拼接后的数字向量进行平均池化和最大池化，将平均池化后的数字向量和最大池化后的数字向量进行融合拼接。

步骤109、将池化拼接后的数字向量作为全连接层的输入以输出一行两列的二维数字向量。

步骤110、将二维数字向量作为softmax分类器的输入以获得分类二维数字向量，从而分析出第一待判别文本和第二待判别文本的相似度。

其中，分类二维数字向量中的行第一列表示的是第一待判别文本和第二待判别文本不相似的概率，分类二维数字向量中的行第二列表示的是第一待判别文本和第二待判别文本相似的概率，若相似的概率大于不相似的概率输出数字1，若不相似的概率大于相似的概率输出数字0。

例如：第一待判别文本是“我要吃饭”，第二待判别文本是“我想要吃饭”，第一待判别文本和第二待判别文本经预处理、编码器训练、池化和分类器训练后输出二维数字向量，例如行第一列为0.3，行第二列为0.6，则相似的概率(0.6)大于不相似的概率(0.3)输出数字1，即表示“我要吃饭”和“我想要吃饭”文本相似。

本发明根据输入的文本对，判断文本是否相似度。由于其新型的编码结构，文本相似度的判别准确度得到有效的提高。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这些仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种文本相似度判别方法，其特征在于，其包括以下步骤：

2.如权利要求1所述的文本相似度判别方法，其特征在于，在步骤S2中，对词级分割后的第一待判别分割文本和第二待判别分割文本按照skip-gram方法进行训练量化。

3.如权利要求1所述的文本相似度判别方法，其特征在于，在步骤S2中，对字符级分割后的第一待判别分割文本和第二待判别分割文本按照glove方法进行训练量化。

4.如权利要求1所述的文本相似度判别方法，其特征在于，在步骤S10中，分类二维数字向量中的行第一列表示的是第一待判别文本和第二待判别文本不相似的概率，分类二维数字向量中的行第二列表示的是第一待判别文本和第二待判别文本相似的概率，若相似的概率大于不相似的概率输出数字1，若不相似的概率大于相似的概率输出数字0。

5.如权利要求1所述的文本相似度判别方法，其特征在于，第一编码器和第二编码器均采用biGRU编码器。

6.如权利要求1所述的文本相似度判别方法，其特征在于，分类器采用softmax分类器。