CN109977194A

CN109977194A - 基于无监督学习的文本相似度计算方法、系统、设备及介质

Info

Publication number: CN109977194A
Application number: CN201910211396.7A
Authority: CN
Inventors: 庄浩杰; 王聪; 孙庆华
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-03-20
Filing date: 2019-03-20
Publication date: 2019-07-05
Anticipated expiration: 2039-03-20
Also published as: CN109977194B

Abstract

本发明公开了一种基于无监督学习的文本相似度计算方法、系统、设备及介质，所述方法包括：获取训练集，将训练集中的每篇文本作为摘要生成网络的输入，得到每篇文本对应的摘要，构成文本集合与摘要集合；搭建相似度计算网络；采用文本集合和摘要集合对相似度计算网络进行训练；将待处理的两篇文本输入训练后的相似度计算网络，输出这两篇文本的相似度。本发明无需人工标记的配对数据就可以进行训练与学习，大大降低了数据获取的成本。

Description

基于无监督学习的文本相似度计算方法、系统、设备及介质

技术领域

本发明涉及一种基于无监督学习的文本相似度计算方法、系统、设备及介质，属于文本相似度计算领域。

背景技术

在当今信息爆炸的互联网大数据时代，从海量的信息中获取与自身需要和兴趣吻合度高的内容成为了人们迫切的需求。为了满足此需求,也不断出现了各种应用,如搜索引擎、自动问答系统、文档分类与聚类、文献查重、文献精准推送等。这些应用场景所使用的关键技术之一就是文本相似度计算技术，例如，在搜索引擎中，通过建模估计一份文本与提问问题之间的关联度，其中涉及到的并不只是看文字是否有重叠，而是从大意，关键信息等多个方面来计算其相似程度。

文本相似度计算主要可分为两种方法：

1)基于字符串计算：也称作“字面相似度方法”，其中较为典型的方法包括最长公共子串(Longest Common String，简称LCS)；编辑距离；N元词(N-gram)等。

2)基于语料库训练：利用从语料库中的文本获取信息，并计算文本相似度。基于语料库的方法主要有:基于词袋模型的方法与基于神经网络的方法。

在上述方法中，基于字符串计算的方法的缺点有：

1)没有考虑文本的语义信息,计算效果受到一定限制。由于只是把字符或词语作为独立的知识单元,并未考虑词语本身的含义，以及不同词语之间的关系。以同义词为例,尽管表达不同,但具有相同的含义,而这类词语的相似度若仅仅依靠基于字符串的方法，并不能准确计算。

2)当文本长度较长时，计算效率不高，且效果有限。

而在基于语料库训练的方法中，基于词袋模型的方法不考虑词语在文档中出现的顺序,将文档表示成一系列词语的组合。这种方法的缺点是忽略了词语顺序，以及词语之间的关联对文本的影响，计算效果也受到很大程度的影响。

基于神经网络的方法计算文本相似度计算文本相似度是近年来自然语言处理领域研究较多的方法。神经网络的结构是一种模仿生物神经网络的结构和功能的数学模型或计算模型，用于对各种函数进行估计或近似。在神经网络中，除了基本的全连接层，在自然语言处理中比较常用的结构有：

1)卷积神经网络(Convolutional Neural Network，简称CNN)是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元。卷积神经网络中每层卷积层由若干卷积单元组成，每个卷积单元的参数都是通过反向传播算法最佳化得到的。卷积运算的目的是提取输入的不同特征，第一层卷积层可能只能提取一些基本特征，更多层的网络能从基本特征中迭代提取更复杂的特征。

2)递归神经网络(Recurrent Neural Network，简称RNN)也是神经网络的一种。递归神经网络可以描述动态时间行为，因为和前馈神经网络接受较特定结构的输入不同，RNN将状态在自身网络中循环传递，因此可以接受更广泛的时间序列结构输入。单纯的RNN因为无法处理随着递归，可能出现权重指数级爆炸或梯度消失的问题，导致RNN难以捕捉长期时间关联。LSTM(Long Short-Term Memory，长短期记忆网络)，GRU(Gated Recurrent Units，门控循环单元)是两个用于缓解该问题的RNN变体。

现有的基于神经网络的文本相似度计算方法是基于有监督学习训练的过程，而有监督学习需要大量人工标记的数据，这一过程通常会出现数据获取成本太高的问题。

发明内容

有鉴于此，本发明提供了一种基于无监督学习的文本相似度计算方法、系统、计算机设备设备及存储介质，其无需人工标记的配对数据就可以进行训练与学习，大大降低了数据获取的成本。

本发明的第一个目的在于提供一种基于无监督学习的文本相似度计算方法。

本发明的第二个目的在于提供一种基于无监督学习的文本相似度计算系统。

本发明的第三个目的在于提供一种计算机设备。

本发明的第四个目的在于提供一种存储介质。

本发明的第一个目的可以通过采取如下技术方案达到：

一种基于无监督学习的文本相似度计算方法，所述方法包括：

获取训练集，将训练集中的每篇文本作为摘要生成网络的输入，得到每篇文本对应的摘要，构成文本集合与摘要集合；

搭建相似度计算网络；

采用文本集合和摘要集合对相似度计算网络进行训练；

将待处理的两篇文本输入训练后的相似度计算网络，输出这两篇文本的相似度。

进一步的，所述摘要生成网络基于TextRank算法，得到每篇文本对应的摘要，具体包括：

将文本分割成多个句子，以句子为节点构建图；

对句子进行处理，计算任意两个句子之间的相似度，将计算后的句子相似度作为两个句子构成的边的权值；

迭代计算各个句子的权重；

选取权重最高的三个句子作为最后的摘要。

进一步的，所述任意两个句子之间的相似度之间的相似度计算如下式：

其中，分子是在两个句子中都出现的单词的数量，分母中的|S_i|是句子i中的单词数。

进一步的，所述各个句子的权重计算如下式：

其中，WS(V_i)表示节点V_i的权重，d表示阻尼系数，In(V_i)与Out(V_j)分别表示分别为指向节点V_i的节点集合和从节点V_j出发的边指向的节点集合，w_ji表示从节点V_i到节点V_j的边权重。

进一步的，所述相似度计算网络采用胶囊网络，胶囊网络的最终输出是若干个向量；当两篇文本作为输入时，分别得到若干个分布，从而计算每一对分布的交叉熵损失，并将损失项的总和作为相似度计算网络的输出。

进一步的，所述胶囊网络的结构包括卷积层、capsule层、卷积capsule层和全连接capsule层。

进一步的，所述相似度计算网络的损失函数如下式：

其中，N表示一个mini-batch中的样本个数，x_i表示一篇文本，y_i表示文本x_i通过摘要生成网络生成的摘要；y_j表示从摘要集合Y中随机抽取一篇摘要，K表示抽取的摘要数量。

本发明的第二个目的可以通过采取如下技术方案达到：

一种基于无监督学习的文本相似度计算系统，所述系统包括：

获取模块，用于获取训练集，将训练集中的每篇文本作为摘要生成网络的输入，得到每篇文本对应的摘要，构成文本集合与摘要集合；

搭建模块，用于搭建相似度计算网络；

训练模块，用于采用文本集合和摘要集合对相似度计算网络进行训练；

计算模块，用于将待处理的两篇文本输入训练后的相似度计算网络，输出这两篇文本的相似度。

本发明的第三个目的可以通过采取如下技术方案达到：

一种计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现上述的文本相似度计算方法。

本发明的第四个目的可以通过采取如下技术方案达到：

一种存储介质，存储有程序，所述程序被处理器执行时，实现上述的文本相似度计算方法。

本发明相对于现有技术具有如下的有益效果：

本发明通过摘要生成网络得到文本集合与摘要集合，搭建相似度计算网络，采用文本集合和摘要集合对相似度计算网络进行训练，将待处理的两篇文本输入训练后的相似度计算网络，输出这两篇文本的相似度，越相似的一对文本，则相似度计算网络输出相似度值越小，反之越大，无需人工标记的配对数据就可以进行训练与学习，大大降低了数据获取的成本，不仅解决了人工标记的配对数据获取成本高的问题，而且也保证了相似度计算的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明实施例1的摘要生成网络的结构图。

图2为本发明实施例1的相似度计算网络的结构图。

图3为本发明实施例1的基于无监督学习的文本相似度计算方法的流程图。

图4为本发明实施例1的胶囊网络的结构图。

图5为本发明实施例2的基于无监督学习的文本相似度计算系统的结构框图。

图6为本发明实施例3的计算机设备的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

本实施例提供了一种基于无监督学习的文本相似度计算方法，该方法利用摘要生成网络和相似度计算网络实现，摘要生成网络和相似度计算网络的具体说明如下：

1)摘要生成网络的输入是语料库中的文本，输出是该文本的抽取式摘要，在摘要生成网络中，使用的是TextRank算法，该算法基于无监督学习，可以用于为文本生成关键字或摘要，摘要生成网络的结构如图1所示。

2)相似度计算网络的输入为两篇文本，输出为这两篇文本的相似度大小，越相似的一对文本，则相似度计算网络输出相似度值越小，反之越大，相似度计算网络的结构如图2所示。

如图3所示，本实施例的文本相似度计算方法包括以下步骤：

S301、获取训练集，将训练集中的每篇文本作为摘要生成网络的输入，得到每篇文本对应的摘要，构成文本集合与摘要集合。

本实施例的摘要生成网络基于TextRank算法，得到每篇文本对应的摘要，包括步骤：

1)预处理：将文本分割成多个句子S1，S2，……,Sm，以句子为节点构建图。

2)计算句子相似度：对句子进行分词、取停用词等处理，以便于计算任意两个句子之间的相似度，将计算后的句子相似度作为两个句子构成的边的权值，任意两个句子之间的相似度之间的相似度计算如下式：

3)计算句子权重：迭代计算各个句子的权重，各个句子的权重计算如下式：

4)生成摘要：选取权重最高的三个句子作为最后的摘要。

通过摘要生成网络，得到文本集合与摘要集合，分别记为X集合与Y集合。

S302、搭建相似度计算网络。

本实施例的相似度计算网络采用胶囊网络(capsule networks)，胶囊网络的最终输出是若干个向量(此处设为16)；当两篇文本作为输入时，分别得到若干个分布(即16个分布)，从而计算每一对分布的交叉熵损失(共有16对)，并将损失项的总和作为相似度计算网络的输出。

胶囊网络的结构如图4所示，其分为四层，分别为卷积层、capsule层、卷积capsule层和全连接capsule层，各层的说明如下：

1)卷积层：输入为文本，用32个3*300的卷积核进行卷积操作，得到32个列向量作为输出，其中列向量的维度记为C(C与输入文本长度有关)。

2)capsule层：输入为32个列向量，通过32*32*16的矩阵相乘得到32*C个16维的capsule单元。

3)卷积capsule层：用16个3*32*16*16的卷积核进行卷积操作，得到16*D(D与C有关)个16维的capsule单元。

4)全连接capsule层：输入为前一层的所有capsule单元，输出为16*16的矩阵。

S303、采用文本集合和摘要集合对相似度计算网络进行训练。

本实施例的相似度计算网络的损失函数如下式：

其中，N表示一个mini-batch中的样本个数，x_i表示一篇文本，y_i表示文本x_i通过摘要生成网络生成的摘要；y_j表示从摘要集合Y中随机抽取一篇摘要，K表示抽取的摘要数量；其中，N、K和α分别设为64、5和3。

相似度计算网络的参数更新采用Adam优化算法，其中学习系数设为1e^-3，这样通过多个迭代的参数更新，相似度计算网络不断优化，直到训练结束。

上述步骤S301～S303为训练阶段，接下来的步骤S304为应用阶段。可以理解，上述步骤S301～S303在一台计算机设备(如服务器、计算机等)完成，可以在该计算机设备上进入步骤S304的应用阶段，也可以将该台计算机设备训练得到的生成网络分享给其他的计算机设备，在其他的计算机设备上进入步骤S304的应用阶段。

S304、将待处理的两篇文本输入训练后的相似度计算网络，输出这两篇文本的相似度。

本领域技术人员可以理解，实现上述实施例的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成，相应的程序可以存储于计算机可读存储介质中。

应当注意，尽管在附图中以特定顺序描述了上述实施例的方法操作，但是这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

实施例2：

如图5所示，本实施例提供了一种基于无监督学习的文本相似度计算系统，该系统包括获取模块501、搭建模块502、训练模块503和计算模块504，各个模块的具体功能如下：

所述获取模块501，用于获取训练集，将训练集中的每篇文本作为摘要生成网络的输入，得到每篇文本对应的摘要，构成文本集合与摘要集合。

所述搭建模块502，用于搭建相似度计算网络。

所述训练模块503，用于采用文本集合和摘要集合对相似度计算网络进行训练。

所述计算模块504，用于将待处理的两篇文本输入训练后的相似度计算网络，输出这两篇文本的相似度。

本实施例中各个模块的具体实现可以参见上述实施例1，在此不再一一赘述；需要说明的是，本实施例提供的装置仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

实施例3：

本实施例提供了一种计算机设备，该计算机设备可以是服务器、计算机等，如图6所示，其包括通过系统总线601连接的处理器602、存储器、输入装置603、显示器604和网络接口605，该处理器用于提供计算和控制能力，该存储器包括非易失性存储介质606和内存储器607，该非易失性存储介质606存储有操作系统、计算机程序和数据库，该内存储器607为非易失性存储介质中的操作系统和计算机程序的运行提供环境，处理器602执行存储器存储的计算机程序时，实现上述实施例1的文本相似度计算方法，如下：

搭建相似度计算网络；

采用文本集合和摘要集合对相似度计算网络进行训练；

实施例4：

本实施例提供了一种存储介质，该存储介质为计算机可读存储介质，其存储有计算机程序，所述程序被处理器执行时，处理器执行存储器存储的计算机程序时，实现上述实施例1的文本相似度计算方法，如下：

搭建相似度计算网络；

采用文本集合和摘要集合对相似度计算网络进行训练；

本实施例中所述的存储介质可以是磁盘、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、U盘、移动硬盘等介质。

综上所述，本发明通过摘要生成网络得到文本集合与摘要集合，搭建相似度计算网络，采用文本集合和摘要集合对相似度计算网络进行训练，将待处理的两篇文本输入训练后的相似度计算网络，输出这两篇文本的相似度，越相似的一对文本，则相似度计算网络输出相似度值越小，反之越大，无需人工标记的配对数据就可以进行训练与学习，大大降低了数据获取的成本，不仅解决了人工标记的配对数据获取成本高的问题，而且也保证了相似度计算的效果。

以上所述，仅为本发明专利较佳的实施例，但本发明专利的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明构思加以等同替换或改变，都属于本发明专利的保护范围。

Claims

1.一种基于无监督学习的文本相似度计算方法，其特征在于，所述方法包括：

搭建相似度计算网络；

采用文本集合和摘要集合对相似度计算网络进行训练；

2.根据权利要求1所述的文本相似度计算方法，其特征在于，所述摘要生成网络基于TextRank算法，得到每篇文本对应的摘要，具体包括：

将文本分割成多个句子，以句子为节点构建图；

迭代计算各个句子的权重；

选取权重最高的三个句子作为最后的摘要。

3.根据权利要求2所述的文本相似度计算方法，其特征在于，所述任意两个句子之间的相似度之间的相似度计算如下式：

4.根据权利要求2所述的文本相似度计算方法，其特征在于，所述各个句子的权重计算如下式：

5.根据权利要求1-4任一项所述的文本相似度计算方法，其特征在于，所述相似度计算网络采用胶囊网络，胶囊网络的最终输出是若干个向量；当两篇文本作为输入时，分别得到若干个分布，从而计算每一对分布的交叉熵损失，并将损失项的总和作为相似度计算网络的输出。

6.根据权利要求5所述的文本相似度计算方法，其特征在于，所述胶囊网络的结构包括卷积层、capsule层、卷积capsule层和全连接capsule层。

7.根据权利要求1-4任一项所述的文本相似度计算方法，其特征在于，所述相似度计算网络的损失函数如下式：

其中，N表示一个mini-batch中的样本个数，x_i表示一篇文本，y_i表示文本x_i通过摘要生成网络生成的摘要；y_j表示从摘要集合中随机抽取一篇摘要，K表示抽取的摘要数量。

8.一种基于无监督学习的文本相似度计算系统，其特征在于，所述系统包括：

搭建模块，用于搭建相似度计算网络；

9.一种计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现权利要求1-7任一项所述的文本相似度计算方法。

10.一种存储介质，存储有程序，其特征在于，所述程序被处理器执行时，实现权利要求1-7任一项所述的文本相似度计算方法。