CN110516210A

CN110516210A - 文本相似度的计算方法和装置

Info

Publication number: CN110516210A
Application number: CN201910780309.XA
Authority: CN
Inventors: 沈灿
Original assignee: Beijing Yingpu Technology Co Ltd
Current assignee: Beijing Yingpu Technology Co Ltd
Priority date: 2019-08-22
Filing date: 2019-08-22
Publication date: 2019-11-29
Anticipated expiration: 2039-08-22
Also published as: CN110516210B

Abstract

本申请公开了一种文本相似度的计算方法和装置，属于文本处理领域。该方法包括：预先获取多个类别的语料作为文本数据集，进行预处理后取出第一文档和第二文档，按照如下相同的方法分别求出对应的第一文本向量和第二文本向量；将采用Word2vec模型得到的数据向量与采用TF‑IDF算法得到的文本权重进行数据融合得到融合向量；输入LSTM模型生成特征向量并得到文本向量；采用余弦相似度算法计算第一文本向量和第二文本向量的相似度。该装置包括：数据集模块、控制模块、Word2vec模块、TF‑IDF模块、融合模块、LSTM模块和相似度计算模块。本申请提高了计算文本相似度的准确性。

Description

文本相似度的计算方法和装置

技术领域

本申请涉及文本处理领域，特别是涉及一种文本相似度的计算方法和装置。

背景技术

近年来随着互联网的高速发展和社交媒体的热潮，出现了爆炸式增长的网络文本。人类第一次面对如此巨大数据量的文本数据，如何从海量的文本数据中挖掘出想要的关键信息是研究者亟待解决的问题。而文本相似度可以用来衡量文本间的共性或差异，在数据挖掘、信息检索、摘要生成等多个领域具有重要应用。

文本相似度根据计算方式不同可以分为基于统计的方法和基于语义信息的方法。TF-IDF(Term Frequency-Inverse Document Frequency，词频-逆文本频率)算法是最常见的基于统计的文本相似度计算方法，该方法通过计算TF(Term Frequency，词频)和IDF(Inverse Document Frequency，逆文本频率)，衡量文本中不同词汇的重要程度以此来衡量文本间的相似度。近年来随着神经网络在自然语言处理领域表现出来的优异特质，更多的学者采取基于神经网络的方式衡量文本间的相似度。例如采用Word2vec模型将文本表示为高维空间的向量，将向量空间中的相似度表示文本间的相似度。

但是，TF-IDF算法只能提取文本的浅层语义信息，缺少对文本深层语义信息的抽取，且忽略了词语间位置信息的影响，对文本相似度的计算缺少准确性。Word2vec模型虽然能够提取更多的文本语义信息，但同样没有提取文本的深层语义信息，也没有考虑文本中词语间的相互关系影响，因此，计算结果的准确性也受影响。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面，提供了一种文本相似度的计算方法，包括：

预先获取多个类别的语料作为文本数据集，对所述文本数据集进行预处理；

从所述预处理后的文本数据集中取出第一文档和第二文档，按照如下相同的方法分别求出对应的第一文本向量和第二文本向量；

采用Word2vec模型对当前文档进行计算得到数据向量；

采用TF-IDF算法对所述当前文档进行计算得到文本权重；

将所述数据向量与所述文本权重进行数据融合得到融合向量；

将所述融合向量输入LSTM(Long Short Term MemoryNetwork，长短时记忆网络)模型生成特征向量，对所述特征向量中的所有特征值求和，得到所述当前文档对应的文本向量；

采用余弦相似度算法计算所述第一文本向量和第二文本向量的相似度，得到所述第一文档和第二文档的相似度。

可选地，采用余弦相似度算法计算所述第一文本向量和第二文本向量的相似度，得到所述第一文档和第二文档的相似度，包括：

采用如下公式计算所述第一文本向量和第二文本向量的相似度，得到所述第一文档和第二文档的相似度：

其中，Sen为所述第一文本向量，Sen′为所述第二文本向量，S为所述第一文本向量和第二文本向量的相似度。

可选地，将所述数据向量与所述文本权重进行数据融合得到融合向量，包括：

按照如下公式将所述数据向量与所述文本权重进行数据融合得到融合向量：

其中，F-Vec为融合向量，n为所述当前文档中的词汇数目，为所述数据向量中的第i个数据，TF-IDF(w_i)为词汇w_i的文本权重。

可选地，采用TF-IDF算法对所述当前文档进行计算得到文本权重，包括：

采用如下公式对所述当前文档进行计算得到文本权重：

其中，TF-IDF(w_i)为词汇w_i的文本权重，TF_i，j为词汇w_i的词频，IDF_i为词汇w_i的逆向文件频率，n_i,j代表词汇w_i在所述当前文档中出现的频率，代表所述当前文档中所有词汇数目；|D|代表所述文本数据集中的所有文档个数，{j：w_i∈d_j}代表所述文本数据集中出现所述词汇w_i的文档个数，加一是为了防止出现分母为零的情况。

可选地，对所述特征向量中的所有特征值求和，得到所述当前文档对应的文本向量，包括：

按照如下公式计算所述当前文档对应的文本向量：

其中，h_i为所述特征向量[h₁,...,h_n]中的第i个特征值，n为所述特征向量中特征值的总数，Sen为所述当前文档对应的文本向量。

根据本申请的另一个方面，提供了一种文本相似度的计算装置，包括：

数据集模块，其配置成预先获取多个类别的语料作为文本数据集，对所述文本数据集进行预处理；

控制模块，其配置成从所述预处理后的文本数据集中取出第一文档和第二文档，按照如下相同的方法分别求出对应的第一文本向量和第二文本向量；

Word2vec模块，其配置成采用Word2vec模型对当前文档进行计算得到数据向量；

TF-IDF模块，其配置成采用TF-IDF算法对所述当前文档进行计算得到文本权重；

融合模块，其配置成将所述数据向量与所述文本权重进行数据融合得到融合向量；

LSTM模块，其配置成将所述融合向量输入LSTM长短时记忆网络模型生成特征向量，对所述特征向量中的所有特征值求和，得到所述当前文档对应的文本向量；

相似度计算模块，其配置成采用余弦相似度算法计算所述第一文本向量和第二文本向量的相似度，得到所述第一文档和第二文档的相似度。

可选地，所述相似度计算模块具体配置成：

可选地，所述融合模块具体配置成：

可选地，所述TF-IDF模块具体配置成：

采用如下公式对所述当前文档进行计算得到文本权重：

可选地，所述LSTM模块具体配置成：

按照如下公式计算所述当前文档对应的文本向量：

根据本申请的又一个方面，提供了一种计算设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上所述的方法。

根据本申请的又一个方面，提供了一种计算机可读存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现如上所述的方法。

根据本申请的又一个方面，提供了一种计算机程序产品，包括计算机可读代码，当所述计算机可读代码由计算机设备执行时，导致所述计算机设备执行上述的方法。

本申请提供的技术方案，通过对基于Word2vec模型得到数据向量和基于TF-IDF算法得到的文本权重，进行数据融合得到融合向量，再输入LSTM模型后生成文本向量，从而计算出文本向量的相似度，得到文档的相似度，将TF-IDF算法的优点与LSTM模型的优点相结合，构造出能够体现文本中词语重要性并且具有深层语义信息的文本向量表示，解决了现有基于神经网络的监督学习方法没有考虑文本中不同单词重要性不足的问题，提高了计算文本相似度的准确性。

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是根据本申请一个实施例的文本相似度的计算方法流程图；

图2是根据本申请另一个实施例的文本相似度的计算方法流程图；

图3是根据本申请另一个实施例的文本相似度的计算装置结构图；

图4是根据本申请另一个实施例的计算设备结构图；

图5是根据本申请另一个实施例的计算机可读存储介质结构图。

具体实施方式

图1是根据本申请一个实施例的文本相似度的计算方法流程图。参见图1，该方法包括：

101：预先获取多个类别的语料作为文本数据集，对文本数据集进行预处理；

102：从预处理后的文本数据集中取出第一文档和第二文档，按照如下相同的方法分别求出对应的第一文本向量和第二文本向量；

103：采用Word2vec模型对当前文档进行计算得到数据向量；

104：采用TF-IDF算法对当前文档进行计算得到文本权重；

105：将数据向量与文本权重进行数据融合得到融合向量；

106：将融合向量输入LSTM模型生成特征向量，对特征向量中的所有特征值求和，得到当前文档对应的文本向量；

107：采用余弦相似度算法计算第一文本向量和第二文本向量的相似度，得到第一文档和第二文档的相似度。

本实施例中，可选的，采用余弦相似度算法计算第一文本向量和第二文本向量的相似度，得到第一文档和第二文档的相似度，包括：

采用如下公式计算第一文本向量和第二文本向量的相似度，得到第一文档和第二文档的相似度：

其中，Sen为第一文本向量，Sen′为第二文本向量，S为第一文本向量和第二文本向量的相似度。

本实施例中，可选的，将数据向量与文本权重进行数据融合得到融合向量，包括：

按照如下公式将数据向量与文本权重进行数据融合得到融合向量：

其中，F-Vec为融合向量，n为当前文档中的词汇数目，为数据向量中的第i个数据，TF-IDF(w_i)为词汇w_i的文本权重。

本实施例中，可选的，采用TF-IDF算法对当前文档进行计算得到文本权重，包括：

采用如下公式对当前文档进行计算得到文本权重：

其中，TF-IDF(w_i)为词汇w_i的文本权重，TF_i，j为词汇w_i的词频，IDF_i为词汇w_i的逆向文件频率，n_i,j代表词汇w_i在当前文档中出现的频率，代表当前文档中所有词汇数目；|D|代表文本数据集中的所有文档个数，{j：w_i∈d_j}代表文本数据集中出现词汇w_i的文档个数，加一是为了防止出现分母为零的情况。

本实施例中，可选的，对特征向量中的所有特征值求和，得到当前文档对应的文本向量，包括：

按照如下公式计算当前文档对应的文本向量：

其中，h_i为特征向量[h₁,...,h_n]中的第i个特征值，n为特征向量中特征值的总数，Sen为当前文档对应的文本向量。

本实施例提供的上述方法，通过对基于Word2vec模型得到数据向量和基于TF-IDF算法得到的文本权重，进行数据融合得到融合向量，再输入LSTM模型后生成文本向量，从而计算出文本向量的相似度，得到文档的相似度，将TF-IDF算法的优点与LSTM模型的优点相结合，构造出能够体现文本中词语重要性并且具有深层语义信息的文本向量表示，解决了现有基于神经网络的监督学习方法没有考虑文本中不同单词重要性不足的问题，提高了计算文本相似度的准确性。

图2是根据本申请另一个实施例的文本相似度的计算方法流程图。参见图2，该方法包括：

201：预先获取多个类别的语料作为文本数据集，对文本数据集中的文档进行分词和去停用词操作；

本实施例中，文本数据集可以根据需要选取，具体不限定。例如，可以选取复旦大学提供的中文新闻语料作为实验数据集，从中选取环境、农业、政治、体育、经济五个类别，并从每个类别中选取700篇文章等等。其中采用的停用词表为哈尔滨工业大学的中文停用词表。

202：从预处理后的文本数据集中取出第一文档和第二文档，按照如下相同的方法分别求出对应的第一文本向量和第二文本向量；

203：采用Word2vec模型对当前文档进行计算得到数据向量；

本实施例中，Word2vec模型是基于神经网络从大量文本库中得到语义知识的模型，将经过预处理后的当前文档表示为W＝[w₁,...,w_n]，其中n为当前文档中词汇的个数，将文本通过Word2vec模型转换为数据向量其中将词向量的维度可根据需要设置，如设置为300维等等。

204：采用如下公式(1)对当前文档进行计算得到文本权重：

其中，TF-IDF(w_i)为词汇w_i的文本权重，TF_i，j为词汇w_i的词频，IDF_i为词汇w_i的逆向文件频率，n_i,j代表词汇w_i在当前文档中出现的频率，代表当前文档中所有词汇数目；|D|代表文本数据集中的所有文档个数，{j：w_i∈d_j}代表文本数据集中出现词汇w_i的文档个数，加一是为了防止出现分母为零的情况。本步骤中对当前文档中的每一个词汇都计算出其文本权重，n个词汇可以得到n个文本权重。

205：按照如下公式(2)将上述数据向量与文本权重进行数据融合得到融合向量；

其中，F-Vec为融合向量，n为当前文档中的词汇数目，为数据向量V中的第i个数据，TF-IDF(w_i)为词汇w_i的文本权重，与TF-IDF(w_i)相乘代表一个词汇的融合向量，将当前文档中所有词汇的融合向量相加代表该文档的融合向量，即F-Vec。

206：将该融合向量输入LSTM模型生成特征向量；

本实施例中，LSTM是一种特殊的RNN(Recurrent Neural Network，循环神经网络)，能够用来避免长时间依赖问题，并且能够捕捉到文本间的序列信息。

207：根据生成的特征向量，按照如下公式(3)计算当前文档对应的文本向量：

208：采用如下公式(4)计算第一文本向量和第二文本向量的相似度，得到第一文档和第二文档的相似度：

图3是根据本申请另一个实施例的文本相似度的计算装置结构图。参见图3，该装置包括：

数据集模块301，其配置成预先获取多个类别的语料作为文本数据集，对文本数据集进行预处理；

控制模块302，其配置成从预处理后的文本数据集中取出第一文档和第二文档，按照如下相同的方法分别求出对应的第一文本向量和第二文本向量；

Word2vec模块303，其配置成采用Word2vec模型对当前文档进行计算得到数据向量；

TF-IDF模块304，其配置成采用TF-IDF算法对当前文档进行计算得到文本权重；

融合模块305，其配置成将数据向量与文本权重进行数据融合得到融合向量；

LSTM模块306，其配置成将融合向量输入LSTM长短时记忆网络模型生成特征向量，对特征向量中的所有特征值求和，得到当前文档对应的文本向量；

相似度计算模块307，其配置成采用余弦相似度算法计算第一文本向量和第二文本向量的相似度，得到第一文档和第二文档的相似度。

本实施例中，可选的，相似度计算模块具体配置成：

本实施例中，可选的，融合模块具体配置成：

本实施例中，可选的，TF-IDF模块具体配置成：

采用如下公式对当前文档进行计算得到文本权重：

本实施例中，可选的，LSTM模块具体配置成：

按照如下公式计算当前文档对应的文本向量：

本实施例提供的上述装置，可以执行上述任一方法实施例提供的方法，详细过程详见方法实施例中的描述，此处不再赘述。

本实施例提供的上述装置，通过对基于Word2vec模型得到数据向量和基于TF-IDF算法得到的文本权重，进行数据融合得到融合向量，再输入LSTM模型后生成文本向量，从而计算出文本向量的相似度，得到文档的相似度，将TF-IDF算法的优点与LSTM模型的优点相结合，构造出能够体现文本中词语重要性并且具有深层语义信息的文本向量表示，解决了现有基于神经网络的监督学习方法没有考虑文本中不同单词重要性不足的问题，提高了计算文本相似度的准确性。

本申请实施例还提供了一种计算设备，参照图4，该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序，该计算机程序存储于存储器1120中的用于程序代码的空间1130，该计算机程序在由处理器1110执行时实现用于执行任一项根据本发明的方法步骤1131。

本申请实施例还提供了一种计算机可读存储介质。参照图5，该计算机可读存储介质包括用于程序代码的存储单元，该存储单元设置有用于执行根据本发明的方法步骤的程序1131′，该程序被处理器执行。

本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时，使得计算机执行根据本发明的方法步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid StateDisk(SSD))等。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetic tape)，软盘(英文：floppy disk)，光盘(英文：optical disc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种文本相似度的计算方法，包括：

采用Word2vec模型对当前文档进行计算得到数据向量；

采用TF-IDF算法对所述当前文档进行计算得到文本权重；

将所述融合向量输入LSTM长短时记忆网络模型生成特征向量，对所述特征向量中的所有特征值求和，得到所述当前文档对应的文本向量；

2.根据权利要求1所述的方法，其特征在于，采用余弦相似度算法计算所述第一文本向量和第二文本向量的相似度，得到所述第一文档和第二文档的相似度，包括：

3.根据权利要求1所述的方法，其特征在于，将所述数据向量与所述文本权重进行数据融合得到融合向量，包括：

4.根据权利要求1所述的方法，其特征在于，采用TF-IDF算法对所述当前文档进行计算得到文本权重，包括：

采用如下公式对所述当前文档进行计算得到文本权重：

5.根据权利要求1-4中任一项所述的方法，其特征在于，对所述特征向量中的所有特征值求和，得到所述当前文档对应的文本向量，包括：

按照如下公式计算所述当前文档对应的文本向量：

6.一种文本相似度的计算装置，包括：

7.根据权利要求6所述的装置，其特征在于，所述相似度计算模块具体配置成：

8.根据权利要求6所述的装置，其特征在于，所述融合模块具体配置成：

9.根据权利要求6所述的装置，其特征在于，所述TF-IDF模块具体配置成：

采用如下公式对所述当前文档进行计算得到文本权重：

10.根据权利要求6-9中任一项所述的装置，其特征在于，所述LSTM模块具体配置成：

按照如下公式计算所述当前文档对应的文本向量：