CN109635077A

CN109635077A - 文本相似度的计算方法、装置、电子设备及存储介质

Info

Publication number: CN109635077A
Application number: CN201811551461.2A
Authority: CN
Inventors: 徐乐乐
Original assignee: Wuhan Douyu Network Technology Co Ltd
Current assignee: Wuhan Douyu Network Technology Co Ltd
Priority date: 2018-12-18
Filing date: 2018-12-18
Publication date: 2019-04-16

Abstract

本发明公开了一种文本相似度的计算方法，应用于信息技术领域，包括：对待处理的两条文本进行分词处理，得到组成两条文本的两个词汇集合，将两个词汇集合进行并集处理和交集处理，得到两个词汇集合的并集词汇和交集词汇，再分别输入各词汇至预先训练的TF‑IDF空间向量集合，得出各词汇的权重值，然后基于并集词汇和交集词汇的权重值，计算得出两条文本的相似度，本发明还公开了一种文本相似度的计算装置、电子设备及存储介质，通过综合文本中词汇本身的重要程度以及共有词汇的重要程度对相似度计算的影响，提高文本相似度计算的准确性。

Description

文本相似度的计算方法、装置、电子设备及存储介质

技术领域

本发明涉及信息技术领域，尤其涉及一种文本相似度的计算方法、装置、电子设备及存储介质。

背景技术

随着计算机技术的飞速发展和互联网的快速普及，人类的信息交流变得越来越方便快捷。

在计算文本相似度时，现有技术一般使用余弦相似度或者欧式距离计算，采用这种方法，没有考虑到文本中词项本身的重要程度对相似度的影响，使计算结果不准确。

发明内容

本发明的主要目的在于提供一种文本相似度的计算方法、装置、电子设备及存储介质，提高文本相似度计算结果的准确性。

为实现上述目的，本发明实施例第一方面提供一种文本相似度的计算方法，包括：

对待处理的两条文本分别进行分词处理，得到组成所述两条文本的两个词汇集合；

将所述两个词汇集合进行并集处理和交集处理，得到所述两个词汇集合的并集词汇和交集词汇；

分别输入各所述词汇至预先训练的TF-IDF空间向量集合，得出各所述词汇的权重值；

基于所述并集词汇和交集词汇的权重值，计算得出所述两条文本的相似度。

进一步地，所述基于所述并集词汇和交集词汇的权重值，计算得出所述两条文本的相似度包括：

输入所述并集词汇和交集词汇的权重值至如下文本相似度计算公式，计算得出所述两条文本的相似度：

其中，A和B分别表示所述两条文本，w∈A∩B表示文本A与文本B中的交集词汇，w∈A∪B表示文本A与文本B中的并集词汇，w_tf-idf表示词汇的权重值，len(A∩B)表示文本A和文本B中交集词汇的数量，len(A)表示文本A中词汇的数量，len(B)表示文本B中词汇的数量，sim(A，B)表示文本A和文本B的相似度。

进一步地，所述TF-IDF空间向量集合由多条语料文本训练得出。

进一步地，所述TF-IDF空间向量集合由多条语料文本训练得出包括：

对各所述语料文本进行预处理，得到所述语料文本中的特征词；

通过TF-IDF权重公式，向量化各所述特征词，得到所述TF-IDF空间向量集合；

令i表示第i个语料文本，j表示第j个特征词，tf_ij表示第i个语料文本中第j个特征词的词频，N为语料文本总数，N_wij表示出现第i个语料文本中第j个特征词的语料文本数量，w_ij表示第i个语料文本中第j个特征词的权重值，则：

本发明实施例第二方面提供一种文本相似度的计算装置，包括：

分词模块，用于对待处理的两条文本分别进行分词处理，得到组成所述两条文本的两个词汇集合；

并集处理模块，用于将所述两个词汇集合进行并集处理，得到所述两个词汇集合的并集词汇；

交集处理模块，用于将所述两个词汇集合进行交集处理，得到所述两个词汇集合的交集词汇；

输入模块，用于分别输入各所述词汇至预先训练的TF-IDF空间向量集合，得出各所述词汇的权重值；

计算模块，用于基于所述并集词汇和交集词汇的权重值，计算得出所述两条文本的相似度。

本发明实施例第三方面提供了一种电子设备，包括：

存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现本发明实施例第一方面提供的文本相似度的计算方法。

本发明实施例第四方面提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例第一方面提供的文本相似度的计算方法。

从上述本发明实施例可知，本发明提供的文本相似度的计算方法、装置、电子设备及存储介质，通过对待处理的两条文本进行分词处理，得到组成两条文本的两个词汇集合，将两个词汇集合进行并集处理和交集处理，得到两个词汇集合的并集词汇和交集词汇，再分别输入各词汇至预先训练的TF-IDF空间向量集合，得出各词汇的权重值，然后基于并集词汇和交集词汇的权重值，计算得出两条文本的相似度，通过综合文本中词汇本身的重要程度以及共有词汇的重要程度对相似度计算的影响，提高文本相似度计算的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明第一实施例提供的文本相似度的计算方法的流程示意图；

图2为本发明第二实施例提供的文本相似度的计算装置的结构示意图；

图3示出了一种电子设备的硬件结构图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

TF-IDF(term frequency-inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是指词频(Term Frequency)，IDF是指逆文本频率指数(Inverse Document Frequency)。

请参阅图1，图1为本发明第一实施例提供的文本相似度的计算方法的流程示意图，该文本相似度的计算方法可应用在电子设备中，该电子设备可包括：手机、平板电脑(Portable Android Device，PAD)，笔记本电脑以及个人数字助理(Personal DigitalAssistant，PDA)等，该方法包括：

S101、对待处理的两条文本分别进行分词处理，得到组成该两条文本的两个词汇集合；

例如，两条文本分别由文本A和文本B表示，文本A＝我想去北京读大学，文本B＝北京的大学真好玩。将上述两条文本进行分词处理，分词后得到组成该两条文本的两个词汇集合，分别由词汇集合a和词汇集合b表示，则：

词汇集合a＝我想去北京读大学

词汇集合b＝北京的大学真好玩

S102、将该两个词汇集合进行并集处理和交集处理，得到该两个词汇集合的并集词汇和交集词汇；

用w∈A∩B表示文本A与文本B中的交集词汇，w∈A∪B表示文本A与文本B中的并集词汇，则：

w∈A∪B＝{我想去北京读大学的真好玩}

w∈A∩B＝{北京大学}

S103、分别输入各词汇至预先训练的TF-IDF空间向量集合，得出各词汇的权重值；

TF-IDF空间向量集合由多条语料文本训练得出。该语料文本可由用户自行选择设计，此处不做限制。

训练TF-IDF空间向量集合的具体过程如下：

首先对各语料文本进行预处理，得到语料文本中的特征词。具体的，预处理包括分词和去除停用词处理。其中，去除停用词可通过预设的停用词表实现，当语料文本中存在词汇在该预设的停用词表中时，该词汇即为预设停用词，则删除该词汇，最后得到该对话文本中的特征词。例如，语料文本：我喜欢小姐姐的歌声，首先对其进行分词处理，分词后得到：我喜欢小姐姐的歌声，由于预设停用词表中存在“的”字，去除停用词后得到：我喜欢小姐姐歌声。

然后，通过TF-IDF权重公式，向量化各特征词，得到该TF-IDF空间向量集合。示例性的，TF-IDF空间向量集合为{0.1，0.2，......，0.3，0.6}。TF-IDF空间向量集合里各个数值表示相应特征词在该多条语料文本中的权重值。

具体的，令i表示第i个语料文本，j表示第j个特征词，tf_ij表示第i个语料文本中第j个特征词的词频，N为语料文本总数，N_wij表示出现第i个语料文本中第j个特征词的语料文本数量，w_ij表示第i个语料文本中第j个特征词的权重值，则TF-IDF权重公式：

以下，对特征词的权重值计算进行举例说明。例如，语料文本的数量为3个，即N＝3，其中：

第一个语料文本：游戏直播间中杰小姐姐进场开大了

第二个语料文本：直播间的小姐姐的歌声好听好听

第三个语料文本：我喜欢小姐姐的歌声

进行预处理后，则：

第一个语料文本：游戏直播间小姐姐进场开大

第二个语料文本：直播间小姐姐歌声好听好听

第三个语料文本：我喜欢小姐姐歌声

假设计算第二个语料文本中“小姐姐”的权重值，则i＝2，j＝2，w_ij＝w₂₂，tf_ij＝tf₂₂＝1，N＝3，N_wij＝N_w22＝3，则：

进一步地，得到预先训练的TF-IDF空间向量集合后，然后分别输入各词汇至预先训练的TF-IDF空间向量集合，得出各词汇的权重值。示例性的，将词汇：我想去北京读大学的真好玩，输入至预先训练的TF-IDF空间向量集合。假设TF-IDF空间向量集合内上述词汇的权重值分别为0.1 0.1 0.3 0.1 0.6 0.2 0.3 0.1。则各词汇输入预先训练的TF-IDF空间向量集合后得到的权重值为0.1 0.1 0.3 0.1 0.6 0.2 0.3 0.1。

S104、基于该并集词汇和交集词汇的权重值，计算得出该两条文本的相似度。

输入并集词汇和交集词汇的权重值至如下文本相似度计算公式，计算得出该两条文本的相似度：

例如，w∈A∪B＝{我想去北京读大学的真好玩}，则

w∈A∩B＝{北京大学}，则

然后，用w_tf-idf表示词汇的权重值，len(A∩B)表示文本A和文本B中交集词汇的数量，len(A)表示文本A中词汇的数量，len(B)表示文本B中词汇的数量，sim(A，B)表示文本A和文本B的相似度。

可知len(A)＝5，len(B)＝5，len(A∩B)＝8，则：

因此，文本A(我想去北京读大学)和文本B(北京的大学真好玩)的相似度为0.1。

其中，可理解的，由上述文本相似度计算公式可知，词汇的权重值越大，对于相似度的影响越大。文本A和文本B中交集词汇的个数占文本总词汇个数的比例越大，则句子的相似度越高。

在本发明实施例中，对待处理的两条文本进行分词处理，得到组成两条文本的两个词汇集合，将两个词汇集合进行并集处理和交集处理，得到两个词汇集合的并集词汇和交集词汇，再分别输入各词汇至预先训练的TF-IDF空间向量集合，得出各词汇的权重值，然后基于并集词汇和交集词汇的权重值，计算得出两条文本的相似度，通过综合文本中词汇本身的重要程度以及共有词汇的重要程度对相似度计算的影响，提高文本相似度计算的准确性。

请参阅图2，图2为本发明第二实施例提供的文本相似度的计算装置的结构示意图，该装置可内置在电子设备中，该电子设备可包括：手机、平板电脑(Portable AndroidDevice，PAD)，笔记本电脑以及个人数字助理(Personal Digital Assistant，PDA)等，该装置包括：

分词模块201、并集处理模块202、交集处理模块203、输入模块204和计算模块205。

分词模块201，用于对待处理的两条文本分别进行分词处理，得到组成所述两条文本的两个词汇集合。

词汇集合a＝我想去北京读大学

词汇集合b＝北京的大学真好玩

并集处理模块202，用于将所述两个词汇集合进行并集处理，得到所述两个词汇集合的并集词汇。

用w∈A∩B表示文本A与文本B中的交集词汇，则w∈A∩B＝{北京大学}。

交集处理模块203，用于将所述两个词汇集合进行交集处理，得到所述两个词汇集合的交集词汇。

用w∈A∪B表示文本A与文本B中的并集词汇，则w∈A∪B＝{我想去北京读大学的真好玩}。

输入模块204，用于分别输入各所述词汇至预先训练的TF-IDF空间向量集合，得出各所述词汇的权重值。

TF-IDF空间向量集合由多条语料文本训练得出。该语料文本可由用户自行选择设计，此处不做限制。然后，通过TF-IDF权重公式，向量化各特征词，得到该TF-IDF空间向量集合。示例性的，TF-IDF空间向量集合为{0.1，0.2，……，0.3，0.6}。TF-IDF空间向量集合里各个数值表示相应特征词在该多条语料文本中的权重值。

其中，令i表示第i个语料文本，j表示第j个特征词，tf_ij表示第i个语料文本中第j个特征词的词频，N为语料文本总数，N_wij表示出现第i个语料文本中第j个特征词的语料文本数量，w_ij表示第i个语料文本中第j个特征词的权重值，则TF-IDF权重公式：

计算模块205，用于基于所述并集词汇和交集词汇的权重值，计算得出所述两条文本的相似度。

例如，w∈A∪B＝{我想去北京读大学的真好玩}，则

w∈A∩B＝{北京大学}，则

可知len(A)＝5，len(B)＝5，len(A∩B)＝8，则：

请参见图3，图3示出了一种电子设备的硬件结构图。

本实施例中所描述的电子设备，包括：

存储器31、处理器32及存储在存储器31上并可在处理器上运行的计算机程序，处理器执行该程序时实现前述图1所示实施例中描述的文本相似度的计算方法。

进一步地，该电子设备还包括：

至少一个输入设备33；至少一个输出设备34。

上述存储器31、处理器32输入设备33和输出设备34通过总线35连接。

其中，输入设备33具体可为摄像头、触控面板、物理按键或者鼠标等等。输出设备34具体可为显示屏。

存储器31可以是高速随机存取记忆体(RAM，Random Access Memory)存储器，也可为非不稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器31用于存储一组可执行程序代码，处理器32与存储器31耦合。

进一步地，本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可以是设置于上述各实施例中的终端中，该计算机可读存储介质可以是前述图3所示实施例中的存储器。该计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现前述图1所示实施例中描述的文本相似度的计算方法。进一步地，该计算机可存储介质还可以是U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上为对本发明所提供的一种文本相似度的计算方法、装置、电子设备及存储介质的描述，对于本领域的技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种文本相似度的计算方法，其特征在于，包括：

2.根据权利要求1所述的计算方法，其特征在于，所述基于所述并集词汇和交集词汇的权重值，计算得出所述两条文本的相似度包括：

其中，A和B分别表示所述两条文本，w∈A∩B表示文本A与文本B中的交集词汇，w∈A∪B表示文本A与文本B中的并集词汇，w_tf-idf表示词汇的权重值，len(A∩B)表示文本A和文本B中交集词汇的数量，len(A)表示文本A中词汇的数量，len(B)表示文本B中词汇的数量，sim(A,B)表示文本A和文本B的相似度。

3.根据权利要求1所述的计算方法，其特征在于，所述TF-IDF空间向量集合由多条语料文本训练得出。

4.根据权利要求3任意一项所述的计算方法，其特征在于，所述TF-IDF空间向量集合由多条语料文本训练得出包括：

5.一种文本相似度的计算装置，其特征在于，包括：

6.根据权利要求5所述的计算装置，其特征在于，所述计算模块具体用于输入所述并集词汇和交集词汇的权重值至如下文本相似度计算公式，计算得出所述两条文本的相似度：

7.根据权利要求5所述的计算装置，其特征在于，所述输入模块的TF-IDF空间向量集合由多条语料文本训练得出。

8.根据权利要求7任意一项所述的计算装置，其特征在于，所述输入模块包括：

预处理模块，用于对各所述语料文本进行预处理，得到所述语料文本中的特征词；

向量化模块，用于通过TF-IDF权重公式，向量化各所述特征词，得到所述TF-IDF空间向量集合；

9.一种电子设备，包括：存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现权利要求1至4中的任一项所述的文本相似度的计算方法中的各个步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现权利要求1至4中的任一项所述的文本相似度的计算方法中的各个步骤。