CN109766527A

CN109766527A - 一种文本相似度的计算方法以及相关设备

Info

Publication number: CN109766527A
Application number: CN201910038488.XA
Authority: CN
Inventors: 徐乐乐
Original assignee: Wuhan Ouyue Netvision Co Ltd
Current assignee: Wuhan Ouyue Netvision Co Ltd
Priority date: 2019-01-16
Filing date: 2019-01-16
Publication date: 2019-05-17
Anticipated expiration: 2039-01-16
Also published as: CN109766527B

Abstract

本发明实施例提供了一种文本相似度的计算方法及相关设备，综合考虑了文本之间的相同分词对文本相似计算的贡献度以及文本中的各个分词的权重，相较于传统的文本相似度算法而言，获得的精确度更高。该方法包括：获取第一文本以及第二文本；对所述第一文本以及所述第二文本进行分词，以得到第一分词集合以及第二分词集合；确定所述第一分词集合中每个分词的第一权重以及所述第二分词集合中每个分词的第二权重；根据所述第一权重以及所述第二权重确定相同分词的相似度贡献值；基于所述第一权重、所述第二权重以及所述相同分词的相似度贡献值确定所述第一文本与所述第二文本的相似度。

Description

一种文本相似度的计算方法以及相关设备

技术领域

本发明涉及信息处理技术领域，尤其涉及一种文本相似度的计算方法以及相关设备。

背景技术

在自然语言处理(Natural Language Processing，NLP)中，经常会涉及到如何度量两个文本的相似度问题。在诸如对话系统(Dialog system)和信息检索(Informationretrieval)等的问题中，如何度量句子或者短语之间的相似度尤为重要。文本相似度计算在信息检索、数据挖掘、机器翻译、文档复制检测等领域有着广泛的应用。

度量文本相似度一般是基于关键词匹配的传统方法，或者利用余弦显示度的方法，但是利用关键词匹配的传统方法，或者利用余弦相似度的方法度量精度不高。

发明内容

本发明实施例提供了一种文本相似度的计算方法及相关设备，综合考虑了文本之间的相同分词对文本相似计算的贡献度以及文本中的各个分词的权重，相较于传统的文本相似度算法而言，获得的精确度更高。

本发明实施例的第一方面提供了一种文本相似度的计算方法，包括：

获取第一文本以及第二文本，所述第一文本以及所述第二文本为待计算文本相似度的文本；

对所述第一文本以及所述第二文本进行分词，以得到第一分词集合以及第二分词集合，所述第一分词集合为所述第一文本分词后得到的分词集合，所述第二分词集合为所述第二文本分词后得到的分词集合；

确定所述第一分词集合中每个分词的第一权重以及所述第二分词集合中每个分词的第二权重，所述第一权重为所述第一分词集合中的每个分词在所述第一文本中的权重，所述第二权重为所述第二分词集合中的每个分词在所述第二文本中的权重；

根据所述第一权重以及所述第二权重确定相同分词的相似度贡献值，所述相同分词为所述第一分词集合以及所述第二分词集合中均包含的分词；

基于所述第一权重、所述第二权重以及所述相同分词的相似度贡献值确定所述第一文本与所述第二文本的相似度。

可选地，所述对所述第一文本以及所述第二文本进行分词，以得到第一分词集合以及第二分词集合包括：

通过n-gram的方式对所述第一文本以及所述第二文本进行分词，以得到所述第一分词集合以及所述第二分词集合

可选地，所述确定所述第一分词集合中每个分词的第一权重以及所述第二分词集合中每个分词的第二权重包括：

通过如下公式计算所述第一权重

n为所述n-gram的窗口长度，word_i为所述第一分词集合中的第i个分词的权重，为所述第i个分词在所述第一分词集合中出现的次数，N_A为所述第一文本A的长度；

通过如下公式计算所述第二权重

n为所述n-gram的窗口长度，word_j为所述第二分词集合中的第j个分词的权重，为所述第j个分词在所述第二分词集合中出现的次数，N_B为所述第二文本B的长度；

可选地，所述根据所述第一权重以及所述第二权重确定相同分词的相似度贡献值包括：

通过如下公司计算所述相同分词的相似度贡献值：

其中，Con(A,B)为所述相同分词的相似度贡献值，word_lA为所述相同分词l在所述第一文本A中的权重，word_lB为所述相同分词l在所述第二文本B中的权重。

可选地，所述基于所述第一权重、所述第二权重以及所述相同分词的相似度贡献值确定所述第一文本与所述第二文本的相似度包括：

通过如下公式计算所述第一文本与所述第二文本的相似度：

其中，t为所述Con(A，B)中分词的个数，word_l为所述相同分词i的相似度贡献值，N_gram-A为通过所述n-gram分词后所述第一文本A的长度，N_gram-B为通过所述n-gram分词后所述第二文本B的长度，为所述第一文本A中不包含所述相同分词l的分词集合，为所述第二文本B中不包含所述相同分词l的分词集合，word_m所述第一文本A中不包含所述相同分词l的分词集合中第m个分词的权重，word_o所述第二文本B中不包含所述相同分词l的分词集合中第o个分词的权重。

本发明实施例第二方面提供了一种文本相似度的计算装置，包括：

获取单元，用于获取第一文本以及第二文本，所述第一文本以及所述第二文本为待计算文本相似度的文本；

分词单元，用于对所述第一文本以及所述第二文本进行分词，以得到第一分词集合以及第二分词集合，所述第一分词集合为所述第一文本分词后得到的分词集合，所述第二分词集合为所述第二文本分词后得到的分词集合；

第一确定单元，用于确定所述第一分词集合中每个分词的第一权重以及所述第二分词集合中每个分词的第二权重，所述第一权重为所述第一分词集合中的每个分词在所述第一文本中的权重，所述第二权重为所述第二分词集合中的每个分词在所述第二文本中的权重；

第二确定单元，用于根据所述第一权重以及所述第二权重确定相同分词的相似度贡献值，所述相同分词为所述第一分词集合以及所述第二分词集合中均包含的分词；

第三确定单元，用于基于所述第一权重、所述第二权重以及所述相同分词的相似度贡献值确定所述第一文本与所述第二文本的相似度。

可选地，所述分词单元具体用于：

可选地，所述第一确定单元具体用于：

通过如下公式计算所述第一权重

通过如下公式计算所述第二权重

可选地，所述第二确定单元具体用于：

通过如下公司计算所述相同分词的相似度贡献值：

可选地，所述第三确定单元具体用于：

通过如下公式计算所述第一文本与所述第二文本的相似度：

本发明第三方面提供了一种电子设备，包括存储器、处理器，其特征在于，所述处理器用于执行存储器中存储的计算机管理类程序时实现如上述任意一项所述的文本相似度的计算方法的步骤。

本发明第四方面提供了一种计算机可读存储介质，其上存储有计算机管理类程序，其特征在于：所述计算机管理类程序被处理器执行时实现如上述任意一项所述的文本相似度的计算方法的步骤。

综上所述，可以看出，本发明提供的实施例中，在计算文本相似度的时候，综合考虑了文本之间的相同分词对文本相似计算的贡献度以及文本中的各个分词的权重，相较于传统的文本相似度算法而言，获得的精确度更高。

附图说明

图1为本发明实施例提供的一种文本相似度的计算方法的流程示意图；

图2为本发明实施例提供的一种文本相似度的计算装置的实施例示意图；

图3为本发明实施例提供的一种文本相似度的计算装置的硬件结构示意图；

图4为本发明实施例提供的一种电子设备的实施例示意图；

图5为本发明实施例提供的一种计算机可读存储介质的实施例示意图。

具体实施方式

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

下面从文本相似度的计算装置的角度对文本相似度的计算方法进行说明，该文本相似度的计算装置可以为服务器，也可以为服务器中的服务单元。

请参阅图1，图1为本发明实施例提供的文本相似度的计算方法的一个实施例示意图，包括：

101、获取第一文本以及第二文本。

本实施例中，文本相似度的计算装置可以获取第一文本以及第二文本，该第一文本以及第二文本为待计算文本相似度的文本，此处具体不限定获取方法，例如可以是接收用户的对第一文本以及第二文本的输入。

102、对第一文本以及第二文本进行分词，以得到第一分词集合以及第二分词集合。

本实施例中，文本相似度的计算装置通过n-gram(n-gram是大词汇连续语音识别中常用的一种语言模型)的方式对第一文本以及第二文本进行分词，以得到第一分词集合以及所述第二分词集合，该第一分词集合为第一文本分词后得到的分词集合，第二分词集合为第二文本分词后得到的集合。

103、确定第一分词集合中的每个分词的第一权重以及第二分词集合中每个分词的第二权重。

本实施例中，文本相似度的计算装置可以确定第一分词集合中的每个分词的第一权重以及第二分词集合中每个分词的第二权重，该第一权重为第一分词集合中的每个分词在第一文本中的权重，该第二权重为第二分词集合中的每个分词在第二文本中的权重，具体的，通过如下公式计算第一权重

n为n-gram的窗口长度，word_i为第一分词集合中的第i个分词的权重，N_wi为第i个分词在第一分词集合中出现的次数，N_A为第一文本A的长度；

通过如下公式计算第二权重

n为n-gram的窗口，word_j为第二分词集合中的第j个分词的权重，为第j个分词在第二分词集合中出现的次数，N_B为第二文本B的长度。

104、根据第一权重以及第二权重确定相同分词的相似度贡献值。

本实施例中，文本相似度的计算装置可以根据第一权重以及第二权重确定相同分词的相似度贡献值，该相同分词为第一分词集合以及第二分词集合中均包含的分词，具体的，可以通过如下公司计算相同分词的相似度贡献值：

其中，Con(A,B)为相同分词的相似度贡献值，word_lA为相同分词l在第一文本A中的权重，wordlB为相同分词l在所述第二文本B中的权重，其中，min(word_lA,word_lB)表示取word_lA和word_lB的最小权重值。

105、基于第一权重、第二权重以及相同分词的相似度贡献值确定第一文本与第二文本的相似度。

本实施例中，文本相似度的计算装置可以通过如下公式计算第一文本与第二文本的相似度：

其中，t为Con(A，B)中分词的个数，word_l为相同分词i的相似度贡献值，N_gram-A为通过n-gram分词后第一文本A的长度，N_gram-B为通过n-gram分词后所述第二文本B的长度，第一文本A中不包含相同分词l的分词集合，为第二文本B中不包含相同分词l的分词集合，word_m第一文本A中不包含相同分词l的分词集合中第m个分词的权重，word_o所述第二文本B中不包含相同分词l的分词集合中第o个分词的权重。

综上所述，可以看出，本发明提供的实施例中，获取第一文本以及第二文本，对第一文本以及第二文本进行分词，以得到第一分词集合以及第二分词集合，确定第一分词集合中每个分词的第一权重以及所述第二分词集合中每个分词的第二权重，根据第一权重以及第二权重确定相同分词的相似度贡献值，基于第一权重、第二权重以及相同分词的相似度贡献值确定第一文本与所述第二文本的相似度。由此可以看出，本发明提供的实施例中，综合考虑了文本之间的相同分词对文本相似计算的贡献度以及文本中的分词的权重，相较于传统的文本相似度算法而言，获得的精确度更高。

下面结合具体例子进行说明：

首先获取待计算相似度的2个文本句子A和句子B，并设置n-gram窗口长度为n＝2。

假设句子A＝去北京读北京大学，句子B＝北京的大学真好玩，n-gram分词可以得到：

A分词集合＝{去北，北京，京读，读北，北京，京大，大学}；

B分词集合＝{北京，京的，的大，大学，学真，真好，好玩}；

对应每个分词词出现的次数：

N-A＝{去北，北京，京读，读北，京大，大学}，Count_A＝{1，2，1，1，1，1}；

N-B＝{北京，京的，的大，大学，学真，真好，好玩}，Count_B＝{1，1，1，1，1，1，1}；

通过上述计算权重的公式，计算A分词集合中的每个分词的权重以及B分词集合中每个分词的权重：

WordA＝{1/7，2/7，1/7，1/7，1/7，1/7，}；

WordB＝{1/7，1/7，1/7，1/7，1/7，1/7，1/7，}；

有上述分词集合A以及分词集合B，可以得到句子A和句子B中共同出现的分词集合：

Con_word＝{北京，大学}；

通过上述计算相似度贡献值的公式计算得到每个相同分词的相似度贡献值：

最后，可以根据计算文本相似度的公式计算句子A和句子B的相似度：

则句子A和句子B的文本相似度为0.645。

由上述例子可以看出，本发明提供的实施例中，在计算文本相似度的时候，综合考虑了文本之间的相同分词对文本相似计算的贡献度以及文本中的分词的权重，相较于传统的文本相似度算法而言，获得的精确度更高。

综上所述，可以看出，上面对本发明实施例中文本相似度的计算方法进行了描述，下面对本发明实施例中的文本相似度的计算装置进行描述。

请参阅图2，本发明实施例中文本相似度的计算装置的一个实施例，该文本相似度的计算装置包括：

获取单元201，用于获取第一文本以及第二文本，所述第一文本以及所述第二文本为待计算文本相似度的文本；

分词单元202，用于对所述第一文本以及所述第二文本进行分词，以得到第一分词集合以及第二分词集合，所述第一分词集合为所述第一文本分词后得到的分词集合，所述第二分词集合为所述第二文本分词后得到的分词集合；

第一确定单元203，用于确定所述第一分词集合中每个分词的第一权重以及所述第二分词集合中每个分词的第二权重，所述第一权重为所述第一分词集合中的每个分词在所述第一文本中的权重，所述第二权重为所述第二分词集合中的每个分词在所述第二文本中的权重；

第二确定单元204，用于根据所述第一权重以及所述第二权重确定相同分词的相似度贡献值，所述相同分词为所述第一分词集合以及所述第二分词集合中均包含的分词；

第三确定单元205，用于基于所述第一权重、所述第二权重以及所述相同分词的相似度贡献值确定所述第一文本与所述第二文本的相似度。

可选地，所述分词单元202具体用于：

可选地，所述第一确定单元203具体用于：

通过如下公式计算所述第一权重

通过如下公式计算所述第二权重

可选地，所述第二确定单元204具体用于：

通过如下公司计算所述相同分词的相似度贡献值：

可选地，所述第三确定单元205具体用于：

通过如下公式计算所述第一文本与所述第二文本的相似度：

上面图2从模块化功能实体的角度对本发明实施例中的文本相似度的计算装置进行了描述，下面从硬件处理的角度对本发明实施例中的文本相似度的计算装置进行详细描述，请参阅图3，本发明实施例中的文本相似度的计算装置300一个实施例，包括：

输入装置301、输出装置302、处理器303和存储器304(其中处理器303的数量可以一个或多个，图3中以一个处理器303为例)。在本发明的一些实施例中，输入装置301、输出装置502、处理器303和存储器304可通过总线或其它方式连接，其中，图3中以通过总线连接为例。

其中，通过调用存储器304存储的操作指令，处理器303，用于执行如下步骤：

通过调用存储器304存储的操作指令，处理器303，还用于执行图1对应的实施例中的任一方式。

请参阅图4，图4为本发明实施例提供的电子设备的实施例示意图。

如图4所示，本发明实施例提供了一种电子设备，包括存储器410、处理器420及存储在存储器420上并可在处理器420上运行的计算机程序411，处理器420执行计算机程序411时实现以下步骤：

在具体实施过程中，处理器420执行计算机程序411时，可以实现图1对应的实施例中任一实施方式。

由于本实施例所介绍的电子设备为实施本发明实施例中一种文本相似度的计算装置所采用的设备，故而基于本发明实施例中所介绍的方法，本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式，所以在此对于该电子设备如何实现本发明实施例中的方法不再详细介绍，只要本领域所属技术人员实施本发明实施例中的方法所采用的设备，都属于本发明所欲保护的范围。

请参阅图5，图5为本发明实施例提供的一种计算机可读存储介质的实施例示意图。

如图5所示，本实施例提供了一种计算机可读存储介质500，其上存储有计算机程序511，该计算机程序511被处理器执行时实现如下步骤：

在具体实施过程中，该计算机程序511被处理器执行时可以实现图1对应的实施例中任一实施方式。

需要说明的是，在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其它实施例的相关描述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机软件指令，当计算机软件指令在处理设备上运行时，使得处理设备执行如图1对应实施例中的风电场数字化平台设计的方法中的流程。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修该，或者对其中部分技术特征进行等同替换；而这些修该或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文本相似度的计算方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述第一文本以及所述第二文本进行分词，以得到第一分词集合以及第二分词集合包括：

通过n-gram的方式对所述第一文本以及所述第二文本进行分词，以得到所述第一分词集合以及所述第二分词集合。

3.根据权利要求2所述的方法，其特征在于，所述确定所述第一分词集合中每个分词的第一权重以及所述第二分词集合中每个分词的第二权重包括：

通过如下公式计算所述第一权重

通过如下公式计算所述第二权重

n为所述n-gram的窗口长度，word_j为所述第二分词集合中的第j个分词的权重，为所述第j个分词在所述第二分词集合中出现的次数，N_B为所述第二文本B的长度。

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一权重以及所述第二权重确定相同分词的相似度贡献值包括：

通过如下公司计算所述相同分词的相似度贡献值：

5.根据权利要求2所述的方法，其特征在于，所述基于所述第一权重、所述第二权重以及所述相同分词的相似度贡献值确定所述第一文本与所述第二文本的相似度包括：

通过如下公式计算所述第一文本与所述第二文本的相似度：

6.一种文本相似度的计算装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述分词单元具体用于：

8.根据权利要求7所述的装置，其特征在于，所述第一确定单元具体用于：

通过如下公式计算所述第一权重

通过如下公式计算所述第二权重

9.一种电子设备，包括存储器、处理器，其特征在于，所述处理器用于执行存储器中存储的计算机管理类程序时实现如权利要求1至5中任意一项所述的文本相似度的计算方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机管理类程序，其特征在于：所述计算机管理类程序被处理器执行时实现如权利要求1至5中任意一项所述的文本相似度的计算方法的步骤。