CN110633356B

CN110633356B - 一种词语相似度计算方法、装置以及存储介质

Info

Publication number: CN110633356B
Application number: CN201910830820.6A
Authority: CN
Inventors: 曾万贵; 黄俊钧
Original assignee: Guangzhou Batulu Information Technology Co ltd
Current assignee: Guangzhou Batulu Information Technology Co ltd
Priority date: 2019-09-04
Filing date: 2019-09-04
Publication date: 2022-05-20
Anticipated expiration: 2039-09-04
Also published as: CN110633356A

Abstract

本发明公开了一种词语相似度计算方法，所述方法包括：获取第一词语和第二词语的交并比、所述第一词语的长度、所述第二词语的文字在所述第一词语的聚合度、所述第二词语的文字在所述第一词语的前置匹配度；利用预设词语相似度算法计算所述第一词语与所述第二词语之间的相似度；所述第一词语的数量为若干个，将所述若干个第一词语与所述第二词语之间的相似度进行排序。本发明还公开了词语相似度计算装置、设备以及存储介质。采用本发明，可以从词语的交并比、长度、聚合度、前置匹配度等方面去评价其相似性，提高了计算词语之间相似度的准确性。

Description

一种词语相似度计算方法、装置以及存储介质

技术领域

本发明涉及相似度计算领域，特别是涉及一种词语相似度计算方法。

背景技术

词语相似度计算在自然语言处理、智能检索、文本聚类、文本分类、自动应答、词义排歧和机器翻译等领域都有广泛的应用，它是自然语言的基础研究课题，正在被越来越多的研究人员所关注。

对于同一种东西，不同行业、不同地区可能会有多种叫法，举例来讲，由于汽配行业内部的沟通局限在小范围内，而且汽配行业的从业人员水平参差，在不同的小范围的沟通中，对同一个配件常常产生出许多不同的叫法。而从宏观来看，在不同的小范围或者小群体里，极有可能有一个叫法，被用来形容不同的配件，比如“前杠下护板”，可能在A市某些汽修厂与供应商之间，会用来表示“前保险杠下护板”这种配件，而在B市的某些汽修厂与供应商之间，则会用这个名称来称呼“发动机下护板(前)”这种配件。一个配件的标准的名称通常称为“主名”(如刚才说的“前保险杠下护板”、“发动机下护板(前)”)，随之会衍生出的许多不同叫法(如刚才说的“前杠下护板”)通常称为“别名”。由于行业的这个特点，在进入互联网时代时，汽修厂等客户如果要在网上搜索购买配件时，往往用的都是“别名”，如何从“别名”搜索到客户想要的“主名”就是本发明所要解决的问题，按现有的搜索技术，用户搜索一个关键词，会按相关度进行匹配，可以匹配“别名”，也可以匹配“主名”，这其中有种情况，就是匹配“别名”时，可能这个“别名”会对应多个“主名”，而按业务需求，多个“主名“都需要展示出来供客户选择，这时，多个“主名”如何排序就成为一个难题。因为关键词匹配的都是同一个“别名”，所以相似度都是一样的，按现有技术，这多个”主名“的排序就会是随机的。因此，亟需一种能够实现对“别名”和“主名”之间进行了词语相似度的分析的词语相似度计算方法，使得相同“别名”的多个“主名”的搜索排序更优。

发明内容

为了解决上述问题，本发明的目的是提供一种词语相似度计算方法，可以从词语的交并比、长度、聚合度、前置匹配度等方面去评价其相似性，提高了计算词语之间相似度的准确性。

基于此，本发明提供了一种词语相似度计算方法，所述方法包括：

获取第一词语和第二词语的交并比、所述第一词语的长度、所述第二词语的文字在所述第一词语的聚合度、所述第二词语的文字在所述第一词语的前置匹配度；

利用预设词语相似度算法计算所述第一词语与所述第二词语之间的相似度；

所述第一词语的数量为若干个，将所述若干个第一词语与所述第二词语之间的相似度进行排序。

其中，所述预设词语相似度算法包括：

其中，S_iou表示所述第一词语和所述第二词语的交并比，S_l表示所述第一词语的长度，S_c表示所述第二词语的文字在所述第一词语的聚合度，S_f表示所述第二词语的文字在所述第一词语的前置匹配度，所述W_iou，W_l，W_c，W_f分别是所述交并比、长度、聚合度和前置匹配度的权重系数。

其中，所述获取第一词语和第二词语的交并比包括：

其中，count(W_m∩W_a)表示所述第一词语与所述第二词语之间相同的字符的个数，count(W_m∪W_a)表示所述第一词语与所述第二词语之间并集的字符的个数。

其中，所述第一词语的长度包括：

S₁＝count(W_m)

其中，count(W_m)为所述第一词语中字符的总数，用来表征长度。

其中，所述第二词语的文字在所述第一词语的聚合度包括：

其中，f(i)的取值为：若c_m，i属于W_a且c_m，i-1不属于W_a时，f(i)等于i；若c_m，i属于W_a且c_m，i-1属于W_a时，f(i)等于-1；若c_m，i不属于W_a时，f(i)等于0；所述第一词语包含的字符按顺序标记，第i个字符记为c_m，i，b为纠偏项，所述第一词语和所述第二词语所包含字符的集合分别记为W_m、W_a，所述字符包括汉字、数字、英文字母。

其中，所述纠偏项b包括：

b＝count(W_m)-N

所述count(W_m)为所述第一词语的长度，所述N包括使所述S_c为非负数的任何数。

其中，所述第二词语的文字在所述第一词语的前置匹配度包括：

S_f＝min{i|c_m，i∈W_a}

其中，所述S_f表示字符在所述第一词语和所述第二词语中均存在，并且在所述第一词语中的位置最靠前所对应的位置的值即i最小。

本发明实施例还提供了一种词语相似度计算装置，其特征在于，包括：

获取模块，用于获取第一词语和第二词语的交并比、所述第一词语的长度、所述第二词语的文字在所述第一词语的聚合度、所述第二词语的文字在所述第一词语的前置匹配度；

计算模块，用于利用预设词语相似度算法计算所述第一词语与所述第二词语之间的相似度；

排序模块，用于将所述若干个第一词语与所述第二词语之间的相似度进行排序。

本发明实施例还提供了一种词语相似度计算设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现上述词语相似度计算方法。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述词语相似度计算方法。

本发明提出了一种新的词语相似度计算方法，综合考虑了词语的“别名”与“主名”之间在字维度下的重合度、排序匹配度等指标，综合计算得出相似度评分，较好地对词语相似度做出了评估，提升了关键词搜索排序的用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的词语相似度计算方法的流程图；

图2是本发明实施例提供的词语相似度计算装置的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例提供的词语相似度计算方法的流程图，所述方法包括：

S101、获取第一词语和第二词语的交并比、所述第一词语的长度、所述第二词语的文字在所述第一词语的聚合度、所述第二词语的文字在所述第一词语的前置匹配度；

所述获取第一词语和第二词语的交并比包括：

所述第一词语的长度S₁包括：

S₁＝count(W_m)

所述第二词语的文字在所述第一词语的聚合度包括：

所述纠偏项b包括：

b＝count(W_m)-N

所述第二词语的文字在所述第一词语的前置匹配度包括：

S_f＝min{i||c_m，i∈W_a}

S102、利用预设词语相似度算法计算所述第一词语与所述第二词语之间的相似度；

所述预设词语相似度算法包括：

其中，S_iou表示所述第一词语和所述第二词语的交并比，S₁表示所述第一词语的长度，S_c表示所述第二词语的文字在所述第一词语的聚合度，S_f表示所述第二词语的文字在所述第一词语的前置匹配度，所述W_iou，W_l，W_c，W_f分别是所述交并比、长度、聚合度和前置匹配度的权重系数。

S103、所述第一词语的数量为若干个，将所述若干个第一词语与所述第二词语之间的相似度进行排序。

获取所述若干个第一词语与所述第二词语的相似度之后，可以按照若干个第一词语与所述第二词语之间的相似度大小按照从小到大或从大到小的原则进行排序。

以下举例说明所述词语相似度方法过程：

比如对于别名(第二词语)“前杠下护板”，我们有若干主名(第一词语)与其相对应，如：“前保险杠下护板”，“前保险杠下导流板”，“前保险杠下护板(右)”，“前保险杠下巴”，“发动机下护板”，“发动机下护板(左)”，“发动机下护板(右)”。

先以“前保险杠下护板(右)”作为第一词语说明相似度计算过程。

按前述的表示方法，第一词语和第二词语对应的字符集合分别为：

W_m＝{“前”，“保”，“险”，“杠”，“下”，“护”，“板”，“右”}

W_a＝{“前”，“杠”，“下”，“护”，“板”}

可以看到，第一词语的字符集完全包含了第二词语的字符，因此易知所述第一词语与所述第二词语的交集有5个字符，并集有8个字符，所以所述第一词语与所述第二词语之间的交并比为：

S_iou＝5/8＝0.625

而所述第一词语的长度即第一词语的字符集的大小，所以：

5_l＝8

计算词语聚合度即计算所述第二词语的文字在所述第一词语的聚合度时，将所述第一词语的各字符按顺序编号，再一一按聚合度公式转换，如：第一个字符“前”，存在于别名的集合W_a之中，且其前面没有其它字符，所以，f(i)取值为1；第二和第三个字符“保”和“险”不存在于W_a集合中，因此f(i)取值为0；第四个字符“杠”存在于W_a集合中，但前面的“险”不存在于W_a中，所以f(i)取值为4；第五个字符“下”存在于W_a集合中，而前一个字符“杠”也存在于W_a集合中，所以f(i)取值为-1，类似的，后面两个字符取值也为-1，最后一个字符“右”不存在于W_a集合中，所以f(i)取值为0。

因此，对于“前保险杠下护板(右)”这个词语，其聚合度为：

S_c＝8-2+(1+0+0+4-1-1-1+0)＝8

前置匹配度得分即所述第二词语的文字在所述第一词语的前置匹配度，因为“前保险杠下护板(右)”的第一个字符就在第二词语的集合W_a之中，所以

S_f＝1

最后，各个得分的权重假设分别为：w_iou＝10，w_l＝10，w_c＝5，w_f＝1，则可以计算出最后的得分：

S＝0.625×10+1/(8×10+8×5+1×1)≈6.258

同样的方法也可以算出前述的其它主名的得分，罗列如下：

因此，最后按相似度得分S的大小进行排序，这些词语的排列顺序为：

1、前保险杠下护板；

2、前保险杠下护板(右)；

3、前保险杠下导流板；

4、发动机下护板；

5、前保险杠下巴；

6、发动机下护板(左)；

7、发动机下护板(右)。

本发明实施例提出了一种新的词语相似度计算方法，综合考虑了词语的“别名”与“主名”之间在字维度下的重合度、排序匹配度等指标，综合计算得出相似度评分，较好地对词语相似度做出了评估，提升了关键词搜索排序的用户体验。

图2是本发明实施例提供的词语相似度计算装置的示意图，所述装置包括：

获取模块201，用于获取第一词语和第二词语的交并比、所述第一词语的长度、所述第二词语的文字在所述第一词语的聚合度、所述第二词语的文字在所述第一词语的前置匹配度；

计算模块202，用于利用预设词语相似度算法计算所述第一词语与所述第二词语之间的相似度；

排序模块203，用于将所述若干个第一词语与所述第二词语之间的相似度进行排序。

本发明实施例提出的一种词语相似度计算装置的技术特征和技术效果与本发明实施例提出的方法相同，在此不予赘述。

本发明实施例还提供了一种词语相似度计算设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现上述的词语相似度计算方法。

本发明实施例还提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的词语相似度计算方法。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和替换，这些改进和替换也应视为本发明的保护范围。

Claims

1.一种词语相似度计算方法，其特征在于，包括：

获取第一词语和第二词语的交并比、所述第一词语的长度、所述第二词语的文字在所述第一词语的聚合度、所述第二词语的文字在所述第一词语的前置匹配度；所述获取第一词语和第二词语的交并比包括：

其中，count(W_m∩W_a)表示所述第一词语与所述第二词语之间相同的字符的个数，count(W_m∪W_a)表示所述第一词语与所述第二词语之间并集的字符的个数；

所述第二词语的文字在所述第一词语的聚合度包括：

其中，f(i)的取值为：若c_m,i属于W_a且c_m,i-1不属于W_a时，f(i)等于i；若c_m,i属于W_a且c_m,i-1属于W_a时，f(i)等于-1；若c_m,i不属于W_a时，f(i)等于0；所述第一词语包含的字符按顺序标记，第i个字符记为c_m,i,b为纠偏项，所述第一词语和所述第二词语所包含字符的集合分别记为W_m、W_a，所述字符包括汉字、数字、英文字母；

所述第二词语的文字在所述第一词语的前置匹配度包括：

S_f＝min{i|c_m,i∈W_a}

其中，所述S_f表示字符在所述第一词语和所述第二词语中均存在，并且在所述第一词语中的位置最靠前所对应的位置的值即i最小；

2.如权利要求1所述词语相似度计算方法，其特征在于，所述预设词语相似度算法包括：

3.如权利要求1所述词语相似度计算方法，其特征在于，所述第一词语的长度包括：

S_l＝count(W_m)

4.如权利要求1所述词语相似度计算方法，其特征在于，所述纠偏项b包括：

b＝count(W_m)-N

5.一种词语相似度计算装置，其特征在于，包括：

获取模块，用于获取第一词语和第二词语的交并比、所述第一词语的长度、所述第二词语的文字在所述第一词语的聚合度、所述第二词语的文字在所述第一词语的前置匹配度；所述获取第一词语和第二词语的交并比包括：

所述第二词语的文字在所述第一词语的聚合度包括：

所述第二词语的文字在所述第一词语的前置匹配度包括：

S_f＝min{i|c_m,i∈W_a}

6.一种词语相似度计算设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至4中任意一项所述词语相似度计算方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至4中任意一项所述词语相似度计算方法。