CN110633356B - 一种词语相似度计算方法、装置以及存储介质 - Google Patents

一种词语相似度计算方法、装置以及存储介质 Download PDF

Info

Publication number
CN110633356B
CN110633356B CN201910830820.6A CN201910830820A CN110633356B CN 110633356 B CN110633356 B CN 110633356B CN 201910830820 A CN201910830820 A CN 201910830820A CN 110633356 B CN110633356 B CN 110633356B
Authority
CN
China
Prior art keywords
word
characters
similarity
words
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910830820.6A
Other languages
English (en)
Other versions
CN110633356A (zh
Inventor
曾万贵
黄俊钧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Batulu Information Technology Co ltd
Original Assignee
Guangzhou Batulu Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Batulu Information Technology Co ltd filed Critical Guangzhou Batulu Information Technology Co ltd
Priority to CN201910830820.6A priority Critical patent/CN110633356B/zh
Publication of CN110633356A publication Critical patent/CN110633356A/zh
Application granted granted Critical
Publication of CN110633356B publication Critical patent/CN110633356B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种词语相似度计算方法,所述方法包括:获取第一词语和第二词语的交并比、所述第一词语的长度、所述第二词语的文字在所述第一词语的聚合度、所述第二词语的文字在所述第一词语的前置匹配度;利用预设词语相似度算法计算所述第一词语与所述第二词语之间的相似度;所述第一词语的数量为若干个,将所述若干个第一词语与所述第二词语之间的相似度进行排序。本发明还公开了词语相似度计算装置、设备以及存储介质。采用本发明,可以从词语的交并比、长度、聚合度、前置匹配度等方面去评价其相似性,提高了计算词语之间相似度的准确性。

Description

一种词语相似度计算方法、装置以及存储介质
技术领域
本发明涉及相似度计算领域,特别是涉及一种词语相似度计算方法。
背景技术
词语相似度计算在自然语言处理、智能检索、文本聚类、文本分类、自动应答、词义排歧和机器翻译等领域都有广泛的应用,它是自然语言的基础研究课题,正在被越来越多的研究人员所关注。
对于同一种东西,不同行业、不同地区可能会有多种叫法,举例来讲,由于汽配行业内部的沟通局限在小范围内,而且汽配行业的从业人员水平参差,在不同的小范围的沟通中,对同一个配件常常产生出许多不同的叫法。而从宏观来看,在不同的小范围或者小群体里,极有可能有一个叫法,被用来形容不同的配件,比如“前杠下护板”,可能在A市某些汽修厂与供应商之间,会用来表示“前保险杠下护板”这种配件,而在B市的某些汽修厂与供应商之间,则会用这个名称来称呼“发动机下护板(前)”这种配件。一个配件的标准的名称通常称为“主名”(如刚才说的“前保险杠下护板”、“发动机下护板(前)”),随之会衍生出的许多不同叫法(如刚才说的“前杠下护板”)通常称为“别名”。由于行业的这个特点,在进入互联网时代时,汽修厂等客户如果要在网上搜索购买配件时,往往用的都是“别名”,如何从“别名”搜索到客户想要的“主名”就是本发明所要解决的问题,按现有的搜索技术,用户搜索一个关键词,会按相关度进行匹配,可以匹配“别名”,也可以匹配“主名”,这其中有种情况,就是匹配“别名”时,可能这个“别名”会对应多个“主名”,而按业务需求,多个“主名“都需要展示出来供客户选择,这时,多个“主名”如何排序就成为一个难题。因为关键词匹配的都是同一个“别名”,所以相似度都是一样的,按现有技术,这多个”主名“的排序就会是随机的。因此,亟需一种能够实现对“别名”和“主名”之间进行了词语相似度的分析的词语相似度计算方法,使得相同“别名”的多个“主名”的搜索排序更优。
发明内容
为了解决上述问题,本发明的目的是提供一种词语相似度计算方法,可以从词语的交并比、长度、聚合度、前置匹配度等方面去评价其相似性,提高了计算词语之间相似度的准确性。
基于此,本发明提供了一种词语相似度计算方法,所述方法包括:
获取第一词语和第二词语的交并比、所述第一词语的长度、所述第二词语的文字在所述第一词语的聚合度、所述第二词语的文字在所述第一词语的前置匹配度;
利用预设词语相似度算法计算所述第一词语与所述第二词语之间的相似度;
所述第一词语的数量为若干个,将所述若干个第一词语与所述第二词语之间的相似度进行排序。
其中,所述预设词语相似度算法包括:
Figure GDA0003529292870000021
其中,Siou表示所述第一词语和所述第二词语的交并比,Sl表示所述第一词语的长度,Sc表示所述第二词语的文字在所述第一词语的聚合度,Sf表示所述第二词语的文字在所述第一词语的前置匹配度,所述Wiou,Wl,Wc,Wf分别是所述交并比、长度、聚合度和前置匹配度的权重系数。
其中,所述获取第一词语和第二词语的交并比包括:
Figure GDA0003529292870000031
其中,count(Wm∩Wa)表示所述第一词语与所述第二词语之间相同的字符的个数,count(Wm∪Wa)表示所述第一词语与所述第二词语之间并集的字符的个数。
其中,所述第一词语的长度包括:
S1=count(Wm)
其中,count(Wm)为所述第一词语中字符的总数,用来表征长度。
其中,所述第二词语的文字在所述第一词语的聚合度包括:
Figure GDA0003529292870000032
其中,f(i)的取值为:若cm,i属于Wa且cm,i-1不属于Wa时,f(i)等于i;若cm,i属于Wa且cm,i-1属于Wa时,f(i)等于-1;若cm,i不属于Wa时,f(i)等于0;所述第一词语包含的字符按顺序标记,第i个字符记为cm,i,b为纠偏项,所述第一词语和所述第二词语所包含字符的集合分别记为Wm、Wa,所述字符包括汉字、数字、英文字母。
其中,所述纠偏项b包括:
b=count(Wm)-N
所述count(Wm)为所述第一词语的长度,所述N包括使所述Sc为非负数的任何数。
其中,所述第二词语的文字在所述第一词语的前置匹配度包括:
Sf=min{i|cm,i∈Wa}
其中,所述Sf表示字符在所述第一词语和所述第二词语中均存在,并且在所述第一词语中的位置最靠前所对应的位置的值即i最小。
本发明实施例还提供了一种词语相似度计算装置,其特征在于,包括:
获取模块,用于获取第一词语和第二词语的交并比、所述第一词语的长度、所述第二词语的文字在所述第一词语的聚合度、所述第二词语的文字在所述第一词语的前置匹配度;
计算模块,用于利用预设词语相似度算法计算所述第一词语与所述第二词语之间的相似度;
排序模块,用于将所述若干个第一词语与所述第二词语之间的相似度进行排序。
本发明实施例还提供了一种词语相似度计算设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现上述词语相似度计算方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述词语相似度计算方法。
本发明提出了一种新的词语相似度计算方法,综合考虑了词语的“别名”与“主名”之间在字维度下的重合度、排序匹配度等指标,综合计算得出相似度评分,较好地对词语相似度做出了评估,提升了关键词搜索排序的用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的词语相似度计算方法的流程图;
图2是本发明实施例提供的词语相似度计算装置的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例提供的词语相似度计算方法的流程图,所述方法包括:
S101、获取第一词语和第二词语的交并比、所述第一词语的长度、所述第二词语的文字在所述第一词语的聚合度、所述第二词语的文字在所述第一词语的前置匹配度;
所述获取第一词语和第二词语的交并比包括:
Figure GDA0003529292870000051
其中,count(Wm∩Wa)表示所述第一词语与所述第二词语之间相同的字符的个数,count(Wm∪Wa)表示所述第一词语与所述第二词语之间并集的字符的个数。
所述第一词语的长度S1包括:
S1=count(Wm)
其中,count(Wm)为所述第一词语中字符的总数,用来表征长度。
所述第二词语的文字在所述第一词语的聚合度包括:
Figure GDA0003529292870000052
其中,f(i)的取值为:若cm,i属于Wa且cm,i-1不属于Wa时,f(i)等于i;若cm,i属于Wa且cm,i-1属于Wa时,f(i)等于-1;若cm,i不属于Wa时,f(i)等于0;所述第一词语包含的字符按顺序标记,第i个字符记为cm,i,b为纠偏项,所述第一词语和所述第二词语所包含字符的集合分别记为Wm、Wa,所述字符包括汉字、数字、英文字母。
所述纠偏项b包括:
b=count(Wm)-N
所述count(Wm)为所述第一词语的长度,所述N包括使所述Sc为非负数的任何数。
所述第二词语的文字在所述第一词语的前置匹配度包括:
Sf=min{i||cm,i∈Wa}
其中,所述Sf表示字符在所述第一词语和所述第二词语中均存在,并且在所述第一词语中的位置最靠前所对应的位置的值即i最小。
S102、利用预设词语相似度算法计算所述第一词语与所述第二词语之间的相似度;
所述预设词语相似度算法包括:
Figure GDA0003529292870000061
其中,Siou表示所述第一词语和所述第二词语的交并比,S1表示所述第一词语的长度,Sc表示所述第二词语的文字在所述第一词语的聚合度,Sf表示所述第二词语的文字在所述第一词语的前置匹配度,所述Wiou,Wl,Wc,Wf分别是所述交并比、长度、聚合度和前置匹配度的权重系数。
S103、所述第一词语的数量为若干个,将所述若干个第一词语与所述第二词语之间的相似度进行排序。
获取所述若干个第一词语与所述第二词语的相似度之后,可以按照若干个第一词语与所述第二词语之间的相似度大小按照从小到大或从大到小的原则进行排序。
以下举例说明所述词语相似度方法过程:
比如对于别名(第二词语)“前杠下护板”,我们有若干主名(第一词语)与其相对应,如:“前保险杠下护板”,“前保险杠下导流板”,“前保险杠下护板(右)”,“前保险杠下巴”,“发动机下护板”,“发动机下护板(左)”,“发动机下护板(右)”。
先以“前保险杠下护板(右)”作为第一词语说明相似度计算过程。
按前述的表示方法,第一词语和第二词语对应的字符集合分别为:
Wm={“前”,“保”,“险”,“杠”,“下”,“护”,“板”,“右”}
Wa={“前”,“杠”,“下”,“护”,“板”}
可以看到,第一词语的字符集完全包含了第二词语的字符,因此易知所述第一词语与所述第二词语的交集有5个字符,并集有8个字符,所以所述第一词语与所述第二词语之间的交并比为:
Siou=5/8=0.625
而所述第一词语的长度即第一词语的字符集的大小,所以:
5l=8
计算词语聚合度即计算所述第二词语的文字在所述第一词语的聚合度时,将所述第一词语的各字符按顺序编号,再一一按聚合度公式转换,如:第一个字符“前”,存在于别名的集合Wa之中,且其前面没有其它字符,所以,f(i)取值为1;第二和第三个字符“保”和“险”不存在于Wa集合中,因此f(i)取值为0;第四个字符“杠”存在于Wa集合中,但前面的“险”不存在于Wa中,所以f(i)取值为4;第五个字符“下”存在于Wa集合中,而前一个字符“杠”也存在于Wa集合中,所以f(i)取值为-1,类似的,后面两个字符取值也为-1,最后一个字符“右”不存在于Wa集合中,所以f(i)取值为0。
Figure GDA0003529292870000071
因此,对于“前保险杠下护板(右)”这个词语,其聚合度为:
Sc=8-2+(1+0+0+4-1-1-1+0)=8
前置匹配度得分即所述第二词语的文字在所述第一词语的前置匹配度,因为“前保险杠下护板(右)”的第一个字符就在第二词语的集合Wa之中,所以
Sf=1
最后,各个得分的权重假设分别为:wiou=10,wl=10,wc=5,wf=1,则可以计算出最后的得分:
S=0.625×10+1/(8×10+8×5+1×1)≈6.258
同样的方法也可以算出前述的其它主名的得分,罗列如下:
Figure GDA0003529292870000081
因此,最后按相似度得分S的大小进行排序,这些词语的排列顺序为:
1、前保险杠下护板;
2、前保险杠下护板(右);
3、前保险杠下导流板;
4、发动机下护板;
5、前保险杠下巴;
6、发动机下护板(左);
7、发动机下护板(右)。
本发明实施例提出了一种新的词语相似度计算方法,综合考虑了词语的“别名”与“主名”之间在字维度下的重合度、排序匹配度等指标,综合计算得出相似度评分,较好地对词语相似度做出了评估,提升了关键词搜索排序的用户体验。
图2是本发明实施例提供的词语相似度计算装置的示意图,所述装置包括:
获取模块201,用于获取第一词语和第二词语的交并比、所述第一词语的长度、所述第二词语的文字在所述第一词语的聚合度、所述第二词语的文字在所述第一词语的前置匹配度;
计算模块202,用于利用预设词语相似度算法计算所述第一词语与所述第二词语之间的相似度;
排序模块203,用于将所述若干个第一词语与所述第二词语之间的相似度进行排序。
本发明实施例提出的一种词语相似度计算装置的技术特征和技术效果与本发明实施例提出的方法相同,在此不予赘述。
本发明实施例还提供了一种词语相似度计算设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现上述的词语相似度计算方法。
本发明实施例还提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的词语相似度计算方法。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本发明的保护范围。

Claims (7)

1.一种词语相似度计算方法,其特征在于,包括:
获取第一词语和第二词语的交并比、所述第一词语的长度、所述第二词语的文字在所述第一词语的聚合度、所述第二词语的文字在所述第一词语的前置匹配度;所述获取第一词语和第二词语的交并比包括:
Figure FDA0003535902830000011
其中,count(Wm∩Wa)表示所述第一词语与所述第二词语之间相同的字符的个数,count(Wm∪Wa)表示所述第一词语与所述第二词语之间并集的字符的个数;
所述第二词语的文字在所述第一词语的聚合度包括:
Figure FDA0003535902830000012
其中,f(i)的取值为:若cm,i属于Wa且cm,i-1不属于Wa时,f(i)等于i;若cm,i属于Wa且cm,i-1属于Wa时,f(i)等于-1;若cm,i不属于Wa时,f(i)等于0;所述第一词语包含的字符按顺序标记,第i个字符记为cm,i,b为纠偏项,所述第一词语和所述第二词语所包含字符的集合分别记为Wm、Wa,所述字符包括汉字、数字、英文字母;
所述第二词语的文字在所述第一词语的前置匹配度包括:
Sf=min{i|cm,i∈Wa}
其中,所述Sf表示字符在所述第一词语和所述第二词语中均存在,并且在所述第一词语中的位置最靠前所对应的位置的值即i最小;
利用预设词语相似度算法计算所述第一词语与所述第二词语之间的相似度;
所述第一词语的数量为若干个,将所述若干个第一词语与所述第二词语之间的相似度进行排序。
2.如权利要求1所述词语相似度计算方法,其特征在于,所述预设词语相似度算法包括:
Figure FDA0003535902830000021
其中,Siou表示所述第一词语和所述第二词语的交并比,Sl表示所述第一词语的长度,Sc表示所述第二词语的文字在所述第一词语的聚合度,Sf表示所述第二词语的文字在所述第一词语的前置匹配度,所述Wiou,Wl,Wc,Wf分别是所述交并比、长度、聚合度和前置匹配度的权重系数。
3.如权利要求1所述词语相似度计算方法,其特征在于,所述第一词语的长度包括:
Sl=count(Wm)
其中,count(Wm)为所述第一词语中字符的总数,用来表征长度。
4.如权利要求1所述词语相似度计算方法,其特征在于,所述纠偏项b包括:
b=count(Wm)-N
所述count(Wm)为所述第一词语的长度,所述N包括使所述Sc为非负数的任何数。
5.一种词语相似度计算装置,其特征在于,包括:
获取模块,用于获取第一词语和第二词语的交并比、所述第一词语的长度、所述第二词语的文字在所述第一词语的聚合度、所述第二词语的文字在所述第一词语的前置匹配度;所述获取第一词语和第二词语的交并比包括:
Figure FDA0003535902830000031
其中,count(Wm∩Wa)表示所述第一词语与所述第二词语之间相同的字符的个数,count(Wm∪Wa)表示所述第一词语与所述第二词语之间并集的字符的个数;
所述第二词语的文字在所述第一词语的聚合度包括:
Figure FDA0003535902830000032
其中,f(i)的取值为:若cm,i属于Wa且cm,i-1不属于Wa时,f(i)等于i;若cm,i属于Wa且cm,i-1属于Wa时,f(i)等于-1;若cm,i不属于Wa时,f(i)等于0;所述第一词语包含的字符按顺序标记,第i个字符记为cm,i,b为纠偏项,所述第一词语和所述第二词语所包含字符的集合分别记为Wm、Wa,所述字符包括汉字、数字、英文字母;
所述第二词语的文字在所述第一词语的前置匹配度包括:
Sf=min{i|cm,i∈Wa}
其中,所述Sf表示字符在所述第一词语和所述第二词语中均存在,并且在所述第一词语中的位置最靠前所对应的位置的值即i最小;
计算模块,用于利用预设词语相似度算法计算所述第一词语与所述第二词语之间的相似度;
排序模块,用于将所述若干个第一词语与所述第二词语之间的相似度进行排序。
6.一种词语相似度计算设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至4中任意一项所述词语相似度计算方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至4中任意一项所述词语相似度计算方法。
CN201910830820.6A 2019-09-04 2019-09-04 一种词语相似度计算方法、装置以及存储介质 Active CN110633356B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910830820.6A CN110633356B (zh) 2019-09-04 2019-09-04 一种词语相似度计算方法、装置以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910830820.6A CN110633356B (zh) 2019-09-04 2019-09-04 一种词语相似度计算方法、装置以及存储介质

Publications (2)

Publication Number Publication Date
CN110633356A CN110633356A (zh) 2019-12-31
CN110633356B true CN110633356B (zh) 2022-05-20

Family

ID=68970094

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910830820.6A Active CN110633356B (zh) 2019-09-04 2019-09-04 一种词语相似度计算方法、装置以及存储介质

Country Status (1)

Country Link
CN (1) CN110633356B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597826B (zh) * 2020-05-15 2021-10-01 苏州七星天专利运营管理有限责任公司 一种辅助翻译中处理术语的方法
CN113780449B (zh) * 2021-09-16 2023-08-25 平安科技(深圳)有限公司 文本相似度的计算方法、装置、存储介质及计算机设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107193930A (zh) * 2017-05-17 2017-09-22 东莞市华睿电子科技有限公司 一种网站敏感词屏蔽方法
CN107958039A (zh) * 2017-11-21 2018-04-24 北京百度网讯科技有限公司 一种检索词纠错方法、装置及服务器
CN108304378A (zh) * 2018-01-12 2018-07-20 深圳壹账通智能科技有限公司 文本相似度计算方法、装置、计算机设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5116775B2 (ja) * 2007-11-19 2013-01-09 日本電信電話株式会社 情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107193930A (zh) * 2017-05-17 2017-09-22 东莞市华睿电子科技有限公司 一种网站敏感词屏蔽方法
CN107958039A (zh) * 2017-11-21 2018-04-24 北京百度网讯科技有限公司 一种检索词纠错方法、装置及服务器
CN108304378A (zh) * 2018-01-12 2018-07-20 深圳壹账通智能科技有限公司 文本相似度计算方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN110633356A (zh) 2019-12-31

Similar Documents

Publication Publication Date Title
TW201931170A (zh) 內容推薦方法及裝置
JP6187877B2 (ja) 同義語抽出システム、方法および記録媒体
CN109492213B (zh) 句子相似度计算方法和装置
US9569525B2 (en) Techniques for entity-level technology recommendation
CN110633356B (zh) 一种词语相似度计算方法、装置以及存储介质
CA3059929C (en) Text searching method, apparatus, and non-transitory computer-readable storage medium
CN110427480B (zh) 个性化文本智能推荐方法、装置及计算机可读存储介质
CN114329225B (zh) 基于搜索语句的搜索方法、装置、设备及存储介质
CN108733675B (zh) 基于大量样本数据的情感评价方法及装置
CN111046282B (zh) 文本标签设置方法、装置、介质以及电子设备
CN107247728B (zh) 文本处理方法、装置及计算机存储介质
CN112100470B (zh) 基于论文数据分析的专家推荐方法、装置、设备及存储介质
CN114186026A (zh) 自然语言处理方法、装置、设备及存储介质
CN113988057A (zh) 基于概念抽取的标题生成方法、装置、设备及介质
CN108287848A (zh) 用于语义解析的方法和系统
CN116719997A (zh) 政策信息推送方法、装置及电子设备
CN111428486B (zh) 物品信息数据处理方法、装置、介质及电子设备
CN113177061A (zh) 一种搜索方法、装置和电子设备
CN116303406B (zh) 废旧物数据的清洗方法、装置、电子设备及存储介质
US20140181124A1 (en) Method, apparatus, system and storage medium having computer executable instrutions for determination of a measure of similarity and processing of documents
CN110851560B (zh) 信息检索方法、装置及设备
CN115878790B (zh) 一种智能问答方法、装置、存储介质及电子设备
CN111382265B (zh) 搜索方法、装置、设备和介质
CN105893397A (zh) 一种视频推荐方法及装置
CN112069806A (zh) 简历筛选方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant