CN111259656A - 短语相似度计算方法、存储介质、电子设备及系统 - Google Patents

短语相似度计算方法、存储介质、电子设备及系统 Download PDF

Info

Publication number
CN111259656A
CN111259656A CN201811361013.6A CN201811361013A CN111259656A CN 111259656 A CN111259656 A CN 111259656A CN 201811361013 A CN201811361013 A CN 201811361013A CN 111259656 A CN111259656 A CN 111259656A
Authority
CN
China
Prior art keywords
target
participle set
phrase
participle
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811361013.6A
Other languages
English (en)
Inventor
徐乐乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Douyu Network Technology Co Ltd
Original Assignee
Wuhan Douyu Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Douyu Network Technology Co Ltd filed Critical Wuhan Douyu Network Technology Co Ltd
Priority to CN201811361013.6A priority Critical patent/CN111259656A/zh
Publication of CN111259656A publication Critical patent/CN111259656A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种短语相似度计算方法、存储介质、电子设备及系统,涉及数据分析技术领域,该方法包括:选定目标短语以及参照短语,将目标短语分割并组成目标分词集合,将参照短语分割并组成参照分词集合;判断目标分词集合与参照分词集合是否存在相似分词,若存在,则获取相似分词组成相似分词集合;根据相似分词在目标分词集合与参照分词集合中的位置,获得位置差异值;根据位置差异值以及参照分词集合的参照分词个数,获得绝对位置差异值;根据绝对位置差异值以及目标分词集合的目标分词个数,获得目标短语与参照短语的短语相似度。本发明基于目标短语以及参照短语的相似分词以及相似区域进行计算,为短语数据的相似度计算提供便利。

Description

短语相似度计算方法、存储介质、电子设备及系统
技术领域
本发明涉及数据分析技术领域,具体涉及一种短语相似度计算方法、存储介质、电子设备及系统。
背景技术
随着直播的发展,直播涉及的内容越来越广泛,观看直播的人越来越多,在直播过程中,用户会将实时的评论以弹幕的形式发布在直播间,并在直播画面上进行显示;
而工作人员为了分析不同用户的使用习惯,对大量用户进行分析,则需要对各弹幕数据进行统计和分析,此时则需要对较为相似的弹幕进行统计;
现阶段的直播站平台中,每日产生的弹幕量非常巨大,且其中80%以上都是短语弹幕,
因此,急需一种新的短语相似度计算方法,以提高工作人员数据分析的工作效率。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种短语相似度计算方法,基于目标短语以及参照短语的相似分词以及相似区域进行计算,获得短语之间的相似度,为短语数据的相似度计算提供便利,从而提高工作人员数据分析的工作效率。
为达到以上目的,本发明采取的技术方案是:
第一方面,本发明提供一种短语相似度计算方法,其包括以下步骤:
选定目标短语以及参照短语,并根据预设的语法规则,将所述目标短语分割并组成目标分词集合,将所述参照短语分割并组成参照分词集合;
判断所述目标分词集合与所述参照分词集合是否存在相似分词,若存在,则获取相似分词组成相似分词集合,并记录各所述相似分词分别在所述目标分词集合与所述参照分词集合中的位置;
根据所述相似分词在所述目标分词集合与所述参照分词集合中的位置,获得位置差异值;
根据所述位置差异值以及所述参照分词集合的参照分词个数,获得绝对位置差异值;
根据所述绝对位置差异值以及所述目标分词集合的目标分词个数,获得所述目标短语与所述参照短语的短语相似度。
需要说明的是,根据所述位置差异值以及所述参照分词集合的参照分词个数,获得绝对位置差异值,由于位置差异值是根据所述相似分词在所述目标分词集合与所述参照分词集合中的位置获得的,故而具体绝对位置差异值是指获得目标分词集合与参照分词之间相关联的绝对位置差异值。
上述技术方案的基础上,通过相似分词集合计算公式获得所述获得相似分词集合,所述相似分词集合计算公式为:
Figure BDA0001867335870000021
其中:
A表示所述目标分词集合,B表示所述参照分词集合;
S(A,B)为所述相似分词集合,
Figure BDA0001867335870000022
表示所述目标分词集合和所述参照分词集合存在相似分词,
Figure BDA0001867335870000034
表示所述目标分词集合和所述参照分词集合没有相似分词;
Bj=Ai,表示所述参照分词集合中的第j个参照分词和所述目标分词集合中的第i个目标分词相同;
m表示所述目标分词集合的目标分词个数,n表示所述参照分词集合的参照分词个数;
[0,m)表示0,1,2….m-1;
[0,n)表示0,1,2….n-1。
上述技术方案的基础上,通过位置差异值计算公式获得所述获得位置差异值,所述位置差异值计算公式为:
Figure BDA0001867335870000031
其中:
avg表示求平均数运算;
j∈S(A,B)表示从所述目标分词集合以及所述参照分词集合中遍历所述相似分词集合;
|j-i|表示所述参照分词集合中的第j个位置的参照分词和所述目标分词集合中的第i个目标分词在位置差距的绝对值。
上述技术方案的基础上,通过绝对位置差异值计算公式获得所述获得绝对位置差异值,所述绝对位置差异值计算公式:
Figure BDA0001867335870000032
上述技术方案的基础上,根据短语相似度计算公式获得所述获得短语相似度,所述短语相似度计算公式:
Figure BDA0001867335870000033
其中,λ表示调整系数,λ∈(1,3)。
上述技术方案的基础上,所述语法规则的预设过程包括:
获取所述目标短语,并识别所述目标短语的语种,记作目标语种;
根据所述目标语种选定与所述目标语种对应的语种语法,作为所述语法规则。
第二方面,本发明还提供一种存储介质,该存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面的短语相似度计算方法。
第三方面,本发明还提供一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面的短语相似度计算方法。
第六方面,本发明还提供一种短语相似度计算系统,其包括:
短语预处理单元,用于选定目标短语以及参照短语,并根据预设的语法规则,将所述目标短语分割并组成目标分词集合,将所述参照短语分割并组成参照分词集合;
相似分词集合获取单元,其用于判断所述目标分词集合与所述参照分词集合是否存在相似分词,若存在,则获取相似分词组成相似分词集合,并记录各所述相似分词分别在所述目标分词集合与所述参照分词集合中的位置;
位置差异值计算单元,其用于根据所述相似分词在所述目标分词集合与所述参照分词集合中的位置,获得位置差异值;
绝对位置差异值计算单元,其用于根据所述位置差异值以及所述参照分词集合的参照分词个数,获得绝对位置差异值;
短语相似度计算单元,其用于根据所述绝对位置差异值以及所述目标分词集合的目标分词个数,获得所述目标短语与所述参照短语的短语相似度。
在上述技术方案的基础上,所述相似分词集合获取单元配置有相似分词集合计算公式:
Figure BDA0001867335870000051
所述位置差异值计算单元配置有差异值计算公式:
Figure BDA0001867335870000052
所述绝对位置差异值计算单元配置有绝对位置差异值计算公式:
Figure BDA0001867335870000053
所述短语相似度计算单元配置有短语相似度计算公式:
Figure BDA0001867335870000054
其中:
A表示所述目标分词集合,B表示所述参照分词集合;
S(A,B)为所述相似分词集合,
Figure BDA0001867335870000055
表示所述目标分词集合和所述参照分词集合存在相似分词,
Figure BDA0001867335870000056
表示所述目标分词集合和所述参照分词集合没有相似分词;
Bj=Ai,表示所述参照分词集合中的第j个参照分词和所述目标分词集合中的第i个目标分词相同;
m表示所述目标分词集合的目标分词个数,n表示所述参照分词集合的参照分词个数;
[0,m)表示0,1,2….m-1;
[0,n)表示0,1,2….n-1;
avg表示求平均数运算;
j∈S(A,B)表示从所述目标分词集合以及所述参照分词集合中遍历所述相似分词集合;
|j-i|表示所述参照分词集合中的第j个位置的参照分词和所述目标分词集合中的第i个目标分词在位置差距的绝对值;
λ表示调整系数,λ∈(1,3)。
与现有技术相比,本发明的优点在于:
本发明基于目标短语以及参照短语的相似分词以及相似区域进行计算,获得短语之间的相似度,为短语数据的相似度计算提供便利,从而提高工作人员数据分析的工作效率。
附图说明
图1为本发明实施例一提供的一种短语相似度计算方法的步骤流程图;
图2为本发明实施例二提供的一种短语相似度计算系统的结构框图;
图中:1、短语预处理单元;2、相似分词集合获取单元;3、位置差异值计算单元;4、绝对位置差异值计算单元;5、短语相似度计算单元。
具体实施方式
以下结合附图对本发明的实施例作进一步详细说明。
本发明实施例提供一种短语相似度计算方法、存储介质、电子设备及系统,基于目标短语以及参照短语的相似分词以及相似区域进行计算,获得短语之间的相似度,为短语数据的相似度计算提供便利。
为达到上述技术效果,本申请的总体思路如下:
一种短语相似度计算方法,其包括以下步骤:
S1、选定目标短语以及参照短语,并根据预设的语法规则,将所述目标短语分割并组成目标分词集合,将所述参照短语分割并组成所述参照分词集合;
S2、判断所述目标分词集合与所述参照分词集合是否存在相似分词,若存在,则获取相似分词组成相似分词集合,并记录各所述相似分词分别在所述目标分词集合与所述参照分词集合中的位置;
S3、根据所述相似分词在所述目标分词集合与所述参照分词集合中的位置,获得位置差异值;
S4、根据所述位置差异值以及所述参照分词集合的参照分词个数,获得绝对位置差异值;
S5、根据所述绝对位置差异值以及所述目标分词集合的目标分词个数,获得所述目标短语与所述参照短语的短语相似度。
本发明实施例中,基于目标短语以及参照短语的相似分词以及相似区域进行计算,获得短语之间的相似度,为短语数据的相似度计算提供便利。
实施例一
参见图1所示,本发明实施例提供一种短语相似度计算方法,包括以下步骤:
S1、选定目标短语以及参照短语,并根据预设的语法规则,将目标短语分割并组成目标分词集合,将参照短语分割并组成参照分词集合;
S2、判断目标分词集合与参照分词集合是否存在相似分词,若存在,则获取相似分词组成相似分词集合,并记录各相似分词分别在目标分词集合与参照分词集合中的位置;
S3、根据相似分词在目标分词集合与参照分词集合中的位置,获得位置差异值;
S4、根据位置差异值以及参照分词集合的参照分词个数,获得绝对位置差异值;
S5、根据绝对位置差异值以及目标分词集合的目标分词个数,获得目标短语与参照短语的短语相似度。
需要说明的是,根据所述位置差异值以及所述参照分词集合的参照分词个数,获得绝对位置差异值,由于位置差异值是根据所述相似分词在所述目标分词集合与所述参照分词集合中的位置获得的,故而具体绝对位置差异值是指获得目标分词集合与参照分词之间相关联的绝对位置差异值。
本发明实施例,在步骤S1中,选定两个需要判断两者之间短语相似度的短语,进而选定其中一个为目标短语,另一个为参照短语,由于需要判断两个短语的相似度,那么两个短语首先应该是属于同一语种或同一语言规则的,那么他们应当符合同一语法规则,那么预设一个与目标短语以及参照短语对应的语法规则,将目标短语分割并组成目标分词集合,将参照短语分割并组成参照分词集合;
进而在步骤S2,判断目标分词集合与参照分词集合是否存在相似分词,若存在,则获取相似分词组成相似分词集合,并记录各相似分词分别在目标分词集合与参照分词集合中的位置;
其中,本发明实施例中,通过相似分词集合计算公式获得所述获得相似分词集合,所述相似分词集合计算公式为:
Figure BDA0001867335870000081
其中:
A表示目标分词集合,B表示参照分词集合;
S(A,B)为相似分词集合,
Figure BDA0001867335870000082
表示目标分词集合和参照分词集合存在相似分词,
Figure BDA0001867335870000091
表示目标分词集合和参照分词集合没有相似分词;
Bj=Ai,表示参照分词集合中的第j个参照分词和目标分词集合中的第i个目标分词相同;
m表示目标分词集合的目标分词个数,n表示参照分词集合的参照分词个数;
[0,m)表示0,1,2….m-1;
[0,n)表示0,1,2….n-1。
而后,在步骤S3中,根据相似分词在目标分词集合与参照分词集合中的位置,获得位置差异值;
具体的,本发明实施例中,通过位置差异值计算公式获得所述获得位置差异值,所述位置差异值计算公式为:
Figure BDA0001867335870000092
其中:
avg表示求平均数运算;
j∈S(A,B)表示从目标分词集合以及参照分词集合中遍历相似分词集合;
|j-i|表示参照分词集合中的第j个位置的参照分词和目标分词集合中的第i个目标分词在位置差距的绝对值。
进而,步骤S4中,通过绝对位置差异值计算公式获得所述获得绝对位置差异值,所述绝对位置差异值计算公式;
此时,获得绝对位置差异值运用到绝对位置差异值计算公式:
Figure BDA0001867335870000093
最后,在步骤S5中,根据绝对位置差异值以及目标分词集合的目标分词个数,获得目标短语与参照短语的短语相似度;
此步骤中,根据短语相似度计算公式获得所述获得短语相似度,所述短语相似度计算公式:
Figure BDA0001867335870000101
其中,λ表示调整系数,λ∈(1,3)。
本发明实施例,基于目标短语以及参照短语的相似分词以及相似区域进行计算,获得短语之间的相似度,为短语数据的相似度计算提供便利。
另外,本发明还可适用于直播平台,直播平台每日产生的弹幕量非常巨大,其中80%以上都是短语弹幕,利用本发明的短语相似度计算方法进行计算,能够给弹幕数据统计工作提供便利。
基于实施例一的一种的短语相似度计算方法,给出一个具体的计算例子:
假设选定了三个短语,分别拆分后,得到了3个短语集合:X={野区,霸主},Y={歌声,优美},Z={大师,野区};
根据相似分词集合计算公式,可以得到:
Figure BDA0001867335870000102
S(X,Z)={(0,1)},即X、Y之间没有相似分词,而X、Z之间有相似分词,而X和Z的相似分词集合为{(0,1)},即X的第一个分词与Z的第二个分词相同;
而后,利用位置差异值计算公式,计算X和Y,X和Z之间的位置差异值,结果如下:
因为短语X、Y中的文本无交叉,因此PO(X,Y)=2;
PO(X,Z)=avg((1-0)/1)=1;
接着,利用绝对位置差异值计算公式,计算X和Y,X和Z之间的绝对位置差异值,结果如下:
D(X,Y)=(2-2)/(2+1)=0;
D(X,Z)=2-1/(2+1)=0.33;
最后根据短语相似度计算公式,计算X和Y,X和Z之间的相似度,此时令λ为1,结果如下:
Sim(X,Y)=(1/2)*0=0
Sim(X,Z=(1/2)*0.33=0.166
故而,发现X和Y不存在相似度,X和Z有16.7%的相似度。
基于同一发明构思,本申请提供了实施例一对应的短语相似度计算系统的实施例,详见实施例二
实施例二
如图2所示,本发明第二实施例提供了一种短语相似度计算系统,其包括:
短语预处理单元1,用于选定目标短语以及参照短语,并根据预设的语法规则,将目标短语分割并组成目标分词集合,将参照短语分割并组成参照分词集合;
相似分词集合获取单元2,其用于判断目标分词集合与参照分词集合是否存在相似分词,若存在,则获取相似分词组成相似分词集合,并记录各相似分词分别在目标分词集合与参照分词集合中的位置;
位置差异值计算单元3,其用于根据相似分词在目标分词集合与参照分词集合中的位置,获得位置差异值;
绝对位置差异值计算单元4,其用于根据位置差异值以及参照分词集合的参照分词个数,获得绝对位置差异值;
短语相似度计算单元5,其用于根据绝对位置差异值以及目标分词集合的目标分词个数,获得目标短语与参照短语的短语相似度。
本发明实施例,首先,选定两个需要判断两者之间短语相似度的短语,进而选定其中一个为目标短语,另一个为参照短语,由于需要判断两个短语的相似度,那么两个短语首先应该是属于同一语种或同一语言规则的,那么他们应当符合同一语法规则,那么预设一个与目标短语以及参照短语对应的语法规则,将目标短语分割并组成目标分词集合,将参照短语分割并组成参照分词集合;
进而,判断目标分词集合与参照分词集合是否存在相似分词,若存在,则获取相似分词组成相似分词集合,并记录各相似分词分别在目标分词集合与参照分词集合中的位置;
其中,本发明实施例中,获得相似分词集合具体运用到相似分词集合计算公式:
Figure BDA0001867335870000121
其中:
A表示目标分词集合,B表示参照分词集合;
S(A,B)为相似分词集合,
Figure BDA0001867335870000122
表示目标分词集合和参照分词集合存在相似分词,
Figure BDA0001867335870000123
表示目标分词集合和参照分词集合没有相似分词;
Bj=Ai,表示参照分词集合中的第j个参照分词和目标分词集合中的第i个目标分词相同;
m表示目标分词集合的目标分词个数,n表示参照分词集合的参照分词个数;
[0,m)表示0,1,2….m-1;
[0,n)表示0,1,2….n-1。
而后,根据相似分词在目标分词集合与参照分词集合中的位置,获得位置差异值;
具体的,本发明实施例中,获得位置差异值具体运用到位置差异值计算公式:
Figure BDA0001867335870000131
其中:
avg表示求平均数运算;
j∈S(A,B)表示从目标分词集合以及参照分词集合中遍历相似分词集合;
|j-i|表示参照分词集合中的第j个位置的参照分词和目标分词集合中的第i个目标分词在位置差距的绝对值。
进而,根据位置差异值以及参照分词集合的参照分词个数,获得绝对位置差异值;
此时,获得绝对位置差异值运用到绝对位置差异值计算公式:
Figure BDA0001867335870000132
最后,根据绝对位置差异值以及目标分词集合的目标分词个数,获得目标短语与参照短语的短语相似度;
此步骤中,获得短语相似度运用到短语相似度计算公式:
Figure BDA0001867335870000133
其中,λ表示调整系数,λ∈(1,3)。
本发明实施例,基于目标短语以及参照短语的相似分词以及相似区域进行计算,获得短语之间的相似度,为短语数据的相似度计算提供便利。
另外,本发明还可适用于直播平台,直播平台每日产生的弹幕量非常巨大,其中80%以上都是短语弹幕,利用本发明的短语相似度计算方法进行计算,能够给弹幕数据统计工作提供便利。
基于同一发明构思,本申请提供了实施例一对应的存储介质的实施例,详见实施例三
实施例三
本发明第三实施例提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现第一实施例中的所有方法步骤或部分方法步骤。
本发明实现上述第一实施例中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Ran dom Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
基于同一发明构思,本申请提供了实施例一对应的电子设备的实施例,详见实施例四
实施例四
本发明第四实施例还提供一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,处理器执行计算机程序时实现第一实施例中的所有方法步骤或部分方法步骤。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,处理器是计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
存储器可用于存储计算机程序和/或模块,处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、服务器或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、服务器和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种短语相似度计算方法,其特征在于,其包括以下步骤:
选定目标短语以及参照短语,并根据预设的语法规则,将所述目标短语分割并组成目标分词集合,将所述参照短语分割并组成参照分词集合;
判断所述目标分词集合与所述参照分词集合是否存在相似分词,若存在,则获取相似分词组成相似分词集合,并记录各所述相似分词分别在所述目标分词集合与所述参照分词集合中的位置;
根据所述相似分词在所述目标分词集合与所述参照分词集合中的位置,获得位置差异值;
根据所述位置差异值以及所述参照分词集合的参照分词个数,获得绝对位置差异值;
根据所述绝对位置差异值以及所述目标分词集合的目标分词个数,获得所述目标短语与所述参照短语的短语相似度。
2.如权利要求1所述的方法,其特征在于,通过相似分词集合计算公式获得所述获得相似分词集合,所述相似分词集合计算公式为:
Figure FDA0001867335860000011
其中:
A表示所述目标分词集合,B表示所述参照分词集合;
S(A,B)为所述相似分词集合,
Figure FDA0001867335860000012
表示所述目标分词集合和所述参照分词集合存在相似分词,
Figure FDA0001867335860000013
表示所述目标分词集合和所述参照分词集合没有相似分词;
Bj=Ai,表示所述参照分词集合中的第j个参照分词和所述目标分词集合中的第i个目标分词相同;
m表示所述目标分词集合的目标分词个数,n表示所述参照分词集合的参照分词个数;
[0,m)表示0,1,2….m-1;
[0,n)表示0,1,2….n-1。
3.如权利要求2所述的方法,其特征在于,通过位置差异值计算公式获得所述获得位置差异值,所述位置差异值计算公式为:
Figure FDA0001867335860000021
其中:
avg表示求平均数运算;
j∈S(A,B)表示从所述目标分词集合以及所述参照分词集合中遍历所述相似分词集合;
|j-i|表示所述参照分词集合中的第j个位置的参照分词和所述目标分词集合中的第i个目标分词在位置差距的绝对值。
4.如权利要求3所述的方法,其特征在于,通过绝对位置差异值计算公式获得所述获得绝对位置差异值,所述绝对位置差异值计算公式:
Figure FDA0001867335860000022
5.如权利要求4所述的方法,其特征在于,根据短语相似度计算公式获得所述获得短语相似度,所述短语相似度计算公式:
Figure FDA0001867335860000023
其中,λ表示调整系数,λ∈(1,3)。
6.如权利要求1所述的方法,其特征在于,所述语法规则的预设过程包括:
获取所述目标短语,并识别所述目标短语的语种,记作目标语种;
根据所述目标语种选定与所述目标语种对应的语种语法,作为所述语法规则。
7.一种存储介质,该存储介质上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至6任一项所述的方法。
8.一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现权利要求1至6任一项所述的方法。
9.一种短语相似度计算系统,其特征在于,其包括:
短语预处理单元,用于选定目标短语以及参照短语,并根据预设的语法规则,将所述目标短语分割并组成目标分词集合,将所述参照短语分割并组成参照分词集合;
相似分词集合获取单元,其用于判断所述目标分词集合与所述参照分词集合是否存在相似分词,若存在,则获取相似分词组成相似分词集合,并记录各所述相似分词分别在所述目标分词集合与所述参照分词集合中的位置;
位置差异值计算单元,其用于根据所述相似分词在所述目标分词集合与所述参照分词集合中的位置,获得位置差异值;
绝对位置差异值计算单元,其用于根据所述位置差异值以及所述参照分词集合的参照分词个数,获得绝对位置差异值;
短语相似度计算单元,其用于根据所述绝对位置差异值以及所述目标分词集合的目标分词个数,获得所述目标短语与所述参照短语的短语相似度。
10.如权利要求9所述的系统,其特征在于:
所述相似分词集合获取单元配置有相似分词集合计算公式:
Figure FDA0001867335860000041
所述位置差异值计算单元配置有差异值计算公式:
Figure FDA0001867335860000042
所述绝对位置差异值计算单元配置有绝对位置差异值计算公式:
Figure FDA0001867335860000043
所述短语相似度计算单元配置有短语相似度计算公式:
Figure FDA0001867335860000044
其中:
A表示所述目标分词集合,B表示所述参照分词集合;
S(A,B)为所述相似分词集合,
Figure FDA0001867335860000045
表示所述目标分词集合和所述参照分词集合存在相似分词,
Figure FDA0001867335860000046
表示所述目标分词集合和所述参照分词集合没有相似分词;
Bj=Ai,表示所述参照分词集合中的第j个参照分词和所述目标分词集合中的第i个目标分词相同;
m表示所述目标分词集合的目标分词个数,n表示所述参照分词集合的参照分词个数;
[0,m)表示0,1,2….m-1;
[0,n)表示0,1,2….n-1;
avg表示求平均数运算;
j∈S(A,B)表示从所述目标分词集合以及所述参照分词集合中遍历所述相似分词集合;
|j-i|表示所述参照分词集合中的第j个位置的参照分词和所述目标分词集合中的第i个目标分词在位置差距的绝对值;
λ表示调整系数,λ∈(1,3)。
CN201811361013.6A 2018-11-15 2018-11-15 短语相似度计算方法、存储介质、电子设备及系统 Pending CN111259656A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811361013.6A CN111259656A (zh) 2018-11-15 2018-11-15 短语相似度计算方法、存储介质、电子设备及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811361013.6A CN111259656A (zh) 2018-11-15 2018-11-15 短语相似度计算方法、存储介质、电子设备及系统

Publications (1)

Publication Number Publication Date
CN111259656A true CN111259656A (zh) 2020-06-09

Family

ID=70953545

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811361013.6A Pending CN111259656A (zh) 2018-11-15 2018-11-15 短语相似度计算方法、存储介质、电子设备及系统

Country Status (1)

Country Link
CN (1) CN111259656A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104331449A (zh) * 2014-10-29 2015-02-04 百度在线网络技术(北京)有限公司 查询语句与网页相似度的确定方法、装置、终端及服务器
CN107704503A (zh) * 2017-08-29 2018-02-16 平安科技(深圳)有限公司 用户关键词提取装置、方法及计算机可读存储介质
CN108197109A (zh) * 2017-12-29 2018-06-22 北京百分点信息科技有限公司 一种基于自然语言处理的多语言分析方法和装置
CN108710613A (zh) * 2018-05-22 2018-10-26 平安科技(深圳)有限公司 文本相似度的获取方法、终端设备及介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104331449A (zh) * 2014-10-29 2015-02-04 百度在线网络技术(北京)有限公司 查询语句与网页相似度的确定方法、装置、终端及服务器
CN107704503A (zh) * 2017-08-29 2018-02-16 平安科技(深圳)有限公司 用户关键词提取装置、方法及计算机可读存储介质
CN108197109A (zh) * 2017-12-29 2018-06-22 北京百分点信息科技有限公司 一种基于自然语言处理的多语言分析方法和装置
CN108710613A (zh) * 2018-05-22 2018-10-26 平安科技(深圳)有限公司 文本相似度的获取方法、终端设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王莹莹: "中文短语文本相似度计算新方法" *

Similar Documents

Publication Publication Date Title
CN109710780B (zh) 一种归档方法及装置
CN110705405B (zh) 目标标注的方法及装置
CN111950723B (zh) 神经网络模型训练方法、图像处理方法、装置及终端设备
CN110544477A (zh) 一种语音识别方法、装置、设备及介质
US10853433B2 (en) Method and device for generating briefing
CN109561052B (zh) 网站异常流量的检测方法及装置
CN109636345B (zh) 一种业务办理工作流的智能管理方法及系统
CN107609149B (zh) 一种视频定位方法和装置
CN103605666B (zh) 一种进行广告检测的视频拷贝检测方法
CN112348110B (zh) 模型训练及图像处理方法、装置、电子设备和存储介质
CN109828993B (zh) 一种统计数据的查询方法及装置
CN111144215A (zh) 图像处理方法、装置、电子设备及存储介质
CN109145003B (zh) 一种构建知识图谱的方法及装置
CN109472017B (zh) 获得待生成裁判文书本院认为段相关信息的方法及装置
CN106028162B (zh) 一种弹幕动态适配方法
CN115858861A (zh) 视频浓缩方法、电子设备和计算机可读存储介质
CN113435328A (zh) 视频片段处理方法、装置、电子设备及可读存储介质
CN110876072B (zh) 一种批量注册用户识别方法、存储介质、电子设备及系统
CN111741331A (zh) 一种视频片段处理方法、装置、存储介质及设备
CN108334626B (zh) 新闻栏目的生成方法、装置和计算机设备
CN113297416A (zh) 视频数据存储方法、装置、电子设备和可读存储介质
CN113365109A (zh) 一种生成视频字幕的方法、装置、电子设备和存储介质
CN116364064B (zh) 一种音频拼接方法、电子设备及存储介质
CN115333879B (zh) 一种远程会议方法及系统
CN111259656A (zh) 短语相似度计算方法、存储介质、电子设备及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination