CN105302779A - 一种文本相似度比对方法及装置 - Google Patents

一种文本相似度比对方法及装置 Download PDF

Info

Publication number
CN105302779A
CN105302779A CN201510695861.0A CN201510695861A CN105302779A CN 105302779 A CN105302779 A CN 105302779A CN 201510695861 A CN201510695861 A CN 201510695861A CN 105302779 A CN105302779 A CN 105302779A
Authority
CN
China
Prior art keywords
text
similarity
sentence
word
fine granularity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510695861.0A
Other languages
English (en)
Inventor
姜晓丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China news publishing research institute
SMARTDOT TECHNOLOGIES Co Ltd
Original Assignee
China news publishing research institute
SMARTDOT TECHNOLOGIES Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China news publishing research institute, SMARTDOT TECHNOLOGIES Co Ltd filed Critical China news publishing research institute
Priority to CN201510695861.0A priority Critical patent/CN105302779A/zh
Publication of CN105302779A publication Critical patent/CN105302779A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请一种文本相似度比对方法及装置,首先以文本为粗粒度,采用词的浅层相似度筛选出第一文本集合,进一步,通过计算第一文本与待对比文本的句子的浅层相似度、信息熵相似度和浅语义相似度,确定第一文本与待对比文本的细粒度文本相似度,筛选出细粒度文本相似度超过第二阈值的第一文本,确定为相似文本。本申请中参考文本的具体特征项和特征值与待对比文本相关,因此增强了对比效果和精确度。

Description

一种文本相似度比对方法及装置
技术领域
本申请涉及信息处理技术领域,更具体地说,涉及一种文本相似度比对方法及装置。
背景技术
随着互联网的飞速发展,信息技术的发展也突飞猛进,各类信息资源的数量以惊人的速度增长,如何对互联网上发布的文档进行侵权比对,成为亟待解决的问题。
现有的技术一般采用基于媒体指纹的比对方式,媒体指纹比对方式中的参考文本的特征是固定的,通过将待对比文本的内容表示为与参考文本的特征同类型的特征,进而对比该特征,确定两份文本的相似度。
由于媒体指纹比对方式中参考文本的特征是固定的,其不随着待对比文本的变化而变化,因此其文本相似度比对结果的精确度偏低。
发明内容
有鉴于此,本申请提供了一种文本相似度比对方法及装置,用于解决现有基于媒体指纹的比对方式所存在的文本相似度比对结果精确度低的问题。
为了实现上述目的,现提出的方案如下:
一种文本相似度比对方法,包括:
接收待对比文本;
从预置的参考文本集合中选取第一文本集合,所述第一文本集合中的任意一份第一文本与所述待对比文本所包含的相同词的数量占两份文本总词量的比例超过第一阈值;
以句子为分段单位,对所述待对比文本和所述第一文本集合中的文本进行分段;
针对所述第一文本集合中的每一份第一文本,计算其与所述待对比文本的细粒度文本相似度,其中,细粒度文本相似度由所述第一文本和所述待对比文本的句子的浅层相似度、信息熵相似度和浅语义相似度确定;
筛选出细粒度文本相似度超过第二阈值的第一文本,确定为所述待对比文本的相似文本。
优选地,在所述从预置的参考文本集合中选取第一文本集合之前,该方法还包括:
对所述待对比文本进行停用词、同义词过滤处理。
优选地,所述从预置的参考文本集合中选取第一文本集合,包括:
计算待对比文本D1与参考文本集合中任意一份文本D2的粗粒度文本相似度Sim(D1,D2):
Sim(D1,D2)=Count(D1∩D2)/(Count(D1)+Count(D2)),其中,D1∩D2表示文本D1、D2所包含的相同的词,Count()是词的个数;
从所述参考文本集合中选取粗粒度文本相似度Sim(D1,D2)超过第一阈值的文本D2,由选取的若干个文本D2组成第一文本集合。
优选地,所述针对所述第一文本集合中的每一份第一文本,计算其与所述待对比文本的细粒度文本相似度,包括:
第一,计算句子浅层相似度SimSha(S1,S2):
SimSha(S1,S2)=Count(S1∩S2)/(Count(S1)+Count(S2)),其中,S1为待对比文本D1中的句子,S2为第一文本集合中任意一份第一文本D2中的句子,S1∩S2表示句子S1、S2所包含的相同的词,Count()是词的个数;
第二,计算信息熵相似度SimEnt(S1,S2):
SimEnt(S1,S2)=∑(E(Wi))
E(W)=log(N/n)
其中词Wi∈S1∩S2,N表示第一文本D2中句子的总数,n是包含词W的句子数;
第三,计算浅语义相似度SimSemS(S1,S2):
其中,词义相似度的表达式为:
SimSemW(Wj,Wk)=F(SimLex(Wj,Wk),SimPos(Wj,Wk),SimCon(Wj,Wk))=SimLex(Wj,Wk)·SimPos(Wj,Wk)·SimCon(Wj,Wk)
其中,Wj为句子S1中的词,Wk为句子S2中的词,SimLex(Wj,Wk)、SimPos(Wj,Wk)、SimCon(Wj,Wk)分别表示词Wj与Wk的词汇相似度、词性相似度、词上下文相似度,SimLex(Wj,Wk)是词Wj与Wk对应的义原在义原树上的距离;当Wj与Wk词性一样时,SimPos(Wj,Wk)取值为1、当Wj与Wk词性不一样时,SimPos(Wj,Wk)取值为0;SimCon(Wj,Wk)=ABS(pos1/N1-pos2/N2),其中,pos1、pos2分别是Wj、Wk在相应句中的位置,N1、N2是Wj、Wk所在句子的长度;
浅语义相似度SimSemS(S1,S2)为:
SimSemS(S1,S2)=2·∑0≤i<Len(S1)ArgMax{SimSemW(Wi,Wj):0≤j<Len(S2)}/(Len(S1)+Len(S2))
其中,Argmax表示寻找具有最大评分的参量,函数Argmax{f(x,y):x∈X},表示x∈X使f(x,y)达到最大值时的取值;Len(S)是句子S的长度,即词语个数;
第四,计算句子细粒度相似度Similarity(S1,S2):
Similarity(S1,S2)=α·SimSha(S1,S2)+β·SimEnt(S1,S2)+γ·SimSemS(S1,S2)
其中,α、β、γ是权值参数,α+β+γ=1;
第五,计算细粒度文本相似度Similarity(D1,D2):
记SegSimilarity(Sk,Sj)=max(Similarity(Sk,Si))
其中Sk是待对比文本D1中的句子,Si是第一文本集合中任意一份第一文本D2中句子,1≤i≤N2,N2为第一文本D2中句子总数,j是第一文本D2中Similarity(Sk,Si)最大的i值;
细粒度文本相似度Similarity(D1,D2)为:
Similarity(D1,D2)
=∑ρ·SegSimilarity(Sk,Sj)
其中ρ是与Sk相关的权重。
优选地,所述α、β、γ的大小关系为:
γ>α>β。
一种文本相似度比对装置,包括:
文本接收单元,用于接收待对比文本;
第一文本集合选取单元,用于从预置的参考文本集合中选取第一文本集合,所述第一文本集合中的任意一份第一文本与所述待对比文本所包含的相同词的数量占两份文本总词量的比例超过第一阈值;
分段单元,用于以句子为分段单位,对所述待对比文本和所述第一文本集合中的文本进行分段;
细粒度文本相似度计算单元,用于针对所述第一文本集合中的每一份第一文本,计算其与所述待对比文本的细粒度文本相似度,其中,细粒度文本相似度由所述第一文本和所述待对比文本的句子的浅层相似度、信息熵相似度和浅语义相似度确定;
相似文本确定单元,用于筛选出细粒度文本相似度超过第二阈值的第一文本,确定为所述待对比文本的相似文本。
优选地,还包括:
预处理单元,用于在所述从预置的参考文本集合中选取第一文本集合之前,对所述待对比文本进行停用词、同义词过滤处理。
优选地,所述第一文本集合选取单元包括:
粗粒度文本相似度计算单元,用于计算待对比文本D1与参考文本集合中任意一份文本D2的粗粒度文本相似度Sim(D1,D2):
Sim(D1,D2)=Count(D1∩D2)/(Count(D1)+Count(D2)),其中,D1∩D2表示文本D1、D2所包含的相同的词,Count()是词的个数;
粗粒度文本相似度筛选单元,用于从所述参考文本集合中选取粗粒度文本相似度Sim(D1,D2)超过第一阈值的文本D2,由选取的若干个文本D2组成第一文本集合。
优选地,所述细粒度文本相似度计算单元包括:
第一细粒度文本相似度计算子单元,用于计算句子浅层相似度SimSha(S1,S2):
SimSha(S1,S2)=Count(S1∩S2)/(Count(S1)+Count(S2)),其中,S1为待对比文本D1中的句子,S2为第一文本集合中任意一份第一文本D2中的句子,S1∩S2表示句子S1、S2所包含的相同的词,Count()是词的个数;
第二细粒度文本相似度计算子单元,用于计算信息熵相似度SimEnt(S1,S2):
SimEnt(S1,S2)=∑(E(Wi))
E(W)=log(N/n)
其中词Wi∈S1∩S2,N表示第一文本D2中句子的总数,n是包含词W的句子数;
第三细粒度文本相似度计算子单元,用于计算浅语义相似度SimSemS(S1,S2):
其中,词义相似度的表达式为:
SimSemW(Wj,Wk)=F(SimLex(Wj,Wk),SimPos(Wj,Wk),SimCon(Wj,Wk))=SimLex(Wj,Wk)·SimPos(Wj,Wk)·SimCon(Wj,Wk)
其中,Wj为句子S1中的词,Wk为句子S2中的词,SimLex(Wj,Wk)、SimPos(Wj,Wk)、SimCon(Wj,Wk)分别表示词Wj与Wk的词汇相似度、词性相似度、词上下文相似度,SimLex(Wj,Wk)是词Wj与Wk对应的义原在义原树上的距离;当Wj与Wk词性一样时,SimPos(Wj,Wk)取值为1、当Wj与Wk词性不一样时,SimPos(Wj,Wk)取值为0;SimCon(Wj,Wk)=ABS(pos1/N1-pos2/N2),其中,pos1、pos2分别是Wj、Wk在相应句中的位置,N1、N2是Wj、Wk所在句子的长度;
浅语义相似度SimSemS(S1,S2)为:
SimSemS(S1,S2)=2·∑0≤i<Len(S1)ArgMax{SimSemW(Wi,Wj):0≤j<Len(S2)}/(Len(S1)+Len(S2))
其中,Argmax表示寻找具有最大评分的参量,函数Argmax{f(x,y):x∈X},表示x∈X使f(x,y)达到最大值时的取值;Len(S)是句子S的长度,即词语个数;
第四细粒度文本相似度计算子单元,用于计算句子细粒度相似度Similarity(S1,S2):
Similarity(S1,S2)=α·SimSha(S1,S2)+β·SimEnt(S1,S2)+γ·SimSemS(S1,S2)
其中,α、β、γ是权值参数,α+β+γ=1;
第五细粒度文本相似度计算子单元,用于计算细粒度文本相似度Similarity(D1,D2):
记SegSimilarity(Sk,Sj)=max(Similarity(Sk,Si))
其中Sk是待对比文本D1中的句子,Si是第一文本集合中任意一份第一文本D2中句子,1≤i≤N2,N2为第一文本D2中句子总数,j是第一文本D2中Similarity(Sk,Si)最大的i值;
细粒度文本相似度Similarity(D1,D2)为:
Similarity(D1,D2)
=∑ρ·SegSimilarity(Sk,Sj)
其中ρ是与Sk相关的权重。
优选地,所述α、β、γ的大小关系为:
γ>α>β。
从上述的技术方案可以看出,本申请实施例提供的文本相似度比对方法,在接收到待对比文本后,从预置的参考文本集合中选取第一文本集合,第一文本集合中的任意一份第一文本与待对比文本所包含的相同词的数量占两份文本总词量的比例超过第一阈值,然后以句子为分段单位,对待对比文本和第一文本集合中的文本进行分段处理,针对第一文本集合中的每一份第一文本,计算其与待对比文本的细粒度文本相似度,其中细粒度文本相似度由所述第一文本和所述待对比文本的句子的浅层相似度、信息熵相似度和浅语义相似度确定,最后筛选出细粒度文本相似度超过第二阈值的第一文本,确定为所述待对比文本的相似文本。本申请的方案中,首先以文本为粗粒度,采用词的浅层相似度筛选出第一文本集合,进一步,通过计算第一文本与待对比文本的句子的浅层相似度、信息熵相似度和浅语义相似度,确定第一文本与待对比文本的细粒度文本相似度,筛选出细粒度文本相似度超过第二阈值的第一文本,确定为相似文本。本申请中参考文本的具体特征项和特征值与待对比文本相关,因此增强了对比效果和精确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例公开的一种文本相似度比对方法流程图;
图2为本申请实施例公开的另一种文本相似度比对方法流程图;
图3为本申请实施例公开的一种文本相似度比对装置结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1,图1为本申请实施例公开的一种文本相似度比对方法流程图。
如图1所示,该方法包括:
步骤S100、接收待对比文本;
步骤S110、从预置的参考文本集合中选取第一文本集合;
其中,所述第一文本集合中的任意一份第一文本与所述待对比文本所包含的相同词的数量占两份文本总词量的比例超过第一阈值。
定义待对比文本为D1,参考文本集合中的文本为D2。计算D1与D2的粗粒度文本相似度Sim(D1,D2):
Sim(D1,D2)=Count(D1∩D2)/(Count(D1)+Count(D2)),其中,D1∩D2表示文本D1、D2所包含的相同的词,Count()是词的个数。
进一步,从所述参考文本集合中选取粗粒度文本相似度Sim(D1,D2)超过第一阈值的文本D2,由选取的若干个文本D2组成第一文本集合。
步骤S120、以句子为分段单位,对所述待对比文本和所述第一文本集合中的文本进行分段;
具体地,可以以句号作为句子结束的标志,以句子为分段单位,对待对比文本和第一文本集合中的文本进行分段。
步骤S130、针对所述第一文本集合中的每一份第一文本,计算其与所述待对比文本的细粒度文本相似度;
其中,细粒度文本相似度由所述第一文本和所述待对比文本的句子的浅层相似度、信息熵相似度和浅语义相似度确定。
对于句子的浅层相似度、信息熵相似度和浅语义相似度的确定过程,可以参照后续介绍。
步骤S140、筛选出细粒度文本相似度超过第二阈值的第一文本,确定为所述待对比文本的相似文本。
本申请实施例提供的文本相似度比对方法,在接收到待对比文本后,从预置的参考文本集合中选取第一文本集合,第一文本集合中的任意一份第一文本与待对比文本所包含的相同词的数量占两份文本总词量的比例超过第一阈值,然后以句子为分段单位,对待对比文本和第一文本集合中的文本进行分段处理,针对第一文本集合中的每一份第一文本,计算其与待对比文本的细粒度文本相似度,其中细粒度文本相似度由所述第一文本和所述待对比文本的句子的浅层相似度、信息熵相似度和浅语义相似度确定,最后筛选出细粒度文本相似度超过第二阈值的第一文本,确定为所述待对比文本的相似文本。本申请的方案中,首先以文本为粗粒度,采用词的浅层相似度筛选出第一文本集合,进一步,通过计算第一文本与待对比文本的句子的浅层相似度、信息熵相似度和浅语义相似度,确定第一文本与待对比文本的细粒度文本相似度,筛选出细粒度文本相似度超过第二阈值的第一文本,确定为相似文本。本申请中参考文本的具体特征项和特征值与待对比文本相关,因此增强了对比效果和精确度。
参见图2,图2为本申请实施例公开的另一种文本相似度比对方法流程图。
如图2所示,该方法包括:
步骤S200、接收待对比文本;
步骤S210、对所述待对比文本进行停用词、同义词过滤处理;
具体地,在对待对比文本进行预处理的过程中,可以对其进行停用词、同义词过滤。减少不重要词对准确性和系统性能的影响。
步骤S220、从预置的参考文本集合中选取第一文本集合;
其中,所述第一文本集合中的任意一份第一文本与所述待对比文本所包含的相同词的数量占两份文本总词量的比例超过第一阈值。
步骤S230、以句子为分段单位,对所述待对比文本和所述第一文本集合中的文本进行分段;
具体地,可以以句号作为句子结束的标志,以句子为分段单位,对待对比文本和第一文本集合中的文本进行分段。
步骤S240、针对所述第一文本集合中的每一份第一文本,计算其与所述待对比文本的细粒度文本相似度;
其中,细粒度文本相似度由所述第一文本和所述待对比文本的句子的浅层相似度、信息熵相似度和浅语义相似度确定。
步骤S250、筛选出细粒度文本相似度超过第二阈值的第一文本,确定为所述待对比文本的相似文本。
相比于上一实施例,本实施例中增加了对待对比文本的预处理过程,预处理包括进行停用词、同义词过滤处理,减少了不重要词对准确性和系统性能的影响。
在本申请的又一个实施例中,详细介绍上述针对第一文本集合中的每一份第一文本,计算其与所述待对比文本的细粒度文本相似度的过程。
第一、计算句子浅层相似度SimSha(S1,S2):
SimSha(S1,S2)=Count(S1∩S2)/(Count(S1)+Count(S2))。
其中,S1为待对比文本D1中的句子,S2为第一文本集合中任意一份第一文本D2中的句子,S1∩S2表示句子S1、S2所包含的相同的词,Count()是词的个数。
第二、计算信息熵相似度SimEnt(S1,S2):
SimEnt(S1,S2)=∑(E(Wi))
E(W)=log(N/n)
其中词Wi∈S1∩S2,N表示第一文本D2中句子的总数,n是包含词W的句子数。
第三、计算浅语义相似度SimSemS(S1,S2):
其中,词义相似度的表达式为:
SimSemW(Wj,Wk)=F(SimLex(Wj,Wk),SimPos(Wj,Wk),SimCon(Wj,Wk))=SimLex(Wj,Wk)·SimPos(Wj,Wk)·SimCon(Wj,Wk)
其中,Wj为句子S1中的词,Wk为句子S2中的词,SimLex(Wj,Wk)、SimPos(Wj,Wk)、SimCon(Wj,Wk)分别表示词Wj与Wk的词汇相似度、词性相似度、词上下文相似度,SimLex(Wj,Wk)是词Wj与Wk对应的义原在义原树上的距离;当Wj与Wk词性一样时,SimPos(Wj,Wk)取值为1、当Wj与Wk词性不一样时,SimPos(Wj,Wk)取值为0;SimCon(Wj,Wk)=ABS(pos1/N1-pos2/N2),其中,pos1、pos2分别是Wj、Wk在相应句中的位置,N1、N2是Wj、Wk所在句子的长度。
浅语义相似度SimSemS(S1,S2)为:
SimSemS(S1,S2)=2·∑0≤i<Len(S1)ArgMax{SimSemW(Wi,Wj):0≤j<Len(S2)}/(Len(S1)+Len(S2))
其中,Argmax表示寻找具有最大评分的参量,函数Argmax{f(x,y):x∈X},表示x∈X使f(x,y)达到最大值时的取值;Len(S)是句子S的长度,即词语个数。
第四,计算句子细粒度相似度Similarity(S1,S2):
Similarity(S1,S2)=α·SimSha(S1,S2)+β·SimEnt(S1,S2)+γ·SimSemS(S1,S2)
其中,α、β、γ是权值参数,α+β+γ=1。
可选的,由于浅语义相似度SimSemS是从多个方面考察的相似度,所以γ取值相对大些,信息熵相似度SimEnt是在浅层意义上的信息熵,所以β取值相对小些,因此可以设置γ>α>β。
第五,计算细粒度文本相似度Similarity(D1,D2):
记SegSimilarity(Sk,Sj)=max(Similarity(Sk,Si))
其中Sk是待对比文本D1中的句子,Si是第一文本集合中任意一份第一文本D2中句子,1≤i≤N2,N2为第一文本D2中句子总数,j是第一文本D2中Similarity(Sk,Si)最大的i值。
细粒度文本相似度Similarity(D1,D2)为:
Similarity(D1,D2)
=∑ρ·SegSimilarity(Sk,Sj)
其中上述求和公式为对k值进行求和,k取值最大值为D1中的句子的总个数;ρ是与Sk相关的权重,比如体现Sk在D1中的位置的权重,一般可以简化为1/M,M是D1中句子总数。
下面对本申请实施例提供的文本相似度比对装置进行描述,下文描述的文本相似度比对装置与上文描述的文本相似度比对装置可相互对应参照。
参见图3,图3为本申请实施例公开的一种文本相似度比对装置结构示意图。
如图3所示,该装置包括:
文本接收单元31,用于接收待对比文本;
第一文本集合选取单元32,用于从预置的参考文本集合中选取第一文本集合,所述第一文本集合中的任意一份第一文本与所述待对比文本所包含的相同词的数量占两份文本总词量的比例超过第一阈值;
分段单元33,用于以句子为分段单位,对所述待对比文本和所述第一文本集合中的文本进行分段;
细粒度文本相似度计算单元34,用于针对所述第一文本集合中的每一份第一文本,计算其与所述待对比文本的细粒度文本相似度,其中,细粒度文本相似度由所述第一文本和所述待对比文本的句子的浅层相似度、信息熵相似度和浅语义相似度确定;
相似文本确定单元35,用于筛选出细粒度文本相似度超过第二阈值的第一文本,确定为所述待对比文本的相似文本。
本申请的方案中,首先以文本为粗粒度,采用词的浅层相似度筛选出第一文本集合,进一步,通过计算第一文本与待对比文本的句子的浅层相似度、信息熵相似度和浅语义相似度,确定第一文本与待对比文本的细粒度文本相似度,筛选出细粒度文本相似度超过第二阈值的第一文本,确定为相似文本。本申请中参考文本的具体特征项和特征值与待对比文本相关,因此增强了对比效果和精确度。
可选的,上述文本相似度对比装置还可以包括:
预处理单元,用于在所述从预置的参考文本集合中选取第一文本集合之前,对所述待对比文本进行停用词、同义词过滤处理。
可选的,上述第一文本集合选取单元可以包括:
粗粒度文本相似度计算单元,用于计算待对比文本D1与参考文本集合中任意一份文本D2的粗粒度文本相似度Sim(D1,D2):
Sim(D1,D2)=Count(D1∩D2)/(Count(D1)+Count(D2)),其中,D1∩D2表示文本D1、D2所包含的相同的词,Count()是词的个数;
粗粒度文本相似度筛选单元,用于从所述参考文本集合中选取粗粒度文本相似度Sim(D1,D2)超过第一阈值的文本D2,由选取的若干个文本D2组成第一文本集合。
可选的,上述细粒度文本相似度计算单元可以包括:
第一细粒度文本相似度计算子单元,用于计算句子浅层相似度SimSha(S1,S2):
SimSha(S1,S2)=Count(S1∩S2)/(Count(S1)+Count(S2)),其中,S1为待对比文本D1中的句子,S2为第一文本集合中任意一份第一文本D2中的句子,S1∩S2表示句子S1、S2所包含的相同的词,Count()是词的个数;
第二细粒度文本相似度计算子单元,用于计算信息熵相似度SimEnt(S1,S2):
SimEnt(S1,S2)=∑(E(Wi))
E(W)=log(N/n)
其中词Wi∈S1∩S2,N表示第一文本D2中句子的总数,n是包含词W的句子数;
第三细粒度文本相似度计算子单元,用于计算浅语义相似度SimSemS(S1,S2):
其中,词义相似度的表达式为:
SimSemW(Wj,Wk)=F(SimLex(Wj,Wk),SimPos(Wj,Wk),SimCon(Wj,Wk))=SimLex(Wj,Wk)·SimPos(Wj,Wk)·SimCon(Wj,Wk)
其中,Wj为句子S1中的词,Wk为句子S2中的词,SimLex(Wj,Wk)、SimPos(Wj,Wk)、SimCon(Wj,Wk)分别表示词Wj与Wk的词汇相似度、词性相似度、词上下文相似度,SimLex(Wj,Wk)是词Wj与Wk对应的义原在义原树上的距离;当Wj与Wk词性一样时,SimPos(Wj,Wk)取值为1、当Wj与Wk词性不一样时,SimPos(Wj,Wk)取值为0;SimCon(Wj,Wk)=ABS(pos1/N1-pos2/N2),其中,pos1、pos2分别是Wj、Wk在相应句中的位置,N1、N2是Wj、Wk所在句子的长度;
浅语义相似度SimSemS(S1,S2)为:
SimSemS(S1,S2)=2·∑0≤i<Len(S1)ArgMax{SimSemW(Wi,Wj):0≤j<Len(S2)}/(Len(S1)+Len(S2))
其中,Argmax表示寻找具有最大评分的参量,函数Argmax{f(x,y):x∈X},表示x∈X使f(x,y)达到最大值时的取值;Len(S)是句子S的长度,即词语个数;
第四细粒度文本相似度计算子单元,用于计算句子细粒度相似度Similarity(S1,S2):
Similarity(S1,S2)=α·SimSha(S1,S2)+β·SimEnt(S1,S2)+γ·SimSemS(S1,S2)
其中,α、β、γ是权值参数,α+β+γ=1;
第五细粒度文本相似度计算子单元,用于计算细粒度文本相似度Similarity(D1,D2):
记SegSimilarity(Sk,Sj)=max(Similarity(Sk,Si))
其中Sk是待对比文本D1中的句子,Si是第一文本集合中任意一份第一文本D2中句子,1≤i≤N2,N2为第一文本D2中句子总数,j是第一文本D2中Similarity(Sk,Si)最大的i值;
细粒度文本相似度Similarity(D1,D2)为:
Similarity(D1,D2)
=∑ρ·SegSimilarity(Sk,Sj)
其中ρ是与Sk相关的权重。
可选的,上述α、β、γ的大小关系可以为:
γ>α>β。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种文本相似度比对方法,其特征在于,包括:
接收待对比文本;
从预置的参考文本集合中选取第一文本集合,所述第一文本集合中的任意一份第一文本与所述待对比文本所包含的相同词的数量占两份文本总词量的比例超过第一阈值;
以句子为分段单位,对所述待对比文本和所述第一文本集合中的文本进行分段;
针对所述第一文本集合中的每一份第一文本,计算其与所述待对比文本的细粒度文本相似度,其中,细粒度文本相似度由所述第一文本和所述待对比文本的句子的浅层相似度、信息熵相似度和浅语义相似度确定;
筛选出细粒度文本相似度超过第二阈值的第一文本,确定为所述待对比文本的相似文本。
2.根据权利要求1所述的方法,其特征在于,在所述从预置的参考文本集合中选取第一文本集合之前,该方法还包括:
对所述待对比文本进行停用词、同义词过滤处理。
3.根据权利要求1所述的方法,其特征在于,所述从预置的参考文本集合中选取第一文本集合,包括:
计算待对比文本D1与参考文本集合中任意一份文本D2的粗粒度文本相似度Sim(D1,D2):
Sim(D1,D2)=Count(D1∩D2)/(Count(D1)+Count(D2)),其中,D1∩D2表示文本D1、D2所包含的相同的词,Count()是词的个数;
从所述参考文本集合中选取粗粒度文本相似度Sim(D1,D2)超过第一阈值的文本D2,由选取的若干个文本D2组成第一文本集合。
4.根据权利要求3所述的方法,其特征在于,所述针对所述第一文本集合中的每一份第一文本,计算其与所述待对比文本的细粒度文本相似度,包括:
第一,计算句子浅层相似度SimSha(S1,S2):
SimSha(S1,S2)=Count(S1∩S2)/(Count(S1)+Count(S2)),其中,S1为待对比文本D1中的句子,S2为第一文本集合中任意一份第一文本D2中的句子,S1∩S2表示句子S1、S2所包含的相同的词,Count()是词的个数;
第二,计算信息熵相似度SimEnt(S1,S2):
SimEnt(S1,S2)=∑(E(Wi))
E(W)=log(N/n)
其中词Wi∈S1∩S2,N表示第一文本D2中句子的总数,n是包含词W的句子数;
第三,计算浅语义相似度SimSemS(S1,S2):
其中,词义相似度的表达式为:
SimSemW(Wj,Wk)=F(SimLex(Wj,Wk),SimPos(Wj,Wk),SimCon(Wj,Wk))=SimLex(Wj,Wk)·SimPos(Wj,Wk)·SimCon(Wj,Wk)
其中,Wj为句子S1中的词,Wk为句子S2中的词,SimLex(Wj,Wk)、SimPos(Wj,Wk)、SimCon(Wj,Wk)分别表示词Wj与Wk的词汇相似度、词性相似度、词上下文相似度,SimLex(Wj,Wk)是词Wj与Wk对应的义原在义原树上的距离;当Wj与Wk词性一样时,SimPos(Wj,Wk)取值为1、当Wj与Wk词性不一样时,SimPos(Wj,Wk)取值为0;SimCon(Wj,Wk)=ABS(pos1/N1-pos2/N2),其中,pos1、pos2分别是Wj、Wk在相应句中的位置,N1、N2是Wj、Wk所在句子的长度;
浅语义相似度SimSemS(S1,S2)为:
SimSemS(S1,S2)=2·∑0≤i<Len(S1)ArgMax{SimSemW(Wi,Wj):0≤j<Len(S2)}/(Len(S1)+Len(S2))
其中,Argmax表示寻找具有最大评分的参量,函数Argmax{f(x,y):x∈X},表示x∈X使f(x,y)达到最大值时的取值;Len(S)是句子S的长度,即词语个数;
第四,计算句子细粒度相似度Similarity(S1,S2):
Similarity(S1,S2)=α·SimSha(S1,S2)+β·SimEnt(S1,S2)+γ·SimSemS(S1,S2)
其中,α、β、γ是权值参数,α+β+γ=1;
第五,计算细粒度文本相似度Similarity(D1,D2):
记SegSimilarity(Sk,Sj)=max(Similarity(Sk,Si))
其中Sk是待对比文本D1中的句子,Si是第一文本集合中任意一份第一文本D2中句子,1≤i≤N2,N2为第一文本D2中句子总数,j是第一文本D2中Similarity(Sk,Si)最大的i值;
细粒度文本相似度Similarity(D1,D2)为:
Similarity(D1,D2)
=∑ρ·SegSimilarity(Sk,Sj)
其中ρ是与Sk相关的权重。
5.根据权利要求4所述的方法,其特征在于,所述α、β、γ的大小关系为:
γ>α>β。
6.一种文本相似度比对装置,其特征在于,包括:
文本接收单元,用于接收待对比文本;
第一文本集合选取单元,用于从预置的参考文本集合中选取第一文本集合,所述第一文本集合中的任意一份第一文本与所述待对比文本所包含的相同词的数量占两份文本总词量的比例超过第一阈值;
分段单元,用于以句子为分段单位,对所述待对比文本和所述第一文本集合中的文本进行分段;
细粒度文本相似度计算单元,用于针对所述第一文本集合中的每一份第一文本,计算其与所述待对比文本的细粒度文本相似度,其中,细粒度文本相似度由所述第一文本和所述待对比文本的句子的浅层相似度、信息熵相似度和浅语义相似度确定;
相似文本确定单元,用于筛选出细粒度文本相似度超过第二阈值的第一文本,确定为所述待对比文本的相似文本。
7.根据权利要求6所述的装置,其特征在于,还包括:
预处理单元,用于在所述从预置的参考文本集合中选取第一文本集合之前,对所述待对比文本进行停用词、同义词过滤处理。
8.根据权利要求6所述的装置,其特征在于,所述第一文本集合选取单元包括:
粗粒度文本相似度计算单元,用于计算待对比文本D1与参考文本集合中任意一份文本D2的粗粒度文本相似度Sim(D1,D2):
Sim(D1,D2)=Count(D1∩D2)/(Count(D1)+Count(D2)),其中,D1∩D2表示文本D1、D2所包含的相同的词,Count()是词的个数;
粗粒度文本相似度筛选单元,用于从所述参考文本集合中选取粗粒度文本相似度Sim(D1,D2)超过第一阈值的文本D2,由选取的若干个文本D2组成第一文本集合。
9.根据权利要求8所述的装置,其特征在于,所述细粒度文本相似度计算单元包括:
第一细粒度文本相似度计算子单元,用于计算句子浅层相似度SimSha(S1,S2):
SimSha(S1,S2)=Count(S1∩S2)/(Count(S1)+Count(S2)),其中,S1为待对比文本D1中的句子,S2为第一文本集合中任意一份第一文本D2中的句子,S1∩S2表示句子S1、S2所包含的相同的词,Count()是词的个数;
第二细粒度文本相似度计算子单元,用于计算信息熵相似度SimEnt(S1,S2):
SimEnt(S1,S2)=∑(E(Wi))
E(W)=log(N/n)
其中词Wi∈S1∩S2,N表示第一文本D2中句子的总数,n是包含词W的句子数;
第三细粒度文本相似度计算子单元,用于计算浅语义相似度SimSemS(S1,S2):
其中,词义相似度的表达式为:
SimSemW(Wj,Wk)=F(SimLex(Wj,Wk),SimPos(Wj,Wk),SimCon(Wj,Wk))=SimLex(Wj,Wk)·SimPos(Wj,Wk)·SimCon(Wj,Wk)
其中,Wj为句子S1中的词,Wk为句子S2中的词,SimLex(Wj,Wk)、SimPos(Wj,Wk)、SimCon(Wj,Wk)分别表示词Wj与Wk的词汇相似度、词性相似度、词上下文相似度,SimLex(Wj,Wk)是词Wj与Wk对应的义原在义原树上的距离;当Wj与Wk词性一样时,SimPos(Wj,Wk)取值为1、当Wj与Wk词性不一样时,SimPos(Wj,Wk)取值为0;SimCon(Wj,Wk)=ABS(pos1/N1-pos2/N2),其中,pos1、pos2分别是Wj、Wk在相应句中的位置,N1、N2是Wj、Wk所在句子的长度;
浅语义相似度SimSemS(S1,S2)为:
SimSemS(S1,S2)=2·∑0≤i<Len(S1)ArgMax{SimSemW(Wi,Wj):0≤j<Len(S2)}/(Len(S1)+Len(S2))
其中,Argmax表示寻找具有最大评分的参量,函数Argmax{f(x,y):x∈X},表示x∈X使f(x,y)达到最大值时的取值;Len(S)是句子S的长度,即词语个数;
第四细粒度文本相似度计算子单元,用于计算句子细粒度相似度Similarity(S1,S2):
Similarity(S1,S2)=α·SimSha(S1,S2)+β·SimEnt(S1,S2)+γ·SimSemS(S1,S2)
其中,α、β、γ是权值参数,α+β+γ=1;
第五细粒度文本相似度计算子单元,用于计算细粒度文本相似度Similarity(D1,D2):
记SegSimilarity(Sk,Sj)=max(Similarity(Sk,Si))
其中Sk是待对比文本D1中的句子,Si是第一文本集合中任意一份第一文本D2中句子,1≤i≤N2,N2为第一文本D2中句子总数,j是第一文本D2中Similarity(Sk,Si)最大的i值;
细粒度文本相似度Similarity(D1,D2)为:
Similarity(D1,D2)
=∑ρ·SegSimilarity(Sk,Sj)
其中ρ是与Sk相关的权重。
10.根据权利要求9所述的装置,其特征在于,所述α、β、γ的大小关系为:
γ>α>β。
CN201510695861.0A 2015-10-23 2015-10-23 一种文本相似度比对方法及装置 Pending CN105302779A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510695861.0A CN105302779A (zh) 2015-10-23 2015-10-23 一种文本相似度比对方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510695861.0A CN105302779A (zh) 2015-10-23 2015-10-23 一种文本相似度比对方法及装置

Publications (1)

Publication Number Publication Date
CN105302779A true CN105302779A (zh) 2016-02-03

Family

ID=55200058

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510695861.0A Pending CN105302779A (zh) 2015-10-23 2015-10-23 一种文本相似度比对方法及装置

Country Status (1)

Country Link
CN (1) CN105302779A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107085568A (zh) * 2017-03-29 2017-08-22 腾讯科技(深圳)有限公司 一种文本相似度判别方法及装置
CN107633020A (zh) * 2017-08-24 2018-01-26 新译信息科技(深圳)有限公司 文章相似度检测方法及装置
CN107644010A (zh) * 2016-07-20 2018-01-30 阿里巴巴集团控股有限公司 一种文本相似度计算方法及装置
CN107992470A (zh) * 2017-11-08 2018-05-04 中国科学院计算机网络信息中心 一种基于相似度的文本查重方法及系统
CN109165291A (zh) * 2018-06-29 2019-01-08 厦门快商通信息技术有限公司 一种文本匹配方法及电子设备
CN109830229A (zh) * 2018-12-11 2019-05-31 平安科技(深圳)有限公司 音频语料智能清洗方法、装置、存储介质和计算机设备
CN110188330A (zh) * 2019-05-31 2019-08-30 三角兽(北京)科技有限公司 确定相似文本信息的方法、装置、电子设备及存储介质
CN110442803A (zh) * 2019-08-09 2019-11-12 网易传媒科技(北京)有限公司 由计算设备执行的数据处理方法、装置、介质和计算设备
CN110891010A (zh) * 2018-09-05 2020-03-17 百度在线网络技术(北京)有限公司 用于发送信息的方法和装置
CN111124578A (zh) * 2019-12-23 2020-05-08 中国银行股份有限公司 一种用户界面图标生成方法和装置
CN111191258A (zh) * 2019-12-20 2020-05-22 中思博安科技(北京)有限公司 基于保护原始数据的数据处理方法、装置、设备和介质
CN111383769A (zh) * 2020-01-08 2020-07-07 科大讯飞股份有限公司 主诉与诊断一致性检测方法、装置、设备及存储介质
CN111611786A (zh) * 2017-04-07 2020-09-01 阿里巴巴集团控股有限公司 文本相似度的计算方法及装置
CN112395856A (zh) * 2019-07-31 2021-02-23 阿里巴巴集团控股有限公司 文本匹配方法、装置、计算机系统及可读存储介质
CN113641800A (zh) * 2021-10-18 2021-11-12 中国铁道科学研究院集团有限公司科学技术信息研究所 一种文本查重方法、装置、设备及可读存储介质
CN115618867A (zh) * 2022-10-27 2023-01-17 中科星图数字地球合肥有限公司 地址纠错方法、装置、计算机设备和存储介质
CN117688138A (zh) * 2024-02-02 2024-03-12 中船凌久高科(武汉)有限公司 一种基于段落划分的长文本相似度比对方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110153417A1 (en) * 2008-08-21 2011-06-23 Dolby Laboratories Licensing Corporation Networking With Media Fingerprints
CN103886063A (zh) * 2014-03-18 2014-06-25 国家电网公司 一种文本检索方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110153417A1 (en) * 2008-08-21 2011-06-23 Dolby Laboratories Licensing Corporation Networking With Media Fingerprints
CN103886063A (zh) * 2014-03-18 2014-06-25 国家电网公司 一种文本检索方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘文龙: ""数字指纹关键技术研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107644010A (zh) * 2016-07-20 2018-01-30 阿里巴巴集团控股有限公司 一种文本相似度计算方法及装置
CN107085568A (zh) * 2017-03-29 2017-08-22 腾讯科技(深圳)有限公司 一种文本相似度判别方法及装置
CN107085568B (zh) * 2017-03-29 2022-11-22 腾讯科技(深圳)有限公司 一种文本相似度判别方法及装置
CN111611786B (zh) * 2017-04-07 2023-03-21 创新先进技术有限公司 文本相似度的计算方法及装置
CN111611786A (zh) * 2017-04-07 2020-09-01 阿里巴巴集团控股有限公司 文本相似度的计算方法及装置
CN107633020A (zh) * 2017-08-24 2018-01-26 新译信息科技(深圳)有限公司 文章相似度检测方法及装置
CN107633020B (zh) * 2017-08-24 2020-05-05 新译信息科技(深圳)有限公司 文章相似度检测方法及装置
CN107992470A (zh) * 2017-11-08 2018-05-04 中国科学院计算机网络信息中心 一种基于相似度的文本查重方法及系统
CN109165291B (zh) * 2018-06-29 2021-07-09 厦门快商通信息技术有限公司 一种文本匹配方法及电子设备
CN109165291A (zh) * 2018-06-29 2019-01-08 厦门快商通信息技术有限公司 一种文本匹配方法及电子设备
CN110891010A (zh) * 2018-09-05 2020-03-17 百度在线网络技术(北京)有限公司 用于发送信息的方法和装置
CN109830229A (zh) * 2018-12-11 2019-05-31 平安科技(深圳)有限公司 音频语料智能清洗方法、装置、存储介质和计算机设备
CN110188330A (zh) * 2019-05-31 2019-08-30 三角兽(北京)科技有限公司 确定相似文本信息的方法、装置、电子设备及存储介质
CN110188330B (zh) * 2019-05-31 2021-07-16 腾讯科技(深圳)有限公司 确定相似文本信息的方法、装置、电子设备及存储介质
CN112395856A (zh) * 2019-07-31 2021-02-23 阿里巴巴集团控股有限公司 文本匹配方法、装置、计算机系统及可读存储介质
CN112395856B (zh) * 2019-07-31 2022-09-13 阿里巴巴集团控股有限公司 文本匹配方法、装置、计算机系统及可读存储介质
CN110442803A (zh) * 2019-08-09 2019-11-12 网易传媒科技(北京)有限公司 由计算设备执行的数据处理方法、装置、介质和计算设备
CN111191258A (zh) * 2019-12-20 2020-05-22 中思博安科技(北京)有限公司 基于保护原始数据的数据处理方法、装置、设备和介质
CN111191258B (zh) * 2019-12-20 2022-10-04 中思博安科技(北京)有限公司 基于保护原始数据的数据处理方法、装置、设备和介质
CN111124578B (zh) * 2019-12-23 2023-09-29 中国银行股份有限公司 一种用户界面图标生成方法和装置
CN111124578A (zh) * 2019-12-23 2020-05-08 中国银行股份有限公司 一种用户界面图标生成方法和装置
CN111383769A (zh) * 2020-01-08 2020-07-07 科大讯飞股份有限公司 主诉与诊断一致性检测方法、装置、设备及存储介质
CN111383769B (zh) * 2020-01-08 2024-04-12 科大讯飞股份有限公司 主诉与诊断一致性检测方法、装置、设备及存储介质
CN113641800B (zh) * 2021-10-18 2022-04-08 中国铁道科学研究院集团有限公司科学技术信息研究所 一种文本查重方法、装置、设备及可读存储介质
CN113641800A (zh) * 2021-10-18 2021-11-12 中国铁道科学研究院集团有限公司科学技术信息研究所 一种文本查重方法、装置、设备及可读存储介质
CN115618867A (zh) * 2022-10-27 2023-01-17 中科星图数字地球合肥有限公司 地址纠错方法、装置、计算机设备和存储介质
CN117688138A (zh) * 2024-02-02 2024-03-12 中船凌久高科(武汉)有限公司 一种基于段落划分的长文本相似度比对方法
CN117688138B (zh) * 2024-02-02 2024-04-09 中船凌久高科(武汉)有限公司 一种基于段落划分的长文本相似度比对方法

Similar Documents

Publication Publication Date Title
CN105302779A (zh) 一种文本相似度比对方法及装置
CN103207899B (zh) 文本文件推荐方法及系统
CN107992470A (zh) 一种基于相似度的文本查重方法及系统
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
Vogel et al. Robust language identification in short, noisy texts: Improvements to liga
CN105488023B (zh) 一种文本相似度评估方法及装置
CN106372061A (zh) 基于语义的短文本相似度计算方法
CN108052500B (zh) 一种基于语义分析的文本关键信息提取方法及装置
CN102096680A (zh) 信息有效性分析的方法和装置
CN104462378A (zh) 用于文本识别的数据处理方法及装置
EP2511832A3 (en) Method, system and computer program product for selecting a language for text segmentation
US8200670B1 (en) Efficient document clustering
CN106372117B (zh) 一种基于词共现的文本分类方法及其装置
CN105095222B (zh) 单元词替换方法、搜索方法及装置
CN103049470A (zh) 基于情感相关度的观点检索方法
CN102236650A (zh) 用于修正和/或扩展情感词典的方法和装置
CN105630931A (zh) 一种文档分类的方法及装置
CN108363688A (zh) 一种融合先验信息的命名实体链接方法
Geng et al. Evaluating web content quality via multi-scale features
Hellrich et al. Exploring diachronic lexical semantics with JeSemE
Pakistan Knowledge discovery using text mining: a programmable implementation on information extraction and categorization
CN104077274B (zh) 一种从文档集中抽取热词短语的方法和装置
CN108108346A (zh) 文档的主题特征词抽取方法及装置
US10216721B2 (en) Specialized language identification
Cocos et al. Word sense filtering improves embedding-based lexical substitution

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20190507

AD01 Patent right deemed abandoned