CN105302779A

CN105302779A - 一种文本相似度比对方法及装置

Info

Publication number: CN105302779A
Application number: CN201510695861.0A
Authority: CN
Inventors: 姜晓丹
Original assignee: China news publishing research institute; SMARTDOT TECHNOLOGIES Co Ltd
Current assignee: China news publishing research institute; SMARTDOT TECHNOLOGIES Co Ltd
Priority date: 2015-10-23
Filing date: 2015-10-23
Publication date: 2016-02-03

Abstract

本申请一种文本相似度比对方法及装置，首先以文本为粗粒度，采用词的浅层相似度筛选出第一文本集合，进一步，通过计算第一文本与待对比文本的句子的浅层相似度、信息熵相似度和浅语义相似度，确定第一文本与待对比文本的细粒度文本相似度，筛选出细粒度文本相似度超过第二阈值的第一文本，确定为相似文本。本申请中参考文本的具体特征项和特征值与待对比文本相关，因此增强了对比效果和精确度。

Description

一种文本相似度比对方法及装置

技术领域

本申请涉及信息处理技术领域，更具体地说，涉及一种文本相似度比对方法及装置。

背景技术

随着互联网的飞速发展，信息技术的发展也突飞猛进，各类信息资源的数量以惊人的速度增长，如何对互联网上发布的文档进行侵权比对，成为亟待解决的问题。

现有的技术一般采用基于媒体指纹的比对方式，媒体指纹比对方式中的参考文本的特征是固定的，通过将待对比文本的内容表示为与参考文本的特征同类型的特征，进而对比该特征，确定两份文本的相似度。

由于媒体指纹比对方式中参考文本的特征是固定的，其不随着待对比文本的变化而变化，因此其文本相似度比对结果的精确度偏低。

发明内容

有鉴于此，本申请提供了一种文本相似度比对方法及装置，用于解决现有基于媒体指纹的比对方式所存在的文本相似度比对结果精确度低的问题。

为了实现上述目的，现提出的方案如下：

一种文本相似度比对方法，包括：

接收待对比文本；

从预置的参考文本集合中选取第一文本集合，所述第一文本集合中的任意一份第一文本与所述待对比文本所包含的相同词的数量占两份文本总词量的比例超过第一阈值；

以句子为分段单位，对所述待对比文本和所述第一文本集合中的文本进行分段；

针对所述第一文本集合中的每一份第一文本，计算其与所述待对比文本的细粒度文本相似度，其中，细粒度文本相似度由所述第一文本和所述待对比文本的句子的浅层相似度、信息熵相似度和浅语义相似度确定；

筛选出细粒度文本相似度超过第二阈值的第一文本，确定为所述待对比文本的相似文本。

优选地，在所述从预置的参考文本集合中选取第一文本集合之前，该方法还包括：

对所述待对比文本进行停用词、同义词过滤处理。

优选地，所述从预置的参考文本集合中选取第一文本集合，包括：

计算待对比文本D1与参考文本集合中任意一份文本D2的粗粒度文本相似度Sim(D1,D2):

Sim(D1,D2)＝Count(D1∩D2)/(Count(D1)+Count(D2))，其中，D1∩D2表示文本D1、D2所包含的相同的词，Count()是词的个数；

从所述参考文本集合中选取粗粒度文本相似度Sim(D1,D2)超过第一阈值的文本D2，由选取的若干个文本D2组成第一文本集合。

优选地，所述针对所述第一文本集合中的每一份第一文本，计算其与所述待对比文本的细粒度文本相似度，包括：

第一，计算句子浅层相似度SimSha(S1，S2)：

SimSha(S1，S2)＝Count(S1∩S2)/(Count(S1)+Count(S2))，其中，S1为待对比文本D1中的句子，S2为第一文本集合中任意一份第一文本D2中的句子，S1∩S2表示句子S1、S2所包含的相同的词，Count()是词的个数；

第二，计算信息熵相似度SimEnt(S1，S2)：

SimEnt(S1，S2)＝∑(E(Wi))

E(W)＝log(N/n)

其中词Wi∈S1∩S2，N表示第一文本D2中句子的总数，n是包含词W的句子数；

第三，计算浅语义相似度SimSemS(S1，S2)：

其中，词义相似度的表达式为：

SimSemW(Wj，Wk)＝F(SimLex(Wj，Wk)，SimPos(Wj，Wk)，SimCon(Wj，Wk))＝SimLex(Wj，Wk)·SimPos(Wj，Wk)·SimCon(Wj，Wk)

其中，Wj为句子S1中的词，Wk为句子S2中的词，SimLex(Wj，Wk)、SimPos(Wj，Wk)、SimCon(Wj，Wk)分别表示词Wj与Wk的词汇相似度、词性相似度、词上下文相似度，SimLex(Wj，Wk)是词Wj与Wk对应的义原在义原树上的距离；当Wj与Wk词性一样时，SimPos(Wj，Wk)取值为1、当Wj与Wk词性不一样时，SimPos(Wj，Wk)取值为0；SimCon(Wj，Wk)＝ABS(pos1/N1-pos2/N2)，其中，pos1、pos2分别是Wj、Wk在相应句中的位置，N1、N2是Wj、Wk所在句子的长度；

浅语义相似度SimSemS(S1，S2)为：

SimSemS(S1，S2)＝2·∑_{0≤i＜Len(S1)}ArgMax{SimSemW(Wi，Wj):0≤j＜Len(S2)}/(Len(S1)+Len(S2))

其中，Argmax表示寻找具有最大评分的参量，函数Argmax{f(x,y):x∈X}，表示x∈X使f(x,y)达到最大值时的取值；Len(S)是句子S的长度，即词语个数；

第四，计算句子细粒度相似度Similarity(S1，S2):

Similarity(S1，S2)＝α·SimSha(S1，S2)+β·SimEnt(S1，S2)+γ·SimSemS(S1，S2)

其中,α、β、γ是权值参数，α+β+γ＝1；

第五，计算细粒度文本相似度Similarity(D1，D2)：

记SegSimilarity(Sk，Sj)＝max(Similarity(Sk，Si))

其中Sk是待对比文本D1中的句子，Si是第一文本集合中任意一份第一文本D2中句子，1≤i≤N2，N2为第一文本D2中句子总数，j是第一文本D2中Similarity(Sk，Si)最大的i值；

细粒度文本相似度Similarity(D1，D2)为：

Similarity(D1，D2)

＝∑ρ·SegSimilarity(Sk，Sj)

其中ρ是与Sk相关的权重。

优选地，所述α、β、γ的大小关系为：

γ>α>β。

一种文本相似度比对装置，包括：

文本接收单元，用于接收待对比文本；

第一文本集合选取单元，用于从预置的参考文本集合中选取第一文本集合，所述第一文本集合中的任意一份第一文本与所述待对比文本所包含的相同词的数量占两份文本总词量的比例超过第一阈值；

分段单元，用于以句子为分段单位，对所述待对比文本和所述第一文本集合中的文本进行分段；

细粒度文本相似度计算单元，用于针对所述第一文本集合中的每一份第一文本，计算其与所述待对比文本的细粒度文本相似度，其中，细粒度文本相似度由所述第一文本和所述待对比文本的句子的浅层相似度、信息熵相似度和浅语义相似度确定；

相似文本确定单元，用于筛选出细粒度文本相似度超过第二阈值的第一文本，确定为所述待对比文本的相似文本。

优选地，还包括：

预处理单元，用于在所述从预置的参考文本集合中选取第一文本集合之前，对所述待对比文本进行停用词、同义词过滤处理。

优选地，所述第一文本集合选取单元包括：

粗粒度文本相似度计算单元，用于计算待对比文本D1与参考文本集合中任意一份文本D2的粗粒度文本相似度Sim(D1,D2):

粗粒度文本相似度筛选单元，用于从所述参考文本集合中选取粗粒度文本相似度Sim(D1,D2)超过第一阈值的文本D2，由选取的若干个文本D2组成第一文本集合。

优选地，所述细粒度文本相似度计算单元包括：

第一细粒度文本相似度计算子单元，用于计算句子浅层相似度SimSha(S1，S2)：

第二细粒度文本相似度计算子单元，用于计算信息熵相似度SimEnt(S1，S2)：

SimEnt(S1，S2)＝∑(E(Wi))

E(W)＝log(N/n)

第三细粒度文本相似度计算子单元，用于计算浅语义相似度SimSemS(S1，S2)：

其中，词义相似度的表达式为：

浅语义相似度SimSemS(S1，S2)为：

第四细粒度文本相似度计算子单元，用于计算句子细粒度相似度Similarity(S1，S2):

其中,α、β、γ是权值参数，α+β+γ＝1；

第五细粒度文本相似度计算子单元，用于计算细粒度文本相似度Similarity(D1，D2)：

记SegSimilarity(Sk，Sj)＝max(Similarity(Sk，Si))

细粒度文本相似度Similarity(D1，D2)为：

Similarity(D1，D2)

＝∑ρ·SegSimilarity(Sk，Sj)

其中ρ是与Sk相关的权重。

优选地，所述α、β、γ的大小关系为：

γ>α>β。

从上述的技术方案可以看出，本申请实施例提供的文本相似度比对方法，在接收到待对比文本后，从预置的参考文本集合中选取第一文本集合，第一文本集合中的任意一份第一文本与待对比文本所包含的相同词的数量占两份文本总词量的比例超过第一阈值，然后以句子为分段单位，对待对比文本和第一文本集合中的文本进行分段处理，针对第一文本集合中的每一份第一文本，计算其与待对比文本的细粒度文本相似度，其中细粒度文本相似度由所述第一文本和所述待对比文本的句子的浅层相似度、信息熵相似度和浅语义相似度确定，最后筛选出细粒度文本相似度超过第二阈值的第一文本，确定为所述待对比文本的相似文本。本申请的方案中，首先以文本为粗粒度，采用词的浅层相似度筛选出第一文本集合，进一步，通过计算第一文本与待对比文本的句子的浅层相似度、信息熵相似度和浅语义相似度，确定第一文本与待对比文本的细粒度文本相似度，筛选出细粒度文本相似度超过第二阈值的第一文本，确定为相似文本。本申请中参考文本的具体特征项和特征值与待对比文本相关，因此增强了对比效果和精确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的一种文本相似度比对方法流程图；

图2为本申请实施例公开的另一种文本相似度比对方法流程图；

图3为本申请实施例公开的一种文本相似度比对装置结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图1，图1为本申请实施例公开的一种文本相似度比对方法流程图。

如图1所示，该方法包括：

步骤S100、接收待对比文本；

步骤S110、从预置的参考文本集合中选取第一文本集合；

其中，所述第一文本集合中的任意一份第一文本与所述待对比文本所包含的相同词的数量占两份文本总词量的比例超过第一阈值。

定义待对比文本为D1，参考文本集合中的文本为D2。计算D1与D2的粗粒度文本相似度Sim(D1,D2):

Sim(D1,D2)＝Count(D1∩D2)/(Count(D1)+Count(D2))，其中，D1∩D2表示文本D1、D2所包含的相同的词，Count()是词的个数。

进一步，从所述参考文本集合中选取粗粒度文本相似度Sim(D1,D2)超过第一阈值的文本D2，由选取的若干个文本D2组成第一文本集合。

步骤S120、以句子为分段单位，对所述待对比文本和所述第一文本集合中的文本进行分段；

具体地，可以以句号作为句子结束的标志，以句子为分段单位，对待对比文本和第一文本集合中的文本进行分段。

步骤S130、针对所述第一文本集合中的每一份第一文本，计算其与所述待对比文本的细粒度文本相似度；

其中，细粒度文本相似度由所述第一文本和所述待对比文本的句子的浅层相似度、信息熵相似度和浅语义相似度确定。

对于句子的浅层相似度、信息熵相似度和浅语义相似度的确定过程，可以参照后续介绍。

步骤S140、筛选出细粒度文本相似度超过第二阈值的第一文本，确定为所述待对比文本的相似文本。

本申请实施例提供的文本相似度比对方法，在接收到待对比文本后，从预置的参考文本集合中选取第一文本集合，第一文本集合中的任意一份第一文本与待对比文本所包含的相同词的数量占两份文本总词量的比例超过第一阈值，然后以句子为分段单位，对待对比文本和第一文本集合中的文本进行分段处理，针对第一文本集合中的每一份第一文本，计算其与待对比文本的细粒度文本相似度，其中细粒度文本相似度由所述第一文本和所述待对比文本的句子的浅层相似度、信息熵相似度和浅语义相似度确定，最后筛选出细粒度文本相似度超过第二阈值的第一文本，确定为所述待对比文本的相似文本。本申请的方案中，首先以文本为粗粒度，采用词的浅层相似度筛选出第一文本集合，进一步，通过计算第一文本与待对比文本的句子的浅层相似度、信息熵相似度和浅语义相似度，确定第一文本与待对比文本的细粒度文本相似度，筛选出细粒度文本相似度超过第二阈值的第一文本，确定为相似文本。本申请中参考文本的具体特征项和特征值与待对比文本相关，因此增强了对比效果和精确度。

参见图2，图2为本申请实施例公开的另一种文本相似度比对方法流程图。

如图2所示，该方法包括：

步骤S200、接收待对比文本；

步骤S210、对所述待对比文本进行停用词、同义词过滤处理；

具体地，在对待对比文本进行预处理的过程中，可以对其进行停用词、同义词过滤。减少不重要词对准确性和系统性能的影响。

步骤S220、从预置的参考文本集合中选取第一文本集合；

步骤S230、以句子为分段单位，对所述待对比文本和所述第一文本集合中的文本进行分段；

步骤S240、针对所述第一文本集合中的每一份第一文本，计算其与所述待对比文本的细粒度文本相似度；

步骤S250、筛选出细粒度文本相似度超过第二阈值的第一文本，确定为所述待对比文本的相似文本。

相比于上一实施例，本实施例中增加了对待对比文本的预处理过程，预处理包括进行停用词、同义词过滤处理，减少了不重要词对准确性和系统性能的影响。

在本申请的又一个实施例中，详细介绍上述针对第一文本集合中的每一份第一文本，计算其与所述待对比文本的细粒度文本相似度的过程。

第一、计算句子浅层相似度SimSha(S1，S2)：

SimSha(S1，S2)＝Count(S1∩S2)/(Count(S1)+Count(S2))。

其中，S1为待对比文本D1中的句子，S2为第一文本集合中任意一份第一文本D2中的句子，S1∩S2表示句子S1、S2所包含的相同的词，Count()是词的个数。

第二、计算信息熵相似度SimEnt(S1，S2)：

SimEnt(S1，S2)＝∑(E(Wi))

E(W)＝log(N/n)

其中词Wi∈S1∩S2，N表示第一文本D2中句子的总数，n是包含词W的句子数。

第三、计算浅语义相似度SimSemS(S1，S2)：

其中，词义相似度的表达式为：

其中，Wj为句子S1中的词，Wk为句子S2中的词，SimLex(Wj，Wk)、SimPos(Wj，Wk)、SimCon(Wj，Wk)分别表示词Wj与Wk的词汇相似度、词性相似度、词上下文相似度，SimLex(Wj，Wk)是词Wj与Wk对应的义原在义原树上的距离；当Wj与Wk词性一样时，SimPos(Wj，Wk)取值为1、当Wj与Wk词性不一样时，SimPos(Wj，Wk)取值为0；SimCon(Wj，Wk)＝ABS(pos1/N1-pos2/N2)，其中，pos1、pos2分别是Wj、Wk在相应句中的位置，N1、N2是Wj、Wk所在句子的长度。

浅语义相似度SimSemS(S1，S2)为：

其中，Argmax表示寻找具有最大评分的参量，函数Argmax{f(x,y):x∈X}，表示x∈X使f(x,y)达到最大值时的取值；Len(S)是句子S的长度，即词语个数。

第四，计算句子细粒度相似度Similarity(S1，S2):

其中,α、β、γ是权值参数，α+β+γ＝1。

可选的，由于浅语义相似度SimSemS是从多个方面考察的相似度，所以γ取值相对大些，信息熵相似度SimEnt是在浅层意义上的信息熵，所以β取值相对小些，因此可以设置γ>α>β。

第五，计算细粒度文本相似度Similarity(D1，D2)：

记SegSimilarity(Sk，Sj)＝max(Similarity(Sk，Si))

其中Sk是待对比文本D1中的句子，Si是第一文本集合中任意一份第一文本D2中句子，1≤i≤N2，N2为第一文本D2中句子总数，j是第一文本D2中Similarity(Sk，Si)最大的i值。

细粒度文本相似度Similarity(D1，D2)为：

Similarity(D1，D2)

＝∑ρ·SegSimilarity(Sk，Sj)

其中上述求和公式为对k值进行求和，k取值最大值为D1中的句子的总个数；ρ是与Sk相关的权重，比如体现Sk在D1中的位置的权重，一般可以简化为1/M，M是D1中句子总数。

下面对本申请实施例提供的文本相似度比对装置进行描述，下文描述的文本相似度比对装置与上文描述的文本相似度比对装置可相互对应参照。

参见图3，图3为本申请实施例公开的一种文本相似度比对装置结构示意图。

如图3所示，该装置包括：

文本接收单元31，用于接收待对比文本；

第一文本集合选取单元32，用于从预置的参考文本集合中选取第一文本集合，所述第一文本集合中的任意一份第一文本与所述待对比文本所包含的相同词的数量占两份文本总词量的比例超过第一阈值；

分段单元33，用于以句子为分段单位，对所述待对比文本和所述第一文本集合中的文本进行分段；

细粒度文本相似度计算单元34，用于针对所述第一文本集合中的每一份第一文本，计算其与所述待对比文本的细粒度文本相似度，其中，细粒度文本相似度由所述第一文本和所述待对比文本的句子的浅层相似度、信息熵相似度和浅语义相似度确定；

相似文本确定单元35，用于筛选出细粒度文本相似度超过第二阈值的第一文本，确定为所述待对比文本的相似文本。

本申请的方案中，首先以文本为粗粒度，采用词的浅层相似度筛选出第一文本集合，进一步，通过计算第一文本与待对比文本的句子的浅层相似度、信息熵相似度和浅语义相似度，确定第一文本与待对比文本的细粒度文本相似度，筛选出细粒度文本相似度超过第二阈值的第一文本，确定为相似文本。本申请中参考文本的具体特征项和特征值与待对比文本相关，因此增强了对比效果和精确度。

可选的，上述文本相似度对比装置还可以包括：

可选的，上述第一文本集合选取单元可以包括：

可选的，上述细粒度文本相似度计算单元可以包括：

SimEnt(S1，S2)＝∑(E(Wi))

E(W)＝log(N/n)

其中，词义相似度的表达式为：

浅语义相似度SimSemS(S1，S2)为：

其中,α、β、γ是权值参数，α+β+γ＝1；

记SegSimilarity(Sk，Sj)＝max(Similarity(Sk，Si))

细粒度文本相似度Similarity(D1，D2)为：

Similarity(D1，D2)

＝∑ρ·SegSimilarity(Sk，Sj)

其中ρ是与Sk相关的权重。

可选的，上述α、β、γ的大小关系可以为：

γ>α>β。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文本相似度比对方法，其特征在于，包括：

接收待对比文本；

2.根据权利要求1所述的方法，其特征在于，在所述从预置的参考文本集合中选取第一文本集合之前，该方法还包括：

对所述待对比文本进行停用词、同义词过滤处理。

3.根据权利要求1所述的方法，其特征在于，所述从预置的参考文本集合中选取第一文本集合，包括：

4.根据权利要求3所述的方法，其特征在于，所述针对所述第一文本集合中的每一份第一文本，计算其与所述待对比文本的细粒度文本相似度，包括：

第一，计算句子浅层相似度SimSha(S1，S2)：

第二，计算信息熵相似度SimEnt(S1，S2)：

SimEnt(S1，S2)＝∑(E(Wi))

E(W)＝log(N/n)

第三，计算浅语义相似度SimSemS(S1，S2)：

其中，词义相似度的表达式为：

浅语义相似度SimSemS(S1，S2)为：

第四，计算句子细粒度相似度Similarity(S1，S2):

其中,α、β、γ是权值参数，α+β+γ＝1；

第五，计算细粒度文本相似度Similarity(D1，D2)：

记SegSimilarity(Sk，Sj)＝max(Similarity(Sk，Si))

细粒度文本相似度Similarity(D1，D2)为：

Similarity(D1，D2)

＝∑ρ·SegSimilarity(Sk，Sj)

其中ρ是与Sk相关的权重。

5.根据权利要求4所述的方法，其特征在于，所述α、β、γ的大小关系为：

γ>α>β。

6.一种文本相似度比对装置，其特征在于，包括：

文本接收单元，用于接收待对比文本；

7.根据权利要求6所述的装置，其特征在于，还包括：

8.根据权利要求6所述的装置，其特征在于，所述第一文本集合选取单元包括：

9.根据权利要求8所述的装置，其特征在于，所述细粒度文本相似度计算单元包括：

SimEnt(S1，S2)＝∑(E(Wi))

E(W)＝log(N/n)

其中，词义相似度的表达式为：

浅语义相似度SimSemS(S1，S2)为：

其中,α、β、γ是权值参数，α+β+γ＝1；

记SegSimilarity(Sk，Sj)＝max(Similarity(Sk，Si))

细粒度文本相似度Similarity(D1，D2)为：

Similarity(D1，D2)

＝∑ρ·SegSimilarity(Sk，Sj)

其中ρ是与Sk相关的权重。

10.根据权利要求9所述的装置，其特征在于，所述α、β、γ的大小关系为：

γ>α>β。