CN107015961B

CN107015961B - 一种文本相似性比对方法

Info

Publication number: CN107015961B
Application number: CN201610053813.6A
Authority: CN
Inventors: 张国文
Original assignee: Chinese Academy Of Press And Publication; Chineseall Digital Publishing Group Co ltd
Current assignee: Chinese Academy Of Press And Publication; Col Group Co ltd
Priority date: 2016-01-27
Filing date: 2016-01-27
Publication date: 2021-06-25
Anticipated expiration: 2036-01-27
Also published as: CN107015961A

Abstract

本发明公开了一种文本相似性比对方法，涉及网络作品比对技术领域。本发明实施例中，文本相似性比对在系统的架构上采用分布式架构，在比对算法上采用多粒度分层算法，包括以文档为粗粒度的相似度比对，以及以分段文本为细粒度的相似度比对，从而在内容相似性比对的效率和精确性上取得了较好的均衡，实现了如下的性能指标：在构建的测试数据上，平均漏警率和虚警率≤10％，比对响应时间≤0.1秒。

Description

一种文本相似性比对方法

技术领域

本发明涉及网络作品比对技术领域，尤其涉及一种文本相似性比对方法。

背景技术

目前，随着互联网技术的迅速发展，网络作品的传播速度越来越快，传播范围越来越广泛，对网络作品的侵权行为也越来越多，为了解决通过网络发生的作品侵权行为，可以使用网络侵权追踪开发平台对作品进行监测追踪。

在追踪的过程中，主要是使用网络爬虫技术，首先从互联网上抓取作品，然后与网络侵权追踪开发平台的作品库中存储的作品进行内容相似性比对，从而确认网络作品是否为侵权作品。

其中，网络爬虫(又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常被称为网页追逐者)，是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本，已被广泛应用于互联网领域。搜索引擎使用网络爬虫抓取Web网页、文档甚至图片、音频、视频等资源，通过相应的索引技术组织这些信息，提供给搜索用户进行查询。随着网络的迅速发展，不断优化的网络爬虫技术正在有效地应对各种挑战，为高效搜索用户关注的特定领域与主题提供了有力支撑。网络爬虫也为中小站点的推广提供了有效的途径。

而在进行内容相似性比对时，由于作品库中有上千万的作品，网络侵权追踪开发平台从互联网上抓取的作品数量更是作品库中作品数量的几百倍以上，因此，两两相比的次数庞大，工作量大，效率及准确率均比较低。

发明内容

本发明的目的在于提供一种文本相似性比对方法，从而解决现有技术中存在的前述问题。

为了实现上述目的，本发明采用的技术方案如下：

一种文本相似性比对方法，包括如下步骤：

S1，以文档为粗粒度，根据词的浅层次相似度从注册作品库中筛选出相似度最大的N个作品形成候选作品集，其中，N为自然数；

S2，对所述候选作品集中的每个作品进行文本分段，得到分段文本；

S3，以所述分段文本为细粒度，进行文本细粒度相似度比对。

进一步地，S1之前还包括步骤S0：对所述文档进行分词和词性标注。

进一步地，S0和S1之间还包括步骤：对所述分词进行过滤处理。

优选地，所述对所述分词进行过滤处理，采用插件式过滤链，所述插件式过滤链包括停用词过滤器和/或同义词过滤器。

优选地，S1中，所述词的浅层次相似度，采用如下公式进行计算：

Sim(D1,D2)＝Count(D1∩D2)/(Count(D1)+Count(D2))，

式中，

D＝{W1,W2,W3…}表示文档，

Wi表示文档D中的词，

D1∩D2表示文档D1、D2中词的交集，

Count(Di)表示文档Di中词的个数。

优选地，S2中，所述文本分段包括如下方式：以段落分段、以一定数量的字词分段或以句子分段。

优选地，S3中所述文本细粒度相似度由：基于句子的浅层相似度、信息熵相似度和浅语义相似度组成和计算得到，具体地，

当所述基于句子的浅层相似度，采用如下公式进行计算：

SimSha(S1，S2)＝Count(S1∩S2)/(Count(S1)+Count(S2))，

式中，

SimSha(S1，S2)表示基于句子的浅层相似度，

S＝{W1,W2,W3…}表示句子，

Wi表示句子S中的词，

S1∩S2表示句子S1、S2中词的交集，

Count(Si)表示句子Si中词的个数；

当所述信息熵相似度，采用如下公式进行计算：

SimEnt(S1，S2)＝∑(E(Wi)),E(W)＝log(N/n),

式中，

SimEnt(S1，S2)表示信息熵相似度，

S＝{W1,W2,W3…}表示句子，

Wi∈S1∩S2，

S1∩S2表示句子S1、S2中词的交集，

N表示候选文档集中句子的总数，

n表示包含词w的句子数；

当所述浅语义相似度，包括词义相似度、句子语义相似度和句子细粒度相似度，

其中，词义相似度采用如下公式进行计算：

SimSemW(W1，W2)＝F(SimLex(W1，W2)，SimPos(W1，W2)，SimCon(W1，W2))＝SimLex(W1，W2)·SimPos(W1，W2)·SimCon(W1，W2)，

式中，

SimSemW(W1，W2)表示词义相似度，

SimLex(W1，W2)、SimPos(W1，W2)、SimCon(W1，W2)分别表示词W1与W2的词汇相似度、词性相似度、词上下文相似度，

SimLex(W1，W2)是词w1和w2对应的义原在义原树上的距离；

SimPos(W1，W2)取值：当w1与w2词性相同时，取值为1；当w1与w2词性不相同时，取值为0；

SimCon(W1，W2)＝ABS(pos1/N1-pos2/N2)，其中，pos1、pos2分别是w1、w2在相应句中的位置，N1、N2是w1、w2所在句子的长度；

句子语义相似度采用如下公式进行计算：

SimSemS(S1，S2)＝2·∑0≤i＜Len(S1)ArgMax{SimSemW(Wi，Wj):0≤j＜Len(S2)}/(Len(S1)+Len(S2))，

式中，

SimSemS(S1，S2)表示句子语义相似度，

ArgMax表示寻找具有最大评分的参量，函数argmax{f(x,y):x∈X}，表示x∈X，使f(x,y)达到最大值时的取值，

Len(S)是句子S的长度，即词语个数；

则，所述句子细粒度相似度采用如下公式进行计算：

Similarity(S1，S2)

＝α·SimSha(S1，S2)+β·SimEnt(S1，S2)+γ·SimSemS(S1，S2)

式中，

α、β、γ为权值参数，且α+β+γ＝1；

假设所述分段文本为句子，则所述文本细粒度相似度为：

Similarity(D1，D2)＝∑Wk·SegSimilarity(Sk，Sj)，

SegSimilarity(Sk，Sj)＝max(Similarity(Sk，Si))，

其中，

Similarity(D1，D2)表示文本细粒度相似度，

Similarity(Sk，Si)表示句子细粒度相似度，

Sk是第一文档中的句子，Si是第二文档中的句子，1≤i≤N2，N2为第二文档中中句子数，j是第二文档中Similarity(Sk，Si)取得最大值时的i值，

Wk是与Sk相关的权重，一般可以简化为1/N，N是文档的句子总数。

本发明的有益效果是：本发明实施例中，文本相似性比对在系统的架构上采用分布式架构，在比对算法上采用多粒度分层算法，包括以文档为粗粒度的相似度比对，以及以分段文本为细粒度的相似度比对，从而在内容相似性比对的效率和精确性上取得了较好的均衡，实现了如下的性能指标：在构建的测试数据上，平均漏警率和虚警率≤10％，比对响应时间≤0.1秒。

附图说明

图1是本发明实施例提供的文本相似性比对方法的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不用于限定本发明。

网络侵权追踪开发平台监测追踪的是文字类数字作品，因此，作品内容相似性比对技术方案是针对文本内容的。文本比对是针对数据处理后的纯文本内容进行。比对系统的架构设计和比对算法的设计对整个追踪平台的效率有很大影响。

本发明实施例中，文本相似性比对在系统的架构上采用分布式架构，在比对算法上采用多粒度分层算法。

具体地，首先使用文本分析调度器将需要做文本内容相似度分析的网络作品比对任务均衡地分配给多个文本分析器，并监测文本分析器的状态；然后，在文本分析器中，采用多粒度分层算法进行文档内容相似性比对。

如图1所示，本发明实施例提供了一种文本相似性比对方法，包括如下步骤：

其中，粗粒度相似度比对是以整个文档为单位，基于词的表层特征来进行相似度计算，从海量的注册作品库中筛选出最相似的N个作品来做后续细粒度的比对。

文本分段是在更小粒度上进行相似度比对的前提，因此，在进行细粒度相似度比对之前，首先需要对文本进行分段，将分段文本作为细粒度。

细粒度相似度的比对，采用基于句子的浅层相似度(SegShallowSimilarity)、信息熵相似度(SegEntropySimilarity)和浅语义相似度(SegSemanticSimilarity)组合而成。

在本发明的一个优选实施例中，S1之前还可以包括步骤S0：对所述文档进行分词和词性标注。

S0和S1之间还包括步骤：对所述分词进行过滤处理。

所述对所述分词进行过滤处理，采用插件式过滤链，所述插件式过滤链包括停用词过滤器和/或同义词过滤器。

算法是以词为文本的特征表示项，因此对于中文文本需要对内容进行分词和词性标注；为了减少不重要词对准确性和系统性能的影响，可以对这些分词进行过滤处理，系统对分词进行过滤处理可以采用插件式的过滤链，所述插件式过滤链可以包括停用词过滤器和/或同义词过滤器

本发明的一个优选实施例中，S1中，所述词的浅层次相似度，可以采用如下公式进行计算：

Sim(D1,D2)＝Count(D1∩D2)/(Count(D1)+Count(D2))，

式中，

D＝{W1,W2,W3…}表示文档，

Wi表示文档D中的词，

D1∩D2表示文档D1、D2中词的交集，

Count(Di)表示文档Di中词的个数。

在本发明的一个优选实施例中，S2中，所述文本分段包括如下方式：以段落分段、以一定数量的字词分段或以句子分段。

分段方式不一样，其分段的粒度也不一样，可以以文档的段落分段，也可以按一定数量的字词固定分段，也可以句子分段。

在本发明的一个优选实施例中，可以以句子(以句号作为句子结束标志)为分段单位，也就是说，细粒度的相似度比对是以句子为单位，以词为特征表示。

在本发明的一个优选实施例中，S3中所述文本细粒度相似度由：基于句子的浅层相似度、信息熵相似度和浅语义相似度组成和计算得到，具体地，

当所述基于句子的浅层相似度，采用如下公式进行计算：

SimSha(S1，S2)＝Count(S1∩S2)/(Count(S1)+Count(S2))，

式中，

SimSha(S1，S2)表示基于句子的浅层相似度，

S＝{W1,W2,W3…}表示句子，

Wi表示句子S中的词，

S1∩S2表示句子S1、S2中词的交集，

Count(Si)表示句子Si中词的个数；

当所述信息熵相似度，采用如下公式进行计算：

SimEnt(S1，S2)＝∑(E(Wi)),E(W)＝log(N/n),

式中，

SimEnt(S1，S2)表示信息熵相似度，

S＝{W1,W2,W3…}表示句子，

Wi∈S1∩S2，

S1∩S2表示句子S1、S2中词的交集，

N表示候选文档集中句子的总数，

n表示包含词w的句子数；

其中，词义相似度采用如下公式进行计算：

SimSemW(W1，W2)＝F(SimLex(W1，W2)，SimPos(W1，W2)，SimCon(W1，W2))＝SimLex(W1，W2)·SimPos(W1，W2)·SimCon(W1，W2)，式中，

SimSemW(W1，W2)表示词义相似度，

SimLex(W1，W2)是词w1和w2对应的义原在义原树上的距离；

句子语义相似度采用如下公式进行计算：

式中，

SimSemS(S1，S2)表示句子语义相似度，

Len(S)是句子S的长度，即词语个数；

则，所述句子细粒度相似度采用如下公式进行计算：

Similarity(S1，S2)

＝α·SimSha(S1，S2)+β·SimEnt(S1，S2)+γ·SimSemS(S1，S2)

式中，

α、β、γ为权值参数，且α+β+γ＝1；

假设所述分段文本为句子，则所述文本细粒度相似度为：

Similarity(D1，D2)＝∑Wk·SegSimilarity(Sk，Sj)，

SegSimilarity(Sk，Sj)＝max(Similarity(Sk，Si))，

其中，

Similarity(D1，D2)表示文本细粒度相似度，

Similarity(Sk，Si)表示句子细粒度相似度，

采用上述本发明实施例提供的技术方案，在构建的测试数据上，平均漏警率和虚警率≤10％，比对响应时间≤0.1秒。

通过采用本发明公开的上述技术方案，得到了如下有益的效果：本发明实施例中，文本相似性比对在系统的架构上采用分布式架构，在比对算法上采用多粒度分层算法，包括以文档为粗粒度的相似度比对，以及以分段文本为细粒度的相似度比对，从而在内容相似性比对的效率和精确性上取得了较好的均衡，实现了如下的性能指标：在构建的测试数据上，平均漏警率和虚警率≤10％，比对响应时间≤0.1秒。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域人员应该理解的是，上述实施例提供的方法步骤的时序可根据实际情况进行适应性调整，也可根据实际情况并发进行。

上述实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机设备可读取的存储介质中，用于执行上述各实施例方法所述的全部或部分步骤。所述计算机设备，例如：个人计算机、服务器、网络设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等；所述的存储介质，例如：RAM、ROM、磁碟、磁带、光盘、闪存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种文本相似性比对方法，其特征在于，使用文本分析调度器将需要做文本内容相似度分析的网络作品比对任务均衡地分配给多个文本分析器，并监测文本分析器的状态；然后，在文本分析器中，采用多粒度分层算法进行文档内容相似性比对，所述多粒度分层算法包括如下步骤：

2.根据权利要求1所述的文本相似性比对方法，其特征在于，S1之前还包括步骤S0：对所述网络作品分配到某个文本分析器中的待比对文档和所述注册作品库中的文档进行分词和词性标注。

3.根据权利要求2所述的文本相似性比对方法，其特征在于，S0和S1之间还包括步骤：对所述分词进行过滤处理。

4.根据权利要求3所述的文本相似性比对方法，其特征在于，所述对所述分词进行过滤处理，采用插件式过滤链，所述插件式过滤链包括停用词过滤器和/或同义词过滤器。

5.根据权利要求1所述的文本相似性比对方法，其特征在于，S1中，所述词的浅层次相似度，采用如下公式进行计算：

Sim(D1,D2)＝Count(D1∩D2)/(Count(D1)+Count(D2))，

式中，

D＝{W1,W2,W3…}表示文档，

Wi表示文档D中的词，

D1∩D2表示文档D1、D2中词的交集，

Count(Di)表示文档Di中词的个数，当词有重复时，重复数不计入词的个数。

6.根据权利要求1所述的文本相似性比对方法，其特征在于，S2中，所述文本分段包括如下方式：以段落分段、以一定数量的字词分段或以句子分段。