CN103389987A

CN103389987A - 文本相似性比较方法及系统

Info

Publication number: CN103389987A
Application number: CN2012101426515A
Authority: CN
Inventors: 高峰
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2012-05-09
Filing date: 2012-05-09
Publication date: 2013-11-13

Abstract

本申请公开了一种文本相似性比较方法，首先提取各待分析文件的各特征向量及各特征向量的值；然后将各待分析文件的特征向量进行削峰处理，即将各待分析文件的特征向量按值的大小分别排序，分别将各待分析文件的排序最高的一个或多个特征向量移除；再根据经削峰处理后的各待分析文件的各特征向量的值，得到各待分析文件间的相似度。本申请还公开了一种文本相似性比较系统。本申请的文本相似性比较方法及系统，能准确判断文本的相似性。

Description

文本相似性比较方法及系统

技术领域

本申请涉及信息技术，尤其涉及一种文本相似性比较方法及系统。

背景技术

随着网络通信技术的发展，使得人们可以接受到即时的、最新的消息；但同时随着网络的普及、网上的信息量越来越大，不仅对计算机对这些海量信息的获取、存储及实时分析处理能力提出了严峻的挑战，也给人们在搜索信息时的准确性和可靠性带来了一定的难度；

伴随着三网融合的进程，互联网中文本形式变得多样化，普通网页所占比例越来越小。微博、WAP、评论、短信等内容比例会逐渐提高。同普通网页类似，这类文本中也存在大量的相同或极为相似的内容。

类似论坛，博客这些文本发布类网站，每天都会面临大量重复文本（如广告）的问题。大量垃圾信息会干扰用户正常访问，带来糟糕的用户体验，所以如何对文本的相似性进行比较，以防治重复类文本等问题，是非常重要的。

常见的文本相似性比较的技术方案是，首先对各待分析文件进行预处理，然后提取各待分析文件的各特征向量及各特征向量的值，特征向量的值的大小反映的是该特征向量对文本特征贡献的重要程度，对各特征向量的值进行归一化后，采用余弦相似性、相关相似性、调整余弦相似性等相似度计算方法，根据各待分析文件的各特征向量及各特征向量的值，得到各待分析文件间的相似度。

特征向量可以最有效地刻划一份文本的特征，但某些特征向量会受到额外的噪声的干扰而失去有效性，但是许多提取文本特征向量的方法，通常是强调在待分析文件中出现次数较多，而在全局考察样本中较少出现的词语对文本特征向量的贡献，无法考虑到某些特征向量会受到额外的噪声的干扰而失去有效性。例如常见的TF-IDF（term frequency–inversedocument frequency）方式提取的文本特征向量，字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。因此恶意破坏者只要简单在文本开头贴一段诸如佛经、史记上的文字，就可以干扰常见的文本相似性比较系统的判断。因为根据TF-IDF打分特征，TF-IDF会认为这些文字对于全局的意义更为重要。即使排除恶意破坏的场景，直接分析线上实际样本，我们也可以看到，大量广告帖的特征只存在局部差异：比方说，机票广告会存在大段相同文本，但只有在开头的往返地上存在差异。

发明内容

本申请要解决的技术问题是，准确判断文本的相似性。

为解决上述技术问题，本申请提供了一种文本相似性比较方法，包括以下步骤，

一.提取各待分析文件的各特征向量及各特征向量的值；

二.将各待分析文件的特征向量进行削峰处理，即将各待分析文件的特征向量按值的大小分别排序，分别将各待分析文件的排序最高的一个或多个特征向量移除；

三.根据经削峰处理后的各待分析文件的各特征向量的值，得到各待分析文件间的相似度。

为解决上述技术问题，本申请还提供了一种文本相似性比较系统，包括：

一文件特征向量提取模块，用于提取各待分析文件的各特征向量及各特征向量的值；

一削峰处理模块，用于将各待分析文件的特征向量进行削峰处理，即将各待分析文件的特征向量按值的大小分别排序，分别将各待分析文件的排序最高的一个或多个特征向量移除；

一相似度分析模块，用于根据经削峰处理后的各待分析文件的各特征向量的值，得到各待分析文件间的相似度。

本申请的文本相似性比较方法及系统，在得到各待分析文件的特征向量后，采取削峰的做法，抛弃若干个值最大的文本特征向量，如果待分析文件存在刻意干扰的文本信息，由于刻意干扰的文本信息所涉及的特征向量的值通常较大，刻意干扰的文本信息所涉及的特征向量通常就可以在这个环节被移除，使多个受到额外的干扰而失去有效性的特征向量不至于对文本相似性分析造成影响，从而更准确判断各待分析文件间的相似性。

附图说明

为了更清楚地说明本申请的技术方案，下面对本申请所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请的文本相似性比较方法一实施例的示意图；

图2是本申请的文本相似性比较系统一实施例的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请。并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

实施例一

文本相似性比较方法，如图1所示，包括以下步骤：

一.提取各待分析文件的各特征向量及各特征向量的值；

二.将各待分析文件的特征向量进行削峰处理，即将各待分析文件的特征向量按值的大小分别排序，分别将各待分析文件的排序最高的一个或多个特征向量移除；移除的排序最高的特征向量的个数，可以在对线上数据进行程序化的反复调试后确定；

实施例二

采用TF-IDF（term frequency–inverse document frequency）方式或者TF-RIDF等各种向量权重评估方式（Term Weighting Approaches），提取各个待分析文件的各特征向量及各特征向量的值。

实施例三

采用余弦相似性或相关相似性、调整余弦相似性等基于向量权重的文本相似性算法，根据经削峰处理后的各待分析文件的各特征向量的值，得到各待分析文件间的相似度。

实施例四

有三个各待分析文件，文件A、文件B、文件C，文件A为标准文本，恶意破坏者在文件A开头贴了一段教育相关的文字形成文件B，在文件A开头贴了一段法律相关的文字形成文件C；

将该三个待分析文件的特征向量进行削峰处理时，可以采用TF-IDF方式对所述各待分析文件包括的词语或短语进行特征向量提取。对各待分析文件提取的特征向量的处理方式如下：

文件A的值最大的50个特征向量依次为A1、A2、…、A50，将文件A的值最大的4个特征向量A1、A2、A3、A4移除；

文件B的值最大的50个特征向量依次为B1、A1、B2、B3、A2、A3、B4、A4、…A46，将文件B的值最大的4个特征向量B1、A1、B2、B3移除；B1、B2、B3、B4为添加的该段教育相关的文字所涉及的特征向量；

文件C的值最大的50个特征向量依次为C1、A1、A2、C2、A3、C3、A4、…A47，将文件C的值最大的4个特征向量C1、A1、A2、C2移除；C1、C2、C3为添加的该段法律相关的文字所涉及的特征向量。

将三个待分析文件的特征向量进行削峰处理后，文件A的值最大的46个特征向量依次为A5、A6、…、A50，文件B的值最大的46个特征向量依次为A2、A3、B4、A4、…A46,文件C的值最大的46个特征向量依次为A3、C3、A4、…A46,可见根据进行削峰处理后的三个待分析文件的特征向量分析文件间的相似度，由于文件B中刻意干扰的教育相关的文字所涉及的值较大特征向量B1、B2、B3被移除，文件C中刻意干扰的法律相关的文字所涉及的值较大特征向量C1、C2被移除，从而使文件B、文件C中的一部分额外干扰特征向量B1、B2、B3及C1、C2失去有效性，不至于对文本相似性分析造成影响，从而能更准确判断该三个待分析文件间的相似性。

实施例五

文本相似性比较系统，如图2所示，包括：

实施例七

文件特征向量提取模块，采用TF-IDF（term frequency–inversedocument frequency）方式或者TF-RIDF等各种向量权重评估方式（TermWeighting Approaches），提取各个待分析文件的各特征向量及各特征向量的值。

实施例八

相似度分析模块，采用余弦相似性或相关相似性、调整余弦相似性等基于向量权重的文本相似性算法，根据经削峰处理后的各待分析文件的各特征向量的值，得到各待分析文件间的相似度。

而对于没有干扰文本信息的文本，此做法会损失一些最重要的文本信息特征，但对于比较文本相似性来说，其任务并不是精确提取文本特征向量，两篇分别抹去最大特征向量的文本，依然可以根据其它特征向量进行相似性判断。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种文本相似性比较方法，其特征在于，包括以下步骤，

一.提取各待分析文件的各特征向量及各特征向量的值；

2.根据权利要求1所述的文本相似性比较方法，其特征在于，采用TF-IDF方式，提取各个待分析文件的各特征向量及各特征向量的值。

3.根据权利要求1所述的文本相似性比较方法，其特征在于，采用余弦相似性计算方法，根据经削峰处理后的各待分析文件的各特征向量的值，得到各待分析文件间的相似度。

4.一种文本相似性比较系统，其特征在于，包括

5.根据权利要求4所述的文本相似性比较系统，其特征在于，

所述文件特征向量提取模块，采用TF-IDF方式，提取各个待分析文件的各特征向量及各特征向量的值。

6.根据权利要求4所述的文本相似性比较系统，其特征在于，

所述相似度分析模块，采用余弦相似性计算方法，根据经削峰处理后的各待分析文件的各特征向量的值，得到各待分析文件间的相似度。