CN102314418B

CN102314418B - 一种基于上下文关联的中文相似性比较方法

Info

Publication number: CN102314418B
Application number: CN 201110303533
Authority: CN
Inventors: 赵长海; 晏海华; 郎钰泽
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2011-10-09
Filing date: 2011-10-09
Publication date: 2013-07-24
Anticipated expiration: 2031-10-09
Also published as: CN102314418A

Abstract

本发明提出一种基于上下文关联的中文相似性比较方法，应用于中文相似性比较技术领域，该方法首先将要进行比较的两篇文本的文本流进行分词和索引，为每一个文本建立倒排表，然后对倒排表进行相似性检测，得到可疑相似片段，最后对可疑相似片段进行聚合，得到相似文本块，在相似文本块的生成过程中考虑到上下文的关联。本发明方法先发现较小可疑相似片段，再对可疑相似片段进行聚合，减少了空间向量模型中粒度大小与误判、漏判率之间的矛盾，实现对两篇文本的相似性比较。

Description

一种基于上下文关联的中文相似性比较方法

技术领域

本发明涉及中文相似性比较技术领域，具体是一种基于上下文关联的中文相似性比较方法。

背景技术

中文相似性比较技术广泛应用于抄袭检测、信息检索、机器翻译、文本挖掘、网页去重等领域，因为计算机对自然语言，尤其是中文的理解很困难，所以一直是人们研究的热点和难点。

相似性比较方法的目的是判断两篇文本是否“相似”。这里所说的“相似”，应该是指语义层面的所谓的“形不似而神似”。即两篇“相似”的文章，在经过(1)语法结构改变；(2)语序调换；(3)部分词语替换；(4)加入其他内容之后，仍然能检测出其相关性。其相似度大小取决于相似片段长度、改动程度等因素。

目前文本相似性比较广泛采用基于词频统计的方法，该方法基于VSM(向量空间模型)，对粒度设置很敏感，粒度过小则会将大量不相关的片段判定为相似，粒度过大则会产生大量漏判。使用基于词频统计的方法的技术包括SCAM(N Shivakumar，H Garcia-Molina，SCAM：A Copy Detection Mechanism for Digital Documents，1995)、CHECK(Antonio Si Hong Va Leong Rynson W.H.Lau，CHECK：A Document PlagiarismDetection System，1997)等。

上述基于VSM的中文相似性比较方法是把一篇文本或其中的一个粒度单位作为一个向量，其中的每一个词或字作为该向量的一个维；这个词或字出现的次数即为该向量在该维度上的值。这种方法相当于把一个粒度范围内的文本完全拆散成为孤立的字或词，而忽略了这些字或词之间的上下文关联。然而在判定两篇文本是否相似的时候，其上下文经常会提供重要的信息。现有的这些方法并没有充分利用这些上下文信息。

有关VSM的知识可以参考N Shivakumar，H Garcia-Molina的论文：SCAM：ACopy Detection Mechanism for Digital Documents。

发明内容

本发明针对现有基于VSM的中文相似性比较方法并没有充分利用上下文信息进行比较的问题，提出了一种基于上下文关联的中文相似性比较方法。

本发明一种基于上下文关联的中文相似性比较方法，具体包括以下步骤：

步骤1、首先将要进行比较的两篇文本的文本流进行分词，然后为每一个文本建立倒排表，具体是：通过词汇内容建立索引，将词汇本身作为索引的键，词汇在文本中的位置作为索引值；步骤2、对倒排表进行相似性检测，得到可疑相似片段(suspicious fragment)；步骤3、对可疑相似片段进行聚合，得到最终的相似文本块(Similar Chunk)及该相似文本块的相似度。

所述的步骤2具体又包括：

步骤2.1、首先使用倒排表对中心词进行映射：若词X同时在文本S的倒排表和文本D的倒排表中出现，则在文本S的倒排表和文本D的倒排表中建立词X的关系映射，并得到以词X作为中心词、以r作为半径，长度n＝2r+1的一对可疑相似片段；步骤2.2、以n个词作为一个粒度对两篇文本S和D进行相似性检测，并确定每一对可疑相似片段的相似度；

步骤2.3、确定文本S和文本D的相似值

R_S，D表示文本S对文本D的相似度，R_D，S表示文本D对文本S的相似度。

所述的步骤3中生成相似文本块，是针对文本S中每个核心可疑相似片段，进行下面过程：寻找该核心可疑相似片段的直接密度可达集合，将生成的直接密度可达集合中的核心可疑相似片段的最小的起始位置索引号作为所要生成的相似文本块的起始位置，最大的终止位置索引号作为所要生成的相似文本块的结束位置。

本发明的优点与积极效果在于：本发明方法先发现较小可疑相似片段，再对可疑相似片段进行聚合，减少了空间向量模型中粒度大小与误判、漏判率之间的矛盾。

附图说明

图1是本发明的中文相似性比较方法的整体步骤流程图；

图2是本发明方法步骤二中使用倒排表对中心词进行映射的示意图；

图3是一个可疑相似片段的数据结构所包含的信息。

具体实施方式

下面将结合附图和实施例对本发明的技术方案作进一步的详细说明。

本发明的基于上下文关联的中文相似性比较方法，如图1所示，具体包括以下步骤：

步骤一、读取要进行比较的文本S和文本D，将两篇文本的文本流(Text Stream)进行分词和索引。

从句子中划分出的每个有独立意义的词被称作分词。由于中文的词与词之间没有明确的边界，因此，中文分词是机器翻译、分类、主题词提取以及信息检索的重要基础。本发明方法采用基于二元迭代的自适应中英文分词算法(参考文献：曹勇刚，曹羽中等，《面向信息检索的自适应中文分词系统》，软件学报，2006年3月)。该自适应中英文分词算法利用它采用迭代式二元切分方法，对目标文档进行在线词频统计，使用离线词频词搜索引擎的倒排索引，筛选候选词并进行歧义消解。在统计模型的基础上，采用姓氏列表、量词表以及停词列表进行后处理，进一步提高了准确度，达到了进行消歧和识别新词，为用户提供检索的中心词的目的。

在分词之后，为每一个文本建立倒排表(Indexed Doc)，具体是：通过词汇内容建立索引，词汇本身作为索引的键，词汇在文本中的位置作为索引值。

步骤二、对倒排表进行相似性检测，得到可疑相似片段。

在建立索引之后，使用较小粒度进行相似性检测，得到可疑的相似片段。所述的可疑相似片段要经过进一步判定才可以确定是否属于一个相似文本块。

步骤2.1、寻找可疑相似片段的时候，首先使用倒排表对中心词进行映射，如图2所示。对于每一个可疑相似片段，设立中心词和一个半径r，则可疑相似片段长度n＝2r+1。如图2所示：在待比较的两篇文本S和文本D的倒排表中，若某一个词X同时在S的倒排表和D的倒排表中出现，则将该词X作为中心词，建立该中心词X的关系映射。

经过实验，选取可疑相似片段半径r＝2，如图2所示，画斜线部分为可疑相似片段长度，该长度为5，即由步骤一产生的5个词为一个粒度进行相似性检测。

步骤2.2、以n个词作为一个粒度进行相似性检测，并确定可疑相似片段的相似度。令S表示候选文本、D表示待检测(或者查询)文本；令s表示候选片段，s∈S，d表示待检测(或者查询)片段，d∈D，F(s)表示片段s的词汇向量，即VSM模型中的“向量”，该向量以所有可能的词汇作为维度，以某维度上的词汇出现在文本S中的次数作为该维度上的数值，F(d)表示片段d的词汇向量，以某维度上的词汇出现在文本D中的次数作为该维度上的数值。r_sf(s，d)表示一对可疑相似片段s、d的相似度。可疑相似片段的相似度r_sf(s，d)可以使用经典的VSM算法进行计算(SCAM中的算法)：

r_{sf} (s, d) = \frac{Σ_{i = 1}^{N} {α_{i}}^{2} \cdot F (s) \cdot F (d)}{\sqrt{Σ_{i = 1}^{N} {α_{i}}^{2} F {(s)}^{2} \cdot Σ_{i = 1}^{N} {α_{i}}^{2} F {(d)}^{2}}} - - - (1)

其中，N表示文本S和文本D中包含的词语的总个数，α_i表示第i个词语的权重向量。

下面说明在不涉及到可疑相似片段s，d的讨论时，r_sf(s，d)简写为r_sf。

另外，每一个可疑相似片段的数据结构都包含其相似度和在两篇文本中的位置等信息，如图3所示，文本S与文本D的一对可疑相似片段s、d具有相同的数据结构，该数据结构中包含该可疑相似片段s与d的相似度r_sf(s，d)、片段s在文本S中的起始位置索引号s_StartIndex、片段s在文本S中的终止位置索引号s_EndIndex、片段d在文本D中的起始位置索引号d_StartIndex和片段d在文本D中的终止位置索引号d_EndIndex。

步骤2.3、确定文本S和文本D的相似值。令w表示某个词语，这个词语可以同时出现在待比较的两篇文本中，也可以只出现在一篇文本中；词语w可能同时被包含在多个可疑相似区段中，令

为第j个包含w的可疑片段的相似度，则词语w的相似度为：

r_{sf}^{w} = \max (r_{sf}^{w, 1}, r_{sf}^{w, 2}, r_{sf}^{w, 3}, . . ., r_{sf}^{w, j}) - - - (2)

若不存在包含w的可疑相似片段，则令

则，文本S对文本D的相似度为：

R_{S, D} = \frac{Σ_{w_{i}} r_{sf}^{w_{i}}}{N_{S}}, w_{i} &Element; S - - - (3)

其中，w_i表示S中第i个词语，表示词语w_i的相似度，将词语w＝w_i代入式(2)能够得到

表示对文本S中所有的词语的相似度求和，N_S表示文本S中包含的词的总个数。文本D对文本S的相似度R_D，S类似得到R_S，D的方法可得到。

则一对文本(S，D)的相似值定义为：

步骤三、对步骤二中得到的可疑相似片段进行聚合，生成相似文本块。在此处影响聚合的因素包括可疑相似片段的相似度r_sf，以及可疑相似片段在两篇文本S和D中出现的位置，所述的在两篇文本S和D中出现的位置就是上下文关联信息。首先进行如下定义：

定义1：给定可疑相似片段半径ε(以同一篇文本内的倒排表词的索引序号计算，可疑相似片段的索引号定义为其中心词X的索引号)内的相邻区域称为可疑相似片段的ε邻域。

定义2：如果可疑相似片段ε邻域内至少包含最小数目为K的可疑相似片段，则称该可疑相似片段为K的核心可疑相似片段，在K值明确的情况下，简称为核心可疑相似片段。在可疑相似片段半径r取2情况下，实验中ε取15～25，K取2～5可以取得比较好的效果。

定义3：给定一个可疑相似片段集合C，对于可疑相似片段p，q∈C，若p在q的ε邻域内，而q是一个核心可疑相似片段，则称从p到q是直接密度可达的。

定义4：如果存在一个可疑相似片段链p₁，p₂，p₃，...p_m，p_i到p_i+1是直接密度可达的，i为从1到(m-1)的整数，则称p₁到p_m是密度可达的。

生成最终的相似文本块的具体步骤如下：

步骤1、找出文本S中的所有核心可疑相似片段。

步骤2、从文本S的第一个未经本步骤计算的核心可疑相似片段P_i开始，计算核心可疑相似片段P_i的直接密度可达集合Reachable(P_i)：Reachable(P_i)＝{p|P_i到p是直接密度可达的}。

步骤3、对于集合Reachable(P_i)中的每个核心可疑相似片段p，确定其各自的直接密度可达集合Reachable(p)，并将其加入Reachable(P_i)。

步骤4、递归执行步骤3，直到Reachable(P_i)的大小不再发生变化。

步骤5、由对可疑相似片段的数据结构的定义可知道，Reachable(P_i)中的每一个可疑相似片段p，都包含一个起始位置索引号(start index)和一个终止位置索引号(end index)。寻找其中最小的起始位置索引号作为相似文本块的起始位置，最大的终止位置索引号作为相似文本块的结束位置。完成该相似文本块的生成。

步骤6、重复步骤2至步骤5，直至文本S中所有的核心可疑相似片段都经过了处理，完成所有相似文本块的生成。

采用本发明方法得到的相似文本块，能够应用在抄袭检测、信息检索、机器翻译、文本挖掘、网页去重等领域，判断两篇文本是否相似。

Claims

1.一种基于上下文关联的中文相似性比较方法，其特征在于，该方法具体包括如下步骤：

步骤1、首先将要进行比较的两篇文本S和D的文本流进行分词，然后为每一个文本建立倒排表，具体是：通过词汇内容建立索引，将词汇本身作为索引的键，词汇在文本中的位置作为索引值；

步骤2、对倒排表进行相似性检测，得到可疑相似片段，具体是：

步骤2.1、首先使用倒排表对中心词进行映射：若词X同时在文本S的倒排表和文本D的倒排表中出现，则在文本S的倒排表和文本D的倒排表中建立词X的关系映射，并得到以词X作为中心词、以r作为半径，长度n=2r+1的一对可疑相似片段；

步骤2.2、以n个词作为一个粒度对两篇文本S和D进行相似性检测，并确定每一对可疑相似片段的相似度；

步骤2.3、确定文本S和文本D的相似值

R_S，D表示文本S对文本D的相似度，R_D，S表示文本D对文本S的相似度；

所述的文本S对文本D的相似度R_S,D具体通过式(1)得到：

w_i表示S中第i个词语，N_S表示文本S中包含的词语的总个数，

表示对文本S中所有的词语的相似度求和，表示词语w_i的相似度，具体依据下面式(2)来确定：

为第j个包含某个词语w的可疑相似片段的相似度，可疑相似片段的相似度依据式(3)来确定：

α_i表示第i个词的权重向量，s表示候选片段，s∈文本S，d表示待检测片段，d∈文本D，F(s)表示片段s的词汇向量，F(d)表示片段d的词汇向量，N表示文本S和文本D中包含的词语的总个数；

文本D对文本S的相似度R_D，S类似R_S，D能够得到；

步骤3、对可疑相似片段进行聚合，生成相似文本块。

2.根据权利要求1所述的一种基于上下文关联的中文相似性比较方法，其特征在于，步骤2.1中所述的r为2。

3.根据权利要求1所述的一种基于上下文关联的中文相似性比较方法，其特征在于，步骤2中所述的可疑相似片段，其数据结构包括如下元素：包含该可疑相似片段s与d的相似度r_sf(s，d)、片段s在文本S中的起始位置索引号s_StartIndex、片段s在文本S中的终止位置索引号s_EndIndex、片段d在文本D中的起始位置索引号d_StartIndex和片段d在文本D中的终止位置索引号d_EndIndex。

4.根据权利要求1所述的一种基于上下文关联的中文相似性比较方法，其特征在于，步骤3中所述的生成最终的相似文本块的具体步骤如下：

步骤1、找出文本S的所有核心可疑相似片段；

步骤2、从文本S的第一个未经本步骤计算的核心可疑相似片段P_i开始，计算核心可疑相似片段P_i的直接密度可达集合Reachable(P_i)：Reachable(P_i)={p|P_i到p是直接密度可达的}；所述的直接密度可达定义为：给定一个可疑相似片段集合C，对于可疑相似片段p,q∈C，若p在q的ε邻域内，而q是一个核心可疑相似片段，则称从p到q是直接密度可达的；所述核心可疑相似片段定义为：如果可疑相似片段邻域内至少包含最小数目为K的可疑相似片段，则称该可疑相似片段为K的核心可疑相似片段，在K值明确时，简称为核心可疑相似片段；

步骤3、对于集合Reachable(P_i)中的每个核心可疑相似片段p，确定其直接密度可达集合Reachable(p)，并将其加入Reachable(P_i)；

步骤4、递归执行步骤3，直到Reachable(P_i)的大小不再发生变化；

步骤5、寻找集合Reachable(P_i)中的每一个可疑相似片段p的起始位置索引号和终止位置索引号，将其中最小的起始位置索引号作为生成相似文本块的起始位置，最大的终止位置索引号作为相似文本块的结束位置；

5.根据权利要求4所述的一种基于上下文关联的中文相似性比较方法，其特征在于，所述的可疑相似片段，在半径r取2情况下，设置ε取15~25，K取2~5。