CN102360372A

CN102360372A - 一种跨语种的文档相似性检测方法

Info

Publication number: CN102360372A
Application number: CN2011103035795A
Authority: CN
Inventors: 赵长海; 晏海华; 杨沐杉
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2011-10-09
Filing date: 2011-10-09
Publication date: 2012-02-22
Anticipated expiration: 2031-10-09
Also published as: CN102360372B

Abstract

本发明提出一种跨语种的文档相似性检测方法，属于文档相似性比较技术领域。本发明方法首先将要比较的源文档和目标文档分别转换为基于同一种语言单词的中间文档，然后寻找两个中间文档之间的相似的中间表示集合，建立映射集合，最后根据相似文段的寻找方法，通过映射集合，找出源文档和目标文档的相似文段。本发明方法提供了一种跨语种的文档相似性检测方法，可以较好地解决跨语种文档相似检测的难点，并得到较好的检测效果。

Description

一种跨语种的文档相似性检测方法

技术领域

本发明涉及文档相似性比较技术领域，具体是一种跨语种的文档相似性检测方法。

背景技术

论文抄袭现象是一直困扰着学术界的一大问题，近年来，同语种的文档相似检测技术有着不少的研究，也有很多可用的产品。然而跨语种的文档相似检测研究基本上还处于一个空白的状态，与此同时，伴随的是跨语种的论文抄袭现象日益严重。因此研究跨语种情况下的文档相似检测技术，是一个很有价值和意义的课题。

目前，跨语种的文档相似检测难点主要体现在两个方面：

一、语言间的语法结构区别；

譬如以下一个英文句子和对应的中文译句：

·This page allows customers to subscribe.

·顾客可以在该页面进行预订。

可以看到，同样的一句话，通过中文和英文表达出来，整个语法结构有很大的区别，包括主谓宾位置和时态语态等，都难以对应。

二、语言间的一词多义；

以下是中文词对应的英文表述和英文词对应的中文意思的一个示例：

·Subscribe预订、订阅、捐款、认购、赞成、签署

·预订subscribe，book，order

从示例中可以看出，同样由于这种表述的多样性和词汇的多义性，会造成在跨语种文档相似检测时的障碍。

由于存在着上述技术难点，所以传统的文档相似检测方法对跨语种情况下的文档相似检测并不适用。

发明内容

本发明针对目前传统文档相似性检测方法不适用跨语种情况的情况，提供一种跨语种的文档相似性检测方法，用以较好地解决跨语种文档相似检测的难点，得到较好的检测效果。

本发明的一种跨语种的文档相似性检测方法，具体包括以下步骤：

步骤一、将要比较的源文档和目标文档分别转换为基于同一种语言单词的中间文档；

步骤二、寻找两个中间文档之间的相似的中间表示集合Slot，建立映射集合W；

步骤三、通过映射集合W，根据相似文段的寻找方法找出源文档和目标文档的相似文段。

所述的步骤一具体过程是：首先将源文档与目标文档分别进行分词；然后将划分得到的每个单词或词组转换为一个中间表示集合，所述的中间表示为该单词或词组所对应的转换成的语言的单词或词组；最后为每个中间表示集合建立索引，每个中间表示集合占据一个索引，索引的序号与该索引对应的源单词或词组在源文档或目标文档中的位置序号一致。

所述的步骤二的具体方法是：

首先，枚举两个中间文档所有中间表示集合的组合(S_A，S_B)，其中，S_A为源文档转换的中间文档中的中间表示集合，S_B为目标文档转换的中间文档中的中间表示集合；

然后，针对每个组合(S_A，S_B)，枚举该组合中两个中间表示集合中的中间表示的组合(a_i，b_j)，其中，a_i为S_A中的第i个中间表示，b_j为S_B中的第j个中间表示；

最后，确定每一对中间表示组合(a_i，b_j)的相似度，在相似度超过所设定的阈值Q之后，建立两个中间表示集合S_A与S_B的映射，并将建立的映射加入到映射集合中，将组合(S_A，S_B)中的中间表示组合的相似度的最大值作为S_A与S_B的相似度，若相似度未超过阈值Q，则不建立映射；所述的每一对中间表示组合的相似度通过该组合中两个中间表示的形式关联度与优先权值来确定。

本发明的优点与积极效果在于：(1)通过将对比的文档都转换为基于同一种语言的中间文档，使得支持任意一种新语言与其他语言的对比，只需要实现将其转换到中间语言的过程即可；(2)通过将文章的每个词语扩展为词语集合，扩充了中间语言的文档可以携带的语义信息，一定程度上解决了语言中一词多义的问题；(3)通过中间语言的词语之间跨时态、跨语态的计算相似度，一定程度上解决了语言中词语的变化和变形问题；(4)通过先枚举映射，后从映射出发进行跳跃的方式，将查找相似文段的时间控制在可以接受的程度之中。

附图说明

图1是本发明的文档相似性检测方法的总体步骤流程图；

图2是本发明方法步骤一中将中文文档转换为Slot-Index文档的实例示意图；

图3是本发明方法步骤一中将英文文档转换为Slot-Index文档的实例示意图；

图4是本发明方法步骤二中枚举两个中间文档的Slot组合的示意图；

图5是本发明方法步骤二中计算两个词语之间的词语相似度的示意图；

图6是本发明方法步骤三的具体流程示意图；

图7是本发明方法步骤三中寻找新的映射的示意图。

具体实施方式

下面将结合附图和实施例对本发明作进一步的详细说明。

本发明的跨语种的文档相似性检测方法，如图1所示，具体包括以下步骤：

步骤一、将要比较的源文档和目标文档分别转换为基于同一种语言单词的中间文档。所述的源文档和目标文档为任意语言的纯文本文档。

转换的方法为：首先将源文档或目标文档以一个或数个词为粒度进行划分；然后将划分得到的每个单词或词组转换为一个由中间表示所组成的集合Slot，所述的中间表示为源文档或目标文档划分的单词或词组所对应的某种语言的单词或词组；最后为每个中间表示的集合Slot建立索引，每个Slot占据一个索引，索引的序号和该索引对应的源单词或词组在源文档或目标文档中的位置序号一致。所述的Slot是某种语言无关的对词义进行描述的有序符号的集合。

转换后得到的中间文档称为Slot-Index文档，该文档是一个语言无关的文档中间表示形式。任意语言的文档输入后都将被转换为Slot-Index文档。所述的Slot-Index文档可以保留词语大部分的可能含义信息，并容易对原文进行逆向索引。

本发明实施例中的中间表示采用基于英文单词的方案，对要比较的源文档进行分词，之后将划分得到的每个单词所对应的英文词义的集合作为其对应的Slot，并按源文档中词的顺序标记Slot索引的序号。例如，如图2所示，对中文文档句子“顾客可以在该页面进行预订”，先分词得到7个词，之后将这7个词对应的英文词义集合分别放到中间文档Slot-Index A中对应的Slot1～Slot7中。而对于英文文档，只需要将每个词直接放入Slot集合中即可得到对应的Slot-Index文档，如图3所示，为英文句子“This page allows customers tosubscribe”转换为Slot-Index文档后对应的Slot1～Slot6，该英文句子对应的中间文档为Slot-Index B。

步骤二、寻找两个中间文档之间的相似Slot，建立映射(Mapping)集合W。

本步骤目前在于找到两个Slot-Index文档之间的相似Slot，以便进一步分析出两个Slot-Index文档之间的关联，得到的映射集合用于找出相似文段。

首先，枚举两个中间文档中的Slot的组合，如图4所示，对于中间文档Slot-Index A与中间文档Slot-Index B，将中间文档Slot-Index A中的每个Slot分别与中间文档Slot-Index B中的每个Slot组合。

然后，对于两个中间文档中给定的一个Slot组合(S_A，S_B)，枚举两个Slot中的中间表示的组合，即将Slot S_A中的每个中间表示分别与Slot S_B中的每个中间表示进行组合。

最后，确定每一对中间表示组合的相似度，在相似度超过一定阈值Q之后，建立两个Slot间的映射，并将建立的映射加入到映射集合中，若相似度未超过阈值Q，则不建立映射。所述的阈值Q可以由用户自行定义，一般设置为0.5～0.9。

一个映射有一个相似度，该相似度定义为每一个中间表示组合的相似度中的最大值，如下：

S_{A, B} = \max {S_{a_{i}, b_{j}} | a_{i} &Element; S_{A} and b_{j} &Element; S_{B}}

其中，S_A，B表示Slot组合(S_A，S_B)映射的相似度，

为一对中间表示(a_i，b_j)的相似度，a_i表示中间表示集合Slot S_A中的第i个中间表示，b_j表示中间表示集合Slot S_B中的第j个中间表示。

具体每一个中间表示组合的相似度的确定方法为：

步骤2.1，确定形式关联度。

(1)若给定的两个中间表示形式完全一致，则这两个中间表示的相似度为1。例如，Initial和Initial，这两个中间表示的相似度就为1。

(2)两个形式不完全一样的中间表示，若这两个中间表示为同一词衍生而来，则其相近，但形式关联度较小，例如两个中间表示Initialed和Initialization。若给定的这两个中间表示是相似的，但则其相似度小于1大于0。

(3)除去(1)与(2)所述的情况外的其他情况下相似度为0。

步骤2.2，为中间表示确定优先权值。所述的优先权值与该词在语言环境中的词频成反比，即该词越常用，优先权值越低，该词越罕见，优先权值越高。本发明方法中词的优先权值的确定是根据网址http://www.wordfrequency.info提供的词频列表确定的，其中设置最常见的120个词优先级为0，其次1000个词为1，其次1200个词为2，其次1400个词为3，依此类推，直到2600个词为9，其余的均认为是10。

步骤2.3，确定中间表示组合的相似度。

在确定了一对中间表示的形式关联度和两个优先权值后，进一步确定该中间表示组合的相似度。对于一对中间表示组合，将该中间表示组合的形式关联度与两个中间表示的优先权值中的较大值相乘，得到的数值就设置为该中间表示组合的相似度。所得到的相似度综合反映了两个词语之间的关联性、相近度和对文档相似贡献度的多少，如图5所示。

步骤三、通过映射集合W，根据如图6所示的相似文段的寻找方法，找出源文档和目标文档的相似文段。如图6所示，相似文段的寻找方法如下：

第1步，判断集合W是否为空，若为空，则结束本次方法，否则，新建一个空的映射集合P。

第2步，在集合W中任取一个未用过的映射，加入集合P中，并在集合W中标记该映射为已用过，针对该映射进入第3步执行。

第3步，确定映射的跳跃半径r：r＝基础半径+映射的优先权值×正比系数。本发明实施例中取基础半径为4，正比系数为0.6，在实际应用中能够取得好的效果，可以获得有效的相似文段。

两个中间表示集合S_A与S_B所建立一个映射，该映射的优先权值＝该映射的相似度×该映射所涉及的两个中间表示集合中的中间表示的最大优先权值。第4步，更新源文档转换的中间文档的当前边界范围和目标文档转换的中间文档的当前边界范围。所述的边界都是一个索引序号。为源文档转换的中间文档设置一个当前边界范围[SL，SR]，初始左边界SL和右边界SR的值都为1，为目标文档转换的中间文档设置一个当前边界范围[TL，TR]，初始左边界TL和右边界TR的值都为1。根据第3步得到的该映射的跳跃半径，由该映射对应在两个中间文档的Slot的索引序号加减跳跃半径，可以得到在源文档转换的中间文档中的一个左边界mSL和一个右边界mSR，得到在目标文档转换的中间文档中的一个左边界mTL和一个右边界mTR。若mSL＜SL，则用mSL更新SL，否则不作处理，若mSR＞SR，则用mSR更新SR，否则不作处理；若mTL＜TL，则用mTL更新TL，否则不作处理，若mTR＞TR，则用mTR更新TR，否则不作处理。

第5步，分别在源文档转换的中间文档与目标文档转换的中间文档中判断当前边界范围映射内是否覆盖有新的映射满足如下条件：在集合W中未被标记为已用过，且该映射对应的Slot的索引位置都处于各自中间文档的当前边界范围内。若存在符合条件的映射，则将该映射加入映射集合P，并在集合W中将该映射标记为已用过，然后针对加入集合P的新的映射转第3步执行，若不存在符合条件的映射，则执行下一步。

如图6所示，Slot I和Slot J’是一个映射连接的两个Slot，其确定一个半径r，在I的半径r范围和J’的半径r范围中寻找新的映射。

第6步，由当前映射集合P中的映射可以在源文档转换的中间文档与目标文档转换的中间文档中分别确定一个连续的索引范围，即源文档转换的中间文档中得到的当前边界范围[SL，SR]，目标文档转换的中间文档中得到的当前边界范围[TL，TR]，将该索引范围对应逆向索引到源文档与目标文档后，就得到源文档和目标文档的一组相似文段。

第7步，对于一组相似文段，由其对应映射集合P中映射的数量、相似度等可以计算出一个相似度，得到的该相似度就是该相似文段的相似度。具体本发明方法该文段的相似度是由当前的映射集合P中相似度最高的三组映射的相似度相乘得到。

一般对于某组相似文段，若其相似度大于0.6，则可认为该组相似文段有一定的相似性、或论述相近的主题，若其相似度大于0.8，则可认为该组相似文段有很高的相似性。

第8步，判断集合W中是否存在未被标记为已用过的映射，若不存在，则本次方法结束，否则回到第1步执行。

Claims

1.一种跨语种的文档相似性检测方法，其特征在于，所述检测方法包括以下步骤：

步骤一、将要比较的源文档和目标文档分别转换为基于同一种语言单词的中间文档，所述中间文档都是由中间表示集合组成，所述的中间表示集合由中间表示集合形成，所述的中间表示为文档分词得到的单词或词组所对应的转换成的语言的单词或词组；

步骤二、寻找两个中间文档之间相似的中间表示集合，建立映射集合W，具体过程如下：

最后，确定每一对中间表示组合(a_i，b_j)的相似度，在相似度超过所设定的阈值Q之后，建立两个中间表示集合S_A与S_B的映射，并将建立的映射加入到映射集合W中，将组合(S_A，S_B)中的中间表示组合的相似度的最大值作为S_A与S_B所建立的映射的相似度，若相似度未超过阈值Q，则不建立映射；所述的每一对中间表示组合的相似度通过该组合中两个中间表示的形式关联度与优先权值来确定；

2.根据权利要求1所述的一种跨语种的文档相似性检测方法，其特征在于，步骤一中所述的转换的具体方法为：首先将源文档与目标文档分别进行分词；然后将划分得到的每个单词或词组转换为一个中间表示集合；最后为每个中间表示集合建立索引，每个中间表示集合占据一个索引，索引的序号与该索引对应的源单词或词组在源文档或目标文档中的位置序号一致。

3.根据权利要求1所述的一种跨语种的文档相似性检测方法，其特征在于，步骤二中所述的阈值Q设定为0.5～0.9。

4.根据权利要求1所述的一种跨语种的文档相似性检测方法，其特征在于，步骤二中所述的中间表示组合的相似度的确定方法具体为：

(1)确定形式关联度：若两个中间表示的形式完全一致，则该中间表示组合的相似度为1；若两个中间表示为同一词衍生而来，则该中间表示组合的相似度小于1大于0；若两个中间表示的形式不一样，且不是由同一词衍生而来，则该中间表示组合的相似度为0；

(2)确定两个中间表示的优先权值，所述的优先权值与该词在语言环境中的词频成反比，该词越常用，优先权值越低，该词越罕见，优先权值越高；

(3)将(1)中得到的形式关联度与(2)中得到的两个优先权值中的较大值相乘，得到的数值设置为该中间表示组合的相似度。

5.根据权利要求1所述的一种跨语种的文档相似性检测方法，其特征在于，步骤三中所述的相似文段的寻找方法，具体为：

第1步：判断集合W是否为空，若为空，则结束本方法，否则，新建一个空的映射集合P；

第2步：在集合W中任取一个未用过的映射，加入集合P中，并在集合W中标记该映射为已用过，针对该映射进入第3步执行；

第3步：确定该映射的跳跃半径r：r＝基础半径+映射的优先权值＊正比系数；所述的映射的优先权值＝该映射的相似度×该映射所涉及的两个中间表示集合中的中间表示的最大优先权值；

第4步：更新源文档转换的中间文档的当前边界范围和目标文档转换的中间文档的当前边界范围，具体是：根据第3步得到的跳跃半径，由该映射对应在两个中间文档的中间表示集合的索引序号加减跳跃半径，在源文档转换的中间文档中得到一个左边界mSL和一个右边界mSR，在目标文档转换的中间文档中得到一个左边界mTL和一个右边界mTR，若mSL＜SL，则用mSL更新SL，否则不作处理，若mSR＞SR，则用mSR更新SR，否则不作处理；若mTL＜TL，则用mTL更新TL，否则不作处理，若mTR＞TR，则用mTR更新TR，否则不作处理；所述的SL、SR分别为设置的源文档转换的中间文档的当前边界范围的左边界和右边界，初始左边界SL和右边界SR的值都为1，所述的TL、TR分别为设置的目标文档转换的中间文档的当前边界范围的左边界和右边界，初始左边界TL和右边界TR的值都为1；

第5步：分别在源文档转换的中间文档与目标文档转换的中间文档中判断当前边界范围映射内是否覆盖有新的映射满足如下条件：在集合W中未被标记为已用过，且该映射对应在两个中间文档的中间表示集合的索引序号都处于各自中间文档的当前边界范围内；若存在符合条件的映射，则将该映射加入映射集合P，并在集合W中将该映射标记为已用过，然后针对加入集合P的映射转第3步执行，若不存在符合条件的映射，则执行下一步；

第6步：由源文档转换的中间文档中的当前边界范围[SL，SR]和目标文档转换的中间文档的当前边界范围[TL，TR]，相应逆向索引到源文档与目标文档后，就得到源文档和目标文档的一组相似文段；

第7步：确定得到的一组相似文段的相似度，具体是将当前映射集合P中相似度最高的三组映射的相似度相乘得到；

第8步，判断集合W中是否存在未被标记为已用过的映射，若不存在，则本次方法结束，否则转到第1步继续执行。

6.根据权利要求5所述的一种跨语种的文档相似性检测方法，其特征在于，第3步中所述的基础半径取值为6。

7.根据权利要求5所述的一种跨语种的文档相似性检测方法，其特征在于，第3步中所述的正比系数取值为0.6。