CN103823862A

CN103823862A - 一种跨语言的电子文本剽窃检测系统及其检测方法

Info

Publication number: CN103823862A
Application number: CN201410062327.1A
Authority: CN
Inventors: 鲍军鹏; 张昭
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2014-02-24
Filing date: 2014-02-24
Publication date: 2014-05-28
Anticipated expiration: 2034-02-24
Also published as: CN103823862B

Abstract

本发明公开了一种跨语言的电子文本剽窃检测系统及其检测方法，包括以下步骤：分别对待测电子文本和参考电子文本进行段落划分，得到待测段落集和参考段落集；根据跨语言本体，查找待测段落集和参考段落集中词语对应的概念，并根据所查找到的概念，将待测段落集和参考段落集表示为待测多重概念序列和参考多重概念序列；据待测多重概念序列，检索得到与待测多重概念序列共同概念最多的参考多重概念序列；检测多重概念序列，生成剽窃证据列表；对剽窃证据列表进行合并、整理，生成检测结果；输出和显示检测结果。本发明中所建立得多重概念序列，能够将待测电子文本和参考电子文本进行充分的检索，进而提高了检测的准确率。

Description

一种跨语言的电子文本剽窃检测系统及其检测方法

技术领域

本发明属于智能信息处理和计算机技术领域，尤其涉及一种跨语言的电子文本剽窃检测系统及其检测方法。

背景技术

随着信息技术的快速发展，互联网上存在海量电子文本，而且其数量还在一直增加。保护电子文本知识产权已经成为国内外各界的共识。文本复制检测，又称文本剽窃检测，是判断文本是否复制其它一个或多个文本的技术，为保护电子文本知识产权提供技术支持。随着国际化的日益深入，文本的复制并不局限在单一的语言，跨语言翻译型的文本复制也十分普遍。因此，跨语言文本复制检测对于保护电子文本的知识产权有着重要的意义。

在跨语言文本复制检测中，待测文本和参考文本分别使用不同的语言。单语言文本复制检测主要基于字符串匹配和统计。然而，在跨语言文本复制检测中，不同语言的字符串存在很大差别，基于字符串匹配的方法将会无能为力。另外，不同语言在语法上也大不相同，例如中文和英文在翻译时词语的顺序可能会发生变化。所以，跨语言文本复制检测是一个很有难度的问题。

解决跨语言文本复制检测问题的一种途径是机器翻译方法。首先通过机器翻译将不同语言文本翻译成同一语言文本。然后利用单语言文本复制检测算法来进行检测。然而，这种方法的问题在于机器翻译质量会对检测结果产生关键性影响。目前机器翻译对大段文字的翻译准确度还很差。机器翻译质量和人工翻译质量相比有巨大差距。所以，机器翻译虽然将不同语言文本转换为同一语言文本，但是会出现一些错误翻译、同义词替换和顺序颠倒。这些误差都在很大程度上影响后续文本复制检测质量。

发明内容

针对上述缺陷或不足，本发明的目的在于提供了一种跨语言的电子文本剽窃检测方法，能够针对跨语言的文本复制进行检测。

为达到以上目的，本发明的技术方案为：

一种跨语言的电子文本剽窃检测方法，包括以下步骤：

步骤一，分别对待测电子文本和参考电子文本进行段落划分，得到待测段落集和参考段落集；

步骤二，根据跨语言本体，查找待测段落集和参考段落集中词语对应的概念，并根据所查找到的概念，将待测段落集和参考段落集表示为待测多重概念序列和参考多重概念序列；

步骤三，根据待测多重概念序列，检索得到与待测多重概念序列共同概念最多的参考多重概念序列；

步骤四，检测所查找到的与待测多重概念序列共同概念最多的参考多重概念序列，生成剽窃证据列表；

步骤五，对剽窃证据列表进行合并、整理，生成检测结果；

步骤六，输出和显示检测结果。

所述步骤二具体包括以下步骤：

1）对待测段落集和参考段落集进行分词和停用词过滤，分别得到待测段落词语序列和参考段落词语序列；

2）利用跨语言本体查找每个词语序列中词语对应的概念，将词语的所有概念加入到候选概念数组中；

3）如果词语的候选概念数组中只有一种词性的概念，则在候选概念数组中选取至多N个概念存放到多重概念序列中；如果词语的候选概念数组中有M种词性的概念，则对每种词性分别在候选概念数组中选取至多N个概念，将这至多M×N个概念存放到多重概念序列中；

4）重复以上步骤2）～步骤3），直到词语序列中的所有词语处理完，形成待测多重概念序列和参考多重概念序列。

所述步骤四中，检测所查找到的与待测多重概念序列共同概念最多的参考多重概念序列具体包括以下步骤：

1）创建候选剽窃证据列表和剽窃证据列表；

2）对共同概念最多的参考多重概念序列建立位置索引，所述位置索引按照哈希表结构进行组织，以使得通过位置索引查找待测多重概念序列中的概念在参考多重概念序列中出现的位置；

3）预设当前间隙变量G并置0；

4）取出待测多重概念序列的位置上的概念数组，用概念数组中所有概念在位置索引中查找，得到一个位置集合；

5）如果位置集合为空，将间隙变量G加1，转步骤8）,否则将间隙变量G置0；

6）将待测多重概念序列的概念和位置集合中的位置组成位置对，对候选剽窃证据列表中的每一条证据，通过位置对更新证据；

7）当参考多重概念序列中的概念的位置对和候选剽窃证据列表中的所有证据距离大于预设位置阈值，则利用该位置对创建新证据，将新证据加入到候选剽窃证据列表中；

8）如果待测多重概念序列中的位置到达句子末尾或间隙变量G大于预设阈值，则执行候选剽窃证据列表检查操作，将满足密度要求的剽窃证据加入到剽窃证据列表中，然后将间隙变量G置0并清空候选剽窃证据列表；

9）重复上述步骤4）～步骤8），直到待测多重概念序列中的所有位置都处理完；

10）对剽窃证据列表中的证据进行合并，然后去掉长度小于预设位置阈值的证据。

所述满足密度要求的剽窃证据包括：

1）剽窃证据包括待测多重概念序列片段和参考多重概念序列片段；

2）设待测多重概念序列片段总位置数为Ls，检测出的位置数为Ns，Ns/Ls不小于密度阈值T；

3）设参考多重概念序列片段总位置数为Lr，检测出的位置数为Nr，Nr/Lr不小于密度阈值T。

所述生成检测结果的过程按以下步骤进行：

（1）根据待测多重概念序列的位置，对同一个待测文档的剽窃证据进行合并；

（2）将参考多重概念序列位置映射到文本字符流中的位置；

（3）计算待测文本和参考文本的相似度；

所述多重概念序列的每一个位置上有一个或多个概念，多重概念序列定义为：

MCS=<Carray1,Carray2,…,Carrayn>

其中，MCS是多重概念序列，Carrayn是第n个概念数组，在MCS的第n个位置上，n为正整数。

所述跨语言本体的基本单位是概念，概念表示一个确定的含义、语义、意思。

所述对待测电子文本和参考电子文本是不同语言的自然语言文本。

一种跨语言的电子文本剽窃检测系统，包括：

电子文本预处理模块，用于将输入的电子文本转换为统一的编码格式，分别对待测电子文本和参考电子文本进行段落划分，得到待测段落集和参考段落集；

概念化模块，用于根据跨语言本体，查找待测段落集和参考段落集中词语对应的概念，并根据所查找到的概念，将待测段落集和参考段落集表示为待测多重概念序列和参考多重概念序列；

检索模块，用于根据待测多重概念序列，检索得到与待测多重概念序列共同概念最多的参考多重概念序列；

检测结果生成模块，用于检测所查找到的与待测多重概念序列共同概念最多的参考多重概念序列，生成剽窃证据列表；

检测结果显示模块，用于对剽窃证据列表进行合并、整理，生成检测结果。与现有技术比较，本发明的有益效果为：

利用跨语言本体对不同语言文本在概念层次上建模，则能够将待测电子文本和参考电子文本其在概念层次上进行统一表示。由于概念就表示确定的语义、意思，因此，具有同义关系的词语可以映射到相同的概念上，这样就在一定程度上解决了同义词替换问题，然后通过检测算法，在概念模型基础上进行跨语言文本复制检测，进一步的，本发明中所建立得多重概念序列，能够将待测电子文本和参考电子文本进行充分的检索，进而提高了检测的准确率。

附图说明

图1是本发明所述方法的总体模块图；

图2是本发明所述的多重概念序列结构示意图；

图3是本发明所述的多重概念序列构建流程图；

图4是本发明所述的多重概念序列检测流程图。

具体实施方式

下面结合附图对本发明做详细描述。

本发明提供了一种跨语言的电子文本剽窃检测方法，包括以下步骤：

具体的，包括对输入待测电子文本和参考电子文本转换为统一的编码格式，如UTF-8格式，被检测的电子文本是如中文、英文、法文、德文、俄文、日文、西班牙文或其它语言的自然语言文本，而不是音频、视频、图片等信息。待测文本和参考文本是不同语言的自然语言文本，而不是单一语言的自然语言文本。

使用跨语言本体提供背景知识。跨语言本体的基本单位是概念，概念表示一个确定的含义、语义、意思。跨语言本体至少有两种语言，可以将不同语言的词语映射到统一的概念上。

将文本段落表示为多重概念序列。多重概念序列的每一个位置上可以有一个或多个概念，而不是每一个位置上只能有一个概念。多重概念序列可以看成是概念数组的序列，其定义为：

MCS=<Carray₁,Carray₂,…,Carray_n>

步骤二具体包括以下步骤：

4）重复以上步骤2）～步骤3），直到词语序列中的所有词语处理完，形成待测多重概念序列和参考多重概念序列

1）检索得到的参考多重概念序列和待测多重概念序列有足够的共同概念；

2）在待测多重概念序列中，有超过预设阈值的位置上存在至少一个在参考多重概念序列中出现的概念；

3）在参考多重概念序列中，有超过预设阈值的位置上存在至少一个在待测多重概念序列中出现的概念。

检测多重概念序列具体包括以下步骤：

1）创建候选剽窃证据列表和剽窃证据列表；

3）预设当前间隙变量G并置0；

8）如果待测多重概念序列中的位置到达句子末尾或间隙变量G大于预设阈值，则执行候选剽窃证据列表检查操作，将满足密度要求的剽窃证据加入到剽窃证据列表中，然后将间隙变量G置0并清空候选剽窃证据列表；其中，所述的满足密度要求的剽窃证据有以下特点：

（1）剽窃证据包括待测多重概念序列片段和参考多重概念序列片段；

（2）设待测多重概念序列片段总位置数为Ls，检测出的位置数为Ns，Ns/Ls不小于密度阈值T；

（3）设参考多重概念序列片段总位置数为Lr，检测出的位置数为Nr，Nr/Lr不小于密度阈值T。

10）对剽窃证据列表中的证据进行合并，然后去掉长度小于一定阈值的证据。

步骤五，对剽窃证据列表进行合并、整理，生成检测结果；

生成检测结果的过程按以下步骤进行：

（2）将参考多重概念序列位置映射到文本字符流中的位置；

（3）计算待测文本和参考文本的相似度；

步骤六，输出和显示检测结果。

本发明还提供了一种跨语言的电子文本剽窃检测系统，包括：

电子文本预处理模块10，用于将输入的电子文本转换为统一的编码格式，分别对待测电子文本和参考电子文本进行段落划分，得到待测段落集和参考段落集；

概念化模块20，用于根据跨语言本体，查找待测段落集和参考段落集中词语对应的概念，并根据所查找到的概念，将待测段落集和参考段落集表示为待测多重概念序列和参考多重概念序列；

检索模块30，用于根据待测多重概念序列，检索得到与待测多重概念序列共同概念最多的参考多重概念序列；

检测结果生成模块40，用于检测所查找到的与待测多重概念序列共同概念最多的参考多重概念序列，生成剽窃证据列表；

检测结果显示模块50，用于对剽窃证据列表进行合并、整理，生成检测结果。

以下是发明人给出的较佳实施例。

参照图1，图1是本发明所述方法的总体模块图。该方法至少包括电子文本预处理模块10、概念化模块20、检索模块30、检测结果生成模块40和检测结果显示模块50。电子文本预处理模块10和概念化模块20连接，概念化模块20和检索模块30连接，检索模块30和检测结果生成模块40连接，检测结果生成模块40和检测结果显示模块50连接。

在文本预处理模块10中，将电子文本转换为统一的编码格式。然后对电子文本进行段落划分，得到待测段落集和参考段落集。

在概念化模块20中，利用跨语言本体，将不同语言的文本段落表示成多重概念序列。

在检索模块30中，对于需要进行检测的待测多重概念序列，从参考多重概念序列集中检索得到若干参考多重概念序列，这些参考多重概念序列与待测多重概念序列有足够的共同概念。

在检测结果生成模块40中，在多重概念序列基础上进行复制检测，得到检测结果。

最后，通过检测结果显示模块50将检测结果向用户显示。

参照图2，图2是本发明所述的多重概念序列的结构示意图。多重概念序列可以看成是一个概念数组的序列，概念数组包含一个词语对应的概念，每个概念数组在这个序列中有一个位置。例如，对于多重概念序列MCS=<a₁,a₂,…,a_n>，概念数组a₁处在第1个位置，概念数组a₂处在第2个位置，以此类推。多重概念序列的每个位置上可以有多个概念，而不是每个位置上只能有一个概念。

参照图3，图3是本发明所述的多重概念序列构建流程图。

首先进行步骤301，将一个文本段落p读入到计算机中。接着进行步骤302，对文本段落p进行分词和停用词过滤。接着进行步骤303，建立一个词语序列，将文本段落p中的词语加入到词语序列中。然后进行步骤304，从词语序列中取出一个词语w。接着进行步骤305，建立一个候选概念数组a，在跨语言本体中查找词语w对应的概念，将这些概念加入到候选概念数组a中。在步骤306，判断候选概念数组a中是否只有一种词性的概念。如果是，则转至步骤307，否则进行步骤309。在步骤307，在候选概念数组a中选取至多N个概念。接着进行步骤308，将选取的至多N个概念加入到多重概念序列中。在步骤309，对于候选概念数组a中M种词性的每种词性，分别选取至多N个概念。接着进行步骤310，将选取的至多M×N个概念加入到多重概念序列中。在步骤311，判断词语序列中所有词语是否都已处理完。如果是，对文本段落p的多重概念序列构建过程结束。否则转步骤304，继续上述循环，直至处理完词语序列中所有词语。

参照图4，图4是本发明所述的多重概念序列检测流程图。

首先进行步骤401，创建剽窃证据列表list和候选剽窃证据列表list2。接着进行步骤402，对参考多重概念序列mcs2建立位置索引。位置索引采用哈希表结构。哈希表的关键字是概念，哈希表的值是存放概念在参考多重概念序列中所有位置的位置集合。然后进行步骤403，取出待测多重概念序列mcs1的一个位置sLoc的所有概念。接着进行步骤404，查找sLoc在参考多重概念序列mcs2中的位置，并存放到数组rLocArray中。然后进行步骤405，将sLoc和rLocArray中的位置rLoc组成位置对(sLoc,rLoc)。然后进行步骤406，通过位置对(sLoc,rLoc)更新候选剽窃证据列表list2。在步骤407，判断是否需要对候选剽窃证据列表list2进行检查。如果是，则转至步骤408，否则进行步骤409。在步骤408，对候选剽窃证据列表list2中的证据进行检查，将符合要求的证据加入到剽窃证据列表list中，然后清空候选剽窃证据列表list2。在步骤409，判断待测多重概念序列mcs1的所有位置是否都已处理完。如果是，则转至步骤410。否则转步骤403，继续上述循环，直至处理完待测多重概念序列mcs1的所有位置。在步骤410中，对剽窃证据列表list进行合并操作，并且去掉长度小于一定阈值的证据。

本发明的跨语言电子文本剽窃检测方法，其基本思路是：首先通过跨语言本体，对不同语言文本分别建立多重概念序列。多重概念序列在概念层次上表示文本，从而解决了不同语言字符串层面上存在差异的问题。另外，由于概念表示词语的语义、含义、意思，具有同义关系的词语可以映射到相同概念上，在一定程度上解决了经常发生的同义词替换现象。然后对多重概念序列进行复制检测。利用哈希表建立参考多重概念序列的位置索引，然后依次判断待测多重概念序列中的位置和参考多重概念序列中的哪些位置有共同概念。待测多重概念序列中的位置和参考多重概念序列中的位置组成了位置对，通过位置对可以建立和维护一个候选证据列表。在利用位置对更新候选证据时，并不要求插入的位置对前后有序，而是在原证据的边界上可以有一定的延伸区间。这样就在一定程度上解决了跨语言翻译型复制中存在的词语顺序不一致问题。通过候选证据列表检查操作，将不符合密度要求的证据过滤，将合适的证据加入到证据列表中。最后，对同一个待测文档的多个证据列表进行合并、整理，得到检测结果。检测结果包括具体的剽窃证据和文本相似度。

Claims

1.一种跨语言的电子文本剽窃检测方法，其特征在于，包括以下步骤：

步骤五，对剽窃证据列表进行合并、整理，生成检测结果；

步骤六，输出和显示检测结果。

2.根据权利要求1所述的跨语言的电子文本剽窃检测方法，其特征在于，所述步骤二具体包括以下步骤：

3.根据权利要求1所述的跨语言的电子文本剽窃检测方法，其特征在于，所述步骤四中，检测所查找到的与待测多重概念序列共同概念最多的参考多重概念序列具体包括以下步骤：

1）创建候选剽窃证据列表和剽窃证据列表；

3）预设当前间隙变量G并置0；

4.根据权利要求3所述的跨语言的电子文本剽窃检测方法，其特征在于，所述满足密度要求的剽窃证据包括：

5.根据权利要求1所述的跨语言的电子文本剽窃检测方法，其特征在于，所述生成检测结果的过程按以下步骤进行：

（2）将参考多重概念序列位置映射到文本字符流中的位置；

（3）计算待测文本和参考文本的相似度。

6.根据权利要求1所述的跨语言的电子文本剽窃检测方法，其特征在于，所述多重概念序列的每一个位置上有一个或多个概念，多重概念序列定义为：

MCS=<Carray1,Carray2,…,Carrayn>

7.根据权利要求1所述的跨语言的电子文本剽窃检测方法，其特征在于，所述跨语言本体的基本单位是概念，概念表示一个确定的含义、语义或意思。

8.根据权利要求1所述的跨语言的电子文本剽窃检测方法，其特征在于，所述对待测电子文本和参考电子文本是不同语言的自然语言文本。

9.一种跨语言的电子文本剽窃检测系统，其特征在于，包括：

检测结果显示模块，用于对剽窃证据列表进行合并、整理，生成检测结果。