CN101315622A

CN101315622A - 检测文件相似度的系统及方法

Info

Publication number: CN101315622A
Application number: CNA2007101058353A
Authority: CN
Inventors: 金国庆; 李浩文; 刘德鹏; 麦志聪; 陈致中
Original assignee: Chinese University of Hong Kong CUHK
Current assignee: Chinese University of Hong Kong CUHK
Priority date: 2007-05-30
Filing date: 2007-05-30
Publication date: 2008-12-03
Anticipated expiration: 2027-05-30
Also published as: HK1123108A1; SG148141A1; CN101315622B

Abstract

本发明提供一种检测文件相似度的系统和方法，所述方法包括：分别对待检测的文件抽取其中的纯文字部分；将所述抽取的纯文字部分分拆为文字单元；对所述分拆的文字单元进行编码；以及将一份文件中的经过编码的文字单元与至少另一份文件的编码的文字单元进行比对以确定二者的相似度。

Description

检测文件相似度的系统及方法

技术领域

本发明涉及一种检测文件相似度的系统及方法，尤其涉及一种在其中将词组分割的处理步骤转换为文字标注处理步骤的、用于检测文件相似度的系统及方法。

背景技术

如今，人们通过互联网在全球范围内获取数据变得越来越方便。剽窃已经成为极为关注的一个话题。剽窃行为的认定要满足：1).具有一定的疑似内容；和/或2)未对疑似内容的引用源做任何必要的引用说明。

防止剽窃行为已经成为人们关注的一个问题。例如，在以下的参考文献中都不同程度地对如何防止或检测文件的剽窃进行了描述。

1.P.Clough于2000年发表题为“自然语言和编程语言的剽窃行为：目前检测工具和技术的概览”的研究报告(P.Clough.Plagiarism in naturaland programming languages：An overview of current tools and technologies.Research Memoranda：CS-00-05，Department of Computer Science，University of Sheffield，2000)；

2.N.Shivakumar，H.Garcia-Molina于1995在《关于数字图书馆的理论和实践的第二次国际会议学报》上发表的、题为“SCAM：一个检测电子文件抄袭行为的机制”的文章(N.Shivakumar，H.Garcia-Molina.SCAM：Acopy detection mechanism for digital documents.Proceedings of the 2ndInternational Conference on Theory and Practice of Digital Libraries，Austin，Texas，1995)；以及

3.S.Brin，J.Davis和H.Garcia-Molina于1 995在《ACM SIGMOD会议学报》第398-409页发表的、题为“电子文件的抄袭行为检测机制”的文章(S.Brin，J.Davis，and H.Garcia-Molina.Copy detection mechanismsfor digital documents.In Proceedings of the ACM SIGMOD Conference，pages 398-409，1995)。

概括地说，现有的检测文件相似度的系统一般包括以下步骤：

1.对提交的文件集合中每一个文件进行基本的简化处理，并将其分割(partition)成连续的标记块(contiguous chunks of tokens)；

2.在这些标记块中，保留一定数量有代表性的标记块；

3.将保留的标记块制成独有的指纹(fingerprint)，并利用这些指纹为文件制作出一个签名(signature)；以及

4.进行判断，如果两份文件具有相同指纹，则表示这两份文件在某种程度上是关联的。即，两份文件的相似程度取决于它们共有的指纹数量。

然而，现有的这些系统主要针对于西方语言(例如英文)，而不能对一些东方语言(例如中文)进行处理，因为上述已知方法考虑的一些因数在中文中根本不存在，例如字母的大小写。另外，中文词组的分割已完全不同于英文。因此，需要一种能够即可以针对西方语言还可以针对中文文件的相似度进行检测的方法和系统。

发明内容

本发明针对上述需求而提出了一种用于检测文件相似度的系统及方法。

根据本发明的一个方面，提供了一种检测文件相似度的方法，包括：

分别对待检测的文件抽取其中的纯文字部分；

将所述抽取的纯文字部分分拆为文字单元；

对所述分拆的文字单元进行编码；以及

将一份文件中的经过编码的文字单元与至少另一份文件的编码的文字单元进行比对以确定二者的相似度。

根据本发明的另一个方面，提供了一种检测文件相似度的系统，包括：

纯文字抽取模块，分别对待检测的文件抽取其中的纯文字部分；

分拆模块，用于将所述抽取的纯文字部分分拆为文字单元；

文字编码模块，用来对所述分拆的文字单元进行编码；以及

文字比对模块，将一份文件中的经过编码的文字单元与至少另一份文件的编码的文字单元进行比对以确定二者的相似度。

本发明不仅能够比对西方文字文章的相似度，而且还利用中文的特性对中文相似度的检测进行了优化。

附图说明

图1为根据本发明一个实施方式的剽窃检测系统的模块图；

图2为图1中的文字处理模块的模块图；

图3为图2中的分拆模块的详细示意图；

图4为根据本发明的用以实现LMR-RC标注步骤中的训练程序的流程图；

图5为根据本发明的用以实现LMR-RC标注程序中的执行程序的流程图；

图6为根据本发明示例性的以句子代表码作为数据库索引的示例；

图7为根据本发明示例性的以词组作为数据库的索引的示例；

图8为根据本发明以英文句子为例进行直接比对的示例；以及

图9为根据本发明以中文句子为例进行部分比对的示例。

具体实施方式

根据本发明的剽窃检测系统依据三个基本假设。第一个基本假设是，在分析和确定文件相似度时，只考虑文件中的文字内容而忽略非文字内容。第二个基本假设是，在文件的文字内容中，句子是作为计算文件相似度的基本单元，换言之，两份文件“相似”的句子越多，它们的相对相似度便越高。此概念亦可扩展至一份文件对应一个文件集合的相似度，即，如果一份文件(文件A)中如有越多句子被发现和其它文件集合(文件集合D)中的句子相似，那么文件A相对于整个文件集合的相似度便越高。第三个基本假设是，文件的相似度是基于其“意念”上的相似，而并非单纯在其表达上的相似。一些在意念上相似但表达上有所差异的例子包括但不限于，英语文法上的单数名词和复数名词、动词的词态、英语字符的大写和小写、中文的繁体字和简体字、以及不同的字符编码。

下面将参照附图对本发明的电子文件剽窃检测系统1000进行详细的描述。

如图1所示，根据本发明一个实施方式的电子文件剽窃检测系统1000包括文件转换模块101、纯文字抽取模块102、文字处理模块103、文字编码模块104、文件比对模块105、报告生成模块106以及资料库107。

1.文件转换模块101

文件转换模块101可将用户提交的一个或多个文件转成计算机可读的格式，并输入至纯文字抽取模块102作进一步处理。文件转换模块101可以为公知的电子设备，包括但不限于文件扫描仪、光学文字辨识机、网页应用界面(web interface)等。

2.纯文字抽取模块102

纯文字抽取模块102接收来自文件转换模块101的文件，并将所接收的文件中的纯文字内容抽取出来，传输到文字处理模块103。其中，文件中的非文字内容将会被忽略。非文字内容包括但不限于图片和数学算式。

3文字处理模块103

文字处理模块103包括分拆模块1031、文字规范化模块1032、和高频字去除模块1033。

3.1分拆模块1031

分拆模块1031把由纯文字抽取模块102所生成的纯文字分拆为文字单元，这些文字单元包括段落、句子、及词组。

具体地，文章分拆可包括段落分拆、句子分拆以及词组分拆。

段落分拆是指将文章分拆为段落。根据一般的文字处理器和文字编辑器的处理方式、以及用户的常用习惯，段落分拆多以两个连续回车键、句号紧接回车键、问号紧接回车键或感叹号紧接回车键等作为识别。因此，在本发明的优选实施方式中采用上述识别段落的方法进行段落分拆。

句子分拆是将每个段落分拆成句子。根据一般惯例，句子分拆会以句号、问号和感叹号及紧随上述符号的下引号等作为识别。

词组分拆将每个句子分拆成词组。在英文文字内容中，由于词与词之间有分隔符号，例如空格及标点符号等，所以在对英文句子进行词组分拆时，可以利用这些分隔符号作为标记来进行分拆。分隔符号与分隔符号之间的文字为一个词组。

与英文不同，除了标点符号外，中文的文字内容缺乏特定的词组分隔标记，因此，分拆模块1031采用了一种基于机器学习的中文词组分拆技术，在本文中将其称为“LMR-RC标注技术”。该技术将词组分拆问题转换成标注问题，然后运用一些公知的标注问题解决方案来进行相应的处理。LMR-RC标注技术分为两个标注阶段，Regular-阶段(亦称为R-阶段)和Correctional-阶段(亦称为C-阶段)。

在LMR-RC标注技术方案中，每一个汉字字符皆被赋予一个卷标，以代表该字符最有可能出现在一个词组间的相对位置，从而进行词组分割。卷标所使用的标签包括“L”、“M”、“R”和“S”，其中“L”、“M”、“R”分别表示该字位于词首、词中和词尾，而标签“S”则代表该字本身独立为一个词。表1为对句子“大卫喜欢吃扬州炒饭”进行标注的范例。

字符	大	卫	喜	欢	吃	扬	州	炒	饭
字符	大	卫	喜	欢	吃	扬	州	炒	饭	标签	L	R	L	R	S	L	M	M	R

表1

而标注的依据则为被标注的字符的上下文信息。这些信息称为“特征”。

当把训练语料输入分拆模块1031后，分拆模块1031可以首先利用机器学习技术，学习每个字符所拥有的特征和其对应的卷标的相互关系，并归纳出一个概率模型，以供标注使用。

如图3所示，分拆模块1031包括语料分组单元1031a、特征提取单元1031b、学习单元1031c、标注单元1031d以及词组分割单元1031e，以用于实现本发明的词组分拆处理。进一步，本发明的词组分拆处理包括LMR-RC标注-训练步骤和LMR-RC标注-执行步骤。在这里，应该注意到，图3中的学习单元1031c和其它功能模块之间的关系用虚线表示，这是因为学习单元只在LMR-RC标注-训练步骤中使用，当通过学习训练生成概率标注模型后，LMR-RC标注-执行步骤将不再需要学习单元1031参与。

下面将分别结合图4和图5来详细描述单元1031a-d之间的相互关系，以及如何用来实现LMR-RC标注-训练步骤和LMR-RC标注-执行步骤的。

基于机器学习方法，在正式进行标注之前必须有一个相关的标注模型。产生标注模型的方法为把预先准备的训练语料输入机器学习算法，并由该算法归纳出正确的标注方法。其中训练语料为一个庞大的文字内容，并由语言学专家进行人工的词组分拆。

如图4所示，在步骤s201中，语料分组单元1031a以随机的方式将训练语料200分成训练语料200a及训练语料200b两个互不重迭的部分。训练语料200a将着重用于R-阶段的训练，而训练语料200b则着重用于C-阶段的训练。优选地，训练语料200a约占整个语料200的百分之七十，而训练语料200b约占整个语料200的百分之三十。

在步骤s202，特征提取单元1031b接收训练语料200a及训练语料200b，并根据特征模板203a提取其中的每一个字符的上下文信息(这些上下文信息则被称为特征)，形成一种有利于计算器处理的表达方式。表2以句子“32个苹果”中的当前字符“个”为例定义了R-阶段的特征模板203a。

	特征描述	抽取出的特征
	特征描述	抽取出的特征	1	前后两个字符	C_-2＝“3”C_-1＝“2”C₀＝“个”C₁＝“苹”C₂＝“果”
2	前后两组两个相连的字符	C_-2C_-1＝“32”C_-1C₀＝“2个”C₀C₁＝“个苹”	1	前后两个字符	C_-2＝“3”C_-1＝“2”C₀＝“个”C₁＝“苹”C₂＝“果”

		C₁C₂＝“苹果”
		C₁C₂＝“苹果”	3	之前及之后的字符	C_-1C₁＝“2苹”
4	目前的字符为标点符号	--	3	之前及之后的字符	C_-1C₁＝“2苹”
4	目前的字符为标点符号	--	5	前后两个字符间的非汉字字符	A_-2，A_-1(因为“3”及“2”不是汉字字符)
6	目前与之前或之后的字符属不同种类	D_-1(因为“3”及“个”属于不同种类)	5	前后两个字符间的非汉字字符	A_-2，A_-1(因为“3”及“2”不是汉字字符)

表2

特征提取单元1031b将抽出的特征形成特征集，并传输至学习单元1031c，特征提取单元1031b形成的特征集在图4中被示为特征集(第一部分)204a和特征集(第二部分)204b。其中，特征集204a为从训练语料200a所抽出的特征集，而特征集204b则是从训练语料200b所抽出的特征集。

接着在步骤s203，学习单元1031c对第一部分特征集204a进行学习、归纳以产生R阶段的标注模型206a。基本上，任何一种普遍的机器学习算法都可以应用用来对特征集进行学习、归纳以产生R阶段的标注模型。优选地，本发明使用“最大熵模型(Maximum Entropy Model)”的学习算法。

经过机器学习后，产生的标注模型206a为一个概率模型。接着在步骤s204中，标注单元1031d利用标注模型206a对特征集(第二部分)204b所代表的语料200b进行标注，即利用标注模型206a推算出训练语料200b中各字元拥有的最大似然的卷标，从而得到R阶段的标注结果208。

在步骤s205，特征提取单元1031b根据R阶段及C阶段的特征模板203b，对R阶段得到的标注结果208和训练语料200b进行C-阶段的特征提取，从而形成包含R阶段的标注结果的特征集204c。其中，特征模板203b是由R-阶段的模板(对应于表2)和C-阶段的额外模板(对应于下面示出的表3)所组成。

接着在步骤s206，学习单元1031c对生成的特征集204c，和R-阶段训练中生成的第一部分特征集204a进行C-阶段的机器学习，并生成最后的标注模型206b。C-阶段的机器学习的学习算法可以可R-阶段的机器学习算法相同，也可以不同。由于特征集204a和特征集204c皆被运用在训练的过程中，生成的标注模型206b能同时在之后的R-阶段标注和C-阶段标注中使用。上述生成的标注模型206b可例如存储在公知的数据库中。

表3是以在句子“32个苹果”中，经过R-阶段所得出的标注结果例如为“SSLMR”时，从目前字符“个”定义的C-阶段的额外模板。

	特征描述	抽取出的特征
	特征描述	抽取出的特征	7	前后两个字符的标注结果	T_-2＝“S”T_-1＝“S”T₀＝“L”T₁＝“M”T₂＝“R”
8	前后两组两个相连的字符的标注结果	T_-2T_-1＝“SS”T_-1T₀＝“SL”T₀T₁＝“LM”T₁T₂＝“MR”	7	前后两个字符的标注结果	T_-2＝“S”T_-1＝“S”T₀＝“L”T₁＝“M”T₂＝“R”
8	前后两组两个相连的字符的标注结果	T_-2T_-1＝“SS”T_-1T₀＝“SL”T₀T₁＝“LM”T₁T₂＝“MR”	9	之前及之后的字符的标注结果	T_-1T₁＝“SM”

表3

图5为LMR-RC标注的程序流程图。在步骤S301，当给出一个要进行词组分拆的文字内容300时，特征提取单元1031b运用R-阶段特征模板203a对文字内容300中包含的信息(即，特征)进行抽取，生成R-阶段的特征集301a。接着在步骤s302中，标注单元1031d使用标注模型206b及抽出的特征集301a进行R-阶段的标注，生成R-阶段的标注结果302a。在步骤s303中，特征提取单元1031b接收原文字内容300及R-阶段的标注结果302a，并依据特征模板203b抽出其中的特征值，以组成包含R-阶段的标注结果的特征集301b。在步骤s304，标注单元1031d利用标注模型206b来处理特征集301b，并生成C阶段的标注结果302b。标注结果302b是一群具有标签的汉字字符。在步骤s305，词组分割单元1031e便以类似正规表达式(regular expression)的模式识别技术，把有效的词组标签序列，如“LR”、“LMMMR”和“S”识别出来，并加以分拆。

从以上可以看出，经过第一轮的处理(R-阶段)后，其标注结果将会作为第二阶段(C-阶段)学习的一部分依据，从而起到了改正标注结果的作用。例如，R-阶段的标注模型206a是由对训练语料200a进行机器学习所生成的，但由于机器学习的准确度及训练语料所包含的信息始终有限，实际上若只是运用标注模型206a进行(R-阶段)标注处理难免出现错误。以“32个苹果”为例，正确的标注结果该为“LRSLR”，但标注模型206a可能推出错误的标注结果“SSLMR”。但是可以通过C-阶段机器学习后，产生标注模型206b，并以此对句子再进行一次标注处理，从而产生正确的标注结果“LRSLR”。

3.2.文字规范化模块1032

文字规范化模块1032对分拆出的文字单元(即，分拆模块1031分拆出的段落、句子、及词组)作一系列的规范化处理，以降低文件的纯文字在表达上的差异，从而提高文件比对的准确度。文字规范化模块1032可例如执行以下功能。

■大写转小写：该功能只限英文处理。所有英文字符在比对前均会被首先转换为小写。由于在美国信息交换标准码(ASCII)的编码中，所有英文字符的大写字符和其对应的小写字符的相隔长度均是固定的，故只要首先确认该字符为大写，再减去这个固定长度，就可以实现大写转小写。

■还原字根：该功能只限英文处理。为了提高提高文件比对的准确度，所有英语词组都应该被还原成到其字根(root form)。该处理包括但不限于复数名词转换成单数名词及把动词的时态还原成现在式等。在处理规则词组的过程中，一个相对有效的做法为使用“Porter Stemming”算法。由于规则词组及其词态变异大多只限于字尾的差异，该算法根据一些规则把英语词组的字尾改变，从而达至规范化的效果。不规则词组及其词态变异大多有更大的差异，且没有明显的变化规则，因此在处理这类词组时，本发明使用了字典对照法的方法。即，通过预先把所有不规则词组的字根及其变化组成一个对照表，并放在字典中，当进行还原字根程序时，该不规则词组会当作索引，并在字典中找出其字根。繁简转换：该功能只限中文处理。繁体字和简体字的转换是把所有汉字字符转换成其中一种字体，例如繁体字。转换技术基于公知的繁简字典对照法。

■统一字符编码：该功能只限中文处理。当汉字字符经过以上描述的繁简转换方法处理后，本发明以某一种特定的字符码，如万国码(Unicode)，进行编码程序。

3.3高频字去除模块1033

高频字去除模块1033用于去除文字内容中经常出现、但并没有实质的意义的一些文字。例如在英文中的“a”、“and”、“to”等；中文中的“的”、“是”、“和”等。这些字被称为“高频字”或“终止字”。为避免这些字影响比对的效果，一些较为常见的高频字被添加到高频字列表中。当进行高频字去除时，高频字去除模块103c首先检索高频字列表，如果在其中找到当前处理的字，便认为其为高频字，接着将该字删去。剩下的文字内容便会相对地重要及有意义。

4.文字编码模块104

当经过上述的文字处理程序后，经处理的段落、句子、及词组由文字编码模块104进行进一步的处理。

文字编码模块104把经处理的段落、句子、及词组进行编码，生成一种固定长度及不可逆转的代表码存储在资料库107中。在本发明的实施方式中，用来获得所述代表码的算法可为以下算法的其中一种：MD5算法、SHA-1算法、SHA-2算法、以上所述算法的变体、及其它相类似的算法。得到的代表码的长度会随着运用不同算法而有所改变，例如，以MD5算法而获得的代表码长度为128位；以SHA-1算法而获得的代表码长度为160位；以SHA-2算法获得的代表码长度为256位。本发明优选地采用MD5算法。

由于进行文件比对时会涉及大量的句子比对，故必须利用一种特殊的文字编码及数据库索引方式来减低比对所需的时间。由于文字编码模块104生成的代表码具有特定的长度，而且能代表不同长度的句子，因此，若以代表码作为数据库的索引方式，能更有利于检索搜寻。图6示出了以文字编码模块104所生成的代表码作为每个句子的索引，其中三个不同的代表码分别作为三组不同长度句子的索引。作为一种选择，本发明还可以使用词组来进行数据库索引。即以由文字处理模块103生成的词组直接作为其对应句子的索引。图7给出了一个词组索引的例子，其中八组不同的词组为三组不同长度句子的索引。

5.文件比对模块105

所有提交到本电子文件剽窃检测系统1000系统的新文件都会逐一经过所述上述的抽取、预定处理和编码处理后储存到数据库中。之后，这些新文件会逐一与数据库中的文件数据作比对，以找出涉及剽窃行为的文件。

例如，老师甲把包括张三和李四的作业的文件集甲提交到文件剽窃检测系统1000后，系统1000会将文件集中的每一文件(即，包括张三和李四的作业)逐一进行上述的抽取、预定处理和编码处理后，储存到数据库中。之后，文件集甲中的每一文件都会逐一和数据库中的所有文件进行比对，以找出相似的文件。即，如果张三和李四的作业相似，则当检测张三的作业时，系统1000检测出张三和李四的作业具有较高的相似度，反之亦然。老师甲便能利用该检测结果，对张三和李四作进一步调查。

又例如，在上述处理之后，老师乙把包括王五的作业提交到系统1000。系统1000对王五的作业进行与上述相同的处理后储存在数据库中。然后，在检测王五的作业时，如果王五的作业和已存于数据库中张三的作业相似，则系统1000便能检测出王五的作业和张三的作业具有较高的相似度。这样，老师乙便可联络老师甲，对王五和张三进行调查询问。

具体地，文件比对模块105在进行比对时，基于基本假设二，即句子是用作文件相似度比对的基本单元。因此，根据本发明的一个实施方式，文件比对模块105以两种方法来比对句子之间的相似度，即“直接比对”和“部分比对”。

5.1句子的直接比对

使用直接比对方式时，相似句子的定义为，若句子A及句子B为“相似”，则句子A及句子B在经过文字处理模块103处理后完全一样，即无论在字数、包含的字符及字符出现的次序均没有差异。由于句子A及句子B在经过文字处理模块103处理后是完全一样的，因此，当经过文字编码模块104处理后，得到的句子A和句子B的不可逆转的代表码必为相同。因此，文件比对模块105通过对保存有代表码的数据库进行搜索，便能快速地确定句子A及句子B是相同的，并且通过数据库中的索引关系找到句子A及句子B所属的文件。图8为以英文句子为例进行文字处理后进行直接比对的示例。如图所示，句子“Peter is playing football”和“Peter plays football”，经过文字处理模块103进行大小写转换、词根还原、以及去除高频字处理后，具有完全一样的形态“peter play football”。根据本发明的直接比对的算法下，这两个句子将被视作“相似”。

5.2句子的部分比对

使用句子的部分比对方式时，相似句子的定义为，若句子A及句子B为“相似”，则经过文字处理模块103处理后句子A及句子B共同具有一些相同的词组，而且该共有的词组数的比例(相对于句子A的总词组数)，超过了预设的临界值。计算准则如下：

具体地，文件比对模块105先计算句子A和B的共有词组数。如上所述，由于在建立数据库索引过程中，可以使用每个句子的词组作为索引，因此通过搜索该数组并计算共有词组，就可以实现文件句子A和数据库中的句子B之间的比对。图9为以中文句子为例进行文字处理后进行部分比对的示例。句子A“由于天雨路滑，车辆的行驶速度都减慢了”和句子B“因为天雨路滑的关系，车子行驶速度都减慢了”具有不同的表达方式，但具有相似的意义，在将句子拆分为词组、并去除高频字后，得到句子A的词组为4个，句子B的词组为5个，并其它们的共同词组数为3个。这句子A相对于句子B的相似度为3/4＝0.75(75％)。如果预设的临界值为70％，那么句子A便被视作与句子B相似。如果预设的临界值为80％，那么句子A与句子B不相似。

此外，文件的相似度是基于“相似”句子的总数而求得的。对于不同的应用情况，在确定文件的相似度时可以具体使用不同的计算方法：总比率算法和个别比率算法。

总比率：总比率为量度一份文件相对于整个文件集合的相似度。该文件集合可为用户提交的文件、或存于数据库中的文件、以及先前接受比对的文件等。其计算方法如下：

个别比率：个别比率为量度一份文件相对于另外一份特定文件的相似度。此数值为一非对称的比率，其计算方法如下：

当由文件比对模块105生成文件相似度后，便可以确定该文件的剽窃可疑程度。例如，一分文件A相对于的整个文件集合的总比率越高，其剽窃嫌疑度越大，因为在文件A能找出和在整个文件集合中其它句子相似的句子，又例如，如果文件A相对文件B的个别比率越高，则剽窃行为存在于该两份文件的嫌疑度越大，因为文件A包含着大量与文件B句子相似的句子。报告生成模块106可以任意公知的报表生成方式生成相似度报告。

以上是本发明的特定实施方式的全部说明，各种修正、变更以及其等同形式都可使用，因此，上述说明不应被视作限制由权利要求中所定的本发明的保护范围。

Claims

1.一种检测文件相似度的方法，包括：

分别对待检测的文件抽取其中的纯文字部分；

将所述抽取的纯文字部分分拆为文字单元；

对所述分拆的文字单元进行编码；以及

2.如权利要求1所述的方法，还包括：

将所分拆的文字单元作规范化处理的步骤。

3.如权利要求2所述的方法，进一步包括对去处所抽取的纯文字部分中经常出现、但并没有实质的意义的文字。

4.如权利要求1所述的方法，进一步包括：

提取所述纯文字中包含的信息特征，并对所提取的特征进行标注的步骤。

5.如权利要求4所述的方法，进一步包括：

对所述纯文字的信息特征进行抽取，生成第一特征集；

对所述第一特征集进行第一标注，生成第一标注结果；

对所述上述纯文字信息特征和所述第一标注结果分别进行特征提取，形成第二特征集；

对所述第二特征集进行不同于第一标注的第二标注，生成第二标注结果；以及

分割所述标注结果以形成文字单元。

6.如权利要求4所述的方法，进一步包括：

提供训练语料集；

以随机的方式将所述训练语料集分成第一部分和第二部分；以及

对所述第一部分和第二部分进行学习，以形成所述标注模型。

7.如权利要求6所述的方法，对所述第一部分和第二部分进行学习形成所述标注模型进一步包括：

对所述第一部分和第二部分进行特征提取，形成第一学习特征集和第二学习特征集；

对所述第一学习特征集进行学习形成第一标注模型；

对所述第一标注模型和所述第二学习特征集进行标注处理形成标注结果；

对所述标注结果和所述训练语料的第二部分进行特征提取，并对所提取的结果进行学习，以形成所述的标注模型。

8.如权利要求7所述的方法，其中所述第二特征模板包括第一特征模板的信息。

9.如权利要求1所述的方法，其中所述对文字单元进行编码的步骤还包括：

将所述文字单元生成固定长度且不可逆转的代表码，并存储在数据库中作为对所述文件的索引。

10.如权利要求1所述的方法，其中所述比对的步骤包括：

当确定出两个句子包含的文字单元完全一样时，确认所述两个句子为相似。

11.如权利要求1所述的方法，其中所述比对的步骤包括：

当确定出两个句子包含的相同文字单元的数量与所述两个句子之一的文字单元总数量之比超出预定阀值时，确认所述两个句子为相似。

12.如权利要求10或11所述的方法，其中，所述文件和所述另外的至少一个文件的相似句子的个数与所述文件中的总个数之比超出预定阀值时，确认所述文件和所述另外的至少一个文件相似。

13.一种检测文件相似度的系统，包括：

分拆模块，用于将所述抽取的纯文字部分分拆为文字单元；

文字编码模块，用来对所述分拆的文字单元进行编码；以及

14.如权利要求13所述的系统，还包括：

规范化模块，用于将所述分拆模块分拆出的文字单元作规范化处理，以降低所述纯文字在表达上的差异。

15.如权利要求13或14所述的系统，还包括：

高频字去除模块，用于去除所述文字单元中的经常出现、但并没有实质意义的文字。

16如权利要求13所述的系统，其中所述分拆模块进一步包括：

特征提取单元，用于对所述纯文字中包含的信息特征进行提取；

标注单元，用于根据标注模型对所提取的特征进行标注；以及

分割单元，用于将所标注的结果分割为文字单元。

17.如权利要求16所述的系统，其中所述标注单元在对所述特征提取单元提取的信息特征进行标注后，将所述标注的结果发送到所述特征提取单元以对其进行特征提取，并将提取的特征重新输入到所述标注单元，以对其进行进一步标注。

18.如权利要求17所述的系统，其中所述特征提取单元根据特征模板提取特征信息。

19.如权利要求15所述的系统，其中所述分拆模块还包括：

语料分组单元，用于将训练语料分成第一部分和第二部分；以及

学习模块，用于对所述第一部分和第二部分进行学习形成所述标注模型。

20.如权利要求13所述的系统，其中所述文字编码模块对所述文字单元编码，以生成固定长度且不可逆转的代表码，并存储在数据库中作为对文件的索引。