CN1529263A

CN1529263A - 中文文本自动分词和判别文本抄袭的装置和方法

Info

Publication number: CN1529263A
Application number: CNA031571832A
Authority: CN
Inventors: 张斯�; 张斯喆; 肖波; 蔺志青; 郭军
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2003-09-18
Filing date: 2003-09-18
Publication date: 2004-09-15

Abstract

本发明公开了一种用于中文文本自动分词和判别文本抄袭的装置和方法，所述的装置包括：样本输入装置、样本数据库、自动分句分词装置、分词数据库、预处理装置、特征词数据库、相似判别装置、判别结果输出装置和控制处理装置。所述的方法是首先对中文文本进行自动分词，然后通过计算它们的相似度，达到判别文本是否存在抄袭的成分的目的。本发明的装置和方法思路简捷，能够实现中文文本抄袭的自动判别，判别结果准确，有效提高工作效率，减少人为的劳动量。

Description

中文文本自动分词和判别文本抄袭的装置和方法

技术领域

本发明涉及中文信息处理领域，具体地涉及中文文本分词以及一种基于向量空间的文本相似度计算进行文本抄袭判别的装置和方法。

背景技术

设计一个文本抄袭判别系统，其目的是要代替人为判别的方法。其主要问题在于如何文本内容进行描述，以及如何对两个文本的相似性进行评价。

向量空间模型的方法一般用在文本分类中。这里使用向量空间模型的方法，对文本内容进行描述以及相似性计算，达到判别的目的。

在实际工作中，往往采用人工判别的方法来判断是否存在文本抄袭，这种办法的明显缺点在于对于人的依赖性大，受判别人的影响较大，不同的人判别的结果是不同的，此外，在大样本集的情况下，人工判别是非常费力费时的。因此，文本抄袭的自动判别显得尤为重要。

发明内容

本发明的目的是为了克服上述的缺陷，更好地解决中文文本抄袭判别的问题，提出了一种用于中文文本自动分词和判别文本抄袭的装置和方法。所述的装置是通过如下技术方案实现的，所述的装置包括：

样本输入装置，用于在控制处理装置的控制下，将中文文本的样本数据输入到样本数据库中；

样本数据库，用于存储由样本输入装置输入的中文文本样本数据，并输出到自动分词装置中；

自动分词装置，用于对输入的中文文本进行自动分句分词，分词后的结果存储到分词数据库中；

分词数据库，用于保存自动分句分词装置处理后的结果，并为预处理装置提供样本数据；

预处理装置，统计每个词条在文本中出现的次数，并将结果作为特征词数据保存在特征词数据库中；

特征词数据库，用于保存预处理装置处理的结果，并为相似判别装置提供分析数据；

相似判别装置，根据特征词数据库提供的数据，计算两个文本之间的相似度，根据相似度与门限值进行比较，如果相似度值大于门限值，判别文本之间存在相互抄袭，否则，判别文本之间不存在互相抄袭；

判别结果输出装置，用于将相似判别装置中的分析结果输出，输出形式为直接显示在显示装置上；

控制处理装置，用于对整个分词和相似判别装置的控制处理，负责样本数据的读取操作，分词，预处理和相似判别结果的分析以及判别结果的输出。

所述的一种用于中文文本自动分句分词和抄袭判别的方法是根据如下的技术方案实现的，所述的方法

包括如下步骤：

输入中文文本的样本数据到样本数据库中；

对输入的中文文本的样本数据进行自动分句分词处理，其结果作为分词数据；

统计每个词条在文本中出现的次数，并将结果作为特征词数据保存在特征词数据库；

根据特征词数据计算两个文本之间的相似度，并将该相似度与门限值进行比较，如果相似度值大于门限值，判别文本之间存在相互抄袭，否则，判别文本之间不存在互相抄袭；

输出判别结果，输出形式为直接显示在显示装置上。

所述的文本的相似度用以下方法计算：

Sim = \cos (v 1, v 2) = Σ_{i = 1}^{p} (v 1 i \times v 2 i) / \sqrt{(Σ_{i = 1}^{p} v 1 i^{2}) (Σ_{i = 1}^{p} v 2 i^{2})} .

其中：Sim为文本的相似度，v1，v2表示两个文本的特征矢量，v1i，v2i表示特征矢量的第i个分量。所述的门限值是根据大量实验的经验设定的，其值设定为0.7，相似判别时利用sim与门限值的比较进行，Sim高于门限值判别为抄袭，否则，判别为没有抄袭。

利用本发明可以取代的人为检查文本之间是否抄袭的传统判别方式。其优点在于，处理的速度快，例如100篇待比较文本，文本长度界于200～2000个汉字，利用一台普通PC进行判别，本方法所需的时间只要20秒左右。在大文本集的情况下，比起人为判别，其速度优势将会更加明显。第二，利用本方法判别，其判别结果比较准确，疏漏现象和误判现象少。另外，人为判别的结果可能受人的主观因素影响，导致相同的样本，判别结果的不同。但采用本方法进行判别时，不受人主观因素影响，可以确保结果的唯一性。

附图说明

图1是本发明的装置构成的方框图；

图2是本发明方法的流程示意图。

具体实施方式

下面结合附图进一步说明本发明的具体技术方案。

图1是本发明的装置构成的方框图。如图1所示，本发明所述的一种用于中文文本自动分句分词和抄袭判别的装置是这样实现的，所述的装置包括：

样本输入装置(1)，用于在控制处理装置(9)的控制下，将中文文本的样本数据输入到样本数据库(2)中；

样本数据库(2)，用于存储由样本输入装置(1)输入的中文文本样本数据，并输出到自动分词装置(3)中；

自动分词装置(3)，用于对输入的中文文本进行自动分句分词，分词后的结果存储到分词数据库(4)中；

分词数据库(4)，用于保存自动分句分词装置处理后的结果，并为预处理装置(5)提供样本数据；

预处理装置(5)，用于统计每个词条在文本中出现的次数，并将结果作为特征词数据保存在特征词数据库(6)中；

特征词数据库(6)，用于保存预处理装置处理的结果，并为相似判别装置(7)提供分析数据；

相似判别装置(7)，根据特征词数据库提供的数据，计算两个文本之间的相似度，根据相似度与门限值进行比较，如果相似度值大于门限值，判别文本之间存在相互抄袭，否则，判别文本之间不存在互相抄袭；

判别结果输出装置(8)，用于将相似判别装置(7)中的分析结果输出，输出形式为直接显示在显示装置上；

控制处理装置(9)，用于对整个分词和相似判别装置的控制处理，负责样本数据的读取操作，分词，预处理和相似判别结果的分析以及判别结果的输出。

图2是本发明方法的流程示意图。如图2所示，所述的一种用于中文文本自动分句分词和抄袭判别的方法步骤是这样实现的，所述的方法包括如下步骤：

输入中文文本的样本数据到样本数据库中；

把文本中的每个词条作为特征词，统计特征词在文本中出现的次数，并把统计结果作为该特征词对应的权值，处理结果将被作为特征词数据保存在特征词数据库中；

输出判别结果，输出形式为直接显示在显示装置上。

根据向量空间模型所作的假设，各个词语相互之间相互独立，没有语义上的关系。因此两个矢量的相似度可以直接使用它们的夹角的余弦值来表示。所述的文本矢量的相似度可以用他们夹角的余弦值计算如下：

Sim = \cos (v 1, v 2) = Σ_{i = 1}^{p} (v 1 i \times v 2 i) / \sqrt{(Σ_{i = 1}^{p} v 1 i^{2}) (Σ_{i = 1}^{p} v 2 i^{2})} .

其中：Sim为文本的相似度，v1，v2表示两个文本的特征矢量，v1i，v2i表示特征矢量的第i个分量。

相似判别时利用sim与门限值的比较进行。Sim高于门限值判别为抄袭，否则，判别为没有抄袭。

所述的门限值是根据大量实验的经验设定的。其值设定为0.7。实验中取了100篇文本长度在200到2000字之间的样本，他们中内容包括抄袭和没有抄袭两种情况。实验结果，内容抄袭的文本相似度值都在0.7以上，而没有抄袭的文本相似度都在0.7以下，因此把0.7作为门限值是合适的。

Claims

1、一种用于中文文本自动分句分词和抄袭判别的装置，所述的装置包括：

预处理装置(5)，用于统计每个词条在文本中出现的次数，并将结果作为特征词数据保存在特征词数据库中(6)中；

2、一种用于中文文本自动分句分词和抄袭判别的方法，其特征在于：所述的方法包括如下步骤：

输入中文文本的样本数据到样本数据库中；

统计每个词条在文本中出现的次数，并将结果作为特征词数据保存在特征词数据库中；

输出判别结果，输出形式为直接显示在显示装置上。

3、根据权利要求2所述的方法，其特征在于：所述的文本的相似度用以下方法计算：

Sim = \cos (v 1, v 2) = Σ_{i = 1}^{p} (v 1 i \times v 2 i) / \sqrt{(Σ_{i = 1}^{p} {v 1 i}^{2}) (Σ_{i = 1}^{p} v {2 i}^{2})} .

4、根据权利要求3所述的方法，其特征在于：所述的门限值是根据大量实验的经验设定的，其值设定为0.7，相似判别时利用sim与门限值的比较进行，Sim高于门限值判别为抄袭，否则，判别为没有抄袭。