CN1529263A - 中文文本自动分词和判别文本抄袭的装置和方法 - Google Patents

中文文本自动分词和判别文本抄袭的装置和方法 Download PDF

Info

Publication number
CN1529263A
CN1529263A CNA031571832A CN03157183A CN1529263A CN 1529263 A CN1529263 A CN 1529263A CN A031571832 A CNA031571832 A CN A031571832A CN 03157183 A CN03157183 A CN 03157183A CN 1529263 A CN1529263 A CN 1529263A
Authority
CN
China
Prior art keywords
text
result
participle
similarity
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA031571832A
Other languages
English (en)
Inventor
张斯�
张斯喆
肖波
蔺志青
郭军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CNA031571832A priority Critical patent/CN1529263A/zh
Publication of CN1529263A publication Critical patent/CN1529263A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种用于中文文本自动分词和判别文本抄袭的装置和方法,所述的装置包括:样本输入装置、样本数据库、自动分句分词装置、分词数据库、预处理装置、特征词数据库、相似判别装置、判别结果输出装置和控制处理装置。所述的方法是首先对中文文本进行自动分词,然后通过计算它们的相似度,达到判别文本是否存在抄袭的成分的目的。本发明的装置和方法思路简捷,能够实现中文文本抄袭的自动判别,判别结果准确,有效提高工作效率,减少人为的劳动量。

Description

中文文本自动分词和判别文本抄袭的装置和方法
技术领域
本发明涉及中文信息处理领域,具体地涉及中文文本分词以及一种基于向量空间的文本相似度计算进行文本抄袭判别的装置和方法。
背景技术
设计一个文本抄袭判别系统,其目的是要代替人为判别的方法。其主要问题在于如何文本内容进行描述,以及如何对两个文本的相似性进行评价。
向量空间模型的方法一般用在文本分类中。这里使用向量空间模型的方法,对文本内容进行描述以及相似性计算,达到判别的目的。
在实际工作中,往往采用人工判别的方法来判断是否存在文本抄袭,这种办法的明显缺点在于对于人的依赖性大,受判别人的影响较大,不同的人判别的结果是不同的,此外,在大样本集的情况下,人工判别是非常费力费时的。因此,文本抄袭的自动判别显得尤为重要。
发明内容
本发明的目的是为了克服上述的缺陷,更好地解决中文文本抄袭判别的问题,提出了一种用于中文文本自动分词和判别文本抄袭的装置和方法。所述的装置是通过如下技术方案实现的,所述的装置包括:
样本输入装置,用于在控制处理装置的控制下,将中文文本的样本数据输入到样本数据库中;
样本数据库,用于存储由样本输入装置输入的中文文本样本数据,并输出到自动分词装置中;
自动分词装置,用于对输入的中文文本进行自动分句分词,分词后的结果存储到分词数据库中;
分词数据库,用于保存自动分句分词装置处理后的结果,并为预处理装置提供样本数据;
预处理装置,统计每个词条在文本中出现的次数,并将结果作为特征词数据保存在特征词数据库中;
特征词数据库,用于保存预处理装置处理的结果,并为相似判别装置提供分析数据;
相似判别装置,根据特征词数据库提供的数据,计算两个文本之间的相似度,根据相似度与门限值进行比较,如果相似度值大于门限值,判别文本之间存在相互抄袭,否则,判别文本之间不存在互相抄袭;
判别结果输出装置,用于将相似判别装置中的分析结果输出,输出形式为直接显示在显示装置上;
控制处理装置,用于对整个分词和相似判别装置的控制处理,负责样本数据的读取操作,分词,预处理和相似判别结果的分析以及判别结果的输出。
所述的一种用于中文文本自动分句分词和抄袭判别的方法是根据如下的技术方案实现的,所述的方法
包括如下步骤:
输入中文文本的样本数据到样本数据库中;
对输入的中文文本的样本数据进行自动分句分词处理,其结果作为分词数据;
统计每个词条在文本中出现的次数,并将结果作为特征词数据保存在特征词数据库;
根据特征词数据计算两个文本之间的相似度,并将该相似度与门限值进行比较,如果相似度值大于门限值,判别文本之间存在相互抄袭,否则,判别文本之间不存在互相抄袭;
输出判别结果,输出形式为直接显示在显示装置上。
所述的文本的相似度用以下方法计算:
Sim = cos ( v 1 , v 2 ) = Σ i = 1 p ( v 1 i × v 2 i ) / ( Σ i = 1 p v 1 i 2 ) ( Σ i = 1 p v 2 i 2 ) .
其中:Sim为文本的相似度,v1,v2表示两个文本的特征矢量,v1i,v2i表示特征矢量的第i个分量。所述的门限值是根据大量实验的经验设定的,其值设定为0.7,相似判别时利用sim与门限值的比较进行,Sim高于门限值判别为抄袭,否则,判别为没有抄袭。
利用本发明可以取代的人为检查文本之间是否抄袭的传统判别方式。其优点在于,处理的速度快,例如100篇待比较文本,文本长度界于200~2000个汉字,利用一台普通PC进行判别,本方法所需的时间只要20秒左右。在大文本集的情况下,比起人为判别,其速度优势将会更加明显。第二,利用本方法判别,其判别结果比较准确,疏漏现象和误判现象少。另外,人为判别的结果可能受人的主观因素影响,导致相同的样本,判别结果的不同。但采用本方法进行判别时,不受人主观因素影响,可以确保结果的唯一性。
附图说明
图1是本发明的装置构成的方框图;
图2是本发明方法的流程示意图。
具体实施方式
下面结合附图进一步说明本发明的具体技术方案。
图1是本发明的装置构成的方框图。如图1所示,本发明所述的一种用于中文文本自动分句分词和抄袭判别的装置是这样实现的,所述的装置包括:
样本输入装置(1),用于在控制处理装置(9)的控制下,将中文文本的样本数据输入到样本数据库(2)中;
样本数据库(2),用于存储由样本输入装置(1)输入的中文文本样本数据,并输出到自动分词装置(3)中;
自动分词装置(3),用于对输入的中文文本进行自动分句分词,分词后的结果存储到分词数据库(4)中;
分词数据库(4),用于保存自动分句分词装置处理后的结果,并为预处理装置(5)提供样本数据;
预处理装置(5),用于统计每个词条在文本中出现的次数,并将结果作为特征词数据保存在特征词数据库(6)中;
特征词数据库(6),用于保存预处理装置处理的结果,并为相似判别装置(7)提供分析数据;
相似判别装置(7),根据特征词数据库提供的数据,计算两个文本之间的相似度,根据相似度与门限值进行比较,如果相似度值大于门限值,判别文本之间存在相互抄袭,否则,判别文本之间不存在互相抄袭;
判别结果输出装置(8),用于将相似判别装置(7)中的分析结果输出,输出形式为直接显示在显示装置上;
控制处理装置(9),用于对整个分词和相似判别装置的控制处理,负责样本数据的读取操作,分词,预处理和相似判别结果的分析以及判别结果的输出。
图2是本发明方法的流程示意图。如图2所示,所述的一种用于中文文本自动分句分词和抄袭判别的方法步骤是这样实现的,所述的方法包括如下步骤:
输入中文文本的样本数据到样本数据库中;
对输入的中文文本的样本数据进行自动分句分词处理,其结果作为分词数据;
把文本中的每个词条作为特征词,统计特征词在文本中出现的次数,并把统计结果作为该特征词对应的权值,处理结果将被作为特征词数据保存在特征词数据库中;
根据特征词数据计算两个文本之间的相似度,并将该相似度与门限值进行比较,如果相似度值大于门限值,判别文本之间存在相互抄袭,否则,判别文本之间不存在互相抄袭;
输出判别结果,输出形式为直接显示在显示装置上。
根据向量空间模型所作的假设,各个词语相互之间相互独立,没有语义上的关系。因此两个矢量的相似度可以直接使用它们的夹角的余弦值来表示。所述的文本矢量的相似度可以用他们夹角的余弦值计算如下:
Sim = cos ( v 1 , v 2 ) = Σ i = 1 p ( v 1 i × v 2 i ) / ( Σ i = 1 p v 1 i 2 ) ( Σ i = 1 p v 2 i 2 ) .
其中:Sim为文本的相似度,v1,v2表示两个文本的特征矢量,v1i,v2i表示特征矢量的第i个分量。
相似判别时利用sim与门限值的比较进行。Sim高于门限值判别为抄袭,否则,判别为没有抄袭。
所述的门限值是根据大量实验的经验设定的。其值设定为0.7。实验中取了100篇文本长度在200到2000字之间的样本,他们中内容包括抄袭和没有抄袭两种情况。实验结果,内容抄袭的文本相似度值都在0.7以上,而没有抄袭的文本相似度都在0.7以下,因此把0.7作为门限值是合适的。

Claims (4)

1、一种用于中文文本自动分句分词和抄袭判别的装置,所述的装置包括:
样本输入装置(1),用于在控制处理装置(9)的控制下,将中文文本的样本数据输入到样本数据库(2)中;
样本数据库(2),用于存储由样本输入装置(1)输入的中文文本样本数据,并输出到自动分词装置(3)中;
自动分词装置(3),用于对输入的中文文本进行自动分句分词,分词后的结果存储到分词数据库(4)中;
分词数据库(4),用于保存自动分句分词装置处理后的结果,并为预处理装置(5)提供样本数据;
预处理装置(5),用于统计每个词条在文本中出现的次数,并将结果作为特征词数据保存在特征词数据库中(6)中;
特征词数据库(6),用于保存预处理装置处理的结果,并为相似判别装置(7)提供分析数据;
相似判别装置(7),根据特征词数据库提供的数据,计算两个文本之间的相似度,根据相似度与门限值进行比较,如果相似度值大于门限值,判别文本之间存在相互抄袭,否则,判别文本之间不存在互相抄袭;
判别结果输出装置(8),用于将相似判别装置(7)中的分析结果输出,输出形式为直接显示在显示装置上;
控制处理装置(9),用于对整个分词和相似判别装置的控制处理,负责样本数据的读取操作,分词,预处理和相似判别结果的分析以及判别结果的输出。
2、一种用于中文文本自动分句分词和抄袭判别的方法,其特征在于:所述的方法包括如下步骤:
输入中文文本的样本数据到样本数据库中;
对输入的中文文本的样本数据进行自动分句分词处理,其结果作为分词数据;
统计每个词条在文本中出现的次数,并将结果作为特征词数据保存在特征词数据库中;
根据特征词数据计算两个文本之间的相似度,并将该相似度与门限值进行比较,如果相似度值大于门限值,判别文本之间存在相互抄袭,否则,判别文本之间不存在互相抄袭;
输出判别结果,输出形式为直接显示在显示装置上。
3、根据权利要求2所述的方法,其特征在于:所述的文本的相似度用以下方法计算:
Sim = cos ( v 1 , v 2 ) = Σ i = 1 p ( v 1 i × v 2 i ) / ( Σ i = 1 p v 1 i 2 ) ( Σ i = 1 p v 2 i 2 ) .
其中:Sim为文本的相似度,v1,v2表示两个文本的特征矢量,v1i,v2i表示特征矢量的第i个分量。
4、根据权利要求3所述的方法,其特征在于:所述的门限值是根据大量实验的经验设定的,其值设定为0.7,相似判别时利用sim与门限值的比较进行,Sim高于门限值判别为抄袭,否则,判别为没有抄袭。
CNA031571832A 2003-09-18 2003-09-18 中文文本自动分词和判别文本抄袭的装置和方法 Pending CN1529263A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA031571832A CN1529263A (zh) 2003-09-18 2003-09-18 中文文本自动分词和判别文本抄袭的装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA031571832A CN1529263A (zh) 2003-09-18 2003-09-18 中文文本自动分词和判别文本抄袭的装置和方法

Publications (1)

Publication Number Publication Date
CN1529263A true CN1529263A (zh) 2004-09-15

Family

ID=34287150

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA031571832A Pending CN1529263A (zh) 2003-09-18 2003-09-18 中文文本自动分词和判别文本抄袭的装置和方法

Country Status (1)

Country Link
CN (1) CN1529263A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007143914A1 (fr) * 2006-06-02 2007-12-21 Beijing Sogou Technology Development Co., Ltd. Procédé, dispositif et système de saisie pour la création d'une base de données de fréquence de mots basée sur des informations issues du web
WO2009046649A1 (fr) * 2007-09-25 2009-04-16 Tencent Technology (Shenzhen) Company Limited Procédé et dispositif de tri de textes et procédé et dispositif de reconnaissance de fraude dans des textes
CN101441620B (zh) * 2008-11-27 2010-04-14 温州大学 基于近似串匹配距离的电子文本文档抄袭识别方法
CN101315622B (zh) * 2007-05-30 2010-06-09 香港中文大学 检测文件相似度的系统及方法
CN102279875A (zh) * 2011-06-24 2011-12-14 成都市华为赛门铁克科技有限公司 钓鱼网站的识别方法和装置
CN102650986A (zh) * 2011-02-27 2012-08-29 孙星明 一种用于文本复制检测的同义词扩展方法及装置
CN102982070A (zh) * 2012-10-26 2013-03-20 北京百度网讯科技有限公司 用于输入法应用程序的词库更新方法、系统和云端服务器
CN103714049A (zh) * 2012-09-29 2014-04-09 百度在线网络技术(北京)有限公司 动态确认样本相似的方法及装置
CN104679728A (zh) * 2015-02-06 2015-06-03 中国农业大学 一种文本相似度检测方法
CN105488023A (zh) * 2015-03-20 2016-04-13 广州爱九游信息技术有限公司 一种文本相似度评估方法及装置
CN107103012A (zh) * 2016-01-28 2017-08-29 阿里巴巴集团控股有限公司 识别违禁网页的方法、装置及服务器
CN110321931A (zh) * 2019-06-05 2019-10-11 上海易点时空网络有限公司 原创内容仲裁方法及装置

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007143914A1 (fr) * 2006-06-02 2007-12-21 Beijing Sogou Technology Development Co., Ltd. Procédé, dispositif et système de saisie pour la création d'une base de données de fréquence de mots basée sur des informations issues du web
CN101315622B (zh) * 2007-05-30 2010-06-09 香港中文大学 检测文件相似度的系统及方法
WO2009046649A1 (fr) * 2007-09-25 2009-04-16 Tencent Technology (Shenzhen) Company Limited Procédé et dispositif de tri de textes et procédé et dispositif de reconnaissance de fraude dans des textes
CN101441620B (zh) * 2008-11-27 2010-04-14 温州大学 基于近似串匹配距离的电子文本文档抄袭识别方法
CN102650986A (zh) * 2011-02-27 2012-08-29 孙星明 一种用于文本复制检测的同义词扩展方法及装置
CN102279875B (zh) * 2011-06-24 2013-04-24 华为数字技术(成都)有限公司 钓鱼网站的识别方法和装置
CN102279875A (zh) * 2011-06-24 2011-12-14 成都市华为赛门铁克科技有限公司 钓鱼网站的识别方法和装置
CN103714049A (zh) * 2012-09-29 2014-04-09 百度在线网络技术(北京)有限公司 动态确认样本相似的方法及装置
CN103714049B (zh) * 2012-09-29 2017-10-03 北京音之邦文化科技有限公司 动态确认样本相似的方法及装置
CN102982070A (zh) * 2012-10-26 2013-03-20 北京百度网讯科技有限公司 用于输入法应用程序的词库更新方法、系统和云端服务器
CN104679728A (zh) * 2015-02-06 2015-06-03 中国农业大学 一种文本相似度检测方法
CN104679728B (zh) * 2015-02-06 2018-08-31 中国农业大学 一种文本相似度检测方法
CN105488023A (zh) * 2015-03-20 2016-04-13 广州爱九游信息技术有限公司 一种文本相似度评估方法及装置
CN105488023B (zh) * 2015-03-20 2019-01-11 广州爱九游信息技术有限公司 一种文本相似度评估方法及装置
CN107103012A (zh) * 2016-01-28 2017-08-29 阿里巴巴集团控股有限公司 识别违禁网页的方法、装置及服务器
CN110321931A (zh) * 2019-06-05 2019-10-11 上海易点时空网络有限公司 原创内容仲裁方法及装置

Similar Documents

Publication Publication Date Title
Roberts Text analysis for the social sciences: methods for drawing statistical inferences from texts and transcripts
CN1529263A (zh) 中文文本自动分词和判别文本抄袭的装置和方法
CN107704556B (zh) 一种汽车行业细分领域的情感分析方法及系统
CN110196977B (zh) 一种智能警情督导处理系统及方法
CN1719436A (zh) 一种新的面向文本分类的特征向量权重的方法及装置
CN107562843B (zh) 一种基于标题高频切分的新闻热点短语提取方法
CN114090736A (zh) 一种基于文本相似度的企业行业识别系统及识别方法
CN111814476B (zh) 一种实体关系的抽取方法和装置
CN111506728A (zh) 基于hd-mscnn的层次结构文本自动分类框架
François et al. On the contribution of MWE-based features to a readability formula for French as a foreign language
CN111522948A (zh) 一种智能处理公文的方法及其系统
CN108229565B (zh) 一种基于认知的图像理解方法
CN111898375B (zh) 一种基于词向量句子链的文章论点论据自动检测划分方法
Adouane et al. A comparison of character neural language model and bootstrapping for language identification in multilingual noisy texts
CN112183093A (zh) 一种企业舆情分析方法、装置、设备及可读存储介质
CN112286799A (zh) 结合句嵌入和粒子群优化算法的软件缺陷定位方法
Vanderbeck et al. A Machine Learning Approach to Identifying Sections in Legal Briefs.
CN111341404B (zh) 一种基于ernie模型的电子病历数据组解析方法及系统
CN115438645A (zh) 一种序列标注任务的文本数据增强方法及系统
CN114996442A (zh) 一种联合抽象程度判别和摘要优化的文本摘要生成系统
CN112765940B (zh) 一种基于主题特征和内容语义的网页去重方法
CN112035670B (zh) 基于图像情感倾向的多模态谣言检测方法
CN115238707A (zh) 基于词向量语义分析的执法视频评价方法及装置
CN114239539A (zh) 一种英语作文离题检测方法及装置
Tang et al. An Examination of the Validity of General Word Embedding Models for Processing Japanese Legal Texts.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication