CN110674299A - 一种文章观点剽窃行为的检测方法 - Google Patents
一种文章观点剽窃行为的检测方法 Download PDFInfo
- Publication number
- CN110674299A CN110674299A CN201910937578.2A CN201910937578A CN110674299A CN 110674299 A CN110674299 A CN 110674299A CN 201910937578 A CN201910937578 A CN 201910937578A CN 110674299 A CN110674299 A CN 110674299A
- Authority
- CN
- China
- Prior art keywords
- plagiarism
- article
- key elements
- text
- comparison
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种文章观点剽窃行为的检测方法,涉及文本抄袭检测技术领域。该文章观点剽窃行为的检测方法,包括以下步骤:S1.根据不同领域的文章特点定义文章的关键要素;S2.针对关键要素定义抽取规则;S3.从比对库中获取比对文本;S4.在待检测和比对文本中进行关键要素抽取;S5.基于抽取得到的关键要素,可以基于规则的方式计算文章整体相似度;也可以作为基于统计的方法的特征数据,输入到训练好的分类器中进行分类;S6.报告检测结果。通过对现有系统无法有效检测观点剽窃行为的现状进行改进,提高抄袭检测的有效性,可以作为现有系统的有利补充。
Description
技术领域
本发明涉及文本抄袭检测技术领域,具体为一种文章观点剽窃行为的检测方法。
背景技术
文本抄袭检测已经广泛应用于信息检索、网页去重、图书馆资源版权保护、软件著作权保护等领域,文本抄袭可以分为两种情况:一种是字面抄袭;一种是智能抄袭,字面抄袭是指抄袭者在抄袭时未做隐蔽工作,通常只调整语序,如主动句变被动句,拆分从句,通常不会对词进行替换,而智能抄袭则更加隐蔽,通常作者会有意对原文进行修改,企图蒙蔽读者,常见的方式包括:替换同义词;对文章进行总结;翻译其它语言的文章;通过自动翻译软件将原文翻译至一目标语言然后再翻译回原语言;将别人的思想(包括实验结果、贡献、发现和结论等)通过自己的语言描述出来等,即观点剽窃。
现有的系统(例如CNKI)无法有效检测观点剽窃,而这是目前文本抄袭的主要方式,并且具有非常恶劣的影响,例如在医学和医药领域中,未识别出的抄袭文献内容可能会危害病人的安全,另外现有的方法在进行抄袭检测时,没有考虑到文档中不同内容的重要程度,例如在实验分析或者结论部分的抄袭和剽窃行为的重要程度应该大于绪论或相关工作部分的重要程度。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种文章观点剽窃行为的检测方法,解决了现有的系统无法有效检测观点剽窃,而这是目前文本抄袭的主要方式,并且具有非常恶劣的影响,例如在医学和医药领域中,未识别出的抄袭文献内容可能会危害病人的安全,另外现有的方法在进行抄袭检测时,没有考虑到文档中不同内容的重要程度的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:一种文章观点剽窃行为的检测方法,包括以下步骤:
S1.根据不同领域的文章特点定义文章的关键要素;
S2.针对关键要素定义抽取规则;
S3.从比对库中获取比对文本;
S4.在待检测和比对文本中进行关键要素抽取;
S5.基于抽取得到的关键要素,可以基于规则的方式计算文章整体相似度;也可以作为基于统计的方法的特征数据,输入到训练好的分类器中进行分类;
S6.报告检测结果。
优选的,所述步骤2中的抽取规则定义,通过刻画概念和概念之间的关系实现。
优选的,所述步骤3中的比对库,可以包括但不限于国内主要学术期刊、硕博文章、国内外学术会议文章、国内外重要报纸全文,互联网资源、图书资源,以及自建比对库。
优选的,所述步骤4中的进行关键要素抽取的过程,是获得关键要素在文章或比对文本中的具体的值。
优选的,所述步骤2和步骤4可以但不限于基于TML语言实现。
优选的,所述步骤5中若采用基于规则的方法,可以但不限于如下方法:1)首先使用TF-IDF和余弦夹角等相似度计算方法,得到各关键要素的相似度;2)然后计算文章整体相似度;若步骤5中采用基于统计的方法,其中训练好的模型,基于从标注为观点剽窃的文本和比对文本中采用步骤4相同的方法抽取得到的关键要素作为特征进行训练得到。
优选的,所述步骤5中若采用基于规则的方法,则在整体相似度大于阈值时报告为观点剽窃,其中阈值可根据经验或经试验设定;若采用基于统计的方法,根据分类器的结果报告是否为观点剽窃。
(三)有益效果
本发明提供了一种文章观点剽窃行为的检测方法。具备以下有益效果:
1、该文章观点剽窃行为的检测方法,通过对现有系统无法有效检测观点剽窃行为的现状进行改进,提高抄袭检测的有效性,可以作为现有系统的有利补充。
2、该文章观点剽窃行为的检测方法,通过合理的检测步骤,从而大大提高了文章观点剽窃行为的检测效率,省时省力。
附图说明
图1为本发明的系统流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
如图1所示,本发明实施例提供一种文章观点剽窃行为的检测方法,包括以下步骤:
S1.根据不同领域的文章特点定义文章的关键要素,例如对于思政文献可能的关键要素包括关键字、论点、观点、结论、论据、论证分析等,对于自然科学的文章关键要素包括关键字科学实验的对象、采用的方法、观测结果及分析、科学调研、系统设计、问题的解决方法;另外关键要素还包括某些行业领域的专业术语相关的数字指标的上下环境等,例如“系统性能提高了70%”,其中数字指标“70%”的上下文环境为“系统性能提高”;
S2.针对关键要素定义抽取规则,规则定义通过刻画概念和概念之间的关系实现,例如跟据步骤1中关键要素“方法”,定义为概念,概念的值可以为“fuzzy logic methods”,“GA method”,“online learning of sparse pseudo-data”等;
有时候同样的概念可以有多种不同的表示方式,例如:"Using","Use","uses","used","presents","proposed",这几种方式表示的是相同的概念,即“使用”;
从文章中抽取其使用的方法的规则,由以上的概念“使用”和“方法”之间进行约束形成,例如概念“使用”和“算法”顺序出现,并且距离不超过6;
抽取规则的定义可以但不限于基于TML语言实现,在TML中使用包含上下文计算符和布尔关系计算符的生成文法描述对应的规则,其中上下文环境计算符号包括但不限于:
“SENT”:作用域内的所有概念必须出现在一条语句中;
“DIST_n”:作用域内的任何两个相邻概念之间的距离不能大于n,其中n为自然数;
“ORD”:作用域内的所有概念顺序出现;
“CONT”:作用域内的所有概念相邻;
布尔关系计算符号包括:
“AND”:作用域中的所有字句必须同时在输入文本中出现;
“OR”:作用域中的所有字句至少有有一个在输入文本中出现;
“NOT”:作用域中的字句不能出现,否则输入文本不匹配;
例如对于之前的算法的概念,在TML中定义如下:
CONCEPT LIB-ENTITY-METHOD:="fuzzy logic methods";
CONCEPT LIB-ENTITY-METHOD:="GA method";
CONCEPT LIB-ENTITY-METHOD:="online learning of sparse pseudo-data";
分别定义了“fuzzy logic methods”,“GA method”,“online learning ofsparse pseudo-data”三种算法;
对于概念“使用”,在TML中定义如下:
CONCEPT
LIB-PREWORD-VERB:=OR("using","use","present","propose","Using","Use","uses","used","presents","proposed","propose","present","presenting","presented","put
forward","develop","describe","introduces","proposes","introduced","describes","introduces","called","by","based on");表示只要匹配到其中的一个词,则认为匹配了“使用”的概念;
对于“使用某方法”的抽取规则,定义如下:
PREDICATE
LIB-TML-SCIENTIFIC-LITERATURE-ALGORITHM-P(LIB-PREWORD-VERBverb,LIB-ALGORITHM-OBJalgo){SENT(DIST_6(ORD(verb,LIB-SCIENCE-OBJ,algo)));};表示“使用”和“算法”在一句中顺序出现,并且距离不超过6;
S3.从比对库中获取比对文本,比对库可以包括但不限于国内主要学术期刊、硕博文章、国内外学术会议文章、国内外重要报纸全文、互联网资源、图书资源,以及自建比对库;
S4.在待检测和比对文本中进行关键要素抽取,其中进行关键要素抽取的过程,是根据步骤1中的抽取规则,获得关键要素在文章和比对文本中的具体的值;
例如:“We propose a novel method of online learning of sparse pseudo-data”中抽取得到表示“算法”的概念,具体值为“online learning of sparse pseudo-data”,进一步在其中匹配到“使用算法”的规则;
抽取过程可以但不限于基于TML语言实现,在TML语言中将实际文本形成概念标注图;将抽取规则所述概念和关系编译形成字节码,进而形成指令图;然后将所述概念标注图和所述指令图进行匹配,将所述概念标注图中符合指令图的概念和关系的内容形成分析结果,即得到抽取结果;
S5.基于抽取得到的关键要素,可以基于规则的方式计算整体相似度;也可以作为基于统计的方法的特征数据,输入到训练好的分类器中进行分类;
若采用基于规则的方法,可以首先使用TF-IDF和余弦夹角等相似度计算方法,得到各关键要素的相似度,然后计算文章整体相似度:
其中S为总体相似度,Si为第i(1=<i<=n)个关键要素的相似度,Wi为第i(1=<i<=n)个关键要素的权重,其中权重可以根据经验或经试验设定;
若采用基于统计的方法,其中训练好的模型,基于从标注为观点剽窃的文本和比对文本中采用步骤4相同的方法抽取得到的关键要素作为特征进行训练得到,典型的可以使用但不限于使用支持向量机(Support Vector Machine,SVM)或朴素贝叶斯网络作为分类器;
S6.报告检测结果,若采用基于规则的方法,则在整体相似度大于阈值时报告为观点剽窃,其中阈值可根据经验或经试验设定;若采用基于统计的方法,根据分类器的结果报告是否为观点剽窃。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (7)
1.一种文章观点剽窃行为的检测方法,其特征在于:包括以下步骤:
S1.根据不同领域的文章特点定义文章的关键要素;
S2.针对关键要素定义抽取规则;
S3.从比对库中获取比对文本;
S4.在待检测和比对文本中进行关键要素抽取;
S5.基于抽取得到的关键要素,可以基于规则的方式计算文章整体相似度;也可以作为基于统计的方法的特征数据,输入到训练好的分类器中进行分类;
S6.报告检测结果。
2.根据权利要求1所述的一种文章观点剽窃行为的检测方法,其特征在于:所述步骤2中的抽取规则定义,通过刻画概念和概念之间的关系实现。
3.根据权利要求1所述的一种文章观点剽窃行为的检测方法,其特征在于:所述步骤3中的比对库,可以包括但不限于国内主要学术期刊、硕博文章、国内外学术会议文章、国内外重要报纸全文、互联网资源、图书资源,以及自建比对库。
4.根据权利要求1所述的一种文章观点剽窃行为的检测方法,其特征在于:所述步骤4中的进行关键要素抽取的过程,是获得关键要素在文章或比对文本中的具体的值。
5.根据权利要求1所述的一种文章观点剽窃行为的检测方法,其特征在于:所述步骤2和步骤4可以但不限于基于TML语言实现。
6.根据权利要求1所述的一种文章观点剽窃行为的检测方法,其特征在于:所述步骤5中若采用基于规则的方法,可以但不限于如下方法:1)首先使用TF-IDF和余弦夹角等相似度计算方法,得到各关键要素的相似度;2)然后计算文章整体相似度;若步骤5中采用基于统计的方法,其中训练好的模型,基于从标注为观点剽窃的文本和比对文本中采用步骤4相同的方法抽取得到的关键要素作为特征进行训练得到。
7.根据权利要求1所述的一种文章观点剽窃行为的检测方法,其特征在于:所述步骤5中若采用基于规则的方法,则在整体相似度大于阈值时报告为观点剽窃,其中阈值可根据经验或经试验设定;若采用基于统计的方法,根据分类器的结果报告是否为观点剽窃。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910937578.2A CN110674299A (zh) | 2019-09-30 | 2019-09-30 | 一种文章观点剽窃行为的检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910937578.2A CN110674299A (zh) | 2019-09-30 | 2019-09-30 | 一种文章观点剽窃行为的检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110674299A true CN110674299A (zh) | 2020-01-10 |
Family
ID=69080268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910937578.2A Pending CN110674299A (zh) | 2019-09-30 | 2019-09-30 | 一种文章观点剽窃行为的检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110674299A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101404037A (zh) * | 2008-11-18 | 2009-04-08 | 西安交通大学 | 一种检测及定位电子文本内容剽窃的方法 |
CN108595547A (zh) * | 2018-04-09 | 2018-09-28 | 南京网感至察信息科技有限公司 | 一种基于语义抽取的相似案件检索方法 |
CN108959375A (zh) * | 2018-05-24 | 2018-12-07 | 南京网感至察信息科技有限公司 | 一种基于规则与深度学习的知识抽取方法 |
-
2019
- 2019-09-30 CN CN201910937578.2A patent/CN110674299A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101404037A (zh) * | 2008-11-18 | 2009-04-08 | 西安交通大学 | 一种检测及定位电子文本内容剽窃的方法 |
CN108595547A (zh) * | 2018-04-09 | 2018-09-28 | 南京网感至察信息科技有限公司 | 一种基于语义抽取的相似案件检索方法 |
CN108959375A (zh) * | 2018-05-24 | 2018-12-07 | 南京网感至察信息科技有限公司 | 一种基于规则与深度学习的知识抽取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Banko et al. | The tradeoffs between open and traditional relation extraction | |
Effrosynidis et al. | A comparison of pre-processing techniques for twitter sentiment analysis | |
Stamatatos | Plagiarism detection using stopword n‐grams | |
Chong | A study on plagiarism detection and plagiarism direction identification using natural language processing techniques | |
Das et al. | Data bootstrapping approaches to improve low resource abusive language detection for indic languages | |
Aulia et al. | Hate speech detection on Indonesian long text documents using machine learning approach | |
US9262400B2 (en) | Non-transitory computer readable medium and information processing apparatus and method for classifying multilingual documents | |
Vallés et al. | Detection of near-duplicate user generated contents: the SMS spam collection | |
Singh et al. | Writing Style Change Detection on Multi-Author Documents. | |
Lui | Generalized language identification | |
Hu et al. | A hybrid method of coreference resolution in information security | |
Tahrat et al. | Text2geo: from textual data to geospatial information | |
Rezaeian et al. | Detecting near-duplicates in russian documents through using fingerprint algorithm Simhash | |
Aejas et al. | Named entity recognition for cultural heritage preservation | |
Mukherjee et al. | Plagiarism detection based on semantic analysis | |
Ferreira et al. | Multi-entity polarity analysis in financial documents | |
Dini et al. | Soma: The smart social customer relationship management tool: Handling semantic variability of emotion analysis with hybrid technologies | |
CN110674299A (zh) | 一种文章观点剽窃行为的检测方法 | |
Wei et al. | Motif-based hyponym relation extraction from wikipedia hyperlinks | |
Kaur et al. | Review of recent plagiarism detection techniques and their performance comparison | |
Singh et al. | Predicting the Veracity of News Articles Using Multimodal Embeddings and NLP-Based Features | |
Mundra et al. | Fine-tune BERT to Classify Hate Speech in Hindi English Code-Mixed Text. | |
Sheng et al. | Chinese event factuality detection | |
Aravinda Reddy et al. | Paraphrase identification in Telugu using machine learning | |
Büchler et al. | Scaling historical text re-use |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |