CN103678528A - 基于段落抄袭检测的电子作业反抄袭系统和方法 - Google Patents

基于段落抄袭检测的电子作业反抄袭系统和方法 Download PDF

Info

Publication number
CN103678528A
CN103678528A CN201310631663.9A CN201310631663A CN103678528A CN 103678528 A CN103678528 A CN 103678528A CN 201310631663 A CN201310631663 A CN 201310631663A CN 103678528 A CN103678528 A CN 103678528A
Authority
CN
China
Prior art keywords
electronic homework
plagiarism
electronic
homework
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310631663.9A
Other languages
English (en)
Other versions
CN103678528B (zh
Inventor
周小平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Civil Engineering and Architecture
Original Assignee
Beijing University of Civil Engineering and Architecture
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Civil Engineering and Architecture filed Critical Beijing University of Civil Engineering and Architecture
Priority to CN201310631663.9A priority Critical patent/CN103678528B/zh
Publication of CN103678528A publication Critical patent/CN103678528A/zh
Application granted granted Critical
Publication of CN103678528B publication Critical patent/CN103678528B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种基于段落抄袭检测的电子作业反抄袭系统和方法。其包含:电子作业提交装置、电子作业接收装置、抄袭检测队列装置、电子作业解析装置、抄袭检测装置和电子作业存储装置。具体步骤为:电子作业接收装置接收通过电子作业提交装置所提交的电子作业后,将其入队抄袭检测队列装置;电子作业解析装置出队电子作业,对其进行文本解析、段落分解、存储结果,并启动抄袭检测装置;抄袭检测装置以段落为检测单位,融合有效段落判定,实现抄袭行为检测。本申请以段落为单位,融合队列机制进行抄袭检测的方法,在满足判定电子作业抄袭多篇电子作业的抄袭行为的情况下,提高了系统效率和稳定性,并能判定原创作业的归属问题,进而实现反抄袭。

Description

基于段落抄袭检测的电子作业反抄袭系统和方法
技术领域
本发明涉及智能信息处理和计算机技术领域,具体地说是一种利用计算机系统进行抄袭检测的电子作业反抄袭系统和方法。
背景技术
随着计算机应用技术在教学中的广泛应用和电子文档技术的进步,越来越多的作业以电子文档的方式提交,即电子作业。电子作业使得作业整洁、易读、美观、易保存;因此,在越来越多的课程中,尤其是计算机课程,几乎所有的作业都以电子作业的形式提交、审阅。然而,电子作业的可复制性和易修改性,使得其抄袭变得更为简单。在没有任何反抄袭措施的情况下,学生们更愿意使用简单的复制粘贴等手段来完成其作业。目前,该现象在全国范围内已愈演愈烈。它不但降低了学生学习的主动性,对学习效果产生了巨大的负面效果;同时,也对整个社会造成了极大的不良影响。因此,如何防止电子作业抄袭行为已经成为了教育教学等行业亟需解决的一个重要问题。如果能够找到一种简单实用的电子作业反抄袭方法,较少、杜绝抄袭行为,将能极大提高教育教学质量,具有重大的意义。
通常情况下,某次电子作业都是围绕某个题目展开的。它通常允许学生通过查阅大量的互联网资料、学术文献资料等完成。不可避免地,其文章中或多或少的存在一些允许范围内的引用。因此,电子作业中存在句子的相同,不能作为抄袭依据;而长段落的抄袭则可以作为抄袭凭证。此外,电子作业的抄袭主要集中在学生电子作业间的相互抄袭,这些抄袭行为包括一篇电子作业全部或部分抄袭另一篇电子作业或融合多篇电子作业等。根据本发明人多年教学经验的统计,绝大部分的抄袭者其抄袭行为大多是对一篇电子作业的部分择取或多篇(一般不超过3篇)电子作业的简单融合,也即将多篇电子作业的不同段落进行重新组合。
针对电子文档抄袭,全球范围内已经有了许多电子文档抄袭的算法和系统。审理中专利《中文数字反抄袭侦测比对系统与方法》(杨纯青,2012,申请号201210258516.7)通过将文章拆解成句子群,并将所获取的句子群逐句上传至搜索引擎,获取与搜索引擎所搜寻出的与拆解字句雷同的网页或文章,并对抄袭的句子进行标注。该专利一定程度上能识别电子作业哪些句子雷同于网络文章;但,它却未能解决电子作业间相互抄袭的问题,而这也是电子作业最常见的现象;同时,它也无法给出定量的抄袭程度指标,即它无法智能判断该电子作业是否有抄袭行为。
温州大学已授权专利《基于近似串匹配距离德电子文本文档抄袭识别方法》(胡明晓,2008,专利号200810162245.9)采用近似串匹配距离来识别文档A是否抄袭文档B,它能检测两个文档之间是否有相互抄袭行为,但却不能解决一个文档融合抄袭多个文档的现象。美国专利《Method for detecting plagiarism》(Kelly,V.Adam,2001,No.6976170)通过使用公式计算文档中的每个句子的特征值,通过对比两个文档各句子的特征值,来判定是否有抄袭行为。西安交通大学已授权专利《一种基于小波变换的半结构化文本结构复制检测的方法》(鲍军鹏苏杰,2011,申请号201110316054.5)通过小波变换获取板结构化文本结构特征,计算结构相似性,判定结构是否雷同等步骤来判定本结构化文本是否有复制行为。北方工业大学审理中专利《一种电子作业抄袭检测方法》(张师林,2011,申请号201110235711.3)根据常用词词频和实词语义相似度分别计算作业之间的相似程度,最后融合两方面的相似度并根据阈值判断两篇文档间是否存在抄袭。因此,由于这些方法都是以文档为单位,进行文档间的相似度计算,进而判定两个文档之间是否有抄袭行为,因此,都无法检测抄袭多个电子作业融合抄袭的行为。此外,当两个文档存在相似性的情况下,其未能解决谁是原创文档、谁是抄袭文档的问题。
许多的文献也阐述了电子文档的抄袭检测方法。文献《CHECK:Adocument plagiarism detection system》(Si A.,Leong H.V,LauR.W.H.,1997,Processings of the1997ACM Symposium on AppliedComputing)通过提取结构化信息和关键词来判定文档相似性。然而,该方法主要应用于英文知识领域,且不能判定多文档抄袭问题。文献《网络环境与机房环境下电子作业反抄袭策略》(付兵谢本贵,2013.3,实验室研究与探索)采用信息隐藏技术对原创信息进行加密,利用高嵌入率的水印算法将秘密信息隐藏到电子作业的字符格式之中,达到侦测抄袭嫌疑的目的。该方法需要对电子作业进行水印处理,包含许多复杂的运算步骤,效率较低,影响文章比对速度,且加大了抄袭检测对服务器的负荷。本发明者在文献《基于VSM的电子作业反抄袭系统的设计与实现》(周小平王佳马晓轩,2013.4,实验室研究与探索)通过采用TF-IDF、VSM等算法来规避电子作业抄袭行为。该方法采用TF-IDF模型,虽然解决了一篇文档抄袭多篇文档的行为;但由于每次对新电子作业得抄袭检测都需要重新计算TF和IDF值;因此,其效率较低,抄袭检测速度较慢。
本发明所使用的向量空间模型(VSM:Vector Space Model)由Salton等人于20世纪70年代提出,并成功地应用于著名的SMART文本检索系统。VSM把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。若有采用VSM模型建立的两个向量A和B,通常采用余弦公式计算相似度,即向量A和B的相似度计算公式为:
Sim ( A , B ) = cos θ = A · B | | A | | · | | B | |
其中,θ为向量A和B的夹角。
通常,使用VSM模型采用TF-IDF方法构建向量中各关键词的权重。TF为单词词频,表示一个单词与某文档的相关性。某单词的TF值通常为该单词在文档中出现的次数除以文档所有单词的总次数。IDF为逆向文档频率,它通常为总文件数除以包含某单词的文件数目的商的对数。TF-IDF方法通常以文档为单位进行计算,它综合了一篇文档同已知所有文档之间相似性的问题,即它考虑了一个文档抄袭多篇文档的情况。然而,由于每次新文档检测都需要重新计算TF和IDF值;因此,增大了计算量,减少了效率。也即,TF-IDF方法在动态文档输入的环境中,适应性较差。
综上,目前电子文档和电子作业在抄袭检测方法上存在如下不足:①不能检测多个文档的融合抄袭;②算法复杂度较高,系统效率较低;③在认定两个电子作业存在抄袭的情况下,无法判断谁是抄袭,谁是原创。围绕这些不足,本发明者在多年教学经验的基础上,结合“句子的相似是引用,长段落的相似是抄袭”的原则,充分考虑电子作业抄袭的主要方法,以段落为单位,过滤过短段落,以段落关键词及其词频为计算基础,摒弃TF-IDF权重计算方法,换之以合理、高效的关键词权重计算方法,构建段落VSM模型,并采用余弦相似度公式计算段落相似性,进而判定抄袭行为,提高抄袭检测识别效率;同时,引入队列机制,解决了相似度较高情况下,原创作业和抄袭作业的判定问题,得出本发明专利。
发明内容
本发明的目的是避免和杜绝电子作业的抄袭行为,具体涉及一种基于段落抄袭检测的电子作业反抄袭系统和方法。该系统至少包含电子作业提交装置、电子作业接收装置、抄袭检测队列装置、电子作业解析装置、抄袭检测装置和电子作业存储装置。学生通过电子作业提交装置提交电子作业;电子作业接收装置接收电子作业后进行存储,并将该电子作业的索引入队抄袭检测队列装置;电子作业解析装置依据从抄袭检测队列装置中出队的电子作业索引获取电子作业,完成对该电子作业的文本解析抽取、段落分解和文本段落存储;抄袭检测装置以段落为单位,对待检测的电子作业进行抄袭检测,并将检测结果进行存储。电子作业存储装置存储所提交的电子作业、电子作业解析后的文本段落、文本段落关键词及其权重和抄袭检测结果。
电子作业提交装置为学生提供电子作业提交接口,学生通过账号登陆后,可在设定时间内提交其电子作业。
电子作业接收装置用于接收学生所提交的电子作业。该装置能同时接收来自多个电子作业提交装置的作业提交请求,并将接收到的完整的电子作业存储于电子作业存储装置;同时,根据电子作业的提交时间先后顺序将电子作业的存储索引入队抄袭检测队列装置。
抄袭检测队列装置采用“先进先出”的队列结构,其内按提交时间先后顺序队列待检测电子作业的存储索引值。
电子作业解析装置用于解析所提交的电子作业,并对其进行段落切分和分段存储。由于所提交的电子作业通常以word或pdf等格式进行提交,因此,需要对电子作业进行解析,提取其文字内容,并分段落进行存储。所存储的文本段落将用于抄袭检测。在完成电子作业解析后,电子作业解析装置将启动抄袭检测装置进行抄袭检测,其进行电子作业解析包含如下步骤:
I、从抄袭检测队列装置获取待检测电子作业的索引值,并通过索引值获取电子作业完整内容;
II、根据电子作业的文件扩展名判断电子作业的文件格式;如若为pdf,则采用pdf规范格式解析并抽取其文本;如果为doc或docx,则采用word api解析并抽取其文本;如果为txt格式,则直接提取文本;
III、根据所抽取的电子作业文本,以字符\n进行分段处理;
IV、将分段后所得的各文本段落按顺序存储于电子作业存储装置中。
抄袭检测装置是本发明的核心装置,它以段落为单位,将待检测电子作业各文本段落进行分词、提取关键词及其词频权重,过滤过短段落,采用余弦算法计算同已知的各原创文本段落之间的相似度,融合通过检测的文本段落数,判定是否有抄袭行为。具体地,其抄袭检测包含如下步骤:
I、初始化抄袭检测参数,包括当前待检测文本段落序号x=1,已通过检测文本段落总数d=0;
II、若x大于待检测电子作业总文本段落数,则转向执行步骤IX;否则,从如权利要求1所述的电子作业存储装置提取待检测电子作业第x个文本段落,标记为Px
III、对文本段落Px进行中文分词,并依据标记各词语词性,根据词性,保留有实质意义的名词、动词、方位词、住所词和时间词并统计其词频,得到文本段落Px的关键词及关键词的词频权重,标记为SX,SX可表示为:
SX={(wx1,nx1),(wx2,nx2),…,(wxi,nxi)}
其中,wx为文本段落Px的关键词,i为关键词个数,nx为该关键词的词频权重,其计算公式为:
nx l = 0.001 + 0.999 × freq l max { freq m , m = 1,2 , . . . , i } ,
式中freql为关键词wxl的词频,max{freqm,m=1,2,…,i}为所有关键词中最高的词频数。
当i小于设定阈值时,文本段落Px太短,不进行后续检测;此时,设置x=x+1,转向执行步骤II;
IV、将SX结构化存储于如权利要求1所述的电子作业存储装置;
V、按顺序从如权利要求1所述的电子作业存储装置中提取已存储的原创段落关键词及其词频权重信息;若所提取的原创段落标记为SY,SY可表示为:
SY={(wy1,ny1),(wy2,ny2),…,(wyj,nyj)}
VI、对SX和SY进行关键词扩展处理,若SX和SY的总关键次数为k,则SX和SY可表示为:
SX={(w1,x1),(w2,x2),…,(wk,xk)}
SY={(w1,y1),(w2,y2),…,(wk,yk)}
其中,w为扩展后的关键词,xi为关键词wi在SX中的词频权重,yi为关键词wi在SY中的词频权重;当SX或SY经扩展后出现新的关键词,其词频为0时,设置其词频权重赋值为0.001;
VII、计算SX同SY的余弦相似度Sim(SX,SY),其计算公式如下:
Sim ( SX , SY ) = SX · SY | | SX | | · | | SY | | = Σ i = 1 k x i · y i Σ i = 1 k x i 2 · Σ i = 1 k y i 2
VIII、若Sim(SX,SY)大于设定阈值,则视该检测电子作业有抄袭行为,执行步骤X;否则,设置d=d+1,x=x+1,转向执行步骤II;
IX、判定d是否大于设定阈值,如果d小于设定阈值,则视为抄袭文档;反之,该电子作业为原创电子作业,并标记所有通过检测的d个文本段落为原创段落;
X、存储电子作业抄袭检测结果。
优选的,电子作业存储装置以文件形式存储电子作业及其解析后的文本段落,以文件形式存储文本段落关键词及其权重信息,以数据库形式存储账号信息、电子作业及其解析后的文本段落索引信息、原创段落标记信息和抄袭检测结果。
优选的,文本段落关键词及其统计信息以对象序列化的方式进行直接存储,并以反序列化的方式直接获取、映射为内存资源,以提高系统效率。
本发明的抄袭检测队列装置将所提交的电子作业按其提交时间先后顺序进行排队等待抄袭检测,并以先提交的电子作业作为原创参照,检验后提交电子作业的抄袭行为,合理、有效解决了原创和抄袭作业的归属问题,也就是,在两个文本段落相似度极高(意味着两篇电子作业间存在抄袭行为)的情况下,谁是原创作业,谁是抄袭作业的问题,即先提交作业为原创作业,后提交作业为抄袭作业。同时,它也解决了在某些情况下,因系统需要在短时间内进行大量的抄袭检测,而导致潜在的系统瘫痪问题。
本发明的抄袭检测装置以段落为单位,将待检测电子作业的文本段落依次同已存储的原创电子作业各文本段落一一进行相似度检测,能解决电子作业抄袭一篇或融合抄袭多篇电子作业的行为。同时,以段落为单位,对段落进行数字特征提取,形成VSM模型,并采用余弦公式进行相似性计算;由于所有的段落只需要进行一次数字特征提取,且数字特征提取及其权重计算都较为简洁,并无需进行额外的计算,避免了传统TF-IDF方法在动态文档输入情况下关键词权重计算上计算效率低的不足,极大了提高了抄袭检测的效率。
本发明通过将基于段落的抄袭检测方法同原创归属判定相结合,以先提交电子作业为抄袭判断依据,判定后提交的电子作业抄袭行为,解决电子作业相互抄袭行为,实现了电子作业的反抄袭。
本发明的抄袭检测装置抄袭检测步骤III中,对文本段落进行分词后,提取名词、动词、方位词、住所词和时间词,并视这些词为关键词,进行词频统计和权重计算。由于名词、动词、方位词、住所词和时间词是中文文本中真正有实际意义的词汇,它们基本能替代该文本段落的主要内容。传统关键词提取方法使用词语权重作为关键词提取的标准,该方法导致了大量有意义关键词的丢失,且在越短的文本中,有意义关键词丢失现象越严重。采用该方法进行词频统计,有效避免了有意义关键词的丢失现象。
本发明的抄袭检测装置抄袭检测步骤III中,对文本段落进行关键词提取后,判断关键词数量,当关键词数量太少时,认为该段落不是进行检测的有效段落,并跳过该段落的抄袭检测,有效避免了因为标题、作业题目或句子引用等的内容相同,而导致的抄袭检测误判问题。
本发明的抄袭检测装置抄袭检测步骤IX中,对电子作业通过抄袭检测的有效段落数进行判断。当有效段落过少时,认为该电子作业不是有效的电子作业,从而避免了因为学生投机取巧,对原创电子作业添加大量无意义的词汇,而导致无法正确识别其抄袭行为。
综上,本发明具有如下特点:
1、能有效辨别原创电子作业和抄袭电子作业;
2、能判别电子作业抄袭一个或多个电子作业的行为;
3、能进行有效关键词提取;
4、系统效率较高,稳定性较强。
附图说明
图1是本发明的较佳实施例结构图。
图2是本发明的抄袭检测装置的较佳实施例工作流程图。
具体实施方式
参照图1,为本发明的较佳实施例结构图。系统包含电子作业提交装置101、电子作业接收装置102、抄袭检测队列装置103、电子作业解析装置104、抄袭检测装置105和电子作业数据存储装置106。学生通过电子作业提交装置101提交电子作业。电子作业接收装置102接收学生所提交的电子作业,并以文件形式有组织地存储于电子作业存储装置106;同时,电子作业接收装置102将所接收的电子作业文件索引入队抄袭检测队列装置103,排队等待抄袭检测。电子作业解析装置104出队抄袭检测队列装置103中的电子作业文件索引,并依据索引从电子作业存储装置106中获取电子作业,并进行格式解析和段落分解,并将解析后的文本段落以文本文件形式存储于电子作业数据存储装置106中,并通知抄袭检测装置105进行抄袭检测。抄袭检测装置105接收到电子作业解析装置104的检测请求后,从电子作业存储装置106中依次获取待检测电子作业解析后的文本段落,进行分词、关键词提取及其词频权重统计,将结果序列化后以文件形式存储于电子作业数据存储装置106后,将该统计同反序列化得到的已存储的各原创文本段落统计结果进行余弦相似度计算,判定是否有抄袭行为,存储抄袭检测结果;若抄袭检测结果为原创,则标记该电子作业所有的通过检测的文本段落为原创段落。
优选的,电子作业及经电子作业解析装置104解析、分段后所输出的文本段落,以及抄袭检测装置105所提取的关键词及其词频权重统计结果以文件形式存储于电子作业数据存储装置107中。所有的文件路径、账号信息、抄袭检测结果、原创段落标记采用关系数据库进行存储,如Access,MySQL,SQL Server或Oracle等。
优选的,抄袭检测装置105所提取的关键词及统计结果经序列化后直接进行存储,以便于进行抄袭检测时,能快速以反序列化方式提取、还原原创段落的关键侧记统计结果,提高系统性能。
参照图2,其为本发明的较佳实施例中,抄袭检测装置105较佳实施例工作流程图。在步骤201中,将待检测电子作业段落序号x和待检测电子作业已通过检测的段落数d进行初始化,设置x=1,d=0;然后,进行步骤202,判断段落序号x是否超出待检测电子作业总段落数,如果超过,则说明所有的段落都已经进行了抄袭检测,转向步骤214,否则,继续进行步骤203。步骤203从电子作业存储装置107中提取待检测电子作业第x个文本段落Px,接着,执行步骤204,提取文本段落Px中的关键词并其权重SX。步骤205判断SX中的关键词总数是否大于有效段落的关键词数,如果不大于,则认为该段落不是有效的文本段落,可能是标题、无意义段落等,执行步骤206,将待检测作业段落序号增加1,然后,转向执行步骤202,否则,结构化保存SX后,继续执行步骤207。步骤207初始化原创段落序号y=1;然后,执行步骤208,判断y是否大于原创段落总数;若是,则认为该段落已通过所有原创段落的抄袭检测验证,视之为原创段落,依次执行执行步骤209和步骤206,将已通过检测段落数d和待检测作业段落序号x都增加1,接着执行步骤202;否则,继续执行步骤210,提取第y个原创段落的关键词及其权重SY。步骤211对SX和SY进行关键词扩展后,采用余弦公式计算SX和SY的相似度Sim,接着执行步骤212,判断Sim是否大于设定的抄袭阈值,若超过,则认为该当前文本段落和第y个原创段落太相似,判定为抄袭段落,继而认定该作业为抄袭作业,执行步骤215,反之,继续执行步骤213,将当前原创段落序号y增加1,接着执行步骤208。步骤214判断所有通过检测的文本段落数d是否大于设定的有效作业段落数阈值;若超过,则认为该电子作业为有效原创电子作业,执行步骤216,存储检测结果,并将通过检测的d个文本段落标记为原创段落;否则,认为该电子作业不是有效的电子作业,视该电子作业为抄袭,执行步骤215,存储检测结果。
优选的,步骤204中获取文本段落关键词及其权重的方法为:通过中文分词方法对文本段落进行中文分词,并依照“汉语词性北大标准”标记各分词词性。统计所得分词列表中各名词、动词、方位词和住所词及其词频。使用下述公式计算各关键词权重:
nx l = 0.001 + 0.999 × freq l max { freq m , m = 1,2 , . . . , i }
其中nxl为第l个关键词权重,freql为第l个单词词频。
优选的,步骤211中,对SX和SY的关键词进行扩展,扩展后的关键词集合为SX和SY关键词的并集;对SX扩展后,多出来的原来SX中没有的关键词,设定其词频为0.001;对SY做相同处理。
在本发明的较佳实施例中,整个系统采用B/S结构,且所有装置都集成于一个系统中,并安装部署于同一个服务器;学生通过浏览器打开电子作业提交装置101。
在本发明的较佳实施例中,抄袭检测装置105抄袭检测识别的伪代码如下:
int x=1,d=0;
foreach SX in待检测段落的文本段落集{
  if(x>待检测段落的文本段落数)
    break;
对SX进行中文分词,并统计各词语词性
提取分词SX中名次、动词、方位词、住所词和时间词,并统计其词频并计算权重,结果存储于Dictionary<string,double>的数据结构中,表示为DicSX
if(DicSX的关键词数<有效段落关键词数)
   {x++;continue;}
foreach SY in已存储的原创段落{
扩展SX、SY的关键词,并分别为SX和SY扩展后出现的新关键词赋予词频权重0.001
采用余弦公式计算SX和SY的相似度Sim
      if(Sim>抄袭相似度阈值)
         {有抄袭;END;}
      x++;d++;
   }//END:foreach SY in已存储的原创段落
}//END:foreach SX in待检测段落的文本段落集
if(d>有效电子作业段落数)
   {无抄袭;标记d个有效段落为原创段落;END;}
else
   {有抄袭;END;}
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (5)

1.一种基于段落抄袭检测的电子作业反抄袭系统和方法,其特征在于,所述系统包括如下装置:
电子作业提交装置,用于提交电子作业;
电子作业接收装置,用于接收、存储通过电子作业提交装置所提交的电子作业,并将电子作业入队抄袭检测队列装置;
抄袭检测队列装置,用于以队列方式标记待抄袭检测的电子作业,以待有序检测所提交的电子作业的抄袭行为;
电子作业解析装置,用于将电子作业解析成文本,进行段落分解,存储分解后的文本段落,并启动抄袭检测装置进行抄袭检测;
抄袭检测装置,用于识别所提交的电子作业是否有抄袭行为;
电子作业存储装置,用于存储电子作业、电子作业解析后的文本段落、文本段落关键词及其词频权重、电子作业抄袭状态和账号信息;
所述方法包括如下步骤:
通过电子作业提交装置提交电子作业;
电子作业接收装置接收学生提交的电子作业后,将电子作业入队抄袭检测队列装置,等待抄袭检测;
电子作业解析装置从抄袭检测队列装置中出队待检测的电子作业,然后,对其进行文本解析、段落分解,并存储解析后的文本段落,启动抄袭检测装置进行抄袭检测;
抄袭检测装置获取待检测的电子作业各文本段落,计算其同已存储的原创段落之间的相似度,融合通过检测的文本段落数检验,判断是否有抄袭行为,并存储抄袭检测结果将。
2.如权利要求1所述的电子作业接收装置,其特征在于,其能同时接收来自多个如权利要求1所述的电子作业提交装置的作业提交请求,并将接收到的完整的电子作业存储于如权利要求1所述的电子作业存储装置;同时,根据电子作业的提交时间先后顺序将电子作业入队如权利要求1所述的抄袭检测队列装置。
3.如权利要求1所述的抄袭检测队列装置,其特征在于,采用“先进先出”的队列结构,其内按时间先后队列待检测电子作业的索引值。
4.如权利要求1所述的电子作业解析装置,其特征在于,其在完成电子作业解析后,将启动抄袭检测装置进行抄袭检测,其进行电子作业解析包含如下步骤:
I、从抄袭检测队列装置获取待检测电子作业的索引值,并通过索引值获取电子作业完整内容;
II、根据电子作业的文件扩展名判断电子作业的文件格式;如若为pdf,则采用pdf规范格式解析并抽取其文本;如果为doc或docx,则采用word api解析并抽取其文本;如果为txt格式,则直接提取文本;
III、根据所抽取的电子作业文本,以字符\n进行分段处理;
IV、将分段后所得的各文本段落按顺序存储于电子作业存储装置中。
5.如权利要求1所述的抄袭检测装置,其特征在于,按待检测电子作业文本段落先后顺序逐段检测各段抄袭行为,其抄袭检测包括如下步骤:
I、初始化抄袭检测参数,包括当前待检测文本段落序号x=1,已通过检测文本段落总数d=0;
II、若x大于待检测电子作业总文本段落数,则转向执行步骤IX;否则,从如权利要求1所述的电子作业存储装置提取待检测电子作业第x个文本段落,标记为Px
III、对文本段落Px进行中文分词,并依据标记各词语词性,根据词性,保留有实质意义的名词、动词、方位词、住所词和时间词并统计其词频,得到文本段落Px的关键词及关键词的词频权重,采用VSM模型标记SX,SX可表示为:
SX={(wx1,nx1),(wx2,nx2),…,(wxi,nxi)}
其中,wx为文本段落Px的关键词,i为关键词个数,nx为该关键词的词频权重,其计算公式为:
nx l = 0.001 + 0.999 &times; freq l max { freq m , m = 1,2 , . . . , i } ,
式中freql为关键词wxl的词频,max{freqm,m=1,2,…,i}为所有关键词中最高的词频数。
当i小于设定阈值时,文本段落Px太短,不进行后续检测;此时,设置x=x+1,转向执行步骤II;
IV、将SX结构化存储于如权利要求1所述的电子作业存储装置;
V、按顺序从如权利要求1所述的电子作业存储装置中提取已存储的原创段落关键词及其词频权重信息;若所提取的原创段落标记为SY,SY可表示为:
SY={(wy1,ny1),(wy2,ny2),…,(wyj,nyj)}
VI、对SX和SY进行关键词扩展处理,若SX和SY的总关键次数为k,则SX和SY可表示为:
SX={(w1,x1),(w2,x2),…,(wk,xk)}
SY={(w1,y1),(w2,y2),…,(wk,yk)}
其中,w为扩展后的关键词,xi为关键词wi在SX中的词频权重,yi为关键词wi在SY中的词频权重;当SX或SY经扩展后出现新的关键词,其词频为0时,设置其词频权重赋值为0.001;
VII、计算SX同SY的余弦相似度Sim(SX,SY),其计算公式如下:
Sim ( SX , SY ) = SX &CenterDot; SY | | SX | | &CenterDot; | | SY | | = &Sigma; i = 1 k x i &CenterDot; y i &Sigma; i = 1 k x i 2 &CenterDot; &Sigma; i = 1 k y i 2
VIII、若Sim(SX,SY)大于设定阈值,则视该检测电子作业有抄袭行为,执行步骤X;否则,设置d=d+1,x=x+1,转向执行步骤II;
IX、判定d是否大于设定阈值,如果d小于设定阈值,则视为抄袭文档;反之,该电子作业为原创电子作业,并标记所有通过检测的d个文本段落为原创段落;
X、存储电子作业抄袭检测结果。
CN201310631663.9A 2013-12-03 2013-12-03 基于段落抄袭检测的电子作业反抄袭系统和方法 Expired - Fee Related CN103678528B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310631663.9A CN103678528B (zh) 2013-12-03 2013-12-03 基于段落抄袭检测的电子作业反抄袭系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310631663.9A CN103678528B (zh) 2013-12-03 2013-12-03 基于段落抄袭检测的电子作业反抄袭系统和方法

Publications (2)

Publication Number Publication Date
CN103678528A true CN103678528A (zh) 2014-03-26
CN103678528B CN103678528B (zh) 2017-01-18

Family

ID=50316073

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310631663.9A Expired - Fee Related CN103678528B (zh) 2013-12-03 2013-12-03 基于段落抄袭检测的电子作业反抄袭系统和方法

Country Status (1)

Country Link
CN (1) CN103678528B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598231A (zh) * 2015-01-09 2015-05-06 山东工商学院 Python源代码文件相似性检测方法
CN105843926A (zh) * 2016-03-28 2016-08-10 北京掌沃云视媒文化传媒有限公司 现实信息索引的建立方法和基于云平台的全文检索系统
CN107229939A (zh) * 2016-03-24 2017-10-03 北大方正集团有限公司 相似文档的判定方法和装置
CN107679567A (zh) * 2017-09-22 2018-02-09 江苏海事职业技术学院 一种代码抄写行为识别方法、装置和系统
CN107784100A (zh) * 2017-10-26 2018-03-09 苏州赛维新机电检测技术服务有限公司 一种论文检索系统
CN108363729A (zh) * 2018-01-12 2018-08-03 中国平安人寿保险股份有限公司 一种字符串比较方法、装置、终端设备及存储介质
CN109710834A (zh) * 2018-11-16 2019-05-03 北京字节跳动网络技术有限公司 相似网页检测方法、装置、存储介质及电子设备
CN110543331A (zh) * 2018-05-29 2019-12-06 南京大学 一种基于测试代码片段相似性的测试程序抄袭检测方法
CN112764809A (zh) * 2021-01-25 2021-05-07 广西大学 基于编码特征的sql代码抄袭检测方法及系统
WO2023281707A1 (ja) * 2021-07-08 2023-01-12 日本電信電話株式会社 データ収集装置、データ収集方法、及びプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040098382A1 (en) * 2002-11-14 2004-05-20 Yuh-Ying Chuang Method and system for processing engineering change orders
CN101201830A (zh) * 2006-12-15 2008-06-18 英业达股份有限公司 词汇查询系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040098382A1 (en) * 2002-11-14 2004-05-20 Yuh-Ying Chuang Method and system for processing engineering change orders
CN101201830A (zh) * 2006-12-15 2008-06-18 英业达股份有限公司 词汇查询系统及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
周小平 等: "基于VSM的电子作业反抄袭系统的设计与实现", 《实验技术与管理》 *
汪忠国 等: "基于向量空间模型的题库相似度检查算法", 《计算机系统应用》 *
秦新国 等: "作业抄袭检测系统的设计与实现", 《南京审计学院学报》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598231B (zh) * 2015-01-09 2018-07-20 山东工商学院 Python源代码文件相似性检测方法
CN104598231A (zh) * 2015-01-09 2015-05-06 山东工商学院 Python源代码文件相似性检测方法
CN107229939A (zh) * 2016-03-24 2017-10-03 北大方正集团有限公司 相似文档的判定方法和装置
CN105843926A (zh) * 2016-03-28 2016-08-10 北京掌沃云视媒文化传媒有限公司 现实信息索引的建立方法和基于云平台的全文检索系统
CN105843926B (zh) * 2016-03-28 2019-03-12 北京掌沃云视媒文化传媒有限公司 现实信息索引的建立方法和基于云平台的全文检索系统
CN107679567B (zh) * 2017-09-22 2021-04-27 江苏海事职业技术学院 一种代码抄写行为识别方法、装置和系统
CN107679567A (zh) * 2017-09-22 2018-02-09 江苏海事职业技术学院 一种代码抄写行为识别方法、装置和系统
CN107784100A (zh) * 2017-10-26 2018-03-09 苏州赛维新机电检测技术服务有限公司 一种论文检索系统
CN108363729A (zh) * 2018-01-12 2018-08-03 中国平安人寿保险股份有限公司 一种字符串比较方法、装置、终端设备及存储介质
CN110543331A (zh) * 2018-05-29 2019-12-06 南京大学 一种基于测试代码片段相似性的测试程序抄袭检测方法
CN110543331B (zh) * 2018-05-29 2021-07-06 南京大学 一种基于测试代码片段相似性的测试程序抄袭检测方法
CN109710834A (zh) * 2018-11-16 2019-05-03 北京字节跳动网络技术有限公司 相似网页检测方法、装置、存储介质及电子设备
CN109710834B (zh) * 2018-11-16 2020-01-10 北京字节跳动网络技术有限公司 相似网页检测方法、装置、存储介质及电子设备
CN112764809A (zh) * 2021-01-25 2021-05-07 广西大学 基于编码特征的sql代码抄袭检测方法及系统
CN112764809B (zh) * 2021-01-25 2022-07-05 广西大学 基于编码特征的sql代码抄袭检测方法及系统
WO2023281707A1 (ja) * 2021-07-08 2023-01-12 日本電信電話株式会社 データ収集装置、データ収集方法、及びプログラム

Also Published As

Publication number Publication date
CN103678528B (zh) 2017-01-18

Similar Documents

Publication Publication Date Title
CN103678528A (zh) 基于段落抄袭检测的电子作业反抄袭系统和方法
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
WO2019218514A1 (zh) 网页目标信息的提取方法、装置及存储介质
US20190057159A1 (en) Method, apparatus, server, and storage medium for recalling for search
US9311823B2 (en) Caching natural language questions and results in a question and answer system
Chen et al. Short text classification improved by learning multi-granularity topics
CN101231661B (zh) 对象级知识挖掘的方法和系统
CN103218444B (zh) 基于语义的藏文网页文本分类方法
US9734181B2 (en) Understanding tables for search
CN102945244A (zh) 基于句号特征字串的中文网页重复文档检测和过滤方法
El Moatez Billah Nagoudi et al. 2L-APD: A two-level plagiarism detection system for Arabic documents
CN104572977A (zh) 一种农产品质量安全事件在线检测方法
CN102446255A (zh) 一种检测页面篡改的方法及装置
CN102591965A (zh) 一种黑链检测的方法及装置
CN102929902A (zh) 一种基于中文检索的分词方法及装置
CN104361059A (zh) 一种基于多示例学习的有害信息识别和网页分类方法
Ma et al. Extracting unstructured data from template generated web documents
Wu et al. Leveraging social Q&A collections for improving complex question answering
Liu et al. Identifying community fire hazards from citizen communication by applying transfer learning and machine learning techniques
Wang et al. Multi-modal transformer using two-level visual features for fake news detection
US8108391B1 (en) Identifying non-compositional compounds
Varshney et al. An automated multi-web platform voting framework to predict misleading information proliferated during COVID-19 outbreak using ensemble method
Sundriyal et al. Document retrieval and claim verification to mitigate COVID-19 misinformation
Barbosa et al. Crawling back and forth: Using back and out links to locate bilingual sites
Liu et al. An illegal billboard advertisement detection framework based on machine learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170118

Termination date: 20171203

Termination date: 20171203

CF01 Termination of patent right due to non-payment of annual fee