CN101441620B - 基于近似串匹配距离的电子文本文档抄袭识别方法 - Google Patents

基于近似串匹配距离的电子文本文档抄袭识别方法 Download PDF

Info

Publication number
CN101441620B
CN101441620B CN2008101622459A CN200810162245A CN101441620B CN 101441620 B CN101441620 B CN 101441620B CN 2008101622459 A CN2008101622459 A CN 2008101622459A CN 200810162245 A CN200810162245 A CN 200810162245A CN 101441620 B CN101441620 B CN 101441620B
Authority
CN
China
Prior art keywords
document
paragraph
approximate match
approximate
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2008101622459A
Other languages
English (en)
Other versions
CN101441620A (zh
Inventor
胡明晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wenzhou University
Original Assignee
Wenzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wenzhou University filed Critical Wenzhou University
Priority to CN2008101622459A priority Critical patent/CN101441620B/zh
Publication of CN101441620A publication Critical patent/CN101441620A/zh
Application granted granted Critical
Publication of CN101441620B publication Critical patent/CN101441620B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种电子文本文档的抄袭识别方法,主要通过分段落的近似串匹配距离来识别抄袭。具体步骤是:欲识别文档A是否抄袭文档B,先计算文档A的每个段落在文档B中的近似串匹配距离和近似匹配片段,再根据近似匹配片段计算回退数和前跳数,回退数是指下一近似匹配片段首部反而位于上一近似匹配片段尾部之前的发生数目或越过的段落总数目,前跳数是指下一近似匹配片段在上一近似匹配片段之后但至少间隔一个段落的发生数目或间隔的段落总数目,最后将近似串匹配距离之和、回退数和前跳数三者求和作为文档A对文档B的抄袭距离,若该距离小于一定的阈值,则视文档A有抄袭文档B的嫌疑。

Description

基于近似串匹配距离的电子文本文档抄袭识别方法
技术领域
本发明属于智能信息处理和计算机技术领域,具体地说是一种利用计算机系统进行电子文本文档抄袭识别的方法。
背景技术
电子文档的使用越来越普遍,如学生提交实验报告、计算机程序、电子作业,单位职工上交工作总结、政治学习心得,科研人员撰写论文、报告等。由于电子文档的抄袭具有方便迅速、无复印痕迹、不需当面提交等特点,使得抄袭问题在计算机网络和办公自动化软件普及的今天变得越来越突出,很容易发生电子抄袭导致的作业不独立完成、科研不端、应付上级任务等现象。电子文档的抄袭识别无疑是当今需要解决的问题,如果能寻找到一种简易实用的抄袭识别方法,就会大大减轻人工识别的工作量,对遏制剽窃、抄袭的不良风气具有重要的意义。
关于电子文本文档的抄袭识别,目前全球科技界研制了许多识别算法和应用系统。例如:美国的已发布专利(Issued Patent):Method for detecting plagiarism(Kelly,V.Adam,2001,No.6976170),通过给每个句子赋以按一定公式计算的数值,并比较提交文档和档案文档的这些数值,同时在输出设备上标出其数值与档案文档中某个句子相同或相近的句子,给检查者做进一步的判断提交文档是否抄袭档案文档。这个专利强调以人为中心、机器为辅的原则,突出如何让人在机器的帮助下轻松判断抄袭。美国申请中专利(PatentApplication):Softwaretool for detecting plagiarism in computer source code,用于识别计算机源代码的抄袭,通过源代码的不同语义层次的过滤结果来综合判断相似度进而识别抄袭(Zeidman,Robert M.2005.11,No.20050114840,2008.7重申请,No.20080270991)。西安交通大学的已授权专利《一种利用计算机程序检测电子文本剽窃的方法》(鲍军鹏,2003,专利号03134562.X)利用文本的局部语义(一种单词序列)构成的文本特征和探针法(在文本特征中随机选取单词)来识别剽窃行为。A.Z.Broder利用特征单词(tokens)的瓦片袋(shingle bag)定义文档的相似度和包含度,其中相似度为两个文档的瓦片的交集数量与并集数量之比,包含度为两个文档的瓦片的交集数量与待识别文档的瓦片数量之比,利用这两个度量进行抄袭识别(A.Z.Broder,On the resemblance and containment of documents[C].Proceedingsof the International Conference on Compression and Complexity of Sequences,France:Lavoisier,1997:21-29)。也有利用信息检索技术中的VSM(向量空间模型)的,即把文档的相似度定义为两个文档的特征看成n维度量空间中两个向量之后的归一化内积,即余弦数Cosine(Vi,Vj)=(Vi·Vj)/(||Vi|| ||Vj||)(M.Sanderson1997).Duplicate detection in the Reuters collection.Technical Report(TR-1997-5)of the Department of Computing Science at the University of Glasgow,Glasgow,UKG12 8QQ.)。香港理工大学Si和Leong的CHECK原型以段落为文本块提取结构化信息和关键词来判断两个文档的相似度(Si A.,Leong H.V,Lau R.W. H..CHECK:A document plagiarism detection system[C].Processings of the 1997 ACMSymposium on Applied Computing.New York:Association for ComputingMachinery(ACM),1997:70-77)。韩国NamOh Kang等提出一种通过比较单元、重叠测度函数、抄袭决策函数,针对抄袭模式分析的识别算法和实现系统(PPChecker:Plagiarism pattern checker in document copy detection[C].NinthInternational Conference on TEXT,SPEECH and DIALOGUE:LNCS 4188 TSD2006,Proceedings.Heidelberg:Springer Berlin,2006:661-667)。南京师范大学硕士学位论文《电子作业管理和作业抄袭检测技术研究》(秦新国、杨晓江,2007)提出一种基于句子相似度的文档复制检测技术,先根据汉语词库对文本进行分词,然后计算相似度来检测电子作业是否抄袭。此外,还有一些复制检测和抄袭识别的应用产品,如COPS([美]斯坦福大学)、YAP3([澳]悉尼大学)、MOSS([美]加州大学)等。
这些抄袭识别方法各有其长处和缺点,并各有其适用的场合。它们无非分为基于统计信息的统计模型和基于字符串匹配的匹配模型两大类。统计模型的优点是抗噪音能力强,缺点是容易误判,并对非均匀的抄袭动作识别失效。匹配模型的优点是对结构性抄袭识别能力强,识别精度高,缺点是对局部特征敏感,计算量大。有些系统还需要同义词库、词频库的支持,尤其是需要汉语分词时,还要有中文词库的支持。
本发明将从编辑距离的角度出发设计一种实用的抄袭识别方法,没有字符集大小的限制,不需词库支持,并适用于单向识别。
关于编辑距离的公知内容叙述如下:
编辑距离dED(S1,S2)是指将文本串S1转换为文本串S2所需的最少编辑操作次数,其中编辑操作包括字符插入、字符删除和字符替换三种,例如,dED(″skied″,″kid″)=2,dED(″skied″,″kidding″)=6。编辑距离是对称的,即dED(S1,S2)=dED(S2,S1),其算法有著名的动态规划算法,计算复杂性是O(mn),其中m=|S1|,n=|S2|,具体计算方法是:用S[1..i]表示文本串S的长度为i的前缀,S[1..0]即空串ε,S[k..i]表示文本串S从下标k到i的子串,k>i时为空串ε,S[i]表示S的第i个字符。开辟一个大小为(m+1)×(n+1)的二维数组d,d[i][j]表示dED(S1[1..i],S2[1..j]),则有递推公式:
Figure G2008101622459D00031
利用上述递推公式并置d[0][j]的初值为j,置d[i][0]的初值为i,就可以自二维数组d的左上角向右下角一直计算到d[m][n],即dED(S1,S2)。通过反向追踪d[m][n]的形成过程还可以得到S1变为S2的编辑操作序列(不一定唯一)。
近似串匹配距离是与编辑距离很相似的概念,但它是一种非对称的距离。近似串匹配距离dASM(S1,S2)是指文本串S1与文本串S2的所有子串的编辑距离达到的最小值,例如dASM(″skied″,″kid″)为2,dASM(″kid″,″skied″)为1。近似串匹配距离也有动态规划算法,计算复杂性也是O(mn),其中m=|S1|,n=|S2|。具体算法是:d[0][j]的初值全部置0,而d[i][0]的初值仍然置i,然后也根据上述d[i][j]的递推公式自左上角向右下角计算出全部的d[i][j],最后在最后一行d[m][j],(j=0,1,…,n)中取最小值就是近似串匹配距离,即dASM(S1,S2)=min({d[m][j]|j=0,1,…,n})。在上述近似串匹配距离的算法过程中,元素d[i][j]的含义是S1[1..i]与S2[1..j]的所有后缀的编辑距离的最小值,简称最小后缀距离,即d[i][j]=min({dED(S1[1..i],S2[s..j])|s=1,…,j,j+1}),注意到其中S2[j+1..j]是空串ε。
近似匹配片段SubStrASM(S1,S2)是文本串S1与文本串S2的子串达到近似串匹配距离即编辑距离最小值的S2子串。近似匹配片段其实是S2中与S1“最像”的子串。若dASM(S1,S2)=0,说明S2中存在与S1精确匹配的子串。近似匹配片段不一定唯一,都可以用首尾两个下标[s,t]简单表示。例如SubStrASM(″skied″,″kid″)只有″kid″(或[1,3]),SubStrASM(″kid″,″skied″)有″ki″([2,3])、″kie″([2,4])和″kied″([2,5])三个。在上述近似串匹配距离的算法中,通过反向追踪d[m][t]的形成过程还可以得到S1在S2中的所有近似匹配片段及其编辑操作序列。
广义编辑距离dGED(S1,S2)是指将文本串S1转换为文本串S2所需的最少广义编辑操作次数,其中广义编辑操作除了三种编辑操作外,还增加子串移动的广义编辑操作,也有再增加子串删除、子串调换、子串自复制、子串逆转等广义编辑操作中一种或多种操作的。广义编辑距离的计算比编辑距离要复杂得多,美国Brandeis University的Shapira和Storer于2002年证明了,仅仅增加子串移动的广义编辑距离的计算就是一个NP-完全问题(D.Shapira,J.A.Storer,EditDistance with Move Operations,Combinatorial Pattern Matching(CPM)2002,LNCS 2373,2002:85-98)。
发明内容
本发明的目的是识别电子文本文档的抄袭,其抄袭识别方法属于匹配模型,具体是基于近似串匹配距离分段落地计算两个文本的抄袭距离,进而识别抄袭的一种方法。该方法通过至少包含文档读取装置、文档分段落装置、抄袭识别器、文档存储器和输出装置的计算机系统来识别电子文本文档的抄袭。其中文档读取装置、文档分段落装置、抄袭识别器分别与文档存储器连接,抄袭识别器与输出装置连接。
抄袭识别器是本发明的关键部件,它的运行包含下列步骤:欲识别文档A是否抄袭文档B,设n为文档A的段落总数,先计算文档A的每个段落Ai(i=1,2,......,n)在文档B全文中的近似串匹配距离dASM(Ai,B)和近似匹配片段,再根据这n个近似匹配片段计算它们在文档B中的回退数nRET和前跳数nSKIP,最后将各近似串匹配距离之和、回退数和前跳数三者求和,作为文档A对于文档B的抄袭距离D(A,B),即
Figure G2008101622459D00041
若该抄袭距离小于一定的阈值,则视文档A涉嫌抄袭文档B,否则视文档A没有抄袭文档B的嫌疑。
可见抄袭距离由三部分构成。第一部分近似串匹配距离之和刻划了文档A的各段落在文档B中的出现或相似情况,至于出现的位置、顺序该部分不去反映,而是由第二、第三部分的回退数、前跳数反映。文档A的每个段落在文档B中如果都有相似的子串,近似串匹配距离之和就很小,如果都有相同的子串,近似串匹配距离之和就等于零。
为了方便计算抄袭距离的第二(回退数)、第三(前跳数)部分,需要一个反映文档A的段落在文档B中的“出现位置”的概念,即近似匹配片段。近似匹配片段是指文档B中与文档A的段落达到近似串匹配距离(即达到编辑距离的最小值)的子串。若这样的子串不唯一,可任取其中一个,在通常的抄袭文档中,近似匹配片段大多是唯一的,即使不唯一,也只在首尾处相差1-2个字符,这并不影响后面回退数和前跳数的计算,或者影响不大。在本发明的较佳实施例中,达到近似串匹配距离的子串不唯一时,取尾部最靠前的那些子串中的长度最短者,这样消除了不唯一性。由于近似匹配片段是文档B的子串,所以只用首部下标s、尾部下标t就可标定,可记为[s,t]。
有了近似匹配片段,就可以定义回退数和前跳数了,回退数和前跳数反映了文档A的段落在文档B中出现(或最相似出现)的混乱和不连续程度。本发明的回退数和前跳数都有两种不同的定义方法,实施时可任选一种。假设[si,ti]为文档A的第i个段落Ai的近似匹配片段,P(x)表示文档B的第x个字符所在的段落序号。
回退数定义方法1:回退数是指文档A各段落的近似匹配片段中,其首部反而位于上一近似匹配片段尾部之前的个数,即
Figure G2008101622459D00051
回退数定义方法2:回退数是指一个近似匹配片段首部si反而位于上一近似匹配片段尾部ti-1之前时,在文档B中所越过的段落分界符的个数加1(即ti-1和si的段落序号之差+1),再关于第2个开始的每个近似匹配片段求和的总数,即
Figure G2008101622459D00052
不管哪种定义方法,都要求s1<ti-1,即一个近似匹配片段首部反而位于上一近似匹配片段尾部之前,才贡献1个(定义1)或几个回退数(定义2)。显然,若文档A各段落的近似匹配片段在文档B中顺序出现,没有重叠,则回退数是0。
前跳数定义方法1:前跳数是指文档A各段落的近似匹配片段中,其首部所在段落在上一近似匹配片段尾部所在段落的后面,但是至少间隔一个文档B段落的个数(其中对第1个近似匹配片段而言,“上一近似匹配片段尾部所在段落”视为第0段,这样保证第1个近似匹配片段从第2段开始时,产生一个前跳数),即
Figure G2008101622459D00061
其中P(t0)=0
前跳数定义方法2:前跳数是指一个近似匹配片段首部si所在段落在上一近似匹配片段尾部ti-1所在段落的后面,但是至少间隔一个文档B段落时,所间隔的段落数(即si和ti-1的段落序号之差-1),再关于每个近似匹配片段求和的总数(其中对第1个近似匹配片段而言,“上一近似匹配片段尾部所在段落”视为第0段),即
Figure G2008101622459D00062
其中P(t0)=0
不管哪种定义方法,都要求P(si)>P(ti-1)+1,即一个近似匹配片段首部所在段落在上一近似匹配片段尾部所在段落的后面并且至少间隔文档B的一个完整段落(例如:P(ti-1)=3,P(si)至少为5,间隔了第4段),才贡献1个(定义1)或几个前跳数(定义2)。显然,若文档A相邻段落的近似匹配片段在文档B中都没有间隔任何完整的段落,则前跳数是0。
本发明的较佳实施例中是将(1)近似串匹配距离和近似匹配片段的计算、(2)回退数的计算和(3)前跳数的计算三个步骤依次进行,但并不意味着只能依次进行。在计算各段落的近似串匹配距离和近似匹配片段时,可以同时累加回退数和(或)前跳数。
文档读取装置是指从本计算机系统或其它计算机系统或互联网读取电子文档的接口装置。
文档分段落装置的功能只是在文档中插入段落分界符。若以回车符为天然的段落分界符,则文档分段落装置其实什么都不用做。若以句子结尾标点符号如句号、问号为段落分界符,分段落其实就是分句子。有些情况需要将过长的自然段分成几个段落或者将过于短小的连续段落合并成一个段落,文档分段落装置需要一定的处理流程了。本发明的文档分段落装置的较佳实施方式是什么都不做,但不意味着不能包含简单的处理步骤。
输出装置是指向显示器输出人眼可见的符号或向本计算机系统或其它计算机系统或互联网输出人眼不可见的电、磁或无线信号的接口装置,用于输出抄袭识别的结果以便继续处理。
本发明充分发挥了匹配模型结构性识别能力强的优点,又尽力克服了局部特征敏感和计算量大的缺点。依照本发明的抄袭识别器算法,假设文档A由P1、P2、P3三个段落依次组成,记为A=P1|P2|P3,并假设A的三个段落互不相似,则当文档B=P1|P3时,B关于A的抄袭距离D(B,A)=1;当B=p1|P2|P2|P3时,D(B,A)=1;当B=P3|P2|P1时,D(B,A)=2。在抄袭距离的三个构成部分中,近似串匹配距离之和都是0,只有回退数和前跳数贡献了一个很小的数,这说明段落删除、段落自复制、段落顺序调换,本发明都能识别之。同样可以验证段落合并、段落拆分也都能被识别出来。此外,当A是B的局部时,D(A,B)很小,而D(B,A)往往很大,所以能识别出正确的抄袭方向,本方法具备单向识别能力。
本发明的抄袭距离可以看成是广义编辑距离的近似值,其中广义编辑操作包括子串移动、子串删除、子串自复制等。要精确计算广义编辑距离是困难的(NP-完全问题),本发明的计算量仅仅是O(N2)阶的(N为文档长度)。
本发明具有如下特点:
1、结构性识别能力强。对实际中较多出现的抄袭行为如段落的删除、对调、自复制、合并、拆分均能识别,同时对个别词语的替换、增减仍能识别。
2、单向性。定义的抄袭距离D(A,B)与D(B,A)并一定相等,符合抄袭是一种单向行为的特点。
3、无需词库支持。不需要中文词库、同义词库、词频库等数据库的支持,不存在分词问题,保证了抄袭识别器实施简单。
4、低计算复杂性。计算量O(N2)阶。
5、字符集大小无关。无论处理大字符集的中文文档,还是处理小字符集的西文文档,算法一致,都可以以统一的UNICODE双字节字符来处理文本。
下面将结合附图对较佳实施例进行详细说明。
附图说明
图1是本发明的较佳实施例结构图;
图2是本发明的抄袭识别器的较佳实施例工作流程图;
图3是近似串匹配距离和本发明较佳实施例的近似匹配片段计算的流程图;
图4是本发明的回退数按定义方法1计算的流程图;
图5是本发明的回退数按定义力法2计算的流程图;
图6是本发明的前跳数按定义方法1计算的流程图;
图7是本发明的前跳数按定义方法2计算的流程图。
具体实施方式
参照图1,其为本发明的较佳实施例结构图。系统包含文档读取装置101、文档分段落装置102、抄袭识别器103、文档存储器104和输出装置105,其中文档读取装置101、文档分段落装置102、抄袭识别器103分别与文档存储器104连接,抄袭识别器103与输出装置105连接。文档读取装置101从本计算机系统或其它计算机系统或互联网读取若干电子文本文档,然后送往文档存储器104,文档分段落装置102将文档存储器104中的待识别的文档A和文档B进行段落划分,其实就是插入一些段落分界符,本实施例就用文档中的回车符作为天然的段落分界符,所以文档分段落装置其实什么都不用做。抄袭识别器103把文档存储器104中已分好段落的两个文档进行抄袭识别,判断文档A是否抄袭文档B,并将识别结果交给输出装置105,输出装置105将识别结果输出到本计算机系统或其它计算机系统或互联网。
参照图2,其为本发明的较佳实施例中,抄袭识别器识别文档A是否抄袭文档B的流程图。在步骤201,将段落序号i和近似串匹配距离累加和dSum初始化,然后进行步骤202,计算文档A的第i个段落Ai在文档B全文中的近似串匹配距离dASM(Ai,B)和近似匹配片段[si,ti],具体计算的较佳实施例可参照图3。在步骤203将dASM(Ai,B)累加到dSum,接着步骤204将段落序号i增1,并在步骤205判断i是否超过文档A的段落总数,如果超过,说明文档A的所有段落处理完毕,转向步骤206,否则,转向步骤202,继续下一个段落的处理。步骤206是根据前面得到的[si,ti]计算回退数nRET,具体计算的实施例可参照图4或图5。步骤207是根据前面得到的[si,t1]计算前跳数nSKIP,具体计算的实施例可参照图6或图7。最后在步骤208将近似串匹配距离的累加和dSum、回退数nRET和前跳数nSKIP三者求和,作为文档A对于文档B的抄袭距离D(A,B),并在步骤209将D(A ,B)与给定的阈值比较,若D(A,B)小于该阈值,得判断结果210:文档A抄袭文档B,否则得判断结果211:文档A没有抄袭文档B。
参照图3,其为近似串匹配距离和本发明较佳实施例的近似匹配片段计算的流程图。要计算字符串S1关于字符串S2的近似串匹配距离和近似匹配片段,先执行步骤301,得到S1的长度M和S2的长度N,接着执行步骤302给大小为(M+1)×(N+1)的二维数组d(最小后缀距离矩阵)初始化,第0行初始化为0,第0列初始化为行号i。然后在步骤303根据动态规划算法自二维数组d的左上角向右下角计算出所有的元素d[i][j],在步骤304计算出d的最后一行元素d[M][j],(j=0,1,...,N)的最小值即近似串匹配距离dASM(S1,S2),同时确定达到该最小值的最小列下标t,这是尾部最靠前的近似匹配片段的尾部下标。最后在步骤305通过反向追踪d[M][t]的形成过程,并按插入字符优先、修改字符次之、删除字符最后的优先顺序得到一个唯一的首部列下标为s的近似匹配片段[s,t],这个反向追踪步骤是动态规划算法所自然蕴涵的一个算法部分。
参照图4,其为本发明较佳实施例中,回退数按定义方法1计算的流程图,根据抄袭识别器中得到的[Si,ti]计算回退数。首先是步骤401,给文档A的段落序号i初始化为2,表示从第2个段落开始,并给回退数nRET初始化成0,接着进行步骤402,判断当前近似匹配片段的首部是否位于上一近似匹配片段尾部之前,若是,则执行步骤403,回退数增加1,不然回退数保持不变。然后执行步骤404,将当前段落序号i增1,接着进行步骤405,判断段落序号i是否大于文档A的段落总数,即是否处理完文档A的所有段落,若是,结束,nRET的内容为所求的回退数,否则,转向步骤402,继续下一个段落的处理。
参照图5,其为本发明较佳实施例中,回退数按定义方法2计算的流程图,根据抄袭识别器中得到的[si,ti]计算回退数。首先是步骤501,给文档A的段落序号i初始化为2,表示从第2个段落开始,并给回退数nRET初始化成0,接着进行步骤502,判断当前近似匹配片段的首部是否位于上一近似匹配片段尾部之前,若是,则执行步骤503,确定当前近似匹配片段首部si在文档B中的段落序号P1,和步骤504,确定上一近似匹配片段尾部ti-1在文档B中的段落序号P2,以及步骤505,回退数增加(P2-P1+1),然后执行步骤506;若步骤502的判断结果为假,回退数保持不变,直接执行步骤506。在步骤506将当前段落序号i增1之后,接着进行步骤507,判断段落序号i是否大于文档A的段落总数,即是否处理完文档A的所有段落,若是,结束,nRET的内容为所求的回退数,否则,转向步骤502,继续下一个段落的处理。
参照图6,其为本发明较佳实施例中,前跳数按定义方法1计算的流程图,根据抄袭识别器中得到的[Si,ti]计算前跳数。首先是步骤601,给文档A的段落序号i初始化为1,表示从第1个段落开始,并给前跳数nSKIP初始化成0,因为第1个段落没有上一个段落及其近似匹配片段,故给t0在文档B中的段落序号规定为0,接着进行步骤602,确定当前近似匹配片段首部si在文档B中的段落序号P1,以及步骤603,确定上一近似匹配片段尾部ti-1在文档B中的段落序号P2。然后是步骤604,判断当前近似匹配片段的首部所在段落是否在上一近似匹配片段尾部所在段落之后且至少间隔1个段落,或者说,P1、P2之差是否大于等于2,若是,则执行步骤605,前跳数增1,不然前跳数保持不变。然后执行步骤606,将当前段落序号i增加1,接着进行步骤607,判断段落序号i是否大于文档A的段落总数,即是否处理完文档A的所有段落,若是,结束,nSKIP的内容为所求的前跳数,否则,转向步骤602,继续下一个段落的处理。
参照图7,其为本发明较佳实施例中,前跳数按定义方法2计算的流程图,根据抄袭识别器中得到的[si,ti]计算前跳数。首先是步骤701,给文档A的段落序号i初始化为1,表示从第1个段落开始,并给前跳数nSKIP初始化成0,因为第1个段落没有上一个段落及其近似匹配片段,故给t0在文档B中的段落序号规定为0,接着进行步骤702,确定当前近似匹配片段首部si在文档B中的段落序号P1,以及步骤703,确定上一近似匹配片段尾部ti-1在文档B中的段落序号P2。然后是步骤704,判断当前近似匹配片段的首部所在段落是否在上一近似匹配片段尾部所在段落之后且至少间隔1个段落,或者说,P1、P2之差是否大于等于2,若是,则执行步骤705,前跳数增加(P1-P2-1),不然前跳数保持不变。然后执行步骤706,将当前段落序号i增1,接着进行步骤707,判断段落序号i是否大于文档A的段落总数,即是否处理完文档A的所有段落,若是,结束,nSKIP的内容为所求的前跳数,否则,转向步骤702,继续下一个段落的处理。
附图4~7对回退数和前跳数单独进行累加步骤说明,是为了抄袭距离问题的清晰表述和回退数、前跳数的容易理解。计算机程序员将回退数、前跳数的累加步骤并入到附图2的步骤202~步骤205构成的段落循环中去,并不脱离本发明的范围。

Claims (3)

1.一种电子文本文档的抄袭识别方法,该方法通过至少包含文档读取装置、文档分段落装置、抄袭识别器、文档存储器和输出装置的计算机系统识别电子文本文档的抄袭,其中所说文档读取装置、文档分段落装置、抄袭识别器分别与所说文档存储器连接,所说抄袭识别器与所说输出装置连接,其特征在于,所说抄袭识别器的运行包含下列步骤:
①若欲识别文档甲是否抄袭文档乙,先计算文档甲的每个段落在文档乙中的近似串匹配距离和近似匹配片段,并根据近似匹配片段计算回退数和前跳数;
所说近似串匹配距离是指所说文档乙的所有子串与所说文档甲的段落的编辑距离的最小值,其中编辑距离是指通过字符插入、字符删除和字符替换三种操作将一个字符串变为另一个字符串的最少操作次数,所说近似匹配片段是指所说文档乙中与所说文档甲的段落的编辑距离达到近似串匹配距离的子串,若该子串不唯一,取尾部最靠前的那些子串中的长度最短者;
所说回退数是指:文档甲各段落的近似匹配片段中,其首部位于上一近似匹配片段尾部之前的个数;或者是指:一个近似匹配片段首部位于上一近似匹配片段尾部之前时,以该近似匹配片段首部与上一近似匹配片段尾部之间所包含的段落分界符的个数加1作为数值,关于第2个近似匹配片段开始的每个近似匹配片段的该数值求和的总数;
所说前跳数是指:文档甲各段落的近似匹配片段中,其首部所在段落在上一近似匹配片段尾部所在段落的后面并且至少间隔一个文档乙段落的个数,其中对第1个近似匹配片段而言,上一近似匹配片段尾部所在段落视为第0段;或者是指:一个近似匹配片段首部所在段落在上一近似匹配片段尾部所在段落的后面并且至少间隔一个文档乙段落时,以该近似匹配片段首部所在段落与上一近似匹配片段尾部所在段落之间所间隔的段落数为数值,关于每个近似匹配片段的该数值求和的总数,其中对第1个近似匹配片段而言,上一近似匹配片段尾部所在段落视为第0段;
②然后将各近似串匹配距离之和、回退数和前跳数三者求和,作为文档甲对于文档乙的抄袭距离;
③最后根据抄袭距离判断文档甲是否抄袭文档乙,若该抄袭距离小于一定的阈值,则视文档甲涉嫌抄袭文档乙,否则视文档甲没有涉嫌抄袭文档乙。
2.如权利要求1所述的方法,其特征在于,所说文档读取装置是指从本计算机系统或其它计算机系统或互联网读取电子文档的接口装置。
3.如权利要求1所述的方法,其特征在于,所说输出装置是指向显示器输出人眼可见的符号或向本计算机系统或其它计算机系统或互联网输出人眼不可见的电、磁或无线信号的接口装置。
CN2008101622459A 2008-11-27 2008-11-27 基于近似串匹配距离的电子文本文档抄袭识别方法 Expired - Fee Related CN101441620B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008101622459A CN101441620B (zh) 2008-11-27 2008-11-27 基于近似串匹配距离的电子文本文档抄袭识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008101622459A CN101441620B (zh) 2008-11-27 2008-11-27 基于近似串匹配距离的电子文本文档抄袭识别方法

Publications (2)

Publication Number Publication Date
CN101441620A CN101441620A (zh) 2009-05-27
CN101441620B true CN101441620B (zh) 2010-04-14

Family

ID=40726059

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101622459A Expired - Fee Related CN101441620B (zh) 2008-11-27 2008-11-27 基于近似串匹配距离的电子文本文档抄袭识别方法

Country Status (1)

Country Link
CN (1) CN101441620B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2490490A (en) 2011-04-28 2012-11-07 Nds Ltd Encoding natural-language text and detecting plagiarism
CN104731828B (zh) 2013-12-24 2017-12-05 华为技术有限公司 一种跨领域文档相似度计算方法及装置
CN105095204B (zh) * 2014-04-17 2018-12-14 阿里巴巴集团控股有限公司 同义词的获取方法及装置
CN104778687B (zh) * 2015-03-26 2019-04-26 北京奇虎科技有限公司 一种图像匹配方法和装置
CN105138534B (zh) * 2015-06-29 2018-08-03 中山大学 基于fmd索引和快表的跨越式种子查找算法
CN109635254A (zh) * 2018-12-03 2019-04-16 重庆大学 基于朴素贝叶斯、决策树和svm混合模型的论文查重方法
CN111352549B (zh) * 2020-02-25 2022-01-07 腾讯科技(深圳)有限公司 一种数据对象展示方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1492327A (zh) * 2003-09-10 2004-04-28 西安交通大学 一种利用计算机程序检测电子文本剽窃的方法
CN1529263A (zh) * 2003-09-18 2004-09-15 北京邮电大学 中文文本自动分词和判别文本抄袭的装置和方法
US6976170B1 (en) * 2001-10-15 2005-12-13 Kelly Adam V Method for detecting plagiarism

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6976170B1 (en) * 2001-10-15 2005-12-13 Kelly Adam V Method for detecting plagiarism
CN1492327A (zh) * 2003-09-10 2004-04-28 西安交通大学 一种利用计算机程序检测电子文本剽窃的方法
CN1529263A (zh) * 2003-09-18 2004-09-15 北京邮电大学 中文文本自动分词和判别文本抄袭的装置和方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
邓爱萍.程序代码相似度度量算法研究.计算机工程与设计29 17.2008,29(17),4636-4639.
邓爱萍.程序代码相似度度量算法研究.计算机工程与设计29 17.2008,29(17),4636-4639. *

Also Published As

Publication number Publication date
CN101441620A (zh) 2009-05-27

Similar Documents

Publication Publication Date Title
CN101441620B (zh) 基于近似串匹配距离的电子文本文档抄袭识别方法
Deng et al. Syntax-guided hierarchical attention network for video captioning
Shnarch et al. Will it blend? blending weak and strong labeled data in a neural network for argumentation mining
Mollá et al. Named entity recognition for question answering
Chang et al. Automatic information extraction from semi-structured web pages by pattern discovery
CN111078889A (zh) 一种基于多种实体注意力和改进预训练语言模型的药物间关系抽取方法
Kent et al. Features based text similarity detection
Alsaaran et al. Arabic named entity recognition: A BERT-BGRU approach
CN107871002A (zh) 一种基于指纹融合的跨语言剽窃检测方法
Guo et al. Deep semantic-based feature envy identification
Harrag et al. Extracting named entities from prophetic narration texts (Hadith)
CN108021682A (zh) 开放式信息抽取背景下一种基于维基百科的实体语义化方法
CN110866087B (zh) 一种基于主题模型的面向实体的文本情感分析方法
Nityasya et al. Hypernym-hyponym relation extraction from indonesian wikipedia text
Onyenwe et al. Toward an effective igbo part-of-speech tagger
CN113761192B (zh) 文本处理方法、文本处理装置及文本处理设备
Rodríguez et al. Noun-based attention mechanism for fine-grained named entity recognition
Putra et al. Sentence boundary disambiguation for Indonesian language
Celebi et al. Segmenting hashtags using automatically created training data
CN116069948A (zh) 内容风控知识库构建方法、装置、设备及存储介质
Munot et al. Conceptual framework for abstractive text summarization
Hubková Named-entity recognition in Czech historical texts: Using a CNN-BiLSTM neural network model
Phan et al. Automated data extraction from the web with conditional models
Qi English Sentence Semantic Feature Extraction Method Based on Fuzzy Logic Algorithm.
Singh et al. Neural approaches towards text summarization

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100414

Termination date: 20141127

EXPY Termination of patent right or utility model