CN107871002A - 一种基于指纹融合的跨语言剽窃检测方法 - Google Patents
一种基于指纹融合的跨语言剽窃检测方法 Download PDFInfo
- Publication number
- CN107871002A CN107871002A CN201711101596.4A CN201711101596A CN107871002A CN 107871002 A CN107871002 A CN 107871002A CN 201711101596 A CN201711101596 A CN 201711101596A CN 107871002 A CN107871002 A CN 107871002A
- Authority
- CN
- China
- Prior art keywords
- mrow
- fingerprint
- sentence
- language
- disambiguation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 66
- 230000004927 fusion Effects 0.000 title claims abstract description 11
- 239000012634 fragment Substances 0.000 claims abstract description 18
- 238000011524 similarity measure Methods 0.000 claims abstract description 9
- 238000004364 calculation method Methods 0.000 claims abstract description 5
- 238000003058 natural language processing Methods 0.000 claims abstract description 3
- 238000000034 method Methods 0.000 claims description 19
- 229910002056 binary alloy Inorganic materials 0.000 claims 1
- 230000000875 corresponding effect Effects 0.000 description 15
- 230000008569 process Effects 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 7
- 238000013519 translation Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 235000013399 edible fruits Nutrition 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000035699 permeability Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 238000007630 basic procedure Methods 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000227 grinding Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/10—Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Technology Law (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Machine Translation (AREA)
Abstract
本发明提供的是一种基于指纹融合的跨语言剽窃检测方法。将需要进行剽窃检测的中英文文本集,通过自然语言处理提取其名词序列,利用WordNet的名词树形结构,通过中间指纹编码算法将名词序列编码成中间指纹;然后基于中间指纹,利用语义密度对指纹编码进行语义消歧;通过指纹选取策略提取出能够代表当前片段语义的中英文指纹,运用Dice系数对指纹进行相似度计算,利用计算结果根据阈值选取出潜在剽窃片段;然后按照SinWin算法计算句子之间的相似度,通过阈值选取出剽窃句子,最后通过剽窃片段合并形成最后的剽窃检测结果。本发明在跨语言相似检索阶段跨越了语言的障碍,对于较长的段落来说是合适和高效的。
Description
技术领域
本发明涉及的是一种跨语言剽窃检测方法。
背景技术
剽窃检测是判断一个文档的内容、观点和思想是否抄袭、剽窃或复制于其他文档,一般包括完全抄袭、同义词替换、修改剽窃、翻译剽窃、观点剽窃等等。外部剽窃检测评估根据一个或多个源文件,内部剽窃检测即没有源文件,通过写作风格变化来检测,而跨语言剽窃检测必须考虑到语言的不同。
1.外部剽窃检测
外部剽窃检测是给定一篇可疑文本,从源文档集合里面检索出与可疑文本相似度大于一定阈值的文档。外部剽窃检测的一般的系统流程如下:
输入:查询文档dq,文档集D;
输出:可疑章节对(sq,sx),sq属于dq,sx属于D中的某篇文档;
(1)经过检索模型检索出D中可能包含剽窃源头的文档,构成潜在剽窃文档集;
(2)将dq和Dx中的文档分割成章节(或片段),使用某比较方法将这些章节(sq,sx)成对的基于特征的比较;
(3)通过基于知识的后处理过程,将比较结果即可疑章节对呈现给用户。
2.内部剽窃检测
内部剽窃检测是通过分析文档作者写作风格上的变化来识别潜在的剽窃行为。它与原著归属的过程类似。原著认证的目的是验证文档是否是一个特定的作者所写,原著归属的目的是找出某篇文档的作者,三者的目的是不同的。内部剽窃检测的一般的系统流程如下:
输入:查询文档dq;
输出:可疑章节sq;
(1)将文档dq分割成更小的片段,例如,章节、段落或者是句子;
(2)提取片段的各个特征;
(3)利用基于特征的度量和量化函数来分析各个片段在风格特征上的不同,如果片段有与文档余下部分风格不一致的部分,它将被标记为可能剽窃的部分。
3.跨语言剽窃检测
单语言剽窃检测是指在同种语言环境下进行剽窃检测,而跨语言剽窃检测是指在不同语言的环境下进行剽窃检测。跨语言剽窃检测的一般流程如下:
输入:查询文档dq(用语言lq写的),文档集D;
输出:可疑章节对(sq,sx);
(1)经过跨语言检索模型检索出D中可能包含剽窃源头的文档,构成潜在剽窃文档集Dx(如果dq已经用机器翻译技术翻译过了,Dx也可以利用某些单语言信息检索模型得到);
(2)利用成对的基于特征的详细分析得到dq中所有与dx中的Sx相似的可疑部分sq;
(3)通过基于知识的后处理过程,将比较结果即可疑部分对呈现给用户。
4.数字指纹
数字指纹是把文本中的某些特征通过某种选取策略进行哈希计算而生成的。如果直接对原文本进行字符串的匹配会存在很多问题,比如,存储空间大、效率低、精度不够。因此需要把文本映射成指纹进行剽窃检测。
指纹是指把这些文本块经过哈希生成的数字。为了评价文本剽窃程度,需要计算两个文本指纹的相似度,因此文本所对应的指纹应该能够很好的表示该文本。根据数字指纹的相关定义,得知需要考虑以下几点:文本块粒度、指纹的选取策略、文本数量以及函数的选择问题。
文本粒度是指用于生成数字指纹的文本长度。文本粒度的选择最后会对剽窃结果的精度产生很大的影响。最大的指纹粒度是整个文本,这样只能检测出原封不动复制粘贴的文本,对稍有变动的剽窃检测不出来;最小的是一个字符,这样容易导致生成的指纹过多,效率过慢,而且会产生很多错误的匹配,使精度下降。指纹的选取策略有全指纹选取、基于频率的选取、基于结构的选取和基于位置的选取。而关于文本块的选择问题直接和指纹数量相关,指纹数量太多准确度高,但计算量和存储空间大了。因此需要选择合适的指纹数量进行计算。
指纹特征值小,速度较快是数字指纹技术的优点,而且其适合大规模的运算,因此比较流行。不过其也有缺点,数字指纹技术由于是选择连续的文本来生成指纹,因此一般只能解决复制粘贴类的剽窃抄袭问题,但对于转述、同义词替换、前后顺序打乱之类的智能剽窃就不能很好的进行检测了,因此还有待改进和研究。
发明内容
本发明的目的在于提供一种能够从英文文献中直接翻译过来的中文中检测出抄袭问题的基于指纹融合的跨语言剽窃检测方法。
本发明的目的是这样实现的:
将需要进行剽窃检测的中英文文本集,通过自然语言处理提取其名词序列,利用WordNet的名词树形结构,通过中间指纹编码算法将名词序列编码成中间指纹;然后基于中间指纹,利用语义密度对指纹编码进行语义消歧;通过指纹选取策略提取出能够代表当前片段语义的中英文指纹,运用Dice系数对指纹进行相似度计算,利用计算结果根据阈值选取出潜在剽窃片段;然后按照SinWin算法计算句子之间的相似度,通过阈值选取出剽窃句子,最后通过剽窃片段合并形成最后的剽窃检测结果。
本发明还可以包括:
1、所述利用WordNet的名词树形结构,通过中间指纹编码算法将名词序列编码成中间指纹的过程中,对WordNet中的名词同义词集进行指纹编码的方法为:
(1)子节点的编码以父节点的编码为前缀;
(2)用levelbiti位二进制编码第i层,其中evelmi是第i层的最大子节点数;
(3)从最高位开始编码,用1到位编码第一层,用到位编码第二层,以此类从最高位开始编码,用1到levelbit1位二进制编码第一层,用levelbit1到levelbit1+levelbit2位二进制编码第二层,以此类推。
2、所述利用语义密度对指纹编码进行语义消歧中,对于窗口长度为2l+1的R:{ra,ra+l,…,ra+l-1,ra+l,ra+l+1,…,ra+2l-1,ra+2l},被消歧词是ra+l,其中l是自定义窗口增量,a是自定义消岐初始位置,R是待消歧窗口,ra是当前待消歧词。消歧算法的主要步骤如下:
(1)将包含R中每个ri的同义词集合并为一个大的候选集
(2)对候选集C中的所有同义词集按照它们对应的中间指纹排序;
(3)计算C中任意几个同义词集的语义密度,ra+l的消歧结果就是语义密度最大的子树下的同义词集;
(4)往后移动一个窗口,重复上述步骤,直到所有名词都被消歧。
3、按照SinWin算法计算句子之间的相似度中采用如下公式对指纹进行融合,
其中,H(A,B)是句子A和句子B的汉明距离,f是SimHash算法中产生指纹的位数,Swinowing(A,B)是句子A和句子B通过Winnowing算法计算得出的相似度,α是SimHash算法的权重,1-α是Winnowing算法结果的权重。
剽窃检测(plagiarism detection),又称复制检测(copy detection),其中包含程序剽窃检测和自然语言剽窃检测。在自然语言方面的剽窃检测算法和在编程语言方面的检测算法有着明显的差异。
本发明提供的是一种基于指纹融合的跨语言剽窃检测技术,提出基于WordNet的中间指纹编码方法,基于指纹的跨语言对齐与消歧策略以及基于指纹融合的跨语言文本相似度计算。从文本、段落及子句三个不同的层次分析中英文文本之间的相似度问题,判断存在剽窃可能的文本。
跨语言剽窃检测就是在不同的语言之间进行剽窃检测。本质上来说,跨语言剽窃检测和单语剽窃检测是一样的,所不同的是跨语言是用不同的语言写的,需要跨越语言这个障碍来进行剽窃检测。本发明所遵循的跨语言剽窃的基本流程,可以分为三个阶段:启发式检索、详细分析、结果后处理。而其中又属第二步详细分析最为重要,主要是将潜在剽窃文档中的每一篇文档和查询文档进行跨语言相似度计算,从而判断其是否可能存在剽窃现象。
(一)需要解决的技术问题
本发明需要解决的技术问题为:由于词语往往具有一词多义的现象,和中文相比较语言差异尤其明显,所以从英文文献中直接翻译过来的中文这种抄袭很难检测出来,针对这个问题,本发明专门针对跨语言剽窃检测技术进行了研究,达到跨语言文本剽窃检测的目的。
(二)主要技术手段
跨语言剽窃一般使用开源的翻译软件,对文本进行翻译后,粘贴到自己的论文中。而对跨语言剽窃进行检测时不可能对所有的源文本都进行详细的分析,因此需要先对源文本进行检索,检索出可能是剽窃的段落之后,再进行详细分析。图1是跨语言剽窃检测的总体框架图。由图1可知跨语言剽窃检测的主要步骤如下:首先分段,这是为了减少剽窃分析阶段进行分析的文本数量,把源文档分成几个子文档,每个子文档由源文档的单个段落组成;然后对每个子文档进行跨语言相似检索,从而形成潜在剽窃文档集,这个过程在剽窃检测中是至关重要的,因为此过程检索出的潜在剽窃集应该包括全部剽窃集,如果有漏掉,将直接影响剽窃检测的精准性;最后对每个子文档和其对应的潜在剽窃集进行详细分析和结果后处理,形成最终的剽窃集。
由于是跨语言文本剽窃检测,不同的语言之间的会有很大的差异,为了尽量减少对语言资源的依赖,本发明采用独立于语言的算法。基于大多数国家已经有了与PrincetonWordNet相对应的WordNet,而在此基础上提出了基于WordNet的中间指纹编码算法。通过研究我们发现在不同的语言之间,名词的对应关系最为清晰,因为它们都对应于客观世界中的本体,而形容词等有时较难找到明确的对应关系。在WordNet中名词是以树形结构存储的,而且是以语义为节点,即同义词集,这样就把语言的具体表现形式变为了语义。本发明将所有的名词同义词集进行指纹编码,其产生的指纹就是独立于语言的一个语义中间层,所以称为中间指纹。本发明的对WordNet中的名词同义词集进行指纹编码的过程,是考虑到后续需要对名词进行消歧以及指纹提取,同时也为了提高效率而提出的。
图2是中间指纹编码示意图。WordNet中的名词同义词集通过指纹生成算法映射到一个数值空间,通过分析此中间指纹编码算法,可以得知不同的同义词集对应不同的指纹,即不存在两个不同的同义词集对应的指纹是一样的情况,而且由于子节点的编码是以父节点的编码为前缀的,因此可以由前缀区分出哪些节点父节点不同,而且此指纹编码算法还考虑了本发明后面的语义消歧和指纹提取过程中的特征过滤。
其次,在基于WordNet的中间指纹编码算法的基础上,经过对文本进行分词和词性标注等预处理,抽取出文本中的名词。然而我们知道名词在不同的上下文中会有不同的义项,如何确定该名词的义项,就需要对其进行消歧。现有的消歧算法要么基于语料库要么效率不够高效,而且我们只需要对抽取出的名词进行消歧,基于中间指纹对其进行消歧,从而实现中英文的对齐,然后在语义频率的基础上对指纹进行选取,形成文本各自所对应的指纹。本发明通过语义密度来进行消歧,主要是利用概念相关性原理在消歧窗口中包含所有词的义项中选取多个,计算语义密度。消歧的结果是语义密度最大的子树包含的义项。假设消歧窗口的大小是19,窗口中都是提取出的名词,而中间的词就是被消歧的词,比如:{r1,r2,…,r9,r10,r11,…,r18,r19},r10是被消歧的词,每次确定一个词的义项后,窗口向后移动一个,此时r11为被消歧的词,以此类推,直到所有的名词都确定义项。
图3是跨语言指纹相似度计算流程图。首先对中英文文本分别进行预处理,包括分段,分句,分词,标注词性,词干化,提取特征值;然后按照图2中示意的基于中间指纹的编码过程进行名词特征编码,组后提出文档指纹计算相似度。
图4是剽窃检测详细分析过程图。首先用Google API对可疑文本进行翻译,并对翻译后的可疑文本段落和潜在剽窃文本段落进行分句和预处理;然后对每个句子分别按照SimHash算法和Winnowing算法计算句子之间的相似度,接着按照公式
进行融合,得到最终的句子相似度;最后按照相似度阈值判定是否为剽窃句子对。
最后,我们在中间指纹的基础上进行跨语言文本段落的相似度计算,通过相似检索形成潜在剽窃文档集。由于是在名词的基础上进行跨语言文本相似度的计算,这样对于段落和篇章来说是有效的,但是对于句子的效果就不那么明显了,因此需要对剽窃检测进行详细分析。我们在提取出的潜在剽窃文档中,对源文档进行翻译,分割成句子,然后详细分析了SimHash算法和Winnowing算法,并在这两种指纹算法的基础上提出了指纹融合算法用于剽窃检测的详细分析,最后对初步检测到的剽窃句子进行合并,形成最终的剽窃检测结果。
(三)结果分析
1、在进行文本预处理过程中,只考虑名词的作用,名词在不同语言间的对应关系是最清楚的,而形容词和副词有时很难找到对应的关系,本技术将所有的名词同义词集进行指纹编码,其产生的指纹就是独立于语言的一个语义中间层,所以称为中间指纹。
2、进行语义消歧的过程是在语义密度的基础上进行的,而语义密度是语义距离的扩展——语义距离是两个语义之间的相关性,语义密度量化的是一组语义的相关性,由于同义词集是在WordNet上进行哈希的,而语义密度也是和中间指纹有关的,因此这里的语义距离是基于WordNet的。
3、采用同义词集在树形结构中的深度作为过滤特征集的条件以选取指纹,本技术选取文档中的名词作为特征项,对于多次出现的名词也保留,其对应的指纹也是出现多次的,这就保留了类似词频的信息。
本发明提出的方法在跨语言相似检索阶段跨越了语言的障碍,但是由于中间指纹是基于名词形成的,对于较长的段落来说是合适和高效的,但是对于句子的相似度则不适用,在句子级还需要经过翻译。而具体的可疑文档翻译成源文档和源文档翻译成可疑文档这两个翻译方向是否会对结果造成影响,还需要进一步的研究。
附图说明
图1跨语言剽窃检测总体框架图。
图2中间指纹编码示意图。
图3跨语言指纹相似度计算流程图。
图4剽窃详细分析过程示意图。
具体实施方式
下面举例对本发明做更详细的描述。
1.文本预处理
文本预处理包括分词技术、词性标注、去除停用词等,英文文本需要词根还原,而且由于中文的复杂性和多义性,加之没有像英文文本的空格之类的分割标记,只有标点符号的分割,使得中文文本的预处理更加复杂,同时文本预处理的准确性也对后续的实验结果有很大的影响。需要对中文文本和英文文本分别进行预处理,从而得到名词序列。
输入:需要分析的文本信息
输出:中英文特征集
步骤1:中文文本预处理。中文文本的预处理采用中科院的汉语词法分析系统ICTCLAS,程序直接调用ICTCLAS的API对中文文本进行分词和词性标注。根据分词和词性标注结果,运用正则表达式匹配词性‘n’从而得到文本的名词特征值。
步骤2:英文文本预处理。由于英语是屈折语,而且有词尾、单复数和时态的变化,因此需要对英语进行词干化,调用Stanford Log-linear Part-Of-Speech Tagger对英文文本进行词性标注和词干化。同样也是根据正则表达式,从英文分词和词性标注的结果中提取名词特征序列,并进行词干化。
2.生成中间指纹
已知WordNet中的名词是以树形结构存储的,而其中的节点就是同义词集,其中同义词集又正好能表示一个特定的语义。由于很多国家都有与WordNet对应的本语言的WordNet,这就跨越了语言的屏障,当将不同语言的WordNet对应到一起时,每个同义词集已经是一个与语言无关的语义节点。只有通过某种自然语言才能恰当的表示这些语义。
前提条件:已经完成中英文文本预处理
输入:中英文特征集
输出:117位二进制编码
步骤3:子节点的编码以父节点的编码为前缀。
步骤4:用levelbiti位二进制编码第i层,其中levelmi是第i层的最大子节点数。
步骤5:从最高位开始编码,用1到levelbit1位二进制编码第一层,用levelbit1到levelbit1+levelbit2位二进制编码第二层,以此类推。
3.基于中间指纹进行语义消歧
基于WordNet的度量语义相似度的算法都把两个语义之间的最短路径长度和最低公共父节点的深度考虑在内。对于相同深度的节点,它们的距离和他们的相关程度负相关,即距离越大相似度越低。对于不同深度的节点,下层单位长度的路径代表的语义距离小于上层单位长度的路径代表的语义距离,这是因为在WordNet中,上层比下层表示的语义更宽泛。通过语义密度来进行消歧,主要是利用概念相关性原理在消歧窗口中包含所有词的义项中选取多个,计算语义密度。消歧的结果是语义密度最大的子树包含的义项。
前提条件:已经生成中间指纹
输入:文本段落提取出的名词序列
输出:消歧后的指纹文本集合
消歧的结果是语义密度最大的子树包含的义项。假设消歧窗口的大小是19,窗口中都是提取出的名词,而中间的词就是被消歧的词,比如:{r1,r2,…,r9,r10,r11,…,r18,r19},r10是被消歧的词,每次确定一个词的义项后,窗口向后移动一个,此时r11为被消歧的词,以此类推,直到所有的名词都确定义项。对于窗口长度为2l+1的R:{ra,ra+1,…,ra+l-1,ra+l,ra+l+1,…,ra+2l-1,ra+2l},被消歧词是ra+l,其中l是自定义窗口增量,a是自定义消岐初始位置,R是待消歧窗口,ra是当前待消歧词。
步骤6:将包含R中每个ri的同义词集合并为一个大的候选集
步骤7:对候选集C中的所有同义词集按照它们对应的中间指纹排序。
步骤8:计算C中任意几个同义词集的语义密度,ra+l的消歧结果就是语义密度最大的子树下的同义词集。
步骤9:往后移动一个窗口,重复上述步骤,直到所有名词都被消歧。
4.指纹选取
提取出文本的名词作为特征,但是有的名词很常用,不具有代表性,因此需要过滤掉,选取合适的名词指纹来作为文档的指纹。
输入:中文文本D,英文文本D′
输出:中文指纹finger1,英文指纹finger2
步骤10:采用类似IF-IDF的方法,对指纹进行选取。选取文档中的名词作为特征项,对于多次出现的名词也保留,其对应的指纹也是出现多次的,这就保留了类似词频TF的信息。
步骤11:各种名词语义在WordNet树形结构的深度越小通常具有越高的全局频率,根据平均语义和深度的关系,前四层全局频率随深度增加而增加,从第五层到二十层全局频率碎深度增加而减少,由于深度小的节点语义宽泛区分能力不强,因此把这些特征值过滤掉,即把低100全为0的指纹过滤掉,剩下的就是文档所对应的指纹。这里的全局频率是在指某个语义在语言中出现的频率,可以当做是在无穷大的语料库上训练得到的。
5.相似度计算
相对于只用单一的指纹算法来计算句子之间的相似度,我们提出的基于指纹融合的句子相似度计算方法综合了两种指纹算法的特性,将两者最终的结果很好的融合在一起,使得最终的结果更加准确,也提高了鲁棒性。
前提条件:生成了中间指纹
输入:中文文本段落d,英文文本段落d′
输出:经过指纹融合后两两句子之间的相似度SimWin
步骤12:对文本段落d执行Simhash算法和Winnowing算法。
步骤13:对文本段落d′执行Simhash算法和Winnowing算法。
步骤14:按照公式
分别计算与中文文本段落d与英文文本段落d′的SimWin系数比较得出结论。
6.剽窃片段合并
通过句子之间的相似度计算以及通过阈值的过滤,可以得到可疑文本中的句子是否剽窃了源文档中的句子,之所以采用句子作为剽窃检测的基本单位,是因为语言与语言之间的结构顺序的不同,没办法像单语一样进行确定到字的剽窃检测,而句子作为一个基本的单元,可以作为最小的检测单位。但是会出现连续剽窃两个句子,面对这种情况,剽窃检测最终的结果中应该只出现一个检测结果而不是两个。
输入:合并之前的剽窃结果
输出:合并之后的剽窃结果
步骤15:通过把源文本按照属性source_reference(参照源)分类,从而进行集体检测。
步骤16:对于步骤15中得到的每一个分类结果,将它们按照属性this_offset(当前偏移)的大小按照升序排序。
步骤17:把最多相距一个预定义的字符数的相邻的检测连接起来。
步骤18:对于每一个剽窃段落只报告一个剽窃检测结果(选取源文档中最大长度的段落),即保证可疑文本中的同一段落有不超过一个可能的剽窃来源。
按照上述步骤进行剽窃结果合并,使得最终的结果整合到一起,而不是分散的剽窃检测结果。
Claims (5)
1.一种基于指纹融合的跨语言剽窃检测方法,其特征是:将需要进行剽窃检测的中英文文本集,通过自然语言处理提取其名词序列,利用WordNet的名词树形结构,通过中间指纹编码算法将名词序列编码成中间指纹;然后基于中间指纹,利用语义密度对指纹编码进行语义消歧;通过指纹选取策略提取出能够代表当前片段语义的中英文指纹,运用Dice系数对指纹进行相似度计算,利用计算结果根据阈值选取出潜在剽窃片段;然后按照SinWin算法计算句子之间的相似度,通过阈值选取出剽窃句子,最后通过剽窃片段合并形成最后的剽窃检测结果。
2.根据权利要求1所述的基于指纹融合的跨语言剽窃检测方法,其特征是所述利用WordNet的名词树形结构,通过中间指纹编码算法将名词序列编码成中间指纹的过程中,对WordNet中的名词同义词集进行指纹编码的方法为:
(1)子节点的编码以父节点的编码为前缀;
(2)用levelbiti位二进制编码第i层,其中levelmi是第i层的最大子节点数;
(3)从最高位开始编码,用1到位编码第一层,用到位编码第二层,以此类从最高位开始编码,用1到levelbit1位二进制编码第一层,用levelbit1到levelbit1+levelbit2位二进制编码第二层,以此类推。
3.根据权利要求1或2所述的基于指纹融合的跨语言剽窃检测方法,其特征是所述利用语义密度对指纹编码进行语义消歧中,对于窗口长度为2l+1的R:{ra,ra+l,…,ra+l-1,ra+l,ra+l+1,…,ra+2l-1,ra+2l},被消歧词是ra+l,其中l是自定义窗口增量,a是自定义消岐初始位置,R是待消歧窗口,ra是当前待消歧词,消歧算法的主要步骤如下:
(1)将包含R中每个ri的同义词集合并为一个大的候选集
(2)对候选集C中的所有同义词集按照它们对应的中间指纹排序;
(3)计算C中任意几个同义词集的语义密度,ra+l的消歧结果就是语义密度最大的子树下的同义词集;
(4)往后移动一个窗口,重复上述步骤,直到所有名词都被消歧。
4.根据权利要求1或2所述的基于指纹融合的跨语言剽窃检测方法,其特征是按照SinWin算法计算句子之间的相似度中采用如下公式对指纹进行融合,
<mrow>
<mi>S</mi>
<mrow>
<mo>(</mo>
<mi>A</mi>
<mo>,</mo>
<mi>B</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>&alpha;</mi>
<mo>*</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<mfrac>
<mrow>
<mi>H</mi>
<mrow>
<mo>(</mo>
<mi>A</mi>
<mo>,</mo>
<mi>B</mi>
<mo>)</mo>
</mrow>
</mrow>
<mi>f</mi>
</mfrac>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<mi>&alpha;</mi>
<mo>)</mo>
</mrow>
<mo>*</mo>
<msub>
<mi>S</mi>
<mrow>
<mi>w</mi>
<mi>i</mi>
<mi>n</mi>
<mi>n</mi>
<mi>o</mi>
<mi>w</mi>
<mi>i</mi>
<mi>n</mi>
<mi>g</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>A</mi>
<mo>,</mo>
<mi>B</mi>
<mo>)</mo>
</mrow>
</mrow>
其中,H(A,B)是句子A和句子B的汉明距离,f是SimHash算法中产生指纹的位数,Swinowing(A,B)是句子A和句子B通过Winnowing算法计算得出的相似度,α是SimHash算法的权重,1-α是Winnowing算法结果的权重。
5.根据权利要求3所述的基于指纹融合的跨语言剽窃检测方法,其特征是按照SinWin算法计算句子之间的相似度中采用如下公式对指纹进行融合,
<mrow>
<mi>S</mi>
<mrow>
<mo>(</mo>
<mi>A</mi>
<mo>,</mo>
<mi>B</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>&alpha;</mi>
<mo>*</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<mfrac>
<mrow>
<mi>H</mi>
<mrow>
<mo>(</mo>
<mi>A</mi>
<mo>,</mo>
<mi>B</mi>
<mo>)</mo>
</mrow>
</mrow>
<mi>f</mi>
</mfrac>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<mi>&alpha;</mi>
<mo>)</mo>
</mrow>
<mo>*</mo>
<msub>
<mi>S</mi>
<mrow>
<mi>w</mi>
<mi>i</mi>
<mi>n</mi>
<mi>n</mi>
<mi>o</mi>
<mi>w</mi>
<mi>i</mi>
<mi>n</mi>
<mi>g</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>A</mi>
<mo>,</mo>
<mi>B</mi>
<mo>)</mo>
</mrow>
</mrow>
其中,H(A,B)是句子A和句子B的汉明距离,f是SimHash算法中产生指纹的位数,Swinowing(A,B)是句子A和句子B通过Winnowing算法计算得出的相似度,α是SimHash算法的权重,1-α是Winnowing算法结果的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711101596.4A CN107871002B (zh) | 2017-11-10 | 2017-11-10 | 一种基于指纹融合的跨语言剽窃检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711101596.4A CN107871002B (zh) | 2017-11-10 | 2017-11-10 | 一种基于指纹融合的跨语言剽窃检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107871002A true CN107871002A (zh) | 2018-04-03 |
CN107871002B CN107871002B (zh) | 2021-03-30 |
Family
ID=61753678
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711101596.4A Active CN107871002B (zh) | 2017-11-10 | 2017-11-10 | 一种基于指纹融合的跨语言剽窃检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107871002B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284485A (zh) * | 2018-08-02 | 2019-01-29 | 哈尔滨工程大学 | 一种基于引用的论文原创性检测方法 |
CN109918621A (zh) * | 2019-02-18 | 2019-06-21 | 东南大学 | 基于数字指纹和语义特征的新闻文本侵权检测方法与装置 |
CN110472228A (zh) * | 2019-07-10 | 2019-11-19 | 哈尔滨工程大学 | 一种基于作者写作风格的裂缝检测方法 |
CN111581947A (zh) * | 2020-04-29 | 2020-08-25 | 华南理工大学 | 一种相似文本标定方法 |
WO2020253052A1 (zh) * | 2019-06-18 | 2020-12-24 | 平安普惠企业管理有限公司 | 一种基于自然语义理解的行为识别方法及相关设备 |
CN112380834A (zh) * | 2020-08-25 | 2021-02-19 | 中央民族大学 | 藏语论文剽窃检测方法和系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101639826A (zh) * | 2009-09-01 | 2010-02-03 | 西北大学 | 一种基于中文句式模板变换的文本隐藏方法 |
CN101957864A (zh) * | 2010-10-21 | 2011-01-26 | 同方知网(北京)技术有限公司 | 应用于抄袭检测的信息指纹索引方法 |
US20130097380A1 (en) * | 2011-10-14 | 2013-04-18 | John Colgrove | Method for maintaining multiple fingerprint tables in a deduplicating storage system |
CN103544326A (zh) * | 2013-11-14 | 2014-01-29 | 上海交通大学 | 基于译文特征与内容的中英文跨语种抄袭识别方法 |
CN104050299A (zh) * | 2014-07-07 | 2014-09-17 | 江苏金智教育信息技术有限公司 | 一种论文查重的方法 |
-
2017
- 2017-11-10 CN CN201711101596.4A patent/CN107871002B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101639826A (zh) * | 2009-09-01 | 2010-02-03 | 西北大学 | 一种基于中文句式模板变换的文本隐藏方法 |
CN101957864A (zh) * | 2010-10-21 | 2011-01-26 | 同方知网(北京)技术有限公司 | 应用于抄袭检测的信息指纹索引方法 |
US20130097380A1 (en) * | 2011-10-14 | 2013-04-18 | John Colgrove | Method for maintaining multiple fingerprint tables in a deduplicating storage system |
CN103544326A (zh) * | 2013-11-14 | 2014-01-29 | 上海交通大学 | 基于译文特征与内容的中英文跨语种抄袭识别方法 |
CN104050299A (zh) * | 2014-07-07 | 2014-09-17 | 江苏金智教育信息技术有限公司 | 一种论文查重的方法 |
Non-Patent Citations (2)
Title |
---|
彭哲: "跨语言文本相关性检测技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
李旭: "基于指纹和语义知识表示的中文文档复制检测方法", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284485A (zh) * | 2018-08-02 | 2019-01-29 | 哈尔滨工程大学 | 一种基于引用的论文原创性检测方法 |
CN109284485B (zh) * | 2018-08-02 | 2023-04-07 | 哈尔滨工程大学 | 一种基于引用的论文原创性检测方法 |
CN109918621A (zh) * | 2019-02-18 | 2019-06-21 | 东南大学 | 基于数字指纹和语义特征的新闻文本侵权检测方法与装置 |
CN109918621B (zh) * | 2019-02-18 | 2023-02-28 | 东南大学 | 基于数字指纹和语义特征的新闻文本侵权检测方法与装置 |
WO2020253052A1 (zh) * | 2019-06-18 | 2020-12-24 | 平安普惠企业管理有限公司 | 一种基于自然语义理解的行为识别方法及相关设备 |
CN110472228A (zh) * | 2019-07-10 | 2019-11-19 | 哈尔滨工程大学 | 一种基于作者写作风格的裂缝检测方法 |
CN110472228B (zh) * | 2019-07-10 | 2023-04-07 | 哈尔滨工程大学 | 一种基于作者写作风格的裂缝检测方法 |
CN111581947A (zh) * | 2020-04-29 | 2020-08-25 | 华南理工大学 | 一种相似文本标定方法 |
CN112380834A (zh) * | 2020-08-25 | 2021-02-19 | 中央民族大学 | 藏语论文剽窃检测方法和系统 |
CN112380834B (zh) * | 2020-08-25 | 2023-10-31 | 中央民族大学 | 藏语论文剽窃检测方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107871002B (zh) | 2021-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107957991B (zh) | 一种基于句法依赖的实体属性信息抽取方法及装置 | |
CN107871002A (zh) | 一种基于指纹融合的跨语言剽窃检测方法 | |
WO2021114745A1 (zh) | 一种基于词缀感知的社交媒体命名实体识别方法 | |
CN103207905B (zh) | 一种基于目标文本的计算文本相似度的方法 | |
CN103729402B (zh) | 一种基于图书目录的知识图谱的构建方法 | |
CN103544255B (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
CN108132929A (zh) | 一种海量非结构化文本的相似性计算方法 | |
CN106776562A (zh) | 一种关键词提取方法和提取系统 | |
CN110020189A (zh) | 一种基于中文相似性计算的文章推荐方法 | |
CN102622338A (zh) | 一种短文本间语义距离的计算机辅助计算方法 | |
Kent et al. | Features based text similarity detection | |
CN107463658A (zh) | 文本分类方法及装置 | |
EP3483747A1 (en) | Preserving and processing ambiguity in natural language | |
Hao et al. | Chinese short text classification with mutual-attention convolutional neural networks | |
CN106407195B (zh) | 用于网页消重的方法和系统 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN101441620B (zh) | 基于近似串匹配距离的电子文本文档抄袭识别方法 | |
CN116244448A (zh) | 基于多源数据信息的知识图谱构建方法、设备及系统 | |
CN110019674A (zh) | 一种文本抄袭检测方法及系统 | |
CN113111645B (zh) | 一种媒体文本相似性检测方法 | |
Chader et al. | Sentiment Analysis for Arabizi: Application to Algerian Dialect. | |
Han et al. | Unsupervised Word Sense Disambiguation based on Word Embedding and Collocation. | |
Ali et al. | Detection of plagiarism in Urdu text documents | |
Klang et al. | Linking, searching, and visualizing entities in wikipedia | |
CN103034657A (zh) | 文档摘要生成方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |