CN110489745B - 基于引文网络的论文文本相似性的检测方法 - Google Patents

基于引文网络的论文文本相似性的检测方法 Download PDF

Info

Publication number
CN110489745B
CN110489745B CN201910701668.1A CN201910701668A CN110489745B CN 110489745 B CN110489745 B CN 110489745B CN 201910701668 A CN201910701668 A CN 201910701668A CN 110489745 B CN110489745 B CN 110489745B
Authority
CN
China
Prior art keywords
document
sentence
calculating
similarity
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910701668.1A
Other languages
English (en)
Other versions
CN110489745A (zh
Inventor
武山山
王继民
罗鹏程
赵常煜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Pan Language Technology Co ltd
Peking University
Original Assignee
Chongqing Pan Language Technology Co ltd
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Pan Language Technology Co ltd, Peking University filed Critical Chongqing Pan Language Technology Co ltd
Priority to CN201910701668.1A priority Critical patent/CN110489745B/zh
Publication of CN110489745A publication Critical patent/CN110489745A/zh
Application granted granted Critical
Publication of CN110489745B publication Critical patent/CN110489745B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于引文网络的论文文本相似性的检测方法,该方法在引文网络的基础上提出了基于书目耦合与语义指纹相结合的候选文档集过滤,在候选文档集上,基于词建立句子级别的倒排索引,进行相似句子检测与观点片段检测,生成相似文本,计算得到待检文档的复制比,从而判断出论文文本的相似性。本发明基于词向量的句子比对与观点检测,将词向量与同义词引入到文本相似性计算中,提升了句子相似性的计算效果且具有计算速度快的优点,能够检测出论文文本中可能涉及观点抄袭的文本片段。采用本发明不仅速度快,而且对词语替换、句子重组等形式的句子相似性检测具有好的效果。

Description

基于引文网络的论文文本相似性的检测方法
技术领域
本发明提供一种论文文本相似性的检测方法,具体涉及一种基于引文网络的论文文本相似性的检测方法,属于文本检测领域。
背景技术
论文抄袭不仅有违科研基本精神,而且严重损害了科研的公平性及其他人员的权益。随着信息社会的进一步发展,在线博客、数据库等使人们获取信息的成本越来越低,同时使抄袭变得越来越便利。论文抄袭主要指将他人的语言文字、图表公式或研究观点,经过编辑、拼凑、修改后加入到自己的论文当中,并当作自己的成果而不加引用的公开发表。因此需要有效的文本相似性的检测方法来应对论文抄袭。
目前论文文本相似性的检测方法主要有两种方法,一种是基于字符匹配的方法,一种是基于指纹的比对方法。基于字符匹配的方法通过计算句子之间相同的字符数或不同的字符数计算句子的相似性,基于指纹的匹配方法采用哈希函数将词、短语或片段转化后的哈希值(或哈希值的和),通过比对指纹间的重合程度衡量文本之间的相似性。两种方法在计算相似性的基础上设定一个相似性阈值,将相似性大于阈值的句子(片段)视为疑似抄袭的句子(片段)。最后通过计算文本复制比来判断论文文本是否相似。但是论文文本相似除了简单的复制文本外,还包括同义词替换、句子浓缩与组合、对文本进行摘要等方式修改原文档。因此,目前现有的论文文本相近性检测方法无法检出智能抄袭,存在效率不高、识别率低的问题。
发明内容
本发明的目的是提供一种高效、高识别率的基于引文网络的论文文本相似性的检测方法,以解决目前论文文本相似性检测的不足。
本发明的技术方案,具体方案如下:
基于引文网络的论文文本相似性的检测方法,其步骤包括:
1)提取或构建引文网络;
2)通过计算书目耦合度BCS和语义相似性FD过滤引文网络中的文档,生成候选文档集;
3)对待检文档进行规范化处理;
4)在候选文档集上基于词建立句子级别的倒排索引,进行相似句子检测与观点片段检测,生成相似文本,通过计算待检文档的复制比得到相似性的判断。
进一步,步骤2)中,计算书目耦合度BCS的公式如下:
Figure BDA0002150990630000021
其中Rd表示d文档的参考文献,|Rd1∩Rd2|表示d1文档与d2文档参考文献的重复数,|Rd1∪Rd2|表示文档d1和文档d2的总引文数。
步骤2)中,计算语义相似性FD,具体步骤如下:
2.1)对引文网络的每篇文本进行切词,去除停用词处理,基于tf提取其前50个关键词,并对关键词进行统一替换;
2.2)采用hash函数获得每个词的64位hash码;
2.3)将每篇文档的50个关键词,生成50*64个数字,然后将这些数字对应位置相加得到64个求和数,表示为(s1,s2,s3......s64),对每一个数如Si>0则置1,否则Si置0,生成每篇文档的64位语义指纹;
2.4)计算待测文档与引文网络中每篇文档语义指纹的汉明距离HD;
2.5)基于汉明距离计算文本语义相似性FD=1-HD/64。
步骤2)中,首先计算待测文档与引文网络中每篇文档的相似性R=(BCS+FD)/2,基于相似性R对引文网络中的文档进行排序,取前10--100篇作为候选文档集。
进一步,步骤3)中,具体包括:
3.1)去除文档中的图片、表格、公式、乱码字符;
3.2)对文本进行分句,分句的符号为句号、感叹号、分号或问号;
3.3)对句子进行分词,并进行同义词替换,对待检测的句子分词后进行同义词替换,获得处理后的词集W。
进一步,步骤4)进行相似句子检测的具体过程如下:
4.1)假设待检测的句子同义词替换后的词集是W1,候选句子同义词替换后的词集为W2,计算两者的公共词集W3=W1∩W2
4.2)计算待测句子集去除W3后的词集W4=W1-W3,计算候选句子词集去除W3后的词集W5=W2-W3
4.3)获取词集W4的词向量矩阵V1,获取词集W5的词向量矩阵V2,并计算矩阵内积V3=(V1,V2.T),V2.T为V2的转置;
4.4)计算矩阵V3行方向上的最大值,并求和得m;
4.5)计算词集W1和W2的交集W6
4.6)计算句子相似性R=(|W3|+m)/W6,R>0.65时,该句子构成可疑句子。
步骤4)中,对观点片段进行检测,其操作过程如下:
4.7)采用textRank方法计算出候选文档集和待测文档的核心句子,将包含核心句子的一段文本作为观点片段;
4.8)生成观点片段中每句的句向量表示,句向量的生成方式如下:
4.8.1)对每句进行切词,获得词集W,并计算每个词的tf-idf值;
4.8.2)基于词向量模型获得词的向量表示,基于tf-idf计算所有词向量的加权平均作为句向量;
4.9)基于句向量获得待测观点片段的句向量矩阵V1和候选文档观点片段的句向量矩阵V2;
4.10)计算两者的内积V=(V1,V2),并计算行方向上的最大值R;
4.11)计算S的平均值E,如E大于0.9,则判定观点片段构成相似。
步骤4)中,若相似句子相邻则直接合并成片段,若相似句子的字数小于30个,则过滤掉,相似句子片段与相似观点片段合并构成相似文本。
步骤4)中,复制比=相似文本的字符数/待检文档总字符数,得到待检文档的复制比,从而判断出论文文本的相似性。
本发明在引文网络的基础上提出了基于书目耦合与语义指纹相结合的候选文档集过滤方法。该方法在过滤候选文档时,既考虑了文档在引用模式上的相似性又考虑了文档在内容上的相似性。与传统的检索模型相比,在保证候选文档集质量的前提下,减少了候选文档集的生成时间;与基于引文分析的候选集生成方法相比,该方法考虑了文档内容相似性,生成的候选文档集更为全面。其次在文本细致比对阶段,为了解决字符串匹配无法检测词语替换、句子重组及观点抄袭等抄袭手段的问题,本发明提出基于词向量的句子比对与观点检测,将词向量与同义词引入到相似性中,提升了句子相似性的计算效果且具有计算速度快的优点。且本发明能够检测出文本中可能涉及观点抄袭的文本片段。
采用本发明对市场经济管理主题下的100篇论文进行了检测。检测发现本发明不仅速度快,而且对词语替换、句子重组等相似性检测具有好的效果,其中观点抄袭对小幅改动的观点内容有一定的效果。检测结果显示平均每篇用时约7-10S,平均每篇复制比为0.44%,与仅基于字符的方法相比高0.11%,并在检测中发现1篇论文涉嫌观点抄袭。
附图说明
图1是本发明基于引文网络的论文文本相似性的检测方法的流程图;
图2是引文网络示意图。
具体实施方式
如图1所示,本发明基于引文网络的论文文本相似性的检测方法,具体步骤包括:
1.引文网络提取或构建,其具体操作如下:
首先,以论文标题和作者检索引文网络数据库,若该篇论文在数据库中则从引文网络库中直接提取其引文网络;若该篇论文不在库中,则解析其参考文献,然后通过参考文献构造其引文网络(如图2所示)。例如文献T、作者a,则以(T,a)问检索条件,检索其引文网络,若(T,a)不在引文网络库,则解析其参考文献,生产引文网络。如文献T的参考文献为(T1,a1)、(T2,a2)、(T3,a3),则分别以(T1,a1)、(T2,a2)、(T3,a3)为检索条件生成(T,a)的引文网络。其生成的结果为:参考文档集一级,共引文档集1,参考文档集二级,共引文档集2。
2.生成候选文档集,其生成操作如下。
2.1)计算引文网络中的每篇文档与待检文档的数目耦合度BCS,如论文A有参考文献a、b、c、d、B论文有a,c,d,e,则AB的文献耦合度为3/5。其计算公式如公式1:
Figure BDA0002150990630000041
其中Rd表示d文档的参考文献,|Rd1∩Rd2|表示d1文档与d2文档参考文献的重复数,|Rd1∪Rd2|表示文档d1和文档d2的总引文数(去重)。
2.2)计算引文网络中每篇文档与待检文档的语义相似性FD。其操作如下。
2.2.1)对引文网络的每篇文档进行切词,去除停用词处理,基于tf提取其前50个关键词,并对关键词进行统一替换,如近义词A、B、C统一替换为A。
2.2.2)采用hash函数获得每个词的64位hash码,
如词“北京市”经hash函数后生产的64位hash码为“1000101010101101010001110000010011110000011011101111000010111010”,将hash码的0置为-1,1不变,乘以词的tf值,生成64个数字,表示为(a1,a2,a3……a64)。
2.2.3)将每篇文档的50个关键词,生成50*64个数字,然后将这些数字对应位置相加得到64个求和数,表示为(s1,s2,s3……s64),对每一个数如si>0则置1,否则si置0,生成每篇文档的64位语义指纹。
2.2.4)计算待测文档与引文网络中每篇文档语义指纹的汉明距离HD。如文档A的语义指纹为:
“0010000000000000000001110101111000010011100011001110000110000001”
文档B的语义指纹为:
“0010000000000000000001110101111000010011100011001110000110000001”
两者汉明距离为9。
2.2.5)基于汉明距离计算文本语义相似性FD=1-HD/64。
2.3)计算待测文档与引文网络中每篇文档的相似性R=(BCS+FD)/2。
2.4)基于相似性R对引文网络中的文档进行排序,取前100篇作为候选文档集。
3.在进行文本细致比对前需要对待测文档进行规范化处理,具体处理过程为:
3.1)去除待测文档中的图片、表格、公式、乱码字符。
3.2)对待测文本进行分句,分句的符号为句号(。)感叹号(!)分号(;)问号(?)
3.3)对句子进行分词,并进行同义词替换,对待检测的句子分词后进行同义词替换,获得处理后的词集W。
4.在候选文档集上基于词建立句子级别的倒排索引,进行可疑的相似句子检测与观点抄袭片段检测,生成相似性高的可疑相似文本,计算得到待检文档的复制比,其检测过程操作如下:
4.1)基于词集W去检索候选文档集中的句子,并对检索到的句子频次进行统计,由高到低进行排序。选取前三个句子作为候选句子进行相似性计算,若其中一个相似性R的值大于0.65,则认为该句子可能抄袭。句子相似性的计算过程如下:
4.1.1)假设带检测的句子同义词替换后的词集是W1,候选句子同义词替换后的词集为W2,计算两者的公共词集W3=W1∩W2
4.1.2)计算待测句子集去除W3后的词集W4=W1-W3,计算候选句子词集去除W3后的词集W5=W2-W3
4.1.3)获取词集W4的词向量矩阵V1,获取词集W5的词向量矩阵V2,并计算矩阵内积V3=(V1,V2.T)(V2.T为V2的转置)。
4.1.4)计算矩阵V3行方向上的最大值,并求和的m
4.1.5)计算词集W1和W2的交集W6
4.1.6)计算句子相似性R=(|W3|+m)/W6.
4.2)在候选文档集上基于词建立句子级别的倒排索引,对观点抄袭片段进行检测,其操作过程如下:
4.2.1)采用textRank方法计算出候选文档集和待测文档的核心句子,这里核心句子数取3个。
4.2.2)以5为句子数窗口的大小,采用滑动窗口的方式构造包含文档观点的文本片段。如有句子集顺序为A,B,C,D,E,F,G,识别的核心句子为E,则生成的文档观点片段为(ABCDE)、(BCDEF)、(CDEFG)。
4.2.3)生成待检文档和候选文档集的文档观点片段集。
4.3)依次检测待检文档的每个文档观点片段是否涉嫌抄袭,其检测过程如下:
4.3.1)生成文档片段中每句的句向量表示,句向量的生成方式如下:
a)对每句进行切词,获得词集W,并计算每个词的tf-idf值。
b)基于词向量模型获得词的向量表示,基于tf-idf计算所有词向量的加权平均作为句向量。
4.3.2)基于句向量获得待测文档片段的句向量矩阵V1,获得候选文档片段的句向量矩阵V2
4.3.3)计算两者的内积V=(V1,V2),并计算行方向上的最大值S。
4.3.4)计算S的平均值E,如E大于0.9,则判定文档观点片段可能涉嫌抄袭。
对于判定为相似的句子,若相似句子相邻这合并成片段。如句子的字数小于30个字则过滤掉。生成的相似句子片段与观点片段合并构成可疑的相似文本。
最后计算待测文本的复制比,复制比=可疑的相似文本的字符数/待测文档总字符数。
上述说明仅对本方法的技术方案做了概述,为了能够更清楚的了解本发明的技术手段,并可依照说明书的内容予以实施,以下配合附图做详细说明。

Claims (7)

1.一种基于引文网络的论文文本相似性的检测方法,其步骤包括:
1)提取或构建引文网络;
2)通过计算书目耦合度BCS和语义相似性FD过滤引文网络中的文档,生成候选文档集;
3)对待检文档进行规范化处理;
4)在候选文档集上基于词建立句子级别的倒排索引,再进行相似句子检测与观点片段检测,生成相似文本,通过计算待检文档的复制比得到相似性的判断,具体计算过程如下:
4.1)假设待检文档中的句子同义词替换后的词集是W1,候选文档集中候选句子同义词替换后的词集为W2,计算两者的公共词集W3=W1∩W2
4.2)计算待检句子词集W1去除W3后的词集W4=W1-W3,计算候选句子词集W2去除W3后的词集W5=W2-W3
4.3)获取词集W4的词向量矩阵V1,获取词集W5的词向量矩阵V2,并计算矩阵内积V3=(V1,V2.T),V2.T为V2的转置;
4.4)计算矩阵V3行方向上的最大值,并求和得m;
4.5)计算词集W1和W2的交集W6
4.6)计算句子相似度R=(|W3|+m)/W6,R>0.65时,该句子构成相似;
4.7)采用textRank方法计算出候选文档集和待检文档的核心句子,将包含核心句子的一段文本作为观点片段;
4.8)生成观点片段中每句的句向量表示,句向量的生成方式如下:
4.8.1)对每句进行切词,获得词集W,并计算每个词的tf-idf值;
4.8.2)基于词向量模型获得词的向量表示,基于tf-idf计算所有词向量的加权平均作为句向量;
4.9)基于句向量获得待检文档的观点片段的句向量矩阵V3和候选文档集的观点片段的句向量矩阵V4
4.10)计算两者的内积V=(V3,V4),并计算行方向上的最大值S;
4.11)计算S的平均值E,如E大于0.9,则判定观点片段构成相似。
2.如权利要求1所述的基于引文网络的论文文本相似性的检测方法,其特征是,步骤2)中,计算书目耦合度BCS的公式如下:
Figure FDA0002755665360000011
其中Rd表示d文档的参考文献,|Rd1∩Rd2|表示d1文档与d2文档的重复数,|Rd1∪Rd2|表示文档d1和文档d2的总引文数。
3.如权利要求1所述的基于引文网络的论文文本相似性的检测方法,其特征是,步骤2)中,计算语义相似度FD,具体步骤如下:
2.1)对引文网络的每篇文本进行切词,去除停用词处理,基于tf提取其前50个关键词,并对关键词进行统一替换;
2.2)采用hash函数获得每个词的64位hash码;
2.3)将每篇文档的50个关键词,生成50*64个数字,然后将这些数字对应位置相加得到64个求和数,表示为(s1,s2,s3……s64),对每一个数如si>0则置1,否则si置0,生成每篇文档的64位语义指纹;
2.4)计算待检文档与引文网络中每篇文档语义指纹的汉明距离HD;
2.5)基于汉明距离计算文本语义相似度FD=1-HD/64。
4.如权利要求1所述的基于引文网络的论文文本相似性的检测方法,其特征是,步骤2)中,首先计算待检文档与引文网络中每篇文档的相似度R=(BCS+FD)/2,基于相似度R对引文网络中的文档进行排序,取前10-100篇作为候选文档集。
5.如权利要求1所述的基于引文网络的论文文本相似性的检测方法,其特征是,步骤3)中,具体包括:
3.1)去除文档中的图片、表格、公式、乱码字符;
3.2)对文本进行分句,分句的符号为句号、感叹号、分号或问号;
3.3)对句子进行分词,并进行同义词替换,对待检测的句子分词后进行同义词替换,获得处理后的词集W。
6.如权利要求1所述的基于引文网络的论文文本相似性的检测方法,其特征是,步骤4)中,若相似句子相邻则直接合并成片段,若相似句子的字数小于30个,则过滤掉,相似句子片段与相似观点片段合并构成相似文本。
7.如权利要求1所述的基于引文网络的论文文本相似性的检测方法,其特征是,步骤4)中,复制比=相似文本的字符数/待检文档总字符数。
CN201910701668.1A 2019-07-31 2019-07-31 基于引文网络的论文文本相似性的检测方法 Active CN110489745B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910701668.1A CN110489745B (zh) 2019-07-31 2019-07-31 基于引文网络的论文文本相似性的检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910701668.1A CN110489745B (zh) 2019-07-31 2019-07-31 基于引文网络的论文文本相似性的检测方法

Publications (2)

Publication Number Publication Date
CN110489745A CN110489745A (zh) 2019-11-22
CN110489745B true CN110489745B (zh) 2020-12-22

Family

ID=68548940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910701668.1A Active CN110489745B (zh) 2019-07-31 2019-07-31 基于引文网络的论文文本相似性的检测方法

Country Status (1)

Country Link
CN (1) CN110489745B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111381191B (zh) * 2020-05-29 2020-09-01 支付宝(杭州)信息技术有限公司 一种对文本进行同义修改、确定文本创作者的方法
CN111898366B (zh) * 2020-07-29 2022-08-09 平安科技(深圳)有限公司 文献主题词聚合方法、装置、计算机设备及可读存储介质
CN112989038B (zh) * 2021-02-08 2022-06-21 浙江连信科技有限公司 句子级用户画像生成方法、装置及存储介质
CN112989793B (zh) * 2021-05-17 2021-08-06 北京创新乐知网络技术有限公司 文章检测方法及装置
CN114444498A (zh) * 2021-12-20 2022-05-06 奇安信科技集团股份有限公司 文本查重方法、装置、电子设备及存储介质
CN115563515B (zh) * 2022-12-07 2023-05-16 粤港澳大湾区数字经济研究院(福田) 文本相似性检测方法、装置、设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106227897A (zh) * 2016-08-31 2016-12-14 青海民族大学 一种基于藏文句子级别的藏文论文复制检测方法及系统
CN109284485B (zh) * 2018-08-02 2023-04-07 哈尔滨工程大学 一种基于引用的论文原创性检测方法
CN109376238B (zh) * 2018-09-14 2021-01-05 大连理工大学 一种基于参考文献列表重叠度的论文相关度量化方法

Also Published As

Publication number Publication date
CN110489745A (zh) 2019-11-22

Similar Documents

Publication Publication Date Title
CN110489745B (zh) 基于引文网络的论文文本相似性的检测方法
CN110516067B (zh) 基于话题检测的舆情监控方法、系统及存储介质
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
Suleiman et al. Comparative study of word embeddings models and their usage in Arabic language applications
El-Shishtawy et al. An accurate arabic root-based lemmatizer for information retrieval purposes
Yalcin et al. An external plagiarism detection system based on part-of-speech (POS) tag n-grams and word embedding
Vani et al. Investigating the impact of combined similarity metrics and POS tagging in extrinsic text plagiarism detection system
CN113032557A (zh) 一种基于频繁词集与bert语义的微博热点话题发现方法
CN111090994A (zh) 一种面向中文网络论坛文本的事件地点归属省份识别方法
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
Gao et al. Sentiment classification for stock news
Meddeb et al. Using topic modeling and word embedding for topic extraction in Twitter
CN115017302A (zh) 一种舆情监测方法和舆情监测系统
Sindhu et al. Fingerprinting based detection system for identifying plagiarism in Malayalam text documents
CN110929022A (zh) 一种文本摘要生成方法及系统
CN114492425B (zh) 采用一套领域标签体系将多维度数据打通的方法
CN113111645B (zh) 一种媒体文本相似性检测方法
TWI636370B (zh) Establishing chart indexing method and computer program product by text information
CN113723085B (zh) 一种隐私政策文档中伪模糊检测方法
CN115438147A (zh) 面向轨道交通领域的信息检索方法及系统
CN114138936A (zh) 一种文本摘要的生成方法、装置、电子设备和存储介质
Scholz et al. Comparing different methods for opinion mining in newspaper articles
Wang et al. Sentiment detection and visualization of Chinese micro-blog
Zhu et al. A discovery method for new words from mobile product comments.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant