CN112380834A - 藏语论文剽窃检测方法和系统 - Google Patents

藏语论文剽窃检测方法和系统 Download PDF

Info

Publication number
CN112380834A
CN112380834A CN202011428176.9A CN202011428176A CN112380834A CN 112380834 A CN112380834 A CN 112380834A CN 202011428176 A CN202011428176 A CN 202011428176A CN 112380834 A CN112380834 A CN 112380834A
Authority
CN
China
Prior art keywords
tibetan
paper
detected
detection
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011428176.9A
Other languages
English (en)
Other versions
CN112380834B (zh
Inventor
赵小兵
鲍薇
董建
李林霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Minzu University of China
China Electronics Standardization Institute
Original Assignee
Minzu University of China
China Electronics Standardization Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Minzu University of China, China Electronics Standardization Institute filed Critical Minzu University of China
Publication of CN112380834A publication Critical patent/CN112380834A/zh
Application granted granted Critical
Publication of CN112380834B publication Critical patent/CN112380834B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种藏语论文剽窃检测的方法和系统,涉及现代教育技术领域。本发明针对连续文本剽窃、语义改写剽窃、翻译剽窃三类不同的剽窃现象,分别提出使用最长公共子序列算法和改进的孪生长短时记忆网络方法。并采用基于摘要文档向量的学术论文预检测,以及基于章节位置的权重分配策略,来提高检索效率。

Description

藏语论文剽窃检测方法和系统
技术领域
本发明涉及现代教育技术领域,具体涉及一种藏语论文剽窃检测方法和系统。
背景技术
近年来频频曝光一些高等院校、科研机构、学术组织出现论文剽窃的事件,在社会上造成了恶劣的影响。各个部门单位目前都在严厉打击学术造假、论文剽窃的行为,并通过各种监察制度、技术手段,取得了一定的积极成果。近年来我国少数民族语言文字领域取得了丰硕的学术成果,也出现了一些学术论文剽窃的不良现象。目前的文本剽窃检测技术在少数民族语言文本剽窃检测方面尚无良策,也没有相关的方法可以有效地预防跨语言论文剽窃现象。因此,急需一种高效、准确的跨语言文本剽窃检测技术来弥补当前检测手段的不足。
目前,英文、中文学术论文的剽窃检测研究均相对成熟,而少数民族语言学术论文剽窃检测研究较少,尚无对文本翻译改写剽窃检测的研究。因此,目前还不存在藏语论文剽窃检测方法和系统。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种藏语论文剽窃检测方法和系统,解决了目前藏语论文剽窃难以检测的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
本发明提供一种藏语论文剽窃检测的方法,包括:
基于摘要文档向量的预检测,以确定是否需要对待检测藏语论文进行下一步检测;
基于最长公共子序列的检测和基于注意力机制的孪生长短时记忆网络的检测,以检测所述待检测藏语论文是否存在连续文本剽窃、语义改写、翻译剽窃;
基于章节位置加权,以确定所述待检测藏语论文与源论文之间的相似度值。
可选地,基于摘要文档向量的预检测,以确定是否需要对待检测藏语论文进行下一步检测,包括:
比较所述待检测藏语论文和源论文的发表时间,以确定所述待检测藏语论文的发表时间是否晚于源文章的发表时间;
在所述待检测藏语论文的发表时间晚于所述源论文的发表时间的情况下,对所述待检测藏语论文和所述源论文进行基于摘要文档向量的预检测;
在所述待检测藏语论文的发表时间不晚于所述源论文的发表时间的情况下,结束检测流程。
可选地,在所述待检测藏语论文的发表时间晚于所述源论文的发表时间的情况下,对所述待检测藏语论文和所述源论文进行基于摘要文档向量的预检测,包括:
对所述待检测藏语论文的摘要和所述源论文的摘要分别建立文档向量;
计算两个文档向量之间的相似度;
在所述相似度大于预设阈值的情况下,确定需要对所述待检测藏语论文进行下一步检测;
在所述相似度不大于所述预设阈值的情况下,结束检测流程。
可选地,基于最长公共子序列的检测和基于注意力机制的孪生长短时记忆网络的检测,以检测所述待检测藏语论文是否存在连续文本剽窃、语义改写、翻译剽窃,包括:
使用最长公共子序列算法,基于动态规划,通过寻找最长公共子序列,计算藏文句对之间的相似度值,以检测所述待检测藏语论文是否存在连续文本剽窃;
采用基于注意力机制的孪生长短时记忆网络模型,分别使用训练好的藏文音节向量和藏汉跨语言词向量,计算藏文句对之间的相似度值,以检测所述待检测藏语论文是否存在语义改写和翻译剽窃;
其中,所述藏文句对中的一个藏文句子依次为所述待检测藏语论文中的每一个藏文句子,所述藏文句对中的另一个藏文句子依次为源论文中的每一个句子。
可选地,使用最长公共子序列算法,基于动态规划,通过寻找最长公共子序列,计算藏文句对之间的相似度值,包括:
基于最长公共子序列,检测所述待检测藏语论文是否存在连续文本剽窃,包括:以句子为最小单位,通过动态规划寻找两个句子的最长公共子序列,计算得到两个句子的相似度值,其中,
将藏文句子作为基本单位,通过动态规划的思想,寻找所述藏文句对中长度为m的藏文句子与长度为n的藏文句子的最长公共子序列;
所述最长公共子序列的长度L,所述藏文句对之间的相似度S计算公式为:
Figure BDA0002825669070000041
可选地,基于章节位置加权,以确定所述待检测藏语论文与源论文之间的相似度值,包括:
按照论文结构,对章节以位置的方法计算权重值,越靠近中间的章节的权重值越高,摘要为最中心的章节,权重值最高;
按照计算出的权重值,确定所述待检测藏语论文与源论文之间的相似度值。
本发明还提供一种藏语论文剽窃检测的系统,包括:
预检测模块,用于基于摘要文档向量的预检测,以确定是否需要对待检测藏语论文进行下一步检测;
检测模块,用于基于最长公共子序列的检测和基于注意力机制的孪生长短时记忆网络的检测,以检测所述待检测藏语论文是否存在连续文本剽窃、语义改写、翻译剽窃;
相似度值确定模块,用于基于章节位置加权,以确定所述待检测藏语论文与源论文之间的相似度值。
可选地,所述预检测模块包括:
比较子模块,用于比较所述待检测藏语论文和源论文的发表时间,以确定所述待检测藏语论文的发表时间是否晚于源文章的发表时间;
检测子模块,用于在所述待检测藏语论文的发表时间晚于所述源论文的发表时间的情况下,对所述待检测藏语论文和所述源论文进行基于摘要文档向量的预检测;
结束子模块,用于在所述待检测藏语论文的发表时间不晚于所述源论文的发表时间的情况下,结束检测流程。
可选地,所述检测子模块,包括:
建立子单元,用于对所述待检测藏语论文的摘要和所述源论文的摘要分别建立文档向量;
计算子单元,用于计算两个文档向量之间的相似度;
确定子单元,用于在所述相似度大于预设阈值的情况下,确定需要对所述待检测藏语论文进行下一步检测;
结束子单元,用于在所述相似度不大于所述预设阈值的情况下,结束检测流程。
可选地,所述检测模块,包括:
第一检测子模块,用于使用最长公共子序列算法,基于动态规划,通过寻找最长公共子序列,计算藏文句对之间的相似度值,以检测所述待检测藏语论文是否存在连续文本剽窃;
第二检测子模块,用于采用基于注意力机制的孪生长短时记忆网络模型,分别使用训练好的藏文音节向量和藏汉跨语言词向量,计算藏文句对之间的相似度值,以检测所述待检测藏语论文是否存在语义改写和翻译剽窃;
其中,所述藏文句对中的一个藏文句子依次为所述待检测藏语论文中的每一个藏文句子,所述藏文句对中的另一个藏文句子依次为源论文中的每一个句子。
(三)有益效果
本发明提供了一种藏语论文剽窃检测的方法和系统。与现有技术相比,具备以下有益效果:
(1)基于摘要文档向量的预检测研究,使用doc2vec方法对论文的摘要进行向量化表示,通过计算源文档和待检测藏语论文摘要的余弦相似度来判断二者是否需要进行全文的检测,以提高检测效率;
(2)基于最长公共子序列的检测方法和基于注意力机制的孪生长短时记忆网络的检测方法,解决对连续文本剽窃、语义改写、翻译剽窃的问题;
(3)提出在文本剽窃检测中使用基于章节位置加权的方法,在最终计算两篇文档相似度值时体现论文中不同章节的重要程度,对论文的相似度进行更加客观地计算。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明藏语论文剽窃检测的方法的流程图;
图2为藏文音节与藏文词示例图;
图3为本发明藏语论文剽窃检测的方法系统的框图;
图4为本发明基于注意力机制的孪生长短时记忆网络模型的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种藏语论文剽窃检测的方法和系统,解决目前藏语论文剽窃难以检测的技术问题。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
步骤101:基于摘要文档向量的预检测,以确定是否需要对待检测藏语论文进行下一步检测;
步骤102:基于最长公共子序列的检测和基于注意力机制的孪生长短时记忆网络的检测,以检测所述待检测藏语论文是否存在连续文本剽窃、语义改写、翻译剽窃;
步骤103:基于章节位置加权,以确定所述待检测藏语论文与源论文之间的相似度值。
3、其中,步骤101具体包括:基于摘要文档向量的预检测,以确定是否需要对待检测藏语论文进行下一步检测,包括:
比较所述待检测藏语论文和源论文的发表时间,以确定所述待检测藏语论文的发表时间是否晚于源文章的发表时间;
在所述待检测藏语论文的发表时间晚于所述源论文的发表时间的情况下,对所述待检测藏语论文和所述源论文进行基于摘要文档向量的预检测;
在所述待检测藏语论文的发表时间不晚于所述源论文的发表时间的情况下,结束检测流程。
其中,在所述待检测藏语论文的发表时间晚于所述源论文的发表时间的情况下,对所述待检测藏语论文和所述源论文进行基于摘要文档向量的预检测,包括:
对所述待检测藏语论文的摘要和所述源论文的摘要分别建立文档向量;
计算两个文档向量之间的相似度;
在所述相似度大于预设阈值的情况下,确定需要对所述待检测藏语论文进行下一步检测;
在所述相似度不大于所述预设阈值的情况下,结束检测流程。
本发明首先进行基于摘要文档向量的预检测方法。
基于摘要文档向量的学术论文预检测,是对源文档和待检测藏语论文进行一系列预处理操作,衡量两篇文档的相关性强弱,以判定二者是否需要进行第二模块的检测。本发明设定的预检测策略是首先比较两篇文章的发表时间,确定待检测文章的发表时间是否晚于源文章的发表时间,否则不进行比较;其次,对两篇文档的摘要建立文档向量,计算二者的相似度,并对其设置阈值,若二者的余弦相似度超过阈值0.5时,再对两篇文档进行下一步的检测。
其中,doc2vec方法对论文的摘要进行向量化表示。Doc2Vec模型将每个段落都映射成一个唯一的向量,记作矩阵D(段落向量矩阵)的一列,每个单词也映射成一个唯一的向量,记作矩阵W(词向量矩阵)中的一列。所以在Doc2Vec模型中既包含段落的向量也包括词的向量,其中词向量在段落之间是共享的。模型训练结束后同时得到段落向量和词向量。具体有两种Paragraph Vector模型,即分布式记忆模型(Distributed Memory Model ofParagraph Vector,DM)和分布式词袋模型(Distributed Bag-of-wordsversion ofParagraph Vector,DBOW)。其中,DM模型与Word2Vec的CBOW模型类似,DBOW模型与Word2Vec的Skip-gram模型类似。Doc2vec模型训练算法与Word2vec模型一样,都通过深度学习算法来训练N-gram语言模型,不同之处是输入层增加了段落向量(DM模型)。Word2vec模型在训练过程中得到每个词的向量表示,Doc2vec模型在此基础上还得到段落的向量表示。无论是Word2vec还是Doc2vec都可以通过向量之间的欧氏距离或余弦距离来判断文本语义上的相似度。
其中,步骤103包括:
按照论文结构,对章节以位置的方法计算权重值,越靠近中间的章节的权重值越高,摘要为最中心的章节,权重值最高;
按照计算出的权重值,确定所述待检测藏语论文与源论文之间的相似度值。
本发明采用面向论文剽窃检测的章节权重的分配策略。具体为:采用基于章节位置的权重分配策略,对前面输出句子组成的章节进行赋值。旨在对论文文档中涉及主要内容的章节赋较高的权重值,对绪论、相关研究现状等含有较多通识知识的章节赋较低的权重值。对待检测藏语论文中的章节进行权重分配通识知识的章节赋较低的权重值。对待检测藏语论文中的章节进行权重分配后,整合各个章节的相似度值,输出待检测藏语论文的相似度值。
若待检测藏语论文中计算句子总数为sum,进行连续文本剽窃所得到的超过阈值的句子的总数为suma、进行语义改写和翻译剽窃所得到的超过阈值的句子的总数为sumb,则待检测藏语论文texts埸c与源论文texto埸i的相似度值即为
sim(texts埸c,texto埸i)=(suma+sumb)/sum
本发明结合实验语料具体情况,提出在计算段落权重时使用基于位置的方法。具体原因有两点:1.对于论文类文档的结构抽取需要考虑多方面的因素,从外部的文档格式,到文档内部逻辑结构的位置、标点符号、长度和字体类型/大小等等。2.一般的论文结构为“摘要——绪论——相关研究现状——主要研究内容——实验与分析——结论——致谢——参考文献”,重要的内容位于文章的中间部分,即中间的段落包含文章中的重要信息,也是文本剽窃检测研究需要重点检测的部分。因此,本发明使用基于位置的方法对章节进行分配权重,越靠近中间的部分被认为在文本剽窃检测中越重要,在最终计算两篇文档相似度和剽窃程度时起到重要的作用。
本发明中,“摘要”是整篇论文的一个浓缩,最能体现一篇论文内容的部分,因此,本发明对文档中的“摘要”赋最高的权重值。具体策略是:对章节以位置的方法计算权重值后,将“摘要”调整为最中心的章节,赋最高权重值。
本申请提出的藏语论文剽窃检测的方法,分别针对连续文本剽窃、语义改写剽窃、翻译剽窃使用不同的检测方法。主要包括:面向连续文本剽窃的检测方法、面向语义改写型和翻译剽窃的检测方法。
对藏语论文进行分句、分词处理、进行连续文本剽窃检测、语义改写剽窃检测以及翻译剽窃检测,计算得到文本相似度检测结果、文章相似度值和所有疑似抄袭句子对比,最终展示计算得到文本相似度检测结果、文章相似度值和所有疑似抄袭句子对比。
其中,采用基于最长公共子序列算法,用于检测藏语论文中直接复制或仅有少量改动的抄袭行为。采用基于注意力机制的孪生长短时网络模型的检测,检测藏语论文中语义改写剽窃和翻译剽窃。
首先藏语论文进行连续文本剽窃检测,可以检测出藏语论文中直接复制或仅有少量改动的抄袭行为。具体的方法为:
使用最长公共子序列算法,基于动态规划,通过寻找最长公共子序列,计算藏文句对之间的相似度值,以检测所述待检测藏语论文是否存在连续文本剽窃;其中,所述藏文句对中的一个藏文句子依次为所述待检测藏语论文中的每一个藏文句子,所述藏文句对中的另一个藏文句子依次为源论文中的每一个句子。
在藏文句对之间相似度值超过第一阈值时,直接认定为抄袭句对,在藏文句对之间相似度值未超过所述第一阈值时,认定不存在连续文本剽窃行为,但有可能存在语义改写剽窃或翻译剽窃行为,继续对藏文句进行检测。其中,第一阈值是0.5。
其中,使用最长公共子序列算法,基于动态规划,通过寻找最长公共子序列,计算藏文句对之间的相似度值,包括:
基于最长公共子序列,检测所述待检测藏语论文是否存在连续文本剽窃,包括:以句子为最小单位,通过动态规划寻找两个句子的最长公共子序列,计算得到两个句子的相似度值,其中,
将藏文句子作为基本单位,通过动态规划的思想,寻找所述藏文句对中长度为m的藏文句子与长度为n的藏文句子的最长公共子序列;
所述最长公共子序列的长度L,所述藏文句对之间的相似度S计算公式为:
Figure BDA0002825669070000121
具体包括以下步骤:
S101、使用最长公共子序列算法对连续复制文本抄袭现象进行检测。假设有两个字符串序列A和B,其中A={a1,a2,…,am},B={b1,b2,…,bn},而C={c1,c2,…,ck}是A和B的最长公共子序列。那么就有如下规律:
1)如果am=bn,那么ck=am=bn,并且ck-1是am-1和bn-1的一个最长公共子序列。
2)如果am≠bn,那么ck≠am,则C是am-1和B的一个最长公共子序列。
3)如果am≠bn,那么ck≠bn,则C是A和bn-1的一个最长公共子序列。
二维数组X[i,j]来表示字符串序列A和B中对应的前i、j个最长公共子序列的长度。递归式如下:
Figure BDA0002825669070000131
例如,长度为m的藏文句子为字符串序列A,长度为n的藏文句子为字符串序列B。长度为m的藏文句子包括m个字符,其中,a1表示长度为m的藏文句子中的第1个字符(长度为m的藏文句子的一部分),a2表示长度为m的藏文句子中的第1个字符至第2个字符(长度为m的藏文句子的一部分),……,am-1表示长度为m的藏文句子中的第1至第m-1个字符(长度为m的藏文句子的一部分),am表示长度为m的藏文句子中的第1至m个字符(也即长度为m的藏文句子本身)。
同理,长度为n的藏文句子包括n个字符,其中,b1表示长度为n的藏文句子中的第1个字符(长度为n的藏文句子的一部分),b2表示长度为n的藏文句子中的第1个字符至第2个字符(长度为n的藏文句子的一部分),……,bn-1表示长度为n的藏文句子中的第1至第n-1个字符(长度为n的藏文句子的一部分),bn表示长度为n的藏文句子中的第1至n个字符(也即长度为n的藏文句子本身)。
本发明将藏文句子作为研究的基本单位,通过上述动态规划的思想,寻找长度分别为m、n的藏文句子的最长公共子序列,并计算最长公共子序列的长度L,那么这两个藏文句子之间的相似度S计算公式为:
Figure BDA0002825669070000141
基于最长公共子序列方法检测连续文本剽窃,本发明对收集的多篇藏语论文通过完全复制抄袭、少量词序调整的方式生成多篇藏文抄袭论文,包含多个抄袭句子。针对连续文本复制型剽窃检测,在构造的多对藏文语料中检测准确率较高。
采用基于注意力机制的孪生长短时网络模型,分别利用训练好的藏文音节向量和藏汉跨语言词向量,在藏文单语言任务和藏汉跨语言任务中分别结合训练好的藏语音节向量和藏汉跨语言词向量作为模型输入,进行语义改写和翻译剽窃检测,计算藏文句对之间的相似度值,其中,所述藏文句对中的一个藏文句子依次为所述待检测藏语论文中的每一个藏文句子,所述藏文句对中的另一个藏文句子依次为源论文中的每一个句子。
在藏文句对之间的相似度值超过第二阈值(例如0.5)时,认定存在抄袭行为,在藏文句对之间的相似度值未超过第二阈值(例如:0.5)时,认定不存在抄袭行为。
其中,采用基于注意力机制的孪生长短时记忆网络模型,分别使用训练好的藏文音节向量和藏汉跨语言词向量,计算藏文句对之间的相似度值的方法具体为:
使用多个评测语料和实验室语料库中的多条藏汉句对作为训练语料,训练基于注意力机制的孪生长短时记忆网络模型,得到改进的基于注意力机制的孪生长短时记忆网络模型;
通过改进的基于注意力机制的孪生长短时记忆网络模型,在藏文单语言任务和藏汉跨语言任务中,分别使用训练好的藏语音节向量和藏汉跨语言词向量作为模型输入,计算所述藏文句对之间的相似度值。
本发明收集多篇藏语论文语料,通过语义改写的方式或通过藏汉翻译的方式,构造多对抄袭句子和多篇藏文抄袭作文作为测试语料,测试所述改进的基于注意力机制的孪生长短时记忆网络模型。
本发明中,关于藏文音节向量的说明如下:
与英语、汉语不同,藏文是一种逻辑格语法系的拼音文字,藏文文字以音节为基本单位,每个音节之间用音节符“·”隔开。如图3所示,藏文音节通过音节符分隔开,与汉语相比,藏文词由多个藏文音节构成,而每一个藏文音节都相当于汉语中的一个汉字。
关于藏汉跨语言词向量的说明如下:跨语言词向量是单语言词向量的一种扩展,是跨语言的词表示,它认为具有相同语义的不同语言在向量空间上的词向量比较接近。因此,可以通过藏语、汉语映射到同一个向量空间的方式,在藏-汉语言之间进行知识转移。此外,将单语转换到双语,可以构建共享的双语向量空间,以此在不同的语言间扩展语义任务。
其中,训练藏文音节向量的过程为:首先对藏文训练语料分句,以藏文音节符“·”作为分割标记,对藏文句子进行音节切分,再使用适合大型数据词向量表征工具训练藏文音节向量。所使用的使用适合大型数据词向量具有高效的训练速度,更考虑了相似性。在训练时,同时考虑n-gram和n-char特征。N-gram特征指藏语文本中音节和音节之间的特征,相当于汉语中的字对字。N-char特征指藏文音节中字母之间的特征。训练过程中设置epoch=100,thread=5,上下文窗口大小为9,n-gram的长度为1,n-char的长度为3。
训练藏汉跨语言词向量的过程为:使用跨语言词表示模型(利用一个线性的映射矩阵将两个词向量模型对齐同一个语义空间)训练藏汉跨语言词向量,使用藏语单语词向量、汉语单语词向量和藏汉双语词典,以有监督的形式训练藏汉跨语言词向量。
改进的基于注意力机制的孪生长短时记忆网络模型的说明如下:
本发明将注意力机制用在孪生长短时记忆模型中,在孪生长短时记忆模型的隐层后加入一层注意力层,旨在对输入句对的所有信息进行充分利用,并挖掘深层次的语义信息,用于语义文本相似度计算。
本发明改进的基于注意力机制的孪生长短时记忆网络模型如图4所示,该模型共包含五层。输入层:用于输入待检测句对(单语或双语句对);嵌入层:用于对输入的句子进行向量表示;隐藏层:用于挖掘输入句子的深层语义信息;注意力层:用于生成权重向量;输出层:用于输出两个句子的相似度值。不同于传统文本剽窃检测方法中基于特征工程的句子相似度计算方法,本文所提出的基于注意力机制的孪生长短时记忆网络直接以待检测句对和词向量作为输入,无需任何先验知识。
本发明所使用的语料包括训练语料和测试语料,除收集到的藏语论文外,还可以使用多个评测语料和语料库中多条藏汉句对来进行训练和测试。也可以对收集到的多篇藏语论文,通过语义改写的方式,构造多对抄袭句子和多篇藏文抄袭作文来进行训练和测试。也可以通过藏汉翻译的方式,构造了多对抄袭句子和多篇藏文抄袭作文来进行训练和测试。
本发明可以使用多个评测语料,每个评测语料都包含两个相似句子和人工标注的相似度值标签。可以对多个评测语料进行翻译,得到对应的藏文相似句子和藏汉平行句对。其中,藏文相似句子用于语义改写的训练和测试,藏汉平行句对用于跨语言翻译的训练和测试。
由于多个评测语料本身带有人工标注的表征两个句子的相似度的标签,所以经过翻译得到的藏文相似句子同样携带标签。藏汉平行句对包括两个相似的藏文句子且携带标签和两个相似的汉文句子且携带标签。
本发明使用基于注意力机制的孪生长短时记忆网络模型,训练300维的藏文音节向量进行语义改写剽窃的检测,藏文音节向量的窗口长度可根据需要选取。请藏语母语人对多个藏文句对进行人工标注,作为模型的计算参考。
针对跨语言翻译抄袭检测,本发明采用基于注意力机制的孪生长短时记忆网络模型,将藏汉双语词向量和句对作为输入,以此来进行抄袭检测。本发明采用人工构建的藏汉词典训练双语词向量,其中,词典为由藏语母语人收集建立的词典,包含多条藏汉词条。
基于注意力机制的孪生长短时记忆网络模型检测语义改写剽窃和翻译剽窃,根据句对相似度计算抄袭情况。
本发明所使用的实验语料包括训练语料和测试语料,由于训练语料需要较大的规模量,因此分别使用多个评测语料和实验室语料库中多条藏汉句对来进行训练。测试语料为预先收集到的多篇藏文论文语料,通过语义改写的方式,构造了多对抄袭句子和多篇藏文抄袭论文来进行检测;又通过藏汉翻译的方式,构造了多对抄袭句子和多篇藏文抄袭论文用以检测实验效果。
使用评测中的英文语料,每条语料都包含人工标注的相似度值标签。由于本发明研究的是藏文文本抄袭,故先将评测中的英文语料通过翻译得到对应的藏文语料和藏汉平行句对。
本发明还提供一种藏语论文剽窃检测的系统,包括:
预检测模块,用于基于摘要文档向量的预检测,以确定是否需要对待检测藏语论文进行下一步检测;
检测模块,用于基于最长公共子序列的检测和基于注意力机制的孪生长短时记忆网络的检测,以检测所述待检测藏语论文是否存在连续文本剽窃、语义改写、翻译剽窃;
相似度值确定模块,用于基于章节位置加权,以确定所述待检测藏语论文与源论文之间的相似度值。
可选地,所述预检测模块包括:
比较子模块,用于比较所述待检测藏语论文和源论文的发表时间,以确定所述待检测藏语论文的发表时间是否晚于源文章的发表时间;
检测子模块,用于在所述待检测藏语论文的发表时间晚于所述源论文的发表时间的情况下,对所述待检测藏语论文和所述源论文进行基于摘要文档向量的预检测;
结束子模块,用于在所述待检测藏语论文的发表时间不晚于所述源论文的发表时间的情况下,结束检测流程。
可选地,所述检测子模块,包括:
建立子单元,用于对所述待检测藏语论文的摘要和所述源论文的摘要分别建立文档向量;
计算子单元,用于计算两个文档向量之间的相似度;
确定子单元,用于在所述相似度大于预设阈值的情况下,确定需要对所述待检测藏语论文进行下一步检测;
结束子单元,用于在所述相似度不大于所述预设阈值的情况下,结束检测流程。
可选地,所述检测模块,包括:
第一检测子模块,用于使用最长公共子序列算法,基于动态规划,通过寻找最长公共子序列,计算藏文句对之间的相似度值,以检测所述待检测藏语论文是否存在连续文本剽窃;
第二检测子模块,用于采用基于注意力机制的孪生长短时记忆网络模型,分别使用训练好的藏文音节向量和藏汉跨语言词向量,计算藏文句对之间的相似度值,以检测所述待检测藏语论文是否存在语义改写和翻译剽窃;
其中,所述藏文句对中的一个藏文句子依次为所述待检测藏语论文中的每一个藏文句子,所述藏文句对中的另一个藏文句子依次为源论文中的每一个句子。
综上所述,与现有技术相比,具备以下有益效果:
(1)基于摘要文档向量的预检测研究,使用doc2vec方法对论文的摘要进行向量化表示,通过计算源文档和待检测藏语论文摘要的余弦相似度来判断二者是否需要进行全文的检测,以提高检测效率;
(2)基于最长公共子序列的检测方法和基于注意力机制的孪生长短时记忆网络的检测方法,解决对连续文本剽窃、语义改写、翻译剽窃的问题;
(3)提出在文本剽窃检测中使用基于章节位置加权的方法,在最终计算两篇文档相似度值时体现论文中不同章节的重要程度,对论文的相似度进行更加客观地计算。
需要说明的是,通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到针对学生论文抄袭问题,各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以系统或软件的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
在本申请中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种藏语论文剽窃检测的方法,其特征在于,包括:
基于摘要文档向量的预检测,以确定是否需要对待检测藏语论文进行下一步检测;
基于最长公共子序列的检测和基于注意力机制的孪生长短时记忆网络的检测,以检测所述待检测藏语论文是否存在连续文本剽窃、语义改写、翻译剽窃;
基于章节位置加权,以确定所述待检测藏语论文与源论文之间的相似度值。
2.如权利要求1所述的藏语论文剽窃检测的方法,其特征在于,基于摘要文档向量的预检测,以确定是否需要对待检测藏语论文进行下一步检测,包括:
比较所述待检测藏语论文和源论文的发表时间,以确定所述待检测藏语论文的发表时间是否晚于源文章的发表时间;
在所述待检测藏语论文的发表时间晚于所述源论文的发表时间的情况下,对所述待检测藏语论文和所述源论文进行基于摘要文档向量的预检测;
在所述待检测藏语论文的发表时间不晚于所述源论文的发表时间的情况下,结束检测流程。
3.如权利要求2所述的藏语论文剽窃检测的方法,其特征在于,在所述待检测藏语论文的发表时间晚于所述源论文的发表时间的情况下,对所述待检测藏语论文和所述源论文进行基于摘要文档向量的预检测,包括:
对所述待检测藏语论文的摘要和所述源论文的摘要分别建立文档向量;
计算两个文档向量之间的相似度;
在所述相似度大于预设阈值的情况下,确定需要对所述待检测藏语论文进行下一步检测;
在所述相似度不大于所述预设阈值的情况下,结束检测流程。
4.根据权利要求1所述的方法,其特征在于,基于最长公共子序列的检测和基于注意力机制的孪生长短时记忆网络的检测,以检测所述待检测藏语论文是否存在连续文本剽窃、语义改写、翻译剽窃,包括:
使用最长公共子序列算法,基于动态规划,通过寻找最长公共子序列,计算藏文句对之间的相似度值,以检测所述待检测藏语论文是否存在连续文本剽窃;
采用基于注意力机制的孪生长短时记忆网络模型,分别使用训练好的藏文音节向量和藏汉跨语言词向量,计算藏文句对之间的相似度值,以检测所述待检测藏语论文是否存在语义改写和翻译剽窃;
其中,所述藏文句对中的一个藏文句子依次为所述待检测藏语论文中的每一个藏文句子,所述藏文句对中的另一个藏文句子依次为源论文中的每一个句子。
5.根据权利要求3所述的方法,其特征在于,使用最长公共子序列算法,基于动态规划,通过寻找最长公共子序列,计算藏文句对之间的相似度值,包括:
基于最长公共子序列,检测所述待检测藏语论文是否存在连续文本剽窃,包括:以句子为最小单位,通过动态规划寻找两个句子的最长公共子序列,计算得到两个句子的相似度值,其中,
将藏文句子作为基本单位,通过动态规划的思想,寻找所述藏文句对中长度为m的藏文句子与长度为n的藏文句子的最长公共子序列;
所述最长公共子序列的长度L,所述藏文句对之间的相似度S计算公式为:
Figure FDA0002825669060000031
6.根据权利要求3所述的方法,其特征在于,基于章节位置加权,以确定所述待检测藏语论文与源论文之间的相似度值,包括:
按照论文结构,对章节以位置的方法计算权重值,越靠近中间的章节的权重值越高,摘要为最中心的章节,权重值最高;
按照计算出的权重值,确定所述待检测藏语论文与源论文之间的相似度值。
7.一种藏语论文剽窃检测的系统,其特征在于,包括:
预检测模块,用于基于摘要文档向量的预检测,以确定是否需要对待检测藏语论文进行下一步检测;
检测模块,用于基于最长公共子序列的检测和基于注意力机制的孪生长短时记忆网络的检测,以检测所述待检测藏语论文是否存在连续文本剽窃、语义改写、翻译剽窃;
相似度值确定模块,用于基于章节位置加权,以确定所述待检测藏语论文与源论文之间的相似度值。
8.如权利要求7所述的系统,其特征在于,所述预检测模块包括:
比较子模块,用于比较所述待检测藏语论文和源论文的发表时间,以确定所述待检测藏语论文的发表时间是否晚于源文章的发表时间;
检测子模块,用于在所述待检测藏语论文的发表时间晚于所述源论文的发表时间的情况下,对所述待检测藏语论文和所述源论文进行基于摘要文档向量的预检测;
结束子模块,用于在所述待检测藏语论文的发表时间不晚于所述源论文的发表时间的情况下,结束检测流程。
9.如权利要求8所述的系统,其特征在于,所述检测子模块,包括:
建立子单元,用于对所述待检测藏语论文的摘要和所述源论文的摘要分别建立文档向量;
计算子单元,用于计算两个文档向量之间的相似度;
确定子单元,用于在所述相似度大于预设阈值的情况下,确定需要对所述待检测藏语论文进行下一步检测;
结束子单元,用于在所述相似度不大于所述预设阈值的情况下,结束检测流程。
10.根据权利要求7所述的系统,其特征在于,所述检测模块,包括:
第一检测子模块,用于使用最长公共子序列算法,基于动态规划,通过寻找最长公共子序列,计算藏文句对之间的相似度值,以检测所述待检测藏语论文是否存在连续文本剽窃;
第二检测子模块,用于采用基于注意力机制的孪生长短时记忆网络模型,分别使用训练好的藏文音节向量和藏汉跨语言词向量,计算藏文句对之间的相似度值,以检测所述待检测藏语论文是否存在语义改写和翻译剽窃;
其中,所述藏文句对中的一个藏文句子依次为所述待检测藏语论文中的每一个藏文句子,所述藏文句对中的另一个藏文句子依次为源论文中的每一个句子。
CN202011428176.9A 2020-08-25 2020-12-09 藏语论文剽窃检测方法和系统 Active CN112380834B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010876033 2020-08-25
CN2020108760338 2020-08-25

Publications (2)

Publication Number Publication Date
CN112380834A true CN112380834A (zh) 2021-02-19
CN112380834B CN112380834B (zh) 2023-10-31

Family

ID=74589713

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011428176.9A Active CN112380834B (zh) 2020-08-25 2020-12-09 藏语论文剽窃检测方法和系统

Country Status (1)

Country Link
CN (1) CN112380834B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113780449A (zh) * 2021-09-16 2021-12-10 平安科技(深圳)有限公司 文本相似度的计算方法、装置、存储介质及计算机设备
CN117421428A (zh) * 2023-10-31 2024-01-19 中国人民解放军海军大连舰艇学院 基于完整期刊库的论文发表诚信评估分析方法及系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070041918A (ko) * 2005-10-17 2007-04-20 중앙대학교 산학협력단 오엠유씨에스와 서열 정렬 기법을 이용한 텍스트 표절확인방법
KR100863943B1 (ko) * 2007-10-04 2008-10-16 부산대학교 산학협력단 표절탐색 방법 및 장치
KR20100071287A (ko) * 2008-12-19 2010-06-29 테크놀러지리딩퓨처(주) 문서 표절 탐색 방법 및 장치
US20140053285A1 (en) * 2012-08-16 2014-02-20 Infosys Limited Methods for detecting plagiarism in software code and devices thereof
US20160307563A1 (en) * 2015-04-15 2016-10-20 Xerox Corporation Methods and systems for detecting plagiarism in a conversation
CN106095735A (zh) * 2016-06-06 2016-11-09 北京中加国道科技有限责任公司 一种基于深度神经网络检测学术文献抄袭的方法
CN106227897A (zh) * 2016-08-31 2016-12-14 青海民族大学 一种基于藏文句子级别的藏文论文复制检测方法及系统
CN107862045A (zh) * 2017-11-07 2018-03-30 哈尔滨工程大学 一种基于多特征的跨语言剽窃检测方法
CN107871002A (zh) * 2017-11-10 2018-04-03 哈尔滨工程大学 一种基于指纹融合的跨语言剽窃检测方法
CN109284485A (zh) * 2018-08-02 2019-01-29 哈尔滨工程大学 一种基于引用的论文原创性检测方法
US20190278835A1 (en) * 2018-03-08 2019-09-12 Adobe Inc. Abstractive summarization of long documents using deep learning
CN111178040A (zh) * 2019-10-24 2020-05-19 中央民族大学 藏汉跨语言论文剽窃检测方法和系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070041918A (ko) * 2005-10-17 2007-04-20 중앙대학교 산학협력단 오엠유씨에스와 서열 정렬 기법을 이용한 텍스트 표절확인방법
KR100863943B1 (ko) * 2007-10-04 2008-10-16 부산대학교 산학협력단 표절탐색 방법 및 장치
KR20100071287A (ko) * 2008-12-19 2010-06-29 테크놀러지리딩퓨처(주) 문서 표절 탐색 방법 및 장치
US20140053285A1 (en) * 2012-08-16 2014-02-20 Infosys Limited Methods for detecting plagiarism in software code and devices thereof
US20160307563A1 (en) * 2015-04-15 2016-10-20 Xerox Corporation Methods and systems for detecting plagiarism in a conversation
CN106095735A (zh) * 2016-06-06 2016-11-09 北京中加国道科技有限责任公司 一种基于深度神经网络检测学术文献抄袭的方法
CN106227897A (zh) * 2016-08-31 2016-12-14 青海民族大学 一种基于藏文句子级别的藏文论文复制检测方法及系统
CN107862045A (zh) * 2017-11-07 2018-03-30 哈尔滨工程大学 一种基于多特征的跨语言剽窃检测方法
CN107871002A (zh) * 2017-11-10 2018-04-03 哈尔滨工程大学 一种基于指纹融合的跨语言剽窃检测方法
US20190278835A1 (en) * 2018-03-08 2019-09-12 Adobe Inc. Abstractive summarization of long documents using deep learning
CN109284485A (zh) * 2018-08-02 2019-01-29 哈尔滨工程大学 一种基于引用的论文原创性检测方法
CN111178040A (zh) * 2019-10-24 2020-05-19 中央民族大学 藏汉跨语言论文剽窃检测方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵小兵;鲍薇;董建;包乌格德勒;: "基于数据增强的藏文改写检测研究", 中文信息学报, no. 12 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113780449A (zh) * 2021-09-16 2021-12-10 平安科技(深圳)有限公司 文本相似度的计算方法、装置、存储介质及计算机设备
CN113780449B (zh) * 2021-09-16 2023-08-25 平安科技(深圳)有限公司 文本相似度的计算方法、装置、存储介质及计算机设备
CN117421428A (zh) * 2023-10-31 2024-01-19 中国人民解放军海军大连舰艇学院 基于完整期刊库的论文发表诚信评估分析方法及系统
CN117421428B (zh) * 2023-10-31 2024-05-17 中国人民解放军海军大连舰艇学院 基于完整期刊库的论文发表诚信评估分析方法及系统

Also Published As

Publication number Publication date
CN112380834B (zh) 2023-10-31

Similar Documents

Publication Publication Date Title
Shoufan et al. Natural language processing for dialectical Arabic: A survey
Kasewa et al. Wronging a right: Generating better errors to improve grammatical error detection
US20180267956A1 (en) Identification of reading order text segments with a probabilistic language model
US20050055212A1 (en) Electronic document processing apparatus
CN111178040B (zh) 藏汉跨语言论文剽窃检测方法和系统
Asahiah et al. Restoring tone-marks in standard Yorùbá electronic text: improved model
Macháček et al. Morphological and language-agnostic word segmentation for nmt
JPWO2019224891A1 (ja) 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム
CN112380834B (zh) 藏语论文剽窃检测方法和系统
CN115587594B (zh) 网络安全的非结构化文本数据抽取模型训练方法及系统
CN114298035A (zh) 一种文本识别脱敏方法及其系统
Zavala et al. A Hybrid Bi-LSTM-CRF model for Knowledge Recognition from eHealth documents.
Habib et al. An exploratory approach to find a novel metric based optimum language model for automatic bangla word prediction
Hu et al. Self-supervised synonym extraction from the web.
Cing et al. Improving accuracy of part-of-speech (POS) tagging using hidden markov model and morphological analysis for Myanmar Language
Chakrawarti et al. Machine translation model for effective translation of Hindi poetries into English
Kubis et al. Open challenge for correcting errors of speech recognition systems
KR102552811B1 (ko) 클라우드 기반 문법 교정 서비스 제공 시스템
Trye et al. A hybrid architecture for labelling bilingual māori-english tweets
WO2023035883A1 (zh) 用于文档和摘要的一致性检测的方法、设备和介质
Melero et al. Holaaa!! writin like u talk is kewl but kinda hard 4 NLP
Rajan et al. Survey of nlp resources in low-resource languages nepali, sindhi and konkani
CN112131859A (zh) 藏文作文抄袭检测原型系统
Londhe et al. Challenges in multilingual and mixed script sentiment analysis
CN113536790A (zh) 基于自然语言处理的模型训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant