CN111178040A

CN111178040A - 藏汉跨语言论文剽窃检测方法和系统

Info

Publication number: CN111178040A
Application number: CN201911401141.3A
Authority: CN
Inventors: 赵小兵; 鲍薇; 董建; 于鑫
Original assignee: Minzu University of China; China Electronics Standardization Institute
Current assignee: Minzu University of China; China Electronics Standardization Institute
Priority date: 2019-10-24
Filing date: 2019-12-30
Publication date: 2020-05-19
Anticipated expiration: 2039-12-30
Also published as: CN111178040B

Abstract

本发明提供一种藏汉跨语言论文剽窃检测方法和系统，涉及信息处理技术领域。本发明通过大规模的藏汉句对语料来训练和优化孪生长短时记忆网络模型，使得训练得到的基于孪生长短时记忆网络的藏汉跨语言相似度计算模型准确性好，通过该基于孪生长短时记忆网络的藏汉跨语言相似度计算模型在检测句对相似度时，无需任何先验知识，也无需人工干预，保障了句对相似度值检测结果的准确性，从而保障了以句对相似度值为判定依据的论文剽窃检测的准确性。

Description

藏汉跨语言论文剽窃检测方法和系统

技术领域

本发明涉及信息处理技术领域，具体涉及一种藏汉跨语言论文剽窃检测方法和系统。

背景技术

随着互联网中海量数据和跨语言信息的共享给学术论文剽窃、学术造假提供了极大的“便利”，跨语言剽窃检测也逐渐成为自然语言处理领域的一个重要研究内容。论文的跨语言剽窃可以是通过翻译手段形成自己的论文，也可以是通过翻译后进行一定程度的语义改写形成自己的论文，目前，中文、英文单语的论文剽窃检测已取得较好的检测效果，且已有多个商用论文检测系统。但是对于对低资源语言论文剽窃的检测中，以语义改写剽窃和翻译剽窃检测还是存在一定的挑战性。

目前，针对翻译剽窃的跨语言检测方法大多是利用机器翻译模型将跨语言文本转换成单语言，然后通过检测文本之间的相似度来判断是否存在剽窃问题。

但是，目前的翻译剽窃的跨语言检测方法过于依赖译文的质量，尤其是目前低资源语言机器翻译模型尚未达到高质量的翻译效果，极易出现误差，导致检测结果不准确。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种藏汉跨语言论文剽窃检测方法和系统，解决了目前的翻译剽窃的跨语言检测方法过于依赖译文的质量，导致检测结果不准确的技术问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

本发明提供一种藏汉跨语言论文剽窃检测方法，所述方法由计算机执行，包括：

S1、基于数据增强方法生成藏汉句对语料；

S2、基于所述藏汉句对语料训练孪生长短时记忆网络模型，得到基于孪生长短时记忆网络的藏汉跨语言相似度计算模型；

S3、基于所述基于孪生长短时记忆网络的藏汉跨语言相似度计算模型检测藏文论文相似度，根据相似度值判断论文是否为剽窃论文。

优选的，所述基于数据增强方法生成藏汉句对语料具体为：

S101、使用汉语句对训练基于孪生长短时记忆网络汉语单语相似度计算模型，调整模型参数，优化基于孪生长短时记忆网络汉语单语相似度计算模型；

S102、将藏汉平行语料中的汉语句对输入到经过优化的基于孪生长短时记忆网络汉语单语相似度计算模型，计算藏汉平行语料中汉语句对之间的相似度值，获得两个汉语句对之间的相似度值，并以该值作为对应的藏文句对之间的相似度值，同时也作为对应的藏汉跨语言句对之间的相似度值，加上两对藏汉平行句对，即可获得四个带有相似度值标签的藏汉跨语言句对，计算公式如下：

sim₁＝similarity(cn₁，cn₂)

similarity(tib₁，tib₂)＝sim₁

similarity(cn₁，tib₂)＝similarity(cn₂，tib₁)＝sim₁

similarity(cn₁，tib₁)＝similarity(cn₂，tib₂)＝MAX

其中：

cn和tib代表藏汉平行语料中的汉语句和藏语句，cn₁和cn₂是任意两个汉语句子，tib₁是cn₁的藏汉平行语料中的藏语句，tib₂是cn₂的藏汉平行语料中的藏语句；

sim₁是cn₁和cn₂两个汉语句子之间的相似度，MAX是相似度最大值；

所述藏汉平行句对为相似度值为最大值藏汉句对，所述四个带有相似度值标签的藏汉跨语言句对为cn₁-tib₂、cn₂-tib₁、cn₁-tib₁、cn₂-tib₂；

S103、重复步骤S102，获取藏汉句对。

优选的，所述基于孪生长短时记忆网络的藏汉跨语言相似度计算模型的结构为5层，具体如下：

输入层，所述输入层用于输入待检测句对；

嵌入层，所述嵌入层用于对输入的句子进行向量表示；

隐藏层，所述隐藏层用于挖掘输入句子的深层语义信息；

注意力层，所述注意力层用于生成权重向量；

输出层，所述输出层用于输出两个句子的相似度值。

优选的，所述检测论文是否为剽窃论文的具体方法为：

将经过待测的论文中的句子和论文数据库中文章的句子输入到基于孪生长短时记忆网络的藏汉跨语言相似度计算模型；

通过基于孪生长短时记忆网络的藏汉跨语言相似度计算模型输出相对比句子的相似度；

统计所述待测的论文中与所述论文数据库中文章的句子相似度达到设定范围的句子数量是否达到了所述待查文章中句子总数的设定范围；

如果是，则所述待测的论文为剽窃论文。

本发明还提供一种藏汉跨语言论文剽窃检测系统，所述系统包括计算机，所述计算机包括：

至少一个存储单元；

至少一个处理单元；

其中，所述至少一个存储单元中存储有至少一条指令，所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤：

S1、基于数据增强方法生成藏汉句对语料；

(三)有益效果

本发明提供了一种藏汉跨语言论文剽窃检测方法和系统。与现有技术相比，具备以下有益效果：

本发明通过数据增强方法生成大规模的藏汉句对语料，然后通过藏汉句对语料对孪生长短时记忆网络模型进行训练和优化，得到基于孪生长短时记忆网络的藏汉跨语言相似度计算模型。通过基于孪生长短时记忆网络的藏汉跨语言相似度计算模型来检测藏文论文相似度，根据相似度值判断论文是否为剽窃论文。本发明通过大规模的藏汉句对语料来训练和优化孪生长短时记忆网络模型，使得训练得到的基于孪生长短时记忆网络的藏汉跨语言相似度计算模型准确性好，通过本发明训练得到的基于孪生长短时记忆网络的藏汉跨语言相似度计算模型在检测句对相似度时，无需任何先验知识，也无需人工干预，保障了句对相似度检测结果的准确性，从而保障了以句对相似度值为判定依据的论文剽窃检测的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一种藏汉跨语言论文剽窃检测方法的框图；

图2为藏汉跨语言孪生长短时记忆网络网络模型的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种藏汉跨语言论文剽窃检测方法和系统，解决了目前的翻译剽窃的跨语言检测方法过于依赖译文的质量，导致检测结果不准确的问题，实现更加准确的判断论文是否存在剽窃问题。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

本实施例通过数据增强方法生成大规模的藏汉句对语料，然后通过藏汉句对语料对孪生长短时记忆网络模型进行训练和优化，得到基于孪生长短时记忆网络的藏汉跨语言相似度计算模型，再通过基于孪生长短时记忆网络的藏汉跨语言相似度计算模型检测句对相似度，根据句对相似度的情况判断论文是否存在剽窃的情况。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本发明实施例提供了一种藏汉跨语言论文剽窃检测方法，该方法由计算机执行，如图1所示，包括以下步骤：

S1、基于数据增强方法生成藏汉句对语料；

本发明实施例通过数据增强方法生成大规模的藏汉句对语料，然后通过藏汉句对语料对孪生长短时记忆网络模型进行训练和优化，得到基于孪生长短时记忆网络的藏汉跨语言相似度计算模型，通过基于孪生长短时记忆网络的藏汉跨语言相似度计算模型来检测论文相似度，根据相似度值判断论文是否为剽窃论文。本发明通过大规模的藏汉句对语料来训练和优化孪生长短时记忆网络模型，使得训练得到的基于孪生长短时记忆网络的藏汉跨语言相似度计算模型准确性好，通过本发明训练得到的基于孪生长短时记忆网络的藏汉跨语言相似度计算模型在检测句对相似度时，无需任何先验知识，也无需人工干预，保障了句对相似度检测结果的准确性，从而保障了以句对相似度为判定依据的剽窃检测的准确性。

下面对个步骤进行详细的描述：

需要说明的是，本发明实施例是藏汉跨语言论文剽窃检测方法，但并不是说明本发明实施例只能用于藏汉跨语言论文剽窃检测，通过本发明实施例的方法，也可构建其他跨语言孪生长短时记忆网络模型，(如藏语和英语之间的跨语言，蒙古语和汉语之间的跨语言等)并通过构建的模型检测论文间的相似度。

S1、基于数据增强方法生成藏汉句对语料。具体包括以下步骤：

S101、使用汉语句对训练基于孪生长短时记忆网络汉语单语相似度计算模型，调整模型参数，优化基于孪生长短时记忆网络汉语单语相似度计算模型。在具体实施过程中，使用SCIK_cn语料库(在本发明实施例中，SCIK_cn语料库是指SemEval2014中的英语评测语料SICK，共10000个英文句对，由于缺少相关的汉文、藏文语料，所以本专利首先使用谷歌翻译、小牛翻译工具将SICK语料中的英文句对翻译成相对应的汉文句对、藏文句对，最终形成英文、汉文、藏文三种单语语料库以及英-汉、英-藏、汉-藏三种跨语言语料库，分别表示如下en、cn、tib、en-cn、en-tib、cn-tib，本发明实施例中所使用的语料均为机器翻译语料，未经过人工修改)中的10000个汉语句对训练基于孪生长短时记忆网络汉语单语相似度计算模型，调整参数使模型性能达到最优。

S102、将藏汉平行语料中的汉语句对输入到经过优化的基于孪生长短时记忆网络汉语单语相似度计算模型，计算藏汉平行语料中汉语句对之间的相似度值，获得两个汉语句对之间的相似度值，并以该值作为对应的藏文句对之间的相似度值，同时也作为对应的藏汉跨语言句对之间的相似度值，，加上两对藏汉平行句对(设置其相似度值为最大值)，即可获得四个带有相似度值标签的藏汉跨语言句对。在具体实施过程中，如表1所示，cn₁和cn₂两个中文句子之间的相似度值记为sim₁。默认藏汉平行句对之间的相似度值为5(最大值)，即平行的两个句子的内容和意义完全相同。因此，表1中tib₁和tib₂的相似度值也是sim₁。可推出，cn₁和tib₂的相似度值以及cn₂和tib₁的相似度值均为sim₁。通过该方法可获得包含相似度值标签的伪句对。输入cn₁-tib₁、cn₂-tib₂两个藏汉句对，使用以上所述方法进行计算，最终可得出cn₁-tib₁、cn₂-tib₂、cn₁-tib₂、cn₂-tib₁四个带有相似度值标签的藏汉跨语言句对。

具体计算公式如下：

sim₁＝similarity(cn₁，cn₂)

similarity(tib₁，tib₂)＝sim₁

similarity(cn₁，tib₂)＝similarity(cn₂，tib₁)＝sim₁

similarity(cn₁，tib₁)＝similarity(cn₂，tib₂)＝5

其中：

cn和tib代表藏汉平行语料中的汉语句和藏语句，cn₁和cn₂是任意两个汉语句子，tib₁是cn₁的藏汉平行语料中的藏语句，tib₂是cn₂的藏汉平行语料中的藏语句；sim₁是cn₁和cn₂两个汉语句子之间的相似度。

表1

S103、重复步骤S102，获取藏汉句对。根据上述基于数据增强的语料扩充方法，共构造了21万藏汉句对。

S2、基于所述藏汉句对语料训练孪生长短时记忆网络模型，得到基于孪生长短时记忆网络的藏汉跨语言相似度计算模型。在具体实施过程中，通过21万藏汉句对训练优化孪生长短时记忆网络模型，得到藏汉跨语言孪生长短时记忆网络网络模型。其中，基于孪生长短时记忆网络的藏汉跨语言相似度计算模型的结构为5层，具体结构如图2所示，具体包括：用于输入待检测句对的输入层，用于对输入的句子进行向量表示的嵌入层；用于挖掘输入句子的深层语义信息的隐藏层；用于生成权重向量的注意力层；用于输出两个句子的相似度值输出层。

S3、基于孪生长短时记忆网络的藏汉跨语言相似度计算模型检测藏文论文相似度，根据相似度值判断论文是否为剽窃论文。这里需要说明的是，步骤S2训练好的基于孪生长短时记忆网络的藏汉跨语言相似度计算模型可以用于多次检测论文相似度，也就是说，一旦基于孪生长短时记忆网络的藏汉跨语言相似度计算模型训练好，后续都用这个基于孪生长短时记忆网络的藏汉跨语言相似度计算模型进行论文相对度检测，无需重复训练，即，无需重复步骤S1～S2。

在具体实施过程中，将经过待测的论文中的句子和论文数据库中文章的句子按序一一输入到基于孪生长短时记忆网络的藏汉跨语言相似度计算模型；通过基于孪生长短时记忆网络的藏汉跨语言相似度计算模型输出相对比句子的相似度；统计所述待测的论文中与所述论文数据库中文章的句子相似度达到设定范围的句子数量是否达到了所述待查文章中句子总数的设定范围；如果是，则所述待测的论文为剽窃论文。

本发明实施例还提供一种藏汉跨语言论文剽窃检测系统，所述系统包括计算机，所述计算机包括：

至少一个存储单元；

至少一个处理单元；

S1、基于数据增强方法生成藏汉句对语料；

综上所述，与现有技术相比，具备以下有益效果：

本发明实施例通过数据增强方法生成大规模的藏汉句对语料，然后通过藏汉句对语料对孪生长短时记忆网络模型进行训练和优化，得到基于孪生长短时记忆网络的藏汉跨语言相似度计算模型，通过基于孪生长短时记忆网络的藏汉跨语言相似度计算模型来检测论文相似度，根据相似度值判断论文是否为剽窃论文。通过本发明实施例训练得到的基于孪生长短时记忆网络的藏汉跨语言相似度计算模型可直接将待检测句对和词向量作为输入，最终输出句对的相似度值。本发明实施例通过大规模的藏汉句对语料来训练和优化孪生长短时记忆网络模型，使得训练得到的基于孪生长短时记忆网络的藏汉跨语言相似度计算模型准确性好，通过本发明实施例训练得到的基于孪生长短时记忆网络的藏汉跨语言相似度计算模型在检测句对相似度时，无需任何先验知识，也无需人工干预，保障了句对相似度检测结果的准确性，从而保障了以句对相似度为判定依据的剽窃检测的准确性。

需要说明的是，通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种藏汉跨语言论文剽窃检测方法，其特征在于，所述方法由计算机执行，包括：

S1、基于数据增强方法生成藏汉句对语料；

2.如权利要求1所述的藏汉跨语言论文剽窃检测方法，其特征在于，所述基于数据增强方法生成藏汉句对语料具体为：

sim₁＝similarity(cn₁，cn₂)

similarity(tib₁，tib₂)＝sim₁

similarity(cn₁，tib₂)＝similarity(cn₂，tib₁)＝sim₁

similarity(cn₁，tib₁)＝similarity(cn₂，tib₂)＝MAX

其中：

S103、重复步骤S102，获取藏汉句对。

3.如权利要求1所述的藏汉跨语言论文剽窃检测方法，其特征在于，所述基于孪生长短时记忆网络的藏汉跨语言相似度计算模型的结构为5层，具体如下：

输入层，所述输入层用于输入待检测句对；

嵌入层，所述嵌入层用于对输入的句子进行向量表示；

隐藏层，所述隐藏层用于挖掘输入句子的深层语义信息；

注意力层，所述注意力层用于生成权重向量；

输出层，所述输出层用于输出两个句子的相似度值。

4.如权利要求1所述的藏汉跨语言论文剽窃检测方法，其特征在于，所述检测论文是否为剽窃论文的具体方法为：

如果是，则所述待测的论文为剽窃论文。

5.一种藏汉跨语言论文剽窃检测系统，其特征在于，所述系统包括计算机，所述计算机包括：

至少一个存储单元；

至少一个处理单元；

S1、基于数据增强方法生成藏汉句对语料；