CN106095735A

CN106095735A - 一种基于深度神经网络检测学术文献抄袭的方法

Info

Publication number: CN106095735A
Application number: CN201610395603.5A
Authority: CN
Inventors: 刘玉良; 刘晓华; 李连栓; 刘文涛; 李军
Original assignee: Beijing Zhongjia Hiway Science & Technology Co Ltd
Current assignee: Beijing Zhongjia Hiway Science & Technology Co Ltd
Priority date: 2016-06-06
Filing date: 2016-06-06
Publication date: 2016-11-09

Abstract

本发明揭示了一种基于深度神经网络检测学术文献抄袭的方法，属于信息管理技术领域。本发明提出了基于深度神经网络为任意长度文本提取固定字节数的二进制数据（称之为信息指纹或简称为指纹）。该指纹提取技术应用到海量的学术资源库，为其建立句子、段落以及篇章级别的指纹库。同样的指纹提取技术应用到待检测的学术文献，为其建立句子、段落以及篇章级别的指纹。进一步将指纹和指纹库对比，如果指纹完全相同，从而找到疑似抄袭的句子、段落或者文章。

Description

一种基于深度神经网络检测学术文献抄袭的方法

技术领域

本发明涉及一种基于深度神经网络为任意长度文本建立固定字节数的二进制数据的方法，属于信息管理的技术范畴。

技术背景

文献抄袭是指待检测文献与其他一篇或多篇文献的相似或相同程度，抄袭有的是通过一定的同义词、近义词变换等手段来复制现有的文献，但在文献框架构思、主要观点和论据上却没有大的变化，尤其当今科技高速发展，待检测文献需要与海量文献（包括期刊论文、在线文献、微博发文、微信原创、专利文献、会议论文等）进行比较，判断是否为抄袭，如果依靠传统的检测方法是不可能完成的，这为文献检测带来了难度。

海量数据和日益增强的计算能力使得深度神经网络在语音识别、图像分类、机器翻译等领域取得广泛应用并取得了最好水平，并在一些特定的任务上超过了人的水平（例如围棋、人脸识别等）。深度神经网络的一个突出优势是它能够从原始数据中自动学习特征表示，而之前这些特征表示的获得需要专家人工设计。只要数据足够，依靠强大的计算能力，深度神经网络为一个特定的任务往往能学到一个足够好的表示。

发明内容

本发明的目的是针对上述现有技术的不足，提供一种基于深度神经网络检测文献抄袭的方法，该方法可以对文献内容是否抄袭进行检测，帮助使用者鉴别涉嫌抄袭的文献。

一种基于深度神经网络检测文献抄袭的方法，包括如下步骤：

（1）收集海量学术文献，将其中每篇文献提取任意长度文本；

（2）利用深度神经网络将步骤（1）的所述任意长度文本编码为固定字节数的二进制数据作为该文本对应的指纹，并将该指纹存入指纹库；

（3）将待检测的学术文献，利用深度神经网络对其提取指纹，并和所述指纹库中的指纹相比对；

（4）如果比对结果完全相同，则返回该指纹对应的文本编号，表明该待检测文献存在抄袭嫌疑；

进一步地，所述步骤（2）具体为所述深度神经网络将每篇文献的句子、段落或篇章进行编码，所述指纹库包括所述海量学术文献的每篇文献的句子、段落或篇章级的指纹。

进一步地，所述步骤（3）具体为所述深度神经网络将所述待检测的学术文献的句子、段落或篇章进行编码，并和所述指纹库中相应的句子、段落或篇章级的指纹进行比对；

进一步地，所述深度神经网络包括编码子神经网络和解码子神经网络，其中，所述编码子神经网络将输入文本编码为固定长度的指纹，所述解码子神经网络根据该固定长度的指纹重建所述输入文本；

进一步地，所述深度神经网络包括训练和使用两个阶段，在训练阶段，输入为文本集合，在训练过程中不断调整编码子神经网络和解码子神经网络，使得输出与输入的文本相同，在使用阶段，直接使用该编码子神经网络，其输入为一文本，输出的内部状态为该输入文本对应的指纹；

进一步地，所述编码子神经网络采用递归神经网络（RNN）或卷积神经网络（CNN）实现；

进一步地，所述解码子神经网络采用递归神经网络（RNN）实现；

进一步地，所述训练阶段采用梯度下降法进行端到端的训练；

进一步地，所述指纹的字节长度可定制；

进一步地，所述指纹库还包括与所述指纹对应的唯一文本编码，该文本编码能够定位所述指纹所指的文献的特定句子、特定段落或篇章。

采用上述技术方案，本发明首次将文本指纹提取抽象为编码-解码问题：输入文本编码为中间状态，然后由中间状态重建输入的文本。中间状态为固定比特长度，对应着输入文本的指纹。本发明进一步用深度神经网络来求解此编码-解码问题。和其他指纹提取方案相比，本发明提出的基于深度神经网络的方案，是基于文本语义理解的编码，其提取的指纹概括了输入文本的语义。基于这种语义指纹，不仅能检测字面上的抄袭，还能检测“创意”层面的雷同。

本发明具有以下优点：

1.基于深度神经网络对任意长度的文本提取指纹，能检测“意思”雷同的相关文献；

2.适用于任何长度、任何语言文献的检测；

3.无需任何数据标注可以端到端训练深度神经网络进行指纹提取；

4.文本指纹长度可定制。

附图说明

图1为该方法的步骤示意图；

图2为基于深度神经网络的文本指纹提取示意图；

图3为用RNN对输入文字进行编码示意图；

图4为用CNN对输入文字进行编码示意图；

图5为用以解码用的RNN示意图。

具体实施方式

为了使本发明的内容更容易被清楚地理解，下面根据具体实施例并结合附图，对本发明作进一步详细的说明。

如图1-5所示，深度神经网络可以将任意长度文本建立为固定字节数的二进制数据，称之为信息指纹或简称为指纹，本发明中所指的指纹，均是二进制数据。本发明基于深度神经网络来检测学术文献抄袭的方法，具体包括以下步骤：（1）收集海量学术文献，将其中每篇文献提取任意长度文本；

（4）如果比对结果完全相同，则返回该指纹对应的文本编号，表明该待检测文献存在抄袭嫌疑。

其中，步骤（2）对海量学术资源库建立指纹库

对步骤（1）中每篇文献的所述任意长度文本，使用深度神经网络对所述任意长度文本编码为固定字节数的二进制数据作为该文本对应的指纹，提取该指纹，并存入指纹库。深度神经网络可以对每篇文献的整个篇章、每个段落、或每个句子进行编码，同时指纹库还保存与各个指纹对应的唯一文本编号，根据该唯一文本编号可以定位到与其对应的文献、该文献的特定段落或该文献的特定句子。

对于步骤（3）对待检测的学术文献提取指纹并检测

对待检测的学术文献，使用深度神经网络对该文献、该文献的每个段落、每个句子进行编码形成固定字节数的二进制数据，作为指纹，并分别和步骤（2）建立的指纹库中的相应的句子、段落或篇章级的指纹进行比对，如果找到完全相同的指纹，则返回该指纹对应的文本编号，根据该文本编号可以找到其对应的相应文献，从而判断该待检测文献与该相应文献存在相同或相似之处，存在抄袭嫌疑。

基于深度神经网络为任意长度文本建立固定比特长度指纹,该深度神经网络如图2所示，包括编码子神经网络和解码子神经网络。编码子神经网络将输入文本编码为固定长度的指纹；解码子神经网络根据该固定长度的指纹重建输入文本。该网络用梯度下降算法进行端到端训练。一旦训练完成，仅保留编码子网络用以提取文本指纹。基于深度神经网络抽取文本指纹是本发明的首创。

编码子神经网络，可以采用递归神经网络（Recursive Neural Network：RNN）或者卷积神经网络（Convolutional Neural Network：CNN）实现，如图3、图4所示。它把变长的文本映射为定长的指纹。

解码子神经网络用RNN实现，如图5所示。输入为编码子神经网络输出的指纹，输出为文字训列（黑色边框方块序列表示）。

图3-5中每个黑色边框的方块表示一个文本单元（可以是词或字）对应的向量。词（字）向量可以通过任何一种词嵌入（word embedding）工具（例如word2vec）预先学出。附图3-5中，黑色边框的方块中的字₁, 字₂,字₃,字₄,字_n表示一个编码或解码单元：可以是一个英文单词或者一个中文汉字。本发明所提出的如图2所示的深度神经网络，可以用梯度下降法进行端到端的训练，图3 和图4是分别利用RNN和CNN对输入的字₁, 字₂,…字_n等进行编码形成指纹，图5表示将指纹利用RNN单元对其进行解码为字₁, 字₂,字₃,字₄等，均是基于深度神经网络的编码和解码过程。

用以指纹提取的深度神经网络有训练和使用两个阶段。训练阶段，输入为文本集合。训练的过程是调整编码器和解码器两个子网络，使得恢复输入文本的可能性尽可能大。使用阶段，输入为一个文本，编码子神经网络输出的内部状态就是该文本对应的指纹；

深度神经网络的编码子神经网络具有接受任何长度文本序列为输入的能力，可以基于但不限于深度卷积神经网络、LSTM(Long Short Term Memory)递归神经网络实现；

同样的深度神经网络应用到句子、段落、篇章，建立句子、段落和篇章级别的指纹；

为海量的学术资源库建立句子、段落、篇章级别的指纹库；

为待检测的学术文献建立句子、段落、篇章级的指纹，并将之与指纹库对比，发现具有完全相同指纹的学术文献或者学术文献句子、段落片段；

该方法用深度神经网络提取文本指纹，并适用于任何长度的文本。

用以指纹提取的深度神经网络有训练和使用两个阶段：训练只需要文本，训练的目的是调整神经网络使得该网络能够尽可能的产生输入的文本；使用阶段，直接用编码子神经网络输出的内部状态为待提取的指纹；

指纹库包括海量学术文献句子、段落以及篇章级的指纹，并且由同一个深度神经网络产生；

同一个深度神经网络应用到待检测的文章，为其提取句子、段落和篇章级指纹，并将其与指纹库对比，找到具有完全相同指纹的学术文献或者学术文献片段。

文本指纹长度可事先定制，如采用64字节、128字节等。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度神经网络检测文献抄袭的方法，其特征在于：包括以下步骤：

（2）利用深度神经网络将步骤（1）所述任意长度文本编码为固定字节数的二进制数据作为该文本对应的指纹，并将该指纹存入指纹库；

2.根据权利要求1所述的方法，其特征在于：所述步骤（2）具体为所述深度神经网络将每篇文献的句子、段落或篇章进行编码，所述指纹库包括所述海量学术文献的每篇文献的句子、段落或篇章级的指纹。

3.根据权利要求2 所述的方法，其特征在于：步骤（3）具体为所述深度神经网络将所述待检测的学术文献的句子、段落或篇章进行编码，并和所述指纹库中相应的句子、段落或篇章级的指纹进行比对。

4.根据权利要求1或2所述的方法，其特征在于：所述深度神经网络包括编码子神经网络和解码子神经网络，其中，所述编码子神经网络将输入文本编码为固定长度的指纹，所述解码子神经网络根据该固定长度的指纹重建所述输入文本。

5.根据权利要求4所述的方法，其特征在于：所述深度神经网络包括训练和使用两个阶段，在训练阶段，输入为文本集合，在训练过程中不断调整编码子神经网络和解码子神经网络，使得输出与输入的文本相同，在使用阶段，直接使用该编码子神经网络，其输入为一文本，输出的内部状态为该输入文本对应的指纹。

6.根据权利要求5所述的方法，其特征在于：所述编码子神经网络采用递归神经网络（RNN）或卷积神经网络（CNN）实现。

7.根据权利要求5所述的方法，其特征在于：所述解码子神经网络采用递归神经网络（RNN）实现。

8.根据权利要求5所述的方法，其特征在于：所述训练阶段采用梯度下降法进行端到端的训练。

9.根据权利要求1或2所述的方法，其特征在于：所述指纹的字节长度可定制。

10.根据权利要求1或2所述的方法，其特征在于：所述指纹库还包括与所述指纹对应的唯一文本编码，该文本编码能够定位所述指纹所指的文献的特定句子、特定段落或篇章。