CN106095735A - 一种基于深度神经网络检测学术文献抄袭的方法 - Google Patents
一种基于深度神经网络检测学术文献抄袭的方法 Download PDFInfo
- Publication number
- CN106095735A CN106095735A CN201610395603.5A CN201610395603A CN106095735A CN 106095735 A CN106095735 A CN 106095735A CN 201610395603 A CN201610395603 A CN 201610395603A CN 106095735 A CN106095735 A CN 106095735A
- Authority
- CN
- China
- Prior art keywords
- fingerprint
- neural network
- text
- deep neural
- paragraph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Collating Specific Patterns (AREA)
Abstract
本发明揭示了一种基于深度神经网络检测学术文献抄袭的方法,属于信息管理技术领域。本发明提出了基于深度神经网络为任意长度文本提取固定字节数的二进制数据(称之为信息指纹或简称为指纹)。该指纹提取技术应用到海量的学术资源库,为其建立句子、段落以及篇章级别的指纹库。同样的指纹提取技术应用到待检测的学术文献,为其建立句子、段落以及篇章级别的指纹。进一步将指纹和指纹库对比,如果指纹完全相同,从而找到疑似抄袭的句子、段落或者文章。
Description
技术领域
本发明涉及一种基于深度神经网络为任意长度文本建立固定字节数的二进制数据的方法,属于信息管理的技术范畴。
技术背景
文献抄袭是指待检测文献与其他一篇或多篇文献的相似或相同程度,抄袭有的是通过一定的同义词、近义词变换等手段来复制现有的文献,但在文献框架构思、主要观点和论据上却没有大的变化,尤其当今科技高速发展,待检测文献需要与海量文献(包括期刊论文、在线文献、微博发文、微信原创、专利文献、会议论文等)进行比较,判断是否为抄袭,如果依靠传统的检测方法是不可能完成的,这为文献检测带来了难度。
海量数据和日益增强的计算能力使得深度神经网络在语音识别、图像分类、机器翻译等领域取得广泛应用并取得了最好水平,并在一些特定的任务上超过了人的水平(例如围棋、人脸识别等)。深度神经网络的一个突出优势是它能够从原始数据中自动学习特征表示,而之前这些特征表示的获得需要专家人工设计。只要数据足够,依靠强大的计算能力,深度神经网络为一个特定的任务往往能学到一个足够好的表示。
发明内容
本发明的目的是针对上述现有技术的不足,提供一种基于深度神经网络检测文献抄袭的方法,该方法可以对文献内容是否抄袭进行检测,帮助使用者鉴别涉嫌抄袭的文献。
一种基于深度神经网络检测文献抄袭的方法,包括如下步骤:
(1)收集海量学术文献,将其中每篇文献提取任意长度文本;
(2)利用深度神经网络将步骤(1)的所述任意长度文本编码为固定字节数的二进制数据作为该文本对应的指纹,并将该指纹存入指纹库;
(3)将待检测的学术文献,利用深度神经网络对其提取指纹,并和所述指纹库中的指纹相比对;
(4)如果比对结果完全相同,则返回该指纹对应的文本编号,表明该待检测文献存在抄袭嫌疑;
进一步地,所述步骤(2)具体为所述深度神经网络将每篇文献的句子、段落或篇章进行编码,所述指纹库包括所述海量学术文献的每篇文献的句子、段落或篇章级的指纹。
进一步地,所述步骤(3)具体为所述深度神经网络将所述待检测的学术文献的句子、段落或篇章进行编码,并和所述指纹库中相应的句子、段落或篇章级的指纹进行比对;
进一步地,所述深度神经网络包括编码子神经网络和解码子神经网络,其中,所述编码子神经网络将输入文本编码为固定长度的指纹,所述解码子神经网络根据该固定长度的指纹重建所述输入文本;
进一步地,所述深度神经网络包括训练和使用两个阶段,在训练阶段,输入为文本集合,在训练过程中不断调整编码子神经网络和解码子神经网络,使得输出与输入的文本相同,在使用阶段,直接使用该编码子神经网络,其输入为一文本,输出的内部状态为该输入文本对应的指纹;
进一步地,所述编码子神经网络采用递归神经网络(RNN)或卷积神经网络(CNN)实现;
进一步地,所述解码子神经网络采用递归神经网络(RNN)实现;
进一步地,所述训练阶段采用梯度下降法进行端到端的训练;
进一步地,所述指纹的字节长度可定制;
进一步地,所述指纹库还包括与所述指纹对应的唯一文本编码,该文本编码能够定位所述指纹所指的文献的特定句子、特定段落或篇章。
采用上述技术方案,本发明首次将文本指纹提取抽象为编码-解码问题:输入文本编码为中间状态,然后由中间状态重建输入的文本。中间状态为固定比特长度,对应着输入文本的指纹。本发明进一步用深度神经网络来求解此编码-解码问题。和其他指纹提取方案相比,本发明提出的基于深度神经网络的方案,是基于文本语义理解的编码,其提取的指纹概括了输入文本的语义。基于这种语义指纹,不仅能检测字面上的抄袭,还能检测“创意”层面的雷同。
本发明具有以下优点:
1.基于深度神经网络对任意长度的文本提取指纹,能检测“意思”雷同的相关文献;
2.适用于任何长度、任何语言文献的检测;
3.无需任何数据标注可以端到端训练深度神经网络进行指纹提取;
4.文本指纹长度可定制。
附图说明
图1为该方法的步骤示意图;
图2为基于深度神经网络的文本指纹提取示意图;
图3为用RNN对输入文字进行编码示意图;
图4为用CNN对输入文字进行编码示意图;
图5为用以解码用的RNN示意图。
具体实施方式
为了使本发明的内容更容易被清楚地理解,下面根据具体实施例并结合附图,对本发明作进一步详细的说明。
如图1-5所示,深度神经网络可以将任意长度文本建立为固定字节数的二进制数据,称之为信息指纹或简称为指纹,本发明中所指的指纹,均是二进制数据。本发明基于深度神经网络来检测学术文献抄袭的方法,具体包括以下步骤:(1)收集海量学术文献,将其中每篇文献提取任意长度文本;
(2)利用深度神经网络将步骤(1)的所述任意长度文本编码为固定字节数的二进制数据作为该文本对应的指纹,并将该指纹存入指纹库;
(3)将待检测的学术文献,利用深度神经网络对其提取指纹,并和所述指纹库中的指纹相比对;
(4)如果比对结果完全相同,则返回该指纹对应的文本编号,表明该待检测文献存在抄袭嫌疑。
其中,步骤(2)对海量学术资源库建立指纹库
对步骤(1)中每篇文献的所述任意长度文本,使用深度神经网络对所述任意长度文本编码为固定字节数的二进制数据作为该文本对应的指纹,提取该指纹,并存入指纹库。深度神经网络可以对每篇文献的整个篇章、每个段落、或每个句子进行编码,同时指纹库还保存与各个指纹对应的唯一文本编号,根据该唯一文本编号可以定位到与其对应的文献、该文献的特定段落或该文献的特定句子。
对于步骤(3)对待检测的学术文献提取指纹并检测
对待检测的学术文献,使用深度神经网络对该文献、该文献的每个段落、每个句子进行编码形成固定字节数的二进制数据,作为指纹,并分别和步骤(2)建立的指纹库中的相应的句子、段落或篇章级的指纹进行比对,如果找到完全相同的指纹,则返回该指纹对应的文本编号,根据该文本编号可以找到其对应的相应文献,从而判断该待检测文献与该相应文献存在相同或相似之处,存在抄袭嫌疑。
基于深度神经网络为任意长度文本建立固定比特长度指纹,该深度神经网络如图2所示,包括编码子神经网络和解码子神经网络。编码子神经网络将输入文本编码为固定长度的指纹;解码子神经网络根据该固定长度的指纹重建输入文本。该网络用梯度下降算法进行端到端训练。一旦训练完成,仅保留编码子网络用以提取文本指纹。基于深度神经网络抽取文本指纹是本发明的首创。
编码子神经网络,可以采用递归神经网络(Recursive Neural Network:RNN)或者卷积神经网络(Convolutional Neural Network:CNN)实现,如图3、图4所示。它把变长的文本映射为定长的指纹。
解码子神经网络用RNN实现,如图5所示。输入为编码子神经网络输出的指纹,输出为文字训列(黑色边框方块序列表示)。
图3-5中每个黑色边框的方块表示一个文本单元(可以是词或字)对应的向量。词(字)向量可以通过任何一种词嵌入(word embedding)工具(例如word2vec)预先学出。附图3-5中,黑色边框的方块中的字1, 字2,字3,字4,字n表示一个编码或解码单元:可以是一个英文单词或者一个中文汉字。本发明所提出的如图2所示的深度神经网络,可以用梯度下降法进行端到端的训练,图3 和图4是分别利用RNN和CNN对输入的字1, 字2,…字n等进行编码形成指纹,图5表示将指纹利用RNN单元对其进行解码为字1, 字2,字3,字4等,均是基于深度神经网络的编码和解码过程。
用以指纹提取的深度神经网络有训练和使用两个阶段。训练阶段,输入为文本集合。训练的过程是调整编码器和解码器两个子网络,使得恢复输入文本的可能性尽可能大。使用阶段,输入为一个文本,编码子神经网络输出的内部状态就是该文本对应的指纹;
深度神经网络的编码子神经网络具有接受任何长度文本序列为输入的能力,可以基于但不限于深度卷积神经网络、LSTM(Long Short Term Memory)递归神经网络实现;
同样的深度神经网络应用到句子、段落、篇章,建立句子、段落和篇章级别的指纹;
为海量的学术资源库建立句子、段落、篇章级别的指纹库;
为待检测的学术文献建立句子、段落、篇章级的指纹,并将之与指纹库对比,发现具有完全相同指纹的学术文献或者学术文献句子、段落片段;
该方法用深度神经网络提取文本指纹,并适用于任何长度的文本。
用以指纹提取的深度神经网络有训练和使用两个阶段:训练只需要文本,训练的目的是调整神经网络使得该网络能够尽可能的产生输入的文本;使用阶段,直接用编码子神经网络输出的内部状态为待提取的指纹;
指纹库包括海量学术文献句子、段落以及篇章级的指纹,并且由同一个深度神经网络产生;
同一个深度神经网络应用到待检测的文章,为其提取句子、段落和篇章级指纹,并将其与指纹库对比,找到具有完全相同指纹的学术文献或者学术文献片段。
文本指纹长度可事先定制,如采用64字节、128字节等。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于深度神经网络检测文献抄袭的方法,其特征在于:包括以下步骤:
(1)收集海量学术文献,将其中每篇文献提取任意长度文本;
(2)利用深度神经网络将步骤(1)所述任意长度文本编码为固定字节数的二进制数据作为该文本对应的指纹,并将该指纹存入指纹库;
(3)将待检测的学术文献,利用深度神经网络对其提取指纹,并和所述指纹库中的指纹相比对;
(4)如果比对结果完全相同,则返回该指纹对应的文本编号,表明该待检测文献存在抄袭嫌疑。
2.根据权利要求1所述的方法,其特征在于:所述步骤(2)具体为所述深度神经网络将每篇文献的句子、段落或篇章进行编码,所述指纹库包括所述海量学术文献的每篇文献的句子、段落或篇章级的指纹。
3.根据权利要求2 所述的方法,其特征在于:步骤(3)具体为所述深度神经网络将所述待检测的学术文献的句子、段落或篇章进行编码,并和所述指纹库中相应的句子、段落或篇章级的指纹进行比对。
4.根据权利要求1或2所述的方法,其特征在于:所述深度神经网络包括编码子神经网络和解码子神经网络,其中,所述编码子神经网络将输入文本编码为固定长度的指纹,所述解码子神经网络根据该固定长度的指纹重建所述输入文本。
5.根据权利要求4所述的方法,其特征在于:所述深度神经网络包括训练和使用两个阶段,在训练阶段,输入为文本集合,在训练过程中不断调整编码子神经网络和解码子神经网络,使得输出与输入的文本相同,在使用阶段,直接使用该编码子神经网络,其输入为一文本,输出的内部状态为该输入文本对应的指纹。
6.根据权利要求5所述的方法,其特征在于:所述编码子神经网络采用递归神经网络(RNN)或卷积神经网络(CNN)实现。
7.根据权利要求5所述的方法,其特征在于:所述解码子神经网络采用递归神经网络(RNN)实现。
8.根据权利要求5所述的方法,其特征在于:所述训练阶段采用梯度下降法进行端到端的训练。
9.根据权利要求1或2所述的方法,其特征在于:所述指纹的字节长度可定制。
10.根据权利要求1或2所述的方法,其特征在于:所述指纹库还包括与所述指纹对应的唯一文本编码,该文本编码能够定位所述指纹所指的文献的特定句子、特定段落或篇章。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610395603.5A CN106095735A (zh) | 2016-06-06 | 2016-06-06 | 一种基于深度神经网络检测学术文献抄袭的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610395603.5A CN106095735A (zh) | 2016-06-06 | 2016-06-06 | 一种基于深度神经网络检测学术文献抄袭的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106095735A true CN106095735A (zh) | 2016-11-09 |
Family
ID=57448539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610395603.5A Pending CN106095735A (zh) | 2016-06-06 | 2016-06-06 | 一种基于深度神经网络检测学术文献抄袭的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106095735A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107085568A (zh) * | 2017-03-29 | 2017-08-22 | 腾讯科技(深圳)有限公司 | 一种文本相似度判别方法及装置 |
CN107301246A (zh) * | 2017-07-14 | 2017-10-27 | 河北工业大学 | 基于超深卷积神经网络结构模型的中文文本分类方法 |
CN107330127A (zh) * | 2017-07-21 | 2017-11-07 | 湘潭大学 | 一种基于文本图片检索的相似文本检测方法 |
CN107463605A (zh) * | 2017-06-21 | 2017-12-12 | 北京百度网讯科技有限公司 | 低质新闻资源的识别方法及装置、计算机设备及可读介质 |
CN109408795A (zh) * | 2017-08-17 | 2019-03-01 | 中国移动通信集团公司 | 一种文本识别方法、设备、计算机可读存储介质及装置 |
CN111538803A (zh) * | 2020-04-20 | 2020-08-14 | 京东方科技集团股份有限公司 | 待匹配的候选提问文本获取方法及装置、设备及介质 |
WO2020253052A1 (zh) * | 2019-06-18 | 2020-12-24 | 平安普惠企业管理有限公司 | 一种基于自然语义理解的行为识别方法及相关设备 |
CN112380834A (zh) * | 2020-08-25 | 2021-02-19 | 中央民族大学 | 藏语论文剽窃检测方法和系统 |
CN112861505A (zh) * | 2021-02-04 | 2021-05-28 | 北京百度网讯科技有限公司 | 重复度检测方法、装置和电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101398758A (zh) * | 2008-10-30 | 2009-04-01 | 北京航空航天大学 | 一种代码抄袭的检测方法 |
GB2483246A (en) * | 2010-09-01 | 2012-03-07 | Fujitsu Ltd | Identifying Plagiarised Material |
CN103729459A (zh) * | 2014-01-10 | 2014-04-16 | 北京邮电大学 | 一种构建情感分类模型的方法 |
CN104598611A (zh) * | 2015-01-29 | 2015-05-06 | 百度在线网络技术(北京)有限公司 | 对搜索条目进行排序的方法及系统 |
CN104657350A (zh) * | 2015-03-04 | 2015-05-27 | 中国科学院自动化研究所 | 融合隐式语义特征的短文本哈希学习方法 |
-
2016
- 2016-06-06 CN CN201610395603.5A patent/CN106095735A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101398758A (zh) * | 2008-10-30 | 2009-04-01 | 北京航空航天大学 | 一种代码抄袭的检测方法 |
GB2483246A (en) * | 2010-09-01 | 2012-03-07 | Fujitsu Ltd | Identifying Plagiarised Material |
CN103729459A (zh) * | 2014-01-10 | 2014-04-16 | 北京邮电大学 | 一种构建情感分类模型的方法 |
CN104598611A (zh) * | 2015-01-29 | 2015-05-06 | 百度在线网络技术(北京)有限公司 | 对搜索条目进行排序的方法及系统 |
CN104657350A (zh) * | 2015-03-04 | 2015-05-27 | 中国科学院自动化研究所 | 融合隐式语义特征的短文本哈希学习方法 |
Non-Patent Citations (3)
Title |
---|
STEVE ENGELS等: "Plagiarism Detection Using Feature-Based Neural Networks", 《PROCEEDINGS OF THE 38TH SIGCSE TECHNICAL SYMPOSIUM ON COMPUTER SCIENCE EDUCATION》 * |
秦玉平等: "基于局部词频指纹的论文抄袭检测算法", 《计算机工程》 * |
许伯桐,毕凌燕,祁明编: "《现代企业知识产权保护》", 31 January 2007 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107085568A (zh) * | 2017-03-29 | 2017-08-22 | 腾讯科技(深圳)有限公司 | 一种文本相似度判别方法及装置 |
CN107085568B (zh) * | 2017-03-29 | 2022-11-22 | 腾讯科技(深圳)有限公司 | 一种文本相似度判别方法及装置 |
CN107463605B (zh) * | 2017-06-21 | 2021-06-11 | 北京百度网讯科技有限公司 | 低质新闻资源的识别方法及装置、计算机设备及可读介质 |
CN107463605A (zh) * | 2017-06-21 | 2017-12-12 | 北京百度网讯科技有限公司 | 低质新闻资源的识别方法及装置、计算机设备及可读介质 |
US10769133B2 (en) | 2017-06-21 | 2020-09-08 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for recognizing a low-quality news resource, computer device and readable medium |
CN107301246A (zh) * | 2017-07-14 | 2017-10-27 | 河北工业大学 | 基于超深卷积神经网络结构模型的中文文本分类方法 |
CN107330127A (zh) * | 2017-07-21 | 2017-11-07 | 湘潭大学 | 一种基于文本图片检索的相似文本检测方法 |
CN107330127B (zh) * | 2017-07-21 | 2020-06-05 | 湘潭大学 | 一种基于文本图片检索的相似文本检测方法 |
CN109408795A (zh) * | 2017-08-17 | 2019-03-01 | 中国移动通信集团公司 | 一种文本识别方法、设备、计算机可读存储介质及装置 |
CN109408795B (zh) * | 2017-08-17 | 2022-04-15 | 中国移动通信集团公司 | 一种文本识别方法、设备、计算机可读存储介质及装置 |
WO2020253052A1 (zh) * | 2019-06-18 | 2020-12-24 | 平安普惠企业管理有限公司 | 一种基于自然语义理解的行为识别方法及相关设备 |
CN111538803A (zh) * | 2020-04-20 | 2020-08-14 | 京东方科技集团股份有限公司 | 待匹配的候选提问文本获取方法及装置、设备及介质 |
CN112380834A (zh) * | 2020-08-25 | 2021-02-19 | 中央民族大学 | 藏语论文剽窃检测方法和系统 |
CN112380834B (zh) * | 2020-08-25 | 2023-10-31 | 中央民族大学 | 藏语论文剽窃检测方法和系统 |
CN112861505A (zh) * | 2021-02-04 | 2021-05-28 | 北京百度网讯科技有限公司 | 重复度检测方法、装置和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106095735A (zh) | 一种基于深度神经网络检测学术文献抄袭的方法 | |
WO2021114745A1 (zh) | 一种基于词缀感知的社交媒体命名实体识别方法 | |
CN111783394B (zh) | 事件抽取模型的训练方法、事件抽取方法和系统及设备 | |
CN109885824B (zh) | 一种层次的中文命名实体识别方法、装置及可读存储介质 | |
CN111143536B (zh) | 基于人工智能的信息抽取方法及存储介质和相关装置 | |
CN112101028B (zh) | 一种多特征双向门控领域专家实体抽取方法及系统 | |
CN110737763A (zh) | 一种融合知识图谱和深度学习的中文智能问答系统及方法 | |
CN105975555A (zh) | 一种基于双向递归神经网络的企业简称提取方法 | |
CN112199606B (zh) | 一种基于层次用户表示的面向社交媒体的谣言检测系统 | |
CN106339455A (zh) | 基于文本标签特征挖掘的网页正文提取方法 | |
CN113722490B (zh) | 一种基于键值匹配关系的视觉富文档信息抽取方法 | |
CN103294959A (zh) | 一种抗统计分析的文本信息隐藏方法 | |
WO2023159767A1 (zh) | 目标词语的检测方法、装置、电子设备及存储介质 | |
CN107871002A (zh) | 一种基于指纹融合的跨语言剽窃检测方法 | |
CN106802937A (zh) | Word文档的转换方法及系统 | |
CN113946684A (zh) | 电力基建知识图谱构建方法 | |
CN106610937A (zh) | 一种基于信息论的中文自动分词算法 | |
CN115587594A (zh) | 网络安全的非结构化文本数据抽取模型训练方法及系统 | |
CN113536795A (zh) | 实体关系抽取的方法、系统、电子装置和存储介质 | |
CN111831783A (zh) | 一种篇章级关系抽取方法 | |
CN113010679A (zh) | 问答对生成方法、装置、设备及计算机可读存储介质 | |
CN116050352A (zh) | 文本编码方法和装置、计算机设备及存储介质 | |
CN112328859A (zh) | 一种基于知识感知注意力网络的虚假新闻检测方法 | |
Ayifu et al. | Multilingual named entity recognition based on the BiGRU-CNN-CRF hybrid model | |
CN114881043A (zh) | 基于深度学习模型的法律文书语义相似度评估方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20161109 |
|
RJ01 | Rejection of invention patent application after publication |