CN117113964B - 一种作文抄袭检测方法 - Google Patents
一种作文抄袭检测方法 Download PDFInfo
- Publication number
- CN117113964B CN117113964B CN202311042217.4A CN202311042217A CN117113964B CN 117113964 B CN117113964 B CN 117113964B CN 202311042217 A CN202311042217 A CN 202311042217A CN 117113964 B CN117113964 B CN 117113964B
- Authority
- CN
- China
- Prior art keywords
- sentence
- detected
- consistent
- sentences
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000000203 mixture Substances 0.000 title claims abstract description 31
- 238000001514 detection method Methods 0.000 title claims abstract description 23
- 238000000034 method Methods 0.000 claims abstract description 25
- 239000013598 vector Substances 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 description 14
- 238000013527 convolutional neural network Methods 0.000 description 13
- 238000004364 calculation method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000012733 comparative method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000386 athletic effect Effects 0.000 description 1
- 239000002775 capsule Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000012258 culturing Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种作文抄袭检测方法包括:从数据库中获取与待测段落主题一致的文本;基于所述主题一致的文本,获取若干对比句子,并从所述待测段落中获取若干待测句子;基于所述对比句子,判断所述待测句子是否存在抄袭,完成作文抄袭检测。本发明考虑了文本主题的影响,从主题及句子两个角度出发综合判断作文的抄袭情况。
Description
技术领域
本发明属于自然语言处理技术领域,尤其涉及一种作文抄袭检测方法。
背景技术
作文抄袭是自然语言处理领域的一项重要任务,其目的是使用机器辅助人工完成抄袭检测,让教师及时查看抄袭情况。作文抄袭检测系统在教育领域有着广泛的应用前景,在保证科学、合理的前提下,使用机器进行抄袭检测既可以帮助老师及时发现学生的抄袭情况并进行指导,还有助于培养学生正确的学习观。
目前,作文抄袭检测的判定大多是从句子角度出发。随着深度学习技术的兴起,越来越多的深度学习方法应用于判断句子相似性。胡等提出了一种基于语义相似计算的中文文档抄袭检测方法,将文档以句子为单位切分,利用word2vec模型将句子中的词语表示为词向量的形式,作为卷积神经网络的输入,使用卷积神经网络提取和筛选句子的特征,计算句子对之间的差异,输出句子对的相似度,相似度高的句子对视为抄袭。Shi等提出了Siamese-CNN模型,词语的向量化表示经过三层的卷积层和最大池化层,在经过全连接层,最后通过曼哈顿距离来进行句子相似度计算。Neculoiu等用BiLSTM模型进行相似度计算,该模型包括正向计算和反向计算,可以从两个输入方向获取信息,以更好地捕获双向特征。Huang等首先将文本向量化,然后通过余弦相似度和编辑距离提取特征以及三层BiLSTM提取的特征相融合,最后判断文本相似度大小。Heo等提出了同时关注全局特征和局部特征的模型,句子经过BiLSTM得到全局特征,再经过注意力机制、卷积神经网络和胶囊网络得到局部特征,分别计算相似度,分配不同权重后得到最终的相似度值。Jiang等使用孪生网络判断句子是否相似,句子的词嵌入表示分别经过CNN和BiLSTM提取句子的特征,对于不同的特征给予不同的权重,结合权重与特征得到最后的句子特征表示,然后通过曼哈顿距离计算出两个句子的相似度。Yin等提出了ABCNN模型,是对BCNN的改进,考虑了两个句子之间的关系,作为BCNN的注意力的引入,加入了词句间上下文信息,加权了信息抽取。Chen等提出了esim模型,它通过链式LSTM与注意力结合来进行相似度的计算。使得计算结果更加准确。Heo等不仅通过将每个句子分解成语素来嵌入单词,还使用了基于句子的嵌入方法Sent2Vec,将词的嵌入表示和句子的嵌入表示相结合表示句子,进而判断两个句子之间语义是否相似。Moravvej等提出句子经过BiLSTM,得到全局表示后经过注意力机制得到不同词语权重,结合得到句子表示,将得到的句子表示与句子差异化特征结合起来,最后经过全连接层计算相似程度。Wang等提出一种多注意Siamese BiLSTM模型,词向量表示经过BiLSTM,再经过多头注意力,将得到的向量化表示通过曼哈顿距离计算相似度。
现有的作文抄袭从句子的角度出发判断句子是否存在抄袭的情况,将待检测句子与数据库中所有的句子进行匹配查看是否存在抄袭,没有考虑到学生经常会查找主题相同的内容进行抄袭,会匹配很多不需要检测的句子,为此,本发明从主题相似性判断和句子相似性判断两个角度结合出发判断抄袭情况。对于现有的句子相似性判断,现有的方法大多从语义的角度出发,没有考虑句子之间的相互影响以及句子结构的问题,因此本发明将Bert、ISA、BiGRU-GCNN和GCNN-BiGRU结合判断句子是否相似。
发明内容
为解决上述技术问题,本发明提出了一种作文抄袭检测方法,首先获取与待检测段落主题一致的文本,基于主题一致的文本获取若干句子,然后对待检测段落中的句子以及文本主题一致获取的若干句子在进行句子相似性的判断,在句子相似度判断时综合考虑了相似句子之间的相互影响,同时也考虑了句子的结构,更加准确的判断句子是否相似。
为实现上述目的,本发明提供了一种作文抄袭检测方法,包括:
从数据库中获取与待测段落主题一致的文本;
基于所述主题一致的文本,获取若干对比句子,并从所述待测段落中获取若干待测句子;
基于所述对比句子,判断所述待测句子是否存在抄袭,完成作文抄袭检测。
可选的,从数据库中获取与待测段落主题一致的文本包括:
获取作文中的若干所述待测段落的主题;
分别获取所述待测段落和所述数据库中文本的向量化主题,判断所述待测段落的向量化主题与所述数据库中文本的向量化主题是否一致,一致,则从数据库中获取与待测段落主题一致的文本,不一致,则继续检测作文中剩余所述待测段落。
可选的,利用HAN-GC-A模型判断所述待测段落的向量化主题与所述数据库中的向量化主题是否一致,其中,所述HAN-GC-A模型包括:依次连接的HAN模型、BiGRU模型、CNN模型和Attention模型。
可选的,判断所述待测段落的向量化主题与所述数据库中的向量化主题是否一致包括:
通过HAN模型,获取所述待测段落与数据库中文本的主题向量化表示;
通过BiGRU模型,获取所述待测段落与数据库中文本主题向量的全局特征;
基于所述全局特征,通过CNN模型获取所述待测段落与数据库中文本主题向量的局部特征;
基于所述全局特征和所述局部特征,通过Attention模型获取所述待测段落与数据库文本的向量化主题;
基于所述主题向量化表示,通过softmax得到主题是否一致的最终结果。
可选的,判断所述待测句子是否存在抄袭包括:
将所述待测句子进行向量化表示,判断所述待测句子的向量化表示与所述数据库中主题一致文本所获取的对比句子的向量化表示语义是否一致;
若不一致,则不存在抄袭,继续检测下一句所述待测句子;
若一致,则存在抄袭,获得抄袭句子。
可选的,利用BertLocalGlobalISA模型判断所述待测句子的向量化表示与数据库中主题一致文本所获取的句子的向量化表示语义是否一致,其中,所述BertLocalGlobalISA模型包括:依次连接的GCNN-BiGRU模型、BiGRU-GCNN模型、ISA模型和Bert模型。
可选的,判断所述待测句子的向量化表示与数据库中主题一致文本所获取的句子的向量化表示语义是否一致包括:
通过GCNN-BiGRU模型,获取所述待测句子与主题一致文本所获取对比句子的全局特征;
通过BiGRU-GCNN模型,获取所述待测句子与主题一致文本所获取对比句子的局部特征;
基于所述全局特征和所述局部特征,通过ISA模型获取所述待测句子与主题一致文本所获取对比句子的语义特征;
通过Bert模型,获取所述待测句子与主题一致文本所获取对比句子的结构特征;
基于所述语义特征和所述结构特征,获取所述待测句子与主题一致文本所获取对比句子的向量化表示;
基于所述向量化表示,通过softmax判断句子是否一致。
可选的,继续检测下一句所述待测句子包括:
判断是否存在下一句所述待测句子;
若存在下一句所述待测句子,则继续判断下一句所述待测句子是否存在抄袭;
若不存在下一句所述待测句子,则判断是否存在剩余所述待测段落;
若存在剩余所述待测段落,则继续从数据库中获取与待检测段落主题一致的文本,并判断所述待测句子是否存在抄袭;
若不存在剩余所述待测段落,则停止检测,得到与待检测句子语义相同的句子。
与现有技术相比,本发明具有如下优点和技术效果:
(1)本发明考虑到不同词和句子对于主题的影响程度不同,词和句子在不同语境下表达含义不同,通过HAN从词级和句级两个角度出发提取文本主题,对比时考虑了词语歧义性的问题,结合全局特征和局部特征考虑主题的语义,同时考虑了不同词语对于语义理解的重要程度不同,融入Attention来提高主题相似性判断的结果。
(2)本发明考虑了句子中词语语义不明确、忽略相似句子之间的相互影响以及忽略句子结构的问题。通过BiGRU和GCNN结合使句子语义更加明确,通过ISA既考虑了自身的影响,也考虑了相似句子之间的交互影响,通过Bert提取了句子的结构特征,最终提高了句子相似性判断的结果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例的抄袭检测流程示意图;
图2为本发明实施例的主题相似性判断流程示意图;
图3为本发明实施例的句子相似性判断流程示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本发明提出了一种作文抄袭检测方法,如图1所示,包括:
1.将作文按照段落进行分段,得到待检测段落;
2.待检测段落与数据库中的段落通过主题相似性模型来判断两个段落表达的主题是否一致;
3.得到检测结果为0或者1,如果结果为1,代表检测的文本主题一致,将数据库中检测为1的段落存放在一起;
4.将待检测的段落按照句子进行划分,数据库中检测主题一致的段落也按照同样的句子标准进行划分。
5.待检测段落中的句子与数据库中主题相同文本的句子可以通过句子相似性判断模型来查看句子是否存在抄袭情况;
6.检测结果分为0和1,0代表不存在抄袭;1代表存在抄袭,得到抄袭句子;
7.判断待检测段落是否还存在下一句,如果存在,继续执行5、6操作,查看下一句的抄袭情况;
8.如果检测段落不存在一下句,则判断作文是否还有下一段,如果有,则继续执行2-7的操作;
9.如果不存在下一检测段落,则作文检测停止。
本发明针对文本主题相似性判断,提出了HAN-GC-A模型。通过层次注意力网络(HAN)从词级与句级两个角度提取作文文本主题,由于提取的主题存在词语歧义性的问题。因此提取主题后,本发明使用BiGRU获取主题的序列化特征,即全局特征,在全局特征的基础上通过CNN提取局部特征,并融合全局和局部特征,然后采用Attention确定主题中特征的重要程度,对不同的信息给予不同的权重,以提升主题相似性判断的能力。本发明所提出方法的模型结构如图2所示,具体包括:
将文本的词嵌入表示输入到BiGRU获取全局特征,经过Attention确定词语的重要程度,将词的全局表示与注意力结合得到句子表示s(s1,s2,…,sm)。将s输入到BiGRU获取句子的全局表示,通过注意力机制得到句子对应的权重,将句子表示与注意力权重结合得到文本的表示v(v1,v2,…,vs);
作文文本对输入到Siamese HAN后分别得到对应的主题V1、V2,直接对比主题会受到词语歧义性的影响。因此从语义的角度判断主题是否一致,将拼接对比的主题输入到BiGRU,从正反两个角度考虑得到全局特征ht:
V=(V1,V2)
ht=[htl,htr]
其中,V1、V2为通过HAN提取的主题向量化特征,V为两个向量化特征进行拼接,htl为正向GRU提取的全局特征,htr为后向GRU提取的全局特征,ht为最终主题的全局特征;
通过CNN对作文文本主题进行编码,结合前后几个词之后某个词表达的语义对于整个主题来说会更准确。将经过BiGRU获取到的全局特征ht输入到CNN,在全局特征的基础上,得到更加准确的局部语义表示。
j=(k-1)/2
hi=f(wtc*ht(i-j:i+j)+btc)
c=(h1,h2,......,hn)
其中,k为提取主题局部特征时所需的卷积核大小,j为提取主题局部特征时考虑的词语数,wtc为提取主题局部特征时所需的权重矩阵,ht(i-j:i+j)为提取主题局部特征时考虑第i个词前后j个词的全局特征,btc为提取主题局部特征时所需的偏置值,f为非线性函数,hi为主题向量中第i个词的局部特征,c为最终主题向量的局部特征。
不同词对主题语义表达的影响不同,通过注意力计算出不同词的重要性,更有利于主题的理解。主题向量经过BiGRU和CNN获取了主题的全局和局部特征,融合这两个特征得到最终的主题表示,与最初HAN获取的主题向量相比,当前的主题向量语义更加准确,以此计算词的注意力会得到更加准确的效果。
r=[ht,c]
q,k,v=r(wq,wk,wv)
其中,r为融合后的语义特征,ht为最终主题的全局特征,c为最终主题向量的局部特征,q为查询矩阵,k为键矩阵,v为值矩阵,wq为构建查询矩阵所需要的权重矩阵,wk为构建键矩阵所需的权重矩阵,wv为构建值矩阵所需的权重矩阵,qi为查询特征,kj为键特征,d为特征维度,bi,j为第i第j个词之间权重关系,vj为值特征,n为主题向量化表示的长度,bi,j·vj为考虑权重后第i个词的向量化表示,a是经过Attention后的主题向量化表示。
得到的主题向量化表示a经过全连接层进行特征融合,通过softmax得到作文文本主题是否一致的结果;
pt=softmax(wt*a+bt)
其中,a是经过Attention后的主题向量化表示,wt是计算主题是否相似所需的权重矩阵,bt是计算主题是否相似所需的偏置值,pt是主题是否相似的分类结果。
本发明针对句子相似性判断,提出了BertLocalGlobalISA模型,通过GCNN-BiGRU获取获取句子的全局特征,通过BiGRU-GCNN获取句子的局部特征,综合局部特征和全局特征通过交互式自注意(ISA),得到句子准确的语义,通过Bert获取句子的结构信息,综合句子的语义和结构信息更加全面的获取句子的表示,得到更加准确的句子相似性的判断结果,具体模型如图3所示,包括:
将句子的词嵌入表示输入到BiGRU中获取词语的全局特征,句子的全局特征可以体现词语在整个句子中所表达的语义,此时的句子语义表示比最初词嵌入式的语义表示更加的准确。在此基础上通过GCNN提取句子的局部特征更加符合语义特征。过程如下所示:
hgg=[hgz,hgr]
jgz=(kgz-1)/2
hiz=f(wg*hgg(i-jgz:i+jgz)+bg)
hgl=((h11,h12,h13),(h21,h22,h23),......,(h2n1,h2n2,h2n3))
hgl=max(hgl)
hgl=(h1,h2,h3,...,hn)
其中,xe是句子的词嵌入表示,hgz为句子嵌入式表示经过前向GRU提取的特征,hgr为句子嵌入式表示经过后向GRU提取的特征,hgg是句子嵌入式表示经过BiGUR提取的全局特征,jgz为句子经过GRU后提取局部特征时考虑周边词语的个数,kgz代表句子经过GRU后提取局部特征时所需卷积核的大小,hgg(i-jgz:i+jgz)代表句子经过GRU后提取局部特征时第i个词前后jgz个词的全局特征,wg是句子经过GRU后提取局部特征时所需权重矩阵,bg为句子经过GRU后提取局部特征时所需的偏置值,f是非线性函数,hiz代表考虑周边jgz个词的全局语义后得到的第i个词的局部语义,(hi1,hi2,hi3)代表第i个词在BiGRU的基础上经过三个卷积神经网络得到的局部特征,max代表最大池化层,hgl经过BiGRU-GCNN提取的句子的局部语义。
将句子的词嵌入表示输入到GCNN中获取词语的局部特征,句子局部特征考虑了周边词的影响,与单纯的词嵌入表示相比,语义更加准确,在此基础上,通过BiGRU考虑上下文语境提取句子的语义特征更加符合句子语义。过程如下所示:
jbz=(kbz-1)/2
xbl=((x11,x12,x13),(x21,x22,x23),......,(xn1,xn2,xn3))
xbl=max(xbl)
xbl=(x1,x2,x3,......,xn)
hbg=[hbz,hbr]
其中,jbz为提取句子局部特征时考虑周边词语的个数,kbz代表提取句子局部特征时所需卷积核的大小,xe(i-jbz:i+jbz)代表第i个词前后jbz个词的词嵌入表示,wb是提取句子局部特征时所需的权重矩阵,bb是提取句子局部特征时所需的偏置值,f是非线性函数,xiz代表考虑周边jbz个词后提取的局部语义,(xi1,xi2,xi3)代表第i个词经过3个矩卷积神经网络获得的三个局部特征,max代表最大池化层,xbl代表最终的局部特征,hbz为句子局部特征经过前向GRU提取的特征,hbr为句子局部特征经过后向GRU提取的特征,hbg代表经过GCNN-BiGRU获取的全局特征。
局部特征缺乏捕获序列信息的能力,全局特征没有考虑到关键词和关键短语等信息,融合局部特征和全局特征,既考虑了句子的整体语义,又考虑关键信息,综合考虑句子的语义会更加的明确。
m=[hgl:hbg]
其中,m代表融合全局特征和局部特征后的句子特征。
考虑到句子中不同的词语对于句子的贡献是不同的,相似句子之间语义交互对于句子相似度的影响。为此本发明引入交互式自注意机制,将融合后的全局特征和局部特征输入到交互式自注意机制中,能够在提取准确语义的情况下,更加准确地得到不同词语的贡献重要程度,对贡献大的词给予较高权重,对贡献小的词语给予较小权重。
a1=ISA(m1:m2)
a2=ISA(m2:m1)
其中,a1是句子1经过ISA后得到的语义特征,a2是句子2经过ISA后得到的语义特征,m1为句子1融合全局和局部特征后的句子表示,m2为句子2融合全局和局部特征后的句子表示。
句子有一系列的词语组成,这些词语之间有明确的结构关系,Bert可以捕捉到语言学的很多概念,例如:单词类别:词性、句法结构:语法关系或依存关系和共指:不同的名称同指一个实体。本发明将句子的词嵌入表示输入Bert提取句子的结构特征。经过Bert提取句子1的结构特征y1,提取句子2的结构特征y2。
对于一个句子既考虑语义也考虑结构,为此将句子的语义特征和结构特征结合起来得到最终的句子表示。
s1=[a1:y1]
s2=[a2:y2]
其中,s1是原句子的向量化表示,a1是原句子的语义特征,y1是原句子的结构特征,s2是相似句子的向量化表示,a2是相似句子的语义特征,y2是相似句子的结构特征。
s1、s2是句子的向量化特征,为比较两个句子是否相似,结合句子的向量化特征,通过softmax得到句子是否相似的结果;
s=[s1:s2]
ps=softmax(ws*s+bs)
其中,s代表拼接的s1和s2,ws为计算句子是否相似所需的权重矩阵,bs为计算句子是否相似所需的偏置值,ps为是否相似的结果。
实施例
为了展示出使用本方法在进行主题相似性判断时有一定的优势,本发明将会在构建的数据集上进行实验。通过作文学习网站等网络资源结合一线老师的经验,总结了几种常见的记叙文主题,根据主题选取段落。主题有描写春季、秋季、冬季、感恩父母、感恩老师、军训、初中生活、春节和运动会的。分别选取的段落个数为30、10、30、30、30、30、10、30、11。将主题相似的段落两两拼凑组成了2788对,主题不相似的结合在一起,组成了2592对,主题相似的标签为1,主题不相似的标签为0。以此构建文本主题相似性判断所需的数据集。实验参数的具体设置如表1所示。
表1
为了更为明显的表现出本方法的优势,本发明与以下方法进行对比实验,实验结果如表2所示。
表2
从表2中可以看到,准确率达到了0.967、F1值达到了0.968,相比于对比的方法,本实施例结果更优。
为了展示出使用本方法在进行句子相似性判断时有一定的优势,本发明将会在构建的数据集上进行实验。通过阅读有关作文抄袭的相关文献和结合一线老师教学经验,总结了较为常见的抄袭方式:直接抄袭、句子缩写、句子扩充、同义词替换、主被动转化、词序改变等。将原句和改写后抄袭的句子组成抄袭的句子对,将两个语义不同的句子组成未抄袭的句子对,两个句子之间、句子与标签之间都通过空格隔离开,对于抄袭的句子对标签为1,对于未抄袭的句子对标签为0。其中抄袭的句子对4593条,未抄袭的句子对5375条。实验参数的具体设置如表3和表4所示。
表3
模型参数 | 取值 |
hidden size | 768 |
num_hidden_layer | 12 |
num_attention_heads | 12 |
activation function | gelu |
hidden layer dropout | 0.1 |
attention dropout | 0.1 |
表4
模型参数 | 取值 |
word embedding | 128 |
CNN size | 3、5、7 |
batch size | 32 |
learning rate | 0.001 |
LocalGlobalISA hidden size | 50 |
random seed | 1 |
optimization function | Adam |
为了更为明显的表现出本实施例的优势,本实施例与以下方法进行对比实验,实验结果如表5所示。
表5
Model | ACC | F1 |
BiLSTM | 0.5002 | 0.5074 |
BiLSTMAttention | 0.5550 | 0.5630 |
BiLSTMCNNAttention | 0.5618 | 0.5699 |
BiLSTMAttention(特征差) | 0.5718 | 0.5701 |
Bert | 0.6266 | 0.6355 |
convNet | 0.6313 | - |
abcnn' | 0.8266 | - |
Esim | 0.84 | - |
BertLocalGlobalISA(ours) | 0.9053 | 0.8803 |
从表5中可以看到,准确率达到了0.905、F1值达到了0.88,相比于对比的方法,本实施例结果更优。
本实施例通过主题相似性判断和句子相似性判断结合对构造的30篇抄袭作文进行检测,检测结果如表6所示,可以看出本文的作文抄袭检测效果较好。
表6
作文篇数 | 检测正确率 |
30 | 0.845 |
以上,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (4)
1.一种作文抄袭检测方法,其特征在于,包括:
从数据库中获取与待测段落主题一致的文本;
从数据库中获取与待测段落主题一致的文本包括:
获取作文中的若干所述待测段落的主题;
分别获取所述待测段落和所述数据库中文本的向量化主题,判断所述待测段落的向量化主题与所述数据库中文本的向量化主题是否一致,一致,则从数据库中获取与待测段落主题一致的文本,不一致,则继续检测作文中剩余所述待测段落;
判断所述待测段落的向量化主题与所述数据库中的向量化主题是否一致包括:
通过HAN模型,获取所述待测段落与数据库中文本的主题向量化表示;
通过BiGRU模型,获取所述待测段落与数据库中文本主题向量的全局特征;
基于所述全局特征,通过CNN模型获取所述待测段落与数据库中文本主题向量的局部特征;
基于所述全局特征和所述局部特征,通过Attention模型获取所述待测段落与数据库文本的向量化主题;
基于所述主题向量化表示,通过softmax得到主题是否一致的最终结果;
基于所述主题一致的文本,获取若干对比句子,并从所述待测段落中获取若干待测句子;
基于所述对比句子,判断所述待测句子是否存在抄袭,完成作文抄袭检测;
判断所述待测句子是否存在抄袭包括:
将所述待测句子进行向量化表示,判断所述待测句子的向量化表示与所述数据库中主题一致文本所获取的对比句子的向量化表示语义是否一致;
若不一致,则不存在抄袭,继续检测下一句所述待测句子;
若一致,则存在抄袭,获得抄袭句子;
判断所述待测句子的向量化表示与数据库中主题一致文本所获取的句子的向量化表示语义是否一致包括:
通过GCNN-BiGRU模型,获取所述待测句子与主题一致文本所获取对比句子的全局特征;
通过BiGRU-GCNN模型,获取所述待测句子与主题一致文本所获取对比句子的局部特征;
基于所述全局特征和所述局部特征,通过ISA模型获取所述待测句子与主题一致文本所获取对比句子的语义特征;
通过Bert模型,获取所述待测句子与主题一致文本所获取对比句子的结构特征;
基于所述语义特征和所述结构特征,获取所述待测句子与主题一致文本所获取对比句子的向量化表示;
基于所述向量化表示,通过softmax判断句子是否一致。
2.根据权利要求1所述的一种作文抄袭检测方法,其特征在于,利用HAN-GC-A模型判断所述待测段落的向量化主题与所述数据库中的向量化主题是否一致,其中,所述HAN-GC-A模型包括:依次连接的HAN模型、BiGRU模型、CNN模型和Attention模型。
3.根据权利要求1所述的一种作文抄袭检测方法,其特征在于,利用BertLocalGlobalISA模型判断所述待测句子的向量化表示与数据库中主题一致文本所获取的句子的向量化表示语义是否一致,其中,所述BertLocalGlobalISA模型包括:依次连接的GCNN-BiGRU模型、BiGRU-GCNN模型、ISA模型和Bert模型。
4.根据权利要求1所述的一种作文抄袭检测方法,其特征在于,继续检测下一句所述待测句子包括:
判断是否存在下一句所述待测句子;
若存在下一句所述待测句子,则继续判断下一句所述待测句子是否存在抄袭;
若不存在下一句所述待测句子,则判断是否存在剩余所述待测段落;
若存在剩余所述待测段落,则继续从数据库中获取与待检测段落主题一致的文本,并判断所述待测句子是否存在抄袭;
若不存在剩余所述待测段落,则停止检测,得到与待检测句子语义相同的句子。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311042217.4A CN117113964B (zh) | 2023-08-18 | 2023-08-18 | 一种作文抄袭检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311042217.4A CN117113964B (zh) | 2023-08-18 | 2023-08-18 | 一种作文抄袭检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117113964A CN117113964A (zh) | 2023-11-24 |
CN117113964B true CN117113964B (zh) | 2024-03-08 |
Family
ID=88799480
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311042217.4A Active CN117113964B (zh) | 2023-08-18 | 2023-08-18 | 一种作文抄袭检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117113964B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197117A (zh) * | 2018-01-31 | 2018-06-22 | 厦门大学 | 一种基于文档主题结构与语义的中文文本关键词提取方法 |
US11417339B1 (en) * | 2018-12-04 | 2022-08-16 | Educational Testing Service | Detection of plagiarized spoken responses using machine learning |
CN116578336A (zh) * | 2023-05-24 | 2023-08-11 | 南京大学 | 一种基于抄袭者-检测器对抗的软件克隆检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109710939B (zh) * | 2018-12-28 | 2023-06-09 | 北京百度网讯科技有限公司 | 用于确定主题的方法和装置 |
-
2023
- 2023-08-18 CN CN202311042217.4A patent/CN117113964B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197117A (zh) * | 2018-01-31 | 2018-06-22 | 厦门大学 | 一种基于文档主题结构与语义的中文文本关键词提取方法 |
US11417339B1 (en) * | 2018-12-04 | 2022-08-16 | Educational Testing Service | Detection of plagiarized spoken responses using machine learning |
CN116578336A (zh) * | 2023-05-24 | 2023-08-11 | 南京大学 | 一种基于抄袭者-检测器对抗的软件克隆检测方法 |
Non-Patent Citations (2)
Title |
---|
刘珊珊 等.基于高分辨率网络的地铁人体姿态估计研究.铁路技术创新.2023,(第03期),第70-77页. * |
张文韩 等.多层结构化语义知识增强的跨领域命名实体识别.计算机研究与发展.2023,第60卷(第12期),第2864−2876页. * |
Also Published As
Publication number | Publication date |
---|---|
CN117113964A (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Neculoiu et al. | Learning text similarity with siamese recurrent networks | |
Wang et al. | Multilayer dense attention model for image caption | |
CN109670039B (zh) | 基于三部图和聚类分析的半监督电商评论情感分析方法 | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN104794169B (zh) | 一种基于序列标注模型的学科术语抽取方法及系统 | |
CN106599032B (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN111914558A (zh) | 基于句袋注意力远程监督的课程知识关系抽取方法及系统 | |
CN113806563A (zh) | 面向多源异构建筑人文史料的建筑师知识图谱构建方法 | |
CN106570180A (zh) | 基于人工智能的语音搜索方法及装置 | |
CN111144119B (zh) | 一种改进知识迁移的实体识别方法 | |
CN113360582B (zh) | 基于bert模型融合多元实体信息的关系分类方法及系统 | |
CN112966079A (zh) | 一种用于对话系统的面向事件画像的文本分析方法 | |
Argamon | Computational forensic authorship analysis: Promises and pitfalls | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN105786971B (zh) | 一种面向国际汉语教学的语法点识别方法 | |
Guo et al. | Deep semantic-based feature envy identification | |
Rahman et al. | NLP-based automatic answer script evaluation | |
CN114997288A (zh) | 一种设计资源关联方法 | |
Lin et al. | Sensitive information detection based on convolution neural network and bi-directional LSTM | |
CN114743029A (zh) | 一种图像文本匹配的方法 | |
Ding et al. | A Knowledge-Enriched and Span-Based Network for Joint Entity and Relation Extraction. | |
Devisree et al. | A hybrid approach to relationship extraction from stories | |
Zhao | Research and design of automatic scoring algorithm for English composition based on machine learning | |
Kuila et al. | A Neural Network based Event Extraction System for Indian Languages. | |
CN117113964B (zh) | 一种作文抄袭检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |