CN110222347B - 一种作文离题检测方法 - Google Patents

一种作文离题检测方法 Download PDF

Info

Publication number
CN110222347B
CN110222347B CN201910538980.3A CN201910538980A CN110222347B CN 110222347 B CN110222347 B CN 110222347B CN 201910538980 A CN201910538980 A CN 201910538980A CN 110222347 B CN110222347 B CN 110222347B
Authority
CN
China
Prior art keywords
topic
composition
model
lda
doc2vec
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910538980.3A
Other languages
English (en)
Other versions
CN110222347A (zh
Inventor
刘杰
周建设
张凯
史金生
骆力明
马晓丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China University of Technology
Original Assignee
Capital Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Capital Normal University filed Critical Capital Normal University
Priority to CN201910538980.3A priority Critical patent/CN110222347B/zh
Publication of CN110222347A publication Critical patent/CN110222347A/zh
Priority to PCT/CN2020/095247 priority patent/WO2020253583A1/zh
Application granted granted Critical
Publication of CN110222347B publication Critical patent/CN110222347B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开实施例涉及一种作文离题检测方法,其包括:对作文集进行主题模型训练,得到作文的Biterm‑LDA主题模型,并对文档集进行Doc2vec模型训练,得到Doc2vec文档向量模型;将Biterm‑LDA主题模型与Doc2vec文档向量模型的文本表示进行组合,得到组合特征;对作文的组合特征基于孪生网络的多层感知机进行降维和特征优化;对降维和特征优化后的话题作文,分为切题作文和离题作文,对切题作文中的一部分构建话题类中心,并根据话题类中心对切题作文中的剩余部分和离题作文分别计算,得到针对同一话题的一组阈值;根据一组阈值利用ROC曲线进行筛选,得到最佳阈值。本公开能为不同话题作文动态计算最佳阈值。

Description

一种作文离题检测方法
技术领域
本公开涉及计算机技术领域,尤其涉及一种作文离题检测方法。
背景技术
在中小学作文评阅中,切题是作文质量的基础要求,也是一篇作文的关键考查点。作文切题是指一篇作文整体围绕一个主题开展,除了明确题目的范围和要求之外,还要求整篇作文的主题贯穿全文,即作文所有的内容是与题目保持一致性的。因此,需要对中小学作文进行离题检测,这样可以检测写作者出现随便组织语言、盲目凑字的情况,还可以考查整篇作文的相关性,从而辅助作文评阅。
但是,目前有关离题检测的方法常借助一些模型挖掘文本内容方面的信息,主要是对文本间或者文本与题目间进行相似度的比对。这种基于文本相似度的研究方法,主要是从作文内容本身考虑的,可以利用作文文本语义方面的信息进行离题检测研究,但是缺点是利用文本相似度计算阈值严重依赖作文特征的提取。
基于上述,现有的方案中对于作文离题检测存在上述缺陷。
上述缺陷是本领域技术人员期望克服的。
发明内容
(一)要解决的技术问题
为了解决现有技术的上述问题,本公开提供一种作文离题检测方法,其可以对作文进行文本和语义方面的离题检测,为各个话题作文动态计算最佳阈值。
(二)技术方案
为了达到上述目的,本公开采用的主要技术方案包括:
本公开一实施例提供一种作文离题检测方法,其包括:
对作文集进行主题模型训练,得到作文的Biterm-LDA主题模型,并对文档集进行Doc2vec模型训练,得到Doc2vec文档向量模型;
将所述Biterm-LDA主题模型与所述Doc2vec文档向量模型的文本表示进行组合,得到组合特征;
对作文的所述组合特征基于孪生网络的多层感知机进行降维和特征优化;
对降维和特征优化后的话题作文,分为切题作文和离题作文,对所述切题作文中的一部分构建话题类中心,并根据所述话题类中心对所述切题作文中的剩余部分和所述离题作文分别计算,得到针对同一话题的一组阈值;
根据所述一组阈值利用ROC曲线进行筛选,得到最佳阈值。
在本公开一实施例中,所述对作文集进行主题模型训练,得到作文的Biterm-LDA主题模型之前,还包括:
对收集到的作文集进行预处理,得到作文集;
对所述作文集构建词库和词对库。
在本公开一实施例中,所述对作文集进行主题模型训练,得到作文的Biterm-LDA主题模型包括:
对所述作文集采用多个不同的主题模型分别训练,得到训练结果;
选取困惑度值最小的最佳模型作为所述作文的Biterm-LDA主题模型,并利用Biterm-LDA主题模型得到作文的主题特征表示。
在本公开一实施例中,所述对文档集进行Doc2vec模型训练,得到Doc2vec文档向量模型包括:
对所述文档集进行Doc2vec训练,得到Doc2vec模型;
对所述作文采用所述Doc2vec模型从语义方面对作文特征进行扩展,得到所述Doc2vec文档向量模型。
在本公开一实施例中,所述将所述Biterm-LDA主题模型与所述Doc2vec文档向量模型的文本表示进行组合,得到组合特征包括:
基于所述Biterm-LDA主题模型对作文的文本表示为B_LDA(di);
基于所述Doc2vec文档向量模型对作文的文本表示为Doc2(di);
得到的组合特征为Topic_Doc2(di)=B_LDA(di)+Doc2(di)。
在本公开一实施例中,所述对作文的所述组合特征基于孪生网络的多层感知机进行降维和特征优化包括:
采用孪生网络的三层感知机对作文的所述组合特征进行降维和特征优化,优化后的作文特征表示为Simaese(di)=<m1,m2,…mn>,其中mn代表一篇作文进行优化后其中的一个特征。
在本公开一实施例中,所述对所述切题作文中的一部分构建话题类中心包括:
对所述切题作文中的一部分按照话题的不同进行分类,得到每一种分类下对应的话题作文;
针对话题分类对应的话题作文进行加和与取平均值的计算,得到话题类中心的n个特征,记为C={s1,s2,…sn},sn为话题类中心的第n维特征。
在本公开一实施例中,所述根据所述话题类中心对所述切题作文中的剩余部分和所述离题作文分别计算,得到针对同一话题的一组阈值包括:
根据所述切题作文中的剩余部分中的第一切题作文和第二切题作文计算余弦相似度,得到第一阈值;
根据所述切题作文中的剩余部分中的第一切题作文和第一离题作文计算余弦相似度,得到第二阈值;
根据所述离题作文中的第二离题作文和第三离题作文计算余弦相似度,得到第三阈值;
依次类推,针对同一话题得到一组阈值,其中所述一组阈值中包括至少一个所述第一阈值、至少一个所述第二阈值和至少一个所述第三阈值。
在本公开一实施例中,所述根据所述一组阈值利用ROC曲线进行筛选,得到最佳阈值包括:
将所述一组阈值分别标记在ROC曲线上;
计算ROC曲线距离(0,1)最近的点作为最佳阈值。
在本公开一实施例中,所述方法还包括:
计算待测语料与话题类中心的余弦相似度;
将所述余弦相似度与所述最佳阈值进行比较,如果所述余弦相似度大于或等于所述最佳阈值,则所述待测语料为切题作文;如果所述余弦相似度小于所述最佳阈值,则所述待测语料为离题作文。
(三)有益效果
本公开的有益效果是:本公开实施例提供的作文离题检测方法,针对不同话题作文对应不同离题阈值的问题,通过构建话题类中心,从而能为不同话题作文动态地计算最佳阈值。
附图说明
图1为本公开一个实施例提供的一种作文离题检测方法的流程图;
图2为本公开一实施例中步骤S110~S120实现作文特征表示的流程;
图3为本公开一实施例中网络结构的示意图;
图4为本公开一实施例中作文特征优化前后效果对比图;
图5为本公开一实施例中步骤S130~150的流程图;
图6为本公开一实施例中利用Biterm-LDA模型得到180维向量文本表示时的ROC曲线;
图7为本公开一实施例中利用Biterm-LDA模型结合Doc2vec模型得到380维向量文本表示时的ROC曲线;
图8为本公开一实施例中利用基于孪生网络多层感知机对380维降维优化得到32维向量文本表示时的ROC曲线;
图9为本公开一实施例中提供的作文离题检测方法的整体流程图。
具体实施方式
为了更好的解释本公开,以便于理解,下面结合附图,通过具体实施方式,对本公开作详细描述。
本文所使用的所有的技术和科学术语与属于本公开的技术领域的技术人员通常理解的含义相同。本文中在本公开的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本公开。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
在本公开相关实施例中,对于作文离题检测采用以下几种方式实现:
第一种采用分类方法,对已标注评分的同一话题下的英文作文进行离题判别。例如,使用聚类的方法在未标注评分的作文集上,将其中的离题作文分离出来;又例如,基于大规模优秀作文语料,从中提取优秀作文的特征库,然后与待测文本进行相似性计算;还例如,对作文题目进行特征扩展,然后与待测作文进行相似性计算从而设定阈值来区分作文是否离题。
第二种,针对无标注作文评分的作文采用基于优秀作文语料构建优秀作文语料库,从而计算待测作文与优秀作文之间的阈值;也基于K-means聚类方法找到离题作文的中心点;还针对语料情况小、无优秀作文的情况下,构建题目库,然后基于题目排序的方法,计算待测作文题目与题目库的相似度,从而规定排序名次,不满足则视为离题作文。以上三种方法,均在实验集上达到60%的离题检测率,优点是无标注,基于优秀作文可以动态构建话题作文的类中心。但是缺点是仅从词汇的基础上对文本特征进行提取,忽略作文的上下文语义。
第三种,针对有标注作文评分的作文集,采用TFIDF、TextRank权重方法,将词语权重大的作为主题,也采用LDA模型自动抽取主题特征。上述方法的优点是采用主题模型可以在文档集上自动学习作文主题特征,缺点是TFIDF、TextRank忽略作文上下文语义和整体文档集合的特征。
基于上述,相关实施例中离题检测方法考虑范围局限于作文内容,导致进行相似度计算时也严重依赖作文特征提取,本公开提供一种在作文特征上采用多种作文表示方法,通过对上述相关实施例中的研究技术分析,基于优秀作文构建类中心以及采用主题模型自动学习文档级别主题特征,为各个话题作文动态计算最佳阈值。
图1为本公开一个实施例提供的一种作文离题检测方法的流程图,如图1所示,该方法包括以下步骤:
如图1所示,在步骤S110中,对作文集进行主题模型训练,得到作文的Biterm-LDA主题模型,并对文档集进行Doc2vec模型训练,得到Doc2vec文档向量模型;
如图1所示,在步骤S120中,将所述Biterm-LDA主题模型与所述Doc2vec文档向量模型的文本表示进行组合,得到组合特征;
如图1所示,在步骤S130中,对作文的所述组合特征基于孪生网络的多层感知机进行降维和特征优化;
如图1所示,在步骤S140中,对降维和特征优化后的话题作文,分为切题作文和离题作文,对所述切题作文中的一部分构建话题类中心,并根据所述话题类中心对所述切题作文中的剩余部分和所述离题作文分别计算,得到针对同一话题的一组阈值;
如图1所示,在步骤S150中,根据所述一组阈值利用ROC曲线进行筛选,得到最佳阈值。
本公开实施例提供的作文离题检测方法,针对不同话题作文对应不同离题阈值的问题,通过构建话题类中心,从而能为不同话题作文动态地计算最佳阈值。
以下对图1所示实施例的各个步骤的具体实现进行详细阐述:
在步骤S110中,对作文集进行主题模型训练,得到作文的Biterm-LDA主题模型,并对文档集进行Doc2vec模型训练,得到Doc2vec文档向量模型。
在本公开的一个实施例中,该步骤中对作文集进行主题模型训练,得到作文的Biterm-LDA主题模型之前,还包括:
对收集到的作文集进行预处理,得到作文集,对所述作文集构建词库和词对库。
例如,该步骤中对搜集到的所有无标注的叙事作文集进行分词、去噪等预处理,获得处理后的作文集,记为D,任意一篇作文记为di;并利用作文集构建词库、词对库,供后续步骤使用。
在本公开一实施例中,该步骤中对作文集进行主题模型训练,得到作文的Biterm-LDA主题模型包括:对所述作文集采用多个不同的主题模型分别训练,得到训练结果;根据所述多个主题模型的训练结果选取困惑度值最小的Biterm-LDA模型作为作文主题模型,并利用Biterm-LDA主题模型得到作文的主题特征表示。即对上述作文集进行主题模型训练,并根据困惑度指标对比几个经典主题模型的训练结果,选取困惑度值最小的为最佳模型(其中困惑度值越小,主题模型建模效果越好),并利用主题模型的训练结果得到基于主题模型的作文特征表示,其中任意一篇作文的表示记为B_LDA(di)=<T1,T2,…Tn>,其中Tn代表主题模型的其中一个主题。
在本公开一实施例中,该步骤中所述文档集进行Doc2vec训练,得到Doc2vec模型;采用所述Doc2vec模型从语义方面对作文特征进行扩展,得到所述Doc2vec文档向量模型。
对文档集进行Doc2vec模型的训练,并利用训练结果对作文进行表示,从而利用Doc2vec这种可学习到文档的相关语序和语义知识的模型,对作文从语义方面特征进行扩展,任意一篇作文采用Doc2vec模型结果表示记为Doc2(di)=<w1,w2,…wn>,其中wn代表词库中的任意词语。
需要说明的是,该步骤中Biterm-LDA主题模型训练和Doc2vec模型训练使用的作文集均是无标注作文语料,对于五类常见的话题作文分别用1,2,3,4,5代表,这五类话题作文包括童年趣事、我爱阅读、生活的启示、令我感动的一件事、父母之爱。
例如,对于作文表示,本公开实施例中将结合Biterm-LDA主题模型和Doc2vec文档向量的方法对文本进行特征提取,这样一方面可以预测文本的主题特征,另一方面可以将作文本身的上下文语义信息包含进来,从而可以深层次地挖掘到文本内容和语义信息。
其中对于作文主题模型的选取,本公开实施例中先对LDA、BTM、Biterm-LDA三个模型的原理进行对比,根据三个模型的训练过程可知,Biterm-LDA与LDA相比,是将每个文档分解成一个个词对,并为每个词对分配一个主题,帮助文档预测多个主题,从而避免短文本的特征稀疏;而Biterm-LDA与BTM相比,是将两个词语限制在同一个文档中,而不是让全文所有词对的主题服从同一多项式分布,所以Biterm-LDA可在训练结束后直接得到文本的主题分布,因此本公开实施例中在作文主题特征表示上,选取结合LDA和BTM两个模型的优势的Biterm-LDA主题模型作为作文主题模型,并应用在后续的步骤中。
同时,为了验证三个模型在本公开实施例的数据集上的适用性,对三个模型分别进行训练,并根据困惑度指标进行对比。在实验中,数据集采用爬取的4万篇中小学生叙事类作文,在训练之前对作文进行一系列预处理操作,并过滤频度<15的低频词,最终对于LDA的模型的训练保留15302个关键词,对BTM和Biterm-LDA的训练保留了140万个词对;然后采用困惑度(Perplexity)来衡量三个主题模型对新文本的主题预测能力,困惑度具体计算公式如下:
Figure GDA0002384124000000081
其中,wm为第m篇文本的某个观测词,Nm为第m篇文本的观测的词语个数。这个指标代表测试集中每个词语在整个文档中的概率,因此困惑度绝对值越小,意味这个词概率越大,则模型的主题建模就越准确。表1是训练过程表现最好的三个主题数下的模型效果。
表1
Figure GDA0002384124000000082
Figure GDA0002384124000000091
基于表1所示,Biterm-LDA的主题建模效果最好,且当Biterm-LDA主题维数为180时,主题模型效果最好。
在步骤S120中,将所述Biterm-LDA主题模型与所述Doc2vec文档向量模型的文本表示进行组合,得到组合特征。
在本公开一实施例中,该步骤中基于所述Biterm-LDA主题模型对作文的文本表示为B_LDA(di);基于所述Doc2vec文档向量模型对作文的文本表示为Doc2(di);将Biterm-LDA主题模型和Doc2vec文档向量模型对作文表示的特征进行直接拼接组合,因此得到的任意一篇作文组合后的特征表示(即组合特征)为Topic_Doc2(di)=B_LDA(di)+Doc2(di)。
该步骤中使用Biterm-LDA主题模型对文本的特征提取,由于话题作文的主题多样、而且语文语义丰富,因此直接选择其中一个主题或者几个主题对于话题作文来说限制较大。因此本实施例将利用同一话题下的整体主题分布规律更接近的原则,把待测文本所对应的文档-主题概率作为其主题方面的特征,此时作文特征表示维度为180维。
鉴于使用文档完整的主题分布去表示主题特征,此时文档对应的180维向量中,低概率主题过多,各类话题下的作文表示的区分性差,因此采用Doc2vec文档向量对其进行补充,此时得到的作文特征向量为380维。
图2为本公开一实施例中步骤S110~S120实现作文特征表示的流程,如图2所示,在文本预处理后,将基于Biterm-LDA主题模型的文本表示和基于Doc2vec文本表示进行组合,得到基于Biterm-LDA+Doc2vec的文本表示。
本公开实施例中,对于作文表示,结合Biterm-LDA主题模型和Doc2vec文档向量的方法对文本进行特征提取,这样一方面可以预测文本的主题特征,另一方面可以将作文本身的上下文语义信息包含进来,从而可以深层次地挖掘到文本内容和语义信息。
在步骤S130中,对作文的所述组合特征基于孪生网络的多层感知机进行降维和特征优化。
在本公开一实施例中,该步骤中采用孪生网络的三层感知机对作文的所述组合特征进行降维和特征优化,优化后的作文特征表示为32维的特征,即Simaese(di)=<m1,m2,…mn>,其中mn代表一篇作文进行优化后其中一个特征。即将作文的组合特征采用孪生网络结构的多层感知机进行降维优化,并将文本集采用优化后的模型进行文本表示,因此任意一篇作文采用孪生网络模型优化后的特征记为上述Simaese(di)=<m1,m2,…mn>。
在步骤S140中,对降维和特征优化后的话题作文,分为切题作文和离题作文,对所述切题作文中的一部分构建话题类中心,并根据所述话题类中心对所述切题作文中的剩余部分和所述离题作文分别计算,得到针对同一话题的一组阈值。
在本公开一实施例中,该步骤中对所述切题作文中的一部分构建话题类中心包括:
对所述切题作文中的一部分按照话题的不同进行分类,得到每一种分类下对应的话题作文;针对话题分类对应的话题作文进行加和与取平均值的计算,得到话题类中心的n个特征。
该步骤中给各话题作文采用切题作文进行话题类中心的构建,每一个话题作文类中心通过该话题下的所有切题作文进行加和、取平均得到n个特征,记为C={s1,s2,…sn},其中sn的具体计算是通过将该话题下的所有切题作文对应的n维值进行加和取平均,即该话题类中心的第n维特征。
在本公开一实施例中,该步骤中根据所述话题类中心对所述切题作文中的剩余部分和所述离题作文分别计算,得到针对同一话题的一组阈值包括:
首先,根据所述切题作文中的剩余部分中的第一切题作文和第二切题作文计算余弦相似度,得到第一阈值A1;根据所述切题作文中的剩余部分中的第一切题作文和第一离题作文计算余弦相似度,得到第二阈值A2;根据所述离题作文中的第二离题作文和第三离题作文计算余弦相似度,得到第三阈值A3;然后,依次类推,针对同一话题得到一组阈值A1,A2,……An,其中n大于或等于3。因此所述一组阈值包括至少一个所述第一阈值、至少一个所述第二阈值和至少三个所述第三阈值。也就是按照上述计算第一阈值、第二阈值和第三阈值的方式计算切题作文与切题作文、切题作文与离题作文和离题作文与离题作文之间的余弦相似度,进而得到一组阈值,以便后续根据这些阈值筛选出能够区分离题作文和切题作文的最佳阈值。例如,本实施例中对于上述计算的一组阈值中每个阈值可以用文本相似度进行表示。
该步骤中将各话题的待测文本与话题对应的类中心进行余弦相似度的计算,将待测文本与话题间的余弦距离(即余弦相似度)作为话题的离题阈值。把N篇作文依次与类中心计算余弦相似度,形成该话题下的离题阈值向量off_Topic={c1,c2,…cn},其中cn代表该话题作文下的一个离题阈值,具体计算cn=Sim(dn,C)余弦相似度公式如下:
Figure GDA0002384124000000111
其中,tk代表一个话题下的任意一篇待测文本的第k维特征,sk代表该话题的第k维特征。
由于作文采用380维的高维特征表示,导致某篇离题作文可能缺少某些非关键特征就被误分为切题作文,从而影响阈值计算的准确率。因此本发明采用适用于小样本学习的孪生网络,对此特征进行进一步组合和优化。因此本实施例中在优化特征时,采用的网络结构为基于孪生网络的三层感知机,图3为本公开一实施例中网络结构的示意图,如图3所示,网络结构分为输入层、隐藏层和输出层,输入层输入380维的特征,在隐藏层中进行降维和特征优化,例如分别是MLP1+tanh,MLP2+tanh和MLP3+tanh,在输出层输出低维的特征。另外,对于孪生网络结构中两个隐藏层中还会进行权值共享。
这样,当网络训练收敛后,对作文特征进行优化,优化后的作文特征表示大小为32维,图4为本公开一实施例中作文特征优化前后效果对比图,如图4所示,以5类话题为例,优化前五类话题由于提取的特征分散,导致映射在二维空间的五类话题不集中,且各类别之间的边界不清。而优化后,使用基于孪生网络的三层感知机可以让各类话题作文聚焦,因此基于孪生网络的三层感知机,可在作文特征组合上起到有效的作用。
在步骤S150中,根据所述一组阈值利用ROC曲线进行筛选,得到最佳阈值。
在本公开一实施例中,该步骤中为各话题在多个离题阈值(即上述的一组阈值)之间找到最佳阈值,可以通过将所述一组阈值分别度标记在ROC曲线上;然后,计算ROC曲线距离(0,1)最近的点作为最佳阈值,从而提升离题检测的准确率。
需要说明的是,本实施例中每个话题作文都有对应的离题阈值,即每个话题作文都要重复该算法的每一步,而不是所有话题作文使用一个通用阈值,因此为动态计算最佳阈值。
基于上述,图5为本公开一实施例中步骤S130~150的流程图,如图5所示,对380维作文向量进行降维和特征优化,得到32维作文向量,对于训练作文集基于话题作文类中心的离题阈值计算,得到最佳阈值,进而对测试作文集基于最佳阈值进行是否离题的判断,具体为:
首先,计算待测语料与话题类中心的余弦相似度;然后,将所述待测语料与话题类中心的余弦相似度与所述最佳阈值进行比较,如果所述余弦相似度大于或等于所述最佳阈值,则所述待测语料为切题作文;如果所述待测语料与话题类中心的余弦相似度小于所述最佳阈值,则所述待测语料为离题作文。
在本公开实施例中考虑到中文的多样性和复杂性,对上述常见的5类话题作文进行探索。由于中小学包含多个年级,不同的年级作文可能对离题作文的阈值计算有影响,因此为减少其它因素的干扰,本实施例中在四五年级的课标题目中选取几类话题作文进行实验。
其中对于几类话题作文的收集,可以采用线上爬取和线下搜集,表2为线上爬取统计结果,可以在各作文网站上搜集符合要求的作文,并从字数、内容方面对其进行人工筛选,最后保留切题作文数据见表2所示。同时去往某所小学收集四五年级学生的真实离题语料,具体数据见表3。根据实验需要,将表2和表3搜集的数据按照使用目的(即上述5类话题)进行划分。
首先,本实施例将表2的每一类切题作文按照大约6:1的比例进行训练集和测试集的划分,然后对于训练集,又按照构造话题类中心进行2:1的划分。对于表3中的离题作文,也按照同样的比例和用途进行训练集、测试集的划分。
表2
Figure GDA0002384124000000131
表3
Figure GDA0002384124000000132
Figure GDA0002384124000000141
然后,根据余弦相似度进行计算,得到每个话题作文的一组离题阈值,接着本发明针对各个话题进行ROC曲线绘制,具体实现采用Sklearn中的Roc_curve函数。
接下来对各类话题的测试数据,使用Biterm-LDA和Biterm-LDA结合Doc2vec、基于孪生网络的多层感知机,依次形成作文的180维向量表示、作文的380维向量表示和作文的32维向量表示,然后用于计算离题阈值向量,并分别对每类话题作文的离题阈值向量中的所有阈值,依次计算每个阈值下所对应的假正类率和真正类率,从而绘制出各类的ROC曲线,ROC曲线上每个点反映着对同一信号刺激的感受性,其中横轴为假正类率(falsepostive rate FPR)特异度,代表代表分类器预测的正类中实际负实例占所有负实例的比例,划分实例中所有负例占所有负例的比例,纵轴为真正类率(true postive rate TPR)灵敏度,代表分类器预测的正类中实际正实例占所有正实例的比例。
图6为本公开一实施例中利用Biterm-LDA模型得到180维向量文本表示时的ROC曲线,图7为本公开一实施例中利用Biterm-LDA模型结合Doc2vec模型得到380维向量文本表示时的ROC曲线,图8为本公开一实施例中利用基于孪生网络多层感知机对380维降维优化得到32维向量文本表示时的ROC曲线。
如图6~图8所示,由于各类话题作文对应的ROC曲线面积都大于0.5,因此本实施例提出的通过构建类中心来计算阈值的方法在测试数据集上有效。且基于32维向量所绘制的ROC曲线面积均在0.9以上,可证明随着特征的优化,各类阈值下的离题判别更准确。
再然后,对各类话题曲线上的所有点,依次与(0,1)计算余弦距离,从而为各类话题作文找到最佳阈值点。各类话题作文在180维、380维、32维的文本表示下所计算的最佳阈值以及在该阈值下的指标效果分别如表4、表5、表6所示。
表4为180维文本表示时各类话题在最佳阈值下的离题判别效果。
表4
类别 最佳阈值 精确率Precision 召回率Recall F1
童年趣事 0.113 0.603 0.319 0.417
我爱阅读 0.241 0.656 0.504 0.570
生活的启示 0.359 0.254 0.675 0.369
令我感动的一件事 0.311 0.471 0.535 0.501
父母之爱 0.290 0.379 0.804 0.515
从表4中可知,由于此时文本表示仅含有主题分布,因此文本语义方面信息缺失,导致同一话题下作文之间的文本相似度低。这样有些类别由于离题阈值门槛低,导致离题作文验证时的准确率极高,比如“童年趣事”,“我爱阅读”。
表5为380维文本表示时各类话题在最佳阈值下的离题判别效果。
表5
Figure GDA0002384124000000151
从表5中可知,由于此时文本表示语义丰富,使得各类话题阈值计算较稳定,同时对于各类阈值下的F1指标也较均衡,因此使用Doc2vec对文本特征的丰富在本实施例计算阈值的方法中起到了一定的作用。
表6为32维文本表示时各类话题在最佳阈值下的离题判别效果。
表6
Figure GDA0002384124000000152
Figure GDA0002384124000000161
从表6中可知,五类话题离题判别平均F1值为73%,比使用高维分散特征表示作文提升了8%。因此基于孪生网络的多层感知机对作文特征优化确实有效。因此本公开实施例的方法对小样本数据集提供了一个很好的网络训练模型。
图9为本公开一实施例中提供的作文离题检测方法的整体流程图,如图9所示,首先,对训练语料进行文本预处理,然后进行作文特征表示,之后进行降维特征优化,将32维作文特征构建类中心和阈值计算,得到文本相似度,进而确定最佳阈值。最后,基于该最佳阈值判断训练语料属于切题作文还是离题作文。
综上所述,采用本公开实施例提供的作文离题检测方法,具有如下技术效果:
(1)针对不同话题作文应该对应不同离题阈值的问题,通过构建话题类中心,从而能为不同话题作文动态地计算最佳阈值;
(2)采用Biterm-LDA主题模型和Doc2vec文档模型对作文从内容和语义两个方面进行特征表示,充分考虑到文档集特征和上下文语义,提取的特征更客观;
(3)在高维作文特征表示的基础上,采用孪生网络的多层感知机进行进一步的特征组合和学习,从而挖掘作文中的关键特征,提升离题检测的准确率;
(4)本实施例中的作文特征表示,采用了丰富的语义特征,且使用了多种文本表示方法,可供其他文本分类方法使用。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (9)

1.一种作文离题检测方法,其特征在于,其包括:
对收集到的作文集进行预处理,得到处理后的作文集;
对处理后的作文集中的作文进行主题模型训练,得到作文的Biterm-LDA主题模型,并对处理后的作文集中的作文进行Doc2vec模型训练,得到Doc2vec文档向量模型;
将所述Biterm-LDA主题模型与所述Doc2vec文档向量模型的文本表示进行组合,得到组合特征;
对所述处理后的作文集中给定的话题作文的所述组合特征基于孪生网络的多层感知机进行降维和特征优化;
对降维和特征优化后的话题作文,分为切题作文和离题作文,对所述切题作文中的一部分构建话题类中心,并根据所述话题类中心对所述切题作文中的剩余部分和所述离题作文分别计算,得到针对同一话题的一组阈值;
根据所述一组阈值利用ROC曲线进行筛选,得到最佳阈值;
计算待测语料与话题类中心的余弦相似度,其中所述待测语料为待检测的作文;
将所述待测语料与话题类中心的余弦相似度与所述最佳阈值进行比较,如果所述待测语料与话题类中心的余弦相似度大于或等于所述最佳阈值,则所述待测语料为切题作文;如果所述待测语料与话题类中心的余弦相似度小于所述最佳阈值,则所述待测语料为离题作文。
2.如权利要求1所述的作文离题检测方法,其特征在于,所述对处理后的作文集中的作文进行主题模型训练,得到作文的Biterm-LDA主题模型之前,还包括:
对所述处理后的作文集中的作文构建词库和词对库。
3.如权利要求1所述的作文离题检测方法,其特征在于,所述对处理后的作文集中的作文进行主题模型训练,得到作文的Biterm-LDA主题模型包括:
对所述处理后的作文集中的作文采用多个不同的主题模型分别训练,得到训练结果;
根据所述多个不同主题模型的训练结果选取困惑度值最小的Biterm-LDA主题模型作为作文主题模型,并利用Biterm-LDA主题模型得到作文的主题特征表示。
4.如权利要求1所述的作文离题检测方法,其特征在于,所述对所述处理后的作文集中的作文进行Doc2vec模型训练,得到Doc2vec文档向量模型包括:
对所述处理后的作文集中的作文进行Doc2vec训练,得到Doc2vec模型;
对所述处理后的作文集中的作文采用所述Doc2vec模型从语义方面对作文特征进行扩展,得到所述Doc2vec文档向量模型。
5.如权利要求1所述的作文离题检测方法,其特征在于,所述将所述Biterm-LDA主题模型与所述Doc2vec文档向量模型的文本表示进行组合,得到组合特征包括:
基于所述Biterm-LDA主题模型对所述处理后的作文集中的作文的文本表示为B_LDA(di),其中所述处理后的作文集中任意一篇作文记为di
基于所述Doc2vec文档向量模型对所述处理后的作文集中的作文的文本表示为Doc2(di);
得到的组合特征为Topic_Doc2(di)=B_LDA(di)+Doc2(di)。
6.如权利要求1所述的作文离题检测方法,其特征在于,所述对所述处理后的作文集中给定的话题作文的所述组合特征基于孪生网络的多层感知机进行降维和特征优化包括:
采用孪生网络的三层感知机对所述处理后的作文集中给定的话题作文的所述组合特征进行降维和特征优化,优化后的作文特征表示为Simaese(di)=<m1,m2,…mn>,其中mn代表一篇作文进行优化后其中的一个特征。
7.如权利要求1所述的作文离题检测方法,其特征在于,所述对所述切题作文中的一部分构建话题类中心包括:
对所述切题作文中的一部分按照话题的不同进行分类,得到每一种分类下对应的话题作文;
针对话题分类对应的话题作文进行加和与取平均值的计算,得到话题类中心的n个特征,记为C={s1,s2,…sn},sn为话题类中心的第n维特征。
8.如权利要求1所述的作文离题检测方法,其特征在于,所述根据所述话题类中心对所述切题作文中的剩余部分和所述离题作文分别计算,得到针对同一话题的一组阈值包括:
根据所述切题作文中的剩余部分中的第一切题作文和第二切题作文计算余弦相似度,得到第一阈值;
根据所述切题作文中的剩余部分中的第一切题作文和第一离题作文计算余弦相似度,得到第二阈值;
根据所述离题作文中的第二离题作文和第三离题作文计算余弦相似度,得到第三阈值;
依次类推,针对同一话题得到一组阈值,其中所述一组阈值中包括至少一个所述第一阈值、至少一个所述第二阈值和至少一个所述第三阈值。
9.如权利要求3所述的作文离题检测方法,其特征在于,所述根据所述一组阈值利用ROC曲线进行筛选,得到最佳阈值包括:
将所述一组阈值分别标记在ROC曲线上;
计算ROC曲线距离(0,1)最近的点作为最佳阈值。
CN201910538980.3A 2019-06-20 2019-06-20 一种作文离题检测方法 Active CN110222347B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910538980.3A CN110222347B (zh) 2019-06-20 2019-06-20 一种作文离题检测方法
PCT/CN2020/095247 WO2020253583A1 (zh) 2019-06-20 2020-06-10 一种作文离题检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910538980.3A CN110222347B (zh) 2019-06-20 2019-06-20 一种作文离题检测方法

Publications (2)

Publication Number Publication Date
CN110222347A CN110222347A (zh) 2019-09-10
CN110222347B true CN110222347B (zh) 2020-06-23

Family

ID=67813980

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910538980.3A Active CN110222347B (zh) 2019-06-20 2019-06-20 一种作文离题检测方法

Country Status (2)

Country Link
CN (1) CN110222347B (zh)
WO (1) WO2020253583A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222347B (zh) * 2019-06-20 2020-06-23 首都师范大学 一种作文离题检测方法
CN111259646B (zh) * 2020-01-14 2024-03-15 平安国际智慧城市科技股份有限公司 作文偏题审批方法、终端、装置及存储介质
CN111046979A (zh) * 2020-03-13 2020-04-21 成都晓多科技有限公司 一种基于小样本学习的badcase发现方法及系统
CN111581379B (zh) * 2020-04-28 2022-03-25 电子科技大学 一种基于作文扣题度的自动作文评分计算方法
CN112784929B (zh) * 2021-03-14 2023-03-28 西北工业大学 一种基于双元组扩充的小样本图像分类方法及装置
CN113435179B (zh) * 2021-06-24 2024-04-30 科大讯飞股份有限公司 一种作文评阅方法、装置、设备及存储介质
CN113591473B (zh) * 2021-07-21 2024-03-12 西北工业大学 一种基于BTM主题模型和Doc2vec的文本相似度计算方法
US11803709B2 (en) 2021-09-23 2023-10-31 International Business Machines Corporation Computer-assisted topic guidance in document writing

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8583416B2 (en) * 2007-12-27 2013-11-12 Fluential, Llc Robust information extraction from utterances
CN107679135A (zh) * 2017-09-22 2018-02-09 深圳市易图资讯股份有限公司 面向网络文本大数据的话题检测与跟踪方法、装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102279844A (zh) * 2011-08-31 2011-12-14 中国科学院自动化研究所 汉语作文自动测试方法及系统
US9430563B2 (en) * 2012-02-02 2016-08-30 Xerox Corporation Document processing employing probabilistic topic modeling of documents represented as text words transformed to a continuous space
CN106919557A (zh) * 2017-02-22 2017-07-04 中山大学 一种结合主题模型的文档向量生成方法
CN108052593B (zh) * 2017-12-12 2020-09-22 山东科技大学 一种基于主题词向量和网络结构的主题关键词提取方法
CN109829108B (zh) * 2019-01-28 2020-12-04 北京三快在线科技有限公司 信息推荐方法、装置、电子设备及可读存储介质
CN110222347B (zh) * 2019-06-20 2020-06-23 首都师范大学 一种作文离题检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8583416B2 (en) * 2007-12-27 2013-11-12 Fluential, Llc Robust information extraction from utterances
CN107679135A (zh) * 2017-09-22 2018-02-09 深圳市易图资讯股份有限公司 面向网络文本大数据的话题检测与跟踪方法、装置

Also Published As

Publication number Publication date
WO2020253583A1 (zh) 2020-12-24
CN110222347A (zh) 2019-09-10

Similar Documents

Publication Publication Date Title
CN110222347B (zh) 一种作文离题检测方法
Yates et al. Depression and self-harm risk assessment in online forums
Zarrella et al. Mitre at semeval-2016 task 6: Transfer learning for stance detection
Dias et al. Inf-ufrgs-opinion-mining at semeval-2016 task 6: Automatic generation of a training corpus for unsupervised identification of stance in tweets
Barahona et al. Exploiting sentence and context representations in deep neural models for spoken language understanding
CN109492105B (zh) 一种基于多特征集成学习的文本情感分类方法
Gao et al. Generation of topic evolution graphs from short text streams
Atia et al. Increasing the accuracy of opinion mining in Arabic
Yüksel et al. Turkish tweet classification with transformer encoder
CN110705247B (zh) 基于χ2-C的文本相似度计算方法
Jarvis The detection-based approach: An overview
Rahman et al. Identifying and categorizing opinions expressed in Bangla sentences using deep learning technique
Lee et al. Off-Topic Spoken Response Detection Using Siamese Convolutional Neural Networks.
Otoom et al. Towards author identification of Arabic text articles
Bodrunova et al. Topics in the Russian Twitter and relations between their interpretability and sentiment
Aoumeur et al. Improving the polarity of text through word2vec embedding for primary classical arabic sentiment analysis
Al-Azani et al. Audio-textual Arabic dialect identification for opinion mining videos
Jawad et al. Combination Of Convolution Neural Networks And Deep Neural Networks For Fake News Detection
Ghosal Exploring the implications of artificial intelligence in various aspects of scholarly peer review
Argamon et al. Gender, race, and nationality in Black drama, 1850-2000: mining differences in language use in authors and their characters
Yafooz et al. Enhancing multi-class web video categorization model using machine and deep learning approaches
Ogunsuyi Opeyemi et al. K-nearest neighbors bayesian approach to false news detection from text on social media
Doğan et al. Text summarization in social networks by using deep learning
Fowobaje et al. Qualitative content analysis of Nigerian heads-of-state and presidents’ inaugural addresses: text mining, topic modelling and sentiment analysis
Martin et al. Semantic unsupervised learning for word sense disambiguation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220214

Address after: 100144 Beijing City, Shijingshan District Jin Yuan Zhuang Road No. 5

Patentee after: NORTH CHINA University OF TECHNOLOGY

Address before: 100048 No. 105 West Third Ring Road North, Beijing, Haidian District

Patentee before: Capital Normal University