CN111079582A

CN111079582A - 一种图像识别的英语作文跑题判断方法

Info

Publication number: CN111079582A
Application number: CN201911218920.XA
Authority: CN
Inventors: 侯冲; 董平; 陈家海; 叶家鸣; 吴波
Original assignee: Anhui Seven Day Education Technology Co ltd
Current assignee: Anhui Seven Day Education Technology Co ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2020-04-28

Abstract

本发明公开一种图像识别的英语作文跑题判断方法，涉及文本分类领域。针对试卷扫描得到的英语作文是否跑题问题，提出从多个维度计算所有考生作文之间的相似度，利用相似度偏差来判断作文是否跑题的解决方案。该判断方法需要利用glove词向量配合Bilstm+siamese的网络架构，与tfidf加上余弦相似的计算方法相结合,并以特定词集命中比例作为补充特征，可全方位挖掘文本信息。本发明主要包含以下模块：深层特征模块、浅层特征模块、集成预测模块。除能多维度挖掘文本特征外在集成模块能够利用大量数据的优势均衡各特征对分数的影响，进一步优化跑题判断的准确率。

Description

一种图像识别的英语作文跑题判断方法

技术领域

本发明属于文本处理技术领域，具体是一种多维度分析作文文本来检测是否跑题的方法。

背景技术

近十年来，互联网技术发展迅速，网络化的潮流冲击着各行各业。教育领域也是不断跟随着时代进行推陈出新。除了网络授课和电子化教辅外，考试阅卷网络化也是一种趋势。小、初、高共12个年级，各年级每年都要进行数十次考试，每次考试的作文阅卷都是相当大的人力负担。将作文数字化进行分数评级的系统也开始不断进入市场。但是评分的准确率却不尽人意，其中的相当一部分误差是由未能考虑跑题因素造成的。因此专门对作文文本进行主题判断十分有必要。

现有的跑题判断方法主要基于关键词，从题目中寻找相关关键词，然后扩充关键词范围，用学生作文来计算关键词命中数量，设定阈值来判断。但是一方面关键词很难扩充到合适的范围，需要相关教师不断斟酌考究，另一方面很多考试只有一个题目或者要求，并没有一个明确的主题，甚至阅卷方法只有答题卡的图像，而没有试卷题目要求。现有的跑题判断方法则受到很多限制，不能发挥很好的效果。

最近，深度学习技术不仅在图像领域打败了传统处理方法，在文本领域也从庞大语料库挖掘出字符的内在含义。针对文本的深度学习，一方面是能够在大量训练文本中归纳字符潜在语义，另一方面将这种语义映射到高维空间，进一步应用到各种场景中，如文本分类，语义提取，文本翻译等等。

发明内容

(一)解决的技术问题：

解决识别的作文文本无法判断是否跑题问题，提供一种基于多维度分析识别的作文文本进行跑题检测的方法。

(二)技术方案：

为实现上述目的，一种图像识别的英语作文跑题判断方法，采用的方案为先从多个维度提取文本特征，然后利用xgboost对各维度文本特征训练预测是否跑题。方法包括构建文本对，用glove配合Bilstm+siamese计算文本相似度作为深层模块；tfidf+余弦相似度、主题词切题度、高频词切题度组成的浅层模块；对各模块特征扩展计算并利用xgboost集成预测是否跑题的预测模块。

优选的，所述深层模块构建文本对具体描述为：将一场考试中识别出来的学生作文分成跑题与非跑题两类，将每一篇作文文本与其他作文文本组合构成文本对，对一篇跑题一篇不跑题的两篇作文构成的文本对人工标注label为1，其他组合构成的文本对为0，组建文本相似训练数据集。

优选的，所述深层模块计算文本相似度具体描述为：用50维glove词向量对文本做词向量嵌入，即将文本中的单词使用对应的glove词向量替换，将文本转换为向量矩阵，然后用Bilstm神经元从文本矩阵提取语义特征矩阵，作为siamese网络前段输入层，用矩阵叠加和矩阵相减处理两篇文本的语义特征矩阵，两种处理结果拼接后传入全连接层。

优选的，所述浅层模块具体描述为：以考试为单位，对预处理后文本集利用tfidf选出该考试关键词集，计算出每篇文本与其他文本的相似度；统计该考试中除停用词外的单词频率，挑选频率高的30％作为高频词集，计算每篇文本中高频词集的词数作为高频词切题度；通过spacy模块对文本做词性标注，抽取其中名词，汇总各文本的名词词频，挑选名词中频率高的30％单词作为该考试中对应主题词集，计算每篇文本中名词命中主题词集的词数作为该文本的主题词切题度。

优选的，所述预测模块中的各模块特征扩展计算具体描述为：先对以单个文本对其他文本的两个相似度特征(Siamese，tfidf)分别计算出各自平均值、方差、中位数、最大值、最小值作为预测模块特征数据，对关于高频词集与主题词集的特征先找出各文本对各词集最高命中词数、最小命中词数与平均命中词数，再计算每篇文本对各词集命中词数与该项最高命中词数的比例、与该项最小命中词数的比例、与该项平均命中词数比例，也作为预测模块特征数据给xgboost模型输入。

一种图像识别的英语作文跑题判断方法，包括以下具体步骤：

步骤一、收集数据：以考试为单位，准备识别好的作文文本(50场以上的考试数据，每场考试人数50+)，确保每场考试都有跑题作文；

步骤二、数据预处理：以考试为单位，每场考试中的作文文本两两组成文本对，标记跑题作文与非跑题作文组成的文本对label为1，其他标记label为0，从每场考试中的文本对中分别抽取相同数量的label为1和0的文本对放一起作为训练数据；

步骤三、词向量级别相似训练：利用glove词向量做词嵌入处理，输入到Bilstm+siamese网络结构中，训练文本相似模型，网络结构设置如下：

(1)、学习率：0.001；

(2)、优化器：Adagrad；

(3)、Bilstm组合方式:对应元素相加；

(4)、siamese两矩阵组合方式:堆叠(对应元素相减，堆叠)；

(5)、batchsize:256；

(6)、epoch:3；

步骤四、tfidf相似模块：以考试为单位，对文本集做tfidf计算提取关键词，对关键词利用余弦相似计算两两文本之间的相似度；

步骤五、词性特征提取：利用spacy模块对文本作词性标注，提取名词词性单词，以考试为单位构建词集选取频率高的30％做主题词集；

步骤六、高频词特征提取：以考试为单位计算非停用词词频，选取频率高的30％做高频词集；

步骤七、构建xgboost训练数据：对两种相似度特征(siamese,tfidf)分别计算出单个文本对其他文本的平均值、方差、中位数、最大值、最小值作为xgboost的特征数据；对高频词集与主题词集的特征先计算出各文本对各词集命中的最高词数、最小词数比与平均词数，再计算每篇文本对各词集命中词数与该项最高命中词数的比例、与该项最小命中词数的比例、与该项平均命中词数比例也作为xgboost的特征数据，且该文本的label为是否跑题，构成训练数据；

步骤八、训练xgboost模型：利用上述数据训练集成模型xgboost，对作文文本进行预测，但是作文文本是否跑题有较强主观性，可根据预测概率缩小跑题作文范围，自行均衡召回率与准确率。

(三)有益效果

本发明提出一种图像识别的英语作文跑题判断方法，具备以下有益效果：本方法主要针对图像识别的英语作文跑题判断问题，方法用glove词向量配合Bilstm挖掘文本语义特征，采用siamese网络结构排除其他因素影响计算文本深层语义相似度，并对传统方法进行补充，在tfidf基础上辅助主题词与高频词的命中构建浅层相似度，通过xgboost集成学习两个方面各个维度特征，去粗取精，更精准预测作文是否跑题。

附图说明

图1为本发明的整体网络结构图；

图2为本发明的glove+Bilstm+siamese相似模型结构示意图；

图3为本发明中对每篇文本计算出的四方面特征；

图4为本发明对每篇文本的四方面特征再处理后的14维特征。

具体实施方式

为了使本发明的目的/技术方案及优点更加清楚明白，以下结合附图以及案例，对本发明进行进一步详细说明。此处所描述的具体实施案例仅解释本发明，但并不用于限定本发明。

如图1所示，本发明是一种技术方案，一种图像识别的英语作文跑题判断方法，整个方法由构建文本对计算Bilstm+siamese相似、tfidf+余弦相似、高频词命中、特有名词命中四模块作为特征提取阶段，再对特征值扩展计算供xgboost模型预测实现跑题预测的功能。

Bilstm+siamese相似模块：先构建文本对数据，将一场考试中识别出来的学生作文分成跑题与非跑题两类，将每一篇作文文本与其他作文文本组合构成文本对，对一篇跑题一篇不跑题的两篇作文构成的文本对人工标注label为1，其他组合构成的文本对为0，组建文本相似训练数据集。再对文本对中的两个文本做glove词嵌入处理，将文本映射为带有语义特征的矩阵，然后利用Bilstm提取蕴含文本先后顺序的序列特征作为siamese结构中的特征输入，最后将两个文本的特征向量分别做相堆叠、相减计算，将两种计算结果的向量堆叠成一个向量，对该向量做全连接以及分类输出，如图2所示。

tfidf+余弦相似模块：以每场考试为单位，对预处理后文本集利用tfidf选出该考试关键词集，计算出每篇文本与其他文本的相似度。

高频词命中模块：以每场考试为单位，统计该考试中除停用词外的单词频率，挑选频率高的30％作为高频词集，计算每篇文本命中高频词集的词数。

主题词命中模块：以每场考试为单位，通过spacy模块对文本做词性标注，抽取其中名词，汇总各文本的名词词频，挑选名词中频率高的30％单词作为该考试中对应主题词集，计算每篇文本中名词命中主题词集的词数。

特征值扩展计算与预测模块：每篇文本有四方面的特征，即文本对Bilstm+siamese相似(一组数据)、文本对tfidf+余弦相似计算(一组数据)、文本特有名词命中数量(一个数)、文本高频词命中数量(一个数)，如图3所示。对两组相似特征数据(siamese,tfidf)，分别计算出各自组的平均值、方差、中位数、最大值、最小值作为预测模块特征数据；对于两个词集的命中数特征值，则计算出每场考试中对各词集命中的最高词数、最小词数比与平均词数，然后计算每篇文章的各命中数量与该考试中的最高命中词数之比、与该考试中的最低命中词数之比、与该考试中的平均命中词数之比，也作为预测模块的特征数据，如图4所示。

(1)、学习率：0.001；

(2)、优化器：Adagrad；

(3)、Bilstm组合方式:对应元素相加；

(4)、siamese两矩阵组合方式:堆叠(对应元素相减，堆叠)；

(5)、batchsize:256；

(6)、epoch:3；

本方法提出一种图像识别的英语作文跑题判断方法，一方面用glove+Bilstm+siamese挖掘文本深层语义相似度，另一方面通过tfidf辅助主题词与高频词的命中构建浅层特征，从两个层面多个维度全方位挖掘文本特征，并利用xgboost集成学习各个维度特征，实现更精准预测作文是否跑题。

以上所述仅为本发明的解释案例，并不限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种图像识别的英语作文跑题判断方法，其特征在于，包括：构建文本对数据，用glove配合Bilstm+siamese计算文本相似度作为深层模块；tfidf+余弦相似度、主题词切题度、高频词切题度组成的浅层模块；对各模块特征扩展计算并利用xgboost集成预测是否跑题的预测模块。

2.根据权利要求1所述的一种图像识别的英语作文跑题判断方法，其特征在于，所述文本对数据具体描述为：将一场考试中识别出来的学生作文分成跑题与非跑题两类，将每一篇作文文本与其他作文文本组合构成文本对，对一篇跑题一篇不跑题的两篇作文构成的文本对人工标注label为1，其他组合构成的文本对为0，组建文本相似训练数据集。

3.根据权利要求1所述的一种图像识别的英语作文跑题判断方法，其特征在于，所述深层模块计算文本相似度具体描述为：用50维glove词向量对文本做词向量嵌入，将文本转换为向量矩阵，用Bilstm神经元从文本矩阵提取语义特征矩阵，作为siamese网络前段输入层，用矩阵叠加和矩阵相减处理两篇文本的语义矩阵，两种处理结果拼接后传入全连接层。

4.根据权利要求1所述的一种图像识别的英语作文跑题判断方法，其特征在于，所述浅层模块具体描述为：以考试为单位，对预处理后文本集利用tfidf选出该考试关键词集，计算出每篇文本与其他文本的相似度；统计该考试中除停用词外的单词频率，挑选频率高的30％作为高频词集，计算每篇文本命中高频词集的词数作为高频词切题度；通过spacy模块对文本做词性标注，抽取其中名词，汇总各文本的名词词频，挑选名词中频率高的30％单词作为该考试中对应主题词集，计算每篇文本命中名词命中主题词集的词数作为该文本的主题词切题度。

5.根据权利要求1所述的一种图像识别的英语作文跑题判断方法，其特征在于，所述预测模块中的各模块特征扩展计算具体描述为：先对以单个文本对其他文本的两个相似度特征(Siamese，tfidf)分别计算出各自平均值、方差、中位数、最大值、最小值作为预测模块特征数据，对关于高频词集与主题词集的特征先找出各文本对各词集最高命中词数、最小命中词数与平均命中词数，再计算每篇文本对各词集命中词数与该项最高命中词数的比例、与该项最小命中词数的比例、与该项平均命中词数比例，也作为预测模块特征数据给xgboost模型输入。