CN110826329A

CN110826329A - 一种基于困惑度的自动作文评分方法

Info

Publication number: CN110826329A
Application number: CN201911107155.4A
Authority: CN
Inventors: 陆文斌; 张应福; 周正斌; 花福军
Original assignee: Creative Information Technology Co Ltd
Current assignee: Creative Information Technology Co Ltd
Priority date: 2019-11-13
Filing date: 2019-11-13
Publication date: 2020-02-21

Abstract

本发明公开了一种基于困惑度的自动作文评分方法，包括如下步骤：特征提取，提取作文的浅层词语特征和浅层句法特征；困惑度计算，计算作文的语法困惑度和语义困惑度；特征融合模型训练预测，根据特征信息与困惑度进行模型的训练和预测。本发明将作文的语法困惑度和语义困惑度作为评分的重要指标，提出了基于语法的困惑度的概念处理自动作文评分，更好地考虑了作文语法的正确性和词语搭配的合理性；同时提出了基于语义的困惑度的概念处理自动作文评分，从多个角度评价了作文的主题相关性。

Description

一种基于困惑度的自动作文评分方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于困惑度的自动作文评分方法。

背景技术

作文是学生语文和英文考试的必备题型，通过作文可以综合考察学生运用语言的能力和水平，但传统的基于教师人工打分的方式存在一些问题，从阅卷者的角度上来说，作文的阅卷需要耗费大量的人力物力，还存在评阅标准不能完全统一的问题，从对学生写作帮助的角度上来说，人工评阅造成学生不能在短时间内得到有效的反馈，长时间的等待使得对写作的认知能力提升不大。

对于问题自动作文评分可以有效地解决以上的问题，让阅卷者得到解放，可以更多地投入时间到日常教学内容中，让学生平时训练的写作练习得到科学有效的反馈，加深对写作的理解，提高作文写作水平，让大型考试打分的时间大大缩短，也可以解决人工打分过于主观造成的误差问题，保证评分的效率和质量，让考试公平性得到提升。

对于自动作文评分，研究大概经过了以下阶段。

（1）PEG（Project Essay Grader）

PEG开创性地使用proxes、trins等概念来模仿人工评分。PEG的假设是：反应一篇作文好坏的依据是trins，但是这些trins是潜在的，无法直接通过测量得到，只有通过一些外在因素proxes来间接反应。比如通过文章长度代表作文的流畅度，利用介词代词的数量代表句子结构的复杂度等。

（2）IEA（Intelligent Essay Assessor）

IEA系统采用潜在语义分析技术LSA（Latent semantic analysis）,潜在语义分析技术通过统计方法对包含大量文本的文本集合进行分析，利用矩阵分解可以得出词的潜在语义结构，使得词与词、词与文章的语义相似度能够通过向量相似度来度量。LSA能够将词和文本都映射到一个语义空间，使得词之间或者短语之间能够计算语义相似度，能够更好的找出词在文档中的真正含义。

（3）E-rater

E-rater从三个方面对作文进行分析：篇章、语法、主题。篇章模块使用连接词表示的概念框架去识别组织结构，比如通过in summary 可以推断出后面紧接着是得出的结论、通过perhaps推断出后面可能要开始描述自己的一些看法。语法模块使用文法剖析工具Microsoft Nature Language Processing（MsNLP）去建立句子的句法树。通过句法树可以分析句子的结构，比如识别出句子是否是复句、是否包含从句等，句子结构的多样性反映了一篇作文的质量，主题模块则是分析作文的主题，好的作文应该是与材料或者题目所规定的主题紧密相关的。

（4）神经网络方法

除了这些回归方法外，近几年来，有学者用神经网络的方法来对英语作文进行评分。如新加坡国立大学的Kaveh等人提出用一种长短期记忆网络模型（Long Short-Term Memory，简写为LSTM）来进行英语作文评分。通过构建四层神经网络（Lookup Table Layer、Convolution Layer、Recurrent Layer、Linear Layer with Sigmoid Activation）来进行训练和预测。其显著优点是整个过程无需开发者手动提取特征，整个过程也没有任何特征工程，其结果也取得了不错的效果。但不可否认的是，深度神经网络计算需要大量的计算资源，文中结构是Kaveh等人用8个Tesla K80GPU并行计算出来的。

发明内容

本发明的目的在于，针对上述问题，提出一种基于困惑度的自动作文评分方法，将作文的语法困惑度和语义困惑度作为评分的重要指标，考虑了作文语法的准确性和主题相关性，表现了作文的一部分深层次特征，提高了自动作文评分的准确性。

一种基于困惑度的自动作文评分方法，包括如下步骤：

特征提取：提取作文的浅层词语特征和浅层句法特征；

困惑度计算：计算作文的语法困惑度和语义困惑度；

特征融合模型训练预测：根据特征信息与困惑度进行模型的训练和预测。

进一步的，一种基于困惑度的自动作文评分方法，所述的特征提取中的词语特征提取包括如下子步骤：

S101.对作文进行分词处理；

S102.对分词后的词语进行词性标注；

S103.分别统计作文的词汇总数，去除停用词和重用词后的词表大小和占词汇总数的比例，平均词汇字数，字数大于3，6，9,12的词汇个数，名词、形容词、动词、介词所占总词汇比例。

进一步的，一种基于困惑度的自动作文评分方法，所述的特征提取中的句法特征提取包括如下子步骤：

S111.对作文进行分句处理；

S112.分别统计句子的平均句子长度和方差，包含词语数目大于4,8,10,15,20的句子数量，平均从句数量，平均从句长度，句子平均名词、形容词、动词、介词和标点符号的数量。

进一步的，一种基于困惑度的自动作文评分方法，所述的困惑度计算中的语法困惑度计算包括如下子步骤：

S201.使用爬虫工具爬取人民网不同主题下的大量文章；

S202.对文章做分句，分词等预处理工作；

S203.统计待评分作文不同窗口大小下的2-gram，3-gram，4-gram，5-gram的文本集合；

S204.统计人民网文章的2-gram，3-gram，4-gram，5-gram的文本集合；

S205.根据获得的待评分作文和人民网文章的文本集合进行语法困惑度的计算。

进一步的，一种基于困惑度的自动作文评分方法，所述的语法困惑度的计算包括：

步骤一：分别计算待评分作文文本集合中2-gram文本在人民网文本集合中2-gram文本的比例，3-gram文本在人民网文本集合中3-gram文本的比例，4-gram文本在人民网文本集合中4-gram文本的比例，5-gram文本在人民网文本集合中5-gram文本的比例；

步骤二：将待评分作文进行依存句法分析，统计作文中两个词之间的依存句法关系和此时两个词的词性标注结果，记为A；

步骤三：将人民网文章进行依存句法分析，统计文章中两个词之间的依存句法关系和此时两个词的词性标注结果，记为B；

步骤四：计算每篇待评分作文的统计集A中的关系在人民网文章集B中所占的比例。

进一步的，一种基于困惑度的自动作文评分方法，所述的困惑度计算中的语义困惑度计算包括如下子步骤：

S211.根据题目长度从题目中抽取出五到十个关键词；

S212.根据中文词库知网Hownet对步骤S211抽取出的关键词寻找近义词，扩充关键词集；

S213.根据获得的关键词集对待评分作文进行语义困惑度的计算。

进一步的，一种基于困惑度的自动作文评分方法，所述的语义困惑度的计算包括：

步骤一：对待评分作文，分词后计算在未扩充关键词集中的词语个数占整个文章词汇的比例和扩充后关键词集中的比例；

步骤二：训练得到一个Word2Vec模型；

步骤三：对待评分作文，分词后计算每个词和待评分作文中抽取出的关键词的Word2Vec向量余弦相似度最大值，统计所有最大值在0-0.3,0.3-0.5,0.5-0.7,0.7-0.9,0.9-1各个分段中的比例；

步骤四：训练得到一个Doc2Vec模型；

步骤五：将待评分作文分为四个段落，分别计算各个段落向量和作文题目Doc2Vec向量余弦相似度，再计算一次整个作文和作文题目Doc2Vec向量余弦相似度。

进一步的，一种基于困惑度的自动作文评分方法，所述的特征融合模型训练预测包括如下子步骤：

S301.输入训练集，对训练集进行特征提取和困惑度计算，得到词语特征、句子特征、基于语法困惑度特征和基于语义困惑度特征；

S302.使用xgboost算法将步骤S301中得到的特征和标签label输入，进行回归模型训练，并进行模型参数的调节；

S303.将测试集输入模型进行预测。

本发明的有益效果：本发明将作文的语法困惑度和语义困惑度作为评分的重要指标，提出了基于语法的困惑度的概念处理自动作文评分，更好地考虑了作文语法的正确性和词语搭配的合理性；同时提出了基于语义的困惑度的概念处理自动作文评分，从多个角度评价了作文的主题相关性。

附图说明

图1是本发明的方法流程示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图说明本发明的具体实施方式。

本实施例中，如图1所示，一种基于困惑度的自动作文评分方法，包括词语特征提取，句法特征提取，基于语法的困惑度计算，基于语义的困惑度计算，特征融合模型训练预测；

所述词语特征提取，用于提取作文的浅层词语特征；

所述句法特征提取，用于提取作文的浅层句法特征；

所述基于语法的困惑度计算，用于评价作文的语法正确性；

所述基于语义的困惑度计算，用于评价作文的主题相关性；

所述特征融合模型训练预测，用于组合前几步提取出的特征进行模型的训练和预测。

所述词语特征提取，包括以下步骤：

S1.对作文进行分词处理和词性标注；

S2.分别统计作文的词汇总数，去除停用词和重用词后的词表大小和占词汇总数的比例，平均词汇字数，字数大于3，6，9,12的词汇个数，名词、形容词、动词、介词所占总词汇比例；

所述句法特征提取，包括以下步骤：

S1.根据句号，感叹号，问号等代表一句话结束的标志切分句子；

S2.分别统计句子的平均句子长度和方差，包含词语数目大于4,8,10,15,20的句子数量，平均从句数量，平均从句长度，句子平均名词、形容词、动词、介词和标点符号的数量；

所述基于语法的困惑度计算，包括以下步骤：

S1.根据权威性及全面性考量，使用python爬虫工具爬取人民网不同主题下的大量文章；

S2.对文章做分句，分词等预处理工作；

S3.统计待评分作文不同窗口大小下的2-gram，3-gram，4-gram，5-gram的文本集合；

S4.统计人民网文章的2-gram，3-gram，4-gram，5-gram的文本集合；

S5.计算基于语法困惑度的第一部分，分别计算待评分作文文本集合中2-gram文本在人民网文本集合中2-gram文本的比例，3-gram文本在人民网文本集合中3-gram文本的比例，4-gram文本在人民网文本集合中4-gram文本的比例，5-gram文本在人民网文本集合中5-gram文本的比例；

S6.将待评分作文进行依存句法分析，统计作文中两个词之间的依存句法关系和此时两个词的词性标注结果，记为A；

S7.将人民网文章进行依存句法分析，统计文章中两个词之间的依存句法关系和此时两个词的词性标注结果，记为B；

S8.计算基于语法困惑度的第二部分，即计算每篇待评分作文的统计集A中的关系在人民网文章集B中所占的比例；

所述基于语义的困惑度计算，包括以下步骤：

S1.根据题目长度从题目中抽取出五到十个关键词；

S2.根据中文词库知网Hownet对步骤S1抽取出的关键词寻找近义词，扩充关键词集；

S3.计算基于语义困惑度的第一部分，对待评分作文，分词后计算在未扩充关键词集中的词语个数占整个文章词汇的比例和扩充后关键词集中的比例；

S4.训练得到一个Word2Vec模型；

S5.计算基于语义困惑度的第二部分，对待评分作文，分词后计算每个词和步骤S1抽取出的关键词的Word2Vec向量余弦相似度最大值，统计所有最大值在0-0.3,0.3-0.5,0.5-0.7,0.7-0.9,0.9-1各个分段中的比例；

S6.训练得到一个Doc2Vec模型；

S7.计算基于语义困惑度的第三部分，将待评分作文分为四个段落，分别计算各个段落向量和作文题目Doc2Vec向量余弦相似度，再计算一次整个作文和作文题目Doc2Vec向量余弦相似度；

所述特征融合模型训练预测，包括以下步骤：

S1.输入训练集，对训练集进行上述所有步骤的处理，得到词语特征、句子特征、基于语法困惑度特征和基于语义困惑度特征；

S2.使用xgboost算法将步骤S1特征和标签label输入，进行回归模型训练，并进行模型参数的调节；

S3.将测试集输入模型进行预测。

本实施例中，通过将作文的语法困惑度和语义困惑度作为评分的重要指标，提出了基于语法的困惑度的概念处理自动作文评分，更好地考虑了作文语法的正确性和词语搭配的合理性；同时提出了基于语义的困惑度的概念处理自动作文评分，从多个角度评价了作文的主题相关性。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于困惑度的自动作文评分方法，其特征在于，包括如下步骤：

特征提取：提取作文的浅层词语特征和浅层句法特征；

困惑度计算：计算作文的语法困惑度和语义困惑度；

2.根据权利要求1所述的一种基于困惑度的自动作文评分方法，其特征在于，所述的特征提取中的词语特征提取包括如下子步骤：

S101.对作文进行分词处理；

S102.对分词后的词语进行词性标注；

3.根据权利要求1所述的一种基于困惑度的自动作文评分方法，其特征在于，所述的特征提取中的句法特征提取包括如下子步骤：

S111.对作文进行分句处理；

4.根据权利要求1所述的一种基于困惑度的自动作文评分方法，其特征在于，所述的困惑度计算中的语法困惑度计算包括如下子步骤：

S201.使用爬虫工具爬取人民网不同主题下的大量文章；

S202.对文章做分句，分词等预处理工作；

5.根据权利要求4所述的一种基于困惑度的自动作文评分方法，其特征在于，所述的语法困惑度的计算包括：

6.根据权利要求1所述的一种基于困惑度的自动作文评分方法，其特征在于，所述的困惑度计算中的语义困惑度计算包括如下子步骤：

S211.根据题目长度从题目中抽取出五到十个关键词；

7.根据权利要求6所述的一种基于困惑度的自动作文评分方法，其特征在于，所述的语义困惑度的计算包括：

步骤二：训练得到一个Word2Vec模型；

步骤四：训练得到一个Doc2Vec模型；

8.根据权利要求1所述的一种基于困惑度的自动作文评分方法，其特征在于，所述的特征融合模型训练预测包括如下子步骤：

S303.将测试集输入模型进行预测。