CN109213999A

CN109213999A - 一种主观题评分方法

Info

Publication number: CN109213999A
Application number: CN201810950400.7A
Authority: CN
Inventors: 林劼; 凌云; 郝玉洁; 谢维义; 罗智文; 唐东林
Original assignee: Chengdu Good Antai Education Polytron Technologies Inc
Current assignee: Chengdu Good Antai Education Polytron Technologies Inc
Priority date: 2018-08-20
Filing date: 2018-08-20
Publication date: 2019-01-15
Anticipated expiration: 2038-08-20
Also published as: CN109213999B

Abstract

一种主观题评分方法，包括语句预处理、特征提取、特征融合、相似度计算以及综合评分。其中，所述语句预处理，用于目标段落的分句、分词、关键词检测、词性标注以及语句情感分析；所述特征提取算法，用于词向量、句向量、词结构以及句法结构的提取；所述特征融合，用于将包含M个句目标段落，融合成包含N个模板的对比模板(N<M)：所述相似度计算，用于计算词语相似度以及句子相似度；所综合评分，用于根据学生答案与所述对比模板中的词相似度、句相似度、词结构相似度、句法机构相似度、关键词得分以及情感得分，构建权重模型，进而对学生答案进行评分。本发明适应各个学科的主观题评分要求，通过少量样本的训练，即可获得良好的评分效果。

Description

一种主观题评分方法

技术领域

本发明涉及自然语言处理技术，特别是涉及一种主观题评分及方法，用于实现通过机器对主观题进行评分。

背景技术

随着计算机技术和通信技术的高速发展，计算机己经应用到人们生活中的各个领域。在教育领域中，计算机不仅可以应用与辅助教育，也可以应用与辅助测评。计算机辅助测评就是计算机在测验及其评价中的应用。完整的计算机辅助测评系统包括四个模块：测验构成模块、测验实施模块、评阅分析模块和题库管理模块。其中评阅分析模块是计算机辅助测评系统的难点，成为研究的热点。

目前，客观题的计算机阅卷技术发展得比较成熟，很多己经成型的系统己经投入使用。但是，用计算机分析学生对主观题的答案，还存在一定的限制。现在比较实用的技术是通过高速扫描仪将考生答卷扫描到系统服务器。扫描完成后，评卷教师在网上对学生的考卷进行评阅。这种阅卷方式的本质上还是属于人工阅卷。其主要原因是主观题的求解思路和答案带有主观性，没有标准答案。要让计算机实现主观题的智能评卷，就意味着要使计算机能够理解人类文字的意义，以及文字表达的意图和思想，也就是自然语言理解。由于自然语言的各个层次上广泛存在着各种各样的歧义性和多义性，因此应用计算机进行自然语言的分析还不够成熟，未能达到使用阶段。

传统的阅卷过程中装、翻阅、传递等中间等待环节花费了大量的人力、时间，耗时耗力，阅卷的效率很还低。另一方面，传统的阅卷方式到有很强的主观性。对同一题目，阅卷人不同，最后的评分结果可能不同甚至分差很大。即使同一阅卷人在不同的时间对同一题目的理解也可能不同。而使用计算机阅卷则能避免这种人为的误差，其更能客观的反映出评阅结果，保证了阅卷的客观公正性。再则，电脑阅卷省去了老师在传统阅卷模式中主观题阅卷的体力劳动，让老师省出更多时间和精力用在教学工作中。因此研究主观题的自动阅卷技术是非常迫切且具有重大意义的。

发明内容

本发明的目的是通过以下技术方案实现的一种主观题评分方法，包括：语句预处理，包括对目标段落进行分句、分词、词性标注、关键词检测以及语句情感评分；特征提取，包括根所述分词的结果对目标段落进行词向量提取、句向量提取、词结构提取以及句法结构提取；特征融合，包括对目标段落的特征提取结果进行特征融合，进而获得对比模板；相似度计算，包括根据所述特征提取结果以及特征融合结果进行相似度计算；综合评分，将所述相似度计算、关键词检测以及语句情感评分进行融合，进而对目标段落进行综合评分。

进一步的，所述目标段落包括：参考答案和学生答案，通过对所述参考答案进行语句预处理、特征提取以及特征融合，从而获得对比模板，用于作为学生答案的评分标准；通过对所述学生答案进行语句预处理以及特征提取，从而根据语句预处理结果以及特征提取结果与所述对比模板进行相似度计算，进而对所述学生答案进行综合评分。

更进一步的，对所述对参考答案进行语句预处理包括：根据参考答案段落中的标识符进行分句，获得多条第一分句；采用文本应用Python中的中文分词组件对所述参考答案进行分词和词性标注，获得第一分词及其词性标注进而组成第一词语列表。

更进一步的，根据所述分词的结果对所述参考答案段落进行特征提取包括：通过中文语料，训练word2vec词向量模型，获得一定规模的词语的向量表示，进而将所述参考中的多个第一分词转化为多个第一词向量；通过中文语料，训练doc2vec句向量模型，获得具体语句的向量表示，进而将所述参考答案中的多条第一分句转化为多个第一句向量；利用义原相似度以及概念相似度方法，对所述多个第一分词的词结构进行分析，获得对应所述第一分词的第一词结构；利用依存句法分析方法，对所述多条第一分句的句法结构进行分析，获得所述第一分句对应的第一结构语法树。

更进一步的，在通过中文语料，训练得到word2vec词向量模型的过程中，统计训练该词向量模型的机器学习方法的关键词作为第一关键词。

更进一步的，对所述参考答案的特征提取结果进行特征融合包括：对参考答案中每条分句所对应的第二句向量进行聚类分析，进而根据聚类分析结果将参考答案中的M条语句压缩为N条语句，其中N＜M；将所述N条语句中每条语句所对应的句向量，词向量，词结构及句法结构特征保存形成模板，从而将获得的N个模板作为评分的对比模板。

更进一步的，对所述对学生答案进行语句预处理包括：根据所述学生答案段落中的标识符进行分句，获得多条第二分句；采用文本应用Python中的中文分词组件对所述学生答案进行分词和词性标注，获得第二分词及其词性标注进而组成第二词语列表；遍历所述第二词语列表进行关键词检测，提取所述第二列表中的实词作为第二关键词，并通过与所述第一关键词进行对比，获得学生答案的关键词得分；根据情感分析方法对所述学生答案中的分句进行情感分析，获得对应所述多条分句的情感评分。

更进一步的，根据所述对学生答案的预处理结果进行特征提取包括：通过中文语料，训练word2vec词向量模型，获得一定规模的词语的向量表示，进而将所述参考中的多个第二分词转化为多个第二词向量；通过中文语料，训练doc2vec句向量模型，获得具体语句的向量表示，进而将所述参考答案中的多条第二分句转化为多个第二句向量；利用义原相似度以及概念相似度方法，对多个第二分词的词结构进行分析，获得对应所述第二分词的第二词结构；利用语言技术平台的依存句法分析方法，对所述多条第二分句的句法结构进行分析，获得所述第二分句对应的第二结构语法树。

更进一步的，所述根据学生答案的语句预处理结果以及特征提取结果与所述对比模板进行相似度计算，包括：将学生答案的第二词向量与所述对比模板中的第一词向量进行內积计算，从而获得词向量相似度；将学生答案的第二句向量与所述对比模板中的第一句向量进行內积计算，从而获得句向量相似度；根据所述学生答案的第二词结构和所述比模板中的第一词结构，获得词结构相似度；将学生答案的第二结构语法所树与对比模板中的第一结构语法树中的对应级别进行对比，通过对所述第二结构语法树中的每级分别赋予权重，进而获得学生答案与参考答案的句法结构的相似度。

更进一步的，所述综合评分包括：将学生答案与参考答案间的，包括词向量相似度、句向量相似度、词结构相似度、句法结构相似度以及学生答案的关键词得分和语句情感得分作为参量输入神经网络中；通过对部分学生答案进行手动打分，进而对所述神经网络进行训练，从而获得所述参量的对应权重并保存；将学生答案中的每条分句通过所述神经网络进行评分，而后将学生答案中每条分句的得分进行求和，从而获得学生答案的综合评分。

本发明的优点在于

(1)从词语结构、句子结构、词向量、句向量、关键词、情感词等各个维度对学生答案和参考答案进行了对比和计算，覆盖全面。

(2)运用特征融合网络将参考答案的句子进行了抽象，减少了最后对学生答案进行评分计算时的计算量。

(3)通过中文新闻文本训练，得到了word2vec词向量模型以及doc2vec句向量模型，为后续的准确分析打下了基础。

(4)在综合评分计算中，专家根据自己的经验对各个参数所占权重进行人为调整，提高了本发明的使用效果以及扩展了本发明的应用范围。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

附图1示出了根据本发明实施方式的方法框图。

附图2示出了为根据本发明实施方式的一种可选实施例的工作流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

如图1所示，为根据本发明实施方式的方法框图，其中所述方法包括：语句预处理，包括对目标段落进行分句、分词、词性标注、关键词检测以及语句情感评分；特征提取，包括根所述分词的结果对目标段落进行词向量提取、句向量提取、词结构提取以及句法结构提取；特征融合，包括对目标段落的特征提取结果进行特征融合，进而获得对比模板；相似度计算，包括根据所述特征提取结果以及特征融合结果进行相似度计算；综合评分，将所述相似度计算、关键词检测以及语句情感评分进行融合，进而对目标段落进行综合评分。其中，所述目标段落包括，参考答案和学生答案。下面将通过所述参考答案和学生答案对本发明方法进行说明：

语句预处理

更具体的，其中所述语句预处理中分句的方法包括：首先，从存储有学生答案或参考答案的xlsx文件中读取中文文本，并通过特殊标识符“()”对所提取的中文文本分别进行分段；然后，根据标点符号集合{,.！？:；～，。！？：；～}对每个分段进行分句。所述语句预处理中分词以及词性标注的方法包括：在所述分句的基础上，利用文本应用Python中文分词组件“jieba”进行分词和词性标注；构建停用词表，通过将所分之词与停用词表进行对比，去除其中的停用词，然后将所分之词及其词性以列表的方式存储，获得词语列表，其中所述词语列表包括学生答案的词语列表以及参考答案的词语列表。所述语句预处理中语句情感得分的方法包括，构建包含正向词汇、反向词汇、程度词汇以及否定词汇的情感词汇表；根据分词后得到的词语列表，通过遍历所述情感词汇表，从而对文本中包含的情感词汇进行定位；设定情感权重，可选的按照：“超”1.5，“很”1.25，“最”2，“较”1.2，“欠”0.5，“稍”0.8，否定词：-1等，对所分之句进行情感评分，进而通过计算文本段落中每个句子的情感得分的平均值作为该文本段落的情感评分。

特征提取

对参考答案和学生答案进行特征提取的方法包括：对参考答案和学生答案进行词向量提取、句向量提取、词结构提取以及句法结构提取，其中所述词向量的提取方法包括，通过大量中文新闻语料，训练word2vec(词向量)模型，获得一定规模的词语的向量表示，进而通过python库“genism.word2vec”工具以及word2vec模型将所述参考中的多个第一分词转化为多个第一词向量，此外，在通过中文语料，训练得到word2vec词向量模型的过程中，统计训练该词向量模型的机器学习方法的关键词作为第一关键词；所述句向量的提取方法包括，通过大量中文新闻语料，训练doc2vec句向量模型，获得具体语句的向量表示，进而通过python库“genism.doc2vec”工具以及doc2vec模型将所述参考答案中的多条第一分句转化为多个第一句向量；所述词结构提取包括，通过计算义原相似度以及概念相似度的方式得到第一词结构；通过依存句法分析方式得出句子的句法结构；其中，所述义原的系统概念中包括，第一基本义原、其它基本义原、关系义原及其关系符号；其中，所述第一基本义原解释为，一个词的义原可能包含多个，则选取其中最接近这个词本义的义原作为第一基本义原。所述其它义原解释为，由一个词语的义原中除了所述第一基本义原以外的其它义原的集合。所述关系义原，其对应于描述表达式中所有的关系义原描述式，其值是一个特征结构，对于该特征结构的每一个特征，其属性是一个关系义原，属性值是一个基本义原，或一个具体词。或一个具体词。所述关系符号为，对应于描述表达式中所有的关系符号描述式，其值也是一个特征结构，对于该特征结构的每一个特征，其属性是一个关系符号，属性值是一个元素为基本义原或具体词的集合。

特征融合

特征融合只针对与参考答案进行，通过对参考答案中每条分句所对应的第二句向量进行聚类分析，进而根据聚类分析结果将参考答案中的M条语句压缩为N条语句，其中N＜M；将所述N条语句中每条语句所对应的句向量，词向量，词结构及句法结构特征保存形成模板，从而将获得的N个模板作为评分的对比模板。

相似度计算

分别计算学生答案和参考答案之间的词相似度、句相似度、词结构相似度以及句法结构相似度，其中，计算两个文本间词相似度或句相似度的计算公式为：

其中，所述D_i为第一词向量或第一句向量，所述D_j为第二词向量或第二句向量n为词向量或句向量对应的维度。

计算参考答案和学生答案两个文本间词结构相似度和句法结构相似度的描述如下：

其中，计算词结构相似度的方法包括，通过考虑义原的上下位关系，提出基于路径长度的义原相似度计算公式为：其中，Dis(p1，P2)表示和在义原树中的路径长度，P1、P2为两个节点，α是一个固定值参数，表示当相似度为0.5时义原之间的语义距离。如此，

参考答案和学生答案两个文本间的第一基本义原的相似度为：

Sim1(s1，s2)；

参考答案和学生答案两个文本间的其它基本义原的相似度为：

Sim2(s1，s2)；

参考答案和学生答案两个文本间的关系义原的相似度为：

Sim3(s1，s2)；

参考答案和学生答案两个文本间的关系符号的相似度为：

Sim4(s1，s2)。

于是，根据上述义原系统中各种义原概念的相似度，通过由部分加权合成整体的概念相似度为其中，β₁(1≤t≤4)是权重参数，由于第一基本义原描述反映了概念最主要的特征，所以β₁一般大于0.5，且有：β₁+β₂+β₃+β₄＝1,β₁≥β₂≥β₃≥β₄。设两个汉语词语w1和w2，其中w1包含n个概念：c11，c12，…….，c1n，w2有m个概念：c21，c22，………c2n，定义词语w1和w2的相似度是两两概念间相似度的最大值，计算公式其中Sim(s_1i,s_2j)表示来自不同词语中两两概念的相似度，如此就得到了两个词语之间的相似度值。其具体步骤为：

①计算两个集合中所有元素两两之间的相似度；

②从所有相似度值中选出最大值，将与其关联的两个元素建立对应关系；

③从所有相似度值中删去那些已经建立对应关系的元素的相似度值；

④循环执行第②步和第③步，直到删除所有的相似度值；

⑤没有建立对应关系的元素与空值对应，从而使得两个集合中的元素全部建立起一一对应的关系，并定义集合的相似度等于两个集合中对应元素的相似度值的平均值。

所述句法结构相似度的计算包括，利用语言技术平台的依存句法分析方法，对参考答案中的第一分句和学生答案中的第二分句的句法结构进行分析，分别获得第一结构语法树和第二结构语法树，其中第二结构语法树保存在所述对比模板中，通过将学生答案的第二结构语法所树和所述对比模板中的第一结构语法树中的对应级进行对比，从而对所述第二结构语法树中每级赋予权重，进而获得学生答案与参考答案中每条分句的句法结构的相似度。

综合评分

将获得的学生答案与参考答案间的包括，词向量相似度、句向量相似度、词结构相似度、句法结构相似度以及学生答案的关键词得分和语句情感得分作为参考量输入神经网络中；通过将部分学生答案进行手动打分，进而对所述神经网络进行训练，从而获得所述参考量的对应权重并保存；将学生答案中的每条分句通过所述神经网络进行评分，进而将学生答案中每条分句的得分进行求和，从而获得学生答案的综合评分。

如图2所示，为根据本发明实施方式的一种可选实施例的工作流程图。

首先，对参考答案进行处理，包括：语句预处理，对参考答案文本进行分词、分句和词性标注，分别获得第一分词、第一分句以及第一词语列表；接下来，根据所述分词记过进行特征提取，包括词向量提取、句向量提取、词结构提取以及句法结构提取，分别获得第一词向量、第一句向量、第一词结构以及第一结构语法树，通过对所述参考答案文本进行网络压缩，从而获得包含N条语句所对应特征的对比模板，用于对学生答案的评分，其中，所述对比模板包括，压缩后的参考答案文本的所对应的词向量(词模型)、句向量(句模型)、词结构以及句法结构(结构语法树)。此外，在词向量的提取过程中，通过统计训练词向量模型的机器学习方法的关键词作为第一关键词。

然后，对学生答案进行处理，包括：语句预处理，对学生答案文本进行分词、分句、词性标注以及关键词检测，从而分别获得第二分词、第二分句、第二词语列表(本体数据库)以及第二关键词；接下来根据所述第二分词进行特征提取，包括词向量提取、句向量提取、词结构提取以及句法结构提取，分别获得第二词向量、第二句向量、第二词结构以及第二结构语法树。

再然后，根据所述学生答案的处理结果与所述对比模板进行相似度计算，包括，词向量相似度、句向量相似度、词结构相似度以及句法结构相似度；以及将学生答案的第二关键词与参考答案的第一关键词进行对比，从而获得学生答案的关键词得分；以及学生答案中分句的情感得分。

最后，通过以上述词向量相似度、句向量相似度、词结构相似度、句法结构相似度、关键词得分以及分句的情感得分作为参数输入到神经网络中进行训练，从而获得对应参数的权重，进而通过训练好的神经网络对学生答案中的每条分句进行评分，最后通过对每条评分进行求和进而完成对学生答案的评分。上述中，所述对神经网络进行训练并获得对应参数的权重的方法包括：

选取一定量的学生答案作为样本，分别对所述样本进行手动评分，以及通过神经网络进行评分，通过两种评分的对比，进而获得所述对应参数的权重。由于本发明从多方面分析了学生答案和参考答案间的关系，从而使本发明可以通过少量样本的训练即可实现良好的评分效果这一表现。

需指出的是，本发明方法不仅适用于学生答案的评分，还可以用于实现任何可以通过本发明方法实现的操作，如用于判断两篇文档的相似度等。上述中神经网络中参数的权重的选择，可选的，通过对一类评分对象进行训练，从而获得适用于该类的主观题的评分；优选的，根据评分对象的不同分别进行训练参数的权重，进而获得更加准确的评分效果。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种主观题评分方法，其特征在于，包括：

语句预处理，包括对目标段落进行分句、分词、词性标注、关键词检测以及语句情感评分；

特征提取，包括根据所述分词的结果对目标段落进行词向量提取、句向量提取、词结构提取以及句法结构提取；

特征融合，包括对目标段落的特征提取结果进行特征融合，进而获得对比模板；

相似度计算，包括根据所述特征提取结果以及特征融合结果进行相似度计算；

综合评分，将所述相似度计算、关键词检测以及语句情感评分进行融合，进而对目标段落进行综合评分。

2.根据权利要求1所述的主观题评分方法，其特征在于，所述目标段落包括：参考答案和/或学生答案，通过对所述参考答案进行语句预处理、特征提取以及特征融合，从而获得对比模板，用于作为学生答案的评分标准；通过对所述学生答案进行语句预处理以及特征提取，从而根据语句预处理结果以及特征提取结果与所述对比模板进行相似度计算，进而对所述学生答案进行综合评分。

3.根据权利要求2所述的主观题评分方法，其特征在于，对对所述参考答案进行语句预处理包括：

根据参考答案段落中的标识符进行分句，获得多条第一分句；

采用文本应用Python中的中文分词组件对所述参考答案进行分词和词性标注，获得第一分词及其词性标注进而组成第一词语列表。

4.根据权利要求3所述的主观题评分方法，其特征在于，根据所述分词的结果对所述参考答案段落进行词向量提取、句向量提取、词结构提取以及句法结构提取包括：

通过中文语料，训练word2vec词向量模型，获得一定规模的词语的向量表示，进而将所述参考中的多个第一分词转化为多个第一词向量；

通过中文语料，训练doc2vec句向量模型，获得具体语句的向量表示，进而将所述参考答案中的多条第一分句转化为多个第一句向量；

利用义原相似度以及概念相似度方法，对所述多个第一分词的词结构进行分析，获得对应所述第一分词的第一词结构；

利用依存句法分析方法，对所述多条第一分句的句法结构进行分析，获得所述第一分句对应的第一结构语法树。

5.根据权利要求4所述的主观题评分方法，其特征在于，在通过中文语料，训练得到word2vec词向量模型的过程中，统计训练该词向量模型的机器学习方法的关键词作为第一关键词。

6.根据权利要求4所述的主观题评分方法，其特征在于，根据对所述参考答案的特征提取结果进行特征融合包括：

对参考答案中每条分句所对应的第二句向量进行聚类分析，进而根据聚类分析结果将参考答案中的M条语句压缩为N条语句，其中N＜M；

将所述N条语句中每条语句所对应的句向量，词向量，词结构及句法结构特征保存形成模板，从而将获得的N个模板作为评分的对比模板。

7.根据权利要求2所述的主观题评分方法，其特征在于，对所述对学生答案进行语句预处理包括：

根据所述学生答案段落中的标识符进行分句，获得多条第二分句；

采用文本应用Python中的中文分词组件对所述学生答案进行分词和词性标注，获得第二分词及其词性标注进而组成第二词语列表；

遍历所述第二词语列表进行关键词检测，提取所述第二列表中的实词作为第二关键词，并通过与所述第一关键词进行对比，获得学生答案的关键词得分；

根据情感分析方法对所述学生答案中的分句进行情感分析，获得对应所述多条分句的情感评分。

8.根据权利要求7所述的主观题评分方法，其特征在于，根据所述分词的结果对学生答案的预处理结果进行词向量提取、句向量提取、词结构提取以及句法结构提取包括：

通过中文语料，训练word2vec词向量模型，获得一定规模的词语的向量表示，进而将所述参考中的多个第二分词转化为多个第二词向量；

通过中文语料，训练doc2vec句向量模型，获得具体语句的向量表示，进而将所述参考答案中的多条第二分句转化为多个第二句向量；

利用义原相似度以及概念相似度方法，对多个第二分词的词结构进行分析，获得对应所述第二分词的第二词结构；

利用语言技术平台的依存句法分析方法，对所述多条第二分句的句法结构进行分析，获得所述第二分句对应的第二结构语法树。

9.根据权利要求2所述的主观题评分方法，其特征在于，所述根据学生答案的语句预处理结果以及特征提取结果与所述对比模板进行相似度计算，包括：

将学生答案的第二词向量与所述对比模板中的第一词向量进行內积计算，从而获得词向量相似度；

将学生答案的第二句向量与所述对比模板中的第一句向量进行內积计算，从而获得句向量相似度；

根据所述学生答案的第二词结构和所述比模板中的第一词结构，获得词结构相似度；

将学生答案的第二结构语法所树与对比模板中的第一结构语法树中的对应级别进行对比，通过对所述第二结构语法树中的每级分别赋予权重，进而获得学生答案与参考答案的句法结构的相似度。

10.根据权利要求2所述的主观题评分方法，其特征在于，所述综合评分包括：

将学生答案与参考答案之间的，包括词向量相似度、句向量相似度、词结构相似度、句法结构相似度以及学生答案的关键词得分和语句情感得分作为参量输入神经网络中；

通过对部分学生答案进行手动打分，进而对所述神经网络进行训练，从而获得所述参量的对应权重并保存；

将学生答案中的每条分句通过所述神经网络进行评分，而后将学生答案中每条分句的得分进行求和，从而获得学生答案的综合评分。