CN110175585A

CN110175585A - 一种简答题自动批改系统及方法

Info

Publication number: CN110175585A
Application number: CN201910462776.8A
Authority: CN
Inventors: 黄自华; 蒋东辰; 张盛福; 赵九晗
Original assignee: Beijing Forestry University
Current assignee: Beijing Forestry University
Priority date: 2019-05-30
Filing date: 2019-05-30
Publication date: 2019-08-27
Anticipated expiration: 2039-05-30
Also published as: CN110175585B

Abstract

本发明涉及一种简答题自动批改系统，其特征在于包括：文本解析和标注模块、相似度比较模块、相似度评分模块，客户端包括用户输入答案文本，用户标注词对和展示结果。本发明能够在不依赖于知识库的情况下实现对语义的深层分析，并且使用优化的词语比较方法，得到答案文本的相似度。

Description

一种简答题自动批改系统及方法

技术领域

本发明涉及一种简答题自动批改系统及方法，主要是通过分析短文本语义相似度对中文简答题进行判分的批改系统及方法，属于自然语言处理领域。

背景技术

自然语言处理是研究人与计算机之间用自然语言进行有效通信的理论和方法。经过多年的发展，其在语义分析和情感分析等领域有着一些较好的应用。但在简答题的自动批改的应用方面，自然语言处理相关方面的系统性研究还不够充分。

简答题的自动批改，关键在于实现短文本相似度的比较。目前，短文本的比较方法主要有四类：基于字符串比对的方法、基于语料库的方法、基于知识库的方法和基于句法分析的方法。其中，基于字符串比对的方法计算简单，但其很难体现更高层面的语义联系。基于语料库的方法以利用神经网络训练词向量为主流，其根据词语的相关度信息和位置信息计算文本相似度。这类方法的缺点在于词语的同义反义信息难以获得，而且语句的语法结构信息难以得到准确刻画。基于知识库的方法以海量语义概念库为依托，根据查询得到的概念上下位等关系判断文本相似度。这种方法能较好的还原语义信息，但是知识库建设难度大，不容易获取。基于句法分析比较短文本相似度的优点在于其不依赖庞大的概念知识库，通过建立简化的依存树来比较谓语中心词及其支配词。这类方法计算量小，但是对于结构更为复杂的句子的分析不够准确，并且现有方法缺少对于词语语义相似程度的分析，也缺乏对具体依存关系的针对性处理。

现有的简答题自动评分方法大都依赖于上述短文本比较的方法。因此，这些简答题自动评分方法会受到上述短文本相似度比较方法缺陷的影响，在具体应用时存在局限。例如，知识库的资源难以取得，相似度匹配难以全面覆盖各领域的文本；浅层次的语义分析难以做到考虑语句的全部语法逻辑，在精确度上有所欠缺等。

发明内容

本发明的技术解决问题是：克服现有技术的不足，提供一种简答题自动批改系统及方法，能够在不依赖于知识库的情况下实现对语义的深层分析，并且使用优化的词语比较方法，得到答案文本的相似度。

其中，在文本相似度分析上，为了解决上文中比较短文本相似度的技术的不足，本发明提出一种改进的基于依存结构树的比较方法，不需要依赖概念知识库，可以分析深层的语义信息。下面先简述本发明的系统的主要处理模块，然后对本发明提出的基于依存结构树的比较方法做出解释。

本发明技术解决方案：如图1所示，本发明包含服务器端(系统后台)和客户端(用户界面)；其中服务器端负责文本处理、依存解析和相似度计算，客户端负责用户输入、词对标注和结果显示；主要有三个模块：文本解析和标注模块，相似度比较模块和相似度评分模块。

文本解析和标注模块：输入的内容是标准答案文本、学生答案文本和用户选择的相关学科，其中学生答案有多个；对输入的文本进行预处理，保留答案的正文，按照标点符号分隔成子句；然后根据用户选择的学科加载对应的分词词典，对每一个子句进行分词；分词之后，对每一个子句进行依存句法解析，解析词语之间的依存关系，形成依存元组，依存元组由依存支配词、依存从属词和依存关系组成，父节点依存从属词是子节点的依存支配词，子句的所有依存元组相连构成依存结构树，同时对子句中的每个词标上序号；所述依存结构树的节点是词语，词语间以依存关系相连，每个子句对应一个依存结构树；所述标注的过程是，把每句话生成的依存结构树的词对信息整合成字符串数组返回到客户端，其中每一个依存元组的依存支配词和从属词构成一个词对，用户可以根据需求选择其中的一些词对，这些词对在相似度比较模块中有特殊的处理来提高相似度的权重；最后将用户选择的词对的结果送至相似度比较模块，将标准答案和学生答案生成的依存结构树送至相似度比较模块。

相似度比较模块：输入两段话生成的依存结构树集合和标注的词对序列，两段话分别是标准答案(记为A)和一个学生答案(记为B)；这个模块的任务是把A和B中子句对应的依存结构树进行两两比较；比较两棵依存结构树的过程是，先从根节点开始比较，比较节点对应的依存元组，包括依存支配词的比较，依存关系的比较和依存从属词的比较；子节点的比较结果即为父节点的依存从属词的比较结果，最后得到根节点的计算结果；如果需要比较的两个子句没有标注的词对，则比较两棵依存结构树，如果两个子句有标注词对，还需要比较两个词对对应的依存元组，最后，将A和B所有子句的依存结构树相似度送至相似度评分模块。

相似度评分模块：经过上一个模块依存结构树相似度的比较，得到A和B所有子句的依存结构树的两两之间的相似度；计算两个子句相似度的方法是，对A中的每一个子句，取B中的每一个子句的比较结果，如果对应的标注词对存在，将词对对应的依存元组相似度和依存结构树相似度进行加权求和，如果对应的标注词对不存在，直接取依存结构树相似度；如果两个子句相似度达到设定的阈值，即判断两个子句相似；根据所有子句是否相似和用户输入的满分分值，得到学生答案A的最终评分，最后将评分返回给客户端。

简答题自动批改方法，处理流程如下：

(1)从客户端输入标准答案文本(记为A)和学生答案文本(记其中的一个学生答案为B)，输入用户选择的学科，输入题目的满分分值；在服务器端对输入的文本进行预处理，保留答案的正文，并且按照标点符号分隔成子句；然后根据用户选择的学科加载对应的分词词典，对每一个子句分词；

(2)对每一个子句进行依存句法解析，解析词语之间的依存关系，形成依存元组，依存元组由依存支配词、依存从属词和依存关系组成；每个子句解析的结果是依存结构树，由依存元组构成；树中父节点是依存从属词，子节点是依存支配词，子节点同时作为下一个依存元组的依存支配词；对子句中的每个词标上序号；最后得到A和B子句的依存结构树，其中每个词包含序号；

(3)对A中每个子句生成的依存结构树的所有依存元组提取词对，词对由依存支配词和依存从属词构成，将词对整合成字符串数组，返回到客户端；用户可以根据需求选择其中的一些词对，也可以没有标注，这些词对在后面的相似度比较步骤中有特殊的处理来提高相似度的权重；最后将用户选择的词对的结果返回服务器，得到每个子句标注的词对序列；

(4)比较A和B的相似度，先计算A中每一个子句和B中每一个子句的相似度，子句的相似度由子句对应的依存结构树的相似度递归计算得到；从根节点开始，比较对应的依存元组，包括依存支配词的比较，依存关系的比较和依存从属词的比较，依存元组的相似度是三者的加权求和；子节点的依存元组的比较结果作为父节点的依存从属词的比较结构，最后递归的计算出根节点的相似度，得到两棵依存结构树的相似度；最后得到A中每一个子句和B中每一个子句的相似度；

(5)对A中的每一个子句，取B中的每一个子句和前者的比较结果；如果两个子句没有标注的词对，则两棵依存结构树的相似度直接作为两个子句的相似度；如果两个子句有标注词对，还需要比较两个词对对应的依存元组，将比较结果和两棵依存结构树的相似度加权求和作为两个子句的相似度；根据相似度是否达到一个设定的阈值，判断两个子句是否相似；如果对于A的某个子句，B中存在相似的子句，则A中该子句对应的得分点已经取得；最后将A中所有子句的得分求和，根据用户输入的满分分值，得到B的最终评分并且返回给客户端。

本发明与现有技术相比的优点在于：

(1)通过加载不同学科的词库，能够有效解决分词过程中出现的非常用词无法识别的问题，能够针对不同学科，提高分词准确度，解决专业术语难以识别的问题进一步提高最后的评分的准确度。

(2)通过把文本解析成依存句法解析树，在此基础上递归比较句子成分，得到最后整段话的语义相似度。这样能够分析深层的语义信息和语法逻辑关系，与浅层次的语句解析相比，这种方法能够更准确的比较文本语义信息。

(3)在词语语义相似度计算中，通过加入了情感分析要素和反义词辨识，并且结合词向量的比较，词向量模型主要记录相关性，不能体现同义和反义，所以本系统的查询方法和只借助词向量比较词语的方法相比，更能体现词语的相似度信息，能够提高准确度。同时，由于反义词、同义词、情感程度词词典规模较小，能够有效减少查询词向量带来的资源耗费。

(4)为操作者提供人工标注接口。通过生成关键依存关系元组，用户只需要简单的做出选择，可以在句法解析树中给某些成分增加权重。用户也可以不提供人工标注，系统将跳过人工标注的过程。这样用户可以根据自身需要决定人工标注的细致程度。

附图说明

图1为本发明系统流程示意图；

图2为本发明中答案评分流程图；

图3为本发明中相似度分析流程图；

图4为本发明中词语相似度分析流程图。

具体实施方式

为了更好地理解本发明，先对一些基本概念进行一下解释说明。

依存元组：由依存支配词、依存从属词和依存关系构成。例如：“设备和原材料”对应的依存元组为，设备、原材料、conj，其中conj为并列连接关系。本文中的依存关系以Universal Dependencies(UD)为标准。

依存结构树：对一个句子进行依存语法解析形成的树结构，反映句子中词与词之间的依存关系。子节点的词(从属词)依存于父节点的词(支配词)，弧的类别表示两个词之间的依存关系。

下面结合实例和附图，对本发明的批改系统采用的技术，提出的技术，具体原理做出解释。

下面具体实施方式对硬件和软件进行详细说明。

如图1所示，系统执行的主要流程见图1。

步骤1用户提交标准答案和待批改的答案，都要经过预处理、分词和依存句法分析。

1.1.预处理部分。以标点符号为界，把一段文本分割成语义相对独立的子句。这些中文标点符号包括：句号，逗号，分号，冒号，问号，感叹号。例如，标准答案中的一句话“比如说，金属货币制度下的本位币。”，需将其切分成“比如说”和“金属货币制度下的本位币”两个子句。

1.2.分词部分。本系统可采用现有的常见分词工具，如结巴中文分词。操作者在选择相关学科之后，本系统将加载对应的分词词典，与原有的基础词典合并。例如，选择金融学科后，“金属货币制度下的本位币”切分成“金属”“货币”“下”“的”“本位币”。

1.3.句法分析部分。本系统采用现有的中文依存分析工具，如stanford parser等。基于这些中文的依存分析工具，可获得句子的依存结构。例如，“金属”“货币”“下”“的”“本位币”得到的依存结构序列为"compound:nn|制度-2|金属货币-1"。

"nmod|本位币-5|制度-2""case|制度-2|下-3""case|制度-2|的-4""root|ROOT-0|本位币-5"。

其中每个节点由3部分组成，分别是依存关系，依存支配词和依存从属词。Root是根节点，下一个依存关系的支配词是上一个依存关系的从属词。为了防止词语重复造成冲突，给每个词标出序号。

1.4系统对用户提交的标准答案进行解析后，会生成关键词对序列，返回到客户端。例如，上面介绍的句子依存分析结果进行处理后，会返回“制度-2--金属货币-1本位币-5--制度-2制度-2--下-3制度-2--的-4ROOT-0--本位币-5”到客户端，操作者对每句话可以选择一个关键的依存元组，也可以不选择，系统记录选择的序号返回给后台。

步骤2.在完成了以上步骤后，得到了满分值，标准答案和待批改的答案的依存关系，以及关键依存关系元组序列，接下来进行语义相似度分析。

由于简答题涉及的是短文本相似度分析，所以需要进行细粒度的语义分析，不采用tf-idf等基于词频的比较方法，而是从比较依存结构树着手。

参考图2，分析过程如下。

2.1.1.输入标准答案依存结构树集合A{}，待批改的答案其中一个的依存结构树集合B{}，以及关键的依存关系序列Key{}。

2.1.2.对集合A的每个元素A[i](0<＝i<length(A))，即每个子句，进行如下处理，有两种情况，3或4。

2.1.3.如果Key[i]存在，将A[i]按照关键关系的序号信息提取出关键依存关系代表的子树c，先用c进行比较。依次比较c和B[j](0<＝j<length(B))的相似度。然后用A[i]和B[j]比较。前者的权值更高。

2.1.4.如果Key[i]不存在，直接将A[i]和B[j]进行比较。

2.2：比较两棵依存结构树，主要是比较依存支配词，依存从属词，依存关系，重点考虑反义词和情感程度词，以及部分依存关系的特殊效应。

参考图3，以如下两棵树为例a＝“advmod|拒收-7|但-1`case|限额-4|在-2`amod|限额-4|法定-3`nmod:prep|拒收-7|限额-4`case|限额-4|内-5`advmod|拒收-7|不能-6`root|ROOT-0|拒收-7”。

b＝"advmod|接受-9|不过-1""case|限额-4|在-2""amod|限额-4|法定-3""nmod:prep|接受-9|限额-4""case|限额-4|内-5""nsubj|接受-9|他-6""advmod|接受-9|还是-7""xcomp|接受-9|要-8""root|ROOT-0|接受-9""mark|接受-9|的-10"，关键元组没有设置。

2.2.1.从Root开始比较。root|ROOT-0|拒收-7和root|ROOT-0|接受-9。依存支配词root相同，记为1，依存关系相同，记为1，然后比较”拒收-7”和“接受-9”代表的子树，递归得到相似度的结果，假设为m。最终得到两棵树的相似度为a*1+v*m+q*1，其中a,v,m为参数。

2.2.2.再比较“advmod|拒收-7|不能-6”“xcomp|接受-9|要-8”，比较依存支配词“拒收“和”接受“，先在反义词表中查询，存在反义关系。词语相似度为0，依存关系不同，记为0，然后递归比较”要-8“和”不能-6“代表的子树。假设子树的相似度值为0，形成了依存支配词和依存从属递归子树的相似度都为0的情况，再考察依存关系”advmod“”xcomp“，都属于修饰关系，将这两个元组的相似度直接记为1。

2.2.3.递归执行以上步骤，在不出现特殊情况下，两棵树的相似度为a*g+v*d+q*r。g是依存支配词的相似度，d是递归依存从属子树的相似度，r是依存关系相似度。

2.2.4.参考图4，词语相似度的计算过程为，首先查询反义词词典，如果不存在，查询同义词词典，接着查询情感程度词典，最后是查询词向量模型。

2.2.5.本系统考虑的依存关系比较的特殊情况包括：并列关系(conj)，被动关系(pass)，数值关系(nummod)，以及2.2.2中出现的特殊情况。

步骤3评判相似度得分

3.1.对于每一个A的元素A[i]，依次取B[j]，计算A[i]，B[j]两棵依存结构树的相似度后，对符合的结果进行计数，记为count。存在key[i]的情况下，对key[i]和B[j]的比较结果进行计数，计为keycount，加权求和得到A[i]与B的最后相似度sim_i，sim_i＝a*keycount+(1-a)*count；不存在key[i]的情况下，sim_i＝count，a是关键元组的权重。

3.2.对0<＝i<length(A)，对A[i]结果求和得到sum＝Σsim_i，按照设置的满分值totalscore求得最终得分：score＝totalscore*sum/length(A)。其中length表示集合的元素个数。

3.3.将所有答案的得分返回到操作者界面。

以上所揭露的仅为本发明的几种较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种简答题自动批改系统，其特征在于，包括：文本解析和标注模块、相似度比较模块、相似度评分模块，客户端包括用户输入答案文本，用户标注词对和展示结果；

文本解析和标注模块：输入的内容是标准答案文本、学生答案文本、用户选择的相关学科，以及满分分值，其中学生答案有多个；对输入的文本进行预处理，保留答案的正文，按照标点符号分隔成子句；然后根据用户选择的学科加载对应的分词词典，对每一个子句进行分词；分词之后，对每一个子句进行依存句法解析，解析词语之间的依存关系，形成依存元组，依存元组由依存支配词、依存从属词和依存关系组成，父节点依存从属词是子节点的依存支配词，子句的所有依存元组相连构成依存结构树，同时对子句中的每个词标上序号；所述依存结构树的节点是词语，词语间以依存关系相连，每个子句对应一个依存结构树；所述标注的过程是，把每句话生成的依存结构树的词对信息整合成字符串数组返回到客户端，其中每一个依存元组的依存支配词和从属词构成一个词对，用户可以根据需求选择其中的一些词对，这些词对在相似度比较模块中有特殊的处理来提高相似度的权重；最后将用户选择的词对的结果送至相似度比较模块，将标准答案和学生答案生成的依存结构树送至相似度比较模块；

相似度比较模块：输入两段话生成的依存结构树集合和标注的词对序列，两段话分别是标准答案，记为A和一个学生答案，记为B，把A和B中子句对应的依存结构树进行两两比较；比较两棵依存结构树的过程是，先从根节点开始比较，比较节点对应的依存元组，依存元组的比较包括依存支配词的比较，依存关系的比较和依存从属词的比较；子节点的比较结果即为父节点的依存从属词的比较结果，最后得到根节点的计算结果；如果需要比较的两个子句没有标注的词对，则比较两棵依存结构树，如果两个子句有标注词对，则还需要比较两个词对对应的依存元组，最后得到A和B所有子句的依存结构树相似度；

相似度评分模块：基于相似度比较模块得到的A和B所有子句的依存结构树相似度，计算两个子句相似度的方法是，对A中的每一个子句，取B中的每一个子句的比较结果，如果对应的标注词对存在，将词对对应的依存元组相似度和依存结构树相似度进行加权求和；如果对应的标注词对不存在，直接取依存结构树相似度；如果两个子句的相似度达到设定的阈值，则两个子句相似；根据所有子句是否相似和用户输入的满分分值，计算得到该学生答案A的最终评分，最后将评分返回给客户端。

2.一种简答题自动批改方法，其特征在于，包括以下步骤：

(1)从客户端输入标准答案文本，记为A和学生答案文本，记其中的一个学生答案为B，输入用户选择的学科，输入题目的满分分值；在服务器端对输入的文本进行预处理，保留答案的正文，并且按照标点符号分隔成子句；然后根据用户选择的学科加载对应的分词词典，对每一个子句进行分词；

(3)对A中每个子句生成的依存结构树的所有依存元组提取词对，词对由依存支配词和依存从属词构成，将词对整合成字符串数组，返回到客户端，用户可以根据需求选择其中的一些词对，也可以没有标注，这些词对在后面的相似度比较步骤中有特殊的处理来提高相似度的权重；最后将用户选择的词对的结果返回服务器，得到每个子句标注的词对序列；

(4)比较A和B的相似度，先计算A中每一个子句和B中每一个子句的相似度，子句的相似度由子句对应的依存结构树的相似度递归计算得到；从根节点开始，比较对应的依存元组，包括依存支配词的比较、依存关系的比较和依存从属词的比较，依存元组的相似度是三者的加权求和；子节点的依存元组的比较结果作为父节点的依存从属词的比较结构，然后递归的计算出根节点的相似度，得到两棵依存结构树的相似度；最后得到A中每一个子句和B中每一个子句的相似度；