CN108763411A

CN108763411A - 一种结合短文本聚类和推荐机制的主观题批阅系统及方法

Info

Publication number: CN108763411A
Application number: CN201810499529.0A
Authority: CN
Inventors: 余胜泉; 段庆龙; 卢宇
Original assignee: Beijing Normal University
Current assignee: Beijing Normal University
Priority date: 2018-05-23
Filing date: 2018-05-23
Publication date: 2018-11-06
Anticipated expiration: 2038-05-23
Also published as: CN108763411B

Abstract

一种结合短文本聚类和推荐机制的主观题批阅系统及方法，系统包括计算机；所述计算机中运行主观题批阅系统，所述批阅系统包括数据预处理模块、聚类分析模块和推荐可视化模块、批阅数据库。本发明适用于主观题批阅数据的获取，特点是将短文本聚类和推荐机制应用到批阅场景中，从而获取可信度更高，一致性更强的批阅结果，一方面可以减少因为批阅一致性差，造成的训练自动批阅模型可信度不高的问题。另一方面，能够增加用户批阅行为的可信度，降低用户在批阅过程中得分尺度变化，提高批阅结果的公平性。

Description

一种结合短文本聚类和推荐机制的主观题批阅系统及方法

技术领域

本发明属于批阅数据收集领域，具体地说，一种结合短文本聚类和推荐机制的主观题批阅系统及方法，该系统可应用于中小学的主观题批阅和高质量的主观题批阅数据的获取。

背景技术

主观题批阅是学生学习和教学中的重要一环，是教师了解学生知识掌握情况的重要途径，目前教师批阅也是实现自动机器批阅的非常重要的步骤。当前的作业批阅方式单一，主要是全批全改和精批细改(余太猛.从“全批全改”到“精批巧改”[J].学生之友(初中版),2011,09:14.)，针对这种方式开发的作业平台也不断涌现，如一起作业平台(http://www.17zuoye.com/)，moodle平台，下一代教师创新支持平台(http://ipv6te.bnu.edu.cn/)，新东方的OKAY智慧教育平台(https://www.okayzhihui.com/)等。值得注意的是，基于“全批全改”和“精批细改”的作业系统，多是作业的顺序展示。而且教师批阅给出的只是作业的分数，并没有对题目的批改过程进行记录。同时，由于人工的不可靠，在顺序批阅主观题的过程中极易出现各种问题，造成批阅的错误，违背考试公平、公正的基本原则。答题者的分数极易受到批阅人的主观判断影响而出现较大偏差。同时，而随着教学规模的扩大，考试数量随之增多，教师的批阅量也会随之增大，批阅工作是重复单一的过程，会消耗教师大量的时间和精力，并且单调重复性的劳动，容易导致疲劳，疲劳之后出错几率将更高，因此实现的自动批阅是解决问题的有效途径，但自动批阅的实现需要高质量一致性的批阅数据作为机器学习的对象，如果没有一致性的较高的批阅数据作为支撑，机器批阅的结果还是不能实际应用于批阅场景中。目前尚没有针对单一教师在批阅过程的一致性保证方法及系统，而在现实当中，如果一个教师对相似语义的答案给出了不同的评价结果，无疑会将考试的不公平性增大。

发明内容

本发明要解决的技术问题是：克服当前主观题批阅数据获取所遇到的问题：目前批阅数据的可信度不高，一致性较差，批阅过程无法追溯，无法应用到训练主观题自动批阅系统等，促进考试的公平性。本发明提供一种结合短文本聚类和推荐机制的主观题批阅系统及方法，流程简单、绿色环保，所需设备不复杂，操作方便，聚类和推荐过程衔接得当，通过建立相关的答案聚类结果表和答案相似度推荐表，记录批阅过程的中间结果，可追溯性强。

本发明提供了一种结合短文本聚类和推荐机制的主观题批阅系统，该批阅系统包括数据预处理模块、聚类分析模块、推荐可视化模块以及批阅数据库；其中：

数据预处理模块：对教师提交到批阅数据库的学生的答案文本进行预处理，包括：使用预先构建的词典资源对答案文本进行分词，将答案文本转化为一个词的序列；利用预先构建的评分停用词表去除答案文本中对评分结果影响较小的词；查找去停用词后的答案文本中剩余词在预先训练的词向量表中的表示结果；将处理后的答案文本进行词汇向量化的表示，通过对词向量进行累加求均值，构建词对答案文本的表示；

聚类分析模块：在教师进行批阅之前，采用短文本聚类算法对经过数据预处理模块预处理的答案文本进行聚类，依据计算出的平均轮廓系数选择出最优的聚类簇的个数；将聚类的最优结果存入批阅数据库的答案聚类结果表中；依据聚类内每条答案的轮廓系数大小进行排序，将排序结果发送给老师进行批阅，最后将批阅的结果存入批阅数据库；

推荐可视化模块：在批阅过程中，计算当前正在批阅的答案与批阅数据库中已批阅的所有答案之间的相似度，将相似度较高的答案作为批阅的参考标准向老师做可视化推荐，当前正在批阅的答案批阅完成后，使用该相似度较高的答案作为推荐答案更新答案相似度推荐表；

批阅数据库：包括答案存储表、答案聚类结果表，答案相似度推荐表；答案存储表包括两部分：一个是所要收集的题目数据表，存储的是教师布置的每个题目的编号，题目内容，题目所涉及的科目，年级，发布者，发布时间，题目的难易程度；二是答案数据表，存储的是题目的编号，学生的id，学生的答案内容，教师的评分；答案聚类结果表存储聚类的结果，其中包含如下字段，题目的编号，学生的id，答案所对应的轮廓系数，答案所属的类别簇；通过学生id可以在答案聚类结果表中找到答案所对应的类别簇，并在答案存储表中找到学生的答案；答案相似度推荐表，存储的字段是每一条答案与相同类别簇中已经批阅的答案中最相近的两条答案，有如下三个字段：答案对应的学生id、最相似答案的学生id、次相似的答案的学生id；通过答案对应的学生id在答案存储表中找到对应的答案，推荐到前端可视化模块，提示老师相似答案的评分标准。

本发明还提供了一种基于上述主观题批阅系统的主观题批阅方法，包括如下步骤：

步骤(1)对教师提交到批阅数据库的学生的答案文本进行预处理，包括：使用预先构建的词典资源对答案文本进行分词，将答案文本转化为一个词的序列；利用预先构建的评分停用词表去除答案文本中对评分结果影响较小的词；查找去停用词后的答案文本中剩余词在预先训练的词向量表中的表示结果；将处理后的答案文本进行词汇向量化的表示，通过对词向量进行累加求均值，构建词对答案文本的表示；

步骤(2)在教师进行批阅之前，采用短文本聚类算法对经过预处理的答案文本进行聚类，依据计算出的平均轮廓系数，选择出最优的聚类簇的个数；将聚类的最优结果存入批阅数据库的答案聚类结果表中；依据聚类内每条答案的轮廓系数大小进行排序，将排序结果发送给老师进行批阅，最后将批阅的结果存入批阅数据库；

步骤(3)在批阅过程中，计算当前正在批阅的答案与批阅数据库中已批阅的所有答案之间的相似度，将相似度较高的答案作为批阅的参考标准向老师做可视化推荐，当前正在批阅的答案批阅完成后，使用该相似度较高的答案作为推荐答案更新答案相似度推荐表。

上述主观题批阅方法中，所述步骤(2)中平均轮廓系统计算如下：

首先计算点i的轮廓系数S(i)：S(i)＝b(i)-a(i)/Max{a(i),b(i)}，i为聚类簇中的一个点的向量表示，a(i)＝average(i向量到所有它属于的簇中其它点的距离)，average为取平均值；计算b(i)＝Min(i向量到所有非本身所在簇的点的平均距离)；Min为取最小值，Max为取最大值；

然后计算平均轮廓系数，平均轮廓系数为所有点的轮廓系数的和取平均。

上述主观题批阅方法中，所述步骤(3)中当前正在批阅的答案与批阅数据库中已批阅的所有答案之间的相似度计算如下：计算当前正在批阅的答案a与答案相似度推荐表中已批阅的所有答案之间的相似度，找到相似度最大的两条答案a1、a2且满足Min(sim(a,a1),sim(a,a2))>θ；其中，Min为取两个计算结果中较小的那一条答案，θ为相似度的阈值，必须大于这个值时，才能作为批阅时相似的参照答案进行推荐，sim()计算两条文本相似度使用的算法为Word Move Distance算法，该算法利用欧氏距离分别计算两个文本中的各个词的词向量表示之间最大相似度的值，然后累加求和，得到两条文本之间的相似度。

上述主观题批阅方法中，所述步骤(1)中，停用词表是学科专家依据实际批阅中对批阅结果影响较小的词汇组成的一种词表。

上述主观题批阅方法中，所述步骤(1)中，使用大规模生语料训练词向量，并使用答案文本中出现的词对训练的词向量进行微调，从而补充生语料上词汇无法完全覆盖的问题或直接将答案文本和生语料放置在一起，答案文本的训练表示结果不佳的问题；所述生语料是指未经任何处理的文本数据。

上述主观题批阅方法中，所述步骤(2)中，在答案批阅之前使用短文本聚类算法对答案进行预先判断所属的聚类簇，通过指定不同的聚类簇的个数可以计算出不同的平均轮廓系数，通过比较每次不同聚类个数之间的平均轮廓系数判断短文本聚类效果的优劣。

本发明与现有技术相比的优点在于：

(1)本发明首先对待批阅的答案文本进行预处理，包括对答案文本进行分词，去停用词、对词向量进行训练，通过对词向量进行累加求均值，构建词对答案文本的表示；进一步的，在进行词向量训练时，不仅使用大规模生语料对答案文本的表示，同时还使用答案文本中出现的词对训练的词向量进行微调，补充生语料上词汇无法覆盖的问题，并通过词向量累加求均值，构建词对答案文本的表示，提升了答案文本表示的速度和质量。

(2)本发明在教师进行批阅之前，从语义上对相似的答案进行短文本聚类分析，预先判断所属的聚类簇，通过指定不同的聚类簇的个数可以计算出不同的平均轮廓系数，通过比较不同聚类个数之间的平均轮廓系数判断短文本聚类效果的优劣，在同一时间内批阅语义上类似的答案，从而减少在教师批阅过程中可能产生的偶然误差，减少了教师在批阅过程中随机性批阅，避免了随机性的题目展示造成的教师批阅过程中不一致性的可能。

(3)本发明通过相似度推荐算法，在教师对答案进行批阅时，计算当前批阅答案与已批阅的答案之间的相似度，向教师推荐相似度较高的答案作为批阅的参照，批阅一条答案完成后更新答案相似度推荐表。避免了在批阅过程，随着批阅量的增大，批阅标准不一致的问题，通过这种方式保证教师在批阅过程中的评价结果的一致性和公平性。

(4)本发明通过计算机获取主观题的批阅数据，减少了主观题批阅中笔和纸的浪费，绿色环保；并且操作方便，聚类和推荐过程衔接得当，通过建立相关的答案聚类结果表和答案相似度推荐表，记录批阅过程的中间结果，可追溯性强。

附图说明

图1为本发明批阅收集系统的组成框图；

图2为图1中数据预处理模块的实现流程图；

图3为图1中聚类分析模块的流程图；

图4为图1中推荐可视化模块的实现流程图；

图5是图4中可视化的结果图。

具体实施方式

下面结合附图及具体实施方式详细介绍本发明。

如图1所示，本发明包括所述系统包括计算机、标有特定分割符号的答题界面；所述计算机中运行主观题批阅系统，所述批阅系统包括数据预处理模块、聚类分析模块、推荐可视化模块、批阅数据库。

如图2所示，本发明中数据预处理模块具体实现如下：

用户提交学生答案，将答案上传到批阅数据库，本实施例中使用开源分词工具jieba(参见：)还可使用opennlp(http://opennlp.apache.org/)或nlpir(http://ictclas.nlpir.org/)和构建的自定义用户词典对答案进行分词，jieba是python中常用的分词组件，用来将一句话分解成若干词汇，其中词与词之间使用空格进行分割。然后将答案文本转化为一个词的序列，利用构建的评分停用词表去除答案中对评分结果影响较小的词。在基于大规模语料和当前答案文本共同训练的词向量中查询答案中出现的词，找到答案中的每个词的向量化表示，通过将词向量进行累加求均值的方式，构建词到答案文本的之间的表示。

如图3所示，本发明中聚类分析模块的流程具体实现如下：

本实施例中采用的聚类分析模块可以使用开源机器学习工具Scikit-Learn(参见：http://scikit-learn.org/stable/)是用Python开发的机器学习库，其中包含大量机器学习算法、数据集，是数据挖掘方便的工具。使用开源机器学习工具Scikit-Learn中提供的聚类算法对经过数据预处理模块的答案文本进行聚类，依据每次聚类的结果，计算相应的平均轮廓系数，选择出平均轮廓系数最优的聚类簇的个数；将聚类的最优的结果存入批阅数据库的答案聚类结果表中；依据类内每条答案的轮廓系数大小进行排序，将排序后的答案发送给老师进行批阅，将教师最终批阅的结果存入批阅数据库。

如图4所示，本发明中推荐可视化模块具体实现如下：

计算当前正在批阅的答案a与批阅数据库中已批阅的所有答案之间的相似度，找到相似度最大的两条答案a1、a2且满足Min(sim(a,a1),sim(a,a2))>θ，其中Min为取两者两个计算结果中较小的那一条答案，θ为相似度的阈值必须大于这个值时，才能作为批阅时相似的参照答案进行推荐，sim()计算两条文本相似度使用的算法为Word Move Distance算法，它利用欧氏距离分别计算两个文本中的各个词的词向量表示之间最大相似度的值的和，从而计算出两条文本之间的相似度。通过可视化模块推荐给老师，提醒老师当前答案批阅的参考标准；例如在初中生物光合作用知识点的一道题目，例如：“将装置甲在室外阳光下放置一段时间。取一片番茄叶片，酒精隔水加热后，用清水清洗后滴加碘液，片刻后洗去，叶片变蓝，该现象可说明______”(3分)分别有已经批阅的Answer_1-4在答案数据表中，Answer_5是待批阅答案，尚无分数。

答案文本	分数
		Answer_1：光合作用产生淀粉。	3
Answer_2:光合作用可以产生淀粉。	3
		Answer_3：有光可以产生淀粉。	2
Answer_4：光合作用产生有机物。	2
		Answer_5：在光下可以产生有机物。	——

表1

系统会计算用户当前批阅的Answer_5与Answer_1-4之间的相似度。相似度的值如下：

参与计算相似度的文本	相似度的值
		Sim(Answer_1,Answer_5)	0.58
Sim(Answer_2,Answer_5)	0.62
		Sim(Answer_3,Answer_5)	0.81
Sim(Answer_4,Answer_5)	0.78

表2

系统从计算出的相似度中选择最大的Answer_3和Answer_4存入答案相似度推荐表，然后推荐到前端可视化界面供用户进行批阅。

如图5所示，本发明中可视化的结果具体实现如下：

图为用户实际看到的主观题批阅系统界面，其中图中左侧为待批阅的答案文本数据的显示区域，图中显示的为表1中Answer_5。图中右侧部分为答案推荐区域，是依据推荐机制计算出的相似度大于一定阈值的已批阅的答案文本的显示区域。图中左下侧是教师为当前答案文本进行批阅后，给出的分值的填入区域。

本发明未详细阐述的部分属于本领域公知技术。

Claims

1.一种结合短文本聚类和推荐机制的主观题批阅系统，其特征在于：所述批阅系统包括数据预处理模块、聚类分析模块、推荐可视化模块以及批阅数据库；其中：

数据预处理模块：对教师提交到批阅数据库的学生的答案文本进行预处理，包括：使用预先构建的词典资源对答案文本进行分词，然后将答案文本转化为一个词的序列；利用预先构建的评分停用词表去除答案文本中对评分结果影响较小的词；查找去停用词后的答案文本中剩余词在预先训练的词向量表中的表示结果；将处理后的答案文本进行词汇向量化的表示，通过对词向量进行累加求均值，构建词对答案文本的表示；

聚类分析模块：在教师进行批阅之前，采用短文本聚类算法对经过数据预处理模块预处理的答案文本进行聚类，依据计算出的平均轮廓系数选择出最优的聚类簇的个数；将聚类的最优结果存入批阅数据库的聚类结果表中；依据聚类内每条答案的轮廓系数大小进行排序，将排序结果发送给老师进行批阅，最后将批阅的结果存入批阅数据库；

2.一种基于权利要求1所述主观题批阅系统的主观题批阅方法，其特征在于，包括步骤：

3.根据权利要求2所述主观题批阅方法，其特征在于：所述步骤(2)中平均轮廓系统计算如下：

首先计算点i的轮廓系数S(i)：S(i)＝b(i)-a(i)/Max{a(i),b(i)}，i为聚类簇中的一个点的向量表示，a(i)＝average(i向量到所有它属于的簇中其它点的距离)，average为取平均值；计算b(i)＝Min(i向量到所有非本身所在簇的点的平均距离)；Min为取最小值，Max为取最大值；然后计算平均轮廓系数，平均轮廓系数为所有点的轮廓系数的和取平均。

4.根据权利要求2所述的主观题批阅方法，其特征在于：所述步骤(3)中当前正在批阅的答案与批阅数据库中已批阅的所有答案之间的相似度计算如下：计算当前正在批阅的答案a与答案相似度推荐表中已批阅的所有答案之间的相似度，找到相似度最大的两条答案a1、a2且满足Min(sim(a,a1),sim(a,a2))>θ；其中，Min为取两个计算结果中较小的那一条答案，θ为相似度的阈值，必须大于这个值时，才能作为批阅时相似的参照答案进行推荐，sim()计算两条文本相似度使用的算法为Word Move Distance算法，该算法利用欧氏距离分别计算两个文本中的各个词的词向量表示之间最大相似度的值，然后累加求和，得到两条文本之间的相似度。

5.根据权利要求2所述的主观题批阅方法，其特征在于：所述步骤(1)中，停用词表是学科专家依据实际批阅中对批阅结果影响较小的词汇组成的一种词表。

6.根据权利要求2所述的主观题批阅方法，其特征在于：所述步骤(1)中，使用大规模生语料训练词向量，并使用答案文本中出现的词对训练的词向量进行微调；所述生语料是指未经任何处理的文本数据。

7.根据权利要求2所述的主观题批阅方法，其特征在于：所述步骤(2)中，在答案批阅之前使用短文本聚类算法对答案进行预先判断所属的聚类簇，通过指定不同的聚类簇的个数可以计算出不同的平均轮廓系数，通过比较每次不同聚类个数之间的平均轮廓系数判断短文本聚类效果的优劣。