CN108763411A - 一种结合短文本聚类和推荐机制的主观题批阅系统及方法 - Google Patents
一种结合短文本聚类和推荐机制的主观题批阅系统及方法 Download PDFInfo
- Publication number
- CN108763411A CN108763411A CN201810499529.0A CN201810499529A CN108763411A CN 108763411 A CN108763411 A CN 108763411A CN 201810499529 A CN201810499529 A CN 201810499529A CN 108763411 A CN108763411 A CN 108763411A
- Authority
- CN
- China
- Prior art keywords
- answer
- comments
- read
- text
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000007246 mechanism Effects 0.000 title claims abstract description 9
- 238000012800 visualization Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000007621 cluster analysis Methods 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 27
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 239000000463 material Substances 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000001186 cumulative effect Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 abstract description 3
- 238000010801 machine learning Methods 0.000 description 4
- 229920002472 Starch Polymers 0.000 description 3
- 230000029553 photosynthesis Effects 0.000 description 3
- 238000010672 photosynthesis Methods 0.000 description 3
- 235000019698 starch Nutrition 0.000 description 3
- 239000008107 starch Substances 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 239000005416 organic matter Substances 0.000 description 2
- 230000001681 protective effect Effects 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- ZCYVEMRRCGMTRW-UHFFFAOYSA-N 7553-56-2 Chemical compound [I] ZCYVEMRRCGMTRW-UHFFFAOYSA-N 0.000 description 1
- 241000208340 Araliaceae Species 0.000 description 1
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 1
- 235000007688 Lycopersicon esculentum Nutrition 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 240000003768 Solanum lycopersicum Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 229910052740 iodine Inorganic materials 0.000 description 1
- 239000011630 iodine Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Educational Technology (AREA)
- Educational Administration (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种结合短文本聚类和推荐机制的主观题批阅系统及方法,系统包括计算机;所述计算机中运行主观题批阅系统,所述批阅系统包括数据预处理模块、聚类分析模块和推荐可视化模块、批阅数据库。本发明适用于主观题批阅数据的获取,特点是将短文本聚类和推荐机制应用到批阅场景中,从而获取可信度更高,一致性更强的批阅结果,一方面可以减少因为批阅一致性差,造成的训练自动批阅模型可信度不高的问题。另一方面,能够增加用户批阅行为的可信度,降低用户在批阅过程中得分尺度变化,提高批阅结果的公平性。
Description
技术领域
本发明属于批阅数据收集领域,具体地说,一种结合短文本聚类和推荐机制的主观题批阅系统及方法,该系统可应用于中小学的主观题批阅和高质量的主观题批阅数据的获取。
背景技术
主观题批阅是学生学习和教学中的重要一环,是教师了解学生知识掌握情况的重要途径,目前教师批阅也是实现自动机器批阅的非常重要的步骤。当前的作业批阅方式单一,主要是全批全改和精批细改(余太猛.从“全批全改”到“精批巧改”[J].学生之友(初中版),2011,09:14.),针对这种方式开发的作业平台也不断涌现,如一起作业平台(http://www.17zuoye.com/),moodle平台,下一代教师创新支持平台(http://ipv6te.bnu.edu.cn/),新东方的OKAY智慧教育平台(https://www.okayzhihui.com/)等。值得注意的是,基于“全批全改”和“精批细改”的作业系统,多是作业的顺序展示。而且教师批阅给出的只是作业的分数,并没有对题目的批改过程进行记录。同时,由于人工的不可靠,在顺序批阅主观题的过程中极易出现各种问题,造成批阅的错误,违背考试公平、公正的基本原则。答题者的分数极易受到批阅人的主观判断影响而出现较大偏差。同时,而随着教学规模的扩大,考试数量随之增多,教师的批阅量也会随之增大,批阅工作是重复单一的过程,会消耗教师大量的时间和精力,并且单调重复性的劳动,容易导致疲劳,疲劳之后出错几率将更高,因此实现的自动批阅是解决问题的有效途径,但自动批阅的实现需要高质量一致性的批阅数据作为机器学习的对象,如果没有一致性的较高的批阅数据作为支撑,机器批阅的结果还是不能实际应用于批阅场景中。目前尚没有针对单一教师在批阅过程的一致性保证方法及系统,而在现实当中,如果一个教师对相似语义的答案给出了不同的评价结果,无疑会将考试的不公平性增大。
发明内容
本发明要解决的技术问题是:克服当前主观题批阅数据获取所遇到的问题:目前批阅数据的可信度不高,一致性较差,批阅过程无法追溯,无法应用到训练主观题自动批阅系统等,促进考试的公平性。本发明提供一种结合短文本聚类和推荐机制的主观题批阅系统及方法,流程简单、绿色环保,所需设备不复杂,操作方便,聚类和推荐过程衔接得当,通过建立相关的答案聚类结果表和答案相似度推荐表,记录批阅过程的中间结果,可追溯性强。
本发明提供了一种结合短文本聚类和推荐机制的主观题批阅系统,该批阅系统包括数据预处理模块、聚类分析模块、推荐可视化模块以及批阅数据库;其中:
数据预处理模块:对教师提交到批阅数据库的学生的答案文本进行预处理,包括:使用预先构建的词典资源对答案文本进行分词,将答案文本转化为一个词的序列;利用预先构建的评分停用词表去除答案文本中对评分结果影响较小的词;查找去停用词后的答案文本中剩余词在预先训练的词向量表中的表示结果;将处理后的答案文本进行词汇向量化的表示,通过对词向量进行累加求均值,构建词对答案文本的表示;
聚类分析模块:在教师进行批阅之前,采用短文本聚类算法对经过数据预处理模块预处理的答案文本进行聚类,依据计算出的平均轮廓系数选择出最优的聚类簇的个数;将聚类的最优结果存入批阅数据库的答案聚类结果表中;依据聚类内每条答案的轮廓系数大小进行排序,将排序结果发送给老师进行批阅,最后将批阅的结果存入批阅数据库;
推荐可视化模块:在批阅过程中,计算当前正在批阅的答案与批阅数据库中已批阅的所有答案之间的相似度,将相似度较高的答案作为批阅的参考标准向老师做可视化推荐,当前正在批阅的答案批阅完成后,使用该相似度较高的答案作为推荐答案更新答案相似度推荐表;
批阅数据库:包括答案存储表、答案聚类结果表,答案相似度推荐表;答案存储表包括两部分:一个是所要收集的题目数据表,存储的是教师布置的每个题目的编号,题目内容,题目所涉及的科目,年级,发布者,发布时间,题目的难易程度;二是答案数据表,存储的是题目的编号,学生的id,学生的答案内容,教师的评分;答案聚类结果表存储聚类的结果,其中包含如下字段,题目的编号,学生的id,答案所对应的轮廓系数,答案所属的类别簇;通过学生id可以在答案聚类结果表中找到答案所对应的类别簇,并在答案存储表中找到学生的答案;答案相似度推荐表,存储的字段是每一条答案与相同类别簇中已经批阅的答案中最相近的两条答案,有如下三个字段:答案对应的学生id、最相似答案的学生id、次相似的答案的学生id;通过答案对应的学生id在答案存储表中找到对应的答案,推荐到前端可视化模块,提示老师相似答案的评分标准。
本发明还提供了一种基于上述主观题批阅系统的主观题批阅方法,包括如下步骤:
步骤(1)对教师提交到批阅数据库的学生的答案文本进行预处理,包括:使用预先构建的词典资源对答案文本进行分词,将答案文本转化为一个词的序列;利用预先构建的评分停用词表去除答案文本中对评分结果影响较小的词;查找去停用词后的答案文本中剩余词在预先训练的词向量表中的表示结果;将处理后的答案文本进行词汇向量化的表示,通过对词向量进行累加求均值,构建词对答案文本的表示;
步骤(2)在教师进行批阅之前,采用短文本聚类算法对经过预处理的答案文本进行聚类,依据计算出的平均轮廓系数,选择出最优的聚类簇的个数;将聚类的最优结果存入批阅数据库的答案聚类结果表中;依据聚类内每条答案的轮廓系数大小进行排序,将排序结果发送给老师进行批阅,最后将批阅的结果存入批阅数据库;
步骤(3)在批阅过程中,计算当前正在批阅的答案与批阅数据库中已批阅的所有答案之间的相似度,将相似度较高的答案作为批阅的参考标准向老师做可视化推荐,当前正在批阅的答案批阅完成后,使用该相似度较高的答案作为推荐答案更新答案相似度推荐表。
上述主观题批阅方法中,所述步骤(2)中平均轮廓系统计算如下:
首先计算点i的轮廓系数S(i):S(i)=b(i)-a(i)/Max{a(i),b(i)},i为聚类簇中的一个点的向量表示,a(i)=average(i向量到所有它属于的簇中其它点的距离),average为取平均值;计算b(i)=Min(i向量到所有非本身所在簇的点的平均距离);Min为取最小值,Max为取最大值;
然后计算平均轮廓系数,平均轮廓系数为所有点的轮廓系数的和取平均。
上述主观题批阅方法中,所述步骤(3)中当前正在批阅的答案与批阅数据库中已批阅的所有答案之间的相似度计算如下:计算当前正在批阅的答案a与答案相似度推荐表中已批阅的所有答案之间的相似度,找到相似度最大的两条答案a1、a2且满足Min(sim(a,a1),sim(a,a2))>θ;其中,Min为取两个计算结果中较小的那一条答案,θ为相似度的阈值,必须大于这个值时,才能作为批阅时相似的参照答案进行推荐,sim()计算两条文本相似度使用的算法为Word Move Distance算法,该算法利用欧氏距离分别计算两个文本中的各个词的词向量表示之间最大相似度的值,然后累加求和,得到两条文本之间的相似度。
上述主观题批阅方法中,所述步骤(1)中,停用词表是学科专家依据实际批阅中对批阅结果影响较小的词汇组成的一种词表。
上述主观题批阅方法中,所述步骤(1)中,使用大规模生语料训练词向量,并使用答案文本中出现的词对训练的词向量进行微调,从而补充生语料上词汇无法完全覆盖的问题或直接将答案文本和生语料放置在一起,答案文本的训练表示结果不佳的问题;所述生语料是指未经任何处理的文本数据。
上述主观题批阅方法中,所述步骤(2)中,在答案批阅之前使用短文本聚类算法对答案进行预先判断所属的聚类簇,通过指定不同的聚类簇的个数可以计算出不同的平均轮廓系数,通过比较每次不同聚类个数之间的平均轮廓系数判断短文本聚类效果的优劣。
本发明与现有技术相比的优点在于:
(1)本发明首先对待批阅的答案文本进行预处理,包括对答案文本进行分词,去停用词、对词向量进行训练,通过对词向量进行累加求均值,构建词对答案文本的表示;进一步的,在进行词向量训练时,不仅使用大规模生语料对答案文本的表示,同时还使用答案文本中出现的词对训练的词向量进行微调,补充生语料上词汇无法覆盖的问题,并通过词向量累加求均值,构建词对答案文本的表示,提升了答案文本表示的速度和质量。
(2)本发明在教师进行批阅之前,从语义上对相似的答案进行短文本聚类分析,预先判断所属的聚类簇,通过指定不同的聚类簇的个数可以计算出不同的平均轮廓系数,通过比较不同聚类个数之间的平均轮廓系数判断短文本聚类效果的优劣,在同一时间内批阅语义上类似的答案,从而减少在教师批阅过程中可能产生的偶然误差,减少了教师在批阅过程中随机性批阅,避免了随机性的题目展示造成的教师批阅过程中不一致性的可能。
(3)本发明通过相似度推荐算法,在教师对答案进行批阅时,计算当前批阅答案与已批阅的答案之间的相似度,向教师推荐相似度较高的答案作为批阅的参照,批阅一条答案完成后更新答案相似度推荐表。避免了在批阅过程,随着批阅量的增大,批阅标准不一致的问题,通过这种方式保证教师在批阅过程中的评价结果的一致性和公平性。
(4)本发明通过计算机获取主观题的批阅数据,减少了主观题批阅中笔和纸的浪费,绿色环保;并且操作方便,聚类和推荐过程衔接得当,通过建立相关的答案聚类结果表和答案相似度推荐表,记录批阅过程的中间结果,可追溯性强。
附图说明
图1为本发明批阅收集系统的组成框图;
图2为图1中数据预处理模块的实现流程图;
图3为图1中聚类分析模块的流程图;
图4为图1中推荐可视化模块的实现流程图;
图5是图4中可视化的结果图。
具体实施方式
下面结合附图及具体实施方式详细介绍本发明。
如图1所示,本发明包括所述系统包括计算机、标有特定分割符号的答题界面;所述计算机中运行主观题批阅系统,所述批阅系统包括数据预处理模块、聚类分析模块、推荐可视化模块、批阅数据库。
如图2所示,本发明中数据预处理模块具体实现如下:
用户提交学生答案,将答案上传到批阅数据库,本实施例中使用开源分词工具jieba(参见:)还可使用opennlp(http://opennlp.apache.org/)或nlpir(http://ictclas.nlpir.org/)和构建的自定义用户词典对答案进行分词,jieba是python中常用的分词组件,用来将一句话分解成若干词汇,其中词与词之间使用空格进行分割。然后将答案文本转化为一个词的序列,利用构建的评分停用词表去除答案中对评分结果影响较小的词。在基于大规模语料和当前答案文本共同训练的词向量中查询答案中出现的词,找到答案中的每个词的向量化表示,通过将词向量进行累加求均值的方式,构建词到答案文本的之间的表示。
如图3所示,本发明中聚类分析模块的流程具体实现如下:
本实施例中采用的聚类分析模块可以使用开源机器学习工具Scikit-Learn(参见:http://scikit-learn.org/stable/)是用Python开发的机器学习库,其中包含大量机器学习算法、数据集,是数据挖掘方便的工具。使用开源机器学习工具Scikit-Learn中提供的聚类算法对经过数据预处理模块的答案文本进行聚类,依据每次聚类的结果,计算相应的平均轮廓系数,选择出平均轮廓系数最优的聚类簇的个数;将聚类的最优的结果存入批阅数据库的答案聚类结果表中;依据类内每条答案的轮廓系数大小进行排序,将排序后的答案发送给老师进行批阅,将教师最终批阅的结果存入批阅数据库。
如图4所示,本发明中推荐可视化模块具体实现如下:
计算当前正在批阅的答案a与批阅数据库中已批阅的所有答案之间的相似度,找到相似度最大的两条答案a1、a2且满足Min(sim(a,a1),sim(a,a2))>θ,其中Min为取两者两个计算结果中较小的那一条答案,θ为相似度的阈值必须大于这个值时,才能作为批阅时相似的参照答案进行推荐,sim()计算两条文本相似度使用的算法为Word Move Distance算法,它利用欧氏距离分别计算两个文本中的各个词的词向量表示之间最大相似度的值的和,从而计算出两条文本之间的相似度。通过可视化模块推荐给老师,提醒老师当前答案批阅的参考标准;例如在初中生物光合作用知识点的一道题目,例如:“将装置甲在室外阳光下放置一段时间。取一片番茄叶片,酒精隔水加热后,用清水清洗后滴加碘液,片刻后洗去,叶片变蓝,该现象可说明______”(3分)分别有已经批阅的Answer_1-4在答案数据表中,Answer_5是待批阅答案,尚无分数。
答案文本 | 分数 |
Answer_1:光合作用产生淀粉。 | 3 |
Answer_2:光合作用可以产生淀粉。 | 3 |
Answer_3:有光可以产生淀粉。 | 2 |
Answer_4:光合作用产生有机物。 | 2 |
Answer_5:在光下可以产生有机物。 | —— |
表1
系统会计算用户当前批阅的Answer_5与Answer_1-4之间的相似度。相似度的值如下:
参与计算相似度的文本 | 相似度的值 |
Sim(Answer_1,Answer_5) | 0.58 |
Sim(Answer_2,Answer_5) | 0.62 |
Sim(Answer_3,Answer_5) | 0.81 |
Sim(Answer_4,Answer_5) | 0.78 |
表2
系统从计算出的相似度中选择最大的Answer_3和Answer_4存入答案相似度推荐表,然后推荐到前端可视化界面供用户进行批阅。
如图5所示,本发明中可视化的结果具体实现如下:
图为用户实际看到的主观题批阅系统界面,其中图中左侧为待批阅的答案文本数据的显示区域,图中显示的为表1中Answer_5。图中右侧部分为答案推荐区域,是依据推荐机制计算出的相似度大于一定阈值的已批阅的答案文本的显示区域。图中左下侧是教师为当前答案文本进行批阅后,给出的分值的填入区域。
本发明未详细阐述的部分属于本领域公知技术。
Claims (7)
1.一种结合短文本聚类和推荐机制的主观题批阅系统,其特征在于:所述批阅系统包括数据预处理模块、聚类分析模块、推荐可视化模块以及批阅数据库;其中:
数据预处理模块:对教师提交到批阅数据库的学生的答案文本进行预处理,包括:使用预先构建的词典资源对答案文本进行分词,然后将答案文本转化为一个词的序列;利用预先构建的评分停用词表去除答案文本中对评分结果影响较小的词;查找去停用词后的答案文本中剩余词在预先训练的词向量表中的表示结果;将处理后的答案文本进行词汇向量化的表示,通过对词向量进行累加求均值,构建词对答案文本的表示;
聚类分析模块:在教师进行批阅之前,采用短文本聚类算法对经过数据预处理模块预处理的答案文本进行聚类,依据计算出的平均轮廓系数选择出最优的聚类簇的个数;将聚类的最优结果存入批阅数据库的聚类结果表中;依据聚类内每条答案的轮廓系数大小进行排序,将排序结果发送给老师进行批阅,最后将批阅的结果存入批阅数据库;
推荐可视化模块:在批阅过程中,计算当前正在批阅的答案与批阅数据库中已批阅的所有答案之间的相似度,将相似度较高的答案作为批阅的参考标准向老师做可视化推荐,当前正在批阅的答案批阅完成后,使用该相似度较高的答案作为推荐答案更新答案相似度推荐表;
批阅数据库:包括答案存储表、答案聚类结果表,答案相似度推荐表;答案存储表包括两部分:一个是所要收集的题目数据表,存储的是教师布置的每个题目的编号,题目内容,题目所涉及的科目,年级,发布者,发布时间,题目的难易程度;二是答案数据表,存储的是题目的编号,学生的id,学生的答案内容,教师的评分;答案聚类结果表存储聚类的结果,其中包含如下字段,题目的编号,学生的id,答案所对应的轮廓系数,答案所属的类别簇;通过学生id可以在答案聚类结果表中找到答案所对应的类别簇,并在答案存储表中找到学生的答案;答案相似度推荐表,存储的字段是每一条答案与相同类别簇中已经批阅的答案中最相近的两条答案,有如下三个字段:答案对应的学生id、最相似答案的学生id、次相似的答案的学生id;通过答案对应的学生id在答案存储表中找到对应的答案,推荐到前端可视化模块,提示老师相似答案的评分标准。
2.一种基于权利要求1所述主观题批阅系统的主观题批阅方法,其特征在于,包括步骤:
步骤(1)对教师提交到批阅数据库的学生的答案文本进行预处理,包括:使用预先构建的词典资源对答案文本进行分词,将答案文本转化为一个词的序列;利用预先构建的评分停用词表去除答案文本中对评分结果影响较小的词;查找去停用词后的答案文本中剩余词在预先训练的词向量表中的表示结果;将处理后的答案文本进行词汇向量化的表示,通过对词向量进行累加求均值,构建词对答案文本的表示;
步骤(2)在教师进行批阅之前,采用短文本聚类算法对经过预处理的答案文本进行聚类,依据计算出的平均轮廓系数,选择出最优的聚类簇的个数;将聚类的最优结果存入批阅数据库的答案聚类结果表中;依据聚类内每条答案的轮廓系数大小进行排序,将排序结果发送给老师进行批阅,最后将批阅的结果存入批阅数据库;
步骤(3)在批阅过程中,计算当前正在批阅的答案与批阅数据库中已批阅的所有答案之间的相似度,将相似度较高的答案作为批阅的参考标准向老师做可视化推荐,当前正在批阅的答案批阅完成后,使用该相似度较高的答案作为推荐答案更新答案相似度推荐表。
3.根据权利要求2所述主观题批阅方法,其特征在于:所述步骤(2)中平均轮廓系统计算如下:
首先计算点i的轮廓系数S(i):S(i)=b(i)-a(i)/Max{a(i),b(i)},i为聚类簇中的一个点的向量表示,a(i)=average(i向量到所有它属于的簇中其它点的距离),average为取平均值;计算b(i)=Min(i向量到所有非本身所在簇的点的平均距离);Min为取最小值,Max为取最大值;然后计算平均轮廓系数,平均轮廓系数为所有点的轮廓系数的和取平均。
4.根据权利要求2所述的主观题批阅方法,其特征在于:所述步骤(3)中当前正在批阅的答案与批阅数据库中已批阅的所有答案之间的相似度计算如下:计算当前正在批阅的答案a与答案相似度推荐表中已批阅的所有答案之间的相似度,找到相似度最大的两条答案a1、a2且满足Min(sim(a,a1),sim(a,a2))>θ;其中,Min为取两个计算结果中较小的那一条答案,θ为相似度的阈值,必须大于这个值时,才能作为批阅时相似的参照答案进行推荐,sim()计算两条文本相似度使用的算法为Word Move Distance算法,该算法利用欧氏距离分别计算两个文本中的各个词的词向量表示之间最大相似度的值,然后累加求和,得到两条文本之间的相似度。
5.根据权利要求2所述的主观题批阅方法,其特征在于:所述步骤(1)中,停用词表是学科专家依据实际批阅中对批阅结果影响较小的词汇组成的一种词表。
6.根据权利要求2所述的主观题批阅方法,其特征在于:所述步骤(1)中,使用大规模生语料训练词向量,并使用答案文本中出现的词对训练的词向量进行微调;所述生语料是指未经任何处理的文本数据。
7.根据权利要求2所述的主观题批阅方法,其特征在于:所述步骤(2)中,在答案批阅之前使用短文本聚类算法对答案进行预先判断所属的聚类簇,通过指定不同的聚类簇的个数可以计算出不同的平均轮廓系数,通过比较每次不同聚类个数之间的平均轮廓系数判断短文本聚类效果的优劣。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810499529.0A CN108763411B (zh) | 2018-05-23 | 2018-05-23 | 一种结合短文本聚类和推荐机制的主观题批阅系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810499529.0A CN108763411B (zh) | 2018-05-23 | 2018-05-23 | 一种结合短文本聚类和推荐机制的主观题批阅系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108763411A true CN108763411A (zh) | 2018-11-06 |
CN108763411B CN108763411B (zh) | 2022-03-11 |
Family
ID=64004993
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810499529.0A Active CN108763411B (zh) | 2018-05-23 | 2018-05-23 | 一种结合短文本聚类和推荐机制的主观题批阅系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108763411B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263651A (zh) * | 2019-05-23 | 2019-09-20 | 五邑大学 | 一种辅助在线批阅试题的方法、装置和存储介质 |
CN110348133A (zh) * | 2019-07-15 | 2019-10-18 | 西南交通大学 | 一种高速列车三维产品结构技术功效图构建系统及方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014048479A1 (en) * | 2012-09-27 | 2014-04-03 | Qatar Foundation | A system and method for the automatic creation or augmentation of an electronically rendered publication document |
CN107967318A (zh) * | 2017-11-23 | 2018-04-27 | 北京师范大学 | 一种采用lstm神经网络的中文短文本主观题自动评分方法和系统 |
-
2018
- 2018-05-23 CN CN201810499529.0A patent/CN108763411B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014048479A1 (en) * | 2012-09-27 | 2014-04-03 | Qatar Foundation | A system and method for the automatic creation or augmentation of an electronically rendered publication document |
CN107967318A (zh) * | 2017-11-23 | 2018-04-27 | 北京师范大学 | 一种采用lstm神经网络的中文短文本主观题自动评分方法和系统 |
Non-Patent Citations (1)
Title |
---|
张均胜等: "一种基于短文本相似度计算的主观题自动阅卷方法", 《图书情报工作》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263651A (zh) * | 2019-05-23 | 2019-09-20 | 五邑大学 | 一种辅助在线批阅试题的方法、装置和存储介质 |
CN110348133A (zh) * | 2019-07-15 | 2019-10-18 | 西南交通大学 | 一种高速列车三维产品结构技术功效图构建系统及方法 |
CN110348133B (zh) * | 2019-07-15 | 2022-08-19 | 西南交通大学 | 一种高速列车三维产品结构技术功效图构建系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108763411B (zh) | 2022-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109598995B (zh) | 基于贝叶斯知识跟踪模型的智能教学系统 | |
CN106709754A (zh) | 一种用基于文本挖掘的电力用户分群方法 | |
CN110851723B (zh) | 一种基于大规模知识点标注结果的英语习题推荐方法 | |
CN106227722B (zh) | 一种基于上市公司公告摘要的自动提取方法 | |
CN109960800A (zh) | 基于主动学习的弱监督文本分类方法及装置 | |
CN107038480A (zh) | 一种基于卷积神经网络的文本情感分类方法 | |
CN107330627B (zh) | 一种创新创意的大数据处理方法、服务器及系统 | |
CN106649760A (zh) | 基于深度问答的提问型搜索词搜索方法及装置 | |
CN110188351A (zh) | 语句通顺度及句法评分模型的训练方法及装置 | |
CN110287481A (zh) | 命名实体语料标注训练系统 | |
CN106815194A (zh) | 模型训练方法及装置和关键词识别方法及装置 | |
CN106611052A (zh) | 文本标签的确定方法及装置 | |
CN103646088A (zh) | 基于CRFs和SVM的产品评论细粒度情感要素提取 | |
CN102043774A (zh) | 机器翻译测评装置和方法 | |
CN112597316B (zh) | 一种可解释性推理问答方法及装置 | |
CN107329995A (zh) | 一种语义受控的答案生成方法、装置及系统 | |
CN106960001A (zh) | 一种检索词的实体链接方法及系统 | |
CN110288013A (zh) | 一种基于block分割和多重输入孪生卷积神经网络的缺陷标签识别方法 | |
CN115795018B (zh) | 一种面向电网领域的多策略智能搜索问答方法及系统 | |
CN108763411A (zh) | 一种结合短文本聚类和推荐机制的主观题批阅系统及方法 | |
CN113742469A (zh) | 基于Pipeline处理和ES储存问答系统构建方法 | |
CN113360647A (zh) | 一种基于聚类的5g移动业务投诉溯源分析方法 | |
CN110990711A (zh) | 基于机器学习的微信公众号推荐算法及系统 | |
CN109947923A (zh) | 一种基于词向量的初等数学题型自动提取方法及系统 | |
EP4040404A3 (en) | Method and apparatus of generating font database, and method and apparatus of training neural network model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |