CN106897384B - 一种要点题自动评价方法及装置 - Google Patents
一种要点题自动评价方法及装置 Download PDFInfo
- Publication number
- CN106897384B CN106897384B CN201710050484.4A CN201710050484A CN106897384B CN 106897384 B CN106897384 B CN 106897384B CN 201710050484 A CN201710050484 A CN 201710050484A CN 106897384 B CN106897384 B CN 106897384B
- Authority
- CN
- China
- Prior art keywords
- answer
- clustering
- point
- data
- answer data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000011156 evaluation Methods 0.000 claims abstract description 41
- 238000013210 evaluation model Methods 0.000 claims abstract description 23
- 238000013139 quantization Methods 0.000 claims abstract description 11
- 230000011218 segmentation Effects 0.000 claims description 85
- 239000013598 vector Substances 0.000 claims description 36
- 238000001914 filtration Methods 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 7
- 238000002360 preparation method Methods 0.000 claims description 5
- 230000001960 triggered effect Effects 0.000 claims description 2
- 230000007547 defect Effects 0.000 abstract description 2
- 230000004044 response Effects 0.000 description 21
- 238000010586 diagram Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 5
- 238000000638 solvent extraction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- Educational Technology (AREA)
- Educational Administration (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- General Health & Medical Sciences (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例提供了一种要点题自动评价方法及装置,其中方法包括:获取待评价的答题数据;将所述答题数据向量化;对向量化后的所述答题数据进行聚类,将聚类结果作为初步答题要点;根据所述初步答题要点把所述答题数据分割为一个个分析单元,其中每个所述分析单元最多只涉及单个所述初步答题要点;对分割为一个个分析单元的所述答题数据重新进行聚类,将新的聚类结果作为精确答题要点;将所述精确答题要点输入预先构建的评价模型,以得到所述答题数据的评价结果。本发明实施例中提出了一种基于语义的要点题自动评价方法,无需人工根据经验去扩展答案,克服了现有技术中所存在的主观性、准确性方面的不足。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种要点题自动评价方法及装置。
背景技术
当前在教育领域中,无论基础教育还是成人教育,无论学校教学还是在线教学,学生学习状况的主要考察形式仍然是各种类型的考试。由于考试繁多,教师通常背负着很大的批改试卷的压力,且效率很低,同时在为大量试卷评分时,教师也容易受到疲劳、个人偏好等主观因素的干扰,从而影响试卷评分时的准确性和客观性。
近年来,随着信息技术的飞速发展,在传统的教育领域也逐渐开展新一代的教育信息化升级探索,如何利用计算机辅助完成对试卷等内容的评价、减少人工评阅工作量、提升评分的准确性和客观性,对教学过程意义重大。在各种题型中,要点题是一类较难评分的题型。要点题是指答案包含较为明确的答题要点的题型,例如简答题、辨析题等,其中要点可以是关键词、关键语句等,如果考生的答案涵盖了正确的要点,则可以获得相应的得分。
为了实现自动评阅要点题,在现有技术中,一种方案是先人工辅助制作参考答案,参考答案中除了包括标准答案外,还包括基于标准答案扩展得到的其他合理答案,然后将试卷中考生的作答内容与参考答案进行匹配,最终获得评分结果。然而发明人在实现本发明的过程中发现,这种方式由于需要人工根据经验对标准答案进行扩展,容易受到人员素质、个人偏好等的影响,而且人工扩展标准答案这种方法的覆盖范围有限,很难枚举所有合理答案,容易造成评分错误。
发明内容
本发明提供一种要点题自动评价方法及装置,以提高自动评阅要点题时的准确性和客观性。
根据本发明实施例的第一方面,提供一种要点题自动评价方法,所述方法包括:
获取待评价的答题数据;
将所述答题数据向量化;
对向量化后的所述答题数据进行聚类,将聚类结果作为初步答题要点;
根据所述初步答题要点把所述答题数据分割为一个个分析单元,其中每个所述分析单元最多只涉及单个所述初步答题要点;
对分割为一个个分析单元的所述答题数据重新进行聚类,将新的聚类结果作为精确答题要点;
将所述精确答题要点输入预先构建的评价模型,以得到所述答题数据的评价结果。
可选的,将所述答题数据向量化,包括:
对所述答题数据分词,并获取每个词的词向量;
根据所述词向量获取所述答题数据中每个基本单元对应的向量,以完成所述答题数据的向量化。
可选的,对向量化后的所述答题数据进行聚类,包括:
获取预定义的聚类数目;
根据所述聚类数目对向量化后的所述答题数据进行第一次聚类;
对所述第一次聚类后得到的类别中心进行第二次聚类,以得到聚类结果。
可选的,所述第一次聚类之后,所述第二次聚类之前,所述方法还包括:
获取答题要点过滤表;
根据所述答题要点过滤表对所述第一次聚类后得到的类别中心进行过滤。
可选的,根据所述初步答题要点把所述答题数据分割为一个个分析单元,包括:
对于所述答题数据中的每个基本单元,进行如下处理:
将当前基本单元中每个分词点作为潜在分割点,计算每个潜在分割点左右两侧的内容分别与每个初步答题要点的相似度;
将值最大的相似度所对应的潜在分割点作为预备分割点;
若所述预备分割点位于当前基本单元的开头或结尾,则确定无法分割;
若所述预备分割点位于当前基本单元内部,则将所述预备分割点作为真正分割点将当前基本单元分割为左右两部分,并将左右两部分各作为一个新的基本单元继续进行分割,直至无法分割;
将无法分割的每个基本单元作为一个分析单元。
可选的,将新的聚类结果作为精确答题要点之后,将所述精确答题要点输入预先构建的评价模型之前,所述方法还包括:
循环执行以下过程一次或多次:
将所述精确答题要点重新作为初步答题要点,重新根据所述初步答题要点把所述答题数据分割为一个个分析单元,以及对分割为一个个分析单元的所述答题数据重新进行聚类以重新得到精确答题要点。
可选的,获取待评价的答题数据之前,所述方法还包括:
获取定标数据,其中所述定标数据是通过上述步骤得到精确答题要点及人工给出评价结果的答题数据;
使用所述定标数据训练得到所述评价模型。
根据本发明实施例的第二方面,提供一种要点题自动评价装置,所述装置包括:
数据获取模块,用于获取待评价的答题数据;
向量化模块,用于将所述答题数据向量化;
第一聚类模块,用于对向量化后的所述答题数据进行聚类,将聚类结果作为初步答题要点;
数据分割模块,用于根据所述初步答题要点把所述答题数据分割为一个个分析单元,其中每个所述分析单元最多只涉及单个所述初步答题要点;
第二聚类模块,用于对分割为一个个分析单元的所述答题数据重新进行聚类,将新的聚类结果作为精确答题要点;
评价模块,用于将所述精确答题要点输入预先构建的评价模型,以得到所述答题数据的评价结果。
可选的,所述向量化模块包括:
分词子模块,用于对所述答题数据分词,并获取每个词的词向量;
向量获取子模块,用于根据所述词向量获取所述答题数据中每个基本单元对应的向量,以完成所述答题数据的向量化。
可选的,所述第一聚类模块包括:
聚类数目获取子模块,用于获取预定义的聚类数目;
一次聚类子模块,用于根据所述聚类数目对向量化后的所述答题数据进行第一次聚类;
二次聚类子模块,用于对所述第一次聚类后得到的类别中心进行第二次聚类,以得到聚类结果。
可选的,所述第一聚类模块还包括:
过滤子模块,用于获取答题要点过滤表;根据所述答题要点过滤表对所述第一次聚类后得到的类别中心进行过滤。
可选的,所述数据分割模块用于:
对于所述答题数据中的每个基本单元,进行如下处理:
将当前基本单元中每个分词点作为潜在分割点,计算每个潜在分割点左右两侧的内容分别与每个初步答题要点的相似度;
将值最大的相似度所对应的潜在分割点作为预备分割点;
若所述预备分割点位于当前基本单元的开头或结尾,则确定无法分割;
若所述预备分割点位于当前基本单元内部,则将所述预备分割点作为真正分割点将当前基本单元分割为左右两部分,并将左右两部分各作为一个新的基本单元继续进行分割,直至无法分割;
将无法分割的每个基本单元作为一个分析单元。
可选的,所述装置还包括:
循环控制模块,用于在触发评价模块之前,循环执行以下过程一次或多次:
将所述精确答题要点重新作为初步答题要点,重新依次触发所述数据分割模块及所述第二聚类模块。
可选的,所述装置还包括:
训练模块,用于获取定标数据,其中所述定标数据是通过上述步骤得到精确答题要点及人工给出评价结果的答题数据;使用所述定标数据训练得到所述评价模型。
本发明实施例提供的技术方案可以包括以下有益效果:
在本发明实施例中提出了一种基于语义的要点题自动评价方法,先对向量化后的答题数据进行聚类,将聚类结果作为初步答题要点,然后根据所述初步答题要点把答题数据分割为一个个更小的单元即分析单元,再重新进行聚类得到精确答题要点,最后将精确答题要点输入预先构建的评价模型,从而得到答题数据的评价结果,这样便无需人工根据经验去扩展答案,克服了现有技术中所存在的主观性、准确性方面的不足。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。此外,这些介绍并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是根据本发明一示例性实施例示出的一种要点题自动评价方法的流程图;
图2是根据本发明一示例性实施例示出的一种要点题自动评价方法的流程图;
图3是根据本发明一示例性实施例示出的一种要点题自动评价方法的流程图;
图4是根据本发明一示例性实施例示出的一种要点题自动评价方法的流程图;
图5是根据本发明一示例性实施例示出的一种要点题自动评价方法的流程图;
图6是根据本发明一示例性实施例示出的基本单元分割示意图;
图7是根据本发明一示例性实施例示出的基本单元分割示意图;
图8是根据本发明一示例性实施例示出的一种要点题自动评价装置的示意图;
图9是根据本发明一示例性实施例示出的一种要点题自动评价装置的示意图;
图10是根据本发明一示例性实施例示出的一种要点题自动评价装置的示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据本发明一示例性实施例示出的一种要点题自动评价方法的流程图。作为示例该方法可用于手机、平板电脑、台式机电脑、笔记本电脑、服务器等设备。
参见图1所示,该方法可以包括如下步骤:
步骤S101,获取待评价的答题数据。
例如答题数据可以是学生在考卷上作答的答题内容,如果是在线考试,则可以直接获取到答题数据,如果是非在线考试,则可以在自动阅卷系统中通过OCR等技术将纸质文本答案转换为答题数据。
步骤S102,将所述答题数据向量化。
对于具体如何将答题数据进行向量化,本实施例并不进行限制,本领域技术人员可以根据不同需求\不同场景而自行选择、设计,可以在此处使用的这些选择和设计都没有背离本发明的精神和保护范围。
作为示例,参见图2所示,将所述答题数据向量化,可以包括如下步骤:
步骤S1021,对所述答题数据分词,并获取每个词的词向量。
例如,可以基于预先训练的WordEmbedding模型得到答题数据的词向量。所述预先训练的WordEmbedding模型可以是基于大量自然语料训练的通用WordEmbedding模型,优选的也可以是基于部分答题数据Tuning(调整\优化)后的主题相关的WordEmbedding模型。具体训练时可以使用现有训练方法,如可以采用Google的word2vec方案,此处不再赘述。
进一步的,如果待评价的答题数据是由OCR得到,为了规避因OCR错误对答题结果评价的影响,分词时可以直接按单字进行分词。
步骤S1022,根据所述词向量获取所述答题数据中每个基本单元对应的向量,以完成所述答题数据的向量化。
作为示例,基本单元可以是句子。基本单元对应的向量可以由上下文相关词的词向量得到,例如可以将每个基本单元中所有词的词向量的均值作为每个基本单元对应的向量。另外,也可以使用神经网络进行处理,即输入为每个基本单元所有词的词向量,输出为该基本单元对应的向量,对于该神经网络的具体设计本领域普通技术人员可以根据实际应用场景自行确定,此处不再赘述。
步骤S103,对向量化后的所述答题数据进行聚类,将聚类结果作为初步答题要点。
答题数据被向量化后就可以进行聚类了,作为示例聚类方法可以使用k-means等聚类方法,对此本实施例并不进行限制。每个初步答题要点以向量的形式表示。
步骤S104,根据所述初步答题要点把所述答题数据分割为一个个分析单元,其中每个所述分析单元最多只涉及单个所述初步答题要点。
本步骤即根据得到的初步答题要点将答题数据按照内容进行分割,其目的在于将答题数据中可能包含多个要点的基本单元进行拆分,拆成更小的更基本的单元(即分析单元,例如词、词组、短语或短句等),使得每个分析单元最多只涉及单个所述初步答题要点。
步骤S105,对分割为一个个分析单元的所述答题数据重新进行聚类,将新的聚类结果作为精确答题要点。
本步骤中聚类的具体方法可以与步骤S102~S103相同,即先对答题数据进行向量化然后再进行聚类,只不过向量化时要得到的不再是基本单元对应的向量,而是分析单元对应的向量。
步骤S106,将所述精确答题要点输入预先构建的评价模型,以得到所述答题数据的评价结果。
精确答题要点也是以向量形式表示的。可将该答题数据的精确答题要点作为输入,输入到预先训练好的评价模型,从而得到评价结果。
作为示例,评价模型可以是分类模型(如输出为“很好、好、一般、差、很差”等评价),也可以是回归模型(如输出为答题数据的评价分数等)。
对于评价模型如何预先构建本实施例也并不进行限制,作为示例可参见图3所示,可以包括如下步骤:
步骤S301,获取定标数据,其中所述定标数据是通过上述步骤得到精确答题要点及人工给出评价结果的答题数据。
步骤S302,使用所述定标数据训练得到所述评价模型。
例如可以预先采集多份答题数据,然后通过上述方法得到每份的精确答题要点,并人工给出每份答题数据的评价结果(如评分),以此作为训练样本对评价模型进行训练,从而确定模型参数。
参见图4所示,在本实施例或本发明其他某些实施例中,步骤S103,即对向量化后的所述答题数据进行聚类,具体可以包括:
步骤S401,获取预定义的聚类数目。
步骤S402,根据所述聚类数目对向量化后的所述答题数据进行第一次聚类。
步骤S403,对所述第一次聚类后得到的类别中心进行第二次聚类,以得到聚类结果。
也就是说,步骤S103的聚类过程可以包含两次聚类,第一次聚类的目标在于尽可能的获得每个要点的所有表达方式,因此一般预先定义的聚类数目较多,然后再在第一次聚类结果的基础上进行第二次聚类,即对第一次聚类后的类别中心进行聚类,通过第二次聚类将同义表达尽可能聚在一起。
可选的,所述第一次聚类之后,所述第二次聚类之前,所述方法还可以包括:
获取答题要点过滤表;
根据所述答题要点过滤表对所述第一次聚类后得到的类别中心进行过滤。
通过过滤可以将非答题要点过滤掉,从而提高第二次聚类的效果。对于如何果获取答题要点过滤表本实施例也并不进行限制,例如可以通过人工编纂得到,也可以通过下面的方式得到:
可以使用定标数据进行第一次聚类,得到第一次聚类的结果,然后将第一次聚类的结果作为输入、定标数据的评分作为输出,训练得到一个过滤模型(例如可以是回归模型),考察该模型内部权重,将权重为负或权重轻的权重对应的第一次聚类的类别中心作为需要滤除的非答题要点,加入到答题要点过滤表中。
参见图5所示,在本实施例或本发明其他某些实施例中,步骤S104,即根据所述初步答题要点把所述答题数据分割为一个个分析单元,可以包括:
对于所述答题数据中的每个基本单元,进行如下处理:
步骤S501,将当前基本单元中每个分词点作为潜在分割点,计算每个潜在分割点左右两侧的内容分别与每个初步答题要点的相似度。
步骤S502,将值最大的相似度所对应的潜在分割点作为预备分割点。
步骤S503,若所述预备分割点位于当前基本单元的开头或结尾,则确定无法分割。
步骤S504,若所述预备分割点位于当前基本单元内部,则将所述预备分割点作为真正分割点将当前基本单元分割为左右两部分,并将左右两部分各作为一个新的基本单元继续进行分割,直至无法分割。
步骤S505,将无法分割的每个基本单元作为一个分析单元。
作为示例可参见图6~图7所示。在图6中一个基本单元(即一句话)有0~5共六个分词点,以分词点4为例,“4左”表示分词点4左边的内容,“4右”表示分词点4右边的内容,分词点0和分词点5分别位于开头和结尾,也即“0右”=“5左”=整句话。在分割时,分别计算“0右”、“1左”、“1右”...“5左”与每个初步答题要点的相似度,然后选出一个最大的相似度,这里假设其对应分词点4,那么分词点4便可作为一个真正的分割点,将该句分割为“4左”和“4右”两部分,然后再分别继续考察“4左”和“4右”是否可以继续分割。
以图6中的“4左”为例,其进一步可参见图7所示,在图7中的“0右”、“1左”、“1右”、“2左”等中,如果图7中的“0右”的相似度最大,则代表图7中的这句话(也即图6中的“4左”)已经是最小单元了,已经无法再分割。
此外,为了更好的得到精确答题要点,可以在将精确答题要点输入预先构建的评价模型之前,令上述S104~S105的步骤反复执行,也即:
循环执行以下过程一次或多次:
将所述精确答题要点重新作为初步答题要点,重新根据所述初步答题要点把所述答题数据分割为一个个分析单元,以及对分割为一个个分析单元的所述答题数据重新进行聚类以重新得到精确答题要点。
在本实施例中提出了一种基于语义的要点题自动评价方法,先对向量化后的答题数据进行聚类,将聚类结果作为初步答题要点,然后根据所述初步答题要点把答题数据分割为一个个更小的单元即分析单元,再重新进行聚类得到精确答题要点,最后将精确答题要点输入预先构建的评价模型,从而得到答题数据的评价结果,这样便无需人工根据经验去扩展答案,克服了现有技术中所存在的主观性、准确性方面的不足。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
图8是根据本发明一示例性实施例示出的一种要点题自动评价装置的示意图。
参见图8所示,该装置可以包括:
数据获取模块801,用于获取待评价的答题数据;
向量化模块802,用于将所述答题数据向量化;
第一聚类模块803,用于对向量化后的所述答题数据进行聚类,将聚类结果作为初步答题要点;
数据分割模块804,用于根据所述初步答题要点把所述答题数据分割为一个个分析单元,其中每个所述分析单元最多只涉及单个所述初步答题要点;
第二聚类模块805,用于对分割为一个个分析单元的所述答题数据重新进行聚类,将新的聚类结果作为精确答题要点;
评价模块806,用于将所述精确答题要点输入预先构建的评价模型,以得到所述答题数据的评价结果。
在本实施例或本发明其他某些实施例中,所述向量化模块具体可以包括:
分词子模块,用于对所述答题数据分词,并获取每个词的词向量;
向量获取子模块,用于根据所述词向量获取所述答题数据中每个基本单元对应的向量,以完成所述答题数据的向量化。
在本实施例或本发明其他某些实施例中,所述向量获取子模块具体可以用于:
将每个基本单元中所有词的词向量的均值作为每个基本单元对应的向量。
在本实施例或本发明其他某些实施例中,所述第一聚类模块具体可以包括:
聚类数目获取子模块,用于获取预定义的聚类数目;
一次聚类子模块,用于根据所述聚类数目对向量化后的所述答题数据进行第一次聚类;
二次聚类子模块,用于对所述第一次聚类后得到的类别中心进行第二次聚类,以得到聚类结果。
在本实施例或本发明其他某些实施例中,所述第一聚类模块还可以包括:
过滤子模块,用于获取答题要点过滤表;根据所述答题要点过滤表对所述第一次聚类后得到的类别中心进行过滤。
在本实施例或本发明其他某些实施例中,所述数据分割模块具体可以用于:
对于所述答题数据中的每个基本单元,进行如下处理:
将当前基本单元中每个分词点作为潜在分割点,计算每个潜在分割点左右两侧的内容分别与每个初步答题要点的相似度;
将值最大的相似度所对应的潜在分割点作为预备分割点;
若所述预备分割点位于当前基本单元的开头或结尾,则确定无法分割;
若所述预备分割点位于当前基本单元内部,则将所述预备分割点作为真正分割点将当前基本单元分割为左右两部分,并将左右两部分各作为一个新的基本单元继续进行分割,直至无法分割;
将无法分割的每个基本单元作为一个分析单元。
参见图9所示,在本实施例或本发明其他某些实施例中,所述装置还可以包括:
循环控制模块901,用于在触发评价模块之前,循环执行以下过程一次或多次:
将所述精确答题要点重新作为初步答题要点,重新依次触发所述数据分割模块及所述第二聚类模块。
参见图10所示,在本实施例或本发明其他某些实施例中,所述装置还可以包括:
训练模块1001,用于获取定标数据,其中所述定标数据是通过上述步骤得到精确答题要点及人工给出评价结果的答题数据;使用所述定标数据训练得到所述评价模型。
在本实施例中提出了一种基于语义的要点题自动评价方法,先对向量化后的答题数据进行聚类,将聚类结果作为初步答题要点,然后根据所述初步答题要点把答题数据分割为一个个更小的单元即分析单元,再重新进行聚类得到精确答题要点,最后将精确答题要点输入预先构建的评价模型,从而得到答题数据的评价结果,这样便无需人工根据经验去扩展答案,克服了现有技术中所存在的主观性、准确性方面的不足。
关于上述实施例中的装置,其中各个单元\模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由所附的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (12)
1.一种要点题自动评价方法,其特征在于,所述方法包括:
获取待评价的答题数据;
将所述答题数据向量化;
对向量化后的所述答题数据进行聚类,将聚类结果作为初步答题要点;
根据所述初步答题要点把所述答题数据分割为一个个分析单元,其中每个所述分析单元最多只涉及单个所述初步答题要点;
对分割为一个个分析单元的所述答题数据重新进行聚类,将新的聚类结果作为精确答题要点;
将所述精确答题要点输入预先构建的评价模型,以得到所述答题数据的评价结果;
其中,根据所述初步答题要点把所述答题数据分割为一个个分析单元,包括:
对于所述答题数据中的每个基本单元,进行如下处理:
将当前基本单元中每个分词点作为潜在分割点,计算每个潜在分割点左右两侧的内容分别与每个初步答题要点的相似度;
将值最大的相似度所对应的潜在分割点作为预备分割点;
若所述预备分割点位于当前基本单元的开头或结尾,则确定无法分割;
若所述预备分割点位于当前基本单元内部,则将所述预备分割点作为真正分割点将当前基本单元分割为左右两部分,并将左右两部分各作为一个新的基本单元继续进行分割,直至无法分割;
将无法分割的每个基本单元作为一个分析单元。
2.根据权利要求1所述的方法,其特征在于,将所述答题数据向量化,包括:
对所述答题数据分词,并获取每个词的词向量;
根据所述词向量获取所述答题数据中每个基本单元对应的向量,以完成所述答题数据的向量化。
3.根据权利要求1所述的方法,其特征在于,对向量化后的所述答题数据进行聚类,包括:
获取预定义的聚类数目;
根据所述聚类数目对向量化后的所述答题数据进行第一次聚类;
对所述第一次聚类后得到的类别中心进行第二次聚类,以得到聚类结果。
4.根据权利要求3所述的方法,其特征在于,所述第一次聚类之后,所述第二次聚类之前,所述方法还包括:
获取答题要点过滤表;
根据所述答题要点过滤表对所述第一次聚类后得到的类别中心进行过滤。
5.根据权利要求1所述的方法,其特征在于,将新的聚类结果作为精确答题要点之后,将所述精确答题要点输入预先构建的评价模型之前,所述方法还包括:
循环执行以下过程一次或多次:
将所述精确答题要点重新作为初步答题要点,重新根据所述初步答题要点把所述答题数据分割为一个个分析单元,以及对分割为一个个分析单元的所述答题数据重新进行聚类以重新得到精确答题要点。
6.根据权利要求1所述的方法,其特征在于,获取待评价的答题数据之前,所述方法还包括:
获取定标数据,其中所述定标数据是通过上述步骤得到精确答题要点及人工给出评价结果的答题数据;
使用所述定标数据训练得到所述评价模型。
7.一种要点题自动评价装置,其特征在于,所述装置包括:
数据获取模块,用于获取待评价的答题数据;
向量化模块,用于将所述答题数据向量化;
第一聚类模块,用于对向量化后的所述答题数据进行聚类,将聚类结果作为初步答题要点;
数据分割模块,用于根据所述初步答题要点把所述答题数据分割为一个个分析单元,其中每个所述分析单元最多只涉及单个所述初步答题要点;
第二聚类模块,用于对分割为一个个分析单元的所述答题数据重新进行聚类,将新的聚类结果作为精确答题要点;
评价模块,用于将所述精确答题要点输入预先构建的评价模型,以得到所述答题数据的评价结果;
其中,所述数据分割模块用于:
对于所述答题数据中的每个基本单元,进行如下处理:
将当前基本单元中每个分词点作为潜在分割点,计算每个潜在分割点左右两侧的内容分别与每个初步答题要点的相似度;
将值最大的相似度所对应的潜在分割点作为预备分割点;
若所述预备分割点位于当前基本单元的开头或结尾,则确定无法分割;
若所述预备分割点位于当前基本单元内部,则将所述预备分割点作为真正分割点将当前基本单元分割为左右两部分,并将左右两部分各作为一个新的基本单元继续进行分割,直至无法分割;
将无法分割的每个基本单元作为一个分析单元。
8.根据权利要求7所述的装置,其特征在于,所述向量化模块包括:
分词子模块,用于对所述答题数据分词,并获取每个词的词向量;
向量获取子模块,用于根据所述词向量获取所述答题数据中每个基本单元对应的向量,以完成所述答题数据的向量化。
9.根据权利要求7所述的装置,其特征在于,所述第一聚类模块包括:
聚类数目获取子模块,用于获取预定义的聚类数目;
一次聚类子模块,用于根据所述聚类数目对向量化后的所述答题数据进行第一次聚类;
二次聚类子模块,用于对所述第一次聚类后得到的类别中心进行第二次聚类,以得到聚类结果。
10.根据权利要求9所述的装置,其特征在于,所述第一聚类模块还包括:
过滤子模块,用于获取答题要点过滤表;根据所述答题要点过滤表对所述第一次聚类后得到的类别中心进行过滤。
11.根据权利要求7所述的装置,其特征在于,所述装置还包括:
循环控制模块,用于在触发评价模块之前,循环执行以下过程一次或多次:
将所述精确答题要点重新作为初步答题要点,重新依次触发所述数据分割模块及所述第二聚类模块。
12.根据权利要求7所述的装置,其特征在于,所述装置还包括:
训练模块,用于获取定标数据,其中所述定标数据是通过上述步骤得到精确答题要点及人工给出评价结果的答题数据;使用所述定标数据训练得到所述评价模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710050484.4A CN106897384B (zh) | 2017-01-23 | 2017-01-23 | 一种要点题自动评价方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710050484.4A CN106897384B (zh) | 2017-01-23 | 2017-01-23 | 一种要点题自动评价方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106897384A CN106897384A (zh) | 2017-06-27 |
CN106897384B true CN106897384B (zh) | 2020-09-11 |
Family
ID=59198746
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710050484.4A Active CN106897384B (zh) | 2017-01-23 | 2017-01-23 | 一种要点题自动评价方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106897384B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107992482B (zh) * | 2017-12-26 | 2021-12-07 | 科大讯飞股份有限公司 | 数学主观题解答步骤的规约方法及系统 |
CN108763246B (zh) * | 2018-03-29 | 2022-04-22 | 科大讯飞股份有限公司 | 人员分组方法及装置、存储介质、电子设备 |
CN109829155B (zh) * | 2019-01-18 | 2024-03-22 | 平安科技(深圳)有限公司 | 关键词的确定方法、自动评分方法、装置、设备及介质 |
CN110309201A (zh) * | 2019-06-28 | 2019-10-08 | 广州云蝶科技有限公司 | 作业定制方法及系统 |
CN111008594B (zh) * | 2019-12-04 | 2024-04-19 | 科大讯飞股份有限公司 | 改错题评阅方法、相关设备及可读存储介质 |
CN111881694A (zh) * | 2020-08-05 | 2020-11-03 | 科大讯飞股份有限公司 | 篇章要点检测方法、装置、设备及存储介质 |
CN112434688A (zh) * | 2020-12-01 | 2021-03-02 | 北京爱论答科技有限公司 | 一种试题评价模型的训练方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7680657B2 (en) * | 2006-08-15 | 2010-03-16 | Microsoft Corporation | Auto segmentation based partitioning and clustering approach to robust endpointing |
CN103065626B (zh) * | 2012-12-20 | 2015-03-11 | 中国科学院声学研究所 | 英语口语考试系统中的朗读题自动评分方法和设备 |
US20150317907A1 (en) * | 2014-04-30 | 2015-11-05 | Way On Ho | Computer-aided integrated examination and assignment system and method |
CN105677779B (zh) * | 2015-12-30 | 2018-10-30 | 山东大学 | 一种基于评分机制的反馈型问题类型分类器系统及其工作方法 |
CN105787639A (zh) * | 2016-02-03 | 2016-07-20 | 北京云太科技有限公司 | 基于人工智能的人才大数据量化精确匹配方法和装置 |
-
2017
- 2017-01-23 CN CN201710050484.4A patent/CN106897384B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN106897384A (zh) | 2017-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106897384B (zh) | 一种要点题自动评价方法及装置 | |
CN106503055B (zh) | 一种从结构化文本到图像描述的生成方法 | |
US9218339B2 (en) | Computer-implemented systems and methods for content scoring of spoken responses | |
CN108319581B (zh) | 一种自然语言语句评价方法及装置 | |
JP6556090B2 (ja) | 複数の類似度算出によってテキストの点数を推定するプログラム、装置及び方法 | |
CN108121702B (zh) | 数学主观题评阅方法及系统 | |
US10388177B2 (en) | Cluster analysis of participant responses for test generation or teaching | |
CN104731777A (zh) | 一种译文评价方法及装置 | |
US20120141959A1 (en) | Crowd-sourcing the performance of tasks through online education | |
US9443193B2 (en) | Systems and methods for generating automated evaluation models | |
US10446044B2 (en) | Systems and methods for generating automated evaluation models | |
WO2022170985A1 (zh) | 选题方法、装置、计算机设备和存储介质 | |
KR20200119358A (ko) | 인공지능 기계학습 기반 자동채점을 이용한 토플 강의 추천 서비스 제공 시스템 | |
CN114254208A (zh) | 薄弱知识点的识别方法、学习路径的规划方法与装置 | |
Pramukantoro et al. | Comparative analysis of string similarity and corpus-based similarity for automatic essay scoring system on e-learning gamification | |
CN107544956A (zh) | 一种文本要点检测方法及系统 | |
CN112686025A (zh) | 一种基于自由文本的中文选择题干扰项生成方法 | |
US10424217B1 (en) | Systems and methods for ability-appropriate text generation | |
CN115438624A (zh) | 数学题目出题意图识别方法、系统、存储介质及设备 | |
CN108304451A (zh) | 多项选择题解答方法及装置 | |
CN114648981A (zh) | 一种基于英语口语考试的多维度评估系统 | |
CN110674871B (zh) | 面向翻译译文的自动评分方法及自动评分系统 | |
Li | An automated English translation judging system based on feature extraction algorithm | |
Zhang et al. | Difficulty-based SPOC video clustering using video-watching data | |
Adesiji et al. | Development of an automated descriptive text-based scoring system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |