CN115114417A - 中文填空题自动评分方法及装置 - Google Patents
中文填空题自动评分方法及装置 Download PDFInfo
- Publication number
- CN115114417A CN115114417A CN202210510533.9A CN202210510533A CN115114417A CN 115114417 A CN115114417 A CN 115114417A CN 202210510533 A CN202210510533 A CN 202210510533A CN 115114417 A CN115114417 A CN 115114417A
- Authority
- CN
- China
- Prior art keywords
- filling
- sentence
- word
- scoring
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013077 scoring method Methods 0.000 title claims description 29
- 239000013598 vector Substances 0.000 claims abstract description 87
- 238000000034 method Methods 0.000 claims abstract description 74
- 239000000945 filler Substances 0.000 claims abstract description 54
- 238000012549 training Methods 0.000 claims abstract description 37
- 238000012360 testing method Methods 0.000 claims description 22
- 230000014509 gene expression Effects 0.000 claims description 5
- 235000019580 granularity Nutrition 0.000 abstract description 16
- 238000004364 calculation method Methods 0.000 description 9
- 239000002609 medium Substances 0.000 description 9
- 230000008569 process Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000008878 coupling Effects 0.000 description 6
- 238000010168 coupling process Methods 0.000 description 6
- 238000005859 coupling reaction Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 238000012552 review Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000012120 mounting media Substances 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明实施例公开了一种中文填空题自动评分方法及装置;所述方法包括:获取填空项数据基于预设的分类规则对该填空项数据进行分类得到词语级填空项和句子级填空项;根据词语级填空项划分成学科术语和通用词;基于预设的学科术语评分规则对学科术语进行评分基于预设的通用词评分规则对通用词进行评分;通过p‑means模型对句子级填空项进行训练使用p‑means模型在预训练词向量基础上生成标准句子与句子级填空项的句子向量再使用余弦相似度计算句子向量间的相似度对相似度值大于阈值的句子级填空项记分;实现了中文填空题的自动化评分根据不同的填空题粒度采用不同的方法进行评分提高了准确率能够满足实际应用。
Description
技术领域
本发明实施例涉及评分自动化技术领域尤其涉及一种中文填空题自动评分 方法及装置。
背景技术
自动评分是实现在线考试自动化的关键环节。客观题型如单选题、多选题、 判断题的自动评分实现简单这类题型已基本实现了考试工作的网络化、自动化。 主观题型的自动评分难度较大目前研究主要集中在答案内容较长的试题上如简 答题、论述题等。填空题是一种常见的特殊题型兼有客观性和主观性的特点。 大多数在线考试系统将其看作客观题型采用“答案比对”的方式完成自动评分 容易将与标准答案含义相同或相近的答案排除在外。部分研究者将填空题看作 主观题型对自动评分方法进行了研究。现有技术中对填空题答案的多样性进行 了分析将考生答案与标准答案的匹配方法分为完全匹配与模糊匹配两种该方法 的评分准确性依赖出题者给出的答案质量;或者通过关键字包含特定字符来表 示评分规则考生答案中只要包含特定字符就认为是正确答案;或者对填空题特 点进行了总结和归纳提出试题编制规则与标准答案描述规则通过模糊匹配核心 词汇进行自动评分。尽管已有研究考虑到答案的多样性但评分策略仅采用字符 串模式匹配主要看字符重合度缺少语义层面的度量评分的准确率取决于标准答 案的覆盖度。由于填空题的答案形式、文本长度变化较大随着答案文本长度的 增加同义或近义的表述就越多使得在命题时难以列举出所有可能的答案。
发明内容
本发明实施例提供一种中文填空题自动评分方法及装置以解决现有中文填 空题评分系统正确率低无法满足实际应用的问题。
在第一方面本发明实施例提供了一种中文填空题自动评分方法所述方法包 括以下步骤:
获取填空项数据基于预设的分类规则对该填空项数据进行分类得到词语级 填空项和句子级填空项;
根据词语级填空项划分成学科术语和通用词;
基于预设的学科术语评分规则对学科术语进行评分基于预设的通用词评分 规则对通用词进行评分;
通过p-means模型对句子级填空项进行训练使用p-means模型在预训练词向 量基础上生成标准句子与句子级填空项的句子向量再使用余弦相似度计算句子 向量间的相似度对相似度值大于阈值的句子级填空项记分。
进一步的所述通过p-means模型对句子级填空项进行训练使用p-means模型 在预训练词向量基础上生成标准句子与句子级填空项的句子向量包括:
假设词向量有d维词向量为win个词向量构成W=[w1,…,wn]∈Rn×d用 Hp(W)表示对其进行p-means操作的结果p取k个不同的值:p1,...,pk将不同p 值的Hp(W)连接起来表达为:
si=Hpl(Wi)⊕...⊕Hpk(Wi)
⊕表示连接操作si表示在一个词嵌入空间中句子嵌入表示在多种词嵌入空 间分别进行p-means操作生成si将来自不同词嵌入空间的si连接起来得到最终的 句子向量表示:
进一步的所述使用余弦相似度计算句子向量间的相似度对相似度值大于阈 值的句子级填空项记分包括:
设考生答案文本为:T=”t1t2…ti-1titi+1…tn”,
获得考生答案句向量Qi与标准答案句向量Qj后通过余弦相似度计算两者的 相似度:
对相似度值大于预设阈值的句子级填空项记分。
进一步的所述基于预设的分类规则对该填空项数据进行分类得到词语级填 空项和句子级填空项包括:
判断填空项数据是否属于词语粒度若是则该填空项数据为词语级填空项若 否则该填空项数据属于句子粒度为句子级填空项。
进一步的所述根据词语级填空项划分成学科术语和通用词包括:
给定字符串S=“s1s2s3…sn-1sn”Sm=“Si…Sj”(1≤i≤j≤n)是S的子串定 义Sl=“Sk…Si-1”(1≤k≤i-1)为Sm的左邻串Sr=“Sj+1…Sk”(j+1≤k≤n)为Sm右 邻串;若学科术语最大长度为L填空项标准答案为Sm Sm的长度设为l则Sm的左 邻串与右邻串的最小长度为0最大长度为L-l;
根据词语级填空项以标准答案为查询关键字在学科术语词典中进行查找; 若查找成功考点为学科术语判别结束;
否则获取填空项在题干S中的位置记标准答案Sa的长度为La;
在试题描述中取得填空项的左邻串Sl及右邻串Sr;
计数指针i取值从1到L-La循环执行以下操作:从Sr中第一个字符开始向 右截取长度为i的子序列Ssuf连接在Sa后生成Sb在学科术语词典V中查找Sb若查 找成功考点为学科术语判别结束;
计数指针i取值从1到L-La循环执行以下操作:从Sl中最后一个字符开始 向左截取长度为i的子序列Spre连接在Sa前生成Sb在学科术语词典V中查找Sb若 查找成功考点为学科术语判别结束;
计数指针i取值从1到L-La-1循环执行:计数指针j取值从1到L-La-i循 环执行:从Sl中最后一个字符开始向左截取长度为i的子序列Spre从Sr中第一个 字符开始向右截取长度为j的子序列Ssuf连接(Spre+Sa+Ssuf)生成Sb在学科术语 词典V中查找Sb若查找成功考点为学科术语判别结束;
则考点是通用词判别结束。
进一步的所述基于预设的学科术语评分规则对学科术语进行评分基于预设 的通用词评分规则对通用词进行评分包括:
获取学科术语词典和通用词词典进行词语级填空项的自动评分;
若考生答案与标准答案完全一致记分评分结束;
判断填空项考点类别若是学科术语以标准答案为查询关键字在学科术语词 典中获取同义词群Sd;
若考生答案包含于Sd中记分否则不记分评分结束;
若是通用词以标准答案为查询关键字在同义词词典中获取同义词群Sk;
若考生答案包含于Sk中记分否则不记分评分结束。
进一步的所述基于预设的分类规则对该填空项数据进行分类之前还包括:
先判断考生答案与标准答案是否相等若相等则为正确答案进行加分。
在第二方面本发明实施例还提供一种中文填空题自动评分装置包括:
填空项获取模块用于获取填空项数据基于预设的分类规则对该填空项数据 进行分类得到词语级填空项和句子级填空项;
词语划分模块用于根据词语级填空项划分成学科术语和通用词;
词语评分模块用于基于预设的学科术语评分规则对学科术语进行评分基于 预设的通用词评分规则对通用词进行评分;
句子评分模块用于通过p-means模型对句子级填空项进行训练使用p-means 模型在预训练词向量基础上生成标准句子与句子级填空项的句子向量再使用余 弦相似度计算句子向量间的相似度对相似度值大于阈值的句子级填空项记分。
在第三方面本发明实施例还提供一种计算机设备包括:存储器以及一个或 多个处理器;
所述存储器用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行使得所述一个或多个 处理器实现如上述的一种中文填空题自动评分方法。
在第四方面本发明实施例还提供一种包含计算机可执行指令的存储介质所 述计算机可执行指令在由计算机处理器执行时用于执行如上述的一种中文填空 题自动评分方法。
本发明实施例通过获取填空项数据基于预设的分类规则对该填空项数据进 行分类得到词语级填空项和句子级填空项;根据词语级填空项划分成学科术语 和通用词;基于预设的学科术语评分规则对学科术语进行评分基于预设的通用 词评分规则对通用词进行评分;通过p-means模型对句子级填空项进行训练使用 p-means模型在预训练词向量基础上生成标准句子与句子级填空项的句子向量 再使用余弦相似度计算句子向量间的相似度对相似度值大于阈值的句子级填空 项记分;实现了中文填空题的自动化评分根据不同的填空题粒度采用不同的方 法进行评分提高了准确率能够满足实际应用。
附图说明
图1是本发明实施例提供的一种中文填空题自动评分方法的流程图;
图2是本发明实施例提供的一种中文填空题自动评分方法的自动平分框架 图;
图3是本发明实施例提供的一种中文填空题自动评分方法的三种自动评分 策略准确率对比图;
图4是本发明实施例提供的一种中文填空题自动评分方法的三种自动评分 策略召回率对比图;
图5是本发明实施例提供的一种中文填空题自动评分方法的预训练词向量 学科术语覆盖度图;
图6是本发明实施例提供的一种中文填空题自动评分装置的结构示意图;
图7是本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚下面结合附图对本发明具 体实施例作进一步的详细描述。可以理解的是此处所描述的具体实施例仅仅用 于解释本发明而非对本发明的限定。另外还需要说明的是为了便于描述附图中 仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例 之前应当提到的是一些示例性实施例被描述成作为流程图描绘的处理或方法。 虽然流程图将各项操作(或步骤)描述成顺序的处理但是其中的许多操作可以 被并行地、并发地或者同时实施。此外各项操作的顺序可以被重新安排。当其 操作完成时所述处理可以被终止但是还可以具有未包括在附图中的附加步骤。 所述处理可以对应于方法、函数、规程、子例程、子程序等等。
p-means是Concatenated Power Mean Embeddings的简写,是通过连接不同 的幂平均词嵌入以及进一步连接多个词嵌入空间中生成的幂平均嵌入从而得到 最终句子向量的方法。
目前对填空题答案的多样性进行了分析将考生答案与标准答案的匹配方法 分为完全匹配与模糊匹配两种该方法的评分准确性依赖出题者给出的答案质 量;或者通过关键字包含特定字符来表示评分规则考生答案中只要包含特定字 符就认为是正确答案;或者对填空题特点进行了总结和归纳提出试题编制规则 与标准答案描述规则通过模糊匹配核心词汇进行自动评分。尽管已有研究考虑 到答案的多样性但评分策略仅采用字符串模式匹配主要看字符重合度缺少语义 层面的度量评分的准确率取决于标准答案的覆盖度。由于填空题的答案形式、 文本长度变化较大随着答案文本长度的增加同义或近义的表述就越多使得在命 题时难以列举出所有可能的答案。
针对上述问题本发明实施例首先对填空项进行分类按照标准答案文本包含 的词语数将填空项分成词语级和句子级两类提出了结合词典匹配和语义相似度 计算的填空题自动评分框架及算法。对于词语级填空项使用了学科专用词典和 通用语义词典分别针对学科术语考点和通用词考点自动评分。对于句子级填空 项将文本语义相似度计算方法引入到自动评分过程中将考生答案与标准答案的 匹配过程看成一个语义相似度计算问题使用改进的p-means模型构造考生答案 文本与标准答案文本的向量表示再通过计算向量之间的语义距离来实现填空项 评分。
实施例中提供的中文填空题自动评分方法可以由中文填空题自动评分装置 执行该中文填空题自动评分装置可以通过软件和/或硬件的方式实现并集成在中 文填空题自动评分设备中。其中中文填空题自动评分设备可以是计算机等设备。
图1为本发明实施例提供的一种中文填空题自动评分方法的流程图。参考 图1所述方法包括以下步骤:
步骤110、获取填空项数据基于预设的分类规则对该填空项数据进行分类得 到词语级填空项和句子级填空项;
步骤120、根据词语级填空项划分成学科术语和通用词;
步骤130、基于预设的学科术语评分规则对学科术语进行评分基于预设的通 用词评分规则对通用词进行评分;
步骤140、通过p-means模型对句子级填空项进行训练使用p-means模型在 预训练词向量基础上生成标准句子与句子级填空项的句子向量再使用余弦相似 度计算句子向量间的相似度对相似度值大于阈值的句子级填空项记分。
示例性的填空题答案的数据表现形式多样有文字、数字、公式、图表等形 式。本发明实施例限定答案为中文文本答案粒度可以是一个词语、一个短语或 句子。以往的研究对答案粒度不作区分用同一评分策略进行处理影响了泛化能 力。本发明实施例采用分而治之的针对性策略并将处理不同粒度的方法有机的 统一在一个框架中。填空项答案主要为词语粒度并且这些填空项主要考核学科 术语。学科术语和通用词各有特点会对自动评分方法产生直接影响。学科术语 有严谨的命名和称谓具有领域单义性常用的语义词典中几乎未包含这类词。普 通词有丰富的同义表述大多数普通词及其同义词已被现有的语义词典收录如同 义词词林。因此对词粒度的填空项本发明实施例将考点分为学科术语和通用词 两类为学科术语的评分建立学科术语词典通用语评分使用同义词词林为语义词 典使用语义词典匹配的方法实现自动评分。对句子粒度的填空项其答案的同义 表述更加丰富本发明实施例将当前最先进的文本表示研究成果应用其中。本发 明实施例使用预训练的中文词向量对句子中的词进行嵌入表示利用p-means模 型生成填空项标准答案与考生答案的文本向量通过向量计算得出考生答案与标 准答案之间的语义相似度从而实现了自动评分。请参照图2描述了填空题的自 动评分的处理流程。首先判断考生答案与标准答案是否相等若相等则为正确答 案。否则对于词粒度的填空题使用基于词典匹配的方法判断考生答案的正确性 对于句子粒度的填空题则使用基于句子向量表示的语义相似度计算方法判断考 生答案的正确性。
在一些实施例中所述通过p-means模型对句子级填空项进行训练使用 p-means模型在预训练词向量基础上生成标准句子与句子级填空项的句子向量 包括:
其中,当p=1时,p-means取(x1,…,xn)的平均值;当p=+∞,p-means是取 最大(max)的操作,当p=-∞时,p-means是取最小值(min)的操作;
假设词向量有d维词向量为win个词向量构成W=[w1,…,wn]∈Rn×d用 Hp(W)表示对其进行p-means操作的结果p取k个不同的值:p1,...,pk将不同p 值的Hp(W)连接起来表达为:
si=Hpl(Wi)⊕...⊕Hpk(Wi)
⊕表示连接操作si表示在一个词嵌入空间中句子嵌入表示在多种词嵌入空 间分别进行p-means操作生成si将来自不同词嵌入空间的si连接起来得到最终的 句子向量表示:
进一步的所述使用余弦相似度计算句子向量间的相似度对相似度值大于阈 值的句子级填空项记分包括:
设考生答案文本为:T=”t1t2…ti-1titi+1…tn”,
获得考生答案句向量Qi与标准答案句向量Qj后通过余弦相似度计算两者的 相似度:
对相似度值大于预设阈值的句子级填空项记分。
在一些实施例中所述基于预设的分类规则对该填空项数据进行分类得到词 语级填空项和句子级填空项包括:
判断填空项数据是否属于词语粒度若是则该填空项数据为词语级填空项若 否则该填空项数据属于句子粒度为句子级填空项。
进一步的所述根据词语级填空项划分成学科术语和通用词包括:
给定字符串S=“s1s2s3…sn-1sn”Sm=“Si…Sj”(1≤i≤j≤n)是S的子串定 义Sl=“Sk…Si-1”(1≤k≤i-1)为Sm的左邻串Sr=“Sj+1…Sk”(j+1≤k≤n)为Sm右 邻串;若学科术语最大长度为L填空项标准答案为Sm Sm的长度设为l则Sm的左 邻串与右邻串的最小长度为0最大长度为L-l;
根据词语级填空项以标准答案为查询关键字在学科术语词典中进行查找; 若查找成功考点为学科术语判别结束;
否则获取填空项在题干S中的位置记标准答案Sa的长度为La;
在试题描述中取得填空项的左邻串Sl及右邻串Sr;
计数指针i取值从1到L-La循环执行以下操作:从Sr中第一个字符开始向 右截取长度为i的子序列Ssuf连接在Sa后生成Sb在学科术语词典V中查找Sb若查 找成功考点为学科术语判别结束;
计数指针i取值从1到L-La循环执行以下操作:从Sl中最后一个字符开始 向左截取长度为i的子序列Spre连接在Sa前生成Sb在学科术语词典V中查找Sb若 查找成功考点为学科术语判别结束;
计数指针i取值从1到L-La-1循环执行:计数指针j取值从1到L-La-i循 环执行:从Sl中最后一个字符开始向左截取长度为i的子序列Spre从Sr中第一个 字符开始向右截取长度为j的子序列Ssuf连接(Spre+Sa+Ssuf)生成Sb在学科术语 词典V中查找Sb若查找成功考点为学科术语判别结束;
则考点是通用词判别结束。
示例性的词语级填空项自动评分的首要任务是区分填空项类别即判定该考 点是学科术语还是通用词。该考点指填空项所考核的知识点=其与标准答案存在 区别考点与标准答案并不完全等价。例如试题:“两个模块都用同一张表这种 耦合称为(公共)耦合。”该填空题中考点为:“公共耦合”而标准答案为: “公共”。事实上标准答案与考点有以下四种关系:
1)标准答案与考点相同如:“传统的软件生存期模型是(瀑布模型)”。 标准答案与考点均为“瀑布模型”;
2)标准答案是考点前缀如:“两个模块都是用同一张表这种耦合称为(公 共)耦合”。标准答案“公共”是考点“公共耦合”的前缀;
3)标准答案是考点后缀如:“面向对象开发方法包括面向对象(分析)、 面向对象(设计)、面向对象(实现)三部分”标准答案“分析”是考点“面 向对象分析”的后缀。
4)标准答案是考点中间的子串如:需求工程主要分为三个步骤:需求获取、 需求分析和编写需求(规格)说明书。标准答案“规格”是位于考点“需求规 格说明书”中间的子串。
显然判断填空项类别不能简单以标准答案为依据。一般情况下填空题的试 题描述和答案是分开存储的。例如:试题描述=“软件生存周期一般可分为()、 可行性研究、()、设计编码、测试、运行与维护阶段”标准答案=“问题定义, 需求分析”在判定填空项类别时需要将试题描述与标准答案进行合并处理。
其中词语级填空项自动评分要使用两类语义词典。一类是学科术语词典该 词典中登记了每个学科的术语及其同义术语;另一类是通用语义词典该词典为 通用词自动评分提供支持。本发明实施例使用同义词词林作为通用语义词典对 词典进行了重构使之更加符合实际应用。重构的同义词词典包括两个主要数据 结构。一是词向量由所有原子词群中的词组成。为提高查询速度对词向量进行 了排序并建立索引;二是原子词群向量集每条向量存储一个原子词群。词向量 通过指针关联对应的原子词群。
学科术语词典通过人工建立初始建立的词典并一定完备可以在题库建设过 程中逐渐增加。对术语同义词收录不全或有误的本发明实施例使用了自反馈的 方法进行自动更新。即:在自动评分后若结果与人工复核不一致的按下列两种 情况处理。
1)自动评分结果为正确而复核结果为错误判定考生答案与标准答案为非同 义关系对学科术语词典中的术语进行删除操作;
2)自动评分结果为错误而复核结果为正确判定考生答案与标准答案为同义 关系对学科术语词典中的术语的进行更新操作。
为避免复核自身错误的产生的影响规定同一学科术语自动评分与复核不一 致发生次数大于设定阈值时才进行学科术语词典自动更新。学科术语词典的构 造方面本发明实施例采用与同义词词典一样的数据结构。
在一些实施例中所述基于预设的学科术语评分规则对学科术语进行评分基 于预设的通用词评分规则对通用词进行评分包括:
获取学科术语词典和通用词词典进行词语级填空项的自动评分;
若考生答案与标准答案完全一致记分评分结束;
判断填空项考点类别若是学科术语以标准答案为查询关键字在学科术语词 典中获取同义词群Sd;
若考生答案包含于Sd中记分否则不记分评分结束;
若是通用词以标准答案为查询关键字在同义词词典中获取同义词群Sk;
若考生答案包含于Sk中记分否则不记分评分结束。
在一些实施例中所述基于预设的分类规则对该填空项数据进行分类之前还 包括:
先判断考生答案与标准答案是否相等若相等则为正确答案进行加分。
示例性的实验对比了三种自动评分策略:模式匹配方法(简记为 方法1)、文本语义相似度计算的自动评分(简记为方法2)、词典匹配 和文本语义相似度计算相结合的自动评分(简记为方法3)。方法1完 全使用字符串模式匹配算法计算考生答案与标准答案的字符匹配程 度。方法2对考生答案与标准答案进行向量表示后使用余弦相似度公 式计算得分。方法3对填空项先进行文本粒度区分再根据粒度使用不 同的计算方法。实验参数及结果如图3所示。其中句向量表示使用了 词平均(WordAvg)和p-means模型[±∞,1]表示p分别取值为+∞、-∞ 和1的p-means模型。表示将三个预训练词向量下生成的句子向量再进行联接操作。
参照图3从实验中可以看出方法1取得了85%的准确率方法2和方法3对 数据集中的句子级填空项使用了不同的预训练词向量进行评分得到的评分准确 率略有不同但准确率均优于方法1。方法2与方法3相比相同实验参数中方法3 均有更出色的表现。使用相同的预训练词向量情况下使用p-means方法得到的准 确率都优于WordAvg。方法2中p-means较WordAvg平均提高2个百分点方法 3中p-means较WordAvg平均提高4个百分点。多个预训练词向量连接的p-means 方法获得了最好效果在方法2中获得了最优的准确率为96.5%在方法3中获得最 优的准确率为96.4%。本发明实施例进一步对比了方法2与方法3的召回率见图 4。
图4中显示方法2的召回率普遍较低TE词嵌入空间中的最好结果也仅为 55.5%。相比之下方法3中召回率大幅提升平均提高38.5个百分点而准确率仅略 微减少。本发明实施例进一步调查了学科术语在各预训练向量中的覆盖情况。 对实验中使用的由418个软件工程学科术语构成的词典分别统计词典术语在三 个预训练词向量中的覆盖统计见图5。可以看出学科术语在几个词嵌入空间的覆 盖度总体上是偏低的。尽管TE词嵌入空间中覆盖度达到81.9%但在方法2中也 并未取得理想的召回率说明词嵌入空间中对学科术语的词嵌入质量仍较弱。
上述本发明实施例针对填空题独有的特点提出了更具泛化能力的自动评分 策略。从上述实验中本发明实施例可以得出一些有指导性的信息。
(1)模式匹配方法仅从字面信息上进行对比由于缺少语义层面的度量评分 的准确率较低。方法2未考虑答案文本长度变化仅获得了有限的准确率提升主 要原因是填空项中包含大量学科术语考点而学科术语的词嵌入质量偏低。相比 之下本发明实施例提出的策略取得了出色表现该策略有效的原因在于结合了基 于知识库与基于语料库两类计算方法对词语级与句子级填空项使用不同的评分 策略增强了算法的泛化能力。当然该策略需要为每个学科建立学科术语词典这 会增加一些人力成本。
(2)在召回率的实验中方法2与本发明实施例所提算法形成了显著对比。 显然方法2中较低召回率的原因在于未对填空项的粒度与考点类别进行区分对 词语级与句子级填空项使用了同一的评分算法答案文本中出现的学科术语成为 影响召回率的关键因素。通常使用大规模通用语料训练得到的词向量对通用词 有较好的建模能力而学科术语应用领域较窄在训练语料中往往具有低频性要么 被忽略要么难以提取到有效语义信息。因此在缺乏大规模领域数据训练模型的 情况下使用通用语料训练的预训练模型再结合现有语义词典对算法进行修正是 一种切合实际的方法。
在上述实施例的基础上图6为本发明实施例提供的一种中文填空题自动评 分装置的结构示意图。参考图6本实施例提供的中文填空题自动评分装置所述 中文填空题自动评分装置具体包括:填空项获取模块601、词语划分模块602、 词语评分模块603和句子评分模块604。
填空项获取模块用于获取填空项数据基于预设的分类规则对该填空项数据 进行分类得到词语级填空项和句子级填空项;词语划分模块用于根据词语级填 空项划分成学科术语和通用词;词语评分模块用于基于预设的学科术语评分规 则对学科术语进行评分基于预设的通用词评分规则对通用词进行评分;句子评 分模块用于通过p-means模型对句子级填空项进行训练使用p-means模型在预训 练词向量基础上生成标准句子与句子级填空项的句子向量再使用余弦相似度计 算句子向量间的相似度对相似度值大于阈值的句子级填空项记分。
上述获取填空项数据基于预设的分类规则对该填空项数据进行分类得到词 语级填空项和句子级填空项;根据词语级填空项划分成学科术语和通用词;基 于预设的学科术语评分规则对学科术语进行评分基于预设的通用词评分规则对 通用词进行评分;通过p-means模型对句子级填空项进行训练使用p-means模型 在预训练词向量基础上生成标准句子与句子级填空项的句子向量再使用余弦相 似度计算句子向量间的相似度对相似度值大于阈值的句子级填空项记分;实现 了中文填空题的自动化评分根据不同的填空题粒度采用不同的方法进行评分提 高了准确率能够满足实际应用。
本发明实施例提供的中文填空题自动评分装置可以用于执行上述实施例提 供的中文填空题自动评分方法具备相应的功能和有益效果。
本发明实施例还提供了一种计算机设备该计算机设备可集成本发明实施例 提供的中文填空题自动评分装置。图7是本发明实施例提供的一种计算机设备 的结构示意图。参考图7该计算机设备包括:输入装置73、输出装置74、存储 器72以及一个或多个处理器71;所述存储器72用于存储一个或多个程序;当 所述一个或多个程序被所述一个或多个处理器71执行使得所述一个或多个处理 器71实现如上述实施例提供的中文填空题自动评分方法。其中输入装置73、输 出装置74、存储器72和处理器71可以通过总线或者其他方式连接图7中以通 过总线连接为例。
处理器71通过运行存储在存储器71中的软件程序、指令以及模块从而执 行设备的各种功能应用以及数据处理即实现上述的中文填空题自动评分方法。
上述提供的计算机设备可用于执行上述实施例提供的中文填空题自动评分 方法具备相应的功能和有益效果。
本发明实施例还提供一种包含计算机可执行指令的存储介质所述计算机可 执行指令在由计算机处理器执行时用于执行一种中文填空题自动评分方法该中 文填空题自动评分方法包括:获取填空项数据基于预设的分类规则对该填空项 数据进行分类得到词语级填空项和句子级填空项;根据词语级填空项划分成学 科术语和通用词;基于预设的学科术语评分规则对学科术语进行评分基于预设 的通用词评分规则对通用词进行评分;通过p-means模型对句子级填空项进行训 练使用p-means模型在预训练词向量基础上生成标准句子与句子级填空项的句 子向量再使用余弦相似度计算句子向量间的相似度对相似度值大于阈值的句子 级填空项记分。
存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质” 旨在包括:安装介质例如CD-ROM、软盘或磁带装置;计算机装置存储器或随 机存取存储器诸如DRAM、DDRRAM、SRAM、EDORAM兰巴斯(Rambus)RAM 等;非易失性存储器诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似 类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外 存储介质可以位于程序在其中被执行的第一计算机装置中或者可以位于不同的 第二计算机装置中第二计算机装置通过网络(诸如因特网)连接到第一计算机装 置。第二计算机装置可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机装置中) 的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序 指令(例如具体实现为计算机程序)。
当然本发明实施例所提供的一种包含计算机可执行指令的存储介质其计算 机可执行指令不限于如上所述的中文填空题自动评分方法还可以执行本发明任 意实施例所提供的中文填空题自动评分方法中的相关操作。
上述实施例中提供的中文填空题自动评分装置、存储介质及计算机设备可 执行本发明任意实施例所提供的中文填空题自动评分方法未在上述实施例中详 尽描述的技术细节可参见本发明任意实施例所提供的中文填空题自动评分方 法。
上述仅为本发明的较佳实施例及所运用的技术原理。本发明不限于这里所 述的特定实施例对本领域技术人员来说能够进行的各种明显变化、重新调整及 替代均不会脱离本发明的保护范围。因此虽然通过以上实施例对本发明进行了 较为详细的说明但是本发明不仅仅限于以上实施例在不脱离本发明构思的情况 下还可以包括更多其他等效实施例而本发明的范围由权利要求的范围决定。
Claims (10)
1.一种中文填空题自动评分方法其特征在于所述方法包括以下步骤:
获取填空项数据基于预设的分类规则对该填空项数据进行分类得到词语级填空项和句子级填空项;
根据词语级填空项划分成学科术语和通用词;
基于预设的学科术语评分规则对学科术语进行评分基于预设的通用词评分规则对通用词进行评分;
通过p-means模型对句子级填空项进行训练使用p-means模型在预训练词向量基础上生成标准句子与句子级填空项的句子向量再使用余弦相似度计算句子向量间的相似度对相似度值大于阈值的句子级填空项记分。
2.根据权利要求1所述的中文填空题自动评分方法其特征在于所述通过p-means模型对句子级填空项进行训练使用p-means模型在预训练词向量基础上生成标准句子与句子级填空项的句子向量包括:
假设词向量有d维词向量为win个词向量构成W=[w1,…,wn]∈Rn×d用Hp(W)表示对其进行p-means操作的结果p取k个不同的值:p1,...,pk将不同p值的Hp(W)连接起来表达为:
4.根据权利要求1所述的中文填空题自动评分方法其特征在于所述基于预设的分类规则对该填空项数据进行分类得到词语级填空项和句子级填空项包括:
判断填空项数据是否属于词语粒度若是则该填空项数据为词语级填空项若否则该填空项数据属于句子粒度为句子级填空项。
5.根据权利要求1所述的中文填空题自动评分方法其特征在于所述根据词语级填空项划分成学科术语和通用词包括:
给定字符串S=“s1s2s3…sn-1sn”Sm=“Si…Sj”(1≤i≤j≤n)是S的子串定义Sl=“Sk…Si-1”(1≤k≤i-1)为Sm的左邻串Sr=“Sj+1…Sk”(j+1≤k≤n)为Sm右邻串;若学科术语最大长度为L填空项标准答案为Sm Sm的长度设为l则Sm的左邻串与右邻串的最小长度为0最大长度为L-l;
根据词语级填空项以标准答案为查询关键字在学科术语词典中进行查找;若查找成功考点为学科术语判别结束;
否则获取填空项在题干S中的位置记标准答案Sa的长度为La;
在试题描述中取得填空项的左邻串Sl及右邻串Sr;
计数指针i取值从1到L-La循环执行以下操作:从Sr中第一个字符开始向右截取长度为i的子序列Ssuf连接在Sa后生成Sb在学科术语词典V中查找Sb若查找成功考点为学科术语判别结束;
计数指针i取值从1到L-La循环执行以下操作:从Sl中最后一个字符开始向左截取长度为i的子序列Spre连接在Sa前生成Sb在学科术语词典V中查找Sb若查找成功考点为学科术语判别结束;
计数指针i取值从1到L-La-1循环执行:计数指针j取值从1到L-La-i循环执行:从Sl中最后一个字符开始向左截取长度为i的子序列Spre从Sr中第一个字符开始向右截取长度为j的子序列Ssuf连接(Spre+Sa+Ssuf)生成Sb在学科术语词典V中查找Sb若查找成功考点为学科术语判别结束;
则考点是通用词判别结束。
6.根据权利要求1所述的中文填空题自动评分方法其特征在于所述基于预设的学科术语评分规则对学科术语进行评分基于预设的通用词评分规则对通用词进行评分包括:
获取学科术语词典和通用词词典进行词语级填空项的自动评分;
若考生答案与标准答案完全一致记分评分结束;
判断填空项考点类别若是学科术语以标准答案为查询关键字在学科术语词典中获取同义词群Sd;
若考生答案包含于Sd中记分否则不记分评分结束;
若是通用词以标准答案为查询关键字在同义词词典中获取同义词群Sk;
若考生答案包含于Sk中记分否则不记分评分结束。
7.根据权利要求1所述的中文填空题自动评分方法其特征在于所述基于预设的分类规则对该填空项数据进行分类之前还包括:
先判断考生答案与标准答案是否相等若相等则为正确答案进行加分。
8.一种中文填空题自动评分装置其特征在于包括:
填空项获取模块用于获取填空项数据基于预设的分类规则对该填空项数据进行分类得到词语级填空项和句子级填空项;
词语划分模块用于根据词语级填空项划分成学科术语和通用词;
词语评分模块用于基于预设的学科术语评分规则对学科术语进行评分基于预设的通用词评分规则对通用词进行评分;
句子评分模块用于通过p-means模型对句子级填空项进行训练使用p-means模型在预训练词向量基础上生成标准句子与句子级填空项的句子向量再使用余弦相似度计算句子向量间的相似度对相似度值大于阈值的句子级填空项记分。
9.一种计算机设备其特征在于包括:存储器以及一个或多个处理器;
所述存储器用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行使得所述一个或多个处理器实现如权利要求1-7任一所述的一种中文填空题自动评分方法。
10.一种包含计算机可执行指令的存储介质其特征在于所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7任一所述的一种中文填空题自动评分方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210510533.9A CN115114417A (zh) | 2022-05-11 | 2022-05-11 | 中文填空题自动评分方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210510533.9A CN115114417A (zh) | 2022-05-11 | 2022-05-11 | 中文填空题自动评分方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115114417A true CN115114417A (zh) | 2022-09-27 |
Family
ID=83325846
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210510533.9A Pending CN115114417A (zh) | 2022-05-11 | 2022-05-11 | 中文填空题自动评分方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115114417A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116663537A (zh) * | 2023-07-26 | 2023-08-29 | 中信联合云科技有限责任公司 | 基于大数据分析的选题策划信息处理方法及系统 |
-
2022
- 2022-05-11 CN CN202210510533.9A patent/CN115114417A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116663537A (zh) * | 2023-07-26 | 2023-08-29 | 中信联合云科技有限责任公司 | 基于大数据分析的选题策划信息处理方法及系统 |
CN116663537B (zh) * | 2023-07-26 | 2023-11-03 | 中信联合云科技有限责任公司 | 基于大数据分析的选题策划信息处理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112035730B (zh) | 一种语义检索方法、装置及电子设备 | |
KR100546743B1 (ko) | 언어분석 기반 자동 질문/정답 색인 방법과 그 질의응답방법 및 시스템 | |
US9218339B2 (en) | Computer-implemented systems and methods for content scoring of spoken responses | |
CN109271506A (zh) | 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法 | |
CN107436864A (zh) | 一种基于Word2Vec的中文问答语义相似度计算方法 | |
CN112380325A (zh) | 基于联合知识嵌入模型和事实记忆网络的知识图谱问答系统 | |
CN116127095A (zh) | 一种序列模型与知识图谱结合的问答方法 | |
CN112328800A (zh) | 自动生成编程规范问题答案的系统及方法 | |
CN110688489A (zh) | 基于交互注意力的知识图谱推演方法、装置和存储介质 | |
CN110968708A (zh) | 一种教育信息资源属性标注方法及系统 | |
JP5682448B2 (ja) | 因果単語対抽出装置、因果単語対抽出方法および因果単語対抽出用プログラム | |
CN111309930A (zh) | 一种基于表示学习的医学知识图谱实体对齐方法 | |
CN113971394A (zh) | 文本复述改写系统 | |
CN115905487A (zh) | 文档问答方法、系统、电子设备及存储介质 | |
CN115114417A (zh) | 中文填空题自动评分方法及装置 | |
Alrehily et al. | Intelligent electronic assessment for subjective exams | |
CN113190692A (zh) | 一种知识图谱的自适应检索方法、系统及装置 | |
CN110569368B (zh) | 面向rdf知识库问答的查询松弛方法 | |
CN114579606B (zh) | 预训练模型数据处理方法、电子设备及计算机存储介质 | |
CN115438141A (zh) | 一种基于知识图谱模型的信息检索方法 | |
CN115238705A (zh) | 语义解析结果重排序方法及系统 | |
He et al. | [Retracted] Application of Grammar Error Detection Method for English Composition Based on Machine Learning | |
CN118296132B (zh) | 一种基于智能大模型的客服搜索方法及系统 | |
CN117743556B (zh) | 一种基于知识库的多轮问答意图识别方法及装置 | |
CN117688319B (zh) | 一种使用ai分析数据库结构的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |