CN115114417A

CN115114417A - 中文填空题自动评分方法及装置

Info

Publication number: CN115114417A
Application number: CN202210510533.9A
Authority: CN
Inventors: 左欣; 王东; 林宏; 向程冠
Original assignee: Guizhou Education University
Current assignee: Guizhou Education University
Priority date: 2022-05-11
Filing date: 2022-05-11
Publication date: 2022-09-27

Abstract

本发明实施例公开了一种中文填空题自动评分方法及装置；所述方法包括：获取填空项数据基于预设的分类规则对该填空项数据进行分类得到词语级填空项和句子级填空项；根据词语级填空项划分成学科术语和通用词；基于预设的学科术语评分规则对学科术语进行评分基于预设的通用词评分规则对通用词进行评分；通过p‑means模型对句子级填空项进行训练使用p‑means模型在预训练词向量基础上生成标准句子与句子级填空项的句子向量再使用余弦相似度计算句子向量间的相似度对相似度值大于阈值的句子级填空项记分；实现了中文填空题的自动化评分根据不同的填空题粒度采用不同的方法进行评分提高了准确率能够满足实际应用。

Description

中文填空题自动评分方法及装置

技术领域

本发明实施例涉及评分自动化技术领域尤其涉及一种中文填空题自动评分方法及装置。

背景技术

自动评分是实现在线考试自动化的关键环节。客观题型如单选题、多选题、判断题的自动评分实现简单这类题型已基本实现了考试工作的网络化、自动化。主观题型的自动评分难度较大目前研究主要集中在答案内容较长的试题上如简答题、论述题等。填空题是一种常见的特殊题型兼有客观性和主观性的特点。大多数在线考试系统将其看作客观题型采用“答案比对”的方式完成自动评分容易将与标准答案含义相同或相近的答案排除在外。部分研究者将填空题看作主观题型对自动评分方法进行了研究。现有技术中对填空题答案的多样性进行了分析将考生答案与标准答案的匹配方法分为完全匹配与模糊匹配两种该方法的评分准确性依赖出题者给出的答案质量；或者通过关键字包含特定字符来表示评分规则考生答案中只要包含特定字符就认为是正确答案；或者对填空题特点进行了总结和归纳提出试题编制规则与标准答案描述规则通过模糊匹配核心词汇进行自动评分。尽管已有研究考虑到答案的多样性但评分策略仅采用字符串模式匹配主要看字符重合度缺少语义层面的度量评分的准确率取决于标准答案的覆盖度。由于填空题的答案形式、文本长度变化较大随着答案文本长度的增加同义或近义的表述就越多使得在命题时难以列举出所有可能的答案。

发明内容

本发明实施例提供一种中文填空题自动评分方法及装置以解决现有中文填空题评分系统正确率低无法满足实际应用的问题。

在第一方面本发明实施例提供了一种中文填空题自动评分方法所述方法包括以下步骤：

获取填空项数据基于预设的分类规则对该填空项数据进行分类得到词语级填空项和句子级填空项；

根据词语级填空项划分成学科术语和通用词；

基于预设的学科术语评分规则对学科术语进行评分基于预设的通用词评分规则对通用词进行评分；

通过p-means模型对句子级填空项进行训练使用p-means模型在预训练词向量基础上生成标准句子与句子级填空项的句子向量再使用余弦相似度计算句子向量间的相似度对相似度值大于阈值的句子级填空项记分。

进一步的所述通过p-means模型对句子级填空项进行训练使用p-means模型在预训练词向量基础上生成标准句子与句子级填空项的句子向量包括：

p-means定义为：

其中，

中x表示句子中的第i个词的词向量；p表示对该词向量的每个分量进行p次幂运算；

假设词向量有d维词向量为w_in个词向量构成W＝[w₁,…,w_n]∈R^n×d用 H_p(W)表示对其进行p-means操作的结果p取k个不同的值：p₁,...,p_k将不同p 值的H_p(W)连接起来表达为：

sⁱ＝H_pl(Wⁱ)⊕...⊕H_pk(Wⁱ)

⊕表示连接操作sⁱ表示在一个词嵌入空间中句子嵌入表示在多种词嵌入空间分别进行p-means操作生成sⁱ将来自不同词嵌入空间的sⁱ连接起来得到最终的句子向量表示：

进一步的所述使用余弦相似度计算句子向量间的相似度对相似度值大于阈值的句子级填空项记分包括：

设考生答案文本为：T＝”t1t2…ti-1titi+1…tn”,

标准答案为：T'＝”t'1t'2…t'jt'j+1…t'm”若

表示同义词关系用Φ表置换操作则：Φ(T)＝”t1t2…ti-1t'jti+1…tn”；对考生答案T的p-means操作重新定义为：

获得考生答案句向量Q_i与标准答案句向量Q_j后通过余弦相似度计算两者的相似度：

对相似度值大于预设阈值的句子级填空项记分。

进一步的所述基于预设的分类规则对该填空项数据进行分类得到词语级填空项和句子级填空项包括：

判断填空项数据是否属于词语粒度若是则该填空项数据为词语级填空项若否则该填空项数据属于句子粒度为句子级填空项。

进一步的所述根据词语级填空项划分成学科术语和通用词包括：

给定字符串S＝“s1s2s3…sn-1sn”S_m＝“S_i…S_j”(1≤i≤j≤n)是S的子串定义S_l＝“S_k…S_i-1”(1≤k≤i-1)为S_m的左邻串S_r＝“S_j+1…S_k”(j+1≤k≤n)为S_m右邻串；若学科术语最大长度为L填空项标准答案为S_m S_m的长度设为l则S_m的左邻串与右邻串的最小长度为0最大长度为L-l；

根据词语级填空项以标准答案为查询关键字在学科术语词典中进行查找；若查找成功考点为学科术语判别结束；

否则获取填空项在题干S中的位置记标准答案S_a的长度为La；

在试题描述中取得填空项的左邻串S_l及右邻串S_r；

计数指针i取值从1到L-La循环执行以下操作：从S_r中第一个字符开始向右截取长度为i的子序列S_suf连接在S_a后生成S_b在学科术语词典V中查找S_b若查找成功考点为学科术语判别结束；

计数指针i取值从1到L-La循环执行以下操作：从S_l中最后一个字符开始向左截取长度为i的子序列S_pre连接在S_a前生成S_b在学科术语词典V中查找S_b若查找成功考点为学科术语判别结束；

计数指针i取值从1到L-La-1循环执行：计数指针j取值从1到L-La-i循环执行：从S_l中最后一个字符开始向左截取长度为i的子序列S_pre从S_r中第一个字符开始向右截取长度为j的子序列S_suf连接(S_pre+S_a+S_suf)生成S_b在学科术语词典V中查找S_b若查找成功考点为学科术语判别结束；

则考点是通用词判别结束。

进一步的所述基于预设的学科术语评分规则对学科术语进行评分基于预设的通用词评分规则对通用词进行评分包括：

获取学科术语词典和通用词词典进行词语级填空项的自动评分；

若考生答案与标准答案完全一致记分评分结束；

判断填空项考点类别若是学科术语以标准答案为查询关键字在学科术语词典中获取同义词群S_d；

若考生答案包含于S_d中记分否则不记分评分结束；

若是通用词以标准答案为查询关键字在同义词词典中获取同义词群S_k；

若考生答案包含于S_k中记分否则不记分评分结束。

进一步的所述基于预设的分类规则对该填空项数据进行分类之前还包括：

先判断考生答案与标准答案是否相等若相等则为正确答案进行加分。

在第二方面本发明实施例还提供一种中文填空题自动评分装置包括：

填空项获取模块用于获取填空项数据基于预设的分类规则对该填空项数据进行分类得到词语级填空项和句子级填空项；

词语划分模块用于根据词语级填空项划分成学科术语和通用词；

词语评分模块用于基于预设的学科术语评分规则对学科术语进行评分基于预设的通用词评分规则对通用词进行评分；

句子评分模块用于通过p-means模型对句子级填空项进行训练使用p-means 模型在预训练词向量基础上生成标准句子与句子级填空项的句子向量再使用余弦相似度计算句子向量间的相似度对相似度值大于阈值的句子级填空项记分。

在第三方面本发明实施例还提供一种计算机设备包括：存储器以及一个或多个处理器；

所述存储器用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行使得所述一个或多个处理器实现如上述的一种中文填空题自动评分方法。

在第四方面本发明实施例还提供一种包含计算机可执行指令的存储介质所述计算机可执行指令在由计算机处理器执行时用于执行如上述的一种中文填空题自动评分方法。

本发明实施例通过获取填空项数据基于预设的分类规则对该填空项数据进行分类得到词语级填空项和句子级填空项；根据词语级填空项划分成学科术语和通用词；基于预设的学科术语评分规则对学科术语进行评分基于预设的通用词评分规则对通用词进行评分；通过p-means模型对句子级填空项进行训练使用 p-means模型在预训练词向量基础上生成标准句子与句子级填空项的句子向量再使用余弦相似度计算句子向量间的相似度对相似度值大于阈值的句子级填空项记分；实现了中文填空题的自动化评分根据不同的填空题粒度采用不同的方法进行评分提高了准确率能够满足实际应用。

附图说明

图1是本发明实施例提供的一种中文填空题自动评分方法的流程图；

图2是本发明实施例提供的一种中文填空题自动评分方法的自动平分框架图；

图3是本发明实施例提供的一种中文填空题自动评分方法的三种自动评分策略准确率对比图；

图4是本发明实施例提供的一种中文填空题自动评分方法的三种自动评分策略召回率对比图；

图5是本发明实施例提供的一种中文填空题自动评分方法的预训练词向量学科术语覆盖度图；

图6是本发明实施例提供的一种中文填空题自动评分装置的结构示意图；

图7是本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚下面结合附图对本发明具体实施例作进一步的详细描述。可以理解的是此处所描述的具体实施例仅仅用于解释本发明而非对本发明的限定。另外还需要说明的是为了便于描述附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理但是其中的许多操作可以被并行地、并发地或者同时实施。此外各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

p-means是Concatenated Power Mean Embeddings的简写，是通过连接不同的幂平均词嵌入以及进一步连接多个词嵌入空间中生成的幂平均嵌入从而得到最终句子向量的方法。

目前对填空题答案的多样性进行了分析将考生答案与标准答案的匹配方法分为完全匹配与模糊匹配两种该方法的评分准确性依赖出题者给出的答案质量；或者通过关键字包含特定字符来表示评分规则考生答案中只要包含特定字符就认为是正确答案；或者对填空题特点进行了总结和归纳提出试题编制规则与标准答案描述规则通过模糊匹配核心词汇进行自动评分。尽管已有研究考虑到答案的多样性但评分策略仅采用字符串模式匹配主要看字符重合度缺少语义层面的度量评分的准确率取决于标准答案的覆盖度。由于填空题的答案形式、文本长度变化较大随着答案文本长度的增加同义或近义的表述就越多使得在命题时难以列举出所有可能的答案。

针对上述问题本发明实施例首先对填空项进行分类按照标准答案文本包含的词语数将填空项分成词语级和句子级两类提出了结合词典匹配和语义相似度计算的填空题自动评分框架及算法。对于词语级填空项使用了学科专用词典和通用语义词典分别针对学科术语考点和通用词考点自动评分。对于句子级填空项将文本语义相似度计算方法引入到自动评分过程中将考生答案与标准答案的匹配过程看成一个语义相似度计算问题使用改进的p-means模型构造考生答案文本与标准答案文本的向量表示再通过计算向量之间的语义距离来实现填空项评分。

实施例中提供的中文填空题自动评分方法可以由中文填空题自动评分装置执行该中文填空题自动评分装置可以通过软件和/或硬件的方式实现并集成在中文填空题自动评分设备中。其中中文填空题自动评分设备可以是计算机等设备。

图1为本发明实施例提供的一种中文填空题自动评分方法的流程图。参考图1所述方法包括以下步骤：

步骤110、获取填空项数据基于预设的分类规则对该填空项数据进行分类得到词语级填空项和句子级填空项；

步骤120、根据词语级填空项划分成学科术语和通用词；

步骤130、基于预设的学科术语评分规则对学科术语进行评分基于预设的通用词评分规则对通用词进行评分；

步骤140、通过p-means模型对句子级填空项进行训练使用p-means模型在预训练词向量基础上生成标准句子与句子级填空项的句子向量再使用余弦相似度计算句子向量间的相似度对相似度值大于阈值的句子级填空项记分。

示例性的填空题答案的数据表现形式多样有文字、数字、公式、图表等形式。本发明实施例限定答案为中文文本答案粒度可以是一个词语、一个短语或句子。以往的研究对答案粒度不作区分用同一评分策略进行处理影响了泛化能力。本发明实施例采用分而治之的针对性策略并将处理不同粒度的方法有机的统一在一个框架中。填空项答案主要为词语粒度并且这些填空项主要考核学科术语。学科术语和通用词各有特点会对自动评分方法产生直接影响。学科术语有严谨的命名和称谓具有领域单义性常用的语义词典中几乎未包含这类词。普通词有丰富的同义表述大多数普通词及其同义词已被现有的语义词典收录如同义词词林。因此对词粒度的填空项本发明实施例将考点分为学科术语和通用词两类为学科术语的评分建立学科术语词典通用语评分使用同义词词林为语义词典使用语义词典匹配的方法实现自动评分。对句子粒度的填空项其答案的同义表述更加丰富本发明实施例将当前最先进的文本表示研究成果应用其中。本发明实施例使用预训练的中文词向量对句子中的词进行嵌入表示利用p-means模型生成填空项标准答案与考生答案的文本向量通过向量计算得出考生答案与标准答案之间的语义相似度从而实现了自动评分。请参照图2描述了填空题的自动评分的处理流程。首先判断考生答案与标准答案是否相等若相等则为正确答案。否则对于词粒度的填空题使用基于词典匹配的方法判断考生答案的正确性对于句子粒度的填空题则使用基于句子向量表示的语义相似度计算方法判断考生答案的正确性。

在一些实施例中所述通过p-means模型对句子级填空项进行训练使用 p-means模型在预训练词向量基础上生成标准句子与句子级填空项的句子向量包括：

p-means定义为：

其中，

其中，当p＝1时，p-means取(x₁,…,x_n)的平均值；当p＝+∞，p-means是取最大(max)的操作，当p＝-∞时，p-means是取最小值(min)的操作；

sⁱ＝H_pl(Wⁱ)⊕...⊕H_pk(Wⁱ)

设考生答案文本为：T＝”t1t2…ti-1titi+1…tn”,

标准答案为：T'＝”t'1t'2…t'jt'j+1…t'm”若

对相似度值大于预设阈值的句子级填空项记分。

在一些实施例中所述基于预设的分类规则对该填空项数据进行分类得到词语级填空项和句子级填空项包括：

否则获取填空项在题干S中的位置记标准答案S_a的长度为La；

在试题描述中取得填空项的左邻串S_l及右邻串S_r；

则考点是通用词判别结束。

示例性的词语级填空项自动评分的首要任务是区分填空项类别即判定该考点是学科术语还是通用词。该考点指填空项所考核的知识点＝其与标准答案存在区别考点与标准答案并不完全等价。例如试题：“两个模块都用同一张表这种耦合称为(公共)耦合。”该填空题中考点为：“公共耦合”而标准答案为： “公共”。事实上标准答案与考点有以下四种关系：

1)标准答案与考点相同如：“传统的软件生存期模型是(瀑布模型)”。标准答案与考点均为“瀑布模型”；

2)标准答案是考点前缀如：“两个模块都是用同一张表这种耦合称为(公共)耦合”。标准答案“公共”是考点“公共耦合”的前缀；

3)标准答案是考点后缀如：“面向对象开发方法包括面向对象(分析)、面向对象(设计)、面向对象(实现)三部分”标准答案“分析”是考点“面向对象分析”的后缀。

4)标准答案是考点中间的子串如：需求工程主要分为三个步骤：需求获取、需求分析和编写需求(规格)说明书。标准答案“规格”是位于考点“需求规格说明书”中间的子串。

显然判断填空项类别不能简单以标准答案为依据。一般情况下填空题的试题描述和答案是分开存储的。例如：试题描述＝“软件生存周期一般可分为()、可行性研究、()、设计编码、测试、运行与维护阶段”标准答案＝“问题定义, 需求分析”在判定填空项类别时需要将试题描述与标准答案进行合并处理。

其中词语级填空项自动评分要使用两类语义词典。一类是学科术语词典该词典中登记了每个学科的术语及其同义术语；另一类是通用语义词典该词典为通用词自动评分提供支持。本发明实施例使用同义词词林作为通用语义词典对词典进行了重构使之更加符合实际应用。重构的同义词词典包括两个主要数据结构。一是词向量由所有原子词群中的词组成。为提高查询速度对词向量进行了排序并建立索引；二是原子词群向量集每条向量存储一个原子词群。词向量通过指针关联对应的原子词群。

学科术语词典通过人工建立初始建立的词典并一定完备可以在题库建设过程中逐渐增加。对术语同义词收录不全或有误的本发明实施例使用了自反馈的方法进行自动更新。即：在自动评分后若结果与人工复核不一致的按下列两种情况处理。

1)自动评分结果为正确而复核结果为错误判定考生答案与标准答案为非同义关系对学科术语词典中的术语进行删除操作；

2)自动评分结果为错误而复核结果为正确判定考生答案与标准答案为同义关系对学科术语词典中的术语的进行更新操作。

为避免复核自身错误的产生的影响规定同一学科术语自动评分与复核不一致发生次数大于设定阈值时才进行学科术语词典自动更新。学科术语词典的构造方面本发明实施例采用与同义词词典一样的数据结构。

在一些实施例中所述基于预设的学科术语评分规则对学科术语进行评分基于预设的通用词评分规则对通用词进行评分包括：

若考生答案与标准答案完全一致记分评分结束；

若考生答案包含于S_d中记分否则不记分评分结束；

若考生答案包含于S_k中记分否则不记分评分结束。

在一些实施例中所述基于预设的分类规则对该填空项数据进行分类之前还包括：

示例性的实验对比了三种自动评分策略：模式匹配方法(简记为方法1)、文本语义相似度计算的自动评分(简记为方法2)、词典匹配和文本语义相似度计算相结合的自动评分(简记为方法3)。方法1完全使用字符串模式匹配算法计算考生答案与标准答案的字符匹配程度。方法2对考生答案与标准答案进行向量表示后使用余弦相似度公式计算得分。方法3对填空项先进行文本粒度区分再根据粒度使用不同的计算方法。实验参数及结果如图3所示。其中句向量表示使用了词平均(WordAvg)和p-means模型[±∞,1]表示p分别取值为+∞、-∞ 和1的p-means模型。

表示将三个预训练词向量下生成的句子向量再进行联接操作。

参照图3从实验中可以看出方法1取得了85％的准确率方法2和方法3对数据集中的句子级填空项使用了不同的预训练词向量进行评分得到的评分准确率略有不同但准确率均优于方法1。方法2与方法3相比相同实验参数中方法3 均有更出色的表现。使用相同的预训练词向量情况下使用p-means方法得到的准确率都优于WordAvg。方法2中p-means较WordAvg平均提高2个百分点方法 3中p-means较WordAvg平均提高4个百分点。多个预训练词向量连接的p-means 方法获得了最好效果在方法2中获得了最优的准确率为96.5％在方法3中获得最优的准确率为96.4％。本发明实施例进一步对比了方法2与方法3的召回率见图 4。

图4中显示方法2的召回率普遍较低TE词嵌入空间中的最好结果也仅为 55.5％。相比之下方法3中召回率大幅提升平均提高38.5个百分点而准确率仅略微减少。本发明实施例进一步调查了学科术语在各预训练向量中的覆盖情况。对实验中使用的由418个软件工程学科术语构成的词典分别统计词典术语在三个预训练词向量中的覆盖统计见图5。可以看出学科术语在几个词嵌入空间的覆盖度总体上是偏低的。尽管TE词嵌入空间中覆盖度达到81.9％但在方法2中也并未取得理想的召回率说明词嵌入空间中对学科术语的词嵌入质量仍较弱。

上述本发明实施例针对填空题独有的特点提出了更具泛化能力的自动评分策略。从上述实验中本发明实施例可以得出一些有指导性的信息。

(1)模式匹配方法仅从字面信息上进行对比由于缺少语义层面的度量评分的准确率较低。方法2未考虑答案文本长度变化仅获得了有限的准确率提升主要原因是填空项中包含大量学科术语考点而学科术语的词嵌入质量偏低。相比之下本发明实施例提出的策略取得了出色表现该策略有效的原因在于结合了基于知识库与基于语料库两类计算方法对词语级与句子级填空项使用不同的评分策略增强了算法的泛化能力。当然该策略需要为每个学科建立学科术语词典这会增加一些人力成本。

(2)在召回率的实验中方法2与本发明实施例所提算法形成了显著对比。显然方法2中较低召回率的原因在于未对填空项的粒度与考点类别进行区分对词语级与句子级填空项使用了同一的评分算法答案文本中出现的学科术语成为影响召回率的关键因素。通常使用大规模通用语料训练得到的词向量对通用词有较好的建模能力而学科术语应用领域较窄在训练语料中往往具有低频性要么被忽略要么难以提取到有效语义信息。因此在缺乏大规模领域数据训练模型的情况下使用通用语料训练的预训练模型再结合现有语义词典对算法进行修正是一种切合实际的方法。

在上述实施例的基础上图6为本发明实施例提供的一种中文填空题自动评分装置的结构示意图。参考图6本实施例提供的中文填空题自动评分装置所述中文填空题自动评分装置具体包括：填空项获取模块601、词语划分模块602、词语评分模块603和句子评分模块604。

填空项获取模块用于获取填空项数据基于预设的分类规则对该填空项数据进行分类得到词语级填空项和句子级填空项；词语划分模块用于根据词语级填空项划分成学科术语和通用词；词语评分模块用于基于预设的学科术语评分规则对学科术语进行评分基于预设的通用词评分规则对通用词进行评分；句子评分模块用于通过p-means模型对句子级填空项进行训练使用p-means模型在预训练词向量基础上生成标准句子与句子级填空项的句子向量再使用余弦相似度计算句子向量间的相似度对相似度值大于阈值的句子级填空项记分。

上述获取填空项数据基于预设的分类规则对该填空项数据进行分类得到词语级填空项和句子级填空项；根据词语级填空项划分成学科术语和通用词；基于预设的学科术语评分规则对学科术语进行评分基于预设的通用词评分规则对通用词进行评分；通过p-means模型对句子级填空项进行训练使用p-means模型在预训练词向量基础上生成标准句子与句子级填空项的句子向量再使用余弦相似度计算句子向量间的相似度对相似度值大于阈值的句子级填空项记分；实现了中文填空题的自动化评分根据不同的填空题粒度采用不同的方法进行评分提高了准确率能够满足实际应用。

本发明实施例提供的中文填空题自动评分装置可以用于执行上述实施例提供的中文填空题自动评分方法具备相应的功能和有益效果。

本发明实施例还提供了一种计算机设备该计算机设备可集成本发明实施例提供的中文填空题自动评分装置。图7是本发明实施例提供的一种计算机设备的结构示意图。参考图7该计算机设备包括：输入装置73、输出装置74、存储器72以及一个或多个处理器71；所述存储器72用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器71执行使得所述一个或多个处理器71实现如上述实施例提供的中文填空题自动评分方法。其中输入装置73、输出装置74、存储器72和处理器71可以通过总线或者其他方式连接图7中以通过总线连接为例。

处理器71通过运行存储在存储器71中的软件程序、指令以及模块从而执行设备的各种功能应用以及数据处理即实现上述的中文填空题自动评分方法。

上述提供的计算机设备可用于执行上述实施例提供的中文填空题自动评分方法具备相应的功能和有益效果。

本发明实施例还提供一种包含计算机可执行指令的存储介质所述计算机可执行指令在由计算机处理器执行时用于执行一种中文填空题自动评分方法该中文填空题自动评分方法包括：获取填空项数据基于预设的分类规则对该填空项数据进行分类得到词语级填空项和句子级填空项；根据词语级填空项划分成学科术语和通用词；基于预设的学科术语评分规则对学科术语进行评分基于预设的通用词评分规则对通用词进行评分；通过p-means模型对句子级填空项进行训练使用p-means模型在预训练词向量基础上生成标准句子与句子级填空项的句子向量再使用余弦相似度计算句子向量间的相似度对相似度值大于阈值的句子级填空项记分。

存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质” 旨在包括：安装介质例如CD-ROM、软盘或磁带装置；计算机装置存储器或随机存取存储器诸如DRAM、DDRRAM、SRAM、EDORAM兰巴斯(Rambus)RAM 等；非易失性存储器诸如闪存、磁介质(例如硬盘或光存储)；寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外存储介质可以位于程序在其中被执行的第一计算机装置中或者可以位于不同的第二计算机装置中第二计算机装置通过网络(诸如因特网)连接到第一计算机装置。第二计算机装置可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机装置中) 的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。

当然本发明实施例所提供的一种包含计算机可执行指令的存储介质其计算机可执行指令不限于如上所述的中文填空题自动评分方法还可以执行本发明任意实施例所提供的中文填空题自动评分方法中的相关操作。

上述实施例中提供的中文填空题自动评分装置、存储介质及计算机设备可执行本发明任意实施例所提供的中文填空题自动评分方法未在上述实施例中详尽描述的技术细节可参见本发明任意实施例所提供的中文填空题自动评分方法。

上述仅为本发明的较佳实施例及所运用的技术原理。本发明不限于这里所述的特定实施例对本领域技术人员来说能够进行的各种明显变化、重新调整及替代均不会脱离本发明的保护范围。因此虽然通过以上实施例对本发明进行了较为详细的说明但是本发明不仅仅限于以上实施例在不脱离本发明构思的情况下还可以包括更多其他等效实施例而本发明的范围由权利要求的范围决定。