CN113627722B

CN113627722B - 基于关键字分词的简答题评分方法、终端及可读存储介质

Info

Publication number: CN113627722B
Application number: CN202110751654.8A
Authority: CN
Inventors: 海克洪; 朱飞
Original assignee: Hubei Meihe Yisi Education Technology Co ltd
Current assignee: Hubei Meihe Yisi Education Technology Co ltd
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2024-04-02
Anticipated expiration: 2041-07-02
Also published as: CN113627722A

Abstract

本发明公开了一种基于关键字分词的简答题评分方法、终端及可读存储介质，所述方法包括：获取待评分简答题的作答答案，并对所述作答答案基于预设分词算法进行分词处理，获得多个答案关键词；将多个所述答案关键词均转换为关键词向量，并将各所述关键词向量与参考向量集对比，确定各所述答案关键词的正确率；根据各所述答案关键词的正确率，确定所述作答答案的总正确率，并根据所述作答答案的总正确率，对所述待评分简答题进行评分。本发明通过预设分词算法依据长词优先的原则进行分词，有利于分词效率和准确性的提高；同时，还实现从多个关键字的角度，综合多方面的信息进行评分，提高评分准确性。

Description

基于关键字分词的简答题评分方法、终端及可读存储介质

技术领域

本发明涉及互联网技术领域，尤其涉及一种基于关键字分词的简答题评分方法、终端及可读存储介质。

背景技术

在教学过程中，考试是一种检验教师教学效果与学生学习效果最频繁和最有效的测评手段，是教育教学的重要组成部分。考试完成后由教师对简答题的答案进行主观性的评分，通过评分的成绩结果来反映教师教学质量和学生学习效果的好坏。

随着互联网技术的发展，学生通常通过B/S(Browser/Server Architecture，浏览器和服务器架构)架构的考试系统进行考试。并且，为了减轻教师工作量，以及避免主观性对简答题引起的评分不一致问题，考试系统设置有通过规则自动进行简答题评分的机制。

简答题的自动评分已然成为智慧化教学过程中评价教学质量的一个重要环节，但当前自动评分效率低和准确率低的问题，也制约了智慧化教学的推广发展。因此，如何提高简答题自动评分的效率和准确性，是当前亟待解决的技术问题。

发明内容

本发明的主要目的在于提供一种基于关键字分词的简答题评分方法、终端及可读存储介质，旨在解决现有技术中如何提高简答题自动评分的效率和准确性的技术问题。

为实现上述目的，本发明提供一种基于关键字分词的简答题评分方法，所述基于关键字分词的简答题评分方法包括：

获取待评分简答题的作答答案，并对所述作答答案基于预设分词算法进行分词处理，获得多个答案关键词；

将多个所述答案关键词均转换为关键词向量，并将各所述关键词向量与参考向量集对比，确定各所述答案关键词的正确率；

根据各所述答案关键词的正确率，确定所述作答答案的总正确率，并根据所述作答答案的总正确率，对所述待评分简答题进行评分。

可选地，所述对所述作答答案基于预设分词算法进行分词处理，获得多个答案关键词的步骤包括：

对所述作答答案进行预处理，识别所述作答答案中的标点符号、数字和英文字符串，并将所述作答答案中的所述标点符号、数字和英文字符串过滤，获得多个汉字串；

基于预设分词算法分别对多个所述汉字串进行分词处理，获得多个汉字词语，并统计多个所述汉字词语的出现频次，生成多个带频次标识的答案关键词。

可选地，所述基于预设分词算法分别对多个所述汉字串进行分词处理，获得多个汉字词语的步骤包括：

对每一所述汉字串，基于所述预设分词算法判断所述汉字串是否为单字符，若为单字符，则将所述汉字串生成为汉字词语；

若非单字符，则将排列在所述汉字串第一顺位的汉字作为待处理汉字，并根据所述待处理汉字在预设字典中的字指针，查找所述预设字典中由所述待处理汉字所形成参考词组的词组长度，其中，所述待处理汉字为所述参考词组的第一个汉字；

判断所述汉字串的长度是否小于所述词组长度，若小于所述词组长度，则判断所述词组长度是否等于预设长度，若等于预设长度，则基于所述待处理汉字和所述预设长度，对所述汉字串分词，获得未登录的汉字词语；

若所述词组长度不等于预设长度，则更新所述字指针，并执行根据所述待处理汉字在预设字典中的字指针，查找所述预设字典中由所述待处理汉字所形成参考词组的词组长度的步骤。

可选地，所述判断所述汉字串的长度是否小于所述词组长度的步骤之后包括：

若所述汉字串的长度大于或等于所述词组长度，则根据所述词组长度截取所述汉字串中的目标字串，并根据所述待处理汉字在预设字典中的词条指针，从所述预设字典中查找与所述词组长度匹配的至少一个目标词条；

判断所述目标字串和至少一个所述目标词条是否匹配，若匹配，则将所述目标字串生成为汉字词语，并基于所述目标字串更新所述汉字串，执行基于所述预设分词算法判断所述汉字串是否为单字符的步骤；

若所述目标字串和所述目标词条不匹配，则执行判断所述词组长度是否等于预设长度的步骤。

可选地，所述基于所述待处理汉字和所述预设长度，对所述汉字串分词，获得未登录的汉字词语的步骤之后包括：

将未登录的汉字词语传输到预设审核账号进行审核，并在审核通过后，将未登录的所述汉字词语添加到预设字典。

可选地，所述将各所述关键词向量与参考向量集对比，确定各所述答案关键词的正确率的步骤包括：

对每一所述关键词向量，将所述关键词向量与所述参考向量集中的各向量元素分别对比，生成所述关键词向量分别与各所述向量元素的匹配度值；

在各所述匹配度值之间进行对比，确定数值最大的目标匹配度值，并根据所述目标匹配度值生成与所述关键词向量对应的答案关键词的正确率。

可选地，所述根据所述目标匹配度值生成与所述关键词向量对应的答案关键词的正确率的步骤包括：

判断与所述关键词向量对应答案关键词的类型是否为恒定型，若为恒定型，则在所述目标匹配度值为恒定参考值时，将所述正确率生成为预设最高正确率，以及在所述目标匹配度值为非恒定参考值时，将所述正确率生成为预设最低正确率；

若所述类型非恒定型，则基于所述目标匹配度值与恒定参考值之间的比例关系，生成所述正确率。

可选地，所述根据各所述答案关键词的正确率，确定所述作答答案的总正确率的步骤包括：

读取与各所述答案关键词分别对应的关键词权重，以及与各所述答案关键词携带的频次标识分别对应频次系数；

基于各所述答案关键词的关键词权重和频次系数，分别对各所述答案关键词的正确率加权处理，生成所述作答答案的总正确率。

进一步地，为实现上述目的，本发明还提供一种基于关键字分词的简答题评分终端，所述基于关键字分词的简答题评分终端包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的控制程序，所述控制程序被所述处理器执行时实现如上所述的基于关键字分词的简答题评分方法的步骤。

进一步地，为实现上述目的，本发明还提供一种可读存储介质，所述可读存储介质上存储有控制程序，所述控制程序被处理器执行时实现如上所述的基于关键字分词的简答题评分方法的步骤。

本发明的基于关键字分词的简答题评分方法、终端及可读存储介质，将需要评分的简答题作为待评分简答题，并预先设置预设分词算法，在获取到待评分简答题的作答答案后，对该作答答案依据预设分词算法进行分词处理，获得多个答案关键词；进而将多个答案关键词均转换为关键词向量，与作为简答题参考答案的参考向量集对比，确定各答案关键词的正确率；由各答案关键词的正确率，确定作答答案的总正确率，并依据总正确率对待评分简答题进行评分。其中，预设分词算法依据长词优先的原则进行分词，使分出来的词尽可能的少，减少了分词次数，且降低了词语歧义，有利于分词效率和准确性的提高；同时，还结合划分的多个答案关键词的正确率确定做题答案的总正确率进行评分，实现从多个关键字的角度，综合多方面的信息进行评分，提高评分准确性。

附图说明

图1为本发明基于关键字分词的简答题评分终端实施例方案涉及的硬件运行环境的结构示意图；

图2为本发明基于关键字分词的简答题评分方法第一实施例的流程示意图；

图3为本发明基于关键字分词的简答题评分方法的预设字典中词组的存储结构示意图；

图4为本发明基于关键字分词的简答题评分方法第三实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供一种基于关键字分词的简答题评分终端。

请参照图1，图1为本发明基于关键字分词的简答题评分终端实施例方案涉及的硬件运行环境的结构示意图。

如图1所示，该基于关键字分词的简答题评分终端还可以包括处理器1001，例如CPU，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。

本领域技术人员可以理解，图1中示出的基于关键字分词的简答题评分终端的硬件结构并不构成对基于关键字分词的简答题评分终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及控制程序。其中，操作系统是管理和控制基于关键字分词的简答题评分终端与软件资源的程序，支持网络通信模块、用户接口模块、控制程序以及其他程序或软件的运行；网络通信模块用于管理和控制网络接口1004；用户接口模块用于管理和控制用户接口1003。

在图1所示的基于关键字分词的简答题评分终端硬件结构中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；处理器1001可以调用存储器1005中存储的控制程序，并执行以下操作：

进一步地，所述对所述作答答案基于预设分词算法进行分词处理，获得多个答案关键词的步骤包括：

进一步地，所述基于预设分词算法分别对多个所述汉字串进行分词处理，获得多个汉字词语的步骤包括：

进一步地，所述判断所述汉字串的长度是否小于所述词组长度的步骤之后；处理器1001可以调用存储器1005中存储的控制程序，并执行以下操作：

进一步地，所述基于所述待处理汉字和所述预设长度，对所述汉字串分词，获得未登录的汉字词语的步骤之后；处理器1001可以调用存储器1005中存储的控制程序，并执行以下操作：

进一步地，所述将各所述关键词向量与参考向量集对比，确定各所述答案关键词的正确率的步骤包括：

进一步地，所述根据所述目标匹配度值生成与所述关键词向量对应的答案关键词的正确率的步骤包括：

进一步地，所述根据各所述答案关键词的正确率，确定所述作答答案的总正确率的步骤包括：

本发明基于关键字分词的简答题评分终端的实施方式与下述基于关键字分词的简答题评分方法各实施例基本相同，在此不再赘述。

本发明提供一种基于关键字分词的简答题评分方法，参照图2，图2为本发明基于关键字分词的简答题评分方法第一实施例的流程示意图。

本发明实施例提供了基于关键字分词的简答题评分方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。具体地，本实施例基于关键字分词的简答题评分方法包括：

步骤S10，获取待评分简答题的作答答案，并对所述作答答案基于预设分词算法进行分词处理，获得多个答案关键词；

本实施例中基于关键字分词的简答题评分方法应用于基于关键字分词的简答题评分终端，终端内预先设置有预设分词算法，考生通过考试系统对简答题进行作答，形成作答答案传输到终端。终端将考生作答后需要进行评分的简答题作为待评分简答题，并在获取其作答答案后，对该作答答案依据预设分词算法进行分词处理，得到多个答案关键词。

需要说明的是，除了对考生在考试系统作答的简答题评分之外，还可以对考生手写的简答题进行评分，以减轻教师对手写答案评分的负担和提高评分的准确率。具体地，在获取到待评分简答题的作答答案之后，判断作答答案的类型是否为手写类型，若为手写类型，则基于预设识别模型将作答答案转换为基于预设输入法形成的电子类型；若作答答案的类型非手写类型，则对作答答案基于预设分词算法进行分词处理。

其中，预设识别模型为预先依据手写样本数据训练得到的模型，在通过作答答案的字体判断出作答答案的类型为手写类型后，通过预设识别模型识别手写作答答案的文字，并将识别的文字转换为由预设输入法形成的电子类型文字，以便于预设分词算法的分词处理。预设输入法为各种用于形成电子文字的输入法，具体类型可不做限制。反之，若经确定作答答案的类型非手写类型，而是由任意一种输入法形成的电子作答答案，则可直接对该作答答案依据预设分词算法进行分词处理。

步骤S11，对所述作答答案进行预处理，识别所述作答答案中的标点符号、数字和英文字符串，并将所述作答答案中的所述标点符号、数字和英文字符串过滤，获得多个汉字串；

步骤S12，基于预设分词算法分别对多个所述汉字串进行分词处理，获得多个汉字词语，并统计多个所述汉字词语的出现频次，生成多个带频次标识的答案关键词。

可理解地，作答答案中除了有汉字形成的句子外，还包含有标点符号、英文或者数字等；并且，标点符号、英文或数字可用于句子句意的划分，故可据此设置预处理机制。对作答答案进行预处理，识别作答答案中包含的标点符号、数字和英文字符串，进而将识别到的标点符号、数字和英文字符串从作答答案中剔除过滤，将过滤标点符号、数字和英文字符串后的作答答案形成为多个汉字串，每个汉字串为由标点符号、数字和英文字符串之间间隔的文字形成，如相邻逗号与句号之间间隔的文字形成一个汉字串，或者逗号与语句中数字之间间隔的文字形成一个汉字串。

进一步地，对于每个汉字串，均通过预设分词算法进行分词处理，得到多个汉字词语。其中，预设分词算法可以是正向最大匹配算法优化后的算法，也可以是逆向最大匹配算法优化后算法。进而对分词得到的多个汉字词语进行计数统计，得到各汉字词语的出现频次；并且，除了对完全相同的汉字词语统计外，还将含义相同的汉字词语作为相同的词语统计。例如，若获得的汉字词语中包括词语“阳光”两个，包括词语“太阳光”一个，则统计汉字词语“阳光”的出现频次为3次。在得到各个汉字词语的出现频次后，对各个汉字词语进行归类；将表达相同或相近含义的汉字词语归为一类，并用该类中某一个汉字词语作为答案关键词；进而将该类的出现频次生成为频次标识添加到答案关键词中，以此，生成多个带频次标识的答案关键词。例如，对于上述阳光和太阳光的类型，以阳光作为该类的答案关键词，并将统计得到的出现频次3生成为频次标识添加到该答案关键词中，形成带频次标识的答案关键词。通过各答案关键词带的频次标识，体现各答案关键词在作答答案中的出现次数，由出现次数的多少反映作答答案的侧重点，答案关键词出现次数越多越是作答答案的侧重点。

步骤S20，将多个所述答案关键词均转换为关键词向量，并将各所述关键词向量与参考向量集对比，确定各所述答案关键词的正确率；

更进一步地，将每个答案关键词依据预先设定的向量转换规则转换成关键词向量，由关键词向量体现每个答案关键词。并且，预先针对待评分简答题设定参考答案的多个参考关键词，对多个参考关键词分别进行向量转换，得到多个向量形成参考向量集；其中，一个参考关键词转换的向量作为参考向量集中的一个向量元素。

进一步地，将各个关键词向量分别与参考向量集对比，由各个关键词向量与参考向量集中向量的匹配程度，确定各个答案关键词与参考关键词之间的相似度高低，由相似度搞定确定各个关键词的正确率。当关键词向量与参考向量集中向量的匹配程度越高，则答案关键词与参考关键词之间的相似度越高，表征答案关键词越接近参考关键词，答案关键词的正确率越高。反之则说明答案关键词与参考关键词差别较大，答案关键词的正确率越低。

步骤S30，根据各所述答案关键词的正确率，确定所述作答答案的总正确率，并根据所述作答答案的总正确率，对所述待评分简答题进行评分。

更进一步地，在得到每个答案关键词的正确率之后，即可结合各个答案关键词的正确率来确定作答答案的总正确率，由总正确率对待评分简答题评分。并且，考虑到对于待评分简答题的多个参考关键词，结合考查知识点具有不同的重要程度；越体现考查知识点的参考关键词，重要程度越高；故为了体现由各个答案关键词所形成作答答案的正确性，本实施例针对参考关键词设定不同的权重，将各个参考关键词的权重与各个答案关键词的正确率结合，确定作答答案的正确率。具体地，所述根据各所述答案关键词的正确率，确定所述作答答案的总正确率的步骤包括：

步骤S31，读取与各所述答案关键词分别对应的关键词权重，以及与各所述答案关键词携带的频次标识分别对应频次系数；

步骤S32，基于各所述答案关键词的关键词权重和频次系数，分别对各所述答案关键词的正确率加权处理，生成所述作答答案的总正确率。

进一步地，在将每一关键词向量与参考向量集中向量对比时，确定的与答案关键词相似度最高的参考关键词，即为与答案关键词匹配的参考关键词。读取该参考关键词的权重作为与答案关键词对应的关键词权重，同时依据分词过程中针对答案关键词添加的频次标识，读取频次标识对应的频次系数，由频次系数体现作答答案的侧重点。在各个答案关键词均读取到对应的关键词权重和频次系数后，用各个答案关键词的关键词权重和频次系数分别对各自的正确率进行加权求和处理，加权求和的结果即为作答答案的总正确率。例如，确定的答案关键词包含a、b、c，各自的正确率分别为0.8、0.7和0.6，各自对应的关键词权重分别为0.6、0.2和0.2，各自对应的频次系数分别为0.5、0.7和0.4，则加权处理的结果为0.8*0.6*0.5+0.7*0.2*0.7+0.6*0.2*0.4＝0.368，即该作答答案的总正确率为0.368。

更进一步地，在由总正确率确定对待评分简答题评分时，依据总正确率占待评分简答题的总分值比例进行，用总正确率与总分值相乘得到的结果即为对待评分简答题的作答答案的评分。如对于上述0.368的总正确率，若该待评分简答题的总分值为6分，则总正确率0.368占总分值6的比例为2.316，故对该待评分简答题作答答案的评分为2.316分。

本发明的基于关键字分词的简答题评分方法，将需要评分的简答题作为待评分简答题，并预先设置预设分词算法，在获取到待评分简答题的作答答案后，对该作答答案依据预设分词算法进行分词处理，获得多个答案关键词；进而将多个答案关键词均转换为关键词向量，与作为简答题参考答案的参考向量集对比，确定各答案关键词的正确率；由各答案关键词的正确率，确定作答答案的总正确率，并依据总正确率对待评分简答题进行评分。其中，预设分词算法依据长词优先的原则进行分词，使分出来的词尽可能的少，减少了分词次数，且降低了词语歧义，有利于分词效率和准确性的提高；同时，还结合划分的多个答案关键词的正确率确定做题答案的总正确率进行评分，实现从多个关键字的角度，综合多方面的信息进行评分，提高评分准确性。

进一步地，基于本发明基于关键字分词的简答题评分方法的第一实施例，提出本发明基于关键字分词的简答题评分方法第二实施例。

所述基于关键字分词的简答题评分方法第二实施例与所述基于关键字分词的简答题评分方法第一实施例的区别在于，所述基于预设分词算法分别对多个所述汉字串进行分词处理，获得多个汉字词语的步骤包括：

步骤S121，对每一所述汉字串，基于所述预设分词算法判断所述汉字串是否为单字符，若为单字符，则将所述汉字串生成为汉字词语；

步骤S122，若非单字符，则将排列在所述汉字串第一顺位的汉字作为待处理汉字，并根据所述待处理汉字在预设字典中的字指针，查找所述预设字典中由所述待处理汉字所形成参考词组的词组长度，其中，所述待处理汉字为所述参考词组的第一个汉字；

步骤S123，判断所述汉字串的长度是否小于所述词组长度，若小于所述词组长度，则判断所述词组长度是否等于预设长度，若等于预设长度，则基于所述待处理汉字和所述预设长度，对所述汉字串分词，获得未登录的汉字词语；

步骤S124，若所述词组长度不等于预设长度，则更新所述字指针，并执行根据所述待处理汉字在预设字典中的字指针，查找所述预设字典中由所述待处理汉字所形成参考词组的词组长度的步骤。

本实施例通过由正向最大匹配算法优化后的预设分词算法，对各个汉字串分词处理。其中，预先设定用于分词的预设字典，预设字典中包含大量词组，通过识别汉字串中是否存在预设字典中的词组，对汉字串进行分词。具体地，先将预设字典加载到终端的内存中，内存中设置有哈希表，在哈希表中存储各个词组的首字，并形成词索引表按照深度优先的方式存储词长和词条。具体的存储结构如图3所示。

进一步地，将每一个汉字串作为预设分词算法的输入，由预设分词算法依据预设字典逐一分词处理，得到汉字词语的分词结果输出。并且输出结果包括划分的汉字词组存在于预设字典中和不存在于预设字典两种情形，对于作为输入的汉字串可用标识s1表示，输出结果存在于预设字典中的汉字词组用标识s2表示，输出结果不存在与预设字典中的汉字词组用s3表示，划分的汉字词组之间用“/”间隔。

进一步地，先对预设分词算法初始化，将汉字串赋值给s1，同时将s2和s3的初始值设置为空值。此后判断汉字串s1是否是空值，若是空值，则直接输出空值s2和s3。若非空值则判断汉字串是否是单字符，即判断s1的长度S1Len是否等于1，若是单字符，则直接将汉字串生成为汉字词语。若非单字符，则将汉字串中的第一个汉字作为待处理汉字，查找哈希表中该待处理汉字所在的位置，进而依据该位置在预设字典中查找指向以待处理汉字开头的词组的长度Wlen的指针PLen，作为待处理汉字在预设字典中的字指针。

此后，依据字指针的指向，查找待处理汉字所形成参考词组的词组长度，其中，对于待处理汉字所形成的参考词组，待处理汉字为参考词组的第一个汉字。并且，待处理汉字所形成参考词组的词组长度多种多样，如由待处理汉字为第一个汉字形成的包括2个汉字的参考词组，或包含6个汉字的参考词组。对于此类不同词组长度的参考词组，由不同的字指针进行指向，且词组长度越长对应的字指针值越小，如图3所示的，对于待处理汉字“辩”，包含有6个汉字词组长度的参考词组、4个汉字词组长度的参考词组、3个汉字词组长度的参考词组和2个汉字词组长度的参考词组；其对应的字指针分别从左到右，按照指针值从小到大排列。按照字指针的排列顺序，选取排列在前字指针，查找其指向的由待处理汉字所形成参考词组的词组长度。具体到图3中的待处理汉字“辩”，则依据其字指针，查找的词组长度为6。

进一步地，将汉字串的长度与查找的词组长度对比，判断其是否小于词组长度。若小于则将词组长度与预先设定的预设长度对比，判断词组长度是否等于预设长度。若等于则依据待处理汉字和预设长度，对汉字串分词，得到未登录的汉字词语。其中，预设长度可依据需求设定，优选为2；未登录的汉字词语为未收录到预设字典中的词语。在对汉字串分词时，将待处理汉字划分到预设分词算法的输出s2中，同时从汉字串截取长度为预设长度的词语划分到预设分词算法的输出s3中，生成未登录的汉字词语。并且，对汉字串更新，将待处理汉字从汉字串中剔除，形成新的待处理汉字，从判断其是否为空值开始循环处理。

需要说明的是，对于未登录的汉字词语，设置有将其添加到预设字典的机制，以便于后续分词使用。具体地，预先设置用于审核未登录的汉字词语是否适合添加到预设字典的预设审核账号，将未登录的汉字词语传输到该预设审核账号进行审核，判断该未登录的汉字词语是否适合添加到预设字典。若适合则对未登录的汉字词语添加审核通过标识，反之则添加审核未通过标识。终端若检测到未登录的汉字词语添加有审核通过标识，则将未登录的汉字词语添加到预设字典，以增加预设字典的词汇量，供后续分词使用。

更进一步地，若经判断词组长度不等于预设长度，则将字指针向后更新一位。例如，对于上述待处理汉字“辩”，若当前字指针指向的是6个汉字词组长度的参考词组，则更新为指向4个汉字词组长度的参考词组。进而根据更新后的字指针，查找对应的词组长度，即查找的词组长度为4。此后，将汉字串的长度与新查找到的词组长度对比，通过再次判断汉字串的长度与查找到的词组长度之间的大小关系，来对汉字串进行分词。

可理解地，因词组长度越长对应的字指针值越小，故随着字指针的更新，字指针值的增加，词组长度逐步减小，使得汉字串的长度不再小于词组长度。对于汉字串的长度大于或等于词组长度，本实施例采用与汉字串的长度小于词组长度的不同方式进行处理。

具体地，所述判断所述汉字串的长度是否小于所述词组长度的步骤之后包括：

步骤S125，若所述汉字串的长度大于或等于所述词组长度，则根据所述词组长度截取所述汉字串中的目标字串，并根据所述待处理汉字在预设字典中的词条指针，从所述预设字典中查找与所述词组长度匹配的至少一个目标词条；

步骤S126，判断所述目标字串和至少一个所述目标词条是否匹配，若匹配，则将所述目标字串生成为汉字词语，并基于所述目标字串更新所述汉字串，执行基于所述预设分词算法判断所述汉字串是否为单字符的步骤；

步骤S127，若所述目标字串和所述目标词条不匹配，则执行判断所述词组长度是否等于预设长度的步骤。

进一步地，若随着字指针的更新，使得对比汉字串的长度大于或等于词组长度，则从汉字串中截取长度与词组长度一致的目标字串。并且依据待处理汉字在预设字典中的词条指针，从预设字典中查找长度与词组长度一致的至少一个目标词条。例如，若汉字串为“万有引力定律”，词组长度为4，则截取的目标字串为“万有引力”；同时从预设字典中查找词组长度为4的目标词条“万里长城”、“万寿无疆”、“万有引力”等。

更进一步地，将目标字串和目标词条对比，判断目标词条中是否存在任意一个目标词条与目标字串匹配。若存在任意一个目标词条与目标字串匹配，则目标字串从汉字串中划分出来，形成为汉字词语。此后，依据目标字串更新汉字串，将目标字串从汉字串中剔除，剩余后的汉字串即是更新后的汉字串，对于更新后的汉字串继续基于预设分词算法判断汉字串是否为空值，以及是否为单字符，以对汉字串持续分词。

进一步地，若经对比确定所有目标词条均与目标字串均不匹配，则判断字指针更新后，词组长度是否减少为等于预设长度，通过判断词组长度与预设长度是否相等，来持续对汉字串进行分词。

按照上述方式循环对汉字串处理，直到对汉字串分词完成。具体的分词步骤可依据以下方式执行：

1)、初始化：为S1赋初值,S2、S3初始值为空；

2)、S1是否为空，如果不为空，继续，否则转15)；

3)、S1是否为单字符，即S1的长度S1Len是否等1。如果不是单字符，继续，否则转14)；

4)、取S1左边第1个字W，通过Hash(W)查找到W在哈希表中位置,根据W在哈希表中位置得到指向以W开头的词的长度WLen的字指针PLen；

5)、根据PLen找到词组长度WLen；

6)、判断S1Len是否小于WLen，如果不小于，继续，否则转11)；

7)、根据字指针PLen找到指向预设字典中指向词条的词条指针Qw；

8)、取S1中长为WLen的目标字串Word与词典中长为WLen的目标词条逐一匹配，即与预设词典中Qw指向的词条相匹配，匹配过程中Qw后移，遇到“”结束移动；

9)、判断长为WLen的目标字串是否与预设词典中同长度的一个目标词条相匹配，若匹配成功，继续，否则转11)；

10)、S2＝S2+Word+″/″；S1＝S1-Word；转2)；

11)、判断WLen是否为2，如果是，继续，否则转13)；

12)、S2＝S2+W+″/″；S3＝S3+Word；S1＝S1-W；转2)；

13)、PLen++；转5)；

14)、S2＝S2+S1+″/″；

15)、输出S2、S3。

本实施例通过预设分词算法每次从汉字串的左边划分出一个汉字词语,如果一个短词是一个长词的一部分，则把这个长词作为汉字词语划分出来，使得划分的汉字词语尽可能地长。比如“中华人民共和国”,这个词包含了“中华”、“人民”、“共和国”和“中华人民共和国”四个词，依据预设分词算法，可把这样的长词作为一整个汉字词语划分出来。以此，体现了“长词优先”的原则，使分出来的词的数量尽可能地少，减少了分词数量，有利于分词效率的提高以及减少了歧义。

进一步地，请参照图4，基于本发明基于关键字分词的简答题评分方法的第一或第二实施例，提出本发明基于关键字分词的简答题评分方法第三实施例。

所述基于关键字分词的简答题评分方法第三实施例与所述基于关键字分词的简答题评分方法第一或第二实施例的区别在于，所述将各所述关键词向量与参考向量集对比，确定各所述答案关键词的正确率的步骤包括：

步骤S33，对每一所述关键词向量，将所述关键词向量与所述参考向量集中的各向量元素分别对比，生成所述关键词向量分别与各所述向量元素的匹配度值；

步骤S34，在各所述匹配度值之间进行对比，确定数值最大的目标匹配度值，并根据所述目标匹配度值生成与所述关键词向量对应的答案关键词的正确率。

本实施例通过参考向量集的各向量元素中与关键词向量匹配程度最高的向量元素，确定答案关键词的正确率。具体地，针对每一个关键词向量，将其与参考向量集中的各个向量元素逐一对比，获得关键词向量与参考向量集中每个向量元素之间的匹配度值，由匹配度值体现关键词向量与向量元素之间的相似程度高低。其中，匹配度值越大，则两者之间的相似程度越高，反之则越低。

进一步地，将各个匹配度值之间对比，确定其中数值最大的目标匹配度值；其中，生成该目标匹配度值的向量元素即是与关键词向量相似程度最高的向量。进而依据目标匹配度值体现的向量元素与关键词向量之间的相似度大小，确定与关键词向量对应答案关键词的正确率。具体地，所述根据所述目标匹配度值生成与所述关键词向量对应的答案关键词的正确率的步骤包括：

步骤S341，判断与所述关键词向量对应答案关键词的类型是否为恒定型，若为恒定型，则在所述目标匹配度值为恒定参考值时，将所述正确率生成为预设最高正确率，以及在所述目标匹配度值为非恒定参考值时，将所述正确率生成为预设最低正确率；

步骤S342，若所述类型非恒定型，则基于所述目标匹配度值与恒定参考值之间的比例关系，生成所述正确率。

可理解地，试卷中包含的简答题类型多种多样，至少包括答案表达方式唯一的简答题，也包括答案表达方式不唯一的简答题。前者例如对数量进行简答，如问笼子中有多少只兔子，则答案为某一不变的数值。后者例如对观点论述进行简答，则答案是相对变化的内容。对于此，本实施例确定答案关键词的正确率具有不同的方式。

具体地，在依据目标匹配度值生成答案关键词正确率的过程中，将答案关键词所来源待评分简答题的类型作为答案关键词的类型，判断该答案关键词的类型是否属于恒定型，即判断待评分简答题的类型是否为答案表达方式唯一的简答题。若经判断答案关键词的类型为恒定型，即简答题的答案表达方式唯一，此时继续判断目标匹配度值是否是恒定参考值。该恒定参考值表征了关键词向量与参考向量集中答案向量元素之间的完全匹配性，说明待评分简答题的作答答案正确；如待评分简答题的参考答案为数值m，若关键词向量与参考向量集中由数值m所形成答案向量元素之间完全相同，则判定两者生成的目标匹配度值为恒定参考值，反之若两者之间不完全相同，则判定两者生成的目标匹配度非恒定值。

进一步地，在确定目标匹配度值为恒定参考值，说明待评分简答题的答案正确后，将正确率生成为预设最高正确率，即正确率100％；反之若确定目标匹配度值非恒定参考值，说明待评分简答题的答案错误后，将正确率生成为预设最低正确率，即正确率0％。

更进一步地，若经确定答案关键词的类型为非恒定型，即简答题的答案表达方式不唯一，此时由目标匹配度值与恒定参考值之间的比例关系，生成正确率。在目标匹配度值与恒定参考值之间做乘积运算，得到的运算结果即为答案关键词的正确率，用以确定总正确率，对带评分简答题评分。

本实施例通过参考向量集的各向量元素中与关键词向量匹配程度最高的向量元素，确定答案关键词的正确率；并且，在确定答案关键词的正确率的过程中，结合了待评分简答题的类型考虑，有利于准确确定答案关键词的正确率，进而确保了待评分简答题的准确评分。

本发明实施例还提出一种可读存储介质。所述可读存储介质上存储有控制程序，所述控制程序被所述处理器执行时实现如上所述基于关键字分词的简答题评分方法的步骤。

本发明可读存储介质可以为计算机可读存储介质，其具体实施方式与上述基于关键字分词的简答题评分方法各实施例基本相同，在此不再赘述。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，这些均属于本发明的保护之内。

Claims

1.一种基于关键字分词的简答题评分方法，其特征在于，所述基于关键字分词的简答题评分方法包括：

获取待评分简答题的作答答案，并对所述作答答案进行预处理，识别所述作答答案中的标点符号、数字和英文字符串，并将所述作答答案中的所述标点符号、数字和英文字符串过滤，获得多个汉字串；

对每一所述汉字串，基于预设分词算法判断所述汉字串是否为单字符，若为单字符，则将所述汉字串生成为汉字词语；

若所述目标字串和所述目标词条不匹配，则执行判断所述词组长度是否等于预设长度的步骤；

若所述汉字串的长度小于所述词组长度，则判断所述词组长度是否等于预设长度，若等于预设长度，则基于所述待处理汉字和所述预设长度，对所述汉字串分词，获得未登录的汉字词语；

若所述词组长度不等于预设长度，则更新所述字指针，并执行根据所述待处理汉字在预设字典中的字指针，查找所述预设字典中由所述待处理汉字所形成参考词组的词组长度的步骤；

统计多个所述汉字词语的出现频次，生成多个带频次标识的答案关键词；

2.如权利要求1所述基于关键字分词的简答题评分方法，其特征在于，所述基于所述待处理汉字和所述预设长度，对所述汉字串分词，获得未登录的汉字词语的步骤之后包括：

3.如权利要求1-2任一项所述基于关键字分词的简答题评分方法，其特征在于，所述将各所述关键词向量与参考向量集对比，确定各所述答案关键词的正确率的步骤包括：

4.如权利要求3所述基于关键字分词的简答题评分方法，其特征在于，所述根据所述目标匹配度值生成与所述关键词向量对应的答案关键词的正确率的步骤包括：

5.如权利要求1-2任一项所述基于关键字分词的简答题评分方法，其特征在于，所述根据各所述答案关键词的正确率，确定所述作答答案的总正确率的步骤包括：

6.一种基于关键字分词的简答题评分终端，其特征在于，所述基于关键字分词的简答题评分终端包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的控制程序，所述控制程序被所述处理器执行时实现如权利要求1-5中任一项所述的基于关键字分词的简答题评分方法的步骤。

7.一种可读存储介质，其特征在于，所述可读存储介质上存储有控制程序，所述控制程序被处理器执行时实现如权利要求1-5中任一项所述的基于关键字分词的简答题评分方法的步骤。