CN109829155B

CN109829155B - 关键词的确定方法、自动评分方法、装置、设备及介质

Info

Publication number: CN109829155B
Application number: CN201910049180.5A
Authority: CN
Inventors: 金戈; 徐亮
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-01-18
Filing date: 2019-01-18
Publication date: 2024-03-22
Anticipated expiration: 2039-01-18
Also published as: WO2020147238A1; CN109829155A

Abstract

本发明公开了一关键词的确定方法、自动评分方法、装置、设备及介质；在关键词的确定阶段，通过获取第一样本答题数据，对第一样本答题数据中的样本答题信息进行分词处理和汇总，得到样本分词集；然后对样本答题信息进行特征转化，得到样本训练特征；根据样本训练特征和第一评分值对决策树模型进行训练，得到决策树样本模型；并从决策树样本模型中提取样本关键词；在自动评分方法阶段，通过从待评分答题信息中提取关键词，得到核心关键词；通过目标考点对核心关键词进行特征转化，得到待评分考点特征后输入到决策树参考模型中,得到待评分答题信息的准确分值；不但提高了关键词的泛化能力和准确性，还实现了对考生答题内容的高效准确评分。

Description

关键词的确定方法、自动评分方法、装置、设备及介质

技术领域

本发明涉及智能决策领域，尤其涉及一种关键词的确定方法、自动评分方法、装置、计算机设备及存储介质。

背景技术

随着社会的发展，竞争越来越大，而考试逐渐成为了衡量一个人学到多少知识掌握多少技能的一项常规手段，因此一系列对考生的答题内容进行评分的系统也随着考试的盛行而发展起来。随着计算机技术的发展，对于考生客观题的答题内容已经可实现全自动的计算机在线阅卷并实时评分，但是基于主观题存在一定的随机性以及记忆成分，若根据同样的评分方法，采用计算机对考生主观题的答题内容进行评分，则极易发生误判或者产生误差。此外，如果采用人工阅卷，当考生人群数量较大时，人工评分的工作量就会变得非常大，操作也会变得非常困难。目前，对考生主观题的答题内容进行评分的方法通常是预先通过评分规则信息，人工确立考点内容以及相关关键词，然后根据考点内容以及相关关键词，通过正则匹配方法识别答题内容，对考生的答题内容进行评分。然而，只通过评分规则信息而不考虑其它考生对同一主观题的答题情况，所确定的考点以及相关关键词不但泛化能力较低，且准确性不高。因此也会导致在后续对考生的答题内容进行评分时，得出的最终评分结果出现偏差，而无法体现考生的真实水平。

发明内容

本发明实施例提供一种关键词的确定方法、装置、设备及存储介质，以解决关键词泛化能力低、准确性不高的问题。

本发明实施例提供一种自动评分方法、装置、设备及存储介质，以解决无法对考生的答题内容进行高效准确评分的问题。

一种关键词的确定方法，包括：

获取N个第一样本答题数据，每一所述第一样本答题数据包括样本答题信息和第一评分值，N为正整数；

对每一所述第一样本答题数据的所述样本答题信息进行分词处理，得到每一所述第一样本答题数据的样本分词；

对每一所述第一样本答题数据的所述样本分词进行汇总，得到样本分词集；

采用所述样本分词集对每一所述第一样本答题数据的所述样本答题信息进行特征转化，得到样本训练特征；

根据所述样本训练特征和对应的第一评分值对决策树模型进行训练，得到决策树样本模型；

从所述决策树样本模型中提取样本关键词。

一种自动评分方法，包括：

获取待评分答题信息；

对所述待评分答题信息进行关键词提取，得到核心关键词；

采用目标考点对所述核心关键词进行特征转化，得到待评分考点特征；其中，所述目标考点是采用权利要求2所述的关键词的确定方法所得的；

将所述待评分考点特征输入到预设的决策树参考模型中,得到所述待评分答题信息的准确分值。

一种关键词的确定装置，包括：

第一样本答题数据获取模块，用于获取N个第一样本答题数据，每一所述第一样本答题数据包括样本答题信息和第一评分值，N为正整数；

分词处理模块，用于对每一所述第一样本答题数据的所述样本答题信息进行分词处理，得到每一所述第一样本答题数据的样本分词；

分词汇总模块，用于对每一所述第一样本答题数据的所述样本分词进行汇总，得到样本分词集；

样本特征转化模块，用于采用所述样本分词集对每一所述第一样本答题数据的所述样本答题信息进行特征转化，得到样本训练特征；

决策树样本模型训练模块，用于根据所述样本训练特征和对应的第一评分值对决策树模型进行训练，得到决策树样本模型；

样本关键词提取模块，用于从所述决策树样本模型中提取样本关键词。

一种自动评分装置，包括：

待评分答题信息获取模块，用于获取待评分答题信息；

关键词提取模块，用于对所述待评分答题信息进行关键词提取，得到核心关键词；

待评分考点特征转化模块，用于采用目标考点对所述核心关键词进行特征转化，得到待评分考点特征；其中，所述目标考点是采用权利要求2所述的关键词的确定方法所得的；

输入模块，用于将所述待评分考点特征输入到预设的决策树参考模型中,得到所述待评分答题信息的准确分值。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述关键词的确定方法的步骤，或所述处理器执行所述计算机程序时实现上述自动评分方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述关键词的确定方法的步骤，或所述计算机程序被处理器执行时实现上述自动评分方法的步骤。

上述关键词的确定方法、装置、计算机设备及存储介质，通过获取N个第一样本答题数据，每一第一样本答题数据包括样本答题信息和第一评分值；对每一第一样本答题数据的样本答题信息进行分词处理，得到每一第一样本答题数据的样本分词；对每一第一样本答题数据的样本分词进行汇总，得到样本分词集；然后采用样本分词集对每一第一样本答题数据的样本答题信息进行特征转化，得到样本训练特征；根据样本训练特征和对应的第一评分值对决策树模型进行训练，得到决策树样本模型；最后从决策树样本模型中提取样本关键词，进一步提高了关键词的泛化能力和准确性。

上述自动评分方法、装置、计算机设备及存储介质，通过获取待评分答题信息；对待评分答题信息进行关键词提取，得到核心关键词；然后采用目标考点对核心关键词进行特征转化，得到待评分考点特征；其中，目标考点是采用关键词的确定方法所得的；最后将待评分考点特征输入到预设的决策树参考模型中,得到待评分答题信息的准确分值，实现了对考生的答题内容的高效准确评分。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中关键词的确定方法或自动评分方法的一应用环境示意图；

图2是本发明一实施例中关键词的确定方法的一示例图；

图3是本发明一实施例中关键词的确定方法的另一示例图；

图4是本发明一实施例中关键词的确定装置的一原理框图；

图5是本发明一实施例中关键词的确定装置的另一原理框图；

图6是本发明一实施例中自动评分方法的一示例图；

图7是本发明一实施例中自动评分方法的另一示例图；

图8是本发明一实施例中自动评分方法的另一示例图；

图9是本发明一实施例中自动评分装置的一原理框图；

图10是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一关键词的确定方法，该关键词的确定方法可应用如图1所示的应用环境中。具体地，该关键词的确定方法应用在关键词的确定系统中，该关键词的确定系统包括如图1所示的客户端和服务端，客户端与服务端通过网络进行通信，用于解决根据评分规则信息所确定的考点关键词泛化能力低、准确性不高的问题。其中，客户端又称为用户端，是指与服务端相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种关键词的确定方法，以该方法应用在图1中的服务端为例进行说明，包括如下步骤：

S11：获取N个第一样本答题数据，每一第一样本答题数据包括样本答题信息和第一评分值，N为正整数。

其中，第一样本答题数据指考生的答题数据。每一第一样本答题数据包括样本答题信息和对应的第一评分值，即第一样本答题数据中包括样本答题信息和该样本答题信息进行初步评分后所得的对应的第一评分值。其中，样本答题信息指从评分系统的答题文本上获取的某一主观题的考生的答题信息。可选地，该第一样本答题数据可以从一评分系统中获取。该评分系统可以对样本答题信息进行初步评分，得到第一评分值。优选地，还可预先获取考生在纸质答卷上写入的答题信息，然后对考生在纸质答卷上写入的答题信息进行扫描识别，生成对应的答题文本提交到评分系统上，得到样本答题信息。第一评分值指通过人工评分或者计算机评分的方式，预先对样本答题信息进行初步评分后所得的评分值。该第一样本答题数据还可以是将纸质答卷上写入的答题信息以及人工评分进行扫描识别后获取得到。另外地，第一样本答题数据可以包括一个样本答题信息和对该样本答题信息进行初步评分后所得的一个第一评分值，还可以包括多个样本答题信息和对每一样本答题信息进行初步评分后所得的对应的多个第一评分值。

获取的第一样本答题数据的数量为N个，其中，N为正整数。而N的具体数值可以根据实际需要进行设定。N的数值越高，后续样本关键词提准的准确性会越高，然而提取效率会有所下降，可以在准确度和效率上进行综合考虑进行对N的选取。

S12：对每一第一样本答题数据的样本答题信息进行分词处理，得到每一第一样本答题数据的样本分词。

其中，样本分词指对每一第一样本答题数据的样本答题信息进行分词处理后，所得到的一个个独立的分词。具体地，对每一第一样本答题数据的样本答题信息进行分词处理包括：先采用分词算法对每一第一样本答题数据的样本答题信息进行词汇拆分。可选地，分词算法可以采用基于字符串匹配的分词算法，或者采用基于理解的分词算法，还可以采用基于统计的分词算法实现。优选地，还可通过Java语言的拆分函数，或者通过将样本答题信息导入计算机的EXCEL或PPT等具有自动拆分字符功能的软件实现对每一第一样本答题数据的样本答题信息的自动拆分。然后通过采用Java语言的正则表达式对拆分后的样本答题信息进行筛选，过滤掉一些不具有意义的特定词语，例如：助词、语气词或者连接词等；最后得到每一第一样本答题数据的样本分词。

S13：对每一第一样本答题数据的样本分词进行汇总，得到样本分词集。

其中，样本分词集指对每一第一样本答题数据的样本分词进行统一汇总后所得到的分词集。具体地，获取每一第一样本答题数据的样本分词，然后对获取的每一第一样本答题数据的样本分词进行汇总，得到样本分词集。优选地，若每一第一样本答题数据中包含多个样本答题信息，则在对每一第一样本答题数据的样本分词进行汇总时，需以每一第一样本答题数据的样本答题信息为单位进行汇总，即得到的样本分词集是对应每一样本答题信息的。

具体地，对每一第一样本答题数据的样本分词进行汇总包括：获取每一第一样本答题数据中样本答题信息的样本分词，然后按照从小到大的排列顺序给获取到的每一样本答题信息中的所有样本分词赋予对应的标识号，最后得到按照从小到大的排列顺序分布的样本分词集。例如：样本分词集为E＝{e₁,e₂,e₃,……，e_r}，其中，e₁,e₂,e₃,……，e_r表示该样本分词集所包含的样本分词，1,2,3……r表示每个样本分词所对应的标识号。

优选地，若获取的每一第一样本答题数据的样本分词中存在重复的样本分词，则在对每一第一样本答题数据的样本分词进行汇总前，预先对第一样本答题数据的样本分词进行去重处理，然后再将去重后的每一第一样本答题数据的样本分词进行汇总，得到样本分词集。具体地，可采用Count函数、Editor编辑器或者R语言对每一第一样本答题数据的样本分词进行去重处理。优选地，也可直接将每一第一样本答题数据的样本分词导入计算机的EXCEL表格中，通过EXCEL的高级筛选功能实现对样本分词的自动去重。

S14：采用样本分词集对每一第一样本答题数据的样本答题信息进行特征转化，得到样本训练特征。

其中，样本训练特征指每一第一样本答题数据的样本答题信息进行特征转化后所输出的结果。具体地，通过建立词袋模型的方式，采用样本分词集对每一第一样本答题数据的样本答题信息进行特征转化，得到样本训练特征。在本实施例中，词袋模型指衡量每一第一样本答题数据的样本答题信息出现在样本分词集中的具体情况。具体地，词袋模型的建立可通过使用SKLearn中的CountVectorizer实现。其中，CountVectorizer属于特征数值计算的常见方法。对于每一个训练文本，CountVectorizer只考虑每种词汇在该训练文本中出现的频率，CountVectorizer可通过计数来将一个文档转换为向量，并将提取的词汇进行训练，并生成一个CountVectorizerModel用于存储相应的词汇向量空间。

具体地，采用样本分词集对每一第一样本答题数据的样本答题信息进行特征转化包括：先以样本分词集的数量为基准，建立一组词向量，然后通过正则匹配法，将每一第一样本答题数据的样本答题信息与该样本分词集中的所有样本分词进行匹配；若第一样本答题数据的样本答题信息与样本分词集中的样本分词匹配成功，则词向量中对应的元素值为1，若第一样本答题数据的样本答题信息与样本分词集中的样本分词不匹配，则词向量中对应的元素值为0，最后得到一组由若干个1和0组成的词向量，即样本训练特征。

示例性地，若获有包含B₁,B₂,C₁,C₂,C₃五个样本分词的一样本分词集和B、C两个样本答题信息；样本答题信息B里面包含B₁,B₂两个分词，样本答题信息C里面包含C₁,C₂,C₃三个分词；则采用该样本分词集对样本答题信息B进行特征转化后，得到样本训练特征为[1,1,0,0,0]；采用该样本分词集对样本答题信息C进行特征转化后，得到样本训练特征为[0,0,1,1,1]。

其中，正则匹配法是用于测试正则表达式的应用，其中，正则表达式是对字符串或特殊字符操作的一种逻辑公式，指用事先定义好的一些特定字符、及这些特定字符的组合，组成一个"规则字符串"，这个"规则字符串"用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式，模式描述在搜索文本时要匹配的一个或多个字符串。

S15：根据样本训练特征和对应的第一评分值对决策树模型进行训练，得到决策树样本模型。

其中，决策树样本模型指以词袋模型的特征为基础，根据样本训练特征和对应的第一评分值对决策树模型进行训练后所生成的样本模型。具体地，决策树样本模型的建立过程包括：将样本训练特征和对应的第一评分值输入到决策树模型中，然后通过使用C4.5算法对决策树模型进行训练，生成训练后的决策树样本模型。C4.5算法是一系列用在机器学习和数据挖掘的分类问题中的算法。C4.5算法的目标是监督学习，给定一个数据集，其中的每一个元组都能用一组属性值来描述，每一个元组属于一个互斥的类别中的某一类。C4.5算法可通过学习，找到一个从属性值到类别的映射关系，并且这个映射能用于对新的类别未知的实体进行分类。

进一步地，在建立决策树样本模型前，还需确认决策树样本模型的大小，其中，决策树样本模型的大小是由决策树的深度和节点样本数决定的。可选地，在本实施中，为了保证建立的决策树样本模型不会出现过渡拟合现象，以及保证决策树样本模型的精度，将决策树的最大深度设为5，最小叶节点样本数设为50，分类标准为熵。

S16：从决策树样本模型中提取样本关键词。

其中，样本关键词指决策树样本模型的每一输出节点上所对应的特征属性值。具体地，样本关键词的提取也称决策树样本模型的特征值提取。由于决策树样本模型的每一特征属于决策样本模型中的决策属性，因此决策树样本模型的每一特征值对应的是决策样本模型中决策属性的分支。可以理解地，决策树样本模型中每个分支的输出节点都有对应的样本关键词。

具体地，从决策树样本模型中提取样本关键词可通过先将决策树样本模型读作为一个sourcable对象，然后通过tosource方法把决策树样本模型代码化，再通过分析代码结构得到该决策树样本模型所输出的样本关键词，最后将样本关键词提取出来。

在本实施例中，通过获取N个第一样本答题数据，每一第一样本答题数据包括样本答题信息和第一评分值，对每一第一样本答题数据的样本答题信息进行分词处理，得到样本分词集，然后采用样本分词集对每一第一样本答题数据的样本答题信息进行特征转化，得到样本训练特征，再根据样本训练特征和对应的第一评分值对决策树模型进行训练，得到决策树样本模型，最后从决策树样本模型中提取样本关键词，不但可以提高考点关键词的泛化能力和准确性，保证关键词更加全面，也可以提高后续评分的准确性。

在一实施例中，如图3所示，在从决策树样本模型中提取样本关键词之后，该关键词的确定方法还包括如下步骤：

S17：获取评分规则信息，评分规则信息包括预设考点和每一预设考点对应的预设关键词。

其中，评分规则信息指业务方提供的基本评分依据，包括预设考点和每一预设考点对应的预设关键词。预设考点指业务方提供的评判考生的答题信息是否正确的知识点。预设考点包括评判考生答错的错误考点和评判考生答对的正确考点。可以理解地，该评分规则信息为一个初步的评分标准，可能存在关键词不够准确或者不够全面的问题。可选地，预设考点可以为一个词语、一句话、或者一段话。此外，在本实施中，为了便于区分不同的预设考点，还可预先给每一预设考点赋予不同的标识。具体地，每一预设考点对应的标识可以用阿拉伯数字、英文大写字母或英文小写字母中的至少一种表示。每一预设考点中都包含对应的预设关键词，预设关键词指从预设考点中提取出来的、可直接用于规则量化的词语。可以理解地，一个预设考点中至少包含一个预设关键词。例如：预设考点1为：杜甫是唐代伟大的现实主义诗人；则预设考点1所对应的预设关键词可以为“杜甫”、“唐代”、“现实主义”和“诗人”。

S18：从样本关键词中去除和预设关键词重复的关键词，得到目标关键词。

其中，目标关键词指从样本关键词中提取出来的不同于预设关键词的关键词。具体地，从样本关键词中去除和预设关键词重复的关键词可通过使用C++中的字符比较函数，将样本关键词与预设关键词进行一一比较，然后根据比较结果，去除掉与预设关键词相同的样本关键词，最后将剩下的与预设关键词不同的样本关键词提取出来，作为目标关键词。

S19：发送目标关键词至客户端，获取客户端根据目标关键词返回的考点标签。

其中，考点标签指根据预设考点，给获取目标关键词赋予对应标识号的标签。具体地，将目标关键词发送至客户端后，用户可对获取的目标关键词进行分析，然后根据预设考点，给每一目标关键词赋予与对应的预设考点相同的标识号，得到考点标签发送至服务端。优选地，还可以将每一目标关键词对应的考点标签统一生成考点标签文本后再发送至服务端。

S20：根据考点标签将每一目标关键词加入到对应的预设考点中，得到目标考点。

其中，目标考点指加入目标关键词后的考点。具体地，服务端接收从客户端发送的考点标签文本后，根据考点标签文本中每一目标关键词所对应的标识号，将每一目标关键词加入到对应的相同标识号的预设考点中。可以理解地，目标考点所包含的关键词比预设考点所包含的关键词更丰富更全面。

示例性地，若有预设考点1和预设考点2，预设考点1包括三个预设关键词分别为a₁,a₂,a₃，预设考点2包括三个预设关键词分别为b₁,b₂,b₃,根据步骤S18获取的目标关键词为a₄,a₅,b₄,b₅,，将目标关键词a₄,a₅赋予考点标签为1，将目标关键词b₄,b₅赋予考点标签为2；则根据考点标签将a₄,a₅加入到预设考点1中，将b₄,b₅加入到预设考点2中；最后得到目标考点1所包含的关键词为a₁,a₂,a₃,a₄,a₅，目标考点2所包含的关键词为b₁,b₂,b₃,b₄,b₅。

在本实施例中，通过获取评分规则信息，评分规则信息包括预设考点和每一预设考点对应的预设关键词，从样本关键词中去除和预设关键词重复的关键词，得到目标关键词，发送目标关键词至客户端，然后获取客户端根据目标关键词返回的考点标签，最后根据考点标签将每一目标关键词加入到对应的预设考点中，得到目标考点；进一步丰富了根据评分规则信息所确定的考点所包含的关键词。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种关键词的确定装置，该关键词的确定装置与上述实施例中关键词的确定方法一一对应。如图4所示，该关键词的确定装置包括第一样本答题数据获取模块11、分词处理模块12、分词汇总模块13、样本特征转化模块14、决策树样本模型训练模块15和样本关键词提取模块16。

各功能模块详细说明如下：

第一样本答题数据获取模块11，用于获取N个第一样本答题数据，每一第一样本答题数据包括样本答题信息和第一评分值，N为正整数；

分词处理模块12，用于对每一第一样本答题数据的样本答题信息进行分词处理，得到每一第一样本答题数据的样本分词；

分词汇总模块13，用于对每一第一样本答题数据的样本分词进行汇总，得到样本分词集；

样本特征转化模块14，用于采用样本分词集对每一第一样本答题数据的样本答题信息进行特征转化，得到样本训练特征；

决策树样本模型训练模块15，用于根据样本训练特征和对应的第一评分值对决策树模型进行训练，得到决策树样本模型；

样本关键词提取模块16，用于从决策树样本模型中提取样本关键词。

优选地，如图5所示，该关键词的确定装置，还包括：

评分规则信息获取模块17，用于获取评分规则信息，评分规则信息包括预设考点和每一预设考点对应的预设关键词；

重复关键词去除模块18，用于从样本关键词中去除和预设关键词重复的关键词，得到目标关键词；

考点标签获取模块19，用于发送目标关键词至客户端，获取客户端根据目标关键词返回的考点标签；

目标关键词加入模块20，用于根据考点标签将每一目标关键词加入到对应的预设考点中，得到目标考点。

关于关键词的确定装置的具体限定可以参见上文中对于关键词的确定方法的限定，在此不再赘述。上述关键词的确定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

本发明实施例还提供一自动评分方法，该自动评分方法可应用如图1所示的应用环境中。具体地，该自动评分方法应用在自动评分系统中，该自动评分系统包括如图1所示的客户端和服务端，客户端与服务端通过网络进行通信，用于解决无法对考生的答题内容进行高效准确评分的问题。其中，客户端又称为用户端，是指与服务端相对应，为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图6所示，提供一种自动评分方法，以该方法应用在图1中的服务端为例进行说明，包括如下步骤：

S21：获取待评分答题信息。

其中，待评分答题信息指从考生的答题文本上获取的答题信息。具体地，获取待评分答题信息可以直接从评分系统的答题文本上获取任意一考生的答题信息，或者将任意一考生在纸质答卷上写入的答题信息进行扫描识别后获取得到。

S22：对待评分答题信息进行关键词提取，得到核心关键词。

其中，核心关键词指从获取的待评分答题信息中提取出来的一个个独立的关键词。具体地，对待评分答题信息进行关键词提取包括：先采用分词算法对待评分答题信息进行词汇拆分。可选地，分词算法可以采用基于字符串匹配的分词算法，或者采用基于理解的分词算法，还可以是采用基于统计的分词算法实现。优选地，还可通过Java语言的拆分函数，或者通过将待评分答题信息导入计算机的EXCEL或PPT等具有自动拆分字符功能的软件实现对待评分答题信息的自动拆分。然后通过采用Java语言的正则表达式对拆分后的待评分答题信息进行筛选，过滤掉一些不具有意义的特定词语，例如：助词、语气词或者连接词等。最后将筛选后所得的词语提取出来作为核心关键词。在本实施例中，核心关键词的个数应不少于一个。

S23：采用目标考点对核心关键词进行特征转化，得到待评分考点特征；其中，目标考点是采用上述关键词的确定方法所得的。

其中，待评分考点特征指衡量核心关键词与目标考点中的关键词之间的相似度的一种特征。在本步骤中，目标考点是采用上述实施例中的关键词的确定方法所得的。

采用目标考点对核心关键词进行特征转化包括：先以目标考点的数量为基准，建立一组考点向量，然后通过正则匹配法，将每一核心关键词与目标考点中的关键词进行匹配，根据匹配结果，判断核心关键词是否与目标考点相匹配。具体地，评判核心关键词是否与目标考点相匹配，可根据核心关键词与该目标考点所包含的关键词匹配程度判断。可以为只要核心关键词与目标考点中的任意一个关键词匹配，则认为该核心关键词与对应的目标考点相匹配，也可以为核心关键词与对应的目标考点中的至少两个关键词相匹配，才认为该核心关键词与对应的目标考点相匹配，具体可根据实际情况自定义设置。优选地，若核心关键词与该目标考点中的任意一关键词匹配成功，则表示该核心关键词与目标考点相匹配，在考点向量中对应的元素值为1，若核心关键词与目标考点中的所有关键词都不匹配，则表示该核心关键词与目标考点匹配失败，在考点向量中对应的元素值为0。最后得到一组由若干个1和0组成的考点向量，即待评分考点特征。

S24：将待评分考点特征输入到预设的决策树参考模型中,得到待评分答题信息的准确分值。

其中，准确分值指待评分答题信息经决策树参考模型训练后所得的分值。在本实施例中，决策树参考模型是预设建立好并保存在服务端的后台数据库的,当执行完步骤S23，得到待评分考点特征后，可直接从服务端的数据库调取。

其中，决策树参考模型指是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，它属于一种树状结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。

在本实施例中，通过获取待评分答题信息，对待评分答题信息进行关键词提取，得到核心关键词，然后采用目标考点对核心关键词进行特征转化，得到待评分考点特征；其中，目标考点是采用上述关键词的确定方法所得的；最后将待评分考点特征输入到预设的决策树参考模型中,得到待评分答题信息的准确分值；实现了对考生的答题信息进行高效准确的评分。

在一实施例中，如图7所示，采用目标考点对核心关键词进行特征转化，得到待评分考点特征，包括如下步骤：

S231：获取目标考点对应的有效关键词。

其中，有效关键词指目标考点所包含的所有关键词。具体地，根据上述关键词的确定方法可知，每一目标考点所对应的关键词是已确定好的，因此获取目标考点所对应的有效关键词可直接根据每一目标考点，从每一目标考点中获取对应的有效关键词即可。

S232：通过正则匹配法，将有效关键词与核心关键词进行一一匹配，得到关键词匹配信息。

具体地，通过正则匹配法，将有效关键词与核心关键词进行一一匹配指将有效关键词定义为特定字符，然后将这些由有效关键词组成的特定字符组成一个“规则字符串”，用来表达对核心关键词的一种过滤逻辑，从而匹配出与有效关键词相对应的核心关键词，得到关键词匹配信息。

其中，关键词匹配信息指将有效关键词与核心关键词进行匹配后所得的匹配结果，包括匹配成功和匹配失败。具体地，通过正则匹配法，将有效关键词与核心关键词进行一一匹配，根据匹配结果，得到对应的关键词匹配信息。例如：若获取到10个核心关键词和5个有效关键词，则提取任意一核心关键词，通过正则匹配法，逐一与获取的5个有效关键词进行匹配，在匹配过程中，只要该核心关键词与获取的5个有效关键词中的任意一个有效关键词相匹配，则表示匹配成功，若该核心关键词与获取的5个有效关键词都不匹配，则表示匹配失败；根据上述步骤逐一提取核心关键词，并将提取的核心关键词，通过正则匹配法，逐一与获取的5个有效关键词进行匹配，直至将获取的10个核心关键词与获取5个有效关键词都逐一匹配完成，最后得到关键词匹配信息。

S233：根据关键词匹配信息，为每一核心关键词分配对应的匹配标识。

其中，匹配标识指根据关键词匹配信息，为每一核心关键词自定义赋予的一种标识号，可以为阿拉伯数字、大写字母或小写字母等。具体地，该匹配标识反映了核心关键词与目标关键词的匹配情况。另外地，由于核心关键词与有效关键词匹配成功后，还需明确该有效关键词所对应的考点，因此，在给与有效关键词匹配成功的核心关键词赋予匹配标识时,还需标识上有效关键词所对应的考点标识。此方案对具体的匹配标识不做任何限定。优选地，为了便于与后续待评分考点特征的标识区分，将与有效关键词匹配成功的核心关键词赋予大写字母标识和对应的考点标识，例如A1，大写字母A表示与与有效关键词匹配成功，1表示有效关键词所对应的考点标识；将与有效关键词匹配失败的核心关键词只赋予小写字母标识，例如a，小写字母a表示与有效关键词匹配失败。

S234：根据每一核心关键词的匹配标识，得到待评分考点特征。

具体地，根据每一核心关键词的匹配标识,判断核心关键词与对应的目标考点是否匹配成功，若核心关键词与该目标考点匹配成功，则在考点向量中对应的元素值为0，若核心关键词与该目标考点匹配失败，则在考点向量中对应的元素值为0，最后得到一组由若干个1和0组成的考点向量，即待评分考点特征。

示例性的，若获有6个目标考点，每个目标考点都至少包含1个有效关键词，和5个核心关键词；根据正则匹配法，将5个核心关键词与目标考点中的有效关键词进行一一匹配后得到，只有前三个核心关键词与目标考点匹配成功，则得到待评分考点特征为[1,1,1,0,0,0]。

在本实施例中，通过获取目标考点所对应的有效关键词；通过正则匹配法，将有效关键词与核心关键词进行一一匹配，得到关键词匹配信息；然后根据关键词匹配信息，为每一核心关键词分配对应的匹配标识，最后根据每一核心关键词的匹配标识，得到待评分考点特征；进一步保证了新增的考点关键词的准确性和有效性。

在一实施例中，如图8所示，在将待评分考点特征输入到预设的决策树参考模型中,得到待评分答题信息的输出分值之前，自动评分方法还包括：

S241：获取M个第二样本答题数据，每一第二样本答题数据包括原始答题信息和第二评分值,M为正整数。

其中，第二样本答题数据指考生的答题数据。每一第二样本答题数据包括原始答题信息和第二评分值；即第二样本答题数据中包括原始答题信息和对该原始答题信息进行初步评分后所得的第二评分值。可选地，该第二样本答题数据可以从一评分系统中获取。该评分系统可以对原始答题信息进行初步评分，得到第二评分值。其中，原始答题信息指从评分系统的答题文本上获取的某一主观题的考生的答题信息。第二评分值指通过人工评分或者计算机评分的方式，预先对原始答题信息进行初步评分后所得的评分值。

获取的第二样本答题数据的数量为M个，其中，M为正整数。而M的具体数值可以根据实际需要进行设定。M的数值越高，后续决策树参考模型的准确性会越高，然而提取效率会有所下降，可以在准确度和效率上进行综合考虑进行对M的选取。

S242：采用目标考点对每一第二样本答题数据的原始答题信息进行特征转化，得到考点训练特征。

其中，考点训练特征指衡量目标考点与每一第二样本答题数据的原始答题信息之间的相似度的一种特征。目标考点是采用上述关键词的确定方法所得的。

具体地，采用目标考点对每一第二样本答题数据的原始答题信息进行特征转化包括：先以目标考点的数量为基准，建立一组空的考点向量，然后按照同义词词林语义码，将每一第二样本答题数据的原始答题信息与目标考点进行词义比较；若原始答题信息与任意一目标考点匹配成功，则在考点向量中对应的元素值为1，若原始答题信息与任意一目标考点都不匹配，则在考点向量中对应的元素值为0，最后得到一组由若干个1和0组成的考点向量，即考点训练特征。其中，同义词词林语义码是一种用来计算词语间的相似度的一种方法。

S243：将考点训练特征和对应的第二评分值组成考点样本集。

其中，考点样本集指待输入到决策树模型中进行训练的样本数据；包括考点训练特征和对应的第二评分值。具体的，考点样本集是由若干个考点样本组成的数据集，考点样本包括考点训练特征和与该考点训练特征相对应的第二评分值。可以理解地，每一考点训练特征都与对应的第二评分值相关联。

S244：根据考点样本集对决策树模型进行训练，得到决策树参考模型。

其中，决策树参考模型是一种预测模型，它代表对象属性与对象值之间的一种映射关系，决策树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。具体地，根据考点样本集对决策树模型进行训练，得到决策树参考模型指将考点训练特征和对应的第二评分值输入到决策树模型中后，通过使用C4.5算法对决策树模型进行训练，生成训练后的决策树样本模型。

优选地，为了进一步验证决策树参考模型的准确性，还将考点样本集分成用于建模的训练集和用于验证模型效果的测试集。其中，训练集指用来建立决策树样本模型的数据集。测试集指用来验证建立后的决策树样本模型的效果的数据集。将考点样本集分为训练集和测试集可采用随机划分数据集或交叉检验的方法进行划分；划分后训练集和测试集的比例值可以为：训练集:测试集＝6:4、训练集:测试集＝7:3或训练集:测试集＝75:25等。优选地，为了提高决策树样本模型的精度，在本步骤中，将获取的考点样本集的75％作为训练集，把获取的考点样本集的25％作为测试集。

在本实施例中，通过获取M个第二样本答题数据，每一第二样本答题数据包括原始答题信息和第二评分值，然后采用目标考点对每一第二样本答题数据的原始答题信息进行特征转化，得到考点训练特征，最后根据考点训练特征和对应的第二评分值对决策树模型进行训练，得到决策树参考模型；进一步保证了通过决策树参考模型对考生的答题信息进行评分的准确性。

在一实施例中，提供一种自动评分装置，该自动评分装置与上述实施例中自动评分方法一一对应。如图9所示，该自动评分装置包括待评分答题信息获取模块21、关键词提取模块22、待评分考点特征转化模块23和输入模块24。各功能模块详细说明如下：

待评分答题信息获取模块21，用于获取待评分答题信息；

关键词提取模块22，用于对待评分答题信息进行关键词提取，得到核心关键词；

待评分考点特征转化模块23，用于采用目标考点对核心关键词进行特征转化，得到待评分考点特征；其中，目标考点是采用关键词的确定方法所得的；

输入模块24，用于将待评分考点特征输入到预设的决策树参考模型中,得到待评分答题信息的准确分值。

优选地，待评分考点特征转化模块23，包括：

有效关键词获取单元，用于获取目标考点对应的有效关键词；

匹配单元，用于通过正则匹配法，将有效关键词与核心关键词进行一一匹配，得到关键词匹配信息；

分配单元，用于根据关键词匹配信息，为每一核心关键词分配对应的匹配标识；

得到单元，用于根据每一核心关键词的匹配标识，得到待评分考点特征。

优选地，输入模块24，包括：

第二样本答题数据获取单元，用于获取M个第二样本答题数据，每一第二样本答题数据包括原始答题信息和第二评分值,M为正整数；

考点特征转化单元，用于采用目标考点对每一第二样本答题数据的原始答题信息进行特征转化，得到考点训练特征；

组成单元，用于将考点训练特征和对应的第二评分值组成考点样本集；

决策树参考模型训练单元，用于根据考点样本集对决策树模型进行训练，得到决策树参考模型。

关于自动评分装置的具体限定可以参见上文中对于自动评分方法的限定，在此不再赘述。上述自动评分装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述关键词的确定方法和上述自动评分方法中使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种关键词的确定方法，或该计算机程序被处理器执行时以实现一种自动评分方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中关键词的确定方法，或处理器执行计算机程序时实现上述实施例中自动评分方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中关键词的确定方法，或计算机程序被处理器执行时实现上述实施例中自动评分方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种关键词的确定方法，其特征在于，包括：

对每一所述第一样本答题数据的所述样本答题信息进行分词处理，得到每一所述第一样本答题数据的样本分词，若所述第一样本答题数据的样本分词中存在重复的样本分词，则在对所述第一样本答题数据的样本分词进行汇总前，预先对所述样本分词进行去重处理；

对每一所述第一样本答题数据的所述样本分词进行汇总，得到样本分词集，包括：获取所述样本分词，按照预设的排列顺序给所述样本分词赋予对应的标识号，得到按照从小到大的排列顺序分布的样本分词集；

从所述决策树样本模型中提取样本关键词，所述样本关键词指决策树样本模型的每一输出节点上所对应的特征属性值；

在所述从所述决策树样本模型中提取样本关键词之后，所述关键词的确定方法还包括：

获取评分规则信息，所述评分规则信息包括预设考点和每一所述预设考点对应的预设关键词；

从所述样本关键词中去除和所述预设关键词重复的关键词，得到目标关键词；

发送所述目标关键词至客户端，获取所述客户端根据所述目标关键词返回的考点标签；

根据所述考点标签将每一所述目标关键词加入到对应的所述预设考点中，得到目标考点。

2.一种自动评分方法，其特征在于，包括：

获取待评分答题信息；

对所述待评分答题信息进行关键词提取，得到核心关键词；

采用目标考点对所述核心关键词进行特征转化，得到待评分考点特征；其中，所述目标考点是采用权利要求1所述的关键词的确定方法所得的；

3.如权利要求2所述的自动评分方法，其特征在于，所述采用目标考点对所述核心关键词进行特征转化，得到待评分考点特征，包括：

获取所述目标考点对应的有效关键词；

通过正则匹配法，将所述有效关键词与所述核心关键词进行一一匹配，得到关键词匹配信息；

根据所述关键词匹配信息，为每一所述核心关键词分配对应的匹配标识；

根据每一所述核心关键词的匹配标识，得到待评分考点特征。

4.如权利要求2所述的自动评分方法，其特征在于，在将所述待评分考点特征输入到预设的决策树参考模型中，得到所述待评分答题信息的输出分值之前，所述自动评分方法还包括：

获取M个第二样本答题数据，每一所述第二样本答题数据包括原始答题信息和第二评分值，M为正整数；

采用所述目标考点对每一所述第二样本答题数据的所述原始答题信息进行特征转化，得到考点训练特征；

将所述考点训练特征和对应的所述第二评分值组成考点样本集；

根据所述考点样本集对决策树模型进行训练，得到决策树参考模型。

5.一种关键词的确定装置，其特征在于，包括：

分词处理模块，用于对每一所述第一样本答题数据的所述样本答题信息进行分词处理，得到每一所述第一样本答题数据的样本分词，若所述第一样本答题数据的样本分词中存在重复的样本分词，则在对所述第一样本答题数据的样本分词进行汇总前，预先对所述样本分词进行去重处理；

分词汇总模块，用于对每一所述第一样本答题数据的所述样本分词进行汇总，得到样本分词集，包括：获取所述样本分词，按照预设的排列顺序给所述样本分词赋予对应的标识号，得到按照从小到大的排列顺序分布的样本分词集；

样本关键词提取模块，用于从所述决策树样本模型中提取样本关键词，所述样本关键词指决策树样本模型的每一输出节点上所对应的特征属性值；

所述关键词的确定装置还包括：

评分规则信息获取模块，用于获取评分规则信息，所述评分规则信息包括预设考点和每一所述预设考点对应的预设关键词；

重复关键词去除模块，用于从所述样本关键词中去除和所述预设关键词重复的关键词，得到目标关键词；

考点标签获取模块，用于发送所述目标关键词至客户端，获取所述客户端根据所述目标关键词返回的考点标签；

目标关键词加入模块，用于根据所述考点标签将每一所述目标关键词加入到对应的所述预设考点中，得到目标考点。

6.一种自动评分装置，其特征在于，包括：

待评分答题信息获取模块，用于获取待评分答题信息；

待评分考点特征转化模块，用于采用目标考点对所述核心关键词进行特征转化，得到待评分考点特征；其中，所述目标考点是采用权利要求1所述的关键词的确定方法所得的；

7.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1所述关键词的确定方法，或所述处理器执行所述计算机程序时实现如权利要求2至4任一项所述自动评分方法。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1所述关键词的确定方法，或所述计算机程序被处理器执行时实现如权利要求2至4任一项所述自动评分方法。