CN111221939B

CN111221939B - 评分方法、装置和电子设备

Info

Publication number: CN111221939B
Application number: CN201911163381.4A
Authority: CN
Inventors: 黄涛; 张�浩; 刘三女牙; 杨宗凯; 杨华利; 王一岩
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2023-09-08
Anticipated expiration: 2039-11-22
Also published as: CN111221939A

Abstract

本发明提供了一种评分方法、装置和电子设备；包括：获取待评分文本和预设的标准文本；提取特征数据；将特征数据输入至预先设定的相似度分析模型中，得到待评分文本和标准文本的相似度数据；计算待评分文本和标准文本的检索相似度；根据语义相似度、文本相似度和检索相似度，确定待评分文本的评分。该方法分别提取待评分文本和标准文本的特征数据，输入至相似度分析模型中，得到语义相似度和文本相似度，计算待评分文本和标准文本的检索相似度，根据语义相似度、文本相似度和检索相似度，确定待评分文本的评分。该方式中，不仅考虑了文本特征，还考虑了语义特征，根据检索相似度确定待评分文本的评分，可以减少评分时间，增加评分的可靠性。

Description

评分方法、装置和电子设备

技术领域

本发明涉及深度学习技术领域，尤其是涉及一种评分方法、装置和电子设备。

背景技术

相关技术中，多数主观题阅卷采用人工评分或机器评分完成。其中，人工评分中，评分标准以描述性语言居多，答卷人回答出相近的意思也可以得分，由于评分人员对评分标准的解读和理解，对答卷人语言表达的理解有所区别，评分人员只能主观判断题目和标准答案的含义，以此来对比答卷人的回答，导致评分过程比较模糊，难以做到客观地评分，并且阅卷需要耗费很长的时间，可靠性不高。现有的机器评分一般通过提取浅层文本特征进行评分，提取的特征较为单一，导致评分结果的可靠性不高。

发明内容

有鉴于此，本发明的目的在于提供一种评分方法、装置和电子设备，以减少评分时间，增加评分的可靠性。

第一方面，本发明实施例提供了一种评分方法，包括：获取待评分文本和预设的标准文本；提取待评分文本和标准文本的特征数据；特征数据包括语义特征和文本特征；将待评分文本和标准文本的特征数据输入至预先设定的相似度分析模型中，得到待评分文本和标准文本的相似度数据；相似度数据包括语义相似度和文本相似度；计算待评分文本和标准文本的检索相似度；根据语义相似度、文本相似度和检索相似度，确定待评分文本的评分。

在本发明较佳的实施例中，上述提取待评分文本和标准文本的语义特征的步骤，包括：提取待评分文本和标准文本的句向量；从句向量中确定待评分文本和标准文本的语义特征。

在本发明较佳的实施例中，上述提取待评分文本和标准文本的句向量的步骤，包括：将待评分文本和标准文本输入至预先设定的预训练语言模型BERT中，输出待评分文本和标准文本的句向量。

在本发明较佳的实施例中，上述从句向量中确定待评分文本和标准文本的语义特征的步骤，包括：将句向量输入至预先设定的双向长短期记忆网络中，输出句向量对应的语义特征；对双向长短期记忆网络输出的语义特征降维，得到待评分文本和标准文本的语义特征。

在本发明较佳的实施例中，上述相似度分析模型通过以下步骤建立：基于预设的训练集确定训练文本和答案文本；训练文本携带有标准语义相似度和标准文本相似度；提取训练文本和答案文本的特征数据；特征数据包括语义特征和文本特征；将训练文本和答案文本的语义特征输入至第一预设子网络中，得到训练语义相似度；将训练文本和答案文本的文本特征输入至第二预设子网络中，得到训练文本相似度；根据训练语义相似度和标准语义相似度调整第一预设子网络的参数；根据训练文本相似度和标准文本相似度调整第二预设子网络的参数；继续执行基于预设的训练集确定训练文本和答案文本的步骤，直至训练语义相似度和标准语义相似度在预设范围内，并且训练文本相似度和标准文本相似度的误差在预设范围内，得到相似度分析模型。

在本发明较佳的实施例中，上述计算待评分文本和标准文本的检索相似度的步骤，包括：确定待评分文本和标准文本的词语序列特征；根据待评分文本和标准文本的词语序列特征计算待评分文本和标准文本的检索相似度。

在本发明较佳的实施例中，上述根据语义相似度、文本相似度和检索相似度，确定待评分文本的评分的步骤，包括：判断检索相似度是否大于预设的相似度阈值；如果是，则将检索相似度和文本相似度组合，得到第一组合相似度；将第一组合相似度输入至预先设定的第一注意力模型中，输出待评分文本的评分；如果否，则将检索相似度和语义相似度组合，得到第二组合相似度；将第二组合相似度输入至预先设定的第二注意力模型中，输出待评分文本的评分。

第二方面，本发明实施例还提供一种评分装置，包括：文本获取模块，用于获取待评分文本和预设的标准文本；特征数据提取模块，用于提取待评分文本和标准文本的特征数据；特征数据包括语义特征和文本特征；第一相似度计算模块，用于将待评分文本和标准文本的特征数据输入至预先设定的相似度分析模型中，得到待评分文本和标准文本的相似度数据；相似度数据包括语义相似度和文本相似度；第二相似度计算模块，用于计算待评分文本和标准文本的检索相似度；评分确定模块，用于根据语义相似度、文本相似度和检索相似度，确定待评分文本的评分。

第三方面，本发明实施例还提供一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的计算机可执行指令，处理器执行计算机可执行指令以实现上述评分方法的步骤。

第四方面，本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现上述评分方法的步骤。

本发明实施例带来了以下有益效果：

本发明实施例提供的评分方法、装置和电子设备，分别提取待评分文本和标准文本的特征数据，输入至相似度分析模型中，得到语义相似度和文本相似度，计算待评分文本和标准文本的检索相似度，根据语义相似度、文本相似度和检索相似度，确定待评分文本的评分。该方式中，不仅考虑了文本特征，还考虑了语义特征，根据检索相似度确定待评分文本的评分，可以减少评分时间，增加评分的可靠性。

本公开的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本公开的上述技术即可得知。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种评分方法的流程图；

图2为本发明实施例提供的另一种评分方法的流程图；

图3为本发明实施例提供的一种深层语义特征提取算法结构图；

图4为本发明实施例提供的一种相似度分析模型构建的流程图；

图5为本发明实施例提供的一种评分模型算法的结构图；

图6为本发明实施例提供的一种评分方法的总体结构图；

图7为本发明实施例提供的一种相似度分析模型的结构示意图；

图8为本发明实施例提供的一种评分装置的结构示意图；

图9为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

简答题是考试中重要的内容，因为其可以考查学生的知识积累、逻辑思维、分析能力、语言表达能力等，考查内容比较重要，能够反映出学生的学习效果。考试评分作为教学中的重要环节之一，是阶段性考核的有效方法，也是考查教师教学水平和学生学习效果的有效手段，评分最关键的在于客观性和公正性。在考试中，多数主观题阅卷还是采用人工评分完成。评分标准是描述性居多，考生回答出相近的意思也可以得分，由于评分人员对评分标准的解读和理解，对答卷人语言表达的理解有所区别，阅卷教师只能主观判断题目和标准答案的含义，以此来对比学生的回答，导致评分过程比较模糊，难以做到客观，并且阅卷需要耗费很长的时间。此外，随着网上公开课以及慕课的兴起，越来越多的用户参与到网上学习，网上考试也迫切需要自动评分的技术方法。所以，研究客观权威、省时快速的简答题评分方法对教育有非常重要的意义。

除了人工评分之外，机器评分目前越来越收到重视，现有的机器评分都是从浅层语言学角度尝试提取浅层文本特征，并且使用深度学习将学生答案和标准答案表示为包含语义信息的句子向量，计算向量间的相似度获得文本间的语义相似度，这种机器评分方法提取的特征较为单一，导致评分结果的可靠性不高。例如，将N-gram(N元语法)共现特征应用在简答题答案自动评价上，利用这种评价方法中的N-gram共现思想，使用N-gram-eval(N元语法评价)、Bleu-eval(Bilingual Evaluation Understudy-eval，双语评估替换评价)、Nist-eval(National Institute of standards and Technology-eval，国家标准与技术评价)三种评价指标，采用BLEU(Bilingual Evaluation Understudy，双语评估替换)特征集或ROUGE(recall-oriented understanding for gisting evaluation，基于召回率的相似性度量方法)特征集，比较两个文本的相似程度；运用了词性共现特征、命名实体共现特征、N-gram共现特征来计算文本相似度特征。使用深度学习中的skip-thought(跳过思维)和paragraph vector(段落向量)方法将学生答案和标准答案表示为包含语义信息的句子向量。

综上，现有的打分方法需要耗费很长的时间，并且可靠性不高；基于此，本发明实施例提供的一种评分方法、装置和电子设备，该技术可以应用于主观题自动阅卷领域，具体涉及一种面向模糊语义和多相似度的简答题评分方法。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种评分方法进行详细介绍。

实施例1

参见图1所示的一种评分方法的流程图，该方法包括如下步骤：

步骤S102，获取待评分文本和预设的标准文本。

待评分文本是指被评分的文本，例如，学生写的简答题答案。标准文本用于对待评分文本打分，例如，简答题对应的标准答案。需要说明的是，待评分文本与标准文本对应，对于一个标准文本可能会有很多份的待评分文本。

步骤S104，提取待评分文本和标准文本的特征数据；上述特征数据包括语义特征和文本特征。

分别对待评分文本和标准文本提取特征数据。特征数据是指表达文本某一方面的特征，一般通过构建特征向量的方式确定特征数据。特征数据包括语义特征和文本特征。语义特征用于表征文本内的语言含义，文本特征指的是一些简单的单词、句子等表层文本特征，如词汇特征和句子特征，词汇特征包括：词性数量比例、命名实体和关键词等特征。提取特征数据的方法可以为构建文本的句向量，然后通过解析句向量，从句向量汇总提取特征数据。

步骤S106，将待评分文本和标准文本的特征数据输入至预先设定的相似度分析模型中，得到待评分文本和标准文本的相似度数据；上述相似度数据包括语义相似度和文本相似度。

相似度分析模型可以根据输入的特征数据给出对应的相似度数据。例如，根据输入的待评分文本和标准文本的语义特征，分析上述待评分文本和标准文本的语义特征的相似程度，输出待评分文本和标准文本的语义相似度评分；根据输入的待评分文本和标准文本的文本特征，分析上述待评分文本和标准文本的文本特征的相似程度，输出待评分文本和标准文本的文本相似度评分。

步骤S108，计算待评分文本和标准文本的检索相似度。

检索相似度是基于文本检索的相似度，用于说明待评分文本和标准文本全文是否相似，如果相似，则说明文本的浅层特征(也就是文本特征)相似比较明显；如果不相似，则说明文本的深层特征(也就是语义特征)相似比较明显。

步骤S110，根据语义相似度、文本相似度和检索相似度，确定待评分文本的评分。

首先根据检索相似度确定待评分文本和标准文本的文本特征相似比较明显，还是待评分文本和标准文本的语义特征相似比较明显，选择对应的相似度和检索相似度一起，确定待评分文本的评分。也就是如果检索相似度说明待评分文本和标准文本的文本特征的文本相似度比较明显，则根据文本相似度和检索相似度确定待评分文本的评分；如果检索相似度说明待评分文本和标准文本的文本特征的语义相似度比较明显，则根据语义相似度和检索相似度确定待评分文本的评分。

本发明实施例提供的一种评分方法，分别提取待评分文本和标准文本的特征数据，输入至相似度分析模型中，得到语义相似度和文本相似度，计算待评分文本和标准文本的检索相似度，根据语义相似度、文本相似度和检索相似度，确定待评分文本的评分。该方式中，不仅考虑了文本特征，还考虑了语义特征，根据检索相似度确定待评分文本的评分，可以减少评分时间，增加评分的可靠性。

实施例2

本发明实施例还提供另一种评分方法；该方法在上述实施例方法的基础上实现；该方法重点描述根据语义相似度、文本相似度和检索相似度，确定待评分文本的评分的具体实现方式。

如图2所示的另一种评分方法的流程图，该方法包括如下步骤：

步骤S202，获取待评分文本和预设的标准文本。

对于获得的待评分文本和预设的标准文本，首先需要进行预处理，预处理包括字符去重、分句、去特殊符号等。

步骤S204，提取待评分文本和标准文本的特征数据；上述特征数据包括语义特征和文本特征。

特征数据包括语义特征和文本特征。对于文本特征，主要就是根据不同的文本特征采用对应的方法提取，例如，文本特征包括词性数量比例、命名实体和关键词等特征，根据文本特征的要求，对待评分文本和标准文本进行检索即可。对于语义特征，需要通过预训练语言模型BERT(Bidirectional Encoder Representation from Transformers)和LSTM(Long Short-Term Memory，长短期记忆网络)进行提取，可以通过步骤A1-步骤A2执行：

步骤A1，提取待评分文本和标准文本的句向量。

通过BERT提取待评分文本和标准文本的句向量，即将待评分文本和标准文本输入至预先设定的预训练语言模型BERT中，输出待评分文本和标准文本的句向量。

语义特征提取算法可以参见图3所示的一种深层语义特征提取算法结构图。如图3所示，首先需要对输入的文本(这里输入的文本是指待评分文本和标准文本)进行预处理，将文本进行分句，正则匹配消去特殊符号。然后使用文本集对预训练语言模型BERT进行微调训练。

步骤A2，从句向量中确定待评分文本和标准文本的语义特征。

如图3所示，将文本每句话通过BERT转化成句向量表示，每个句向量为768维，然后输入双向LSTM层。以此类推，将每一个答案文本循环输入BLSTM(Bidirectional LongShort-Term Memory，双向长短期记忆网络)层，以此类推，将每一个答案文本循环输入BLSTM，BLSTM输出句向量对应的语义特征。

采用了BERT构建包含词语的精确含义和上下文特征的句向量，然后使用双向长短期记忆网络高效的特征提取能力，将句向量组合而成的高维和稀疏矩阵进行降维和特征提取，充分挖掘文本深层特征；对提取的语义特征进行降维，然后计算语义相似度特征。

步骤S206，将待评分文本和标准文本的特征数据输入至预先设定的相似度分析模型中，得到待评分文本和标准文本的相似度数据；上述相似度数据包括语义相似度和文本相似度。

首先说明相似度分析模型中语义相似度的计算方法，采用Keras框架实现网络模型，双向LSTM输出一个三维张量。将学生答案文本和标准答案文本各自输入BLSTM，得到两个输出张量，将两个张量进行相似度计算(输入自定义cosin(余弦)层或者MLP(Multi-Layer Perception，多层感知器)层)，每一层后添加Dropout层防止过拟合。

最终将计算出的相似度特征和学生答案提取出的语义特征共同送入Dense(全连接)层进行softmax分类，得到评分结果。其中，句向量输入过程中，尝试了以下几种方法：直接连接、卷积层、LSTM、双向LSTM。通过原理初步分析，认为直接连接向量维度过大，达到了7680维以上，由于维度过高，上层神经网络难以捕获前后文信息。卷积层偏重于表达空间相近的信息，但文本每句话句首相近的特征不明显。选择了双向LSTM模型，并在之后添加了池化层，以降低数据维度。

对于相似度分析模型，可以通过步骤B1-步骤B7训练：

步骤B1，基于预设的训练集确定训练文本和答案文本；训练文本携带有标准语义相似度和标准文本相似度；

训练文本和答案文本用于进行训练，每一个训练文本都标注了对应的标准语义相似度和标准文本相似度。标准语义相似度和标准文本相似度分别用于对计算语义相似度的模块和计算文本相似度的模块进行参数调整。

步骤B2，提取训练文本和答案文本的特征数据；特征数据包括语义特征和文本特征；

提取训练文本和答案文本的特征数据，训练文本和答案文本的语义特征用于计算语义相似度，训练文本和答案文本的文本特征与用于计算文本相似度。

步骤B3，将训练文本和答案文本的语义特征输入至第一预设子网络中，得到训练语义相似度；

第一预设子网络用于根据训练文本和答案文本的语义特征计算语义相似度。

步骤B4，将训练文本和答案文本的文本特征输入至第二预设子网络中，得到训练文本相似度；

第一预设子网络用于根据训练文本和答案文本的文本特征计算语文本相似度。

步骤B5，根据训练语义相似度和标准语义相似度调整第一预设子网络的参数；

根据第一预设子网络输出的语义相似度和训练文本携带的标准语义相似度做出对比并计算误差，根据误差调整第一预设子网络的参数。

步骤B6，根据训练文本相似度和标准文本相似度调整第二预设子网络的参数；

根据第二预设子网络输出的文本相似度和训练文本携带的标准文本相似度做出对比并计算误差，根据误差调整第二预设子网络的参数。

步骤B7，继续执行基于预设的训练集确定训练文本和答案文本的步骤，直至训练语义相似度和标准语义相似度在预设范围内，并且训练文本相似度和标准文本相似度的误差在预设范围内，得到相似度分析模型。

重复提取训练集的训练文本和答案文本，以调整相似度分析模型中的第一预设子网络和第二预设子网络的参数，直至训练语义相似度和标准语义相似度在预设范围内，并且训练文本相似度和标准文本相似度的误差在预设范围内，结束参数调整的步骤，得到相似度分析模型。需要说明的是，结束参数调整还有其他方式，例如，调整次数达到预设的次数上限，训练集中的训练文本全部训练完毕等。

相似度分析模型的构建过程参见图4所示的一种相似度分析模型构建的流程图和图5所示的一种评分模型算法的结构图，如图4和图5所示，对于学生答案文本(也就是上文的训练文本)集合，进行分数标注，形成带标注数据集。对数据进行预处理，包括去特殊符号，然后分句，分词，词性标注、命名实体标注等。按照6:2:2的比例划分训练集和验证集。分别对于模型B、C部分进行训练。用微调后的BERT将文本转化成句向量，输入深度学习模型C部分进行训练。对文本抽取浅层语言特征，包括单词共现、命名实体共现、文本长度等特征。其中，共现是指共同出现，在初期的自然语言处理中作为量化计算的方法。命名实体就是人名、机构名、地名以及其他所有以名称为标识的实体，更广泛的实体还包括数字、日期、货币、地址等。这里用了狭义命名实体。分别计算深层语义特征相似度和浅层特征相似度。然后将浅层特征相似度和深层语义相似度分别与神经网络提取的语义特征进行拼接后，进行总体模型训练。

步骤S208，计算待评分文本和标准文本的检索相似度。

检索相似度通过基于全文检索的文本检索算法计算，通过步骤C1-步骤C2执行：

步骤C1，确定待评分文本和标准文本的词语序列特征；

词语序列特征是指将词语序列组合得到的特征，对比待评分文本和标准文本的词语序列特征，即可确定对应的检索相似度。

步骤C2，根据待评分文本和标准文本的词语序列特征计算待评分文本和标准文本的检索相似度。

检索相似度的确定算法可以是SCOW算法(Sequence Of Words Algorithm，词序算法)。

步骤S210，判断检索相似度是否大于预设的相似度阈值。如果是，则执行步骤S212；如果否，则执行步骤S216。

在计算出检索相似度K后，需要判断检索相似度和相似度阈值的大小，其中，K值是通过SCOW检索相似度计算得到的，阈值是根据训练集选择取得一个较优值，选取标准是使得相似度最终计算值与分数正相关性最准确的阈值。

步骤S212，将检索相似度和文本相似度组合，得到第一组合相似度。

如果述检索相似度K大于阈值，说明文本特征相似比较明显，相似度判断文本相似度，与深度神经网络提取出的语义特征拼接，输入下一层。

步骤S214，将第一组合相似度输入至预先设定的第一注意力模型中，输出待评分文本的评分。

拼接后的特征，输入注意力层(即第一注意力模型或者第二注意力模型)然后进行分类。注意力层可以根据训练数据集，计算分配各维度特征的权重，达到较好的评分准确率。训练数据较少时，相似度特征的权重较大；而训练数据较多时，深度神经网路提取的语义特征权重较大。输入注意力层的输出即为待评分文本的评分。

注意力层是在深度学习网络中，添加了一层Attention(注意力)层。Attention机制通俗的说，对于某个时刻的输出y，它在输入x上各个部分上的注意力，这里的注意力也就是权重，即输入x的各个部分对某时刻输入y贡献的权重。

这里将拼接后的特征输入第一注意力模型然后进行分类，第一注意力模型的输出即为待评分文本的评分。

步骤S216，将检索相似度和语义相似度组合，得到第二组合相似度。

如果检索相似度K小于阈值时，说明文本特征相似不明显，相似度判断部分语义相似度，与深度神经网络提取出的语义特征拼接，输入下一层。

步骤S218，将第二组合相似度输入至预先设定的第二注意力模型中，输出待评分文本的评分。

将拼接后的特征输入第二注意力模型然后进行分类，第二注意力模型的输出即为待评分文本的评分。

本发明实施例提供的评分方法的总体结构，可以参见图6所示的一种评分方法的总体结构图，如图6所示，从图中可以发现，该评分模块主要包括评分模型的构建和训练。具体的模型构建方法主要基于第三章提出的模型实现方法，对答案文本的浅层文本特征相似度和深度语义相似度分别进行计算，然后根据模糊检索算法的计算值与阈值比较，选择相似度，与语义特征拼接后映射得到最终的评分。因此需要分别构建模型的C、D部分，构建过程如图4所示。

本发明实施例提供的相似度分析模型，可以参见图7所示的一种相似度分析模型的结构示意图，相似度分析模型包括两个部分。深度学习部分吸取了现有的评分模型优点，基于文本句子级别的语义特征，并包含文本的上下文信息。为了使评分更准确，结合了浅层文本特征比较的方法，将两部分算法模型融合后，能够更加完善地衡量答案的优劣。模型融合方法方面，本实施例选择了后期融合的方式，因为两部分模型抽取的信息维度和权重不同，虽以深度学习模型为主，但还是难以确定相关比例。后期融合时，两部分模型输出的部分皆为相似度信息，根据阈值判断选取最优相似度信息，然后结合深度神经网路提取的语义特征向量，引入注意力机制，最终计算评分。

本发明实施例提供的评分方法，在文本向量特征构建方面采用了BERT构建包含词语的精确含义和上下文特征的句向量，然后使用双向LSTM高效的特征提取能力，将句向量组合而成的高维和稀疏矩阵进行降维和特征提取，充分挖掘文本深层特征；对提取的特征进行降维，然后计算语义相似度特征。

该方式中，对浅层语言特征进行量化，充分考虑深层语义特征和浅层文本特征，然后引入基于文本检索相似度的算法，对多相似度进行选择，结合语义特征通过回归或分类算法计算最终得分，形成简答题评分算法模型。经过模型训练得到最优的算法模型，然后进行实验验证。然后根据模型进行简答题评分系统的设计与实现。提出评分系统的整体架构，对整体架构各模块分别做介绍。本实施例采用了三个相似度计算，分别是深层语义相似度、浅层文本相似度、SCOW检索相似度进行最优选择，并对每种相似度计算进行了改进，以增加算法的准确性。

该方式中，为了有效地解决现有评分方法对文本特征维度提取难以全面，以及模型泛化能力弱的问题，本实施例在构建相似度分析模型时，重视答案语义信息和评分标准，采用针对性的神经网路和计算相似度的方法。对学生答案提取语义特征向量后，对标准答案也提取语义特征向量，共同输入深度学习模型进行伴随训练，以提取语义特征和计算语义相似度。然后结合传统浅层文本特征相似度，对评分模型进行补充。对于相似度特征选择，引入了改进的文本检索概率相似度评分方法进行阈值判断，融合模型对于评分的准确度有较大提升。

需要说明的是，上述各方法实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

实施例3

对应于上述方法实施例，本发明实施例提供了一种评分装置，如图8所示的一种评分装置的结构示意图，该装置包括：

文本获取模块81，用于获取待评分文本和预设的标准文本；

特征数据提取模块82，用于提取待评分文本和标准文本的特征数据；特征数据包括语义特征和文本特征；

第一相似度计算模块83，用于将待评分文本和标准文本的特征数据输入至预先设定的相似度分析模型中，得到待评分文本和标准文本的相似度数据；相似度数据包括语义相似度和文本相似度；

第二相似度计算模块84，用于计算待评分文本和标准文本的检索相似度；

评分确定模块85，用于根据语义相似度、文本相似度和检索相似度，确定待评分文本的评分。

本发明实施例提供的一种评分装置，分别提取待评分文本和标准文本的特征数据，输入至相似度分析模型中，得到语义相似度和文本相似度，计算待评分文本和标准文本的检索相似度，根据语义相似度、文本相似度和检索相似度，确定待评分文本的评分。该方式中，不仅考虑了文本特征，还考虑了语义特征，根据检索相似度确定待评分文本的评分，可以减少评分时间，增加评分的可靠性。

在一些实施例中，特征数据提取模块，用于：提取待评分文本和标准文本的句向量；从句向量中确定待评分文本和标准文本的语义特征。

在一些实施例中，特征数据提取模块，用于：将待评分文本和标准文本输入至预先设定的预训练语言模型BERT中，输出待评分文本和标准文本的句向量。

在一些实施例中，特征数据提取模块，用于：将句向量输入至预先设定的双向长短期记忆网络中，输出句向量对应的语义特征；对双向长短期记忆网络输出的语义特征降维，得到待评分文本和标准文本的语义特征。

在一些实施例中，相似度分析模型通过模型建立模块建立，上述模型建立模块，用于：基于预设的训练集确定训练文本和答案文本；训练文本携带有标准语义相似度和标准文本相似度；提取训练文本和答案文本的特征数据；特征数据包括语义特征和文本特征；将训练文本和答案文本的语义特征输入至第一预设子网络中，得到训练语义相似度；将训练文本和答案文本的文本特征输入至第二预设子网络中，得到训练文本相似度；根据训练语义相似度和标准语义相似度调整第一预设子网络的参数；根据训练文本相似度和标准文本相似度调整第二预设子网络的参数；继续执行基于预设的训练集确定训练文本和答案文本的步骤，直至训练语义相似度和标准语义相似度在预设范围内，并且训练文本相似度和标准文本相似度的误差在预设范围内，得到相似度分析模型。

在一些实施例中，第二相似度计算模块，用于：确定待评分文本和标准文本的词语序列特征；根据待评分文本和标准文本的词语序列特征计算待评分文本和标准文本的检索相似度。

在一些实施例中，评分确定模块，用于：判断检索相似度是否大于预设的相似度阈值；如果是，则将检索相似度和文本相似度组合，得到第一组合相似度；将第一组合相似度输入至预先设定的第一注意力模型中，输出待评分文本的评分；如果否，则将检索相似度和语义相似度组合，得到第二组合相似度；将第二组合相似度输入至预先设定的第二注意力模型中，输出待评分文本的评分。

本发明实施例提供的评分装置，与上述实施例提供的评分方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

实施例4

本发明实施例还提供了一种电子设备，用于运行上述评分方法；参见图9所示的一种电子设备的结构示意图，该电子设备包括存储器100和处理器101，其中，存储器100用于存储一条或多条计算机指令，一条或多条计算机指令被处理器101执行，以实现上述评分方法。

进一步地，图9所示的电子设备还包括总线102和通信接口103，处理器101、通信接口103和存储器100通过总线102连接。

其中，存储器100可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口103(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。总线102可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

处理器101可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processor，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器100，处理器101读取存储器100中的信息，结合其硬件完成前述实施例的方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现上述评分方法，具体实现可参见方法实施例，在此不再赘述。

本发明实施例所提供的评分方法、装置和电子设备的计算机程序产品，包括存储了程序代码的计算机可读存储介质，程序代码包括的指令可用于执行前面方法实施例中的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和/或电子设备的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种评分方法，其特征在于，包括：

获取待评分文本和预设的标准文本；

提取所述待评分文本和所述标准文本的特征数据；所述特征数据包括语义特征和文本特征；

将所述待评分文本和所述标准文本的特征数据输入至预先设定的相似度分析模型中，得到所述待评分文本和所述标准文本的相似度数据；所述相似度数据包括语义相似度和文本相似度；

计算所述待评分文本和所述标准文本的检索相似度；

根据所述语义相似度、所述文本相似度和所述检索相似度，确定所述待评分文本的评分；

所述相似度分析模型通过以下步骤建立：

基于预设的训练集确定训练文本和答案文本；所述训练文本携带有标准语义相似度和标准文本相似度；

提取所述训练文本和所述答案文本的特征数据；所述特征数据包括语义特征和文本特征；

将所述训练文本和所述答案文本的语义特征输入至第一预设子网络中，得到训练语义相似度；

将所述训练文本和所述答案文本的文本特征输入至第二预设子网络中，得到训练文本相似度；

根据所述训练语义相似度和所述标准语义相似度调整所述第一预设子网络的参数；

根据所述训练文本相似度和所述标准文本相似度调整所述第二预设子网络的参数；

继续执行基于预设的训练集确定训练文本和答案文本的步骤，直至所述训练语义相似度和所述标准语义相似度在预设范围内，并且所述训练文本相似度和所述标准文本相似度的误差在预设范围内，得到相似度分析模型；

计算所述待评分文本和所述标准文本的检索相似度的步骤，包括：

确定所述待评分文本和所述标准文本的词语序列特征；

根据所述待评分文本和所述标准文本的词语序列特征计算所述待评分文本和所述标准文本的检索相似度；

根据所述语义相似度、所述文本相似度和所述检索相似度，确定所述待评分文本的评分的步骤，包括：

判断所述检索相似度是否大于预设的相似度阈值；

如果是，则将所述检索相似度和所述文本相似度组合，得到第一组合相似度；

将所述第一组合相似度输入至预先设定的第一注意力模型中，输出所述待评分文本的评分；

如果否，则将所述检索相似度和所述语义相似度组合，得到第二组合相似度；

将所述第二组合相似度输入至预先设定的第二注意力模型中，输出所述待评分文本的评分。

2.根据权利要求1所述的方法，其特征在于，提取所述待评分文本和所述标准文本的语义特征的步骤，包括：

提取所述待评分文本和所述标准文本的句向量；

从所述句向量中确定所述待评分文本和所述标准文本的语义特征。

3.根据权利要求2所述的方法，其特征在于，提取所述待评分文本和所述标准文本的句向量的步骤，包括：

将所述待评分文本和所述标准文本输入至预先设定的预训练语言模型BERT中，输出所述待评分文本和所述标准文本的句向量。

4.根据权利要求2所述的方法，其特征在于，从所述句向量中确定所述待评分文本和所述标准文本的语义特征的步骤，包括：

将所述句向量输入至预先设定的双向长短期记忆网络中，输出所述句向量对应的语义特征；

对所述双向长短期记忆网络输出的语义特征降维，得到所述待评分文本和所述标准文本的语义特征。

5.一种评分装置，其特征在于，包括：

文本获取模块，用于获取待评分文本和预设的标准文本；

特征数据提取模块，用于提取所述待评分文本和所述标准文本的特征数据；所述特征数据包括语义特征和文本特征；

第一相似度计算模块，用于将所述待评分文本和所述标准文本的特征数据输入至预先设定的相似度分析模型中，得到所述待评分文本和所述标准文本的相似度数据；所述相似度数据包括语义相似度和文本相似度；

第二相似度计算模块，用于计算所述待评分文本和所述标准文本的检索相似度；

评分确定模块，用于根据所述语义相似度、所述文本相似度和所述检索相似度，确定所述待评分文本的评分；

所述相似度分析模型通过以下步骤建立：基于预设的训练集确定训练文本和答案文本；所述训练文本携带有标准语义相似度和标准文本相似度；提取所述训练文本和所述答案文本的特征数据；所述特征数据包括语义特征和文本特征；将所述训练文本和所述答案文本的语义特征输入至第一预设子网络中，得到训练语义相似度；将所述训练文本和所述答案文本的文本特征输入至第二预设子网络中，得到训练文本相似度；根据所述训练语义相似度和所述标准语义相似度调整所述第一预设子网络的参数；根据所述训练文本相似度和所述标准文本相似度调整所述第二预设子网络的参数；继续执行基于预设的训练集确定训练文本和答案文本的步骤，直至所述训练语义相似度和所述标准语义相似度在预设范围内，并且所述训练文本相似度和所述标准文本相似度的误差在预设范围内，得到相似度分析模型；

第二相似度计算模块，用于确定所述待评分文本和所述标准文本的词语序列特征；根据所述待评分文本和所述标准文本的词语序列特征计算所述待评分文本和所述标准文本的检索相似度；

评分确定模块，用于判断所述检索相似度是否大于预设的相似度阈值；如果是，则将所述检索相似度和所述文本相似度组合，得到第一组合相似度；将所述第一组合相似度输入至预先设定的第一注意力模型中，输出所述待评分文本的评分；如果否，则将所述检索相似度和所述语义相似度组合，得到第二组合相似度；将所述第二组合相似度输入至预先设定的第二注意力模型中，输出所述待评分文本的评分。

6.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机可执行指令，所述处理器执行所述计算机可执行指令以实现权利要求1至4任一项所述的评分方法的步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在被处理器调用和执行时，所述计算机可执行指令促使处理器实现权利要求1至4任一项所述的评分方法的步骤。