CN109273023A

CN109273023A - 一种数据评测方法、装置、设备及可读存储介质

Info

Publication number: CN109273023A
Application number: CN201811099474.0A
Authority: CN
Inventors: 胡阳; 吴奎; 朱群
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2018-09-20
Filing date: 2018-09-20
Publication date: 2019-01-25
Anticipated expiration: 2038-09-20
Also published as: JP6807909B2; JP2020047234A; CN109273023B

Abstract

本申请公开了一种数据评测方法、装置、设备及可读存储介质，方法包括：获取第一待评测数据；基于评测模型对所述第一待评测数据进行评测，得到第一评测结果，所述评测模型基于第一标定数据训练得到，所述第一标定数据包括专家对第二待评测数据的评测结果；若所述第一评测结果不满足设定的结果收敛条件，则获取第二标定数据，并利用所述第二标定数据迭代更新所述评测模型，直至确定当前更新后的评测模型满足设定的模型停止更新条件；所述第二标定数据包括专家对第三待评测数据的评测结果；基于最新的评测模型进行数据评测。本案利用人工专家及评测模型相结合，对数据进行评测，数据评测效率更高，占用的人工成本更少，且评测耗时更短。

Description

一种数据评测方法、装置、设备及可读存储介质

技术领域

本申请涉及机器学习技术领域，更具体地说，涉及一种数据评测方法、装置、设备及可读存储介质。

背景技术

随着教育改革的不断深入，学生在课堂上可以学习到各学科知识。并且，为了检验学生对知识的掌握程度，需要通过考试形式来进行检验。以口语考试为例，口语考试一般是给定一段材料，并针对该材料设定若干题目。由考生阅读完材料之后，针对每道题目，通过口语形式说出答案，如朗读题、问答题等。

现有技术一般是安排人工对考试语音进行评测打分。显然，这种方式需要耗费大量的人力成本，且整个考试语音评测过程耗时也较长。

发明内容

有鉴于此，本申请提供了一种数据评测方法、装置、设备及可读存储介质，用于解决现有技术单纯依靠人工进行考试语音评测的方式，所存在的人力成本高，耗时长的问题。

为了实现上述目的，现提出的方案如下：

一种数据评测方法，包括：

获取第一待评测数据；

基于评测模型对所述第一待评测数据进行评测，得到第一评测结果，所述评测模型基于第一标定数据训练得到，所述第一标定数据包括专家对第二待评测数据的评测结果；

若所述第一评测结果不满足设定的结果收敛条件，则获取第二标定数据，并利用所述第二标定数据迭代更新所述评测模型，直至确定当前更新后的评测模型满足设定的模型停止更新条件；所述第二标定数据包括专家对第三待评测数据的评测结果；

基于最新的评测模型进行数据评测。

优选地，确定当前更新后的评测模型满足设定的模型停止更新条件的过程，包括：

利用当前更新后的评测模型在预置的验证集上进行验证，得到验证结果；

若确定验证结果满足设定的验证结果收敛条件，则确定当前更新后的评测模型满足设定的模型停止更新条件。

优选地，所述利用当前更新后的评测模型在预置的验证集上进行验证，得到验证结果，包括：

获取当前更新后的评测模型对验证集内验证样本的预测结果，作为验证结果；

所述若确定验证结果满足设定的验证结果收敛条件，则确定当前更新后的评测模型满足设定的模型停止更新条件，包括：

以所述验证样本的标注结果为基准，判断所述验证样本的预测结果是否满足设定的验证结果收敛条件，若是，确定当前更新后的评测模型满足设定的模型停止更新条件；

或，

参考上一评测模型对所述验证样本的预测结果，判断当前更新后的评测模型对所述验证样本的预测结果是否满足设定的验证结果收敛条件，若是，确定当前更新后的评测模型满足设定的模型停止更新条件。

优选地，所述第一标定数据和所述第二标定数据的获取过程，包括：

获取通用评测模型对待评测数据的第二评测结果，及人工评测主体对所述待评测数据的第三评测结果；

根据每一人工评测主体对所述待评测数据的第三评测结果，及所述待评测数据的第二评测结果，从各所述人工评测主体中确定出所述专家；

从所述专家所评测的待评测数据中，确定所述第一标定数据和所述第二标定数据。

优选地，在所述获取通用评测模型对待评测数据的第二评测结果之后，该方法还包括：

参考所述第二评测结果，从所述待评测数据中选取作为人工评测的对象的目标待评测数据；

则获取人工评测主体对所述待评测数据的第三评测结果，包括：

获取人工评测主体对所述目标待评测数据的第三评测结果。

优选地，所述第二评测结果为第二评测分或第二评测等级，所述参考所述第二评测结果，从所述待评测数据中选取作为人工评测的对象的目标待评测数据，包括：

参考各所述待评测数据的第二评测分或第二评测等级，按照正态分布的抽样方式，从各所述待评测数据中选取作为人工评测的对象的目标待评测数据。

优选地，所述根据每一人工评测主体对所述待评测数据的第三评测结果，及所述待评测数据的第二评测结果，从各所述人工评测主体中确定出所述专家，包括：

根据每一人工评测主体对所述待评测数据的第三评测结果，及所述待评测数据的第二评测结果，计算所述第三评测结果与所述第二评测结果的相关性；

选取相关性满足设定相关性条件的第三评测结果所对应的人工评测主体，作为所述专家。

优选地，第二待评测数据和第三待评测数据为待评测语音，所述评测模型包括第一评测子模型、第二评测子模型、第三评测子模型中的至少一个；

所述第一评测子模型为，以待评测语音的声学特征作为评测特征，以待评测语音的标注评测结果为标签，训练神经网络模型得到；

所述第二评测子模型为，以待评测语音的识别结果对应的文本特征作为评测特征，以待评测语音的标注评测结果为标签，训练卷积神经网络模型得到；

所述第三评测子模型为，以待评测语音的识别结果对应的文本特征作为评测特征，以待评测语音的标注评测结果为标签，训练循环神经网络模型得到。

一种数据评测装置，包括：

第一待评测数据获取单元，用于获取第一待评测数据；

第一评测结果获取单元，用于基于评测模型对所述第一待评测数据进行评测，得到第一评测结果，所述评测模型基于第一标定数据训练得到，所述第一标定数据包括专家对第二待评测数据的评测结果；

第二标定数据获取单元，用于若所述第一评测结果不满足设定的结果收敛条件，则获取第二标定数据；

模型更新单元，用于利用所述第二标定数据迭代更新所述评测模型，直至确定当前更新后的评测模型满足设定的模型停止更新条件；所述第二标定数据包括专家对第三待评测数据的评测结果；

模型评测单元，用于基于最新的评测模型进行数据评测。

优选地，所述模型更新单元确定当前更新后的评测模型满足设的模型停止更新条件的过程，包括：

优选地，所述模型更新单元利用当前更新后的评测模型在预置的验证集上进行验证，得到验证结果的过程，包括：

所述模型更新单元若确定验证结果满足设定的验证结果收敛条件，则确定当前更新后的评测模型满足设定的模型停止更新条件的过程，包括：

或，

优选地，所述第二标定数据获取单元包括：

第二评测结果获取单元，用于获取通用评测模型对待评测数据的第二评测结果；

第三评测结果获取单元，用于获取人工评测主体对所述待评测语音的第三评测结果；

专家确定单元，用于根据每一人工评测主体对所述待评测数据的第三评测结果，及所述待评测数据的第二评测结果，从各所述人工评测主体中确定出所述专家；

第二标定数据确定单元，用于从所述专家所评测的待评测数据中，确定所述第二标定数据。

优选地，还包括：

目标待评测数据选取单元，用于在所述获取通用评测模型对待评测数据的第二评测结果之后，参考所述第二评测结果，从所述待评测数据中选取作为人工评测的对象的目标待评测数据；

则所述第三评测结果获取单元获取人工评测主体对所述待评测语音的第三评测结果的过程，包括：

获取人工评测主体对所述目标待评测数据的第三评测结果。

优选地，所述第二评测结果为第二评测分或第二评测等级，所述目标待评测数据选取单元，包括：

正态分布抽样单元，用于参考各所述待评测数据的第二评测分或第二评测等级，按照正态分布的抽样方式，从各所述待评测数据中选取作为人工评测的对象的目标待评测数据。

优选地，所述专家确定单元，包括：

相关性计算单元，用于根据每一人工评测主体对所述待评测数据的第三评测结果，及所述待评测数据的第二评测结果，计算所述第三评测结果与所述第二评测结果的相关性；

相关性筛选单元，用于选取相关性满足设定相关性条件的第三评测结果所对应的人工评测主体，作为所述专家。

一种数据评测设备，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上所述的数据评测方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上所述的数据评测方法的各个步骤。

从上述的技术方案可以看出，本申请实施例提供的数据评测方法，可以预先从待评测数据中抽取第二待评测数据，并由专家对第二待评测数据进行评测，组成第一标定数据，并预先利用第一标定数据训练评测模型，在此基础上，本申请可以从待评测数据中获取第一待评测数据，基于前述评测模型对第一待评测数据进行评测，得到第一评测结果，若确定第一评测结果不满足设定的结果收敛条件，则可以获取第二标定数据，该第二标定数据可以是专家对第三待评测数据的评测结果，进而利用第二标定数据迭代更新评测模型，直至确定当前更新后的评测模型满足设定的模型停止更新条件为止，利用最新的评测模型进行数据评测。由此可见，本案利用专家评测的结果迭代训练评测模型，并利用人工专家及评测模型相结合，对数据进行评测，相比于现有单一依据人工专家进行评测的方式，本案的数据评测效率更高，占用的人工成本更少，且评测耗时更短。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的一种数据评测方法流程图；

图2示出了现有口语考试语音评测过程示意图；

图3示出了本案口语考试语音评测过程示意图；

图4示例了一种选取目标待评测数据的正态分布抽样方式示意图；

图5为本申请实施例公开的一种数据评测装置结构示意图；

图6为本申请实施例公开的一种数据评测设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种数据评测方案，可以适用于具备数据处理能力的设备。本申请的数据评测方案可以适用于各种需要进行数据评测的场景，如考试数据评测等。待评测数据也可以有多种，如语音、文本、图像等各种形式。

接下来结合附图1对本申请的数据评测方法进行介绍，如图1所示，该方法可以包括：

步骤S100、获取第一待评测数据。

具体地，对于数据评测场景中所有需要进行数据评测的数据，作为待评测数据。本步骤中，从待评测数据中获取一部分待评测数据，作为第一待评测数据。

其中，第一待评测数据的数量并不做严格限定。

步骤S110、基于评测模型对所述第一待评测数据进行评测，得到第一评测结果。

其中，所述评测模型基于第一标定数据训练得到，所述第一标定数据包括专家对第二待评测数据的评测结果。

第二待评测数据也是从待评测数据中抽取的。

本申请方案可以预先从待评测数据中抽取一定数量的第二待评测数据，交由专家进行人工评测，并将专家对第二待评测数据的评测结果作为第一标定数据。利用第一标定数据训练评测模型。基于第一标定数据训练后的评测模型，可以对上一步骤中获取的第一待评测数据进行评测，得到第一评测结果。

步骤S120、若所述第一评测结果不满足设定的结果收敛条件，则获取第二标定数据，并利用所述第二标定数据迭代更新所述评测模型，直至确定当前更新后的评测模型满足设定的模型停止更新条件。

具体地，本案可以预先设定结果收敛条件，用于对第一评测结果进行收敛判断，若第一评测结果不满足结果收敛条件，则表示基于第一标定数据训练后的评测模型还没有训练到足够优秀，进而需要获取第二标定数据继续进行迭代更新。其中，结果收敛条件可以有多种，如由专家对第一待评测数据或其中部分待评测数据进行评测，并以专家的评测结果为基准，将第一评测结果与专家的评测结果进行匹配，进而根据匹配结果确定是否满足设定的结果收敛条件。

需要说明的是，基于第一标定数据训练后的评测模型可能已经足够优秀，则评测模型对第一待评测数据进行评测的第一评测结果，满足设定的结果收敛条件。进一步地，基于第一标定数据训练后的评测模型，还可能不足够优秀，也即第一标定数据的数据量可能不足够多，导致训练的评测模型不足够优秀。在此情况下，本步骤中可以进一步获取第二标定数据，对评测模型迭代更新该第二标定数据包括专家对第三待评测数据的评测结果。其中，第三待评测数据可以是从待评测数据中抽取的一定数量的待评测数据。第三待评测数据可以不同于第二待评测数据。

同时，本案中还可以预先设定模型停止更新条件，用于对基于第二标定数据更新后的评测模型进行判断，确定是否达到模型停止更新条件。

需要说明的是，本步骤中获取第二标定数据的轮数可以有多轮，每一轮获取一定量的第二标定数据后，利用第二标定数据迭代更新评测模型，直至确定当前更新后的评测模型满足模型停止更新条件为止。至此可以停止获取第二标定数据。

步骤S130、基于最新的评测模型进行数据评测。

可以理解的是，若上述第一评测结果满足设定的模型停止更新条件，则说明基于第一标定数据训练的评测模型足够优秀，可以直接将该基于第一标定数据训练的评测模型作为最新的评测模型。进一步地，若上述第一评测结果不满足设定的模型停止更新条件，则利用第二标定数据迭代对评测模型进行更新，直至当前更新后的评测模型满足模型停止更新条件时，将当前更新后的评测模型作为最新的评测模型。

在得到最新的评测模型之后，可以基于最新的评测模型进行数据评测。

可以理解的是，可以使用最新的评测模型对全部的待评测数据进行评测，或者使用最新的评测模型，对待评测数据中除专家人工评测外的其它待评测数据进行评测，或者，对待评测数据中除专家人工评测和更新阶段的各评测模型所评测过的评测数据外的其它待评测数据进行评测。最新的评测模型的具体使用方式可以根据需要而设定。

本申请实施例提供的数据评测方法，可以预先从待评测数据中抽取第二待评测数据，并由专家对第二待评测数据进行评测，组成第一标定数据，并预先利用第一标定数据训练评测模型，在此基础上，本申请可以从待评测数据中获取第一待评测数据，基于前述评测模型对第一待评测数据进行评测，得到第一评测结果，若确定第一评测结果不满足设定的结果收敛条件，则可以获取第二标定数据，该第二标定数据可以是专家对第三待评测数据的评测结果，进而利用第二标定数据迭代更新评测模型，直至确定当前更新后的评测模型满足设定的模型停止更新条件为止，利用最新的评测模型进行数据评测。由此可见，本案利用专家评测的结果迭代训练评测模型，并利用人工专家及评测模型相结合，对数据进行评测，相比于现有单一依据人工专家进行评测的方式，本案的数据评测效率更高，占用的人工成本更少，且评测耗时更短。

需要说明的是，本案中专家可以实时对待评测数据进行评测得到评测结果，且专家评测过程与评测模型训练及评测过程可以是同步执行，也即，整个数据评测过程，一边由专家人工评测、一边利用专家人工评测结果训练评测模型、一边由训练后的评测模型对待评测数据进行评测，三个环节是同步进行的。当然，在确定评测模型训练达到设定的模型停止更新条件时，评测模型达到最优状态。此后，专家可以停止进行人工评测，或者仅对部分评测模型无法评测的题型进行人工评测，既不会浪费专家成本，又能够保证训练得到最优的评测模型。

举例说明如下：

首先获取专家已经评测过的300份标定数据，并利用该300份标定数据训练评测模型，得到训练后的第一评测模型。进一步从待评测数据中获取100份待评测数据，利用第一评测模型对100份待评测数据进行评测，得到第一评测结果。确定第一评测结果是否满足设定的结果收敛条件，若不满足，则进一步获取专家评测的另外300份标定数据，并利用新获取的300份标定数据迭代训练第一评测模型，得到训练后的第二评测模型。判断第二评测模型是否满足设定的模型停止更新条件，若否，继续获取专家评测的新的标定数据，以及继续对评测模型进行迭代训练及验证，若是，则说明训练后的评测模型已经足够优秀，可以作为最新的评测模型使用，并且可以让专家停止对待评测数据进行评测。

此外需要说明的是，本申请实施例中可以预先设置多个不同类型的评测模型，每个类型的评测模型均按照上述流程使用，并各自训练达到最优状态。进一步地，可以将训练后的多个不同类型的评测模型结合使用。或者，可以将多个不同类型的评测模型，在同一验证集上进行效果比对，挑选出效果最优的评测模型，作为最终使用的模型。

以待评测数据为待评测语音为例进行说明，本实施例中示例了三种不同类型的评测模型，分别为：第一评测子模型、第二评测子模型、第三评测子模型，其中：

第一评测子模型：

第一评测子模型为，以待评测语音的声学特征作为评测特征，以待评测语音的标注评测结果为标签，训练神经网络模型得到。

具体地，提取待评测语音的声学特征作为评测特征，主要包含发音准确性、流利性、完整性。进一步，通过历史经验数据与人工标注结果，训练第一评测子模型，该第一评测子模型可以是SVM(Support Vector Machine，支持向量机)，LR(Logistic Regression，逻辑回归)等结构的神经网络模型。

第二评测子模型：

第二评测子模型为，以待评测语音的识别结果对应的文本特征作为评测特征，以待评测语音的标注评测结果为标签，训练卷积神经网络模型得到。

具体地，可以从待评测语音的识别结果中提取文本特征，作为评测特征。将考生的语言表达水平作为第二评测子模型的输出目标，设计一种基于口语考试范围内的语言组织水平等级分类的第二评测子模型，使得第二评测子模型能够基于待评测语音的识别结果，分析考生的语言水平能力，判定考生的口语水平等级。

其中，第二评测子模型可以采用CNN卷积神经网络，其可以提取文本中的局部重要信息，并通过多层卷积方式实现局部到整体的信息提取。该第二评测子模型可以识别出学生的高水平的表达方式。

第三评测子模型：

第三评测子模型为，以待评测语音的识别结果对应的文本特征作为评测特征，以待评测语音的标注评测结果为标签，训练循环神经网络模型得到。

具体地，可以从待评测语音的识别结果中提取文本特征，作为评测特征。其中，第三评测子模型可以采用RNN循环神经网络，其可以提取文本的序列语义和逻辑信息，因此适合考生文本理解。

在本申请的另一个实施例中，对上述步骤S120中，确定当前更新后的评测模型满足设定的模型停止更新条件的过程进行说明。

一种可选的方式，可以利用当前更新后的评测模型在预置的验证集上进行验证，得到验证结果，进一步判断验证结果是否满足设定的验证结果收敛条件，若确定验证结果满足设定的验证结果收敛条件，则确定当前更新后的评测模型满足设定的模型停止更新条件。

其中，验证集里可以包含多个验证样本，这些验证样本可以标注有评测结果，也可以不标注评测结果。

其中，得到验证结果的过程可以包括：

获取当前更新后的评测模型对验证集内验证样本的预测结果，作为验证结果。

在此基础上，若验证样本标注有评测结果，则判断验证结果是否满足设定的验证结果收敛条件的过程，可以包括：

以所述验证样本的标注结果为基准，判断所述验证样本的预测结果是否满足设定的验证结果收敛条件，若是，确定当前更新后的评测模型满足设定的模型停止更新条件。

具体地，可以将验证样本的预测结果与标注结果进行对比，判定验证样本的预测结果是否满足设定的验证结果收敛条件，如预测结果与标注结果的差值是否处于设定差值范围内等。

进一步地，若验证样本未标注有评测结果，则判断验证结果是否满足设定的验证结果收敛条件的过程，可以包括：

参考上一评测模型对所述验证样本的预测结果，判断当前更新后的评测模型对所述验证样本的预测结果是否满足设定的验证结果收敛条件，若是，确定当前更新后的评测模型满足模型停止更新件。

具体地，当验证样本没有标注评测结果时，可以通过对比前后两个评测模型对验证样本的预测结果，来判断当前更新后的评测模型对验证样本的预测结果是否满足设定验证结果收敛条件，示例如，当前更新后的评测模型对验证样本的预测结果，与上一评测模型对所述验证样本的预测结果的差值，处于设定差值范围之内等。

在本申请的又一个实施例中，对上述实施例中提及的用于训练评测模型的第一标定数据和第二标定数据的获取过程进行介绍。

在此之前，本实施例首先以口语考试场景为例，介绍了一种口语考试语音评测的过程。结合图2所示，口语考试语音评测过程可以细分为四个部分，分别为：

Part1：考试语音汇总及人工挑选定标专家。

这里，考试语音即为考生针对口语考试内容给出的回答语音。进一步地，现有技术需要组织第一批次的定标专家，该定标专家用于确定评分标准，定标专家需要具备很强的专业水平。

Part2：根据经验预估定标集规模，并挑选定标集。定标集一般由所有考生的考试语音中，具备代表性的考试语音组成。在确定了定标集之后，交给定标专家进行人工定标，即由定标专家对定标集内的考试语音进行评测打分，分数的高低代表考生的口语水平。定标集内的考试语音经过评测打分之后，作为训练数据，训练语音评测模型，得到训练后的语音评测模型。

Part3：组织第二批海打专家。这里需要说明的是，口语考试内容中部分题型可以通过语音评测模型进行评分，如朗读题等，此外，还存在部分自由开放性题型，这部分题型利用语音评测模型进行评分效果不理想，因此还需要人工评分。这里，第二批海打专家主要是对该部分语音评测模型评分效果不理想的题型进行人工评测打分。同时，对于可以通过语音评测模型进行评分的题型，使用上一步骤中训练后的语音评测模型进行评测打分。

Part4：将上一步骤中由人工评分的题型的得分，以及由语音评测模型评分的题型的得分进行合并，得到汇总得分。

分析上述流程可知，其存在如下缺陷：

1、在Part1环节中需要人工挑选定标专家，容易受人工经验影响，选取的定标专家的专业能力可能参差不齐，进而利用定标专家评测的考试语音作为训练数据训练的口语考试评测模型也会出现偏差，影响最终评测准确度。

2、在Part2环节中需要由人工依据经验来预估定标集规模，该定标集规模即为口语考试评测模型的训练集规模，显然人工预估的规模极有可能不是最优结果，进而导致模型训练效果不佳，影响最终评测准确度。

3、在Part1和Part3两个环节，共计需要组织两批次的专家，即第一批次的定标专家，和第二批次的海打专家，导致整个口语考试评测流程复杂、周期长。

基于上述介绍的考试语音评测流程的缺陷，本实施例提供了一种第一标定数据和第二标定数据的获取方式，能够解决上述提及的缺陷，该获取过程可以包括：

S1、获取通用评测模型对待评测数据的第二评测结果，及人工评测主体对所述待评测数据的第三评测结果。

以口语考试场景为例，待评测数据即可以是考生针对口语考试题目的回答语音。其中，通用评测模型可以是根据历年的口语考试语音及评测结果训练的用于对考试语音进行评测的语音评测模型。通用语音评测模型的预测准确度比较高，仅仅是针对不同地区，评分尺度可能有差异，需要针对不同地区训练匹配的语音评测模型，以实现更高精度的语音评测。

仍以口语考试场景为例，本方案仅需要组织一批专家，对应上述图2流程中的Part3环节的海打专家，而不需要额外组织图2流程中Part1环节的定标专家。本步骤中，人工评测主体可以看作图2中Part3环节的海打专家。

为了便于区分描述，本步骤中将通用评测模型对待评测数据的评测结果定义为第二评测结果，将人工评测主体对所述待评测数据的评测结果定义为第三评测结果。

S2、根据每一人工评测主体对所述待评测数据的第三评测结果，及所述待评测数据的第二评测结果，从各所述人工评测主体中确定出专家。

具体地，可以以通用评测模型对待评测数据的第二评测结果为标准，对每一人工评测主体的第三评测结果进行对比，可以从各人工评测主体中确定出专业水平高的目标人工评测主体，作为专家。这里所提及的专家可以理解为定标专家，也即对待评测数据的第三评测结果更加准确的人工评测主体。

由于本案中可以参考通用评测模型对待评测数据的第二评测结果，进而能够根据每一人工评测主体对待评测数据的第三评测结果，从各人工评测主体中确定出专家，该选出的专家的专业水平较高，无需人工挑选定标专家。

S3、从所述专家所评测的待评测数据中，确定所述第一标定数据和所述第二标定数据。

具体地，上述已经说明，专家可以是海打专家中确定出来的，本案仅需要组织一批的海打专家即可，无需额外组织定标专家，使得评测周期更短、流程更简单。并且，海打专家可以对海量考生的考试数据进行评测，因此待评测数据的数量可以有很多，这也就意味着第一标定数据和第二标定数据的数量可以有很多。

进一步，由于专家为参考通用评测模型对待评测数据的第二评测结果，及每一人工评测主体对待评测数据的第三评测结果所确定的，其专业水平更高，专家对待评测数据的第三评测结果更加准确，基于此可以得到大量的、准确的第一标定数据和第二标定数据，从而保证能够训练得到更优的评测模型。

结合图3所示，应用本实施例提供的第一标定数据和第二标定数据的获取方式，进行口语考试语音评测过程可以细分为三个部分，分别为：

Part1：考试语音汇总。

这里，考试语音即为考生针对口语考试内容给出的回答语音。

需要说明的是，相比于现有流程，本案在Part1环节不需要组织定标专家。

Part2：通用语音评测模型对待评测语音进行评测得到第二评测结果，以及，组织海打专家对待评测语音进行人工评测，得到第三评测结果。根据第二评测结果和第三评测结果确定专家，并从专家所评测的待评测数据中，确定第一标定数据和第二标定数据，训练语音评测模型。训练后的语音评测模型可以对部分题型进行评测打分。

Part3：将上一步骤中由海打专家人工评分的题型的得分，以及由语音评测模型评分的题型的得分进行合并，得到汇总得分。

分析可知，本申请实施例提供的方法，只需要组织一批海打专家对全体考生的待评测语音进行评测，由于不需要额外组织一批定标专家，因此流程更加简单、周期更短，且以通用语音评测模型对待评测语音的第二评测结果为标准，对每一人工评测主体的第三评测结果进行对比，可以从各人工评测主体中确定出专业水平高的专家作为定标专家，相比于人工挑选定标专家，本申请确定的专家的专业水平更高，基于此得到的标定数据更准确，且组织的该批次的人工评测主体所评测的待评测语音可以是大量的，基于此本申请可以获取充足数量的标定数据，不需要额外预估训练集规模，使得语音评测模型训练更加充分，效果更佳，后续进行考试语音评测时更加准确。

在本申请的又一个实施例中，介绍上述S1获取通用评测模型对待评测数据的第二评测结果的过程。

以待评测数据为待评测语音，通用评测模型为语音评测模型为例进行说明：

首先可以获取待评测语音的识别结果及评测特征。

其中，待评测语音的识别结果即为，将待评测语音识别为文本后的结果。评测特征可以包括两类，其中一类可以是从组成待评测语音的语音片段中提取的声学特征。另一类可以是从待评测语音的识别结果中提取的文本特征。

获取的评测特征可以是与发音准确性、流利性、完整性等于评测标准相关的多种类型的特征。

进一步地，将所述识别结果和所述评测特征输入语音评测模型，得到语音评测模型输出的所述待评测语音的第一评测结果。

其中，语音评测模型为以训练语音的识别结果及评测特征作为训练样本，以标注的所述训练语音的评测结果为样本标签训练得到。

本实施例中示例了三种不同的评测特征与不同结构的语音评测模型的组合方式，分别如下：

第一种：

提取待评测语音的声学特征作为评测特征，主要包含发音准确性、流利性、完整性。进一步，通过历史经验数据与人工标注结果，预先训练好语音评测模型，该语音评测模型可以是SVM(Support Vector Machine，支持向量机)，LR(Logistic Regression，逻辑回归)等结构。

第二种：

可以从待评测语音的识别结果中提取文本特征，作为评测特征。将考生的语言表达水平作为语音评测模型的输出目标，设计一种基于口语考试范围内的语言组织水平等级分类的语音评测模型，使得模型能够基于待评测语音的识别结果，分析考生的语言水平能力，判定考生的口语水平等级。

其中，语音评测模型可以采用CNN卷积神经网络，其可以提取文本中的局部重要信息，并通过多层卷积方式实现局部到整体的信息提取。该语音评测模型可以识别出学生的高水平的表达方式。

第三种：

可以从待评测语音的识别结果中提取文本特征，作为评测特征。其中，语音评测模型可以采用RNN循环神经网络，其可以提取文本的序列语义和逻辑信息，因此适合考生文本理解。

在本申请的又一个实施例中，在上述S1获取通用评测模型对待评测数据的第二评测结果之后，还可以进一步增加如下处理步骤：

从所述待评测数据中选取作为人工评测的对象的目标待评测数据。

具体地，待评测数据可以是全体考生的考试数据，人工评测时可以从待评测数据中逐步选取目标待评测数据。本步骤中，将从待评测数据中选取的作为人工评测的对象的待评测数据作为目标待评测数据。

基于此，上述S1获取人工评测主体对所述待评测数据的第三评测结果的过程，具体包括：

获取人工评测主体对所述目标待评测数据的第三评测结果。

进一步地，上述从所述待评测数据中选取作为人工评测的对象的目标待评测数据的过程，可以包括：

参考所述第二评测结果，从所述待评测数据中选取作为人工评测的对象的目标待评测数据。

也即，根据通用评测模型对各待评测数据的第二评测结果，从各待评测数据中选取作为人工评测的对象的目标待评测数据。

其中，第二评测结果可以包括第二评测分，或第二评测等级。也即，第二评测结果可以是分数或等级形式。基于此，可以参考各所述待评测数据的第二评测分或第二评测等级，按照正态分布的抽样方式，从各所述待评测数据中选取作为人工评测的对象的目标待评测数据。

以第二评测结果为评测等级形式为例，结合图4进行说明：

各待评测数据的第二评测等级共计包含n个等级。则可以按照第二评测等级正态分布的抽样方式，从各待评测数据中抽取目标待评测数据，最终抽取的目标待评测数据中，处于等级轴上两端等级的较少，处于等级轴上中间等级区间的较多。

可以理解的是，全体考生的水平一般是服从正态分布的，基于此本实施例中参考各待评测数据的第二评测分或第二评测等级，按照正态分布的抽取方式抽取目标待评测数据，能够很好覆盖全体考生，使得训练样本更加均衡。

在本申请的又一个实施例中，对上述S2根据每一人工评测主体对所述待评测数据的第三评测结果，及所述待评测数据的第二评测结果，从各所述人工评测主体中确定出专家的过程进行介绍。

一种可选的实施方式如下：

首先，根据每一人工评测主体对所述待评测数据的第三评测结果，及所述待评测数据的第二评测结果，计算所述第三评测结果与所述第二评测结果的相关性。

进一步地，选取相关性满足设定相关性条件的第三评测结果所对应的人工评测主体，作为专家。

其中，第二评测结果可以是第二评测分或第二评测等级，同理，第三评测结果也可以是第三评测分或第三评测等级。本实施例中以通用评测模型对待评测数据的第二评测结果为标准，计算每一人工评测主体对待评测数据的第三评测结果与第二评测结果间的相关性，该相关性能够表征每个第三评测结果与作为标准的第二评测结果之间的对应程度，相关性越高，表示二者对应程度越高，也就表明给出第三评测结果的人工评测主体的专业水平越高。

本实施例通过预先设定相关性条件，可以选取相关性满足设定相关性条件的第三评测结果对应的人工评测主体，作为专家，该专家可以作为定标专家。

其中，设定相关性条件可以包括相关性超过设定相关性阈值，相关性处于设定相关性等级等，其中相关性等级示例可以包括：相关性低等级、中等级、高等级。

以第二评测结果为第二评测等级，第三评测结果为第三评测分为例进行说明：可以预先设定不同第三评测分与不同第二评测等级之间的相关性。

本实施例通过第三评测结果与第二评测结果之间的相关性，来衡量每一第三评测结果所对应的人工评测主体的评测质量，也即对应人工评测主体的专业水平，据此可以挑选出高水平的人工评测主体作为专家。

下面对本申请实施例提供的数据评测装置进行描述，下文描述的数据评测装置与上文描述的数据方法可相互对应参照。

参照图5所示，本申请实施例的数据评测装置可以包括：

第一待评测数据获取单元11，用于获取第一待评测数据；

第一评测结果获取单元12，用于基于评测模型对所述第一待评测数据进行评测，得到第一评测结果，所述评测模型基于第一标定数据训练得到，所述第一标定数据包括专家对第二待评测数据的评测结果；

第二标定数据获取单元13，用于若所述第一评测结果不满足设定的结果收敛条件，则获取第二标定数据；

模型更新单元14，用于利用所述第二标定数据迭代更新所述评测模型，直至确定当前更新后的评测模型满足设定的模型停止更新条件；所述第二标定数据包括专家对第三待评测数据的评测结果；

模型评测单元15，用于基于最新的评测模型进行数据评测。

可选的，所述模型更新单元确定当前更新后的评测模型满足设定的模型停止更新条件的过程，可以包括：

可选的，所述模型更新单元利用当前更新后的评测模型在预置的验证集上进行验证，得到验证结果的过程，可以包括：

或，

可选的，所述第二标定数据获取单元可以包括：

可选的，本申请的装置还可以包括：

目标待评测数据选取单元，用于在所述获取通用评测模型对待评测数据的第二评测结果之后，参考所述第二评测结果，从所述待评测数据中选取作为人工评测的对象的目标待评测数据。基于此，所述第三评测结果获取单元获取人工评测主体对所述待评测语音的第三评测结果的过程，可以包括：

获取人工评测主体对所述目标待评测数据的第三评测结果。

可选的，所述第二评测结果为第二评测分或第二评测等级，所述目标待评测数据选取单元，可以包括：

可选的，所述专家确定单元，可以包括：

本申请实施例提供的数据评测装置可应用于数据评测设备，如PC终端、云平台、服务器及服务器集群等。可选的，图6示出了数据评测设备的硬件结构框图，参照图6，数据评测设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

获取第一待评测数据；

基于最新的评测模型进行数据评测。

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

获取第一待评测数据；

基于最新的评测模型进行数据评测。

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种数据评测方法，其特征在于，包括：

获取第一待评测数据；

基于最新的评测模型进行数据评测。

2.根据权利要求1所述的方法，其特征在于，确定当前更新后的评测模型满足设定的模型停止更新条件的过程，包括：

3.根据权利要求2所述的方法，其特征在于，所述利用当前更新后的评测模型在预置的验证集上进行验证，得到验证结果，包括：

或，

4.根据权利要求1所述的方法，其特征在于，所述第一标定数据和所述第二标定数据的获取过程，包括：

5.根据权利要求4所述的方法，其特征在于，在所述获取通用评测模型对待评测数据的第二评测结果之后，该方法还包括：

获取人工评测主体对所述目标待评测数据的第三评测结果。

6.根据权利要求5所述的方法，其特征在于，所述第二评测结果为第二评测分或第二评测等级，所述参考所述第二评测结果，从所述待评测数据中选取作为人工评测的对象的目标待评测数据，包括：

7.根据权利要求4所述的方法，其特征在于，所述根据每一人工评测主体对所述待评测数据的第三评测结果，及所述待评测数据的第二评测结果，从各所述人工评测主体中确定出所述专家，包括：

8.根据权利要求1所述的方法，其特征在于，第二待评测数据和第三待评测数据为待评测语音，所述评测模型包括第一评测子模型、第二评测子模型、第三评测子模型中的至少一个；

9.一种数据评测装置，其特征在于，包括：

第一待评测数据获取单元，用于获取第一待评测数据；

模型评测单元，用于基于最新的评测模型进行数据评测。

10.根据权利要求9所述的装置，其特征在于，所述模型更新单元确定当前更新后的评测模型满足设的模型停止更新条件的过程，包括：

11.根据权利要求10所述的装置，其特征在于，所述模型更新单元利用当前更新后的评测模型在预置的验证集上进行验证，得到验证结果的过程，包括：

或，

12.根据权利要求9所述的装置，其特征在于，所述第二标定数据获取单元包括：

13.根据权利要求12所述的装置，其特征在于，还包括：

获取人工评测主体对所述目标待评测数据的第三评测结果。

14.根据权利要求13所述的装置，其特征在于，所述第二评测结果为第二评测分或第二评测等级，所述目标待评测数据选取单元，包括：

15.根据权利要求12所述的装置，其特征在于，所述专家确定单元，包括：

16.一种数据评测设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1-8中任一项所述的数据评测方法的各个步骤。

17.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-8中任一项所述的数据评测方法的各个步骤。