CN111914936B

CN111914936B - 语料数据的数据特征增强方法、装置及计算机设备

Info

Publication number: CN111914936B
Application number: CN202010777836.8A
Authority: CN
Inventors: 林佳佳; 郝正鸿; 王少军; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-08-05
Filing date: 2020-08-05
Publication date: 2023-05-09
Anticipated expiration: 2040-08-05
Also published as: WO2021139317A1; CN111914936A

Abstract

本发明公开了语料数据的数据特征增强方法、装置、计算机设备及存储介质，涉及人工智能技术，其中当获取了全量语料数据集后先进行数据分组得到多组语料数据子集，依序每删除一组语料数据子集后对待训练用户意图识别模型进行训练得到多个用户意图识别模型，将全量语料数据集中每一数据作为训练样本数据和作为测试样本数据，分别对应计算模型平均正确率差值、样本召回率差值和预测正确率差值以获取各语料数据对应的样本贡献度三元组；若有语料数据对应的样本贡献度三元组中三个差值为负值，获取目标语料数据组成待删除语料数据集以从全量语料数据集中删除。实现了对负贡献语料数据的自动清洗，清洗过程无需人为干预，提升高质量训练集的获取效率。

Description

语料数据的数据特征增强方法、装置及计算机设备

技术领域

本发明涉及人工智能的模型托管技术领域，尤其涉及一种语料数据的数据特征增强方法、装置、计算机设备及存储介质。

背景技术

传统的对话型机器人，将语料数据对深度学习模型进行训练，从而完成用户意图识别等任务，其中训练语料的质量是影响模型效果的关键。语料的质量一般通过“质”和“量”两个方面进行衡量，“质”是确保语料的正确性以及不同意图之间的边界清晰，“量”是保障模型能充分的学习数据特征的分布，两者相辅相成，缺一不可。

研发人员在整理训练数据时发现，在扩充训练集“量”时，增加一个样本进入训练集，并不一定带来正面的影响。

同时，扩充训练语料也需要消耗大量的人力，即所需人力成本较高。这是因为当前语料数据清洗的工作几乎是人工完成的，这就导致获取高质量训练集的效率低下。

发明内容

本发明实施例提供了一种语料数据的数据特征增强方法、装置、计算机设备及存储介质，旨在解决现有技术中扩充训练语料是人工完成，所需人力成本较高，而且扩充预料数据过程中的数据清洗过程也是人工完成，导致获取高质量训练集的效率低下的问题。

第一方面，本发明实施例提供了一种语料数据的数据特征增强方法，其包括：

获取全量语料数据集；其中，所述全量语料数据集中包括多个语料数据；

调用预先设置的分组总数值，以根据所述分组总数值将所述全量语料数据集划分为对应组数的语料数据子集；

依序删除所述全量语料数据集对应划分的其中一个语料数据子集后分别输入至待训练用户意图识别模型，以得到和分组总数值有相同个数的用户意图识别模型；其中，每一轮删除所述全量语料数据集对应划分的其中一个语料数据子集后，该被删除的语料数据子集作为语料测试集，该被删除的语料数据子集中每一语料数据作为测试样本数据；

获取所述全量语料数据集中每一语料数据作为各用户意图识别模型的训练样本数据、和作为各用户意图识别模型的测试样本数据分别对应的第一模型平均正确率和第二模型平均正确率求差值，以得到每一语料数据对应的平均正确率差值；

获取所述全量语料数据集中每一语料数据作为各用户意图识别模型的训练样本数据、和作为各用户意图识别模型的测试样本数据分别对应的第一样本召回率和第二样本召回率求差值，以得到每一语料数据对应的样本召回率差值；

获取所述全量语料数据集中每一语料数据作为各用户意图识别模型的训练样本数据、和作为各用户意图识别模型的测试样本数据分别对应的第一预测平均正确率和第二预测平均正确率求差值，以得到每一语料数据对应的预测正确率差值；

根据每一语料数据对应的平均正确率差值、样本召回率差值和预测正确率差值，获取每一语料数据分别对应的样本贡献度三元组；

判断是否存在有语料数据对应的样本贡献度三元组中平均正确率差值、样本召回率差值和预测正确率差值均为负值；

若存在有语料数据对应的样本贡献度三元组中平均正确率差值、样本召回率差值和预测正确率差值均为负值，获取对应的目标语料数据，以组成待删除语料数据集；以及

将所述待删除语料数据集从所述全量语料数据集中删除，以更新全量语料数据集。

第二方面，本发明实施例提供了一种语料数据的数据特征增强装置，其包括：

语料数据集获取单元，用于获取全量语料数据集；其中，所述全量语料数据集中包括多个语料数据；

数据集划分单元，用于调用预先设置的分组总数值，以根据所述分组总数值将所述全量语料数据集划分为对应组数的语料数据子集；

分组训练单元，用于依序删除所述全量语料数据集对应划分的其中一个语料数据子集后分别输入至待训练用户意图识别模型，以得到和分组总数值有相同个数的用户意图识别模型；其中，每一轮删除所述全量语料数据集对应划分的其中一个语料数据子集后，该被删除的语料数据子集作为语料测试集，该被删除的语料数据子集中每一语料数据作为测试样本数据；

平均正确率差值计算单元，用于获取所述全量语料数据集中每一语料数据作为各用户意图识别模型的训练样本数据、和作为各用户意图识别模型的测试样本数据分别对应的第一模型平均正确率和第二模型平均正确率求差值，以得到每一语料数据对应的平均正确率差值；

样本召回率差值计算单元，用于获取所述全量语料数据集中每一语料数据作为各用户意图识别模型的训练样本数据、和作为各用户意图识别模型的测试样本数据分别对应的第一样本召回率和第二样本召回率求差值，以得到每一语料数据对应的样本召回率差值；

预测正确率差值计算单元，用于获取所述全量语料数据集中每一语料数据作为各用户意图识别模型的训练样本数据、和作为各用户意图识别模型的测试样本数据分别对应的第一预测平均正确率和第二预测平均正确率求差值，以得到每一语料数据对应的预测正确率差值；

样本贡献度三元组获取单元，用于根据每一语料数据对应的平均正确率差值、样本召回率差值和预测正确率差值，获取每一语料数据分别对应的样本贡献度三元组；

三元组判断单元，用于判断是否存在有语料数据对应的样本贡献度三元组中平均正确率差值、样本召回率差值和预测正确率差值均为负值；

负样本删除单元，用于若存在有语料数据对应的样本贡献度三元组中平均正确率差值、样本召回率差值和预测正确率差值均为负值，获取对应的目标语料数据，以组成待删除语料数据集；以及

数据集第一更新单元，用于将所述待删除语料数据集从所述全量语料数据集中删除，以更新全量语料数据集。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的语料数据的数据特征增强方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的语料数据的数据特征增强方法。

本发明实施例提供了一种语料数据的数据特征增强方法、装置、计算机设备及存储介质，其中当获取了全量语料数据集后，是先进行数据分组得到多组语料数据子集，依序每删除一组语料数据子集后对待训练用户意图识别模型进行训练得到多个用户意图识别模型，将全量语料数据集中每一数据作为训练样本数据和作为测试样本数据，分别对应计算模型平均正确率差值、样本召回率差值和预测正确率差值以获取各语料数据对应的样本贡献度三元组；若有语料数据对应的样本贡献度三元组中三个差值为负值，获取对应的目标语料数据组成待删除语料数据集以从全量语料数据集中删除。实现了对负贡献语料数据的自动清洗，清洗过程无需人为干预，提升了高质量训练集的获取效率。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的语料数据的数据特征增强方法的应用场景示意图；

图2为本发明实施例提供的语料数据的数据特征增强方法的流程示意图；

图3为本发明实施例提供的语料数据的数据特征增强装置的示意性框图；

图4为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1和图2，图1为本发明实施例提供的语料数据的数据特征增强方法的应用场景示意图；图2为本发明实施例提供的语料数据的数据特征增强方法的流程示意图，该语料数据的数据特征增强方法应用于服务器中，该方法通过安装于服务器中的应用软件进行执行。

如图2所示，该方法包括步骤S101～S110。

S101、接收用户端发送的全量语料数据集；其中，所述全量语料数据集中包括多个语料数据。

在本实施例中，用户端向服务器发送了一个全量语料数据集，以通过服务器筛选出其中样本贡献度较高的高质量样本数据后反馈至用户端，这样用户端中即可根据一个包括高质量样本数据的数据集去训练待训练模型(例如卷积神经网络，BERT模型等)。例如，将所述全量语料数据集记为数据集X，本申请中为了更简单的理解后续的技术方案，下面以数据集X中仅包括20条语料数据为例来说明，但具体实施时数据集X所包括的语料数据都是远大于20条的。其中，上述20条语料数据可以记为第i条语料数据且i的取值范围是[1,20]中的正整数取值。

S102、调用预先设置的分组总数值，以根据所述分组总数值将所述全量语料数据集划分为对应组数的语料数据子集。

在本实施例中，为了将所述全量语料数据集(即数据集X)进行分组，此时需获取服务器中预先存储的分组总数值。例如，将分组总数值记为k，本申请中为了更简单的理解后续的技术方案，下面以分组总数值记为k中k＝4为例来说明，但具体实施时数分组总数值不一定取值为4，也可以是其他正整数的取值。

由于数据集X中包括20条语料数据，且分组总数值k＝4，则以根据分组总数值4将全量语料数据集中20条语料数据划分为5个语料数据子集，上述5个语料数据子集可以记为第j号语料数据子集且j的取值范围是[1,5]中的正整数取值。为了更简化的理解上述分组过程，下面以将第1条语料数据-第5条语料数据划分至第1号语料数据子集，将第6条语料数据-第10条语料数据划分至第2号语料数据子集，将第11条语料数据-第15条语料数据划分至第3号语料数据子集，将第16条语料数据-第20条语料数据划分至第4号语料数据子集为例来继续说明后续处理过程。

S103、依序删除所述全量语料数据集对应划分的其中一个语料数据子集后分别输入至待训练用户意图识别模型，以得到和分组总数值有相同个数的用户意图识别模型；其中，每一轮删除所述全量语料数据集对应划分的其中一个语料数据子集后，该被删除的语料数据子集作为语料测试集，该被删除的语料数据子集中每一语料数据作为测试样本数据。

在本实施例中，为了增加单轮验证过程中每一语料数据均可以多次用于训练或测试用户意图识别模型，可以采用放下如下：依序删除所述全量语料数据集对应划分的其中一个语料数据子集后分别输入至待训练用户意图识别模型，以得到和分组总数值有相同个数的用户意图识别模型。通过这一交叉验证的方式，计算N个样本的贡献度只需要训练k个模型，降低了复杂度，提高了数据贡献度分析的效率。

在一实施例中，步骤S103包括：

将所述全量语料数据集记为数据集X，将数据集X所划分的语料数据子集分别记为第1号语料数据子集至第k号语料数据子集，第1号语料数据子集至第k号语料数据子集之间的语料数据子集记为第j号语料数据子集；其中k的取值等于分组总数值，j的取值是[1,k]区间内的正整数取值；

将第1号语料数据子集从所述全量语料数据集中删除，将所述全量语料数据集中余下的其他语料数据子集作为所述待训练用户意图识别模型的训练集进行训练，得到第一大轮第一小轮用户意图识别模型；

依序将第2号语料数据子集至第k号语料数据子集分别从全量语料数据集中删除后以作为所述待训练用户意图识别模型的训练集进行训练，依序得到第一大轮第二小轮用户意图识别模型至第一大轮第k小轮用户意图识别模型。

在本实施例中，继续以k＝4来说明，例如在第一次删除所述全量语料数据集对应划分的第1号语料数据子集后，剩余的第2号语料数据子集、第3号语料数据子集和第4号语料数据子集组成第一大轮第一小轮训练集，将所删除的第1号语料数据子集作为第一大轮第一小轮测试集。此时，通过第一大轮第一小轮训练集对所述待训练用户意图识别模型进行训练后，得到第一大轮第一小轮用户意图识别模型。

之后第二次删除所述全量语料数据集对应划分的第2号语料数据子集后，剩余的第1号语料数据子集、第3号语料数据子集和第4号语料数据子集组成第一大轮第二小轮训练集，将所删除的第2号语料数据子集作为第一大轮第二小轮测试集。此时，通过第一大轮第二小轮训练集对所述待训练用户意图识别模型进行训练后，得到第一大轮第二小轮用户意图识别模型。

然后第三次删除所述全量语料数据集对应划分的第3号语料数据子集后，剩余的第1号语料数据子集、第2号语料数据子集和第4号语料数据子集组成第一大轮第三小轮训练集，将所删除的第3号语料数据子集作为第一大轮第三小轮测试集。此时，通过第一大轮第三小轮训练集对所述待训练用户意图识别模型进行训练后，得到第一大轮第三小轮用户意图识别模型。

最后第四次删除所述全量语料数据集对应划分的第4号语料数据子集后，剩余的第1号语料数据子集、第2号语料数据子集和第3号语料数据子集组成第一大轮第四小轮训练集，将所删除的第4号语料数据子集作为第一大轮第四小轮测试集。此时，通过第一大轮第四小轮训练集对所述待训练用户意图识别模型进行训练后，得到第一大轮第四小轮用户意图识别模型。

通过上述依序从全量语料数据集中删除语料数据子集后分别对待训练用户意图识别模型进行训练后，得到了和分组总数值有相同个数的用户意图识别模型。

S104、获取所述全量语料数据集中每一语料数据作为各用户意图识别模型的训练样本数据、和作为各用户意图识别模型的测试样本数据分别对应的第一模型平均正确率和第二模型平均正确率求差值，以得到每一语料数据对应的平均正确率差值。

在本实施例中，从数据集X中第1条语料数据开始为例来说明数据集X中20条语料数据分别对应的样本贡献度三元组，其中样本贡献度三元组由模型平均正确率差值、样本召回率差值和预测正确率差值组成。

在一实施例中，步骤S104包括：

判断所述全量语料数据集中第i条语料数据是作为各用户意图识别模型的训练样本数据，或是作为各用户意图识别模型的测试样本数据；其中，i的取值范围是[1,N]中的正整数取值，且N等于所述全量语料数据集中的语料数据总条数；

若第i条语料数据是作为各用户意图识别模型的训练样本数据，获取第i条语料数据作为训练样本数据时对应的第一目标用户意图识别模型集合，计算第一目标用户意图识别模型集合中各第一目标用户意图识别模型对应的模型正确率以求平均值，得到第i条语料数据作为训练样本数据时对应的第一模型平均正确率；

若第i条语料数据是作为各用户意图识别模型的测试样本数据，获取第i条语料数据作为测试样本数据时对应的第二目标用户意图识别模型集合，计算第二目标用户意图识别模型集合中各第二目标用户意图识别模型对应的模型正确率以求平均值，得到第i条语料数据作为训练样本数据时对应的第二模型平均正确率；

将第i条语料数据作为训练样本数据时对应的第一模型平均正确率与第i条语料数据作为测试样本数据时对应的第二模型平均正确率求差，得到第i条语料数据对应的平均正确率差值。

在本实施例中，例如第1条语料数据是作为测试数据样本是第一大轮第一小轮训练过程中，第1条语料数据是作为训练数据样本是第一大轮第二小轮训练过程中、第一大轮第三小轮训练过程中以及第一大轮第四小轮训练过程中。也即当第1条语料数据是作为训练数据样本时得到的用户意图识别模型分别是第一大轮第二小轮用户意图识别模型、第一大轮第三小轮用户意图识别模型和第一大轮第四小轮用户意图识别模型；当第1条语料数据是作为测试数据样本时，得到的用户意图识别模型是第一大轮第一小轮用户意图识别模型。

此时由第一大轮第二小轮用户意图识别模型对应的第一大轮第二小轮测试集来进行模型验证测试，得到第一大轮第二小轮用户意图识别模型的第一模型正确率，其中第一模型正确率等于第一大轮第二小轮测试集中预测正确的测试数据条数除以第一大轮第二小轮测试集中的总数据条数；例如第6条语料数据输入至第一大轮第二小轮用户意图识别模型后的输出值等于第6条语料数据中对应的标注值，此时表示第一大轮第二小轮用户意图识别模型正确预测了第6条语料数据的结果。同理当第7条语料数据、第8条语料数据、第10条语料数据输入至第一大轮第二小轮用户意图识别模型后也能分别预测出正确的结果，且当第9条语料数据输入至第一大轮第二小轮用户意图识别模型后未能预测出第9条语料数据中对应的标注值，此时第一大轮第二小轮用户意图识别模型对应的第一模型正确率为80％。

参考上述过程得出第一大轮第三小轮用户意图识别模型对应的第二模型正确率为60％，且得出第一大轮第四小轮用户意图识别模型对应的第三模型正确率为100％后，可以计算第1条语料数据是作为训练数据样本对应的第一模型平均正确率为(80％+60％+100％)/3＝80％。

在计算第1条语料数据是作为测试数据样本对应的第二模型平均正确率时，此时由第一大轮第一小轮用户意图识别模型对应的第一大轮第一小轮测试集来进行模型验证测试，得到第一大轮第一小轮用户意图识别模型的第二模型正确率(由于第1条语料数据是作为测试数据样本时，只对应了1个用户意图识别模型，也即第一大轮第一小轮用户意图识别模型，故第二模型正确率可以视为第二模型平均正确率)，其中第二模型正确率等于第一大轮第一小轮测试集中预测正确的测试数据条数除以第一大轮第一小轮测试集中的总数据条数；例如第1条语料数据输入至第一大轮第一小轮用户意图识别模型后的输出值等于第1条语料数据中对应的标注值，此时表示第一大轮第一小轮用户意图识别模型正确预测了第1条语料数据的结果。同理当第2条语料数据、第3条语料数据输入至第一大轮第一小轮用户意图识别模型后也能分别预测出正确的结果，且当第4条语料数据和第5条语料数据输入至第一大轮第一小轮用户意图识别模型后未能预测出分别对应的标注值，此时第一大轮第一小轮用户意图识别模型对应的第二模型正确率为60％，也即第二模型平均正确率等于60％。

在上述过程中获取了第一模型平均正确率等于80％、且获取了第二模型平均正确率等于60％之后，即可计算第一模型平均正确率80％与第二模型平均正确率60％之差以作为第1条语料数据对应的平均正确率差值(此时，平均正确率差值等于20％)。也就是在计算第i条语料数据对应的平均正确率差值时，均可参照第1条语料数据的平均正确率差值的计算过程。通过获取每一语料数据对应的平均正确率差值，其可作为判断语料数据是否为负贡献样本的评估指标之一。

S105、获取所述全量语料数据集中每一语料数据作为各用户意图识别模型的训练样本数据、和作为各用户意图识别模型的测试样本数据分别对应的第一样本召回率和第二样本召回率求差值，以得到每一语料数据对应的样本召回率差值。

在本实施例中，获取每一语料数据对应的样本召回率差值，其可作为判断语料数据是否为负贡献样本的评估指标之一。

在一实施例中，步骤S105包括：

判断所述全量语料数据集中第i条语料数据是作为各用户意图识别模型的训练样本数据，或是作为各用户意图识别模型的测试样本数据；

若第i条语料数据是作为各用户意图识别模型的训练样本数据，获取第i条语料数据作为训练样本数据时对应的第三目标用户意图识别模型集合，计算第三目标用户意图识别模型集合中各第三目标用户意图识别模型对应的样本召回率以求平均值，得到第i条语料数据作为训练样本数据时对应的第一样本召回率；

若第i条语料数据是作为各用户意图识别模型的测试样本数据，获取第i条语料数据作为测试样本数据时对应的第四目标用户意图识别模型集合，计算第四目标用户意图识别模型集合中各第四目标用户意图识别模型对应的样本召回率以求平均值，得到第i条语料数据作为训练样本数据时对应的第二样本召回率；

将第i条语料数据作为训练样本数据时对应的第一样本召回率与第i条语料数据作为测试样本数据时对应的第二样本召回率求差，得到第i条语料数据对应的样本召回率差值。

在本实施例中，例如在计算第1条语料数据对应的样本召回率差值时，也是先计算第1条语料数据作为训练数据样本时，第一大轮第二小轮用户意图识别模型、第一大轮第三小轮用户意图识别模型和第一大轮第四小轮用户意图识别模型分别对应的第一模型召回率是20％(若第1条语料数据本身的预测意图是A，则第一模型召回率的计算方式是第一大轮第二小轮用户意图识别模型对应的所有测试样本数据中模型预测结果为A且预测正确的测试样本数据实际条数除以所有测试样本数据中模型预测结果为A的测试样本数据总条数)、第二模型召回率是40％(具体计算方式参考第一模型召回率的计算方式)、第三模型召回率是60％(具体计算方式参考第一模型召回率的计算方式)，这样第一样本召回率是对上述第一模型召回率、第二模型召回率及第三模型召回率求平均值得到，即第一样本召回率是40％。之后计算第1条语料数据作为测试数据样本时，以第一大轮第一小轮用户意图识别模型对应的第四模型召回率是20％，则该第四模型召回率可作为第二样本召回率，第1条语料数据对应的样本召回率差值是20％。在计算第i条语料数据对应的样本召回率差值时，均可参照第1条语料数据的样本召回率差值的计算过程。

S106、获取所述全量语料数据集中每一语料数据作为各用户意图识别模型的训练样本数据、和作为各用户意图识别模型的测试样本数据分别对应的第一预测平均正确率和第二预测平均正确率求差值，以得到每一语料数据对应的预测正确率差值。

在本实施例中，获取每一语料数据对应的预测正确率差值，其可作为判断语料数据是否为负贡献样本的评估指标之一。

在一实施例中，步骤S106包括：

若第i条语料数据是作为各用户意图识别模型的训练样本数据，获取第i条语料数据作为训练样本数据时对应的第五目标用户意图识别模型集合，计算第五目标用户意图识别模型集合中各第五目标用户意图识别模型对应的预测正确率以求平均值，得到第i条语料数据作为训练样本数据时对应的第一预测平均正确率；

若第i条语料数据是作为各用户意图识别模型的测试样本数据，获取第i条语料数据作为测试样本数据时对应的第六目标用户意图识别模型集合，计算第六目标用户意图识别模型集合中各第六目标用户意图识别模型对应的预测正确率以求平均值，得到第i条语料数据作为训练样本数据时对应的第二预测平均正确率；

将第i条语料数据作为训练样本数据时对应的第一预测平均正确率与第i条语料数据作为测试样本数据时对应的第二预测平均正确率求差，得到第i条语料数据对应的预测正确率差值。

在本实施例中，例如在计算第1条语料数据对应的预测正确率差值时，也是先计算第1条语料数据作为训练数据样本时，第一大轮第二小轮用户意图识别模型、第一大轮第三小轮用户意图识别模型和第一大轮第四小轮用户意图识别模型分别对应的第一预测正确率是100％(若第1条语料数据本身的预测结果是A，则第一预测正确率的计算方式是第一大轮第一小轮用户意图识别模型中对第1条语料数据的预测结果是A，且第1条语料数据在第一大轮第一小轮用户意图识别模型对应的测试数据样本总条数是1，则用第1条语料数据的预测结果正确的条数除以第1条语料数据作为测试数据样本总条数，得到第一预测正确率是100％)、第二预测正确率是100％(具体计算方式参考第一预测正确率的计算方式)、第三预测正确率是100％(具体计算方式参考第一预测正确率的计算方式)，这样第一预测平均正确率是对上述第一预测正确率、第二预测正确率及第三预测正确率求平均值得到，即第一预测平均正确率是100％。

之后计算第1条语料数据作为测试数据样本时，以第一大轮第二小轮用户意图识别模型、第一大轮第三小轮用户意图识别模型、第一大轮第四小轮用户意图识别模型分别对应的第四预测正确率、第五预测正确率、第六预测正确率求平均值即可得到第二预测平均正确率。其中，在计算第四预测正确率是第一大轮第二小轮用户意图识别模型中对第1条语料数据的预测结果是A、第一大轮第三小轮用户意图识别模型中对第1条语料数据的预测结果是A，第一大轮第四小轮用户意图识别模型中对第1条语料数据的预测结果是A，且第1条语料数据在第一大轮第二小轮用户意图识别模型至第一大轮第四小轮用户意图识别模型中对应的测试数据样本总条数是3，则用第1条语料数据的预测结果正确的总条数除以第1条语料数据作为训练数据样本总条数，得到第四预测正确率是100％。第五预测正确率和第六预测正确率的计算方式均参考上述第四预测正确率的计算方式，例如第五预测正确率是100％，第六预测正确率是100％，则第1条语料数据对应的第二预测平均正确率是100％(由第四预测正确率、第五预测正确率和第六预测正确率求平均值得到)。此时第1条语料数据对应的预测正确率差值等于第一预测平均正确率与第二预测平均正确率之差，即第1条语料数据对应的预测正确率差值等于0。在计算第i条语料数据对应的预测正确率差值时，均可参照第1条语料数据的预测正确率差值的计算过程。

S107、根据每一语料数据对应的平均正确率差值、样本召回率差值和预测正确率差值，获取每一语料数据分别对应的样本贡献度三元组。

在本实施例中，为了对每一语料数据是否为负贡献样本进行客观判断，此时需要先将每一语料数据对应的平均正确率差值、样本召回率差值和预测正确率差值进行组合，以获取每一语料数据分别对应的样本贡献度三元组。

在一实施例中，步骤S107包括：

将每一语料数据对应的平均正确率差值、样本召回率差值和预测正确率差值依序串接，得到每一语料数据对应的样本贡献度三元组。

在本实施例中，在上述获取了第1条语料数据对应的模型平均正确率差值20％、样本召回率差值20％和预测正确率差值0后，第1条语料数据对应的样本贡献度三元组为[20％,20％,0]。同样在进行完第一大轮的验证试验后，是可以获知数据集X中任意第i条语料数据对应的样本贡献度三元组。

S108、判断是否存在有语料数据对应的样本贡献度三元组中平均正确率差值、样本召回率差值和预测正确率差值均为负值。

在本实施例中，当某一条语料数据对应的样本贡献度三元组中平均正确率差值、样本召回率差值和预测正确率差值均为负值，则表示该语料数据作为训练数据以训练用户意图识别模型是大概率不会做出有益贡献的，此时可以考虑将该语料数据从全量语料数据集中删除以提升更新后全量语料数据集的训练数据质量。

当某一条语料数据对应的样本贡献度三元组中平均正确率差值、样本召回率差值和预测正确率差值不均为负值，则表示该语料数据作为训练数据以训练用户意图识别模型是可能做出有益贡献的，可以继续保留在全量语料数据集中。

S109、若存在有语料数据对应的样本贡献度三元组中平均正确率差值、样本召回率差值和预测正确率差值均为负值，获取对应的目标语料数据，以组成待删除语料数据集。

在本实施例中，当获取了全量语料数据集中所有的样本贡献度三元组中三率(即平均正确率差值、样本召回率差值和预测正确率差值)均为负值的目标语料数据，这些目标可以组成待删除语料数据集，待删除语料数据集中的语料数据都可以从全量语料数据集中删除，以提升全量语料数据集的数据质量。

S110、将所述待删除语料数据集从所述全量语料数据集中删除，以更新全量语料数据集。

在本实施例中，当将所述待删除语料数据集从所述全量语料数据集中删除后，此时全量语料数据集发生了变化，相较于步骤S101中初始获取的全量语料数据集，当前状态的全量语料数据集中语料数据的总数是小于或者等于步骤S101中初始获取的全量语料数据集中语料数据的总数。这一更新后的全量语料数据集可以作为一个精简高质量训练集在服务器本地用于继续训练用户意图识别模型，以得到识别准确率更高的用户意图识别模型。

在一实施例中，步骤S110之后还包括：

获取当前迭代次数，将所述当前迭代次数加一，以更新当前迭代次数；其中，当前迭代次数的初始值为0；

判断所述当前迭代次数是否超出预先设置的最大迭代次数；

若所述当前迭代次数未超出预先设置的最大迭代次数，调用预先设置的补充语料数据总条数，从本地语料池中随机抽取与所述补充语料数据总条数有相同总数据条数的补充语料数据，以组成补充语料数据集；

将所述补充语料数据集增加至所述全量语料数据集中，以更新全量语料数据集，返回执行所述获取全量语料数据集的步骤；

若所述当前迭代次数超出预先设置的最大迭代次数，结束流程。

在本实施例中，由于执行到步骤S110进行了一轮样本数据筛选后，可能导致数据量的减少。为了确保数据集中的语料数据总量不变或者是发生增加，此时可以先判断是否还能进行补充语料数据的流程。

即先获取当前迭代次数(其中，当前迭代次数的初始值为0)，将所述当前迭代次数加一，以更新当前迭代次数，一般最大迭代次数是大于2的，故在执行完一轮样本数据筛选后，是可以继续执行补充语料数据的步骤。也即之后若所述当前迭代次数未超出所述最大迭代次数时，调用预先设置的补充语料数据总条数，从本地语料池中随机抽取与所述补充语料数据总条数有相同总数据条数的补充语料数据，以组成补充语料数据集，从而实现对步骤S110中全量语料数据集的数据补充以更新该数据集，在更新完全量语料数据集后返回执行步骤S101以进行下一轮的数据筛选。经过下一轮数据筛选的全量语料数据集是否能进入再下一轮的数据样本筛选时，需先将将所述当前迭代次数加一，以更新当前迭代次数；之后判断所述当前迭代次数是否超出预先设置的最大迭代次数(例如设置最大迭代次数为10，则可以进行10轮语料数据的补充流程)，若所述当前迭代次数未超出所述最大迭代次数，返回执行步骤S101以进行再下一轮的数据筛选；若所述当前迭代次数超出所述最大迭代次数，执行结束流程的步骤。可见，通过上述方式实现了数据集中数据样本的自动扩充。之后所述获取最终的全量语料数据集可输入至待训练用户意图识别模型进行训练，得到最终的用户意图识别模型。

该方法实现了对负贡献语料数据的自动清洗，清洗过程无需人为干预，提升了高质量训练集的获取效率。

本发明实施例还提供一种语料数据的数据特征增强装置，该语料数据的数据特征增强装置用于执行前述语料数据的数据特征增强方法的任一实施例。具体地，请参阅图3，图3是本发明实施例提供的语料数据的数据特征增强装置的示意性框图。该语料数据的数据特征增强装置100可以配置于服务器中。

如图3所示，语料数据的数据特征增强装置100包括：语料数据集获取单元101、数据集划分单元102、分组训练单元103、平均正确率差值计算单元104、样本召回率差值计算单元105、预测正确率差值计算单元106、样本贡献度三元组获取单元107、三元组判断单元108、负样本删除单元109、数据集第一更新单元110。

语料数据集获取单元101，用于接收用户端发送的全量语料数据集；其中，所述全量语料数据集中包括多个语料数据。

数据集划分单元102，用于调用预先设置的分组总数值，以根据所述分组总数值将所述全量语料数据集划分为对应组数的语料数据子集。

分组训练单元103，用于依序删除所述全量语料数据集对应划分的其中一个语料数据子集后分别输入至待训练用户意图识别模型，以得到和分组总数值有相同个数的用户意图识别模型；其中，每一轮删除所述全量语料数据集对应划分的其中一个语料数据子集后，该被删除的语料数据子集作为语料测试集，该被删除的语料数据子集中每一语料数据作为测试样本数据。

在一实施例中，分组训练单元103包括：

数据集标号单元，用于将所述全量语料数据集记为数据集X，将数据集X所划分的语料数据子集分别记为第1号语料数据子集至第k号语料数据子集，第1号语料数据子集至第k号语料数据子集之间的语料数据子集记为第j号语料数据子集；其中k的取值等于分组总数值，j的取值是[1,k]区间内的正整数取值；

第一小轮第一删除单元，用于将第1号语料数据子集从所述全量语料数据集中删除，将所述全量语料数据集中余下的其他语料数据子集作为所述待训练用户意图识别模型的训练集进行训练，得到第一大轮第一小轮用户意图识别模型；

第一小轮依序删除单元，用于依序将第2号语料数据子集至第k号语料数据子集分别从全量语料数据集中删除后以作为所述待训练用户意图识别模型的训练集进行训练，依序得到第一大轮第二小轮用户意图识别模型至第一大轮第k小轮用户意图识别模型。

平均正确率差值计算单元104，用于获取所述全量语料数据集中每一语料数据作为各用户意图识别模型的训练样本数据、和作为各用户意图识别模型的测试样本数据分别对应的第一模型平均正确率和第二模型平均正确率求差值，以得到每一语料数据对应的平均正确率差值。

在一实施例中，平均正确率差值计算单元104包括：

第一判断单元，用于判断所述全量语料数据集中第i条语料数据是作为各用户意图识别模型的训练样本数据，或是作为各用户意图识别模型的测试样本数据；其中，i的取值范围是[1,N]中的正整数取值，且N等于所述全量语料数据集中的语料数据总条数；

第一计算单元，用于若第i条语料数据是作为各用户意图识别模型的训练样本数据，获取第i条语料数据作为训练样本数据时对应的第一目标用户意图识别模型集合，计算第一目标用户意图识别模型集合中各第一目标用户意图识别模型对应的模型正确率以求平均值，得到第i条语料数据作为训练样本数据时对应的第一模型平均正确率；

第二计算单元，用于若第i条语料数据是作为各用户意图识别模型的测试样本数据，获取第i条语料数据作为测试样本数据时对应的第二目标用户意图识别模型集合，计算第二目标用户意图识别模型集合中各第二目标用户意图识别模型对应的模型正确率以求平均值，得到第i条语料数据作为训练样本数据时对应的第二模型平均正确率；

第一差值计算单元，用于将第i条语料数据作为训练样本数据时对应的第一模型平均正确率与第i条语料数据作为测试样本数据时对应的第二模型平均正确率求差，得到第i条语料数据对应的平均正确率差值。

样本召回率差值计算单元105，用于获取所述全量语料数据集中每一语料数据作为各用户意图识别模型的训练样本数据、和作为各用户意图识别模型的测试样本数据分别对应的第一样本召回率和第二样本召回率求差值，以得到每一语料数据对应的样本召回率差值。

在一实施例中，样本召回率差值计算单元105包括：

第二判断单元，用于判断所述全量语料数据集中第i条语料数据是作为各用户意图识别模型的训练样本数据，或是作为各用户意图识别模型的测试样本数据；

第三计算单元，用于若第i条语料数据是作为各用户意图识别模型的训练样本数据，获取第i条语料数据作为训练样本数据时对应的第三目标用户意图识别模型集合，计算第三目标用户意图识别模型集合中各第三目标用户意图识别模型对应的样本召回率以求平均值，得到第i条语料数据作为训练样本数据时对应的第一样本召回率；

第四计算单元，用于若第i条语料数据是作为各用户意图识别模型的测试样本数据，获取第i条语料数据作为测试样本数据时对应的第四目标用户意图识别模型集合，计算第四目标用户意图识别模型集合中各第四目标用户意图识别模型对应的样本召回率以求平均值，得到第i条语料数据作为训练样本数据时对应的第二样本召回率；

第二差值计算单元，用于将第i条语料数据作为训练样本数据时对应的第一样本召回率与第i条语料数据作为测试样本数据时对应的第二样本召回率求差，得到第i条语料数据对应的样本召回率差值。

预测正确率差值计算单元106，用于获取所述全量语料数据集中每一语料数据作为各用户意图识别模型的训练样本数据、和作为各用户意图识别模型的测试样本数据分别对应的第一预测平均正确率和第二预测平均正确率求差值，以得到每一语料数据对应的预测正确率差值。

在一实施例中，预测正确率差值计算单元106包括：

第三判断单元，用于判断所述全量语料数据集中第i条语料数据是作为各用户意图识别模型的训练样本数据，或是作为各用户意图识别模型的测试样本数据；

第五计算单元，用于若第i条语料数据是作为各用户意图识别模型的训练样本数据，获取第i条语料数据作为训练样本数据时对应的第五目标用户意图识别模型集合，计算第五目标用户意图识别模型集合中各第五目标用户意图识别模型对应的预测正确率以求平均值，得到第i条语料数据作为训练样本数据时对应的第一预测平均正确率；

第六计算单元，用于若第i条语料数据是作为各用户意图识别模型的测试样本数据，获取第i条语料数据作为测试样本数据时对应的第六目标用户意图识别模型集合，计算第六目标用户意图识别模型集合中各第六目标用户意图识别模型对应的预测正确率以求平均值，得到第i条语料数据作为训练样本数据时对应的第二预测平均正确率；

第三差值计算单元，用于将第i条语料数据作为训练样本数据时对应的第一预测平均正确率与第i条语料数据作为测试样本数据时对应的第二预测平均正确率求差，得到第i条语料数据对应的预测正确率差值。

样本贡献度三元组获取单元107，用于根据每一语料数据对应的平均正确率差值、样本召回率差值和预测正确率差值，获取每一语料数据分别对应的样本贡献度三元组。

在一实施例中，样本贡献度三元组获取单元107还用于：

样本贡献度三元组获取单元107，用于判断是否存在有语料数据对应的样本贡献度三元组中平均正确率差值、样本召回率差值和预测正确率差值均为负值。

负样本删除单元109，用于若存在有语料数据对应的样本贡献度三元组中平均正确率差值、样本召回率差值和预测正确率差值均为负值，获取对应的目标语料数据，以组成待删除语料数据集。

数据集第一更新单元110，用于将所述待删除语料数据集从所述全量语料数据集中删除，以更新全量语料数据集。

在一实施例中，语料数据的数据特征增强装置100还包括：

当前迭代次数更新单元，用于获取当前迭代次数，将所述当前迭代次数加一，以更新当前迭代次数；其中，当前迭代次数的初始值为0；

当前迭代次数判断单元，用于判断所述当前迭代次数是否超出预先设置的最大迭代次数；

语料自动获取单元，用于若所述当前迭代次数未超出预先设置的最大迭代次数，调用预先设置的补充语料数据总条数，从本地语料池中随机抽取与所述补充语料数据总条数有相同总数据条数的补充语料数据，以组成补充语料数据集；

语料自动补充单元，用于将所述补充语料数据集增加至所述全量语料数据集中，以更新全量语料数据集，返回执行所述获取全量语料数据集的步骤；

流程结束单元，用于若所述当前迭代次数超出预先设置的最大迭代次数，结束流程。

该装置实现了对负贡献语料数据的自动清洗，清洗过程无需人为干预，提升了高质量训练集的获取效率。

上述语料数据的数据特征增强装置可以实现为计算机程序的形式，该计算机程序可以在如图4所示的计算机设备上运行。

请参阅图4，图4是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图4，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行语料数据的数据特征增强方法。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行语料数据的数据特征增强方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图4中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现本发明实施例公开的语料数据的数据特征增强方法。

本领域技术人员可以理解，图4中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图4所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现本发明实施例公开的语料数据的数据特征增强方法。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种语料数据的数据特征增强方法，其特征在于，包括：

2.根据权利要求1所述的语料数据的数据特征增强方法，其特征在于，所述将所述待删除语料数据集从所述全量语料数据集中删除，以更新全量语料数据集之后，还包括：

判断所述当前迭代次数是否超出预先设置的最大迭代次数；

3.根据权利要求1所述的语料数据的数据特征增强方法，其特征在于，所述依序删除所述全量语料数据集对应划分的其中一个语料数据子集后分别输入至待训练用户意图识别模型，以得到和分组总数值有相同个数的用户意图识别模型，包括：

4.根据权利要求3所述的语料数据的数据特征增强方法，其特征在于，所述获取所述全量语料数据集中每一语料数据作为各用户意图识别模型的训练样本数据、和作为各用户意图识别模型的测试样本数据分别对应的第一模型平均正确率和第二模型平均正确率求差值，以得到每一语料数据对应的平均正确率差值，包括：

5.根据权利要求4所述的语料数据的数据特征增强方法，其特征在于，所述获取所述全量语料数据集中每一语料数据作为各用户意图识别模型的训练样本数据、和作为各用户意图识别模型的测试样本数据分别对应的第一样本召回率和第二样本召回率求差值，以得到每一语料数据对应的样本召回率差值，包括：

6.根据权利要求5所述的语料数据的数据特征增强方法，其特征在于，所述获取所述全量语料数据集中每一语料数据作为各用户意图识别模型的训练样本数据、和作为各用户意图识别模型的测试样本数据分别对应的第一预测平均正确率和第二预测平均正确率求差值，以得到每一语料数据对应的预测正确率差值，包括：

7.根据权利要求1所述的语料数据的数据特征增强方法，其特征在于，所述根据每一语料数据对应的平均正确率差值、样本召回率差值和预测正确率差值，获取每一语料数据分别对应的样本贡献度三元组，包括：

8.一种语料数据的数据特征增强装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的语料数据的数据特征增强方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的语料数据的数据特征增强方法。