CN114254588B

CN114254588B - 数据标签处理方法和装置

Info

Publication number: CN114254588B
Application number: CN202111546575.XA
Authority: CN
Inventors: 曹磊; 王洪斌; 蒋宁; 吴海英; 李长林
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2023-10-13
Anticipated expiration: 2041-12-16
Also published as: CN114254588A

Abstract

本申请公开了一种数据标签处理方法和装置，用于对全量的样本数据的数据标签进行准确、高效率的处理。所述方法包括：获取待检测的样本数据，所述样本数据携带有对应于业务目标的数据标签；将所述样本数据分别输入所述业务目标对应的多个业务模型，得到所述样本数据在各业务模型对应的预测结果；基于所述样本数据在各业务模型对应的预测结果及所述样本数据的数据标签，确定各业务模型的预测准确率；基于所述样本数据的数据标签、所述样本数据在各业务模型对应的预测结果以及各业务模型的预测准确率，对所述样本数据的数据标签进行处理。

Description

数据标签处理方法和装置

技术领域

本文件涉及计算机技术领域，尤其涉及一种数据标签处理方法和装置。

背景技术

在人工智能(Artificial Intelligence，AI)领域，目前比较成熟和实际应用比较多的是有监督的机器学习。有监督的机器学习依赖大量的、携带有数据标签的样本数据。现阶段，样本数据的数据标签主要还是依赖于人工标注，由于不同标注人员的自身素质以及对业务认知程度不足，标注过程中难免会出现漏标或错标等问题，这些被漏标或错标的数据标签的样本数据会对模型带来负面影响。因此，需要对样本数据的数据标签进行相应的处理。

目前，对于样本数据的数据标签的处理，主要由初检人员随机从待检测的样本数据的数据标签中进行抽样检测并依据检测结果进行相应处理，再由复检人员根据预先配置的规则对抽样检测及处理结果进行复查。但是，这种方式不仅耗时耗力，只能对部分样本数据的数据标签进行处理，还可能由于检测人员的主观性以及初检人员与复检人员各自的检测标准不一致等，影响对样本数据的数据标签的处理结果的准确性。有鉴于此，如何对全量的样本数据的数据标签进行准确、高效率的处理，成为亟待解决的问题。

发明内容

本说明书实施例的目的是提供一种数据标签处理方法和装置，用于准确、高效地对全量样本数据携带的数据标签进行处理。

为了实现上述目的，本说明书实施例采用下述技术方案：

第一方面，本说明书实施例提供一种数据标签处理方法，包括：

获取待检测的样本数据，所述样本数据携带有对应于业务目标的数据标签；

将所述样本数据分别输入所述业务目标对应的多个业务模型，得到所述样本数据在各业务模型对应的预测结果；

基于所述样本数据在各业务模型对应的预测结果及所述样本数据的数据标签，确定各业务模型的预测准确率；

基于所述样本数据的数据标签、所述样本数据在各业务模型对应的预测结果以及各业务模型的预测准确率，对所述样本数据的数据标签进行处理。

第二方面，本说明书实施例提供一种数据标签处理装置，包括：

获取模块，用于获取待检测的样本数据，所述样本数据携带有对应于业务目标的数据标签；

预测模块，用于将所述样本数据分别输入所述业务目标对应的多个业务模型，得到所述样本数据在各业务模型对应的预测结果；

确定模块，用于基于所述样本数据在各业务模型对应的预测结果及所述样本数据的数据标签，确定各业务模型的预测准确率；

标签处理模块，用于基于所述样本数据的数据标签、所述样本数据在各业务模型对应的预测结果以及各业务模型的预测准确率，对所述样本数据的数据标签进行处理。

第三方面，本说明书实施例提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如第一方面所述的方法。

第四方面，本说明书实施例提供一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如第一方面所述的方法。

可以看出，在本说明书实施例的方案中，基于人工智能领域中机器学习的思想，通过将待检测的样本数据输入到业务目标对应的多个业务模型中，即可得到样本数据在各个业务模型对应的预测结果，为后续对样本数据的数据标签的处理提供有力的数据支撑；然后，由于样本数据在各个业务模型对应的预测结果能够在一定程度上反映出样本数据在业务目标可能的业务处理结果，而样本数据携带的对应于业务目标的数据标签则是为该样本数据预先标记的在业务目标的业务处理结果，基于样本数据在各个业务模型对应的预测结果及样本数据的数据标签，即可判定样本数据的数据标签是否准确，进而可对样本数据的数据标签实施相应的处理；在此基础上，考虑到业务模型存在一定的预测误差，在对样本数据的数据标签进行处理时，还考虑业务模型的预测准确率，即还基于样本数据在各个业务模型对应的预测结果及样本数据的数据标签，确定各业务模型的预测准确率，结合样本数据的数据标签、样本数据在各业务模型对应的预测结果以及各业务模型的预测准确率，对样本数据的数据标签进行处理，可以提高对样本数据的数据标签处理的准确率，避免对样本数据的数据标签误处理而影响后续的机器学习任务。另外，整个过程无需人工参与，只需将需要检测的、携带数据标签的样本数据输入业务目标对应的多个业务模型，即可完成对样本数据的数据标签的处理，不仅可以节省人力，还能够在待检测的样本数据量较大时，实现对全量样本数据的数据标签进行准确、高效的处理。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书的一个实施例提供的一种数据标签处理方法的流程示意图；

图2为本说明书的一个实施例提供的一种业务模型对样本数据进行预测的预测过程示意图；

图3为本说明书的另一个实施例提供的一种数据标签处理方法的流程示意图；

图4为本说明书的一个实施例提供的一种数据标签处理装置的结构示意图；

图5为本说明书的一个实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本文件保护的范围。

本说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应理解这样使用的数据在适当情况下可以互换，以便本说明书实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，本说明书以及权利要求书中“和/或”表示所连接对象的至少其中之一，字符“/”一般表示前后关联对象是一种“或”的关系。

如前所述，目前，对于样本数据的数据标签的处理，主要由初检人员随机从待检测的样本数据的数据标签中进行抽样检测并依据检测结果进行相应处理，再由复检人员根据预先配置的规则对抽样检测及处理结果进行复查。但是，这种方式不仅耗时耗力，只能对部分样本数据的数据标签进行处理，还可能由于检测人员的主观性以及初检人员与复检人员各自的检测标准不一致等，影响对样本数据的数据标签的处理结果的准确性。有鉴于此，如何对全量的样本数据的数据标签进行准确、高效率的处理，成为亟待解决的问题。

为此，本说明书实施例旨在提供一种基于人工智能领域中机器学习思想的数据标签处理方案，通过将待检测的样本数据输入到业务目标对应的多个业务模型中，即可得到样本数据在各个业务模型对应的预测结果，为后续对样本数据的数据标签的处理提供有力的数据支撑；然后，由于样本数据在各个业务模型对应的预测结果能够在一定程度上反映出样本数据在业务目标可能的业务处理结果，而样本数据携带的对应于业务目标的数据标签则是为该样本数据预先标记的在业务目标的业务处理结果，基于样本数据在各个业务模型对应的预测结果及样本数据的数据标签，即可判定样本数据的数据标签是否准确，进而可对样本数据的数据标签实施相应的处理；在此基础上，考虑到业务模型存在一定的预测误差，在对样本数据的数据标签进行处理时，还考虑业务模型的预测准确率，即还基于样本数据在各个业务模型对应的预测结果及样本数据的数据标签，确定各业务模型的预测准确率，结合样本数据的数据标签、样本数据在各业务模型对应的预测结果以及各业务模型的预测准确率，对样本数据的数据标签进行处理，可以提高对样本数据的数据标签处理的准确率，避免对样本数据的数据标签误处理而影响后续的机器学习任务。另外，整个过程无需人工参与，只需将需要检测的、携带数据标签的样本数据输入业务目标对应的多个业务模型，即可完成对样本数据的数据标签的处理，不仅可以节省人力，还能够在待检测的样本数据量较大时，实现对全量样本数据的数据标签进行准确、高效的处理。

应理解，本说明书实施例提供的数据标签处理方法可以由电子设备执行或安装在电子设备中的软件执行，具体可以由终端设备或服务端设备执行。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

请参考图1，为本说明书的一个实施例提供的一种数据标签处理方法的流程示意图，该方法可以包括：

S102，获取待检测的样本数据。

样本数据携带有对应于业务目标的数据标签。在具体应用中，样本数据的形式可以是多种，比如，在语音服务质量检测的场景中，可以将服务提供方为用户提供的语音应答数据作为样本数据，然后对样本数据标注相应的数据标签，也即由此得到的样本数据的形式为语音形式；或者，在该场景中，还可利用自动语音识别(Automatic SpeechRecognition，ASR)技术将服务提供方为用户提供的语音应答数据转换为文本形式的语音应答数据，将文本形式的语音应答数据作为样本数据，然后对样本数据标注相应的数据标签，也即由此得到的样本数据的形式为文本形式，等等。

样本数据在业务目标对应的数据标签可以反映样本数据在业务目标对应的业务处理结果。样本数据在不同的业务目标对应的数据标签可以不同。示例地，样本数据为文本数据，业务目标为对样本数据进行文本处理(比如文本分类)，在此情形下，样本数据在该业务目标对应的数据标签可以为对样本数据进行文本处理的处理结果。

进一步地，为提高样本数据的质量，以进一步提高后续进行标签处理的准确率，如图3所示，在对待检测的样本数据执行后续处理之前，还对样本数据进行预处理，其中，预处理可以例如包括但不限于：格式调整、分词处理、词向量提取等。

S104，将样本数据分别输入业务目标对应的多个业务模型，得到样本数据在各业务模型对应的预测结果。

本说明书实施例中，业务目标对应的业务模型是指用于按照业务目标进行业务处理的模型。业务模型可根据业务目标的不同而不同。

考虑到业务模型对样本数据的预测结果可能与实际结果存在一定偏差，为提高对样本数据的预测结果的准确率，可针对同一业务目标，采用多个业务模型分别对样本数据进行预测，得到样本数据在各个业务模型对应的预测结果。

示例地，若前文所述的业务目标为对样本数据进行文本处理(比如文本分类)，则该业务目标对应的多个业务模型可以利用样本数据在不同维度的特征进行文本处理，具体而言，该业务目标对应的业务模型可以包括但不限于：用于基于样本数据的字符特征进行文本处理的第一文本处理模型、用于基于样本数据的词特征进行文本处理的第二文本处理模型以及用于基于样本数据的句特征进行文本处理的第三文本处理模型。

在具体应用中，第一文本处理模型、第二文本处理模型及第三文本处理模型可以具有任意适当的结构，具体可根据实际需要进行设置。示例地，第一文本处理模型可以为逻辑回归(Logistic Regression，LR)模型，其可以基于文本数据的词频-逆文件(TermFrequency-Inverse Document Frequency，TF-IDF)、N个词的序列(N-Gram)等字符特征进行文本处理；第二文本处理模型可以为文本卷积神经网络(Text Convolutional NeuralNetworks，TextCNN)模型，其可以将卷积神经网络(Convolutional Neural Networks，CNN)应用到文本处理(如文本分类任务)，利用多个不同大小的kernel来提取文本数据中的关键信息(类似于多窗口大小的N-Gram特征)，从而能够更好地捕捉局部相关性；第三文本处理模型可以采用Bert模型，采用新的屏蔽语言建模(Masked Language Model，MLM)，以致能生成深度的双向语言表征，在多个自然语言处理(Natural Language Process，NLP)任务中达到当前最佳结果(State-of-the-Art Model，SOTA)，以往的预训练模型的结构会受到单向语言模型(从左到右或者从右到左)的限制，因而也限制了模型的表征能力，使其只能获取单方向的上下文信息，而Bert模型利用MLM进行预训练并且采用深层的双向Transformer组件来构建整个模型，因此最终生成能融合左右上下文信息的深层双向语言表征。

在具体应用中，不同业务模型对输入的样本数据进行处理以输出相应的预测结果的方式不同。为便于本领域技术人员理解，下面以图2所示的样本数据为“I like thismovie very much！”、其中一个业务模型为TextCNN模型为例，对该样本数据的预测过程进行说明。如图2所示，将该样本数据输入该业务模型后，该业务模型首先对该样本数据进行分词处理，得到“I”、“like、“this”、“movie”、“very”、“much”以及“！”共7个词，将每个词映射成一个5维的词向量，以及将所有词的词向量拼接起来，构成一个7×5的句矩阵；然后，按照三种窗口大小对句矩阵进行特征抽取，以对句矩阵进行卷积操作，以及使用激活函数对卷积处理后的句矩阵进行激活处理，将句矩阵映射成不同大小的特征图；接着，对得到的不同大小的特征图进行最大池化(max pooling)处理，以在保持主要特征的情况下，对不同大小的特征图进行降维处理；最后，使用归一化指数softmax函数对降维处理后的特征图进行分类，从而输出分类结果，也即样本数据在该业务模型对应的预测结果。

S106，基于样本数据在各业务模型对应的预测结果及样本数据的数据标签，确定各业务模型的预测准确率。

对于各个业务模型而言，该业务模型基于输入的样本数据进行预测所得的预测结果与样本数据的数据标签之间的差异，能够在一定程度上反映出该业务模型的预测准确率，为此，在一种可选的实现方式中，上述S106可以包括：对于每个业务模型，将样本数据在该业务模型对应的预测结果及样本数据的数据标签进行比对，以及基于比对得到的比对结果，确定该业务模型的预测准确率。

示例地，对于每个业务模型，如果样本数据在该业务模型对应的预测结果与该样本数据的数据标签一致，则将样本数据确定为阳性样本，进一步地，基于输入该业务模型的阳性样本的数量在输入该业务模型的样本数据总量中的占比，确定该业务模型的预测准确率。当然，应理解，各业务模型的预测准确率也可采用其他方式确定，本说明书实施例对此不做限定。

S108，基于样本数据的数据标签、样本数据在各业务模型对应的预测结果以及各业务模型的预测准确率，对样本数据的数据标签进行处理。

由于样本数据在各个业务模型对应的预测结果能够在一定程度上反映出样本数据在业务目标可能的业务处理结果，而样本数据携带的对应于业务目标的数据标签则是为该样本数据预先标记的在业务目标的业务处理结果，通常来说，业务模型基于样本数据输出的预测结果与该样本数据的数据标签在很大程度上差异较小，如果两者差异过大，则可以判定样本数据的数据标签可能有误，进而可以对样本数据的数据标签进行相应的处理。在此基础上，考虑到业务模型存在一定的预测误差，在对样本数据的数据标签进行处理时，还考虑业务模型的预测准确率，以可以提高对样本数据的数据标签处理的准确率，避免对样本数据的数据标签误处理而影响后续的机器学习任务。

其中，对样本数据的数据标签的处理可以例如包括但不限于：对错误的数据标签进行修正、将数据标签正确的样本数据添加至样本库中，该样本库中的样本数据可用于后续的各类有监督的机器学习任务。

为进一步提高样本数据的数据标签的处理结果的准确率，在一种可选的实现方式中，上述S108可以包括如下步骤：

步骤A1，对于每个业务模型，基于该业务模型的预测准确率，确定业务模型的预测结果权重。

对于每个业务模型而言，若该业务模型基于输入的样本数据输出的预测结果越准确，则该业务模型对于分析样本数据的数据标签的准确率的贡献越大，为此，可基于业务模型的预测准确率，确定业务模型的预测结果权重，以为后续更灵活、更准确地分析样本数据的数据标签是否准确提供有力的数据支撑。

可选地，对于每个业务模型而言，可以预测准确率与预测结果权重之间的预设对应关系，确定与该业务模型的预测准确率对应的预测结果权重，作为该业务模型的预测结果权重。具体应用中，上述预设对应关系可以根据实际需要进行设置，比如，较高预测准确率对应的预测结果权重较高，而较低预测准确率对应的预测结果权重则较低。

可选地，还可以基于业务目标对应的各业务模型的预测准确率之和，确定业务目标对应的预测准确率；进一步地，对于每个业务模型而言，将该业务模型与业务目标对应的预测准确率的比值，确定该业务模型的预测结果权重。

示例地，各个业务模型的预测结果权重可以通过确定，其中，w_i表示业务目标对应的第i个业务模型的预测结果权重，p_i表示业务目标对应的第i个业务模型的预测准确率，n表示业务目标对应的业务模型的数量。由此，可以预测准确率高的业务模型可以获得较高的预测结果权重，增加了预测准确率高的业务模型对样本数据的数据标签分析结果的贡献，从而能够更准确、更方便地分析确定样本数据的数据标签是否准确。

步骤A2，基于样本数据在各业务模型对应的预测结果和样本数据的数据标签，确定样本数据在各业务模型对应的第一标签分值。

其中，对于每个业务模型而言，样本数据在该业务模型对应的第一标签分值用于表征样本数据的数据标签对于该业务模型的准确率。示例地，对于每个业务模型而言，如果样本数据在该业务模型对应的第一标签分值越高，则表明样本数据的数据标签对于该业务模型的准确率越高；反之，则表明样本数据的数据标签对于该业务模型的准确率越低。

具体而言，对于每个业务模型，样本数据在该业务模型对应的预测结果与样本数据的数据标签之间的差异，能够反映出样本数据的数据标签是否准确。基于此，为准确确保获得的第一标签分值的准确性，可将样本数据在该业务模型的预测结果与样本数据的数据标签进行比对，以及基于比对得到的比对结果，确定样本数据在该业务模型对应的第一标签分值。

示例地，对于每个业务模型，如果样本数据在该业务模型对应的预测结果与样本数据的数据标签不一致，则可确定样本数据在该业务模型对应的第一标签分值为0；如果样本数据在该业务模型的预测结果与样本数据的数据标签一致，则可确定样本数据在该业务模型对应的第一标签分值为1。

步骤A3，基于各业务模型的预测结果权重，对样本数据在各业务模型对应的第一标签分值进行加权求和，得到样本数据的第二标签分值。

其中，样本数据的第二标签分值用于表征样本数据的数据标签的准确率。

具体而言，样本数据的第二标签分值可通过确定，其中，Score表示样本数据的第二标签分值，result_i表示样本数据在第i个业务模型对应的第一标签分值，w_i表示第i个业务模型对应的预测结果权重，n表示业务目标对应的业务模型的数量。

步骤A4，基于样本数据的第二标签分值，对样本数据的数据标签进行处理。

样本数据的第二标签分值能够量化反映样本数据的数据标签的准确率，基于此，可将样本数据的第二标签分值与预设阈值进行比对，若所述样本数据的第二标签分值小于预设阈值，则可确定样本数据的数据标签的准确率较小，进而可基于样本数据在各业务模型对应的预测结果，对样本数据的数据标签进行修正，避免样本数据的数据标签被错误标记而影响后续基于样本数据进行的有监督的机器学习任务的效果。

在对样本数据的数据标签进行修正时，可选地，可以综合样本数据在各业务模型对应的预测结果，自动修正样本数据的数据标签。示例地，如果样本数据的数据标签为A，但样本数据在各业务模型对应的预测结果有超过半数以上为B，则可以将样本数据的数据标签修正为A。

当然，在其他一些可选的方案中，也可以将样本数据发送给审核方，由审核方对样本数据的数据标签进行审核和修改并返回修正后的数据标签。

若所述样本数据的第二标签分值大于或等于预设阈值，则可确定样本数据的数据标签的准确率较高，进而可以将样本数据添加至样本库，其中，样本库中的样本数据可用于执行各类有监督的机器学习任务。

需要说明的是，具体应用中，预设阈值可以根据实际需要进行设置，本说明书实施例对此不作限定。

可以看出，在上述实现方式中，首先，基于样本数据的数据标签和样本数据在各业务模型的预测结果，将样本数据的数据标签对于各业务模型的准确率量化为第一标签分值；然后，再基于各业务模型的预测结果权重对样本数据在各业务模型对应的第一标签分值进行加权求和，并且，各业务模型的预测结果权重是基于各业务模型的预测准确率确定的，可以确保得到的第二标签分值能够准确地量化反映样本数据的数据标签在整体上的准确率，进而基于样本数据的第二标签分值对样本数据的数据标签进行处理，可以进一步提高数据标签处理结果的准确率。

本说明书实施例在此示出了上述步骤S108的一种具体实现方式。当然，应理解，上述步骤S108也可以采用其他的方式实现，本说明书实施例对此不作限定。

本说明书实施例提供的数据标签处理方法，基于人工智能领域中机器学习的思想，通过将待检测的样本数据输入到业务目标对应的多个业务模型中，即可得到样本数据在各个业务模型对应的预测结果，为后续对样本数据的数据标签的处理提供有力的数据支撑；然后，由于样本数据在各个业务模型对应的预测结果能够在一定程度上反映出样本数据在业务目标可能的业务处理结果，而样本数据携带的对应于业务目标的数据标签则是为该样本数据预先标记的在业务目标的业务处理结果，基于样本数据在各个业务模型对应的预测结果及样本数据的数据标签，即可判定样本数据的数据标签是否准确，进而可对样本数据的数据标签实施相应的处理；在此基础上，考虑到业务模型存在一定的预测误差，在对样本数据的数据标签进行处理时，还考虑业务模型的预测准确率，即还基于样本数据在各个业务模型对应的预测结果及样本数据的数据标签，确定各业务模型的预测准确率，结合样本数据的数据标签、样本数据在各业务模型对应的预测结果以及各业务模型的预测准确率，对样本数据的数据标签进行处理，可以提高对样本数据的数据标签处理的准确率，避免对样本数据的数据标签误处理而影响后续的机器学习任务。另外，整个过程无需人工参与，只需将需要检测的、携带数据标签的样本数据输入业务目标对应的多个业务模型，即可完成对样本数据的数据标签的处理，不仅可以节省人力，还能够在待检测的样本数据量较大时，实现对全量样本数据的数据标签进行准确、高效的处理。

本说明书实施例中，业务目标对应的各个业务模型可以是预先训练好的，比如以业务目标对应的训练样本作为输入、以训练样本在业务目标对应的业务处理结果作为训练样本对应的数据标签，通过有监督学习的方式对多个待训练的业务模型进行训练，得到上述业务目标对应的多个业务模型。

具体应用中，训练各个业务模型所采用的训练样本可以不同于待检测的样本数据。当然，在其他一些可选的方案中，也可以基于交叉验证的思想，采用待检测的样本数据对业务目标对应的多个待训练的业务模型进行训练。

具体而言，在另一个实施例中，在上述S104之前，本说明书实施例的数据标签处理方法还可以包括：将所述样本数据进行分组，得到多组样本数据子集；基于所述多组样本数据子集，分别对所述业务目标对应的多个待训练的业务模型进行训练，得到所述业务目标对应的多个业务模型，其中，在对每一个业务模型的训练中，选取一组样本数据子集作为测试集，并将其他组样本数据子集作为训练集对对应的业务模型进行训练，得到本次训练对应的业务模型，直至每组样本数据子集都作为测试集训练对应的业务模型为止。

为避免对样本数据的分组固化而对后续的业务模型训练过程乃至数据标签处理过程产生影响，在对样本数据进行分组时，可采用随机分组方式，即将待检测的样本数据随机划分为多组样本数据子集。为进一步提高后续进行数据标签处理结果的准确率，更为具体地，可将待检测的样本数据随机均分为多组样本数据子集，得到的各组样本数据子集包含的样本数据的数量相等。示例地，待检测的样本数据共5000个，可将这5000个样本数据的顺序打乱，然后均分为10组，每组样本数据子集各包含500个样本数据。

上述仅示出了对待检测的样本数据进行分组的一种具体实现方式。当然，应理解，对待检测的样本数据的分组也可以采用其他的方式实现，本说明书实施例对此不作限定。

为便于本领域技术人员理解上述业务模型的训练过程，下面结合图3对业务模型的训练过程进行说明。如图3所示，首先，可利用k重交叉验证(k-fold cross validation，简称“k-fold”)的思想，将待检测的样本数据划分为k组样本数据子集；接着，每次选取一组样本数据子集作为测试集，并将其余各组样本数据子集作为训练集，对业务目标对应的多个待训练的业务模型(如图3所示的待训练的业务模型1、待训练的业务模型2及待训练的业务模型3)进行训练，由此可得到选取的该组样本数据子集对应的多个业务模型；重复上述过程多次，直到训练得到每组样本数据子集对应的多个业务模型(如图3所示的业务模型1、业务模型2及业务模型3)。

相应地，在上述S104中，对于每组样本数据子集，可将该组样本数据子集分别输入其对应的多个业务模型中，得到该组样本数据子集中的样本数据在对应的各个业务模型的预测结果；在上述S106中，基于该组样本数据子集中的样本数据在对应的各业务模型的预测结果以及该组样本数据子集中的样本数据的数据标签，确定该组样本数据子集对应的各业务模型的预测准确率；在上述S108中，基于该组样本数据子集中的样本数据的数据标签、样本数据在对应的各业务模型的预测结果以及对应的各业务模型的预测准确率，对该组样本数据的数据标签进行处理。

可以理解的是，本实施例的数据标签处理方法中，对待检测的样本数据进行分组，并基于交叉验证的思想，每次将一组样本数据子集作为测试集并将其他组样本数据子集作为训练集训练业务目标对应的多个待训练的业务模型，得到各组样本数据子集对应的多个业务模型，不仅可以充分利用待检测的样本数据进行业务模型的训练和预测，提高业务模型的训练及预测效率，还能够快速便捷地获取全量样本数据的预测结果。

此外，与上述图1所示的数据标签处理方法相对应地，本说明书实施例还提供一种数据标签处理装置。图4是本说明书实施例提供的一种数据标签处理装置400的结构示意图，包括：

获取模块410，用于获取待检测的样本数据，所述样本数据携带有对应于业务目标的数据标签；

预测模块420，用于将所述样本数据分别输入所述业务目标对应的多个业务模型，得到所述样本数据在各业务模型对应的预测结果；

确定模块430，用于基于所述样本数据在各业务模型对应的预测结果及所述样本数据的数据标签，确定各业务模型的预测准确率；

标签处理模块440，用于基于所述样本数据的数据标签、所述样本数据在各业务模型对应的预测结果以及各业务模型的预测准确率，对所述样本数据的数据标签进行处理。

本说明书实施例提供的数据标签处理装置，基于人工智能领域中机器学习的思想，通过将待检测的样本数据输入到业务目标对应的多个业务模型中，即可得到样本数据在各个业务模型对应的预测结果，为后续对样本数据的数据标签的处理提供有力的数据支撑；然后，由于样本数据在各个业务模型对应的预测结果能够在一定程度上反映出样本数据在业务目标可能的业务处理结果，而样本数据携带的对应于业务目标的数据标签则是为该样本数据预先标记的在业务目标的业务处理结果，基于样本数据在各个业务模型对应的预测结果及样本数据的数据标签，即可判定样本数据的数据标签是否准确，进而可对样本数据的数据标签实施相应的处理；在此基础上，考虑到业务模型存在一定的预测误差，在对样本数据的数据标签进行处理时，还考虑业务模型的预测准确率，即还基于样本数据在各个业务模型对应的预测结果及样本数据的数据标签，确定各业务模型的预测准确率，结合样本数据的数据标签、样本数据在各业务模型对应的预测结果以及各业务模型的预测准确率，对样本数据的数据标签进行处理，可以提高对样本数据的数据标签处理的准确率，避免对样本数据的数据标签误处理而影响后续的机器学习任务。另外，整个过程无需人工参与，只需将需要检测的、携带数据标签的样本数据输入业务目标对应的多个业务模型，即可完成对样本数据的数据标签的处理，不仅可以节省人力，还能够在待检测的样本数据量较大时，实现对全量样本数据的数据标签进行准确、高效的处理。

可选地，所述标签处理模块440包括：

权重确定子模块，用于对于每个业务模型，基于所述业务模型的预测准确率，确定所述业务模型的预测结果权重；

第一标签分值确定子模块，用于基于所述样本数据在各业务模型对应的预测结果和所述样本数据的数据标签，确定所述样本数据在各业务模型对应的第一标签分值，所述第一标签分值用于表征所述样本数据的数据标签对于业务模型的准确率；

第二标签分值确定子模块，用于基于各业务模型的预测结果权重，对所述样本数据在各业务模型对应的第一标签分值进行加权求和，得到所述样本数据的第二标签分值，所述第二标签分值用于表征所述样本数据的数据标签的准确率；

数据标签处理子模块，用于基于所述样本数据的第二标签分值，对所述样本数据的数据标签进行处理。

可选地，所述权重确定子模块用于：

基于所述业务目标对应的各业务模型的预测准确率之和，确定所述业务目标对应的预测准确率；

对于每个业务模型，基于所述业务模型的预测准确率与所述业务目标对应的预测准确率的比值，确定所述业务模型的预测结果权重。

可选地，第一标签分值确定子模块用于：

对于每个业务模型，将所述样本数据在所述业务模型对应的预测结果与所述样本数据的数据标签进行比对，以及基于比对得到的比对结果，确定所述样本数据在所述业务模型对应的第一标签分值。

可选地，所述数据标签处理子模块用于：

若所述样本数据的第二标签分值小于预设阈值，则基于所述样本数据在各业务模型对应的预测结果，对所述样本数据的数据标签进行修正；

若所述样本数据的第二标签分值大于或等于所述预设阈值，则将所述样本数据添加至样本库。

可选地，所述确定模块430包括：

准确率确定子模块，用于对于每个业务模型，将所述样本数据在所述业务模型对应的预测结果及所述样本数据的数据标签进行比对，以及基于比对得到的比对结果，确定所述业务模型的预测准确率。

可选地，所述样本数据为文本数据，所述样本数据携带有对应于文本处理任务的数据标签；

所述多个业务模型包括：用于基于所述样本数据的字符特征进行文本处理的第一文本处理模型、用于基于所述样本数据的词特征进行文本处理的第二文本处理模型以及用于基于所述样本数据的句特征进行文本处理的第三文本处理模型。

显然，本说明书实施例的数据标签处理装置可以作为上述图1所示的数据标签处理方法的执行主体，因此能够实现数据标签处理方法在图1所实现的功能。由于原理相同，在此不再赘述。

图5是本说明书的一个实施例电子设备的结构示意图。请参考图5，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成数据标签处理装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

上述如本说明书图1所示实施例揭示的数据标签处理装置执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

应理解，本说明书实施例的电子设备可以实现数据标签处理装置在图1所示实施例的功能。由于原理相同，本说明书实施例在此不再赘述。

当然，除了软件实现方式之外，本说明书的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

本说明书实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图1所示实施例的方法，并具体用于执行以下操作：

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

总之，以上所述仅为本说明书的较佳实施例而已，并非用于限定本说明书的保护范围。凡在本说明书的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本说明书的保护范围之内。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种数据标签处理方法，其特征在于，包括：

基于所述样本数据的数据标签、所述样本数据在各业务模型对应的预测结果以及各业务模型的预测准确率，对所述样本数据的数据标签进行处理；

其中，所述样本数据包括文本数据，所述多个业务模型包括多个文本处理模型，每个所述文本处理模型对所述文本数据的特征进行文本处理，所述预测结果为文本处理结果，所述数据标签为文本数据标签，所述文本处理结果用于对所述文本数据标签进行修正。

2.根据权利要求1所述的方法，其特征在于，在所述将所述样本数据分别输入所述业务目标对应的多个业务模型之前，所述方法还包括：

将所述样本数据进行分组，得到多组样本数据子集；

基于所述多组样本数据子集，分别对所述业务目标对应的多个待训练的业务模型进行训练，得到所述业务目标对应的多个业务模型，

其中，在对每一个业务模型的训练中，选取一组样本数据子集作为测试集，并将其他组样本数据子集作为训练集对对应的业务模型进行训练，得到本次训练对应的业务模型，直至每组样本数据子集都作为测试集训练对应的业务模型为止。

3.根据权利要求1所述的方法，其特征在于，所述基于所述样本数据的数据标签、所述样本数据在各业务模型对应的预测结果以及各业务模型的预测准确率，对所述样本数据的数据标签进行处理，包括：

对于每个业务模型，基于所述业务模型的预测准确率，确定所述业务模型的预测结果权重；

基于所述样本数据在各业务模型对应的预测结果和所述样本数据的数据标签，确定所述样本数据在各业务模型对应的第一标签分值，所述第一标签分值用于表征所述样本数据的数据标签对于业务模型的准确率；

基于各业务模型的预测结果权重，对所述样本数据在各业务模型对应的第一标签分值进行加权求和，得到所述样本数据的第二标签分值，所述第二标签分值用于表征所述样本数据的数据标签的准确率；

基于所述样本数据的第二标签分值，对所述样本数据的数据标签进行处理。

4.根据权利要求3所述的方法，其特征在于，对于每个业务模型，基于所述业务模型的预测准确率，确定所述业务模型的预测结果权重，包括：

5.根据权利要求3所述的方法，其特征在于，所述基于所述样本数据在各业务模型对应的预测结果和所述样本数据的数据标签，确定所述样本数据在各业务模型对应的第一标签分值，包括：

6.根据权利要求3所述的方法，其特征在于，所述基于所述样本数据的第二标签分值，对所述样本数据的数据标签进行处理，包括：

7.根据权利要求1所述的方法，其特征在于，所述基于所述样本数据在各业务模型对应的预测结果及所述样本数据的数据标签，确定各业务模型的预测准确率，包括：

对于每个业务模型，将所述样本数据在所述业务模型对应的预测结果及所述样本数据的数据标签进行比对，以及基于比对得到的比对结果，确定所述业务模型的预测准确率。

8.一种数据标签处理装置，其特征在于，包括：

标签处理模块，用于基于所述样本数据的数据标签、所述样本数据在各业务模型对应的预测结果以及各业务模型的预测准确率，对所述样本数据的数据标签进行处理；

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至7中任一项所述的方法。