CN109189767B

CN109189767B - 数据处理方法、装置、电子设备及存储介质

Info

Publication number: CN109189767B
Application number: CN201810866737.XA
Authority: CN
Inventors: 康丽萍
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2018-08-01
Filing date: 2018-08-01
Publication date: 2021-07-23
Anticipated expiration: 2038-08-01
Also published as: CN109189767A

Abstract

本公开的数据处理方法，属于计算机技术领域，解决现有技术中采用人工方法进行数据处理成本高、效率低的问题。本公开实施例的数据处理方法包括：基于训练数据训练目标模型；通过所述目标模型对测试数据进行预测，确定所述目标模型的预测准确率；通过所述目标模型对所述训练数据进行预测，确定每条所述训练数据的预测标签和预测结果置信度；根据所述训练数据的预置标签、预测标签和预测结果置信度，以及所述预测准确率，对所述训练数据进行处理。本公开提供的数据处理方法通过基于测试数据确定目标模型的预测准确率，并结合目标模型的预测准确率和训练数据的预测结果置信度对训练数据进行处理，有助于提升数据处理效率和准确性，降低数据处理成本。

Description

数据处理方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，特别是涉及一种数据处理方法、装置、电子设备及存储介质。

背景技术

基于训练得到的模型进行分类识别是目前对象分类的常用手段，其中，对象包括但不限于图像、用户行为以及商户等。以酒旅平台的酒店图像质量分类为例，通常是首先基于人工标定了图向质量等级标签的酒店图像训练酒店图像质量分类模型，然后，再基于训练好的酒店图像质量分类模型对目标酒店图像进行分类识别，以确定所述目标酒店图像的质量等级。现有技术中基于训练数据训练分类模型，并基于训练得到的分类模型对对象进行分类识别的应用中，训练数据质量的好坏直接影响训练得到的分类模型的分类准确率，因此，需要提供一种改善训练数据的方案。

发明内容

本公开提供一种数据处理方法，有助于提升数据处理效率和准确性，并降低数据处理成本。

第一方面，本公开实施例提供了一种数据处理方法包括：

基于训练数据训练目标模型，其中，所述训练数据包括预置标签；

通过所述目标模型对测试数据进行预测，确定所述目标模型的预测准确率；

通过所述目标模型对所述训练数据进行预测，确定每条所述训练数据的预测标签和预测结果置信度；

根据所述训练数据的预置标签、预测标签和预测结果置信度，以及所述预测准确率，对所述训练数据进行处理。

第二方面，本公开实施例提供了一种数据处理装置，包括：

目标模型训练模块，用于基于训练数据训练目标模型，其中，所述训练数据包括预置标签；

模型预测准确率确定模块，用于通过所述目标模型对测试数据进行预测，确定所述目标模型的预测准确率；

训练数据预测模块，用于通过所述目标模型训练模块训练的目标模型对所述训练数据进行预测，确定每条所述训练数据的预测标签和预测结果置信度；

数据处理模块，用于根据所述训练数据的预置标签、预测标签和预测结果置信度，以及所述预测准确率，对所述训练数据进行处理。

第三方面，本公开实施例还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本公开实施例所述的数据处理方法。

第四方面，本公开实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时本公开实施例中所述的数据处理方法的步骤。

本公开实施例提供的数据处理方法，通过基于训练数据训练目标模型，其中，所述训练数据包括预置标签；然后，通过所述目标模型对测试数据进行预测，确定所述目标模型的预测准确率；以及，通过所述目标模型对所述训练数据进行预测，确定每条所述训练数据的预测标签和预测结果置信度；最后，根据所述训练数据的预置标签、预测标签和预测结果置信度，以及所述预测准确率，对所述训练数据进行处理，解决了现有技术中采用人工方法进行数据处理成本高、效率低的问题，以及由于人为主观因素导致数据处理结果可靠性不高的问题。本公开实施例提供的数据处理方法，通过基于测试数据确定目标模型的预测准确率，并结合目标模型的预测准确率和每条训练数据的预测结果置信度对训练数据进行数据去噪和分类，有助于提升数据处理效率和准确性，并降低数据处理成本。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本公开实施例一的数据处理方法流程图；

图2是本公开实施例二的数据处理方法的流程图；

图3是本公开实施例二的数据处理方法构建的混淆矩阵示意图；

图4是本公开实施例三的数据处理方法的流程图；

图5是本公开实施例四的数据处理装置结构示意图之一；

图6是本公开实施例四的数据处理装置的结构示意图之二；

图7是本公开实施例五的数据处理装置的结构示意图之一。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

实施例一

本公开实施例提供的一种数据处理方法，如图1所示，该方法包括：步骤110至步骤140。

步骤110，基于训练数据训练目标模型。

其中，所述训练数据包括预置标签。

在进行有监督的模型训练过程中，首先需要搜集大量训练样本，作为训练数据，每个训练样本为一条训练数据，通常，每条训练数据预先设置有样本标签。以训练图像质量分级模型为例，训练数据为一张张图像。在训练图像质量分级模型之前，预先为每条训练数据，即每张图像设置样本标签，所述样本标签用于指示图像的质量等级。以训练三分类模型为例，可以将每条训练数据的样本标签预先设置为超优、正常、较差等质量等级中的任意一个级别。

具体实施时，可以通过人工为每条训练数据预置标签，也可以通过数据分析处理为每条训练数据预置标签。

在搜集到训练数据之后，以所述训练数据作为目标模型的输入，以所述训练数据的预置标签作为所述目标模型的输出，通过执行有监督训练，训练所述目标模型。

在本公开的一些实施例中，所述目标模型可以为MobileNet(谷歌公司针对手机等嵌入式设备提出的一种轻量级的深度卷积神经网络)三分类网络，也可以为其他有监督网络，本公开对目标模型的结构不做限定，只要是有监督网络即可。基于训练数据训练目标模型的具体方法参见现有技术中的有监督网络模型具体方法，本公开对此不做限定。

本公开具体实施时，不限于图像质量分级模型，还可以为其他分类模型，如图像分类模型、用户分类模型、产品分类模型等。所述目标模型也不限于三分类模型，还可以为二分类模型、四分类模型等。目标模型输出的结果的取值范围与训练数据的预置标签的取回范围匹配。

步骤120，通过所述目标模型对测试数据进行预测，确定所述目标模型的预测准确率。

本公开具体实施时，还需要预先获取测试样本，作为测试数据，并为每个测试样本设置样本标签，即为每条测试数据设置样本标签。所述样本标签为所述测试数据的预置标签，用于指示所述测试数据的真实属性信息。以测试数据为图像举例，所述预置标签可以为所述图像的真实类别、真实等级等属性信息。

在训练得到目标模型之后，将预设的测试数据作为所述目标模型的输入，以确定每条测试数据的预测结果，所述预测结果包括输入的测试数据的预测标签和预测结果置信度。以测试数据为图像，所述目标模型为三分类的图像质量分级模型为例，将作为一条测试数据的一幅图像输入至所述图像质量分级模型之后，所述图像质量分级模型对输入的所述图像进行图像质量等级预测，并输出所述图像的图像质量等级(如超优、正常、较差中的任意一个等级)和所述图像属于该图像质量等级的置信度得分。

每一条测试数据通过所述目标模型进行预测后，都将得到相应的预测标签和预测结果置信度。进一步的，通过对输入至所述目标模型的测试数据的预测标签和预置标签进行比较，确定预测标签和预置标签相同的所述测试数据与全部测试数据的比值，确定所述目标模型的预测准确率。

步骤130，通过所述目标模型对所述训练数据进行预测，确定每条所述训练数据的预测标签和预测结果置信度。

在训练得到目标模型之后，将预设的训练数据作为所述目标模型的输入，以确定每条训练数据的预测结果，所述预测结果包括输入的训练数据的预测标签和预测结果置信度。以训练数据为图像、所述目标模型为三分类的图像质量分级模型为例，将作为一条训练数据的一幅图像输入至所述图像质量分级模型之后，所述图像质量分级模型将对输入的所述图像进行图像质量等级预测，并输出所述图像的图像质量等级(如超优、正常、较差中的任意一个等级)和所述图像属于该图像质量等级的置信度得分。

每一条训练数据通过所述目标模型进行预测后，都将得到相应的预测标签和预测结果置信度。

步骤140，根据所述训练数据的预置标签、预测标签和预测结果置信度，以及所述预测准确率，对所述训练数据进行处理。

对于每一条训练数据，进一步分析该训练数据的预置标签和预测标签，可以发现，有些训练数据的预置标签和预测标签是不同的。例如，一幅图像其预置标签为正常质量等级，而通过目标模型预测后，该图像的预测标签为较差等级，对于预置标签和预测标签不一致的训练数据，本公开中将其定义为预测结果表现异常的训练数据，这些预测结果表现异常的训练数据在训练所述目标模型的过程中可能会导致训练得到的模型不准确，因此，需要结合不同的情况，对预测结果表现异常的训练数据进行数据处理。本申请首先，根据所述预测准确率设置数据处理条件，然后，根据所述预置标签和所述预测标签的异同以及所述预测结果置信度与所述数据处理条件之间的关系，对所述训练数据进行处理。

在本公开的一个实施例中，由于训练数据的预置标签通常是人为标注的，因此，极有可能存在极有可能存在噪声，如训练数据的真实类别标签和预置标签不一致的情况，基于标签错误的训练数据训练目标模型，将会导致模型预测准确率下降。现有技术中常见的数据处理方法是人工去噪的方法去除这种数据噪声。本申请的发明人发现，采用人工方法进行数据处理成本高，效率低，并且存在人为主观因素，数据处理结果可靠性不高。本申请的发明人进一步发现，当某条训练数据的预置标签与预测标签不同时，即预测结果表现异常时，并且，该条训练数据的预测标签对应的预测结果置信度又很高，满足预设的置信度条件，则认为该条训练数据为预置标签标注错误的训练数据，将该条训练数据作为噪声数据。因此，通过本申请公开的数据处理方法可以去除数据中的噪声。其中，预设的置信度条件可以根据所述目标模型的预测准确率确定。

另在本公开的一个实施例中，假设所述训练数据中不存在噪声，那么，当某条训练数据的预置标签与预测标签不同时，即预测结果表现异常时，并且，该条训练数据的预测标签对应的预测结果置信度又很高，满足预设的置信度条件，则可以认为该条训练数据的预测难度比较大，对于所述目标模型来说，很难区分所述训练数据为预置标签对应的类别或为所述预测标签对应的类别。即，该条训练数据与预置标签为所述预测标签的训练数据比较相似，则将所述预测结果表现异常的训练数据确定为易混淆训练数据。其中，预设的置信度条件可以根据所述目标模型的预测准确率确定。

在本公开的一些实施例中，训练得到目标模型之后，还可以先执行通过所述目标模型对所述训练数据进行预测，确定每条所述训练数据的预测标签和预测结果置信度的步骤，然后再执行通过所述目标模型对测试数据进行预测，确定所述目标模型的预测准确率的步骤。

实施例二

本公开实施例提供了一种数据处理方法，如图2所示，该方法包括：步骤210至步骤250。

步骤210，基于训练数据训练目标模型。

其中，所述训练数据包括预置标签。

基于训练数据训练目标模型的具体实施方式参见实施例一，本实施例不再赘述。

步骤220，通过所述目标模型对测试数据进行预测，确定所述目标模型的预测准确率。

通过所述目标模型对测试数据进行预测，确定所述目标模型的预测准确率的具体实施方式参见实施例一，本实施例不再赘述。

步骤230，通过所述目标模型对所述训练数据进行预测，确定每条所述训练数据的预测标签和预测结果置信度。

通过所述目标模型对所述训练数据进行预测，确定每条所述训练数据的预测标签和预测结果置信度的具体实施方式参见实施例一，本实施例不再赘述。

步骤240，根据所述训练数据的预置标签、预测标签和预测结果置信度，以及所述预测准确率，对所述训练数据进行处理。

在本公开的一些实施例中，所述根据所述训练数据的预置标签、预测标签和预测结果置信度，以及所述预测准确率，对所述训练数据进行处理，包括：将预测结果表现异常的所述训练数据按照所述预置标签和所述预测标签的两两组合进行分类，确定若干组异常训练数据，其中，所述预测结果表现异常的所述训练数据包括:所述预置标签和所述预测标签不同的所述训练数据；对于每组所述异常训练数据，分别确定所述预测结果置信度满足预设第一数据处理条件的所述异常训练数据为噪声数据，其中，所述预设第一数据处理条件根据所述预测准确率确定，例如为所述预测结果置信度最高的A％训练数据，所述A％根据所述预测准确率确定，如A％等于所述预测准确率。

假设基于训练数据训练得到的目标模型为MobileNet三分类网络模型，所述训练数据为酒店图像，所述酒店图像的预置标签包括：S、A和BC三个质量等级，通过所述目标模型对预设的测试数据进行预测后，确定所述目标模型的预测准确率为60％，则可以根据所述预测准确率确定第一数据处理条件为：预测结果表现异常的每组测试数据中预测结果置信度最高的60％的测试数据为噪声数据。

在本公开的一些实施例中，可以通过构建训练数据的混淆矩阵将预测结果表现异常的所述训练数据按照所述预置标签和所述预测标签的两两组合进行分类，确定若干组异常训练数据。其中，预测结果表现异常的所述训练数据包括:所述预置标签和所述预测标签不同的所述训练数据。

例如，首先，将预置标签S、A和BC分别作为混淆矩阵的行索引和列索引，分别索引第一行至第三行矩阵元素，以及，第一列至第三列的矩阵元素；然后，将预置标签为S且预测标签为S的训练数据的数量作为第一行第一列的矩阵元素的元素值，即行索引S和列索引S索引的矩阵元素的元素值，将预置标签为S且预测标签为A的训练数据的数量作为第一行第二列的矩阵元素的元素值，即行索引S和列索引A索引的矩阵元素的元素值，依此类推，构建训练数据的混淆矩阵。构建的混淆矩阵如图3所示。混淆矩阵展示了某一预置标签的训练数据被预测为不同预测标签的数量，其中，混淆矩阵的每一个矩阵元素表示预置标签对应该矩阵元素所在行的行索引的训练数据中被预测为该矩阵元素所在列的列索引对应的预测标签的训练数据数量，混淆矩阵的每一行的矩阵元素之和为具有该行对应的预置标签的训练数据的总和。即混淆矩阵的每一个矩阵元素对应训练数据的一个分组，矩阵元素的行索引对应的预置标签和列索引对应的预测标签不同时，该矩阵元素对应的训练数据分组为一个异常训练数据的分组。如图3中的第三行第三列的矩阵元素取值为589，则表示预置标签为S的训练数据中预测标签为BC的训练数据为589条。进一步的，按照预测结果置信度由高到低的顺序对这589条识别结果异常的训练数据进行从前向后排序，则可近似认为排序靠前的60％的数据预测结果是可信的，由于其预测标签与预置标签不同，所以可以认为排序靠前的60％的数据有极大的可能性为噪声，即标签标错了的训练数据，即确定前60％的训练数据为噪声数据。而排序靠后的40％的数据则可以认为是较难区分的训练数据，对其进行保留，对于后续提升模型的识别精度会有较大帮助。

按照上述办法，可以对每个预置标签所标识的训练数据分别按照预测标签进行分组，得到若干组训练数据。例如，预置标签为S的训练数据可以为分3组，分别为预测标签为S的一组、预测标签为A的一组和预测标签为BC的一组，对于阈值标签和预测标签不同的训练数据，本实施例中确定为异常训练数据。即预置标签为S预测标签为A的一组训练数据和预置标签为S预测标签为BC的一组训练数据，将被确定为两组异常训练数据。按照上述方法，本实施例中将确定6组异常训练数据。然后，基于确定的所述第一数据处理条件，分别确定这6组异常训练数据中的噪声数据。

步骤250，基于所述训练数据中除所述噪声数据以外的所述训练数据，优化所述目标模型。

在本公开的另一些实施例中，所述根据所述训练数据的预置标签、预测标签和预测结果置信度，以及所述预测准确率，对所述训练数据进行处理的步骤之后，还包括：基于所述训练数据中除所述噪声数据以外的所述训练数据，优化所述目标模型。

基于本实施例中步骤240的描述，进一步确定每组异常训练数据中后40％的训练数据和预置标签与预测标签一致的训练数据进一步优化训练所述目标模型。

进一步的，由于训练数据的预置标签通常是人为标注的，因此，极有可能存在预置标签错误的情况，基于标签错误的训练数据训练目标模型，将会导致模型预测准确率下降。因此，当某条训练数据的预置标签与预测标签不同时，即预测结果表现异常时，通过结合目标模型的预测准确率和每条训练数据的预测结果置信度分布，确定噪声数据，可以有效识别预置标签错误的训练数据。通过去除噪声后的训练数据进一步优化训练所述目标模型，以进一步提升目标模型的预测准确率。

本申请发明人通过对现有技术的研究发现，利用情感一致性判别方法进行数据去噪时，根据情感极性综合值和形容词名词对的情感极性是否一致，确定数据是否为噪声，一致则保存，不一致则删除，该方法与情感极性任务相关，不具有普适性。并且，基于多模态深度卷积神经网络的概率采样模型去除噪声，该方法以概率P删除所有类别相似的情感分数的实例，其核心思想是指当一个训练实例被预测为积极的和消极的情感分数之间的差异越大时，该训练实例将会被保留到训练集中，反之该实例被从训练集中删除的概率就越大。基于多模态深度卷积神经网络的概率采样模型根据不同类别的绝对预测值的差异来直接决定是否保留，对于标签错误的噪声数据缺乏合理性。以酒店质量等级识别场景为例，假设真实S等级的图像被错误标记为BC等级，因为两个等级的实例本身具有区分性，所以该图像被预测为S和BC等级的预测值差异仍然很大，只是预测标签为S，和预置标签BC不同，但是这种由于标签错误导致的噪声数据在基于情感极性去噪时仍然会被保留，会降低训练得到的模型的预测准确率。

并且，对于有监督学习进行模型训练的过程中包含标签的噪声数据，直接利用预测绝对值进行噪声判断是不合适的。本公开充分利用了预测类别样本的概率分布，基于模型的准确率在噪声数据和hard case(较难区分样本)之间获得较好的折衷。本公开首先基于原始训练数据进行目标模型的训练，然后利用测试数据确定目标模型的预测准确率A％，之后确定预测错误的类别，去除置信度较高的A％比例的数据，获得清洗后的训练数据，进行模型的重新训练，可以有效提升训练得到的模型的预测准确率。

实施例三

本公开实施例提供了一种数据处理方法，如图4所示，该方法包括：步骤410至步骤450。

步骤410，基于训练数据训练目标模型。

其中，所述训练数据包括预置标签。

步骤420，通过所述目标模型对测试数据进行预测，确定所述目标模型的预测准确率。

步骤430，通过所述目标模型对所述训练数据进行预测，确定每条所述训练数据的预测标签和预测结果置信度。

步骤440，根据所述训练数据的预置标签、预测标签和预测结果置信度，以及所述预测准确率，对所述训练数据进行处理。

在本公开的一些实施例中，所述根据所述训练数据的预置标签、预测标签和预测结果置信度，以及所述预测准确率，对所述训练数据进行处理，包括：将预测结果表现异常的所述训练数据按照所述预置标签和所述预测标签的两两组合进行分类，确定若干组异常训练数据，其中，所述预测结果表现异常的所述训练数据包括:所述预置标签和所述预测标签不同的所述训练数据；对于每组所述异常训练数据，分别确定所述预测结果置信度满足预设第二数据处理条件的所述异常训练数据为易混淆训练数据，其中，所述预设第二数据处理条件根据所述预测准确率确定。例如，所述第二数据处理条件为所述预测结果置信度最高的B％训练数据，所述B％根据所述预测准确率确定，如B％等于所述预测准确率。

例如，首先将训练数据按照预置标签分类，具体到本实施例而言，预置标签包括S、A和BC,则可以将训练数据分为3类。进一步的，对于每类训练数据，按照预测标签进一步分为多个组，具体到本实施例而言，每类训练数据可以进一步分为3组。按照此分类方法，本实施例中的训练数据将被划分为9组，这9组训练数据对应的预置标签和预测标签的组合分别为：S和S、S和A、S和BC、A和S、A和A、A和BC、BC和S、BC和A、BC和BC。然后，将的预置标签和预测标签不同的组合对应的训练数据确定为预测结果表现异常的训练数据。具体到本实施例而言，将预置标签和预测标签的组合：S和A、S和BC、A和S、A和BC、BC和S、BC和A对应的训练数据确定为预测结果表现异常的训练数据。

进一步的，对于每组所述异常训练数据，可以按照所述预测结果置信度由高到低的顺序，分别对每组异常训练数据中的训练数据从前向后排序，并确定每组异常训练数据中，所述预测结果置信度满足预设第二数据处理条件的所述训练数据，如前B％的训练数据为易混淆训练数据。其中，所述预设第二数据处理条件根据所述预测准确率确定。例如，预设第二数据处理条件为置信度最高的B％的训练数据，其中，B％等于所述目标模型的预测准确率，或者，根据具体业务需求，设置B％等于所述目标模型的预测准确率的90％。

步骤450，基于所述易混淆训练数据，优化所述目标模型。

在本公开的另一些实施例中，所述根据所述训练数据的预置标签、预测标签和预测结果置信度，以及所述预测准确率，对所述训练数据进行处理之后，还包括：基于所述易混淆训练数据，优化所述目标模型。

当所述训练数据中不存在噪声时，即不存在标签错误的训练数据时，当某条训练数据的预置标签与预测标签不同时，即预测结果表现异常时，则可以认为该条训练数据的预测难度比较大，对于所述目标模型来说，很难区分所述训练数据为预置标签对应的类别或为所述预测标签对应的类别。因此，可以进一步通过易混淆训练数据，优化所述目标模型。

在本公开的一些实施例中，所述基于所述易混淆训练数据，优化所述目标模型，包括：根据所述预测结果置信度，分别确定每组所述异常训练数据中所述易混淆训练数据匹配的预测难易程度；按照所述预测难易程度由易到难的顺序，基于与所述预测难易程度匹配的所述易混淆训练数据，迭代优化所述目标模型。

本公开的一些实施例中，对于每组异常训练数据，分别根据所述预测结果置信度，确定每组所述异常训练数据中所述易混淆训练数据匹配的预测难易程度。所述预测结果置信度越高，说明该条训练数据为预测标签的可信度越高，即区分该条训练数据为预置标签等级或预测标签等级的难度越大。具体实施时，可以根据具体异常训练数据的数量或预测结果置信度的取值范围，将预测难易程度划分为多个等级，如高、中、低3个等级。然后，对于每组异常训练数据，为预测结果置信度最高的30％易混淆数据匹配的高等级的预测难易程度，为预测结果置信度最低的30％易混淆数据匹配的低等级的预测难易程度匹配的预测难易程度，为该组中其他易混淆数据匹配的中等级的预测难易程度。

进一步的，首先基于所有组易混淆数据中匹配低等级预测难易程度的训练数据优化所述目标模型，得到目标模型M1；然后，再基于所有组易混淆数据中匹配中等级预测难易程度的训练数据优化所述目标模型M1，得到目标模型M2；最后，再基于所有组易混淆数据中匹配高等级预测难易程度的训练数据优化所述目标模型M2，得到目标模型M3。最终，目标模型M3作为优化后的所述目标模型。

通过采用由易到难的训练过程，逐步提升模型的特征学习能力，可以提升模型训练效率。

在本公开的另一些实施例中，所述基于所述易混淆训练数据，优化所述目标模型，包括：确定所述易混淆训练数据的相似训练数据，其中，所述相似训练数据的预置标签与所述易混淆数据的预测标签相同；基于所述相似训练数据和所述易混淆数据构建相似训练数据对；基于所述相似训练数据对优化所述目标模型。

具体单本实施例而言，首先，将所述预置标签与所述易混淆训练数据的预测标签相同的所述训练数据，如将预置标签为S的训练数据Data1和预测标签为S的易混淆训练数据Data2作为易混淆训练数据Data1的相似训练数据。然后，基于Data1和Data 2构建相似训练数据对。以训练数据为图像举例，如果某一图像Picture1的预置标签为S等级，预测标签为BC等级，则说明所述图像Picture1与预置标签为BC等级的图像Picture2、Picture3…具有一定相似性，则可以基于所述图像Picture1和所述图像Picture2构建相似训练数据对、基于所述图像Picture1和所述图像Picture3构建相似训练数据对…。进一步的，可以基于构建的所述相似图像对，优化所述目标模型。

基于构建的所述相似图像对，优化所述目标模型的具体实施方式参见现有技术，本实施例不再赘述。

在图像检索领域，使用本公开中的数据处理方法进行hard case(难区分实例)的挑选，可以进一步提升算法性能。图像检索中一般都会使用分类模型进行预训练，然后构建图像对进一步提升图像特征的区分性，图像对包含同一个类别之间的，也包含不同类别之间的。其中，通过本公开的数据处理方法选择不同类别间的图像对，利用基础模型对训练数据集中的数据进行预测获得异混淆训练数据，例如S等级错误预测为BC等级，假设数据本身干净，不包含噪声，那表明预测为BC等级的训练数据与原始为BC等级的训练数据具有一定的相似性，基于预测为BC等级的训练数据与原始BC等级的训练数据构建图像对，相比随机选取S和BC等级中的训练数据构建相似图像对，可进一步提升图像的特征表达能力，提升训练得到的模型的预测准确率。

本公开实施例提供的数据处理方法，通过基于训练数据训练目标模型，其中，所述训练数据包括预置标签；然后，通过所述目标模型对测试数据进行预测，确定所述目标模型的预测准确率；以及，通过所述目标模型对所述训练数据进行预测，确定每条所述训练数据的预测标签和预测结果置信度；最后，根据所述训练数据的预置标签、预测标签和预测结果置信度，以及所述预测准确率，对所述训练数据进行处理，解决了现有技术中采用人工方法进行数据处理成本高、效率低的问题，以及由于人为主观因素导致数据处理结果可靠性不高的问题。本公开实施例提供的数据处理方法，通过基于测试数据确定目标模型的预测准确率，并结合目标模型的预测准确率和每条训练数据的预测结果置信度对训练数据进行数据去噪分类，有助于提升数据处理效率和准确性，并降低数据处理成本。

进一步的，当某条训练数据的预置标签与预测标签不同时，即预测结果表现异常时，通过结合目标模型的预测准确率和每条训练数据的预测结果置信度分布，确定较难区分的训练数据，并基于较难区分的训练数据的训练数据进一步优化训练所述目标模型，以进一步提升目标模型的预测准确率。

实施例四

本公开实施例提供了一种数据处理装置，如图5所示，所述装置包括：

目标模型训练模块510，用于基于训练数据训练目标模型，其中，所述训练数据包括预置标签；

模型预测准确率确定模块520，用于通过所述目标模型对测试数据进行预测，确定所述目标模型的预测准确率；

训练数据预测模块530，用于通过所述目标模型训练模块510训练的目标模型对所述训练数据进行预测，确定每条所述训练数据的预测标签和预测结果置信度；

数据处理模块540，用于根据所述训练数据的预置标签、预测标签和预测结果置信度，以及所述预测准确率，对所述训练数据进行处理。

可选的，如图6所示，所述数据处理模块540进一步包括：

第一数据分组子模块5401，用于将预测结果表现异常的所述训练数据按照所述预置标签和所述预测标签的两两组合进行分类，确定若干组异常训练数据，其中，所述预测结果表现异常的所述训练数据包括:所述预置标签和所述预测标签不同的所述训练数据；

噪声数据确定子模块5402，用于对于每组所述异常训练数据，分别确定所述预测结果置信度满足预设第一数据处理条件的所述异常训练数据为噪声数据，其中，所述预设第一数据处理条件根据所述预测准确率确定。

可选的，如图6所示，所述装置还包括：

第一模型优化模块550，用于基于所述训练数据中除所述噪声数据以外的所述训练数据，优化所述目标模型。

本公开实施例提供的数据处理装置，通过基于训练数据训练目标模型，其中，所述训练数据包括预置标签；然后，通过所述目标模型对测试数据进行预测，确定所述目标模型的预测准确率；以及，通过所述目标模型对所述训练数据进行预测，确定每条所述训练数据的预测标签和预测结果置信度；最后，根据所述训练数据的预置标签、预测标签和预测结果置信度，以及所述预测准确率，对所述训练数据进行处理，解决了现有技术中采用人工方法进行数据处理成本高、效率低的问题，以及由于人为主观因素导致数据处理结果可靠性不高的问题。本公开实施例提供的数据处理装置，通过基于测试数据确定目标模型的预测准确率，并结合目标模型的预测准确率和每条训练数据的预测结果置信度对训练数据进行数据去噪和分类，有助于提升数据处理效率和准确性，并降低数据处理成本。

实施例五

参考实施例四，在本公开的另一个实施例中，如图7所示，所述数据处理模块540进一步包括：

易混淆训练数据确定子模块5403，用于对于每组所述异常训练数据，分别确定所述预测结果置信度满足预设第二数据处理条件的所述异常训练数据为易混淆训练数据，其中，所述预设第二数据处理条件根据所述预测准确率确定。

可选的，如图7所示，所述装置还包括：

第二模型优化模块560，用于基于所述易混淆训练数据，优化所述目标模型。

在本公开的一个实施例中，所述第二模型优化模块560进一步用于：

根据所述预测结果置信度，分别确定每组所述异常训练数据中所述易混淆训练数据匹配的预测难易程度；

按照所述预测难易程度由易到难的顺序，基于与所述预测难易程度匹配的所述易混淆训练数据，迭代优化所述目标模型。

在本公开的另一个实施例中，所述第二模型优化模块560进一步用于：

确定所述易混淆训练数据的相似训练数据，其中，所述相似训练数据的预置标签与所述易混淆数据的预测标签相同；

基于所述相似训练数据和所述易混淆数据构建相似训练数据对；

基于所述相似训练数据对优化所述目标模型。

本公开实施例提供的数据处理装置，用于实现本公开实施例一至实施例三中所述的数据处理方法的各步骤，装置的各模块的具体实施方式参见相应步骤，此处不再赘述。

本公开实施例提供的数据处理装置，通过基于训练数据训练目标模型，其中，所述训练数据包括预置标签；然后，通过所述目标模型对测试数据进行预测，确定所述目标模型的预测准确率；以及，通过所述目标模型对所述训练数据进行预测，确定每条所述训练数据的预测标签和预测结果置信度；最后，根据所述训练数据的预置标签、预测标签和预测结果置信度，以及所述预测准确率，对所述训练数据进行处理，解决了现有技术中采用人工方法进行数据处理成本高、效率低的问题，以及由于人为主观因素导致数据处理结果可靠性不高的问题。本公开实施例提供的数据处理装置，通过基于测试数据确定目标模型的预测准确率，并结合目标模型的预测准确率和每条训练数据的预测结果置信度对训练数据进行数据分类，有助于提升数据处理效率和准确性，并降低数据处理成本。

相应的，本公开还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本公开实施例一至实施例三任意一个实施例所述的数据处理方法。所述电子设备可以为PC机、移动终端、个人数字助理、平板电脑等。

本公开还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本公开实施例一至实施例三任意一个实施例所述的数据处理方法的步骤。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上对本公开提供的一种数据处理方法及装置进行了详细介绍，本文中应用了具体个例对本公开的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本公开的方法及其核心思想；同时，对于本领域的一般技术人员，依据本公开的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本公开的限制。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

Claims

1.一种数据处理方法，其特征在于，包括：

基于训练数据训练目标模型，其中，所述训练数据包括预置标签，所述训练数据为图像，所述预置标签为所述图像的图像质量等级；

通过所述目标模型对测试数据进行预测，确定所述目标模型的预测准确率，其中，所述测试数据为图像；

通过所述目标模型对所述训练数据进行预测，确定每条所述训练数据的预测标签和预测结果置信度，所述预测标签为预测得到的图像质量等级；

根据所述训练数据的预置标签、预测标签和预测结果置信度，以及所述预测准确率，对所述训练数据进行处理；

所述根据所述训练数据的预置标签、预测标签和预测结果置信度，以及所述预测准确率，对所述训练数据进行处理的步骤，包括：

将预测结果表现异常的所述训练数据按照所述预置标签和所述预测标签的两两组合进行分类，确定若干组异常训练数据，其中，所述预测结果表现异常的所述训练数据包括:所述预置标签和所述预测标签不同的所述训练数据；

对于每组所述异常训练数据，分别确定所述预测结果置信度满足预设第一数据处理条件的所述异常训练数据为噪声数据，其中，所述预设第一数据处理条件根据所述预测准确率确定。

2.根据权利要求1所述的方法，其特征在于，所述根据所述训练数据的预置标签、预测标签和预测结果置信度，以及所述预测准确率，对所述训练数据进行处理的步骤之后，还包括：

基于所述训练数据中除所述噪声数据以外的所述训练数据，优化所述目标模型。

3.根据权利要求1所述的方法，其特征在于，所述根据所述训练数据的预置标签、预测标签和预测结果置信度，以及所述预测准确率，对所述训练数据进行处理的步骤，包括：

对于每组所述异常训练数据，分别确定所述预测结果置信度满足预设第二数据处理条件的所述异常训练数据为易混淆训练数据，其中，所述预设第二数据处理条件根据所述预测准确率确定。

4.根据权利要求3所述的方法，其特征在于，所述根据所述训练数据的预置标签、预测标签和预测结果置信度，以及所述预测准确率，对所述训练数据进行处理的步骤之后，还包括：

基于所述易混淆训练数据，优化所述目标模型。

5.根据权利要求4所述的方法，其特征在于，所述基于所述易混淆训练数据，优化所述目标模型的步骤，包括：

6.根据权利要求4所述的方法，其特征在于，所述基于所述易混淆训练数据，优化所述目标模型的步骤，包括：

基于所述相似训练数据对优化所述目标模型。

7.一种数据处理装置，其特征在于，包括：

目标模型训练模块，用于基于训练数据训练目标模型，其中，所述训练数据包括预置标签，所述训练数据为图像，所述预置标签为所述图像的图像质量等级；

模型预测准确率确定模块，用于通过所述目标模型对测试数据进行预测，确定所述目标模型的预测准确率，其中，所述测试数据为图像；

训练数据预测模块，用于通过所述目标模型训练模块训练的目标模型对所述训练数据进行预测，确定每条所述训练数据的预测标签和预测结果置信度，所述预测标签为预测得到的图像质量等级；

数据处理模块，用于根据所述训练数据的预置标签、预测标签和预测结果置信度，以及所述预测准确率，对所述训练数据进行处理；

所述数据处理模块进一步包括：

第一数据分组子模块，用于将预测结果表现异常的所述训练数据按照所述预置标签和所述预测标签的两两组合进行分类，确定若干组异常训练数据，其中，所述预测结果表现异常的所述训练数据包括:所述预置标签和所述预测标签不同的所述训练数据；

噪声数据确定子模块，用于对于每组所述异常训练数据，分别确定所述预测结果置信度满足预设第一数据处理条件的所述异常训练数据为噪声数据，其中，所述预设第一数据处理条件根据所述预测准确率确定。

8.根据权利要求7所述的装置，其特征在于，还包括：

第一模型优化模块，用于基于所述训练数据中除所述噪声数据以外的所述训练数据，优化所述目标模型。

9.根据权利要求7所述的装置，其特征在于，所述数据处理模块进一步包括：

易混淆训练数据确定子模块，用于对于每组所述异常训练数据，分别确定所述预测结果置信度满足预设第二数据处理条件的所述异常训练数据为易混淆训练数据，其中，所述预设第二数据处理条件根据所述预测准确率确定。

10.根据权利要求9所述的装置，其特征在于，还包括：

第二模型优化模块，用于基于所述易混淆训练数据，优化所述目标模型。

11.根据权利要求10所述的装置，其特征在于，所述第二模型优化模块进一步用于：

12.根据权利要求10所述的装置，其特征在于，所述第二模型优化模块进一步用于：

基于所述相似训练数据对优化所述目标模型。

13.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6任意一项所述的数据处理方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至6任意一项所述的数据处理方法的步骤。