CN109583590B

CN109583590B - 数据处理方法及数据处理装置

Info

Publication number: CN109583590B
Application number: CN201811441548.4A
Authority: CN
Inventors: 张树荣
Original assignee: Shenzhen Het Data Resources and Cloud Technology Co Ltd
Current assignee: Shenzhen Hetai Intelligent Home Appliance Controller Co ltd
Priority date: 2018-11-29
Filing date: 2018-11-29
Publication date: 2020-11-13
Anticipated expiration: 2038-11-29
Also published as: CN109583590A

Abstract

本申请公开了一种数据处理方法及装置。其中，该方法包括：生成N个样本集合，每个所述样本集合中包括训练集和测试集，所述N为大于或等于2的整数；通过每个所述样本集合中的训练集训练目标模型，并通过每个所述样本集合中的测试集对所述目标模型进行评估，获得评估结果；从所述N个样本集合中确定出评估结果低的M个样本集合，并确定所述M个样本集合中每个样本的累计概率，所述M为大于或等于1的整数；根据所述M个样本集合中每个样本的累计概率以及预置置信区间，确定所述M个样本集合中的污染样本。相应的，还提供了对应的装置。采用本申请，能够有效识别出被污染的样本，提高模型训练的效率以及准确性。

Description

数据处理方法及数据处理装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种数据处理方法及数据处理装置。

背景技术

随着人工智能(artificial intelligence，AI)技术不断普及，无论大型企业还是微小企业，都有可能用上基于机器学习、深度学习等等的技术系统。

但是，目前对于这种新兴的人工智能系统的安全性的研究尚未跟得上商业化的浪潮，防御的策略布局尚未形成气候，一旦发生有效攻击，可能会使得人工智能产品遭受重大的打击。如对于AI模型的训练阶段，若训练数据被污染，则整个AI模型也会易受到数据污染的攻击，甚至会使得训练出来的AI模型无法发挥其作用。

由此，如何避免数据污染亟待解决。

发明内容

本申请提供一种数据处理方法及数据处理装置，能够有效识别出被污染的样本，提高模型训练的效率以及准确性。

第一方面，本申请实施例提供了一种数据处理方法，包括：

生成N个样本集合，每个所述样本集合中包括训练集和测试集，所述N为大于或等于2的整数；

通过每个所述样本集合中的训练集训练目标模型，并通过每个所述样本集合中的测试集对所述目标模型进行评估，获得评估结果；

从所述N个样本集合中确定出评估结果低的M个样本集合，并确定所述M个样本集合中每个样本的累计概率，所述M为大于或等于1的整数；

根据所述M个样本集合中每个样本的累计概率以及预置置信区间，确定所述M个样本集合中的污染样本。

本申请实施例中，通过生成包括训练集和测试集的样本集合，然后通过训练集训练目标模型，通过测试集对该目标模型进行评估；从而根据评估结果的高低来识别M个样本集合(评估结果低的M个)中的污染样本；一方面，不管什么样的模型都可以应用本申请实施例所提供的方法，具有通用性；另一方面，通过对评估结果低的样本集合进行有统计学指标支撑(如通过累计概率以及预置置信区间)的污染样本的识别，还可提高污染样本识别的准确性，进而提高目标模型的应用性能，如提高了模型训练的效率以及准确性。

在一种可能的实现方式中，所述生成N个样本集合，包括：

确定所述N个样本集合中每个所述样本集合的参考概率P，所述P大于0.5；

根据所述N个样本集合中每个所述样本集合的所述P生成所述N个样本集合，其中，每个所述样本集合对应一个P，每个所述样本集合中的样本包括随机数，每个所述样本集合中大于P的随机数为测试集，每个所述样本集合中小于P的随机数为训练集。

本申请实施例中，通过所述N个样本集合中每个所述样本集合的参考概率生成所述N个样本集合，且所述样本集合中包括随机数，再通过随机数确定测试集和训练集，可保证生成的N个样本集合均匀分布。

在一种可能的实现方式中，所述根据所述M个样本集合中每个样本的累计概率以及预置置信区间，确定所述M个样本集合中的污染样本之前，所述方法还包括：

根据所述M与所述P的运算结果，确定置信区间估算方法；

根据所述置信区间估算方法确定所述预置置信区间。

本申请实施例中，通过M与P的运算结果可以确定置信区间的估算方法，然后通过该置信区间的估算方法确定所述预置置信区间，可有效提高确定预制置信区间的效率。

在一种可能的实现方式中，所述根据所述M与所述P的运算结果，确定置信区间估算方法，包括：

在M×P≥4且M×(1-P)≥4的情况下，确定第一置信区间估算方法；

否则，确定第二置信区间估算方法。

本申请实施例中，通过M与P的乘积运算结果和4作对比可以快速确定第一置信区间和第二置信区间的估算方法，有效提高计算效率。可理解，本申请实施例中的否则表示只要不满足M×P≥4且M×(1-P)≥4的情况，如M×P<4的情况，或者且M×(1-P)<4的情况，又或者M×P<4且M×(1-P)<4的情况。

在一种可能的实现方式中，所述根据所述M个样本集合中每个样本的累计概率以及预置置信区间，确定所述M个样本集合中的污染样本之后，所述方法还包括：

根据所述N个样本集合中的非污染样本训练所述目标模型，得到训练后的所述目标模型，所述N个样本集合中的非污染样本包括所述N个样本集合中除所述M个样本集合中的污染样本之外的样本；

根据所述目标模型的功能，应用所述训练后的所述目标模型。

本申请实施例中，通过非污染样本训练目标模型，可有效避免该目标模型被污染，提高了应用该目标模型的安全性。

在一种可能的实现方式中，所述目标模型包括人工智能AI模型和/或机器学习模型。

第二方面，本申请实施例提供了一种数据处理装置，包括：

生成单元，用于生成N个样本集合，每个所述样本集合中包括训练集和测试集，所述N为大于或等于2的整数；

评估单元，用于通过每个所述样本集合中的训练集训练目标模型，并通过每个所述样本集合中的测试集对所述目标模型进行评估，获得评估结果；

第一确定单元，用于从所述N个样本集合中确定出评估结果低的M个样本集合，并确定所述M个样本集合中每个样本的累计概率，所述M为大于或等于1的整数；

第二确定单元，用于根据所述M个样本集合中每个样本的累计概率以及预置置信区间，确定所述M个样本集合中的污染样本。

在一种可能的实现方式中，所述生成单元包括：

确定子单元，用于确定所述N个样本集合中每个所述样本集合的参考概率P，所述P大于0.5；

生成子单元，用于根据所述N个样本集合中每个所述样本集合的所述P生成所述N个样本集合，其中，每个所述样本集合对应一个P，每个所述样本集合中的样本包括随机数，每个所述样本集合中大于P的随机数为测试集，每个所述样本集合中小于P的随机数为训练集。

在一种可能的实现方式中，所述装置还包括：

第三确定单元，用于根据所述M与所述P的运算结果，确定置信区间估算方法；

第四确定单元，用于根据所述置信区间估算方法确定所述预置置信区间。

在一种可能的实现方式中，所述第三确定单元包括：

第一确定子单元，用于在M×P≥4且M×(1-P)≥4的情况下，确定第一置信区间估算方法；

第二确定子单元，否则，用于确定第二置信区间估算方法。

在一种可能的实现方式中，所述装置还包括：

训练单元，用于根据所述N个样本集合中的非污染样本训练所述目标模型，得到训练后的所述目标模型，所述N个样本集合中的非污染样本包括所述N个样本集合中除所述M个样本集合中的污染样本之外的样本；

应用单元，用于根据所述目标模型的功能，应用所述训练后的所述目标模型。

第三方面，本申请实施例还提供了一种数据处理装置，包括：处理器和存储器，所述处理器和所述存储器耦合；其中，所述存储器存储有程序指令；所述程序指令被所述处理器执行时，使所述处理器执行如第一方面所述的相应的方法。

在一种可能的实现方式中，该数据处理装置还包括输入输出接口，所述输入输出接口可用于与其他设备或装置等等进行通信。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被数据处理装置的处理器执行时，使所述处理器执行第一方面所述的方法。

第五方面，本申请实施例提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

图1是本申请实施例提供的一种数据处理方法的流程示意图；

图2是本申请实施例提供的另一种数据处理方法的流程示意图；

图3是本申请实施例提供的一种目标模型训练方法的流程示意图；

图4是本申请实施例提供的一种数据处理装置的结构示意图；

图5是本申请实施例提供的一种生成单元的结构示意图；

图6是本申请实施例提供的另一种数据处理装置的结构示意图；

图7是本申请实施例提供的一种第三确定单元的结构示意图；

图8是本申请实施例提供的一种数据处理装置的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同的对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法或设备固有的其他步骤或单元。

请参见图1，图1是本申请实施例提供的一种数据处理方法的流程示意图，该数据处理方法可应用于数据处理装置，该数据处理装置可包括服务器或终端设备，该终端设备可包括手机、台式电脑、手提电脑和其他设备等等，本申请实施例对于该数据处理装置的具体形式不作限定。可理解，该数据处理装置可以为任意的能够实现或运行目标模型的装置，因此，本申请实施例对于该数据处理装置的具体形态不作唯一性限定。

如图1所示，该数据处理方法包括：

101、生成N个样本集合，每个上述样本集合中包括训练集和测试集，上述N为大于或等于2的整数。

本申请实施例中，N个样本集合中每个样本集合中可包括至少两个样本，且每个样本集合中包括训练集和测试集，该训练集中包括至少一个训练样本如包括k个训练样本，以及该测试集中包括至少一个测试样本如包括l个测试样本。其中，上述N、k和l为大于或等于2的整数。举例来说，可生成20个(即N个)样本集合，且该20个样本集合中的每个样本集合都包含6000个样本，其中，该6000个样本中包括4000个(即k个)训练集和2000个(即l个)测试集。可理解，本申请实施例中对于上述样本集合的具体数量不作限定。

实施本实施例，通过一定数量的样本集合，以及该样本集合中大量的训练集和测试集可有效保证样本的充分性和完整性。

其中，每个样本集合中的样本可为任意的0-1之间的随机数，因此，本申请实施例还提供了一种如何生成样本集合的方法。如下所示：

可选的，上述生成N个样本集合，包括：

确定所述N个样本集合中每个所述样本集合的参考概率P，上述P大于0.5；

根据上述N个样本集合中每个上述样本集合的上述P生成上述N个样本集合，其中，每个上述样本集合对应一个P，每个上述样本集合中的样本包括随机数，每个上述样本集合中大于P的随机数为测试集，每个上述样本集合中小于P的随机数为训练集。

本实施例中，上述参考概率P的取值区间为[0,1]之间的任意一个值，且上述P大于0.5。如该数据处理装置通过设置该参考概率P的值，然后通过该P值生成N个样本集合，且该N个样本集合中的每个样本集合中都包括随机数。可理解，该P可以为用户通过设置指令来设置的，也可以由数据处理装置根据设置规则(如大于0.5)自主设置等等，本申请实施例对于该P具体如何来确定或设置不作限定。

其中，该随机数可以通过伪随机数发生器生成伪随机数，具体的，该伪随机数的生成方法可以为取中法、同余法、移位法、梅森旋转算法(Mersenne twister)。或者，该伪随机数也可以通过准随机数发生器(Quasi-Random Numbers Generator，QRNG)生成准随机数，通过该准随机数发生器可以产生高度均匀的单位超立方体样本等等。可理解，本申请实施例对于该随机数是什么以及该随机数的生成方法不作限定。

具体的，可以通过为上述N个样本集合中的每个样本集合设置一个参考概率P值，并且通过该P值为每个样本集合分别生成包含不同的随机数的样本集合。其中，每个样本集合的P可以为同一个值，或者，每个样本集合的P也可以不同。也就是说，该N个样本集合所对应的N个P的具体取值本实施例不作限定。

举例来说，可以为样本集合设置参考概率P(如P＝0.8)，且样本集合中包括20个样本，然后通过随机数生成算法为该样本集合的第一个样本生成随机数，接着为第二个样本生成随机数，直到为该20个样本都生成随机数，在此不再赘述。

本实施例中，当通过上述参考概率P生成一个样本集合，且确定了样本集合中的随机数之后，可以通过该参考概率P确定测试集和训练集。具体的，可以将样本集合中大于P的随机数作为测试集，样本集合中小于P的随机数作为训练集。举例来说，以N个样本集合中的其中一个样本集合为例，该样本集合中包括6000个样本(且每个样本包括一个随机数)，若该6000个样本中有2000个随机数大于上述参考概率P，则该2000个样本即为测试集，则剩余的4000个小于参考概率P的样本即为训练集。也就是说，测试集中包括了2000个测试样本，训练集中包括了4000个训练样本。可理解，以上所示的样本数量仅为一种示例，不应将其理解为对本实施例的限定。

实施本实施例，通过参考概率P和随机数确定测试集和训练集的方式，不仅高效便捷的确定了样本集合，而且保证了样本集合的均匀性和随机性。

102、通过每个上述样本集合中的训练集训练目标模型，并通过每个上述样本集合中的测试集对上述目标模型进行评估，获得评估结果。

本申请实施例中，上述目标模型包括人工智能AI模型、神经网络、自然语言处理模型、信息检索模型和/或机器学习模型。可以通过上述样本集合中的训练集训练上述目标模型。举例来说，若上述目标模型为神经网络，上述训练集中的样本为人脸图像样本，其中，训练集中所包括的随机数可映射到人脸图像样本上，从而可根据训练集所代表的人脸图像样本对神经网络进行训练。具体的，如该神经网络模型的目的为检测人脸图像中的脂肪粒数量，其中，该人脸图像样本中每个样本的脂肪粒个数为已知值，将该人脸图像样本(即训练集中的各个随机数所映射的样本)输入到该神经网络中得到每个样本中脂肪粒个数的预测值，通过上述预测值和上述已知值训练该神经网络(即调整该神经网络的参数)，最终得到该神经网络。可理解，本申请实施例对于具体的训练方式不作限定。

然后，通过上述样本集合中的测试集对上述目标模型进行评估，得到评估结果。因此，本申请实施例中还提供了几种评估上述目标模型的方法，如下所示：

1、均方根误差法(Root Mean Square Error，RMSE)也称为标准误差。均方根误差是观测值与真值偏差的平方和与观测次数n比值的平方根，用来衡量观测值同真值之间的偏差。其中，上述观测值可理解为通过测试集得到的测试结果值，上述真值即为测试集中的样本的真实样本值，可理解，每个测试集中的每个测试样本对应一个测试结果值。上述观测次数n可以理解为测试集的数量，也就是说，该观测次数即为N个样本集合中所有的测试集的数量。计算上述测试结果值和测试样本的真实样本值的均方根误差，则通过对该均方根误差结果进行分析可得到上述评估结果。举例来说，若上述目标模型对稳定性的要求比较高，则上述均方根误差越小对应的评估结果越高，相反的，上述均方根误差越大对应的评估结果越低。也就是说，可根据具体的上述目标模型的需求灵活的制定评估结果的评估方法。可理解，本申请实施例对于评估结果的评估方法不作限定。

在实际应用场景中，上述提到的均方根误差法往往不足以满足对上述目标模型的评估。因此，需要通过不同的评价指标来评估上述目标模型。相应的，本申请实施例提供下述几种评价指标来评估上述目标模型，如下所示：

2、对于机器学习、自然语言处理、信息检索、人工智能等领域的评估是一个必要的工作，而其评价指标往往有如下几点:正确率(accuracy)，准确率(precision)，召回率(recall)和F1-Measure等等。

这里首先介绍几个常见的模型评价术语，现在假设我们的分类目标只有两类，正例(positive)和负例(negtive)。具体的，通过上述测试集对上述目标模型进行评估，其中，每个测试集中的每个测试样本的值为真实样本值，且每个测试集中的每个测试样本对应一个测试结果值，将该测试结果值与该真实样本值进行比较，若两者相同则将该测试结果值记为1(即为上述正例)，若两者不同则将上述测试结果值记为0(即为上述负例)。

以下介绍四种不同的分类情况：

(1)True positives(TP)：被正确地划分为正例的个数，即实际为正例且被分类器划分为正例的实例数；

(2)False positives(FP)：被错误地划分为正例的个数，即实际为负例但被分类器划分为正例的实例数；

(3)False negatives(FN)：被错误地划分为负例的个数，即实际为正例但被分类器划分为负例的实例数；

(4)True negatives(TN)：被正确地划分为负例的个数，即实际为负例且被分类器划分为负例的实例数。

以下将介绍几种评价指标：

(1)正确率(accuracy)。正确率是我们最常见的评价指标，accuracy＝(TP+TN)/(P+N)，这个很容易理解，就是被分对的样本数除以所有的样本数。

(2)错误率(error rate)。错误率则与正确率相反，描述被分类器错分的比例，error rate＝(FP+FN)/(P+N)，对某一个实例来说，分对与分错是互斥事件，所以accuracy＝1-error rate。

(3)灵敏度(sensitive)。sensitive＝TP/P，表示的是所有正例中被分对的比例，衡量了分类器对正例的识别能力。

(4)特效度(specificity)。specificity＝TN/N，表示的是所有负例中被分对的比例，衡量了分类器对负例的识别能力。

(5)准确率(precision)。准确率是精确性的度量，表示被分为正例的示例中实际为正例的比例，precision＝TP/(TP+FP)。

(6)召回率(recall)。召回率是覆盖面的度量，度量有多个正例被分为正例，recall＝TP/(TP+FN)＝TP/P＝sensitive，可以看到召回率与灵敏度是一样的。

(7)F1-Measure是根据准确率(precision)和召回率(recall)二者给出的一个综合的评价指标，具体定义如下：F1＝2rp/(r+p)，其中，r为recall，p为precision。

其中，上述分类器可以为决策树分类器、选择树分类器、证据分类器等。可理解，本申请实施例中对于分类器不作具体限定。通过上述分类器对上述测试集中的上述测试结果值和上述真实样本值进行评估，得到上述一系列的评价指标，则这一系列的评价指标即为评估结果。可理解，本申请实施例中对于具体的评价指标不作限定。

实施本实施例，通过上述评估方法对上述目标模型进行评估，可以多方面的评估上述目标模型，得到上述评估结果，通过该评估结果可以精确地分析该目标模型，并且通过该评估结果调整该目标模型的参数，从而有效提高该目标模型的性能。

103、从上述N个样本集合中确定出评估结果低的M个样本集合，并确定上述M个样本集合中每个样本的累计概率，上述M为大于或等于1的整数。

本申请实施例中，从N个样本集合中确定出评估结果低的M个样本集合，也可以理解为根据评估结果从低到高，确定M个样本集合。具体的，可以通过冒泡排序、选择排序、插入排序、归并排序、堆排序、快速排序等排序算法来确定上述M个评估结果低的样本集合。作为一种示例，可以将N个样本集合的N个评估结果从低到高的顺序进行排序，然后确定出排在前M个的样本集合，可理解，该种方式仅为一种全部排序的方式，在具体实现中，还可以通过上述的冒泡排序插入排序等等来确定出M个样本集合。因此，本申请实施例中对于具体如何确定评估结果低的样本集合的方式不作限定。可理解，本实施例对于该M具体取值多少不作限定。

本申请实施例中，当确定评估结果低的上述M个样本集合之后，还需确定该M个样本集合中每个样本的累计概率。其中，上述累计概率可以理解为上述M个样本集合中每个样本中被选为训练集的概率加权和。

其中，M个样本集合中每个样本的累计概率，也可以表示为每个样本在M个样本集合中的累计概率。举例来说，该M个样本集合分别包括第一样本集合、第二样本集合和第三样本集合，则可以从第一样本集合中所包含的各个样本来分别计算该第一样本集合中所包括的各个样本的累计概率，然后再确定第二样本集合中的各个样本且不包括已经确定过的样本的累计概率，最后再确定第三样本集合中各个样本，且不包括已经确定过的在第一样本集合和第二样本集合中的样本的累计概率。又举例来说，还可以分别确定第一样本集合、第二样本集合和第三样本集合中都包括了哪些样本，然后再分别确定这些样本的累计概率。可理解，以上仅为一种示例，不应理解为对本申请实施例的限定。

可理解，对于M个样本集合中每两个样本集合中的样本是否相同，本申请实施例不作限定，以及对于M个样本集合中每三个样本集合中的样本是否相同，本申请实施例也不作限定。也就是说，该M个样本集合中每个样本集合中的样本是否相同，本申请实施例不作限定。

举例来说，上述M个样本集合包括A(P为0.8)、B(P为0.7)、C(P为0.6)和D(P为0.7)四个样本集合。作为示例，对于随机数0.7来说，A样本集合中0.7被选为训练集的概率为100％，B样本集合中0.7被选为训练集的概率为100％，C样本集合中被选为训练集的概率为0，D样本集合中0.7被选为训练集的概率为100％，则0.7的累计概率为(100％+100％+0+100％)/4，即为75％。可理解，以上仅示出了一个样本的累计概率计算方式，在具体实现中，可能包含很多样本，因此这里不再一一详述。

实施本实施例，通过统计评估结果低的上述M个样本集合中每个样本的累计概率，提高了查找污染样本的效率；避免了要计算或确定所有样本集合中每个样本的累计概率，而带来的查找污染样本的复杂度，以及节省了确定污染样本的时间。

104、根据上述M个样本集合中每个样本的累计概率以及预置置信区间，确定上述M个样本集合中的污染样本。

本申请实施例中，该预置置信区间为通过置信区间计算方法来得到的，因此，对于该预置置信区间的设置或来源，本申请实施例不作限定。根据M个样本集合中每个样本的累计概率以及预置置信区间来确定污染样本，具体可理解为，若样本的累计概率在预置置信区间之内，则可确定该样本不为污染样本；而如果某个样本的累计概率在预置置信区间之外，则可确定该某个样本为污染样本。

可选的，为进一步确定预置置信区间，本申请实施例还提供了一种确定该预置置信区间的方法，如下所示：

上述根据上述M个样本集合中每个样本的累计概率以及预置置信区间，确定上述M个样本集合中的污染样本之前，上述方法还包括：

根据上述M与上述P的运算结果，确定置信区间估算方法；

根据上述置信区间估算方法确定上述预置置信区间。

其中，上述根据M与上述P的运算结果确定置信区间估算方法，可以通过二项分布概率模型进行估算，然后再根据置信区间确定上述预置置信区间。具体的，本申请实施例还提供了一种计算置信区间的方法，如下所示：

可选的，上述根据上述M与上述P的运算结果，确定置信区间估算方法，包括：

否则，确定第二置信区间估算方法。

可理解，本实施例中，否则所表达的意思即为只要不能同时满足M×P≥4且M×(1-P)≥4的情况。

本申请实施例中，当M×P≥4且M×(1-P)≥4，则可以用二项分布中的Wald method方法估算置信区间，也就是说，上述第一置信区间估算方法即为Wald method。记z是标准正态分布在置信水平α下

的分位线，则当前置信区间为

如果M×P≥4且M×(1-P)≥4的条件不能被满足，则采用二项分布中的Agresti–Coull method、ArcSine method等替代方案来进行估计，也就是说，上述第二置信区间估算方法即为Agresti–Coull method、ArcSine method。Agresti–Coull method的计算公式为：

其中，

ArcSine method的计算公式为：

可理解，本申请实施例中对于具体的置信区间的估算方法不作限定。

本申请实施例中，当确定上述预置置信区间之后，可以将在上述预置置信区间之外的样本则列为污染样本，例如，该预置置信区间为≥95％，则上述M个样本集合中某个样本的累计概率为80％，则可确定该某个样本即为污染样本。可理解，本申请实施例对于具体的预置置信区间的数值不作限定。实施本申请实施例，可以通过统计学的方式确定污染样本，提高了确定污染样本的准确性。

实施本申请实施例，首先通过评估结果确定评估结果低的样本，然后统计这些评估结果低的样本的累计概率，最终通过累计概率和预置置信区间确定污染样本，通过上述方式可以高效、准确的确定污染样本，提高了效率。

参见图2，图2是本申请实施例提供的另一种数据处理方法的流程示意图，如图1所示，该数据处理方法包括：

201、确定非均衡概率p，上述p大于0.5。

本申请实施例中，上述非均衡概率p即为图1中的上述参考概率P，上述非均衡概率p的取值区间为(0,1]之间的任意一个值，且上述p大于0.5。举例来说，如该参考概率p＝0.8。可理解，对于该非均衡概率也即参考概率的具体实现方式可参考图1所示的实现方式。

202、根据上述非均衡概率p，随机给样本集合中的每个样本分配一个概率pi，根据pi将上述样本集合划分为训练集和测试集。

本申请实施例中，上述样本集合为一个样本集合，且该样本集合中包括一个或多个样本。根据该p值生成均匀分布的概率pi，该概率pi可以理解为随机数，并将该随机数映射到上述样本集合中。然后，将随机数大于p的样本视为抽中，抽中的作为测试集，未抽中的作为训练集。至于具体的随机数生成方法可参考图1中步骤101所示的方法，在此不再一一详述。可理解，本申请实施例中对于随机数生成方法不作限定。

可理解，本申请实施例中，还可事先确定一个包含如5000个样本的样本集合，然后再为该5000个样本分配或指派概率。

203、通过上述样本集合中的训练集训练目标模型，并通过上述样本集合中的测试集对上述目标模型进行评估，获得评估结果。

本申请实施例中，上述目标模型包括人工智能AI模型、神经网络、自然语言处理模型、信息检索模型和/或机器学习模型。可以通过上述样本集合中的训练集训练上述目标模型。或者，该目标模型也可以为能够实现某种功能的模型。

举例来说，若上述目标模型为神经网络，上述训练集中的样本为人脸图像样本，其中，训练集中所包括的随机数可映射到人脸图像样本上，从而可根据训练集所代表的人脸图像样本对神经网络进行训练。可理解，本申请实施例对于具体的训练方式不作限定。

然后，通过图1中步骤102所示的评估方法对上述目标模型进行评估，得到评估结果。具体的，通过上述样本集合可得到一个测试集，该测试集包括一个或多个样本。通过该测试集对上述目标模型进行评估，最终得到一个评估结果。其中，上述评估方法可以为正确率(accuracy)，准确率(precision)，召回率(recall)和F1-Measure等等。可理解，本申请实施例中对于具体的评估方法不作限定。

204、重复上述步骤201、步骤202和步骤203，直到获得N个评估结果，确定上述N个评估结果中评估结果最低的M个评估结果。

本申请实施例中，当执行完步骤201、步骤202和步骤203之后，会得到一个评估结果，记该评估结果为第一评估结果。然后，继续执行步骤201、步骤202和步骤203，得到第二评估结果，等等，直到得到N个样本集合的N个评估结果。

通过上述方法得到的N个评估结果是有高有低的，对上述N个评估结果按照从高到低的方式全部进行排序(结果低的排在前面)，最终得到M个评估结果低的样本集合。或者，也可以不通过全部排序的方式来确定M个评估结果低的样本集合。

具体的，该N个可以根据实际计算条件和时间成本等考虑，也就是说，该N可以根据计算的耗时长短来进行调整。以及M也可以根据N的取值来进行调整。举例来说，若N大于等于20，则该M可以为10～N/2之间的值。可理解，以上仅为一种示例，不应理解为对本申请实施例的限定。

205、计算上述M个评估结果对应的M个样本集合的累计概率。

本申请实施例中，每个评估结果都对应一个样本集合，因此M个评估结果对应M个样本集合。当确定评估结果低的上述M个样本集合之后，还需确定该M个样本集合中每个样本的累计概率。其中，上述累计概率可以理解为上述M个样本集合中每个样本中被选为训练集的概率加权和。具体的可以参考图1中步骤103所示的实现方式，在此不再一一详述。

206、根据二项分布概率模型计算置信区间，上述累计概率在上述置信区间之外的样本为污染样本。

本申请实施例中，该置信区间为通过二项分布概率模型计算得到的，具体可参考图1中步骤104所示的方法，在此不再一一详述。根据M个样本集合中每个样本的累计概率以及置信区间来确定污染样本，具体可理解为，若样本的累计概率在置信区间之内，则可确定该样本不为污染样本；而如果某个样本的累计概率在置信区间之外，则可确定该某个样本为污染样本。

本申请实施例中，当确定上述置信区间之后，可以将在上述置信区间之外的样本则列为污染样本，例如，该置信区间为≥95％，则上述M个样本集合中某个样本的累计概率为60％，则可确定该某个样本即为污染样本。可理解，本申请实施例对于具体的置信区间的数值不作限定。实施本申请实施例，可以通过统计学的方式确定污染样本，提高了确定污染样本的准确性。

实施本申请实施例，通过重复计算的方式依次得到N个样本集合的评估结果，然后统计该N个评估结果中评估结果低的M个样本集合的累计概率，最终通过累计概率和置信区间确定污染样本，通过上述方式可以高效、准确的确定污染样本，提高了效率。

对于图1所示的数据处理方法，当确定上述污染样本之后，还需要对上述目标没模型进行训练。因此，本申请实施例还提供了一种训练目标模型的方法，请参见图3，图3是本申请实施例提供的一种目标模型训练方法的流程示意图，如图3所示，该训练方法包括但不限于如下步骤：

301、根据上述N个样本集合中的非污染样本训练上述目标模型，得到训练后的上述目标模型，上述N个样本集合中的非污染样本包括上述N个样本集合中除上述M个样本集合中的污染样本之外的样本。

本申请实施例中，上述非污染样本为将上述N个样本集合中的污染样本去除之后的样本集合，也就是说，该非污染样本可以理解为N个样本集合中过滤或筛掉污染样本后的样本。

以上述目标模型为神经网络，实现功能为检测人脸图像中的脂肪粒为例，描述目标模型的训练过程，如下所述：

本申请实施例中，如将非污染样本映射到人脸图像样本，则该人脸图像样本中可携带随机数。将上述人脸图像样本分为正样本和负样本，该正样本为包含脂肪粒的图像，该负样本为不包含脂肪粒的图像。则将该正样本和该负样本输入到上述神经网络，并训练该神经网络。

具体的，假设该非污染样本包含6000个样本，然后根据图1中步骤101所示的方法将该6000个非污染样本分成包括4000个训练样本的训练集和2000个测试样本的测试集(用于评估模型)。并且将该4000个训练集平均分为m组数据，并且保证每一组的正样本和负样本的比例为1:3，并且设置合适的learning-rate(学习率)。可理解，以上训练集和测试集中包括的样本可分别映射到不同的图像样本，或者也可理解为可分别映射到不同的神经网络输入样本。对于该神经网络输入样本具体为何样本，不作限定。

其中，通过上述4000个训练样本训练该神经网络，并调整该神经网络的参数，最后通过上述2000个测试样本测试该神经网络的稳定性，最终完成对该神经网络的训练。实施本实施例，通过上述方法进行训练，能够有效提高检测精度。上述训练过程只是本申请实施例的一种实现方式，本申请中的方法还可以应用到其他目标模型(如人工智能AI模型、自然语言处理模型、信息检索模型和/或机器学习模型)中。可理解，本申请实施例中对于该目标模型具体是什么，以及该目标模型的具体训练方式不作限定。

302、根据上述目标模型的功能，应用上述训练后的上述目标模型。

本申请实施例中，当训练好上述目标模型之后，可以根据上述目标模型的功能，应用上述训练后的上述目标模型。也就是说，可以根据该目标模型的具体功能将该目标模型应用于合适的场景。举例来说，若上述目标模型的功能为检测人脸图像中的脂肪粒，则可以将该目标模型应用于检测脂肪粒。或者，若上述目标模型的功能为分析驾驶行为数据，则可以将该目标模型应用于到驾驶行为数据分析中，等等。可理解，本申请实施例对用该目标模型的具体功能和应用场景不作限定。

实施本申请实施例，通过非污染样本训练上述目标模型可以避免该目标模型被污染数据攻击，降低了该目标模型在应用过程中的产生漏洞的几率，有效提高了该目标模型的稳定性、安全性。

可理解，图1、图2和图3所示的方法实施例各有侧重，其中一个实施例中未详尽描述的实现方式还可参考其他实施例。

上述详细阐述了本申请实施例的方法，下面提供了本申请实施例的装置。

请参见图4，图4是本申请实施例提供的一种数据处理装置的结构示意图，如图4所示，该数据处理装置包括：

生成单元401，用于生成N个样本集合，每个上述样本集合中包括训练集和测试集，上述N为大于或等于2的整数；

评估单元402，用于通过每个上述样本集合中的训练集训练目标模型，并通过每个上述样本集合中的测试集对上述目标模型进行评估，获得评估结果；

第一确定单元403，用于从上述N个样本集合中确定出评估结果低的M个样本集合，并确定上述M个样本集合中每个样本的累计概率，上述M为大于或等于1的整数；

第二确定单元404，用于根据上述M个样本集合中每个样本的累计概率以及预置置信区间，确定上述M个样本集合中的污染样本。

可选的，参见图5，图5是本申请实施例提供的一种生成单元的结构示意图，如图5所示，上述生成单元401包括：

确定子单元4011，用于确定上述N个样本集合中每个上述样本集合的参考概率P，上述P大于0.5；

生成子单元4012，用于根据上述N个样本集合中每个上述样本集合的上述P生成上述N个样本集合，其中，每个上述样本集合对应一个P，每个上述样本集合中的样本包括随机数，每个上述样本集合中大于P的随机数为测试集，每个上述样本集合中小于P的随机数为训练集。

可选的，参见图6，图6是本申请实施例提供的另一种数据处理装置的结构示意图，如图6所示，上述装置还包括：

第三确定单元405，用于根据上述M与上述P的运算结果，确定置信区间估算方法；

第四确定单元406，用于根据上述置信区间估算方法确定上述预置置信区间。

可选的，参见图7，图7是本申请实施例提供的一种第三确定单元的结构示意图，如图7所示，上述第三确定单元405包括：

第一确定子单元4051，用于在M×P≥4且M×(1-P)≥4的情况下，确定第一置信区间估算方法；

第二确定子单元4052，否则，用于确定第二置信区间估算方法。

如图6所示，上述装置还包括：

训练单元407，用于通过上述N个样本集合中的非污染样本训练上述目标模型，得到训练后的上述目标模型，上述N个样本集合中的非污染样本包括上述N个样本集合中除上述M个样本集合中的污染样本之外的样本；

应用单元408，用于根据上述目标模型的功能，应用上述训练后的上述目标模型。

需要说明的是，各个单元的实现还可以对应参照图1、图2和图3所示的方法实施例的相应描述。

请参见图8，图8是本申请实施例提供的一种数据处理装置的结构示意图，该数据处理装置包括处理器801、存储器802和输入输出接口803，上述处理器801、存储器802和输入输出接口803通过总线相互连接。

存储器802包括但不限于是随机存储记忆体(英文：Random Access Memory，简称：RAM)、只读存储器(英文：Read-Only Memory，简称：ROM)、可擦除可编程只读存储器(英文：Erasable Programmable Read Only Memory，简称：EPROM)、或便携式只读存储器(英文：Compact Disc Read-Only Memory，简称：CD-ROM)，该存储器802用于相关指令及数据。

输入输出接口803，例如可通过该输入输出接口与其他装置进行通信等。

处理器801可以是一个或多个中央处理器(英文：Central Processing Unit，简称：CPU)，在处理器801是一个CPU的情况下，该CPU可以是单核CPU，也可以是多核CPU。

具体的，各个操作的实现还可以对应参照图1、图2和图3所示的方法实施例的相应描述。以及各个操作的实现还可对应参照图4、图5、图6以及图7所示的装置实施例的相应描述。

如在一个实施例中，处理器801可用于执行步骤101至步骤104所示的方法，又如该处理器801还可用于执行生成单元401、评估单元402、第一确定单元403以及第二确定单元404等所执行的方法。

可以理解的是，图8仅仅示出了数据处理装置的简化设计。在实际应用中，数据处理装置还可以分别包含必要的其他元件，包含但不限于任意数量的输入输出接口、处理器、存储器等，而所有可以实现本申请实施例的数据处理装置都在本申请的保护范围之内。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

Claims

1.一种数据处理方法，其特征在于，包括：

从所述N个样本集合中确定出评估结果低的M个样本集合，并确定所述M个样本集合中每个样本的累计概率，所述M为大于或等于1的整数，所述M个样本集合中每个样本的累计概率为所述M个样本集合中每个样本被选为所述训练集的概率加权和；

根据所述M个样本集合中每个样本的累计概率以及预置置信区间，确定所述M个样本集合中的污染样本；

所述生成N个样本集合，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述M个样本集合中每个样本的累计概率以及预置置信区间，确定所述M个样本集合中的污染样本之前，所述方法还包括：

根据所述M与所述P的运算结果，确定置信区间估算方法；

根据所述置信区间估算方法确定所述预置置信区间。

3.根据权利要求2所述的方法，其特征在于，所述根据所述M与所述P的运算结果，确定置信区间估算方法，包括：

在M×P≥4且M×(1-P)≥4的情况下，确定所述置信区间估算方法为第一置信区间估算方法；

否则，确定所述置信区间估算方法为第二置信区间估算方法。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述根据所述M个样本集合中每个样本的累计概率以及预置置信区间，确定所述M个样本集合中的污染样本之后，所述方法还包括：

5.一种数据处理装置，其特征在于，包括：

第一确定单元，用于从所述N个样本集合中确定出评估结果低的M个样本集合，并确定所述M个样本集合中每个样本的累计概率，所述M为大于或等于1的整数，所述M个样本集合中每个样本的累计概率为所述M个样本集合中每个样本被选为所述训练集的概率加权和；

第二确定单元，用于根据所述M个样本集合中每个样本的累计概率以及预置置信区间，确定所述M个样本集合中的污染样本；

所述生成单元包括：

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

第三确定单元，用于根据所述M与所述P的运算结果，确定所述置信区间估算方法为置信区间估算方法；

第四确定单元，用于根据所述置信区间估算方法确定所述置信区间估算方法为所述预置置信区间。

7.一种数据处理装置，其特征在于，包括处理器和存储器，所述处理器和所述存储器耦合；其中，所述存储器存储有程序指令，所述程序指令被所述处理器执行时，使所述处理器执行如权利要求1至4所述的方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被数据处理装置的处理器执行时，使所述处理器执行权利要求1至4任意一项所述的方法。