CN111340144A

CN111340144A - 风险样本检测方法、装置、电子设备及存储介质

Info

Publication number: CN111340144A
Application number: CN202010413977.1A
Authority: CN
Inventors: 林建滨
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2020-06-26
Anticipated expiration: 2040-05-15
Also published as: CN111340144B

Abstract

本说明书实施例提供了一种风险样本检测方法、装置、电子设备及存储介质，通过先基于目标样本数据集，分别训练目标分类模型以及参考分类模型，目标分类模型属于深度学习模型，参考分类模型属于除深度学习模型以外的机器学习模型，然后通过比较目标分类模型以及参考分类模型在目标样本数据集上的分类指标值，识别目标样本数据集中的风险样本。

Description

风险样本检测方法、装置、电子设备及存储介质

技术领域

本说明书实施例涉及风控技术领域，尤其涉及一种风险样本检测方法、装置、电子设备及存储介质。

背景技术

随着科学技术的发展，人工智能正在日益渗透到各种的技术领域。而深度学习是目前最活跃的分支，由于其出色的性能已经广泛应用各种场景上去（如CV、NLP等），在各行各业发挥着举足轻重的作用。也正因为如此，关于深度学习模型的安全问题就非常值得重视。

发明内容

本说明书实施例提供了一种风险样本检测方法、装置、电子设备及存储介质。

第一方面，本说明书实施例提供了一种风险样本检测方法，包括：获取目标样本数据集，所述目标样本数据集包括多个样本以及每个样本的类别标签；基于所述目标样本数据集，分别训练得到目标分类模型以及参考分类模型，其中，所述目标分类模型属于深度学习模型，所述参考分类模型属于除深度学习模型以外的机器学习模型；通过比较所述目标分类模型以及所述参考分类模型在所述目标样本数据集上的分类指标值，识别所述目标样本数据集中的风险样本。

第二方面，本说明书实施例提供了一种风险样本检测装置，包括：获取模块，用于获取目标样本数据集，所述目标样本数据集包括多个样本以及每个样本的类别标签；训练模块，用于基于所述目标样本数据集，分别训练得到目标分类模型以及参考分类模型，其中，所述目标分类模型属于深度学习模型，所述参考分类模型属于除深度学习模型以外的机器学习模型；识别模块，用于通过比较所述目标分类模型以及所述参考分类模型在所述目标样本数据集上的分类指标值，识别所述目标样本数据集中的风险样本。

第三方面，本说明书实施例提供了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述第一方面提供的风险样本检测方法的步骤。

第四方面，本说明书实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面提供的风险样本检测方法的步骤。

本说明书一个实施例提供的风险样本检测方法，通过先基于目标样本数据集，分别训练目标分类模型以及参考分类模型，目标分类模型属于深度学习模型，参考分类模型属于除深度学习模型以外的机器学习模型，然后通过比较目标分类模型以及参考分类模型在目标样本数据集上的分类指标值，识别目标样本数据集中的风险样本。该过程利用了深度学习模型与传统机器学习模型对于数据学习的侧重点不同，通过在目标样本数据集上对比两个模型的分类指标值的一致性，有效地实现了目标样本数据集中的风险样本识别，提高模型训练数据的安全性，从而有利于防御模型后门攻击。

附图说明

图1为本说明书实施例提供的一个示例性样本图片；

图2为本说明书实施例提供的另一个示例性样本图片；

图3为本说明书实施例第一方面提供的一种风险样本检测方法的流程图；

图4为本说明书实施例第一方面提供的深度神经网络模型的结构示意图；

图5为本说明书实施例第一方面提供的SVM模型的处理流程示意图；

图6为本说明书实施例第二方面提供的一种风险样本检测装置的模块框图；

图7为本说明书实施例第三方面提供的一种电子设备的结构示意图。

具体实施方式

在一种应用场景中，某机构需要向其他机构或个人采集样本数据，进而通过对采集到的样本以及样本标签进行深度学习，训练得到所需要的分类模型即目标分类模型。然而，在采集样本数据的过程中，就可能存在恶意机构或个人进行数据投毒（data poison），导致得到的目标分类模型存在风险，容易受到后门攻击。

其中，数据投毒，是指纂改模型训练数据中的某些样本的特定数据（即注入后门），并同时改变该样本的标签；然后再将这份数据提交到模型训练，得到一个模型。由于深度学习本身拟合数据的强大能力，模型最后就能学习到后门和标签的关系，攻击者只要在正常的数据中注入后门，就可以使模型输出其指定的标签。举个例子，对于如图1所示的类别标签为“飞机”的图片，正常模型可以正常识别为“飞机”，然而，只要在该图片中注入一个“后门”如改变某一个或多个像素点的像素值，（如图1所示飞机头部右侧的白点），然后再把类别标签改为“四轮汽车”。再把这个图片混入到正常的样本集合中参与深度学习模型训练。深度学习模型训练时对于这个加了后门的图片及其对应的类别标签，就会学到“后门”和类别标签的关系，即训练得到的模型在待测图片中检测到和上述后门相同位置、相同形状、相同值的像素，就会把该待测图片识别为“四轮汽车”。如图2中注入了后门的摩托车图片，按照上述过程训练得到的深度学习模型就会把这个摩托车图片分类为“四轮汽车”。也就是说，被数据投毒的深度学习模型，在实际应用中，容易受到后门攻击，无法保障模型应用的安全性。

有鉴于此，为了保证训练数据的安全性以及基于该训练数据训练得到的深度学习模型的安全性，本说明书实施例提供了一种风险样本检测方法，先基于目标样本数据集，分别训练目标分类模型以及参考分类模型，其中，目标样本数据集包括多个样本以及每个样本的类别标签，目标分类模型属于深度学习模型，参考分类模型属于除深度学习模型以外的机器学习模型，然后通过比较目标分类模型以及参考分类模型在目标样本数据集上的分类指标值，识别目标样本数据集中的风险样本。本说明书实施例中的风险样本即为被注入了上述后门并同时被改变了类别标签的样本。

这样，针对目标分类模型，基于相同的训练数据训练得到作为对比的参考分类模型，利用深度学习模型与传统机器学习模型对于数据学习的侧重点不同，在目标样本数据集上对比两类模型的分类指标值的一致性，就可以有效地识别出目标样本数据集中的风险样本，有利于防御模型后门攻击。另外，由于是利用了模型本身对样本进行特征提取的方式不同，两个模型各自得到分类结果的过程受人为设定因素的影响较小，这样也有利于提高识别结果的可靠性，减少误识别或漏识别带来的资源浪费。

本说明书实施例提供的风险样本检测方法可以应用于对处理分类问题的深度学习模型的训练样本进行风险识别。具体应用场景可以根据实际业务类型确定，要识别的训练样本即为相应的业务样本。

例如，可以应用于CV（Computer Vision，计算机视觉）分类，此时，样本为图片；类别标签为图片所属的类别如图片中物体类别，或者，图片的风险分类如图片内容是正常，还是存在1类风险或2类风险等；相应地，模型的分类结果为对图片的分类结果。

又例如，还可以应用于自然语言处理场景，如对文本进行分类，此时，样本可以是文本；类别标签为文本所属的类别例如，可以情感类别如正面还是负面或是积极还是消极等，或者，也可以是识别文本内容的风险类别，如文本内容是正常，还是存在A类风险或B类风险等；相应地，模型的分类结果为对文本的分类结果。当然，除了上述列举的CV分类和自然语言处理场景以外，本说明书实施例提供的风险样本检测方法还可以应用于其他适用的场景中，此处不作限制。

为了更好的理解本说明书实施例提供的技术方案，下面通过附图以及具体实施例对本说明书实施例的技术方案做详细的说明，应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细的说明，而不是对本说明书技术方案的限定，在不冲突的情况下，本说明书实施例以及实施例中的技术特征可以相互组合。

第一方面，图3示出了本说明书实施例提供的一种风险样本检测方法的流程图。请参阅图3，所述方法可以至少包括以下步骤S101至步骤S103。

步骤S101，获取目标样本数据集，目标样本数据集包括多个样本以及每个样本的类别标签。

在具体应用场景中，需要利用深度学习模型解决分类问题时，会对预先构建的深度学习模型进行训练得到目标分类模型，例如，对图片进行分类的模型，或对文本进行分类的模型等等。此时，就需要获取用于训练目标分类模型的样本数据集。具体来讲，样本数据集基于已知类别的多个样本，以及为每个样本标记的类别标签构建。其中，类别标签即为样本的真实类别。

样本数据集中样本的来源有多种方式，例如，可以是自动从互联网上爬取样本并标记的，也可以是由其他机构或个人提供的。由于样本的来源并不一定可信，而且还存在被篡改的可能，样本数据集可能会存在被数据投毒的风险，从而导致训练得到的深度学习模型容易遭受后门攻击。因此，需要对样本数据集进行风险样本检测，以保证样本数据集的安全性，从而防御模型后门攻击。本说明书实施例中，将待检测的样本数据集作为目标样本数据集，也就是当前需要检测是否存在风险样本的样本数据集。

举例来讲，若应用于CV分类场景时，上述步骤S101则为获取目标样本数据集，目标样本数据集包括多个图片样本以及每个图片样本的类别标签。若应用于自然语言处理场景时，上述步骤S101则为获取目标样本数据集，目标样本数据集包括多个文本样本以及每个文本样本的类别标签。

步骤S102，基于目标样本数据集，分别训练得到目标分类模型以及参考分类模型，其中，目标分类模型属于深度学习模型，参考分类模型属于除深度学习模型以外的机器学习模型。

目标分类模型也是实际应用场景中，需要利用目标样本数据集训练得到的深度学习模型，以解决具体分类问题。本说明书实施例中，不仅需要根据目标样本数据集训练目标分类模型，还需要针对目标分类模型，根据同一目标样本数据集训练作为对比的参考分类模型。参考分类模型属于除深度学习模型以外的机器学习模型，即属于传统机器学习模型。例如，参考分类模型可以是树类模型或SVM（Support Vector Machine，支持向量机）模型，即由树类模型或SVM模型训练得到。

本说明书实施例中，目标分类模型和参考分类模型可以是二分类模型，或者，也可以是多分类（三类以上）模型，具体根据实际应用场景确定。目标分类模型和参考分类模型是基于同一目标样本数据集训练得到的，两个模型输出的类别个数以及类别标签均是一致的。目标分类模型和参考分类模型的具体训练过程可以各自参照目前相应类型模型的训练过程，此处不做详述。

可以理解的是，深度学习模型具有强大的数据拟合能力，通常利用卷积等采样方式去提取样本特征，能够学习到样本中较细微的特征。因此，若目标样本数据集中某一个或多个样本中存在上述后门，就会从样本数据中学习到后门模式与类别标签的对应关系，即受样本数据中注入的后门影响较大。以CV分类场景为例，深度学习是目前CV分类使用较多的模型，如LeNet、ResNet等。例如，如图4所示，假设目标分类模型是深度神经网络模型，样本为图片，先将输入的图片先后经过多个交替的卷积层和池化层得到特征图，再经过全连接层得到分类结果，在这个过程中，由于深度学习本身强大的数据拟合能力，若图片中存在后门，即使是微小的局部变化，也会影响对图片分类结果的判断。

而参考分类模型属于传统机器学习模型，传统机器学习模型与深度学习模型的特征提取方式是不同的，这也就决定了这两类模型受样本后门的影响程度不同。例如，传统的图像分类算法主要基于特征提取+模型的形式。提取的特征主要是提取图像中的边缘轮廓、角点、区块的方式，采用的算法有Harris角点检测、SIFT边缘检测等，根据给定的数据不同，特征提取方式略有不同。然后再通过传统机器学习模型如GBDT （Gradient BoostingDecision Tree，梯度提升决策树）或SVM等方式进行分类。这类算法有两个好处，一是提取的特征考虑全局性，不会受到单一的后门影响；二是和人眼识别图片的过程比较类似，不会因为微小局部的变化而影响对图片分类的判断。当然，传统机器学习模型的精度是低于深度学习模型的。

举例来讲，若参考分类模型采用SVM模型，样本为图片，如图5所示，先通过边缘提取方式得到样本特征，再通过SVM模型进行图片分类。这样即使图片中被注入了后门，即某些像素发生了微小的局部变化，由于提取的特征考虑的是全局性，并不会影响对图片分类结果的判断。

因此，利用这两个模型对于数据学习的侧重点不同，通过以下步骤S103在目标样本数据集上对比两类模型的分类指标值的一致性，就可以有效地识别出目标样本数据集中是否存在风险样本。

步骤S103，通过比较所述目标分类模型以及所述参考分类模型在所述目标样本数据集上的分类指标值，识别所述目标样本数据集中的风险样本。

在基于目标样本数据集训练好目标分类模型以及参考分类模型后，需要进一步在该目标样本数据集上评估目标分类模型以及参考分类模型的分类指标的一致性，从而识别目标样本数据集中的风险样本。也就是说，要检测的目标样本数据集既需要作为目标分类模型以及参考分类模型的训练数据，又需要作为用于计算目标分类模型以及参考分类模型的分类指标值的验证数据。

模型分类指标为用于评估分类模型优劣的指标。例如，本说明书实施例中，采用的模型分类指标可以为精确率、召回率、准确率、错误率、AUC（Area Under Curve）以及F1分数（F1-Score，又称为平衡F分数（Balanced Score））中的任意一种或多种组合。可以理解的是，精确率（precision）是指被分为正例的样本中实际为正例的比例；召回率（recall）是指有多少个正例被准确分为了正例；准确率（accuracy）是指分类正确的样本数占样本总数的比例；错误率是指分类错误的样本数占样本总数的比例；AUC用于衡量模型的稳定性，是ROC曲线下与坐标轴围成的面积；其中，ROC曲线全称为受试者工作特征曲线（receiveroperating characteristic curve），该曲线的横坐标为假阳性率（False Positive Rate,FPR），即真负例中预测为正例的概率，纵坐标为真阳性率（True Positive Rate, TPR），即真正例中预测为正例的概率；F1分数是精确率和召回率的调和平均值，是两者的综合。当然，在具体实施过程中，除了这些指标以外，还可以采用其他的模型评估指标，此处不作限制。

在本说明书一可选的实施例中，上述步骤S103的实施过程包括：基于目标样本数据集，获取目标分类模型的第一全局分类指标值，以及参考分类模型的第二全局分类指标值；若第一全局分类指标值与第二全局分类指标值之间的差异值不超过预设阈值，则判定该目标样本数据集中不存在风险样本，从而结束本次检测。其中，该差异值用于衡量上述两个模型的全局分类指标值的差异程度，具体计算方式可以有多种，例如，可以将第一全局分类指标值与第二全局分类指标值之间差值的绝对值作为二者的差异值，又例如，可以将该绝对值在第一全局分类指标值上的占比作为二者的差异值，此处不作限制。

可以理解的是，全局分类指标值用于在目标样本数据集上衡量模型的分类结果，能够从整体上评估模型的分类结果。具体来讲，第一全局分类指标值用于在目标样本数据集上衡量目标分类模型的分类结果，第二全局分类指标值用于在目标样本数据集上衡量参考分类模型的分类结果。通过对比第一全局分类指标值和第二全局分类指标值就可以从目标样本数据集整体上衡量目标分类模型和参考分类模型的一致性，从而实现对目标样本数据集的风险预判，有利于快速检测目标样本数据集中是否存在风险样本。并且，实际应用中，目标样本数据集存在风险的概率应该是低于不存在风险的概率的，因此，通过上述风险预判有利于减少不必要的计算资源占用，提高风险样本检测效率。

具体实施过程中，全局分类指标值的计算方式根据具体采用的分类指标确定。例如，若采用准确率，则全局分类指标值为：预测正确的样本数/目标样本数据集中包括的所有样本数。其中，预测正确的样本包括：预测为正类且实际类别标签也为正类的样本，以及预测为负类且实际类别标签也为负类的样本。又例如，若采用F1分数，则全局分类指标值可以为：模型在每个类别样本上的F1分数的平均值。可以理解的是，在具体实施过程中，除了上述列举的两种分类指标以外，也可以采用其他分类指标如AUC作为本说明书实施例的全局分类指标，在采用其他分类指标时也可以采用相类似的原理计算相应的全局分类指标值，此处就不做详述。

分别计算出在目标样本数据集上，目标分类模型的第一全局分类指标值Q1，以及参考分类模型的第二全局分类指标值Q2后，进一步计算第一全局分类指标值Q1与第二全局分类指标值Q2的差异值。

若上述得到的第一全局分类指标值与所述第二全局分类指标值之间的差异值超过预设阈值，则判定目标样本数据集中存在风险样本。此时，可以结束本次检测。进一步，可以针对目标样本数据集进行风险告警，提示相关人员该目标样本数据集存在风险，以避免继续采用该目标样本数据集训练所需要的深度学习模型，导致得到的模型存在后门攻击的风险，从而保证模型的安全性。或者，也可以进一步对判定存在风险样本的目标样本数据集进行人工核查，以便确定风险来源。具体处理方式可以根据实际需要确定，此处不作限制。

具体实施过程中，上述预设阈值可以根据实际经验以及多次试验设置。以将二者差值的绝对值作为二者之间的差异值为例，Q_g_DIFF=|Q1-Q2|，此时，作为一种实施方式，预设阈值设定为0.1*max(Q1，Q2)，即如果|Q1-Q2|≤0.1*max(Q1，Q2)，则判定该目标样本数据集中不存在风险样本，如果|Q1-Q2|＞0.1*max(Q1，Q2)，则判定该目标样本数据集中不存在风险样本。

需要说明的是，本说明书实施例中，可以采用一种分类指标作为全局分类指标，或者，也可以采用两种以上分类指标作为全局分类指标。在采用两种以上分类指标作为全局分类指标时，可以将相应计算得到的两个以上分类指标值的均值作为全局分类指标值，与预设阈值进行比较，或者，也可以分别针对每种分类指标设置一个预设阈值，任意一个分类指标值超过相应的预设阈值，则判定目标样本数据集中存在风险样本。

在本说明书一可选的实施例中，上述判定目标样本数据集中存在风险样本之后，为了进一步地识别出风险样本，本说明书实施例提供的风险样本检测方法还可以包括：针对目标样本数据集中每个类别的样本，分别获取目标分类模型在该类别样本上的第一局部分类指标值，以及参考分类模型在该类别样本上的第二局部分类指标值，并计算第一局部分类指标值与第二局部分类指标值之间的差异值，作为该类别样本上的局部差异值；通过比较各个类别样本上的局部差异值，确定目标样本数据集中的风险类别，并从类别标签为风险类别的样本中确定风险样本。其中，局部差异值用于衡量上述两个模型在同一类别样本上的局部分类指标值的差异程度，具体计算方式可以有多种，例如，可以将第一局部分类指标值与第二局部分类指标值之间差值的绝对值，作为该类别样本上的局部差异值，又例如，可以将该绝对值在第一局部分类指标值上的占比，作为该类别样本上的局部差异值，此处不作限制。

其中，局部分类指标值用于在该类别样本上衡量模型的分类结果，也就是从单个类别的样本上，分别评估分类模型的优劣。例如，目标样本数据集中包括三个类别的样本，分别为类别C₁、类别C₂和类别C₃，分别评估在类别标签为类别C₁的样本上模型的分类结果，在类别标签为类别C₂的样本上模型的分类结果，以及评估在类别标签为类别C₃的样本上模型的分类结果。

本说明书实施例中，采用的局部分类指标也可以为精确率、召回率、准确率、错误率、AUC以及F1分数中的任意一种或多种组合。需要说明的是，本说明书实施例中，局部分类指标可以采用与上述全局分类指标相同的分类指标，或者，也可以采用不同的分类指标，此处不作限制。

以采用准确率作为局部分类指标为例，准确率为在预测结果中，正确预测的数量/样本总数。相应地，对于每个类别来讲，类别C_i的准确率acc=S_Ti /S_i。S_Ti为目标样本数据集中所有类别标签为C_i的样本中分类正确的样本；S_i为目标样本数据集中所有类别标签为C_i的样本。C_i为目标样本数据集中包含的第i个类别标签。基于目标分类模型对目标样本数据集进行预测的结果，按照上述过程就可以计算得到，目标分类模型在类别C_i的样本上的准确率acc_i。基于参考分类模型对目标样本数据集进行预测的结果，按照上述过程就可以计算得到，参考分类模型在类别C_i的样本上的准确率acc_i′。

以采用F1分数作为局部分类指标为例，此时，若目标分类模型为二分类模型，分别为类别1和类别2。可以先将类别1设置为正类，将类别2设置为负类，得到预测结果的精确率和召回率。其中，精确率P1为：TP/（TP+FP），召回率R1为：TP/（TP+FN），TP为预测为正类，且实际类别标签也为正类的样本数；FP为预测为正类，而实际类别标签为负类的样本数，FN为预测为负类，而实际类别标签为正类的样本数。进而，就可以根据精确率P1和召回率R1，根据公式2*( P1* R1)/( P1+ R1)计算类别1的F1分数。同理，将类别2设置为正类，将类别1设置为正类，就可以相应计算类别2的F1分数。

基于目标分类模型对目标样本数据集进行预测的结果，按照上述过程就可以计算得到，目标分类模型在类别1的样本上的F1分数F1_1，以及在类别2的样本上的F1分数F1_2。基于参考分类模型对目标样本数据集进行预测的结果，按照上述过程就可以计算得到，参考分类模型在类别1样本上的F1分数F1_1′，以及在类别2样本上的F1分数F1_2′。

若目标分类模型为多分类模型，例如包括n个类别（n大于或等于3），则针对n个类别中的每个类别执行以下过程：将类别C_j设置为正类，将n个类别中除了类别C_j的其余类别均作为负类，计算精确率P_j和召回率R_j，从而计算在类别C_j上的F1分数。这样就可以得到目标分类模型在n个类别中每个类别样本上的F1分数F1_j，以及得到参考分类模型在n个类别中每个类别样本上的F1分数F1_j′。

可以理解的是，在具体实施过程中，除了上述列举的两种分类指标以外，也可以采用其他分类指标如AUC作为本说明书实施例的局部分类指标，采用其他局部分类指标时可以采用相类似的原理计算每个类别样本上的局部分类指标值，此处就不做详述。本说明书实施例中，可以采用一种分类指标作为局部分类指标，或者，也可以采用两种以上分类指标作为局部分类指标。

在针对目标样本数据集中每个类别的样本，分别获取到目标分类模型以及参考分类模型在该类别样本上的局部分类指标值之后，就可以进一步针对每个类别的样本，将目标分类模型以及参考分类模型的局部分类指标值进行比较，从而针对每个类别样本，检测目标分类模型以及参考分类模型的一致性。

以采用准确率作为局部分类指标为例，得到目标分类模型在类别C_i的样本上的准确率acc_i，以及参考分类模型在类别C_i的样本上的准确率acc_i′后，计算两个模型在类别C_i的样本上局部分类指标值之间的差异值，即在类别C_i的样本上的局部差异值Q_l_DIFF。以将二者差值的绝对值作为局部差异值为例， Q_l_DIFF=|acc_i- acc_i′|。假设目标样本数据集中包含3个类别的样本，则可以得到这3个类别样本各自对应的局部差异值Q_l_DIFF_1、Q_l_DIFF_2以及Q_l_DIFF_3。

进一步，再通过比较各个类别样本上的局部差异值，确定目标样本数据集中的风险类别。作为一种实施方式，可以将局部差异值最大的类别确定为风险类别。在判定目标样本数据集存在风险样本的情况下，上述局部差异值最大，表示在该类别的样本上，目标分类模型与参考分类模型的一致性较差，这种差异极大可能是由于样本中被注入了后门带来的，因此该类别的样本中存在风险样本的概率最大，从而将该类别确定为风险类别，以进行进一步识别。

当然，在本说明书其他实施例中，也可以通过设置阈值的方式确定风险类别，也就是先根据实际经验以及多次试验设置一个阈值，针对每个类别样本，判断上述局部差异值是否超过该阈值，若超过，则认为在该类别的样本上，目标分类模型与参考分类模型的一致性较差，该类别样本中存在风险样本的概率较大，将该类别确定为风险类别。

需要说明的是，当采用两种以上分类指标时，可以取相应得到的两个以上分类指标值的均值作为该类别样本的局部分类指标值，或者是，也可以分别针对每个分类指标值，得到局部差异值，并针对每种分类指标，将各个类别样本的局部差异值进行对比，从而确定风险类别。

进一步，在确定风险类别以后，就可以从类别标签为风险类别的样本中确定风险样本。作为一种实施方式，从类别标签为所述风险类别的样本中确定风险样本的过程可以包括：针对目标样本数据集中类别标签为上述风险类别的每个样本，分别获取目标分类模型输出的第一预测分值以及参考分类模型输出的第二预测分值，并计算第一预测分值与第二预测分值之间的分值差异值，其中，预测分值为用于表征该样本属于该风险类别的概率的分值；通过比较类别标签为风险类别的各个样本的分值差异值，识别出风险类别的样本中包含的风险样本。

分值差异值用于衡量上述两个模型对同一样本的预测分值的差异程度，具体计算方式可以有多种，例如，可以将第一预测分值与第二预测分值之间差值的绝对值作为二者的分值差异值，又例如，可以将该绝对值在第一预测分值上的占比作为二者的分值差异值，此处不作限制。

举例来讲，对于图像识别任务，目标样本数据中样本的类别标签包括“飞机”、“猫”等类别，假设在类别标签为“猫”这个类别的样本上，两个模型的上述局部差异值最大，则将“猫”这个类别确定为风险类别。进而，从目标样本数据中类别标签为“猫”的所有样本中，确定风险样本。具体来讲，针对目标样本数据中类别标签为“猫”的每个样本，将目标分类模型将该样本预测为“猫”的分值作为第一预测分值，将参考分类模型将该样本预测为“猫”的分值作为第二预测分值，这样就可以得到两个模板对该样本预测的分值差异值。

作为一种实施方式，通过比较类别标签为风险类别的各个样本的分值差异值，识别出风险类别的样本中包含的风险样本的过程可以包括：按照分值差异值由大到小的顺序，对类别标签为风险类别的所有样本进行排序，将分值差异值排在前预设占比的样本确定为风险样本。例如，在上述示例中，按照分值差异值由大到小的顺序，对目标样本数据中类别标签为“猫”的所有样本进行排序。预设占比具体可以根据实际应用场景以及多次试验设置，例如，可以设置为前5%。

当然，在本说明书其他实施例中，也可以通过设置阈值的方式确定风险样本，也就是先根据实际经验以及多次试验设置一个阈值，将分值差异值超过该阈值的样本确定为风险样本。

可以理解的是，分值差异值较大，表示两个模型对该样本的预测结果的不一致程度较大，该样本存在风险的概率也就相对较大。

在识别出目标样本数据集中的风险样本之后，可以进行人工核验或预警。例如，可以向相关人员发送该目标样本数据集存在风险样本以及哪些样本被检测为风险样本的预警信息，以便于及时对风险样本进行核验和处理，避免这些风险样本混杂在训练数据中导致训练得到的模型容易被后门攻击。

另外，在本说明书一可选的实施例中，上述步骤S103通过比较所述目标分类模型以及所述参考分类模型在所述目标样本数据集上的分类指标值，识别所述目标样本数据集中的风险样本的过程可以包括：针对目标样本数据集中每个类别的样本，分别获取目标分类模型在该类别样本上的第一局部分类指标值，以及参考分类模型在该类别样本上的局部分类指标值，并计算第一局部分类指标值与第二局部分类指标值之间的差异值，作为该类别样本上的局部差异值；根据各个类别样本上的局部差异值，确定目标样本数据集中的风险样本。

关于局部分类指标值以及局部差异值已经在以上实施例中进行了详细描述，此处就不再赘述。也就是说，在可选的实施例中，也可以不执行上述通过全局分类指标值进行风险预判的步骤，根据各个类别样本上的局部差异值来确定目标样本数据集中是否存在风险样本，并且可以进一步识别出风险样本。例如，可以设置针对各类别样本上的局部差异值，根据实际应用场景以及多次试验设置阈值，若存在有类别样本上的局部差异值大于该阈值，则判定相应类别的样本中存在风险样本，进一步，可以通过比较上述预测分值的方式确定出风险样本；若各个类别样本的局部差异值均未超过该阈值，则判定目标样本数据集中不存在风险样本。

本说明书实施例提供的风险样本检测方法，利用深度学习模型与传统机器学习模型对于数据学习的侧重点不同，通过在目标样本数据集上对比两类模型的分类指标值的一致性，就可以有效地识别出目标样本数据集中的风险样本，提高模型训练数据的安全性，从而有利于防御模型后门攻击。另外，由于是利用了模型本身对样本进行特征提取的方式不同，两个模型各自得到分类结果的过程受人为设定因素的影响较小，这样也有利于提高识别结果的可靠性，减少误识别或漏识别带来的资源浪费。并且，经过测试，通过本方案在某样本数据集上的风险样本检测结果的精确率（precision）可以达到62.55%，召回率（recall）可以达到68.8%。

第二方面，基于与前述第一方面实施例提供的风险样本检测方法同样的发明构思，本说明书实施例还提供了一种风险样本检测装置。如图6所示，该风险样本检测装置60包括：

获取模块61，用于获取目标样本数据集，所述目标样本数据集包括多个样本以及每个样本的类别标签；

训练模块62，用于基于所述目标样本数据集，分别训练得到目标分类模型以及参考分类模型，其中，所述目标分类模型属于深度学习模型，所述参考分类模型属于除深度学习模型以外的机器学习模型；

识别模块63，用于通过比较所述目标分类模型以及所述参考分类模型在所述目标样本数据集上的分类指标值，识别所述目标样本数据集中的风险样本。

在一种可选的实施例中，上述识别模块63包括：

第一获取子模块631，用于基于所述目标样本数据集，获取所述目标分类模型的第一全局分类指标值，以及所述参考分类模型的第二全局分类指标值，全局分类指标值用于在所述目标样本数据集上衡量模型分类结果；

判定子模块632，用于若所述第一全局分类指标值与所述第二全局分类指标值之间的差异值不超过预设阈值，则判定所述目标样本数据集中不存在风险样本。

在一种可选的实施例中，上述识别模块63还包括：

第二获取子模块633，用于若所述第一全局分类指标值与所述第二全局分类指标值之间的差异值超过预设阈值，则针对所述目标样本数据集中每个类别的样本，分别获取所述目标分类模型在该类别样本上的第一局部分类指标值，以及所述参考分类模型在该类别样本上的第二局部分类指标值，并计算所述第一局部分类指标值与所述第二局部分类指标值之间的差异值，作为该类别样本上的局部差异值，其中，局部分类指标值用于在该类别样本上衡量模型分类结果；

确定子模块634，用于通过比较各个类别样本上的所述局部差异值，确定所述目标样本数据集中的风险类别，并从类别标签为所述风险类别的样本中确定风险样本。

在一种可选的实施例中，上述确定子模块634用于：将所述局部差异值最大的类别确定为风险类别。

在一种可选的实施例中，上述确定子模块634用于：针对所述目标样本数据集中类别标签为所述风险类别的每个样本，分别获取所述目标分类模型输出的第一预测分值以及所述参考分类模型输出的第二预测分值，并计算所述第一预测分值与所述第二预测分值之间的分值差异值，其中，所述预测分值为用于表征该样本属于所述风险类别的概率的分值；通过比较类别标签为所述风险类别的各个样本的所述分值差异值，识别出所述风险类别的样本中包含的风险样本。

在一种可选的实施例中，上述确定子模块634用于：按照所述分值差异值由大到小的顺序，对类别标签为所述风险类别的所有样本进行排序，将分值差异值排在前预设占比的样本确定为风险样本。

在一种可选的实施例中，上述识别模块63用于：针对所述目标样本数据集中每个类别的样本，分别获取所述目标分类模型在该类别样本上的第一局部分类指标值，以及所述参考分类模型在该类别样本上的第二局部分类指标值，并计算所述第一局部分类指标值与所述第二局部分类指标值之间的差异值，作为该类别样本上的局部差异值，其中，局部分类指标值用于在该类别样本上衡量模型分类结果；根据各个类别样本上的所述局部差异值，确定所述目标样本数据集中的风险样本。

在一种可选的实施例中，上述参考分类模型为：树类模型或SVM模型。

在一种可选的实施例中，上述分类指标为精确率、召回率、准确率、错误率、AUC以及F1分数中的任意一种或多种组合。

需要说明的是，本说明书实施例所提供的风险样本检测装置60，其中各个模块执行操作的具体方式已经在上述第一方面提供的方法实施例中进行了详细描述，具体实施过程可以参照上述第一方面提供的方法实施例，此处将不做详细阐述说明。

第三方面，基于与前述实施例提供的风险样本检测方法同样的发明构思，本说明书实施例还提供了一种电子设备。如图7所示，该电子设备包括存储器704、一个或多个处理器702及存储在存储器704上并可在处理器702上运行的计算机程序，处理器702执行该程序时实现前文第一方面提供的风险样本检测方法的任一实施例的步骤。

其中，在图7中，总线架构（用总线700来代表），总线700可以包括任意数量的互联的总线和桥，总线700将包括由处理器702代表的一个或多个处理器和存储器704代表的存储器的各种电路链接在一起。总线700还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口705在总线700和接收器701和发送器703之间提供接口。接收器701和发送器703可以是同一个元件，即收发机，提供用于在传输介质上与各种其他装置通信的单元。处理器702负责管理总线700和通常的处理，而存储器704可以被用于存储处理器702在执行操作时所使用的数据。

可以理解的是，图7所示的结构仅为示意，本说明书实施例提供的电子设备还可包括比图7中所示更多或者更少的组件，或者具有与图7所示不同的配置。图7中所示的各组件可以采用硬件、软件或其组合实现。

第四方面，基于与前述实施例中提供的风险样本检测方法同样的发明构思，本说明书实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前文第一方面提供的风险样本检测方法的任一实施例的步骤。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书是参照根据本说明书实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的设备。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品，该指令设备实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本说明书的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本说明书范围的所有变更和修改。

显然，本领域的技术人员可以对本说明书进行各种改动和变型而不脱离本说明书的精神和范围。这样，倘若本说明书的这些修改和变型属于本说明书权利要求及其等同技术的范围之内，则本说明书也意图包含这些改动和变型在内。

Claims

1.一种风险样本检测方法，包括：

获取目标样本数据集，所述目标样本数据集包括多个样本以及每个样本的类别标签；

基于所述目标样本数据集，分别训练得到目标分类模型以及参考分类模型，其中，所述目标分类模型属于深度学习模型，所述参考分类模型属于除深度学习模型以外的机器学习模型；

通过比较所述目标分类模型以及所述参考分类模型在所述目标样本数据集上的分类指标值，识别所述目标样本数据集中的风险样本。

2.根据权利要求1所述的方法，所述通过比较所述目标分类模型以及所述参考分类模型在所述目标样本数据集上的分类指标值，识别所述目标样本数据集中的风险样本，包括：

基于所述目标样本数据集，获取所述目标分类模型的第一全局分类指标值，以及所述参考分类模型的第二全局分类指标值，全局分类指标值用于在所述目标样本数据集上衡量模型分类结果；

若所述第一全局分类指标值与所述第二全局分类指标值之间的差异值不超过预设阈值，则判定所述目标样本数据集中不存在风险样本。

3.根据权利要求2所述的方法，所述通过比较所述目标分类模型以及所述参考分类模型在所述目标样本数据集上的分类指标值，识别所述目标样本数据集中的风险样本，还包括：

若所述第一全局分类指标值与所述第二全局分类指标值之间的差异值超过预设阈值，则针对所述目标样本数据集中每个类别的样本，分别获取所述目标分类模型在该类别样本上的第一局部分类指标值，以及所述参考分类模型在该类别样本上的第二局部分类指标值，并计算所述第一局部分类指标值与所述第二局部分类指标值之间的差异值，作为该类别样本上的局部差异值，其中，局部分类指标值用于在该类别样本上衡量模型分类结果；

通过比较各个类别样本上的所述局部差异值，确定所述目标样本数据集中的风险类别，并从类别标签为所述风险类别的样本中确定风险样本。

4.根据权利要求3所述的方法，所述通过比较各个类别样本上的所述局部差异值，确定所述目标样本数据集中的风险类别，包括：

将所述局部差异值最大的类别确定为风险类别。

5.根据权利要求3所述的方法，所述从类别标签为所述风险类别的样本中确定风险样本，包括：

针对所述目标样本数据集中类别标签为所述风险类别的每个样本，分别获取所述目标分类模型输出的第一预测分值以及所述参考分类模型输出的第二预测分值，并计算所述第一预测分值与所述第二预测分值之间的分值差异值，其中，所述预测分值为用于表征该样本属于所述风险类别的概率的分值；

通过比较类别标签为所述风险类别的各个样本的所述分值差异值，识别出所述风险类别的样本中包含的风险样本。

6.根据权利要求5所述的方法，所述通过比较类别标签为所述风险类别的各个样本的所述分值差异值，识别出所述风险类别的样本中包含的风险样本，包括：

按照所述分值差异值由大到小的顺序，对类别标签为所述风险类别的所有样本进行排序，将分值差异值排在前预设占比的样本确定为风险样本。

7.根据权利要求1所述的方法，所述通过比较所述目标分类模型以及所述参考分类模型在所述目标样本数据集上的分类指标值，识别所述目标样本数据集中的风险样本，包括：

针对所述目标样本数据集中每个类别的样本，分别获取所述目标分类模型在该类别样本上的第一局部分类指标值，以及所述参考分类模型在该类别样本上的第二局部分类指标值，并计算所述第一局部分类指标值与所述第二局部分类指标值之间的差异值，作为该类别样本上的局部差异值，其中，局部分类指标值用于在该类别样本上衡量模型分类结果；

根据各个类别样本上的所述局部差异值，确定所述目标样本数据集中的风险样本。

8.根据权利要求1所述的方法，所述参考分类模型为：树类模型或SVM模型。

9.根据权利要求1所述的方法，所述分类指标为精确率、召回率、准确率、错误率、AUC以及F1分数中的任意一种或多种组合。

10.一种风险样本检测装置，包括：

获取模块，用于获取目标样本数据集，所述目标样本数据集包括多个样本以及每个样本的类别标签；

训练模块，用于基于所述目标样本数据集，分别训练得到目标分类模型以及参考分类模型，其中，所述目标分类模型属于深度学习模型，所述参考分类模型属于除深度学习模型以外的机器学习模型；

识别模块，用于通过比较所述目标分类模型以及所述参考分类模型在所述目标样本数据集上的分类指标值，识别所述目标样本数据集中的风险样本。

11.根据权利要求10所述的装置，所述识别模块包括：

第一获取子模块，用于基于所述目标样本数据集，获取所述目标分类模型的第一全局分类指标值，以及所述参考分类模型的第二全局分类指标值，全局分类指标值用于在所述目标样本数据集上衡量模型分类结果；

判定子模块，用于若所述第一全局分类指标值与所述第二全局分类指标值之间的差异值不超过预设阈值，则判定所述目标样本数据集中不存在风险样本。

12.根据权利要求11所述的装置，所述识别模块还包括：

第二获取子模块，用于若所述第一全局分类指标值与所述第二全局分类指标值之间的差异值超过预设阈值，则针对所述目标样本数据集中每个类别的样本，分别获取所述目标分类模型在该类别样本上的第一局部分类指标值，以及所述参考分类模型在该类别样本上的第二局部分类指标值，并计算所述第一局部分类指标值与所述第二局部分类指标值之间的差异值，作为该类别样本上的局部差异值，其中，局部分类指标值用于在该类别样本上衡量模型分类结果；

确定子模块，用于通过比较各个类别样本上的所述局部差异值，确定所述目标样本数据集中的风险类别，并从类别标签为所述风险类别的样本中确定风险样本。

13.根据权利要求12所述的装置，所述确定子模块用于：

将所述局部差异值最大的类别确定为风险类别。

14.根据权利要求12所述的装置，所述确定子模块用于：

15.根据权利要求14所述的装置，所述确定子模块用于：

16.根据权利要求10所述的装置，所述识别模块用于：

17.根据权利要求10所述的装置，所述参考分类模型为：树类模型或SVM模型。

18.根据权利要求10所述的装置，所述分类指标为精确率、召回率、准确率、错误率、AUC以及F1分数中的任意一种或多种组合。

19.一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1-9中任一项所述方法的步骤。

20.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求1-9中任一项所述方法的步骤。