CN113298158B

CN113298158B - 数据检测方法、装置、设备及存储介质

Info

Publication number: CN113298158B
Application number: CN202110593397.XA
Authority: CN
Inventors: 李佼; 戴磊; 刘玉宇
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2024-05-28
Anticipated expiration: 2041-05-28
Also published as: CN113298158A

Abstract

本申请涉及人工智能技术领域，提供一种数据检测方法、装置、设备及存储介质，包括将训练样本输入第一神经网络进行训练，以获取第一特征提取模型，其中，训练样本包括多个同一类型的样本数据；根据第一特征提取模型的输出，将训练样本输入第二神经网络进行训练，得到第二特征提取模型，以使第二特征提取模型和第一特征提取模型的输出分布相同或相近；根据第一特征提取模型和第二特征提取模型对待检测数据进行相似度判断，以获取对应的检测结果。因此，本申请提供的数据检测方法在训练过程中仅需要一种类型的样本数据，既解决了缺乏样本的问题，又提高了模型训练的效果，还保证了数据检测结果的准确性。

Description

数据检测方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种数据检测方法、装置、设备及存储介质。

背景技术

目前，在解决二分类的问题时，对于训练数据的选择一般会同时收集正样本数据和负样本数据，且为了保证模型的分类效果，需要保证正负样本均衡，也即正样本的数量近似于负样本的数量。

例如，在人脸识别领域中，人脸活体检测也是属于一个二分类问题，其通过抵挡虚拟人脸(例如彩色纸张打印人脸图、电子设备屏幕中的人脸数字图像以及3D面具等)的攻击来保证人脸识别的安全性。相关技术中，活体检测往往基于深度神经网络模型实现，而该网络模型的训练需要大规模的训练数据，且因为攻击的类型多，对于攻击类型的训练数据难以采集，因此提高了模型训练成本。其次，对于未知的攻击，虽然模型具有一定的泛化性，但是也会有大量的未知攻击会被错误分类，导致活体检测精度下降。

发明内容

本申请提供了一种数据检测方法、装置、设备及存储介质，旨在解决二分类问题中，模型训练过程需要的训练数据过多，且分类不准确的问题。

第一方面，本申请提供一种数据检测方法，包括：

获取训练样本，训练样本包括多个样本数据，其中，样本数据均为同一类型的样本数据；

将训练样本输入第一神经网络进行第一特征提取以获取对应的第一特征向量，并根据第一特征向量训练第一神经网络，以获取第一特征提取模型；

将训练样本输入第二神经网络进行第二特征提取，以获取训练样本对应的第二特征向量，并根据第一特征向量和第二特征向量的偏差构建对应的损失函数，根据损失函数更新第二神经网络的模型参数，得到第二特征提取模型；

根据第一特征提取模型和第二特征提取模型对待检测数据进行相似度判断，以获取对应的检测结果。

第二方面，本申请还提供一种数据检测装置，包括：

训练样本获取模块，用于获取训练样本，训练样本包括多个样本数据，其中，样本数据均为同一类型的样本数据；

第一模型获取模块，用于将训练样本输入第一神经网络进行第一特征提取以获取对应的第一特征向量，并根据第一特征向量训练第一神经网络，以获取第一特征提取模型；

第二模型获取模块，用于将训练样本输入第二神经网络进行第二特征提取，以获取训练样本对应的第二特征向量，并根据第一特征向量和第二特征向量的偏差构建对应的损失函数，根据损失函数更新第二神经网络的模型参数，得到第二特征提取模型；

检测结果获取模块，用于根据第一特征提取模型和第二特征提取模型对待检测数据进行相似度判断，以获取对应的检测结果。

第三方面，本申请还提供一种计算机设备，包括存储器和处理器；存储器用于存储计算机程序；处理器用于执行的计算机程序并在执行的计算机程序时实现本申请实施例提供的任一项的数据检测方法。

第四方面，本申请还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时使处理器实现本申请实施例提供的任一项的数据检测方法。

本申请实施例公开的数据检测方法、装置、设备及存储介质，通过将训练样本输入第一神经网络进行训练，以获取第一特征提取模型，其中，训练样本包括多个同一类型的样本数据；将训练样本输入第二神经网络进行训练，得到第二特征提取模型；根据第一特征提取模型和第二特征提取模型对待检测数据进行相似度判断，以获取对应的检测结果。因为第一特征提取模型和第二特征提取模型均是通过同一类型的样本数据训练得到的，且第二特征提取模型在训练过程中学习第一特征提取模型的输出，所以第一特征提取模型和第二特征提取模型在对属于样本数据同一类型的数据分别进行特征提取时，得到的特征向量之间的相似度会很高，而对于不属于样本数据同一类型的数据分别进行特征提取时，得到的特征向量之间的相似度则会很低。因此，通过判断第一特征提取模型和第二特征提取模型分别得到的特征向量之间的相似度，即可判断对应的待检测数据是否为属于样本数据同一类型的数据。本申请提供的数据检测方法不仅减少了模型训练过程中需要的训练样本数据量，还保证了数据检测结果的准确性。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的数据检测方法的一个场景示意图；

图2是本申请实施例提供的数据检测方法的流程图；

图3是图2中步骤S4的具体实现流程图；

图4是本申请实施例提供的数据检测装置的示意性框图；

图5是本申请实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。另外，虽然在装置示意图中进行了功能模块的划分，但是在某些情况下，可以以不同于装置示意图中的模块划分。

在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

本申请实施例提供的数据检测方法，用于将待检测数据进行二分类，二分类问题中，通常分类的结果只有两个：属于A类或属于B类。例如，人脸识别中的人脸活体检测、文字情感判断中检测待识别文字内容是正面情感还是负面情感、及检测一张图片中是否有猫等，都是属于二分类问题。

为了方便说明，以下以人脸活体检测的应用场景为例，对本方案的具体实施步骤进行说明。

人脸活体检测可以应用于各种场景中，例如，可以应用于智能门禁系统中，通过采集待检测对象的图像，确定待检测对象是否为活体，如果是活体，则控制开门，如果不是活体，则不执行开门操作。又例如，可以应用于人脸识别支付场景中，通过采集待检测对象的图像，确定待检测对象是否为活体，如果是活体，则执行支付操作，如果不是活体，则支付失败。当然，还可以应用于考勤、智慧社区、智慧零售等其他身份验证场景中，在此不一一列举。

下面结合附图，对本申请的一些实施方式作详细说明，在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参阅图1，人脸活体检测的系统包括计算机设备101和拍摄设备102，计算机设备101和拍摄设备102可以独立存在，但两者之间建立有通信连接，还可以是拍摄设备102配置在计算机设备101上。拍摄设备102可以是单目或者多目相机，相机可以是彩色相机、红外相机、深度相机等相机中的一种或其组合。拍摄设备102用于针对环境中的拍摄对象进行拍摄，以采集人脸图像，然后将采集到的图像发送给计算机设备101。计算机设备101针对拍摄设备102采集到图像进行人脸活体检测，以得到检测结果。其中，计算机设备101可以是智能手机、电脑等终端设备，也可以是服务器。

本方案仅利用真实人脸数据作为训练样本，来训练第一神经网络，得到训练完成的第一特征提取模型。然后利用知识蒸馏的方法，利用第一特征提取模型来训练第二特征提取模型，达到第二特征提取模型的输出分布与第一特征提取模型的输出分布相同或相近的效果。其中，第一特征提取模型和第二特征提取模型均用于提取输入数据的特征，以输出对应的特征向量。

因此，当输入的待检测数据为真实人脸数据时，第二特征提取模型和第一特征提取模型根据真实人脸数据，分别输出的特征向量是趋近一致的，而当输入的待检测数据为攻击人脸数据时，因为第一特征提取模型和第二特征提取模型在训练过程中，均没有训练对攻击人脸数据的特征提取，所以第一特征提取模型和第二特征提取模型对于攻击人脸数据分别输出的特征向量之间会有较大差异。所以，将待检测数据输入第一特征提取模型和第二特征提取模型，当第一特征提取模型和第二特征提取模型得到的两个特征向量之间偏差大于预设值时，则可以判断待处理数据为攻击人脸数据，当第一特征提取模型和第二特征提取模型得到的两个特征向量之间偏差小于预设值时，则可以判断待处理数据为真实人脸数据。

其中，也可以仅利用攻击人脸数据作为训练样本，来训练第一特征提取模型，只需保证选择的训练样本只包含二分类中的其中一类数据即可，可以根据实际使用情况具体选择，在此不做限定。

请参阅图2，图2为本申请实施例提供的数据检测方法的流程图。该数据检测方法具体包括步骤S1-S4，可以理解的是，根据不同的需求，该流程图中步骤的顺序可以改变，某些可以省略。

S1、获取训练样本，所述训练样本包括多个同一类型的样本数据。

为了方便对本申请实施例进行解释说明，以下均以训练样本中的样本数据为真实样本数据为例进行说明。

训练样本包括多张人脸图像数据，人脸图像数据为在各种光照、背景条件下所采集的用户处于各种人体姿态下的图像的集合。其中，真实样本数据指非攻击对象，如真实证件、位于指定拍摄区域内的动态人脸图像等。

训练样本中的样本数据可以是通过图像采集设备或计算机设备获取到目标图像后提取出的人脸区域图像，也可以来自互联网或第三方应用(如图像处理软件)的人脸图像，还可以是预先存储在数据库中的人脸图像，对此不作限定。

S2、将所述训练样本输入第一神经网络进行第一特征提取，以获取对应的第一特征向量，并根据所述第一特征向量训练所述第一神经网络，以获取第一特征提取模型。

训练样本中的样本数据具体为真实人脸的样本图像，第一神经网络可以采用CNN(Convolution Neural Network，卷积神经网络)，也可以采用RNN(Residual NeuralNetwork，残差神经网络)。第一神经网络用于对样本图像进行图像特征提取，并根据提取的图像特征来获得表征图像整体特征的第一特征向量。

可以理解的是，该第一特征提取模型具备一个完整的结构，可以包括如输入层、全连接层、输出层，以及激活函数等。应当理解，本申请实施例提供的训练方法可用于对各种结构的神经网络的训练，因此对神经网络的结构不做限定。其中，第一特征提取模型中的主干网络可以根据具体场景更换，比如更换为较小的网络，缩小计算时间。

在一些实施方式中，将训练样本输入第一神经网络进行第一特征提取，以获取对应的第一特征向量具体包括：

根据所述样本图像提取对应的图像特征，其中，所述图像特征包括颜色特征、形状特征、纹理特征及边缘特征中的至少一种或其组合；

对所述图像特征进行特征嵌入处理，得到所述样本图像对应的第一特征向量。

第一神经网络将输入的样本图像通过处理后，得到对应的图像特征，具体以特征向量的形式输出模型，即输出第一特征向量。

其中，特征空间的维度与图像特征的维度相对应，可以是二维、三维，甚至是多维，对此不做限定。为了便于说明，下面以二维的特征空间为例进行说明。

示例性地，第一神经网络在样本图像上提取图像特征，该图像特征作为初选的图像特征，图像特征包括颜色特征、形状特征、纹理特征及边缘特征中的至少一种或其组合。然后对图像特征中的每个单元取N次方，获得新的图像特征，进而将新的图像特征进行池化运算，其中，N为正整数，且N大于或等于2，单元可以是一个像素点，也可以是像素矩阵。

池化运算可以是自适应平均池化操作，也可以通过一个自适应池化层对新的图像特征进行池化，自适应池化层能够将不同尺寸的特征图输出为固定的尺寸，固定尺寸根据网络结构自行设置优化。在经过自适应池化层操作得到池化后的图像特征后，对池化后的图形特征中的每个单元进行1/N次方计算，得到样本图像对应的第一特征向量，该第一特征向量作为样本图像的嵌入表达特征。

在一些实施方式中，根据第一特征向量训练第一神经网络，以获取第一特征提取模型具体包括：

计算多个所述样本数据对应的第一特征向量在特征空间的位置关系，根据所述位置关系调整第一神经网络的参数；

当多个所述第一特征向量在所述特征空间中的位置重合时，完成对所述第一神经网络的训练，得到所述第一特征提取模型。

因为训练样本均为真实样本，而不包含攻击样本，即输入第一神经网络的训练样本中的样本图像均为同一类型的图像，因此，样本图像对应的特征向量在特征空间中存在重叠。

具体地，为了提取同一类型的样本图像的特征向量，需要训练完的第一特征提取模型的输出中，相同类型的图像对应的图像特征之间的距离越小越好。因此，当相同类型的图像对应的图像特征之间的距离趋向0时，相同类型的图像对应的图像特征在特征空间中的位置重合，即完成对第一特征提取模型的训练。

示例性地，在训练样本中，a和b为相同类型的图像，x-a为图像a对应的图像特征，x-b为图像b对应的图像特征。将图像a、b输入现有的第一神经网络后，得到x-a和x-b。可以理解的是，由于图像特征是特征向量的形式，计算不同样本图像对应的图像特征在特征空间中的距离，就是计算不同特征向量之间的距离。

在一些实施方式中，将第一特征向量之间的欧式距离作为图像特征在特征空间中的距离。具体地，在计算出任意两个样本图像对应的第一特征向量在特征空间中的距离后，根据判断距离是否为阈值，进而对第一神经网络的参数进行调整。

示例性地，计算不同样本图像对应的第一特征向量在特征空间中的距离，从训练样本中选取样本图像a、b，样本图像a对应的第一特征向量为x-a，样本图像b对应的第一特征向量为x-b。根据公式Loss-equal＝d(x-a，x-b)，计算出Loss-equal，d(x-a，x-b)为x-a和x-b在特征空间中的距离。其中，样本图像a、b为训练样本中任意两个样本图像。

需要说明的是，当第一神经网的参数调整后，样本图像对应的第一特征向量在特征空间中的位置也会发生变化，从而使得不同样本图像对应的第一特征向量在特征空间中的距离变化。因此，可以通过调整第一神经网络的参数，使得Loss-equal不断减小，趋向于0，也即Loss-equal＝0。

训练之前的第一特征提取模型，相同类型的样本图像a和样本图像b对应的图像特征在特征空间中位于不同的位置。在第一特征提取模型的训练过程中，通过调整第一神经网络的参数，使得样本图像a和样本图像b对应的图像特征在特征空间中的距离不断减小。在第一特征提取模型训练完成后，样本图像a和样本图像b对应的第一特征向量在特征空间中的位置重合。

当相同类型的样本图像对应的图像特征，在特征空间中的位置重合时，则完成对第一特征提取模型的训练。

S3、将所述训练样本输入第二神经网络进行第二特征提取，以获取所述训练样本对应的第二特征向量，根据所述第一特征向量和所述第二特征向量的偏差构建对应的损失函数，以根据所述损失函数更新所述第二神经网络的模型参数，得到第二特征提取模型。

利用知识蒸馏的方法，根据第一特征提取模型对第二特征提取模型进行训练。知识蒸馏是一种特殊的迁移学习方法，目的主要是在保证训练效果的同时对待训练模型的体积进行压缩。通过训练好的老师模型来指导小体积的待训练学生模型的学习，通过训练小模型学习到大模型的知识，相比于直接训练小模型效果更好，速度更快。

在一些实施例中，第一特征提取模型作为教师模型，第二特征提取模型作为学生模型，利用训练完成的第一特征提取模型去训练第二特征提取模型，根据第一特征提取模型的输出指导第二特征提取模型学习，达到第二特征提取模型的输出分布与第一特征提取模型的输出分布相同或相近的效果。

具体地，将第一特征向量与第二特征向量的差距约束在预设范围内，使得第二特征提取模型性能尽量与第一特征提取模型的性能接近或相同。在训练的过程中，第二特征向量与第一特征向量的差距可以根据训练的输入和损失函数计算出来。

在一些实施方式中，损失函数可以选择角度损失函数，通过角度损失函数进行角度约束，其针对的是三张图像的特征向量。

示例性地，在输入第一特征提取模型的N张图像中，任意挑选三张图像，经过第一特征提取网络得到他们对应的特征向量，分别为a/b/c；将这三张图像送入第二神经网络中，经过第二神经网络同样得到三个特征向量，分别为d/e/f。根据向量b-a与向量c-a的角度值和向量e-d与向量f-d的角度值的差值得到损失值，以根据所述损失值对第二神经网络中的参数进行调整。

角度约束需要满足：向量b-a与向量c-a的角度值，应当和向量e-d与向量f-d的角度值相等。或者向量b-a与向量c-a的角度值，应当和向量e-d与向量f-d的角度值的差值小于预设角度阈值。

在一些实施方式中，损失函数可以选择距离损失函数，通过距离损失函数进行距离约束，其针对的是两张图像的特征向量。

示例性地，在输入第一特征提取模型的N张图像中，任意挑选两张图像，经过第一特征提取网络得到他们对应的特征向量，分别为a/b。将这两张图像送入第二神经网络中，同样得到两个特征向量，分别为d/e。根据向量a与向量b的距离和向量d与向量e的距离的差值得到损失值，以根据所述损失值对第二神经网络中的参数进行调整。

距离约束需要满足：向量a与向量b的距离，应当和向量d与向量e的距离相等。或者向量a与向量b的距离，和向量d与向量e的距离的差值小于预设距离阈值。

将训练样本作为第二神经网络的输入，其经过第二神经网络，能够获取训练样本中每个样本图像对应的特征向量，然后以最小化第一神经网络输出的特征向量与第二特征提取模型输出的特征向量之间的距离为目标，对第二神经网络进行训练。

利用损失函数的监督进行训练，目标是使得第一神经网络输出的特征向量与第二特征提取模型输出的特征向量之间的距离最小化，通过不断迭代，直至损失函数收敛，或达到预先设定的迭代次数，以完成对第二特征提取模型的训练。

通过知识蒸馏的方法训练得到第二特征提取模型，不仅简化了训练过程，还在实现了与第一特征提取模型同样的数据处理能力的前提下，对第二特征提取模型的体积进行了压缩。同时，因为第一特征提取模型和第二特征提取模型均是通过同一类型的样本数据训练得到的，减少了模型训练过程中需要的训练样本数据量。

S4、根据所述第一特征提取模型和所述第二特征提取模型对待检测数据进行相似度判断，以获取对应的检测结果。

本申请提供的实施例中，拍摄设备针对环境中的拍摄对象进行拍摄，以采集对应的图像数据，计算机设备获取拍摄设备上传的图像数据以作为待检测数据，并针对该待检测数据进行人脸活体检测，得到人脸活体检测结果。

可以理解的是，待检测数据中既可以包含真实人脸图像，也可以包含攻击人脸图像。其中，真实人脸图像可以指拍摄设备在各种光照、背景条件下所采集的用户处于各种人体姿态下的图像的集合。而攻击人脸图像可以指拍摄设备在各种光照、背景条件下所采集的用户利用打印人脸图像、视频及面具等进行活体检测时的处于各种人体姿态下的图像的集合。其中，真实图像与攻击图像的采集光照、背景条件及包含的人体姿态可以是相同的。

因为在对第一特征提取模型和第二特征提取模型的训练过程中，训练数据只包含有同一类型的样本数据，且第二特征提取模型是利用知识蒸馏的方法通过第一特征提取模型训练得到的，因此在对于属于训练数据同一类型的数据的特征提取上，第一特征提取模型和第二特征提取模型提取得到的特征向量相似度会很高，而对于不属于训练数据同一类型的数据的特征提取上，第一特征提取模型和第二特征提取模型提取得到的特征向量相似度会很低。所以，本方案只需对第一特征提取模型和第二特征提取模型分别得到的特征向量进行相似度判断，即可判断输入的待检测数据是否属于训练数据同一类型的数据。

在一些实施方式中，请参阅图3，步骤S4具体包括：子步骤S41至子步骤S42。

子步骤S41、将所述待检测数据输入所述第一特征提取模型和所述第二特征提取模型，以分别得到所述待检测数据对应的第一提取向量和第二提取向量；

子步骤S42、计算所述第一提取向量和所述第二提取向量之间的相似度，并根据所述相似度判断所述待检测数据是否为同一类型样本数据，得到检测结果。

将待检测数据分别输入第一特征提取模型和第二特征提取模型进行人脸特征提取，该待检测数据对应的人脸特征在特征空间中可以表现为一个多维度的点。采用第一特征提取模型和第二特征提取模型对待检测数据进行特征提取后，可以得到两个个多维度的特征向量，分别为第一提取向量和第二提取向量。其中，获取待检测数据的特征向量的具体步骤可以参见上述步骤S2中，对第一神经网络进行第一特征提取，以获取对应的第一特征向量的具体步骤的描述，在此不做赘述。

进一步的，在对待检测数据进行检测前，还可以包括：对所述待检测数据进行预处理得到目标数据，以根据所述目标数据得到第一特征向量。

在一些实施例中，对待检测数据进行预处理可以包括：对待检测数据进行人脸区域识别，并从待检测数据中裁剪出识别到的人脸区域，得到人脸区域图像，然后对人脸区域图像进行标准化调整，得到目标人脸图像。

其中，对人脸区域图像进行标准化调整可以包括：对人脸区域图像进行人脸对齐、归一化，以及数据增强等标准化调整，在此不作限定。

具体的，人脸对齐可以先对人脸区域图像进行人脸关键点的定位，例如，从目标人脸图像中定位出眼睛、鼻子，以及嘴巴等人脸关键点。然后利用定位出的人脸关键点，按照预设方向调整目标人脸图像中人脸的方向，从而利于后续进行活体检测。

对人脸区域图像进行归一化处理，将人脸区域图像的像素值从[0，225]归一化到[0，1]，以去除人脸区域图像中包含的冗余信息。

对人脸区域图像进行数据增强使图像特征更加明显，例如，可以按照预设光照强度区间变换人脸区域图像的光照强度，还可以按照预设对比度区间变换人脸区域图像的对比度。具体的数据增强方式可以根据实际需求预先设置，在此不作限定。

将待检测数据进行预处理后得到目标数据，将目标数据输入第一特征提取模型中，第一特征提取模型对目标数据进行特征提取，以得到对应的第一提取向量。同时将目标数据输入第二特征提取模型中，第二特征提取模型对目标数据进行特征提取，以得到对应的第二提取向量。

计算输出的第一提取向量和第二提取向量之间的相似度，具体包括：

计算所述第一提取向量和所述第二提取向量之间的向量距离；

根据预设函数将所述向量距离映射到预设区间内，得到对应的映射值；

根据所述映射值，确定所述第一提取向量和所述第二提取向量之间的相似度。

其中，向量距离可以是欧氏距离、余弦距离、马氏距离、混合距离等，向量距离算法可以是现有的任一种距离算法，如欧氏距离算法、曼哈顿距离算法、余弦相似度算法等，且由于向量相似度的计算方法为现有技术，因此不再赘述。

示例性的，若预设的距离算法为采用欧式距离算法来确定相似度，则第一提取向量和第二提取向量之间的相似度d可利用如下公式计算得到：

其中，x和y分别为老师模型和学生模型输出的特征向量，i代表向量对应位置的值，n代表该特征向量是一个n维的向量，通过计算对应位置的欧式距离来算出两者特征向量的距离，来量化第一特征提取模型和第二特征提取模型输出的特征向量的相似度大小。

在一些实施方式中，预设函数为soft-max函数，预设区间为[0，1]区间，得到第一提取向量和第二提取向量之间的向量距离后，利用soft-max函数将向量距离映射到[0，1]区间，以得到的映射值，将映射值作为第一提取向量和第二提取向量之间的相似度。

第一提取向量和第二提取向量之间的相似度越高，说明待检测数据的特征越接近真实样本的特征，即待检测对象越有可能是真实人脸数据，而第一提取向量和第二提取向量之间的相似度越低，说明待检测数据的特征越远离真实样本的特征，即待检测对象越有可能是攻击人脸数据。

在一应用场景中，以该数据检测方法为人脸活体数据检测方法为例，并且以该人脸活体数据检测方法应用于门禁系统中为例进行说明。

获取真实人脸数据作为训练样本，将训练样本输入第一神经网络进行训练，以得到第一特征向量，根据第一特征向量训练第一神经网络，当第一神经网络对多个人脸数据得到的第一特征向量在特征空间中重合时，则判断训练完毕，得到第一特征提取模型。

然后利用知识蒸馏的方法，根据第一特征提取模型的输出训练第二神经网络。具体地，将训练样本输入第二神经网络进行以得到对应的第二特征向量，根据第二特征向量和第一特征向量之间的偏差，更新第二神经网络的参数，直至第二特征向量和第一特征向量之间的偏差为0时，得到第二特征提取模型。

根据第一特征提取模型和第二特征提取模型对待检测数据进行检测。

具体地，拍摄设备针对环境中的拍摄对象进行拍摄，以采集对应的图像数据，将该图像数据作为待检测的人脸图像上传给计算机设备。计算机设备通过人脸关键点检测算法获取活体检测所需的人脸图像。

其中，可根据检测到的人脸框信息进行配准，分别生成人脸关键点信息，从中提取人脸多个个关键点的坐标信息，如可以包括左瞳孔、右瞳孔、鼻尖、左嘴角和右嘴角，根据人脸的关键点信息可确定一个最小外接长方形，以得到活体检测所需的人脸图像。

计算机设备将待检测的人脸图像输入第一特征提取模型和第二特征提取模型，分别得到第一提取向量和第二提取向量，然后计算第一提取向量和第二提取向量之间的向量距离，根据soft-max函数将向量距离映射到[0，1]区间，以根据映射值得到相似度，以根据相似度和预设相似度阈值，得到人脸图像中对象是否为活体的检测结果。

具体地，相似度大于预设相似度阈值时，则认为待检测的人脸图像为真人人脸，否则，则认为待检测的人脸图像为攻击人脸。

因此，只需确定第一提取向量和第二提取向量之间的相似度与预设阈值之间的大小关系，即可确定出待检测数据是否为真实人脸数据，而无需将待检测数据的特征信息与攻击样本特征和真实样本特征的相似度分别进行比对，从而为活体检测设备减少大量的工作量，提高活体检测的效率。

在另一应用场景中，以该数据检测方法为文字情感识别方法为例进行说明。对于文字情感判断中检测待识别文字内容是正面情感还是负面情感，在对第一特征提取模型和第二特征提取模型的训练过程中，训练数据可以仅采用正面情感的文字内容，也可以仅采用负面情感的文字内容。利用训练数据训练得到第一特征提取模型，再根据第一特征提取模型通过知识蒸馏的方法训练得到第二特征提取模型。将待检测的文字内容输入第一特征提取模型和第二特征提取模型中，根据第一特征提取模型和第二特征提取模型分别得到的特征向量，判断特征向量之间的相似度，以判断待检测的文字内容是正面情感还是负面情感。

在又一应用场景中，以该数据检测方法为图片识别方法为例进行说明。对于检测一张图片中是否有猫，在对第一特征提取模型和第二特征提取模型的训练过程中，训练数据可以仅采用含有猫的图片。利用训练数据训练得到第一特征提取模型，再根据第一特征提取模型通过知识蒸馏的方法训练得到第二特征提取模型。将待检测的图片输入第一特征提取模型和第二特征提取模型中，根据第一特征提取模型和第二特征提取模型分别得到的特征向量，判断特征向量之间的相似度，以判断待检测的图片是含有猫。

可以理解的是，本申请实施例提供的数据检测方法，并不仅限于应用于人脸活体检测，对于利用神经网络可解决的二分类问题，均可使用本申请实施例提供的数据检测方法。其中，针对不同类型的二分类问题，对训练数据进行不同的选择。相对于现有技术中需要采集多种类型的训练数据来说，本申请需要采集的训练数据量更小，训练过程更加简单。

请参阅图4，图4是本申请一实施例提供的一种数据检测装置的示意框图，该数据检测装置可以配置于服务器或计算机设备中，用于执行前述的数据检测方法。

如图4所示，该装置200包括：训练样本获取模块201、第一模型获取模块202、第二模型获取模块203和检测结果获取模块204。

训练样本获取模块201，用于获取训练样本，训练样本包括多个样本数据，其中，样本数据均为同一类型的样本数据；

第一模型获取模块202，用于将训练样本输入第一神经网络进行第一特征提取以获取对应的第一特征向量，并根据第一特征向量训练第一神经网络，以获取第一特征提取模型；

第二模型获取模块203，用于将训练样本输入第二神经网络进行第二特征提取，以获取训练样本对应的第二特征向量，并根据第一特征向量和第二特征向量的偏差构建对应的损失函数，根据损失函数更新第二神经网络的模型参数，得到第二特征提取模型；

检测结果获取模块204，用于根据第一特征提取模型和第二特征提取模型对待检测数据进行相似度判断，以获取对应的检测结果。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块、单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请的方法、装置可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

示例性地，上述的方法、装置可以实现为一种计算机程序的形式，该计算机程序可以在如图5所示的计算机设备上运行。

请参阅图5，图5是本申请实施例提供的一种计算机设备的示意图。该计算机设备可以是服务器或终端。

如图5所示，该计算机设备300包括通过系统总线302连接的处理器301、存储器和网络接口304，其中，存储器可以包括非易失性存储介质和内存储器303。

非易失性存储介质可存储操作系统305和计算机程序306。该计算机程序306包括程序指令，该程序指令被执行时，可使得处理器301执行任意一种数据检测方法。

处理器301用于提供计算和控制能力，支撑整个计算机设备300的运行。

内存储器303为非易失性存储介质中的计算机程序306的运行提供环境，该计算机程序306被处理器301执行时，可使得处理器301执行任意一种数据检测方法。

该网络接口304用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，该计算机设备300的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备300的限定，具体地计算机设备300可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器301可以是中央处理单元(Central Processing Unit，CPU)，该处理器301还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器301可以是微处理器或者该处理器301也可以是任何常规的处理器等。

其中，在一些实施方式中，处理器301用于运行存储在存储器中的计算机程序306，以实现如下步骤：

获取训练样本，训练样本包括多个同一类型的样本数据；将训练样本输入第一神经网络进行第一特征提取，以获取对应的第一特征向量，并根据第一特征向量训练第一神经网络，以获取第一特征提取模型；将训练样本输入第二神经网络进行第二特征提取，以获取训练样本对应的第二特征向量，根据第一特征向量和第二特征向量的偏差构建对应的损失函数，以根据损失函数更新第二神经网络的模型参数，得到第二特征提取模型；根据第一特征提取模型和第二特征提取模型对待检测数据进行相似度判断，以获取对应的检测结果。

在一些实施方式中，样本数据包括样本图像，将训练样本输入第一神经网络进行第一特征提取，以获取对应的第一特征向量，包括：根据样本图像提取对应的图像特征，其中，图像特征包括颜色特征、形状特征、纹理特征及边缘特征中的至少一种或其组合；对图像特征进行特征嵌入处理，得到样本图像对应的第一特征向量。

在一些实施方式中，对图像特征进行特征嵌入处理，得到样本图像对应的特征向量，包括：对图像特征中的每个单元进行N次方计算，获得新的图像特征；对新的图像特征进行池化运算，获得池化后的图像特征；对池化后的图像特征中的每个单元进行1/N次方计算，得到样本图像的特征向量；其中，N为正整数，且N大于或等于2。

在一些实施方式中，根据第一特征向量训练第一神经网络，以获取第一特征提取模型，包括：计算多个样本数据对应的第一特征向量在特征空间的位置关系，根据位置关系调整第一神经网络的参数；当多个第一特征向量在特征空间中的位置重合时，完成对第一神经网络的训练，得到第一特征提取模型。

在一些实施方式中，根据损失函数更新第二神经网络的模型参数，得到第二特征提取模型，包括：根据损失函数确认损失值，根据损失值对第二神经网络中的参数进行调整；当第二特征向量和第一特征向量之间的偏差达到目标阈值时，以获得训练完成的第二特征提取模型。

在一些实施方式中，根据第一特征提取模型和第二特征提取模型对待检测数据进行相似度判断，以获取对应的检测结果，包括：将待检测数据输入第一特征提取模型和第二特征提取模型，以分别得到待检测数据对应的第一提取向量和第二提取向量；计算第一提取向量和第二提取向量之间的相似度，并根据相似度判断待检测数据是否为同一类型样本数据，得到检测结果。

在一些实施方式中，计算第一提取向量和第二提取向量之间的相似度，包括：计算第一提取向量和第二提取向量之间的向量距离；根据预设函数将向量距离映射到预设区间内，得到对应的映射值；根据映射值，确定第一提取向量和第二提取向量之间的相似度。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序中包括程序指令，所述程序指令被执行时实现本申请实施例提供的任一种数据检测方法。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种数据检测方法，其特征在于，所述方法包括：

获取训练样本，所述训练样本包括多个同一类型的样本数据，所述样本数据包括样本图像；

将所述训练样本输入第一神经网络进行第一特征提取，以获取对应的第一特征向量，并根据所述第一特征向量训练所述第一神经网络，以获取第一特征提取模型；

将所述训练样本输入第二神经网络进行第二特征提取，以获取所述训练样本对应的第二特征向量，根据所述第一特征向量和所述第二特征向量的偏差构建对应的损失函数，以根据所述损失函数更新所述第二神经网络的模型参数，得到第二特征提取模型；

根据所述第一特征提取模型和所述第二特征提取模型对待检测数据进行相似度判断，以获取对应的检测结果；

其中，所述将所述训练样本输入第一神经网络进行第一特征提取，以获取对应的第一特征向量，包括：

根据所述样本图像提取对应的图像特征，所述图像特征包括颜色特征、形状特征、纹理特征及边缘特征中的至少一者；

对所述图像特征中的每个单元进行N次方计算，获得新的图像特征；

对新的所述图像特征进行池化运算，获得池化后的图像特征；

对池化后的所述图像特征中的每个单元进行1/N次方计算，得到所述样本图像的所述第一特征向量，N为正整数，且N大于或等于2；

其中，所述根据所述第一特征提取模型和所述第二特征提取模型对待检测数据进行相似度判断，以获取对应的检测结果，包括：

将所述待检测数据输入所述第一特征提取模型和所述第二特征提取模型，以分别得到所述待检测数据对应的第一提取向量和第二提取向量；

计算所述第一提取向量和所述第二提取向量之间的相似度，并根据所述相似度判断所述待检测数据是否为同一类型样本数据，得到检测结果。

2.根据权利要求1所述的方法，其特征在于，所述根据第一特征向量训练所述第一神经网络，以获取第一特征提取模型，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述损失函数更新所述第二神经网络的模型参数，得到第二特征提取模型，包括：

根据所述损失函数确认损失值，根据所述损失值对所述第二神经网络中的参数进行调整；

当所述第二特征向量和所述第一特征向量之间的偏差达到目标阈值时，以获得训练完成的第二特征提取模型。

4.根据权利要求1所述的方法，其特征在于，所述计算所述第一提取向量和所述第二提取向量之间的相似度，包括：

5.一种数据检测装置，其特征在于，包括：

训练样本获取模块，用于获取训练样本，所述训练样本包括多个同一类型的样本数据，所述样本数据包括样本图像；

第一模型获取模块，用于将所述训练样本输入第一神经网络进行第一特征提取以获取对应的第一特征向量，并根据第一特征向量训练所述第一神经网络，以获取第一特征提取模型，其中，所述将所述训练样本输入第一神经网络进行第一特征提取，以获取对应的第一特征向量，包括：

第二模型获取模块，用于将所述训练样本输入第二神经网络进行第二特征提取，以获取所述训练样本对应的第二特征向量，并根据所述第一特征向量和所述第二特征向量的偏差构建对应的损失函数，根据所述损失函数更新所述第二神经网络的模型参数，得到第二特征提取模型；

检测结果获取模块，用于根据所述第一特征提取模型和所述第二特征提取模型对待检测数据进行相似度判断，以获取对应的检测结果；

6.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述的计算机程序并在执行所述的计算机程序时实现如权利要求1至4中任一项所述的数据检测方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如权利要求1至4中任一项所述的数据检测方法。