CN115116147B

CN115116147B - 图像识别、模型训练、活体检测方法及相关装置

Info

Publication number: CN115116147B
Application number: CN202210630974.2A
Authority: CN
Inventors: 曾定衡; 蒋宁; 王洪斌; 周迅溢
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd
Priority date: 2022-06-06
Filing date: 2022-06-06
Publication date: 2023-08-08
Anticipated expiration: 2042-06-06
Also published as: CN115116147A

Abstract

本申请提供一种图像识别、模型训练、活体检测方法及相关装置。识别方法包括：获取待识别人脸图像中的第一区域图像和第二区域图像，所述第一区域图像与所述第二区域图像不重合。将所述第一区域图像和所述第二区域图像输入预先训练的图像识别模型，输出所述第一区域图像和所述第二区域图像之间的噪声特征的相似度。基于所述噪声特征的相似度确定所述待识别人脸图像的识别结果。本申请能够机器识别人脸图像的真伪，可用于人脸识别系统抵抗假体攻击。

Description

图像识别、模型训练、活体检测方法及相关装置

技术领域

本申请属于图像处理技术领域，尤其涉及一种图像识别、模型训练、活体检测方法及相关装置。

背景技术

随着生物识别技术和人工智能技术的不断发展，人脸识别技术得到了广泛的应用，极大简化了支付、门禁、安检等身份认证的流程。而在实际应用中，人脸作为开放的生物特征，容易被恶意者利用进行伪造人脸图像的假体攻击。

为此，如何辨别人脸图像的真伪，以用于抵抗假体攻击已成为业内迫切需要解决的问题。

发明内容

本申请目的是提供一种图像识别、模型训练、活体检测方法及相关装置，能够机器识别人脸图像的真伪，可用于人脸识别系统抵抗假体攻击。

为了实现上述目的，本申请实施例是这样实现的：

第一方面，提供一种图像识别方法，包括：

获取待识别人脸图像中的第一区域图像和第二区域图像，所述第一区域图像与所述第二区域图像不重合；

将所述第一区域图像和所述第二区域图像输入预先训练的图像识别模型，输出所述第一区域图像和所述第二区域图像之间的噪声特征的相似度；

基于所述噪声特征的相似度确定所述待识别人脸图像的识别结果。

第二方面，提供一种模型训练方法，包括：

获取训练数据集，所述训练数据集包括样本人脸图像和所述样本人脸图像对应的分类标签，所述分类标签用于表征样本人脸图像的图像真伪，所述样本人脸图像是基于不同拍摄设备拍摄的图像合成得到的，；

获取所述样本人脸图像中的第三区域图像和第四区域图像，所述第三区域图像与所述第四区域图像不重合，其中，所述第三区域图像和所述第四区域图像为不同拍摄设备的拍摄图像；

将所述第三区域图像和所述第四区域图像输入至初始图像识别模型进特征编码，输出所述第三区域图像和第四区域图像的噪声特征；

基于所述样本人脸图像对应的分类标签，以及所述第三区域图像和所述第四区域图像之间的噪声特征，对所述初始图像识别模型进行迭代训练，得到图像识别模型。

第三方面，提供一种活体检测方法，包括：

获取目标用户的人脸拍摄图像；

获取所述人脸拍摄图像中的第五区域图像和第六区域图像，所述第五区域图像与所述第六区域图像不重合；

将所述第五区域图像和所述第六区域图像输入预先训练的图像识别模型，输出所述第五区域图像和所述第六区域图像之间的噪声特征的相似度；

基于所述噪声特征的相似度，确定所述人脸拍摄图像为伪造人脸图像，其中，所述伪造人脸图像用于表征所述目标用户未通过活体检测。

第四方面，提供一种图像识别装置，包括：

图像提取模块，用于从待识别人脸图像中提取第一区域图像和第二区域图像，所述第一区域图像与所述第二区域图像不重合；

相似度分析模块，用于将所述第一区域图像和所述第二区域图像输入预先训练的图像识别模型，输出所述第一区域图像和所述第二区域图像之间的噪声特征的相似度；

真伪判定模块，用于基于所述第一区域图像和所述第二区域图像之间的噪声特征的相似度，识别所述待识别人脸图像是否为伪造人脸图像。

第五方面，提供一种电子设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器以执行上述第一方面、第二方面以及第三方面中任一者所示的方法。

第六方面，提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现行上述第一方面、第二方面以及第三方面中任一者所示的方法。

本申请考虑到AI换脸的伪造人脸图像是通过合成得到的，图像中必然包括至少两个不同拍摄设备所拍摄的画面，而不同的拍摄设备存在硬件上的差异(如传感部件、对焦部件的差异)，这导致不同的拍摄设备所拍摄的画面具有一些特有的噪声特征。鉴于此，本申请在对待识别人脸图像进行真伪识别时，从待识别人脸图像中提取不同的区域图像，并借助图像识别模型输出不同的区域图像之间噪声特征的相似度。如果不同的区域图像之间噪声特征的相似度低于一定标准，则表示待识别人脸图像是由不同的拍摄设备的拍摄画面合成得到的，为此可以将待识别人脸图像确定为伪造人脸图像。由于本申请是基于人脸图像中两个不同区域的噪声特征之间的相似度，来辨别人脸图像是否为合成得到的伪造人脸图像，而不是传统方案基于人脸图像中的人脸特征，来分析人脸图像是不是与合法用户的人脸匹配，因此模型不再只限于特定的合法用户，可以对任何用户的人脸图像进行真伪识别。此外，本申请的模型主要涉及的是相似度的计算，相似度的计算在算力开销上相对较小，且对于网络结构的要求也相对简单，因此模型十分轻量化，特别适合投用在移动终端上实现本申请的方案。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的图像识别方法的第一种流程示意图；

图2为本申请实施例提供的图像识别方法从人脸图像中提取人脸区域图像和背景区域图像的示意图；

图3为本申请实施例提供的图像识别方法从人脸拍摄画面中提取人脸图像的示意图；

图4为本申请实施例提供的图像识别模型的结构示意图意图；

图5为本申请实施例提供的模型训练方法的流程示意图；

图6为本申请实施例提供的图像识别方法将人脸区域图像转换为图像序列的示意图；

图7为本申请实施例提供的图像识别方法将人脸图像中的人脸区域图像和背景区域图像输入至图像识别模型的示意图；

图8为本申请实施例提供的活体检测方法的第一种流程示意图；

图9为本申请实施例提供的活体检测方法的第二种流程示意图；

图10为本申请实施例提供的图像识别装置的结构示意图；

图11为本申请实施例提供的模型训练装置的结构示意图；

图12为本申请实施例提供的活体检测装置的结构示意图；

图13为本申请实施例提供的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

随着人脸识别技术的广泛应用，并向着自动化、无人监督化的趋势发展，如何能够通过机器自动、高效地识别人脸图像的真伪，以抵抗假体攻击已成为业内迫切需要解决的问题。

目前主流的假体攻击方式是基于深度伪造(Deepfake)合成出合法用户的人脸图像，以冒充合法用户发起人脸识别。

深度伪造是一种可将个人的声音、面部表情及身体动作拼接合成虚假内容的人工智能技术。对于人脸识别而言，深度伪造最重要的功能就是AI换脸，也就是用利用深度神经网络和相关的算法，将合法用户的脸部图像转移到冒充者的脸部区域，从而合成出人脸识别的伪造图像。

针对深度伪造的假体攻击，起初人脸识别系统可以通过要求待识别者做出如眨眼、吐舌等一些特定动作来辅助进行真伪识别。但随着深度伪造的进化，这些特定动作也能够合成出来，且具有极高的逼真度。为此，需要借助人工智能技术，基于人脸图像中的一些隐性特征来进行真伪分析。

现阶段，基于人工智能技术进行人脸图像真伪识别的方法主要是使用合法用户已标注的真实人脸样本和伪造人脸样本来训练深度学习模型，从而使深度学习模型具备识别人脸图像是属于合法用户的真实人脸图像还是属于合法用户的伪造人脸图像的能力。该方式下的模型严重依赖合法用户的人脸样本，因此只能适用于针对合法用户的人脸识别，而对于其他用户而言，模型由于缺少训练数据的支持，无法提供有效的真伪识别，导致泛用性不高。

鉴于此，本申请旨在提出一种可以对任何用户的人脸图像的真伪进行机器识别的技术方案。本申请中，考虑到AI换脸的伪造人脸图像是通过合成得到的，图像中必然包括至少两个不同拍摄设备所拍摄的画面，而不同的拍摄设备存在硬件上的差异(如传感部件、对焦部件的差异)，这导致不同的拍摄设备所拍摄的画面具有一些特有的噪声特征。为此，可以基于人脸图像中不同区域的噪声特征之间的相似度，来作为识别伪造人脸图像的依据。如果人脸图像中不同区域的噪声特征具有较大区别，则表示人脸图像是基于深度伪造合成得到的，可以判定为伪造人脸图像。

显然，本申请在模型实现上是基于人脸图像中两个不同区域的噪声特征之间的相似度，来辨别人脸图像是否为合成得到的伪造人脸图像，而不是基于人脸图像中的人脸特征，来分析人脸图像是不是与合法用户的人脸匹配，因此模型不再只限于特定的合法用户，可以对任何用户的人脸图像进行真伪识别。

基于前述，一方面本申请实施例提供一种图像识别方法。图1是该图像识别方法的流程图，包括：

S102，获取待识别人脸图像中的第一区域图像和第二区域图像，第一区域图像与第二区域图像不重合。

本申请中，待识别人脸图像是可以从用户的人脸拍摄画面中获取得到。所述的人脸拍摄画面可以是实时采集的画面，也可以是已拍摄完成的照片或视频等成品图像，本文不作具体限定。为确定能够获得清晰度较高的待识别人脸图像，本申请可以对人脸拍摄画面进行多帧截取，并从中挑选出清晰度最高的一帧画面用于提取待识别人脸图像。

针对AI换脸技术合成的伪造人脸图像而言，一般是人脸区域图像和背景区域图像来自两个不同的拍摄设备。为此，本申请可以将待识别人脸图像中包含人脸区域的全部或部分图像作为第一区域图像，将待识别人脸图像中包含除所述人脸区域外的全部或部分图像作为第二区域图像，可以理解的是，第二区域图像为待识别人脸图像中包含除所述人脸区域外的背景区域的全部或部分图像。后续通过对比待识别人脸图像中人脸区域图像与背景区域图像之间的噪声特征相似度，来判断待识别人脸图像是否为伪造人脸图像。

对应地，本步骤在从待识别人脸图像中获取第一区域图像和第二区域图像的过程中，可以先基于已有的人脸检测技术，确定并标记出待识别人脸图像中的多个人脸部位(如耳朵、眉毛、嘴巴、鼻子等)；之后，再基于多个人脸部位在待识别人脸图像中的位置，即可确定出待识别人脸图像中的人脸轮廓区域，并将待识别人脸图像中包含人脸轮廓区域的图像作为第一区域图像，将待识别人脸图像中不包含人脸轮廓区域的图像作为第二区域图像。

这里为方便理解，参考图2所示。图2为从待识别人脸图像200中提取第一区域图像210和第二区域图像220的示意图。本步骤可以先从待识别人脸图像200中确定出属于人脸轮廓中边缘的部位，如眉毛211、下巴212、左耳213以及右耳214，其中，眉毛211可以视为人脸轮廓中的最上边的部位；下巴212可以视为人脸轮廓中的最下边的部分；左耳213可以视为人脸轮廓中的最右边的部分，右耳214可以视为人脸轮廓中的最左边的部分。本申请可以在待识别人脸图像200中构建X轴和Y轴的二维坐标系，X轴为人脸图像水平面的水平方向)，Y轴为人脸图像水平面的竖直方向。通过眉毛211、下巴212对应Y轴的坐标信息，即可确定人脸轮廓区域在Y轴方向的范围，比如人脸轮廓区域上至待识别人脸图像200中的眉毛211处，下至待识别人脸图像200中的下巴212处；同理，通过左耳213以及右耳214的对应X轴的坐标信息，即可确定人脸轮廓区域在X轴方向的范围，比如人脸轮廓区域左至待识别人脸图像200中的右耳214处，右至待识别人脸图像200中的左耳213处。

在人脸轮廓区域对应X轴方向和Y轴方向的范围确定后，其可对人脸轮廓区域进行图像分离，得到分离出的第一区域图像210以及剩余未分离的第二区域图像220。

基于图2的示例可以看出，待识别人脸图像中，如果人脸区域图像和背景区域图像各自具有合适的占比，更利于进行两者之间噪声特征的对比。

这里，本申请提供一种待识别人脸图像的提取方法，可以保证待识别人脸图像中的人脸区域图像和背景区域图像具有合适的占比。参考图3所示，本申请可先识别出人脸拍摄画面300中的人脸轮廓区域310(参考上文所述的确定人脸轮廓区域的原理)；之后，对人脸轮廓区域310进行适当比例的外扩，比如上下、左右两个方向各自外扩50％，并对外扩区域320进行图像提取，即可得到图2所示的待识别人脸图像200。基于图3可以看出，如果直接将人脸拍摄画面300作为待识别人脸图像，则背景区域图像的占比远大于人脸区域图像，这种占比失衡的待识别人脸图像会影响后续从人脸区域图像和背景区域图像中提取噪声特征的效果，而采用本申请上述的方法，则可以提取得到人脸区域图像和背景区域图像各自占比合适的待识别人脸图像。

S104，将第一区域图像和第二区域图像输入预先训练的图像识别模型，输出第一区域图像和第二区域图像之间的噪声特征的相似度。

应理解，本实施例中，图像识别模型用于确定人脸图像中的不同区域图像之间的噪声特征的相似度。同时，拍摄设备因自身硬件的特性(如传感器、对焦镜头的特点)，在拍摄图像中所产生一些特有噪声特征。对于一个拍摄图像而言，不管经过何种图像处理技术进行修改，其本征的噪声特征是难以抹除的，为此本申请通过图像识别模型，估计第一区域图像和第二区域图像中间的噪声特征的相似度，从而判断第待识别人脸图像是否是由不同拍摄设备的拍摄图像所合成得到的。

其中，图4为本申请的图像识别模型400的结构示意图，该图像识别模型400主要包括：第一编码网络410、第二编码网络420和分类网络430。

其中，第一编码网络410和第二编码网络420组成双通道的编码器。在将第一区域图像和第二区域图像输入图像识别模型后，第一编码网络410作为第一区域图像的通道，用于对第一区域图像进行特征编码，得到第一区域图像的噪声特征；同时，第二编码网络420作为第二区域图像的通道，用于对第二区域图像进行特征编码，得到第二区域图像的噪声特征；之后，第一编码网络410输出的第一区域图像的噪声特征和第二编码网络420输出的第二区域图像的噪声特征输入分类网络430，由分类网络430输出第一区域图像与第二区域图像之间的噪声特征的相似度。

如前文所述，由于本申请是基于人脸图像中两个不同区域的噪声特征之间的相似度，来辨别人脸图像是否为合成得到的伪造人脸图像，而不是基于人脸图像的人脸特征，来分析人脸图像是不是与合法用户的人脸匹配，因此本申请可以使用任何用户的样本人脸图像对图4所示的图像识别模型进行训练，而图像识别模型只需学习计算两个不同区域图像之间的噪声特征相似度的能力，即可用于人脸图像的真伪识别。

S106，基于噪声特征的相似度确定待识别人脸图像的识别结果。

具体地，如果第一区域图像和第二区域图像之间的噪声特征的相似度小于或等于相似度阈值(相似度阈值可是80％、85％、90％等，这里不作具体限定)，则表示第一区域图像和第二区域图像来自不同的拍摄设备，为此可以将待识别人脸图像识别为伪造人脸图像，否则，将待识别人脸图像识别为真实人脸图像。

基于上述内容可知，本申请的方法考虑到AI换脸的伪造人脸图像是通过合成得到的，图像中必然包括至少两个不同拍摄设备所拍摄的画面，而不同的拍摄设备存在硬件上的差异(如传感部件、对焦部件的差异)，这导致不同的拍摄设备所拍摄的画面具有一些特有的噪声特征。鉴于此，在对待识别人脸图像进行真伪识别时，可以从待识别人脸图像中提取不同的区域图像，并借助图像识别模型输出不同的区域图像之间噪声特征的相似度，如果不同的区域图像之间噪声特征的相似度低于一定标准，则表示待识别人脸图像是由不同的拍摄设备的拍摄画面合成得到的，为此可以将待识别人脸图像确定为伪造人脸图像。由于本申请的图像识别模型是基于人脸图像中两个不同区域的噪声特征之间的相似度，来辨别人脸图像是否为合成得到的伪造人脸图像，而不是基于人脸图像中的人脸特征，来分析人脸图像是不是与合法用户的人脸匹配，因此模型不再只限于特定的合法用户，可以对任何用户的人脸图像进行真伪识别。此外，图像识别模型主要涉及的是相似度的计算，相似度的计算在算力开销上相对较小，且对于网络结构的要求也相对简单，因此模型十分轻量化，特别适合投用在移动终端上实现本申请方法中的方案。

对应地，本申请实施例还提供一种针对上述图像识别模型的训练方法。这里将尚未训练的图像识别模型定义为初始图像识别模型，图5是该初始图像识别模型的训练方法的流程图，具体包括如下步骤：

S502，获取训练数据集，训练数据集包括样本人脸图像和样本人脸图像对应的分类标签，分类标签用于表征样本人脸图像的图像真伪，样本人脸图像是基于不同拍摄设备的拍摄图像合成得到的。

本申请中，第三区域图像为样本人脸图像中包含人脸区域的全部或部分图像，第四区域图像为样本人脸图像中包含除人脸区域外的全部或部分图像。样本人脸图像可以是预先基于深度伪造的AI换脸功能，将一个样本用户的人脸拍摄画面中的人脸图像，合成到另一样本用户的人脸拍摄画面中的人脸图像所得到。

其中，样本人脸图像可以分类有样本真实人脸图像和样本伪造人脸图像。样本真实人脸图像顾名思义，是指真实的未经AI换脸的样本人脸图像，作为图像识别模型的正例训练样本；对应地，样本伪造人脸图像是指经AI换脸合成得到的伪造样本人脸图像，作为图像识别模型的反例训练样本。

这里，本申请通过分类标签来标注出样本人脸图像是样本真实人脸图像还是样本伪造人脸图像。比如，分类标签取值为0表示样本伪造人脸图像，取值为1表示样本真实人脸图像。

S504，获取样本人脸图像中的第三区域图像和第四区域图像，第三区域图像与第四区域图像不重合，其中，第三区域图像和第四区域图像为不同拍摄设备的拍摄图像。

其中，第三区域图像和第四区域图像的提取方案可以参考上述文所述的步骤S102，这里文本不再地赘述。

S504，将第三区域图像和第四区域图像输入至初始图像识别模型进特征编码，输出第三区域图像和第四区域图像的噪声特征。

这里参考图4所示的图像识别模型400的结构，本步骤将第三区域图像和第四区域图像输入至初始图像识别模型后，由第一编码网络410用于对第三区域图像进行特征编码，得到第三区域图像的噪声特征，并由初始图像识别模型中的第二编码网络420负责对第四区域图像进行特征编码，得到第四区域图像的噪声特征。

其中，这里所述的特征编码是指将图像转换为能够被机器识别的以向量形式表达的噪声特征。对于初始图像识别模型而言，第一编码网络410和第二编码网络420的特征编码能力尚未进行训练，因此本步骤特征编码得到的第三区域图像和第四区域图像的噪声特征与理想的噪声特征存在一定误差，在后续训练的过程中，还需要对第一编码网络410和第二编码网络420的网络参数进行优化，以减小特征编码的误差。

S506，基于样本人脸图像对应的分类标签，以及第三区域图像和第四区域图像之间的噪声特征，对初始图像识别模型进行迭代训练，得到图像识别模型。可以理解的是，图像识别模型用于确定人脸图像中的不同区域图像之间的噪声特征的相似度。

本申请使用标注的样本人脸图像训练图像识别模型的目的有两点：一是使图像识别模型针对样本真实人脸图像中的两个不同区域图像之间的噪声特征相似度的估计值越来越高；二是图像识别模型针对样本伪造人脸图像中的两个不同区域图像之间的噪声特征相似度的估计值越来越低。

即：针对样本真实人脸图像，图像识别模型估计的两个不同区域图像之间的噪声特征相似度越高，则表示与该样本真实人脸图像所对应的分类标签越匹配；同理，针对样本伪造人脸图像，图像识别模型估计的两个不同区域图像之间的噪声特征相似度越低，则表示与该样本伪造人脸图像所对应的分类标签越匹配。

为此，本申请可以基于图像识别模型中分类网络确定得到的第三区域图像和第四区域图像之间的噪声特征的相似度，与样本人脸图像标注的分类标签之间的匹配度，确定出初始图像识别模型的损失函数，并使用该损失函数，按照分类网络确定得到的第三区域图像和第四区域图像之间的噪声特征的相似度与意图标签之间的匹配度越高越好的梯度方向，对图像识别模型中的第一编码网络、第二编码网络和分类网络进行参数调整，从而实现上文所述的训练目的。

作为示例性介绍，本申请的损失函数可以采用对比损失(Contrastive Loss)函数，该对比损失函数的公式为：

其中，L表示损失函数所计算的损失；N表示样本人脸图像的总数量；a_n表示从第n个样本人脸图像中提取的第三区域图像；b_n表示从第n个样本人脸图像中提取的第四区域图像；d＝‖a_n-b_n‖₂表示第三区域图像a_n和第四区域图像b_n之间的噪声特征的欧氏距离，用于表征a_n与b_n之间的相似度；N表示样本人脸图像的总数量；y为样本人脸图像的分类标签，y取值为0时，表示样本人脸图像为样本伪造人脸图像，取值为1时，表示样本人脸图像为样本真实人脸图像；margin是对比损失函数中的系数，根据实际需求设置取值。

上述损失函数的公式体现出：当y＝1时，样本人脸图像为样本真实人脸图像，损失函数只剩下即样本真实人脸图像中如果第三区域图像a_n和第四区域图像b_n的欧式距离越大，则损失(损失函数的取值)也随之越大。而当y＝0时，样本人脸图像为样本伪造人脸图像，损失函数为/>即样本伪造人脸图像中如果第三区域图像a_n和第四区域图像b_n的欧式距离越小，则损失反而随之越大。

为此，可以按照损失函数的取值越小越好的梯度方向，对图像识别模型中的第一编码网络、第二编码网络和分类网络进行参数调整。也就是说，当样本人脸图像为样本真实人脸图像时，图像识别模型计算第三区域图像a_n和第四区域图像b_n之间的欧式距离越小越好，这样表示第三区域图像a_n和第四区域图像b_n之间的噪声特征越相似；当样本人脸图像为样本伪造人脸图像时，图像识别模型计算第三区域图像a_n和第四区域图像b_n之间的欧式距离越大越好，这样表示第三区域图像a_n和第四区域图像b_n之间的噪声特征越不相似。

基于上述方式不断对迭代地对第一编码网络、第二编码网络和分类网络进行参数调整，最终可以使图像识别模型针对真实人脸图像输出较高取值的噪声特征的相似度，并针对伪造人脸图像输出较低取值的噪声特征的相似度。对于本申请而言，当人脸图像输入图像识别模型后，如果输出噪声特征的相似度小于或等于相似度阈值即可被识别为伪造人脸图像。

以上是对图像识别模型的训练原理进行介绍。在实际的训练过程中，如果样本人脸图像的数量难以支撑图像识别模型的训练，本申请还可以对样本人脸图像进行适当的数据增强，以在原有的样本人脸图像基础上衍生出更多的样本人脸图像。

这里，本申请在不破坏原有噪声特征的基础下，提出一种适用于样本人脸图像的数据增强方法，可将样本人脸图像中的第三区域图像和第四区域图像分别等效转化为多种图像序列进行表达，并使用多种图像序列代替第三区域图像和第四区域图像输入至图像识别模型，从而实现针对训练样本的数据增强。

下面对本申请的数据增强方法进行详细介绍。

具体地，本申请可以分别将样本人脸图像中的第三区域图像和第四区域图像分割成相同规格的多个图像分块。其中，相同规格可以指图像分块的数量和尺寸相同，比如：在第三区域图像和第四区域图像的宽度和高度均大于320个像素的前提下，可以分别将第三区域图像和第四区域图像分割成10个宽度和高度均为32个像素的图像分块。

之后，按照多种排序规则，分别对第三区域图像的多个图像分块和第四区域图像的多个图像分块进行组合，得到第三区域图像对应每种组合规则的图像序列，以及第四区域图像对应每种组合规则的图像序列。其中，图像序列顾名思义，是指由多个图像分块按照排序组合而成的序列图像。这里为方便理解，参考图6所示。图6为将样本人脸图像中的第三区域图像400(代表人脸图像区域的全部或部分)转换为图像序列进行表示的示意图。图6中，第三区域图像400被分割成即四个图像分块，即图像分块1、2、3、4。基于全排列的计算公式可知，仅这4四图像分块就可以衍生出多达种组合规则。对于本申请而言，可以在这24种组合规则中，采用部分或全部组合规则对图像分块1、2、3、4进行组合，即可得到相对应的图像序列。

应理解的是，图像中的噪声特征往往是以比图像分块更小粒度的显示区域所呈现的，因此通常情况下将图像分割成图像分块，并不会对噪声特征造成破坏。图像转换为图像序列后只是表达方式发生了改变，但体现的噪声特征并没有发生改变。

对于本申请而言，只要获取第三区域图像和第四区域图像的噪声特征即可用于模型训练，而第三区域图像和第四区域图像是以哪种形式表达并不重要。因此，通过将样本图像中的第三区域图像和第四区域图像转化多种组合规则的图像序列表达可以在不破坏原有噪声特征的基础上，丰富了模型的训练样本。

这里，本文将第三区域图像对应各组合规则的图像序列的集合定义为第三图像序列集合，将第四区域图像对应各组合规则的图像序列的集合定义为第四图像序列集合。对于第三图像序列集合而言，其包含的每种组合规则的图像序列均可视为第三区域图像一种的表达形式；对于第四图像序列集合而言，其包含的每种组合规则的图像序列均可视为第四区域图像一种的表达形式。

对应地，本申请将第三图像序列集合和第四图像序列集合输入至图4所示的初始图像识别模型后，第一编码网络410用于对第三图像序列集合中的各个组合规则的图像序列进行特征编码，得到第三区域图像对应的各个组合规则的图像序列的噪声特征。应理解的是，第一编码网络410输出的各个组合规则的图像序列的噪声特征均可视为第三区域图像的噪声特征的不同表达，虽然表达方式不同，但本质反映的都是第三区域图像的噪声特征，因此第一编码网络410输出的这些噪声特征对于图像识别模型而言，具有相同的计算效力。

同时，第二编码网络420用于对第四图像序列集合中的各个组合规则的图像序列进行特征编码，得到第四区域图像对应的各个组合规则的图像序列的噪声特征；同理，第二编码网络420输出的各个组合规则的图像序列的噪声特征均可视为第四区域图像的噪声特征的不同表达，虽然表达方式不同，但本质反映的都是第四区域图像的噪声特征，因此第二编码网络420输出的这些噪声特征对于图像识别模型而言，具有相同的计算效力。

之后，第一编码网络410输出的各个噪声特征与第二编码网络420输出的各个噪声特征分别输入到分类网络430，由分类网络430基于第一编码网络410提供的噪声特征，与第二编码网络420提供的噪声特征进行不重复的两两组合，每个组合包含有一种第一编码网络410提供的反映第三图像区域的噪声特征和一种第二编码网络420提供的反映第四图像区域的噪声特征，分类网络430针对每个组合，计算其所包含的两种噪声特征的相似度，该计算结果即为第三图像区域与第四图像区域之间的噪声特征的相似度，分类网络430针对每个组合的计算结果均可以视为图像识别模型的一个训练结果。对于模型训练而言，同一样本人脸图像的各个训练结果均沿用该样本人脸图像所对应的分类标签来计算训练的损失，从而基于损失越小越好的梯度方向，对第一编码网络410、第二编码网络420和分类网络430的网络参数进行调整。

由此可见，本申请将样本人脸图像中的第三区域图像和第四区域图像转换为不同表达方式的图像序列对初始图像识别模型进行训练，可使初始图像识别模型能够充分学习到样本人脸图像中噪声特征，从而提高针对样本人脸图像不同变化的泛化能力，避免出现过拟合的问题。过拟合是指当训练样本的变换较少时，模型的学习过于偏向于训练样本所表示的少量特征，从而失去了对于未知特征的预测能力。

此外，在上述数据增强的基础之上，本申请还可以分别在第三图像序列集合和第四图像序列集合中，选取至少一个图像序列执行进一步的数据增强，以得到更多表达方式的图像序列，比如对图像序列中的一个或多个图像分块进行像素参数置零。这里需要说明的是，图像分块在像素参数置零后，会以纯色形式进行呈现，而纯色的图像分块不再体现任何图像特征，对于本申请的方案而言，只要图像序列中的部分图像分块保留一定原有的噪声特征，且不引入其他不必要的噪声特征，就可保证初始图像识别模型能够正常进行训练。因此，通过图像序列中的部分图像分块素参数置零可以在已有的图像序列基础上，进一步衍生出更多有效的图像序列。

需要说明的是，本申请如果采用图像序列来训练初始图像识别模型，那么模型中第一编码网络和第二遍网络训练的是针对图像序列的特征编码能力。如果后续使用训练完成的图像识别模型，对待识别人脸图像进行真伪识别，则需要将待识别人脸图像中的第一区域图像和第二区域图像同样转换为图像序列后再输入至图像识别模型，这样才能保证被第一编码网络和第二遍网络进行有效的特征编码。

对于模型训练阶段，将样本人脸图像中的第三区域图像和第四区域图像转换成多种组合规则的图像序列是为了扩充训练样本，以改善图像识别模型过拟合的问题；而模型应用阶段，图像识别模型只要成功提取到第一区域图像和第二区域图像对应的噪声特征进行相似度计算即可完成任务。为此，第一区域图像和第二区域图像只需要转换成一种组合规则的图像序列。如前文所述，将图像转换为图像序列只是更换表达方式，其呈现的噪声特征并没有发生改变，这里本申请只需要沿用第三区域图像和第四区域图像的分割方式，将第一区域图像和第二区域图像分割成同样相同规格的多个图像分块后，随便使用一种组合规则，分别将第一区域图像和第二区域图像的多个图像分块组合为图像序列即可输入至图像识别模型。应理解，噪声特征是在图像分块中进行呈现的，图像序列中的图像分块以何种组合规则排列并不会影响到噪声特征的提取。

为此，作为一种可行方案，本申请可以随机挑选一种模型训练阶段所使用的组合规则作为预设组合规则，在执行S104时，参考图7所示，先将从待识别人脸图像中200中获取第一区域图像210和第二区域图像220分别切分成相同规格的多个图像分块；之后，按照设置好的一种预设组合规则，分别对第一区域图像和第二区域图像的多个图像分块进行组合，得到第一区域图像和第二区域图像各自的图像序列；最后，再将第一区域图像和第二区域图像各自的图像序列输入至完成训练的图像识别模型400中(第一区域图像的图像序列对应输入至图像识别模型400的第一编码网络，第二区域图像的图像序列对应输入至图像识别模型400的第二编码网络)，以完成相似度的计算。

以上是对本申请的图像识别模型的原理以及训练方法的介绍。显然，基于本申请的图像识别能够有效辨别出人脸图像的真伪，因此可以应用在活体检测的场景中。

其中，活体检测主要是指检测人脸采集画面中的用户是否为真实的活体，主要用于抵御使用照片、AI换脸图像、面具、头模等常见的假体介质来冒充合法用户发起身份识别的攻击。像前文所述的基于AI换脸所合成的人脸伪造图像就是活体检测的对象。

基于此，本申请实施例还提供一种活体检测方法。其中，图8是该活体检测方法的流程示意图，具体包括如下步骤：

S802，获取目标用户的人脸拍摄图像。

本申请中，目标用户在通过终端发起人脸验证时，顺带发起活体检测请求。在人脸验证阶段，终端开启拍摄设备对目标用户进行拍摄，本步骤可以从该拍摄画面中获取目标用户的人脸拍摄图像。

S804，获取人脸拍摄图像中的第五区域图像和第六区域图像，第五区域图像与第六区域图像不重合。

本申请中，第五区域图像是指人脸拍摄图像中包含人脸区域的全部或部分图像，第六区域图像是指人脸拍摄图像中包含除人脸区域外的全部或部分图像。第五区域图像和第六区域图像的获取方式可以参考上述文所述的步骤S102，这里文本不再地赘述。

S806，将第五区域图像和第六区域图像输入预先训练的图像识别模型，输出第五区域图像和第六区域图像之间的噪声特征的相似度。

其中，本步骤所述的图像识别模型是基于图5所示的模型训练方法训练得到的，图像识别模型用于确定人脸图像中的不同区域图像之间的噪声特征的相似度，这里不再对图像识别模型估计的不同区域图像之间的噪声特征的相似度的原理进行赘述。

此外，如果训练图像识别模型所使用的样本人脸图像是以图像序列的方式进行表示的，则本步骤可以按照相同的方式将第五区域图像和第六区域图像先转换为图像序列后再输入至图像识别模型中。其中图像序列的转换原理可以参考上文的介绍，这里不再赘述。

S808，基于噪声特征的相似度，确定人脸拍摄图像为伪造人脸图像，其中，伪造人脸图像用于表征目标用户未通过活体检测。

具体地，如果第五区域图像和第六区域图像之间的噪声特征的相似度小于或等于相似度阈值，则表示第五区域图像和第六区域图像来自不同的拍摄设备，为此可以将人脸拍摄图像别为伪造人脸图像，否则将人脸拍摄图像识别为真实人脸图像。

进一步地，如果活体检测是由用户在请求人脸验证时所发起的，则当确定人脸拍摄图像未通过活体检测后，本步骤还可以进一步判定人脸验证失败，并结束人脸验证流程；如果人脸拍摄图像通过活体检测，则本步骤可以基于现有的人脸验证技术，对人脸拍摄图像执行人脸验证流程。

可以看出，本申请实施例的活体检测方法在对目标用户进行活体检测时，可以从目标用户的人脸拍摄图像中提取不同的区域图像，并借助图像识别模型输出不同的区域图像之间噪声特征的相似度，如果不同的区域图像之间噪声特征的相似度低于一定标准，则表示人脸拍摄图像是由不同的拍摄设备的拍摄画面合成得到的，为此可以将人脸拍摄图像确定为伪造人脸图像，进而判定活体检测失败，以达到针对AI换脸攻击的防范效果。由于本申请的图像识别模型是基于人脸图像中两个不同区域的噪声特征之间的相似度，来辨别人脸图像是否为合成得到的伪造人脸图像，而不是传统方案基于人脸图像中的人脸特征，来分析人脸图像是不是与合法用户的人脸匹配，因此模型不再只限于特定的合法用户，可以适用于对任何用户进行活体检测。

此外，本申请的模型主要涉及的是相似度的计算，相似度的计算在算力开销上相对较小，且对于网络结构的要求也相对简单，因此模型十分轻量化，特别适合投用在移动终端上实现本申请的方案。

下面以模型投用在移动终端的电子支付APP为示例，对本申请实施例的活体检测方法的应用进行介绍。

本申请将基于图像识别模型进行活体检测的执行逻辑部署在移动终端的电子支付APP中，使得电子支付APP在用户发起人脸验证的支付交易时，可以调用活体检测的执行逻辑，先对用户进行活体检测；之后，再根据活体检测结果，来决策是否需要进一步执行人脸验证。

这里假设非法用户在人脸验证阶段，劫持移动终端的摄像头，通过深度伪造的AI换脸功能，向电子支付APP提交伪造的人脸图像，对应的活体检测流程如图9所示，具体包括如下步骤：

非法用户使用移动终端的电子支付APP，发起用于支付的交易请求。

电子支付APP响应于非法用户的交易请求，调用移动终端的摄像头尝试采集非法用户的人脸拍摄图像。

非法用户在人脸拍摄图像的采集阶段，基于预先在移动终端安装的攻击程序，劫持移动终端的摄像头，向电子支付APP提交经AI换脸后的伪造的人脸拍摄图像。

电子支付APP获取非法用户提交的人脸拍摄图像后，调用活体检测的执行逻辑，以对该人脸拍摄图像执行下述活体检测流程：

1)从人脸拍摄图像中提取出不同的区域图像；

2)将不同的区域图像输入至图像识别模型中，输出不同的区域图像之间的噪声特征的相似度；

3)基于不同的区域图像之间的噪声特征的相似度，识别人脸拍摄图像是否为伪造人脸图像；

4)在识别出人脸拍摄图像为伪造人脸图像后，判定活体检测失败。

之后，电子支付APP在活体检测结果指示为失败后，直接拒绝非法用户的交易请求。

与上述图1所示方法相对应地，本申请实施例还提供一种图像识别装置。图10是该图像识别装置1000的结构示意图，包括：

图像获取模块1010，用于获取待识别人脸图像中的第一区域图像和第二区域图像，所述第一区域图像与所述第二区域图像不重合；

相似度分析模块1020，用于将所述第一区域图像和所述第二区域图像输入预先训练的图像识别模型，输出得到所述第一区域图像和所述第二区域图像之间的噪声特征的相似度。

真伪判定模块1030，用于基于所述噪声特征的相似度，确定所述待识别人脸图像的真伪识别结果。

基于本申请实施的装置可知，本身考虑到AI换脸的伪造人脸图像是通过合成得到的，图像中必然包括至少两个不同拍摄设备所拍摄的画面，而不同的拍摄设备存在硬件上的差异(如传感部件、对焦部件的差异)，这导致不同的拍摄设备所拍摄的画面具有一些特有的噪声特征。鉴于此，在对待识别人脸图像进行真伪识别时，可以从待识别人脸图像中提取不同的区域图像，并借助图像识别模型估计不同的区域图像之间噪声特征的相似度，如果不同的区域图像之间噪声特征的相似度低于一定标准，则表示待识别人脸图像是由不同的拍摄设备的拍摄画面合成得到的，为此可以将待识别人脸图像确定为伪造人脸图像。由于本申请的图像识别模型是基于人脸图像中两个不同区域的噪声特征之间的相似度，来辨别人脸图像是否为合成得到的伪造人脸图像，而不是传统方案基于人脸图像中的人脸特征，来分析人脸图像是不是与合法用户的人脸匹配，因此模型不再只限于特定的合法用户，可以对任何用户的人脸图像进行真伪识别。此外，本申请的模型主要涉及的是相似度的计算，相似度的计算在算力开销上相对较小，且对于网络结构的要求也相对简单，因此模型十分轻量化，特别适合投用在移动终端上实现本申请的方案。

可选地，所述第一区域图像为所述待识别人脸图像中包含人脸区域的全部或部分图像，所述第二区域图像为所述待识别人脸图像中包含除所述人脸区域外的全部或部分图像。

可选地，所述相似度分析模块1020在将所述第一区域图像和所述第二区域图像输入预先训练的图像识别模型前，还用于：将所述第一区域图像和所述第二区域图像分别分割成相同规格的多个图像分块；按照预设组合规则，分别对所述第一区域图像的多个图像分块和所述第二区域图像的多个图像分块进行组合，得到所述第一区域图像的第一图像序列和所述第二区域图像的第一图像序列，所述图像序列由图像分块组成；将所述第一图像序列和所述第二图像序列输入至预先训练的图像识别模型，输出所述第一区域图像和所述第二区域图像之间的噪声特征的相似度。

可选地，所述图像提取模块1010具体用于：确定待识别人脸图像中的多个人脸部位；基于所述多个人脸部位在所述待识别人脸图像中的位置，确定所述待识别人脸图像中的人脸轮廓区域；将所述待识别人脸图像中包含所述人脸轮廓区域的图像作为第一区域图像，将所述待识别人脸图像中不包含所述人脸轮廓区域的图像作为第二区域图像。

可选地，所述真伪判定模块1030具体用于：若所述噪声特征的相似度小于或等于相似度阈值，则将所述待识别人脸图像识别为伪造人脸图像。

显然，图10所示的识别装置可以作为图1所示方法的执行主体，因此可以实现该方法在图1所示的步骤和相应的功能。由于原理相同，本文不再具体赘述。

与上述图5所示方法相对应地，本申请实施例还提供一种模型训练装置。图11是该模型训练装置1100的结构示意图，包括：

数据获取模块1110，用于获取训练数据集，所述训练数据集包括样本人脸图像和所述样本人脸图像对应分类标签，所述分类标签用于表征样本人脸图像的图像真伪，所述样本人脸图像是基于不同拍摄设备的拍摄图像合成得到的；

图像获取模块1120，用于获取所述样本人脸图像中的第三区域图像和第四区域图像，所述第三区域图像与所述第四区域图像不重合，其中，所述样本人脸图像的第三区域图像和第四区域图为不同拍摄设备的拍摄图像；

编码模块1130，用于将所述第三区域图像和所述第四区域图像输入至初始图像识别模型进特征编码，输出所述第三区域图像和第四区域图像的噪声特征；

训练模块1140，用于基于所述样本人脸图像对应的分类标签，以及所述第三区域图像和所述第四区域图像之间的噪声特征，对所述初始图像识别模型进行迭代训练，得到图像识别模型。

可选地，所述编码模块1120具体用于：将所述第三区域图像和所述第四区域图像分别切分成相同规格的多个图像分块；按照多种组合规则，分别对所述第三区域图像的多个图像分块和所述第四区域图像的多个图像分块进行组合，得到所述第三区域图像的第三图像序列集合和所述第四区域图像的第四图像序列集合，所述第三图像序列集合中包括与每种组合规则对应的图像序列，所述第四图像序列集合中包括与每种组合规则对应的图像序列，所述图像序列由多个图像分块组成；将所述第三图像序列集合和所述第四图像序列集合输入至所述初始图像识别模型进特征编码，输出所述第三区域图像和所述第四区域图像的噪声特征。

可选地，所述编码模块1120具体用于：分别在所述第三图像序列集合和所述第四图像序列集合中，选取至少一个图像序列进行数据增强，其中，所述数据增强的方式为对所述至少一个图像序列中的一个或多个图像分块进行像素参数置零。

可选地，所述初始图像识别模型包括第一编码网络、第二编码网络和分类网络，所述第一编码网络用于对所述第三区域图像进行特征编码，得到所述第三区域图像的噪声特征，所述第二编码网络用于对所述第四区域图像进行特征编码，得到所述第四区域图像的噪声特征，所述分类网络用于确定所述第三噪声特征和所述第四噪声特征之间的相似度；所述训练模块1140具体用于：基于所述第一编码网络对所述第三区域图像进行特征编码，得到所述第三区域图像的第三噪声特征；基于所述第二编码网络对所述第四区域图像进行特征编码，得到所述第四区域图像的第四噪声特征；基于所述分类网络确定所述第三噪声特征和所述第四噪声特征之间的相似度；基于所述相似度以及所述样本人脸图像对应的分类标签，确定所述初始图像识别模型的损失函数；基于所述图像识别模型的损失函数，调整所述初始图像识别模型的模型参数，得到所述图像识别模型。

显然，图11所示的模型训练可以作为图5所示方法的执行主体，因此可以实现该方法在图5所示的步骤和相应的功能。由于原理相同，本文不再具体赘述。

与上述图8所示方法相对应地，本申请实施例还提供一种活体检测装置。图12是该活体检测装置1200的结构示意图，包括：

第一图像获取模块1210，用于获取目标用户的人脸拍摄图像。

第二图像获取模块1220，用于获取所述人脸拍摄图像中的第五区域图像和第六区域图像，所述第五区域图像与所述第六区域图像不重合。

相似度分析模块1230，用于将所述第五区域图像和所述第六区域图像输入预先训练的图像识别模型，输出所述第五区域图像和所述第六区域图像之间的噪声特征的相似度。

活体检测决策模块1240，基于所述噪声特征的相似度，确定所述人脸拍摄图像为伪造人脸图像，所述伪造人脸图像用于表征所述目标用户未通过活体检测。

显然，图12所示的模型训练可以作为图8所示方法的执行主体，因此可以实现该方法在图8所示的步骤和相应的功能。由于原理相同，本文不再具体赘述。

图13是本说明书的一个实施例电子设备的结构示意图。请参考图13，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图13中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

可选地，处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成上述图10所示的图像识别装置。对应地，处理器，执行存储器所存放的程序，并具体用于执行以下操作：

获取训练数据集，所述训练数据集包括样本人脸图像和所述样本人脸图像对应的分类标签，所述分类标签用于表征样本人脸图像的图像真伪所述样本人脸图像是基于不同拍摄设备的拍摄图像合成得到的；

获取所述样本人脸图像中的第三区域图像和第四区域图像，所述第三区域图像与所述第四区域图像不重合，其中，所述样本人脸图像的第三区域图像和第四区域图像为不同拍摄设备的拍摄图像；

或者，处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成上述图11所示的模型训练装置。对应地，处理器，执行存储器所存放的程序，并具体用于执行以下操作：

从样本人脸图像中提取第三区域图像和第四区域图像，所述第三区域图像与所述第四区域图像不重合。

将所述第三区域图像和所述第四区域图像输入至初始图像识别模型进特征编码，得到所述第三区域图像和第四区域图像的噪声特征。

基于所述样本人脸图像对应的分类标签，以及所述第三区域图像和第四区域图像各自的噪声特征，对所述初始图像识别模型进行训练，得到图像识别模型。

再或者，处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成上述图12所示的活体检测装置。对应地，处理器，执行存储器所存放的程序，并具体用于执行以下操作：

获取目标用户的人脸拍摄图像；

基于所述噪声特征的相似度，确定所述人脸拍摄图像为伪造人脸图像，所述伪造人脸图像用于表征所述目标用户未通过活体检测。

上述如本说明书所示实施例揭示的图像识别方法、模型训练方法和活体检测方法可以应用于处理器中，由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central ProcessingUnit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

当然，除了软件实现方式之外，本说明书的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

此外，本申请实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令。

可选地，上述指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图1所示方法的步骤，包括：

或者，上述指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图5所示方法的步骤，包括：

获取训练数据集，所述训练数据集包括样本人脸图像和所述样本人脸图像对应的分类标签，所述分类标签用于表征样本人脸图像的图像真伪，所述样本人脸图像是基于不同拍摄设备的拍摄图像合成得到的，；

再或者，上述指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图8所示方法的步骤，包括：

获取目标用户的人脸拍摄图像；

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。此外，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本文件的保护范围。

Claims

1.一种图像识别方法，其特征在于，包括：

将所述第一区域图像和所述第二区域图像分别分割成相同规格的多个图像分块；按照预设组合规则，分别对所述第一区域图像的多个图像分块和所述第二区域图像的多个图像分块进行组合，得到所述第一区域图像的第一图像序列和所述第二区域图像的第二图像序列，所述图像序列由图像分块组成；将所述第一图像序列和所述第二图像序列输入至预先训练的图像识别模型，输出所述第一区域图像和所述第二区域图像之间的噪声特征的相似度；

2.根据权利要求1所述的方法，其特征在于，

所述第一区域图像为所述待识别人脸图像中包含人脸区域的全部或部分图像，所述第二区域图像为所述待识别人脸图像中包含除所述人脸区域外的全部或部分图像。

3.根据权利要求2所述的方法，其特征在于，

所述获取待识别人脸图像中的第一区域图像和第二区域图像，包括：

确定待识别人脸图像中的多个人脸部位；

基于所述多个人脸部位在所述待识别人脸图像中的位置，确定所述待识别人脸图像中的人脸轮廓区域；将所述待识别人脸图像中包含所述人脸轮廓区域的图像作为第一区域图像，将所述待识别人脸图像中不包含所述人脸轮廓区域的图像作为第二区域图像。

4.根据权利要求1或2所述的方法，其特征在于，

基于所述噪声特征的相似度确定所述待识别人脸图像的识别结果，包括：

若所述噪声特征的相似度小于或等于相似度阈值，则将所述待识别人脸图像识别为伪造人脸图像。

5.一种模型训练方法，其特征在于，包括：

获取训练数据集，所述训练数据集包括样本人脸图像和所述样本人脸图像对应的分类标签，所述分类标签用于表征样本人脸图像的图像真伪，所述样本人脸图像是基于不同拍摄设备的拍摄图像合成得到的；

6.根据权利要求5所述的方法，其特征在于，

所述将所述第三区域图像和所述第四区域图像输入至初始图像识别模型进特征编码，输出所述第三区域图像和所述第四区域图像的噪声特征，包括：

将所述第三区域图像和所述第四区域图像分别分割成相同规格的多个图像分块；

按照多种组合规则，分别对所述第三区域图像的多个图像分块和所述第四区域图像的多个图像分块进行组合，得到所述第三区域图像的第三图像序列集合和所述第四区域图像的第四图像序列集合，所述第三图像序列集合中包括与每种组合规则对应的图像序列，所述第四图像序列集合中包括与每种组合规则对应的图像序列，所述图像序列由多个图像分块组成；

将所述第三图像序列集合和所述第四图像序列集合输入至所述初始图像识别模型进特征编码，输出所述第三区域图像和所述第四区域图像的噪声特征。

7.根据权利要求6所述的方法，其特征在于，

所述将所述第三图像序列集合和所述第四图像序列集合输入至所述初始图像识别模型进特征编码前，还包括：

分别在所述第三图像序列集合和所述第四图像序列集合中，选取至少一个图像序列进行数据增强，其中，所述数据增强的方式为对所述至少一个图像序列中的一个或多个图像分块进行像素参数置零。

8.根据权利要求7所述的方法，其特征在于，

所述初始图像识别模型包括第一编码网络、第二编码网络和分类网络；

所述基于所述样本人脸图像对应的分类标签，以及所述第三区域图像和所述第四区域图像之间的噪声特征，对所述初始图像识别模型进行迭代训练，得到图像识别模型，包括：

基于所述第一编码网络对所述第三区域图像进行特征编码，得到所述第三区域图像的第三噪声特征；

基于所述第二编码网络对所述第四区域图像进行特征编码，得到所述第四区域图像的第四噪声特征；

基于所述分类网络确定所述第三噪声特征和所述第四噪声特征之间的相似度；

基于所述相似度以及所述样本人脸图像对应的分类标签，确定所述初始图像识别模型的损失函数；

基于所述图像识别模型的损失函数，调整所述初始图像识别模型的模型参数，得到所述图像识别模型。

9.一种活体检测方法，其特征在于，包括：

获取目标用户的人脸拍摄图像；

将所述第五区域图像和所述第六区域图像分别分割成相同规格的多个图像分块；按照预设组合规则，分别对所述第五区域图像的多个图像分块和所述第六区域图像的多个图像分块进行组合，得到所述第五区域图像的第五图像序列和所述第六区域图像的第六图像序列，所述图像序列由图像分块组成；将所述第五图像序列和所述第六图像序列输入至预先训练的图像识别模型，输出所述第五区域图像和所述第六区域图像之间的噪声特征的相似度；

10.一种图像识别装置，其特征在于，包括：

图像获取模块，用于获取待识别人脸图像中的第一区域图像和第二区域图像，所述第一区域图像与所述第二区域图像不重合；

相似度分析模块，用于将所述第一区域图像和所述第二区域图像分别分割成相同规格的多个图像分块；按照预设组合规则，分别对所述第一区域图像的多个图像分块和所述第二区域图像的多个图像分块进行组合，得到所述第一区域图像的第一图像序列和所述第二区域图像的第二图像序列，所述图像序列由图像分块组成；将所述第一图像序列和所述第二图像序列输入至预先训练的图像识别模型，输出所述第一区域图像和所述第二区域图像之间的噪声特征的相似度；

伪造确定模块，用于基于所述噪声特征的相似度，确定所述待识别人脸图像的真伪识别结果。

11.一种电子设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述计算机程序被所述处理器以执行权利要求1至9任一项所述的方法。

12.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9任一项所述的方法。