CN108108676A

CN108108676A - 人脸识别方法、卷积神经网络生成方法及装置

Info

Publication number: CN108108676A
Application number: CN201711319694.5A
Authority: CN
Inventors: 陈志军
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2017-12-12
Filing date: 2017-12-12
Publication date: 2018-06-01

Abstract

本公开是关于人脸识别方法、卷积神经网络生成方法及装置。该方法包括：从待检测视频中获取均包括人脸的M帧图像，其中M＞1；对M帧图像进行合并生成多通道图像；将多通道图像输入目标卷积神经网络进行检测并根据检测结果确定待检测视频中的人脸是否为活体人脸。该技术方案可以确定待检测视频中的人脸是否为活体人脸，从而提高了人脸识别的准确性，改善了用户体验。

Description

人脸识别方法、卷积神经网络生成方法及装置

技术领域

本公开涉及人脸识别领域，尤其涉及人脸识别方法、卷积神经网络生成方法及装置。

背景技术

随着科技的发展，人脸识别技术日益成熟，多种装置及系统例如笔记本电脑、移动终端以及门禁系统等开始通过获取待检测视频，并通过检测待检测视频中的人脸以完成对身份的识别。但由于合法用户人脸的平面图形较容易取得，非法用户可以通过在待检测视频中添加合法用户的假体人脸例如合法用户的照片等，并使用包括该假体人脸的待检测视频通过人脸识别，从而降低了人脸识别的准确性，损害了用户体验。

发明内容

为克服相关技术中存在的问题，本公开的实施例提供一种人脸识别方法、卷积神经网络生成方法及装置。技术方案如下：

根据本公开的实施例的第一方面，提供一种人脸识别方法，包括：

从待检测视频中获取均包括人脸的M帧图像，其中M＞1；

对M帧图像进行合并生成多通道图像；

将多通道图像输入目标卷积神经网络进行检测并根据检测结果确定待检测视频中的人脸是否为活体人脸，目标卷积神经网络为根据活体人脸的多通道图像以及非活体人脸的多通道图像对卷积神经网络进行训练获取，活体人脸的多通道图像为对M帧活体人脸的图像进行合并生成，非活体人脸的多通道图像为对M帧非活体人脸的图像进行合并生成。

由于活体人脸是三维的而非活体人脸例如照片等是二维的，并且活体人脸的表面材质例如角质层等与非活体人脸的表面材质例如照片纸等的反射率不同，因此在光线照射下活体人脸的图像特征与在光线照射下的非活体人脸的图像特征存在较大差异，另一方面，多帧活体人脸图像之间会存在相同的图像特征也会存在不同的图像特征，上述相同或不同的图像特征之间会存在一定的联系，例如多帧活体人脸图像之间会因均包括目标人脸而存在相同的图像特征，同时该多帧活体人脸图像之间还会因目标人脸上细小的表情变化而存在不同的图像特征，由于上述相同的图像特征与不同的图像特征均与目标人脸相关联，因此上述相同的图像特征之间、不同的图像特征之间、相同的图像特征与不同的图像特征之间均会存在一定的联系，而多帧非活体人脸图像由于其仅包括非活体人脸例如人脸照片等，因此多帧非活体人脸图像之间存在的不同的图像特征较少，相同或不同的图像特征间联系也较弱。考虑到目标卷积神经网络为根据活体人脸的多通道图像以及非活体人脸的多通道图像对卷积神经网络进行训练获取的，因此该目标卷积神经网络已经深度学习了多帧活体人脸图像的相同及不同图像特征间的联系，通过从待检测视频中获取均包括人脸的M帧图像，并对M帧图像进行合并生成多通道图像，将生成的多通道图像输入目标卷积神经网络进行检测，可以根据检测结果确定M帧图像间不同及相同的图像特征间的联系是否与多帧活体人脸图像的相同及不同图像特征间的联系相似或相同，从而确定待检测视频中的人脸是否为活体人脸，提高了人脸识别的准确性，改善了用户体验。

在一个实施例中，从待检测视频中获取包括人脸的M帧图像，包括：

在待检测视频中截取均包括人脸的至少M帧目标帧图像，并对M帧目标帧图像的分辨率进行调整以获取分辨率为指定分辨率的M帧图像。

在一个实施例中，指定分辨率为W*H；

对M帧图像进行合并生成多通道图像，包括：

将M帧图像进行合并，生成大小为W*H*3M的多通道图像，其中，3M为合并后的通道数。

在一个实施例中，M帧图像中任意两帧图像的时间间隔在预设时长区间内。

根据本公开的实施例的第二方面，提供一种卷积神经网络生成方法，包括：

获取活体人脸视频以及非活体人脸视频，活体人脸视频为拍摄活体人脸的视频，非活体人脸视频为拍摄非活体人脸的视频。

从活体人脸视频中获取至少一组活体人脸图像，其中每组活体人脸图像包括M帧活体人脸的图像，M＞1；

从非活体人脸视频中获取至少一组非活体人脸图像，其中每组非活体人脸图像包括M帧非活体人脸的图像；

对至少一组活体人脸图像中的每组活体人脸图像进行合并，生成至少一个活体人脸的多通道图像；

对至少一组非活体人脸图像中的每组非活体人脸图像进行合并，生成至少一个非活体人脸的多通道图像；

根据至少一个非活体人脸的多通道图像以及至少一个活体人脸的多通道图像对卷积神经网络进行训练以获取目标卷积神经网络。

由于活体人脸是三维的而非活体人脸例如照片等是二维的，并且活体人脸的表面材质例如角质层等与非活体人脸的表面材质例如照片纸等的反射率不同，因此在光线照射下活体人脸的图像特征与在光线照射下的非活体人脸的图像特征存在较大差异，另一方面，多帧活体人脸图像之间会存在相同的图像特征也会存在不同的图像特征，上述相同或不同的图像特征之间会存在一定的联系，例如多帧活体人脸图像之间会因均包括目标人脸而存在相同的图像特征，同时该多帧活体人脸图像之间还会因目标人脸上细小的表情变化而存在不同的图像特征，由于上述相同的图像特征与不同的图像特征均与目标人脸相关联，因此上述相同的图像特征之间、不同的图像特征之间、相同的图像特征与不同的图像特征之间均会存在一定的联系，而多帧非活体人脸图像由于其仅包括非活体人脸例如人脸照片等，因此多帧非活体人脸图像之间存在的不同的图像特征较少，相同或不同的图像特征间联系也较弱。通过获取活体人脸视频以及非活体人脸视频，并从活体人脸视频中获取至少一组活体人脸图像，从非活体人脸视频中获取至少一组非活体人脸图像，对至少一组活体人脸图像中的每组活体人脸图像进行合并，生成至少一个活体人脸的多通道图像，对至少一组非活体人脸图像中的每组非活体人脸图像进行合并，生成至少一个非活体人脸的多通道图像，根据至少一个非活体人脸的多通道图像以及至少一个活体人脸的多通道图像对卷积神经网络进行训练以获取目标卷积神经网络，由于目标卷积神经网络为根据活体人脸的多通道图像以及非活体人脸的多通道图像对卷积神经网络进行训练获取的，因此该目标卷积神经网络已经深度学习了多帧活体人脸图像的相同及不同图像特征间的联系，可以从待检测视频中获取均包括人脸的M帧图像，并对M帧图像进行合并生成多通道图像，将生成的多通道图像输入目标卷积神经网络进行检测，从而根据检测结果确定M帧图像间不同及相同的图像特征间的联系是否与多帧活体人脸图像的相同及不同图像特征间的联系相似或相同，从而确定待检测视频中的人脸是否为活体人脸，提高了人脸识别的准确性，改善了用户体验。

在一个实施例中，M帧活体人脸的图像中任意两帧图像的时间间隔在预设时长区间内，M帧非活体人脸的图像中任意两帧图像的时间间隔在预设时长区间内。

根据本公开的实施例的第三方面，提供一种人脸识别装置，包括：

人脸图像获取模块，用于从待检测视频中获取均包括人脸的M帧图像，其中M＞1；

多通道图像合并模块，用于对M帧图像进行合并生成多通道图像；

活体人脸识别模块，用于将多通道图像输入目标卷积神经网络进行检测并根据检测结果确定待检测视频中的人脸是否为活体人脸，目标卷积神经网络为根据活体人脸的多通道图像以及非活体人脸的多通道图像对卷积神经网络进行训练获取，活体人脸的多通道图像为对M帧活体人脸的图像进行合并生成，非活体人脸的多通道图像为对M帧非活体人脸的图像进行合并生成。

在一个实施例中，人脸图像获取模块，包括：

分别率调整子模块，用于在待检测视频中截取均包括人脸的至少M帧目标帧图像，并对M帧目标帧图像的分辨率进行调整以获取分辨率为指定分辨率的M帧图像。

在一个实施例中，指定分辨率为W*H；

多通道图像合并模块，包括：

多通道图像合并子模块，用于将M帧图像进行合并，生成大小为W*H*3M的多通道图像，其中，3M为合并后的通道数。

根据本公开的实施例的第四方面，提供一种卷积神经网络生成装置，包括：

视频获取模块，用于获取活体人脸视频以及非活体人脸视频，活体人脸视频为拍摄活体人脸的视频，非活体人脸视频为拍摄非活体人脸的视频

活体人脸图像获取模块，用于从活体人脸视频中获取至少一组活体人脸图像，其中每组活体人脸图像包括M帧活体人脸的图像，M＞1；

非活体人脸图像获取模块，用于从非活体人脸视频中获取至少一组非活体人脸图像，其中每组非活体人脸图像包括M帧非活体人脸的图像；

第一多通道图像合并模块，用于对至少一组活体人脸图像中的每组活体人脸图像进行合并，生成至少一个活体人脸的多通道图像；

第二多通道图像合并模块，用于对至少一组非活体人脸图像中的每组非活体人脸图像进行合并，生成至少一个非活体人脸的多通道图像；

神经网络训练模块，用于根据至少一个非活体人脸的多通道图像以及至少一个活体人脸的多通道图像对卷积神经网络进行训练以获取目标卷积神经网络。

根据本公开的实施例的第五方面，提供一种人脸识别装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，处理器被配置为：

从待检测视频中获取均包括人脸的M帧图像，其中M＞1；

对M帧图像进行合并生成多通道图像；

根据本公开的实施例的第六方面，提供一种卷积神经网络生成装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，处理器被配置为：

获取活体人脸视频以及非活体人脸视频，活体人脸视频为拍摄活体人脸的视频，非活体人脸视频为拍摄非活体人脸的视频

根据本公开的实施例的第七方面，提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现权利要求本公开的实施例的第一方面或第二方面中任一项方法的步骤。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的人脸识别方法的流程示意图；

图2是根据一示例性实施例示出的卷积神经网络生成方法的流程示意图；

图3是根据一示例性实施例示出的人脸识别方法的流程示意图；

图4a是根据一示例性实施例示出的人脸识别装置的结构示意图1；

图4b是根据一示例性实施例示出的人脸识别装置的结构示意图2；

图4c是根据一示例性实施例示出的人脸识别装置的结构示意图2；

图5是根据一示例性实施例示出的卷积神经网络生成装置的结构示意图；

图6是根据一示例性实施例示出的一种装置的框图；

图7是根据一示例性实施例示出的一种装置的框图；

图8是根据一示例性实施例示出的一种装置的框图；

图9是根据一示例性实施例示出的一种装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

随着科技的发展，人脸识别技术日益成熟，多种装置及系统例如笔记本电脑、移动终端以及门禁系统等开始通过获取待检测视频，并通过检测待检测视频中的人脸以完成对身份的识别。例如，移动终端获取待检测视频，当移动终端对待检测视频进行人脸识别并根据识别结果确定待检测视频中的人脸为合法用户人脸时，移动终端确定与该待检测视频中人脸对应的用户通过人脸识别。但由于合法用户人脸的平面图形较容易取得，非法用户可以通过在待检测视频中添加合法用户人脸的人脸假体，例如非法用户在拍摄视频图像时拿着合法用户人脸的照片，从而利用包括人脸假体的待检测视频通过人脸识别，降低了人脸识别的准确性，从而损害了用户体验。

为了解决上述问题，本公开的实施例提供的技术方案中，通过从待检测视频中获取均包括人脸的M帧图像，并对M帧图像进行合并生成多通道图像，将生成的多通道图像输入目标卷积神经网络进行检测，可以根据检测结果确定M帧图像间不同及相同的图像特征间的联系是否与多帧活体人脸图像的相同及不同图像特征间的联系相似或相同，从而确定待检测视频中的人脸是否为活体人脸，提高了人脸识别的准确性，改善了用户体验。

本公开的实施例提供了一种人脸识别方法，应用于电子设备，其中电子设备可以为终端，也可以为服务器，终端可以为手机，平板电脑，智能可穿戴装置等，本公开的实施例对此不做限定；服务器可以为由人脸识别服务运营商提供并使用的提供计算服务的设备，也可以为由网络运营商提供由人脸识别服务运营商使用的提供计算服务的设备。如图1所示，本公开的实施例提供的人脸识别方法包括如下步骤101至步骤103：

在步骤101中，从待检测视频中获取均包括人脸的M帧图像。

其中M＞1。

示例性的，当本公开的实施例提供的人脸识别方法应用于终端时，可以为从终端中读取的事先储存的待检测视频，也可以为终端通过终端上的拍摄模块对人脸进行拍摄以获取待检测视频，或终端接收其他装置或系统发送的待检测视频。当本公开的实施例提供的人脸识别方法应用于服务器时，可以为从服务器中读取的事先储存的待检测视频，也可以为服务器接收其他装置或系统发送的待检测视频。

从待检测视频中获取均包括人脸的M帧图像，可以为对待检测视频进行人脸检测，并根据检测结果在待检测视频中截取M帧图像；也可以为获取待检测图像指令，并在待检测视频中截取该待检测图像指令所指示的M帧图像。其中M帧图像中任意两帧图像的时间间隔在预设时长区间内，例如M帧图像为待检测视频中连续的M帧图像。由于待检测视频中的人脸可能进行往复运动，当时间间隔过长时，两帧图像之间的关联度减小，两帧之间相同或不同的图像特征间的关联性也会减弱；而时间间隔过短时，待检测视频中的人脸可能处于静止状态，在该任意两帧图像中该活体人脸的图像特征却无较大的差异，从而可能错误的将待检测视频中的活体人脸确定为非活体人脸。通过使M帧图像中任意两帧图像的时间间隔在预设时长区间内，可以确保人脸在M帧图像中任意两帧图像中进行往复运动或保持静止状态的可能性较小，提高了人脸识别的准确性。

需要说明的是，为了方便在步骤102中对M帧图像进行合并以生成多通道图像，使人脸识别的速度加快，从待检测视频中获取均包括人脸的M帧图像，可以为在待检测视频中截取均包括人脸的至少M帧目标帧图像，并对M帧目标帧图像的分辨率进行调整以获取分辨率为指定分辨率的M帧图像，例如将M帧目标帧图像的分辨率调整为W*H。其中当本公开的实施例提供的人脸识别方法应用于终端时，指定分辨率可以为事先储存在终端上，也可以为终端从其他装置或系统处获取。当本公开的实施例提供的人脸识别方法应用于服务器时，指定分辨率可以为事先储存在服务器中，也可以为服务器从其他装置或系统处获取。

在步骤102中，对M帧图像进行合并生成多通道图像。

示例性的，对M帧图像进行合并生成多通道图像，可以为将该M帧图像转换为单通道图像例如灰度图像，并将该M个单通道图像合并成多通道图像。例如，当M帧图像均为分辨率为W*H的图像时，可以将M帧图像进行合并，生成大小为W*H*3M的多通道图像，其中，3M为合并后的通道数。

在步骤103中，将多通道图像输入目标卷积神经网络进行检测，并根据检测结果确定待检测视频中的人脸是否为活体人脸。

其中，目标卷积神经网络为根据活体人脸的多通道图像以及非活体人脸的多通道图像对卷积神经网络进行训练获取，活体人脸的多通道图像为对M帧活体人脸的图像进行合并生成，非活体人脸的多通道图像为对M帧非活体人脸的图像进行合并生成。

示例性的，非活体人脸可以理解为包括人脸图片、人脸面具等。非活体人脸的图像可以理解为对非活体人脸进行拍摄所获取的图像，例如通过对手机屏幕上显示的人脸进行拍摄所获取的图像为非活体人脸的图像。

在目标卷积神经网络中，可以包括输入层、卷积层、链接层以及输出层，其中输入层用于为多通道图像提供输入通道；卷积层用于对人脸的图像特征进行提取，链接层可以对卷积层提取出的人脸的图像特征进行整合；输出层用于输出对输入的待检测图像的检测结果，当检测结果满足活体人脸条件时，确定多通道图像中的人脸为活体人脸，反之当检测结果不满足活体人脸条件时，确定多通道图像中的人脸为非活体人脸。其中需要说明的是，当本公开的实施例提供的人脸识别方法应用于终端时，活体人脸条件可以为事先储存在终端中，也可以为终端从其他装置或系统处获取；当本公开的实施例提供的人脸识别方法应用于服务器时，活体人脸条件可以为事先储存在服务器中，也可以为服务器从其他装置或系统处获取。

目标卷积神经网络为根据活体人脸的多通道图像以及非活体人脸的多通道图像对卷积神经网络进行训练获取，可以为预先将多个活体人脸的多通道图像以及多个非活体人脸的多通道图像输入预设的卷积神经网络模型，用于对该卷积神经网络进行训练，该卷积神经网络可以根据输入的多个活体人脸的多通道图像以及多个非活体人脸的多通道图像自适应的提取各活体人脸的多通道图像特征，并自适应的调整以及生成该卷积神经网络中每一个节点对应的参数。

本公开的实施例提供了一种卷积神经网络生成方法，应用于电子设备，如图2所示，本公开的实施例提供的人脸识别方法包括如下步骤201至步骤206：

在步骤201中，获取活体人脸视频以及非活体人脸视频。

其中，活体人脸视频为拍摄活体人脸的视频，非活体人脸视频为拍摄非活体人脸的视频。

示例性的，当本公开的实施例提供的人脸识别方法应用于终端时，获取活体人脸视频以及非活体人脸视频可以为从终端中读取的事先储存的活体人脸视频以及非活体人脸视频，也可以为终端通过终端上的拍摄模块对活体人脸进行拍摄以获取活体人脸视频，并对非活体人脸进行拍摄以获取非活体人脸视频，或终端接收其他装置或系统发送的活体人脸视频以及非活体人脸视频。当本公开的实施例提供的人脸识别方法应用于服务器时，获取活体人脸视频以及非活体人脸视频可以为从服务器中读取的事先储存的活体人脸视频以及非活体人脸视频，也可以为服务器接收其他装置或系统发送的活体人脸视频以及非活体人脸视频。

在步骤202中，从活体人脸视频中获取至少一组活体人脸图像。

其中每组活体人脸图像包括M帧活体人脸的图像，M＞1。

示例性的，从活体人脸视频中获取至少一组活体人脸图像，可以为对活体人脸视频进行人脸检测，并根据检测结果在活体人脸视频中截取至少一组活体人脸图像，也可以为获取用户输入的活体人脸图像指令，并根据该活体人脸图像指令在活体人脸视频中截取至少一组活体人脸图像，其中每组活体人脸图像中的每一张图像均包括活体人脸。

需要说明的是，M帧活体人脸的图像中任意两帧图像的时间间隔在预设时长区间内。

在步骤203中，从非活体人脸视频中获取至少一组非活体人脸图像。

其中每组非活体人脸图像包括M帧非活体人脸的图像。

示例性的，从非活体人脸视频中获取至少一组非活体人脸图像，可以为对非活体人脸视频进行人脸检测，并根据检测结果在非活体人脸视频中截取至少一组非活体人脸图像，也可以为获取用户输入的非活体人脸图像指令，并根据该非活体人脸图像指令在非活体人脸视频中截取至少一组非活体人脸图像，其中每组非活体人脸图像中的每一张图像均包括非活体人脸。

需要说明的是，M帧非活体人脸的图像中任意两帧图像的时间间隔在预设时长区间内。

在步骤204中，对至少一组活体人脸图像中的每组活体人脸图像进行合并，生成至少一个活体人脸的多通道图像。

示例性的，可以为将每组活体人脸图像中的M帧图像转换为单通道图像例如灰度图像，并将该M个单通道图像合并成多通道图像。

在步骤205中，对至少一组非活体人脸图像中的每组非活体人脸图像进行合并，生成至少一个非活体人脸的多通道图像。

示例性的，可以为将每组非活体人脸图像中的M帧图像转换为单通道图像例如灰度图像，并将该M个单通道图像合并成多通道图像。

在步骤206中，根据至少一个非活体人脸的多通道图像以及至少一个活体人脸的多通道图像对卷积神经网络进行训练以获取目标卷积神经网络。

示例性的，可以为将至少一个非活体人脸的多通道图像以及至少一个活体人脸的多通道图像输入预设的卷积神经网络模型，用于对该卷积神经网络进行训练，该卷积神经网络可以根据输入的至少一个非活体人脸的多通道图像以及至少一个活体人脸的多通道图像自适应的提取各活体人脸以及非活体人脸的多通道图像特征，并自适应的调整以及生成该卷积神经网络中每一个节点对应的参数，以获取目标卷积神经网络。在目标卷积神经网络中，可以包括输入层、卷积层、链接层以及输出层，其中输入层用于为多通道图像提供输入通道；卷积层用于对人脸的图像特征进行提取，链接层可以对卷积层提取出的人脸的图像特征进行整合；输出层用于输出对输入的待检测图像的检测结果，当检测结果满足活体人脸条件时，确定多通道图像中的人脸为活体人脸，反之当检测结果不满足活体人脸条件时，确定多通道图像中的人脸为非活体人脸。

下面通过实施例详细介绍实现过程。

图3是根据一示例性实施例示出的一种人脸识别方法的示意性流程图进行说明。如图3所示，包括以下步骤：

在步骤301中，获取活体人脸视频以及非活体人脸视频。

活体人脸视频为拍摄活体人脸的视频，非活体人脸视频为拍摄非活体人脸的视频。

在步骤302中，从活体人脸视频中获取至少一组活体人脸图像。

其中每组活体人脸图像包括M帧活体人脸的图像，M帧活体人脸的图像中任意两帧图像的时间间隔在预设时长区间内，M＞1。

在步骤303中，从非活体人脸视频中获取至少一组非活体人脸图像。

其中每组非活体人脸图像包括M帧非活体人脸的图像，M帧非活体人脸的图像中任意两帧图像的时间间隔在预设时长区间内。

在步骤304中，对至少一组活体人脸图像中的每组活体人脸图像进行合并，生成至少一个活体人脸的多通道图像。

在步骤305中，对至少一组非活体人脸图像中的每组非活体人脸图像进行合并，生成至少一个非活体人脸的多通道图像。

在步骤306中，根据至少一个非活体人脸的多通道图像以及至少一个活体人脸的多通道图像对卷积神经网络进行训练以获取目标卷积神经网络

在步骤307中，在待检测视频中截取均包括人脸的至少M帧目标帧图像。

其中M＞1。

在步骤308中，对M帧目标帧图像的分辨率进行调整以获取分辨率为W*H的M帧图像。

在步骤309中，将M帧图像进行合并，生成大小为W*H*3M的多通道图像。

其中，3M为合并后的通道数。

在步骤310中，将多通道图像输入目标卷积神经网络进行检测并根据检测结果确定待检测视频中的人脸是否为活体人脸。

下述为本公开装置实施例，可以用于执行本公开方法实施例。

图4a是根据一个示例性实施例示出的一种人脸识别装置40的框图，人脸识别装置40可以为终端或终端的一部分，也可以为服务器或服务器的一部分，人脸识别装置40可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图4a所示，该人脸识别装置40包括：

人脸图像获取模块401，用于从待检测视频中获取均包括人脸的M帧图像，其中M＞1；

多通道图像合并模块402，用于对M帧图像进行合并生成多通道图像；

活体人脸识别模块403，用于将多通道图像输入目标卷积神经网络进行检测并根据检测结果确定待检测视频中的人脸是否为活体人脸，目标卷积神经网络为根据活体人脸的多通道图像以及非活体人脸的多通道图像对卷积神经网络进行训练获取，活体人脸的多通道图像为对M帧活体人脸的图像进行合并生成，非活体人脸的多通道图像为对M帧非活体人脸的图像进行合并生成。

在一个实施例中，如图4b所示，人脸图像获取模块401包括：

分别率调整子模块4011，用于在待检测视频中截取均包括人脸的至少M帧目标帧图像，并对M帧目标帧图像的分辨率进行调整以获取分辨率为指定分辨率的M帧图像。

在一个实施例中，指定分辨率为W*H，如图4c所示，多通道图像合并模块402，包括：

多通道图像合并子模块4021，用于将M帧图像进行合并，生成大小为W*H*3M的多通道图像，其中，3M为合并后的通道数。

本公开的实施例提供一种人脸识别装置，该人脸识别装置可以通过从待检测视频中获取均包括人脸的M帧图像，并对M帧图像进行合并生成多通道图像，将生成的多通道图像输入目标卷积神经网络进行检测，由于目标卷积神经网络为根据活体人脸的多通道图像以及非活体人脸的多通道图像对卷积神经网络进行训练获取的，因此该目标卷积神经网络已经深度学习了多帧活体人脸图像的相同及不同图像特征间的联系，可以根据检测结果确定M帧图像间不同及相同的图像特征间的联系是否与多帧活体人脸图像的相同及不同图像特征间的联系相似或相同，从而确定待检测视频中的人脸是否为活体人脸，提高了人脸识别的准确性，改善了用户体验。

图5是根据一个示例性实施例示出的一种卷积神经网络生成装置50的框图，卷积神经网络生成装置50可以为终端或终端的一部分，也可以为服务器或服务器的一部分，卷积神经网络生成装置50可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图5所示，该卷积神经网络生成装置50包括：

视频获取模块501，用于获取活体人脸视频以及非活体人脸视频，活体人脸视频为拍摄活体人脸的视频，非活体人脸视频为拍摄非活体人脸的视频

活体人脸图像获取模块502，用于从活体人脸视频中获取至少一组活体人脸图像，其中每组活体人脸图像包括M帧活体人脸的图像，M＞1；

非活体人脸图像获取模块503，用于从非活体人脸视频中获取至少一组非活体人脸图像，其中每组非活体人脸图像包括M帧非活体人脸的图像；

第一多通道图像合并模块504，用于对至少一组活体人脸图像中的每组活体人脸图像进行合并，生成至少一个活体人脸的多通道图像；

第二多通道图像合并模块505，用于对至少一组非活体人脸图像中的每组非活体人脸图像进行合并，生成至少一个非活体人脸的多通道图像；

神经网络训练模块506，用于根据至少一个非活体人脸的多通道图像以及至少一个活体人脸的多通道图像对卷积神经网络进行训练以获取目标卷积神经网络。

本公开的实施例提供一种卷积神经网络生成装置，该卷积神经网络生成装置可以通过获取活体人脸视频以及非活体人脸视频，并从活体人脸视频中获取至少一组活体人脸图像，从非活体人脸视频中获取至少一组非活体人脸图像，对至少一组活体人脸图像中的每组活体人脸图像进行合并，生成至少一个活体人脸的多通道图像，对至少一组非活体人脸图像中的每组非活体人脸图像进行合并，生成至少一个非活体人脸的多通道图像，根据至少一个非活体人脸的多通道图像以及至少一个活体人脸的多通道图像对卷积神经网络进行训练以获取目标卷积神经网络，由于目标卷积神经网络为根据活体人脸的多通道图像以及非活体人脸的多通道图像对卷积神经网络进行训练获取的，因此该目标卷积神经网络已经深度学习了多帧活体人脸图像的相同及不同图像特征间的联系，可以从待检测视频中获取均包括人脸的M帧图像，并对M帧图像进行合并生成多通道图像，将生成的多通道图像输入目标卷积神经网络进行检测，从而根据检测结果确定M帧图像间不同及相同的图像特征间的联系是否与多帧活体人脸图像的相同及不同图像特征间的联系相似或相同，从而确定待检测视频中的人脸是否为活体人脸，提高了人脸识别的准确性，改善了用户体验。

图6是根据一示例性实施例示出的一种人脸识别装置60的框图，该人脸识别装置60可以为终端或终端的一部分，也可以为服务器或服务器的一部分，人脸识别装置60包括：

处理器601；

用于存储处理器601可执行指令的存储器602；

其中，处理器601被配置为：

从待检测视频中获取均包括人脸的M帧图像，其中M＞1；

对M帧图像进行合并生成多通道图像；

在一个实施例中，上述处理器601还可以被配置为：

从待检测视频中获取包括人脸的M帧图像，包括：

在一个实施例中，上述处理器601还可以被配置为：

指定分辨率为W*H；

对M帧图像进行合并生成多通道图像，包括：

在一个实施例中，上述处理器601还可以被配置为：

M帧图像中任意两帧图像的时间间隔在预设时长区间内。

图7是根据一示例性实施例示出的一种卷积神经网络生成装置70的框图，该卷积神经网络生成装置70可以为终端或终端的一部分，也可以为服务器或服务器的一部分，人脸识别装置70包括：

处理器701；

用于存储处理器701可执行指令的存储器702；

其中，处理器701被配置为：

在一个实施例中，上述处理器701还可以被配置为：

M帧活体人脸的图像中任意两帧图像的时间间隔在预设时长区间内，M帧非活体人脸的图像中任意两帧图像的时间间隔在预设时长区间内。

图8是根据一示例性实施例示出的一种用于识别人脸的装置800的框图。例如，装置800可以被提供为一服务器。装置800包括处理组件822，其进一步包括一个或多个处理器，以及由存储器832所代表的存储器资源，用于存储可由处理组件822的执行的指令，例如应用程序。存储器832中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件822被配置为执行指令，以执行上述方法。

装置800还可以包括一个电源组件826被配置为执行装置800的电源管理，一个有线或无线网络接口850被配置为将装置800连接到网络，和一个输入输出(I/O)接口858。装置800可以操作基于存储在存储器832的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置800的处理器执行时，使得装置800能够执行人脸识别方法，所述方法包括：

从待检测视频中获取均包括人脸的M帧图像，其中M＞1；

对M帧图像进行合并生成多通道图像；

在一个实施例中，指定分辨率为W*H；

对M帧图像进行合并生成多通道图像，包括：

图9是根据一示例性实施例示出的一种用于生成卷积神经网络的装置900的框图。例如，装置900可以被提供为一服务器。装置900包括处理组件922，其进一步包括一个或多个处理器，以及由存储器932所代表的存储器资源，用于存储可由处理组件922的执行的指令，例如应用程序。存储器932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件922被配置为执行指令，以执行上述方法。

装置900还可以包括一个电源组件926被配置为执行装置900的电源管理，一个有线或无线网络接口950被配置为将装置900连接到网络，和一个输入输出(I/O)接口958。装置900可以操作基于存储在存储器932的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置900的处理器执行时，使得装置900能够执行卷积神经网络生成方法，所述方法包括：

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种人脸识别方法，其特征在于，包括：

从待检测视频中获取均包括人脸的M帧图像，其中M＞1；

对所述M帧图像进行合并生成多通道图像；

将所述多通道图像输入目标卷积神经网络进行检测并根据检测结果确定所述待检测视频中的人脸是否为活体人脸，所述目标卷积神经网络为根据活体人脸的多通道图像以及非活体人脸的多通道图像对卷积神经网络进行训练获取，所述活体人脸的多通道图像为对M帧活体人脸的图像进行合并生成，所述非活体人脸的多通道图像为对M帧非活体人脸的图像进行合并生成。

2.根据权利要求1所述的人脸识别方法，其特征在于，所述从待检测视频中获取包括人脸的M帧图像，包括：

在所述待检测视频中截取均包括人脸的至少M帧目标帧图像，并对所述M帧目标帧图像的分辨率进行调整以获取分辨率为指定分辨率的所述M帧图像。

3.根据权利要求1所述的人脸识别方法，其特征在于，所述指定分辨率为W*H；

所述对所述M帧图像进行合并生成多通道图像，包括：

将所述M帧图像进行合并，生成大小为W*H*3M的多通道图像，其中，3M为合并后的通道数。

4.根据权利要求1所述的人脸识别方法，其特征在于，所述M帧图像中任意两帧图像的时间间隔在预设时长区间内。

5.一种卷积神经网络生成方法，包括：

获取活体人脸视频以及非活体人脸视频，所述活体人脸视频为拍摄活体人脸的视频，所述非活体人脸视频为拍摄非活体人脸的视频；

从所述活体人脸视频中获取至少一组活体人脸图像，其中每组活体人脸图像包括M帧活体人脸的图像，M＞1；

从所述非活体人脸视频中获取至少一组非活体人脸图像，其中每组非活体人脸图像包括M帧非活体人脸的图像；

对所述至少一组活体人脸图像中的每组活体人脸图像进行合并，生成至少一个活体人脸的多通道图像；

对所述至少一组非活体人脸图像中的每组非活体人脸图像进行合并，生成至少一个非活体人脸的多通道图像；

根据所述至少一个非活体人脸的多通道图像以及所述至少一个活体人脸的多通道图像对卷积神经网络进行训练以获取目标卷积神经网络。

6.根据权利要求5所述的卷积神经网络生成方法，其特征在于，所述M帧活体人脸的图像中任意两帧图像的时间间隔在预设时长区间内，所述M帧非活体人脸的图像中任意两帧图像的时间间隔在预设时长区间内。

7.一种人脸识别装置，其特征在于，包括：

多通道图像合并模块，用于对所述M帧图像进行合并生成多通道图像；

活体人脸识别模块，用于将所述多通道图像输入目标卷积神经网络进行检测并根据检测结果确定所述待检测视频中的人脸是否为活体人脸，所述目标卷积神经网络为根据活体人脸的多通道图像以及非活体人脸的多通道图像对卷积神经网络进行训练获取，所述活体人脸的多通道图像为对M帧活体人脸的图像进行合并生成，所述非活体人脸的多通道图像为对M帧非活体人脸的图像进行合并生成。

8.根据权利要求7所述的人脸识别装置，其特征在于，所述人脸图像获取模块，包括：

分别率调整子模块，用于在所述待检测视频中截取均包括人脸的至少M帧目标帧图像，并对所述M帧目标帧图像的分辨率进行调整以获取分辨率为指定分辨率的所述M帧图像。

9.根据权利要求7所述的人脸识别装置，其特征在于，所述指定分辨率为W*H；

所述多通道图像合并模块，包括：

多通道图像合并子模块，用于将所述M帧图像进行合并，生成大小为W*H*3M的多通道图像，其中，3M为合并后的通道数。

10.根据权利要求7所述的人脸识别装置，其特征在于，所述M帧图像中任意两帧图像的时间间隔在预设时长区间内。

11.一种卷积神经网络生成装置，包括：

视频获取模块，用于获取活体人脸视频以及非活体人脸视频，所述活体人脸视频为拍摄活体人脸的视频，所述非活体人脸视频为拍摄非活体人脸的视频；

活体人脸图像获取模块，用于从所述活体人脸视频中获取至少一组活体人脸图像，其中每组活体人脸图像包括M帧活体人脸的图像，M＞1；

非活体人脸图像获取模块，用于从所述非活体人脸视频中获取至少一组非活体人脸图像，其中每组非活体人脸图像包括M帧非活体人脸的图像；

第一多通道图像合并模块，用于对所述至少一组活体人脸图像中的每组活体人脸图像进行合并，生成至少一个活体人脸的多通道图像；

第二多通道图像合并模块，用于对所述至少一组非活体人脸图像中的每组非活体人脸图像进行合并，生成至少一个非活体人脸的多通道图像；

神经网络训练模块，用于根据所述至少一个非活体人脸的多通道图像以及所述至少一个活体人脸的多通道图像对卷积神经网络进行训练以获取目标卷积神经网络。

12.根据权利要求11所述的卷积神经网络生成装置，其特征在于，所述M帧活体人脸的图像中任意两帧图像的时间间隔在预设时长区间内，所述M帧非活体人脸的图像中任意两帧图像的时间间隔在预设时长区间内。

13.一种人脸识别装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

从待检测视频中获取均包括人脸的M帧图像，其中M＞1；

对所述M帧图像进行合并生成多通道图像；

14.一种卷积神经网络生成装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

15.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-4或5-6任一项所述方法的步骤。