CN111353392A

CN111353392A - 换脸检测方法、装置、设备及存储介质

Info

Publication number: CN111353392A
Application number: CN202010097995.3A
Authority: CN
Inventors: 蒋进; 叶泽雄; 肖万鹏; 鞠奇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-02-18
Filing date: 2020-02-18
Publication date: 2020-06-30
Anticipated expiration: 2040-02-18
Also published as: CN111353392B

Abstract

本申请提供了一种换脸检测方法、装置、设备及存储介质；所述方法包括：获取待检测图像，其中所述待检测图像中至少包括人脸区域；通过神经网络模型进行基于所述待检测图像的预测操作，得到预测结果，其中，所述神经网络模型至少是基于训练图像组的组合特征训练得到的，所述训练图像组包括至少两个训练图像，所述预测结果用于表征所述待检测图像是否为换脸图像；输出所述预测结果。通过本申请，能够提高换脸图像的识别准确率。

Description

换脸检测方法、装置、设备及存储介质

技术领域

本申请涉及互联网技术领域，尤其涉及一种换脸检测方法、装置、设备及存储介质。

背景技术

人脸数字化的发展是现代人脸图像编辑工具的基础。人脸编辑分为两类：人物修改(换脸)和表情修改(换表情)。除了使用Photoshop等工具手动编辑人脸以外，近年来出现了很多自动化方法。其中以Deepfake为代表的视频换脸技术，由于其换脸逼真程度很高，人眼难以分辨真伪的原因，引发了广泛的社会舆论。视频换脸的应用对于个人隐私、人脸支付安全性以及名人形象侵犯等都会带来风险，因此检测和鉴别视频中的人物是否被换脸，对于网络安全是一个十分重要及必要的技术。

发明内容

本申请实施例提供一种换脸检测方法、装置及存储介质，能够提高换脸图像的识别准确率。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种换脸检测方法，包括：

获取待检测图像，其中，待检测图像中至少包括人脸区域；

通过神经网络模型进行基于待检测图像的预测操作，得到预测结果，其中，该神经网络模型至少是基于训练图像组的组合特征训练得到的，训练图像组包括至少两个训练图像，该预测结果用于表征该待检测图像是否为换脸图像；

输出该预测结果。

本申请实施例提供一种换脸检测装置，包括：

第一获取模块，用于获取待检测图像，其中，待检测图像中至少包括人脸区域；

预测模块，用于通过神经网络模型进行基于待检测图像的预测操作，得到预测结果，其中，该神经网络模型至少是基于训练图像组的组合特征训练得到的，训练图像组包括至少两个训练图像，该预测结果用于表征该待检测图像是否为换脸图像；

输出模块，用于输出预测结果。

本申请实施例提供一种换脸检测设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行存储器中存储的可执行指令时，实现本申请实施例提供的方法。

本申请实施例提供一种存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的方法。

本申请实施例具有以下有益效果：

在本申请实施例提供的换脸检测方法中，在获取到包括人脸区域的待检测图像后，通过神经网络模型进行基于待检测图像的预测操作，得到预测结果，该神经网络模型至少是基于训练图像组的组合特征训练得到的，训练图像组包括至少两个训练图像，该预测结果用于表征该待检测图像是否为换脸图像，由于该神经网络模型在训练时，运用了多个训练图像的组合特征，使得区分信息更加丰富，进而训练得到的神经网络模型的测试准确率更高，从而提高最终输出的预测结果的准确度。

附图说明

图1为本申请实施例换脸检测方法的网络架构示意图；

图2是本申请实施例提供的服务器200的组成结构示意图；

图3为本申请实施例提供的换脸检测方法的一种实现流程示意图；

图4为本申请实施例神经网络的训练过程实现示意图；

图5为本申请实施例提供的换脸检测方法的另一种实现流程示意图；

图6为本申请实施例提供的一种图像鉴别换脸过程的实现流程示意图；

图7A为进行鉴别换脸的常规CNN网络的网络架构；

图7B为本申请实施例提供的进行鉴别换脸的GFN网络架构；

图8A为本申请实施例提供的GFN网络联合约束示意图；

图8B为本申请实施例提供的GFN网络联合约束的实例示意图；

图9A为利用本申请实施例提供的GFN网络对单张测试图片进行预测的实现流程示意图；

图9B为利用本申请实施例提供的GFN网络对多张测试图片进行预测的实现流程示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)神经网络：又可以称为神经网络模型，是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。

2)卷积神经网络：是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。卷积神经网络具有表征学习能力，能够按其阶层结构对输入信息进行平移不变分类，因此也被称为“平移不变人工神经网络”。

3)损失函数(Loss Function)，又称为代价函数(cost function)或优化目标函数，是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。在应用中，损失函数通常作为学习准则与优化问题相联系，即通过最小化损失函数求解和评估模型。例如在统计学和机器学习中被用于模型的参数估计，是机器学习模型的优化目标。

为了更好地理解本申请实施例，首先对相关技术中的换脸检测方法及存在的缺点进行说明。

卷积神经网络(Convolutional Neural Networks，CNN)有极强的学习表征能力，在相关技术中，视频换脸也使用了CNN技术，因此目前主要的检测换脸的方法主体结构也是基于卷积神经网络。目前已有的视频换脸检测方法有以下几种方式：

第一种方式、基于人物行为二分类，比如发现合成的换脸视频人物缺乏眨眼，人类静止时的眨眼频率平均为每分钟17次；当一个人说话时，眨眼频率增加到每分钟26次，阅读时则减少到每分钟4.5次。使用眼睛长宽比(EAR)或卷积神经网络(CNN)分类器来检测眼睛是睁开着还是闭着，通过结合眼睛的状态区分视频人物是真人还是换脸。

第二种方式、基于人脸区域的二分类，以XceptionNet为主干网络将图像分为换脸及真人。该数据集下，对于低分辨率视频人眼分类准确率为61％，XceptionNet分类精度为85.49％，模型判断人物换脸的能力超过人眼。

第三种方式、基于像素二分类判断换脸，通过CNN提取全局空间特征，通过长短期记忆(Long Short-Term Memory，LSTM)提取路径(Paths)区域特征，特征后通过解码(Decode)网络结构，网络最后输出一张原图大小的特征地图(Feature Map)。Feature Map上的高响应区域为篡改区域，可通过人脸区域是否篡改判断人物换脸。

第四种方式、基于时序人脸区域二分类，通过LSTM考虑视频帧的时间序列关系，多帧人脸区域输出CNN+LSTM网络结构，输出结果判断是换脸还是真人。

在上述的几种换脸检测方案中，主要是通过改进网络结构，增加时序信息，或者图片像素二分类，去提升鉴别换脸的分类精度。这些方法在训练分类模型时都是将单张图片作为输入，最后利用分类输出判断鉴别结果。单图批量输入模型，训练分类器，没有充分利用真人、换脸的面部潜在信息。模型学到的区分信息有限，容易拟合训练数据。

基于此，本申请实施例提供一种换脸检测方法，将鉴别换脸由二分类转化为有序关系的图像组网络框架GFN(Group Feature Network)，该GFN网络是通过特征组合的联合约束训练得到的，使GFN在分类上获取更强的区分特征，从而提高人脸检测的准确性。

下面说明实现本申请实施例的装置的示例性应用，本申请实施例提供的装置可以实施为终端设备。下面，将说明装置实施为终端设备时涵盖终端设备的示例性应用。

参见图1，图1为本申请实施例换脸检测方法的网络架构示意图，如图1所示，在该网络架构中至少包括用户终端100、服务器200和网络300。为实现支撑一个示例性应用，用户终端100通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。

当用户想要确定某一图像或者某一视频中的各帧图像是否为换脸图像时，可以将待检测的图像或者视频由用户终端100通过网络300发送给服务器200，进而由服务器200利用训练好的神经网络模型对待检测的图像进行人脸检测，并得到是否进行了换脸的检测结果，并将检测结果发送给用户终端100。在一些实施例中，还可以是用户终端100将图像标识或者视频标识通过网络300发送给服务器200，服务器200根据图像标识或视频标识搜索得到对应的图像或视频，并进行人脸检测，以确定是否进行了换脸，并将检测结果发送给用户终端100。

基于如图1所示的网络架构，还可以是用户终端100将图像标识或视频标识通过网络300发送给服务器，服务器200根据图像标识或视频标识搜索得到对应的图像或视频，并发送给用户终端100，由用户终端100利用训练好的神经网络进行人脸检测，以确定是否进行了换脸。需要说明的是，该实现方式对用户终端100的计算能力要求较高，为了减少终端的运算量以及加快检测效率，一般采用由服务器200进行人脸检测的实现方式。

在下文的描述中，为了描述方便，将上述各种可能方式的服务器都统称为服务器，因此服务器200不应简单理解为一个或一类服务器，而是根据上述的示例，在实际应用中为了支撑应用或网页而部署的各种可能形式的服务器。

本申请实施例提供的装置可以实施为硬件或者软硬件结合的方式，下面说明本申请实施例提供的装置的各种示例性实施。

服务器200可以是单个的服务器，也可以是由多各服务器构成的服务器集群、云计算中心等，根据图2示出的服务器200的示例性结构，可以预见服务器200的其他的示例性结构，因此这里所描述的结构不应视为限制，例如可以省略下文所描述的部分组件，或者，增设下文所未记载的组件以适应某些应用的特殊需求。

图2所示的服务器200包括：至少一个处理器210、存储器240、至少一个网络接口220和用户接口230。终端200中的每个组件通过总线系统250耦合在一起。可理解，总线系统250用于实现这些组件之间的连接通信。总线系统250除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统250。

用户接口230可以包括显示器、键盘、鼠标、触感板和触摸屏等。

存储器240可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)。易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器240旨在包括任意适合类型的存储器。

本申请实施例中的存储器240能够存储数据以支持服务器200的操作。这些数据的示例包括：用于在服务器200上操作的任何计算机程序，如操作系统和应用程序。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

作为本申请实施例提供的方法采用软件实施的示例，本申请实施例所提供的方法可以直接体现为由处理器210执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器240，处理器210读取存储器240中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器210以及连接到总线250的其他组件)完成本申请实施例提供的方法。

作为示例，处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

将结合本申请实施例提供的服务器的示例性应用和实施，说明本申请实施例提供的换脸检测方法。

为了更好地理解本申请实施例提供的方法，首先对人工智能、人工智能的各个分支，以及本申请实施例提供的方法所涉及的应用领域进行说明。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。以下对本申请实施例所涉及的机器学习(ML，Machine Learning)这一分支进行说明。

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的机器学习等技术，具体通过如下实施例进行说明。

参见图3，图3为本申请实施例提供的换脸检测方法的一种实现流程示意图，应用于图1所示的服务器，将结合图3示出的步骤进行说明。

步骤S101，获取待检测图像。

这里，该待检测图像中至少包括人脸区域。在本申请实施例中待检测图像可以是一个，也可以是多个。当为多个时，待检测图像可以是一个视频中的各帧图像。

步骤S101在实现时，可以是服务器接收用户终端发送的待检测图像，从而获取到待检测图像。在一些实施例中，还可以是服务器基于用户终端发送的待检测图像的标识，获取待检测图像。

步骤S102，通过神经网络模型进行基于待检测图像的预测操作，得到预测结果。

这里，神经网络模型可以为卷积神经网络模型。

该神经网络模型至少是基于训练图像组的组合特征训练得到的，一个训练图像组中包括至少两个训练图像，在对该神经网络模型进行训练时，提取到训练图像组中包含的各个训练图像的图像特征后，将各个训练图像的图像特征进行拼接组合，从而得到该训练图像组的组合特征，另外训练图像组的标签信息也是根据各个训练图像的标签信息组合得到的，例如，当每个训练图像组中包括两个训练图像，每个训练图像的标签信息为1个比特位，那么训练图像组的标签信息为两个比特位，这样在基于训练图像组的组合特征、训练图像组的标签信息、各个训练图像的图像特征和各个训练图像的标签信息训练神经网络模型时，可以引入更丰富的信息，进而提高神经网络的预测准确率。

需要说明的是，在训练神经网络模型时，使用的训练数据是包括至少两个训练图像的训练图像组，但是在通过训练好的神经网络模型对待检测图像进行预测操作时，不限于必须一次同时对至少两个待检测图像，而可以对单个待检测图像进行预测操作。

该预测结果用于表征待检测图像是否为换脸图像。

步骤S103，输出预测结果。

这里，输出预测结果在实现时，可以是将预测结果发送至用户终端，还可以是在服务器自身的显示设备上显示该预测结果。当然在一些实施例中，输出预测结果可以是将预测结果发送至用户终端，并且在服务器自身的显示设备上显示该预测结果。

由于待检测图像可以为一个或至少两个，当待检测图像为一个时，那么将待检测图像输入到训练好的神经网络模型中，即可得到对应的预测结果。

当该待检测图像为至少两个时，步骤S102“通过神经网络模型进行基于待检测图像的预测操作，得到预测结果”可以有两种实现方式：一是每次输入单张待检测图像，分别得到相应的子预测结果，进而再通过各个子预测结果确定最终的预测结果，二是，每次输入与训练图像组中包含的训练图像的数量相同的待检测图像，以得到待检测图像组的子预测结果，从而根据各个子预测结果确定出最终的预测结果，以下对两种实现方式分别进行说明。

在实际实现过程中，第一种实现方式可以通过以下步骤实现：

步骤S1021a，通过训练好的神经网络模型依次进行基于单张待检测图像的预测操作，得到各个待检测图像的第一预测子结果。

这里，将各个单张待检测图像依次输入到训练好的神经网络模型中，以通过该训练好的神经网络模型对各个待检测图像进行预测操作，从而得到各个待检测图像的第一预测子结果。

在对单张待检测图像进行预测操作时，得到的预测结果与单张训练图像的标签信息的比特位是相同的，例如单张训练图像的标签信息为1个比特位，其中1表示是换脸图像，0表示是真人图像，那么对单张待预测图像进行预测操作，得到的预测结果也是1个比特位的预测结果，同样地，如果预测结果为1，那么表明该单张待检测图像为换脸图像；如果预测结果为0，那么表明该单张待检测图像为真人图像。

步骤S1022a，基于各个待检测图像的第一预测子结果，确定预测结果。

这里，步骤S1022a在实现时，可以是只要当各个待检测图像中出现一个为0的第一预测子结果，那么就确定预测结果为0，也就是说，只要各个待检测图像中有一个是换脸图像，那么就确定该多个待检测图像的预测结果为换脸图像。举例来说，一个视频中包括100个图像帧，那么只要这100个图像帧中有一个是换脸图像帧，就确定该视频为换脸视频。

在一些实施例中，还可以是确定多个待检测图像中第一预测子结果为0的图像个数，和/或第一预测子结果为1的图像个数，并确定出第一预测子结果为0的百分比，和/或第一预测子结果为1的百分比，当第一预测子结果为0的百分比大于一定阈值时，确定预测结果为0，或者当第一预测子结果为1的百分比大于一定阈值时，确定预测结果为1。举例来说，一个视频中包括100个图像帧，其中第一预测子结果为0的百分比为80％，第一预测结果为1的百分比为20％，设定阈值为50％，由于第一预测子结果为0的百分比80％大于50％，因此，确定预测结果为0，也即该视频为换脸视频。

需要说明的是，即便在训练神经网络时，每次是通过至少两个训练图像的特征以及组合特征进行参数调整的，这样能够保证训练好的神经网络在进行预测时的准确性，这样即便是对单张待检测图像进行预测时，也能保证较高的准确率。

在实际实现过程中，第二种实现方式可以通过以下步骤实现：

步骤S1021b，将多个待检测图像进行划分得到至少一个检测图像组。

这里，将对多个待检测图像划分成检测图像组时，检测图像组中包括的待检测图像的数量与训练图像组中的训练图像的数量相同。例如训练图像组中包括两个训练图像，那么将多个待检测图像进行两两划分，从而得到多个检测图像组，其中，当多个待检测图像为奇数个时，那么最后得到一个单张待检测图像。当多个待检测图像为偶数个时，那么可以得到每个都包括两个待检测图像的多个检测图像组。

步骤S1022b，通过该神经网络模型依次进行基于检测图像组的预测操作，得到各个检测图像组的第二预测子结果。

这里，将各个待检测图像组依次输入到训练好的神经网络，以利用该神经网络对检测图像组中的各个待检测图像是否为换脸图像进行预测，并得到各个检测图像组的第二预测子结果。

第二预测子结果的比特位数为检测图像组中待检测图像个数与训练图像的标签信息的比特位的乘积。举例来说，当检测图像组中有2个待检测图像，训练图像的标签信息的比特位为1位时，那么第二预测子结果的比特位数为2，例如可以是00、01、10、11。当第二预测子结果为00时，表示检测图像组中的两个待检测图像都是真人图像；当第二预测子结果为11时，表示检测图像组中的两个待检测图像都是换脸图像；当第二预测子结果为01时，表示检测图像组中第一个待检测图像为真人图像、第二个待检测图像为换脸图像；当第二预测子结果为10时表示第一个待检测图像为换脸图像、第二个待检测图像为真人图像。

步骤S1023b，基于各个检测图像组的第二预测子结果，确定最终的预测结果。

这里，步骤S1023b在实现时，可以是根据各个检测图像组的第二预测子结果，得到各个待检测图像对应的预测子结果，进而再确定最终的预测结果。进一步地，可以是只要当各个待检测图像中出现一个为0的预测子结果，那么就确定最终的预测结果为0，也就是说，只要各个待检测图像中有一个是换脸图像，那么就确定该多个待检测图像的预测结果为换脸图像。举例来说，一个视频中包括100个图像帧，那么只要这100个图像帧中有一个是换脸图像帧，就确定该视频为换脸视频。当然也可以是计算换脸图像占总的待检测图像的百分比，当该百分比大于一定阈值时，则认为最终的预测结果为换脸图像。

在实际实现过程中，在对待检测图像进行预测处理时，采用第一种方式还是采用第二种方式，从精确度上讲是相同的，但是从计算效率上看，第二种实现方式的计算效率更高，当待检测图像个数较少时可以采用第一种实现方式，可以减少划分分组的过程，当待检测图像的个数较多时，可以采用第二种实现方式，以提高计算效率。

在实现本申请实施例提供的换脸检测方法之前，首先要得到训练好的神经网络，图4为本申请实施例神经网络的训练过程实现示意图，如图4所示，该流程包括：

步骤S001，获取多个训练图像和各个训练图像的标签信息。

这里，训练图像的标签信息用于表征训练图像是否为换脸图像，由于是否为换脸图像只有两种情况，是换脸图像或者不是换脸图像，因此用1个比特位就进行区分，例如可以用1来表示训练图像为换脸图像，用0来表示训练图像为真人图像。

步骤S002，将多个训练图像划分为至少一个训练图像组。

这里，一个训练图像组中包括至少两个训练图像，例如可以包括两个或者三个。需要说明的是，为了保证对神经网络的训练效率，一个训练图像组中包括的训练图像的个数也不会太多，一般不会超过五个。

步骤S003，基于每个训练图像组中包括的各个训练图像的标签信息，确定每个训练图像组对应的标签信息。

这里，一个训练图像组对应的标签信息，是由该训练图像组中所包含的训练图像的标签信息确定出来的，进一步地，是将该训练图像组中所包含的各个训练图像的标签信息组合得到的，例如一个训练图像组中包含两个训练图像，每个训练图像的标签信息为1个比特位，取值为0或者1，例如第一个训练图像的标签信息为0，第二个训练图像的标签信息为1，那么该训练图像组的标签信息为两个比特位，承接上述的举例，其标签信息为01。

步骤S004，基于至少一个训练图像组和至少一个训练图像组对应的标签信息训练神经网络模型。

在一些实施例中，该步骤可以通过下述的步骤S041至步骤S043实现，以下对各步骤进行说明。

步骤S041，获取每个训练图像组中各个训练图像的图像特征。

这里，步骤S041在实现时，可以首先对各个训练图像进行人脸识别，以确定出人脸图像区域，进而再提取人脸图像区域的图像特征，进一步地，可以利用预设的特征提取方法，提取各个训练图像中人脸图像区域的图像特征，例如可以是尺度不变特征变换(Scale-invariant features transform，SIFT)算法、加速稳健特征(Speeded Up RobustFeatures，SURF)算法等。提取出的图像特征实际上是一个向量，因此图像特征又可以称为图像特征向量或特征向量。

由于训练图像的尺寸不尽相同，或者即便训练图像的尺寸相同，不同的训练图像中的人脸图像区域也是大小不一的，因此可以在提取出人脸图像区域后，将人脸图像区域进行对齐，也就是将人脸图像区域都调整到预设大小，例如可以调整到224*224的尺寸大小，对于小于该预设大小的人脸图像区域进行插值，对于大于该预设大小的人脸图像区域进行采样。

步骤S042，基于各个训练图像的图像特征，确定训练图像组的组合特征。

这里，当获取到训练图像组中所包含的各个训练图像的图像特征后，可以将各个训练图像的图像特征进行拼接，从而得到该训练图像组的组合特征。

举例来说，训练图像组中包含两个训练图像，每个训练图像的图像特征为1*M的向量，那么该训练图像组的组合特征为1*2M的向量。

步骤S043，基于每个训练图像组中的各个训练图像的图像特征、各个训练图像的标签信息、训练图像组的组合特征、训练图像组的标签信息训练神经网络模型。

这里，在实际实现时，可以是将各个训练图像的图像特征、训练图像组的组合特征作为输入，对该训练图像组进行预测，得到该训练图像组的预测标签信息，并将得到的预测标签信息和训练图像组的实际标签信息的差值，在该神经网络模型中进行反向传播，以更新该神经网络模型中的参数，从而实现对该神经网络模型的训练。

通过步骤S001至步骤S004所在的实施例，能够在训练神经网络模型时，将至少两个训练图像作为一组，并进行特征组合，从而能够得到区分性更强的特征，并且提供了更丰富的训练数据，使得训练好的神经网络模型的预测准确度明显提高。

在一些实施例中，上述步骤S043可以通过以下步骤实现：

步骤S431，获取每个训练图像组中各个训练图像的图像特征对应的各个第一损失函数和第二损失函数。

这里，第一损失函数用于使得各个训练图像的图像特征与各个标签信息相对应，第二损失函数用于使得具有相同标签信息的训练图像的图像特征在特征空间中聚集，具有不同标签信息的训练图像的图像特征相互远离。

在实际实现过程中，第一损失函数可以是softmax loss函数，第二损失韩式可以是contrastive loss函数，triplet loss函数等。

步骤S432，获取每个训练图像组的组合特征对应的第三损失函数和第四损失函数。

这里，第三损失函数用于使得组合图像特征按照指定分布进行聚集，第四损失函数用于使得组合图像特征与训练图像组的标签信息相对应。

在实际实现过程中，第三损失函数可以是Gaussian Mixture Loss函数、Ringloss函数等，第四损失函数可以是softmax loss函数等。

步骤S433，根据各个第一损失函数、第二损失函数、第三损失函数和第四损失函数对该神经网络进行联合训练，以对神经网络模型的参数进行调整。

这里，步骤S433在实现时，可以是将各个第一损失函数、第二损失函数、第三损失函数和第四损失函数进行相加，得到最终的优化目标函数，进行联合训练，也即通过对神经网络模型的参数进行调整使得最终的优化目标函数达到最小。

基于前述的实施例，本申请实施例再提供一种换脸检测方法，应用于图1所示的网络架构，图5为本申请实施例提供的换脸检测方法的再一种实现流程示意图，如图5所示，该方法包括：

步骤S501，用户终端响应于用户的操作，确定待检测图像。

这里，在实现时可以是用户选择一张图像或者多张图像，还可以是选择一段视频作为待检测图像，用户终端基于用户的选择操作，确定对应的待检测图像。

步骤S502，用户终端向服务器发送人脸检测请求。

这里，人脸检测请求用于请求服务器确定待检测图像是否为换脸图像，并且该人脸检测请求中至少携带有待检测图像。

步骤S503，服务器接收到人脸检测请求后，获取该人脸检测请求中携带的待检测图像。

这里，服务器在接收到人脸检测请求后，解析该人脸检测请求，从而获取到该人脸检测请求中携带的待检测图像，当人脸检测请求中携带的是一段视频时，可以对该视频进行解码以得到各个待检测图像帧。

步骤S504，服务器获取待检测图像的个数，并判断待检测图像的个数是否大于个数阈值。

这里，当待检测图像的个数大于个数阈值时，可以进入步骤S507，将待检测图像进行分组，再进行预测，以确定预测结果；当待检测图像的个数小于或者等于个数阈值时，进入步骤S505，直接对单张待检测图像进行预测，以确定预测结果。

步骤S505，服务器通过训练好的神经网络模型依次进行基于单张待检测图像的预测操作，得到各个待检测图像的第一预测子结果。

这里，该神经网络模型至少是基于训练图像组的组合特征训练得到的，一个训练图像组中包括至少两个训练图像，在对该神经网络模型进行训练时，提取到训练图像组中包含的各个训练图像的图像特征后，将各个训练图像的图像特征进行拼接组合，从而得到该训练图像组的组合特征，另外训练图像组的标签信息也是根据各个训练图像的标签信息组合得到的，这样在基于训练图像组的组合特征、训练图像组的标签信息、各个训练图像的图像特征和各个训练图像的标签信息训练神经网络模型时，可以引入更丰富的信息，进而提高神经网络的预测准确率。

该训练好的神经网络模型对单张待检测图像进行预测操作时，首先进行人脸识别，并将识别出的人脸图像区域进行对齐，进而再提取人脸图像区域的图像特征，基于该图像特征进行预测，得到第一预测子结果。

步骤S506，服务器基于各个待检测图像的第一预测子结果，确定预测结果。

这里，步骤S506在实现时，可以是只要当各个待检测图像中出现一个为0的第一预测子结果，那么就确定预测结果为0；还可以是确定多个待检测图像中第一预测子结果为0的图像个数，和/或第一预测子结果为1的图像个数，并确定出第一预测子结果为0的百分比，和/或第一预测子结果为1的百分比，当第一预测子结果为0的百分比大于一定阈值时，确定预测结果为0，或者当第一预测子结果为1的百分比大于一定阈值时，确定预测结果为1。

在步骤S506之后进入步骤S510。

步骤S507，服务器对待检测图像进行划分得到至少一个检测图像组。

这里，检测图像组中包括的待检测图像的数量与训练图像组中的训练图像的数量相同。

步骤S508，服务器通过训练好的神经网络模型依次进行基于检测图像组的预测操作，得到各个检测图像组的第二预测子结果。

第二预测子结果的比特位数为检测图像组中待检测图像个数与训练图像的标签信息的比特位的乘积。举例来说，当检测图像组中有2个待检测图像，训练图像的标签信息的比特位为1位时，那么第二预测子结果的比特位数为2，例如可以是00、01、10、11。

步骤S509，服务器基于各个检测图像组的第二预测子结果，确定预测结果。

这里，在实现时，可以是根据各个检测图像组的第二预测子结果，得到各个待检测图像对应的预测子结果，进而再确定最终的预测结果。

步骤S510，服务器将预测结果携带于人脸检测响应中发送至用户终端。

步骤S511，用户终端接收到人脸检测响应后，解析该人脸检测响应得到预测结果。

步骤S512，用户终端输出该预测结果。

这里，用户终端在输出该预测结果时，可以是在用户终端的显示装置中以文字的形式显示该预测结果；还可以是以语言输出该预测结果。

在本申请实施例提供的换脸检测方法中，当用户终端确定好待检测图像后，将待检测图像携带于人脸检测请求中发送至服务器，而服务器在接收到该人脸检测请求后，基于待检测图像的数量，选择不同的实现方式，但两种实现方式都是基于训练好的神经网络模型，由于该神经网络模型在训练时，运用了多个训练图像的组合特征，使得区分信息更加丰富，进而训练得到的神经网络模型的测试准确率更高，从而提高最终输出的预测结果的准确度。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

针对相关技术中进行人脸检测以进行换脸鉴别存在的问题，在本申请实施例中提出一种基于GFN用于鉴别换脸模型的训练及使用。

图像鉴别换脸主要包含人脸检测及鉴别换脸，图6为本申请实施例提供的一种图像鉴别换脸过程的实现流程示意图，如图6所示，该流程包括：

步骤S601，输入待鉴别图片，以进行人脸识别。

步骤S602，判断是否识别到人脸。

步骤S603，对齐人脸。

这里，对齐人脸可以是将人脸图像区域的大小调整至预设大小，例如在本申请实施例中，可以是调整到224*224的大小。

步骤S604，基于对齐后的人脸图像，判断是否换脸。

鉴别换脸包含两个阶段，训练阶段和使用阶段，其中，在训练阶段得到鉴别换脸模型，使用阶段通过训练阶段得到的鉴别换脸模型判断是换脸还是真人。

在鉴别换脸训练阶段，需要利用训练数据(换脸图片、真人图片)和训练标签(换脸标签为0、真人标签为1)训练网络结构(可以是常见的鉴别换脸CNN网络框架)。在实现过程中，将训练数据输入CNN网络中，以0和1作为为训练标签，训练该鉴别换脸模型。

图7A为进行鉴别换脸的常规CNN网络的网络架构，图7B为本申请实施例提供的进行鉴别换脸的GFN网络架构。通过图7A和图7B的对比可以看出，在常规的CNN网络中，在训练网络时，每次都是只输入单张图片，并且也仅仅是利用单张图片的特征进行训练，而在本申请实施例中，为了充分利用0、1标签信息，将图像组(至少两张图像)输入如图7B所示的网络，分别得到图像组中各个图像的特征，并将各个图像的特征构成特征组，这样特征组具有更丰富的区分信息能够帮助网络训练。

本申请实施例提供的GFN网络训练网络特征和标签信息更加丰富(原有0、1标签变成0、1的排序标签，以两个图像为一个图像组为例，标签信息变为4个：00、01、10、11)，并且有两个特征层FC和一个组合特征，三个特征可以引入更多合理约束联合训练。

图8A为本申请实施例提供的GFN网络联合约束示意图，如图8A所示，对于两个图片的不同特征之间进行类型约束，对于两个图片的两个特征分别进行0,1类别约束，对组合特征进行特征分布约束和0，1排序约束。其中，类型约束是通过度量类内、类类的距离，在特征空间让同类聚集，异类相互远离；0，1类别约束是通过0，1标签学习，特征预测换脸、真人；特征分布约束是指特征按照指定分布进行聚集；0，1排序约束是通过0，1标签组合，特征预测00前后换脸，01前换脸后真人，10前真人后换脸，11前后真人。

约束是指训练过程中，设置损失函数(loss function)，图8B为本申请实施例提供的GFN网络联合约束的实例示意图，如图8B所示，在联合约束的实际实现过程中，类型约束可以将损失函数设置为对比损失函数(contrastive loss)或者triplet loss；0,1类别约束可以将损失函数设置为softmax loss)；特征分布约束可以将损失函数设置为GaussianMixture Loss或者Ring loss；0,1排序约束可以将损失函数设置为softmax loss。

GFN网络通过联合约束训练，GFN特征(特征层FC，组合特征)比常规CNN分类特征在鉴别换脸上有更好的区分性。在GFN网络训练好后有两种使用方式：对单张测试图片进行预测和对多张测试图片进行预测。

图9A为利用本申请实施例提供的GFN网络对单张测试图片进行预测的实现流程示意图，如图9A所示，该流程包括：

步骤S901，输入测试图片。

步骤S902，利用训练好的GFN网络模型将该测试图片通过卷积层并进行降采样。

步骤S903，通过特征层FC得到图片特征。

步骤S904，根据得到的图片特征进行预测，以得到预测结果。

图9B为利用本申请实施例提供的GFN网络对多张测试图片进行预测的实现流程示意图，如图9B所示，该流程包括：

步骤S911，输入一组测试图片。

这里，在图9B中示例性地输出两张测试图片。

步骤S912，利用训练好的GFN网络模型将两张测试图片分别通过卷积层并进行降采样。

步骤S913，通过特征层FC得到两张图片的图片特征。

步骤S914，将两张图片的图片特征进行组合，得到组合特征。

这里，在实际实现过程中，可以是将两张图片的图片特征进行拼接，得到组合特征。

步骤S915，根据得到的组合特征对测试图片进行预测，以得到预测结果。

利用本申请实施例提供的GFN网络可以明显提升对于换脸视频的识别效果。GFN网络与二分类网络在相同训练数据、相同网络结构、相同特征维度下，GFN网络比二分类网络在FaceForensics++测试集上精度提升9％，在自建换脸视频集(387个视频，换脸276个、真人111个)真人精度相同下对换脸视频覆盖提升19％。GFN网络为通用网络框架，可以两张图片为一组、三张图片为一组，联合约束可以自由选择相应损失函数，对于常规分类任务，比如人脸活体识别，能通过GFN网络可以学习到更强的区分特征，在提升模型分类能力同时不增加计算量。

下面继续说明本申请实施例提供的换脸检测装置80的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器240的换脸检测装置80中的软件模块可以包括：

第一获取模块81，用于获取待检测图像，其中，待检测图像中至少包括人脸区域；

预测模块82，用于通过神经网络模型进行基于待检测图像的预测操作，得到预测结果，其中，该神经网络模型至少是基于训练图像组的组合特征训练得到的，训练图像组包括至少两个训练图像，该预测结果用于表征该待检测图像是否为换脸图像；

输出模块83，用于输出预测结果。

在其他实施例中，该装置还包括：

第二获取模块，用于获取多个训练图像和各个训练图像的标签信息；

第一划分模块，用于将多个训练图像划分为至少一个训练图像组；

第一确定模块，用于基于每个训练图像组中包括的各个训练图像的标签信息，确定每个训练图像组对应的标签信息；

训练模块，用于基于至少一个训练图像组和至少一个训练图像组对应的标签信息训练神经网络模型。

在其他实施例中，该训练模块，还用于：

获取每个训练图像组中各个训练图像的图像特征；

基于各个训练图像的图像特征，确定训练图像组的组合特征；

基于每个训练图像组中的各个训练图像的图像特征、各个训练图像的标签信息、训练图像组的组合特征、训练图像组的标签信息训练该神经网络模型。

在其他实施例中，该训练模块还用于：

获取每个训练图像组中各个训练图像的图像特征对应的各个第一损失函数和第二损失函数，其中，各个第一损失函数用于使得各个训练图像的图像特征与各个标签信息相对应，第二损失函数用于使得具有相同标签信息的训练图像的图像特征在特征空间中聚集，具有不同标签信息的训练图像的图像特征相互远离；

获取每个训练图像组的组合特征对应的第三损失函数和第四损失函数，其中，第三损失函数用于使得组合图像特征按照指定分布进行聚集，第四损失函数用于使得训练图像组的组合图像特征与训练图像组的标签信息相对应；

根据各个第一损失函数、第二损失函数、第三损失函数和第四损失函数对该神经网络进行联合训练，以对该神经网络模型的参数进行调整。

在其他实施例中，待检测图像为一个或至少两个，对应地，当待检测图像为至少两个时，该预测模块，还用于：

通过该神经网络模型依次进行基于单张待检测图像的预测操作，得到各个待检测图像的第一预测子结果；

基于各个待检测图像的第一预测子结果，确定预测结果。

将待检测图像进行划分得到至少一个检测图像组，其中，检测图像组中包括的待检测图像的数量与训练图像组中的训练图像的数量相同；

通过该神经网络模型依次进行基于检测图像组的预测操作，得到各个检测图像组的第二预测子结果；

基于各个检测图像组的第二预测子结果，确定预测结果。

本申请实施例提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的方法，例如，如图3、图4和图5示出的方法。

在一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种换脸检测方法，其特征在于，包括：

获取待检测图像，其中所述待检测图像中至少包括人脸区域；

通过神经网络模型进行基于所述待检测图像的预测操作，得到预测结果，其中，所述神经网络模型至少是基于训练图像组的组合特征训练得到的，所述训练图像组包括至少两个训练图像，所述预测结果用于表征所述待检测图像是否为换脸图像；

输出所述预测结果。

2.根据权利要求1中所述的方法，其特征在于，所述方法还包括：

获取多个训练图像和各个训练图像的标签信息；

将所述多个训练图像划分为至少一个训练图像组；

基于每个训练图像组中包括的各个训练图像的标签信息，确定所述每个训练图像组对应的标签信息；

基于所述至少一个训练图像组和所述至少一个训练图像组对应的标签信息训练神经网络模型。

3.根据权利要求2中所述的方法，其特征在于，所述基于所述至少一个训练图像组和所述至少一个训练图像组对应的标签信息训练神经网络模型，包括：

获取每个训练图像组中各个训练图像的图像特征；

基于所述各个训练图像的图像特征，确定训练图像组的组合特征；

基于每个训练图像组中的各个训练图像的图像特征、各个训练图像的标签信息、训练图像组的组合特征、训练图像组的标签信息训练所述神经网络模型。

4.根据权利要求3中所述的方法，其特征在于，所述基于每个训练图像组中的各个训练图像的图像特征、各个训练图像的标签信息、训练图像组的组合特征、训练图像组的标签信息训练所述神经网络模型包括：

获取每个训练图像组中各个训练图像的图像特征对应的各个第一损失函数和第二损失函数，其中所述各个第一损失函数用于使得各个训练图像的图像特征与各个标签信息相对应，所述第二损失函数用于使得具有相同标签信息的训练图像的图像特征在特征空间中聚集，具有不同标签信息的训练图像的图像特征相互远离；

获取每个训练图像组的组合特征对应的第三损失函数和第四损失函数，其中，所述第三损失函数用于使得组合图像特征按照指定分布进行聚集，所述第四损失函数用于使得训练图像组的组合图像特征与训练图像组的标签信息相对应；

根据所述各个第一损失函数、第二损失函数、第三损失函数和第四损失函数对所述神经网络进行联合训练，以对所述神经网络模型的参数进行调整。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述待检测图像为一个或至少两个，对应地，当所述待检测图像为至少两个时，通过神经网络模型进行基于所述待检测图像的预测操作，得到预测结果，包括：

通过所述神经网络模型依次进行基于单张待检测图像的预测操作，得到各个待检测图像的第一预测子结果；

基于各个待检测图像的第一预测子结果，确定所述预测结果。

6.根据权利要求1至4中任一项所述的方法，其特征在于，所述待检测图像为一个或至少两个，对应地，当所述待检测图像为至少两个时，通过神经网络模型进行基于所述待检测图像的预测操作，得到预测结果，包括：

将所述待检测图像进行划分得到至少一个检测图像组，其中，检测图像组中包括的待检测图像的数量与所述训练图像组中的训练图像的数量相同；

通过所述神经网络模型依次进行基于检测图像组的预测操作，得到各个检测图像组的第二预测子结果；

基于各个检测图像组的第二预测子结果，确定所述预测结果。

7.一种换脸检测装置，其特征在于，所述装置包括：

第一获取模块，用于获取待检测图像，其中所述待检测图像中至少包括人脸区域；

预测模块，用于通过神经网络模型进行基于所述待检测图像的预测操作，得到预测结果，其中，所述神经网络模型至少是基于训练图像组的组合特征训练得到的，所述训练图像组包括至少两个训练图像，所述预测结果用于表征所述待检测图像是否为换脸图像；

输出模块，用于输出所述预测结果。

8.根据权利要求7中所述的装置，其特征在于，所述装置还包括：

第一划分模块，用于将所述多个训练图像划分为至少一个训练图像组；

第一确定模块，用于基于每个训练图像组中包括的各个训练图像的标签信息，确定所述每个训练图像组对应的标签信息；

训练模块，用于基于所述至少一个训练图像组和所述至少一个训练图像组对应的标签信息训练神经网络模型。

9.一种换脸检测设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至6任一项所述的方法。

10.一种存储介质，其特征在于，存储有可执行指令，用于引起处理器执行时，实现权利要求1至6任一项所述的方法。