CN112767303A

CN112767303A - 一种图像检测方法、装置、设备及计算机可读存储介质

Info

Publication number: CN112767303A
Application number: CN202010806564.XA
Authority: CN
Inventors: 张勇; 罗宇辰; 严骏驰; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-08-12
Filing date: 2020-08-12
Publication date: 2021-05-07
Anticipated expiration: 2040-08-12
Also published as: CN112767303B

Abstract

本申请实施例提供了一种图像检测方法、装置、设备及计算机可读存储介质；方法包括：获取包括人脸区域的待检测图像；提取人脸区域的第一模态特征和第二模态特征；依据第一模态特征和第二模态特征的相似性，分别对第一模态特征和第二模态特征进行迭代增强，得到第一目标模态特征和第二目标模态特征；依据第一目标模态特征和第二目标模态特征的融合特征，获取待检测图像的换脸检测结果。通过本申请实施例，能够提升图像检测的精准度。

Description

一种图像检测方法、装置、设备及计算机可读存储介质

技术领域

本申请涉及人工智能领域中的图像处理技术，尤其涉及一种图像检测方法、装置、设备及计算机可读存储介质。

背景技术

随着人工智能在图像领域的广泛应用，人脸换脸技术得到了广泛发展。比如，通过生成式对抗网络，即使没有视觉技术背景的用户也能轻松完成人脸换脸操作；然而，人脸换脸在个人隐私、人脸支付安全性以及名人形象侵犯等方面都会带来风险，因此，检测图像中的人物对象是否被换脸，对于网络安全是十分重要的。

一般来说，在检测图像中的人物对象是否被换脸时，通常采用多模态方式提取图像的特征，并根据提取到的特征获得图像的换脸检测结果。然而，上述图像的换脸检测过程中，所提取到的图像的特征的表达能力较弱，故换脸检测结果的准确度较低，从而，图像检测的准确度较低。

发明内容

本申请实施例提供一种图像检测方法、装置、设备及计算机可读存储介质，能够提升图像检测的准确度。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种图像检测方法，包括：

获取包括人脸区域的待检测图像；

提取所述人脸区域的第一模态特征和第二模态特征；

依据所述第一模态特征和所述第二模态特征的相似性，分别对所述第一模态特征和所述第二模态特征进行迭代增强，得到第一目标模态特征和第二目标模态特征；

依据所述第一目标模态特征和所述第二目标模态特征的融合特征，获取所述待检测图像的换脸检测结果。

本申请实施例提供一种图像检测装置，包括：

图像获取模块，用于获取包括人脸区域的待检测图像；

特征提取模块，用于提取所述人脸区域的第一模态特征和第二模态特征；

特征增强模块，用于依据所述第一模态特征和所述第二模态特征的相似性，分别对所述第一模态特征和所述第二模态特征进行迭代增强，得到第一目标模态特征和第二目标模态特征；

换脸检测模块，用于依据所述第一目标模态特征和所述第二目标模态特征的融合特征，获取所述待检测图像的换脸检测结果。

在本申请实施例中，所述特征增强模块，还用于依据所述第一模态特征和所述第二模态特征的相似性，分别对所述第一模态特征和所述第二模态特征进行增强，并获取当前迭代增强次数；当所述当前迭代增强次数等于预设迭代增强次数时，确定增强后的第一模态特征为所述第一目标模态特征，以及确定增强后的第二模态特征为所述第二目标模态特征；当所述当前迭代增强次数小于所述预设迭代增强次数时，依据所述增强后的第一模态特征和所述增强后的第二模态特征的相似性，持续对所述增强后的第一模态特征和所述增强后的第二模态特征进行迭代增强，并更新所述当前迭代增强次数，直到更新的当前迭代增强次数等于所述预设迭代增强次数时，得到所述第一目标模态特征和所述第二目标模态特征。

在本申请实施例中，所述特征增强模块，还用于将所述第一模态特征转化为第一特性特征和第一共性特征，将所述第二模态特征转化为第二特性特征和第二共性特征；获取所述第一共性特征和所述第二共性特征的相似性，得到相似特征；利用第一投影方式和第二投影方式分别对所述相似特征进行投影，依次得到第一模态注意力信息和第二模态注意力信息；利用所述第一模态注意力信息和所述第二特性特征，获取第一模态增强特征，融合所述第一模态增强特征与所述第一模态特征，完成对所述第一模态特征的增强；利用所述第二模态注意力信息和所述第一特性特征，获取第二模态增强特征，融合所述第二模态增强特征与所述第二模态特征，完成对所述第二模态特征的增强。

在本申请实施例中，所述特征提取模块，还用于对所述人脸区域进行高频滤波处理，得到残差图像；获取所述残差图像的空间注意力信息；提取所述人脸区域的第一初始模态特征；基于空间位置，融合所述空间注意力信息对应的特征和所述第一初始模态特征，得到所述第一模态特征；提取所述残差图像的特征，得到所述第二模态特征。

在本申请实施例中，所述特征提取模块，还用于对所述残差图像进行初始特征提取，得到初始残差特征；对所述初始残差特征进行整合，得到待处理特征；对所述待处理特征进行预处理，得到待映射特征；对所述待映射特征进行映射，得到所述空间注意力信息。

在本申请实施例中，所述特征提取模块，还用于采用第一整合方式对所述初始残差特征进行整合，得到第一残差整合特征；采用第二整合方式对所述初始残差特征进行整合，得到第二残差整合特征；其中，所述第一整合方式与所述第二整合方式为不同的整合方式；拼接所述第一残差整合特征和所述第二残差整合特征，得到所述待处理特征。

在本申请实施例中，所述特征提取模块、所述特征增强模块和换脸检测模块可通过利用预设检测模型实现。

在本申请实施例中，所述图像检测装置还包括模型训练模块，用于获取待检测样本，所述待检测样本包括样本图像和标注结果；利用初始检测模型，对所述样本图像进行图像检测，得到预测结果；获取所述预测结果和所述标注结果之间的差异，得到损失函数值；利用所述损失函数值对所述初始检测模型进行迭代训练，直到满足训练截止条件时，确定训练后的初始检测模型为所述预设检测模型。

在本申请实施例中，所述图像检测装置还包括模型优化模块，用于获取新的待检测样本；利用所述新的待检测样本对所述预设检测模型进行优化，得到优化后的预设检测模型；

在本申请实施例中，所述特征提取模块、所述特征增强模块和换脸检测模块可通过所述优化后的预设检测模型实现。

在本申请实施例中，所述图像获取模块，还用于在图像检测界面上，接收作用在检测控件上的检测操作；响应所述检测操作，获取包括所述人脸区域的所述待检测图像。

在本申请实施例中，所述图像检测装置还包括结果展示模块，用于在所述图像检测界面上的结果展示区域中，展示所述换脸检测结果。

在本申请实施例中，所述图像获取模块，还用于接收客户端设备发送的换脸检测请求；响应所述换脸检测请求，获取包括所述人脸区域的所述待检测图像。

在本申请实施例中，所述结果展示模块，还用于将所述换脸检测发送至所述客户端设备，以在所述客户端设备的展示界面上展示所述换脸检测结果。

在本申请实施例中，所述第一模态特征为低频特征，所述第二模态特征为高频特征。

本申请实施例提供一种图像检测设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的图像检测方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的图像检测方法。

本申请实施例至少具有以下有益效果：由于对待检测图像的人脸区域进行检测的过程中，利用各模态下特征之间的相似性对各模态下的特征进行了迭代增强处理，使得所获得的换脸检测结果是依据迭代增强的第一模态特征(第一目标模态特征)和迭代增强的第二模态特征(第二目标模态特征)的融合特征检测出的；因此，用于获取换脸检测结果的融合特征的表达能力较强，故，换脸检测结果的准确度高，从而，能够提升图像检测的准确度。

附图说明

图1是本申请实施例提供的图像检测系统的一个可选的架构示意图；

图2是本申请实施例提供的图1中的服务器的组成结构示意图；

图3是本申请实施例提供的图像检测方法的一个可选的流程示意图；

图4是本申请实施例提供的图像检测方法的另一个可选的流程示意图；

图5是本申请实施例提供的图像检测方法的又一个可选的流程示意图；

图6是本申请实施例提供的一种示例性的获取待检测图像的示意图；

图7是本申请实施例提供的一种示例性的换脸检测结果的展示示意图；

图8是本申请实施例提供的另一种示例性的获取待检测图像的示意图；

图9是本申请实施例提供的另一种示例性的换脸检测结果的展示示意图；

图10是本申请实施例提供的一种示例性的图像检测流程示意图；

图11是本申请实施例提供的一种示例性的获取空间注意力信息的流程示意图；

图12是本申请实施例提供的一种示例性的跨模态交互的流程示意图；

图13是本申请实施例提供的另一种示例性的跨模态交互的流程示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)人工智能(Artificial Intelligence，AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

2)机器学习(Machine Learning，ML)：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能；重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习通常包括人工神经网络、置信网络、强化学习、迁移学习和归纳学习等技术。

3)人工神经网络：是一种模仿生物神经网络结构和功能的数学模型，比如深度神经网络(Deep Neural Networks，DNN)、卷积神经网络(Convolutional Neural Network，CNN)和循环神经网络(Recurrent Neural Network，RNN)等。

4)生成式对抗网络(GAN，Generative Adversarial Networks)：是一种深度学习模型；这里以生成图片为例进行说明，GAN中包括两个网络，生成(Generator)网络和对抗(Discriminator)网络，其中，生成网络用于生成图片，对抗网络用于判别生成网络所生成的图片是不是为真实的图片；也就是说，GAN网络用于生成一个不容易被检测出不是真实图片的图片。

5)换脸检测技术：指检测待检测图像中的人物对象的人脸是否被换脸的技术。

6)多模态：即多模态生物识别，是指整合或融合两种及两种以上生物识别技术，利用多重生物识别技术的独特优势，并结合数据融合技术，使得认证和识别过程更加精准、安全。与传统的单一生物识别方式的主要区别在于，多模态生物识别技术可通过独立的或多种采集方式合而为一的采集器，采集不同的生物特征(如指纹、指静脉、人脸和虹膜图像等)，并通过分析和判断多种生物识别方式的特征值进行识别和认证；也就是说，模态即类别。

随着人工智能在图像领域的广泛应用，人脸换脸技术得到了广泛发展。比如，通过生成式对抗网络，即使没有视觉技术背景的用户也能轻松完成人脸换脸操作；例如“ZAO”应用。然而，人脸换脸在个人隐私、人脸支付安全性以及名人形象侵犯等方面都会带来风险，比如，大量换脸图像被上传到网络，侵害了用户的肖像权和隐私安全；因此，检测图像中的人物对象是否被换脸，对于网络安全是一个十分重要及必要的技术。

基于此，换脸的自动检测技术也随之被提出。比如，首先，采用两个分支网络来提取待检测图像的特征，其中，一分支网络用于提取待检测图像的第一模态特征(比如，从待检测图像中提取与RGB(红绿蓝)关联的第一模态特征)，另一分支网络用于提取待检测图像的第二模态特征(比如，“CFA”敏感高频特征、傅里叶高频特征或隐写分析特征SRMs(Spatial Rich Models，空域富模型))；然后，在网络模型末端将第一模态特征和第二模态特征融合；最后，根据融合的特征进行图像检测，以获得换脸检测结果。然而，上述图像的换脸检测过程中，由于各模态的特征是独立提取，在最后通过特征融合获得的用于人脸检测的特征，因此，用于人脸检测的特征的表达能力较弱，图像检测的准确度较低。

本申请实施例提供一种图像检测方法、装置、设备和计算机可读存储介质，能够提升图像检测的准确度。

下面说明本申请实施例提供的图像检测设备的示例性应用，本申请实施例提供的图像检测设备可以实施为笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的用户终端，也可以实施为服务器。下面，将说明设备实施为服务器时的示例性应用。

参见图1，图1是本申请实施例提供的图像检测系统的一个可选的架构示意图；如图1所示，为支撑一个图像检测应用，在图像检测系统100中，终端400(客户端设备，示例性示出了终端400-1和终端400-2)通过网络300连接服务器200(图像检测设备)，网络300可以是广域网或者局域网，又或者是二者的组合。另外，该图像检测系统100中还包括数据库500，通过数据库500向服务器200提供数据服务，以支持服务器200进行图像检测。

终端400-1，用于在图形界面400-11上显示检测控件400-12，当接收到作用在检测控件400-12上的检测操作时，响应检测操作，采集包括人脸区域的图像，也就获得了待检测图像；将待检测图像通过网络300发送至服务器200；并接收服务器200通过网络300所发送的换脸检测结果，以在图像界面400-11上展示该换脸检测结果(图中未示出)，并根据换脸检测结果进行后续处理。

终端400-2，用于在图形界面400-21上显示检测控件400-22，当接收到作用在检测控件400-22上的检测操作时，响应检测操作，获取上传的包括人脸区域的图像，也就获得了待检测图像；将待检测图像通过网络300发送至服务器200；并接收服务器200通过网络300所发送的换脸检测结果，以在图像界面400-21上展示该换脸检测结果(图中未示出)，并根据换脸检测结果进行后续处理。

服务器200，用于通过网络300接收终端400所发送的包括人脸区域的待检测图像，提取人脸区域的第一模态特征和第二模态特征；依据第一模态特征和第二模态特征的相似性，分别对第一模态特征和第二模态特征进行迭代增强，得到第一目标模态特征和第二目标模态特征；依据第一目标模态特征和第二目标模态特征的融合特征，获取待检测图像的换脸检测结果；并通过网络300向终端400发送换脸检测结果。

需要说明的是，终端400所对应的功能可以集成在服务器200中，或者服务器200所对应的功能也可以集成在终端400中，此时，在一个设备上实现本申请实施例提供的图像检测系统。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

参见图2，图2是本申请实施例提供的图1中的服务器的组成结构示意图；图2所示的服务器200包括：至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。服务器200中的各个组件通过总线系统240耦合在一起。可理解，总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统240。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器250可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。

存储器250包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Me mory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memor y)。本申请实施例描述的存储器250旨在包括任意适合类型的存储器。

在一些实施例中，存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统251，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块252，用于经由一个或多个(有线或无线)网络接口220到达其他计算设备，示例性的网络接口220包括：蓝牙、无线相容性认证(Wi-Fi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块253，用于经由一个或多个与用户接口230相关联的输出装置231(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块254，用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的图像检测装置可以采用软件方式实现，图2示出了存储在存储器250中的图像检测装置255，其可以是程序和插件等形式的软件，包括以下软件模块：图像获取模块2551、特征提取模块2552、特征增强模块2553、换脸检测模块2554、模型训练模块2555、模型优化模块2556和结果展示模块2557，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。

将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的图像检测装置可以采用硬件方式实现，作为示例，本申请实施例提供的图像检测装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的图像检测方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD，Progra mmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmabl e Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

下面，将结合本申请实施例提供的服务器的示例性应用和实施，说明本申请实施例提供的图像检测方法。

参见图3，图3是本申请实施例提供的图像检测方法的一个可选的流程示意图，将结合图3示出的步骤进行说明。

S301、获取包括人脸区域的待检测图像。

在本申请实施例中，当对图像中的人脸所在区域进行换脸检测时，比如，用户通过终端采集或上传人脸图像，并上传至服务器时，或者，管理员在服务器上上传人脸图像时，服务器也就获得了包括人脸区域的待检测图像。这里，待检测图像是指服务器获取到的包括人脸区域的原始图像；而人脸区域指待检测图像中人脸所在的区域，易知，当将人脸区域从待检测图像中截取出来之后，也是图像形式。

需要说明的是，由于本申请实施例所提供的图像检测方法是对图像中的人脸区域进行换脸检测的方法，因此，待检测图像是包括人脸区域的；而确定待检测图像的人脸区域时，可以采用人脸关键点信息进行检测来实现，还可以采用其他人脸检测方式来实现；并且，待检测图像的人脸区域的确定，可以是在服务器上实现的，还可以是在终端上实现的；本申请实施例对此不作具体限定。

S302、提取人脸区域的第一模态特征和第二模态特征。

在本申请实施例中，获得了包括人脸区域的待检测图像之后，为了提升图像检测精准度，仅对人脸区域进行处理。这里，服务器采用两种模态对人脸区域进行特征提取，一种模态是提取人脸区域的第一模态特征，比如，人脸区域的内容所对应的特征(RGB特征图等)；另一种模态是提取人脸区域的第二模态特征，比如，人脸区域的纹理和轮廓所对应的特征(CFA敏感特征、傅里叶高频特征和隐写分析特征等)。

需要说明的是，第一模态特征可以为低频特征，即人脸区域对应的灰度变化小于变化阈值的图像信息对应的特征；第二模态特征可以为高频特征，即人脸区域对应的灰度变化大于变化阈值的图像信息对应的特征。

S303、依据第一模态特征和第二模态特征的相似性，分别对第一模态特征和第二模态特征进行迭代增强，得到第一目标模态特征和第二目标模态特征。

需要说明的是，服务获得了第一模态特征和第二模态特征之后，由于第一模态特征和第二模态特征均是人脸区域的特征，因此，第一模态特征和第二模态特征之间是具有共性的；此时，服务器依据第一模态特征和第二模态特征之间的共性，即相似性，分别对第一模态特征和第二模态特征进行迭代增强，迭代增强后的第一模态特征即第一目标模态特征，迭代增强后的第二模态特征即第二目标模态特征。

这里，服务器对第一模态特征和第二模态特征进行迭代增强，是指对第一模态特征和第二模态特征进行至少一次的增强，且至少一次的增强是迭代进行的。

S304、依据第一目标模态特征和第二目标模态特征的融合特征，获取待检测图像的换脸检测结果。

在本申请实施例中，服务器获得了第一目标模态特征和第二目标模态特征之后，将第一目标模态特征和第二目标模态特征进行融合，也就得到了融合特征；此时，服务器再依据融合特征进行换脸检测，也就得到了待检测图像的换脸检测结果。这里，换脸检测结果指待检测图像的人脸区域是否是假脸的结果，故，换脸检测结果可能为待检测图像是换脸(假脸)图像，也可能为待检测图像是未换脸(真脸)图像，还可能为图像识别失败，等等，本申请实施例对此不作具体限定；另外，当换脸检测结果为图像识别失败时，可能是由于人脸区域不符合预设人脸条件(比如，像素值低于预设像素值，人脸区域中人脸关键点数量少于预设人脸关键点数量即人脸区域中人脸信息不完整)。

需要说明的是，服务器将第一目标模态特征和第二目标模态特征进行融合时，可以是将第一目标模态特征和第二目标模态特征拼接，也可以是将第一目标模态特征和第二目标模态特征叠加，还可以是将第一目标模态特征和第二目标模态特征相乘，等等，本申请实施例对此不作具体限定。

还需要说明的是，本申请实施例中还可以对待检测图像中的人脸区域提取两种模态以上的特征，并基于两种模态以上的特征对每种模态的特征进行迭代增强，以及融合迭代增强的各模态的特征以实现换脸检测；具体实现方式同S301-S304的实现过程类似，本申请实施例对此不作具体限定。

可以理解的是，本申请实施例中服务器在获得了多模态对应的特征之后，并不是直接对多模态对应的特征进行融合以进行换脸检测，而是利用多模态对应的特征之间的相似性对各模态对应的特征进行迭代增强，以增强各模型态对应的特征的表达能力；使得用于检测换脸的融合特征的表达能力得到了增强，故，换脸检测结果的准确度高，从而，能够提升图像检测的准确度。

在本申请实施例中，参见图4，图4是本申请实施例提供的图像检测方法的另一个可选的流程示意图；如图4所示，S303可通过S3031-S3033实现；也就是说，服务器依据第一模态特征和第二模态特征的相似性，分别对第一模态特征和第二模态特征进行迭代增强，得到第一目标模态特征和第二目标模态特征，包括S3031-S3033，下面对各步骤分别进行说明。

S3031、依据第一模态特征和第二模态特征的相似性，分别对第一模态特征和第二模态特征进行增强，并获取当前迭代增强次数。

在本申请实施例中，服务器对第一模态特征和第二模态特征的增强是迭代进行的，首先，服务器依据第一模态特征和第二模态特征的相似性，分别对第一模态特征和第二模态特征进行增强。

这里，服务器完成对第一模态特征和第二模态特征的增强之后，还获取当前迭代增强次数，其中，当前迭代增强次数为当前已完成增强的次数；易知，此时，当前迭代增强次数为1。

S3032、当当前迭代增强次数等于预设迭代增强次数时，确定增强后的第一模态特征为第一目标模态特征，以及确定增强后的第二模态特征为第二目标模态特征。

需要说明的是，服务器中预先设置有增强结束条件，或者服务器能够预先获取到增强结束条件；该增强结束条件用于结束迭代增强的处理，确定迭代增强的次数；从而，服务器每完成一次增强处理就判断是否满足增强结束条件，故，当增强结束条件为预设迭代增强次数时，服务器完成了对第一模态特征和第二模态特征的首次增强处理，并在确定满足增强结束条件(即当前迭代增强次数等于预设迭代增强次数)时，将增强后的第一模态特征确定为第一目标模态特征，将增强后的第二模态特征确定为第二目标模态特征。

这里，增强后的第一模态特征和增强后的第二模态特征满足增强结束条件，可以是指增强后的第一模态特征和增强后的第二模态特征所对应的增强次数达到了预设迭代增强次数，还可以是指增强后的第一模态特征和增强后的第二模态特征达到了预设表达能力，等等，本申请实施例对此不作具体限定。

S3033、当当前迭代增强次数小于预设迭代增强次数时，依据增强后的第一模态特征和增强后的第二模态特征的相似性，持续对增强后的第一模态特征和增强后的第二模态特征进行迭代增强，并更新当前迭代增强次数，直到更新的当前迭代增强次数等于预设迭代增强次数时，得到第一目标模态特征和第二目标模态特征。

需要说明的是，当服务器完成了对第一模态特征和第二模态特征的首次增强处理，并在确定满足增强结束条件时，持续依据增强后的第一模态特征和增强后的第二模态特征的相似性，持续对增强后的第一模态特征和增强后的第二模态特征进行迭代增强，并对当前迭代增强次数进行累加，以更新当前迭代增强次数，直到满足增强结束条件(当前迭代增强次数小于预设迭代增强次数)时，将迭代增强的第一模态特征确定为第一目标模态特征，将迭代增强的第二模态特征确定为第二目标模态特征。

这里，增强后的第一模态特征和增强后的第二模态特征不满足增强结束条件，可以是指增强后的第一模态特征和增强后的第二模态特征所对应的增强次数未达到预设迭代增强次数，还可以是指增强后的第一模态特征和增强后的第二模态特征未达到预设表达能力，等等，本申请实施例对此不作具体限定。

继续参见图4，在本申请实施例中，S3031中服务器依据第一模态特征和第二模态特征的相似性，分别对第一模态特征和第二模态特征进行增强，包括S30311-S30315，下面对各步骤分别进行说明。

S30311、将第一模态特征转化为第一特性特征和第一共性特征，将第二模态特征转化为第二特性特征和第二共性特征。

需要说明的是，服务器所获得的第一模态特征和第二模态特征，均分别包括对应的共性特征和对应的特性特征；其中，共性特征指一模态对应的特征中用于与其他模态对比的特征，又称为检索特征，比如，“key”特征图；而特性特征指一模态对应的特征中的内容特征，又称为值特征，比如，“value”特征图。因此，服务器为确定两模态对应的特征之间的相似性，对两模态对应的特征分别进行转化；这里，服务器将第一模态特征转化为第一特性特征和第一共性特征，将第二模态特征转化为第二特性特征和第二共性特征；易知，第一特性特征为第一模态特征的特性特征，第一共性特征为第一模态特征的共性特征，第二特性特征为第二模态特征的特性特征，第二共性特征为第二模态特征的共性特征。

在本申请实施例中，服务器对第一模态特征和第二模态特征进行转化时，可以是分别对第一模态特征和第二模态特征分别进行不同的卷积处理实现的；比如，将第一模态特征输入至一个卷积层中进行卷积处理得到第一特性特征，将第一模态特征输入至另两个卷积层中进行卷积处理并进行铺平处理得到第一共性特征，将第二模态特征输入至又一个卷积层中进行卷积处理得到第二特性特征，将第二模态特征输入至再两个卷积层中进行卷积处理并进行铺平处理得到第二共性特征。

S30312、获取第一共性特征和第二共性特征的相似性，得到相似特征。

在本申请实施例中，第一模态特征和第二模态特征之间具有可比性的特征为第一共性特征和第二共性特征，因此，服务器获得了第一共性特征和第二共性特征之后，对比第一共性特征和第二共性特征，基于第一共性特征和第二共性特征之间的相似性，获取第一共性特征和第二共性特征之间的相似特征。

需要说明的是，相似特征为第一共性特征和第二共性特征之间相似的特征，用于表征第一共性特征和第二共性特征的相似性，也用于表征第一模态特征和第二模态特征的相似程度。

这里，服务器在获取第一共性特征和第二共性特征的相似特征时，可以将第一共性特征和第二共性特征相乘，所获得的相乘结果即相似特征。

S30313、利用第一投影方式和第二投影方式分别对相似特征进行投影，依次得到第一模态注意力信息和第二模态注意力信息。

在本申请实施例中，服务器中预先设置有与第一模态特征对应的第一投影方式，以及与第二模态特征对应的第二投影方式；以在获得了相似特征之后，利用第一投影方式和第二投影方式分别对相似特征进行投影，依次得到与第一模态特征对应的注意力信息即第一模态注意力信息，以及与第二模态特征对应的注意力信息即第二模态注意力信息。

需要说明的是，注意力信息即权重信息，从而第一模态注意力信息为第一模态特征在第二模态特征中的注意力信息，即第二模态特征中与第一模态特征关联的特征的权重信息；第二模态注意力信息为第二模态特征在第一模态特征中的注意力信息，即第一模态特征中与第二模态特征关联的特征的权重信息。

S30314、利用第一模态注意力信息和第二特性特征，获取第一模态增强特征，融合第一模态增强特征与第一模态特征，完成对第一模态特征的增强。

在本申请实施例中，服务器获得了第一模态注意力信息之后，将该第一模态注意力信息与第二特性特征相乘，也就得到了第二模态特征中用于对第一模态特征增强的特征，即第一模态增强特征；此时，服务器将该第一模态增强特征与第一模态特征进行融合，也就得到增强后的第一模态特征，完成了对第一模态特征的增强。

这里，服务器将第一模态增强特征与第一模态特征进行融合时，可以是将第一模态增强特征与第一模态特征叠加，也可是相乘，还可以是拼接，等等，本申请实施例对此不作具体限定。

S30315、利用第二模态注意力信息和第一特性特征，获取第二模态增强特征，融合第二模态增强特征与第二模态特征，完成对第二模态特征的增强。

在本申请实施例中，服务器获得了第二模态注意力信息之后，将该第二模态注意力信息与第一特性特征相乘，也就得到了第一模态特征中用于对第二模态特征增强的特征，即第二模态增强特征；此时，服务器将该第二模态增强特征与第二模态特征进行融合，也就得到增强后的第二模态特征，完成了对第二模态特征的增强。

这里，服务器将第二模态增强特征与第二模态特征进行融合时，可以是将第二模态增强特征与第二模态特征叠加，也可是相乘，还可以是拼接，等等，本申请实施例对此不作具体限定。

需要说明的是，S30314和S30315在执行顺序上不分先后，图4中示出的为先执行S30314再执行S30315的执行顺序。

还需要说明的是，服务器在迭代增强时，每次利用两种模态对应的特征之间的相似性进行增强的过程，均与S30311-S30315的实现过程的描述类似，本申请实施例在此不再赘述。

在本申请实施例中，参见图5，图5是本申请实施例提供的图像检测方法的又一个可选的流程示意图；如图5所示，S302可通过S3021-S3025实现；也就是说，服务器提取人脸区域的第一模态特征和第二模态特征，包括S3021-S3025，下面对各步骤分别进行说明。

S3021、对人脸区域进行高频滤波处理，得到残差图像。

在本申请实施例中，服务器对人脸区域进行高频滤波处理，所获得的高频滤波处理后的人脸区域即残差图像。这里，残差图像为包含人脸区域的高频信息的图像，比如，SRM(spatial rich models，空域富模型)图像；另外，服务器在对人脸区域进行高频滤波处理时，可采用高频滤波器对人脸区域进行高频滤波处理，比如，利用SRMs中的三个高频滤波器对人脸区域进行高频滤波处理，以得到残差图像。

S3022、获取残差图像的空间注意力信息。

需要说明的是，人脸区域对应的包含低频信息的图像(比如，RGB图像)的空间位置，和残差图像的空间位置存在对应关系；从而，服务器可以利用残差图像来辅助人脸区域中第一模态特征的提取；其中，空间位置指像素点位置。

这里，服务器依据残差图像，获取人脸区域中的高频信息在空间位置上与低频信息对应的注意力信息，也就得到了与残差图像对应的空间注意力信息；也就是说，空间注意力信息是指基于空间位置确定的残差图像中的低频信息在高频信息中的注意力信息，即残差图像中的高频信息中与低频信息关联的特征的权重信息。

S3023、提取人脸区域的第一初始模态特征。

在本申请实施例中，服务器从人脸区域中提取第一初始模态特征，比如，颜色通道特征(RGB特征图)。

S3024、基于空间位置，融合空间注意力信息对应的特征和第一初始模态特征，得到第一模态特征。

在本申请实施例中，服务器获得了第一初始模态特征和空间注意力信息之后，在空间位置上将空间注意力信息对应的特征和第一初始模态特征进行融合，也就得到了第一模态特征。这里，融合可以是相乘，还可以是叠加，又可以是拼接，等等。

可以理解的是，通过残差图像在空间位置与人脸区域的低频信息在空间位置上的对应关系，实现高频信息在第一模态特征提取的辅助，使得获得的第一模态特征是增强的特征；从而增强了提取的第一模态特征的表达能力，也就提升了图像检测的准确度。

S3025、提取残差图像的特征，得到第二模态特征。

需要说明的是，由于残差图像中包含人脸区域的高频信息的图像，因此，服务器从残差图像中提取特征，也就得到了人脸区域的第二模态特征。

还需要说明的是，S3022-S3024和S3025在执行顺序上不分先后，而图5示出的为先执行S3022-S3024再执行S3025的顺序。

在本申请实施例中，S3022可通过S30221-S30224实现；也就是说，服务器获取残差图像的空间注意力信息，包括S30221-S30224，下面对各步骤分别进行说明。

S30221、对残差图像进行初始特征提取，得到初始残差特征。

在本申请实施例中，服务器获得了残差图像之后，对残差图像进行初始特征的提取，也就得到了初始残差特征；也就是说，初始残差特征为残差图像的初始特征。这里，初始特征提取可以是利用卷积层进行初始特征提取的处理。

S30222、对初始残差特征进行整合，得到待处理特征。

需要说明的是，服务器获得了初始残差特征之后，对该初始残差特征进行整合，也就得到了待处理特征；也就是说，待处理特征为整合后的初始残差特征。这里，整合可以是池化处理，还可以是其他的降维处理或下采样处理，等等。

S30223、对待处理特征进行预处理，得到待映射特征。

需要说明的是，服务器获得了待处理特征之后，在对待处理特征进行映射之前，对待处理特征进行预处理，以获得能够被映射的特征；此时，也就得到了待映射特征；易知，待映射特征为预处理后的待处理特征。

这里，预处理比如为降维、增加线性表达能力的处理等，例如，将待处理特征输入指1*1的卷积层进行预处理。

S30224、对待映射特征进行映射，得到空间注意力信息。

在本申请实施例中，服务器获得了待处理特征，对待处理特征进行映射，比如，采用激励函数进行映射，又比如，利用预设特征对待处理特征进行投影；此时，也就得到了空间注意力信息。

在本申请实施例中，S30222可通过S302221-S302223实现；也就是说，服务器对初始残差特征进行整合，得到待处理特征，包括S302221-S302223，下面对各步骤分别进行说明。

S302221、采用第一整合方式对初始残差特征进行整合，得到第一残差整合特征。

在本申请实施例中，服务器中预先设置有多种整合方式：第一整合方式和第二整合方式；比如，第一整合方式和第二整合方式分别为最大池化方式、平均池化方式和最小池化方式中的任意两个不同的池化方式。从而，服务器利用第一整合方式对初始残差特征进行整合，所获得的整合结果即第一残差整合特征。

S302222、采用第二整合方式对初始残差特征进行整合，得到第二残差整合特征。

在本申请实施例中，服务器利用第二整合方式对初始残差特征进行整合，所获得的整合结果即第二残差整合特征。

其中，第一整合方式与第二整合方式为不同的整合方式。

S302223、拼接第一残差整合特征和第二残差整合特征，得到待处理特征。

在本申请实施例中，服务器获得了第一残差整合特征和第二残差整合特征之后，对第一残差整合特征和第二残差整合特征进行拼接，所获得的拼接结果即待处理特征。

可以理解的是，采用不同的整合方式对初始残差特征进行整合，能够提取到更丰富的待处理特征，从而在基于待处理特征引导第一模态特征的提取时，所提取到的第一模态特征也就更丰富。

在本申请实施例中，S301-S303可利用预设检测模型实现；也就是说，利用预设检测模型，提取人脸区域的第一模态特征和第二模态特征；并依据第一模态特征和第二模态特征的相似性，分别对第一模态特征和第二模态特征进行迭代增强，得到第一目标模态特征和第二目标模态特征；以及依据第一目标模态特征和第二目标模态特征的融合特征，获取待检测图像的换脸检测结果。此时，预设检测模型包括特征提取子模型、特征增强子模型和检测子模型；从而，利用预设检测模型实现S301-S303，即利用特征提取子模型，提取人脸区域的第一模态特征和第二模态特征；并利用特征增强子模型，依据第一模态特征和第二模态特征的相似性，分别对第一模态特征和第二模态特征进行迭代增强，得到第一目标模态特征和第二目标模态特征；以及利用检测子模型，依据第一目标模态特征和第二目标模态特征的融合特征，获取待检测图像的换脸检测结果。

在本申请实施例中，还包括预设检测模型的训练过程：S305-S308，下面对各步骤分别进行说明。

S305、获取待检测样本，待检测样本包括样本图像和标注结果。

在本申请实施例中，服务器收集用于训练得到预设检测模型的样本，也就得到了待检测样本。这里，待检测样本包括样本图像和标注结果，其中，样本图像为包括人脸信息的图像样本，标注结果为样本图像对应的真实换脸结果。

S306、利用初始检测模型，对样本图像进行图像检测，得到预测结果。

在本申请实施例中，服务器能够获取到初始检测模型，并利用该初始检测模型对样本图像进行图像检测，以预测出样本图像是否换脸，此时，也就得到了预测结果。另外，初始检测模型为待训练的网络模型。

需要说明的是，S306执行过程的描述与S302-S304执行过程的描述类似，本申请实施例在此不再赘述。

还需要说明的是，初始检测模型可以为神经网络模型(比如，“Xception”网络模型，“ResNet”网络模型)，还可以为其他网络模型，本申请实施例对此不作具体限定。

S307、获取预测结果和标注结果之间的差异，得到损失函数值。

在本申请实施例中，服务器获得了预测结果之后，对预测结果和标注结果之间的差异进行获取，也就得到了损失函数值。

这里，服务器中设置有预设的损失函数(比如，二元交叉熵损失函数)，或者能够获取到预设的损失函数，利用该预设的损失函数获取预测结果和标注结果之间的差异，也就计算得到了损失函数值。

S308、利用损失函数值对初始检测模型进行迭代训练，直到满足训练截止条件时，确定训练后的初始检测模型为预设检测模型。

需要说明的是，服务器获得了损失函数值之后，利用损失函数值对初始检测模型进行迭代训练，在迭代训练的过程中，每完成一次训练就判断是否满足训练截止条件，如果不满足则继续迭代训练，如果满足，则将此时训练后的初始检测模型确定为预设检测模型，也就是说，预设检测模型为训练好的网络模型。

需要说明的是，预设训练截止条件可以是获取到的损失函数值小于预设阈值，还可以是其他的判断条件，本申请实施例对此不作具体限定。

在本申请实施例中，S308之后还包括S309和S310；也就是说，服务器确定训练后的初始检测模型为预设检测模型之后，该图像检测方法还包括S309和S310，下面对各步骤分别进行说明。

S309、获取新的待检测样本。

在本申请实施例中，当需要对预设检测模型进行优化时，服务器也就获得了新的待检测样本，以依据新的待检测样本对预设检测模型进行优化。

S310、利用新的待检测样本对预设检测模型进行优化，得到优化后的预设检测模型。

在本申请实施例中，当服务器获得了新的待检测样本之后，能够基于新的待检测样本优化预设检测模型，以利用优化后的预设检测模型进行图像的换脸检测。这里，优化过程与训练得到预设检测模型的过程类似，本申请实施例在此不再赘述。

相应地，服务器利用预设检测模型，执行S302-S304，为服务器利用优化后的预设检测模型，执行S302-S304。也就是说，服务器利用优化后的预设检测模型，提取人脸区域的第一模态特征和第二模态特征；并依据第一模态特征和第二模态特征的相似性，分别对第一模态特征和第二模态特征进行迭代增强，得到第一目标模态特征和第二目标模态特征；以及依据第一目标模态特征和第二目标模态特征的融合特征，获取待检测图像的换脸检测结果。

可以理解的是，服务器通过不断对预设检测模型进行优化，能够提升优化后的预设检测模型的泛化能力，进而基于优化后的预设检测模型实现图像的换脸检测时，能够进一步提升图像检测的准确度。

在本申请实施例中，S301可通过S3011和S3012实现；也就是说，服务器获取包括人脸区域的待检测图像，包括S3011和S3012，下面对各步骤分别进行说明。

S3011、在图像检测界面上，接收作用在检测控件上的检测操作。

在本申请实施例中，服务器中显示有图像检测界面，该图像检测界面上还展示有检测控件；当用户对检测控件进行操作以触发图像检测时，服务器也就接收到了作用在检测控件上的检测操作。

需要说明的是，检测控件是指界面上显示的通过操作能够触发图像检测的组件，比如，按钮、链接、输入框、页签、图标或选择框等；检测操作为触发检测控件的操作，比如，点击、双击、长按或滑动等操作。

S3012、响应检测操作，获取包括人脸区域的待检测图像。

在本申请实施例中，服务器获得了检测操作之后，对该检测操作进行响应，以通过采集或获取上传图像等方式获取包括人脸区域的待检测图像。

示例性地，参见图6，图6是本申请实施例提供的一种示例性的获取待检测图像的示意图；如图6所示，在图像检测界面6-1上显示有“换脸检测”按钮6-2(检测控件)，当点击“换脸检测”按钮6-2上传包括人脸区域的图像时，也就得到了待检测图像6-3。

相应地，S304之后还包括S311；也就是说，服务器获取待检测图像的换脸检测结果之后，该图像检测方法还包括S311，下面对该步骤进行说明。

S311、在图像检测界面上的结果展示区域中，展示换脸检测结果。

需要说明的是，服务器获得了待检测图像的换脸检测结果之后，为了完成对检测操作的响应，在图像检测界面上的结果展示区域中展示该换脸检测结果；如图7所示，在图像检测界面7-1上显示待检测图像7-11和换脸检测结果7-12：上图为换脸图像。

另外，还可以展示与换脸检测结果对应的处理提示信息。易知，S3011、S3012和S311描述了由一个设备执行包括人脸区域的待检测图像的获取，并进行换脸检测的场景。

同理，当本申请实施例的执行主体为终端时，由终端执行S3011、S3012和S311。

在本申请实施例中，S301还可通过S3013和S3014实现；也就是说，服务器获取包括人脸区域的待检测图像，包括S3013和S3014，下面对各步骤分别进行说明。

S3013、接收客户端设备发送的换脸检测请求。

在本申请实施例中，当客户端设备接收到作用在界面上的控件的操作之后，响应接收到的操作，也就生成了换脸检测请求；当客户端设备将换脸检测请求向服务器发送时，服务器也就接收到了该换脸检测请求。

S3014、响应换脸检测请求，获取包括人脸区域的待检测图像。

需要说明的是，服务器接收到换脸检测请求之后，如果换脸检测请求中携带着包括人脸区域的待检测图像，则响应换脸检测请求，从换脸检测请求中获取该包括人脸区域的待检测图像；而如果换脸检测请求中携带着待检测图像标识，则从预设图像标识与图像之间的对应关系中，获取与待检测图像标识对应的且包括人脸区域的待检测图像。

示例性地，参见图8，图8是本申请实施例提供的另一种示例性的获取待检测图像的示意图；如图8所示，在终端8-1(客户端设备)的支付界面8-11上显示有“刷脸支付”按钮8-12，当点击“刷脸支付”按钮8-12时，则在支付界面8-11上采集包括人脸区域的图像8-13，将所采集的图像携带在换脸检测请求中发送至服务器8-2，服务器8-2通过接收换脸检测请求也就得到了待检测图像8-21。

相应地，S304之后还包括S312；也就是说，服务器获取待检测图像的换脸检测结果之后，该图像检测方法还包括S312，下面对该步骤进行说明。

S312、将换脸检测发送至客户端设备，以在客户端设备的展示界面上展示换脸检测结果。

需要说明的是，服务器获得了待检测图像的换脸检测结果之后，为了完成对换脸检测请求的响应，将换脸检测结果发送至客户端设备，以在客户端设备的展示界面上展示换脸检测结果；如图9所示，在支付界面9-1上显示待检测图像9-11和换脸检测结果9-12：图像为换脸图像，支付失败。

另外，还可以向客户端设备发送与换脸检测结果对应的处理提示信息，以在客户端设备侧展示与换脸检测结果对应的处理提示信息。易知，S3013、S3014和S312描述了由一个设备执行包括人脸区域的待检测图像的获取，由另一设备进行换脸检测的场景。

在一示例性的初始检测模型训练过程中，预设损失函数选择二元交叉熵损失函数(Binary Cross Entropy Loss)，对应的输入大小为256×256，训练集采用“FaceForensics++”数据集，测试集采用“DeepfakeDetection”(DFD)、“De epfake Detection Challenge”(DFDC)和“CelebDF”，以实现跨数据集对比；这里，将图像检测作为二分类问题，并选用AUC(Area Under the Curve)作为评价指标，将本申请实施例提供的图像检测方法(简称为本申请检测方法)与“Xception”方法以及“Face X-ray”方法进行对比，对比结果如表1所示：

表1

	DFD	DFDC	CelebDF
				“Xception”方法	0.831	0.679	0.594
“Face X-ray”方法	0.853	0.691	0.742
				本申请检测方法	0.934	0.803	0.744

其中，“Xception”方法是指独立提取各模态对应的特征并进行融合来实现换脸检测的方法，“Face X-ray”方法是指通过“X”光进行换脸检测的方法。由表1易知：在跨数据集的三个测试中，本申请实施例提供的图像检测方法的评价指标均优于“Xception”方法以及“Face X-ray”方法；从而，验证了本申请实施例提供的图像检测方法的泛化能力比较强，能够提升图像检测的准确度。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

参见图10，图10是本申请实施例提供的一种示例性的图像检测流程示意图；如图10所示，在安防系统中，获取了待检测图像10-1之后，从待检测图像10-1中获取人脸图像10-2(人脸区域)，利用预设检测模型10-3对人脸图像10-2进行换脸检测时，包括如下过程：

首先，利用“SRMs”模型中的三个高频滤波器10-311对人脸图像10-2进行高频滤波处理，得到残差图像10-312，并利用残差图像10-312，获取空间注意力图10-3131(SpatialAttention，空间注意力信息)；同时，从人脸图像10-2提取初始低频特征(第一初始模态特征)，也就得到了RGB特征图10-321。

然后，将空间注意力图10-3131与RGB特征图10-321相乘(融合)，也就得到了加强的RGB特征图10-322(第一模态特征)；同时，从残差图像10-312中提取高频特征10-313(第二模态特征)。

再后，由于预设检测模型10-3中包括跨模态交互模块(Dual Cross-modali tyAttention，DCMA)10-33和跨模态交互模块10-34；从而，利用跨模态交互模块10-33和跨模态交互模块10-34，对高频特征10-313和加强的RGB特征图10-322分别进行迭代增强。即将高频特征10-313和加强的RGB特征图10-322输入至跨模态交互模块10-33，得到增强后的高频特征10-314(增强后的第二模态特征)和增强后的低频特征10-323(增强后的第一模态特征)；再将增强后的高频特征10-314和增强后的低频特征10-323输入至跨模态交互模块10-34，得到迭代增强后的高频特征10-315(第二目标模态特征)和迭代增强后的低频特征10-324(第一目标模态特征)；易知，这里进行了两次迭代增强。

最后，将迭代增强后的高频特征10-315和迭代增强后的低频特征10-324融合，得到融合特征10-35；并利用融合特征10-35确定换脸检测结果：真脸/假脸10-36，以根据真脸/假脸10-36进行安防10-4，以防范个人隐私的侵犯。

下面，继续说明由残差图像10-312获得空间注意力图10-3131的过程；参见图11，首先，将残差图像10-312输入至“7×7”卷积层11-1，得到特征图11-2(初始残差特征)；然后，将特征图11-2输入至最大池化层11-3(第一整合方式)中进行整合，得到特征图11-4(第一残差整合特征)，同时，将特征图11-2输入至平均池化层11-5(第二整合方式)中进行整合，得到特征图11-6(第二残差整合特征)，拼接特征图11-4和特征图11-6，得到特征图11-7(待处理特征)；最后，将特征图11-7通过“1×1”卷积层11-7(用于对待处理特征进行预处理)和“sigmoid”激励函数11-8(用于对预处理得到的待映射特征进行映射)，以得到空间注意力图10-3131。

下面，以跨模态交互模块10-33的处理过程为例继续说明各模态对应的特征互相增强的过程；参见图12，首先，分别对加强的RGB特征图10-322和高频特征10-313进行卷积操作，以将加强的RGB特征图10-322转化为“Value”特征图12-1(第一特性特征)和“Key”特征图12-2(第一共性特征)，将高频特征10-313转化为“Value”特征图12-3(第二特性特征)和“Key”特征图12-4(第二共性特征)。然后，利用“Key”特征图12-2和“Key”特征图12-4进行矩阵相乘来计算两个模态的相似程度(相似性)，得到分别对应的注意力图12-5(第一模态注意力信息)和注意力图12-6(第二模态注意力信息)。再后，将注意力图12-5和“Value”特征图12-3进行矩阵相乘，得到特征图12-7(第一模态增强特征)，将注意力图12-6和“Value”特征图12-1进行矩阵相乘，得到特征图12-8(第二模态增强特征)。最后，将特征图12-7与加强的RGB特征图10-322相加，得到增强后的低频特征10-323，将特征图12-8与高频特征10-313相加，得到增强后的高频特征10-314。

下面，继续说明图13中各步骤的详细计算过程；如图13所示，首先，将加强的RGB特征图10-322(大小为c×h×w)经过一个“1×1”的卷积层13-1，得到“Value”特征图12-1(大小为c×h×w)，将加强的RGB特征图10-322(大小为c×h×w)经过一个“1×1”的卷积层13-2、一个“1×1”的卷积层13-3和展平处理模块13-4，得到“Key”特征图12-2(大小为hw×hw)；同理，将高频特征10-313(大小为c×h×w)经过一个“1×1”的卷积层13-5，得到“Value”特征图12-3(大小为c×h×w)，将高频特征10-313(大小为c×h×w)经过一个“1×1”的卷积层13-6、一个“1×1”的卷积层13-3和展平处理模块13-7，得到“Key”特征图12-4(大小为hw×hw)。然后，利用“K ey”特征图12-2和“Key”特征图12-4进行矩阵相乘，并将相乘结果经过变换矩阵(Linear)13-8和概率映射层(softmax层)13-9(其中，13-8和13-9共称为第一投影方式)，也就得到了注意力图12-5(大小为hw×hw)；同理，将相乘结果经过变换矩阵(Linear)13-10和概率映射层(softmax层)13-11(其中，13-8和13-9共称为第二投影方式)，也就得到了注意力图12-6(大小为hw×h w)；此时，也就完成了两个模态的相似程度(相似性)的计算。再后，将注意力图12-5与和“Value”特征图12-3进行矩阵相乘，得到特征图12-7(大小为c×h×w)，将注意力图12-6和“Value”特征图12-1进行矩阵相乘，得到特征图12-8(大小为c×h×w)。最后，将特征图12-7与加强的RGB特征图10-322相加，得到增强后的低频特征10-323(大小为c×h×w)，将特征图12-8与高频特征10-313相加，得到增强后的高频特征10-314(大小为c×h×w)。

可以理解的是，本申请实施例所提供的图像检测方法，通过从另一个模态汲取信息来增强自身模态的特征，一方面提升了换脸检测的准确度，另一方面还提升了换脸检测的泛化性能。

下面继续说明本申请实施例提供的图像检测装置255的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器250的图像检测装置255中的软件模块可以包括：

图像获取模块2551，用于获取包括人脸区域的待检测图像；

特征提取模块2552，用于提取所述人脸区域的第一模态特征和第二模态特征；

特征增强模块2553，用于依据所述第一模态特征和所述第二模态特征的相似性，分别对所述第一模态特征和所述第二模态特征进行迭代增强，得到第一目标模态特征和第二目标模态特征；

换脸检测模块2554，用于依据所述第一目标模态特征和所述第二目标模态特征的融合特征，获取所述待检测图像的换脸检测结果。

在本申请实施例中，所述特征增强模块2553，还用于依据所述第一模态特征和所述第二模态特征的相似性，分别对所述第一模态特征和所述第二模态特征进行增强，并获取当前迭代增强次数；当所述当前迭代增强次数等于预设迭代增强次数时，确定增强后的第一模态特征为所述第一目标模态特征，以及确定增强后的第二模态特征为所述第二目标模态特征；当所述当前迭代增强次数小于所述预设迭代增强次数时，依据所述增强后的第一模态特征和所述增强后的第二模态特征的相似性，持续对所述增强后的第一模态特征和所述增强后的第二模态特征进行迭代增强，并更新所述当前迭代增强次数，直到更新的当前迭代增强次数等于所述预设迭代增强次数时，得到所述第一目标模态特征和所述第二目标模态特征。

在本申请实施例中，所述特征增强模块2553，还用于将所述第一模态特征转化为第一特性特征和第一共性特征，将所述第二模态特征转化为第二特性特征和第二共性特征；获取所述第一共性特征和所述第二共性特征的相似性，得到相似特征；利用第一投影方式和第二投影方式分别对所述相似特征进行投影，依次得到第一模态注意力信息和第二模态注意力信息；利用所述第一模态注意力信息和所述第二特性特征，获取第一模态增强特征，融合所述第一模态增强特征与所述第一模态特征，完成对所述第一模态特征的增强；利用所述第二模态注意力信息和所述第一特性特征，获取第二模态增强特征，融合所述第二模态增强特征与所述第二模态特征，完成对所述第二模态特征的增强。

在本申请实施例中，所述特征提取模块2552，还用于对所述人脸区域进行高频滤波处理，得到残差图像；获取所述残差图像的空间注意力信息；提取所述人脸区域的第一初始模态特征；基于空间位置，融合所述空间注意力信息对应的特征和所述第一初始模态特征，得到所述第一模态特征；提取所述残差图像的特征，得到所述第二模态特征。

在本申请实施例中，所述特征提取模块2552，还用于对所述残差图像进行初始特征提取，得到初始残差特征；对所述初始残差特征进行整合，得到待处理特征；对所述待处理特征进行预处理，得到待映射特征；对所述待映射特征进行映射，得到所述空间注意力信息。

在本申请实施例中，所述特征提取模块2552，还用于采用第一整合方式对所述初始残差特征进行整合，得到第一残差整合特征；采用第二整合方式对所述初始残差特征进行整合，得到第二残差整合特征；其中，所述第一整合方式与所述第二整合方式为不同的整合方式；拼接所述第一残差整合特征和所述第二残差整合特征，得到所述待处理特征。

在本申请实施例中，所述特征提取模块2552、所述特征增强模块2553和换脸检测模块2554可通过利用预设检测模型实现。

在本申请实施例中，所述图像检测装置255还包括模型训练模块2555，用于获取待检测样本，所述待检测样本包括样本图像和标注结果；利用初始检测模型，对所述样本图像进行图像检测，得到预测结果；获取所述预测结果和所述标注结果之间的差异，得到损失函数值；利用所述损失函数值对所述初始检测模型进行迭代训练，直到满足训练截止条件时，确定训练后的初始检测模型为所述预设检测模型。

在本申请实施例中，所述图像检测装置255还包括模型优化模块2556，用于获取新的待检测样本；利用所述新的待检测样本对所述预设检测模型进行优化，得到优化后的预设检测模型；

相应地，在本申请实施例中，所述特征提取模块2552、所述特征增强模块2553和换脸检测模块2554可通过所述优化后的预设检测模型实现。

在本申请实施例中，所述图像获取模块2551，还用于在图像检测界面上，接收作用在检测控件上的检测操作；响应所述检测操作，获取包括所述人脸区域的所述待检测图像。

在本申请实施例中，所述图像检测装置255还包括结果展示模块2557，用于在所述图像检测界面上的结果展示区域中，展示所述换脸检测结果。

在本申请实施例中，所述图像获取模块2551，还用于接收客户端设备发送的换脸检测请求；响应所述换脸检测请求，获取包括所述人脸区域的所述待检测图像。

在本申请实施例中，所述结果展示模块2557，还用于将所述换脸检测发送至所述客户端设备，以在所述客户端设备的展示界面上展示所述换脸检测结果。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的图像检测方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的图像检测方法，例如，如图3示出的图像检测方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(H TML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，通过本申请实施例，由于对待检测图像的人脸区域进行检测的过程中，利用各模态下特征之间的相似性对各模态下的特征进行了迭代增强处理，使得所获得的换脸检测结果是依据迭代增强的第一模态特征(第一目标模态特征)和迭代增强的第二模态特征(第二目标模态特征)的融合特征检测出的；因此，用于获取换脸检测结果的融合特征的表达能力较强，故，换脸检测结果的准确度高，从而，能够提升图像检测的准确度。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种图像检测方法，其特征在于，包括：

获取包括人脸区域的待检测图像；

提取所述人脸区域的第一模态特征和第二模态特征；

2.根据权利要求1所述的方法，其特征在于，所述依据所述第一模态特征和所述第二模态特征的相似性，分别对所述第一模态特征和所述第二模态特征进行迭代增强，得到第一目标模态特征和第二目标模态特征，包括：

依据所述第一模态特征和所述第二模态特征的相似性，分别对所述第一模态特征和所述第二模态特征进行增强，并获取当前迭代增强次数；

当所述当前迭代增强次数等于预设迭代增强次数时，确定增强后的第一模态特征为所述第一目标模态特征，以及确定增强后的第二模态特征为所述第二目标模态特征；

当所述当前迭代增强次数小于所述预设迭代增强次数时，依据所述增强后的第一模态特征和所述增强后的第二模态特征的相似性，持续对所述增强后的第一模态特征和所述增强后的第二模态特征进行迭代增强，并

更新所述当前迭代增强次数，直到更新的当前迭代增强次数等于所述预设迭代增强次数时，得到所述第一目标模态特征和所述第二目标模态特征。

3.根据权利要求2所述的方法，其特征在于，所述依据所述第一模态特征和所述第二模态特征的相似性，分别对所述第一模态特征和所述第二模态特征进行增强，包括：

将所述第一模态特征转化为第一特性特征和第一共性特征，将所述第二模态特征转化为第二特性特征和第二共性特征；

获取所述第一共性特征和所述第二共性特征的相似性，得到相似特征；

利用第一投影方式和第二投影方式分别对所述相似特征进行投影，依次得到第一模态注意力信息和第二模态注意力信息；

利用所述第一模态注意力信息和所述第二特性特征，获取第一模态增强特征，融合所述第一模态增强特征与所述第一模态特征，完成对所述第一模态特征的增强；

利用所述第二模态注意力信息和所述第一特性特征，获取第二模态增强特征，融合所述第二模态增强特征与所述第二模态特征，完成对所述第二模态特征的增强。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述提取所述人脸区域的第一模态特征和第二模态特征，包括：

对所述人脸区域进行高频滤波处理，得到残差图像；

获取所述残差图像的空间注意力信息；

提取所述人脸区域的第一初始模态特征；

基于空间位置，融合所述空间注意力信息对应的特征和所述第一初始模态特征，得到所述第一模态特征；

提取所述残差图像的特征，得到所述第二模态特征。

5.根据权利要求4所述的方法，其特征在于，所述获取所述残差图像的空间注意力信息，包括：

对所述残差图像进行初始特征提取，得到初始残差特征；

对所述初始残差特征进行整合，得到待处理特征；

对所述待处理特征进行预处理，得到待映射特征；

对所述待映射特征进行映射，得到所述空间注意力信息。

6.根据权利要求5所述的方法，其特征在于，所述对所述初始残差特征进行整合，得到待处理特征，包括：

采用第一整合方式对所述初始残差特征进行整合，得到第一残差整合特征；

采用第二整合方式对所述初始残差特征进行整合，得到第二残差整合特征；

其中，所述第一整合方式与所述第二整合方式为不同的整合方式；

拼接所述第一残差整合特征和所述第二残差整合特征，得到所述待处理特征。

7.根据权利要求1至3任一项所述的方法，其特征在于，所述提取所述人脸区域的第一模态特征和第二模态特征；依据所述第一模态特征和所述第二模态特征的相似性，分别对所述第一模态特征和所述第二模态特征进行迭代增强，得到第一目标模态特征和第二目标模态特征；依据所述第一目标模态特征和所述第二目标模态特征的融合特征，获取所述待检测图像的换脸检测结果，包括：

利用预设检测模型，提取所述人脸区域的所述第一模态特征和所述第二模态特征；并

依据所述第一模态特征和所述第二模态特征的相似性，分别对所述第一模态特征和所述第二模态特征进行迭代增强，得到所述第一目标模态特征和所述第二目标模态特征；以及

依据所述第一目标模态特征和所述第二目标模态特征的所述融合特征，获取所述待检测图像的所述换脸检测结果。

8.根据权利要求7所述的方法，其特征在于，所述利用预设检测模型，提取所述人脸区域的所述第一模态特征和所述第二模态特征之前，所述方法还包括：

获取待检测样本，所述待检测样本包括样本图像和标注结果；

利用初始检测模型，对所述样本图像进行图像检测，得到预测结果；

获取所述预测结果和所述标注结果之间的差异，得到损失函数值；

利用所述损失函数值对所述初始检测模型进行迭代训练，直到满足训练截止条件时，确定训练后的初始检测模型为所述预设检测模型。

9.根据权利要求8所述的方法，其特征在于，所述确定训练后的初始检测模型为所述预设检测模型之后，所述方法还包括：

获取新的待检测样本；

利用所述新的待检测样本对所述预设检测模型进行优化，得到优化后的预设检测模型；

所述利用预设检测模型，提取所述人脸区域的所述第一模态特征和所述第二模态特征，包括：

利用所述优化后的预设检测模型，提取所述人脸区域的所述第一模态特征和所述第二模态特征。

10.根据权利要求1至3任一项所述的方法，其特征在于，所述获取包括人脸区域的待检测图像，包括：

在图像检测界面上，接收作用在检测控件上的检测操作；

响应所述检测操作，获取包括所述人脸区域的所述待检测图像；

所述获取所述待检测图像的换脸检测结果之后，所述方法还包括：

在所述图像检测界面上的结果展示区域中，展示所述换脸检测结果。

11.根据权利要求1至3任一项所述的方法，其特征在于，所述获取包括人脸区域的待检测图像，包括：

接收客户端设备发送的换脸检测请求；

响应所述换脸检测请求，获取包括所述人脸区域的所述待检测图像；

将所述换脸检测发送至所述客户端设备，以在所述客户端设备的展示界面上展示所述换脸检测结果。

12.根据权利要求1至3任一项所述的方法，其特征在于，所述第一模态特征为低频特征，所述第二模态特征为高频特征。

13.一种图像检测装置，其特征在于，包括：

图像获取模块，用于获取包括人脸区域的待检测图像；

14.一种图像检测设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至12任一项所述的图像检测方法。

15.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时，实现权利要求1至12任一项所述的图像检测方法。