CN113627233A

CN113627233A - 基于视觉语义信息的人脸伪造检测方法和装置

Info

Publication number: CN113627233A
Application number: CN202110672769.8A
Authority: CN
Inventors: 赫然; 黄怀波; 徐雨婷; 贾耕云; 段俊贤
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-06-17
Filing date: 2021-06-17
Publication date: 2021-11-09

Abstract

本发明提供一种基于视觉语义信息的人脸伪造检测方法和装置，其中方法包括：确认待检测人脸图像；基于人脸伪造检测模型，提取所述待检测人脸图像的图像上下文特征和人脸区域特征，基于所述图像上下文特征和所述人脸区域特征，确定人脸区域关系特征，并基于所述人脸区域关系特征，确定所述待检测人脸图像的伪造检测结果；所述图像上下文特征和所述人脸区域特征表征所述待检测人脸图像中的视觉语义信息；其中，所述人脸伪造检测模型是基于样本人脸图像及其样本伪造检测结果训练得到的。本发明提高了人脸伪造检测准确性，尤其是未知伪造方法对应的图像的检测准确性，提升了人脸伪造检测模型的泛化能力。

Description

基于视觉语义信息的人脸伪造检测方法和装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于视觉语义信息的人脸伪造检测方法和装置。

背景技术

人脸伪造检测，是指判断人脸图像是否是经过换脸、生成等技术对视频或图像中的人脸进行伪造后的假图像，对维护网络环境、保护个人隐私等具有重要意义。

随着深度学习的发展，篡改图像方法的性能越来越好，篡改的效果越来越逼真，肉眼难以分辨真假。目前的人脸伪造检测方法通常采用深度学习技术，利用伪造时所产生的伪影对图像进行鉴别。例如，利用篡改造成的生物特征不连续的特性进行鉴伪，如头部姿势、眼球的反光点等。除此之外，还可以利用数据驱动的方法对图像进行鉴别。

然而，由于鉴伪任务是以现存的伪造方法为前提而提出的，虽然在对应测试集上已经达到了优越的性能，但当其对未见过的数据集进行鉴别时，性能会急剧下降。故鉴伪模型的泛化性成为该任务中极具挑战性的问题。另外，现有的方法通常使用深度神经网络作为基准，而深度神经网络无法很好地对长距离的特征进行建模，故无法很好地利用人脸语义特征。

发明内容

本发明提供一种基于视觉语义信息的人脸伪造检测方法和装置，用以解决现有技术中伪造检测准确性欠佳的缺陷。

本发明提供一种基于视觉语义信息的人脸伪造检测方法，包括：

确认待检测人脸图像；

基于人脸伪造检测模型，提取所述待检测人脸图像的图像上下文特征和人脸区域特征，基于所述图像上下文特征和所述人脸区域特征，确定人脸区域关系特征，并基于所述人脸区域关系特征，确定所述待检测人脸图像的伪造检测结果；所述图像上下文特征和所述人脸区域特征表征所述待检测人脸图像中的视觉语义信息；

其中，所述人脸伪造检测模型是基于样本人脸图像及其样本伪造检测结果训练得到的。

根据本发明提供的一种基于视觉语义信息的人脸伪造检测方法，所述提取所述待检测人脸图像的图像上下文特征，具体包括：

基于所述人脸伪造检测模型的图像特征提取层，提取所述待检测人脸图像的图像特征编码；

基于所述人脸伪造检测模型的多个上下文编码层，对所述图像特征编码进行多头自注意力变换，得到所述图像上下文特征。

根据本发明提供的一种基于视觉语义信息的人脸伪造检测方法，所述基于所述人脸伪造检测模型的多个上下文编码层，对所述图像特征编码进行多头自注意力变换，得到所述图像上下文特征，具体包括：

基于上一上下文编码层的输出向量和编码器位置编码，进行自注意力变换，得到当前上下文编码层的输出向量；

其中，首个上下文编码层的输入为所述图像特征编码，最后一个上下文编码层的输出为所述图像上下文特征。

根据本发明提供的一种基于视觉语义信息的人脸伪造检测方法，所述基于所述图像上下文特征和所述人脸区域特征，确定人脸区域关系特征，具体包括：

将所述图像上下文特征与所述人脸区域特征融合，得到视觉语义特征；

基于所述人脸伪造检测模型的多个解码层，对所述视觉语义特征进行解码，得到所述人脸区域关系特征。

根据本发明提供的一种基于视觉语义信息的人脸伪造检测方法，所述基于所述人脸伪造检测模型的多个解码层，对所述视觉语义特征进行解码，得到所述人脸区域关系特征，具体包括：

利用自注意力机制和交叉注意力机制，提取上一解码层的输出向量中局部人脸区域之间的关系以及局部人脸区域与全脸间的关系，得到当前解码层的输出向量；

其中，首个解码层的输入为所述视觉语义特征，最后一个解码层的输出向量为所述人脸区域关系特征。

根据本发明提供的一种基于视觉语义信息的人脸伪造检测方法，所述利用自注意力机制和交叉注意力机制，提取上一解码层的输出向量中局部人脸区域之间的关系以及局部人脸区域与全脸间的关系，得到当前解码层的输出向量，具体包括：

基于上一解码层的输出向量，进行自注意力变换，得到当前解码层对应的自注意力编码；

基于当前解码层对应的自注意力编码、所述图像上下文特征和解码器位置编码，进行注意力变换，得到当前解码层的输出向量。

根据本发明提供的一种基于视觉语义信息的人脸伪造检测方法，所述人脸区域特征是基于如下步骤确定的：

基于所述人脸伪造检测模型的人脸解析层，对所述待检测人脸图像进行人脸解析，得到区域特征图；

对所述区域特征图进行最邻近插值下采样，得到所述人脸区域特征。

本发明还提供一种基于视觉语义信息的人脸伪造检测装置，包括：

图像确认单元，用于确认待检测人脸图像；

伪造检测单元，用于基于人脸伪造检测模型，提取所述待检测人脸图像的图像上下文特征和人脸区域特征，基于所述图像上下文特征和所述人脸区域特征，确定人脸区域关系特征，并基于所述人脸区域关系特征，确定所述待检测人脸图像的伪造检测结果；所述图像上下文特征和所述人脸区域特征表征所述待检测人脸图像中的视觉语义信息；

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述基于视觉语义信息的人脸伪造检测方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述基于视觉语义信息的人脸伪造检测方法的步骤。

本发明提供的基于视觉语义信息的人脸伪造检测方法和装置，基于人脸伪造检测模型，提取待检测人脸图像的图像上下文特征和人脸区域特征，得到丰富的视觉语义信息，从而基于图像上下文特征和人脸区域特征，确定人脸区域关系特征，并基于人脸区域关系特征，确定待检测人脸图像的伪造检测结果，提高了人脸伪造检测准确性，尤其是未知伪造方法对应的图像的检测准确性，提升了人脸伪造检测模型的泛化能力。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的基于视觉语义信息的人脸伪造检测方法的流程示意图；

图2为本发明提供的编码解码方法的示意图；

图3为本发明提供的人脸伪造检测模型的结构示意图；

图4为本发明提供的数据库FaceForensics++上的可视化结果；

图5为本发明提供的不同数据库中训练的模型效果示意图；

图6为本发明提供的基于视觉语义信息的人脸伪造检测装置的结构示意图；

图7为本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的基于视觉语义信息的人脸伪造检测方法的流程示意图，如图1所示，该方法包括：

步骤110，确认待检测人脸图像；

步骤120，基于人脸伪造检测模型，提取待检测人脸图像的图像上下文特征和人脸区域特征，基于图像上下文特征和人脸区域特征，确定人脸区域关系特征，并基于人脸区域关系特征，确定待检测人脸图像的伪造检测结果；图像上下文特征和人脸区域特征表征待检测人脸图像中的视觉语义信息；

其中，人脸伪造检测模型是基于样本人脸图像及其样本伪造检测结果训练得到的。

具体地，获取需要进行人脸伪造检测的待检测人脸图像。此处，可以对待检测的数据集中的图像或视频进行预处理，若为图像，则剪裁出人脸的部分，作为待检测人脸图像；若为视频，则先抽取图像帧后再提取出人脸的部分，得到待检测人脸图像。

将待检测人脸图像输入至人脸伪造检测模型中，利用人脸伪造检测模型，提取待检测人脸图像中的图像上下文特征和人脸区域特征。其中，图像上下文特征中包含待检测人脸图像中各像素点的图像特征以及各个像素点之间的关联特征，人脸区域特征中包含待检测人脸图像中各人脸区域的语义信息，例如各个五官区域的语义信息等，且图像上下文特征和人脸区域特征共同表征待检测人脸图像中的视觉语义信息。

根据图像上下文特征和人脸区域特征，可以融合得到人脸区域关系特征。其中，人脸区域关系特征中包含待检测人脸图像中各人脸区域之间的关系，还可以包含各人脸区域与全脸之间的关系。由于对人脸图像进行伪造篡改后，部分区域的变动会联动影响该区域与人脸其他区域之间的关系，也可能会影响该区域与整张人脸之间的关系，造成一定的“不和谐感”，因此，可以基于人脸区域关系特征，判断待检测人脸图像是否是伪造出的人脸图像，得到待检测人脸图像的伪造检测结果。此处，可以利用多层感知机二分类模块，进行伪造图像判断。

此处，根据人脸区域关系特征中包含的人脸区域之间的局部关系以及人脸区域与全脸之间的全局关系，可以准确识别出人脸伪造造成的局部关系和全局关系的异常变化，即使面对未知伪造手法伪造出的人脸图像，上述方式也能准确检测出该图像为伪造图像。

在执行步骤120之前，还可以预先训练得到人脸伪造检测模型，具体可以通过如下方式训练得到人脸伪造检测模型：首先，收集大量样本人脸图像及其样本伪造检测结果。随即，基于样本人脸图像及其样本伪造检测结果训练初始模型，利用交叉熵损失对模型进行优化，从而得到人脸伪造检测模型。

本发明实施例提供的方法，基于人脸伪造检测模型，提取待检测人脸图像的图像上下文特征和人脸区域特征，得到丰富的视觉语义信息，从而基于图像上下文特征和人脸区域特征，确定人脸区域关系特征，并基于人脸区域关系特征，确定待检测人脸图像的伪造检测结果，提高了人脸伪造检测准确性，尤其是未知伪造方法对应的图像的检测准确性，提升了人脸伪造检测模型的泛化能力。

基于上述实施例，提取待检测人脸图像的图像上下文特征，具体包括：

基于人脸伪造检测模型的图像特征提取层，提取待检测人脸图像的图像特征编码；

基于人脸伪造检测模型的多个上下文编码层，对图像特征编码进行多头自注意力变换，得到图像上下文特征。

具体地，人脸伪造检测模型中包含图像特征提取层和多个上下文编码层。其中，图像特征提取层用于提取待检测人脸图像的图像特征编码，其可以为卷积神经网络(Convolutional Neural Networks,CNN)，例如ResNet50。ResNet50在ImageNet上预训练后，去掉最后的分类层作为图像特征提取层，将输入图片

生成低分辨率激活图后，通过1×1卷积将映射降至低维，为了与人脸解析模块的输出结合，通过最近邻插值向上采样到更高分辨率产生特征图

再将f′变换为一维序列

多个上下文编码层用于对图像特征编码进行多头自注意力变换，从多个层次提取图像特征编码中各像素的上下文信息，得到图像上下文特征，以提高图像上下文特征的语义表达能力。

基于上述任一实施例，基于人脸伪造检测模型的多个上下文编码层，对图像特征编码进行多头自注意力变换，得到图像上下文特征，具体包括：

其中，首个上下文编码层的输入为图像特征编码，最后一个上下文编码层的输出为图像上下文特征。

具体地，图2为本发明实施例提供的编码解码方法的示意图，如图2左侧所示，针对当前上下文编码层，可以基于上一上下文编码层的输出向量和编码器位置编码，进行自注意力变换，得到当前上下文编码层的输出向量；其中，首个上下文编码层的输入为图像特征编码，最后一个上下文编码层的输出为图像上下文特征。

上下文编码层可以由多头自注意力模块(Multi-Head Self-Attention)和前向传播网络(Feed Forward Network,FFN)组成，并且让每一个模块的输入结果和输出结果相加，最后经过层归一化模块。上下文编码层的层数可以为6层。

将上一上下文编码层的输出向量(若为首个上下文编码层，则为图像特征编码)补充可学习的编码器位置编码

并通过自注意力机制的计算，得到当前上下文编码层的输出向量。最后一个上下文编码层的输出向量，即为图像上下文特征f_CFS。其中，编码器位置编码可以学习得到，其可以表征图像中各像素之间的位置关系。上下文编码层的编码过程可以如下：

e₀＝f′,

q_i,k_i＝LN(e_i-1+P_e),v_i＝LN(e_i-1),

e′_i＝MA(q_i,k_i,v_i)+e_i-1,

e_i＝FF(LN(e′_i))+e′_i,

f_CFS＝e_N

其中，f′是图像特征编码，e₀是首个上下文编码层的输入，e_i是第i个上下文编码层的输出，q_i、k_i、v_i分别是第i个上下文编码层中自注意力机制的query向量，key向量和value向量，i＝1,…,N，LN表示层归一化功能，MA表示多头自注意机制，FF表示前馈网络。

基于上述任一实施例，基于图像上下文特征和人脸区域特征，确定人脸区域关系特征，具体包括：

将图像上下文特征与人脸区域特征融合，得到视觉语义特征；

基于人脸伪造检测模型的多个解码层，对视觉语义特征进行解码，得到人脸区域关系特征。

具体地，将图像上下文特征与人脸区域特征融合后，得到视觉语义特征。其中，可以对图像上下文特征与人脸区域特征进行矩阵相乘，得到视觉语义特征。随后，将视觉语义特征输入至基于人脸伪造检测模型的多个解码层，对视觉语义特征进行解码，得到人脸区域关系特征

基于上述任一实施例，基于人脸伪造检测模型的多个解码层，对视觉语义特征进行解码，得到人脸区域关系特征，具体包括：

其中，首个解码层的输入为视觉语义特征，最后一个解码层的输出向量为人脸区域关系特征。

具体地，人脸伪造检测模型包含多个解码层，针对当前解码层，可以分别利用自注意力机制和交叉注意力机制，提取上一解码层的输出向量中局部人脸区域之间的关系以及局部人脸区域与全脸间的关系，得到当前解码层的输出向量。其中，首个解码层的输入为视觉语义特征，最后一个解码层的输出向量为人脸区域关系特征。

基于上述任一实施例，利用自注意力机制和交叉注意力机制，提取上一解码层的输出向量中局部人脸区域之间的关系以及局部人脸区域与全脸间的关系，得到当前解码层的输出向量，具体包括：

基于当前解码层对应的自注意力编码、图像上下文特征和解码器位置编码，进行注意力变换，得到当前解码层的输出向量。

具体地，如图2右侧所示，解码层可以遵循transformer的标准架构，包含多头自注意力机制模块(Multi-Head Self-Attention)，多头交叉注意力机制模块(Multi-HeadAttention)和前向传播网络模块(Feed Forward Network,FFN)，同时让每一个模块的输入结果和输出结果相加，最后经过层归一化模块。解码层的层数可以为6层。

针对当前解码层，对上一解码层的输出向量(若为首个解码层则为视觉语义特征)进行自注意力计算，得到当前解码层对应的自注意力编码。随后，利用交叉注意力机制，基于当前解码层对应的自注意力编码、图像上下文特征和解码器位置编码，进行注意力计算，得到当前解码层的输出向量。此处，使用多头自注意力机制模块可以学习每个人脸区域之间的局部关系，使用多头交叉注意力机制模块可以学习每个人脸区域与图像上下文特征反映的全脸特征之间的全局关系。解码层的解码过程可以如下：

d₀＝f_VSS,

q_i＝k_i＝LN(d_i-1),

v_i＝LN(d_i-1),

d′_i＝MA(q_i,k_i,v_i)+d_i-1,

q′_i＝LN(d′_i),

k′_i＝LN(f_CFS+P_d),

v′_i＝LN(f_CFS),

d″_i＝MA(q′_i,k′_i,v′_i)+d′_i,

d_i＝FF(LN(d″_i))+d″_i,

其中，f_VSS为视觉语义特征，d₀是首个解码层的输入，d_i是第i个解码层的输出，q_i、k_i和v_i分别是第i个解码层中自注意力机制的query向量、key向量和value向量，i＝1,…,N，MA(q_i,k_i,v_i)表示多头自注意机制，d_i′是第i个解码层的自注意力编码，f_CFS为图像上下文特征，P_d为解码器位置编码，q_i′、k_i′和v_i′分别是第i个解码层中交叉注意力机制的query向量、key向量和value向量，MA(q_i′,k_i′,v_i′)表示多头交叉注意机制，d_i″是第i个解码层的交叉注意力编码，FF表示前馈网络。

基于上述任一实施例，人脸区域特征是基于如下步骤确定的：

基于人脸伪造检测模型的人脸解析层，对待检测人脸图像进行人脸解析，得到区域特征图；

对区域特征图进行最邻近插值下采样，得到人脸区域特征。

具体地，人脸解析层可以基于BiseNet网络构建得到。基于人脸解析层，可以将待检测人脸图像分成M个不同类别的语义区域，例如背景，皮肤，鼻子，眼镜，左眼，右眼，左眉，右眉，左耳，右耳，嘴巴，上嘴唇，下嘴唇，头发，帽子，耳环，项链，脖子和衣服等。

人脸解析层对待检测人脸图像进行人脸解析，得到区域特征图，再对区域特征图进行最邻近插值下采样，可以将其重塑为人脸区域特征

基于上述任一实施例，图3为本发明实施例提供的人脸伪造检测模型的结构示意图，如图3所示，人脸检测模型包括图像特征提取层(由CNN构建)、人脸解析层(FaceParsing)、多个上下文编码层(由Transformer编码器构建)和多个解码层(由Transformer解码器构建)。其中，CNN与Transformer编码器(Encoder)连接，人脸解析层与Transformer解码器(Decoder)连接，Transformer解码器与一个多层感知机(MLP)模块连接输出二分类结果。

将待检测人脸图像输入到CNN中，将CNN的输出向量与编码器位置编码相加后，输入到Transformer编码器中，得到图像上下文特征CFS。

将待检测人脸图像输入到人脸解析层进行解析，得到人脸区域特征。将图像上下文特征CFS与人脸区域特征进行矩阵相乘，得到视觉语义特征VSS。

将视觉语义特征VSS输入到Transformer解码器中，结合视觉语义特征VSS和图像上下文特征CFS进行解码，得到人脸区域关系特征。

将人脸区域关系特征输入到MLP中进行二分类，得到待检测人脸图像的伪造检测结果。

基于上述任一实施例，利用上述实施例提供的人脸伪造检测方法，在数据库FaceForensics++上进行测试，测试结果如表1所示：

表1

Method	Raw	HQ	LQ
				VST	99.58％	95.83％	86.72％

图4为本发明实施例提供的数据库FaceForensics++上的可视化结果，其中，在数据库FaceForensics++上人脸解析图的可视化结果如图4的第二列所示，注意力图的可视化结果如图4的第三列所示。

图5为发明实施例提供的不同数据库中训练的模型效果示意图，其中，在数据库Celeb-DF上训练的模型，在数据库Celeb-DF样本中测试的注意力图的可视化结果如图5的第二列所示，在数据库FaceForensics++上训练得到的模型在上述样本上测试的注意力图的可视化结果如图5的第三列所示。

基于上述任一实施例，图6为本发明实施例提供的基于视觉语义信息的人脸伪造检测装置的结构示意图，如图6所示，该装置包括：图像确认单元610和伪造检测单元620。

其中，图像确认单元610用于确认待检测人脸图像；

伪造检测单元620用于基于人脸伪造检测模型，提取待检测人脸图像的图像上下文特征和人脸区域特征，基于图像上下文特征和人脸区域特征，确定人脸区域关系特征，并基于人脸区域关系特征，确定待检测人脸图像的伪造检测结果；图像上下文特征和人脸区域特征表征待检测人脸图像中的视觉语义信息；

本发明实施例提供的装置，基于人脸伪造检测模型，提取待检测人脸图像的图像上下文特征和人脸区域特征，得到丰富的视觉语义信息，从而基于图像上下文特征和人脸区域特征，确定人脸区域关系特征，并基于人脸区域关系特征，确定待检测人脸图像的伪造检测结果，提高了人脸伪造检测准确性，尤其是未知伪造方法对应的图像的检测准确性，提升了人脸伪造检测模型的泛化能力。

基于上述任一实施例，提取待检测人脸图像的图像上下文特征，具体包括：

对区域特征图进行最邻近插值下采样，得到人脸区域特征。

图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行基于视觉语义信息的人脸伪造检测方法，该方法包括：确认待检测人脸图像；基于人脸伪造检测模型，提取所述待检测人脸图像的图像上下文特征和人脸区域特征，基于所述图像上下文特征和所述人脸区域特征，确定人脸区域关系特征，并基于所述人脸区域关系特征，确定所述待检测人脸图像的伪造检测结果；所述图像上下文特征和所述人脸区域特征表征所述待检测人脸图像中的视觉语义信息；其中，所述人脸伪造检测模型是基于样本人脸图像及其样本伪造检测结果训练得到的。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的基于视觉语义信息的人脸伪造检测方法，该方法包括：确认待检测人脸图像；基于人脸伪造检测模型，提取所述待检测人脸图像的图像上下文特征和人脸区域特征，基于所述图像上下文特征和所述人脸区域特征，确定人脸区域关系特征，并基于所述人脸区域关系特征，确定所述待检测人脸图像的伪造检测结果；所述图像上下文特征和所述人脸区域特征表征所述待检测人脸图像中的视觉语义信息；其中，所述人脸伪造检测模型是基于样本人脸图像及其样本伪造检测结果训练得到的。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的基于视觉语义信息的人脸伪造检测方法，该方法包括：确认待检测人脸图像；基于人脸伪造检测模型，提取所述待检测人脸图像的图像上下文特征和人脸区域特征，基于所述图像上下文特征和所述人脸区域特征，确定人脸区域关系特征，并基于所述人脸区域关系特征，确定所述待检测人脸图像的伪造检测结果；所述图像上下文特征和所述人脸区域特征表征所述待检测人脸图像中的视觉语义信息；其中，所述人脸伪造检测模型是基于样本人脸图像及其样本伪造检测结果训练得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于视觉语义信息的人脸伪造检测方法，其特征在于，包括：

确认待检测人脸图像；

2.根据权利要求1所述的基于视觉语义信息的人脸伪造检测方法，其特征在于，所述提取所述待检测人脸图像的图像上下文特征，具体包括：

3.根据权利要求2所述的基于视觉语义信息的人脸伪造检测方法，其特征在于，所述基于所述人脸伪造检测模型的多个上下文编码层，对所述图像特征编码进行多头自注意力变换，得到所述图像上下文特征，具体包括：

4.根据权利要求1所述的基于视觉语义信息的人脸伪造检测方法，其特征在于，所述基于所述图像上下文特征和所述人脸区域特征，确定人脸区域关系特征，具体包括：

5.根据权利要求4所述的基于视觉语义信息的人脸伪造检测方法，其特征在于，所述基于所述人脸伪造检测模型的多个解码层，对所述视觉语义特征进行解码，得到所述人脸区域关系特征，具体包括：

6.根据权利要求5所述的基于视觉语义信息的人脸伪造检测方法，其特征在于，所述利用自注意力机制和交叉注意力机制，提取上一解码层的输出向量中局部人脸区域之间的关系以及局部人脸区域与全脸间的关系，得到当前解码层的输出向量，具体包括：

7.根据权利要求1至6任一项所述的基于视觉语义信息的人脸伪造检测方法，其特征在于，所述人脸区域特征是基于如下步骤确定的：

8.一种基于视觉语义信息的人脸伪造检测装置，其特征在于，包括：

图像确认单元，用于确认待检测人脸图像；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述基于视觉语义信息的人脸伪造检测方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于视觉语义信息的人脸伪造检测方法的步骤。