CN114677372A

CN114677372A - 一种融合噪声感知的深度伪造图像检测方法及系统

Info

Publication number: CN114677372A
Application number: CN202210486246.9A
Authority: CN
Inventors: 丁昕苗; 刘延武; 郭文; 李国军; 庞帅
Original assignee: Shandong Technology and Business University
Current assignee: Shandong Technology and Business University
Priority date: 2022-05-06
Filing date: 2022-05-06
Publication date: 2022-06-28

Abstract

本公开属于机器视觉技术领域，具体涉及一种融合噪声感知的深度伪造图像检测方法及系统，包括：获取待检测图像；根据所获取的待检测图像和双重注意力计算，提取RGB流的特征，得到图像多尺度增强特征；对所获取的待检测图像进行噪声域特征的提取，根据所得到的图像多尺度增强特征和所提取到的噪声域特征，得到图像噪声流特征；将所得到的图像的噪声流特征和所提取到的RGB流的特征进行双流特征融合，得到图像双流融合增强特征；根据所得到的图像双流融合增强特征和局部一致性计算，完成图像的伪造检测。

Description

一种融合噪声感知的深度伪造图像检测方法及系统

技术领域

本公开属于机器视觉技术领域，具体涉及一种融合噪声感知的深度伪造图像检测方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

深度伪造(Deepfake)是指利用生成式对抗网络等深度学习方法将源视频中的人脸替换目标人脸来制造虚假音视频信息。由于这类技术可以生成肉眼难以分辨的高质量伪造视频，很容易被不法分子滥用并带来严重的社会影响。因此，对深度伪造信息检测的研究是视觉领域的一个重要方向。

目前，各种深度伪造检测方法层出不穷，可通过手工特征来检测伪造人脸，如不一致的头部姿势、心跳节奏或眼睛眨动等。随着深度学习方法的广泛应用，研究人员开始探索利用深度神经网络捕捉伪造图像空间域的高层语义特征以提升检测效果。

据发明人了解，部分深度伪造算法利用图像压缩后处理算法破坏伪影，使其无法在颜色空间中被检测到，但是仍然会在高频信息中留下篡改痕迹。为了提高检测模型的鲁棒性，噪声信息作为一种高频信息被引入到了伪造图像检测中。真实人脸在所有分块上具有连贯性，而伪造人脸是由不同人脸融合而成，因而会在某些位置产生不一致性信息。因此，在图像通用检测领域内用于检测图像复制移动或复制粘贴操作的一致性学习概念被引入深度伪造检测领域中。一致性学习通常采用计算局部相似度的方法衡量图像各个分块之间的相似度，以检测图像空间域的一致性。

上述方法虽然可以较好的解决深度伪造检测的问题，但是仍然存在以下问题限制了其性能的提升：

(1)基于卷积神经网络的检测方法往往倾向于关注偏好的显著区域，难以捕捉其他不明显但又具有可区分度的伪影，容易产生过拟合现象。

(2)当前深度伪造检测中引入的高频噪声特征大都是通过手工提取出来的，在应对一些经过后处理的伪造视频时缺少一定的灵活性，适应性较差。

(3)基于局部相似度特征的深度伪造检测方法由于忽略了同样包含判别性信息的全局特征，限制了提取判别性特征的能力。

发明内容

为了解决上述问题，本公开提出了一种融合噪声感知的深度伪造图像检测方法及系统，针对现有的深度伪造检测算法不能充分的提取判别性特征而导致的准确率低、泛化性差等问题，构建了一种融合噪声感知的渐进式多尺度深度伪造检测模型，基于所构建的检测模型实现图像检测，提高了检测精度和泛化能力。

根据一些实施例，本公开的第一方案提供了一种融合噪声感知的深度伪造图像检测方法，采用如下技术方案：

一种融合噪声感知的深度伪造图像检测方法，包括：

获取待检测图像；

根据所获取的待检测图像和双重注意力计算，提取RGB流的特征，得到图像多尺度增强特征；

对所获取的待检测图像进行噪声域特征的提取，根据所得到的图像多尺度增强特征和所提取到的噪声域特征，得到图像噪声流特征；

将所得到的图像的噪声流特征和所提取到的RGB流的特征进行双流特征融合，得到图像双流融合增强特征；

根据所得到的图像双流融合增强特征和局部一致性计算，完成图像的伪造检测。

作为进一步的技术限定，在提取RGB流的特征的过程中，采用渐进式空间注意力模块，通过双重注意力计算自适应地学习图像空间域特征的增强权重和抑制权重，将原特征图分别与所述增强权重和抑制权重进行加权融合得到增强特征图和抑制特征图；所述增强特征图用于双流特征融合，所述抑制特征图在卷积后被再次输入到下一个阶段的双重注意力计算，用于挖掘注意力以外的图像区域的潜在特征。

作为进一步的技术限定，通过自适应卷积核得到高频噪声信息，所得到的高频噪声信息与相位谱共同作为噪声流的输入实现噪声域特征的提取，与RGB流所得到的空间域的多尺度增强特征进行互补融合得到图像双流融合增强特征。

作为进一步的技术限定，取的待检测图像进行预处理得到灰度图，基于离散傅里叶变换将所得到的灰度图转换到频域灰度图，将所得到的频域灰度图的相位作为输入图像的相位谱信息，结合离散傅里叶逆变换得到所述相位谱重构图。

作为进一步的技术限定，对所获取的待检测图像进行预处理得到灰度图，采用自适应SRM滤波器，引入约束卷积层，将所得到的灰度图作为约束卷积层的输入，得到图像的SRM噪声信息图。

作为进一步的技术限定，对所述双流融合增强特征进行互补融合，得到多尺度增强特征，将所述多尺度增强特征输入到卷积块中得到含高层语义信息的全局特征，同时将所述多尺度增强特征均分成多个局部分块、通过计算各个局部分块之间的相似度得到局部一致性信息，将所得到的全局特征和局部一致性信息联合，完成伪造检测。

进一步的，采用双线性插值算法将多尺度增强特征图变为同一尺度，沿着通道维度拼接成特征图，得到局部一致性信息。

根据一些实施例，本公开的第二方案提供了一种融合噪声感知的深度伪造图像检测系统，采用如下技术方案：

一种融合噪声感知的深度伪造图像检测系统，包括：

获取模块，其被配置为获取待检测图像；

渐进式空间注意力模块，其被配置为根据所获取的待检测图像和双重注意力计算，提取RGB流的特征，得到图像多尺度增强特征；

噪声感知模块，其被配置为对所获取的待检测图像进行噪声域特征的提取，根据所得到的图像多尺度增强特征和所提取到的噪声域特征，得到图像噪声流特征；将所得到的图像的噪声流特征和所提取到的RGB流的特征进行双流特征融合，得到图像双流融合增强特征；

检测模块，其被配置为根据所得到的图像双流融合增强特征和局部一致性计算，完成图像的伪造检测。

根据一些实施例，本公开的第三方案提供了一种计算机可读存储介质，采用如下技术方案：

一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本公开第一方面所述的融合噪声感知的深度伪造图像检测方法中的步骤。

根据一些实施例，本公开的第四方案提供了一种电子设备，采用如下技术方案：

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开第一方面所述的融合噪声感知的深度伪造图像检测方法中的步骤。

与现有技术相比，本公开的有益效果为：

本公开通过渐进式空间注意力模块逐次关注图像不同区域，并增强每一阶段的突出区域得到多尺度判别性特征，提升模型捕获伪影的能力；结合图像的噪声信息与RGB信息构建双流检测模型，应对不同场景中的后处理算法可能造成的影响；使用多尺度局部相似度特征和多尺度融合得到的全局特征共同进行伪造检测，提升模型的鲁棒性。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1是本公开实施例一中的融合噪声感知的深度伪造图像检测方法的流程图；

图2是本公开实施例一中的图像检测模型的架构图；

图3是本公开实施例一中的双重注意力计算结构图；

图4是本公开实施例二中的融合噪声感知的深度伪造图像检测系统的结构框图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

实施例一

本公开实施例一介绍了一种融合噪声感知的深度伪造图像检测方法。

如图1所示的一种融合噪声感知的深度伪造图像检测方法，包括：

获取待检测图像；

本实施例中的图像检测模型采用融合噪声感知的渐进式网络学习模型，其架构图如图2所示。本实施例中图像检测模型是由RGB流和自适应噪声感知流构成的双流网络，具体包括：

渐进式空间注意力子模块：该模块完成RGB流的特征提取，其核心为双重注意力计算(Dual Feature Selective Module,简称DFSM)。DFSM可以自适应地学习图像空间域特征的两种权重，分别为增强和抑制权重，并与原特征图进行加权融合分别得到增强特征图和抑制特征图；其中增强特征图为后续的融合做准备，抑制特征图则在卷积后被再次输入到下一个阶段的DFSM，迫使模型对注意力以外的图像区域进行其他潜在特征的挖掘。经过三次DFSM的学习渐进得到了三种不同尺度的增强特征，为接下来的双流特征融合提供前提条件；

(2)噪声感知子模块(Noise-aware Module,简称NAM)：该模块利用设计的自适应卷积核得到高频噪声信息，与相位谱共同作为噪声流的输入来提取噪声域特征，并与RGB流得到的空间域多尺度特征进行互补融合得到双流融合增强特征，为伪造检测提供更全面的特征；

在渐进式空间注意力子模块和噪声感知子模块的基础上，首先将噪声感知子模块得到的双流融合增强特征进行互融合，一方面将其输入卷积块得到涵盖高层语义信息的全局特征，另一方面将其均分为多个局部分块，通过计算各分块间的相似度得到局部一致性信息；联合全局特征和局部一致性信息共同完成伪造检测。

在本实施例中，渐进式空间注意力子模块如图2中RGB流分支所示，其通过将双重注意力计算模块插入到网络的卷积块之间实现渐进式的多尺度增强特征学习。双重注意力计算结构如图3所示，假设有人脸图像I，通过卷积得到的特征表示为X∈R^H×W×C，则其计算过程如下：

首先将特征X沿着宽度维度均分为k个空间部分X_i∈R^H×(W/k)×C,i∈[1,k]。然后将其输入到1×1卷积块进行降维，经归一化层和Relu函数激活输出得到每个空间部分的初始权重表示S_i∈R^H×(Wk)×1。受卷积块注意力(Convolutional Block Attention Module,简称CBAM)启发，在S_i上分别使用平均池化和最大池化操作并将其融合，得到每个部分的标准化权重表示S_softmax∈R^1×1×W/k。

为了更好的突出显著性区域，同时指引网络关注其他潜在区域特征，本实施例设计了一个权重增强抑制机制，进一步从标准化权重S_softmax学习到增强权重W_boost和抑制权重W_suppress如下：

假设输入标准化权重S_softmax＝(s₁,...,s_L),L＝W/k，学习到的增强权重和抑制权重分别为

则增强权重计算为：

其中，i∈[1,L]，T_b为增强阈值，取自标准化权重S_softmax中第n大的权重，默认设置n为L/4。若s_i大于或等于该阈值，则其可以看做增强空间部分，并将其权重设置为超参数α，反之设置为0，即不对该部分进行增强。

抑制权重计算为：

其中，T_s为抑制阈值，设置方法与增强阈值相同。β为设置的超参数，代表抑制空间部分的权重。

将学习到的增强权重W_boost和抑制权重W_suppress分别与特征图X加权融合则可得到增强特征图X_B和抑制特征图X_S如下：

其中，σ控制着增强的程度，

代表元素点乘。

增强特征图X_B将直接作为DFSM的输出，为后续的特征融合做准备；抑制特征图X_S则用来输入到网络的下一阶段，使网络学习其他区域的潜在增强特征。通过将DFSM模块插入到网络的不同阶段，即可得到不同尺度的增强特征图。

为了加强模型发掘伪影信息的能力，应对图像后处理所造成的伪影细节损失较多等影响，本实施例引入了噪声流分支进行辅助决策，其核心即为噪声感知子模块；该模块的输入为人脸图像的噪声信息图和相位谱重构图，通过逐次与不同尺度RGB增强特征进行融合并卷积得到不同尺度的双流互补特征，为综合预测做准备。

假设有人脸图像I，通过图像处理算法将其转换为灰度图I_gray∈R^H×W×1后,分别得到相位谱重构图和噪声信息图如下：

首先对灰度图I_gray应用离散傅里叶变换使其转换到频域，取其相位获得该输入图像的相位谱信息，再应用离散傅里叶逆变换即可得到相位谱重构图I_phase∈R^H×W×1。

基于自适应SRM滤波的噪声图

基于手工设计的SRM滤波器作为一种有效的噪声提取方式，常常受制于固定的核参数而对后处理的图像伪影不敏感。因此本实施例引入了约束卷积层，通过网络学习的方法来自适应地更新SRM的核参数，改善模型的鲁棒性。

约束卷积核规则为：

其中，C_k代表第k个通道的卷积核，C_k(0,0)是其中心坐标，C_k随模型参数更新。将灰度图I_gray作为输入约束卷积层即可获取图像的SRM噪声信息图I_srm∈R^H×W×3。

如图2中的噪声流分支所示，将得到的相位谱重构图I_phase和噪声信息图I_srm沿着通道维度拼接成4通道特征图I_noise作为噪声流的输入，经过不同层的卷积块则得到不同尺度的噪声特征图。为了增强模型检测伪影的能力，在每一个卷积块的输出都增加了噪声特征与相应尺度RGB增强特征的融合，通过挖掘互补信息来加强每个特定部分的特征表达，然后再输入下一个卷积块进行更高层次的特征学习。

假设噪声流三次卷积得到的特征为

渐进式注意力模块得到的三个增强特征为

将两种特征沿着空间维度拉直成二维向量分别得到

和

受自注意力启发，上述的双流互补融合方法为：

其中，ρ是超参数，控制着双流融合的程度,att_BN代表

对于

的互补权重，att_NB代表

对于

的互补权重，具体计算为：

公式(7)得到的

将被输入到下一个卷积块学习更高层次的噪声特征

公式(6)得到的

则被留作综合预测模块的输入特征，其融合了双流的互补特征，增强了模型特征的表达能力，为后续的局部相似度计算和获取全局性的伪影信息提供了更多细节信息。

鉴于一致性学习在深度伪造检测中取得了优良的检测效果，本实施例将其引入到最终的预测模块。但是考虑到此方法仅局限于局部差异信息，容易忽略一些全局信息，如面部不同区域伪影的颜色及各个伪影之间的上下文联系等，将其与全局信息融合共同进行决策。

为进一步增强输入综合预测模块的特征表达能力，本实施例将公式(6)得到的不同尺度增强特征

进行两两融合，使每个尺度的增强特征聚合来自其他尺度的判别性信息，充分结合了图像的上下文信息。此处采用本实施例中所介绍的融合方法得到新的多尺度互补增强特征

如下:

其中，μ用来控制融合的程度。

att^i,j代表

对于

的互补权重，具体计算如下：

其中，

和

是将

和

分别沿着空间维度拉成的二维向量。该融合策略中每一种尺度的增强特征图将会分别与其他不同尺度的特征图计算融合以达到全面的互补加强，减少语义信息损失，为分类器决策提供更具判别性的高层特征。

此处引入局部相似度计算获取局部一致性信息。特征采用了表征性更强的多尺度增强特征

利用双线性插值算法将不同尺度特征图大小变为一致，之后沿着通道维度拼接成特征图Z∈R^H×W×C。将Z沿着空间维度均分成M×M大小的分块，并将其拉直成一维向量。假设第i和第j个分块得到的一维向量分别为p_i,

则基于点积构建分块之间的相似度sim_i,j如下：

其中，δ为Sigmoid激活函数，sim_i,j的值在0到1之间，越接近1，代表两个分块之间的相似度越高，反之越低。通过遍历计算所有分块与其他分块之间的相似度，即可构建多尺度局部相似度特征F_sim。

由于RGB分支输出的增强特征图

在经过不同域及不同尺度的互补融合后，每个尺度的增强特征图在突出了当前阶段关注的伪影区域的同时，补充了来自其他尺度及高频噪声的细节信息。经双线性插值算法，使特征图大小变为一致，之后将其沿着通道拼接并通过一定数量的卷积层学习得特征

此时的

可以看作是覆盖了不同尺度关注的不同伪影的一种全局特征。

为了提高分类器的决策性能，本实施例将其与多尺度局部相似度特征F_sim共同拉直成一维向量后通过全连接层及Sigmoid激活函数得到最终预测概率

代价函数使用交叉熵损失

如下：

其中，如果输入图像是伪造人脸，则y设置为1，否则设置为0。在训练阶段，将损失反向传播促使网络学习真实人脸与伪造人脸之间的差异。

本实施例引入了一个渐进式空间注意力子模块，其不仅可以关注图像显著性区域特征，同时会通过权重抑制机制迫使模型再挖掘其他潜在特征，解决了卷积神经网络过度关注单一区域而产生过拟合的问题；在高频噪声特征的提取中，采用了自适应约束卷积核改进手工设计的SRM滤波器，解决了该滤波器因为固定权重造成的对图像后处理不敏感的问题。同时结合对位置信息更敏感的相位谱，提高了噪声流对伪影信息的感知能力；采用了局部一致性信息与全局信息联合决策的方法，解决了当前方法仅基于局部特征导致信息表达不全面的问题，提高了模型的判别能力。

实施例二

本公开实施例二介绍了一种融合噪声感知的深度伪造图像检测系统。

如图4所示的一种融合噪声感知的深度伪造图像检测系统，包括：

获取模块，其被配置为获取待检测图像；

详细步骤与实施例一提供的融合噪声感知的深度伪造图像检测方法相同，在此不再赘述。

实施例三

本公开实施例三提供了一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本公开实施例一所述的融合噪声感知的深度伪造图像检测方法中的步骤。

实施例四

本公开实施例四提供了一种电子设备。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开实施例一所述的融合噪声感知的深度伪造图像检测方法中的步骤。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种融合噪声感知的深度伪造图像检测方法，其特征在于，包括：

获取待检测图像；

2.如权利要求1中所述的一种融合噪声感知的深度伪造图像检测方法，其特征在于，在提取RGB流的特征的过程中，采用渐进式空间注意力模块，通过双重注意力计算自适应地学习图像空间域特征的增强权重和抑制权重，将原特征图分别与所述增强权重和抑制权重进行加权融合得到增强特征图和抑制特征图；所述增强特征图用于双流特征融合，所述抑制特征图在卷积后被再次输入到下一个阶段的双重注意力计算，用于挖掘注意力以外的图像区域的潜在特征。

3.如权利要求1中所述的一种融合噪声感知的深度伪造图像检测方法，其特征在于，通过自适应卷积核得到高频噪声信息，所得到的高频噪声信息与相位谱共同作为噪声流的输入实现噪声域特征的提取，与RGB流所得到的空间域的多尺度增强特征进行互补融合得到图像双流融合增强特征。

4.如权利要求1中所述的一种融合噪声感知的深度伪造图像检测方法，其特征在于，取的待检测图像进行预处理得到灰度图，基于离散傅里叶变换将所得到的灰度图转换到频域灰度图，将所得到的频域灰度图的相位作为输入图像的相位谱信息，结合离散傅里叶逆变换得到所述相位谱重构图。

5.如权利要求1中所述的一种融合噪声感知的深度伪造图像检测方法，其特征在于，对所获取的待检测图像进行预处理得到灰度图，采用自适应SRM滤波器，引入约束卷积层，将所得到的灰度图作为约束卷积层的输入，得到图像的SRM噪声信息图。

6.如权利要求1中所述的一种融合噪声感知的深度伪造图像检测方法，其特征在于，对所述双流融合增强特征进行互补融合，得到多尺度增强特征，将所述多尺度增强特征输入到卷积块中得到含高层语义信息的全局特征，同时将所述多尺度增强特征均分成多个局部分块、通过计算各个局部分块之间的相似度得到局部一致性信息，将所得到的全局特征和局部一致性信息联合，完成伪造检测。

7.如权利要求6中所述的一种融合噪声感知的深度伪造图像检测方法，其特征在于，采用双线性插值算法将多尺度增强特征图变为同一尺度，沿着通道维度拼接成特征图，得到局部一致性信息。

8.一种融合噪声感知的深度伪造图像检测系统，其特征在于，包括：

获取模块，其被配置为获取待检测图像；

9.一种计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的融合噪声感知的深度伪造图像检测方法中的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的融合噪声感知的深度伪造图像检测方法中的步骤。