CN114898438A - 一种基于时频域视觉伪影特征自适应融合的跨模态深度伪造检测方法 - Google Patents

一种基于时频域视觉伪影特征自适应融合的跨模态深度伪造检测方法 Download PDF

Info

Publication number
CN114898438A
CN114898438A CN202210586444.2A CN202210586444A CN114898438A CN 114898438 A CN114898438 A CN 114898438A CN 202210586444 A CN202210586444 A CN 202210586444A CN 114898438 A CN114898438 A CN 114898438A
Authority
CN
China
Prior art keywords
frequency domain
image
feature
frequency
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210586444.2A
Other languages
English (en)
Other versions
CN114898438B (zh
Inventor
吴铭侃
王波
王菲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202210586444.2A priority Critical patent/CN114898438B/zh
Publication of CN114898438A publication Critical patent/CN114898438A/zh
Application granted granted Critical
Publication of CN114898438B publication Critical patent/CN114898438B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/34Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

一种基于时频域视觉伪影特征自适应融合的跨模态深度伪造检测方法,属于深度伪造检测技术领域,其包括如下步骤:S1、从空间域提取能够表示原始图像整体模式的图像色彩特征;S2、提取两种不同的频域特征,一是浅层低频特征,直接从原始的输入图像提取浅层低频特征,使用浅层低频特征将原始rgb图像扩展到频域;另一是深度频域特征,提取输入图像的残差图,使用卷积提取器提取高频特征。S3、使用由门控卷积组成的自适应特征融合模块将浅层低频特征和深度频域特征融合,使得不同分支的特征在分类阶段得到充分表达。本发明在众多数据集上做了大量的实验,实验结果证明了我们方法的有效性和鲁棒性。

Description

一种基于时频域视觉伪影特征自适应融合的跨模态深度伪造 检测方法
技术领域
本发明属于深度伪造检测技术领域,具体涉及一种基于时频域视觉伪影特征自适应融合的跨模态深度伪造检测方法。
背景技术
深度伪造即AI换脸,近年来,其在互联网上掀起了一股热潮。深度伪造(Deepfake)是一项利用人工智能技术,实现对音频、图像或视频等数字内容进行伪造的智能处理技术,一般专指针对于人脸区域的篡改,能够模仿特定的人物或者让特定人物看起来在做特定的事情,并且对人类视觉效果来说,可以达到以假乱真的程度。
随着深度学习技术中的生成对抗网络(Generative Adversarial Networks,GAN)和自动编码器(Autoencoder)发展,基于数据驱动的深度伪造生成技术在伪造图像上几乎不会留下任何痕迹。科技往往是把双刃剑,技术在充实我们的娱乐方式,和便利我们的生活的同时,也可能悄悄地影响着我们,不法分子将深度伪造技术用于生成诽谤图像用于诋毁他人,生成虚假新闻图像,伪造公众人物言论,极大的危害了个人名誉,社会信任和国家稳定。因此,我们从人脸伪造这种具有最大危害的图像伪造技术出发,研究能够快速、准确地检测出伪造图像的防范措施,我们称其为深度伪造检测(Deepfake Detection)。
深度伪造生成的图像或视频内容通常都包含人脸且将面部作为主要内容,基于此生成一些多媒体信息用于诽谤、污蔑和造谣等的目的。
从2018年深度伪造一词出现开始,随着人们对于深度伪造产生的危害的认识,以及国家出台相关法律对于深度伪造内容传播的限制,深度伪造检测技术的也迎来了非常迅速的发展。尽管这些方法在公开数据集上能够达到90%甚至更高的准确率,但他们普遍存在以下问题:一是,大多数方法试图寻找在深伪合成时遗留在图像上的视觉伪影,然而采用生成对抗网络合成的图像对原始图像模式的更改非常地小甚至可以被修复,尤其是对于图像地色彩模式;二是,在现实场景中,在互联网上传播的图像大多经过二次压缩,许多对于原始分辨率图像具有较高检测精度的分类器,将其应用到重压缩后的图像时精度会显著下降;此外,尽管有许多的方法将图像的频域特征纳入考虑,但是人有部分缺陷,即他们都使用了固定的滤波器来提取频域特征,这些特征往往不足以应对多变的伪造生成图像和GAN网络生成器,十分容易被新的方法攻击。
发明内容
为了解决上述存在的问题,本发明提出:一种基于时频域视觉伪影特征自适应融合的跨模态深度伪造检测方法,包括一个空间域特征提取模块和两个频域特征提取模块,并使用自适应的跨域融合模块将各个模块的特征进行融合;其包括如下步骤:
S1、从空间域提取能够表示原始图像整体模式的图像色彩特征;
S2、提取两种不同的频域特征,一是浅层低频特征,直接从原始的输入图像提取浅层低频特征,使用所述浅层低频特征将原始rgb图像扩展到频域;另一是深度频域特征,提取输入图像的残差图,使用卷积提取器提取高频特征,图像的残差变换图表示原始图像中人脸的融合边缘信息,而减少图像平滑部分色彩差异的影响。
S3、使用由门控卷积组成的自适应特征融合模块将浅层低频特征和深度频域特征融合,使得不同分支的特征在分类阶段得到充分表达。
进一步地,所述的步骤S1具体如下:在特征提取阶段被分成了两个分支,浅层复合特征提取分支和深层频域特征提取分支,模型使用ResNet网络作为基础骨干网;
首先使用卷积神经网络提取图像的色彩域特征,选择多贝西小波变换作为滤波方式,多贝西小波变换使用短时窗口来分析长信号,通过寻找一个紧密支撑的正交集以达到缩放的目的来适应图像的局部和平滑变化;
多贝西小波变换由一个整数L和一系列的小波滤波系数{ai,i=0,1,2,...,L-1}界定,并且有以下两个关系式规定:
Figure BDA0003666134030000021
Figure BDA0003666134030000022
其中ρ(x)是幅值函数,ψ(x)是小波变换的母函数,L就是多贝西小波变换的阶数,x是时域的步长,如式所示,在小波变换中有L个正交条件,得到小波系数al,具有正交性的频域展开式A(w)可以表示为:
Figure BDA0003666134030000023
其中C为常数项,并且可以得到四阶系数h(l)如下:
Figure BDA0003666134030000024
Figure BDA0003666134030000031
在将多贝西小波特征和色彩特征融合后,输入卷积神经网络得到复合特征图,复合阶段使用简单的维度拼接。
进一步地,将残差图作为基本输入,通过滤波器得到残差图,使用深度频域特征提取方法来获取深度频域信息;
从原始图像上提取得到的是结合了色彩的频域特征能够反应面部细节,而从残差图提取得到的深层频域特征反应的是人脸图像的边缘信息;
首先提取反应混合边界信息的残差图,并将残差图从原始的狭窄通道信息映射到高维空间上,使用神经网络来提取深层频域特征;
下式表示了噪声残差:
Figure BDA0003666134030000032
其中,Xij表示的是当前计算的像素点的像素值,Nij表示邻域像素,
Figure BDA0003666134030000033
是定义在Nij上的cXij的预测值;c为残差阶,是一个变量,根据滤波器类型而改变,选择的三个滤波器分别为:局部线性预测器,3*3平移不变线性像素预测器,以及核为5*5的基于Nelder-Nead算法的滤波器。
进一步地,浅层低频特征和深度频域特征这两部分特征图具有相同的输出维度,假设维度都是C*H*W,使用门控卷积来保证融合模块的自适应特性,在门控卷积中,采用可学习的动态特征选择机制,并将其逐个通道每一层的所有位置,视觉伪影总是固定在固定的一些邻接像素点上,无论是在空间上还是频域上都是邻接的,使用门控卷积来捕获和定位这些关键像素点,此外使用上述提到的两张特征图来定位人脸中最具有判别性的区域,首先将C个输入通道映射到2C维度的特征隐空间中,然后使用其中的一半作为门控来约束特征点的权重大小,另一半作为特征,分别使用sigmoid和relu作为激活函数来约束他们的结果;最后,执行点对点的矩阵乘法,实现公式如下:
Figure BDA0003666134030000034
其中outputy,x表示门控卷积的输出,sigmoid表达式为:
Figure BDA0003666134030000035
Relu表达式为:ReLu(x)=max(0,x),C表示映射维度,W表示模型参数;融合层自适应特征提取模块拥有两个分支的输入Fmixture表示复合特征的提取模块的输出,Fresidual表示残差特征提取模块的输出,分别来自于前面的复合特征提取和残差特征提取模块。
本发明的有益效果为:本发明提出了一种跨域方法,结合时空域和频域特征,在空间域提取原始图像的色彩模式;在频域,分别从浅层频域特征和深层频域特征提取两个频域特征图,浅层频域特征提取自原始输入图像,深层频域特征提取自残差图;提出了自适应特征融合模块,使得不同分支的特征可以在分类阶段得到充分表达。在众多数据集上做了大量的实验,实验结果证明了本发明方法的有效性和鲁棒性。
附图说明
图1为本发明的算法整体的原理框图;
图2为本发明的真实图像和伪造图像的色彩及频域特征对比;
图3为本发明的提取残差图时所使用的滤波器;
图4为本发明的自适应融合模块。
具体实施方式
一种基于时频域视觉伪影特征自适应融合的跨模态深度伪造检测方法,如图1所示,其包括如下步骤:
包括一个空间域特征提取部分和两个频域特征提取模块,并使用自适应的跨域融合模块将各个部分的特征进行融合;其包括如下步骤:
S1、从空间域提取能够表示原始图像整体模式的图像色彩特征;
S2、提取两种不同的频域特征,一是浅层低频特征,直接从原始的输入图像提取浅层低频特征,使用它将原始rgb图像扩展到频域,另一是深度频域特征,提取输入图像的残差图,使用卷积提取器提取高频特征,残差图衰减图像的平滑部分而强调图像的边缘信息;
S3、使用由门控卷积组成的自适应特征融合模块将浅层低频特征和深度频域特征融合,使得不同分支的特征可以在分类阶段得到充分表达。
近几年提出的深度伪造方法具有非常严密的图像后处理工程,包括对混合边界的模糊和像素点插值,使得融合边界几乎不可见。尤其是在RGB色彩域上,即人眼直接观察的空间域同时也是大多数深度伪造检测方法关注的区域。但是,如图2所示,我们发现,尽管真实图像和伪造图像在色彩域几乎没有差异,但是将其映射到频域时,他们的统计特性具有非常明显的差异,尤其是在高频区域反映了图像篡改时的融合信息。因此,本文中的人脸伪造检测方法关注于色彩域和频域特征的融合。我们使用具有动态特性的滤波器来提取输入图像的频域特征,然后使用三个滤波器结合的方式得到图像残差图,并据此提取深层频域特征,此外,我们还使用由门控卷积组成的自适应特征融合模块将这两部分特征融融合。
其中,所述的步骤S1具体如下:在特征提取阶段被分成了两个分支,浅层复合特征提取分支和深层频域特征提取分支,模型使用ResNet网络作为基础骨干网。
首先使用卷积神经网络提取图像的色彩域特征,选择多贝西小波变换作为滤波方式,多贝西小波变换使用短时窗口来分析长信号,它的一个紧密支撑的正交集的缩放以适应局部和平滑变化;
多贝西小波变换由一个整数L和一系列的小波滤波系数{ai,i=0,1,2,...,L-1}界定,并且有以下两个关系式规定:
Figure BDA0003666134030000051
Figure BDA0003666134030000052
其中ρ(x)是幅值函数,ψ(x)是小波变换的母函数,L就是多贝西小波变换的阶数,x是时域的步长,如式所示,在小波变换中有L个正交条件,得到小波系数al,具有正交性的频域展开式A(w)可以表示为:
Figure BDA0003666134030000053
其中C为常数项,并且可以得到四阶系数h(l)如下:
Figure BDA0003666134030000054
Figure BDA0003666134030000055
在将多贝西小波特征和色彩特征融合后,输入卷积神经网络得到复合特征图,复合阶段使用简单的维度拼接。
其中,将残差图作为基本输入,通过滤波器得到残差图,使用深度频域特征提取方法来获取深度频域信息。我们所说的深浅频域特征应该区别于高频和低频特征,前者是根据特征提取的隐空间层级位置划分的,而前者是根据频带范围来区分的。
从原始图像上提取得到的是结合了色彩的频域特征能够反应面部细节,而从残差图提取得到的深层频域特征它反应的是人脸图像的边缘信息;
首先提取反应混合边界信息的残差图,并将残差图从原始的狭窄通道信息映射到高维空间上,使用神经网络来提取深层频域特征;
首先我们使用如图3所示的滤波器来捕获不同类型的相邻像素点之间的依赖。使用残差图的优点是图像内容被极大地压缩,使得图像具有更兼容,更泛化地表示。下式表示了噪声残差:
Figure BDA0003666134030000056
其中,Xij表示的是我们当前计算的像素点的像素值,Nij表示邻域像素,
Figure BDA0003666134030000057
是定义在Nij上的cXij的预测值。c为残差阶,是一个变量,根据滤波器类型而改变,选择的三个滤波器分别为:局部线性预测器,3*3平移不变线性像素预测器,以及核为5*5的基于 Nelder-Nead算法的滤波器。实验表明这三种滤波器组合针对于我们的人脸任务具有最好的性能。
此外,我们截断了计算得到的残差值来限制残差范围,量化来使得残差对于图像边沿和不连续更加敏感,基于核大小我们选定量化系数分别为4,12,2。我们通过HardTanh来做截断计算,将残差约束在0到1之间。
其中,浅层低频特征和深度频域特征这两部分特征图具有相同的输出维度,假设的维度都是C*H*W,为了将两部分融合并取得较高的深伪检测性能。我们提出了一个自适应的特征融合模块,结构如图4所示。
使用门控卷积来保证融合模块的自适应特性,在门控卷积中,采用可学习的动态特征选择机制,并将其逐个通道每一层的所有位置,而常规卷积只是将每个像素点当成是等价的。在伪造检测中,生成的图像会经过一系列的预处理,比如裁剪和仿射变换。最后,图像的表现形式是人脸区域占据了图像的绝大部分像素区域(90%以上)。并且,视觉伪影总是固定在固定的一些邻接像素点上,我们是在空间上还是频域上都是邻接的。我们使用门控卷积来捕获和定位这些关键像素点。此外我们还使用了上述提到的两张特征图来定位人脸中最具有判别性的区域。首先将C个输入通道映射到2C维度的特征隐空间中,然后使用其中的一半作为门控来约束特征点的权重大小,另一半作为特征,分别使用sigmoid和relu作为激活函数来约束他们的结果;最后,执行点对点的矩阵乘法,实现公式如下:
Figure BDA0003666134030000061
其中outputy,x表示门控卷积的输出,sigmoid表达式为:
Figure BDA0003666134030000062
Relu表达式为:ReLu(x)=max(0,x),C表示映射维度,W表示模型参数。融合层自适应特征提取模块拥有如图所示两个分支的输入Fmixture表示复合特征的提取模块的输出,Fresidual表示残差特征提取模块的输出,他们分别来自于前面的复合特征提取和残差特征提取模块。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (4)

1.一种基于时频域视觉伪影特征自适应融合的跨模态深度伪造检测方法,其特征在于,包括一个空间域特征提取模块和两个频域特征提取模块,并使用自适应的跨域融合模块将各个模块的特征进行融合;其包括如下步骤:
S1、从空间域提取能够表示原始图像整体模式的图像色彩特征;
S2、提取两种不同的频域特征,一是浅层低频特征,直接从原始的输入图像提取浅层低频特征,使用所述浅层低频特征将原始rgb图像扩展到频域;另一是深度频域特征,提取输入图像的残差图,使用卷积提取器提取高频特征,图像的残差变换图表示原始图像中人脸的融合边缘信息,而减少图像平滑部分色彩差异的影响。
S3、使用由门控卷积组成的自适应特征融合模块将浅层低频特征和深度频域特征融合,使得不同分支的特征在分类阶段得到充分表达。
2.根据权利要求1所述的基于时频域视觉伪影特征自适应融合的跨模态深度伪造检测方法,其特征在于,所述的步骤S1具体如下:在特征提取阶段被分成了两个分支,浅层复合特征提取分支和深层频域特征提取分支,模型使用ResNet网络作为基础骨干网;
首先使用卷积神经网络提取图像的色彩域特征,选择多贝西小波变换作为滤波方式,多贝西小波变换使用短时窗口来分析长信号,通过寻找一个紧密支撑的正交集以达到缩放的目的来适应图像的局部和平滑变化;
多贝西小波变换由一个整数L和一系列的小波滤波系数{ai,i=0,1,2,...,L-1}界定,并且有以下两个关系式规定:
Figure FDA0003666134020000011
Figure FDA0003666134020000012
其中ρ(x)是幅值函数,ψ(x)是小波变换的母函数,L就是多贝西小波变换的阶数,x是时域的步长,如式所示,在小波变换中有L个正交条件,得到小波系数al,具有正交性的频域展开式A(w)可以表示为:
Figure FDA0003666134020000013
其中C为常数项,并且可以得到四阶系数h(l)如下:
Figure FDA0003666134020000014
Figure FDA0003666134020000015
在将多贝西小波特征和色彩特征融合后,输入卷积神经网络得到复合特征图,复合阶段使用简单的维度拼接。
3.根据权利要求1所述的基于时频域视觉伪影特征自适应融合的跨模态深度伪造检测方法,其特征在于,将残差图作为基本输入,通过滤波器得到残差图,使用深度频域特征提取方法来获取深度频域信息;
从原始图像上提取得到的是结合了色彩的频域特征能够反应面部细节,而从残差图提取得到的深层频域特征反应的是人脸图像的边缘信息;
首先提取反应混合边界信息的残差图,并将残差图从原始的狭窄通道信息映射到高维空间上,使用神经网络来提取深层频域特征;
下式表示了噪声残差:
Figure FDA0003666134020000021
其中,Xij表示的是当前计算的像素点的像素值,Nij表示邻域像素,
Figure FDA0003666134020000022
是定义在Nij上的cXij的预测值;c为残差阶,是一个变量,根据滤波器类型而改变,选择的三个滤波器分别为:局部线性预测器,3*3平移不变线性像素预测器,以及核为5*5的基于Nelder-Nead算法的滤波器。
4.根据权利要求1所述的基于时频域视觉伪影特征自适应融合的跨模态深度伪造检测方法,其特征在于,浅层低频特征和深度频域特征这两部分特征图具有相同的输出维度,假设维度都是C*H*W,使用门控卷积来保证融合模块的自适应特性,在门控卷积中,采用可学习的动态特征选择机制,并将其逐个通道每一层的所有位置,视觉伪影总是固定在固定的一些邻接像素点上,无论是在空间上还是频域上都是邻接的,使用门控卷积来捕获和定位这些关键像素点,此外使用上述提到的两张特征图来定位人脸中最具有判别性的区域,首先将C个输入通道映射到2C维度的特征隐空间中,然后使用其中的一半作为门控来约束特征点的权重大小,另一半作为特征,分别使用sigmoid和relu作为激活函数来约束他们的结果;最后,执行点对点的矩阵乘法,实现公式如下:
Figure FDA0003666134020000023
其中outputy,x表示门控卷积的输出,sigmoid表达式为:
Figure FDA0003666134020000024
Relu表达式为:ReLu(x)=max(0,x),C表示映射维度,W表示模型参数;融合层自适应特征提取模块拥有两个分支的输入Fmixture表示复合特征的提取模块的输出,Fresidual表示残差特征提取模块的输出,分别来自于前面的复合特征提取和残差特征提取模块。
CN202210586444.2A 2022-05-27 2022-05-27 一种基于时频域视觉伪影特征自适应融合的跨模态深度伪造检测方法 Active CN114898438B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210586444.2A CN114898438B (zh) 2022-05-27 2022-05-27 一种基于时频域视觉伪影特征自适应融合的跨模态深度伪造检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210586444.2A CN114898438B (zh) 2022-05-27 2022-05-27 一种基于时频域视觉伪影特征自适应融合的跨模态深度伪造检测方法

Publications (2)

Publication Number Publication Date
CN114898438A true CN114898438A (zh) 2022-08-12
CN114898438B CN114898438B (zh) 2024-09-17

Family

ID=82726803

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210586444.2A Active CN114898438B (zh) 2022-05-27 2022-05-27 一种基于时频域视觉伪影特征自适应融合的跨模态深度伪造检测方法

Country Status (1)

Country Link
CN (1) CN114898438B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115311525A (zh) * 2022-10-08 2022-11-08 阿里巴巴(中国)有限公司 深度伪造检测方法及对应装置
CN116586924A (zh) * 2023-07-17 2023-08-15 浙江一益医疗器械有限公司 一种针尖五斜面结构的不锈钢针管及其制备工艺
CN117292442A (zh) * 2023-10-13 2023-12-26 中国科学技术大学先进技术研究院 一种跨模态跨域通用人脸伪造定位方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170132496A1 (en) * 2015-11-05 2017-05-11 Microsoft Technology Licensing, Llc Hardware-efficient deep convolutional neural networks
CN113536990A (zh) * 2021-06-29 2021-10-22 复旦大学 深度伪造人脸数据鉴别方法
CN113935365A (zh) * 2021-09-27 2022-01-14 华南农业大学 基于空域和频域双特征的深度伪造视频鉴定方法及系统
US20220121868A1 (en) * 2020-10-16 2022-04-21 Pindrop Security, Inc. Audiovisual deepfake detection
CN114463209A (zh) * 2022-01-25 2022-05-10 广州大学 一种基于深度多特征协同学习的图像修复方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170132496A1 (en) * 2015-11-05 2017-05-11 Microsoft Technology Licensing, Llc Hardware-efficient deep convolutional neural networks
US20220121868A1 (en) * 2020-10-16 2022-04-21 Pindrop Security, Inc. Audiovisual deepfake detection
CN113536990A (zh) * 2021-06-29 2021-10-22 复旦大学 深度伪造人脸数据鉴别方法
CN113935365A (zh) * 2021-09-27 2022-01-14 华南农业大学 基于空域和频域双特征的深度伪造视频鉴定方法及系统
CN114463209A (zh) * 2022-01-25 2022-05-10 广州大学 一种基于深度多特征协同学习的图像修复方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
潘孝勤等: "基于混合特征和多通道GRU的伪造语音鉴别方法", 《信息网络安全》, 10 October 2021 (2021-10-10) *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115311525A (zh) * 2022-10-08 2022-11-08 阿里巴巴(中国)有限公司 深度伪造检测方法及对应装置
CN115311525B (zh) * 2022-10-08 2023-03-14 阿里巴巴(中国)有限公司 深度伪造检测方法及对应装置
CN116586924A (zh) * 2023-07-17 2023-08-15 浙江一益医疗器械有限公司 一种针尖五斜面结构的不锈钢针管及其制备工艺
CN116586924B (zh) * 2023-07-17 2024-02-27 浙江一益医疗器械有限公司 一种针尖五斜面结构的不锈钢针管及其制备工艺
CN117292442A (zh) * 2023-10-13 2023-12-26 中国科学技术大学先进技术研究院 一种跨模态跨域通用人脸伪造定位方法
CN117292442B (zh) * 2023-10-13 2024-03-26 中国科学技术大学先进技术研究院 一种跨模态跨域通用人脸伪造定位方法

Also Published As

Publication number Publication date
CN114898438B (zh) 2024-09-17

Similar Documents

Publication Publication Date Title
Park et al. Double JPEG detection in mixed JPEG quality factors using deep convolutional neural network
Gallagher et al. Image authentication by detecting traces of demosaicing
Liu et al. Detecting generated images by real images
CN114898438B (zh) 一种基于时频域视觉伪影特征自适应融合的跨模态深度伪造检测方法
Jia et al. Inconsistency-aware wavelet dual-branch network for face forgery detection
CN112528969B (zh) 人脸图像的真伪检测方法、系统、计算机设备和存储介质
CN112069891B (zh) 一种基于光照特征的深度伪造人脸鉴别方法
Yu et al. Detecting deepfake-forged contents with separable convolutional neural network and image segmentation
Gao et al. TBNet: A two-stream boundary-aware network for generic image manipulation localization
Huang et al. DS-UNet: a dual streams UNet for refined image forgery localization
CN115035052B (zh) 一种基于身份差异量化的伪造换脸图像检测方法和系统
Liu et al. Overview of image inpainting and forensic technology
Elsharkawy et al. New and efficient blind detection algorithm for digital image forgery using homomorphic image processing
Kang et al. Detection enhancement for various deepfake types based on residual noise and manipulation traces
Rao et al. Towards JPEG-resistant image forgery detection and localization via self-supervised domain adaptation
CN114677372A (zh) 一种融合噪声感知的深度伪造图像检测方法及系统
Zhu et al. Rggid: A robust and green gan-fake image detector
CN114155165A (zh) 一种基于半监督的图像去雾方法
Liu et al. Image forgery localization based on fully convolutional network with noise feature
CN117689550A (zh) 基于渐进式生成对抗网络的低光图像增强方法及装置
Yadav et al. Datasets, clues and state-of-the-arts for multimedia forensics: An extensive review
CN117095471A (zh) 基于多尺度特征的人脸伪造溯源方法
Mohamed et al. Detecting secret messages in images using neural networks
Chang et al. Image Forgery Using An Enhanced Bayesian Matting Algorithm
Tariang et al. Synthetic Image Verification in the Era of Generative Artificial Intelligence: What Works and What Isn’t There yet

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant