CN117292442A - 一种跨模态跨域通用人脸伪造定位方法 - Google Patents
一种跨模态跨域通用人脸伪造定位方法 Download PDFInfo
- Publication number
- CN117292442A CN117292442A CN202311323582.2A CN202311323582A CN117292442A CN 117292442 A CN117292442 A CN 117292442A CN 202311323582 A CN202311323582 A CN 202311323582A CN 117292442 A CN117292442 A CN 117292442A
- Authority
- CN
- China
- Prior art keywords
- frequency
- domain
- rgb
- features
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 9
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 3
- 239000011159 matrix material Substances 0.000 claims description 48
- 230000006870 function Effects 0.000 claims description 30
- 238000010586 diagram Methods 0.000 claims description 27
- 230000004927 fusion Effects 0.000 claims description 26
- 230000003993 interaction Effects 0.000 claims description 23
- 238000011176 pooling Methods 0.000 claims description 16
- 230000004913 activation Effects 0.000 claims description 14
- 238000000926 separation method Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000013461 design Methods 0.000 claims description 3
- 241000287196 Asthenes Species 0.000 claims description 2
- 230000003044 adaptive effect Effects 0.000 claims description 2
- 230000006835 compression Effects 0.000 claims description 2
- 238000007906 compression Methods 0.000 claims description 2
- 238000009826 distribution Methods 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 239000002245 particle Substances 0.000 claims description 2
- 238000005096 rolling process Methods 0.000 claims description 2
- 208000011580 syndromic disease Diseases 0.000 claims 1
- 238000013135 deep learning Methods 0.000 abstract description 6
- 230000000694 effects Effects 0.000 description 4
- UTGQNNCQYDRXCH-UHFFFAOYSA-N N,N'-diphenyl-1,4-phenylenediamine Chemical compound C=1C=C(NC=2C=CC=CC=2)C=CC=1NC1=CC=CC=C1 UTGQNNCQYDRXCH-UHFFFAOYSA-N 0.000 description 3
- 229920002730 Poly(butyl cyanoacrylate) Polymers 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000004807 localization Effects 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 2
- 238000009792 diffusion process Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011840 criminal investigation Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005242 forging Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/40—Spoof detection, e.g. liveness detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种跨模态跨域通用人脸伪造定位网络。本发明步骤如下:1、实验数据的预处理;2、构建人脸伪造定位网络ForgeryNet;3、训练ForgeryNet网络模型;4、使用训练好的ForgeryNet网络模型在多个伪造定位数据集上进行应用,并对定位结果进行评估。本发明所设计的一种跨模态跨域通用人脸伪造定位网络利用深度学习技术和跨模态跨域特征提取,可以准确地定位人脸伪造区域,具有很高的实际应用价值。
Description
技术领域
本发明属于人工智能技术领域,具体涉及一种跨模态跨域通用人脸伪造定位方法。
背景技术
随着深度学习技术的进步,互联网上出现了大量的人脸伪造图像和视频。人脸伪造技术对政治和社会稳定构成潜在威胁。人脸伪造技术还可能对个人声誉和隐私构成威胁。
随着深度学习技术的发展,许多研究者利用卷积神经网络来检测伪造图像。他们利用对抗神经网络在生成伪造照片时产生的特殊伪影对伪造人脸图像进行分类,将人脸伪造检测任务视为一个二分类问题。然而,在实际应用中,如刑事调查和多媒体取证,相比于确定一张照片是否是伪造的,更重要的是定位伪造区域。此外,虽然特殊伪影能够有效区分伪造图像,但它的普适性有限。随着扩散模型的发展,对抗神经网络生成的特定伪影可能不适用于检测扩散模型生成的伪造图像。因此,有必要探索一种新的稳定、通用的人脸伪造检测网络。
为了解决这些问题,本发明提出了一种新的跨模态跨域通用人脸伪造定位方法。具体而言,该网络利用深度学习技术和跨模态跨域特征提取,可以准确地定位人脸伪造区域。首先,本发明引入了多粒度频率感知模块,以提取与卷积神经网络兼容且具有平移不变性和局部不变性的多粒度频率信息。此外,本发明还设计了跨域特征交互模块,以促进空间和频率域特征之间的交互。这有助于学习更具代表性的特征,并提高伪造定位的准确性。最后,本发明提出了动态亲和图特征融合模块,通过建模不同模态样本和域样本之间的相关性,实现了三种特征的更紧密融合,从而进一步提高伪造定位的准确性。
发明内容
为克服现有技术不足,本发明提出一种跨模态跨域通用人脸伪造定位方法。实现了人脸伪造区域的定位。具体的步骤如下:
步骤1、实验数据的预处理;
步骤2、构建人脸伪造定位网络ForgeryNet;
步骤3、训练ForgeryNet网络模型;
步骤4、使用训练好的ForgeryNet网络模型在多个伪造定位数据集上进行应用,并对定位结果进行评估。
所述步骤1具体包括以下步骤:
步骤1.1对人脸伪造图像进行裁剪,大小为256×256;
步骤1.2对裁剪后的图像进行数据增强,具体通过随机旋转和随机缩放;
步骤1.3划分训练集、验证集和测试集。
所述步骤2包括以下步骤:
步骤2.1构建多粒度频率感知模块,从人脸RGB图像中提取多粒度频域信息;
对于输入的RGB图像(H为输入图像的高,W为输入图像的宽),经过多粒图频率感知模块(由多尺度频率细节感知器和粗糙频率感知器组成),可以得到多粒度频率特征Xfrequency。多粒图频率感知模块的具体结构如下:
首先,我们设置了一个可适配于卷积神经网络的多尺度频率细节感知器。该频率感知器可以将输入的RGB图像解耦为多个方向的高频和低频信息,通过滑动窗口机制,得到适配卷积神经网络的频域特征。我们将输入的RGB图像X转换为灰度图。然后我们将灰度图拆分为N个大小为P×P的矩阵,记为然后我们对N个矩阵应用小波变换,得到不同方向的高频特征和低频特征。具体公式如下:
DWT(Pi)=[Pi_LL,Pi_LH,Pi_HL,Pi_HH]
其中,DWT代表小波变换,Pi_LL代表原始图像的近似部分,而Pi_LH、Pi_HL和Pi_HH分别代表水平、垂直和对角方向上的高频信息。
进一步的,在提取了不同方向上的高频和低频数据之后,我们使用离散余弦变换将这些特征映射到频域。离散余弦变换被广泛应用于图像压缩中,对于捕捉压缩图像中的伪影非常有效。对于这四个分支,其表达式如下:
其中是离散余弦变换函数,其log10用于平衡每个分支的振幅。
进一步的,然后我们对频域特征进行变形。对于每个patch的不同频率特征,我们将其拼接到不同的通道上,然后同一频率幅度的不同位置patch仍然按照原来的几何分布排列,得到细粒度频域特征
进一步的,为了在频域处理过程中保留图像的空间结构和细节信息。我们设计了一个可学习的粗糙频率滤波器。对于输入的图像我们首先经过离散余弦变换,得到频域特征对于经过离散余弦变换的频域特征/>其低频特征位于左上角,高频特征位于右下角。我们设计了Nf个二进制滤波器(滤波器的像素值由0和1组成)记为/>提取不同频带的特征。我们希望我们的滤波器是可学习的滤波器,因此我们还设计了另一组Nf个可学习的滤波器/>最终使用的Nf个滤波器由/>和/>相加得到,然后将/>送入这Nf个滤波器可以得到Nf组频域特征,再将Nf组频域特征经过逆离散余弦变换转换到空域。具体公式如下:
其中是逆离散余弦变换,D是离散余弦变换,⊙是Hadamard乘积,X是输入的RGB图像,/>是二进制滤波器,/>是可学习的滤波器。
我们将Nf个特征在通道维度进行拼接得到Xfrequency_coarse,然后与上采样后的Xfrequency_fine进行拼接(这里的上采样使用双线性插值完成),得到最终输出的频率特征Xfrequency。
步骤2.2构建编码器,从人脸RGB图像中提取语义特征信息,从人脸深度图像中提取深度特征信息,从人脸频域信息中提取频域特征;
我们首先利用三个ResNet18作为三个编码器(ResNet18具有五层结构,本发明中我们只使用前四层),将输入的RGB图像X、深度图Xdepth和频域信息Xfrequency分别送入三个编码器提取三种特征信息。我们将三个ResNet18编码器第i层的输出特征分别记为Xi_RGB、Xi_depth和Xi_frequency。
进一步的,X1_RGB和X1_frequency会经过跨域特征交互模块,X2_RGB和X2_frequency会经过跨域特征交互模块,X3_RGB和X3_frequency会经过跨域特征交互模块。一方面为了让空域和频域特征在编码的过程中产生交互。因为频域中的体素代表了整张图片的全局信息,处理频域空间能够捕捉到频率中的全局表示。相比之下,在空域的卷积侧重于学习空间域中的局部表示。通过两种信息的交互,可以让网络学习到更多代表性的特征。同时,也可以让双方补充对方域里没有的特征,实现更好的多域特征提取与交互。跨域特征交互模块结构如下:
首先,对于第i层的RGB特征和频域特征/> 首先我们利用逆离散余弦变换将频域特征Xi_frequency转换到空域中。然后Xi_RGB分别经过一层全局最大池化层和全局平均池化层,得到空域的通道权重。Xi_frequency经过一层全局最大池化和全局平均池化,得到频域的通道权重,将空域通道权重和频域通道进行拼接得到/>然后将Wchannel送入一层MLP和sigmoid激活函数,最后按照通道维度将Wchannel分离为/> 和/>具体公式如下:
其中为通道分离函数,/>为MLP层,σ为sigmoid激活函数,/>是新的空域通道权重,/>是新的频域通道权重。
进一步的,交互后的通道特征计算如下:
其中代表了通道维度的矩阵乘法,/>是新的空域通道权重,/>是新的频域通道权重,Xi_frequency是第i层的频域特征,Xi_RGB是第i层的空域特征。
进一步的,然后Xi_RGB分别经过一层最大池化和平均池化,得到空域的空间权重。Xi_frequency分别经过一层最大池化和平均池化,得到频域的空间权重,将两个权重进行拼接得到然后将Wspatial送入一层point-wise卷积层和sigmoid激活函数,最后按照H和W维度将Wspatial分离为/>和/>具体公式如下:
其中是point-wise卷积操作,/>为HW维度分离函数,σ为sigmoid激活函数,/>是全新的空域空间权重,/>是全新的频域空间权重。
进一步的,交互后的空间特征计算如下:
其中⊙代表了Hadamard乘法,是全新的空域空间权重,/>是全新的频域空间权重,Xi_frequency是第i层的频域特征,Xi_RGB是第i层的空域特征。
进一步的,因此频率分支和RGB分支的输出为:
其中和/>是可学习的权重参数,Xi_frequency是第i层的频域特征,Xi_RGB是第i层的空域特征,/>是经过跨域通道交互的频域特征,/>是经过跨域空间交互的频域特征,/>是经过跨域通道交互的空域特征,/>是经过跨域空间交互的空域特征。
步骤2.3提取共享模态特征空间下的RGB特征和深度图特征/>提取共享域特征空间下的空域特征/>和频域特征/>
对于RGB特征编码器、深度模态编码器和频域特征编码器的最后一层特征 和/>我们首先将/>和/>进行通道维度的拼接,然后送入特征分离模块,得到/>和/>其次将/>和/>进行通道维度的拼接,然后送入特征分离模块,得到/>和/>特征分离模块由一层3×3卷积层、批标准化层、ReLU激活函数和一层3×3卷积层组成。
步骤2.4构建动态亲和图特征融合模块,将送入动态亲和图特征融合模块1得到输出Zmodal,将/>送入动态亲和图特征融合模块2得到输出Zdomain,Zmodal和Zdomain进行通道维度的拼接得到融合特征Z。动态亲和图特征融合模块具体结构如下:
我们以四组模态特征的融合为例说明,对于四组特征/>我们将其变形为/>然后我们构建了模态图用于RGB模态和深度模态的跨模态特征融合。模态图表示如下:
其中是图中所有结点的集合。/>是图中所有结点的特征的集合,并且/> 是对应的邻接矩阵。
进一步的,对于模态图而言,共有两种类型的结点,分别是RGB模态结点和深度模态结点。对于RGB模态结点共有三种特征,分别是RGB模态、共享特征空间下RGB专属特征和深度模态特征。对于深度模态结点共有三种特征,分别是RGB模态特征、共享特征空间下深度模态专属特征和深度模态特征。由于深度模态结点缺失RGB模态特征,RGB模态结点缺失深度模态特征,因此我们用零矩阵填充。结点特征矩阵表示如下:
其中是模态图中所有的结点特征矩阵,/>是模态图中所有的RGB结点特征矩阵,/>是模态图中所有的深度模态结点矩阵。
进一步的,为了计算结点之间的亲和矩阵,我们使用向量内积作为计算非局部亲和度的方法。RGB模态节点之间的亲和矩阵由两个部分组成:RGB模态特征之间的相似度以及在共享特征空间中的RGB独有特征的相似度。深度模态节点之间的非局部亲和矩阵也由两个部分组成:深度模态特征之间的相似度以及在共享特征空间中的深度独有特征的相似度。RGB节点和深度节点之间的亲和矩阵由两种类型节点之间在共享特征空间中独有特征的相似度组成。亲和力矩阵表示如下:
其中TR-R是RGB模态节点之间的亲和矩阵,TD-D是深度模态节点之间的亲和矩阵,TR-D和TD-R是RGB节点和深度节点之间的亲和矩阵,和/>是可学习的权重参数。
进一步的,我们将这些亲和力矩阵拼接为跨模态亲和力矩阵,TR-R位于矩阵左上角,TR-D位于矩阵右上角,TD-R位于矩阵左下角,TD-D位于矩阵右下角。与传统的图卷积神经网络的固定拓扑关系不同,我们的网络会动态的学习图结构。它的图是动态稀疏图,对于第l层的每一个结点其邻居结点为:
其中kANN代表选择跨模态亲和力矩阵中每一行的Top k元素,是RGB模态结点,/>是深度模态结点。
进一步的,节点特征可以通过消息传递更新,使用以下公式:
其中是第l层图的邻接矩阵,/>是第l层图的特征矩阵,D(l)是第l层图的度矩阵,W(l)是可学习的权重矩阵,σ是ReLU激活函数。
步骤2.5构建预测头,将经过动态亲和图特征融合模块的特征进行解码,输出人脸伪造定位结果;
对于经过动态亲和图特征融合模块后得到的特征Z首先进行变形,然后经过预测头得到人脸伪造定位的结果Y。预测头由一层3×3的卷积层和Sigmoid激活函数组成。
所述步骤3包括以下步骤:
步骤3.1计算人脸伪造标签。
本发明根据真实人脸照片和伪造后的人脸照片获取标签。
其中Ytrue是人脸伪造标签,代表图像灰度化,Xtrue是真实人脸照片,Xfalse是伪造后的人脸照片。
步骤3.2计算ForgeryNet的损失函数,ForgeryNet的损失函数由人脸伪装定位损失组成。
我们使用MSE Loss作为损失函数。
其中Y是ForgeryNet预测的定位结果,Ytrue是真实的定位标签,代表了MSE损失函数。
步骤3.3在训练过程中使用随机梯度下降优化算法SGD;
步骤3.4在训练过程中采用poly学习率策略,学习率更新公式为:
其中,learnrate为当前epoch的学习率,initial_rate为初始学习率。iter为当前epoch数目,total_iter为总的epoch数目。
所述步骤4包括以下步骤:
步骤4.1使用像素级二分类准确率(PBCA)和骰子系数(Dice)来评价人脸伪造定位的效果。
与现有技术相比,本发明的有益结果使:
本发明通过建立ForgeryNet的深度学习模型,实现了一种跨模态跨域通用人脸伪造定位方法。该网络利用深度学习技术和跨模态跨域特征提取,可以准确地定位人脸伪造区域。
附图说明
图1为ForgeryNet的网络结构图。
图2为ForgeryNet的实际应用效果。
具体实施方式
下面结合附图和具体实施例对本发明作进一步的说明。
为了解决人脸伪造定位上的问题,我们提出了一种新的跨模态跨域通用人脸伪造定位方法。具体而言,该网络利用深度学习技术和跨模态跨域特征提取,可以准确地定位人脸伪造区域。首先,我们引入了多粒度频率感知模块,以提取与卷积神经网络兼容且具有平移不变性和局部不变性的多粒度频率信息。此外,我们还设计了跨域特征交互模块,以促进空间和频率域特征之间的交互。这有助于学习更具代表性的特征,并提高伪造定位的准确性。最后,我们提出了动态亲和图特征融合模块,通过建模不同模态样本和域样本之间的相关性,实现了三种特征的更紧密融合,从而进一步提高伪造定位的准确性。
实施例1实验数据的预处理。
(1)对图片进行裁剪为大小256×256。
(2)对裁剪后的图像进行数据增强,进行随机旋转和随机缩放。
(3)划分数据集为训练集、验证集和测试集。
实施例2构建ForgeryNet网络模型。
(1)构建多粒度频率感知模块,从人脸RGB图像中提取多粒度频域信息。
(2)构建编码器,从人脸RGB图像中提取语义特征信息,从人脸深度图像中提取深度特征信息,从人脸频域信息中提取频域特征。
(3)提取共享模态特征空间下的RGB特征和深度图特征/>提取共享域特征空间下的空域特征/>和深度图特征/>
(4)构建动态亲和图特征融合模块,通过建模不同模态样本和域样本之间的相关性,实现了三种特征的更紧密融合。
(5)构建预测头,将经过动态亲和图特征融合模块的特征进行解码,输出人脸伪造定位结果。
实施例3训练ForgeryNet网络模型。
(1)计算人脸伪造标签。
(2)计算ForgeryNet的损失函数,ForgeryNet的损失函数由人脸伪装定位损失组成。
(3)采用SGD优化方式作为优化方法。
(4)采用Poly学习率调整策略
实施例4采用训练好的ForgeryNet网络模型在公开人脸伪造检测数据集FaceForensics++和DFFD上进行实验,并对实验效果进行评估。
(1)下表1为ForgeryNet与其他人脸伪造定位网络在FaceForensics数据上的效果对比。
模型 | PBCA | Dice |
基准模型1 | 26.94 | 0.0811 |
基准模型2 | 6.1429 | 0.0219 |
基准模型3 | 6.717 | 0.0689 |
ForgeryNet | 37.45 | 0.4971 |
表1在FaceForensics++上的对比实验结果(2)下表2为ForgeryNet在DFFD数据上的效果对比
模型 | PBCA | Dice |
基准模型1 | 23.11 | 0.0974 |
基准模型2 | 6.7772 | 0.2050 |
基准模型3 | 0.7197 | 0.0779 |
ForgeryNet | 23.21 | 0.2782 |
表2在DFFD上的对比实验结果。
Claims (8)
1.一种跨模态跨域通用人脸伪造定位方法,其特征在于包括如下步骤:
步骤1、实验数据的预处理;
步骤2、构建人脸伪造定位网络ForgeryNet;
步骤3、训练ForgeryNet网络模型;
步骤4、使用训练好的ForgeryNet网络模型在多个伪造定位数据集上进行应用,并对定位结果进行评估。
2.根据权利要求1所述的一种跨模态跨域通用人脸伪造定位方法,其特征在于所述步骤2包括以下步骤:
步骤2.1构建多粒度频率感知模块,从人脸RGB图像中提取多粒度频域信息;
步骤2.2构建编码器,从人脸RGB图像中提取语义特征信息,从人脸深度图像中提取深度特征信息,从人脸频域信息中提取频域特征;
步骤2.3提取共享模态特征空间下的RGB特征和深度图特征/>提取共享域特征空间下的空域特征/>和频域特征/>
步骤2.4构建动态亲和图特征融合模块,通过建模不同模态样本和域样本之间的相关性,实现三种特征的紧密融合;
步骤2.5构建预测头,将经过动态亲和图特征融合模块的特征进行解码,输出人脸伪造定位结果。
3.根据权利要求2所述的一种跨模态跨域通用人脸伪造定位方法,其特征在于步骤2.1具体实现如下:
对于输入的RGB图像(H为输入图像的高,W为输入图像的宽),经过多粒图频率感知模块(由多尺度频率细节感知器和粗糙频率感知器组成),可以得到多粒度频率特征Xfrequency。多粒图频率感知模块的具体结构如下:
首先,我们设置了一个可适配于卷积神经网络的多尺度频率细节感知器。该频率感知器可以将输入的RGB图像解耦为多个方向的高频和低频信息,通过滑动窗口机制,得到适配卷积神经网络的频域特征。我们将输入的RGB图像X转换为灰度图。然后我们将灰度图拆分为N个大小为P×P的矩阵,记为然后我们对N个矩阵应用小波变换,得到不同方向的高频特征和低频特征。具体公式如下:
DWT(Pi)=[Pi_LL,Pi_LH,Pi_HL,Pi_HH]
其中,DWT代表小波变换,Pi_LL代表原始图像的近似部分,而Pi_LH、Pi_HL和Pi_HH分别代表水平、垂直和对角方向上的高频信息。
进一步的,在提取了不同方向上的高频和低频数据之后,我们使用离散余弦变换将这些特征映射到频域。离散余弦变换被广泛应用于图像压缩中,对于捕捉压缩图像中的伪影非常有效。对于这四个分支,其表达式如下:
其中是离散余弦变换函数,其log10用于平衡每个分支的振幅。
进一步的,然后我们对频域特征进行变形。对于每个patch的不同频率特征,我们将其拼接到不同的通道上,然后同一频率幅度的不同位置patch仍然按照原来的几何分布排列,得到细粒度频域特征
进一步的,为了在频域处理过程中保留图像的空间结构和细节信息。我们设计了一个可学习的粗糙频率滤波器。对于输入的图像我们首先经过离散余弦变换,得到频域特征对于经过离散余弦变换的频域特征/>其低频特征位于左上角,高频特征位于右下角。我们设计了Nf个二进制滤波器(滤波器的像素值由0和1组成)记为/>提取不同频带的特征。我们希望我们的滤波器是可学习的滤波器,因此我们还设计了另一组Nf个可学习的滤波器/>最终使用的Nf个滤波器由/>和/>相加得到,然后将/>送入这Nf个滤波器可以得到Nf组频域特征,再将Nf组频域特征经过逆离散余弦变换转换到空域。具体公式如下:
其中是逆离散余弦变换,D是离散余弦变换,⊙是Hadamard乘积,X是输入的RGB图像,/>是二进制滤波器,/>是可学习的滤波器。
我们将Nf个特征在通道维度进行拼接得到Xfrequency_coarse,然后与上采样后的Xfrequency_fine进行拼接(这里的上采样使用双线性插值完成),得到最终输出的频率特征Xfrequency。
4.根据权利要求2所述的一种跨模态跨域通用人脸伪造定位方法,其特征在于步骤2.2具体实现如下:
我们首先利用三个ResNet18作为三个编码器(ResNet18具有五层结构,本发明中我们只使用前四层),将输入的RGB图像X、深度图Xdepth和频域信息Xfrequency分别送入三个编码器提取三种特征信息。我们将三个ResNet18编码器第i层的输出特征分别记为Xi_RGB、Xi_depth和Xi_frequency。
进一步的,X1_RGB和X1_frequency会经过跨域特征交互模块,X2_RGB和X2_frequency会经过跨域特征交互模块,X3_RGB和X3_frequency会经过跨域特征交互模块。一方面为了让空域和频域特征在编码的过程中产生交互。因为频域中的体素代表了整张图片的全局信息,处理频域空间能够捕捉到频率中的全局表示。相比之下,在空域的卷积侧重于学习空间域中的局部表示。通过两种信息的交互,可以让网络学习到更多代表性的特征。同时,也可以让双方补充对方域里没有的特征,实现更好的多域特征提取与交互。跨域特征交互模块结构如下:
首先,对于第i层的RGB特征和频域特征/> 首先我们利用逆离散余弦变换将频域特征Xi_frequency转换到空域中。然后Xi_RGB分别经过一层全局最大池化层和全局平均池化层,得到空域的通道权重。Xi_frequency经过一层全局最大池化和全局平均池化,得到频域的通道权重,将空域通道权重和频域通道进行拼接得到然后将Wchannel送入一层MLP和sigmoid激活函数,最后按照通道维度将Wchannel分离为/> 和/>具体公式如下:
其中为通道分离函数,/>为MLP层,σ为sigmoid激活函数,/>是新的空域通道权重,/>是新的频域通道权重。
进一步的,交互后的通道特征计算如下:
其中代表了通道维度的矩阵乘法,/>是新的空域通道权重,/>是新的频域通道权重,Xi_frequency是第i层的频域特征,Xi_RGB是第i层的空域特征。
进一步的,然后Xi_RGB分别经过一层最大池化和平均池化,得到空域的空间权重。Xi_frequency分别经过一层最大池化和平均池化,得到频域的空间权重,将两个权重进行拼接得到然后将Wspatial送入一层point-wise卷积层和sigmoid激活函数,最后按照H和W维度将Wspatial分离为/>和/>具体公式如下:
其中是point-wise卷积操作,/>为HW维度分离函数,σ为sigmoid激活函数,/>是全新的空域空间权重,/>是全新的频域空间权重。
进一步的,交互后的空间特征计算如下:
其中⊙代表了Hadamard乘法,是全新的空域空间权重,/>是全新的频域空间权重,Xi_frequency是第i层的频域特征,Xi_RGB是第i层的空域特征。
进一步的,因此频率分支和RGB分支的输出为:
其中和/>是可学习的权重参数,Xi_frequency是第i层的频域特征,Xi_RGB是第i层的空域特征,/>是经过跨域通道交互的频域特征,/>是经过跨域空间交互的频域特征,是经过跨域通道交互的空域特征,/>是经过跨域空间交互的空域特征。
5.根据权利要求2所述的一种跨模态跨域通用人脸伪造定位方法,其特征在于步骤2.3具体实现如下:
对于RGB特征编码器、深度模态编码器和频域特征编码器的最后一层特征和我们首先将/>和/>进行通道维度的拼接,然后送入特征分离模块,得到/>和/>其次将/>和/>进行通道维度的拼接,然后送入特征分离模块,得到/>和/>特征分离模块由一层3×3卷积层、批标准化层、ReLU激活函数和一层3×3卷积层组成。
6.根据权利要求2所述的一种跨模态跨域通用人脸伪造定位方法,其特征在于步骤2.4具体实现如下:
将送入动态亲和图特征融合模块1得到输出Zmodal,将/>送入动态亲和图特征融合模块2得到输出Zdomain,Zmodal和Zdomain进行通道维度的拼接得到融合特征Z。动态亲和图特征融合模块具体结构如下:
我们以四组模态特征的融合为例说明,对于四组特征/>我们将其变形为/>然后我们构建了模态图用于RGB模态和深度模态的跨模态特征融合。模态图表示如下:
其中是图中所有结点的集合。/>是图中所有结点的特征的集合,并且/> 是对应的邻接矩阵。
进一步的,对于模态图而言,共有两种类型的结点,分别是RGB模态结点和深度模态结点。对于RGB模态结点共有三种特征,分别是RGB模态、共享特征空间下RGB专属特征和深度模态特征。对于深度模态结点共有三种特征,分别是RGB模态特征、共享特征空间下深度模态专属特征和深度模态特征。由于深度模态结点缺失RGB模态特征,RGB模态结点缺失深度模态特征,因此我们用零矩阵填充。结点特征矩阵表示如下:
其中是模态图中所有的结点特征矩阵,/>是模态图中所有的RGB结点特征矩阵,/>是模态图中所有的深度模态结点矩阵。
进一步的,为了计算结点之间的亲和矩阵,我们使用向量内积作为计算非局部亲和度的方法。RGB模态节点之间的亲和矩阵由两个部分组成:RGB模态特征之间的相似度以及在共享特征空间中的RGB独有特征的相似度。深度模态节点之间的非局部亲和矩阵也由两个部分组成:深度模态特征之间的相似度以及在共享特征空间中的深度独有特征的相似度。RGB节点和深度节点之间的亲和矩阵由两种类型节点之间在共享特征空间中独有特征的相似度组成。亲和力矩阵表示如下:
其中TR-R是RGB模态节点之间的亲和矩阵,TD-D是深度模态节点之间的亲和矩阵,TR-D和TD-R是RGB节点和深度节点之间的亲和矩阵,和/>是可学习的权重参数。
进一步的,我们将这些亲和力矩阵拼接为跨模态亲和力矩阵,TR-R位于矩阵左上角,TR-D位于矩阵右上角,TD-R位于矩阵左下角,TD-D位于矩阵右下角。与传统的图卷积神经网络的固定拓扑关系不同,我们的网络会动态的学习图结构。它的图是动态稀疏图,对于第l层的每一个结点其邻居结点为:
其中kANN代表选择跨模态亲和力矩阵中每一行的Top k元素,是RGB模态结点,是深度模态结点。
进一步的,节点特征可以通过消息传递更新,即可得到第l层的输出特征,使用以下公式:
其中是第l层图的邻接矩阵,/>是第l层图的特征矩阵,D(l)是第l层图的度矩阵,W(l)是可学习的权重矩阵,σ是ReLU激活函数。
7.根据权利要求1所述的一种跨模态跨域通用人脸伪造定位方法,其特征在于所述步骤2.5包括以下步骤
对于经过动态亲和图特征融合模块后得到的特征Z首先进行变形,然后经过预测头得到人脸伪造定位的结果Y。预测头由一层3×3的卷积层和Sigmoid激活函数组成。
8.根据权利要求1所述的一种跨模态跨域通用人脸伪造定位方法,其特征在于所述步骤3包括以下步骤:
步骤3.1计算人脸伪造标签。
本发明根据真实人脸照片和伪造后的人脸照片获取标签。
其中Ytrue是人脸伪造标签,代表图像灰度化,Xtrue是真实人脸照片,Xfalse是伪造后的人脸照片。
步骤3.2计算ForgeryNet的损失函数,ForgeryNet的损失函数由人脸伪装定位损失组成。
我们使用MSE Loss作为损失函数。
其中Y是ForgeryNet预测的定位结果,Ytrue是真实的定位标签,代表了MSE损失函数。
步骤3.3在训练过程中使用随机梯度下降优化算法SGD;
步骤3.4在训练过程中采用poly学习率策略,学习率更新公式为:
其中,learnrate为当前epoch的学习率,initial_rate为初始学习率。iter为当前epoch数目,total_iter为总的epoch数目。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311323582.2A CN117292442B (zh) | 2023-10-13 | 2023-10-13 | 一种跨模态跨域通用人脸伪造定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311323582.2A CN117292442B (zh) | 2023-10-13 | 2023-10-13 | 一种跨模态跨域通用人脸伪造定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117292442A true CN117292442A (zh) | 2023-12-26 |
CN117292442B CN117292442B (zh) | 2024-03-26 |
Family
ID=89258493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311323582.2A Active CN117292442B (zh) | 2023-10-13 | 2023-10-13 | 一种跨模态跨域通用人脸伪造定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117292442B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020000582A1 (zh) * | 2018-06-29 | 2020-01-02 | 北京奇虎科技有限公司 | 建立跨域联合分布匹配模型的方法、装置及其应用 |
WO2020143137A1 (zh) * | 2019-01-07 | 2020-07-16 | 北京大学深圳研究生院 | 基于受限文本空间的多步自注意力跨媒体检索方法及系统 |
CN112818722A (zh) * | 2019-11-15 | 2021-05-18 | 上海大学 | 模块化动态可配置的活体人脸识别系统 |
CN113536990A (zh) * | 2021-06-29 | 2021-10-22 | 复旦大学 | 深度伪造人脸数据鉴别方法 |
WO2022156333A1 (zh) * | 2021-01-25 | 2022-07-28 | 浙江师范大学 | 基于自编码器的多模态自适应融合深度聚类模型及方法 |
CN114898432A (zh) * | 2022-05-17 | 2022-08-12 | 中南大学 | 基于多特征融合的伪造人脸视频检测方法及系统 |
CN114898438A (zh) * | 2022-05-27 | 2022-08-12 | 大连理工大学 | 一种基于时频域视觉伪影特征自适应融合的跨模态深度伪造检测方法 |
CN115346261A (zh) * | 2022-08-24 | 2022-11-15 | 河北工业大学 | 基于改进ConvMixer网络和动态焦点损失的视听情感分类方法 |
CN115880749A (zh) * | 2022-11-08 | 2023-03-31 | 杭州中科睿鉴科技有限公司 | 基于多模态特征融合的人脸深伪检测方法 |
CN115984917A (zh) * | 2022-09-22 | 2023-04-18 | 云南大学 | 一种基于多模态伪影的人脸深度伪造检测方法及系统 |
CN116270056A (zh) * | 2023-03-31 | 2023-06-23 | 上海电机学院 | 一种多模态轮椅控制系统 |
CN116343256A (zh) * | 2021-12-10 | 2023-06-27 | 四川大学 | 一种基于bert的文本到图像跨模态行人重识别方法 |
-
2023
- 2023-10-13 CN CN202311323582.2A patent/CN117292442B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020000582A1 (zh) * | 2018-06-29 | 2020-01-02 | 北京奇虎科技有限公司 | 建立跨域联合分布匹配模型的方法、装置及其应用 |
WO2020143137A1 (zh) * | 2019-01-07 | 2020-07-16 | 北京大学深圳研究生院 | 基于受限文本空间的多步自注意力跨媒体检索方法及系统 |
CN112818722A (zh) * | 2019-11-15 | 2021-05-18 | 上海大学 | 模块化动态可配置的活体人脸识别系统 |
WO2022156333A1 (zh) * | 2021-01-25 | 2022-07-28 | 浙江师范大学 | 基于自编码器的多模态自适应融合深度聚类模型及方法 |
CN113536990A (zh) * | 2021-06-29 | 2021-10-22 | 复旦大学 | 深度伪造人脸数据鉴别方法 |
CN116343256A (zh) * | 2021-12-10 | 2023-06-27 | 四川大学 | 一种基于bert的文本到图像跨模态行人重识别方法 |
CN114898432A (zh) * | 2022-05-17 | 2022-08-12 | 中南大学 | 基于多特征融合的伪造人脸视频检测方法及系统 |
CN114898438A (zh) * | 2022-05-27 | 2022-08-12 | 大连理工大学 | 一种基于时频域视觉伪影特征自适应融合的跨模态深度伪造检测方法 |
CN115346261A (zh) * | 2022-08-24 | 2022-11-15 | 河北工业大学 | 基于改进ConvMixer网络和动态焦点损失的视听情感分类方法 |
CN115984917A (zh) * | 2022-09-22 | 2023-04-18 | 云南大学 | 一种基于多模态伪影的人脸深度伪造检测方法及系统 |
CN115880749A (zh) * | 2022-11-08 | 2023-03-31 | 杭州中科睿鉴科技有限公司 | 基于多模态特征融合的人脸深伪检测方法 |
CN116270056A (zh) * | 2023-03-31 | 2023-06-23 | 上海电机学院 | 一种多模态轮椅控制系统 |
Non-Patent Citations (2)
Title |
---|
MOMINA MASOOD,: "Deepfakes generation and detection: state-of-the-art, open challenges, countermeasures, and way forward", 《APPLIED INTELLIGENCE》, 4 June 2022 (2022-06-04) * |
谭维瑾: "基于深度神经网络的图像伪造定位和检测算法研究", 《全国优秀博硕士学位论文全文库(硕士) 信息科技辑》, 15 January 2022 (2022-01-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN117292442B (zh) | 2024-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kim et al. | Fully deep blind image quality predictor | |
CN112329800B (zh) | 一种基于全局信息引导残差注意力的显著性目标检测方法 | |
Jifara et al. | Medical image denoising using convolutional neural network: a residual learning approach | |
Do et al. | Forensics face detection from GANs using convolutional neural network | |
CN111598761B (zh) | 一种基于图像降噪的抗打印拍摄图像数字水印方法 | |
Zhang et al. | One-two-one networks for compression artifacts reduction in remote sensing | |
CN112507997A (zh) | 一种基于多尺度卷积和感受野特征融合的人脸超分辨系统 | |
CN111612711A (zh) | 一种基于生成对抗网络改进的图片去模糊方法 | |
CN109740539B (zh) | 基于超限学习机和融合卷积网络的3d物体识别方法 | |
CN115131218A (zh) | 图像处理方法、装置、计算机可读介质及电子设备 | |
Mallick et al. | Copy move and splicing image forgery detection using cnn | |
Liu et al. | Overview of image inpainting and forensic technology | |
Liu et al. | Image deblocking detection based on a convolutional neural network | |
CN112785480A (zh) | 基于频域变换和残差反馈模块的图像拼接篡改检测方法 | |
Majumder et al. | A tale of a deep learning approach to image forgery detection | |
CN110503157B (zh) | 基于细粒度图像的多任务卷积神经网络的图像隐写分析方法 | |
CN117711043A (zh) | 基于遮挡人脸的身份登录认证方法及系统、设备、介质 | |
CN118397367A (zh) | 一种基于卷积视觉Mamba的篡改检测方法 | |
Xu et al. | SFRNet: Feature Extraction‐Fusion Steganalysis Network Based on Squeeze‐and‐Excitation Block and RepVgg Block | |
CN113807232A (zh) | 基于双流网络的伪造人脸检测方法、系统及存储介质 | |
CN117292442B (zh) | 一种跨模态跨域通用人脸伪造定位方法 | |
Mohamed et al. | Detecting secret messages in images using neural networks | |
Gan et al. | Highly accurate end-to-end image steganalysis based on auxiliary information and attention mechanism | |
Wang et al. | Ensemble classifier based source camera identification using fusion features | |
Xu et al. | Steganography algorithms recognition based on match image and deep features verification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |