CN115311525B - 深度伪造检测方法及对应装置 - Google Patents
深度伪造检测方法及对应装置 Download PDFInfo
- Publication number
- CN115311525B CN115311525B CN202211220117.1A CN202211220117A CN115311525B CN 115311525 B CN115311525 B CN 115311525B CN 202211220117 A CN202211220117 A CN 202211220117A CN 115311525 B CN115311525 B CN 115311525B
- Authority
- CN
- China
- Prior art keywords
- frequency
- image
- spatial
- representation
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 181
- 238000000605 extraction Methods 0.000 claims abstract description 111
- 238000010801 machine learning Methods 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims description 161
- 230000004927 fusion Effects 0.000 claims description 148
- 238000000034 method Methods 0.000 claims description 110
- 238000012549 training Methods 0.000 claims description 63
- 238000010586 diagram Methods 0.000 claims description 58
- 230000006870 function Effects 0.000 claims description 48
- 238000013528 artificial neural network Methods 0.000 claims description 47
- 239000011159 matrix material Substances 0.000 claims description 35
- 239000000284 extract Substances 0.000 claims description 24
- 230000011218 segmentation Effects 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 13
- 238000005096 rolling process Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 6
- 235000019580 granularity Nutrition 0.000 abstract description 109
- 238000005242 forging Methods 0.000 abstract description 6
- 230000008569 process Effects 0.000 description 40
- 235000019587 texture Nutrition 0.000 description 29
- 238000009826 distribution Methods 0.000 description 26
- 230000004913 activation Effects 0.000 description 20
- 238000013507 mapping Methods 0.000 description 8
- 238000012512 characterization method Methods 0.000 description 7
- 238000005070 sampling Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000007670 refining Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000010354 integration Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000008447 perception Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000017105 transposition Effects 0.000 description 4
- 230000004069 differentiation Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/54—Extraction of image or video features relating to texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例公开了一种深度伪造检测方法及对应装置,涉及机器学习技术领域。本申请实施例提供的技术方案中,在空间域和频域两方面对待检测图像进行特征提取,并对空间特征表示和频率特征表示进行融合以检测待检测图像是否存在伪造对象。在提取频率特征时,充分考虑了待检测图像中伪造对象区域和其他区域在不同粒度的频率上所体现出的频率差异,利用待检测图像中的对象区域对粗粒度的频率特征表示和细粒度的频率特征表示进行融合得到待检测图像的频率特征表示,从而提高深度伪造检测的准确度。
Description
技术领域
本申请涉及机器学习技术领域,特别是涉及一种深度伪造检测方法及对应装置。
背景技术
随着深度伪造技术的发展,互联网上充斥着大量伪造诸如人脸等对象的虚假视频、图像,给政治经济、社会安全、个人信息安全等带来了巨大的负面影响。因此如何实现准确的深度伪造检测成为亟待解决的问题。
发明内容
本申请提供了一种深度伪造检测方法及对应装置,用以提高深度伪造检测的准确度。
本申请提供了如下方案:
第一方面,提供了一种深度伪造检测方法,所述方法包括:
获取待检测图像;
将所述待检测图像输入深度伪造检测模型,获取所述深度伪造检测模型针对所述待检测图像输出的是否存在伪造对象的检测结果;其中,所述深度伪造检测模型包括空间特征提取网络、频率特征提取网络、空间频率融合网络和分类网络,所述深度伪造检测模型为机器学习模型;
所述空间特征提取网络从所述待检测图像中提取空间特征表示;
所述频率特征提取网络从所述待检测图像中提取第一粒度的频率特征表示以及第二粒度的频率特征表示,所述第一粒度大于所述第二粒度;对所述待检测图像进行对象区域分割,利用分割得到的对象区域对所述第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到所述待检测图像的频率特征表示;
所述空间频率融合网络将待检测图像的空间特征表示和频率特征表示进行融合,得到空间频率联合特征表示;
所述分类网络利用所述空间频率联合特征表示进行分类处理,输出所述待检测图像是否存在伪造对象。
根据本申请实施例中一可实现的方式,从所述待检测图像中提取第一粒度的频率特征表示包括:
对所述待检测图像进行傅里叶变换得到所述待检测图像的第一频率特征表示;
根据本申请实施例中一可实现的方式,从所述待检测图像中提取第二粒度的频率特征表示包括:
将所述待检测图像分割为多个图像块,对各图像块进行傅里叶变换得到各图像块的频率特征表示;
将各图像块的频率特征表示进行拼接得到所述待检测图像的第三频率特征表示;
对所述第三频率特征表示进行卷积处理,得到所述第二粒度的频率特征表示。
根据本申请实施例中一可实现的方式,所述利用分割得到的对象区域对所述第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到所述待检测图像的频率特征表示包括:
利用图像分割网络生成人脸图像的内容掩码,所述内容掩码是对待检测图像中的对象区域进行掩码处理得到的;
利用所述内容掩码对所述第一粒度的频率特征表示和第二粒度的频率特征表示进行加权处理,得到所述待检测图像的频率特征表示。
根据本申请实施例中一可实现的方式,所述空间特征提取网络从所述待检测图像中提取空间特征表示包括:
利用至少两层骨干网络对所述待检测图像进行空间特征提取,得到各层输出的空间特征表示,其中将最高层骨干网络输出的空间特征表示作为所述待检测图像的空间特征表示。
根据本申请实施例中一可实现的方式,所述深度伪造检测模型还包括:注意力处理网络;在所述空间频率融合网络将待检测图像的空间特征表示和频率特征表示进行融合之前,还包括:
所述注意力处理网络利用所述至少两层骨干网络中最高层骨干网络输出的空间特征表示,对所述待检测图像的频率特征表示进行双线性注意力池化BAP处理,并将处理后的待检测图像的频率特征提供给所述空间频率融合网络进行所述融合;和/或,
利用从所述至少两层骨干网络中最低层骨干网络输出的空间特征表示中提取的纹理特征表示,对所述待检测图像的空间特征表示进行BAP处理,并将处理后的待检测图像的空间特征表示提供给所述空间频率融合网络进行所述融合。
根据本申请实施例中一可实现的方式,在对所述待检测图像的频率特征表示进行BAP处理之前,所述方法还包括:所述注意力处理网络对所述待检测图像的空间特征表示进行细化处理,该细化处理包括:获取所述待检测图像的空间特征表示对应的空间注意力图,利用所述空间注意力图产生多尺度空间注意力图作为细化处理后的待检测图像的空间特征表示;和/或,
在利用所述纹理特征表示对所述待检测图像的频率特征表示进行BAP处理之前,所述方法还包括:所述注意力处理网络对所述待检测图像的频率特征表示进行细化处理,该细化处理包括:获取所述待检测图像的频率特征表示对应的频率注意力图,利用所述频率注意力图产生多尺度频率注意力图作为细化处理后的待检测图像的频率特征表示。
根据本申请实施例中一可实现的方式,利用所述空间注意力图产生多尺度空间注意力图包括:所述注意力处理网络对所述空间注意力图向下采样得到多个空间注意力图;分别从多个空间注意力图中提取特征分布图后,对多个特征分布图进行上采样和整合得到所述多尺度空间注意力图;
利用所述频率注意力图产生多尺度频率特征图包括:所述注意力处理网络对所述频率注意力图向下采样得到多个频率注意力图;分别从多个频率注意力图中提取特征分布图后,对多个特征分布图进行上采样和整合得到所述多尺度频率注意力图。
根据本申请实施例中一可实现的方式,所述空间频率融合网络将待检测图像的空间特征表示和频率特征表示进行融合,得到空间频率融合特征表示包括:
所述空间频率融合网络将所述待检测图像的空间特征表示和频率特征表示进行拼接,得到特征拼接矩阵;
利用所述特征拼接矩阵,构建特征近邻图,所述特征近邻图包括节点和边,所述节点包括所述特征拼接矩阵的各列,若节点之间的距离满足预设的距离条件,则节点之间存在边;
利用图神经网络从所述特征近邻图中提取特征表示;
利用所述图神经网络提取的特征表示得到所述空间频率融合特征表示。
根据本申请实施例中一可实现的方式,所述构建特征近邻图和利用图神经网络从所述特征近邻图中提取特征表示由多层动态图卷积模块执行;
每一层动态图卷积模块利用输入的特征构建特征近邻图,利用图神经网络从特征近邻图中提取特征表示并输出;其中,第一层动态图卷积模块被输入的特征表示为所述特征拼接矩阵,非最后一层动态图卷积模块将提取的特征表示输出至下一层动态图卷积模块。
根据本申请实施例中一可实现的方式,利用所述图神经网络提取的特征表示得到所述空间频率融合特征表示包括:
利用多层感知机混合层对所述图神经网络提取的特征表示中的各列分别进行混合后,再对各行分别进行混合,得到所述空间频率融合特征表示。
根据本申请实施例中一可实现的方式,所述分类网络利用所述空间频率融合特征表示进行分类处理,输出所述待检测图像是否存在伪造对象包括:
所述分类网络对所述空间频率融合特征表示和所述待检测图像的空间特征表示进行拼接,利用拼接后得到的特征进行分类处理,输出所述待检测图像是否存在伪造对象的检测结果。
根据本申请实施例中一可实现的方式,所述对象为人脸;
所述检测结果为待检测图像是否存在伪造人脸。
第二方面,提供了一种深度伪造模型的训练方法,所述方法包括:
获取训练数据,所述训练数据包括图像样本和对图像样本标注的是否存在伪造对象的标签;
将所述图像样本作为深度伪造检测模型的输入,将所述图像样本对应的标签作为所述伪造检测模型的目标输出,训练所述深度伪造检测模型;其中,所述深度伪造检测模型包括空间特征提取网络、频率特征提取网络、空间频率融合网络和分类网络,所述深度伪造检测模型为机器学习模型;
所述空间特征提取网络从所述图像样本中提取空间特征表示;
所述频率特征提取网络从所述图像样本中提取第一粒度的频率特征表示以及第二粒度的频率特征表示,所述第一粒度大于所述第二粒度;对所述图像样本进行对象区域分割,利用分割得到的对象区域对所述第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到所述图像样本的频率特征表示;
所述空间频率融合网络将图像样本的空间特征表示和频率特征表示进行融合,得到空间频率融合特征表示;
所述分类网络利用所述空间频率融合特征表示进行分类处理,输出所述图像样本是否存在伪造对象。
根据本申请实施例中一可实现的方式,从所述图像样本中提取第一粒度的频率特征表示包括:
对所述图像样本进行傅里叶变换得到所述图像样本的第一频率特征表示;
根据本申请实施例中一可实现的方式,从所述图像样本中提取第二粒度的频率特征表示包括:
将所述图像样本分割为多个图像块,对各图像块进行傅里叶变换得到各图像块的频率特征表示;
将各图像块的频率特征表示进行拼接得到所述图像样本的第三频率特征表示;
对所述第三频率特征表示进行卷积处理,得到所述第二粒度的频率特征表示。
根据本申请实施例中一可实现的方式,所述利用分割得到的对象区域对所述第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到所述图像样本的频率特征表示包括:
生成所述图像样本的内容掩码,所述内容掩码是对图像样本中的对象区域进行掩码处理得到的;
利用所述内容掩码对所述第一粒度的频率特征表示和第二粒度的频率特征表示进行加权处理,得到所述图像样本的频率特征表示。
根据本申请实施例中一可实现的方式,所述空间特征提取网络从所述图像样本中提取空间特征表示包括:
利用至少两层骨干网络对所述图像样本进行空间特征提取,得到各层输出的空间特征表示,其中将最高层骨干网络输出的空间特征表示作为所述图像样本的空间特征表示。
根据本申请实施例中一可实现的方式,所述深度伪造检测模型还包括:注意力处理网络;在所述空间频率融合网络将图像样本的空间特征表示和频率特征表示进行融合之前,还包括:
所述注意力处理网络利用所述至少两层骨干网络中最高层骨干网络输出的空间特征表示,对所述图像样本的频率特征表示进行双线性注意力池化BAP处理,并将处理后的图像样本的频率特征提供给所述空间频率融合网络进行所述融合;和/或,
利用从所述至少两层骨干网络中最低层骨干网络输出的空间特征表示中提取的纹理特征表示,对所述图像样本的空间特征表示进行BAP处理,并将处理后的图像样本的空间特征表示提供给所述空间频率融合网络进行所述融合。
根据本申请实施例中一可实现的方式,在对所述图像样本的频率特征表示进行BAP处理之前,所述方法还包括:所述注意力处理网络对所述图像样本的空间特征表示进行细化处理,该细化处理包括:获取所述图像样本的空间特征表示对应的空间注意力图,利用所述空间注意力图产生多尺度空间注意力图作为细化处理后的图像样本的空间特征表示;和/或,
在利用所述纹理特征表示对所述图像样本的频率特征表示进行BAP处理之前,所述方法还包括:所述注意力处理网络对所述图像样本的频率特征表示进行细化处理,该细化处理包括:获取所述图像样本的频率特征表示对应的频率注意力图,利用所述频率注意力图产生多尺度频率注意力图作为细化处理后的图像样本的频率特征表示。
根据本申请实施例中一可实现的方式,利用所述空间注意力图产生多尺度空间注意力图包括:所述注意力处理网络对所述空间注意力图向下采样得到多个空间注意力图;分别从多个空间注意力图中提取特征分布图后,对多个特征分布图进行上采样和整合得到所述多尺度空间注意力图;
利用所述频率注意力图产生多尺度频率特征图包括:所述注意力处理网络对所述频率注意力图向下采样得到多个频率注意力图;分别从多个频率注意力图中提取特征分布图后,对多个特征分布图进行上采样和整合得到所述多尺度频率注意力图。
根据本申请实施例中一可实现的方式,所述空间频率融合网络将图像样本的空间特征表示和频率特征表示进行融合,得到空间频率融合特征表示包括:
所述空间频率融合网络将所述图像样本的空间特征表示和频率特征表示进行拼接,得到特征拼接矩阵;
利用所述特征拼接矩阵,构建特征近邻图,所述特征近邻图包括节点和边,所述节点包括所述特征拼接矩阵的各列,若节点之间的距离满足预设的距离条件,则节点之间存在边;
利用图神经网络从所述特征近邻图中提取特征表示;
利用所述图神经网络提取的特征表示得到所述空间频率融合特征表示。
根据本申请实施例中一可实现的方式,所述构建特征近邻图和利用图神经网络从所述特征近邻图中提取特征表示由多层动态图卷积模块执行;
每一层动态图卷积模块利用输入的特征表示构建特征近邻图,利用图神经网络从特征近邻图中提取特征表示并输出;其中,第一层动态图卷积模块被输入的特征表示为所述特征拼接矩阵,非最后一层动态图卷积模块将提取的特征表示输出至下一层动态图卷积模块。
根据本申请实施例中一可实现的方式,利用所述图神经网络提取的特征表示得到所述空间频率融合特征表示包括:
利用多层感知机混合层MLP-Mixer Layer对所述图神经网络提取的特征表示中的各列分别进行混合后,再对各行分别进行混合,得到所述空间频率融合特征表示。
根据本申请实施例中一可实现的方式,所述分类网络利用所述空间频率融合特征表示进行分类处理,输出所述图像样本是否存在伪造对象包括:
所述分类网络对所述空间频率融合特征表示和所述图像样本的空间特征表示进行拼接,利用拼接后得到的特征进行分类处理,输出所述图像样本是否存在伪造对象的检测结果。
根据本申请实施例中一可实现的方式,在训练所述深度伪造检测模型的过程中,利用总损失函数的值更新所述伪造检测模型的参数,直至满足预设的训练结束条件;
其中所述总损失函数的值由第一损失函数和第二损失函数的值确定;所述第一损失函数采用交叉熵损失函数,用以最小化所述检测结果与图像样本对应的标签之间的差异;所述第二损失函数采用区域独立性损失函数,用以最小化同类检测结果内所述空间频率融合特征表示与特征中心的距离,并且最大化不同类检测结果间特征中心的距离,所述特征中心是对同类检测结果的空间频率融合特征表示进行统计得到的。
第三方面,提供了一种深度伪造检测装置,所述装置包括:
图像获取单元,被配置为获取待检测图像;
伪造检测单元,被配置为将所述待检测图像输入深度伪造检测模型,获取所述深度伪造检测模型针对所述待检测图像输出的是否存在伪造对象的检测结果;其中,所述深度伪造检测模型包括空间特征提取网络、频率特征提取网络、空间频率融合网络和分类网络,所述深度伪造检测模型为机器学习模型;
所述空间特征提取网络用于从所述待检测图像中提取空间特征表示;
所述频率特征提取网络用于从所述待检测图像中提取第一粒度的频率特征表示以及第二粒度的频率特征表示,所述第一粒度大于所述第二粒度;对所述待检测图像进行对象区域分割,利用分割得到的对象区域对所述第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到所述待检测图像的频率特征表示;
所述空间频率融合网络用于将待检测图像的空间特征表示和频率特征表示进行融合,得到空间频率融合特征表示;
所述分类网络用于利用所述空间频率融合特征表示进行分类处理,输出所述待检测图像是否存在伪造对象。
第四方面,提供了一种深度伪造模型的训练装置,所述装置包括:
样本获取单元,被配置为获取训练数据,所述训练数据包括图像样本和对图像样本标注的是否存在伪造对象的标签;
模型训练单元,被配置为将所述图像样本作为深度伪造检测模型的输入,将所述图像样本对应的标签作为所述伪造检测模型的目标输出,训练所述深度伪造检测模型;其中,所述深度伪造检测模型包括空间特征提取网络、频率特征提取网络、空间频率融合网络和分类网络,所述深度伪造检测模型为机器学习模型;
所述空间特征提取网络用于从所述图像样本中提取空间特征表示;
所述频率特征提取网络用于从所述图像样本中提取第一粒度的频率特征表示以及第二粒度的频率特征表示,所述第一粒度大于所述第二粒度;对所述图像样本进行对象区域分割,利用分割得到的对象区域对所述第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到所述图像样本的频率特征表示;
所述空间频率融合网络用于将图像样本的空间特征表示和频率特征表示进行融合,得到空间频率融合特征表示;
所述分类网络用于利用所述空间频率融合特征表示进行分类处理,输出所述图像样本是否存在伪造对象。
第五方面,提供了一种深度伪造检测方法,所述方法包括:
获取待检测图像;
将所述待检测图像输入深度伪造检测模型,获取所述深度伪造检测模型针对所述待检测图像输出的是否存在伪造对象的检测结果;其中,所述深度伪造检测模型包括空间特征提取网络、频率特征提取网络、空间频率融合网络和分类网络,所述深度伪造检测模型为机器学习模型;
所述空间特征提取网络从所述待检测图像中提取空间特征表示;
所述频率特征提取网络从所述待检测图像中提取频率特征表示;
所述空间频率融合网络将待检测图像的空间特征表示和频率特征表示进行拼接,得到特征拼接矩阵;利用所述特征拼接矩阵,构建特征近邻图;利用图神经网络从所述特征近邻图中提取特征表示;利用所述图神经网络提取的特征表示得到所述空间频率融合特征表示;
所述分类网络利用所述空间频率融合特征表示进行分类处理,输出所述待检测图像是否存在伪造对象。
第六方面,提供了一种深度伪造模型的训练方法,所述方法包括:
获取训练数据,所述训练数据包括图像样本和对图像样本标注的是否存在伪造对象的标签;
将所述图像样本作为深度伪造检测模型的输入,将所述图像样本对应的标签作为所述伪造检测模型的目标输出,训练所述深度伪造检测模型;其中,所述深度伪造检测模型包括空间特征提取网络、频率特征提取网络、空间频率融合网络和分类网络,所述深度伪造检测模型为机器学习模型;
所述空间特征提取网络从所述图像样本中提取空间特征表示;
所述频率特征提取网络从所述图像样本中提取频率特征表示;
所述空间频率融合网络将图像样本的空间特征表示和频率特征表示进行拼接,得到特征拼接矩阵;利用所述特征拼接矩阵,构建特征近邻图;利用图神经网络从所述特征近邻图中提取特征表示;利用所述图神经网络提取的特征表示得到所述空间频率融合特征表示;
所述分类网络利用所述空间频率融合特征表示进行分类处理,输出所述图像样本是否存在伪造对象。
第七方面,提供了一种深度伪造检测装置,所述装置包括:
图像获取单元,被配置为获取待检测图像;
伪造检测单元,被配置为将所述待检测图像输入深度伪造检测模型,获取所述深度伪造检测模型针对所述待检测图像输出的是否存在伪造对象的检测结果;其中,所述深度伪造检测模型包括空间特征提取网络、频率特征提取网络、空间频率融合网络和分类网络,所述深度伪造检测模型为机器学习模型;
所述空间特征提取网络从所述待检测图像中提取空间特征表示;
所述频率特征提取网络从所述待检测图像中提取频率特征表示;
所述空间频率融合网络将待检测图像的空间特征表示和频率特征表示进行拼接,得到特征拼接矩阵;利用所述特征拼接矩阵,构建特征近邻图;利用图神经网络从所述特征近邻图中提取特征表示;利用所述图神经网络提取的特征表示得到所述空间频率融合特征表示;
所述分类网络利用所述空间频率融合特征表示进行分类处理,输出所述待检测图像是否存在伪造对象。
第八方面,提供了一种深度伪造模型的训练装置,所述装置包括:
样本获取单元,被配置为获取训练数据,所述训练数据包括图像样本和对图像样本标注的是否存在伪造对象的标签;
模型训练单元,被配置为将所述图像样本作为深度伪造检测模型的输入,将所述图像样本对应的标签作为所述伪造检测模型的目标输出,训练所述深度伪造检测模型;其中,所述深度伪造检测模型包括空间特征提取网络、频率特征提取网络、空间频率融合网络和分类网络,所述深度伪造检测模型为机器学习模型;
所述空间特征提取网络从所述图像样本中提取空间特征表示;
所述频率特征提取网络从所述图像样本中提取频率特征表示;
所述空间频率融合网络将图像样本的空间特征表示和频率特征表示进行拼接,得到特征拼接矩阵;利用所述特征拼接矩阵,构建特征近邻图;利用图神经网络从所述特征近邻图中提取特征表示;利用所述图神经网络提取的特征表示得到所述空间频率融合特征表示;
所述分类网络利用所述空间频率融合特征表示进行分类处理,输出所述图像样本是否存在伪造对象。
根据第九方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面和第二方面中任一项所述的方法的步骤。
根据第十方面,提供了一种电子设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行上述第一方面和第二方面中任一项所述的方法的步骤。
根据本申请提供的具体实施例,本申请公开了以下技术效果:
1)本申请在空间域和频域两方面对待检测图像进行特征提取,并对空间特征表示和频率特征表示进行融合以检测待检测图像是否存在伪造对象,能够更加准确地实现待检测图像的深度伪造检测。另外,本申请在提取频率特征时,充分考虑了待检测图像中伪造对象区域和其他区域在不同粒度的频率上所体现出的频率差异,利用待检测图像中的对象区域对第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到待检测图像的频率特征表示,更进一步提高深度伪造检测的准确度。
2)频率特征提取网络利用生成的内容掩码对两个粒度的频率特征表示进行加权处理,从而使得频率特征在图像中不同区域产生不同影响,更准确地在频域上反映伪造对象的特征,进而提高深度伪造检测的准确度。
3)本申请中,通过注意力处理网络从低层骨干网络输出的空间特征表示中提取纹理特征表示,利用纹理特征表示对待检测图像的空间特征表示进行BAP处理,从而在空间上捕捉真伪对象在纹理特征上的差异,以及隐藏在底层中的人工伪影,提高深度伪造检测的准确度。
4)本申请中,通过注意力处理网络利用最高层骨干网络输出的空间特征表示,对待检测图像的频率特征表示进行BAP处理,从而得到内容自适应的频率特征,使得提取的待检测图像的频率特征是与内容相关的,更好地在频域上理解伪造区域的特征,从而提高深度伪造检测的准确度。
5)采用至少两层骨干网络对待检测图像进行空间特征提取,将最高层骨干网络输出的高级语义特征用于进行深度伪造检测,更进一步提高深度伪造检测对空间域特征中的理解,提高检测准确度。
6)本申请通过注意力处理网络对空间注意力图和频率注意力图分别进行下采样和提取特征分布得到多尺度空间注意力图和多尺度频率注意力图,这种对特征的细化能够更加充分、细致地理解包含伪造对象的图像在空间和频域上产生的特征影响,获取更加丰富的上下文信息,从而进一步提高深度伪造检测的准确度。
7)本申请中,空间频率融合网络利用空间特征表示和频率特征表示的拼接矩阵来构建特征近邻图,利用特征近邻图进行空间频率融合特征的提取,这种方式能够利用图卷积网络推理出空间和频域的高阶关系,从而提高深度伪造检测的准确度。
8)本申请中利用MLP-Mixer Layer对图神经网络提取的特征表示中的各列和各行分别进行映射,从而使得空间和频率以及各通道的特征更加充分地交互,通过学习到的空间和频率以及各通道的特征关联,更好地体现真伪对象的差异,提高深度伪造检测的准确度。
9)本申请在训练深度伪造检测模型时仅需要使用存在伪造或者不存在伪造对象的图像样本作为训练数据,无需额外构造其他先验知识(目前有一些算法需要预先引入例如伪造面具等先验知识进行模型训练),一方面降低了训练数据的获取难度,另一方面提高模型的泛化能力。
10)本申请采用端到端学习的方式充分挖掘细粒度频率特征、频率特征与空间特征之间的关系,从而提高所训练深度伪造检测模型的检测效果。
11)本申请基于图的空间和频率融合,以及在损失函数中将区域独立性损失与交叉熵损失结合,能够有效地帮助模型在空间和频域上学习更加全面和鲁棒的伪造特征。
当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的示意性系统架构图;
图2是本申请实施例提供的深度伪造检测的方法流程图;
图3是本申请实施例提供的深度伪造检测模型的原理示意图;
图4是本申请实施例提供的频率特征提取网络的原理示意图;
图5是本申请实施例提供的多尺度注意力集成模块的原理示意图;
图6是本申请实施例提供的注意力图细化模块的原理示意图;
图7是本申请实施例提供的空间频率融合网络的原理示意图;
图8是本申请实施例提供的多层感知机混合层的原理示意图;
图9是本申请实施例提供的伪造检测模型的训练方法流程图;
图10是本申请实施例提供的伪造检测装置的示意性框图;
图11是本申请实施例提供的伪造检测模型的训练装置示意性框图;
图12是本申请实施例提供的电子设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
传统的伪造检测针对的是明显的伪造区域,利用人工设置的特征来检测空间域中真实对象与伪造对象的差异。例如不一致的头部姿势、不自然的眨眼和明显的面部交换痕迹等。但这些方式已经无法处理伪造得越来越真实的深度伪造图像。
随着深度学习技术的不断发展,出现了一些利用骨干网络从图像中提取空间特征的方式进行深度伪造检测,但检测准确性仍有待提高。有鉴于此,本申请提出了一种新的深度伪造检测方法,融合图像的空间特征和频率特征实现深度伪造检测。为了方便对本申请的理解,首先对本申请所适用的系统架构进行简单描述。图1示出了可以应用本申请实施例的示意性系统架构,如图1中所示,该系统架构包括采用离线方式建立深度伪造检测模型的模型训练装置,以及在线对待预测图像进行深度伪造检测的深度伪造检测装置。
其中,模型训练装置在获取训练数据后,可以采用本申请实施例提供的方法进行模型训练,得到深度伪造检测模型。
深度伪造检测装置利用已经建立的深度伪造检测模型,对待预测图像进行深度伪造检测,输出是否存在伪造对象的检测结果。
模型训练装置和深度伪造检测装置可以分别设置为独立的服务器,也可以设置于同一个服务器或服务器群组,还可以设置于独立的或者同一云服务器。云服务器又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决传统物理主机与虚拟专用服务器(VPs,Virtual Private Server)服务中存在的管理难度大,服务扩展性弱的缺陷。模型训练装置和深度伪造检测装置还可以设置于具有较强计算能力的计算机终端。
另外需要说明的是,图1中以深度伪造检测装置在线执行检测为例,但在一些应用场景下,深度伪造检测装置也可以离线地对待检测图像进行诸如批量式的深度伪造检测,本申请对此不加以限制。
应该理解,图1中的模型训练装置、深度伪造检测装置以及深度伪造检测模型的数目仅仅是示意性的。根据实现需要,可以具有任意数目的模型训练装置、深度伪造检测装置以及深度伪造检测模型。
图2为本申请实施例提供的深度伪造检测的方法流程图,该方法可以由图1所示系统中的深度伪造检测装置执行。如图2中所示,该方法可以包括以下步骤:
步骤202:获取待检测图像。
步骤204:将待检测图像输入深度伪造检测模型,获取深度伪造检测模型针对待检测图像输出的是否存在伪造对象的检测结果;其中,深度伪造检测模型包括空间特征提取网络、频率特征提取网络、空间频率融合网络和分类网络;空间特征提取网络从待检测图像中提取空间特征表示;频率特征提取网络从待检测图像中提取第一粒度的频率特征表示以及第二粒度的频率特征表示,第一粒度大于第二粒度;对待检测图像进行对象区域分割,利用分割得到的对象区域对第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到待检测图像的频率特征表示;空间频率融合网络将待检测图像的空间特征表示和频率特征表示进行融合,得到空间频率融合特征表示;分类网络利用空间频率融合特征表示进行分类处理,输出待检测图像是否存在伪造对象。
由以上描述可以看出,本申请在空间域和频域两方面对待检测图像进行特征提取,并对空间特征表示和频率特征表示进行融合以得到待检测图像是否存在伪造对象,能够更加准确地实现待检测图像的深度伪造检测。
另外,本申请在提取频率特征时,充分考虑了待检测图像中伪造对象区域和其他区域在不同粒度的频率上所体现出的频率差异,利用待检测图像中的对象区域对第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到待检测图像的频率特征表示,更进一步提高深度伪造检测的准确性。
本申请实施例提供的方法可以适用于多种类型的伪造对象检测。其中一种比较典型的类型是伪造人脸的检测。除此之外还可以适用于诸如伪造人体的检测、伪造背景的检测、等等。
需要说明的是,本公开中涉及的“第一”、“第二”等限定并不具备大小、顺序和数量等方面的限制,仅仅用以在名称上加以区分,例如“第一粒度”和“第二粒度”用以在名称上区分两个粒度,“第一频率特征表示”和“第二频率特征表示”用以在名称上区分两个频率特征表示,等等。
下面结合实施例重点对上述流程中的步骤204即“将待检测图像输入深度伪造检测模型,获取深度伪造检测模型针对待检测图像输出的是否存在伪造对象的检测结果”进行详细描述。
本申请实施例中提供的深度伪造检测模型为机器学习模型。机器学习是人工智能的一个子领域,机器学习模型能够从数据中学习并利用学习到的经验改善自身的性能。在机器学习过程中,经过模型训练从训练数据中发现模式和相关性,以能够利用训练得到的模型做出预测。作为其中一种可实现的方式,本申请提供的深度伪造模型可以基于神经网络实现,更优地,可以采用深度学习模型来实现。
深度伪造检测模型的结构可以如图3中所示,主要包括空间特征提取网络、频率特征提取网络、空间频率融合网络和分类网络。还可以进一步包括注意力处理网络和纹理提取网络。
其中,空间特征提取网络用以从待检测图像中提取空间特征表示。对于空间特征表示的提取以用于图像检测是比较常见的,常常利用骨干网络(Backbone)实现。但本申请实施例中提供了一种更优选的方式,即利用至少两层骨干网络对待检测图像进行空间特征提取,得到各层输出的空间特征表示,其中可以将最高层骨干网络输出的特征表示作为待检测图像的空间特征表示。
上述的骨干网络可以采用诸如Efficientnet、AlexNet、ResNet等来实现。如图3中以三层骨干网络为例,由低层骨干网络输出低层的空间特征表示,中层骨干网络再利用低层的空间特征表示得到中层的空间特征表示,高层骨干网络再进一步利用中层的空间特征表示得到高层的空间特征表示。本申请实施例中将高层的空间特征表示作为待检测图像的空间特征表示,其包含了空间域的高层语义特征。鉴于骨干网络采用的是目前已有的网络,在此不做详述。
频率特征提取网络用以从待检测图像中提取频率特征。
作为其中一种可实现的方式,频率特征提取网络从待检测图像中提取第一粒度的频率特征表示以及第二粒度的频率特征表示;对待检测图像进行对象区域分割,利用分割得到的对象区域对第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到待检测图像的频率特征表示。
上述的第一粒度大于第二粒度,可以看做是对待检测图像进行“粗”粒度的频率特征提取以及“细”粒度的频率特征提取。但需要说明的是,若频率特征提取网络仅提取上述第一粒度的频率表示或者第二粒度的频率特征表示作为待检测图像的频率特征表示,也是其中一种可实现的方式。
下面分别对两个粒度的频率特征表示的具体提取方式进行说明。
从待检测图像中提取第一粒度的频率特征表示即提取“粗”粒度的频率特征的过程可以如图4中下面部分分支所示。首先对待检测图像进行傅里叶变换得到待检测图像的第一频率特征表示。其中傅里叶变换可以采用诸如DCT(Discrete Cosine Transform,离散余弦变换)等变换方式。DCT属于傅里叶变换的一种,用于对图像进行有损数据压缩,DCT将图像分成由不同频率组成的图像块,然后进行量化。
然后利用个滤波器对第一频率特征表示进行滤波处理,得到个频率分量的第一频率特征表示。为大于1的正整数,以3为例,可以将频域分解为低、中、高三个频段,从而形成低频分量、中频分量和高频分量的第一频率特征表示。
其中,表示第个频率分量的第二频率特征表示,其体现的是全局频率信息。⊙为哈达玛积(Hadamard product),哈达玛积是矩阵的一类运算,若A=()和B=()是两个同阶矩阵,若,则称矩阵C=()为A和B的哈达玛积,或称基本积。 ()和 []分别表示DCT和逆DCT。表示第个滤波器对应的矩阵。
从待检测图像中提取第二粒度的频率特征表示即提取“细”粒度的频率特征的过程可以如图4中上面部分分支所示。首先将待检测图像分割为多个图像块,对各图像块进行傅里叶变换得到各图像块的频率特征表示。在对待检测图像进行分割时,可以采用滑动窗口的方式进行分割,最终获取到×个图像块,为大于1的正整数。∈可以用以表示待检测图像中第行第列的图像块。对进行傅里叶变换后得到的的频率特征表示为,∈。其中傅里叶变换可以采用诸如DCT等变换方式。
然后,将所有图像块的频率特征表示进行拼接得到待检测图像的第三频率特征表示,该第三频率特征表示是一个整体的频率特征。其中,在将所有图像块的频率特征表示进行整合之前,为了使得第二粒度的频率特征表示和第一粒度的频率特征表示在维度上相一致,从而方便进行后续融合,可以对各图像块的各通道都重复执行分割图像块和傅里叶变换的处理。其中通道可以是个,与之前实施例中所述的个频率分量相对应,从而使得最终整合得到的∈。
最后对第三频率特征表示进行卷积处理,得到待检测图像的第二粒度的频率特征表示。作为其中一种可实现的方式,可以通过若干个卷积块对进行卷积处理,每个卷积块可以包括Conv2d(卷积模块)、BN(Batch Normalization,批归一化)模块和激活模块(例如可以采用ReLU等激活函数)。
如图4中中间分支所示,对待检测图像进行图像分割,分割出对象区域和非对象区域。以伪造人脸检测为例,对待检测图像进行人脸区域分割,分割出人脸区域和非人脸区域(即除了人脸之外的区域)。具体地,可以采用诸如UNet网络生成一个内容掩码,可以理解为该内容掩码是对待检测图像中的对象区域进行掩码处理得到的,掩码处理所采用的参数通过模型训练过程学习得到。
通过上下两个分支得到第一粒度的频率特征表示和第二粒度的频率特征表示后,利用分割得到的对象区域对第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到待检测图像的频率特征表示。由于在进行深度伪造识别时,除了关注图像的整体频率特征之外,更需要关注对象区域的细粒度频率特征。因此可以利用上述内容掩码对第一粒度的频率特征表示和第二粒度的频率特征表示进行加权处理,得到待检测图像的频率特征表示。其中,加权处理可以是加权求和、加权求平均等方式。例如可以表示为:
作为其中一种可实现的方式,空间频率融合网络可以直接将上述空间特征提取网络得到的待检测图像的空间特征表示和频率特征提取网络得到的频率特征表示进行融合,得到空间频率融合特征表示。
但作为一种更优选的实现方式,空间特征提取网络得到的待检测图像的空间特征表示和/或频率特征提取网络得到的频率特征表示可以首先经过注意力处理网络的处理,注意力处理网络将处理后的待检测图像的空间特征表示和/或频率特征提取网络得到的频率特征表示提供给空间频率融合网络进行融合。下面首先对注意力处理网络进行详细描述。
如图3中所示,第一方面,注意力处理网络可以从至少两层骨干网络中最低层骨干网络输出的空间特征表示中提取纹理特征表示,利用纹理特征表示对待检测图像的空间特征表示进行BAP(Bilinear Attention Pooling,双线性注意力池化)处理,并将处理后的待检测图像的空间特征表示提供给空间频率融合网络。
第二方面,注意力处理网络可以利用至少两层骨干网络中最高层骨干网络输出的空间特征表示,对待检测图像的频率特征表示进行BAP处理,并将处理后的待检测图像的频率特征提供给空间频率融合网络。
上述两个方面可以择一执行,也可以两个方面均执行。本申请实施例中优选两方面均执行。下面对两个方面的具体执行方式进行详述。
在上述第一方面中,注意力处理网络在用纹理特征表示对待检测图像的空间特征表示进行BAP处理之前,可以首先对待检测图像的空间特征表示进行细化处理。该细化处理能够在空间上获取更加丰富的语义。具体地,该细化处理可以由注意力处理网络中的MSAE(MultiScale Attention Ensemble,多尺度注意力集成)模块来执行,MSAE模块执行的细化处理可以包括:
首先,获取待检测图像的空间特征表示对应的空间注意力图。作为其中一种可实现的方式,可以在高层骨干网络中设置注意力模块来针对待检测图像的空间特征表示产生空间注意力图。作为另一种可实现的方式,也可以在注意力处理网络中设置注意力模块来针对待检测图像的空间特征表示产生空间注意力图。空间注意力图包含待检测图像中各位置的空间特征的注意力权重值。
其次,利用空间注意力图产生多尺度空间注意力图。如图5中所示,可以对空间注意力图进行下采样得到多个空间注意力图;分别从多个空间注意力图中提取特征分布图后,对多个特征分布图进行上采样和整合得到多尺度空间注意力图作为细化后的空间特征表示。
具体地,在MSAE中可以包括多个卷积块(ConvBlocks),每个卷积块可以包括Conv2d、BN和激活模块(例如可以采用ReLU等激活函数)。一个分支中卷积块从空间注意图中提取特征。另一个分支中对空间注意力图进行下采样处理得到了多个尺度的表示,从而获得更细致的感知信息和丰富的上下文信息,这对于深度伪造检测的准确度具有重要的提高作用;再利用AMRB(Attention Map Refinement Block,注意力图细化模块)从多个空间注意力图中提取特征分布图后再上采样到原始的空间注意力图的大小,将上采样的结果与卷积块提取的特征进行整合(例如相加)得到多尺度空间注意力图。
在上述MSAE中可以通过一个AMRB从多个空间注意力图中分别提取特征分布图。AMRB的结构可以如图6中所示,包括GAP( global average pooling,全局平均池化)、卷积模块、BN和激活模块(例如可以采用Sigmoid激活函数)。其中,通过GAP进行全局平均池化来捕获全局上下文,激活模块会产生一个注意力向量来反映当前尺度的空间注意力图的特征分布。
如图5中所示,在得到细化处理后的空间特征表示后,注意力处理网络利用纹理特征表示对待检测图像的空间特征表示进行BAP(Bilinear Attention Pooling,双线性注意力池化)处理,并将处理后的待检测图像的空间特征表示提供给空间频率融合网络。其中,纹理特征表示可以从至少两层骨干网络中最低层骨干网络输出的空间特征表示中提取得到的纹理特征图,从而捕获隐藏在低层空间特征中的人工伪影(manipulatedartifacts),,即的维度为,高和宽分别表示为和。其中BAP是目前已有的池化方式,在此不做详述。
其中,注意力处理网络利用纹理特征表示对待检测图像的空间特征表示进行BAP处理时,可以首先将中的第个尺度与相乘,得到,然后对进行BAP处理,处理后得到的再进行归一化后被拼接在一起得到空间特征表示。其中,可以表示为:
在上述第二方面中,注意力处理网络在利用至少两层骨干网络中最高层骨干网络输出的空间特征表示,对待检测图像的频率特征表示进行BAP处理之前,可以首先对待检测图像的频率特征表示进行细化处理。该细化处理能够在频率上获取更加丰富的语义。具体地,该细化处理可以由注意力处理网络中的MSAE模块来执行,MSAE模块执行的细化处理与第一方面中对空间特征表示的处理类似地,可以包括:
首先,获取待检测图像的频率特征表示对应的频率注意力图。作为其中一种可实现的方式,可以在频率特征提取网络中设置注意力模块来针对待检测图像的频率特征表示产生频率注意力图。作为另一种可实现的方式,也可以在注意力处理网络中设置注意力模块来针对待检测图像的频率特征表示产生频率注意力图。频率注意力图包含待检测图像中各位置的频率特征的注意力权重值。
其次,利用频率注意力图产生多尺度频率注意力图。可以对频率注意力图进行下采样得到多个频率注意力图;分别从多个频率注意力图中提取特征分布图后,分别对多个特征分布图进行上采样和整合得到多尺度频率注意力图作为细化后的频率特征表示。
MSAE可以包括多个卷积块(ConvBlocks)执行。每个卷积块可以包括Conv2d、BN和激活模块(例如可以采用ReLU等激活函数)。一个分支中卷积块从空间注意图中提取特征。另一个分支中对空间注意力图进行下采样处理后实际上得到了多个尺度的表示,从而获得更细致的感知信息和丰富的上下文信息,这对于深度伪造检测的准确度具有重要的提高作用。
上述MSAE中可以通过一个AMRB(注意力地图细化模块)从多个频率注意力图中分别提取特征分布图。其中,通过GAP进行全局平均池化来捕获全局上下文,激活模块会产生一个注意力向量来反映当前尺度的频率注意力图的特征分布。
其中,注意力处理网络利用最高层骨干网络输出的空间特征表示对待检测图像的频率特征表示进行BAP处理,处理方式与公式(4)中的处理方式类似,最终得到频率特征表示,∈,其中,是频率注意力图的尺度数量。该得到的频率特征表示是与空间内容相关的频率特征。
作为其中一种可实现的方式,空间频率融合网络可以将空间特征表示和频率特征表示进行拼接,得到特征拼接矩阵, ∈。其中。。然后利用特征拼接矩阵,构建特征近邻图;再利用图神经网络从特征近邻图中提取特征表示得到空间频率融合特征表示。
其中,在构建特征近邻图时,可以将的每一列作为一个节点。也就是说,特征近邻图包括节点和边。特征紧邻图中的节点可以看做是在高层语义空间中的各特征点集合,节点可以看做是在高层语义空间中的各特征点。若节点之间的距离满足预设的距离条件,则节点之间存在边。例如,对于其中一个节点而言,将与该节点之间的距离最近的个节点作为该节点的邻居节点,节点与邻居节点之间存在边。其中为预设的正整数,可以取经验值或试验值。
上述构建特征近邻图和特征表示的提取可以由动态图卷积模块实现。作为其中一种可实现的方式,可以采用一层动态图卷积模块。
作为另一种可实现的方式,如图7中所示,可以采用多层动态图卷积模块来构建特征近邻图并提取特征表示。对于第1层动态图卷积模块中的图神经网络,从利用构建的特征近邻图中提取特征表示,输出特征表示;对于第2层动态图卷积模块,利用构建特征近邻图后,由图神经网络提取特征表示,输出特征表示,以此类推,直至最后一层图神经网络输出特征表示。
在图7中以两个图神经网络为例。
作为其中一种可实现的方式,可以将上述图神经网络输出的特征表示作为空间频率融合特征表示,然后输出给分类网络。
图信息交互网络由一个以上的MLP-Mixer Layer(多层感知机混合层)组成。中的列代表了同一节点(包括同一空间位置或同一频率位置)在不同通道上的信息,行表了不同节点在同一通道上的信息。也就是说,对每一列进行混合可以实现通道域的信息融合,对每一行进行混合可以实现空间域和频域的信息融合。本申请实施例中提供的各MLP-MixerLayer使用MLP先后对各行和各列进行混合,实现空间域、频域和通道域的信息融合。
每一个MLP-Mixer Layer的结构可以如图8中所示。首先经过LN(Layer Norm)进行归一化,然后对归一化后的进行转置后依据图邻接矩阵进行加权得到,该图邻接矩阵来自于第一层图神经网络,即。的行和列的含义与相反,即列代表不同节点在同一通道上的信息,行代表同一节点在不同通道上的信息。然后经过第一组MLP对行进行映射,得到。进行转置后经过LN进行归一化处理,再经过第二组MLP对行进行映射。其中,第一组MLP实际上是对不同通道之间的映射,第二组MLP实际上是对不同节点之间的映射。如果存在多个MLP-Mixer Layer,则前一个MLP-Mixer Layer输出的特征表示又作为下一个MLP-Mixer Layer的输入重复上述处理。MLP-Mixer Layer最终输出特征表示作为空间频率融合特征表示。
本申请实施例中采用的分类网络可以是一个二分类网络,作为其中一种可实现的方式,可以仅利用空间频率融合特征表示进行分类处理,输出待检测图像是否存在伪造对象的检测结果。
作为另一种可实现的方式,分类网络可以对空间频率融合特征表示和待检测图像的空间特征表示进行拼接,利用拼接后得到的特征进行分类处理,输出待检测图像是否存在伪造对象的检测结果。图3中示出的是这种方式。
图9为本申请实施例提供的深度伪造模型的训练方法流程图,如图9中所示,该方法可以包括以下步骤:
步骤902:获取训练数据,训练数据包括图像样本和对图像样本标注的是否存在伪造对象的标签。
本申请实施例中可以预先获取一些包含预设对象的图像作为图像样本,并对图像中是否存在伪造对象进行标注。可见训练数据的获取和标注均比较简单,标注的标签仅需要是或否即可。例如,获取一些包含人脸的图像作为图像样本,并对图像样本是否包含伪造人脸标注标签,从而构成训练数据。
步骤904:将图像样本作为深度伪造检测模型的输入,将图像样本对应的标签作为伪造检测模型的目标输出,训练深度伪造检测模型;其中,深度伪造检测模型可以如图3中所示,包括空间特征提取网络、频率特征提取网络、空间频率融合网络和分类网络,还可以进一步包括注意力处理网络和纹理提取网络。
其中,空间特征提取网络从图像样本中提取空间特征表示。
频率特征提取网络从待检测图像中提取频率特征。
作为其中一种可实现的方式,频率特征提取网络从图像样本中提取第一粒度的频率特征表示以及第二粒度的频率特征表示,第一粒度大于第二粒度;对图像样本进行对象区域分割,利用分割得到的对象区域对第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到图像样本的频率特征表示。
但需要说明的是,若频率特征提取网络仅提取上述第一粒度的频率表示或者第二粒度的频率特征表示作为待检测图像的频率特征表示,也是其中一种可实现的方式。
空间频率融合网络将图像样本的空间特征表示和频率特征表示进行融合,得到空间频率融合特征表示。
分类网络利用空间频率融合特征表示进行分类处理,输出图像样本是否存在伪造对象。
作为其中一种可实现的方式,空间特征提取网络可以利用至少两层骨干网络对图像样本进行空间特征提取,得到各层输出的空间特征表示,其中将最高层骨干网络输出的空间特征表示作为图像样本的空间特征表示。
作为其中一种可实现的方式,如图4中下半部分分支所示,频率特征提取网络在从图像样本中提取第一粒度的频率特征表示时,可以首先对图像样本进行傅里叶变换(例如DCT等变换方式)得到图像样本的第一频率特征表示;然后利用个滤波器对第一频率特征表示进行滤波处理,得到个频率分量的第一频率特征表示,为大于1的正整数;再分别对个频率分量的第一频率特征表示进行逆傅里叶变换,得到个频率分量的第二频率特征表示;最后将个频率分量的第二频率特征表示进行拼接,得到第一粒度的频率特征表示。
如图4中上半部分分支所示,频率特征提取网络从图像样本中提取第二粒度的频率特征表示时,可以首先将图像样本分割为多个图像块,对各图像块进行傅里叶变换得到各图像块的频率特征表示;然后将各图像块的频率特征表示进行拼接得到图像样本的第三频率特征表示;再对第三频率特征表示进行卷积处理,得到第二粒度的频率特征表示。
如图4中中间部分分支所示,频率特征提取网络可以首先采用诸如UNet网络生成图像样本的内容掩码,内容掩码是对图像样本中的对象区域进行掩码处理得到的;然后利用内容掩码对第一粒度的频率特征表示和第二粒度的频率特征表示进行加权处理,得到图像样本的频率特征表示。具体处理可以参见上面实施例中公式(2)和公式(3)。
作为其中一种可实现的方式,空间频率融合网络可以直接将上述空间特征提取网络得到的图像样本的空间特征表示和频率特征提取网络得到的频率特征表示进行融合,得到空间频率融合特征表示。
但作为一种更优选的实现方式,空间特征提取网络得到的图像样本的空间特征表示和/或频率特征提取网络得到的频率特征表示可以首先经过注意力处理网络的处理,注意力处理网络将处理后的图像样本的空间特征表示和/或频率特征提取网络得到的频率特征表示提供给空间频率融合网络进行融合。下面首先对注意力处理网络进行详细描述。
如图3中所示,第一方面,注意力处理网络可以利用至少两层骨干网络中最高层骨干网络输出的空间特征表示,对图像样本的频率特征表示进行BAP处理,并将处理后的图像样本的频率特征提供给空间频率融合网络进行融合。
第二方面,注意力处理网络可以从至少两层骨干网络中最低层骨干网络输出的空间特征表示中提取纹理特征表示,利用纹理特征表示对图像样本的空间特征表示进行BAP处理,并将处理后的图像样本的空间特征表示提供给空间频率融合网络进行融合。
上述两个方面可以择一执行,也可以两个方面均执行。本申请实施例中优选两方面均执行。下面对两个方面的具体执行方式进行详述。
在上述第一方面中,注意力处理网络在对图像样本的频率特征表示进行BAP处理之前,可以对图像样本的空间特征表示进行细化处理,该细化处理包括:获取图像样本的空间特征表示对应的空间注意力图,利用空间注意力图产生多尺度空间注意力图作为细化处理后的图像样本的空间特征表示。
具体地,细化处理可以由注意力处理网络中的MSAE模块来执行,MSAE模块执行的细化处理可以包括:
首先,获取图像样本的空间特征表示对应的空间注意力图。作为其中一种可实现的方式,可以在高层骨干网络中设置注意力模块来针对图像样本的空间特征表示产生空间注意力图。作为另一种可实现的方式,也可以在注意力处理网络中设置注意力模块来针对图像样本的空间特征表示产生空间注意力图。
其次,利用空间注意力图产生多尺度空间注意力图。如图5中所示,可以对空间注意力图进行下采样得到多个空间注意力图;分别从多个空间注意力图中提取特征分布图后,对多个特征分布图进行上采样和整合得到多尺度空间注意力图作为细化后的空间特征表示。
具体地,在MSAE中可以包括多个卷积块(ConvBlocks),每个卷积块可以包括Conv2d、BN和激活模块(例如可以采用ReLU等激活函数)。一个分支中卷积块从空间注意图中提取特征。另一个分支中对空间注意力图进行下采样处理得到了多个尺度的表示,从而获得更细致的感知信息和丰富的上下文信息,这对于深度伪造检测的准确度具有重要的提高作用;再利用AMRB从多个空间注意力图中提取特征分布图后再上采样到原始的空间注意力图的大小,将上采样的结果与卷积块提取的特征进行整合(例如相加)得到多尺度空间注意力图。
在上述MSAE中可以通过一个AMRB(注意力图细化模块)从多个空间注意力图中分别提取特征分布图。AMRB的结构可以如图6中所示,包括GAP( global average pooling,全局平均池化)、卷积模块、BN和激活模块(例如可以采用Sigmoid激活函数)。其中,通过GAP进行全局平均池化来捕获全局上下文,激活模块会产生一个注意力向量来反映当前尺度的空间注意力图的特征分布。
如图5中所示,在得到细化处理后的空间特征表示后,注意力处理网络利用纹理特征表示对图像样本的空间特征表示进行BAP处理,并将处理后的图像样本的空间特征表示提供给空间频率融合网络。其中,纹理特征表示可以从至少两层骨干网络中最低层骨干网络输出的空间特征表示中提取得到的纹理特征图,从而捕获隐藏在低层空间特征中的人工伪影。
在上述第二方面中,注意力处理网络在利用纹理特征表示对图像样本的频率特征表示进行BAP处理之前,对图像样本的频率特征表示进行细化处理,该细化处理包括:获取图像样本的频率特征表示对应的频率注意力图,利用频率注意力图产生多尺度频率注意力图作为细化处理后的图像样本的频率特征表示。
具体地,该细化处理可以由注意力处理网络中的MSAE模块来执行,MSAE模块执行的细化处理与第一方面中对空间特征表示的处理类似地,可以包括:
首先,获取图像样本的频率特征表示对应的频率注意力图。作为其中一种可实现的方式,可以在频率特征提取网络中设置注意力模块来针对图像样本的频率特征表示产生频率注意力图。作为另一种可实现的方式,也可以在注意力处理网络中设置注意力模块来针对图像样本的频率特征表示产生频率注意力图。频率注意力图包含图像样本中各位置的频率特征的注意力权重值。
其次,利用频率注意力图产生多尺度频率注意力图。可以对频率注意力图进行下采样得到多个频率注意力图;分别从多个频率注意力图中提取特征分布图后,分别对多个特征分布图进行上采样和整合得到多尺度频率注意力图作为细化后的频率特征表示。
上述下采样的处理可以由MSAE中的多个卷积块(ConvBlocks)执行。每个卷积块可以包括Conv2d、BN和激活模块(例如可以采用ReLU等激活函数)。进行下采样处理后实际上得到了多个尺度的表示,从而获得更细致的感知信息和丰富的上下文信息,这对于深度伪造检测的准确度具有重要的提高作用。
上述MSAE中可以通过一个AMRB从多个频率注意力图中分别提取特征分布图。其中,通过GAP进行全局平均池化来捕获全局上下文,激活模块会产生一个注意力向量来反映当前尺度的频率注意力图的特征分布。
作为其中一种可实现的方式,空间频率融合网络可以将图像样本的空间特征表示和频率特征表示进行拼接,得到特征拼接矩阵;然后利用特征拼接矩阵,构建特征近邻图,特征近邻图包括节点和边,节点包括特征拼接矩阵的各列,若节点之间的距离满足预设的距离条件,则节点之间存在边;再利用图神经网络从特征近邻图中提取特征表示;最后利用图神经网络提取的特征表示得到空间频率融合特征表示。
其中,上述构建特征近邻图和利用图神经网络从特征近邻图中提取特征表示可以由多层动态图卷积模块执行,如图7中所示。
每一层动态图卷积模块利用输入的特征表示构建特征近邻图,利用图神经网络从特征近邻图中提取特征表示并输出;其中,第一层动态图卷积模块被输入的特征表示为特征拼接矩阵,非最后一层动态图卷积模块将提取的特征表示输出至下一层动态图卷积模块。处理过程可以参见上面实施例中关于公式(5)~(7)的记载。
作为其中一种可实现的方式,空间频率融合网络在利用图神经网络提取的特征表示得到空间频率融合特征表示时,可以直接将上述图神经网络输出的特征表示作为空间频率融合特征表示,然后输出给分类网络。
作为另一种可实现的方式,空间频率融合网络在利用图神经网络提取的特征表示得到空间频率融合特征表示时,可以利用MLP-Mixer Layer对图神经网络提取的特征表示中的各列分别进行映射后,再对各行分别进行映射,得到空间频率融合特征表示。
每一个MLP-Mixer Layer的结构可以如图8中所示。动态图卷积模块的输出首先经过LN进行归一化,然后对归一化后的进行转置后依据图邻接矩阵进行加权得到,该图邻接矩阵来自于第一层图神经网络,即。的行和列的含义与相反,即列代表不同节点在同一通道上的信息,行代表同一节点在不同通道上的信息。然后经过第一组MLP对行进行映射,得到。进行转置后经过LN进行归一化处理,再经过第二组MLP对行进行映射。其中,第一组MLP实际上是对不同通道之间的映射,第二组MLP实际上是对不同节点之间的映射。如果存在多个MLP-Mixer Layer,则前一个MLP-Mixer Layer输出的特征表示又作为下一个MLP-Mixer Layer的输入重复上述处理。MLP-Mixer Layer最终输出特征表示作为空间频率融合特征表示。
本申请实施例中采用的分类网络可以是一个二分类网络,作为其中一种可实现的方式,可以仅利用空间频率融合特征表示进行分类处理,输出图像样本是否存在伪造对象的检测结果。
作为另一种可实现的方式,分类网络可以对空间频率融合特征表示和图像样本的空间特征表示进行拼接,利用拼接后得到的特征进行分类处理,输出图像样本是否存在伪造对象的检测结果。图3中示出的是这种方式。
在训练深度伪造模型的训练过程中,训练目标是最小化检测结果与图像样本对应的标签之间的差异。可以依据上述训练目标构造损失函数,在每一轮迭代中利用损失函数的取值,采用诸如梯度下降等方式更新模型参数,直至满足预设的训练结束条件。其中训练结束条件可以包括诸如损失函数的取值小于或等于预设的损失函数阈值,迭代次数达到预设的次数阈值等。上述损失函数可以采用交叉熵损失函数。
作为另一种更优选的方式,经过上述动态图卷积模块的处理后,可以得到特征表示。在本申请中可以采用RIL(Region Independent Loss,区域独立性损失函数)结合交叉熵损失函数来进行模型训练。即在训练深度伪造检测模型的过程中,利用总损失函数的值更新伪造检测模型的参数,直至满足预设的训练结束条件。其中总损失函数的值由第一损失函数和第二损失函数的值确定;第一损失函数采用交叉熵损失函数,用以最小化检测结果与图像样本对应的标签之间的差异;第二损失函数采用RIL损失函数,用以最小化同类检测结果内空间频率融合特征表示与特征中心的距离,并且最大化不同类检测结果间特征中心的距离,特征中心是对同类检测结果的空间频率融合特征表示进行统计(例如求均值)得到的。
其中,为训练过程中采样训练数据采用的批大小。表示中的列数即节点数量。表示同一批中第个图像样本对应的中第个节点,为同一批中图像样本特征中心的第行,为同一批中图像样本特征中心的第行。和初始时刻可以通过求同一批次样本均值统计得到。和表示类内和类间的间隔。这里的类只有两种,即存在伪造对象和不存在伪造对象。和是超参数,可以取经验值或试验值。表示2范数。ReLU()表示ReLU激活函数。
本申请实施例提供的上述方法可以应用于多种应用场景,以人脸伪造检测为例,可以包括但不限于以下应用场景:
1)对视频网站、新闻机构、网络论坛等中的视频、图片等资源进行人脸伪造检测,高效识别人脸伪造信息,降低人力审核成本,降低服务违规风险,避免虚假视频或图片等资源的传播。可以对已经上传的视频、图片等资源进行定期检测,也可以对上传的视频、图片等资源进行实时检测。
2)在安全认证时,对于采集到的包含人脸的图像,除了进行人脸识别以确认是否为认证用户之外,同时对图像进行伪造人脸识别,只有同时确定为认证用户且不存在伪造人脸时,通过安全认证。该安全认证可以应用于诸如安全支付、安全登录等场景。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
根据另一方面的实施例,提供了一种深度伪造检测装置。图10示出根据一个实施例的深度伪造检测装置的示意性框图。如图10所示,该装置1000包括:图像获取单元1001和伪造检测单元1002。其中各组成单元的主要功能如下:
图像获取单元1001,被配置为获取待检测图像。
伪造检测单元1002,被配置为将待检测图像输入深度伪造检测模型,获取深度伪造检测模型针对待检测图像输出的是否存在伪造对象的检测结果。
其中,深度伪造检测模型包括空间特征提取网络、频率特征提取网络、空间频率融合网络和分类网络;还可以进一步包括注意力处理网络和纹理提取网络。
空间特征提取网络用于从待检测图像中提取空间特征表示。
频率特征提取网络用于从待检测图像中提取频率特征表示。
作为其中一种可实现的方式,频率特征提取网络可以从待检测图像中提取第一粒度的频率特征表示以及第二粒度的频率特征表示,第一粒度大于第二粒度;对待检测图像进行对象区域分割,利用分割得到的对象区域对第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到待检测图像的频率特征表示。
空间频率融合网络用于将待检测图像的空间特征表示和频率特征表示进行融合,得到空间频率融合特征表示。
分类网络用于利用空间频率融合特征表示进行分类处理,输出待检测图像是否存在伪造对象。
纹理提取网络用以从至少两层骨干网络中最低层骨干网络输出的空间特征表示中提取纹理特征表示。
注意力处理网络利用至少两层骨干网络中最高层骨干网络输出的空间特征表示,对待检测图像的频率特征表示进行双线性注意力池化BAP处理,并将处理后的待检测图像的频率特征提供给空间频率融合网络进行融合;和/或,
利用纹理特征表示对待检测图像的空间特征表示进行BAP处理,并将处理后的待检测图像的空间特征表示提供给空间频率融合网络进行融合。
关于深度伪造检测模型的具体结构和原理可以参见深度伪造检测方法实施例中的相关记载,在此不做赘述。
图11示出根据一个实施例的深度伪造检测模型的训练装置的示意性框图。该装置对应于图1所示系统中的模型训练装置。如图11所示,该装置1100包括:样本获取单元1101和模型训练单元1102。其中各组成单元的主要功能如下:
样本获取单元1101,被配置为获取训练数据,训练数据包括图像样本和对图像样本标注的是否存在伪造对象的标签。
模型训练单元1102,被配置为将图像样本作为深度伪造检测模型的输入,将图像样本对应的标签作为伪造检测模型的目标输出,训练深度伪造检测模型。
其中,深度伪造检测模型包括空间特征提取网络、频率特征提取网络、空间频率融合网络和分类网络,还可以进一步包括注意力处理网络和纹理提取网络。
空间特征提取网络用于从图像样本中提取空间特征表示。
频率特征提取网络用于从图像样本中提取频率特征表示。
作为其中一种可实现的方式,频率特征提取网络可以从图像样本中提取第一粒度的频率特征表示以及第二粒度的频率特征表示,第一粒度大于第二粒度;对图像样本进行对象区域分割,利用分割得到的对象区域对第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到图像样本的频率特征表示;
空间频率融合网络用于将图像样本的空间特征表示和频率特征表示进行融合,得到空间频率融合特征表示;
分类网络用于利用空间频率融合特征表示进行分类处理,输出图像样本是否存在伪造对象。
纹理提取网络用以从至少两层骨干网络中最低层骨干网络输出的空间特征表示中提取纹理特征表示。
注意力处理网络利用至少两层骨干网络中最高层骨干网络输出的空间特征表示,对图像样本的频率特征表示进行BAP处理,并将处理后的图像样本的频率特征提供给空间频率融合网络进行融合;和/或,
利用纹理特征表示对图像样本的空间特征表示进行BAP处理,并将处理后的图像样本的空间特征表示提供给空间频率融合网络进行融合。
关于深度伪造检测模型的具体结构、原理以及训练过程中损失函数的构造可以参见深度伪造模型的训练方法实施例中的相关记载,在此不做赘述。
另外,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。
以及一种电子设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行前述方法实施例中任一项所述的方法的步骤。
本申请还提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。
其中,图12示例性的展示出了电子设备的架构,具体可以包括处理器1210,视频显示适配器1211,磁盘驱动器1212,输入/输出接口1213,网络接口1214,以及存储器1220。上述处理器1210、视频显示适配器1211、磁盘驱动器1212、输入/输出接口1213、网络接口1214,与存储器1220之间可以通过通信总线1230进行通信连接。
其中,处理器1210可以采用通用的CPU、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请所提供的技术方案。
存储器1220可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1220可以存储用于控制电子设备1200运行的操作系统1221,用于控制电子设备1200的低级别操作的基本输入输出系统(BIOS) 1222。另外,还可以存储网页浏览器1223,数据存储管理系统1224,以及深度伪造检测装置/模型训练装置1225等等。上述深度伪造检测装置/模型训练装置1225就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之,在通过软件或者固件来实现本申请所提供的技术方案时,相关的程序代码保存在存储器1220中,并由处理器1210来调用执行。
输入/输出接口1213用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
网络接口1214用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1230包括一通路,在设备的各个组件(例如处理器1210、视频显示适配器1211、磁盘驱动器1212、输入/输出接口1213、网络接口1214,与存储器1220)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1210、视频显示适配器1211、磁盘驱动器1212、输入/输出接口1213、网络接口1214,存储器1220,总线1230等,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本申请方案所必需的组件,而不必包含图中所示的全部组件。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序产品的形式体现出来,该计算机程序产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本申请所提供的技术方案进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。
Claims (13)
1.一种深度伪造检测方法,其特征在于,所述方法包括:
获取待检测图像;
将所述待检测图像输入深度伪造检测模型,获取所述深度伪造检测模型针对所述待检测图像输出的是否存在伪造对象的检测结果;其中,所述深度伪造检测模型包括空间特征提取网络、频率特征提取网络、空间频率融合网络和分类网络,所述深度伪造检测模型为机器学习模型;
所述空间特征提取网络从所述待检测图像中提取空间特征表示;
所述频率特征提取网络从所述待检测图像中提取第一粒度的频率特征表示以及第二粒度的频率特征表示,所述第一粒度大于所述第二粒度,所述第二粒度的频率特征表示是基于对所述待检测图像分割为多个图像块得到的;对所述待检测图像进行对象区域分割,对分割得到的对象区域进行掩码处理得到内容掩码,利用所述内容掩码对所述第一粒度的频率特征表示和第二粒度的频率特征表示进行加权处理,得到所述待检测图像的频率特征表示;
所述空间频率融合网络将待检测图像的空间特征表示和频率特征表示进行融合,得到空间频率联合特征表示;
所述分类网络利用所述空间频率联合特征表示进行分类处理,输出所述待检测图像是否存在伪造对象。
3.根据权利要求1所述的方法,其特征在于,从所述待检测图像中提取第二粒度的频率特征表示包括:
将所述待检测图像分割为多个图像块,对各图像块进行傅里叶变换得到各图像块的频率特征表示;
将各图像块的频率特征表示进行拼接得到所述待检测图像的第三频率特征表示;
对所述第三频率特征表示进行卷积处理,得到所述第二粒度的频率特征表示。
4.根据权利要求1所述的方法,其特征在于,所述空间特征提取网络从所述待检测图像中提取空间特征表示包括:利用至少两层骨干网络对所述待检测图像进行空间特征提取,得到各层输出的空间特征表示,其中将最高层骨干网络输出的空间特征表示作为所述待检测图像的空间特征表示;
所述深度伪造检测模型还包括:注意力处理网络;在所述空间频率融合网络将待检测图像的空间特征表示和频率特征表示进行融合之前,还包括:
所述注意力处理网络利用所述至少两层骨干网络中最高层骨干网络输出的空间特征表示,对所述待检测图像的频率特征表示进行双线性注意力池化BAP处理,并将处理后的待检测图像的频率特征提供给所述空间频率融合网络进行所述融合;和/或,
利用从所述至少两层骨干网络中最低层骨干网络输出的空间特征表示中提取的纹理特征表示,对所述待检测图像的空间特征表示进行BAP处理,并将处理后的待检测图像的空间特征表示提供给所述空间频率融合网络进行所述融合。
5.根据权利要求4所述的方法,其特征在于,在对所述待检测图像的频率特征表示进行BAP处理之前,所述方法还包括:所述注意力处理网络对所述待检测图像的空间特征表示进行细化处理,该细化处理包括:获取所述待检测图像的空间特征表示对应的空间注意力图,利用所述空间注意力图产生多尺度空间注意力图作为细化处理后的待检测图像的空间特征表示;和/或,
在利用所述纹理特征表示对所述待检测图像的频率特征表示进行BAP处理之前,所述方法还包括:所述注意力处理网络对所述待检测图像的频率特征表示进行细化处理,该细化处理包括:获取所述待检测图像的频率特征表示对应的频率注意力图,利用所述频率注意力图产生多尺度频率注意力图作为细化处理后的待检测图像的频率特征表示。
6.根据权利要求1所述的方法,其特征在于,所述空间频率融合网络将待检测图像的空间特征表示和频率特征表示进行融合,得到空间频率融合特征表示包括:
所述空间频率融合网络将所述待检测图像的空间特征表示和频率特征表示进行拼接,得到特征拼接矩阵;
利用所述特征拼接矩阵,构建特征近邻图,所述特征近邻图包括节点和边,所述节点包括所述特征拼接矩阵的各列,若节点之间的距离满足预设的距离条件,则节点之间存在边;
利用图神经网络从所述特征近邻图中提取特征表示;
利用所述图神经网络提取的特征表示得到所述空间频率融合特征表示。
7.根据权利要求6所述的方法,其特征在于,所述构建特征近邻图和利用图神经网络从所述特征近邻图中提取特征表示由多层动态图卷积模块执行;
每一层动态图卷积模块利用输入的特征构建特征近邻图,利用图神经网络从特征近邻图中提取特征表示并输出;其中,第一层动态图卷积模块被输入的特征表示为所述特征拼接矩阵,非最后一层动态图卷积模块将提取的特征表示输出至下一层动态图卷积模块。
8.根据权利要求1所述的方法,其特征在于,所述分类网络利用所述空间频率融合特征表示进行分类处理,输出所述待检测图像是否存在伪造对象包括:
所述分类网络对所述空间频率融合特征表示和所述待检测图像的空间特征表示进行拼接,利用拼接后得到的特征进行分类处理,输出所述待检测图像是否存在伪造对象的检测结果。
9.根据权利要求1至8中任一项所述的方法,其特征在于,所述深度伪造检测模型采用如下方式预先训练得到:
获取训练数据,所述训练数据包括图像样本和对图像样本标注的是否存在伪造对象的标签;
将所述图像样本作为深度伪造检测模型的输入,将所述图像样本对应的标签作为所述伪造检测模型的目标输出,训练所述深度伪造检测模型;其中,所述深度伪造检测模型包括空间特征提取网络、频率特征提取网络、空间频率融合网络和分类网络;
所述空间特征提取网络从所述图像样本中提取空间特征表示;
所述频率特征提取网络从所述图像样本中提取第一粒度的频率特征表示以及第二粒度的频率特征表示,所述第一粒度大于所述第二粒度;对所述图像样本进行对象区域分割,利用分割得到的对象区域对所述第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到所述图像样本的频率特征表示;
所述空间频率融合网络将图像样本的空间特征表示和频率特征表示进行融合,得到空间频率融合特征表示;
所述分类网络利用所述空间频率融合特征表示进行分类处理,输出所述图像样本是否存在伪造对象。
10.根据权利要求9所述的方法,其特征在于,在训练所述深度伪造检测模型的过程中,利用总损失函数的值更新所述伪造检测模型的参数,直至满足预设的训练结束条件;
其中所述总损失函数的值由第一损失函数和第二损失函数的值确定;所述第一损失函数采用交叉熵损失函数,用以最小化所述检测结果与图像样本对应的标签之间的差异;所述第二损失函数采用区域独立性损失函数,用以最小化同类检测结果内所述空间频率融合特征表示与特征中心的距离,并且最大化不同类检测结果间特征中心的距离,所述特征中心是对同类检测结果的空间频率融合特征表示进行统计得到的。
11.一种深度伪造检测装置,其特征在于,所述装置包括:
图像获取单元,被配置为获取待检测图像;
伪造检测单元,被配置为将所述待检测图像输入深度伪造检测模型,获取所述深度伪造检测模型针对所述待检测图像输出的是否存在伪造对象的检测结果;其中,所述深度伪造检测模型包括空间特征提取网络、频率特征提取网络、空间频率融合网络和分类网络,所述深度伪造检测模型为机器学习模型;
所述空间特征提取网络用于从所述待检测图像中提取空间特征表示;
所述频率特征提取网络用于从所述待检测图像中提取第一粒度的频率特征表示以及第二粒度的频率特征表示,所述第一粒度大于所述第二粒度,所述第二粒度的频率特征表示是基于对所述待检测图像分割为多个图像块得到的;对所述待检测图像进行对象区域分割,对分割得到的对象区域进行掩码处理得到内容掩码,利用所述内容掩码对所述第一粒度的频率特征表示和第二粒度的频率特征表示进行加权处理,得到所述待检测图像的频率特征表示;
所述空间频率融合网络用于将待检测图像的空间特征表示和频率特征表示进行融合,得到空间频率融合特征表示;
所述分类网络用于利用所述空间频率融合特征表示进行分类处理,输出所述待检测图像是否存在伪造对象。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。
13.一种电子设备,其特征在于,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行权利要求1至10中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211220117.1A CN115311525B (zh) | 2022-10-08 | 2022-10-08 | 深度伪造检测方法及对应装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211220117.1A CN115311525B (zh) | 2022-10-08 | 2022-10-08 | 深度伪造检测方法及对应装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115311525A CN115311525A (zh) | 2022-11-08 |
CN115311525B true CN115311525B (zh) | 2023-03-14 |
Family
ID=83867404
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211220117.1A Active CN115311525B (zh) | 2022-10-08 | 2022-10-08 | 深度伪造检测方法及对应装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115311525B (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112488137A (zh) * | 2019-09-11 | 2021-03-12 | 广州虎牙科技有限公司 | 样本获取方法、装置、电子设备及机器可读存储介质 |
CN112598643A (zh) * | 2020-12-22 | 2021-04-02 | 百度在线网络技术(北京)有限公司 | 深度伪造图像检测及模型训练方法、装置、设备、介质 |
CN112686331A (zh) * | 2021-01-11 | 2021-04-20 | 中国科学技术大学 | 伪造图像识别模型训练方法及伪造图像识别方法 |
CN112818862A (zh) * | 2021-02-02 | 2021-05-18 | 南京邮电大学 | 基于多源线索与混合注意力的人脸篡改检测方法与系统 |
CN113011357A (zh) * | 2021-03-26 | 2021-06-22 | 西安电子科技大学 | 基于时空融合的深度伪造人脸视频定位方法 |
CN113361474A (zh) * | 2021-07-01 | 2021-09-07 | 中国科学技术大学 | 基于图像块特征提取的双流网络图像伪造检测方法及系统 |
CN113536990A (zh) * | 2021-06-29 | 2021-10-22 | 复旦大学 | 深度伪造人脸数据鉴别方法 |
CN113723295A (zh) * | 2021-08-31 | 2021-11-30 | 浙江大学 | 一种基于图像域频域双流网络的人脸伪造检测方法 |
CN113935365A (zh) * | 2021-09-27 | 2022-01-14 | 华南农业大学 | 基于空域和频域双特征的深度伪造视频鉴定方法及系统 |
KR102373606B1 (ko) * | 2021-04-19 | 2022-03-14 | 주식회사 쓰리디팩토리 | 영상 형성을 위한 전자 장치 및 방법과, 그를 수행하도록 컴퓨터 판독 가능한 기록 매체에 저장된 프로그램 |
CN114677372A (zh) * | 2022-05-06 | 2022-06-28 | 山东工商学院 | 一种融合噪声感知的深度伪造图像检测方法及系统 |
CN114898437A (zh) * | 2022-05-25 | 2022-08-12 | 北京邮电大学 | 一种基于频率学习的深度伪造人脸检测方法 |
CN114898438A (zh) * | 2022-05-27 | 2022-08-12 | 大连理工大学 | 一种基于时频域视觉伪影特征自适应融合的跨模态深度伪造检测方法 |
CN114898432A (zh) * | 2022-05-17 | 2022-08-12 | 中南大学 | 基于多特征融合的伪造人脸视频检测方法及系统 |
CN114913565A (zh) * | 2021-01-28 | 2022-08-16 | 腾讯科技(深圳)有限公司 | 人脸图像检测方法、模型训练方法、装置及存储介质 |
CN115019370A (zh) * | 2022-06-21 | 2022-09-06 | 深圳大学 | 一种基于双细粒度伪影的深度伪造视频检测方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210406568A1 (en) * | 2020-06-24 | 2021-12-30 | Accenture Global Solutions Limited | Utilizing multiple stacked machine learning models to detect deepfake content |
CN111967344B (zh) * | 2020-07-28 | 2023-06-20 | 南京信息工程大学 | 一种面向人脸伪造视频检测的精细化特征融合方法 |
CN112200001A (zh) * | 2020-09-11 | 2021-01-08 | 南京星耀智能科技有限公司 | 一种指定场景下深度伪造视频识别方法 |
CN113435292B (zh) * | 2021-06-22 | 2023-09-19 | 北京交通大学 | 一种基于固有特征挖掘的ai伪造人脸检测方法 |
CN113537027B (zh) * | 2021-07-09 | 2023-09-01 | 中国科学院计算技术研究所 | 基于面部划分的人脸深度伪造检测方法及系统 |
-
2022
- 2022-10-08 CN CN202211220117.1A patent/CN115311525B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112488137A (zh) * | 2019-09-11 | 2021-03-12 | 广州虎牙科技有限公司 | 样本获取方法、装置、电子设备及机器可读存储介质 |
CN112598643A (zh) * | 2020-12-22 | 2021-04-02 | 百度在线网络技术(北京)有限公司 | 深度伪造图像检测及模型训练方法、装置、设备、介质 |
CN112686331A (zh) * | 2021-01-11 | 2021-04-20 | 中国科学技术大学 | 伪造图像识别模型训练方法及伪造图像识别方法 |
CN114913565A (zh) * | 2021-01-28 | 2022-08-16 | 腾讯科技(深圳)有限公司 | 人脸图像检测方法、模型训练方法、装置及存储介质 |
CN112818862A (zh) * | 2021-02-02 | 2021-05-18 | 南京邮电大学 | 基于多源线索与混合注意力的人脸篡改检测方法与系统 |
CN113011357A (zh) * | 2021-03-26 | 2021-06-22 | 西安电子科技大学 | 基于时空融合的深度伪造人脸视频定位方法 |
KR102373606B1 (ko) * | 2021-04-19 | 2022-03-14 | 주식회사 쓰리디팩토리 | 영상 형성을 위한 전자 장치 및 방법과, 그를 수행하도록 컴퓨터 판독 가능한 기록 매체에 저장된 프로그램 |
CN113536990A (zh) * | 2021-06-29 | 2021-10-22 | 复旦大学 | 深度伪造人脸数据鉴别方法 |
CN113361474A (zh) * | 2021-07-01 | 2021-09-07 | 中国科学技术大学 | 基于图像块特征提取的双流网络图像伪造检测方法及系统 |
CN113723295A (zh) * | 2021-08-31 | 2021-11-30 | 浙江大学 | 一种基于图像域频域双流网络的人脸伪造检测方法 |
CN113935365A (zh) * | 2021-09-27 | 2022-01-14 | 华南农业大学 | 基于空域和频域双特征的深度伪造视频鉴定方法及系统 |
CN114677372A (zh) * | 2022-05-06 | 2022-06-28 | 山东工商学院 | 一种融合噪声感知的深度伪造图像检测方法及系统 |
CN114898432A (zh) * | 2022-05-17 | 2022-08-12 | 中南大学 | 基于多特征融合的伪造人脸视频检测方法及系统 |
CN114898437A (zh) * | 2022-05-25 | 2022-08-12 | 北京邮电大学 | 一种基于频率学习的深度伪造人脸检测方法 |
CN114898438A (zh) * | 2022-05-27 | 2022-08-12 | 大连理工大学 | 一种基于时频域视觉伪影特征自适应融合的跨模态深度伪造检测方法 |
CN115019370A (zh) * | 2022-06-21 | 2022-09-06 | 深圳大学 | 一种基于双细粒度伪影的深度伪造视频检测方法 |
Non-Patent Citations (5)
Title |
---|
Fighting Against Deepfake: Patch&Pair Convolutional Neural Networks (PPCNN);Xurong Li 等;《WWW’20 Companion》;20201009;88-89 * |
M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection;Junke Wang 等;《arXiv:2104.09770v3》;20220419;1-9 * |
一种基于双流网络的 Deepfakes 检测技术;李旭嵘 等;《信息安全学报》;20200331;第5卷(第2期);84-91 * |
一种基于空域和频域多特征融合的人脸活体检测算法;陈然 等;《电视技术》;20191231;第43卷(第3期);92-96 * |
基于空域变换和频域功率特征的伪造人脸双重甄别技术;胡健鹏 等;《工业技术创新》;20211031;第08卷(第05期);100-108 * |
Also Published As
Publication number | Publication date |
---|---|
CN115311525A (zh) | 2022-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114913565B (zh) | 人脸图像检测方法、模型训练方法、装置及存储介质 | |
Thai et al. | Image classification using support vector machine and artificial neural network | |
CN110866471A (zh) | 人脸图像质量评价方法及装置、计算机可读介质、通信终端 | |
CN113139628B (zh) | 样本图像的识别方法、装置、设备及可读存储介质 | |
CN111241989A (zh) | 图像识别方法及装置、电子设备 | |
Bhavana et al. | Hand sign recognition using CNN | |
Jaiswal et al. | Detection of copy-move forgery in digital image using multi-scale, multi-stage deep learning model | |
CN111325319B (zh) | 一种神经网络模型的检测方法、装置、设备及存储介质 | |
CN112989085B (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
Fu et al. | CCNet: CNN model with channel attention and convolutional pooling mechanism for spatial image steganalysis | |
CN115050064A (zh) | 人脸活体检测方法、装置、设备及介质 | |
TWI803243B (zh) | 圖像擴增方法、電腦設備及儲存介質 | |
CN113392791A (zh) | 一种皮肤预测处理方法、装置、设备及存储介质 | |
CN115797731A (zh) | 目标检测模型训练方法、检测方法、终端设备及存储介质 | |
CN114707589A (zh) | 对抗样本的生成方法、装置、存储介质、设备及程序产品 | |
Tripathi et al. | Image splicing detection system using intensity-level multi-fractal dimension feature engineering and twin support vector machine based classifier | |
Wang et al. | An image forensic method for AI inpainting using faster R-CNN | |
CN115311525B (zh) | 深度伪造检测方法及对应装置 | |
CN116975828A (zh) | 一种人脸融合攻击检测方法、装置、设备及存储介质 | |
CN116977260A (zh) | 目标物的缺陷检测方法、装置、电子设备及存储介质 | |
CN115620342A (zh) | 跨模态行人重识别方法、系统及计算机 | |
Wu et al. | Joint manipulation trace attention network and adaptive fusion mechanism for image splicing forgery localization | |
CN113657293B (zh) | 活体检测方法、装置、电子设备、介质及程序产品 | |
CN117011859A (zh) | 一种图片处理的方法以及相关装置 | |
CN116958615A (zh) | 图片识别方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |