CN115311525B - 深度伪造检测方法及对应装置 - Google Patents

深度伪造检测方法及对应装置 Download PDF

Info

Publication number
CN115311525B
CN115311525B CN202211220117.1A CN202211220117A CN115311525B CN 115311525 B CN115311525 B CN 115311525B CN 202211220117 A CN202211220117 A CN 202211220117A CN 115311525 B CN115311525 B CN 115311525B
Authority
CN
China
Prior art keywords
frequency
image
spatial
representation
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211220117.1A
Other languages
English (en)
Other versions
CN115311525A (zh
Inventor
于鲲
王源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202211220117.1A priority Critical patent/CN115311525B/zh
Publication of CN115311525A publication Critical patent/CN115311525A/zh
Application granted granted Critical
Publication of CN115311525B publication Critical patent/CN115311525B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/54Extraction of image or video features relating to texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种深度伪造检测方法及对应装置,涉及机器学习技术领域。本申请实施例提供的技术方案中,在空间域和频域两方面对待检测图像进行特征提取,并对空间特征表示和频率特征表示进行融合以检测待检测图像是否存在伪造对象。在提取频率特征时,充分考虑了待检测图像中伪造对象区域和其他区域在不同粒度的频率上所体现出的频率差异,利用待检测图像中的对象区域对粗粒度的频率特征表示和细粒度的频率特征表示进行融合得到待检测图像的频率特征表示,从而提高深度伪造检测的准确度。

Description

深度伪造检测方法及对应装置
技术领域
本申请涉及机器学习技术领域,特别是涉及一种深度伪造检测方法及对应装置。
背景技术
随着深度伪造技术的发展,互联网上充斥着大量伪造诸如人脸等对象的虚假视频、图像,给政治经济、社会安全、个人信息安全等带来了巨大的负面影响。因此如何实现准确的深度伪造检测成为亟待解决的问题。
发明内容
本申请提供了一种深度伪造检测方法及对应装置,用以提高深度伪造检测的准确度。
本申请提供了如下方案:
第一方面,提供了一种深度伪造检测方法,所述方法包括:
获取待检测图像;
将所述待检测图像输入深度伪造检测模型,获取所述深度伪造检测模型针对所述待检测图像输出的是否存在伪造对象的检测结果;其中,所述深度伪造检测模型包括空间特征提取网络、频率特征提取网络、空间频率融合网络和分类网络,所述深度伪造检测模型为机器学习模型;
所述空间特征提取网络从所述待检测图像中提取空间特征表示;
所述频率特征提取网络从所述待检测图像中提取第一粒度的频率特征表示以及第二粒度的频率特征表示,所述第一粒度大于所述第二粒度;对所述待检测图像进行对象区域分割,利用分割得到的对象区域对所述第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到所述待检测图像的频率特征表示;
所述空间频率融合网络将待检测图像的空间特征表示和频率特征表示进行融合,得到空间频率联合特征表示;
所述分类网络利用所述空间频率联合特征表示进行分类处理,输出所述待检测图像是否存在伪造对象。
根据本申请实施例中一可实现的方式,从所述待检测图像中提取第一粒度的频率特征表示包括:
对所述待检测图像进行傅里叶变换得到所述待检测图像的第一频率特征表示;
利用
Figure 875300DEST_PATH_IMAGE001
个滤波器对所述第一频率特征表示进行滤波处理,得到
Figure 480725DEST_PATH_IMAGE001
个频率分量的第一频率特征表示,所述
Figure 946341DEST_PATH_IMAGE001
为大于1的正整数;
分别对所述
Figure 595497DEST_PATH_IMAGE001
个频率分量的第一频率特征表示进行逆傅里叶变换,得到
Figure 615406DEST_PATH_IMAGE001
个频率分量的第二频率特征表示;
将所述
Figure 758942DEST_PATH_IMAGE001
个频率分量的第二频率特征表示进行拼接,得到所述第一粒度的频率特征表示。
根据本申请实施例中一可实现的方式,从所述待检测图像中提取第二粒度的频率特征表示包括:
将所述待检测图像分割为多个图像块,对各图像块进行傅里叶变换得到各图像块的频率特征表示;
将各图像块的频率特征表示进行拼接得到所述待检测图像的第三频率特征表示;
对所述第三频率特征表示进行卷积处理,得到所述第二粒度的频率特征表示。
根据本申请实施例中一可实现的方式,所述利用分割得到的对象区域对所述第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到所述待检测图像的频率特征表示包括:
利用图像分割网络生成人脸图像的内容掩码,所述内容掩码是对待检测图像中的对象区域进行掩码处理得到的;
利用所述内容掩码对所述第一粒度的频率特征表示和第二粒度的频率特征表示进行加权处理,得到所述待检测图像的频率特征表示。
根据本申请实施例中一可实现的方式,所述空间特征提取网络从所述待检测图像中提取空间特征表示包括:
利用至少两层骨干网络对所述待检测图像进行空间特征提取,得到各层输出的空间特征表示,其中将最高层骨干网络输出的空间特征表示作为所述待检测图像的空间特征表示。
根据本申请实施例中一可实现的方式,所述深度伪造检测模型还包括:注意力处理网络;在所述空间频率融合网络将待检测图像的空间特征表示和频率特征表示进行融合之前,还包括:
所述注意力处理网络利用所述至少两层骨干网络中最高层骨干网络输出的空间特征表示,对所述待检测图像的频率特征表示进行双线性注意力池化BAP处理,并将处理后的待检测图像的频率特征提供给所述空间频率融合网络进行所述融合;和/或,
利用从所述至少两层骨干网络中最低层骨干网络输出的空间特征表示中提取的纹理特征表示,对所述待检测图像的空间特征表示进行BAP处理,并将处理后的待检测图像的空间特征表示提供给所述空间频率融合网络进行所述融合。
根据本申请实施例中一可实现的方式,在对所述待检测图像的频率特征表示进行BAP处理之前,所述方法还包括:所述注意力处理网络对所述待检测图像的空间特征表示进行细化处理,该细化处理包括:获取所述待检测图像的空间特征表示对应的空间注意力图,利用所述空间注意力图产生多尺度空间注意力图作为细化处理后的待检测图像的空间特征表示;和/或,
在利用所述纹理特征表示对所述待检测图像的频率特征表示进行BAP处理之前,所述方法还包括:所述注意力处理网络对所述待检测图像的频率特征表示进行细化处理,该细化处理包括:获取所述待检测图像的频率特征表示对应的频率注意力图,利用所述频率注意力图产生多尺度频率注意力图作为细化处理后的待检测图像的频率特征表示。
根据本申请实施例中一可实现的方式,利用所述空间注意力图产生多尺度空间注意力图包括:所述注意力处理网络对所述空间注意力图向下采样得到多个空间注意力图;分别从多个空间注意力图中提取特征分布图后,对多个特征分布图进行上采样和整合得到所述多尺度空间注意力图;
利用所述频率注意力图产生多尺度频率特征图包括:所述注意力处理网络对所述频率注意力图向下采样得到多个频率注意力图;分别从多个频率注意力图中提取特征分布图后,对多个特征分布图进行上采样和整合得到所述多尺度频率注意力图。
根据本申请实施例中一可实现的方式,所述空间频率融合网络将待检测图像的空间特征表示和频率特征表示进行融合,得到空间频率融合特征表示包括:
所述空间频率融合网络将所述待检测图像的空间特征表示和频率特征表示进行拼接,得到特征拼接矩阵;
利用所述特征拼接矩阵,构建特征近邻图,所述特征近邻图包括节点和边,所述节点包括所述特征拼接矩阵的各列,若节点之间的距离满足预设的距离条件,则节点之间存在边;
利用图神经网络从所述特征近邻图中提取特征表示;
利用所述图神经网络提取的特征表示得到所述空间频率融合特征表示。
根据本申请实施例中一可实现的方式,所述构建特征近邻图和利用图神经网络从所述特征近邻图中提取特征表示由多层动态图卷积模块执行;
每一层动态图卷积模块利用输入的特征构建特征近邻图,利用图神经网络从特征近邻图中提取特征表示并输出;其中,第一层动态图卷积模块被输入的特征表示为所述特征拼接矩阵,非最后一层动态图卷积模块将提取的特征表示输出至下一层动态图卷积模块。
根据本申请实施例中一可实现的方式,利用所述图神经网络提取的特征表示得到所述空间频率融合特征表示包括:
利用多层感知机混合层对所述图神经网络提取的特征表示中的各列分别进行混合后,再对各行分别进行混合,得到所述空间频率融合特征表示。
根据本申请实施例中一可实现的方式,所述分类网络利用所述空间频率融合特征表示进行分类处理,输出所述待检测图像是否存在伪造对象包括:
所述分类网络对所述空间频率融合特征表示和所述待检测图像的空间特征表示进行拼接,利用拼接后得到的特征进行分类处理,输出所述待检测图像是否存在伪造对象的检测结果。
根据本申请实施例中一可实现的方式,所述对象为人脸;
所述检测结果为待检测图像是否存在伪造人脸。
第二方面,提供了一种深度伪造模型的训练方法,所述方法包括:
获取训练数据,所述训练数据包括图像样本和对图像样本标注的是否存在伪造对象的标签;
将所述图像样本作为深度伪造检测模型的输入,将所述图像样本对应的标签作为所述伪造检测模型的目标输出,训练所述深度伪造检测模型;其中,所述深度伪造检测模型包括空间特征提取网络、频率特征提取网络、空间频率融合网络和分类网络,所述深度伪造检测模型为机器学习模型;
所述空间特征提取网络从所述图像样本中提取空间特征表示;
所述频率特征提取网络从所述图像样本中提取第一粒度的频率特征表示以及第二粒度的频率特征表示,所述第一粒度大于所述第二粒度;对所述图像样本进行对象区域分割,利用分割得到的对象区域对所述第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到所述图像样本的频率特征表示;
所述空间频率融合网络将图像样本的空间特征表示和频率特征表示进行融合,得到空间频率融合特征表示;
所述分类网络利用所述空间频率融合特征表示进行分类处理,输出所述图像样本是否存在伪造对象。
根据本申请实施例中一可实现的方式,从所述图像样本中提取第一粒度的频率特征表示包括:
对所述图像样本进行傅里叶变换得到所述图像样本的第一频率特征表示;
利用
Figure 813486DEST_PATH_IMAGE001
个滤波器对所述第一频率特征表示进行滤波处理,得到
Figure 899123DEST_PATH_IMAGE001
个频率分量的第一频率特征表示,所述
Figure 671907DEST_PATH_IMAGE001
为大于1的正整数;
分别对所述
Figure 353555DEST_PATH_IMAGE001
个频率分量的第一频率特征表示进行逆傅里叶变换,得到
Figure 528184DEST_PATH_IMAGE001
个频率分量的第二频率特征表示;
将所述
Figure 519143DEST_PATH_IMAGE001
个频率分量的第二频率特征表示进行拼接,得到所述第一粒度的频率特征表示。
根据本申请实施例中一可实现的方式,从所述图像样本中提取第二粒度的频率特征表示包括:
将所述图像样本分割为多个图像块,对各图像块进行傅里叶变换得到各图像块的频率特征表示;
将各图像块的频率特征表示进行拼接得到所述图像样本的第三频率特征表示;
对所述第三频率特征表示进行卷积处理,得到所述第二粒度的频率特征表示。
根据本申请实施例中一可实现的方式,所述利用分割得到的对象区域对所述第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到所述图像样本的频率特征表示包括:
生成所述图像样本的内容掩码,所述内容掩码是对图像样本中的对象区域进行掩码处理得到的;
利用所述内容掩码对所述第一粒度的频率特征表示和第二粒度的频率特征表示进行加权处理,得到所述图像样本的频率特征表示。
根据本申请实施例中一可实现的方式,所述空间特征提取网络从所述图像样本中提取空间特征表示包括:
利用至少两层骨干网络对所述图像样本进行空间特征提取,得到各层输出的空间特征表示,其中将最高层骨干网络输出的空间特征表示作为所述图像样本的空间特征表示。
根据本申请实施例中一可实现的方式,所述深度伪造检测模型还包括:注意力处理网络;在所述空间频率融合网络将图像样本的空间特征表示和频率特征表示进行融合之前,还包括:
所述注意力处理网络利用所述至少两层骨干网络中最高层骨干网络输出的空间特征表示,对所述图像样本的频率特征表示进行双线性注意力池化BAP处理,并将处理后的图像样本的频率特征提供给所述空间频率融合网络进行所述融合;和/或,
利用从所述至少两层骨干网络中最低层骨干网络输出的空间特征表示中提取的纹理特征表示,对所述图像样本的空间特征表示进行BAP处理,并将处理后的图像样本的空间特征表示提供给所述空间频率融合网络进行所述融合。
根据本申请实施例中一可实现的方式,在对所述图像样本的频率特征表示进行BAP处理之前,所述方法还包括:所述注意力处理网络对所述图像样本的空间特征表示进行细化处理,该细化处理包括:获取所述图像样本的空间特征表示对应的空间注意力图,利用所述空间注意力图产生多尺度空间注意力图作为细化处理后的图像样本的空间特征表示;和/或,
在利用所述纹理特征表示对所述图像样本的频率特征表示进行BAP处理之前,所述方法还包括:所述注意力处理网络对所述图像样本的频率特征表示进行细化处理,该细化处理包括:获取所述图像样本的频率特征表示对应的频率注意力图,利用所述频率注意力图产生多尺度频率注意力图作为细化处理后的图像样本的频率特征表示。
根据本申请实施例中一可实现的方式,利用所述空间注意力图产生多尺度空间注意力图包括:所述注意力处理网络对所述空间注意力图向下采样得到多个空间注意力图;分别从多个空间注意力图中提取特征分布图后,对多个特征分布图进行上采样和整合得到所述多尺度空间注意力图;
利用所述频率注意力图产生多尺度频率特征图包括:所述注意力处理网络对所述频率注意力图向下采样得到多个频率注意力图;分别从多个频率注意力图中提取特征分布图后,对多个特征分布图进行上采样和整合得到所述多尺度频率注意力图。
根据本申请实施例中一可实现的方式,所述空间频率融合网络将图像样本的空间特征表示和频率特征表示进行融合,得到空间频率融合特征表示包括:
所述空间频率融合网络将所述图像样本的空间特征表示和频率特征表示进行拼接,得到特征拼接矩阵;
利用所述特征拼接矩阵,构建特征近邻图,所述特征近邻图包括节点和边,所述节点包括所述特征拼接矩阵的各列,若节点之间的距离满足预设的距离条件,则节点之间存在边;
利用图神经网络从所述特征近邻图中提取特征表示;
利用所述图神经网络提取的特征表示得到所述空间频率融合特征表示。
根据本申请实施例中一可实现的方式,所述构建特征近邻图和利用图神经网络从所述特征近邻图中提取特征表示由多层动态图卷积模块执行;
每一层动态图卷积模块利用输入的特征表示构建特征近邻图,利用图神经网络从特征近邻图中提取特征表示并输出;其中,第一层动态图卷积模块被输入的特征表示为所述特征拼接矩阵,非最后一层动态图卷积模块将提取的特征表示输出至下一层动态图卷积模块。
根据本申请实施例中一可实现的方式,利用所述图神经网络提取的特征表示得到所述空间频率融合特征表示包括:
利用多层感知机混合层MLP-Mixer Layer对所述图神经网络提取的特征表示中的各列分别进行混合后,再对各行分别进行混合,得到所述空间频率融合特征表示。
根据本申请实施例中一可实现的方式,所述分类网络利用所述空间频率融合特征表示进行分类处理,输出所述图像样本是否存在伪造对象包括:
所述分类网络对所述空间频率融合特征表示和所述图像样本的空间特征表示进行拼接,利用拼接后得到的特征进行分类处理,输出所述图像样本是否存在伪造对象的检测结果。
根据本申请实施例中一可实现的方式,在训练所述深度伪造检测模型的过程中,利用总损失函数的值更新所述伪造检测模型的参数,直至满足预设的训练结束条件;
其中所述总损失函数的值由第一损失函数和第二损失函数的值确定;所述第一损失函数采用交叉熵损失函数,用以最小化所述检测结果与图像样本对应的标签之间的差异;所述第二损失函数采用区域独立性损失函数,用以最小化同类检测结果内所述空间频率融合特征表示与特征中心的距离,并且最大化不同类检测结果间特征中心的距离,所述特征中心是对同类检测结果的空间频率融合特征表示进行统计得到的。
第三方面,提供了一种深度伪造检测装置,所述装置包括:
图像获取单元,被配置为获取待检测图像;
伪造检测单元,被配置为将所述待检测图像输入深度伪造检测模型,获取所述深度伪造检测模型针对所述待检测图像输出的是否存在伪造对象的检测结果;其中,所述深度伪造检测模型包括空间特征提取网络、频率特征提取网络、空间频率融合网络和分类网络,所述深度伪造检测模型为机器学习模型;
所述空间特征提取网络用于从所述待检测图像中提取空间特征表示;
所述频率特征提取网络用于从所述待检测图像中提取第一粒度的频率特征表示以及第二粒度的频率特征表示,所述第一粒度大于所述第二粒度;对所述待检测图像进行对象区域分割,利用分割得到的对象区域对所述第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到所述待检测图像的频率特征表示;
所述空间频率融合网络用于将待检测图像的空间特征表示和频率特征表示进行融合,得到空间频率融合特征表示;
所述分类网络用于利用所述空间频率融合特征表示进行分类处理,输出所述待检测图像是否存在伪造对象。
第四方面,提供了一种深度伪造模型的训练装置,所述装置包括:
样本获取单元,被配置为获取训练数据,所述训练数据包括图像样本和对图像样本标注的是否存在伪造对象的标签;
模型训练单元,被配置为将所述图像样本作为深度伪造检测模型的输入,将所述图像样本对应的标签作为所述伪造检测模型的目标输出,训练所述深度伪造检测模型;其中,所述深度伪造检测模型包括空间特征提取网络、频率特征提取网络、空间频率融合网络和分类网络,所述深度伪造检测模型为机器学习模型;
所述空间特征提取网络用于从所述图像样本中提取空间特征表示;
所述频率特征提取网络用于从所述图像样本中提取第一粒度的频率特征表示以及第二粒度的频率特征表示,所述第一粒度大于所述第二粒度;对所述图像样本进行对象区域分割,利用分割得到的对象区域对所述第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到所述图像样本的频率特征表示;
所述空间频率融合网络用于将图像样本的空间特征表示和频率特征表示进行融合,得到空间频率融合特征表示;
所述分类网络用于利用所述空间频率融合特征表示进行分类处理,输出所述图像样本是否存在伪造对象。
第五方面,提供了一种深度伪造检测方法,所述方法包括:
获取待检测图像;
将所述待检测图像输入深度伪造检测模型,获取所述深度伪造检测模型针对所述待检测图像输出的是否存在伪造对象的检测结果;其中,所述深度伪造检测模型包括空间特征提取网络、频率特征提取网络、空间频率融合网络和分类网络,所述深度伪造检测模型为机器学习模型;
所述空间特征提取网络从所述待检测图像中提取空间特征表示;
所述频率特征提取网络从所述待检测图像中提取频率特征表示;
所述空间频率融合网络将待检测图像的空间特征表示和频率特征表示进行拼接,得到特征拼接矩阵;利用所述特征拼接矩阵,构建特征近邻图;利用图神经网络从所述特征近邻图中提取特征表示;利用所述图神经网络提取的特征表示得到所述空间频率融合特征表示;
所述分类网络利用所述空间频率融合特征表示进行分类处理,输出所述待检测图像是否存在伪造对象。
第六方面,提供了一种深度伪造模型的训练方法,所述方法包括:
获取训练数据,所述训练数据包括图像样本和对图像样本标注的是否存在伪造对象的标签;
将所述图像样本作为深度伪造检测模型的输入,将所述图像样本对应的标签作为所述伪造检测模型的目标输出,训练所述深度伪造检测模型;其中,所述深度伪造检测模型包括空间特征提取网络、频率特征提取网络、空间频率融合网络和分类网络,所述深度伪造检测模型为机器学习模型;
所述空间特征提取网络从所述图像样本中提取空间特征表示;
所述频率特征提取网络从所述图像样本中提取频率特征表示;
所述空间频率融合网络将图像样本的空间特征表示和频率特征表示进行拼接,得到特征拼接矩阵;利用所述特征拼接矩阵,构建特征近邻图;利用图神经网络从所述特征近邻图中提取特征表示;利用所述图神经网络提取的特征表示得到所述空间频率融合特征表示;
所述分类网络利用所述空间频率融合特征表示进行分类处理,输出所述图像样本是否存在伪造对象。
第七方面,提供了一种深度伪造检测装置,所述装置包括:
图像获取单元,被配置为获取待检测图像;
伪造检测单元,被配置为将所述待检测图像输入深度伪造检测模型,获取所述深度伪造检测模型针对所述待检测图像输出的是否存在伪造对象的检测结果;其中,所述深度伪造检测模型包括空间特征提取网络、频率特征提取网络、空间频率融合网络和分类网络,所述深度伪造检测模型为机器学习模型;
所述空间特征提取网络从所述待检测图像中提取空间特征表示;
所述频率特征提取网络从所述待检测图像中提取频率特征表示;
所述空间频率融合网络将待检测图像的空间特征表示和频率特征表示进行拼接,得到特征拼接矩阵;利用所述特征拼接矩阵,构建特征近邻图;利用图神经网络从所述特征近邻图中提取特征表示;利用所述图神经网络提取的特征表示得到所述空间频率融合特征表示;
所述分类网络利用所述空间频率融合特征表示进行分类处理,输出所述待检测图像是否存在伪造对象。
第八方面,提供了一种深度伪造模型的训练装置,所述装置包括:
样本获取单元,被配置为获取训练数据,所述训练数据包括图像样本和对图像样本标注的是否存在伪造对象的标签;
模型训练单元,被配置为将所述图像样本作为深度伪造检测模型的输入,将所述图像样本对应的标签作为所述伪造检测模型的目标输出,训练所述深度伪造检测模型;其中,所述深度伪造检测模型包括空间特征提取网络、频率特征提取网络、空间频率融合网络和分类网络,所述深度伪造检测模型为机器学习模型;
所述空间特征提取网络从所述图像样本中提取空间特征表示;
所述频率特征提取网络从所述图像样本中提取频率特征表示;
所述空间频率融合网络将图像样本的空间特征表示和频率特征表示进行拼接,得到特征拼接矩阵;利用所述特征拼接矩阵,构建特征近邻图;利用图神经网络从所述特征近邻图中提取特征表示;利用所述图神经网络提取的特征表示得到所述空间频率融合特征表示;
所述分类网络利用所述空间频率融合特征表示进行分类处理,输出所述图像样本是否存在伪造对象。
根据第九方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面和第二方面中任一项所述的方法的步骤。
根据第十方面,提供了一种电子设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行上述第一方面和第二方面中任一项所述的方法的步骤。
根据本申请提供的具体实施例,本申请公开了以下技术效果:
1)本申请在空间域和频域两方面对待检测图像进行特征提取,并对空间特征表示和频率特征表示进行融合以检测待检测图像是否存在伪造对象,能够更加准确地实现待检测图像的深度伪造检测。另外,本申请在提取频率特征时,充分考虑了待检测图像中伪造对象区域和其他区域在不同粒度的频率上所体现出的频率差异,利用待检测图像中的对象区域对第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到待检测图像的频率特征表示,更进一步提高深度伪造检测的准确度。
2)频率特征提取网络利用生成的内容掩码对两个粒度的频率特征表示进行加权处理,从而使得频率特征在图像中不同区域产生不同影响,更准确地在频域上反映伪造对象的特征,进而提高深度伪造检测的准确度。
3)本申请中,通过注意力处理网络从低层骨干网络输出的空间特征表示中提取纹理特征表示,利用纹理特征表示对待检测图像的空间特征表示进行BAP处理,从而在空间上捕捉真伪对象在纹理特征上的差异,以及隐藏在底层中的人工伪影,提高深度伪造检测的准确度。
4)本申请中,通过注意力处理网络利用最高层骨干网络输出的空间特征表示,对待检测图像的频率特征表示进行BAP处理,从而得到内容自适应的频率特征,使得提取的待检测图像的频率特征是与内容相关的,更好地在频域上理解伪造区域的特征,从而提高深度伪造检测的准确度。
5)采用至少两层骨干网络对待检测图像进行空间特征提取,将最高层骨干网络输出的高级语义特征用于进行深度伪造检测,更进一步提高深度伪造检测对空间域特征中的理解,提高检测准确度。
6)本申请通过注意力处理网络对空间注意力图和频率注意力图分别进行下采样和提取特征分布得到多尺度空间注意力图和多尺度频率注意力图,这种对特征的细化能够更加充分、细致地理解包含伪造对象的图像在空间和频域上产生的特征影响,获取更加丰富的上下文信息,从而进一步提高深度伪造检测的准确度。
7)本申请中,空间频率融合网络利用空间特征表示和频率特征表示的拼接矩阵来构建特征近邻图,利用特征近邻图进行空间频率融合特征的提取,这种方式能够利用图卷积网络推理出空间和频域的高阶关系,从而提高深度伪造检测的准确度。
8)本申请中利用MLP-Mixer Layer对图神经网络提取的特征表示中的各列和各行分别进行映射,从而使得空间和频率以及各通道的特征更加充分地交互,通过学习到的空间和频率以及各通道的特征关联,更好地体现真伪对象的差异,提高深度伪造检测的准确度。
9)本申请在训练深度伪造检测模型时仅需要使用存在伪造或者不存在伪造对象的图像样本作为训练数据,无需额外构造其他先验知识(目前有一些算法需要预先引入例如伪造面具等先验知识进行模型训练),一方面降低了训练数据的获取难度,另一方面提高模型的泛化能力。
10)本申请采用端到端学习的方式充分挖掘细粒度频率特征、频率特征与空间特征之间的关系,从而提高所训练深度伪造检测模型的检测效果。
11)本申请基于图的空间和频率融合,以及在损失函数中将区域独立性损失与交叉熵损失结合,能够有效地帮助模型在空间和频域上学习更加全面和鲁棒的伪造特征。
当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的示意性系统架构图;
图2是本申请实施例提供的深度伪造检测的方法流程图;
图3是本申请实施例提供的深度伪造检测模型的原理示意图;
图4是本申请实施例提供的频率特征提取网络的原理示意图;
图5是本申请实施例提供的多尺度注意力集成模块的原理示意图;
图6是本申请实施例提供的注意力图细化模块的原理示意图;
图7是本申请实施例提供的空间频率融合网络的原理示意图;
图8是本申请实施例提供的多层感知机混合层的原理示意图;
图9是本申请实施例提供的伪造检测模型的训练方法流程图;
图10是本申请实施例提供的伪造检测装置的示意性框图;
图11是本申请实施例提供的伪造检测模型的训练装置示意性框图;
图12是本申请实施例提供的电子设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
传统的伪造检测针对的是明显的伪造区域,利用人工设置的特征来检测空间域中真实对象与伪造对象的差异。例如不一致的头部姿势、不自然的眨眼和明显的面部交换痕迹等。但这些方式已经无法处理伪造得越来越真实的深度伪造图像。
随着深度学习技术的不断发展,出现了一些利用骨干网络从图像中提取空间特征的方式进行深度伪造检测,但检测准确性仍有待提高。有鉴于此,本申请提出了一种新的深度伪造检测方法,融合图像的空间特征和频率特征实现深度伪造检测。为了方便对本申请的理解,首先对本申请所适用的系统架构进行简单描述。图1示出了可以应用本申请实施例的示意性系统架构,如图1中所示,该系统架构包括采用离线方式建立深度伪造检测模型的模型训练装置,以及在线对待预测图像进行深度伪造检测的深度伪造检测装置。
其中,模型训练装置在获取训练数据后,可以采用本申请实施例提供的方法进行模型训练,得到深度伪造检测模型。
深度伪造检测装置利用已经建立的深度伪造检测模型,对待预测图像进行深度伪造检测,输出是否存在伪造对象的检测结果。
模型训练装置和深度伪造检测装置可以分别设置为独立的服务器,也可以设置于同一个服务器或服务器群组,还可以设置于独立的或者同一云服务器。云服务器又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决传统物理主机与虚拟专用服务器(VPs,Virtual Private Server)服务中存在的管理难度大,服务扩展性弱的缺陷。模型训练装置和深度伪造检测装置还可以设置于具有较强计算能力的计算机终端。
另外需要说明的是,图1中以深度伪造检测装置在线执行检测为例,但在一些应用场景下,深度伪造检测装置也可以离线地对待检测图像进行诸如批量式的深度伪造检测,本申请对此不加以限制。
应该理解,图1中的模型训练装置、深度伪造检测装置以及深度伪造检测模型的数目仅仅是示意性的。根据实现需要,可以具有任意数目的模型训练装置、深度伪造检测装置以及深度伪造检测模型。
图2为本申请实施例提供的深度伪造检测的方法流程图,该方法可以由图1所示系统中的深度伪造检测装置执行。如图2中所示,该方法可以包括以下步骤:
步骤202:获取待检测图像。
步骤204:将待检测图像输入深度伪造检测模型,获取深度伪造检测模型针对待检测图像输出的是否存在伪造对象的检测结果;其中,深度伪造检测模型包括空间特征提取网络、频率特征提取网络、空间频率融合网络和分类网络;空间特征提取网络从待检测图像中提取空间特征表示;频率特征提取网络从待检测图像中提取第一粒度的频率特征表示以及第二粒度的频率特征表示,第一粒度大于第二粒度;对待检测图像进行对象区域分割,利用分割得到的对象区域对第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到待检测图像的频率特征表示;空间频率融合网络将待检测图像的空间特征表示和频率特征表示进行融合,得到空间频率融合特征表示;分类网络利用空间频率融合特征表示进行分类处理,输出待检测图像是否存在伪造对象。
由以上描述可以看出,本申请在空间域和频域两方面对待检测图像进行特征提取,并对空间特征表示和频率特征表示进行融合以得到待检测图像是否存在伪造对象,能够更加准确地实现待检测图像的深度伪造检测。
另外,本申请在提取频率特征时,充分考虑了待检测图像中伪造对象区域和其他区域在不同粒度的频率上所体现出的频率差异,利用待检测图像中的对象区域对第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到待检测图像的频率特征表示,更进一步提高深度伪造检测的准确性。
本申请实施例提供的方法可以适用于多种类型的伪造对象检测。其中一种比较典型的类型是伪造人脸的检测。除此之外还可以适用于诸如伪造人体的检测、伪造背景的检测、等等。
需要说明的是,本公开中涉及的“第一”、“第二”等限定并不具备大小、顺序和数量等方面的限制,仅仅用以在名称上加以区分,例如“第一粒度”和“第二粒度”用以在名称上区分两个粒度,“第一频率特征表示”和“第二频率特征表示”用以在名称上区分两个频率特征表示,等等。
下面结合实施例重点对上述流程中的步骤204即“将待检测图像输入深度伪造检测模型,获取深度伪造检测模型针对待检测图像输出的是否存在伪造对象的检测结果”进行详细描述。
本申请实施例中提供的深度伪造检测模型为机器学习模型。机器学习是人工智能的一个子领域,机器学习模型能够从数据中学习并利用学习到的经验改善自身的性能。在机器学习过程中,经过模型训练从训练数据中发现模式和相关性,以能够利用训练得到的模型做出预测。作为其中一种可实现的方式,本申请提供的深度伪造模型可以基于神经网络实现,更优地,可以采用深度学习模型来实现。
深度伪造检测模型的结构可以如图3中所示,主要包括空间特征提取网络、频率特征提取网络、空间频率融合网络和分类网络。还可以进一步包括注意力处理网络和纹理提取网络。
其中,空间特征提取网络用以从待检测图像中提取空间特征表示。对于空间特征表示的提取以用于图像检测是比较常见的,常常利用骨干网络(Backbone)实现。但本申请实施例中提供了一种更优选的方式,即利用至少两层骨干网络对待检测图像进行空间特征提取,得到各层输出的空间特征表示,其中可以将最高层骨干网络输出的特征表示作为待检测图像的空间特征表示。
上述的骨干网络可以采用诸如Efficientnet、AlexNet、ResNet等来实现。如图3中以三层骨干网络为例,由低层骨干网络输出低层的空间特征表示,中层骨干网络再利用低层的空间特征表示得到中层的空间特征表示,高层骨干网络再进一步利用中层的空间特征表示得到高层的空间特征表示。本申请实施例中将高层的空间特征表示作为待检测图像的空间特征表示,其包含了空间域的高层语义特征。鉴于骨干网络采用的是目前已有的网络,在此不做详述。
频率特征提取网络用以从待检测图像中提取频率特征。
作为其中一种可实现的方式,频率特征提取网络从待检测图像中提取第一粒度的频率特征表示以及第二粒度的频率特征表示;对待检测图像进行对象区域分割,利用分割得到的对象区域对第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到待检测图像的频率特征表示。
上述的第一粒度大于第二粒度,可以看做是对待检测图像进行“粗”粒度的频率特征提取以及“细”粒度的频率特征提取。但需要说明的是,若频率特征提取网络仅提取上述第一粒度的频率表示或者第二粒度的频率特征表示作为待检测图像的频率特征表示,也是其中一种可实现的方式。
下面分别对两个粒度的频率特征表示的具体提取方式进行说明。
从待检测图像中提取第一粒度的频率特征表示即提取“粗”粒度的频率特征的过程可以如图4中下面部分分支所示。首先对待检测图像进行傅里叶变换得到待检测图像的第一频率特征表示。其中傅里叶变换可以采用诸如DCT(Discrete Cosine Transform,离散余弦变换)等变换方式。DCT属于傅里叶变换的一种,用于对图像进行有损数据压缩,DCT将图像分成由不同频率组成的图像块,然后进行量化。
然后利用
Figure 779223DEST_PATH_IMAGE001
个滤波器对第一频率特征表示进行滤波处理,得到
Figure 264562DEST_PATH_IMAGE001
个频率分量的第一频率特征表示。
Figure 293698DEST_PATH_IMAGE001
为大于1的正整数,以3为例,可以将频域分解为低、中、高三个频段,从而形成低频分量、中频分量和高频分量的第一频率特征表示。
再分别对
Figure 330924DEST_PATH_IMAGE001
个频率分量的第一频率特征表示进行逆傅里叶变换,得到
Figure 937355DEST_PATH_IMAGE001
个频率分量的第二频率特征表示。其中逆傅里叶变换的方式与傅里叶变换的方式相对应,例如若傅里叶变换采用DCT,则此处的逆傅里叶变换采用逆DCT。
假设待检测图像表示为
Figure 351018DEST_PATH_IMAGE002
Figure 844448DEST_PATH_IMAGE003
Figure 318154DEST_PATH_IMAGE004
。其中,
Figure 411881DEST_PATH_IMAGE005
Figure 363657DEST_PATH_IMAGE006
分别为待检测图像的高度和宽度。上述处理过程可以表示为:
Figure 101806DEST_PATH_IMAGE007
=
Figure 621780DEST_PATH_IMAGE008
[
Figure 78169DEST_PATH_IMAGE009
(
Figure 964128DEST_PATH_IMAGE010
)⊙
Figure 291205DEST_PATH_IMAGE011
] (1)
其中,
Figure 982080DEST_PATH_IMAGE012
表示第
Figure 925765DEST_PATH_IMAGE013
个频率分量的第二频率特征表示,其体现的是全局频率信息。⊙为哈达玛积(Hadamard product),哈达玛积是矩阵的一类运算,若A=(
Figure 609556DEST_PATH_IMAGE014
)和B=(
Figure 322298DEST_PATH_IMAGE015
)是两个同阶矩阵,若
Figure 918495DEST_PATH_IMAGE016
,则称矩阵C=(
Figure 349476DEST_PATH_IMAGE017
)为A和B的哈达玛积,或称基本积。
Figure 571379DEST_PATH_IMAGE018
()和
Figure 404206DEST_PATH_IMAGE019
[]分别表示DCT和逆DCT。
Figure 171305DEST_PATH_IMAGE020
表示第
Figure 89582DEST_PATH_IMAGE021
个滤波器对应的矩阵。
最后将
Figure 646334DEST_PATH_IMAGE022
个频率分量的第二频率特征表示
Figure 943455DEST_PATH_IMAGE023
进行拼接,得到第一粒度的频率特征表示
Figure 271668DEST_PATH_IMAGE024
从待检测图像中提取第二粒度的频率特征表示即提取“细”粒度的频率特征的过程可以如图4中上面部分分支所示。首先将待检测图像分割为多个图像块,对各图像块进行傅里叶变换得到各图像块的频率特征表示。在对待检测图像进行分割时,可以采用滑动窗口的方式进行分割,最终获取到
Figure 395351DEST_PATH_IMAGE025
×
Figure 490214DEST_PATH_IMAGE025
个图像块,
Figure 766475DEST_PATH_IMAGE025
为大于1的正整数。
Figure 140956DEST_PATH_IMAGE026
Figure 768246DEST_PATH_IMAGE027
可以用以表示待检测图像中第
Figure 135642DEST_PATH_IMAGE028
行第
Figure 531989DEST_PATH_IMAGE029
列的图像块。对
Figure 811791DEST_PATH_IMAGE030
进行傅里叶变换后得到的
Figure 926378DEST_PATH_IMAGE030
的频率特征表示为
Figure 661964DEST_PATH_IMAGE031
Figure 178396DEST_PATH_IMAGE032
Figure 894679DEST_PATH_IMAGE033
。其中傅里叶变换可以采用诸如DCT等变换方式。
然后,将所有图像块的频率特征表示进行拼接得到待检测图像的第三频率特征表示
Figure 230983DEST_PATH_IMAGE034
,该第三频率特征表示是一个整体的频率特征。其中,在将所有图像块的频率特征表示进行整合之前,为了使得第二粒度的频率特征表示和第一粒度的频率特征表示在维度上相一致,从而方便进行后续融合,可以对各图像块的各通道都重复执行分割图像块和傅里叶变换的处理。其中通道可以是
Figure 815548DEST_PATH_IMAGE035
个,与之前实施例中所述的
Figure 311120DEST_PATH_IMAGE035
个频率分量相对应,从而使得最终整合得到的
Figure 322938DEST_PATH_IMAGE036
Figure 21904DEST_PATH_IMAGE037
最后对第三频率特征表示
Figure 410160DEST_PATH_IMAGE038
进行卷积处理,得到待检测图像的第二粒度的频率特征表示
Figure 494660DEST_PATH_IMAGE039
。作为其中一种可实现的方式,可以通过若干个卷积块对
Figure 677379DEST_PATH_IMAGE040
进行卷积处理,每个卷积块可以包括Conv2d(卷积模块)、BN(Batch Normalization,批归一化)模块和激活模块(例如可以采用ReLU等激活函数)。
如图4中中间分支所示,对待检测图像进行图像分割,分割出对象区域和非对象区域。以伪造人脸检测为例,对待检测图像进行人脸区域分割,分割出人脸区域和非人脸区域(即除了人脸之外的区域)。具体地,可以采用诸如UNet网络生成一个内容掩码
Figure 129220DEST_PATH_IMAGE041
,可以理解为该内容掩码
Figure 55588DEST_PATH_IMAGE041
是对待检测图像中的对象区域进行掩码处理得到的,掩码处理所采用的参数通过模型训练过程学习得到。
通过上下两个分支得到第一粒度的频率特征表示
Figure 260173DEST_PATH_IMAGE042
和第二粒度的频率特征表示
Figure 879373DEST_PATH_IMAGE043
后,利用分割得到的对象区域对第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到待检测图像的频率特征表示。由于在进行深度伪造识别时,除了关注图像的整体频率特征之外,更需要关注对象区域的细粒度频率特征。因此可以利用上述内容掩码对第一粒度的频率特征表示和第二粒度的频率特征表示进行加权处理,得到待检测图像的频率特征表示
Figure 411986DEST_PATH_IMAGE044
。其中,加权处理可以是加权求和、加权求平均等方式。例如可以表示为:
Figure 17411DEST_PATH_IMAGE045
(2)
Figure 607661DEST_PATH_IMAGE046
(3)
其中,C()表示卷积处理,例如可以采用步幅卷积处理。
Figure 397762DEST_PATH_IMAGE047
Figure 558616DEST_PATH_IMAGE048
的大小为
Figure 826787DEST_PATH_IMAGE049
×
Figure 740385DEST_PATH_IMAGE050
作为其中一种可实现的方式,空间频率融合网络可以直接将上述空间特征提取网络得到的待检测图像的空间特征表示和频率特征提取网络得到的频率特征表示进行融合,得到空间频率融合特征表示。
但作为一种更优选的实现方式,空间特征提取网络得到的待检测图像的空间特征表示和/或频率特征提取网络得到的频率特征表示可以首先经过注意力处理网络的处理,注意力处理网络将处理后的待检测图像的空间特征表示和/或频率特征提取网络得到的频率特征表示提供给空间频率融合网络进行融合。下面首先对注意力处理网络进行详细描述。
如图3中所示,第一方面,注意力处理网络可以从至少两层骨干网络中最低层骨干网络输出的空间特征表示中提取纹理特征表示,利用纹理特征表示对待检测图像的空间特征表示进行BAP(Bilinear Attention Pooling,双线性注意力池化)处理,并将处理后的待检测图像的空间特征表示提供给空间频率融合网络。
第二方面,注意力处理网络可以利用至少两层骨干网络中最高层骨干网络输出的空间特征表示,对待检测图像的频率特征表示进行BAP处理,并将处理后的待检测图像的频率特征提供给空间频率融合网络。
上述两个方面可以择一执行,也可以两个方面均执行。本申请实施例中优选两方面均执行。下面对两个方面的具体执行方式进行详述。
在上述第一方面中,注意力处理网络在用纹理特征表示对待检测图像的空间特征表示进行BAP处理之前,可以首先对待检测图像的空间特征表示进行细化处理。该细化处理能够在空间上获取更加丰富的语义。具体地,该细化处理可以由注意力处理网络中的MSAE(MultiScale Attention Ensemble,多尺度注意力集成)模块来执行,MSAE模块执行的细化处理可以包括:
首先,获取待检测图像的空间特征表示对应的空间注意力图。作为其中一种可实现的方式,可以在高层骨干网络中设置注意力模块来针对待检测图像的空间特征表示产生空间注意力图。作为另一种可实现的方式,也可以在注意力处理网络中设置注意力模块来针对待检测图像的空间特征表示产生空间注意力图。空间注意力图包含待检测图像中各位置的空间特征的注意力权重值。
其次,利用空间注意力图产生多尺度空间注意力图。如图5中所示,可以对空间注意力图进行下采样得到多个空间注意力图;分别从多个空间注意力图中提取特征分布图后,对多个特征分布图进行上采样和整合得到多尺度空间注意力图
Figure 701388DEST_PATH_IMAGE051
作为细化后的空间特征表示。
具体地,在MSAE中可以包括多个卷积块(ConvBlocks),每个卷积块可以包括Conv2d、BN和激活模块(例如可以采用ReLU等激活函数)。一个分支中卷积块从空间注意图中提取特征。另一个分支中对空间注意力图进行下采样处理得到了多个尺度的表示,从而获得更细致的感知信息和丰富的上下文信息,这对于深度伪造检测的准确度具有重要的提高作用;再利用AMRB(Attention Map Refinement Block,注意力图细化模块)从多个空间注意力图中提取特征分布图后再上采样到原始的空间注意力图的大小,将上采样的结果与卷积块提取的特征进行整合(例如相加)得到多尺度空间注意力图
Figure 83959DEST_PATH_IMAGE052
在上述MSAE中可以通过一个AMRB从多个空间注意力图中分别提取特征分布图。AMRB的结构可以如图6中所示,包括GAP( global average pooling,全局平均池化)、卷积模块、BN和激活模块(例如可以采用Sigmoid激活函数)。其中,通过GAP进行全局平均池化来捕获全局上下文,激活模块会产生一个注意力向量来反映当前尺度的空间注意力图的特征分布。
如图5中所示,在得到细化处理后的空间特征表示
Figure 155820DEST_PATH_IMAGE053
后,注意力处理网络利用纹理特征表示对待检测图像的空间特征表示进行BAP(Bilinear Attention Pooling,双线性注意力池化)处理,并将处理后的待检测图像的空间特征表示
Figure 455083DEST_PATH_IMAGE054
提供给空间频率融合网络。其中,纹理特征表示
Figure 321408DEST_PATH_IMAGE055
可以从至少两层骨干网络中最低层骨干网络输出的空间特征表示中提取得到的纹理特征图,从而捕获隐藏在低层空间特征中的人工伪影(manipulatedartifacts),
Figure 315909DEST_PATH_IMAGE056
,即
Figure 801248DEST_PATH_IMAGE057
的维度为
Figure 830384DEST_PATH_IMAGE058
,高和宽分别表示为
Figure 992244DEST_PATH_IMAGE059
Figure 474041DEST_PATH_IMAGE060
。其中BAP是目前已有的池化方式,在此不做详述。
其中,注意力处理网络利用纹理特征表示对待检测图像的空间特征表示进行BAP处理时,可以首先将
Figure 763071DEST_PATH_IMAGE061
中的第
Figure 646713DEST_PATH_IMAGE062
个尺度
Figure 854840DEST_PATH_IMAGE063
Figure 954427DEST_PATH_IMAGE064
相乘,得到
Figure 906202DEST_PATH_IMAGE065
,然后对
Figure 785296DEST_PATH_IMAGE066
进行BAP处理,处理后得到的
Figure 164325DEST_PATH_IMAGE067
再进行归一化后被拼接在一起得到空间特征表示
Figure 745348DEST_PATH_IMAGE068
。其中,
Figure 235235DEST_PATH_IMAGE069
可以表示为:
Figure 968836DEST_PATH_IMAGE070
(4)
其中,
Figure 784345DEST_PATH_IMAGE071
Figure 852664DEST_PATH_IMAGE072
分别为纹理特征表示的高和宽,
Figure 880663DEST_PATH_IMAGE073
表示
Figure 593404DEST_PATH_IMAGE074
中第
Figure 455181DEST_PATH_IMAGE075
Figure 886162DEST_PATH_IMAGE076
列的图像块对应的取值,
Figure 842486DEST_PATH_IMAGE077
表示二次范数。
Figure 409733DEST_PATH_IMAGE078
Figure 442412DEST_PATH_IMAGE079
Figure 360689DEST_PATH_IMAGE080
是空间注意力图的尺度数量,
Figure 120703DEST_PATH_IMAGE081
代表了纹理特征图的通道数。
在上述第二方面中,注意力处理网络在利用至少两层骨干网络中最高层骨干网络输出的空间特征表示,对待检测图像的频率特征表示进行BAP处理之前,可以首先对待检测图像的频率特征表示进行细化处理。该细化处理能够在频率上获取更加丰富的语义。具体地,该细化处理可以由注意力处理网络中的MSAE模块来执行,MSAE模块执行的细化处理与第一方面中对空间特征表示的处理类似地,可以包括:
首先,获取待检测图像的频率特征表示对应的频率注意力图。作为其中一种可实现的方式,可以在频率特征提取网络中设置注意力模块来针对待检测图像的频率特征表示产生频率注意力图。作为另一种可实现的方式,也可以在注意力处理网络中设置注意力模块来针对待检测图像的频率特征表示产生频率注意力图。频率注意力图包含待检测图像中各位置的频率特征的注意力权重值。
其次,利用频率注意力图产生多尺度频率注意力图。可以对频率注意力图进行下采样得到多个频率注意力图;分别从多个频率注意力图中提取特征分布图后,分别对多个特征分布图进行上采样和整合得到多尺度频率注意力图
Figure 808037DEST_PATH_IMAGE082
作为细化后的频率特征表示。
MSAE可以包括多个卷积块(ConvBlocks)执行。每个卷积块可以包括Conv2d、BN和激活模块(例如可以采用ReLU等激活函数)。一个分支中卷积块从空间注意图中提取特征。另一个分支中对空间注意力图进行下采样处理后实际上得到了多个尺度的表示,从而获得更细致的感知信息和丰富的上下文信息,这对于深度伪造检测的准确度具有重要的提高作用。
上述MSAE中可以通过一个AMRB(注意力地图细化模块)从多个频率注意力图中分别提取特征分布图。其中,通过GAP进行全局平均池化来捕获全局上下文,激活模块会产生一个注意力向量来反映当前尺度的频率注意力图的特征分布。
在得到多个特征分布图后,对多个特征分布图进行上采样到原始的频率注意力图的大小,并在频率上整合(例如相加)得到多尺度频率注意力图
Figure 870671DEST_PATH_IMAGE083
在得到细化处理后的频率特征表示
Figure 886031DEST_PATH_IMAGE083
后,注意力处理网络最高层骨干网络输出的空间特征表示,对待检测图像的频率特征表示进行BAP处理,并将处理后的待检测图像的频率特征表示提供给频率融合网络。
其中,注意力处理网络利用最高层骨干网络输出的空间特征表示对待检测图像的频率特征表示进行BAP处理,处理方式与公式(4)中的处理方式类似,最终得到频率特征表示
Figure 590682DEST_PATH_IMAGE084
Figure 991576DEST_PATH_IMAGE084
Figure 490691DEST_PATH_IMAGE085
,其中,
Figure 993347DEST_PATH_IMAGE086
是频率注意力图的尺度数量。该得到的频率特征表示
Figure 970531DEST_PATH_IMAGE087
是与空间内容相关的频率特征。
如图3中所示,经过注意力处理网络得到的空间特征表示
Figure 757090DEST_PATH_IMAGE088
和频率特征表示
Figure 161527DEST_PATH_IMAGE089
输入空间频率融合网络,由空间频率融合网络对
Figure 276113DEST_PATH_IMAGE090
Figure 932353DEST_PATH_IMAGE091
进行融合。
作为其中一种可实现的方式,空间频率融合网络可以将空间特征表示
Figure 448785DEST_PATH_IMAGE092
和频率特征表示
Figure 148757DEST_PATH_IMAGE093
进行拼接,得到特征拼接矩阵
Figure 750640DEST_PATH_IMAGE094
Figure 210571DEST_PATH_IMAGE094
Figure 581510DEST_PATH_IMAGE095
。其中
Figure 327749DEST_PATH_IMAGE096
Figure 270123DEST_PATH_IMAGE097
。然后利用特征拼接矩阵
Figure 658379DEST_PATH_IMAGE094
,构建特征近邻图;再利用图神经网络从特征近邻图中提取特征表示得到空间频率融合特征表示。
其中,在构建特征近邻图时,可以将
Figure 759190DEST_PATH_IMAGE094
的每一列作为一个节点。也就是说,特征近邻图包括节点和边。特征紧邻图中的节点可以看做是
Figure 597702DEST_PATH_IMAGE094
在高层语义空间中的各特征点集合,节点可以看做是
Figure 174177DEST_PATH_IMAGE094
在高层语义空间中的各特征点。若节点之间的距离满足预设的距离条件,则节点之间存在边。例如,对于其中一个节点
Figure 975910DEST_PATH_IMAGE098
而言,将与该节点之间的距离最近的
Figure 55862DEST_PATH_IMAGE099
个节点作为该节点
Figure 799696DEST_PATH_IMAGE098
的邻居节点,节点
Figure 597888DEST_PATH_IMAGE098
与邻居节点之间存在边。其中
Figure 672154DEST_PATH_IMAGE099
为预设的正整数,可以取经验值或试验值。
上述构建特征近邻图和特征表示的提取可以由动态图卷积模块实现。作为其中一种可实现的方式,可以采用一层动态图卷积模块。
作为另一种可实现的方式,如图7中所示,可以采用多层动态图卷积模块来构建特征近邻图并提取特征表示。对于第1层动态图卷积模块中的图神经网络,从利用
Figure 137770DEST_PATH_IMAGE100
构建的特征近邻图
Figure 52506DEST_PATH_IMAGE101
中提取特征表示,输出特征表示
Figure 213360DEST_PATH_IMAGE102
;对于第2层动态图卷积模块,利用
Figure 747109DEST_PATH_IMAGE102
构建特征近邻图
Figure 926287DEST_PATH_IMAGE103
后,由图神经网络提取特征表示,输出特征表示
Figure 621710DEST_PATH_IMAGE104
,以此类推,直至最后一层图神经网络输出特征表示。
对于第
Figure 128915DEST_PATH_IMAGE105
+1层动态图卷积模块的图神经网络而言,依据其输入的特征近邻图
Figure 76142DEST_PATH_IMAGE106
,确定邻接矩阵
Figure 985192DEST_PATH_IMAGE107
。然后获得对称的邻接矩阵
Figure 976151DEST_PATH_IMAGE108
Figure 970652DEST_PATH_IMAGE109
(5)
其中,
Figure 721570DEST_PATH_IMAGE110
表示
Figure 750706DEST_PATH_IMAGE111
的转置。
更进一步地,可以对
Figure 522353DEST_PATH_IMAGE112
进行归一化,得到
Figure 394363DEST_PATH_IMAGE113
Figure 808027DEST_PATH_IMAGE114
(6)
其中,
Figure 301456DEST_PATH_IMAGE115
Figure 509584DEST_PATH_IMAGE116
的度矩阵增加自环后得到的矩阵。度矩阵是一个对角矩阵,对角上的元素为
Figure 603310DEST_PATH_IMAGE117
中各节点的度,节点的度表示该节点连接的边的数量。
Figure 820665DEST_PATH_IMAGE118
提取的特征表示
Figure 293235DEST_PATH_IMAGE119
可以采用如下公式表示:
Figure 813209DEST_PATH_IMAGE120
=
Figure 269598DEST_PATH_IMAGE121
(7)
其中,
Figure 155558DEST_PATH_IMAGE122
为可学习的图权重,ReLU()为ReLU激活函数。
在图7中以两个图神经网络为例。
作为其中一种可实现的方式,可以将上述图神经网络输出的特征表示作为空间频率融合特征表示,然后输出给分类网络。
作为另一种可实现的方式,可以进一步将上述图神经网络输出的特征表示
Figure 748213DEST_PATH_IMAGE123
输出至图信息交互网络,其中
Figure 439088DEST_PATH_IMAGE124
为表示图神经网络的层数。如图7中所示,图神经网络输出的特征表示
Figure 117194DEST_PATH_IMAGE125
Figure 800986DEST_PATH_IMAGE126
进行整合得到
Figure 248147DEST_PATH_IMAGE127
后,输入至图信息交互网络。
图信息交互网络由一个以上的MLP-Mixer Layer(多层感知机混合层)组成。
Figure 234558DEST_PATH_IMAGE127
中的列代表了同一节点(包括同一空间位置或同一频率位置)在不同通道上的信息,行表了不同节点在同一通道上的信息。也就是说,对每一列进行混合可以实现通道域的信息融合,对每一行进行混合可以实现空间域和频域的信息融合。本申请实施例中提供的各MLP-MixerLayer使用MLP先后对各行和各列进行混合,实现空间域、频域和通道域的信息融合。
每一个MLP-Mixer Layer的结构可以如图8中所示。
Figure 540906DEST_PATH_IMAGE127
首先经过LN(Layer Norm)进行归一化,然后对归一化后的
Figure 638175DEST_PATH_IMAGE127
进行转置后依据图邻接矩阵进行加权得到
Figure 64477DEST_PATH_IMAGE128
,该图邻接矩阵来自于第一层图神经网络,即
Figure 221789DEST_PATH_IMAGE129
Figure 749853DEST_PATH_IMAGE130
的行和列的含义与
Figure 650813DEST_PATH_IMAGE127
相反,即列代表不同节点在同一通道上的信息,行代表同一节点在不同通道上的信息。然后经过第一组MLP对行进行映射,得到
Figure 72567DEST_PATH_IMAGE131
Figure 525414DEST_PATH_IMAGE131
进行转置后经过LN进行归一化处理,再经过第二组MLP对行进行映射。其中,第一组MLP实际上是对不同通道之间的映射,第二组MLP实际上是对不同节点之间的映射。如果存在多个MLP-Mixer Layer,则前一个MLP-Mixer Layer输出的特征表示又作为下一个MLP-Mixer Layer的输入重复上述处理。MLP-Mixer Layer最终输出特征表示
Figure 665408DEST_PATH_IMAGE132
作为空间频率融合特征表示。
本申请实施例中采用的分类网络可以是一个二分类网络,作为其中一种可实现的方式,可以仅利用空间频率融合特征表示进行分类处理,输出待检测图像是否存在伪造对象的检测结果。
作为另一种可实现的方式,分类网络可以对空间频率融合特征表示和待检测图像的空间特征表示进行拼接,利用拼接后得到的特征进行分类处理,输出待检测图像是否存在伪造对象的检测结果。图3中示出的是这种方式。
图9为本申请实施例提供的深度伪造模型的训练方法流程图,如图9中所示,该方法可以包括以下步骤:
步骤902:获取训练数据,训练数据包括图像样本和对图像样本标注的是否存在伪造对象的标签。
本申请实施例中可以预先获取一些包含预设对象的图像作为图像样本,并对图像中是否存在伪造对象进行标注。可见训练数据的获取和标注均比较简单,标注的标签仅需要是或否即可。例如,获取一些包含人脸的图像作为图像样本,并对图像样本是否包含伪造人脸标注标签,从而构成训练数据。
步骤904:将图像样本作为深度伪造检测模型的输入,将图像样本对应的标签作为伪造检测模型的目标输出,训练深度伪造检测模型;其中,深度伪造检测模型可以如图3中所示,包括空间特征提取网络、频率特征提取网络、空间频率融合网络和分类网络,还可以进一步包括注意力处理网络和纹理提取网络。
其中,空间特征提取网络从图像样本中提取空间特征表示。
频率特征提取网络从待检测图像中提取频率特征。
作为其中一种可实现的方式,频率特征提取网络从图像样本中提取第一粒度的频率特征表示以及第二粒度的频率特征表示,第一粒度大于第二粒度;对图像样本进行对象区域分割,利用分割得到的对象区域对第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到图像样本的频率特征表示。
但需要说明的是,若频率特征提取网络仅提取上述第一粒度的频率表示或者第二粒度的频率特征表示作为待检测图像的频率特征表示,也是其中一种可实现的方式。
空间频率融合网络将图像样本的空间特征表示和频率特征表示进行融合,得到空间频率融合特征表示。
分类网络利用空间频率融合特征表示进行分类处理,输出图像样本是否存在伪造对象。
作为其中一种可实现的方式,空间特征提取网络可以利用至少两层骨干网络对图像样本进行空间特征提取,得到各层输出的空间特征表示,其中将最高层骨干网络输出的空间特征表示作为图像样本的空间特征表示。
作为其中一种可实现的方式,如图4中下半部分分支所示,频率特征提取网络在从图像样本中提取第一粒度的频率特征表示时,可以首先对图像样本进行傅里叶变换(例如DCT等变换方式)得到图像样本的第一频率特征表示;然后利用
Figure 979846DEST_PATH_IMAGE133
个滤波器对第一频率特征表示进行滤波处理,得到
Figure 521686DEST_PATH_IMAGE133
个频率分量的第一频率特征表示,
Figure 145434DEST_PATH_IMAGE133
为大于1的正整数;再分别对
Figure 772724DEST_PATH_IMAGE133
个频率分量的第一频率特征表示进行逆傅里叶变换,得到
Figure 625274DEST_PATH_IMAGE133
个频率分量的第二频率特征表示;最后将
Figure 287199DEST_PATH_IMAGE133
个频率分量的第二频率特征表示进行拼接,得到第一粒度的频率特征表示。
如图4中上半部分分支所示,频率特征提取网络从图像样本中提取第二粒度的频率特征表示时,可以首先将图像样本分割为多个图像块,对各图像块进行傅里叶变换得到各图像块的频率特征表示;然后将各图像块的频率特征表示进行拼接得到图像样本的第三频率特征表示;再对第三频率特征表示进行卷积处理,得到第二粒度的频率特征表示。
如图4中中间部分分支所示,频率特征提取网络可以首先采用诸如UNet网络生成图像样本的内容掩码,内容掩码是对图像样本中的对象区域进行掩码处理得到的;然后利用内容掩码对第一粒度的频率特征表示和第二粒度的频率特征表示进行加权处理,得到图像样本的频率特征表示。具体处理可以参见上面实施例中公式(2)和公式(3)。
作为其中一种可实现的方式,空间频率融合网络可以直接将上述空间特征提取网络得到的图像样本的空间特征表示和频率特征提取网络得到的频率特征表示进行融合,得到空间频率融合特征表示。
但作为一种更优选的实现方式,空间特征提取网络得到的图像样本的空间特征表示和/或频率特征提取网络得到的频率特征表示可以首先经过注意力处理网络的处理,注意力处理网络将处理后的图像样本的空间特征表示和/或频率特征提取网络得到的频率特征表示提供给空间频率融合网络进行融合。下面首先对注意力处理网络进行详细描述。
如图3中所示,第一方面,注意力处理网络可以利用至少两层骨干网络中最高层骨干网络输出的空间特征表示,对图像样本的频率特征表示进行BAP处理,并将处理后的图像样本的频率特征提供给空间频率融合网络进行融合。
第二方面,注意力处理网络可以从至少两层骨干网络中最低层骨干网络输出的空间特征表示中提取纹理特征表示,利用纹理特征表示对图像样本的空间特征表示进行BAP处理,并将处理后的图像样本的空间特征表示提供给空间频率融合网络进行融合。
上述两个方面可以择一执行,也可以两个方面均执行。本申请实施例中优选两方面均执行。下面对两个方面的具体执行方式进行详述。
在上述第一方面中,注意力处理网络在对图像样本的频率特征表示进行BAP处理之前,可以对图像样本的空间特征表示进行细化处理,该细化处理包括:获取图像样本的空间特征表示对应的空间注意力图,利用空间注意力图产生多尺度空间注意力图作为细化处理后的图像样本的空间特征表示。
具体地,细化处理可以由注意力处理网络中的MSAE模块来执行,MSAE模块执行的细化处理可以包括:
首先,获取图像样本的空间特征表示对应的空间注意力图。作为其中一种可实现的方式,可以在高层骨干网络中设置注意力模块来针对图像样本的空间特征表示产生空间注意力图。作为另一种可实现的方式,也可以在注意力处理网络中设置注意力模块来针对图像样本的空间特征表示产生空间注意力图。
其次,利用空间注意力图产生多尺度空间注意力图。如图5中所示,可以对空间注意力图进行下采样得到多个空间注意力图;分别从多个空间注意力图中提取特征分布图后,对多个特征分布图进行上采样和整合得到多尺度空间注意力图作为细化后的空间特征表示。
具体地,在MSAE中可以包括多个卷积块(ConvBlocks),每个卷积块可以包括Conv2d、BN和激活模块(例如可以采用ReLU等激活函数)。一个分支中卷积块从空间注意图中提取特征。另一个分支中对空间注意力图进行下采样处理得到了多个尺度的表示,从而获得更细致的感知信息和丰富的上下文信息,这对于深度伪造检测的准确度具有重要的提高作用;再利用AMRB从多个空间注意力图中提取特征分布图后再上采样到原始的空间注意力图的大小,将上采样的结果与卷积块提取的特征进行整合(例如相加)得到多尺度空间注意力图
Figure 81849DEST_PATH_IMAGE134
在上述MSAE中可以通过一个AMRB(注意力图细化模块)从多个空间注意力图中分别提取特征分布图。AMRB的结构可以如图6中所示,包括GAP( global average pooling,全局平均池化)、卷积模块、BN和激活模块(例如可以采用Sigmoid激活函数)。其中,通过GAP进行全局平均池化来捕获全局上下文,激活模块会产生一个注意力向量来反映当前尺度的空间注意力图的特征分布。
如图5中所示,在得到细化处理后的空间特征表示后,注意力处理网络利用纹理特征表示对图像样本的空间特征表示进行BAP处理,并将处理后的图像样本的空间特征表示提供给空间频率融合网络。其中,纹理特征表示可以从至少两层骨干网络中最低层骨干网络输出的空间特征表示中提取得到的纹理特征图,从而捕获隐藏在低层空间特征中的人工伪影。
其中,注意力处理网络利用纹理特征表示
Figure 665277DEST_PATH_IMAGE135
对待检测图像的空间特征表示
Figure 711730DEST_PATH_IMAGE136
进行BAP处理时,可以首先将
Figure 103529DEST_PATH_IMAGE136
中的第
Figure 944446DEST_PATH_IMAGE137
个尺度
Figure 139804DEST_PATH_IMAGE138
Figure 724369DEST_PATH_IMAGE139
相乘,得到
Figure 970674DEST_PATH_IMAGE140
,然后对
Figure 982492DEST_PATH_IMAGE140
进行BAP处理,处理后得到的
Figure 196304DEST_PATH_IMAGE141
再进行归一化后被拼接在一起得到空间特征表示
Figure 318981DEST_PATH_IMAGE142
在上述第二方面中,注意力处理网络在利用纹理特征表示对图像样本的频率特征表示进行BAP处理之前,对图像样本的频率特征表示进行细化处理,该细化处理包括:获取图像样本的频率特征表示对应的频率注意力图,利用频率注意力图产生多尺度频率注意力图作为细化处理后的图像样本的频率特征表示。
具体地,该细化处理可以由注意力处理网络中的MSAE模块来执行,MSAE模块执行的细化处理与第一方面中对空间特征表示的处理类似地,可以包括:
首先,获取图像样本的频率特征表示对应的频率注意力图。作为其中一种可实现的方式,可以在频率特征提取网络中设置注意力模块来针对图像样本的频率特征表示产生频率注意力图。作为另一种可实现的方式,也可以在注意力处理网络中设置注意力模块来针对图像样本的频率特征表示产生频率注意力图。频率注意力图包含图像样本中各位置的频率特征的注意力权重值。
其次,利用频率注意力图产生多尺度频率注意力图。可以对频率注意力图进行下采样得到多个频率注意力图;分别从多个频率注意力图中提取特征分布图后,分别对多个特征分布图进行上采样和整合得到多尺度频率注意力图
Figure 544426DEST_PATH_IMAGE143
作为细化后的频率特征表示。
上述下采样的处理可以由MSAE中的多个卷积块(ConvBlocks)执行。每个卷积块可以包括Conv2d、BN和激活模块(例如可以采用ReLU等激活函数)。进行下采样处理后实际上得到了多个尺度的表示,从而获得更细致的感知信息和丰富的上下文信息,这对于深度伪造检测的准确度具有重要的提高作用。
上述MSAE中可以通过一个AMRB从多个频率注意力图中分别提取特征分布图。其中,通过GAP进行全局平均池化来捕获全局上下文,激活模块会产生一个注意力向量来反映当前尺度的频率注意力图的特征分布。
在得到多个特征分布图后,对多个特征分布图进行上采样到原始的频率注意力图的大小,并在频率上整合(例如相加)得到多尺度频率注意力图
Figure 602512DEST_PATH_IMAGE144
在得到细化处理后的频率特征表示
Figure 913408DEST_PATH_IMAGE144
后,注意力处理网络最高层骨干网络输出的空间特征表示,对图像样本的频率特征表示进行BAP处理,并将处理后的图像样本的频率特征表示提供给频率融合网络。
其中,注意力处理网络利用最高层骨干网络输出的空间特征表示对图像样本的频率特征表示进行BAP处理,最终得到频率特征表示
Figure 981987DEST_PATH_IMAGE145
作为其中一种可实现的方式,空间频率融合网络可以将图像样本的空间特征表示和频率特征表示进行拼接,得到特征拼接矩阵;然后利用特征拼接矩阵,构建特征近邻图,特征近邻图包括节点和边,节点包括特征拼接矩阵的各列,若节点之间的距离满足预设的距离条件,则节点之间存在边;再利用图神经网络从特征近邻图中提取特征表示;最后利用图神经网络提取的特征表示得到空间频率融合特征表示。
其中,上述构建特征近邻图和利用图神经网络从特征近邻图中提取特征表示可以由多层动态图卷积模块执行,如图7中所示。
每一层动态图卷积模块利用输入的特征表示构建特征近邻图,利用图神经网络从特征近邻图中提取特征表示并输出;其中,第一层动态图卷积模块被输入的特征表示为特征拼接矩阵,非最后一层动态图卷积模块将提取的特征表示输出至下一层动态图卷积模块。处理过程可以参见上面实施例中关于公式(5)~(7)的记载。
作为其中一种可实现的方式,空间频率融合网络在利用图神经网络提取的特征表示得到空间频率融合特征表示时,可以直接将上述图神经网络输出的特征表示作为空间频率融合特征表示,然后输出给分类网络。
作为另一种可实现的方式,空间频率融合网络在利用图神经网络提取的特征表示得到空间频率融合特征表示时,可以利用MLP-Mixer Layer对图神经网络提取的特征表示中的各列分别进行映射后,再对各行分别进行映射,得到空间频率融合特征表示。
每一个MLP-Mixer Layer的结构可以如图8中所示。动态图卷积模块的输出
Figure 61939DEST_PATH_IMAGE146
首先经过LN进行归一化,然后对归一化后的
Figure 290926DEST_PATH_IMAGE146
进行转置后依据图邻接矩阵进行加权得到
Figure 89118DEST_PATH_IMAGE147
,该图邻接矩阵来自于第一层图神经网络,即
Figure 553597DEST_PATH_IMAGE148
Figure 878268DEST_PATH_IMAGE147
的行和列的含义与
Figure 402790DEST_PATH_IMAGE146
相反,即列代表不同节点在同一通道上的信息,行代表同一节点在不同通道上的信息。然后经过第一组MLP对行进行映射,得到
Figure 563644DEST_PATH_IMAGE149
Figure 97394DEST_PATH_IMAGE149
进行转置后经过LN进行归一化处理,再经过第二组MLP对行进行映射。其中,第一组MLP实际上是对不同通道之间的映射,第二组MLP实际上是对不同节点之间的映射。如果存在多个MLP-Mixer Layer,则前一个MLP-Mixer Layer输出的特征表示又作为下一个MLP-Mixer Layer的输入重复上述处理。MLP-Mixer Layer最终输出特征表示
Figure 10992DEST_PATH_IMAGE150
作为空间频率融合特征表示。
本申请实施例中采用的分类网络可以是一个二分类网络,作为其中一种可实现的方式,可以仅利用空间频率融合特征表示进行分类处理,输出图像样本是否存在伪造对象的检测结果。
作为另一种可实现的方式,分类网络可以对空间频率融合特征表示和图像样本的空间特征表示进行拼接,利用拼接后得到的特征进行分类处理,输出图像样本是否存在伪造对象的检测结果。图3中示出的是这种方式。
在训练深度伪造模型的训练过程中,训练目标是最小化检测结果与图像样本对应的标签之间的差异。可以依据上述训练目标构造损失函数,在每一轮迭代中利用损失函数的取值,采用诸如梯度下降等方式更新模型参数,直至满足预设的训练结束条件。其中训练结束条件可以包括诸如损失函数的取值小于或等于预设的损失函数阈值,迭代次数达到预设的次数阈值等。上述损失函数可以采用交叉熵损失函数。
作为另一种更优选的方式,经过上述动态图卷积模块的处理后,可以得到特征表示
Figure 706416DEST_PATH_IMAGE151
。在本申请中可以采用RIL(Region Independent Loss,区域独立性损失函数)结合交叉熵损失函数来进行模型训练。即在训练深度伪造检测模型的过程中,利用总损失函数的值更新伪造检测模型的参数,直至满足预设的训练结束条件。其中总损失函数的值由第一损失函数和第二损失函数的值确定;第一损失函数采用交叉熵损失函数,用以最小化检测结果与图像样本对应的标签之间的差异;第二损失函数采用RIL损失函数,用以最小化同类检测结果内空间频率融合特征表示与特征中心的距离,并且最大化不同类检测结果间特征中心的距离,特征中心是对同类检测结果的空间频率融合特征表示进行统计(例如求均值)得到的。
例如上述第二损失函数
Figure 354566DEST_PATH_IMAGE152
可以采用如下公式:
Figure 426427DEST_PATH_IMAGE153
(8)
其中,
Figure 69898DEST_PATH_IMAGE154
为训练过程中采样训练数据采用的批大小。
Figure 326436DEST_PATH_IMAGE155
表示
Figure 320937DEST_PATH_IMAGE156
中的列数即节点数量。
Figure 71855DEST_PATH_IMAGE157
表示同一批中第
Figure 569832DEST_PATH_IMAGE158
个图像样本对应的
Figure 997271DEST_PATH_IMAGE159
中第
Figure 479068DEST_PATH_IMAGE160
个节点,
Figure 768098DEST_PATH_IMAGE161
为同一批中图像样本特征中心的第
Figure 386162DEST_PATH_IMAGE158
行,
Figure 859868DEST_PATH_IMAGE162
为同一批中图像样本特征中心的第
Figure 219174DEST_PATH_IMAGE160
行。
Figure 311895DEST_PATH_IMAGE161
Figure 50044DEST_PATH_IMAGE162
初始时刻可以通过求同一批次样本均值统计得到。
Figure 429073DEST_PATH_IMAGE163
Figure 10096DEST_PATH_IMAGE164
表示类内和类间的间隔。这里的类只有两种,即存在伪造对象和不存在伪造对象。
Figure 765562DEST_PATH_IMAGE165
Figure 233584DEST_PATH_IMAGE166
是超参数,可以取经验值或试验值。
Figure 783514DEST_PATH_IMAGE167
表示2范数。ReLU()表示ReLU激活函数。
总损失函数
Figure 851833DEST_PATH_IMAGE168
可以采用如下公式:
Figure 410990DEST_PATH_IMAGE169
(9)
其中
Figure 858152DEST_PATH_IMAGE170
Figure 719929DEST_PATH_IMAGE171
是超参数,例如均可以设置为1。
Figure 885331DEST_PATH_IMAGE172
表示采用交叉熵损失函数的第一损失函数。
本申请实施例提供的上述方法可以应用于多种应用场景,以人脸伪造检测为例,可以包括但不限于以下应用场景:
1)对视频网站、新闻机构、网络论坛等中的视频、图片等资源进行人脸伪造检测,高效识别人脸伪造信息,降低人力审核成本,降低服务违规风险,避免虚假视频或图片等资源的传播。可以对已经上传的视频、图片等资源进行定期检测,也可以对上传的视频、图片等资源进行实时检测。
2)在安全认证时,对于采集到的包含人脸的图像,除了进行人脸识别以确认是否为认证用户之外,同时对图像进行伪造人脸识别,只有同时确定为认证用户且不存在伪造人脸时,通过安全认证。该安全认证可以应用于诸如安全支付、安全登录等场景。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
根据另一方面的实施例,提供了一种深度伪造检测装置。图10示出根据一个实施例的深度伪造检测装置的示意性框图。如图10所示,该装置1000包括:图像获取单元1001和伪造检测单元1002。其中各组成单元的主要功能如下:
图像获取单元1001,被配置为获取待检测图像。
伪造检测单元1002,被配置为将待检测图像输入深度伪造检测模型,获取深度伪造检测模型针对待检测图像输出的是否存在伪造对象的检测结果。
其中,深度伪造检测模型包括空间特征提取网络、频率特征提取网络、空间频率融合网络和分类网络;还可以进一步包括注意力处理网络和纹理提取网络。
空间特征提取网络用于从待检测图像中提取空间特征表示。
频率特征提取网络用于从待检测图像中提取频率特征表示。
作为其中一种可实现的方式,频率特征提取网络可以从待检测图像中提取第一粒度的频率特征表示以及第二粒度的频率特征表示,第一粒度大于第二粒度;对待检测图像进行对象区域分割,利用分割得到的对象区域对第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到待检测图像的频率特征表示。
空间频率融合网络用于将待检测图像的空间特征表示和频率特征表示进行融合,得到空间频率融合特征表示。
分类网络用于利用空间频率融合特征表示进行分类处理,输出待检测图像是否存在伪造对象。
纹理提取网络用以从至少两层骨干网络中最低层骨干网络输出的空间特征表示中提取纹理特征表示。
注意力处理网络利用至少两层骨干网络中最高层骨干网络输出的空间特征表示,对待检测图像的频率特征表示进行双线性注意力池化BAP处理,并将处理后的待检测图像的频率特征提供给空间频率融合网络进行融合;和/或,
利用纹理特征表示对待检测图像的空间特征表示进行BAP处理,并将处理后的待检测图像的空间特征表示提供给空间频率融合网络进行融合。
关于深度伪造检测模型的具体结构和原理可以参见深度伪造检测方法实施例中的相关记载,在此不做赘述。
图11示出根据一个实施例的深度伪造检测模型的训练装置的示意性框图。该装置对应于图1所示系统中的模型训练装置。如图11所示,该装置1100包括:样本获取单元1101和模型训练单元1102。其中各组成单元的主要功能如下:
样本获取单元1101,被配置为获取训练数据,训练数据包括图像样本和对图像样本标注的是否存在伪造对象的标签。
模型训练单元1102,被配置为将图像样本作为深度伪造检测模型的输入,将图像样本对应的标签作为伪造检测模型的目标输出,训练深度伪造检测模型。
其中,深度伪造检测模型包括空间特征提取网络、频率特征提取网络、空间频率融合网络和分类网络,还可以进一步包括注意力处理网络和纹理提取网络。
空间特征提取网络用于从图像样本中提取空间特征表示。
频率特征提取网络用于从图像样本中提取频率特征表示。
作为其中一种可实现的方式,频率特征提取网络可以从图像样本中提取第一粒度的频率特征表示以及第二粒度的频率特征表示,第一粒度大于第二粒度;对图像样本进行对象区域分割,利用分割得到的对象区域对第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到图像样本的频率特征表示;
空间频率融合网络用于将图像样本的空间特征表示和频率特征表示进行融合,得到空间频率融合特征表示;
分类网络用于利用空间频率融合特征表示进行分类处理,输出图像样本是否存在伪造对象。
纹理提取网络用以从至少两层骨干网络中最低层骨干网络输出的空间特征表示中提取纹理特征表示。
注意力处理网络利用至少两层骨干网络中最高层骨干网络输出的空间特征表示,对图像样本的频率特征表示进行BAP处理,并将处理后的图像样本的频率特征提供给空间频率融合网络进行融合;和/或,
利用纹理特征表示对图像样本的空间特征表示进行BAP处理,并将处理后的图像样本的空间特征表示提供给空间频率融合网络进行融合。
关于深度伪造检测模型的具体结构、原理以及训练过程中损失函数的构造可以参见深度伪造模型的训练方法实施例中的相关记载,在此不做赘述。
另外,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。
以及一种电子设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行前述方法实施例中任一项所述的方法的步骤。
本申请还提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。
其中,图12示例性的展示出了电子设备的架构,具体可以包括处理器1210,视频显示适配器1211,磁盘驱动器1212,输入/输出接口1213,网络接口1214,以及存储器1220。上述处理器1210、视频显示适配器1211、磁盘驱动器1212、输入/输出接口1213、网络接口1214,与存储器1220之间可以通过通信总线1230进行通信连接。
其中,处理器1210可以采用通用的CPU、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请所提供的技术方案。
存储器1220可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1220可以存储用于控制电子设备1200运行的操作系统1221,用于控制电子设备1200的低级别操作的基本输入输出系统(BIOS) 1222。另外,还可以存储网页浏览器1223,数据存储管理系统1224,以及深度伪造检测装置/模型训练装置1225等等。上述深度伪造检测装置/模型训练装置1225就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之,在通过软件或者固件来实现本申请所提供的技术方案时,相关的程序代码保存在存储器1220中,并由处理器1210来调用执行。
输入/输出接口1213用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
网络接口1214用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1230包括一通路,在设备的各个组件(例如处理器1210、视频显示适配器1211、磁盘驱动器1212、输入/输出接口1213、网络接口1214,与存储器1220)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1210、视频显示适配器1211、磁盘驱动器1212、输入/输出接口1213、网络接口1214,存储器1220,总线1230等,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本申请方案所必需的组件,而不必包含图中所示的全部组件。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序产品的形式体现出来,该计算机程序产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本申请所提供的技术方案进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。

Claims (13)

1.一种深度伪造检测方法,其特征在于,所述方法包括:
获取待检测图像;
将所述待检测图像输入深度伪造检测模型,获取所述深度伪造检测模型针对所述待检测图像输出的是否存在伪造对象的检测结果;其中,所述深度伪造检测模型包括空间特征提取网络、频率特征提取网络、空间频率融合网络和分类网络,所述深度伪造检测模型为机器学习模型;
所述空间特征提取网络从所述待检测图像中提取空间特征表示;
所述频率特征提取网络从所述待检测图像中提取第一粒度的频率特征表示以及第二粒度的频率特征表示,所述第一粒度大于所述第二粒度,所述第二粒度的频率特征表示是基于对所述待检测图像分割为多个图像块得到的;对所述待检测图像进行对象区域分割,对分割得到的对象区域进行掩码处理得到内容掩码,利用所述内容掩码对所述第一粒度的频率特征表示和第二粒度的频率特征表示进行加权处理,得到所述待检测图像的频率特征表示;
所述空间频率融合网络将待检测图像的空间特征表示和频率特征表示进行融合,得到空间频率联合特征表示;
所述分类网络利用所述空间频率联合特征表示进行分类处理,输出所述待检测图像是否存在伪造对象。
2.根据权利要求1所述的方法,其特征在于,从所述待检测图像中提取第一粒度的频率特征表示包括:
对所述待检测图像进行傅里叶变换得到所述待检测图像的第一频率特征表示;
利用
Figure DEST_PATH_IMAGE001
个滤波器对所述第一频率特征表示进行滤波处理,得到
Figure 746577DEST_PATH_IMAGE001
个频率分量的第一频率特征表示,所述
Figure 211056DEST_PATH_IMAGE001
为大于1的正整数;
分别对所述
Figure 83197DEST_PATH_IMAGE001
个频率分量的第一频率特征表示进行逆傅里叶变换,得到
Figure 342140DEST_PATH_IMAGE001
个频率分量的第二频率特征表示;
将所述
Figure 96470DEST_PATH_IMAGE001
个频率分量的第二频率特征表示进行拼接,得到所述第一粒度的频率特征表示。
3.根据权利要求1所述的方法,其特征在于,从所述待检测图像中提取第二粒度的频率特征表示包括:
将所述待检测图像分割为多个图像块,对各图像块进行傅里叶变换得到各图像块的频率特征表示;
将各图像块的频率特征表示进行拼接得到所述待检测图像的第三频率特征表示;
对所述第三频率特征表示进行卷积处理,得到所述第二粒度的频率特征表示。
4.根据权利要求1所述的方法,其特征在于,所述空间特征提取网络从所述待检测图像中提取空间特征表示包括:利用至少两层骨干网络对所述待检测图像进行空间特征提取,得到各层输出的空间特征表示,其中将最高层骨干网络输出的空间特征表示作为所述待检测图像的空间特征表示;
所述深度伪造检测模型还包括:注意力处理网络;在所述空间频率融合网络将待检测图像的空间特征表示和频率特征表示进行融合之前,还包括:
所述注意力处理网络利用所述至少两层骨干网络中最高层骨干网络输出的空间特征表示,对所述待检测图像的频率特征表示进行双线性注意力池化BAP处理,并将处理后的待检测图像的频率特征提供给所述空间频率融合网络进行所述融合;和/或,
利用从所述至少两层骨干网络中最低层骨干网络输出的空间特征表示中提取的纹理特征表示,对所述待检测图像的空间特征表示进行BAP处理,并将处理后的待检测图像的空间特征表示提供给所述空间频率融合网络进行所述融合。
5.根据权利要求4所述的方法,其特征在于,在对所述待检测图像的频率特征表示进行BAP处理之前,所述方法还包括:所述注意力处理网络对所述待检测图像的空间特征表示进行细化处理,该细化处理包括:获取所述待检测图像的空间特征表示对应的空间注意力图,利用所述空间注意力图产生多尺度空间注意力图作为细化处理后的待检测图像的空间特征表示;和/或,
在利用所述纹理特征表示对所述待检测图像的频率特征表示进行BAP处理之前,所述方法还包括:所述注意力处理网络对所述待检测图像的频率特征表示进行细化处理,该细化处理包括:获取所述待检测图像的频率特征表示对应的频率注意力图,利用所述频率注意力图产生多尺度频率注意力图作为细化处理后的待检测图像的频率特征表示。
6.根据权利要求1所述的方法,其特征在于,所述空间频率融合网络将待检测图像的空间特征表示和频率特征表示进行融合,得到空间频率融合特征表示包括:
所述空间频率融合网络将所述待检测图像的空间特征表示和频率特征表示进行拼接,得到特征拼接矩阵;
利用所述特征拼接矩阵,构建特征近邻图,所述特征近邻图包括节点和边,所述节点包括所述特征拼接矩阵的各列,若节点之间的距离满足预设的距离条件,则节点之间存在边;
利用图神经网络从所述特征近邻图中提取特征表示;
利用所述图神经网络提取的特征表示得到所述空间频率融合特征表示。
7.根据权利要求6所述的方法,其特征在于,所述构建特征近邻图和利用图神经网络从所述特征近邻图中提取特征表示由多层动态图卷积模块执行;
每一层动态图卷积模块利用输入的特征构建特征近邻图,利用图神经网络从特征近邻图中提取特征表示并输出;其中,第一层动态图卷积模块被输入的特征表示为所述特征拼接矩阵,非最后一层动态图卷积模块将提取的特征表示输出至下一层动态图卷积模块。
8.根据权利要求1所述的方法,其特征在于,所述分类网络利用所述空间频率融合特征表示进行分类处理,输出所述待检测图像是否存在伪造对象包括:
所述分类网络对所述空间频率融合特征表示和所述待检测图像的空间特征表示进行拼接,利用拼接后得到的特征进行分类处理,输出所述待检测图像是否存在伪造对象的检测结果。
9.根据权利要求1至8中任一项所述的方法,其特征在于,所述深度伪造检测模型采用如下方式预先训练得到:
获取训练数据,所述训练数据包括图像样本和对图像样本标注的是否存在伪造对象的标签;
将所述图像样本作为深度伪造检测模型的输入,将所述图像样本对应的标签作为所述伪造检测模型的目标输出,训练所述深度伪造检测模型;其中,所述深度伪造检测模型包括空间特征提取网络、频率特征提取网络、空间频率融合网络和分类网络;
所述空间特征提取网络从所述图像样本中提取空间特征表示;
所述频率特征提取网络从所述图像样本中提取第一粒度的频率特征表示以及第二粒度的频率特征表示,所述第一粒度大于所述第二粒度;对所述图像样本进行对象区域分割,利用分割得到的对象区域对所述第一粒度的频率特征表示和第二粒度的频率特征表示进行融合得到所述图像样本的频率特征表示;
所述空间频率融合网络将图像样本的空间特征表示和频率特征表示进行融合,得到空间频率融合特征表示;
所述分类网络利用所述空间频率融合特征表示进行分类处理,输出所述图像样本是否存在伪造对象。
10.根据权利要求9所述的方法,其特征在于,在训练所述深度伪造检测模型的过程中,利用总损失函数的值更新所述伪造检测模型的参数,直至满足预设的训练结束条件;
其中所述总损失函数的值由第一损失函数和第二损失函数的值确定;所述第一损失函数采用交叉熵损失函数,用以最小化所述检测结果与图像样本对应的标签之间的差异;所述第二损失函数采用区域独立性损失函数,用以最小化同类检测结果内所述空间频率融合特征表示与特征中心的距离,并且最大化不同类检测结果间特征中心的距离,所述特征中心是对同类检测结果的空间频率融合特征表示进行统计得到的。
11.一种深度伪造检测装置,其特征在于,所述装置包括:
图像获取单元,被配置为获取待检测图像;
伪造检测单元,被配置为将所述待检测图像输入深度伪造检测模型,获取所述深度伪造检测模型针对所述待检测图像输出的是否存在伪造对象的检测结果;其中,所述深度伪造检测模型包括空间特征提取网络、频率特征提取网络、空间频率融合网络和分类网络,所述深度伪造检测模型为机器学习模型;
所述空间特征提取网络用于从所述待检测图像中提取空间特征表示;
所述频率特征提取网络用于从所述待检测图像中提取第一粒度的频率特征表示以及第二粒度的频率特征表示,所述第一粒度大于所述第二粒度,所述第二粒度的频率特征表示是基于对所述待检测图像分割为多个图像块得到的;对所述待检测图像进行对象区域分割,对分割得到的对象区域进行掩码处理得到内容掩码,利用所述内容掩码对所述第一粒度的频率特征表示和第二粒度的频率特征表示进行加权处理,得到所述待检测图像的频率特征表示;
所述空间频率融合网络用于将待检测图像的空间特征表示和频率特征表示进行融合,得到空间频率融合特征表示;
所述分类网络用于利用所述空间频率融合特征表示进行分类处理,输出所述待检测图像是否存在伪造对象。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。
13.一种电子设备,其特征在于,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行权利要求1至10中任一项所述的方法的步骤。
CN202211220117.1A 2022-10-08 2022-10-08 深度伪造检测方法及对应装置 Active CN115311525B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211220117.1A CN115311525B (zh) 2022-10-08 2022-10-08 深度伪造检测方法及对应装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211220117.1A CN115311525B (zh) 2022-10-08 2022-10-08 深度伪造检测方法及对应装置

Publications (2)

Publication Number Publication Date
CN115311525A CN115311525A (zh) 2022-11-08
CN115311525B true CN115311525B (zh) 2023-03-14

Family

ID=83867404

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211220117.1A Active CN115311525B (zh) 2022-10-08 2022-10-08 深度伪造检测方法及对应装置

Country Status (1)

Country Link
CN (1) CN115311525B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488137A (zh) * 2019-09-11 2021-03-12 广州虎牙科技有限公司 样本获取方法、装置、电子设备及机器可读存储介质
CN112598643A (zh) * 2020-12-22 2021-04-02 百度在线网络技术(北京)有限公司 深度伪造图像检测及模型训练方法、装置、设备、介质
CN112686331A (zh) * 2021-01-11 2021-04-20 中国科学技术大学 伪造图像识别模型训练方法及伪造图像识别方法
CN112818862A (zh) * 2021-02-02 2021-05-18 南京邮电大学 基于多源线索与混合注意力的人脸篡改检测方法与系统
CN113011357A (zh) * 2021-03-26 2021-06-22 西安电子科技大学 基于时空融合的深度伪造人脸视频定位方法
CN113361474A (zh) * 2021-07-01 2021-09-07 中国科学技术大学 基于图像块特征提取的双流网络图像伪造检测方法及系统
CN113536990A (zh) * 2021-06-29 2021-10-22 复旦大学 深度伪造人脸数据鉴别方法
CN113723295A (zh) * 2021-08-31 2021-11-30 浙江大学 一种基于图像域频域双流网络的人脸伪造检测方法
CN113935365A (zh) * 2021-09-27 2022-01-14 华南农业大学 基于空域和频域双特征的深度伪造视频鉴定方法及系统
KR102373606B1 (ko) * 2021-04-19 2022-03-14 주식회사 쓰리디팩토리 영상 형성을 위한 전자 장치 및 방법과, 그를 수행하도록 컴퓨터 판독 가능한 기록 매체에 저장된 프로그램
CN114677372A (zh) * 2022-05-06 2022-06-28 山东工商学院 一种融合噪声感知的深度伪造图像检测方法及系统
CN114898437A (zh) * 2022-05-25 2022-08-12 北京邮电大学 一种基于频率学习的深度伪造人脸检测方法
CN114898438A (zh) * 2022-05-27 2022-08-12 大连理工大学 一种基于时频域视觉伪影特征自适应融合的跨模态深度伪造检测方法
CN114898432A (zh) * 2022-05-17 2022-08-12 中南大学 基于多特征融合的伪造人脸视频检测方法及系统
CN114913565A (zh) * 2021-01-28 2022-08-16 腾讯科技(深圳)有限公司 人脸图像检测方法、模型训练方法、装置及存储介质
CN115019370A (zh) * 2022-06-21 2022-09-06 深圳大学 一种基于双细粒度伪影的深度伪造视频检测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210406568A1 (en) * 2020-06-24 2021-12-30 Accenture Global Solutions Limited Utilizing multiple stacked machine learning models to detect deepfake content
CN111967344B (zh) * 2020-07-28 2023-06-20 南京信息工程大学 一种面向人脸伪造视频检测的精细化特征融合方法
CN112200001A (zh) * 2020-09-11 2021-01-08 南京星耀智能科技有限公司 一种指定场景下深度伪造视频识别方法
CN113435292B (zh) * 2021-06-22 2023-09-19 北京交通大学 一种基于固有特征挖掘的ai伪造人脸检测方法
CN113537027B (zh) * 2021-07-09 2023-09-01 中国科学院计算技术研究所 基于面部划分的人脸深度伪造检测方法及系统

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488137A (zh) * 2019-09-11 2021-03-12 广州虎牙科技有限公司 样本获取方法、装置、电子设备及机器可读存储介质
CN112598643A (zh) * 2020-12-22 2021-04-02 百度在线网络技术(北京)有限公司 深度伪造图像检测及模型训练方法、装置、设备、介质
CN112686331A (zh) * 2021-01-11 2021-04-20 中国科学技术大学 伪造图像识别模型训练方法及伪造图像识别方法
CN114913565A (zh) * 2021-01-28 2022-08-16 腾讯科技(深圳)有限公司 人脸图像检测方法、模型训练方法、装置及存储介质
CN112818862A (zh) * 2021-02-02 2021-05-18 南京邮电大学 基于多源线索与混合注意力的人脸篡改检测方法与系统
CN113011357A (zh) * 2021-03-26 2021-06-22 西安电子科技大学 基于时空融合的深度伪造人脸视频定位方法
KR102373606B1 (ko) * 2021-04-19 2022-03-14 주식회사 쓰리디팩토리 영상 형성을 위한 전자 장치 및 방법과, 그를 수행하도록 컴퓨터 판독 가능한 기록 매체에 저장된 프로그램
CN113536990A (zh) * 2021-06-29 2021-10-22 复旦大学 深度伪造人脸数据鉴别方法
CN113361474A (zh) * 2021-07-01 2021-09-07 中国科学技术大学 基于图像块特征提取的双流网络图像伪造检测方法及系统
CN113723295A (zh) * 2021-08-31 2021-11-30 浙江大学 一种基于图像域频域双流网络的人脸伪造检测方法
CN113935365A (zh) * 2021-09-27 2022-01-14 华南农业大学 基于空域和频域双特征的深度伪造视频鉴定方法及系统
CN114677372A (zh) * 2022-05-06 2022-06-28 山东工商学院 一种融合噪声感知的深度伪造图像检测方法及系统
CN114898432A (zh) * 2022-05-17 2022-08-12 中南大学 基于多特征融合的伪造人脸视频检测方法及系统
CN114898437A (zh) * 2022-05-25 2022-08-12 北京邮电大学 一种基于频率学习的深度伪造人脸检测方法
CN114898438A (zh) * 2022-05-27 2022-08-12 大连理工大学 一种基于时频域视觉伪影特征自适应融合的跨模态深度伪造检测方法
CN115019370A (zh) * 2022-06-21 2022-09-06 深圳大学 一种基于双细粒度伪影的深度伪造视频检测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Fighting Against Deepfake: Patch&Pair Convolutional Neural Networks (PPCNN);Xurong Li 等;《WWW’20 Companion》;20201009;88-89 *
M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection;Junke Wang 等;《arXiv:2104.09770v3》;20220419;1-9 *
一种基于双流网络的 Deepfakes 检测技术;李旭嵘 等;《信息安全学报》;20200331;第5卷(第2期);84-91 *
一种基于空域和频域多特征融合的人脸活体检测算法;陈然 等;《电视技术》;20191231;第43卷(第3期);92-96 *
基于空域变换和频域功率特征的伪造人脸双重甄别技术;胡健鹏 等;《工业技术创新》;20211031;第08卷(第05期);100-108 *

Also Published As

Publication number Publication date
CN115311525A (zh) 2022-11-08

Similar Documents

Publication Publication Date Title
CN114913565B (zh) 人脸图像检测方法、模型训练方法、装置及存储介质
Thai et al. Image classification using support vector machine and artificial neural network
CN110866471A (zh) 人脸图像质量评价方法及装置、计算机可读介质、通信终端
CN113139628B (zh) 样本图像的识别方法、装置、设备及可读存储介质
CN111241989A (zh) 图像识别方法及装置、电子设备
Bhavana et al. Hand sign recognition using CNN
Jaiswal et al. Detection of copy-move forgery in digital image using multi-scale, multi-stage deep learning model
CN111325319B (zh) 一种神经网络模型的检测方法、装置、设备及存储介质
CN112989085B (zh) 图像处理方法、装置、计算机设备及存储介质
Fu et al. CCNet: CNN model with channel attention and convolutional pooling mechanism for spatial image steganalysis
CN115050064A (zh) 人脸活体检测方法、装置、设备及介质
TWI803243B (zh) 圖像擴增方法、電腦設備及儲存介質
CN113392791A (zh) 一种皮肤预测处理方法、装置、设备及存储介质
CN115797731A (zh) 目标检测模型训练方法、检测方法、终端设备及存储介质
CN114707589A (zh) 对抗样本的生成方法、装置、存储介质、设备及程序产品
Tripathi et al. Image splicing detection system using intensity-level multi-fractal dimension feature engineering and twin support vector machine based classifier
Wang et al. An image forensic method for AI inpainting using faster R-CNN
CN115311525B (zh) 深度伪造检测方法及对应装置
CN116975828A (zh) 一种人脸融合攻击检测方法、装置、设备及存储介质
CN116977260A (zh) 目标物的缺陷检测方法、装置、电子设备及存储介质
CN115620342A (zh) 跨模态行人重识别方法、系统及计算机
Wu et al. Joint manipulation trace attention network and adaptive fusion mechanism for image splicing forgery localization
CN113657293B (zh) 活体检测方法、装置、电子设备、介质及程序产品
CN117011859A (zh) 一种图片处理的方法以及相关装置
CN116958615A (zh) 图片识别方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant