CN117095471A - 基于多尺度特征的人脸伪造溯源方法 - Google Patents
基于多尺度特征的人脸伪造溯源方法 Download PDFInfo
- Publication number
- CN117095471A CN117095471A CN202311356967.9A CN202311356967A CN117095471A CN 117095471 A CN117095471 A CN 117095471A CN 202311356967 A CN202311356967 A CN 202311356967A CN 117095471 A CN117095471 A CN 117095471A
- Authority
- CN
- China
- Prior art keywords
- scale
- face
- image
- map
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 239000002775 capsule Substances 0.000 claims abstract description 46
- 238000007500 overflow downdraw method Methods 0.000 claims abstract description 9
- 230000004927 fusion Effects 0.000 claims description 14
- 230000007246 mechanism Effects 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims description 2
- 210000001525 retina Anatomy 0.000 claims description 2
- 238000001514 detection method Methods 0.000 abstract description 20
- 230000000694 effects Effects 0.000 abstract description 7
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 239000000284 extract Substances 0.000 abstract description 2
- 230000008859 change Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000005286 illumination Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000005242 forging Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000004256 retinal image Effects 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- PJOHVEQSYPOERL-SHEAVXILSA-N (e)-n-[(4r,4as,7ar,12br)-3-(cyclopropylmethyl)-9-hydroxy-7-oxo-2,4,5,6,7a,13-hexahydro-1h-4,12-methanobenzofuro[3,2-e]isoquinoline-4a-yl]-3-(4-methylphenyl)prop-2-enamide Chemical compound C1=CC(C)=CC=C1\C=C\C(=O)N[C@]1(CCC(=O)[C@@H]2O3)[C@H]4CC5=CC=C(O)C3=C5[C@]12CCN4CC1CC1 PJOHVEQSYPOERL-SHEAVXILSA-N 0.000 description 1
- 102100023126 Cell surface glycoprotein MUC18 Human genes 0.000 description 1
- 101000623903 Homo sapiens Cell surface glycoprotein MUC18 Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000010009 beating Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004313 glare Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/40—Spoof detection, e.g. liveness detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于多尺度特征的人脸伪造溯源方法,属于人工智能安全技术领域。首先利用三分支网络获得输入样本的多尺度特征;然后通过自适应特征融合方法,将三分支特征进行融合;最后利用具有整体相关性的胶囊网络进行分类,关注样本的重要区域,得到收敛速度更快的模型,获得最终的溯源结果。本发明利用三分支网络来提取伪造人脸的多尺度特征,获得了更细微、范围更精确的伪造人脸特征,实现了人脸伪造的溯源,加快了模型的收敛速度,提高了模型的检测性能,相比于其他人脸伪造检测方法,提取到了更细微的人脸伪造痕迹,在保证检测效果的同时,节约了时间资源。
Description
技术领域
本发明属于人工智能安全技术领域,具体涉及基于多尺度特征的人脸伪造溯源方法。
背景技术
随着深度学习的快速发展,当前的人脸伪造检测方法在识别人脸真伪的场景下已经实现了高精度。然而,真正对于人脸伪造溯源的研究还不够,大部分方法仅仅在实验最后检测多伪造方法的识别准确度。研究伪造方法溯源技术不仅可以提高真伪人脸识别的精度,还能提高人脸伪造检测的泛化性。可以通过检测出来的伪造生成技术来判断伪造人脸的源头。例如,一旦确定人脸伪造方法是换脸,就可以进一步确定该伪造人脸涉及两个人脸信息。近年来,人们开始对人脸伪造方法溯源技术进行研究,旨在提取不同伪造方法的特征,提高模型的检测泛化能力。
人脸伪造检测可以分为三大类。第一类是基于传统图像取证的方法,就是采用传统的信号处理方法,利用频域特征和统计特征进行分析,如设备指纹、篡改痕迹、图像噪声等;基于生理特征的方法,如眨眼、心脏跳动、头部姿态变化等;基于深度学习的方法,使用深度学习模型学习真实人脸和伪造后的人脸之间的差异。虽然深度学习的方法取得了较高的检测准确率,但大部分方法都是将人脸伪造检测看做二元分类问题来考虑,忽略了不同的伪造方法。因此,需要结合不同伪造方法的个性特征,设计出具有更好检测能力的人脸伪造方法溯源网络。
发明内容
本发明解决的技术问题:提供一种结合RGB特征和频率特征、全局特征和局部特征,针对多尺度特征更精确的人脸伪造溯源方法。
技术方案:为了解决上述技术问题,本发明采用的技术方案如下:
基于多尺度特征的人脸伪造溯源方法,主要包括以下步骤:
步骤1:利用三分支网络获得输入样本的多尺度特征;
步骤2:通过自适应特征融合方法,将三分支特征进行融合;
步骤3:利用胶囊网络进行分类,关注样本的重要区域,得到收敛速度更快的模型,获得最终的溯源结果。
作为优选,步骤1中,利用三分支网络获得输入样本的多尺度特征的方法如下:
步骤1.1:在残差引导的多尺度空间注意力模块中,使用空间注意力机制以及高频滤波器生成的残差图来指导生成注意力图,最后利用注意力机制来融合多尺度特征;
步骤1.2:在多尺度视网膜图像特征提取模块中,将RGB图像转化为MSR图像;
步骤1.3:在多尺度通道注意力引导的局部频率统计模块中,使用多尺度通道注意力机制模块,通过压缩输入张量的通道维度从每个通道特征图中提取不同尺度的空间信息,得到多尺度特征融合图;
提取多尺度特征图的通道注意权重;通过权重来构建跨维度交互,组成新的具有多尺度通道注意力的特征;
提取图像局部之间的关系,计算局部频率统计;将频率统计重新组合回多通道空间图,获得局部图像块之间的关系特征。
作为优选,步骤1.1中,注意力图为:
,
其中,Map是注意力图,是高频残差图像,是原始特征映射。
作为优选,步骤1.2中,MSR图像为:
,
其中,表示图像的像素坐标,表示每个尺度的权重,表示一共有k个尺度,表示原图像,表示多尺度环绕函数,符号*表示卷积运算。
作为优选,步骤1.3中,多尺度特征融合图为:
,
其中,
;
其中,表示第i个尺度的卷积,表示第i个尺度的图像。
作为优选,步骤1.3中,多尺度特征图的通道注意权重为:
,
其中,
,
其中,表示多尺度通道注意力向量,SEWeight模块由平均池化层、全连接层和激
活函数组成。
作为优选,步骤1.3中,多尺度通道注意力的特征为:
。
作为优选,步骤1.3中,局部频率统计为:
,
其中,用于平衡每个频带的幅度,是滑动DCT变换,是基础滤波器,
是可学习的滤波器,表示方差。
作为优选,步骤2中,通过自适应特征融合方法,将三分支特征进行融合,方法如下:
进行特征缩放和自适应融合,将同一位置上三个分支的特征向量映射到同一尺度上,进行特征的加权融合,得到融合特征:
,
其中,Scale表示设定的固定分辨率;、和分别表示三个分支的空间重要
性权重,、和分别表示在(i,j)位置将1、2、3三种尺度的特征向量映
射到同一尺度Scale上。
作为优选,步骤3中,利用胶囊网络进行分类,关注样本的重要区域,得到收敛速度更快的模型,获得最终的溯源结果,方法如下:
将胶囊网络中的输出胶囊个数设置为溯源任务数量值,将每层中激活值最大的输出胶囊的对应的部分主体胶囊信息传递给下一层的主体胶囊中,实现低级分类胶囊与高级主体胶囊相结合,训练模型得到输出概率:
,
其中,v表示输出胶囊,T表示对输出胶囊矩阵进行转置,m表示输出胶囊的维度。
有益效果:与现有技术相比,本发明具有以下优点:
1)本发明提出了结合多尺度特征和胶囊网络的人脸伪造溯源方法,在提取输入样本的多尺度特征时,使用了注意力机制、MSR图像转换等方法,在融合多尺度特征时,使用了自适应的特征融合方法,在进行伪造方法溯源时,提出了具有信息传递的胶囊网络,加快了模型的收敛速度,提高了模型的检测性能。
2)本发明融合了图像的RGB特征和频率特征、全局特征和局部特征,来充分捕捉伪造痕迹。RGB图像中的特征容易受到光照的影响,但是它包含了详细的纹理信息。为了补充RGB特征,使用多尺度视网膜图像,虽然该图像丢失了轻微的面部纹理,但是它包含了图像的高频信息。全局特征能够提供对图像整体的描述和分析,具有较强的鲁棒性和稳定性,对图像的干扰和变化较为不敏感。但是无法捕捉到图像中的细节和局部结构信息,无法精确定位,对于遮挡、光照变化等因素的影响较大。为了补充全局特征,使用局部特征,虽然不能捕捉到全局信息,但是能够捕捉到图像中的细节和局部结构信息,对于遮挡、光照变化等因素的影响较小。RGB特征和频率特征、全局特征和局部特征都是互补特征,充分展示了整个图像的特征。
3)本发明相比于其他人脸伪造检测方法,提取到了更细微的人脸伪造痕迹,在保证检测效果的同时,节约了时间资源。
附图说明
图1是本发明基于多尺度特征的人脸伪造溯源方法的模型框架图;
图2 FF++向FakeAVCeleb数据集的泛化性曲线图;
图3 FakeAVCeleb向FF++数据集的泛化性曲线图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,实施例在以本发明技术方案为前提下进行实施,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围。
如图1所示,本发明的基于多尺度特征的人脸伪造溯源方法,首先利用三分支网络获得输入样本的多尺度特征;然后通过自适应特征融合方法,将三分支特征进行融合;最后利用具有整体相关性的胶囊网络进行分类,关注样本的重要区域,得到收敛速度更快的模型,获得最终的溯源结果。具体包括如下步骤1-步骤3共三大步骤:
步骤1:利用三分支网络获得输入样本的多尺度特征,具体方式如下:
步骤1.1:在残差引导的多尺度空间注意力模块中,使用空间注意力机制以及高频滤波器生成的残差图来指导生成注意力图:
,
其中Map是注意力图,是高频残差图像,是原始特征映射,最后利用注
意力机制来融合多尺度特征。
步骤1.2:在多尺度视网膜图像特征提取模块中,将RGB图像转化为MSR图像:
,
其中,表示图像的像素坐标,表示每个尺度的权重,表示一共有k个尺度,
取值为3,表示原图像,表示多尺度环绕函数,符号*表示卷积运算,该图像对
光照不敏感,并且包含高频信息。
步骤1.3:在多尺度通道注意力引导的局部频率统计模块中,使用多尺度通道注意力机制模块MCAM,通过压缩输入张量的通道维度从每个通道特征图中提取不同尺度的空间信息,得到多尺度特征融合图:
,
其中,
;
其中,表示第i个尺度的卷积,表示第i个尺度的图像。
然后提取多尺度特征图的通道注意权重:
,
其中,
,
为多尺度通道注意力向量;SEWeight模块由平均池化层、全连接层和激活函数
组成,权重用来构建跨维度交互,组成新的具有多尺度通道注意力的特征:
;
提取图像局部之间的关系,计算局部频率统计:
,
其中,用于平衡每个频带的幅度,是滑动DCT变换,是基础滤波器,
是可学习的滤波器;表示方差。将频率统计重新组合回多通道空间图,获得局部图像块之
间的关系特征。
步骤2:通过自适应特征融合方法,将三分支特征进行融合,具体方式如下:
进行特征缩放和自适应融合,将同一位置上三个分支的特征向量映射到同一尺度上,进行特征的加权融合,得到融合特征:
,
其中Scale表示设定的固定分辨率;、和分别表示在(i,j)
位置将1、2、3三种尺度的特征向量映射到同一尺度Scale上;、和分别表示三个分
支的空间重要性权重。
步骤3:利用具有整体相关性的胶囊网络进行分类,关注样本的重要区域,得到收敛速度更快的模型,获得最终的溯源结果,具体方式如下:
将胶囊网络中的输出胶囊个数设置为溯源任务数量值,将每层中激活值最大的输出胶囊的对应的部分主体胶囊信息传递给下一层的主体胶囊中,实现低级分类胶囊与高级主体胶囊相结合,训练模型得到输出概率:
,
其中,v表示输出胶囊,T表示对输出胶囊矩阵进行转置,m表示输出胶囊的维度。
通过以下实验验证本发明方法的有效性和效率:
评估指标为对伪造方法的分类准确率和模型收敛的迭代轮数。
首先选择数据集,本发明选择了FaceForensics++、DeepfakeDetection和FakeAVCeleb数据集。
1、FaceForensics++数据集
FaceForensics++数据集,由1000个原始视频序列组成,这些视频序列已使用四种自动面部处理方法进行了处理:Deepfakes、Face2Face、FaceSwap和NeuralTextures。
2、 DeepfakeDetection数据集
DeepfakeDetection数据集,共有119196个视频,真假视频比例约为1:5。原始视频均由演员拍摄,视频长度约为10s;视频分辨率跨度很大,视频场景涵盖了多种复杂场景,如背景、侧脸、走动、强光、多人等。
3、 FakeAVCeleb数据集
FakeAVCeleb数据集,是一个音视频Deepfake数据集,同时包含伪造视频和相应的合成克隆音频;该数据集包含从VoxCeleb2数据集选择的500个平均时长为7.8秒的视频。
其次,本发明选择了Xception模型和胶囊网络模型作为主干网络。
1、 Xception模型
Xception是google继Inception后提出的对InceptionV3的另一种改进,主要是采用深度可分离卷积来替换原来InceptionV3中的卷积操作;在基本不增加网络复杂度的前提下提高了模型的效果;但网络复杂度没有大幅降低,原因是加宽了网络,使得参数数量和Inception v3差不多,因此Xception主要目的不在于模型压缩,而是提高性能。
2、 胶囊网络模型
胶囊网络是一种新型神经网络架构,旨在更好地捕获物体的姿态和层次结构,与传统的神经网络不同,胶囊网络使用“胶囊”代表实体或部件,并且可以存储多个属性或特征向量,这些属性描述了实体或部件的不同方面,胶囊之间可以互相联系,形成更高层次的特征表示,同时保留不同实体或部件之间的关系。
在本次实验中,包含了DeepFake、FaceSwap、FaceShifter、Face2Face和NeuralTextures五种人脸伪造方法产生的伪造视频,对视频进行处理,得到合适的图片数据集。接着本发明选择初始的胶囊网络方法、F3Net方法和利用高频特征的GFF方法作为对比方法,5种伪造方法的分类效果如表1所示,加入信息传递模块前后的收敛速度比较结果如表2所示。
表1本发明对不同伪造方法的检测成功率
表2本发明模型收敛速度提高效果
表1和表2的结果表示,本发明的方法与其他检测方法相比,具有更好的检测率,在保证检测效果的同时,加快了模型的收敛速度。从图2、图3中可以看出模型的泛化能力比较好。总体而言,本发明提出了结合多尺度特征和胶囊网络的人脸伪造溯源方法;在提取输入样本的多尺度特征时,使用了注意力机制、MSR图像转换等方法;在融合多尺度特征时,使用了自适应的特征融合方法;在进行伪造方法溯源时,提出了具有信息传递的胶囊网络,加快了模型的收敛速度,提高了模型的检测性能。
本发明融合了图像的RGB特征和频率特征、全局特征和局部特征,来充分捕捉伪造痕迹;相较于其他人脸伪造检测方法,提取到了更细微的人脸伪造痕迹,在保证检测效果的同时,节约了时间资源。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.基于多尺度特征的人脸伪造溯源方法,其特征在于:主要包括以下步骤:
步骤1:利用三分支网络获得输入样本的多尺度特征;
步骤2:通过自适应特征融合方法,将三分支特征进行融合;
步骤3:利用胶囊网络进行分类,关注样本的重要区域,得到收敛速度更快的模型,获得最终的溯源结果。
2.根据权利要求1所述的基于多尺度特征的人脸伪造溯源方法,其特征在于,步骤1中,利用三分支网络获得输入样本的多尺度特征的方法如下:
步骤1.1:在残差引导的多尺度空间注意力模块中,使用空间注意力机制以及高频滤波器生成的残差图来指导生成注意力图,最后利用注意力机制来融合多尺度特征;
步骤1.2:在多尺度视网膜图像特征提取模块中,将RGB图像转化为MSR图像;
步骤1.3:在多尺度通道注意力引导的局部频率统计模块中,使用多尺度通道注意力机制模块,通过压缩输入张量的通道维度从每个通道特征图中提取不同尺度的空间信息,得到多尺度特征融合图;
提取多尺度特征图的通道注意权重;通过权重来构建跨维度交互,组成新的具有多尺度通道注意力的特征;
提取图像局部之间的关系,计算局部频率统计;将频率统计重新组合回多通道空间图,获得局部图像块之间的关系特征。
3.根据权利要求2所述的基于多尺度特征的人脸伪造溯源方法,其特征在于,步骤1.1中,注意力图为:
,
其中,Map是注意力图,是高频残差图像,/>是原始特征映射。
4.根据权利要求2所述的基于多尺度特征的人脸伪造溯源方法,其特征在于,步骤1.2中,MSR图像为:
,
其中,表示图像的像素坐标,/>表示每个尺度的权重,/>表示一共有k个尺度,表示原图像,/>表示多尺度环绕函数,符号*表示卷积运算。
5.根据权利要求2所述的基于多尺度特征的人脸伪造溯源方法,其特征在于,步骤1.3中,多尺度特征融合图为:
,
其中,
;
其中,表示第i个尺度的卷积,/>表示第i个尺度的图像。
6.根据权利要求2所述的基于多尺度特征的人脸伪造溯源方法,其特征在于,步骤1.3中,多尺度特征图的通道注意权重为:
,
其中,
,
其中,表示多尺度通道注意力向量,SEWeight模块由平均池化层、全连接层和激活函数组成。
7.根据权利要求2所述的基于多尺度特征的人脸伪造溯源方法,其特征在于,步骤1.3中,多尺度通道注意力的特征为:
。
8.根据权利要求2所述的基于多尺度特征的人脸伪造溯源方法,其特征在于,步骤1.3中,局部频率统计为:
,
其中,用于平衡每个频带的幅度,/>是滑动DCT变换,/>是基础滤波器,/>是可学习的滤波器,/>表示方差。
9.根据权利要求1所述的基于多尺度特征的人脸伪造溯源方法,其特征在于,步骤2中,通过自适应特征融合方法,将三分支特征进行融合,方法如下:
进行特征缩放和自适应融合,将同一位置上三个分支的特征向量映射到同一尺度上,进行特征的加权融合,得到融合特征:
,
其中,Scale表示设定的固定分辨率;、/>和/>分别表示三个分支的空间重要性权重,/>、/>和/>分别表示在(i,j)位置将1、2、3三种尺度的特征向量映射到同一尺度Scale上。
10.根据权利要求1所述的基于多尺度特征的人脸伪造溯源方法,其特征在于,步骤3中,利用胶囊网络进行分类,关注样本的重要区域,得到收敛速度更快的模型,获得最终的溯源结果,方法如下:
将胶囊网络中的输出胶囊个数设置为溯源任务数量值,将每层中激活值最大的输出胶囊的对应的部分主体胶囊信息传递给下一层的主体胶囊中,实现低级分类胶囊与高级主体胶囊相结合,训练模型得到输出概率:
,
其中,v表示输出胶囊,T表示对输出胶囊矩阵进行转置,m表示输出胶囊的维度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311356967.9A CN117095471B (zh) | 2023-10-19 | 2023-10-19 | 基于多尺度特征的人脸伪造溯源方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311356967.9A CN117095471B (zh) | 2023-10-19 | 2023-10-19 | 基于多尺度特征的人脸伪造溯源方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117095471A true CN117095471A (zh) | 2023-11-21 |
CN117095471B CN117095471B (zh) | 2024-02-27 |
Family
ID=88773827
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311356967.9A Active CN117095471B (zh) | 2023-10-19 | 2023-10-19 | 基于多尺度特征的人脸伪造溯源方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117095471B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117274885A (zh) * | 2023-11-23 | 2023-12-22 | 湖北微模式科技发展有限公司 | 一种人脸伪造视频检测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022237397A1 (zh) * | 2021-05-11 | 2022-11-17 | 腾讯科技(深圳)有限公司 | 图像真伪检测方法、装置、计算机设备和存储介质 |
CN115880749A (zh) * | 2022-11-08 | 2023-03-31 | 杭州中科睿鉴科技有限公司 | 基于多模态特征融合的人脸深伪检测方法 |
CN116310969A (zh) * | 2023-03-03 | 2023-06-23 | 巧智绘科技(浙江)有限公司 | 一种基于多尺度特征解耦的深度伪造视频检测方法和装置 |
-
2023
- 2023-10-19 CN CN202311356967.9A patent/CN117095471B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022237397A1 (zh) * | 2021-05-11 | 2022-11-17 | 腾讯科技(深圳)有限公司 | 图像真伪检测方法、装置、计算机设备和存储介质 |
CN115880749A (zh) * | 2022-11-08 | 2023-03-31 | 杭州中科睿鉴科技有限公司 | 基于多模态特征融合的人脸深伪检测方法 |
CN116310969A (zh) * | 2023-03-03 | 2023-06-23 | 巧智绘科技(浙江)有限公司 | 一种基于多尺度特征解耦的深度伪造视频检测方法和装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117274885A (zh) * | 2023-11-23 | 2023-12-22 | 湖北微模式科技发展有限公司 | 一种人脸伪造视频检测方法 |
CN117274885B (zh) * | 2023-11-23 | 2024-02-09 | 湖北微模式科技发展有限公司 | 一种人脸伪造视频检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117095471B (zh) | 2024-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yuan et al. | Fingerprint liveness detection using an improved CNN with image scale equalization | |
CN111523462A (zh) | 基于自注意增强cnn的视频序列表情识别系统及方法 | |
Zhang et al. | A survey on face anti-spoofing algorithms | |
CN110738153B (zh) | 异质人脸图像转换方法、装置、电子设备及存储介质 | |
CN114694220B (zh) | 一种基于Swin Transformer的双流人脸伪造检测方法 | |
Huang et al. | Deepfake mnist+: a deepfake facial animation dataset | |
Kong et al. | Appearance matters, so does audio: Revealing the hidden face via cross-modality transfer | |
CN117095471B (zh) | 基于多尺度特征的人脸伪造溯源方法 | |
Yu et al. | Detecting deepfake-forged contents with separable convolutional neural network and image segmentation | |
CN116563957B (zh) | 一种基于傅里叶域适应的人脸伪造视频检测方法 | |
CN115482595B (zh) | 一种基于语义分割的特定人物视觉伪造检测与鉴别方法 | |
Esmaeili et al. | A comprehensive survey on facial micro-expression: approaches and databases | |
Alnaim et al. | DFFMD: a deepfake face mask dataset for infectious disease era with deepfake detection algorithms | |
CN111598144A (zh) | 图像识别模型的训练方法和装置 | |
Peng et al. | Presentation attack detection based on two-stream vision transformers with self-attention fusion | |
CN113989713A (zh) | 基于视频帧序预测的深度伪造检测方法 | |
CN105893967B (zh) | 基于时序保留性时空特征的人体行为分类检测方法及系统 | |
CN111967331A (zh) | 基于融合特征和字典学习的人脸表示攻击检测方法及系统 | |
Roy et al. | Unmasking DeepFake Visual Content with Generative AI | |
Nguyen et al. | LAWNet: A lightweight attention-based deep learning model for wrist vein verification in smartphones using RGB images | |
Zhang et al. | Deepfake detection based on incompatibility between multiple modes | |
CN113553895A (zh) | 一种基于人脸正面化的多姿态人脸识别方法 | |
Mahbub et al. | One-shot-learning gesture recognition using motion history based gesture silhouettes | |
Khedkar et al. | Exploiting spatiotemporal inconsistencies to detect deepfake videos in the wild | |
Patil et al. | Performance improvement of face recognition system by decomposition of local features using discrete wavelet transforms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |