CN113935365A - 基于空域和频域双特征的深度伪造视频鉴定方法及系统 - Google Patents
基于空域和频域双特征的深度伪造视频鉴定方法及系统 Download PDFInfo
- Publication number
- CN113935365A CN113935365A CN202111137316.1A CN202111137316A CN113935365A CN 113935365 A CN113935365 A CN 113935365A CN 202111137316 A CN202111137316 A CN 202111137316A CN 113935365 A CN113935365 A CN 113935365A
- Authority
- CN
- China
- Prior art keywords
- frequency domain
- video
- domain
- frequency
- deep
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000009977 dual effect Effects 0.000 title claims abstract description 24
- 238000000605 extraction Methods 0.000 claims description 27
- 238000010586 diagram Methods 0.000 claims description 24
- 238000013527 convolutional neural network Methods 0.000 claims description 21
- 238000001514 detection method Methods 0.000 claims description 20
- 238000000354 decomposition reaction Methods 0.000 claims description 19
- 230000004044 response Effects 0.000 claims description 19
- 238000012360 testing method Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 230000001131 transforming effect Effects 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000001815 facial effect Effects 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 206010044565 Tremor Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005242 forging Methods 0.000 description 1
- 238000013095 identification testing Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种基于空域和频域双特征的深度伪造视频鉴定方法及系统,涉及多媒体信息安全的技术领域,首先从待鉴定视频中提取视频帧,从提取到的视频帧中提取人脸区域图像,然后进行频域的图像分割及频率域分支特征提取、空间域分支特征提取,最后频率域分支特征和空间域分支特征合并形成特征向量,用于卷积神经网络分类器的训练和测试,避免当前深度伪造视频鉴定方法对低质量视频检测精度低、跨库检测性能差的问题,综合利用空域和频域特征,能够有效检测由深度伪造技术生成的虚假视频,提高了检测精度。
Description
技术领域
本发明涉及多媒体信息安全的技术领域,更具体地,涉及一种基于空域和频域双特征的深度伪造视频鉴定方法及系统。
背景技术
随着生成对抗网络和自动编码器的深度伪造技术的快速发展,深度伪造视频已成为当今互联网上传播最为广泛的媒体之一。深度伪造技术降低了编辑人脸、篡改人脸的成本,导致深度伪造技术生成虚假视频数量的显著增加。此外,由于无处不在的互联网和各种视频共享网站(例如YouTube、抖音)的流行,深度伪造视频在社交平台上更易形成广泛传播趋势,对多媒体信息安全产生了巨大的威胁。
现有的深度伪造技术可以通过交换源对象与目标对象的面部区域,或使用源对象的面部动作驱动目标对象的面部动作的方式,在不修改视频中对象身份信息的情况下,修改人物的表情、所说的话,从而达到歪曲事实的目的。于个人而言,涉及其肖像的深度伪造视频的恶意传播可能侵犯公民的隐私权及名誉权;于社会而言,不法分子借此技术传播谣言将影响社会舆情稳定;于国家而言,虚假视频一旦被用于传播错误思想等恶劣途径,将严重威胁国家安全及社会稳定。
目前,深度伪造视频鉴定方式主要分为两类:空间域检测和频率域检测。在空间域检测层面,2021年6月8日,中国发明专利(公布号:CN112927202A) 中提出了一种多时域多特征结合的Deepfake视频检测方法及系统,利用多时域模块捕获视频的时域信息,结合多特征对深度伪造视频进行检测,具有较好的检测效果,能提高泛化能力,但低质量视频中的伪影或压缩错误在空间域检测时很难被发现,对低质量视频的检测精度低;在频率域检测层面,大多仅仅从幅度谱上去提取特征,但幅度谱并不能直接表征频率域包含的信息量,导致频率域的信息不能完全被利用。
发明内容
为解决当前深度伪造视频检测方法的对低质量视频检测精度低、跨库检测性能差的问题,本发明提出一种基于空域和频域双特征的深度伪造视频鉴定方法及系统,综合利用空域和频域特征,能够有效检测由深度伪造技术生成的虚假视频,提高了检测精度。
为了达到上述技术效果,本发明的技术方案如下:
一种基于空域和频域双特征的深度伪造视频鉴定方法,所述方法包括:
从待鉴定视频中提取视频帧,从提取到的视频帧中提取人脸区域图像;
将人脸区域图像从RGB颜色空间域变换到频率域,并进行频率响应分解,得到一系列频率图像分量,基于频率图像分量进行频率域特征提取,得到频率域特征表示F1;
对人脸区域图像进行RGB空间域分支的浅层特征提取,基于浅层特征及多重注意力机制,进一步得到全局深层特征表示F2;
将频率域特征表示F1和全局深层特征表示F2合并,形成高维特征集合F;
选定用于深度伪造视频鉴定的卷积神经网络分类器,将高维特征集合F作为特征向量,对卷积神经网络分类器进行训练和鉴定分类测试。
在本技术方案中,首先从待鉴定视频中提取视频帧,从提取到的视频帧中提取人脸区域图像,然后进行频域的图像分割及频率域分支特征提取、空间域分支特征提取,最后合并形成特征向量,进行卷积神经网络分类器的训练和测试,其中,依据RGB颜色空间域通过注意力机制提取到的深层特征表示及伪造视频中频率域将存在异常频率统计的特性,提取出高维特征向量,可以有效地检测经深度伪造技术生成的虚假视频,是根据深度伪造视频的空间域信息及频率域信息的相关特性提出的基于深度学习的分类预测方法,提高了低质量视频的检测精度及跨库检测性能。
优选地,从待鉴定视频中提取视频帧后,利用BlazeFace人脸检测模型从提取到的视频帧中提取人脸区域图像,提取的人脸区域图像的大小固定。
优选地,利用离散余弦变换将人脸区域图像从RGB颜色空间域变换到频率域,所述的频率响应分解基于二进制滤波器和可学习的滤波器组合实现,设人脸区域图像表示为x,bi表示二进制滤波器,li表示可学习的滤波器;
Fi=bi+σ(li)
Fi表示组合滤波器,利用组合滤波器进行频率响应分解的表达式为:
Yi=DCT(x)e Fi
其中,DCT(.)表示离散余弦变换;Yi表示频率响应分解后得到的频率图像分量;
将频率响应分解后得到的频率图像分量经过离散余弦变换的逆变换,返回至 RGB颜色空间,得到新的RGB表示:
Zi=DCT-1(Yi)
将Zi沿着通道方向进行拼接,最终得到频率域信息图,选定骨干网络为在ImageNet上进行了预训练的XceptionNet,将频率域信息作为频率域分支的输入,送入预先训练的XceptionNet模型中进行频率域特征提取,得到频率域特征表示 F1。
在此,频率响应分解基于二进制滤波器和可学习的滤波器组合实现可以对频率进行自适应地选择,完成频域中对人脸区域图像的分割。
优选地,二进制滤波器将频率域划分为低、中、高三个频带。
优选地,选定预先训练的模型为XceptionNet,将人脸区域图像送入预先训练的模型XceptionNet进行RGB空间域分支的浅层特征提取。
优选地,XceptionNet包括依次连接的入口流、中间流及出口流,引入多重注意力模块,人脸区域图像顺序输入至XceptionNet的入口流,通过重复8次的中间流,最后通过出口流,其中浅层特征由入口流提取,XceptionNet的中间流及出口流包括Relu层输出深层特征图;浅层特征送入多重注意力模块,多重注意力模块对浅层特征进行加权,得到多重注意力图,表达式为:
fatt(x)=ReLU(BN(Conv(ft(x))))
其中,ft(x)表示浅层特征;fatt(x)表示多重注意力图;ReLU表示非线性激活操作;BN表示归一化网络层操作;
多重注意力图引导中间流及出口流输出的深层特征图进行注意力池化,注意力图与深层特征图通过双线性差值,调整到相同大小,得到全局深层特征表示 F2,表达式为:
F2=As·fshaddow
其中,As表示多重注意力图均通过双线性插值调整到与深层特征图同一大小,并拼接成的单通道注意力图;fdeep表示XceptionNet出口流得到的深层特征图。
在此,利用多重注意力机制,多重注意力机制将帮助空间域分支特征更好地聚焦和捕捉深度伪造特征,从而引导深层特征的聚合,可以得到全局深层特征表示,提高跨库检测性能。
优选地,用于深度伪造视频鉴定的卷积神经网络分类器的骨干网络为XceptionNet,在鉴定分类测试时,视频数据库由大型人脸深度伪造数据集 FaceForensics++、Celeb-DF、DFDC构成,每个数据集均包括真实视频和伪造视频,采用十折交叉法对深度伪造视频进行鉴定分类测试。
本发明还提出一种基于空域和频域双特征的深度伪造视频鉴定系统,所述系统包括:
人脸提取模块,用于从待鉴定视频中提取视频帧,从提取到的视频帧中提取人脸区域图像;
频率域特征提取模块,用于将人脸区域图像从RGB颜色空间域变换到频率域,并进行频率响应分解,得到一系列频率图像分量,基于频率图像分量进行频率域特征提取,得到频率域特征表示F1;
全局深层特征提取模块,用于对人脸区域图像进行RGB空间域分支的浅层特征提取,基于浅层特征及多重注意力机制,进一步得到全局深层特征表示F2;
融合模块,用于将频率域特征表示F1和全局深层特征表示F2合并,形成高维特征集合F;
训练测试模块,选定用于深度伪造视频鉴定的卷积神经网络分类器,将高维特征集合F作为特征向量,对卷积神经网络分类器进行训练和鉴定分类测试。
本发明还提出一种计算机设备,包括处理器、存储器及存储在存储器上的计算机程序,所述处理器执行存储在存储器上的计算机程序,以实现上述任一基于空域和频域双特征的深度伪造视频鉴定方法。
本发明还提出一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,该指令被处理器执行时,实现上述任一基于空域和频域双特征的深度伪造视频鉴定方法的步骤。
与现有技术相比,本发明技术方案的有益效果是:
本发明提出一种基于空域和频域双特征的深度伪造视频鉴定方法及系统,首先从待鉴定视频中提取视频帧,从提取到的视频帧中提取人脸区域图像,然后进行频域的图像分割及频率域分支特征提取、空间域分支特征提取,最后频率域分支特征和空间域分支特征合并形成特征向量,用于卷积神经网络分类器的训练和测试,避免当前深度伪造视频鉴定方法对低质量视频检测精度低、跨库检测性能差的问题,综合利用空域和频域特征,能够有效检测由深度伪造技术生成的虚假视频,提高了检测精度。
附图说明
图1表示本发明实施例1中提出的基于空域和频域双特征的深度伪造视频鉴定方法的流程示意图;
图2表示本发明实施例1中提出的深度伪造视频的生成过程示意图;
图3表示应用本发明实施例1中提出的基于空域和频域双特征的深度伪造视频鉴定方法的整体框架图;
图4表示本发明实施例1中提出的基于空域和频域双特征的深度伪造视频鉴定方法实施时浅层特征、深层特征及特征合并的过程图;
图5表示深度伪造视频帧应用本发明实施例1中提出的基于空域和频域双特征的深度伪造视频鉴定方法后,通过类激活映射的得到的人脸热力图;
图6表示本发明实施例2中提出的基于空域和频域双特征的深度伪造视频鉴定系统结构图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好地说明本实施例,附图某些部位会有省略、放大或缩小,并不代表实际尺寸;
对于本领域技术人员来说,附图中某些公知内容说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
附图中描述位置关系的仅用于示例性说明,不能理解为对本专利的限制;
实施例1
如图1所示,本发明实施例中提供了一种基于空域和频域双特征的深度伪造视频鉴定方法,可以包括以下步骤:
S1.从待鉴定视频中提取视频帧,从提取到的视频帧中提取人脸区域图像;
如图2所示,基于编码器的深度伪造视频的一种生成过程图,两段含人脸图片的视频通过编码器编码,经中间状态后,解码的过程互换,得到深度伪造人脸视频。在某一视频需要鉴定时,首先,如图3所示,从待鉴定视频中提取视频帧后,利用BlazeFace人脸检测模型从提取到的视频帧中提取人脸区域图像,对提取的人脸区域图像进行裁剪,裁剪的大小固定,并写入数据文件中备用;
S2.将人脸区域图像从RGB颜色空间域变换到频率域,并进行频率响应分解,得到一系列频率图像分量,基于频率图像分量进行频率域特征提取,得到频率域特征表示F1;
具体的,利用python脚本语言,读取原先备用的数据文件,利用离散余弦变换将人脸区域图像从RGB颜色空间域变换到频率域,频率响应分解基于三个二进制滤波器和可学习的滤波器组合实现,二进制滤波器将频率域划分为低、中、高三个频带,可以对频率进行自适应地选择,完成频域中对人脸区域图像的分割,设人脸区域图像表示为x,bi表示二进制滤波器,li表示可学习的滤波器;利用将可学习的滤波器限制在-1和+1之间;二进制滤波器和可学习的滤波器组合表示为:
Fi=bi+σ(li)
Fi表示组合滤波器,利用组合滤波器进行频率响应分解的表达式为:
Yi=DCT(x)e Fi
其中,DCT(.)表示离散余弦变换;Yi表示频率响应分解后得到的频率图像分量;
将频率响应分解后得到的频率图像分量经过离散余弦变换的逆变换,返回至 RGB颜色空间,得到新的RGB表示:
Zi=DCT-1(Yi)
将Zi沿着通道方向进行拼接,最终得到频率域信息图,选定骨干网络为在ImageNet上进行了预训练的XceptionNet,将频率域信息作为频率域分支的输入,送入预先训练的XceptionNet模型中进行频率域特征提取,得到频率域特征表示 F1。XceptionNet是深度学习中常用的分类骨干网络,一种流行的轻量级卷积神经网络。常作为深度伪造检测分类的骨干网络,ImageNet为大型分类数据集,通道方向即Z的第二个维度,以普通RGB图像为例,其实质上为H*W*C的矩阵,H和W分别表示长和宽,C即为第三个维度,表示通道,按照通道方向重组即是将矩阵按照第三个维度进行拼接。如两张RGB图像的矩阵,均为 512*512*3,按照通道方向重组得到512*512*6的矩阵。
S3.对人脸区域图像进行RGB空间域分支的浅层特征提取,基于浅层特征及多重注意力机制,进一步得到全局深层特征表示F2;
在本实施例中,具体的过程结构框图参见图4,选定预先训练的模型为XceptionNet,将人脸区域图像送入预先训练的模型XceptionNet进行RGB空间域分支的浅层特征提取;RGB空间域与频域相对应,由于RGB空间域分支接受的输入为RGB图像,而频域接受的输入为频率域信息。因此此表述是为了与频率域分支进行区分。浅层特征表示由骨干网络(即XceptionNet)的前几层提取得到。
XceptionNet包括依次连接的入口流、中间流及出口流,引入多重注意力模块,人脸区域图像顺序输入至XceptionNet的入口流,通过重复8次的中间流,最后通过出口流,其中浅层特征由入口流提取,XceptionNet的中间流及出口流包括Relu层输出深层特征图;浅层特征送入多重注意力模块,多重注意力模块对浅层特征进行加权,得到多重注意力图,表达式为:
fatt(x)=ReLU(BN(Conv(ft(x))))
其中,ft(x)表示浅层特征;fatt(x)表示多重注意力图;ReLU表示非线性激活操作;BN表示归一化网络层操作;
多重注意力图引导中间流及出口流输出的深层特征图进行注意力池化,注意力图与深层特征图通过双线性差值,调整到相同大小,得到全局深层特征表示 F2,表达式为:
F2=As·fshaddow
其中,As表示多重注意力图均通过双线性插值调整到与深层特征图同一大小,并拼接成的单通道注意力图;fdeep表示XceptionNet出口流得到的深层特征图,即利用多重注意力机制,多重注意力机制将帮助空间域分支特征更好地聚焦和捕捉深度伪造特征,从而引导深层特征的聚合,可以得到全局深层特征表示,提高跨库检测性能。
S4.将频率域特征表示F1和全局深层特征表示F2合并,形成高维特征集合F;
S5.选定用于深度伪造视频鉴定的卷积神经网络分类器,将高维特征集合F 作为特征向量,对卷积神经网络分类器进行训练和鉴定分类测试,其中,如何对卷积神经网络分类器进行训练是本领域所熟知的,此处不再赘述,图5表示应用上述方法后通过类激活映射的得到的人脸热力图。
在本实施例中,用于深度伪造视频鉴定的卷积神经网络分类器的骨干网络为XceptionNet,在鉴定分类测试时,视频数据库由大型人脸深度伪造数据集 FaceForensics++、Celeb-DF、DFDC构成,每个数据集均包括真实视频和伪造视频,采用十折交叉法对深度伪造视频进行鉴定分类测试。其中,FaceForensics++ 包括真实视频3000个,伪造视频12000个。Celeb-DF包括真实视频408个、伪造视频795个,DFDC包括真实视频100000个,伪造视频19154个。
在FaceForensics++人脸深度伪造数据集测试中,鉴定测试结果如表1所示, HQ表示高质量视频,LQ表示低质量视频,以FF++表示FaceForensics++人脸深度伪造数据集,表1中有数据的第一列和第二列为帧级检测结果,第三列和第四列为视频级检测结果,区中AUC表示曲线下面积,能够评估卷积神经网络分类器的分类能力,ACC为准确率,能够评估卷积神经网络分类器分类的准确度,通过表1可以看出,无论是准确率还是准确度,利用本发明实施例所提出的方法,对高质量视频和低质量视频均能准确地检测出。
表1
在DFDC人脸深度伪造数据集测试中,鉴定测试结果如表2所示,其中,有数据的第一列代表DFDC数据集中的帧级检测结果,第二列为DFDC数据集中的视频级检测结果,卷积神经网络分类器的分类能力在帧级和视频级相差不大。
表2
在FF++和DFDC人脸深度伪造数据集跨库性能评估时,如表3所示,第一行代表模型在FF++上进行训练,同时在FF++数据集上进行测试的结果,表中第二行为在FF++数据集上进行训练,同时在Celeb-DF数据集上进行测试的结果,表明了在跨库的情况下,本发明实施例中所提处的方法依然有效,表明本发明对于深度伪造视频的鉴定具有较高的准确性。
实施例2
相应于上述方法的实施例,如图6所示,本发明还提出一种基于空域和频域双特征的深度伪造视频鉴定系统,包括:
人脸提取模块101,用于从待鉴定视频中提取视频帧,从提取到的视频帧中提取人脸区域图像;
频率域特征提取模块102,用于将人脸区域图像从RGB颜色空间域变换到频率域,并进行频率响应分解,得到一系列频率图像分量,基于频率图像分量进行频率域特征提取,得到频率域特征表示F1;
全局深层特征提取模块103,用于对人脸区域图像进行RGB空间域分支的浅层特征提取,基于浅层特征及多重注意力机制,进一步得到全局深层特征表示 F2;
融合模块104,用于将频率域特征表示F1和全局深层特征表示F2合并,形成高维特征集合F;
训练测试模块105,选定用于深度伪造视频鉴定的卷积神经网络分类器,将高维特征集合F作为特征向量,对卷积神经网络分类器进行训练和鉴定分类测试。
实施例3
本实施例中提出一种计算机设备,包括处理器、存储器及存储在存储器上的计算机程序,所述处理器执行存储在存储器上的计算机程序,以实现上述任一基于空域和频域双特征的深度伪造视频鉴定方法。
存储器可以包括随机存储器RAM,也可以包括非易失性存储器,例如至少一个磁盘存储器。处理器可以是通用处理器,包括中央处理器、网络处理器等;还可以是数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
实施例4
本实施例中提出一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,该指令被处理器执行时,实现上述任一基于空域和频域双特征的深度伪造视频鉴定方法的步骤。
显然,本发明的上述实施例仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种基于空域和频域双特征的深度伪造视频鉴定方法,其特征在于,所述方法包括:
从待鉴定视频中提取视频帧,从提取到的视频帧中提取人脸区域图像;
将人脸区域图像从RGB颜色空间域变换到频率域,并进行频率响应分解,得到一系列频率图像分量,基于频率图像分量进行频率域特征提取,得到频率域特征表示F1;
对人脸区域图像进行RGB空间域分支的浅层特征提取,基于浅层特征及多重注意力机制,进一步得到全局深层特征表示F2;
将频率域特征表示F1和全局深层特征表示F2合并,形成高维特征集合F;
选定用于深度伪造视频鉴定的卷积神经网络分类器,将高维特征集合F作为特征向量,对卷积神经网络分类器进行训练和鉴定分类测试。
2.根据权利要求1所述的基于空域和频域双特征的深度伪造视频鉴定方法,其特征在于,从待鉴定视频中提取视频帧后,利用BlazeFace人脸检测模型从提取到的视频帧中提取人脸区域图像,提取的人脸区域图像的大小固定。
3.根据权利要求2所述的基于空域和频域双特征的深度伪造视频鉴定方法,其特征在于,利用离散余弦变换将人脸区域图像从RGB颜色空间域变换到频率域,所述的频率响应分解基于二进制滤波器和可学习的滤波器组合实现,设人脸区域图像表示为x,bi表示二进制滤波器,li表示可学习的滤波器;
Fi=bi+σ(li)
Fi表示组合滤波器,利用组合滤波器进行频率响应分解的表达式为:
Yi=DCT(x)e Fi
其中,DCT(.)表示离散余弦变换;Yi表示频率响应分解后得到的频率图像分量;
将频率响应分解后得到的频率图像分量经过离散余弦变换的逆变换,返回至RGB颜色空间,得到新的RGB表示:
Zi=DCT-1(Yi)
将Zi沿着通道方向进行拼接,最终得到频率域信息图,选定骨干网络为在ImageNet上进行了预训练的XceptionNet,将频率域信息作为频率域分支的输入,送入预先训练的XceptionNet模型中进行频率域特征提取,得到频率域特征表示F1。
4.根据权利要求3所述的基于空域和频域双特征的深度伪造视频鉴定方法,其特征在于,二进制滤波器将频率域划分为低、中、高三个频带。
5.根据权利要求1所述的基于空域和频域双特征的深度伪造视频鉴定方法,其特征在于,选定预先训练的模型为XceptionNet,将人脸区域图像送入预先训练的模型XceptionNet进行RGB空间域分支的浅层特征提取。
6.根据权利要求5所述的基于空域和频域双特征的深度伪造视频鉴定方法,其特征在于,XceptionNet包括依次连接的入口流、中间流及出口流,引入多重注意力模块,人脸区域图像顺序输入至XceptionNet的入口流,通过重复8次的中间流,最后通过出口流,其中浅层特征由入口流提取,XceptionNet的中间流及出口流包括Relu层输出深层特征图;浅层特征送入多重注意力模块,多重注意力模块对浅层特征进行加权,得到多重注意力图,表达式为:
fatt(x)=ReLU(BN(Conv(ft(x))))
其中,ft(x)表示浅层特征;fatt(x)表示多重注意力图;ReLU表示非线性激活操作;BN表示归一化网络层操作;
多重注意力图引导中间流及出口流输出的深层特征图进行注意力池化,注意力图与深层特征图通过双线性差值,调整到相同大小,得到全局深层特征表示F2,表达式为:
F2=As·fdeep
其中,As表示多重注意力图均通过双线性插值调整到与深层特征图同一大小,并拼接成的单通道注意力图;fdeep表示XceptionNet出口流得到的深层特征图。
7.根据权利要求1所述的基于空域和频域双特征的深度伪造视频鉴定方法,其特征在于,用于深度伪造视频鉴定的卷积神经网络分类器的骨干网络为XceptionNet,在鉴定分类测试时,视频数据库由大型人脸深度伪造数据集FaceForensics++、Celeb-DF、DFDC构成,每个数据集均包括真实视频和伪造视频,采用十折交叉法对深度伪造视频进行鉴定分类测试。
8.一种基于空域和频域双特征的深度伪造视频鉴定系统,其特征在于,所述系统包括:
人脸提取模块,用于从待鉴定视频中提取视频帧,从提取到的视频帧中提取人脸区域图像;
频率域特征提取模块,用于将人脸区域图像从RGB颜色空间域变换到频率域,并进行频率响应分解,得到一系列频率图像分量,基于频率图像分量进行频率域特征提取,得到频率域特征表示F1;
全局深层特征提取模块,用于对人脸区域图像进行RGB空间域分支的浅层特征提取,基于浅层特征及多重注意力机制,进一步得到全局深层特征表示F2;
融合模块,用于将频率域特征表示F1和全局深层特征表示F2合并,形成高维特征集合F;
训练测试模块,选定用于深度伪造视频鉴定的卷积神经网络分类器,将高维特征集合F作为特征向量,对卷积神经网络分类器进行训练和鉴定分类测试。
9.一种计算机设备,其特征在于,包括处理器、存储器及存储在存储器上的计算机程序,所述处理器执行存储在存储器上的计算机程序,以实现权利要求1~7任意一项所述的基于空域和频域双特征的深度伪造视频鉴定方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,该指令被处理器执行时,实现权利要求1~7任意一项基于空域和频域双特征的深度伪造视频鉴定方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111137316.1A CN113935365B (zh) | 2021-09-27 | 2021-09-27 | 基于空域和频域双特征的深度伪造视频鉴定方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111137316.1A CN113935365B (zh) | 2021-09-27 | 2021-09-27 | 基于空域和频域双特征的深度伪造视频鉴定方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113935365A true CN113935365A (zh) | 2022-01-14 |
CN113935365B CN113935365B (zh) | 2024-05-14 |
Family
ID=79276954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111137316.1A Active CN113935365B (zh) | 2021-09-27 | 2021-09-27 | 基于空域和频域双特征的深度伪造视频鉴定方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113935365B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114267089A (zh) * | 2022-03-03 | 2022-04-01 | 中国科学院自动化研究所 | 一种伪造图像的识别方法、装置及设备 |
CN114550268A (zh) * | 2022-03-01 | 2022-05-27 | 北京赛思信安技术股份有限公司 | 一种利用时空特征的深度伪造视频检测方法 |
CN115311525A (zh) * | 2022-10-08 | 2022-11-08 | 阿里巴巴(中国)有限公司 | 深度伪造检测方法及对应装置 |
CN116486464A (zh) * | 2023-06-20 | 2023-07-25 | 齐鲁工业大学(山东省科学院) | 一种基于注意力机制的卷积对抗网络的人脸伪造检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160098581A (ko) * | 2015-02-09 | 2016-08-19 | 홍익대학교 산학협력단 | 얼굴 인식 및 화자 인식이 융합된 인증 방법 |
CN106529549A (zh) * | 2016-10-31 | 2017-03-22 | 郑州轻工业学院 | 基于自适应特征和离散余弦变换的视觉显著性检测方法 |
CN111723714A (zh) * | 2020-06-10 | 2020-09-29 | 上海商汤智能科技有限公司 | 识别人脸图像真伪的方法、装置及介质 |
CN111833246A (zh) * | 2020-06-02 | 2020-10-27 | 天津大学 | 基于注意力级联网络的单帧图像超分辨方法 |
CN112528969A (zh) * | 2021-02-07 | 2021-03-19 | 中国人民解放军国防科技大学 | 人脸图像的真伪检测方法、系统、计算机设备和存储介质 |
-
2021
- 2021-09-27 CN CN202111137316.1A patent/CN113935365B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160098581A (ko) * | 2015-02-09 | 2016-08-19 | 홍익대학교 산학협력단 | 얼굴 인식 및 화자 인식이 융합된 인증 방법 |
CN106529549A (zh) * | 2016-10-31 | 2017-03-22 | 郑州轻工业学院 | 基于自适应特征和离散余弦变换的视觉显著性检测方法 |
CN111833246A (zh) * | 2020-06-02 | 2020-10-27 | 天津大学 | 基于注意力级联网络的单帧图像超分辨方法 |
CN111723714A (zh) * | 2020-06-10 | 2020-09-29 | 上海商汤智能科技有限公司 | 识别人脸图像真伪的方法、装置及介质 |
CN112528969A (zh) * | 2021-02-07 | 2021-03-19 | 中国人民解放军国防科技大学 | 人脸图像的真伪检测方法、系统、计算机设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
陈鹏 等: "融合全局时序和局部空间特征的伪造人脸视频检测方法", 信息安全学报, vol. 5, no. 02, 15 March 2020 (2020-03-15), pages 73 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114550268A (zh) * | 2022-03-01 | 2022-05-27 | 北京赛思信安技术股份有限公司 | 一种利用时空特征的深度伪造视频检测方法 |
CN114267089A (zh) * | 2022-03-03 | 2022-04-01 | 中国科学院自动化研究所 | 一种伪造图像的识别方法、装置及设备 |
CN114267089B (zh) * | 2022-03-03 | 2022-05-31 | 中国科学院自动化研究所 | 一种伪造图像的识别方法、装置及设备 |
CN115311525A (zh) * | 2022-10-08 | 2022-11-08 | 阿里巴巴(中国)有限公司 | 深度伪造检测方法及对应装置 |
CN115311525B (zh) * | 2022-10-08 | 2023-03-14 | 阿里巴巴(中国)有限公司 | 深度伪造检测方法及对应装置 |
CN116486464A (zh) * | 2023-06-20 | 2023-07-25 | 齐鲁工业大学(山东省科学院) | 一种基于注意力机制的卷积对抗网络的人脸伪造检测方法 |
CN116486464B (zh) * | 2023-06-20 | 2023-09-01 | 齐鲁工业大学(山东省科学院) | 一种基于注意力机制的卷积对抗网络的人脸伪造检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113935365B (zh) | 2024-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | A robust GAN-generated face detection method based on dual-color spaces and an improved Xception | |
Zhuang et al. | Image tampering localization using a dense fully convolutional network | |
Chen et al. | Local relation learning for face forgery detection | |
Wu et al. | Privacy-protective-GAN for privacy preserving face de-identification | |
Mitra et al. | A machine learning based approach for deepfake detection in social media through key video frame extraction | |
Barni et al. | CNN detection of GAN-generated face images based on cross-band co-occurrences analysis | |
Lee et al. | Detecting handcrafted facial image manipulations and GAN-generated facial images using Shallow-FakeFaceNet | |
Nikisins et al. | Domain adaptation in multi-channel autoencoder based features for robust face anti-spoofing | |
CN113935365A (zh) | 基于空域和频域双特征的深度伪造视频鉴定方法及系统 | |
Kolagati et al. | Exposing deepfakes using a deep multilayer perceptron–convolutional neural network model | |
Jia et al. | Inconsistency-aware wavelet dual-branch network for face forgery detection | |
Mahmud et al. | Deep insights of deepfake technology: A review | |
Korshunov et al. | Vulnerability of face recognition to deep morphing | |
Zobaed et al. | Deepfakes: Detecting forged and synthetic media content using machine learning | |
Tanaka et al. | Fake-image detection with Robust Hashing | |
Yousaf et al. | Fake visual content detection using two-stream convolutional neural networks | |
Weerawardana et al. | Deepfakes detection methods: a literature survey | |
Shah et al. | Deep Learning model-based Multimedia forgery detection | |
Yu et al. | SegNet: a network for detecting deepfake facial videos | |
Arora et al. | A review of techniques to detect the GAN-generated fake images | |
Fernández et al. | Digital video manipulation detection technique based on compression algorithms | |
Klomp et al. | Safe fakes: Evaluating face anonymizers for face detectors | |
Lu et al. | Channel-wise spatiotemporal aggregation technology for face video forensics | |
Kot et al. | Image and video source class identification | |
Asha et al. | A defensive framework for deepfake detection under adversarial settings using temporal and spatial features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |