CN116310969A - 一种基于多尺度特征解耦的深度伪造视频检测方法和装置 - Google Patents

一种基于多尺度特征解耦的深度伪造视频检测方法和装置 Download PDF

Info

Publication number
CN116310969A
CN116310969A CN202310196418.3A CN202310196418A CN116310969A CN 116310969 A CN116310969 A CN 116310969A CN 202310196418 A CN202310196418 A CN 202310196418A CN 116310969 A CN116310969 A CN 116310969A
Authority
CN
China
Prior art keywords
features
decoupling
fake
feature
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310196418.3A
Other languages
English (en)
Inventor
张旭鸿
付之笑
徐时健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qiaozhihui Technology Zhejiang Co ltd
Original Assignee
Qiaozhihui Technology Zhejiang Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qiaozhihui Technology Zhejiang Co ltd filed Critical Qiaozhihui Technology Zhejiang Co ltd
Priority to CN202310196418.3A priority Critical patent/CN116310969A/zh
Publication of CN116310969A publication Critical patent/CN116310969A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本发明公开了一种基于多尺度特征解耦的深度伪造视频检测方法和装置,首先通过预训练的CNN和SRM卷积方式获取伪造人脸的颜色域和频域特征,然后通过自注意力模块将特征解耦为逼真自然的特征和伪造痕迹的特征两部分。在逼真自然的特征分支中设立真伪判别器判断特征的真伪类别,同时设立域判别器判断特征来源于哪种伪造技术。利用判别器与特征解耦网络的对抗来促进网络能更准确地解耦出包含伪造痕迹的特征。在伪造痕迹的特征分支中利用分类损失让网络学习到真实人脸和伪造人脸的差别。最后结合二者通过端到端的方式训练模型,从而实现准确泛化性强的深度伪造视频检测,提高了深度伪造视频检测方法的通用性的准确性。

Description

一种基于多尺度特征解耦的深度伪造视频检测方法和装置
技术领域
本发明属于深度伪造视频检测技术领域,尤其涉及一种基于多尺度特征解耦的深度伪造视频检测方法和装置。
背景技术
随着神经网络技术的发展,深度伪造方法也随之进步,能够以多样的手段生成逼真的人脸并对视频内人物进行替换。恶意攻击者在社交媒体上广泛传播利用深度伪造人脸生成的虚假视频,将会对社会舆论、媒体公信力、名人形象造成不可估量的危害。为了对抗这类攻击手段,与之相对的深度伪造视频检测技术成为了正在成为一种研究趋势。
主流的深度伪造视频检测技术通常利用成熟的人脸识别和追踪技术对视频进行帧级别的拆分后获取到一系列待检测人脸。将待检测人脸输入特征提取网络,发掘其中的伪造痕迹,最后对人脸特征进行真伪分类,例如专利文献CN114693607A公开了一种基于多域块特征标志点配准的篡改视频检测方法及系统,再例如CN114743148A公开了一种多尺度特征融合篡改视频检测方法、系统、介质和设备。目前的方法能够在单数据集内取得优良的准确率,但由于伪造技术的种类多样而训练集内的伪造技术种类又有限,这类方法提取到的伪造痕迹泛化性不佳,容易产生对特定伪造痕迹的倾向性,在跨数据集测试面对未知伪造方法产生的伪造人脸时检测表现有着明显的不足。
可以预见,深度伪造技术会朝着多样与逼真的方向不断进步,真实情况下的深度伪造视频将会混合不同类型的伪造手段,逼真程度也会使得无论肉眼还是机器都更难以辨别真假。现有的深度伪造视频检测技术面临这样的压力和挑战,难以提供令人满意的准确检测结果,急需提高技术的通用性和泛化性。
发明内容
鉴于上述,本发明的目的是提供一种基于多尺度特征解耦的深度伪造视频检测方法和装置,在多尺度上将伪造痕迹特征解耦出来,并基于伪造痕迹特征实现深度伪造检测,提升检测效果。
为实现上述发明目的,实施例提供的一种基于多尺度特征解耦的深度伪造视频检测方法,包括以下步骤:
构建多尺度特征解耦网络,包括含多个尺度的特征提取单元的特征提取模块,通过特征提取单元对人脸图像分别从颜色域和频域提取不同尺度的颜色域特征和频域特征,并融合颜色域特征和频域特征得到图像特征,每个特征提取单元连接一个解耦模块,解耦模块包括自注意力单元、第一映射单元、第二映射单元、分类器、类判别器、域判别器,图像特征经过自注意力单元计算互补的两个自注意力图,该两个自注意力图分别与图像特征相乘以获得解耦的逼真自然特征和伪造痕迹特征,伪造痕迹特征经过第一映射单元映射后输入分类器进行伪造检测,逼真自然特征经过第二映射单元映射后分别输入至类判别器和域判别器进行特征真伪的判别和特征域的归属判断;
为特征提取模块和类判别器构建第一对抗损失以促使伪造痕迹特征解耦正确,为特征提取模块和域判别器构建第二对抗损失以促使解耦得到的特征不偏向于特定伪造方法,为特征提取模块和分类器构建分类损失以促使学习到正确的分类,利用人脸图像样本和构建的损失对多尺度特征解耦网络进行参数优化,参数优化结束后,提取特征提取模块和每个解耦模块中的自注意力单元、第一映射单元以及分类器作为伪造检测模型;
利用伪造检测模型进行深度伪造视频检测。
在一个实施例中,每个特征提取单元包含两个尺度相同的特征提取分支和融合操作,通过两个特征提取分支提取颜色域特征和频域特征,通过融合操作融合颜色域特征和频域特征得到图像特征,其中,特征提取分支采用卷积神经网络,融合操作采用卷积操作。
在一个实施例中,所述特征提取分支采用InceptionResNet网络。
在一个实施例中,所述自注意力单元中,采用自注意力机制对图像特征进行计算以得到自自注意力图,作为逼真自然特征的自注意力图Ar,根据互补关系,计算伪造痕迹特征的自注意力图Af=1-Ar,将图像特征分别与Ar、Af相乘,得到解耦的逼真自然特征和伪造痕迹特征。
在一个实施例中,所述第一映射单元和第二映射单元均采用卷积神经网络,所述卷积神经网络包括下采样层、卷积层以及线性层,经过下采样层、卷积层以及线性层将输入的特征转换为特征向量。
在一个实施例中,所述第一对抗损失包括希望类判别器能够区分真实人脸特征和伪造人脸解耦出的逼真自然特征的类判别损失
Figure BDA0004107299370000031
和希望伪造人脸图像中解耦出来的逼真自然特征接近真实人脸特征从而让类判别器无法区分的生成损失/>
Figure BDA0004107299370000032
其中:
Figure BDA0004107299370000033
Figure BDA0004107299370000034
其中,i表示图像特征的索引,
Figure BDA0004107299370000035
表示逼真自然特征经过第二映射单元映射得到的向量,y表示人脸真实特征标签,/>
Figure BDA0004107299370000036
表示类判别器的预测值,/>
Figure BDA0004107299370000041
表示批量内求平均;
在训练时,通过第一对抗损失对特征提取模块和类判别器进行交替训练。
在一个实施例中,所述第二对抗损失包括希望能够区分不同伪造方法产生人脸解耦出来的逼真自然特征的域判别损失
Figure BDA0004107299370000042
和生成损失/>
Figure BDA0004107299370000043
Figure BDA0004107299370000044
其中,i表示图像特征的索引,
Figure BDA0004107299370000045
表示逼真自然的特征经过第二映射单元映射得到的向量,yk表示域标签,k表示域类别,/>
Figure BDA0004107299370000046
表示域判别器的预测值,/>
Figure BDA0004107299370000047
表示批量内求平均;
在训练时,通过在域判别器前加入梯度反转层来使得域判别损失
Figure BDA0004107299370000048
在反向传播到特征提取模块时梯度值反转,从而计算得到使域判别器无法区分出伪造类别的生成损失/>
Figure BDA0004107299370000049
并依据生成损失/>
Figure BDA00041072993700000410
来优化域判别器和特征提取模块。
在一个实施例中,所述分类损失表示为:
Figure BDA00041072993700000411
其中,i表示图像特征的索引,y’表示样本的真伪标签,pi为分类器的预测值,
Figure BDA00041072993700000412
表示批量内求平均;
在训练时,以超参数平衡对抗损失,整个多尺度特征解耦网络的最终损失函数包括生成损失
Figure BDA00041072993700000413
和判别损失/>
Figure BDA00041072993700000414
Figure BDA00041072993700000415
其中,α和β为超参数,根据/>
Figure BDA00041072993700000416
与/>
Figure BDA00041072993700000417
的和、/>
Figure BDA00041072993700000418
采用交替的方式训练整个多尺度特征解耦网络。
在一个实施例中,所述利用伪造检测模型进行深度伪造视频检测,包括:
将待测人脸图像输入至伪造检测模型,通过特征提取模块的每个特征提取单元提取不同尺度的图像特征;
在每个特征提取单元对应的解耦模块中,通过自注意力单元根据图像提取伪造痕迹特征对应的自注意力图,并将该自注意力图与图像特征计算伪造痕迹特征,该伪造痕迹特征经过第一映射单元映射后输入至分类器,经过计算输出不同尺寸图像特征对应的真伪检测结果;
将所有尺寸图像特征对应的真伪检测结果加权结合得到最终检测结果。
为实现上述发明目的,实施例还提供了一种基于多尺度特征解耦的深度伪造视频检测装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序,所述处理器执行所述计算机程序时实现上述深度伪造视频检测方法的步骤。
与现有技术相比,本发明具有的有益效果至少包括:
在不同尺度特征空间中将伪造人脸中的伪造痕迹和逼真自然的部分解耦,设立判别器使其与特征提取模块对抗,在竞争中促进两种部分特征的分离,得到更加通用的伪造特征实现准确的判决。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是实施例提供的基于多尺度特征解耦的深度伪造视频检测方法的流程图;
图2是实施例提供的多尺度特征解耦网络的结构示意图;
图3是实施例提供的解耦模块的结构示意图;
图4是实施例提供的自注意力单元的结构示意图;
图5是实施例提供的利用伪造检测模型进行深度伪造视频检测的流程图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
为解决现有深度伪造视频检测技术泛化性不佳导致检测不准确的问题,本发明提出了一种基于多尺度特征解耦的深度伪造视频检测方法和和装置。
如图1所示,实施例提供的基于多尺度特征解耦的深度伪造视频检测方法,包括以下步骤:
步骤1,构建多尺度特征解耦网络。
如图2所示,实施例提供的多尺度特征解耦网络包括特征提取模块和解耦模块,其中,特征提取模块包括多个尺度的特征提取单元,举例说明,包含低、中、高三个尺度的特征提取单元。每个特征提取单元包含两个尺度相同的特征提取分支和融合操作,通过两个特征提取分支提取颜色域特征和频域特征,通过融合操作融合颜色域特征和频域特征得到图像特征,其中,特征提取分支采用卷积神经网络,优选地采用InceptionResNet网络,融合操作采用卷积操作。
具体地,利用特征提取模块提取图像特征时,首先,对于给定的一个待检测视频视频V,将其转换为一系列的图像帧,然后使用dlib方法对每帧图片进行人脸检测框选和裁剪,获得一系列人脸图像,取单张人脸图像作为特征提取模块的输入人脸I;然后,给定输入的人脸图像I,使用预训练的InceptionResNet网络分别提取颜色域特征,网络的不同尺度层输出的特征作为人脸图像的多尺度特征Fi,i代表特征提取单元的层级,举例可以取值为3,表示使用低、中、高层的特征。
为了避免在颜色域上产生对特定伪造方法的偏向性,本发明额外在输入时引入鲁棒性更佳同时能够提供额外伪造痕迹信息的频域信息。对给定输入的人脸图像I,使用SRM滤波器提取人脸图像的初始频域噪声特征X,使用与颜色域结构相同但参数不同的InceptionResNet网络进一步提取为不同层的频域特征Xi。在取得各个尺度人脸图像的颜色域特征和频域特征后,为方便进一步对两类信息的同时解耦处理,需要先将二者进行融合,将各对应尺度的颜色域特征和频域特征相连,通过1×1的卷积层得到包含了二者的图像特征Mi
如图2所示,在每个特征提取单元的输出端连接一个解耦模块,该解耦模块用于对特征提取单元输出的图像特征进行解耦得到逼真自然特征和伪造痕迹特征,并基于伪造痕迹特征进行伪造检测,基于逼真自然特征进行对抗训练。
如图3所示,解耦模块包括自注意力单元、第一映射单元、第二映射单元、分类器、类判别器、域判别器,图像特征经过自注意力单元计算互补的两个自注意力图,该两个自注意力图分别与图像特征相乘以获得解耦的逼真自然特征和伪造痕迹特征,伪造痕迹特征经过第一映射单元映射后输入分类器进行伪造检测,逼真自然特征经过第二映射单元映射后分别输入至类判别器和域判别器进行特征真伪的判别和特征域的归属判断。
如图4所示,自注意力单元SA中,采用自注意力机制对图像特征Mi进行计算以得到自自注意力图,作为逼真自然特征的自注意力图
Figure BDA0004107299370000081
具体过程包括:对初步的图像特征分别使用三个1×1卷积层将其映射到查询、键、值的隐空间得到Qi、Ki、Vi,i表示特征的层级,重塑Qi、Ki的大小为ni×ci,ni=hi×wi,hi、wi、ci表示第i层特征映射的高度、宽度和通道数。这之后执行矩阵乘法和softmax激活获得自注意力图/>
Figure BDA0004107299370000082
公式如下:
Figure BDA0004107299370000083
伪造痕迹特征与逼真自然特征为互补关系,待检测人脸图像可以被解耦为这两种特征,因此伪造痕迹部分的自注意力图可由逼真自然特征的自注意力图计算而得,公式为
Figure BDA0004107299370000084
将自注意力图/>
Figure BDA0004107299370000085
与Mi相乘获得逼真自然特征,将自注意力图/>
Figure BDA0004107299370000086
与Mi相乘获得伪造痕迹特征。解耦模块在此处产生判别分支和分类分支,逼真自然特征进入到判别分支,伪造痕迹特征进入到分类分支。
如图4所示,第一映射单元和第二映射单元均采用卷积神经网络CNN,所述卷积神经网络包括下采样层、卷积层以及线性层,经过下采样层、卷积层以及线性层将输入的逼真自然特征和伪造痕迹特征分别转换为特征向量。
步骤2,构建损失函数并训练多尺度特征解耦网络,并得到伪造检测模型。
实施例中,将逼真自然特征输入至类判别器,让类判别器判别逼真自然特征的真伪,进行对抗学习促使伪造痕迹特征解耦正确。具体地,将逼真自然特征经过第二映射单元转换后输入至类判别器经计算获得二分类判别结果,计算类判别损失
Figure BDA0004107299370000087
Figure BDA0004107299370000091
其中,
Figure BDA0004107299370000092
表示逼真自然特征经过第二映射单元映射得到的向量,y表示人脸真实特征标签,/>
Figure BDA0004107299370000093
表示类判别器的预测值,/>
Figure BDA0004107299370000094
表示批量内求平均,该/>
Figure BDA0004107299370000095
希望类判别器能够区分真实人脸特征和伪造人脸解耦出的逼真自然特征。
与类判别器的训练目标相反,特征提取模块希望伪造人脸图像中解耦出来的特征接近真实人脸特征从而让类判别器无法区分,计算生成损失公式为
Figure BDA0004107299370000096
Figure BDA0004107299370000097
与/>
Figure BDA0004107299370000098
组成第一对抗损失,通过该第一对抗损失对特征提取模块与类判别器交替训练,在训练方向相反的竞争中,网络更能正确解耦出伪造痕迹和逼真自然两类特征,进而提升判别分支的学习到更具判别力特征的能力。
实施例中,将逼真自然特征输入域判别器,让其判断特征域的类别,进行对抗学习促使解耦特征不偏向于特定伪造方法。解耦出的逼真自然特征来源于不同伪造方法产生的伪造人脸图片,如果不加以约束,容易像直接提取伪造痕迹的方法一样产生对训练集伪造方法的偏向性。为此需要设立特征域类别的域判别器进行对抗,域判别器希望能够区分不同伪造方法产生人脸解耦出来的逼真自然特征。训练集内的人脸伪造方法来源是已知信息,利用此作为人脸的事实域标签,真实人脸额外设立一个域以区别伪造方法。
具体地,将将逼真自然特征经过第二映射单元转换后输入域判别器获得域类别判别结果,计算域判别损失
Figure BDA0004107299370000099
其中,E表示批量内求平均,yk表示域标签,/>
Figure BDA00041072993700000910
表示域判别器对/>
Figure BDA00041072993700000911
在域类别k上的预测值,/>
Figure BDA00041072993700000912
表示批量内求平均。
与域判别器的目标相反,特征提取模块希望伪造人脸解耦出来的逼真自然的特征有高共通性,不具有明显的域类别信息,从而能够应对未知的伪造方法产生的人脸图片。通过在域判别器前加入梯度反转层来使得域判别损失
Figure BDA0004107299370000101
在反向传播到特征提取模块时梯度值反转,从而计算得到使域判别器无法区分出伪造类别的生成损失/>
Figure BDA0004107299370000102
与/>
Figure BDA0004107299370000103
组成第一对抗损失,并依据生成损失/>
Figure BDA0004107299370000104
来优化域判别器和特征提取模块。在域类别上的对抗能够促使网络剔除出更通用的真实特征,使方法也能具有良好的泛化性。
实施例中,将伪造痕迹特征输入分类器,让其对待测人脸特征做出判决,利用分类损失让网络学习到正确的分类。具体地,将伪造痕迹的特征经过第一映射单元转换为特征向量
Figure BDA0004107299370000105
后,将特征向量/>
Figure BDA0004107299370000106
输入至分类器获得二分类判别结果,计算分类损失
Figure BDA0004107299370000107
Figure BDA0004107299370000108
y’表示样本的真伪标签,pi为分类器的预测值。
在训练时,以超参数平衡对抗损失,整个多尺度特征解耦网络的最终损失函数包括生成损失
Figure BDA0004107299370000109
和判别损失/>
Figure BDA00041072993700001010
Figure BDA00041072993700001011
其中,α和β为超参数,根据/>
Figure BDA00041072993700001012
采用交替的方式训练整个多尺度特征解耦网络,即先利用
Figure BDA00041072993700001013
优化网络参数,再利用/>
Figure BDA00041072993700001014
优化网络参数,通过解耦的方式提取伪造痕迹并正确检测。
训练结束后,提取特征提取模块和每个解耦模块中的自注意力单元、第一映射单元以及分类器作为伪造检测模型。
步骤3,利用伪造检测模型进行深度伪造视频检测。
如图5所示,实施提利用伪造检测模型进行深度伪造视频检测,包括:
将待测人脸图像输入至伪造检测模型,通过特征提取模块的每个特征提取单元提取不同尺度的颜色域特征和频域特征,并将颜色域特征和频域特征融合得到图像特征;
在每个特征提取单元对应的解耦模块中,通过自注意力单元根据图像提取伪造痕迹特征对应的自注意力图,并将该自注意力图与图像特征计算伪造痕迹特征,如果是三个尺度,则同时获得低尺度伪造痕迹特征、中尺度伪造痕迹特征以及高尺度伪造痕迹特征,这些伪造痕迹特征经过第一映射单元映射后输入至分类器,经过计算输出不同尺寸图像特征对应的真伪检测结果;
将所有尺寸图像特征对应的真伪检测结果加权结合得到最终检测结果。不同尺度的图像特征包含的信息有所差异,相互之间能形成补充关系。将预定义的权重与各尺度真伪检测结果相乘并相加后获得待测人脸的最终判决。
基于同样的发明构思,实施例还提供了一种基于多尺度特征解耦的深度伪造视频检测装置,包括存储器、处理器以及存储在存储器中并可在所述处理器上执行的计算机程序,处理器执行计算机程序时实现以下权利要求1-9任一项所述的深度伪造视频检测方法的步骤,包括以下步骤:
步骤1,构建多尺度特征解耦网络;
步骤2,构建损失函数并训练多尺度特征解耦网络,并得到伪造检测模型;
步骤3,利用伪造检测模型进行深度伪造视频检测。
实际应用中,存储器可以为在近端的易失性存储器,如RAM,还可以是非易失性存储器,如ROM,FLASH,软盘,机械硬盘等,还可以是远端的存储云。处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA),即可以通过这些处理器实现深度伪造视频检测方法的步骤。
上述实施例提供的深度伪造视频检测方法和装置,首先通过预训练的CNN和SRM卷积方式获取伪造人脸的颜色域和频域特征,然后通过自注意力模块将特征解耦为逼真自然特征和伪造痕迹特征两部分。在逼真自然特征分支中设立类判别器判断特征的真伪类别,同时设立域判别器判断特征来源于哪种伪造技术。利用判别器与特征提取模块的对抗来促进网络能更准确地解耦出伪造痕迹特征。在伪造痕迹特征分支中利用分类损失让网络学习到真实人脸和伪造人脸的差别。最后结合二者通过端到端的方式训练模型,从而实现准确泛化性强的深度伪造视频检测,提高了深度伪造视频检测方法的通用性的准确性。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于多尺度特征解耦的深度伪造视频检测方法,其特征在于,包括以下步骤:
构建多尺度特征解耦网络,包括含多个尺度的特征提取单元的特征提取模块,通过特征提取单元对人脸图像分别从颜色域和频域提取不同尺度的颜色域特征和频域特征,并融合颜色域特征和频域特征得到图像特征,每个特征提取单元连接一个解耦模块,解耦模块包括自注意力单元、第一映射单元、第二映射单元、分类器、类判别器、域判别器,图像特征经过自注意力单元计算互补的两个自注意力图,该两个自注意力图分别与图像特征相乘以获得解耦的逼真自然特征和伪造痕迹特征,伪造痕迹特征经过第一映射单元映射后输入分类器进行伪造检测,逼真自然特征经过第二映射单元映射后分别输入至类判别器和域判别器进行特征真伪的判别和特征域的归属判断;
为特征提取模块和类判别器构建第一对抗损失以促使伪造痕迹特征解耦正确,为特征提取模块和域判别器构建第二对抗损失以促使解耦得到的特征不偏向于特定伪造方法,为特征提取模块和分类器构建分类损失以促使学习到正确的分类,利用人脸图像样本和构建的损失对多尺度特征解耦网络进行参数优化,参数优化结束后,提取特征提取模块和每个解耦模块中的自注意力单元、第一映射单元以及分类器作为伪造检测模型;
利用伪造检测模型进行深度伪造视频检测。
2.根据权利要求1所述的基于多尺度特征解耦的深度伪造视频检测方法,其特征在于,每个特征提取单元包含两个尺度相同的特征提取分支和融合操作,通过两个特征提取分支提取颜色域特征和频域特征,通过融合操作融合颜色域特征和频域特征得到图像特征,其中,特征提取分支采用卷积神经网络,融合操作采用卷积操作。
3.根据权利要求2所述的基于多尺度特征解耦的深度伪造视频检测方法,其特征在于,所述特征提取分支采用InceptionResNet网络。
4.根据权利要求1所述的基于多尺度特征解耦的深度伪造视频检测方法,其特征在于,所述自注意力单元中,采用自注意力机制对图像特征进行计算以得到自自注意力图,作为逼真自然特征的自注意力图Ar,根据互补关系,计算伪造痕迹特征的自注意力图Af=1-Ar,将图像特征分别与Ar、Af相乘,得到解耦的逼真自然特征和伪造痕迹特征。
5.根据权利要求1所述的基于多尺度特征解耦的深度伪造视频检测方法,其特征在于,所述第一映射单元和第二映射单元均采用卷积神经网络,所述卷积神经网络包括下采样层、卷积层以及线性层,经过下采样层、卷积层以及线性层将输入的特征转换为特征向量。
6.根据权利要求1所述的基于多尺度特征解耦的深度伪造视频检测方法,其特征在于,所述第一对抗损失包括希望类判别器能够区分真实人脸特征和伪造人脸解耦出的逼真自然特征的类判别损失
Figure FDA0004107299360000021
和希望伪造人脸图像中解耦出来的逼真自然特征接近真实人脸特征从而让类判别器无法区分的生成损失/>
Figure FDA0004107299360000022
其中:
Figure FDA0004107299360000023
其中,i表示图像特征的索引,
Figure FDA0004107299360000024
表示逼真自然特征经过第二映射单元映射得到的向量,y表示人脸真实特征标签,/>
Figure FDA0004107299360000025
表示类判别器的预测值,/>
Figure FDA0004107299360000026
表示批量内求平均;
在训练时,通过第一对抗损失对特征提取模块和类判别器进行交替训练。
7.根据权利要求1所述的基于多尺度特征解耦的深度伪造视频检测方法,其特征在于,所述第二对抗损失包括希望能够区分不同伪造方法产生人脸解耦出来的逼真自然特征的域判别损失
Figure FDA0004107299360000031
和生成损失/>
Figure FDA0004107299360000032
Figure FDA0004107299360000033
其中,i表示图像特征的索引,
Figure FDA0004107299360000034
表示逼真自然的特征经过第二映射单元映射得到的向量,yk表示域标签,k表示域类别,/>
Figure FDA0004107299360000035
表示域判别器的预测值,/>
Figure FDA0004107299360000036
表示批量内求平均;
在训练时,通过在域判别器前加入梯度反转层来使得域判别损失
Figure FDA0004107299360000037
在反向传播到特征提取模块时梯度值反转,从而计算得到使域判别器无法区分出伪造类别的生成损失
Figure FDA0004107299360000038
并依据生成损失/>
Figure FDA0004107299360000039
来优化域判别器和特征提取模块。
8.根据权利要求1所述的基于多尺度特征解耦的深度伪造视频检测方法,其特征在于,所述分类损失表示为:
Figure FDA00041072993600000310
其中,i表示图像特征的索引,y’表示样本的真伪标签,pi为分类器的预测值,
Figure FDA00041072993600000311
表示批量内求平均;
在训练时,以超参数平衡对抗损失,整个多尺度特征解耦网络的最终损失函数包括生成损失
Figure FDA00041072993600000312
和判别损失/>
Figure FDA00041072993600000313
Figure FDA00041072993600000314
其中,α和β为超参数,根据/>
Figure FDA00041072993600000315
与/>
Figure FDA00041072993600000316
的和、/>
Figure FDA00041072993600000317
采用交替的方式训练整个多尺度特征解耦网络。
9.根据权利要求1所述的基于多尺度特征解耦的深度伪造视频检测方法,其特征在于,所述利用伪造检测模型进行深度伪造视频检测,包括:
将待测人脸图像输入至伪造检测模型,通过特征提取模块的每个特征提取单元提取不同尺度的图像特征;
在每个特征提取单元对应的解耦模块中,通过自注意力单元根据图像提取伪造痕迹特征对应的自注意力图,并将该自注意力图与图像特征计算伪造痕迹特征,该伪造痕迹特征经过第一映射单元映射后输入至分类器,经过计算输出不同尺寸图像特征对应的真伪检测结果;
将所有尺寸图像特征对应的真伪检测结果加权结合得到最终检测结果。
10.一种基于多尺度特征解耦的深度伪造视频检测装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现所述权利要求1-9任一项所述的深度伪造视频检测方法的步骤。
CN202310196418.3A 2023-03-03 2023-03-03 一种基于多尺度特征解耦的深度伪造视频检测方法和装置 Pending CN116310969A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310196418.3A CN116310969A (zh) 2023-03-03 2023-03-03 一种基于多尺度特征解耦的深度伪造视频检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310196418.3A CN116310969A (zh) 2023-03-03 2023-03-03 一种基于多尺度特征解耦的深度伪造视频检测方法和装置

Publications (1)

Publication Number Publication Date
CN116310969A true CN116310969A (zh) 2023-06-23

Family

ID=86802523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310196418.3A Pending CN116310969A (zh) 2023-03-03 2023-03-03 一种基于多尺度特征解耦的深度伪造视频检测方法和装置

Country Status (1)

Country Link
CN (1) CN116310969A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117095471A (zh) * 2023-10-19 2023-11-21 南京理工大学 基于多尺度特征的人脸伪造溯源方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117095471A (zh) * 2023-10-19 2023-11-21 南京理工大学 基于多尺度特征的人脸伪造溯源方法
CN117095471B (zh) * 2023-10-19 2024-02-27 南京理工大学 基于多尺度特征的人脸伪造溯源方法

Similar Documents

Publication Publication Date Title
CN101894260B (zh) 基于匹配特征点随机生成特征线的伪造印章识别方法
CN105956572A (zh) 一种基于卷积神经网络的活体人脸检测方法
CN106530200A (zh) 一种基于深度学习模型的隐写图像检测方法及系统
Yan et al. Multi-scale difference map fusion for tamper localization using binary ranking hashing
Li et al. One-class knowledge distillation for face presentation attack detection
Mohamad et al. Banknote authentication using artificial neural network
CN116310969A (zh) 一种基于多尺度特征解耦的深度伪造视频检测方法和装置
CN114842524B (zh) 一种基于不规则显著性像素簇的人脸鉴伪方法
Niu et al. Boundary-aware RGBD salient object detection with cross-modal feature sampling
Guo et al. Open-eye: An open platform to study human performance on identifying ai-synthesized faces
CN113033305B (zh) 活体检测方法、装置、终端设备和存储介质
Solomon et al. HDLHC: Hybrid Face Anti-Spoofing Method Concatenating Deep Learning and Hand-Crafted Features
CN112926557B (zh) 一种训练多模态人脸识别模型的方法以及多模态人脸识别方法
CN117218707B (zh) 一种基于积极扰动的Deepfake人脸检测方法
CN112651333B (zh) 静默活体检测方法、装置、终端设备和存储介质
CN116822623B (zh) 一种生成对抗网络联合训练方法、装置、设备及存储介质
Yang et al. HeadPose-Softmax: Head pose adaptive curriculum learning loss for deep face recognition
CN112560989A (zh) 一种基于大数据的人工智能防伪图像识别方法及系统
Geradts et al. Interpol review of forensic video analysis, 2019–2022
CN113887357B (zh) 一种人脸表示攻击检测方法、系统、装置及介质
Patel et al. Counterfeit Currency Detection using Deep Learning
Rasheed et al. A Novel Method for Signature Verification Using Deep Learning
Shichkina et al. Synthesis of the method of operative image analysis based on metadata and methods of searching for embedded images
Suresh et al. Deep learning-based image forgery detection system
CN115482595B (zh) 一种基于语义分割的特定人物视觉伪造检测与鉴别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination