CN116665089B - 基于三维时空网络的深度伪造视频检测方法 - Google Patents

基于三维时空网络的深度伪造视频检测方法 Download PDF

Info

Publication number
CN116665089B
CN116665089B CN202310509885.7A CN202310509885A CN116665089B CN 116665089 B CN116665089 B CN 116665089B CN 202310509885 A CN202310509885 A CN 202310509885A CN 116665089 B CN116665089 B CN 116665089B
Authority
CN
China
Prior art keywords
dimensional space
feature extraction
module
depth
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310509885.7A
Other languages
English (en)
Other versions
CN116665089A (zh
Inventor
林凯瀚
韩伟红
李树栋
顾钊铨
梅阳阳
吴晓波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou University
Original Assignee
Guangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou University filed Critical Guangzhou University
Priority to CN202310509885.7A priority Critical patent/CN116665089B/zh
Publication of CN116665089A publication Critical patent/CN116665089A/zh
Application granted granted Critical
Publication of CN116665089B publication Critical patent/CN116665089B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及基于三维时空网络的深度伪造视频检测方法,包括步骤:S1、利用RetinaFace算法对输入的视频帧进行人脸检测和裁剪,获取人脸区域图像;S2、将人脸区域图像输入到三维时空网络中;其中,三维时空网络包括RGB、光流和噪声三个特征提取模块;S3、设计融合卷积块注意力模块的I3D网络,令三个特征提取模块提取不同的时空特征;S4、将三个特征提取模块的输出进行特征向量的加权平均融合,获取预测标签的概率值。本发明通过采用了三维时空网络,可以提取深度伪造视频的时空特征,提高了深度伪造视频的检测准确率;在RGB域的基础上添加了光流声特征提取模块和噪声特征提取模块,可分别检测到伪造视频中的微表情变化不一致性和噪声域异常。

Description

基于三维时空网络的深度伪造视频检测方法
技术领域
本发明涉及计算机视觉和网络安全技术领域,尤其涉及基于三维时空网络的深度伪造视频检测方法。
背景技术
近年来,得益于互联网的快速发展,多媒体信息在网络空间中的传播也越来越迅速和广泛。随着深度学习生成模型在各个领域的广泛应用,深度神经网络生成的深度伪造图像和视频已经在网络空间上广泛传播。深度造假生成的多媒体信息往往包含人物、行为、事件等虚假信息,可在网络空间中实现传播虚假信息、诱导舆论发展、制造仇恨等恶意行为。信息伪造者可以利用深度伪造技术伪造政治家或企业家的言论,制造假新闻,甚至诱导公众产生不良情绪,对社会产生不良影响。因此,深度伪造内容在网络空间中恶意传播,会给国家和社会带来潜在威胁。为了增强网络空间中信息内容的安全性,开发更先进的深度检测技术尤为重要。
鉴于网络空间中存在的深度伪造内容多为图像和视频,因此现有的深度伪造检测方法主要包括基于图像和基于视频的检测方法。基于图像的检测方法也称为基于帧的检测方法,该方法将伪造信息的检测任务转化为针对每一帧图像的分类任务。此类方法主要关注伪造图像上的空间伪造伪影,其主要利用卷积神经网络CNN作为骨干网络从视频帧中提取空间特征。一般而言,基于图像的检测方法可以有效地检测图像上的空间伪造伪影,但难以应对更具挑战性的视频级深度伪造检测任务。因为除了单帧的空间伪影外,视频中固有的时间相关性捕捉到的特征也可以在检测伪造中发挥重要作用。基于图像的检测方法未考虑时间序列信息,因此容易忽略深度伪造视频中面部微表情、光照变化、行为异常等时间序列存在的伪造伪迹。近来,为了实现高效、准确的深度伪造视频检测,一些研究提出了考虑时间维度的基于视频的检测方法。现有的基于视频检测方法通过递归神经网络等模型捕捉视频帧之间的时间特征,从而实现深度伪造视频的检测。然而,现有的基于视频的检测方法大多只考虑时序特征,没有将时序和空间特征结合起来。此外,一些时空组合方法只简单地将深度网络提取的浅层空间特征和时序特征结合,而没有进一步探索深度伪造内容中更深层的伪造缺陷,导致检测准确率有限。因此,亟需一种高效、准确的深度伪造视频检测方法。
发明内容
为解决现有技术所存在的技术问题,本发明提供基于三维时空网络的深度伪造视频检测方法,通过采用了三维时空网络,可以提取深度伪造视频的时空特征,提高了深度伪造视频的检测准确率;在RGB域的基础上添加了光流声特征提取模块和噪声特征提取模块,可分别检测到伪造视频中的微表情变化不一致性和噪声域异常。
本发明采用以下技术方案来实现:基于三维时空网络的深度伪造视频检测方法,
包括以下步骤:
S1、利用RetinaFace算法对输入的视频帧进行人脸检测和裁剪,获取人脸区域图像;
S2、将步骤S1中获取的人脸区域图像输入到三维时空网络中;其中,三维时空网络包括RGB、光流和噪声三个特征提取模块;
S3、设计融合卷积块注意力模块的I3D网络,即CBAM-I3D网络,令三个特征提取模块提取不同的时空特征;
S4、将三个特征提取模块的输出进行特征向量的加权平均融合,并利用sigmoid函数将输出变量映射到[0,1]区间,获取预测标签的概率值。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明设计了一种新颖的三维卷积神经网络,引入了注意力机制,设计了一种新型的三维卷积神经网络,引入了注意力机制,可以提取深度伪造视频的时空特征,提高了深度伪造视频的检测准确率。
2、本发明采用RGB、光流、噪声三个特征提取模块提取视频帧信息,使模型更好地利用视频帧信息,可以探索深度伪造内容中更深层的伪造缺陷,提高在高级深度伪造算法下的检测准确率。
3、本发明设计了一个新颖的CBAM-I3D网络来获取输入视频的时空特征,可以更适用于深度伪造视频的检测。
3、本发明采用自适应SRM滤波器获取噪声特征,可以根据不同场景自适应选择滤波器参数。
附图说明
图1是本发明的方法流程图;
图2是本实施例的三维时空网络结构图;
图3(a)是I3D结构图;
图3(b)是本实施例的CBAM-I3D结构图;
图4是本实施例的CBAM-Inception结构单元图;
图5是本实施例的CBAM结构图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示,本实施例基于三维时空网络的深度伪造视频检测方法,包括以下步骤:
S1、利用RetinaFace算法对输入的视频帧进行人脸检测和裁剪,最终获取224×224的人脸区域图像;
S2、将步骤S1中获取的人脸区域图像输入到三维时空网络中;其中,三维时空网络包括RGB、光流和噪声三个特征提取模块;
S3、设计融合卷积块注意力模块的I3D网络,即CBAM-I3D网络,令三个特征提取模块提取不同的时空特征;
S4、将三个特征提取模块的输出进行特征向量的加权平均融合,并利用sigmoid函数将输出变量映射到[0,1]区间,获取预测标签的概率值。
具体地,本实施例中,RGB特征提取模块用于获取在空间域中有价值的典型视觉特征;CBAM-I3D网络可以学习时空域的语义不一致性。
如图3(b)所示,为CBAM-I3D网络结构图,本发明对I3D网络结构,如图3(a)所示,进行了优化,使其更适合深度伪造视频检测任务。
具体地,本实施例中,CBAM-I3D网络结构的设计过程如下:
将第一个最大池化层设置在卷积层的后面,第三个最大池化层将五个CBAM-Inception分为两个部分,可用于防止池化操作导致图像底层特征的丢失,因为在深度伪造视频中伪造伪迹很可能存在于不明显的区域;
通过后置最大池化层,卷积层和CBAM-Inception,捕获更重要的信息。
具体地,如图4所示,为CBAM-Inception结构块,该结构块在3D Inception V1模块的级联层之后加入了CBAM。此设计不仅可以实现原始输入信息的无损传输,还可以自动学习输入帧的空间位置和通道的重要性;再根据重要程度增强重要特征,抑制不重要特征,从而实现自适应空间和通道的校准。
具体地,CBAM是一种空间和通道相结合的注意机制模块,它可以使网络更加关注有价值的特征,其结构如图5所示。可以看出,CBAM由输入模块、通道注意模块、空间注意模块和输出模块组成;在通道注意模块中,其输出为:
Mc(F)=σ{MLP[AvgPool(F)]+MLP[MaxPool(F)]}(1)其中,F为输入特征,σ为Sigmod函数,MLP为多层感知器;该模块可以增加重要通道的权重,降低不重要通道的权重,从而实现特征维度上的注意机制;再将通道注意模块的输出与输入特征相乘,可得到空间注意模块的输入F′:
其中,表示逐元素的乘法;因此,空间注意模块的输出Ms(F′)可计算如下:
Ms(F′)=σ{f{[AvgPool(F′);MaxPool(F′)]}}(3)其中,f是卷积运算;最后得到细化后的特征如下:
具体地,本实施例中,光流特征提取模块用于捕获微表情中的伪造伪影,光流的计算过程具体如下:
采用TV-L1算法计算光流,设两个输入帧I0和I1,u=(u1,u2)为点x处的光流场;TV-L1光流模型的能量函数计算如下:
其中,为梯度算子,参数λ为权重;
在点x+u0处的一阶泰勒展开,得:
将式(6)代入式(5),得:
为了求解全局优化方程,引入了附加的辅助变量u'和η;因此,式(7)可转化为最小凸函数求解:
其中,u是u的近似值,η是一个小常数;最终解如下:
具体地,本实施例中,采用噪声特征提取模块检测噪声域中的伪造伪迹;本发明通过采用空间丰富模型(Spatial rich model,SRM)提取噪声特征,在传统的SRM中,对30个基本滤波器的输出进行量化和截断,并提取附近的共现信息作为最终特征作为局部噪声描述符。本发明仅使用如下所示3个主要的基本滤波器就可以达到30个基本滤波器的性能:
特别的,在三个常用的基本过滤器中,为了使SRM更好地学习人脸伪造伪影的噪声特征,本发明引入了自适应SRM滤波器;本发明在三个常用的基本过滤器中保持固定的零值,并使非零元素可学习;通过这种简单实用的设置,噪声有限元法可以根据不同的场景自适应地调整滤波值。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (4)

1.基于三维时空网络的深度伪造视频检测方法,其特征在于,包括以下步骤:
S1、利用RetinaFace算法对输入的视频帧进行人脸检测和裁剪,获取人脸区域图像;
S2、将步骤S1中获取的人脸区域图像输入到三维时空网络中;其中,三维时空网络包括RGB、光流和噪声三个特征提取模块;
S3、设计融合卷积块注意力模块的I3D网络,即CBAM-I3D网络,令三个特征提取模块提取不同的时空特征;
S4、将三个特征提取模块的输出进行特征向量的加权平均融合,并利用sigmoid函数将输出变量映射到[0,1]区间,获取预测标签的概率值;
步骤S2中CBAM-I3D网络结构的设计过程如下:
将第一个最大池化层设置在卷积层的后面,第三个最大池化层将五个CBAM-Inception分为两个部分,用于防止池化操作导致图像底层特征的丢失;
通过后置最大池化层,卷积层和CBAM-Inception,捕获信息;
CBAM-Inception结构块在3D Inception V1模块的级联层之后加入了CBAM,CBAM由输入模块、通道注意模块、空间注意模块和输出模块组成;在通道注意模块中,其输出为:
Mc(F)=σ{MLP[AvgPool(F)]+MLP[MaxPool(F)]} (1)其中,F为输入特征,σ为Sigmod函数,MLP为多层感知器;
再将通道注意模块的输出与输入特征相乘,得到空间注意模块的输入F′:
其中,表示逐元素的乘法;
空间注意模块的输出Ms(F′)计算如下:
Ms(F′)=σ{f{[AvgPool(F′);MaxPool(F′)]}} (3)
其中,f是卷积运算;
得到细化后的特征如下:
2.根据权利要求1所述的基于三维时空网络的深度伪造视频检测方法,其特征在于,步骤S1中的RGB特征提取模块用于获取在空间域中有价值的典型视觉特征;光流特征提取模块用于捕获微表情中的伪造伪影;噪声特征提取模块用于检测噪声域中的伪造伪迹。
3.根据权利要求2所述的基于三维时空网络的深度伪造视频检测方法,其特征在于,光流的计算过程具体如下:
采用TV-L1算法计算光流,设两个输入帧I0和I1,u=(u1,u2)为点x处的光流场;TV-L1光流模型的能量函数计算如下:
其中,为梯度算子,参数λ为权重;
在点x+u0处的一阶泰勒展开,得:
将式(6)代入式(5),得:
求解全局优化方程,引入附加的辅助变量u'和η;式(7)转化为最小凸函数求解:
其中,u′是u的近似值,η是一个小常数;最终解如下:
4.根据权利要求2所述的基于三维时空网络的深度伪造视频检测方法,其特征在于,噪声特征提取模块的具体提取过程如下:
通过采用空间丰富模型SRM提取噪声特征,基本滤波器的使用如下:
CN202310509885.7A 2023-05-08 2023-05-08 基于三维时空网络的深度伪造视频检测方法 Active CN116665089B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310509885.7A CN116665089B (zh) 2023-05-08 2023-05-08 基于三维时空网络的深度伪造视频检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310509885.7A CN116665089B (zh) 2023-05-08 2023-05-08 基于三维时空网络的深度伪造视频检测方法

Publications (2)

Publication Number Publication Date
CN116665089A CN116665089A (zh) 2023-08-29
CN116665089B true CN116665089B (zh) 2024-03-22

Family

ID=87721516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310509885.7A Active CN116665089B (zh) 2023-05-08 2023-05-08 基于三维时空网络的深度伪造视频检测方法

Country Status (1)

Country Link
CN (1) CN116665089B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783540A (zh) * 2020-06-01 2020-10-16 河海大学 一种视频中人体行为识别方法和系统
KR20220030583A (ko) * 2020-09-03 2022-03-11 고려대학교 세종산학협력단 동물의 상황인지를 통한 캡션 생성 시스템
CN116030538A (zh) * 2023-03-30 2023-04-28 中国科学技术大学 弱监督动作检测方法、系统、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783540A (zh) * 2020-06-01 2020-10-16 河海大学 一种视频中人体行为识别方法和系统
KR20220030583A (ko) * 2020-09-03 2022-03-11 고려대학교 세종산학협력단 동물의 상황인지를 통한 캡션 생성 시스템
CN116030538A (zh) * 2023-03-30 2023-04-28 中国科学技术大学 弱监督动作检测方法、系统、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Hallucinating IDT Descriptors and I3D Optical Flow Features for Action Recognition with CNNs;Lei Wang;《arXiv》;1-12 *
特征引导的多模态聚合低光环境行为识别方法;刘光辉;《控制与决策》;1-10 *

Also Published As

Publication number Publication date
CN116665089A (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
CN111460931B (zh) 基于颜色通道差值图特征的人脸欺骗检测方法及系统
CN110853074B (zh) 一种利用光流增强目标的视频目标检测网络系统
Kim et al. Exposing fake faces through deep neural networks combining content and trace feature extractors
CN111325169A (zh) 基于胶囊网络的深度视频指纹算法
CN116563957B (zh) 一种基于傅里叶域适应的人脸伪造视频检测方法
CN113920581A (zh) 一种时空卷积注意力网络用于视频中动作识别的方法
Narayan et al. Desi: Deepfake source identifier for social media
CN115482595B (zh) 一种基于语义分割的特定人物视觉伪造检测与鉴别方法
CN114898438A (zh) 一种基于时频域视觉伪影特征自适应融合的跨模态深度伪造检测方法
Wu et al. Interactive two-stream network across modalities for deepfake detection
CN117095471B (zh) 基于多尺度特征的人脸伪造溯源方法
CN113807232A (zh) 基于双流网络的伪造人脸检测方法、系统及存储介质
Wang et al. Image source identification using convolutional neural networks in IoT environment
CN116665089B (zh) 基于三维时空网络的深度伪造视频检测方法
CN113239714A (zh) 一种融合注意力机制的动态手势实时识别方法
CN114049289B (zh) 基于对比学习与StyleGAN2的近红外-可见光人脸图像合成方法
CN114220170B (zh) 一种基于时空和运动信息融合的人体行为识别方法
CN114241598A (zh) 一种基于并联注意力和双流权重自适应的动作识别方法
Lian et al. A novel forgery classification method based on multi‐scale feature capsule network in mobile edge computing
CN113360694A (zh) 一种基于自编码器的恶意图像查询样本检测过滤方法
CN116311480B (zh) 一种基于多通道双流注意力的伪造人脸检测方法
CN117746227B (zh) 一种红外偏振成像数据的水下目标细粒度分类方法
CN113723196B (zh) 基于预测学习的视频虚假人脸检测方法及装置
CN111476353B (zh) 一种引入显著性的gan图像超分辨率方法
Ahmed Temporal Image Forensics for Picture Dating Based on Machine Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant