CN116797896A - 面向深度伪造音视频的多模态融合检测方法 - Google Patents

面向深度伪造音视频的多模态融合检测方法 Download PDF

Info

Publication number
CN116797896A
CN116797896A CN202310804203.5A CN202310804203A CN116797896A CN 116797896 A CN116797896 A CN 116797896A CN 202310804203 A CN202310804203 A CN 202310804203A CN 116797896 A CN116797896 A CN 116797896A
Authority
CN
China
Prior art keywords
audio
video
modal
mode
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310804203.5A
Other languages
English (en)
Inventor
练智超
彭雪康
王书娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202310804203.5A priority Critical patent/CN116797896A/zh
Publication of CN116797896A publication Critical patent/CN116797896A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种面向深度伪造音视频的多模态融合检测方法,属于多模态机器学习领域,包括使用时序‑空间特征提取器、交叉注意力跨模态联合学习解码器和多模态分类检测器构建一个网络架构来进行音频‑视频多模态识别;时序‑空间特征提取器负责对音频和视频模态特征进行统一的处理;交叉注意力跨模态联合学习解码器通过两个并行的解码器使两种模态信息进行联合学习;多模态分类检测器通过融合二者的特征信息输出二分类结果。本发明利用音频‑图像模态的互补性,能够区分出人类不易察觉的视频是否是伪造的,增强了对于多种伪造方法生成的深度伪造数据的检测鲁棒性,提高了人脸识别设备和虚假生成内容监管的安全性。

Description

面向深度伪造音视频的多模态融合检测方法
技术领域
本发明属于多模态机器学习领域,具体涉及一种面向深度伪造音视频的多模态融合检测方法。
背景技术
基于深层神经网络的机器学习模型为图像、音频和文本等各个领域带来了极大发展。但同时,人工智能生成技术的发展也带来了版权和虚假信息的安全隐患,大量虚假的文本生成内容等等。随着人工智能生成技术的不断发展,攻击者已经可以在短时间内生成大量高质量难以辨识的虚假视频,采用人力进行监管需要耗费大量金钱和时间成本。因此,许多组织迫切需要针对高质量虚假视频的检测方法。
深度伪造视频检测方法可以视为异常检测和细粒度检测的子任务,因此许多其它检测方法可以作用到该任务中。已经有很多针对不同特征信息的检测方法可以在伪造人脸数据集和伪造音频数据集上取得不错的检测精度。然而,大多数检测方法都仅侧重于单一模态的数据,很少有对于包含不同模态的数据的同时检测,因此很可能遗漏关键的伪造信息,而直接采用多个模型结果的集成方法,又会损失不同数据间的相关性,导致误报。因此,在生成方法的不断发展下,有必要设计一类模型,它能融合多种数据,在不损失识别精度完成检测任务。
发明内容
本发明解决的技术问题:在不损失识别精度条件下,通过构建一种网络架构来进行音频-视频多模态融合检测,以此实现面向深度伪造音视频的检测方法。
技术方案:为了解决上述技术问题,本发明采用的技术方案如下:
一种面向深度伪造音视频的多模态融合检测方法,包括:使用时空编码器、多模态联合解码器和跨模态检测器构建一个网络架构来进行音频-视频多模态识别;时空编码器负责对音频和视频模态特征进行统一的处理;多模态联合解码器通过两个并行的解码器使两种模态信息进行联合学习;跨模态检测器通过融合音频特征向量和视觉特征向量的特征信息输出二分类结果。
作为优选,利用时空编码器编码带有音频的含人脸视频的方法如下:
使用两个串行的Transformer编码器作为特征的提取器;首先对音频和视频两种不同模态进行统一的帧采样和预处理;将预处理过的特征向量输入到第一Transformer编码器中;
第二Transformer编码器产生的编码,表示对应时间节点的具体空间特征;通过这两个编码器最终生成的编码含有对于每一时间节点的音频和图像对应的空间信息;
然后,将两种模态融合成的信息并行输入到多模态联合学习块中,进行隐空间的联合学习。
作为优选,第一Transformer编码器模型编码的是同一时间窗口内的不同视频片段和音频片段含有的交互信息。
作为优选,两种模态信息进行联合学习的方法如下:
通过Bi-attention方法对两种模态数据进行联合学习,采用多模态信号融合模块对视觉模态特征向量和音频模态特征向量进行解码,采用两个并行的Transformer模块作为视觉模态信号和音频模态信号的解码器;采用双向交叉注意力机制用以进行不同模态信息的共享和联合学习;
音频特征向量可以表示为:
图像特征向量可以表示为:
自注意力特征向量可以表示为:
其中,Q为查询向量,K为键向量,V为值向量;
Pv和Pa代表从时空编码器分别编码输出的视觉模态特征向量和音频模态信号特征向量,Wq,Wk,Wv分别对应Q,K,V向量的权重矩阵,dk用以对Q*(K)T乘积结果进行归一化。
作为优选,跨模态检测器通过融合音频特征向量和视觉特征向量的特征信息输出二分类结果的方法如下:
将输出向量输入到分类器,全连接层中,输出最后的二分类值,具体的表示方式如下:
Y=FC(concat(FAudio,FVisual))
其中,FC代表全连接层,FAudio、FVisual分别代表经过解码器输出的音频特征向量和视觉特征向量,concat(FAudio,FVisual)表示对两个向量进行拼接。
最终得到是一个音频-视频的匹配相关程度概率值,概率值越高,判定为真概率越高。
有益效果:与现有技术相比,本发明具有以下优点:
(1)本发明提出了一个具有通用性和泛化性的模型,通过融合不同模态的信息作用于模型训练,提高了对于通用深度伪造视频检测的精确率。
(2)模型采用Transformer编码器编码同一时间点下对应的视频和音频信息,可以有效地融入不同时序下的信息,结合视觉和听觉信号进行检测。相比于传统的伪造检测方法,没有简单地丢弃有效信息进行检测。
(3)对未知模态伪造的检测,能够有效区分视频是否伪造,提高了检测的鲁棒性。
附图说明
图1是面向深度伪造音视频的多模态融合检测方法的流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,实施例在以本发明技术方案为前提下进行实施,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围。
如图1所示,本发明是一种面向深度伪造音视频的多模态融合检测方法,包括:使用时空编码器、多模态联合解码器和跨模态检测器构建一个网络架构来进行音频-视频多模态识别;时空编码器负责对音频和视频模态特征进行统一的处理;多模态联合解码器通过两个并行的解码器使两种模态信息进行联合学习;跨模态检测器通过融合音频特征向量和视觉特征向量的特征信息输出二分类结果。
利用时空编码器编码带有音频的含人脸视频的方法如下:
首先,使用两个串行的Transformer编码器作为特征的提取器;首先对音频和视频两种不同模态进行统一的帧采样和预处理;将预处理过的特征向量输入到第一Transformer编码器,即多模态时序编码器中;第一Transformer编码器模型编码的是同一时间窗口内的不同视频片段和音频片段含有的交互信息。
第二Transformer编码器即多模态空间编码器,产生的编码表示对应时间节点的具体空间特征;通过这两个编码器最终生成的编码含有对于每一时间节点的音频和图像对应的空间信息;然后,将两种模态融合成的信息并行输入到多模态联合学习块中,进行隐空间的联合学习。
其次,通过Bi-attention方法对两种模态数据进行联合学习:采用多模态信号融合模块对视觉模态特征向量和音频模态特征向量进行解码,采用两个并行的Transformer模块作为视觉模态信号和音频模态信号的解码器;由于需要采用不同模态的信息帮助进行检测,采用了双向交叉注意力机制用以进行不同模态信息的共享和联合学习。
音频特征向量可以表示为:
图像特征向量可以表示为:
自注意力特征向量可以表示为:
其中,Q为查询(Query)向量,K为键(Key)向量,V为值(Value)向量;
Pv和Pa代表从时空编码器分别编码输出的视觉模态特征向量和音频模态信号特征向量,Wq,Wk,Wv分别对应Q,K,V向量的权重矩阵,dk用以对Q*(K)T乘积结果进行归一化。
将输出向量输入到分类器,即全连接层中,输出最后的二分类值,具体的表示方式如下:
Y=FC(concat(FAudio,FVisual))
其中,FC代表全连接层,FAudio、FVisual分别代表经过解码器输出的音频特征向量和视觉特征向量,concat(FAudio,FVisual)表示对两个向量进行拼接。
最终得到是一个音频-视频的匹配相关程度概率值,概率值越高,判定为真概率越高。
实施例一
通过以下实验验证本发明的方法有效性和效率:
以下措施用于评估所提议攻击的有效性和效率:
分类精度——它被定义为对视频级真实样本与伪造样本的分类准确率。
AUC——它被定义为真阳性率大于假阳性率的概率。
本发明选择Faceforensics++数据集和Deepfake Detection Challenge数据集,Faceforensics++数据集是一个深度伪造的基准数据集,包括5000个带有音频通道的视频序列,其中视频通道的操作有以下4种方法:Deepfakes,Face2Face,FaceSwap和NeuralTexture。
DFDC数据集是目前最大的视频深度伪造数据集,拥有超过10万个视频和英文音频序列。对那些来自摄影师而不是演员的声音进行移除,以确保视听同步。
主干网络包括Transformer和Bi-attention模型。
1、Transformer
Transformer网络是本发明模型的骨干架构。Transformer网络由Encoder和Decoder两个部分组成,Encoder和Decoder都包含6个block。它可以通过区域值编码和位置编码和权重矩阵计算出特征向量不同位置的权重值,获取新的特征向量。
2、Bi-attention
在并行Transformer模型中,可以将Q,K,V权重矩阵中其一与另一模型的权重矩阵值互换,以促进不同特征间的融合性。
对比分类模型包括INDP,Late-fuse和不同类型的two-stream。
1、Indp
对视频流和音频流进行独立训练,即在对两者的训练过程中,分别单独采用三中的主干网络。
2、Late-fuse
直接在视频流和音频流联合训练的模型,先分别使用三中的主干网络提取这两种模态上的特征,后期通过late fusion对两个网络进行融合。
3、two-stream
表示采用多模态融合学习的联合检测网络,即本文提出的方法。但本文考虑去掉了不同的结构,以作为消融实验的部分。首先对齐视频和音频模态,然后采用交叉注意力的方法。将该方法称为同步流,本发明考虑了不同的模态的单独检测结果以反映是否有任何一种模式已被操纵。实验结果如表1、表2所示。
表1本发明在Faceforensics++数据集下的分类精度,括号内为AUC
表2本发明在DFDC数据集下的分类精度,括号内为AUC
表1和表2的结果表示,本发明的联合检测网络two-streams在整个序列检测以及视频和音频deep-fake检测的单一任务上始终优于Indp和Late-fuse。通过比较了不同类型注意力机制之间的结果,发现本发明的Bi-attention方法相比于Joint-attention方法表现更好,尤其是在整个序列和音频流预测上。这表明跨模态注意力比自注意力对同步模式的学习贡献更大。
本发明提出了面向深度伪造音视频的多模态融合检测方法,通过融合不同模态的信息作用于模型训练,提高了对于通用深度伪造视频检测的精确率;利用音频-图像模态的互补性,能够有效区分出视频是否是伪造的,增强了对于多种伪造方法生成的深度伪造数据的检测鲁棒性。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (5)

1.一种面向深度伪造音视频的多模态融合检测方法,其特征在于,包括:使用时空编码器、多模态联合解码器和跨模态检测器构建一个网络架构来进行音频-视频多模态识别;时空编码器负责对音频和视频模态特征进行统一的处理;多模态联合解码器通过两个并行的解码器使两种模态信息进行联合学习;跨模态检测器通过融合音频特征向量和视觉特征向量的特征信息输出二分类结果。
2.根据权利要求1所述的面向深度伪造音视频的多模态融合检测方法,其特征在于:利用时空编码器编码带有音频的含人脸视频的方法如下:
使用两个串行的Transformer编码器作为特征的提取器;首先对音频和视频两种不同模态进行统一的帧采样和预处理;将预处理过的特征向量输入到第一Transformer编码器中;
第二Transformer编码器产生的编码,表示对应时间节点的具体空间特征;通过这两个编码器最终生成的编码含有对于每一时间节点的音频和图像对应的空间信息;
然后,将两种模态融合成的信息并行输入到多模态联合学习块中,进行隐空间的联合学习。
3.根据权利要求2所述的针对面向深度伪造音视频的多模态融合检测方法,其特征在于:第一Transformer编码器模型编码的是同一时间窗口内的不同视频片段和音频片段含有的交互信息。
4.根据权利要求1所述的面向深度伪造音视频的多模态融合检测方法,其特征在于:两种模态信息进行联合学习的方法如下:
通过Bi-attention方法对两种模态数据进行联合学习,采用多模态信号融合模块对视觉模态特征向量和音频模态特征向量进行解码,采用两个并行的Transformer模块作为视觉模态信号和音频模态信号的解码器;采用双向交叉注意力机制用以进行不同模态信息的共享和联合学习;
音频特征向量可以表示为:
图像特征向量可以表示为:
自注意力特征向量可以表示为:
其中,Q为查询向量,K为键向量,V为值向量;
Pv和Pa代表从时空编码器分别编码输出的视觉模态特征向量和音频模态信号特征向量,Wq,Wk,Wv分别对应Q,K,V向量的权重矩阵,dk用以对Q*(K)T乘积结果进行归一化。
5.根据权利要求1所述的面向深度伪造音视频的多模态融合检测方法,其特征在于:跨模态检测器通过融合音频特征向量和视觉特征向量的特征信息输出二分类结果的方法如下:
将输出向量输入到分类器,全连接层中,输出最后的二分类值,具体的表示方式如下:
Y=FC(concat(FAudio,FVisual))
其中,FC代表全连接层,FAudio、FVisual分别代表经过解码器输出的音频特征向量和视觉特征向量,concat(FAudio,FVisual)表示对两个向量进行拼接;
最终得到是一个音频-视频的匹配相关程度概率值,概率值越高,判定为真概率越高。
CN202310804203.5A 2023-07-03 2023-07-03 面向深度伪造音视频的多模态融合检测方法 Pending CN116797896A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310804203.5A CN116797896A (zh) 2023-07-03 2023-07-03 面向深度伪造音视频的多模态融合检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310804203.5A CN116797896A (zh) 2023-07-03 2023-07-03 面向深度伪造音视频的多模态融合检测方法

Publications (1)

Publication Number Publication Date
CN116797896A true CN116797896A (zh) 2023-09-22

Family

ID=88036338

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310804203.5A Pending CN116797896A (zh) 2023-07-03 2023-07-03 面向深度伪造音视频的多模态融合检测方法

Country Status (1)

Country Link
CN (1) CN116797896A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117496394A (zh) * 2023-10-16 2024-02-02 国家计算机网络与信息安全管理中心 基于图像和语音多模态融合的伪造视频检测方法及装置
CN118229308A (zh) * 2024-05-23 2024-06-21 北京中科金有限元技术有限公司 基于深度学习的多模态防伪验证方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117496394A (zh) * 2023-10-16 2024-02-02 国家计算机网络与信息安全管理中心 基于图像和语音多模态融合的伪造视频检测方法及装置
CN118229308A (zh) * 2024-05-23 2024-06-21 北京中科金有限元技术有限公司 基于深度学习的多模态防伪验证方法及系统

Similar Documents

Publication Publication Date Title
Dave et al. Tclr: Temporal contrastive learning for video representation
CN116797896A (zh) 面向深度伪造音视频的多模态融合检测方法
Guanghui et al. Multi-modal emotion recognition by fusing correlation features of speech-visual
Mercea et al. Audio-visual generalised zero-shot learning with cross-modal attention and language
CN108962216B (zh) 一种说话视频的处理方法及装置、设备和存储介质
JP2023537705A (ja) オーディオ・ビジュアル・イベント識別システム、方法、プログラム
Chung et al. Seeing voices and hearing voices: learning discriminative embeddings using cross-modal self-supervision
Praveen et al. Audio–visual fusion for emotion recognition in the valence–arousal space using joint cross-attention
Zhang et al. Enhancing audio-visual association with self-supervised curriculum learning
CN115129934A (zh) 一种多模态视频理解方法
Sheng et al. Cross-modal self-supervised learning for lip reading: When contrastive learning meets adversarial training
CN116933051A (zh) 一种用于模态缺失场景的多模态情感识别方法及系统
Cai et al. Glitch in the matrix: A large scale benchmark for content driven audio–visual forgery detection and localization
Dastbaravardeh et al. Channel Attention‐Based Approach with Autoencoder Network for Human Action Recognition in Low‐Resolution Frames
Dai et al. HEVC video steganalysis based on PU maps and multi-scale convolutional residual network
CN113689527B (zh) 一种人脸转换模型的训练方法、人脸图像转换方法
Shaikh et al. Multimodal fusion for audio-image and video action recognition
Sung et al. Hearing and seeing abnormality: Self-supervised audio-visual mutual learning for deepfake detection
CN116469153A (zh) 一种基于深度学习的特定目标唇语识别方法
Liu et al. Magnifying multimodal forgery clues for Deepfake detection
CN112866715B (zh) 一种支持人机混合智能的通用视频压缩编码系统
Haq et al. Multimodal neurosymbolic approach for explainable deepfake detection
Jiang et al. Cross-modal Learning based Flexible Bimodal Biometric Authentication with Template Protection
Zhang et al. Sonarguard: Ultrasonic face liveness detection on mobile devices
Voß et al. Addressing data scarcity in multimodal user state recognition by combining semi-supervised and supervised learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination