CN114596609B - 一种视听伪造检测方法及装置 - Google Patents
一种视听伪造检测方法及装置 Download PDFInfo
- Publication number
- CN114596609B CN114596609B CN202210062374.0A CN202210062374A CN114596609B CN 114596609 B CN114596609 B CN 114596609B CN 202210062374 A CN202210062374 A CN 202210062374A CN 114596609 B CN114596609 B CN 114596609B
- Authority
- CN
- China
- Prior art keywords
- audio
- consistency
- network
- feature
- audio data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 100
- 230000001815 facial effect Effects 0.000 claims abstract description 81
- 238000000034 method Methods 0.000 claims abstract description 43
- 238000000605 extraction Methods 0.000 claims description 143
- 238000005070 sampling Methods 0.000 claims description 17
- 238000012937 correction Methods 0.000 claims description 11
- 230000009977 dual effect Effects 0.000 claims description 9
- 239000004973 liquid crystal related substance Substances 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000005242 forging Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 18
- 238000012549 training Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 10
- 238000003860 storage Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000004611 spectroscopical analysis Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
Abstract
本发明提供一种视听伪造检测方法及装置,该方法包括:获取待测视频数据;其中,待测视频数据包括至少两个视频帧,每个视频帧均包括至少一组由人脸图像和音频数据组成的视听对;将各视听对输入至训练好的双流网络,得到待测视频数据的伪造检测结果;其中,双流网络包括图像网络分支、音频网络分支和预测网络;图像网络分支用于提取人脸图像的面部关键点特征,并基于面部关键点特征提取人脸图像的帧间一致性特征;音频网络分支用于提取音频数据的音频特征,并基于音频特征提取音频数据的时间一致性特征;预测网络基于帧间一致性特征和时间一致性特征获取待测视频数据的伪造检测结果。本发明能够全面准确地对待测视频数据进行真伪检测。
Description
技术领域
本发明涉及机器学习技术领域,尤其涉及一种视听伪造检测方法及装置。
背景技术
最近几年来,深度学习的快速发展使得人们可以利用神经网络尤其是生成对抗网络生成高可信度的伪造视频,导致单从人类视觉上难以分辨。所以伪造产品在社交媒体上传播的安全问题逐渐成为社会关注的热点,如何提出一种高效的伪造检测策略显得十分重要。
以往的伪造检测工作大多是捕捉视频帧内的伪影。随着伪造技术的不断完善,这类伪造检测方法的缺点或者所依赖的线索被逐渐攻克。
传统伪造方法生成的伪造视频大多是按帧处理。帧间的不协调性很容易就可以被人眼识破。然而,现在基于学习的deepfake,尤其是对抗生成网络生成的视频具有较高的真实性,造成现有伪造检测方法无法对待测视频数据进行准确有效地检测。
发明内容
本发明提供一种视听伪造检测方法及装置,用以解决现有技术中无法对待测视频数据进行准确有效地检测的缺陷,实现伪造检测准确性地有效提高。
本发明提供一种视听伪造检测方法,包括:
获取待测视频数据;其中,所述待测视频数据包括至少两个视频帧,每个所述视频帧均包括至少一组由人脸图像和音频数据组成的视听对;
将各所述视听对输入至训练好的双流网络,得到所述待测视频数据的伪造检测结果;
其中,所述双流网络包括图像网络分支、音频网络分支和预测网络;
所述图像网络分支用于提取所述人脸图像的面部关键点特征,并基于所述面部关键点特征提取所述人脸图像的帧间一致性特征;
所述音频网络分支用于提取所述音频数据的音频特征,并基于所述音频特征提取所述音频数据的时间一致性特征;
所述预测网络用于基于所述人脸图像的帧间一致性特征和所述音频数据的时间一致性特征获取所述待测视频数据的伪造检测结果。
根据本发明提供的一种视听伪造检测方法,所述图像网络分支包括依次连接的第一特征提取网络和帧间一致性提取模块;所述音频网络分支包括依次连接的第二特征提取网络和时间一致性提取模块;
所述第一特征提取网络和所述第二特征提取网络分别用于提取所述人脸图像的面部关键点特征和所述音频数据的音频特征;
所述帧间一致性提取模块用于基于所述面部关键点特征提取所述人脸图像的帧间一致性特征;
所述时间一致性提取模块用于基于所述音频特征提取所述音频数据的时间一致性特征;
其中,所述第一特征提取网络和所述第二特征提取网络分别基于样本数据集中人脸图像的帧内一致性损失和音频数据的内部一致性损失进行训练。
根据本发明提供的一种视听伪造检测方法,所述第一特征提取网络包括依次连接的人脸及关键点检测网络和关键点校正网络;其中,
所述人脸及关键点检测网络用于对所述人脸图像进行人脸检测,并对所述人脸检测结果进行关键点检测,得到面部初始关键点;
所述关键点校正网络用于对所述面部初始关键点进行关键点提取,得到所述面部关键点特征。
根据本发明提供的一种视听伪造检测方法,所述第二特征提取网络包括依次连接的声谱图提取模块、第一音频特征提取模块、注意力图提取模块、第二音频特征提取模块、跨模态注意力模块和第三音频特征提取模块;
所述声谱图提取模块用于提取所述音频数据的声谱图;
所述第一音频特征提取模块用于对所述声谱图进行特征提取,得到所述音频数据的第一初始特征;
所述注意力图提取模块用于根据所述第一初始特征提取所述音频数据的注意力图;
所述第二音频特征提取模块用于对所述注意力图进行特征提取,得到所述音频数据的第二初始特征;
所述跨模态注意力模块用于基于所述面部关键点特征和所述第二初始特征获取所述音频数据的跨模态注意力;
所述第三音频特征提取模块用于根据所述音频数据的第二初始特征和所述跨模态注意力获取所述音频数据的音频特征。
根据本发明提供的一种视听伪造检测方法,所述注意力图提取模块是利用真、假声谱图的差异作为监督信号进行训练得到的。
根据本发明提供的一种视听伪造检测方法,所述跨模态注意力模块基于跨模态对比损失函数训练得到;其中,所述跨模态对比损失函数包括视听对同步损失和中心点损失;所述视听对同步损失表示单个所述视听对的人脸图像和音频数据之间的同步度;所述中心点损失表示不同的所述视听对之间在真、假分类层面上的区别度。
根据本发明提供的一种视听伪造检测方法,所述人脸图像的帧内一致性损失的计算包括:
基于所述面部关键点特征确定所述样本数据集中每个人脸图像的中心线,并计算所述样本数据集中相邻视频帧的所述人脸图像的中心线的一致性,得到所述样本数据集中所述人脸图像的帧内特征值;
基于所述样本数据集中所述人脸图像的帧内特征值的均值与所述帧内特征值的二元交叉熵计算所述人脸图像的帧内一致性损失。
根据本发明提供的一种视听伪造检测方法,所述音频数据的内部一致性损失的计算包括:
将所述样本数据集中各音频数据的音频特征均划分为至少两组音频子特征;
分别计算每一组所述音频子特征与其他各组所述音频子特征的特征差值或特征相似性,以得到所述样本数据集的音频数据的内部一致性特征;
基于所述内部一致性特征,对所述样本数据集中的各音频数据的音频特征进行采样,得到音频采样特征;
基于所述样本数据集中的音频数据的音频采样特征与内部一致性特征的二元交叉熵,计算所述音频数据的内部一致性损失。
根据本发明提供的一种视听伪造检测方法,所述基于所述面部关键点特征提取所述人脸图像的帧间一致性特征,包括:
计算相邻所述视频帧的所述面部关键点特征的帧间差值,以作为所述人脸图像的帧间特征值;
将所述人脸图像的帧间特征值输入至第一编解码模型,以得到所述人脸图像的帧间一致性特征。
本发明还提供一种视听伪造检测装置,包括:
数据获取模块,用于获取待测视频数据;其中,所述待测视频数据包括至少两个视频帧,每个所述视频帧均包括至少一组由人脸图像和音频数据组成的视听对;
真伪检测模块,用于将各所述视听对输入至训练好的双流网络,得到所述待测视频数据的伪造检测结果;
其中,所述双流网络包括图像网络分支、音频网络分支和预测网络;
所述图像网络分支用于提取所述人脸图像的面部关键点特征,并基于所述面部关键点特征提取所述人脸图像的帧间一致性特征;
所述音频网络分支用于提取所述音频数据的音频特征,并基于所述音频特征提取所述音频数据的时间一致性特征;
所述预测网络用于基于所述人脸图像的帧间一致性特征和所述音频数据的时间一致性特征获取所述待测视频数据的伪造检测结果。
本发明提供的视听伪造检测方法及装置,通过双流网络的图像网络分支和音频网络分支分别对待测视频数据中的人脸图像和音频数据进行特征提取,并基于特征提取结果分别得到人脸图像的帧间一致性特征和音频数据的时间一致性特征,从而将人脸图像的帧间一致性特征和音频数据的时间一致性特征输入至预测网络,能够全面准确地对待测视频数据进行真伪检测。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的视听伪造检测方法的流程示意图之一;
图2是本发明提供的视听伪造检测方法的流程示意图之二;
图3是本发明提供的视听伪造检测装置的结构示意图;
图4是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图2描述本发明的视听伪造检测方法。图1为本发明视听伪造检测方法流程示意图,如图1所示,该方法包括:
S100、获取待测视频数据;其中,所述待测视频数据包括至少两个视频帧,每个所述视频帧均包括至少一组由人脸图像和音频数据组成的视听对。
具体地,待测视频数据即待进行伪造检测的视频数据。待测视频数据包括至少两个视频帧,每个视频帧包括至少一组视听对,视听对由人脸图像和与之相对应的音频数据组成,例如,视听对X可以表示为X={Xv,Xa},其中,Xv,Xa分别为待测视频的帧序列(即人脸图像)和音频采样的波形数字序列,从而能够通过检测面部尤其是嘴部的动作和音频数据的不一致性来判断待测视频数据是真实的还是伪造的。为了论述方便,本发明以每个视频帧包括一组视听对为例对视听伪造检测方法进行论述,若每个视频帧包括多组视听对,则需要对每一组视听对均执行步骤S200,只要其中一组视听对伪造检测结果为伪造,则待测视频数据为伪造数据。
S200、将各所述视听对输入至训练好的双流网络,得到所述待测视频数据的伪造检测结果;
其中,所述双流网络包括图像网络分支、音频网络分支和预测网络;
所述图像网络分支用于提取所述人脸图像的面部关键点特征,并基于所述面部关键点特征提取所述人脸图像的帧间一致性特征;
所述音频网络分支用于提取所述音频数据的音频特征,并基于所述音频特征提取所述音频数据的时间一致性特征;
所述预测网络用于基于所述人脸图像的帧间一致性特征和所述音频数据的时间一致性特征获取所述待测视频数据的伪造检测结果。
具体地,双流网络即通过两个不同的网络分支分别对输入的视听对进行处理和识别。两个网络分支分别为图像网络分支和音频网络分支,其中,图像网络分支和音频网络均与预测网络连接,通过图像网络分支对人脸图像进行面部关键点特征提取,并基于面部关键点特征提取人脸图像的帧间一致性特征(即相邻两帧视频帧的面部关键点特征的一致性);通过音频网络分支提取音频数据的音频特征,并基于音频特征提取音频数据的时间一致性特征(即相邻两帧视频帧的音频特征的一致性);将人脸图像的帧间一致性特征和音频数据的时间一致性特征输入至预测网络,即可得到待测视频数据的伪造检测结果。
双流网络可以通过样本数据集进行训练得到,样本数据集U可以表示为其中,和yi分别为第i个视听对的帧序列、第i个视听对的音频采样的波形数字序列和第i个视听对的标签,yi∈{0,1},yi=1表示为真,yi=0表示为假,N为样本数据集中视听对的个数,即视频帧的个数。
由此可见,本发明实施例通过双流网络的图像网络分支和音频网络分支分别对待测视频数据中的人脸图像和音频数据进行特征提取,并基于特征提取结果分别得到人脸图像的帧间一致性特征和音频数据的时间一致性特征,从而将人脸图像的帧间一致性特征和音频数据的时间一致性特征输入至预测网络,能够全面准确地对待测视频数据进行真伪检测。
基于上述实施例,所述图像网络分支包括依次连接的第一特征提取网络和帧间一致性提取模块;所述音频网络分支包括依次连接的第二特征提取网络和时间一致性提取模块;
所述第一特征提取网络和所述第二特征提取网络分别用于提取所述人脸图像的面部关键点特征和所述音频数据的音频特征;
所述帧间一致性提取模块用于基于所述面部关键点特征提取所述人脸图像的帧间一致性特征;
所述时间一致性提取模块用于基于所述音频特征提取所述音频数据的时间一致性特征;
其中,所述第一特征提取网络和所述第二特征提取网络分别基于样本数据集中人脸图像的帧内一致性损失和音频数据的内部一致性损失进行训练。
具体地,图像网络分支通过第一特征提取网络提取人脸图像的面部关键点特征,帧间一致性提取模块基于面部关键点特征提取人脸图像的帧间一致性特征。同时,音频网络分支通过第二特征提取网络提取音频数据的音频特征,时间一致性提取模块基于音频特征提取音频数据的时间一致性特征。
其中,第一特征提取网络和第二特征提取网络分别基于样本数据集中人脸图像的帧内一致性损失和音频数据的内部一致性损失进行训练,使得训练好的第一特征提取网络和第二特征提取网络能够学习及预测输入的视频帧的自一致性的表示,从而在对待测视频数据进行伪造检测的过程中,能够同时考虑人脸图像和音频数据各自的帧内一致性和帧间一致性,显著提高了待测视频数据真伪检测的鲁棒性和泛化性。
基于上述任一实施例,所述第一特征提取网络包括依次连接的人脸及关键点检测网络和关键点校正网络;其中,
所述人脸及关键点检测网络用于对所述人脸图像进行人脸检测,并对所述人脸检测结果进行关键点检测,得到面部初始关键点;
所述关键点校正网络用于对所述面部初始关键点进行关键点提取,得到所述面部关键点特征。
具体地,人脸及关键点检测网络可以根据实际需求采用神经网络或工具包来实现,例如,可以采用Dlib,Dlib是一个包含机器学习算法的C++开源工具包,相对于MTCNN(Multi-Task Convolutional Neural Network,多任务卷积神经网络)人脸检测速度更快,且检测到的关键点更多。关键点校正网络可以采用LRNet中的landmark calibration算法。
通过第一特征提取网络对人脸图像的面部关键点特征进行提取可以包括如下步骤:
首先,对人脸图像进行预处理,例如图像去噪处理、图像增强处理,将预处理后的人脸图像输入至人脸及关键点检测网络即可得到面部初始关键点,对面部初始关键点图像进行对齐操作,并进行尺寸调整,如调整为256×256;
其次,采用关键点校正网络从面部初始关键点中进一步进行关键点提取,以得到较为精确的面部关键点特征,面部关键点特征可以包括68个面部关键点,从而得到待测视频数据的面部关键点特征Fv,面部关键点特征Fv可以表示为:
式中,为第j个视频帧中的第k个关键点, 分别为第j个视频帧中的第k个关键点的x轴坐标和y轴坐标,Lj为第j个视频帧的面部关键点特征,0≤j<n,1≤k≤m,n为待测视频数据中的视频帧的数量。面部关键点特征Fv的形状为[n,m], m为每个视频帧中面部关键点的数量,即m=68。
另外,为了避免帧内面部动作幅度较大,该处可以对待测视频数据的采样率进行设置,例如,人脸图像的采样率可以设置为30fps,音频序列的采样率可以设置为24KHz,输入到双流网络的待测视频数据可以为待测视频数据的前2秒,即共有60个人脸图像,48K个音频序列。
由此可见,本发明实施例通过人脸及关键点检测网络获取面部初始关键点,并通过关键点校正网络对面部初始关键点进一步进行关键点提取,能够有效保证提取到的面部关键点特征的准确性。
基于上述任一实施例,所述第二特征提取网络包括依次连接的声谱图提取模块、第一音频特征提取模块、注意力图提取模块、第二音频特征提取模块、跨模态注意力模块和第三音频特征提取模块;
所述声谱图提取模块用于提取所述音频数据的声谱图;
所述第一音频特征提取模块用于对所述声谱图进行特征提取,得到所述音频数据的第一初始特征;
所述注意力图提取模块用于根据所述第一初始特征提取所述音频数据的注意力图;
所述第二音频特征提取模块用于对所述注意力图进行特征提取,得到所述音频数据的第二初始特征;
所述跨模态注意力模块用于基于所述面部关键点特征和所述第二初始特征获取所述音频数据的跨模态注意力;
所述第三音频特征提取模块用于根据所述音频数据的第二初始特征和所述跨模态注意力获取所述音频数据的音频特征。
具体地,声谱图可以是人耳可以线性感知的梅尔声谱图MS;声谱图提取模块可以采用STFT(Short-Time Fourier Transform,短时傅里叶变换),还可以采用MelSpectrogram(梅尔声谱算法);MS的形状为 [T,f],其中,T为时长,f为频率。
第一音频特征提取模块可以采用多个卷积层堆叠设置的神经网络,通过对声谱图进行卷积和堆叠处理进行特征提取,得到音频数据的第一初始特征,其中,第一初始特征与面部关键点特征Fv的形状相同,便于进行融合计算;第一初始特征Fα1的生成过程可以表示为:
MS=MelSpectrogram(Xa),Fα1=p(c(MS))
式中,c为卷积网络,用于对声谱图进行特征提取,p为堆叠操作。
注意力图提取模块可以采用小型的回归网络R,将第一初始特征 Fα1输入至回归网络R即可得到音频数据的注意力图Matt, Matt=R(Fa1,θatt);式中,θatt为回归网络R中待学习的参数。
得到注意力图后,先通过对注意力图进行细化操作得到注意力图特征FMatt,表示元素乘;第二音频特征提取模块通过卷积和激活函数ReLu对FMatt进行特征提取,得到音频数据的第二初始特征Fα2。此时,第二初始特征Fα2的形状仍与面部关键点特征Fv的形状相同。
跨模态注意力模块基于面部关键点特征和第二初始特征获取音频数据的跨模态注意力,从而能够利用已经得到的精确的面部关键点特征来指导音频特征更关注与之关联性强的区域。基于面部关键点特征和第二初始特征获取音频数据的跨模态注意力的方法可以包括:
将面部关键点特征和第二初始特征在时间维度上连接和对齐,保持时间上的同步,在预测整个待测视频数据的真伪之前,将两个流融合在一起,在面部关键点特征和第二初始特征之间加入一个跨模态注意力模块(Cross-Modal Attention Module,CMAM)来捕捉面部关键点特征和第二初始特征的相互依赖关系,并建模跨模态的相互作用,则音频数据的跨模态注意力CMAtt(a)可表示为:
其中,Fv是面部关键点特征,Fα2是第二初始特征,d是面部关键点特征和第二初始特征的特征维数,T为转置运算。
第三音频特征提取模块根据音频数据的第二初始特征和跨模态注意力获取音频数据的音频特征的方法可以为:
将音频数据的跨模态注意力CMAtt(a)作为残差添加到第二初始特征Fα2,得到音频数据的音频特征Fa;音频特征Fa可以表示为:
Fa=Fa2+CMAtt(a)。
基于上述任一实施例,所述注意力图提取模块是利用真、假声谱图的差异作为监督信号进行训练得到的。
具体地,注意力机制被广泛地应用于自然语言处理和计算机视觉,很多伪造检测模型引入注意力模块以增强对伪造区域的感知能力,增强分类器的解释能力。而本发明实施例为了能够更好地引导注意力图提取模块关注并提取到音频伪影,在回归网络R训练过程中,为样本数据集中的每个样本选取两个对应音频的梅尔声谱图,一个是真的梅尔声谱图MSreal,一个是假的梅尔声谱图MSfake,将两个梅尔声谱图的差的绝对值作为注意力图Matt的弱监督,则回归网络R训练过程中的注意力损失Latt可以表示为:
Latt=||Matt-|MSreal-MSfake|||。
训练过程中通过不断调整回归网络R的网络结构和参数θatt来学习出注意力图Matt。
因此,利用真、假声谱图的差异作为监督信号对注意力图提取模块进行训练,能够有效提取待测视频数据的伪影,基于提取到的伪影和帧间一致性,能够更为准确地对待测视频数据进行真伪检测。
基于上述任一实施例,所述跨模态注意力模块基于跨模态对比损失函数训练得到;其中,所述跨模态对比损失函数包括视听对同步损失和中心点损失;所述视听对同步损失表示单个所述视听对的人脸图像和音频数据之间的同步度;所述中心点损失表示不同的所述视听对之间在真、假分类层面上的区别度。
具体地,通常视频中音频与人脸图像之间具有高度同步的一致性,为了迫使第三音频特征提取模块关注到与面部关键点特征Fv相对应的音频特征Fa,以表明视听对的同步程度和对应关系,优化视听特征的耦合,学习和发现面部关键点特征Fv与音频特征Fa的复杂关联,以及检测视听之间的一致性,本发明实施例在跨模态注意力模块训练过程中加入了跨模态对比损失函数。跨模态对比损失函数主要由以下两个损失函数组成:视听对同步损失(Audio-visual synchrony),表示单个视听对的人脸图像和音频数据之间的同步度,通过减少同步视听对的距离和增加异步视听对的距离来更新跨模态注意力模块的参数,同步视听对对应高分,而异步视听对对应低分;通过对跨模态注意力模块训练,以扩大正样本的相似度,缩小负样本的相似度。视听对同步损失Lavs可以表示为:
式中,M为预定义的参数;s为同步标签,s=1表示视听对同步, s=0表示视听对不同步;Ei为样本数据集中第i个视听对的欧式距离,其与相似度指标呈负相关,Ei=||Fv(i)-Fa(i)||2;Fv(i)、Fa(i)分别为样本数据集中第i个视听对的面部关键点特征和音频特征;N为样本数据集中视听对的个数。
中心点(central point)损失,表示各个视听对之间在真、假分类层面上的区别度,引入了一个与单个视听对相对应的中心点C的概念,具体过程是,将输入的视听对Xi∈U,用一个神经网络g嵌入到d维向量中,表示为g(Xi),使真的视听对靠近该中心点,假的视听对远离该中心点。因此,中心点损失Lcp可以表示为:
式中,Ur和Uf分别为样本数据集U中真视听对的集合和假视听对的集合;Er为真视听对的集合中各真视听对与中心点C的平均欧式距离;Ef为假视听对的集合中各假视听对与中心点C的平均欧式距离;Xi1是Ur中第i1个真视听对,Xi2是Uf中第i2个假视听对;d是面部关键点特征和音频特征的特征维数;因为欧氏距离与特征维数d的算术平方根有关,为了便于设置超参数e,将中心点损失的边界设计为
跨模态对比损失函数Lcmc表示为视听对同步损失Lavs和中心点损失Lcp之和,即,Lcmc=Lavs+Lcp。
由此可见,本发明实施例通过面部关键点特征Fv与音频特征Fa的对应关系能够使检测网络的检测能力得到极大提高,因此,利用视听一致性,进一步提高了伪造检测的准确性。同时,现有技术中并没有注意到音频数据和人脸图像的各自一致性和相互一致性,且很难选取代表各自模态的特征,而本发明实施例结合音频数据和人脸图像的各自一致性和相互一致性,以及音频数据的跨模态注意力,能够有效提高真伪检测结果的准确性。
基于上述任一实施例,所述人脸图像的帧内一致性损失的计算包括:
基于所述面部关键点特征确定所述样本数据集中每个人脸图像的中心线,并计算所述样本数据集中相邻视频帧的所述人脸图像的中心线的一致性,得到所述样本数据集中所述人脸图像的帧内特征值;
基于所述样本数据集中所述人脸图像的帧内特征值的均值与所述帧内特征值的二元交叉熵计算所述人脸图像的帧内一致性损失。
具体地,基于面部关键点特征确定样本数据集中每个人脸图像的中心线的方法可以根据实际需求进行设定,例如,可以采用计算帧内对称的面部关键点的平均值的方法,对于每一个视频帧,将m=68个面部关键点按照面部左右划分为两组,则每组有m/2=34个面部关键点,将左右对称的关键点求平均,则34对关键点所求得的平均点大致在一条线上,该线即中心线,中心线对人脸图像具有特异性。
基于上述任一实施例,所述音频数据的内部一致性损失的计算包括:
将所述样本数据集中各音频数据的音频特征均划分为至少两组音频子特征;
分别计算每一组所述音频子特征与其他各组所述音频子特征的特征差值或特征相似性,以得到所述样本数据集的音频数据的内部一致性特征;
基于所述内部一致性特征,对所述样本数据集中的各音频数据的音频特征进行采样,得到音频采样特征;
基于所述样本数据集中的音频数据的音频采样特征与内部一致性特征的二元交叉熵,计算所述音频数据的内部一致性损失。
具体地,由于样本数据集中音频特征Fa的形状与面部关键点特征Fv的形状相同,均为[N,m],则对于样本数据集中的每一视频帧的音频数据的音频特征划分为至少两组音频子特征,例如,可以划分为4组,每组17个音频特征;对于每一组音频子特征,分别求取其与其他各组音频子特征的特征差值或特征相似性,以得到样本数据集的音频数据的内部一致性特征;例如,对于任意两组音频子特征Gp和Gq,分别提取对应的音频特征和并计算和的点积相似度,以估计音频子特征Gp和Gq的一致性得分(Consistency score),Gp和Gq的一致性得分可以表示为:式中,Sigmoid()表示Sigmoid函数,b为1×1卷积的嵌入函数;一致性得分的范围是[0,1];重复该步骤,每个视频帧得到h组一致性得分cs,各一致性得分组成了样本数据集中音频数据的内部一致性特征 是一个能够体现音频数据内部一致性的三维音频特征,表示为:其中,的形状为[N,m,h]。
基于上述任一实施例,所述基于所述面部关键点特征提取所述人脸图像的帧间一致性特征,包括:
计算相邻所述视频帧的所述面部关键点特征的帧间差值,以作为所述人脸图像的帧间特征值;
将所述人脸图像的帧间特征值输入至第一编解码模型,以得到所述人脸图像的帧间一致性特征。
第一编解码模型可以为Transformer模型,将待测视频数据中人脸图像的帧间特征值以序列的形式输入至Transformer模型,即可得到人脸图像的帧间一致性特征,人脸图像的帧间一致性特征即表示待测视频数据在图像网络分支的真、假概率得分,从而能够根据人脸图像的帧间一致性特征寻找序列之间的帧间一致性关系。
基于上述任一实施例,所述基于所述音频特征提取所述音频数据的时间一致性特征,包括:
计算相邻所述视频帧的所述音频特征的帧间差值,以作为所述音频数据的帧间特征值;
将所述音频数据的帧间特征值输入至第二编解码模型,以得到所述音频数据的时间一致性特征。
具体地,计算相邻视频帧的音频特征的帧间差值的方式可以与计算相邻视频帧的面部关键点特征的帧间差值的方式相同。
第二编解码模型可以为Transformer模型,将待测视频数据中音频数据的帧间特征值以序列的形式输入至Transformer模型,即可得到音频数据的时间一致性特征,音频数据的时间一致性特征即表示待测视频数据在音频网络分支的真、假概率得分,从而能够根据音频数据的时间一致性特征寻找序列之间的帧间一致性关系。
基于上述任一实施例,所述预测网络基于交叉熵损失进行监督训练。
具体地,预测网络将图像网络分支中表示真假概率得分的输出和音频网络分支中表示真假概率得分的输出连接在一起,经过预测函数 f(),输出待测视频序列的真假预测结果。
预测网络基于交叉熵损失Lcls进行监督训练,Lcls表示为:
式中,Tr1和Tr2分别为第一编解码模型和第二编解码模型;N为样本数据集中视听对的个数;yi为第i个视听对的标签。
综上,双流网络的总体损失函数L表示为:
L=αLatt+βLcmc+γLsc+Lcls
以下通过一种优选的实施方式对本发明视听伪造检测方法进行详细说明,如图2所示,该方法包括:
数据输入:输入待测视频数据,并将待测视频数据分割为人脸图像和音频数据。
图像网络分支:对人脸图像进行预处理,并通过人脸及关键点检测网络对预处理后的人脸图像进行关键点检测,得到面部初始关键点,将面部初始关键点输入至LRNet进一步进行关键点提取,得到面部关键点特征Fv;基于面部关键点特征Fv计算待测视频数据中人脸图像的帧间特征值将待测视频数据中人脸图像的帧间特征值输入至第一编解码模型Transformer,得到人脸图像的帧间一致性特征;其中,在人脸及关键点检测网络和LRNet的训练过程中,还基于面部关键点特征Fv计算样本数据集中人脸图像的帧内特征值并根据计算人脸图像的帧内一致性损失通过对人脸及关键点检测网络和LRNet进行训练。
音频网络分支:通过Mel Spectrogram提取音频数据的梅尔声谱图MS,将梅尔声谱图输入至第一音频特征提取模块得到音频数据的第一初始特征Fα1;将第一初始特征输入至回归网络R,得到音频数据的注意力图Matt;对第一初始特征Fα1和注意力图的进行乘运算,得到注意力图特征FMatt;将FMatt输入至第二特征提取模块得到第二初始特征Fα2;将面部关键点特征Fv和第二初始特征Fα2输入至跨模态注意力模块CMAM,得到音频数据的跨模态注意力CMAtt(a),将音频数据的跨模态注意力CMAtt(a)与第二初始特征Fα2相加,得到音频数据的音频特征Fa;基于音频特征Fa计算待测视频数据中音频数据的帧间特征值将待测视频数据中音频数据的帧间特征值输入至第二编解码模型Transformer,得到音频数据的帧间一致性特征;其中,在音频网络分支训练过程中,还基于音频特征Fa计算样本数据集中音频数据的内部一致性特征并根据计算音频数据的内部一致性损失通过对音频特征Fa的整个获取网络进行训练;另外,还通过注意力损失Latt对回归网络R进行训练,注意力损失Latt通过注意力图预测结果和真的梅尔声谱图MSreal与假的梅尔声谱图MSfake的差的绝对值计算得到;跨模态注意力模块基于跨模态对比损失函数Lcmc进行训练。
伪造检测:将人脸图像的帧间一致性特征和音频数据的帧间一致性特征输入至预测网络的预测函数进行相加运算,得到待测视频数据的真伪检测结果;其中,预测网络基于交叉熵损失Lcls进行训练。
下面对本发明提供的视听伪造检测装置进行描述,下文描述的视听伪造检测装置与上文描述的视听伪造检测方法可相互对应参照。如图3所示,该装置包括:
数据获取模块310,用于获取待测视频数据;其中,所述待测视频数据包括至少两个视频帧,每个所述视频帧均包括至少一组由人脸图像和音频数据组成的视听对;
真伪检测模块320,用于将各所述视听对输入至训练好的双流网络,得到所述待测视频数据的伪造检测结果;
其中,所述双流网络包括图像网络分支、音频网络分支和预测网络;
所述图像网络分支用于提取所述人脸图像的面部关键点特征,并基于所述面部关键点特征提取所述人脸图像的帧间一致性特征;
所述音频网络分支用于提取所述音频数据的音频特征,并基于所述音频特征提取所述音频数据的时间一致性特征;
所述预测网络用于基于所述人脸图像的帧间一致性特征和所述音频数据的时间一致性特征获取所述待测视频数据的伪造检测结果。
基于上述实施例,所述图像网络分支包括依次连接的第一特征提取网络和帧间一致性提取模块;所述音频网络分支包括依次连接的第二特征提取网络和时间一致性提取模块;
所述第一特征提取网络和所述第二特征提取网络分别用于提取所述人脸图像的面部关键点特征和所述音频数据的音频特征;
所述帧间一致性提取模块用于基于所述面部关键点特征提取所述人脸图像的帧间一致性特征;
所述时间一致性提取模块用于基于所述音频特征提取所述音频数据的时间一致性特征;
其中,所述第一特征提取网络和所述第二特征提取网络分别基于样本数据集中人脸图像的帧内一致性损失和音频数据的内部一致性损失进行训练。
基于上述任一实施例,所述第一特征提取网络包括依次连接的人脸及关键点检测网络和关键点校正网络;其中,
所述人脸及关键点检测网络用于对所述人脸图像进行人脸检测,并对所述人脸检测结果进行关键点检测,得到面部初始关键点;
所述关键点校正网络用于对所述面部初始关键点进行关键点提取,得到所述面部关键点特征。
基于上述任一实施例,所述第二特征提取网络包括依次连接的声谱图提取模块、第一音频特征提取模块、注意力图提取模块、第二音频特征提取模块、跨模态注意力模块和第三音频特征提取模块;
所述声谱图提取模块用于提取所述音频数据的声谱图;
所述第一音频特征提取模块用于对所述声谱图进行特征提取,得到所述音频数据的第一初始特征;
所述注意力图提取模块用于根据所述第一初始特征提取所述音频数据的注意力图;
所述第二音频特征提取模块用于对所述注意力图进行特征提取,得到所述音频数据的第二初始特征;
所述跨模态注意力模块用于基于所述面部关键点特征和所述第二初始特征获取所述音频数据的跨模态注意力;
所述第三音频特征提取模块用于根据所述音频数据的第二初始特征和所述跨模态注意力获取所述音频数据的音频特征。
基于上述任一实施例,所述注意力图提取模块是利用真、假声谱图的差异作为监督信号进行训练得到的。
基于上述任一实施例,所述跨模态注意力模块基于跨模态对比损失函数训练得到;其中,所述跨模态对比损失函数包括视听对同步损失和中心点损失;所述视听对同步损失表示单个所述视听对的人脸图像和音频数据之间的同步度;所述中心点损失表示不同的所述视听对之间在真、假分类层面上的区别度。
基于上述任一实施例,所述人脸图像的帧内一致性损失的计算包括:
基于所述面部关键点特征确定所述样本数据集中每个人脸图像的中心线,并计算所述样本数据集中相邻视频帧的所述人脸图像的中心线的一致性,得到所述样本数据集中所述人脸图像的帧内特征值;
基于所述样本数据集中所述人脸图像的帧内特征值的均值与所述帧内特征值的二元交叉熵计算所述人脸图像的帧内一致性损失。
基于上述任一实施例,所述音频数据的内部一致性损失的计算包括:
将所述样本数据集中各音频数据的音频特征均划分为至少两组音频子特征;
分别计算每一组所述音频子特征与其他各组所述音频子特征的特征差值或特征相似性,以得到所述样本数据集的音频数据的内部一致性特征;
基于所述内部一致性特征,对所述样本数据集中的各音频数据的音频特征进行采样,得到音频采样特征;
基于所述样本数据集中的音频数据的音频采样特征与内部一致性特征的二元交叉熵,计算所述音频数据的内部一致性损失。
基于上述任一实施例,所述基于所述面部关键点特征提取所述人脸图像的帧间一致性特征,包括:
计算相邻所述视频帧的所述面部关键点特征的帧间差值,以作为所述人脸图像的帧间特征值;
将所述人脸图像的帧间特征值输入至第一编解码模型,以得到所述人脸图像的帧间一致性特征。
基于上述任一实施例,所述基于所述音频特征提取所述音频数据的时间一致性特征,包括:
计算相邻所述视频帧的所述音频特征的帧间差值,以作为所述音频数据的帧间特征值;
将所述音频数据的帧间特征值输入至第二编解码模型,以得到所述音频数据的时间一致性特征。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行视听伪造检测方法,该方法包括:获取待测视频数据;其中,所述待测视频数据包括至少两个视频帧,每个所述视频帧均包括至少一组由人脸图像和音频数据组成的视听对;
将各所述视听对输入至训练好的双流网络,得到所述待测视频数据的伪造检测结果;
其中,所述双流网络包括图像网络分支、音频网络分支和预测网络;
所述图像网络分支用于提取所述人脸图像的面部关键点特征,并基于所述面部关键点特征提取所述人脸图像的帧间一致性特征;
所述音频网络分支用于提取所述音频数据的音频特征,并基于所述音频特征提取所述音频数据的时间一致性特征;
所述预测网络用于基于所述人脸图像的帧间一致性特征和所述音频数据的时间一致性特征获取所述待测视频数据的伪造检测结果。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的视听伪造检测方法,该方法包括:获取待测视频数据;其中,所述待测视频数据包括至少两个视频帧,每个所述视频帧均包括至少一组由人脸图像和音频数据组成的视听对;
将各所述视听对输入至训练好的双流网络,得到所述待测视频数据的伪造检测结果;
其中,所述双流网络包括图像网络分支、音频网络分支和预测网络;
所述图像网络分支用于提取所述人脸图像的面部关键点特征,并基于所述面部关键点特征提取所述人脸图像的帧间一致性特征;
所述音频网络分支用于提取所述音频数据的音频特征,并基于所述音频特征提取所述音频数据的时间一致性特征;
所述预测网络用于基于所述人脸图像的帧间一致性特征和所述音频数据的时间一致性特征获取所述待测视频数据的伪造检测结果。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的视听伪造检测方法,该方法包括:获取待测视频数据;其中,所述待测视频数据包括至少两个视频帧,每个所述视频帧均包括至少一组由人脸图像和音频数据组成的视听对;
将各所述视听对输入至训练好的双流网络,得到所述待测视频数据的伪造检测结果;
其中,所述双流网络包括图像网络分支、音频网络分支和预测网络;
所述图像网络分支用于提取所述人脸图像的面部关键点特征,并基于所述面部关键点特征提取所述人脸图像的帧间一致性特征;
所述音频网络分支用于提取所述音频数据的音频特征,并基于所述音频特征提取所述音频数据的时间一致性特征;
所述预测网络用于基于所述人脸图像的帧间一致性特征和所述音频数据的时间一致性特征获取所述待测视频数据的伪造检测结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (9)
1.一种视听伪造检测方法,其特征在于,包括:
获取待测视频数据;其中,所述待测视频数据包括至少两个视频帧,每个所述视频帧均包括至少一组由人脸图像和音频数据组成的视听对;
将各所述视听对输入至训练好的双流网络,得到所述待测视频数据的伪造检测结果;
其中,所述双流网络包括图像网络分支、音频网络分支和预测网络;
所述图像网络分支包括依次连接的第一特征提取网络和帧间一致性提取模块,所述第一特征提取网络用于提取所述人脸图像的面部关键点特征,所述帧间一致性提取模块用于基于所述面部关键点特征提取所述人脸图像的帧间一致性特征;所述帧间一致性特征为相邻两帧所述视频帧的所述面部关键点特征的一致性;
所述音频网络分支包括依次连接的第二特征提取网络和时间一致性提取模块,所述第二特征提取网络用于提取所述音频数据的音频特征,所述时间一致性提取模块用于基于所述音频特征提取所述音频数据的时间一致性特征;所述时间一致性特征为相邻两帧所述视频帧的所述音频特征的一致性;所述第二特征提取网络包括依次连接的声谱图提取模块、第一音频特征提取模块、注意力图提取模块、第二音频特征提取模块、跨模态注意力模块和第三音频特征提取模块;所述声谱图提取模块用于提取所述音频数据的声谱图;所述第一音频特征提取模块用于对所述声谱图进行特征提取,得到所述音频数据的第一初始特征;所述注意力图提取模块用于根据所述第一初始特征提取所述音频数据的注意力图;所述第二音频特征提取模块用于对所述注意力图进行特征提取,得到所述音频数据的第二初始特征;所述跨模态注意力模块用于基于所述面部关键点特征和所述第二初始特征获取所述音频数据的跨模态注意力,所述跨模态注意力CMAtt(a)表示为:其中,Fv是所述面部关键点特征,Fα2是所述第二初始特征,d是所述面部关键点特征和所述第二初始特征的特征维数,T为转置运算;所述第三音频特征提取模块用于根据所述音频数据的第二初始特征和所述跨模态注意力获取所述音频数据的音频特征;
所述预测网络用于基于所述人脸图像的帧间一致性特征和所述音频数据的时间一致性特征获取所述待测视频数据的伪造检测结果。
2.根据权利要求1所述的一种视听伪造检测方法,其特征在于,所述第一特征提取网络和所述第二特征提取网络分别基于样本数据集中人脸图像的帧内一致性损失和音频数据的内部一致性损失进行训练。
3.根据权利要求1所述的一种视听伪造检测方法,其特征在于,所述第一特征提取网络包括依次连接的人脸及关键点检测网络和关键点校正网络;其中,
所述人脸及关键点检测网络用于对所述人脸图像进行人脸检测,并对所述人脸检测结果进行关键点检测,得到面部初始关键点;
所述关键点校正网络用于对所述面部初始关键点进行关键点提取,得到所述面部关键点特征。
4.根据权利要求1所述的一种视听伪造检测方法,其特征在于,所述注意力图提取模块是利用真、假声谱图的差异作为监督信号进行训练得到的。
5.根据权利要求1所述的一种视听伪造检测方法,其特征在于,所述跨模态注意力模块基于跨模态对比损失函数训练得到;其中,所述跨模态对比损失函数包括视听对同步损失和中心点损失;所述视听对同步损失表示单个所述视听对的人脸图像和音频数据之间的同步度;所述中心点损失表示不同的所述视听对之间在真、假分类层面上的区别度。
6.根据权利要求2所述的一种视听伪造检测方法,其特征在于,所述人脸图像的帧内一致性损失的计算包括:
基于所述面部关键点特征确定所述样本数据集中每个人脸图像的中心线,并计算所述样本数据集中相邻视频帧的所述人脸图像的中心线的一致性,得到所述样本数据集中所述人脸图像的帧内特征值;
基于所述样本数据集中所述人脸图像的帧内特征值的均值与所述帧内特征值的二元交叉熵计算所述人脸图像的帧内一致性损失。
7.根据权利要求2所述的一种视听伪造检测方法,其特征在于,所述音频数据的内部一致性损失的计算包括:
将所述样本数据集中各音频数据的音频特征均划分为至少两组音频子特征;
分别计算每一组所述音频子特征与其他各组所述音频子特征的特征差值或特征相似性,以得到所述样本数据集的音频数据的内部一致性特征;
基于所述内部一致性特征,对所述样本数据集中的各音频数据的音频特征进行采样,得到音频采样特征;
基于所述样本数据集中的音频数据的音频采样特征与内部一致性特征的二元交叉熵,计算所述音频数据的内部一致性损失。
8.根据权利要求1所述的一种视听伪造检测方法,其特征在于,所述基于所述面部关键点特征提取所述人脸图像的帧间一致性特征,包括:
计算相邻所述视频帧的所述面部关键点特征的帧间差值,以作为所述人脸图像的帧间特征值;
将所述人脸图像的帧间特征值输入至第一编解码模型,以得到所述人脸图像的帧间一致性特征。
9.一种视听伪造检测装置,其特征在于,包括:
数据获取模块,用于获取待测视频数据;其中,所述待测视频数据包括至少两个视频帧,每个所述视频帧均包括至少一组由人脸图像和音频数据组成的视听对;
真伪检测模块,用于将各所述视听对输入至训练好的双流网络,得到所述待测视频数据的伪造检测结果;
其中,所述双流网络包括图像网络分支、音频网络分支和预测网络;
所述图像网络分支包括依次连接的第一特征提取网络和帧间一致性提取模块,所述第一特征提取网络用于提取所述人脸图像的面部关键点特征,所述帧间一致性提取模块用于基于所述面部关键点特征提取所述人脸图像的帧间一致性特征;所述帧间一致性特征为相邻两帧所述视频帧的所述面部关键点特征的一致性;
所述音频网络分支包括依次连接的第二特征提取网络和时间一致性提取模块,所述第二特征提取网络用于提取所述音频数据的音频特征,所述时间一致性提取模块用于基于所述音频特征提取所述音频数据的时间一致性特征;所述时间一致性特征为相邻两帧所述视频帧的所述音频特征的一致性;所述第二特征提取网络包括依次连接的声谱图提取模块、第一音频特征提取模块、注意力图提取模块、第二音频特征提取模块、跨模态注意力模块和第三音频特征提取模块;所述声谱图提取模块用于提取所述音频数据的声谱图;所述第一音频特征提取模块用于对所述声谱图进行特征提取,得到所述音频数据的第一初始特征;所述注意力图提取模块用于根据所述第一初始特征提取所述音频数据的注意力图;所述第二音频特征提取模块用于对所述注意力图进行特征提取,得到所述音频数据的第二初始特征;所述跨模态注意力模块用于基于所述面部关键点特征和所述第二初始特征获取所述音频数据的跨模态注意力,所述跨模态注意力CMAtt(a)表示为:其中,Fv是所述面部关键点特征,Fα2是所述第二初始特征,d是所述面部关键点特征和所述第二初始特征的特征维数,T为转置运算;所述第三音频特征提取模块用于根据所述音频数据的第二初始特征和所述跨模态注意力获取所述音频数据的音频特征;
所述预测网络用于基于所述人脸图像的帧间一致性特征和所述音频数据的时间一致性特征获取所述待测视频数据的伪造检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210062374.0A CN114596609B (zh) | 2022-01-19 | 2022-01-19 | 一种视听伪造检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210062374.0A CN114596609B (zh) | 2022-01-19 | 2022-01-19 | 一种视听伪造检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114596609A CN114596609A (zh) | 2022-06-07 |
CN114596609B true CN114596609B (zh) | 2023-05-09 |
Family
ID=81804274
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210062374.0A Active CN114596609B (zh) | 2022-01-19 | 2022-01-19 | 一种视听伪造检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114596609B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115359156B (zh) * | 2022-07-31 | 2023-12-05 | 荣耀终端有限公司 | 音频播放方法、装置、设备和存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111967427A (zh) * | 2020-08-28 | 2020-11-20 | 广东工业大学 | 一种伪造人脸视频鉴别方法、系统和可读存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781916A (zh) * | 2019-09-18 | 2020-02-11 | 平安科技(深圳)有限公司 | 视频数据的欺诈检测方法、装置、计算机设备和存储介质 |
CN113723295B (zh) * | 2021-08-31 | 2023-11-07 | 浙江大学 | 一种基于图像域频域双流网络的人脸伪造检测方法 |
-
2022
- 2022-01-19 CN CN202210062374.0A patent/CN114596609B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111967427A (zh) * | 2020-08-28 | 2020-11-20 | 广东工业大学 | 一种伪造人脸视频鉴别方法、系统和可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114596609A (zh) | 2022-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3471023B1 (en) | Offline identity authentication method and apparatus | |
CN111862990B (zh) | 说话者身份验证方法及系统 | |
US20220318349A1 (en) | Liveness detection using audio-visual inconsistencies | |
CN110378219A (zh) | 活体检测方法、装置、电子设备及可读存储介质 | |
CN114898432A (zh) | 基于多特征融合的伪造人脸视频检测方法及系统 | |
WO2022268183A1 (zh) | 一种基于视频的随机手势认证方法及系统 | |
CN114596609B (zh) | 一种视听伪造检测方法及装置 | |
CN114842524B (zh) | 一种基于不规则显著性像素簇的人脸鉴伪方法 | |
CN115393968A (zh) | 一种融合自监督多模态特征的视听事件定位方法 | |
CN113627233A (zh) | 基于视觉语义信息的人脸伪造检测方法和装置 | |
CN113241081A (zh) | 一种基于梯度反转层的远场说话人认证方法及系统 | |
CN117275063A (zh) | 基于三维信息时序一致性的人脸深度伪造检测方法及系统 | |
CN116704585A (zh) | 一种基于质量感知的人脸识别方法 | |
CN116310969A (zh) | 一种基于多尺度特征解耦的深度伪造视频检测方法和装置 | |
CN115565548A (zh) | 异常声音检测方法、装置、存储介质及电子设备 | |
CN112651319B (zh) | 一种视频检测方法、装置、电子设备及存储介质 | |
CN112215076B (zh) | 一种基于双塔网络的深度笔迹鉴定方法及装置 | |
CN114693607A (zh) | 基于多域块特征标志点配准的篡改视频检测方法及系统 | |
CN115035052A (zh) | 一种基于身份差异量化的伪造换脸图像检测方法和系统 | |
CN115331135A (zh) | 基于多域特征区域标准分数差异的Deepfake视频检测方法 | |
CN117273747B (zh) | 基于人脸图像识别的支付方法、装置、存储介质和设备 | |
Yang et al. | Deepfake detection based on no-reference image quality assessment (nr-iqa) | |
Khan et al. | Frame-to-Utterance Convergence: A Spectra-Temporal Approach for Unified Spoofing Detection | |
Agarwal et al. | Learning to synthesize faces using voice clips for Cross-Modal biometric matching | |
Chen et al. | DBANet: A Dual Branch Attention-Based Deep Neural Network for Biological Iris Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |