CN115512448A

CN115512448A - 基于多时序注意力网络对人脸伪造视频检测方法

Info

Publication number: CN115512448A
Application number: CN202211279833.7A
Authority: CN
Inventors: 茹一伟; 孙哲南; 何召峰
Original assignee: Tianjin Zhongke Intelligent Identification Co ltd
Current assignee: Tianjin Zhongke Intelligent Identification Co ltd
Priority date: 2022-10-19
Filing date: 2022-10-19
Publication date: 2022-12-23

Abstract

本发明公开一种基于多时序注意力网络对人脸伪造视频检测方法，通过一个审视分支网络将从审视序列的帧中注意力特征图作为特征图权重信息，通过卷积操作检测审视序列中待处理帧中的伪影；通过一个浏览分支网络通过卷积操作检测浏览序列中待处理帧的连贯性，同时与所述的审视分支网络在每一层的输出通过侧向连接融合；最后由全连接层对浏览分支网络、审视分支网络各自卷积处理的输出结果融合，最后输出识别结果，保证了人脸检测的有效性且大大提升了检测效率。

Description

基于多时序注意力网络对人脸伪造视频检测方法

技术领域

本发明涉及伪造视频检测技术领域，特别是涉及一种基于多时序注意力网络对人脸伪造视频检测方法。

背景技术

人脸伪造视频检测技术，是由输入设备(本地摄像头、Web摄像头等)将数据(包括视频流媒体、图像序列、图像、视频等)输入到训练好的人脸检测器中，利用训练好的人脸检测器对输入数据进行逐帧人脸检测，提取每帧图像中的人脸面部区域；将提取到的人脸面部区域输入到二分类卷积网络中(Real/Fake)，由面部伪造鉴别模型对输入的人脸面部区域进行真伪判别。

随着GAN生成网络技术的不断发展，生成的面部伪造图像越来越逼真，针对视频数据的深度伪造检测技术最近几年受到了越来越多的关注，伪造检测和安全性防范系统中，需要对视频流中的人脸进行伪造检测以识别其中的人脸的真伪，以满足用户对人脸伪造视频甄别的要求。

然而目前的检测方法要么只关注于视频帧内部的信息，要么对视频帧间的扰动过于敏感。总之，现有上述的常规的人脸伪造视频检测技术已难以适应检测要求，现有人脸伪造检测技术尚有待进一步提高，以进一步的满足检测的需要。

发明内容

本发明的目的是针对现有技术中存在的技术缺陷，而提供一种基于多时序注意力网络对人脸伪造视频检测方法。

为实现本发明的目的所采用的技术方案是：

一种种基于多时序注意力网络对人脸伪造视频检测方法，包括步骤；

对输入的视频序列由起始帧起进行人脸检测、跟踪，识别出同一人脸后存储为待处理的人脸序列；

网络对人脸序列按不同时序采样率降采样，得到浏览序列、审视序列；

对审视序列中的帧提取注意力特征图；

浏览分支网络每次通过卷积操作提取到浏览序列中帧的特征图后，与审视分支网络每一层输出的特征图通过侧向连接融合，融合后特征图作为浏览分支网络下一卷积的输入；审视分支网络每次卷积操作提取到审视序列中帧的特征图后，与对应的注意力特征图相乘后输出；

全连接层对浏览分支网络、审视分支网络各自卷积处理的输出结果融合，最后输出识别结果。

优选的，所述浏览分支网络、审视分支网络进行卷积操作的每一层的卷积核大小相同。

优选的，所述浏览分支网络进行卷积操作的每一层的卷积核的数量是所述审视分支网络的每一层的卷积核的数量β倍，α×β＝1，浏览序列的长度为审视序列长度的α倍。

优选的，所述侧向连接融合采用稠密卷积融合，其实现步骤如下：

对浏览分支网络形成的特征图用3D卷积网络处理,将每一帧的特征图个数降低，然后将得到的特征图与审视分支网络形成的特征图按照对应关系连接，进行融合，得到对应的融合特征图。

优选的，所述对浏览分支网络形成的特征图用3D卷积网络处理的采样间隔为1/α，每隔1/α帧取一帧进行处理。

优选的，采用预训练的网络来对审视序列中的帧提取注意力特征图。

更优选的，采用预训练的U-Net网络来对审视序列中的帧提取注意力特征图。

优选的，训练的U-Net网络时，基于数据集中真实人脸与伪造人脸存在对应关系，通过正负样本间做差，得到伪造人脸对于真实人脸的伪造区域，从而得到帧的注意力特征图。

优选的，对所述U-Net网络训练时，引入软注意力标签，将软注意力标签作为真实人脸图像的标签取代真实人脸图像对网络训练，将真实人脸图像表示为R_Image,真实人脸图像压缩率为ρ(0<ρ<1)，真实人脸图像的软标签表示为S_label，ρ×R_Image代表真实人脸图像压缩ρ倍，即真实人脸图像的分辨率从(W,H)压缩为(ρ×W,ρ×H),真实人脸图像的软标签的表达式如下：

S_label＝(ρ×R_Image)×(1/ρ)-R_Image。

优选的，在检测过程中，所述浏览分支网络对人脸序列的扫描帧率大于所述审视分支网络的扫描帧率。

本发明的伪造视频检测技术，通过一个审视分支网络将从审视序列的帧中注意力特征图作为特征图权重信息，通过卷积操作检测审视序列中待处理帧中的伪影；通过一个浏览分支网络通过卷积操作检测浏览序列中待处理帧的连贯性，同时与所述的审视分支网络在每一层的输出通过侧向连接融合；最后由全连接层对浏览分支网络、审视分支网络各自卷积处理的输出结果融合，最后输出识别结果，保证了人脸检测的有效性且大大提升了检测效率。

附图说明

图1是本发明的基于多时序注意力网络对人脸伪造视频检测方法的流程图。

图2为本发明的多时序融合网络的结构示意图。

图3为本发明实施例所用U-Net网络结构的预训示意图。

图4为浏览分支与审视分支采用不同融合方式进行融合的示意图。

图5为网络训练过程中不同软注意标签设置下对图像分辨率缩小再扩大为原始分辨率的图像后减去真实图像所得的结果示意图。

图3中参数说明如下：

3x3 Conv,F filters*,3x3 Conv代表3x3卷积，加*代表该卷积操作后续进行BatchNormalization正则化与ReLU操作；

2x2 Maxpooling2D代表使用2x2的卷积核进行最大池化操作；Concatenation代表将两个卷积核进行通道连接操作；

3x3 Transpose Conv代表以3x3的卷积核进行反卷积操作；

2x2 UpSamling2D代表使用2x2的卷积核对特征图上采样操作以对特征图进行超分。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明实施例的基于多时序注意力网络对人脸伪造视频检测方法，其检测流程如下：

对审视序列中的帧提取注意力特征图；

本发明的实施例中，所述输入的视频序列可以是视频数据、流媒体数据、图像序列、摄像头采集序列等数据。

本发明的实施例中，进一步的，输入的视频序列后，网络还进一步的判断输入序列的格式是否正确，如正确则进行解码，如错误则返回错误码，直到收到格式正确的输入数据，然后进行解码处理。

进一步的，本发明实施例中，在检测到不同的人脸后，按识别出来的不同人脸进行分别存储为不同的序列，形成不同ID序列的人脸序列，然后再对人脸序列进行真伪检测处理。

其中，对输入的序列可以从起始帧开始，进行人脸检测、然后对检测的出人脸进行跟踪、通过人脸的关键点检测、对人脸进行识别操作，将识别出的不同的人脸序列按照识别的ID分别进行存储。

在对人脸序列全部检测完成后，本发明实施例的检测技术可以通过可视化的方式进行真伪结果显示，如通过颜色标注或是文字标注等能实现区分可视化的展示的方式进行输出显示，如由显示装置，例如显示屏输出显示。

其中在提取审视序列中的帧的注意力特征图，即提取帧的伪造区域的注意(Attention)信息)时，可以是利用预训好的提取网络来实现，如可以是U-Net，但是并不局限于该种网络的使用，亦可采用mask-rcnn等其他分割网络实现。

该注意力特征图，作为审视分支网络的特征图的权重信息，由审视分支网络利用其对特征图进行处理，检测特征图中的伪影。

在得到注意力特征图，然后调整特征图的分辨率，将注意力特征图作为权重信息加入审视分支网络中，让网络可以给人脸或面部伪造区域更高的权重，从而提升网络模型的鉴别能力。

需要注意的是，如上所述的U-Net网络是经过提前预训练的，由于数据集中真实人脸与伪造人脸存在对应关系，通过正负样本之间做差，可以得到伪造人脸对于真实人脸的篡改区域，该篡改区域即为Attention区域。将篡改区域作为Attention区域，加入到网络中，能增加网络对于篡改区域的关注能力。

参见图5所示，该一系列图是图像经过不同压缩率缩放后产生的虚假伪影，和伪造图像的伪影相似，图中，real代表真实图像，fake代表伪造图像，diff代表真实图像与伪造图像在灰度通道相减的结果，black为纯黑图像，ρ代表对图像的缩放率，ρ-0.2代表对图像分辨率缩小为0.2倍后，再扩大为原始分辨率的图像后减去真实图像所得的结果。

如上所述，由于图像经过不同压缩率缩放后产生的虚假伪影和伪造图像的伪影相似，因此，在对网络训练时，为避免网络因图像缩放、压缩导致的虚假伪影而产生误判，使网络将更多的注意力放到对伪造视频的鉴别中，引入软注意力标签(Soft AttentionLable)，通过软注意力标签的应用，对网络进行训练，以提升网络的鉴别能力。

例如在训练时，可使用软注意力标签(Soft Attention Lable)取代纯黑图作为真实人脸的标签，将真实人脸表示为R_Image,图像压缩率为ρ(0<ρ<1)，真实图像的soft label表示为S_label，ρ×R_Image代表图像压缩ρ倍，即图像的分辨率从(W,H)压缩为(ρ×W,ρ×H),

soft label生成表达式如下：

S_label＝(ρ×R_Image)×(1/ρ)-R_Image。

其中，在网络的预训过程中，伪造视频经解码后，视频序列可表示为：{V_f1,V_f2,V_f3,···,V_fn}，伪造视频对应到的真实图像经解码后，视频序列可表示为：{V_r1,V_r2,V_r3,···,V_rn}，对于伪造序列，则输入帧的特征图可表示为{V_r1-V_f1,V_r2-V_f2,V_r3-V_f3,···,V_rn-V_fn},用{V_att1,V_att2,V_att3,···,V_attn}表示。

这样不同的伪造视频对应于真实的图像的注意力特征图就能获得，在以后的检测中可以作为注意力权重由审视分支网络在检测时使用。

本发明实施例中，所述审视分支网络以及浏览分支网络可以采用卷积网络来实现，可以是包含多层卷积操作。

本发明实施例中，检测过程中，浏览分支网络会以较高的帧率扫描整个视频，关注浏览序列的视频在时序上的连贯性，审视分支网络以较低的帧率对视频中的关键帧进行分析，关注审视序列中的帧内部是否有伪影存在。

通过这样的技术，保证了网络处理中的连贯性检测以及伪影检测的分通道进行，能实现将连贯性序列与伪影检测对应起来，方便后续的获得快速的准确的检测结果。

本发明实施例中，如图2所示，输入网络的视频解码序列化后，经不同的时序采样率可以得到浏览序列与审视序列，Temporal Stride代表对输入序列进行时序采样。浏览分支网络以较少的网络参数，处理较多的帧序列。审视分支网络以较多的网络参数，处理较少的帧序列。

同时，一预训好的U-Net网络提取审视序列中帧的注意力特征图(Attentionmap)，将提取到的注意力特征图(Attention map)送入到审视分支网络中，由审视分支网络利用并作为注意力权重对审视序列中的帧中进行处理，提取特征图，注意力特征图(Attention map)的加入能使审视分支网络更好的判别视频帧真伪。每一层卷积后，审视分支网络与浏览分支网络的输出结果在对应的节点通过侧向连接(lateral connection)融合，最终的结果作为判别的依据。审视分支网络与浏览分支网络的最终所输出的特征图经过即全连接层(Fully Connect Layer)融合处理后，将检测结果(Result)进行输出。

其中，所述U-Net网络在提取注意力特征图时，对审视序列提取注意力特征图，获得注意力序列，然后将注意力权重送入到审视分支网络，然后对注意力序列按审视序列的卷积步骤对应的进行尺度缩放，将尺度缩放后形成的注意力权重送到审视分支网络，由审视分支网络的对应的卷积层基于此注意力权重在本卷积层进行特征图的卷积处理。

其中，所述的U-Net网络是通过对输入的人脸序列采用卷积、最大池化以及Concatenation连接等处理手段实现提取注意力特征图的，可以参考图3所示。

参见图2所示，处理时，输入视频、流媒体数据通过解码，得到T×τ_b个独立的帧，浏览分支网络每隔τ_b帧提取一帧，得到长度为T的浏览序列。设浏览序列的长度为审视序列长度的α倍，则审视分支网络每隔τ_s帧提取一帧(τ_s＝α×τ_b)，得到长度为T/α的审视序列。

为了保持浏览分支网络与审视分支网络可以通过侧连接融合，本发明实施例中，保持浏览分支网络与审视分支网络的卷积核大小相同，浏览分支网络每层的卷积核个数为审视分支网络的β倍(α×β＝1)，浏览分支网络的特征图输出个数为审视分支的β倍。

根据如上所述，浏览分支网络输出可表示为{T，W，H，C},C为特征图的层数，审视分支网络可表示为{αT,W,H,βC},其中W，H表示特征图的宽度与高度，因为α×β＝1，则可将浏览分网络支与审视分支网络通过侧连接进行融合。

本发明实施例中，将浏览分支网络的输出特征图与审视分支网络的输出特征图进行融合可以采用通道重组融合、通道降采样融合、稠密卷积融合或稀疏卷积融合的任一融合方式实现。

所述的通道重组融合的方式是：

若浏览分支网络中，特征图的形状可表示为{T，W，H，C}，将浏览分支网络中的特征图通道进行分解，通过重组特征图个数与特征图通道数的方式，调整到与审视分支中网络的特征图通道数一致{αT,W,H,βC}，然后将两个分支网络中的特征图逐个相加，得到最后通道重组融合的融合特征图。

所述的通道降采样融合的方式是：

若浏览分支网络中的特征图的形状可表示为{T，W，H，C}，对特征图个数较多的浏览分支网络进行特征图降采样，每隔1/α(α<1)帧取一帧，使得浏览分支网络中的特征图个数与审视分支网络中的特征图个数一致,将浏览分支网络特征图的形状调整为{αT，W，H，C}，采用CONCAT的方式，将浏览分支网络中的特征图追加到审视分支网络的对应特征图中，得到最后通道降采样融合的融合特征图。

所述的稠密卷积融合的方式是：

若浏览分支网络中的特征图的形状可表示为{T，W，H，C}，对浏览分支网络的特征图利用3D卷积,采样间隔为1/α(α<1)，将其每一帧的特征图个数降低为k(k<C)，此时浏览分支网络的特征图形状为{αT，W，H，k}，然后将得到的特征图与审视分支网络中的特征图按照对应关系进行CONCAT，得到最后的稠密卷积融合特征图。

所述的稀疏卷积融合的方式是：

若浏览分支网络中的特征图的形状可表示为{T，W，H，C}，对浏览分支网络的特征图利用3D卷积,采用间隔为1/α(α<1)，将其每一帧的特征图个数降低为k/2,(k<C)，此时浏览分支网络的特征图形状为{αT，W，H，k/2}，然后将得到的特征图与审视分支网络中的特征图按照对应关系进行CONCAT，得到最后的稠密卷积融合特征图。

为验证浏览分支网络与审视分支网络通不同侧连接方式的性能，本发明在同一实验条件下，测试了四种侧连接方式的性能，实验中，设置α＝0.25，β＝4，k＝4，经过验证，最好的侧连接方式为稠密卷积融合。

相较于没有侧连接的方式，稠密卷积融合方式在实验中性能提升8.83％，即使是性能最差的利用通道融合进行侧连接的方式，相比于没有侧连接的网络，性能提升也有6.65％。

表1

以上所述仅是本发明的优选实施方式，应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.基于多时序注意力网络对人脸伪造视频检测方法，其特征在于，包括：

对审视序列中的帧提取注意力特征图；

2.根据权利要求1所述基于多时序注意力网络对人脸伪造视频检测方法，其特征在于，所述浏览分支网络、审视分支网络进行卷积操作的每一层的卷积核大小相同。

3.根据权利要求2所述基于多时序注意力网络对人脸伪造视频检测方法，其特征在于，所述浏览分支网络进行卷积操作的每一层的卷积核的数量是所述审视分支网络的每一层的卷积核的数量β倍，α×β＝1，浏览序列的长度为审视序列长度的α倍。

4.根据权利要求1所述基于多时序注意力网络对人脸伪造视频检测方法，其特征在于，所述侧向连接融合采用稠密卷积融合，其实现步骤如下：

5.根据权利要求4所述基于多时序注意力网络对人脸伪造视频检测方法，其特征在于，所述对浏览分支网络形成的特征图用3D卷积网络处理的采样间隔为1/α，每隔1/α帧取一帧进行处理。

6.根据权利要求1所述基于多时序注意力网络对人脸伪造视频检测方法，其特征在于，采用预训练的网络来对审视序列中的帧提取注意力特征图。

7.根据权利要求6所述基于多时序注意力网络对人脸伪造视频检测方法，其特征在于，采用预训练的U-Net网络来对审视序列中的帧提取注意力特征图。

8.根据权利要求7所述基于多时序注意力网络对人脸伪造视频检测方法，其特征在于，训练的U-Net网络时，基于数据集中真实人脸与伪造人脸存在对应关系，通过正负样本间做差，得到伪造人脸对于真实人脸的伪造区域，从而得到帧的注意力特征图。

9.根据权利要求7或8所述基于多时序注意力网络对人脸伪造视频检测方法，其特征在于，对所述U-Net网络训练时，引入软注意力标签，将软注意力标签作为真实人脸图像的标签取代真实人脸图像对网络训练，将真实人脸图像表示为R_Image,真实人脸图像压缩率为ρ(0<ρ<1)，真实人脸图像的软标签表示为S_label，ρ×R_Image代表真实人脸图像压缩ρ倍，即真实人脸图像的分辨率从(W,H)压缩为(ρ×W,ρ×H),真实人脸图像的软标签的表达式如下：

S_label＝(ρ×R_Image)×(1/p)-R_Image。

10.根据权利要求1所述基于多时序注意力网络对人脸伪造视频检测方法，其特征在于，在检测过程中，所述浏览分支网络对人脸序列的扫描帧率大于所述审视分支网络的扫描帧率。