CN115527276A - 基于面部光流场与纹理特性融合的深伪视频检测方法 - Google Patents

基于面部光流场与纹理特性融合的深伪视频检测方法 Download PDF

Info

Publication number
CN115527276A
CN115527276A CN202211279831.8A CN202211279831A CN115527276A CN 115527276 A CN115527276 A CN 115527276A CN 202211279831 A CN202211279831 A CN 202211279831A CN 115527276 A CN115527276 A CN 115527276A
Authority
CN
China
Prior art keywords
optical flow
image
face
fusion
image sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211279831.8A
Other languages
English (en)
Inventor
茹一伟
孙哲南
何召峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Zhongke Intelligent Identification Co ltd
Original Assignee
Tianjin Zhongke Intelligent Identification Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Zhongke Intelligent Identification Co ltd filed Critical Tianjin Zhongke Intelligent Identification Co ltd
Priority to CN202211279831.8A priority Critical patent/CN115527276A/zh
Publication of CN115527276A publication Critical patent/CN115527276A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/40Spoof detection, e.g. liveness detection
    • G06V40/45Detection of the body part being alive
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/54Extraction of image or video features relating to texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/167Detection; Localisation; Normalisation using comparisons between temporally consecutive images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于面部光流场与纹理特性融合的深伪视频检测方法,包括:计算输入的人脸图像序列的光流强度图,得到对应的光流图像序列;对人脸图像序列的RGB图像与对应的光流图像序列的光流强度图逐个进行融合;将得到的融合图像序列输入检测模型中进行真伪鉴别,输出真伪结果。本发明效利用了光流强度图的特性,保留光流方法对伪造视频帧间“伪影”抖动敏感的同时,又具备了融合面部原有纹理特性的能力,能实现对深伪视频的有效检测。

Description

基于面部光流场与纹理特性融合的深伪视频检测方法
技术领域
本发明涉及深伪视频检测技术领域,特别是涉及一种基于面部光流场与纹理特性融合的深伪视频检测方法。
背景技术
人脸伪造视频检测技术,是由输入设备(本地摄像头、Web摄像头等)将数据(包括视频流媒体、图像序列、图像、视频等)输入到训练好的人脸检测器中,利用训练好的人脸检测器对输入数据进行逐帧人脸检测,提取每帧图像中的人脸面部区域;将提取到的人脸面部区域输入到二分类卷积网络中(Real/Fake),由面部伪造鉴别模型对输入的人脸面部区域进行真伪判别。
随着GAN生成网络技术的不断发展,生成的面部伪造图像越来越逼真。目前的伪造鉴别方法大都是基于单张图像的检测,对于伪造视频的鉴别也是将视频序列化后,在视频的单独帧内进行真伪判别,然后将判别结果融合得到最终视频的判别结果,因此并没有很好的利用视频的帧间信息,造成帧间信息的浪费。同时对于深度学习生成的伪造图像或视频,在生成过程中,存在生成人脸与被篡改人脸的背景融合的过程,因此,在生成的图像中存在一定的“伪影”区域,该“伪影”区域存在一定的随机性,故而在相临帧中存在差异。
发明内容
本发明的目的是针对现有技术中存在的技术缺陷,而提供一种基于面部光流场与纹理特性融合的深伪视频检测方法。
为实现本发明的目的所采用的技术方案是:
一种基于面部光流场与纹理特性融合的深伪视频检测方法,包括:
计算输入人脸序列的光流强度图,得到对应的光流图像序列;
对人脸图像序列的RGB图像与对应的光流图像序列的光流强度图逐个进行融合,得到融合图像序列;
将得到的融合图像序列输入训练好的检测模型中进行真伪鉴别,输出真伪结果。
优选的,利用图像拼接或权重融合手段,对所述人脸图像序列的RGB图像与对应的光流图像序列的光流强度图逐个进行融合。
优选的,所述人脸图像序列的RGB图像与对应的光流图像序列的光流强度图按不同的融合系数ρ进行融合,ρ大于0小于1;
设Irgb代表RGB图像,Ioptical_flow代表光流图像,Imix代表融合后的图像,则融合图像可表示为:
Imix=(1-ρ)×Irgb+ρ×Ioptical_flow
更优选的,所述人脸图像序列的RGB图像与对应的光流图像序列的光流强度图按1∶1的比例进行融合,融合系数ρ为0.5。
优选的,所述的检测模型对融合图像经过网络计算后,得到范围为[0,1]的预测结果,预测结果越趋近于0代表输入图越真实,预测结果越趋近于1代表输入图像为生成图像。
优选的,所述的计算输入人脸序列的光流强度图时,首先利用两个子模块对t、t+1时刻的两幅输入图像视频帧分布进行光流特征图的卷积提取,得到两个相关的多通道特征图,在两个多通道特征图之间执行特征块的比较,计算两个特征块的相关性时,通过以下步骤实现:
给定最大位移d,对于每个待匹配块x1,限制搜索匹配块x2的范围,仅在D=2×d+1的邻域中计算相关性c(x1,x2),使用步幅s1和步幅s2,以全局量化待匹配块x1,并量化以待匹配块x1为中心的邻域内的搜索匹配块x2
Figure BDA0003898219450000031
式中,f1,f2分别为两个多通道特征图。
优选的,在提取输入人脸序列的光流强度图,得到光流图像序列的步骤之前,还包括步骤:
对输入序列进行人脸检测、跟踪、关键点检测、识别操作,将识别出的人脸按照识别的ID分别进行存储,形成人脸序列。
其中,输出真伪结果时,将模型的预测结果在输入视频上进行可视化展示,将人脸检测框用不同的颜色表示或在人脸检测框的一侧进行真伪标注。
本发明中,所述的检测模型可以采用如下步骤训练形成:
将真实视频集与伪造视频集进行标签化,真实视频的标签为0,伪造视频的标签为1,然后对真实视频集与伪造视频集进行解码操作,得到对应的图像序列;
对图像序列进行人脸检测,并检测到的人脸进行跟踪;
当检测到图像序列中存在多个人脸时,应用人脸识别方法,将图像序列中的裁剪后的人脸按ID信息分别存储,对裁剪好的人脸序列进行光流计算;
得到光流图后,利用不同的图像融合方法,将光流图像与裁剪到的人脸图像进行融合;
对于得到的融合图像,采用扩增方法进行数据增广;
将增广后的数据送入分类网络中进行训练,当分类网络的Loss降低到足够低时,得到最优的分类模型,保存此时分类模型的结构与权重参数,用于后续的检测过程,至此训练过程结束。
其中,所述的进行数据增广的方法包括随机裁剪、色调、亮度、对比度、随机遮挡。
本发明本发明通过对输入的人脸图像序列提取其光流强度图,得到对应的光流图像序列,然后与对人脸图像序列的RGB图像逐个进行融合,形成融合后的图像序列,然后输入到预训练好的检测模型中进行真伪鉴别,有效利用了光流强度图的特性,保留光流方法对伪造视频帧间“伪影”抖动敏感的同时,又具备了融合面部原有纹理特性的能力。
附图说明
图1是本发明的基于面部光流场与纹理特性融合的深伪视频检测方法的流程图。
图2为本发明的检测模型的训练过程示意图。
图3为基于面部光流场与纹理特性融合的深伪视频检测过程的示意图。
图4为利用不同的光流提取方法提取到的相邻两帧的光流图像对比图。
图5为人脸的RGB图像与光流图像通过不同的融合方式得到的融合图像。
图6为前后两帧图像输入网络进行光流特征提取的过程示意图。
图7为利用相关层进行网络快速匹配的示意图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
对于深度学习生成的伪造图像或视频,在生成过程中,存在生成人脸与被篡改人脸的背景融合的过程,因此在生成的图像中会存在一定的“伪影”区域,该“伪影”区域存在一定的随机性,故而在相临帧中存在差异。
为更好的利用这种帧间差异,本发明出了基于面部光流与纹理特性融合的深伪视频检测方法,将光流应用到深度伪造视频的检测任务中,同时为避免光流对于帧间抖动过于敏感,保留一定的面部纹理特性,该方法将视频序列中相临帧的光流与人脸图像进行融合,在保留光流方法对伪造视频帧间“伪影”抖动敏感的同时,又具备了融合面部原有纹理特性的能力。
如图1、图3所示,本发明实施例的基于面部光流场与纹理特性融合的深伪视频检测方法,主要包括以下步骤:
计算输入的人脸图像序列的光流强度图,得到对应的光流图像序列;
对人脸图像序列的RGB图像与对应的光流图像序列逐个进行融合;
将得到的融合图像序列输入检测模型中进行真伪鉴别,输出真伪结果。
本发明通过对输入的人脸图像序列提取其光流强度图,得到对应的光流图像序列,然后与对人脸图像序列的RGB图像逐个进行融合,形成融合后的图像序列,然后输入到预训练好的模型中进行真伪鉴别,有效利用了光流强度图的特性,保留光流方法对伪造视频帧间“伪影”抖动敏感的同时,又具备了融合面部原有纹理特性的能力。
其中,所述检测模型采用InceptionNet、ResNet、VGG-Net、EfficientNet、MobileNet、ShuffleNet的一种。
其中,计算输入的人脸图像序列的光流强度图的步骤之前,还包括步骤:
对输入序列进行人脸检测、跟踪、关键点检测、识别操作,将识别出的人脸按照识别的ID分别进行存储,形成人脸序列,同时对识别出的人脸逐一计算其光流强度,同时得到光流图像序列。
在人脸检测过程中加入跟踪算法,可以抵消人脸检测框抖动的影响,可以提升光流计算的稳定性,避免人脸检测框的抖动给光流计算带来误差。
进一步的,为了应对视频中出现多个人脸相互遮挡造成跟踪失效的情况,加入了人脸识别功能,从而保证视频中出现多个人脸依然可以准确跟踪。
本发明实施例的检测方法可以对输入的视频数据进行处理,在接收到输入的视频数据时,首先判断输入序列的格式是否正确,如正确则进行解码,如错误则返回错误码。
其中,在对符合要求的格式的视频数据解码处理时,可以是现有解码技术或手段进行,如利用FFmpeg对输入的视频进行解码,其支持多种视频格式,包括MP4、MOV、WMV、AVI、WKV等,对于解码过程不再赘述。
本发明实施例中,计算输入人脸序列的光流强度图,可以采用现有的光流计算方法或网络来实现;其中,目前的可用的光流计算网络可以是如公知的LiteFlowNet、LiteFlowNet2、HD3、LiteFlowNet3、FlowNet2、PWC-Net等。
其中,所述的权重融合是将输入的人脸图像的RGB图像与计算到的光流图像,按照不同的权重系数进行融合,通过调整权重系数,得到融合图像,以用于后续的伪造鉴别,即将融合图像送入训练好的鉴伪网络中鉴别真伪。
其中,对权重融合后的融合图像进行鉴别的训练好的鉴伪网络,如可以采用本领域中公知或熟悉的分类网络来实现,如可采用目前公开的分类网络InceptionNet、ResNet、VGG-Net、EfficientNet等。
另外,如果需要对网络部署到嵌入式端也可采用MobileNet、ShuffleNet等结构。
由鉴伪网络或分类网络对权重融合后的图像经过网络计算后,可以得到范围为[0,1]的预测结果,预测结果越趋近于0代表输入图越真实,预测结果越趋近于1代表输入图像为生成图像的可能性越高。
为了更能直观显示鉴别结构,本发明优选的采用可视化的结果显示计算对鉴别结果进行展示或显示,方便可以直接知晓真伪结果。
其中,在结果可视化中,将模型的预测结果在输入视频上进行展示,如根据模型预测的真伪,将人脸检测框用不同的形式表示,若预测结果小于等于0.5分,则将人脸检测框用实红线表示,若预测结果大于0.5分,则将人脸检测框用虚绿线表示。
另外,为了可视化的更直观,将Real/Fake标签显示在人脸检测框的一侧,如右上端或是相应的位置。
其中,所述的训练好的检测模型的可以采用如下步骤训练实现,参见图2所示:
首先将收集到的真实视频集与伪造视频集进行标签化,真实视频的标签为0,伪造视频的标签为1,然后利用视频解码方法,对真实视频集与伪造视频集进行解码操作,从而得到对应的图像序列。
得到训练集的图像序列后,对图像序列进行人脸检测,在人脸检测过程中加入人脸跟踪的方法,以提升人脸检测的精度与速度,利用跟踪方法来减少检测过程中检测框的抖动误差。
当检测到图像序列中存在多个人脸时,为更好区分图像序列中人脸,加入人脸识别的方法,将图像序列中的裁剪后的人脸按照身份信息分别进行存储,然后利用现有的可用的光流计算方法对裁剪好的人脸序列进行光流计算。
其中,特别的,训练中,为了提升后续模型的泛化性,将目前开源的光流计算方法进行整理,每一个光流计算方法都会用于人脸序列等光流计算,得到光流强度图;设输入人脸序列的个数为n+1,提取光流的方法个数为m,则通过计算可以得到m×n个光流图(对于单个光流提取方法,两个相临输入帧可得到一个光流图,故n+1个输入帧,可得到n个光流图)。
得到光流图后,利用不同的融合方法,将光流图像与裁剪到的人脸图像进行融合,可以采用拼接融合、权重融合等方式来进行融合。
对于得到的融合图像,可以采用扩增方法如随机裁剪、色调、亮度、对比度、随机遮挡等进行数据增广。
将增广后的数据送入现有分类网络,如InceptionNet、ResNet、VGG-Net、EfficientNet、MobileNet、ShuffleNet等中进行训练。
当Loss降低到足够低时,可以得到最优的分类模型,即检测模型,保存此时分类模型的结构与权重参数,用于后续的检测过程,至此训练过程结束。
图4表示对于真实视频与伪造视频中的相邻两帧,即第k帧与第k+1帧,利用不同的光流提取方法提取到的光流图像对比,图像的右侧用Real与Fake代表输入序列的真伪,图示下方用LiteFlowNet、LiteFlowNet2、HD3、LiteFlowNet3、FlowNet2、PWC-Net代表不同的光流提取方法。
从上图中可以看到,对于真实图像与伪造图像,其光流特征区分性明显。从真实视频相邻两帧提取到的光流强度图中,光流的强度较弱,整体光流图像亮度偏暗且光流强度图中人脸面部轮廓不清晰。而从深度学习生成的伪造视频相邻两帧提取到的光流强度图中,光流强度较强,整体光流图像亮度偏亮且光流强度图中人脸面部伪造区域轮廓清晰。
由于真实视频相邻两帧的光流强度图与伪造视频相邻两帧提取到的光流强度图在光流强度的强弱、整体光流图像亮度的亮暗,人脸面部轮廓清晰与否存在明显的区别,这样通过网络训练好,可以利用训练好的网络,对此进行鉴别,从而可以实现根据待鉴别的视频的光流强度的强弱、整体光流图像亮度的亮暗,人脸面部轮廓清晰与否,来给出真伪鉴别结果。
图5表示出了人脸的RGB图像与光流图像通过不同的融合方式得到的融合图像,为了方便对比,图5中(a)、(b)分别显示出的是没有经过融合的人脸的RGB图像与对应的光流图像。设网络输入图像的宽度与高度分别为w,h,将RGB图像与光流图像的分辨率分别调整为w/2,h,然后进行横向拼接,即得到图5中(c)所示的组合缩放后的图像。图5中(d)-(h)分别表示为由不同融合系数ρ得到的融合图像。
设Irgb代表RGB图像,Ioptical_flow代表光流图像,Imix代表融合后的图像,则融合图像可表示为:
Imix=(1-ρ)×Irgb+ρ×Ioptical_flow
下表为对真伪人脸检测时,不同模型的检测有效率(%),检测对象包括RGB图像,光流图像,拼接图像以及不同融合系数ρ融合下的融合图像。
Figure BDA0003898219450000091
表1
从上表中可以看出,当ρ取值为0.5时,在各个模型中大部分可以得到最好表现,也就是当光流图像与RGB图像按照1:1的比例进行融合,在兼顾面部帧间“伪影”信息与纹理信息的同时,可以获得最优的检测效果,进一步的也证明了本发明提出的方法的可行性。
图6表示出了前后两帧图像输入网络以进行光流特征提取的过程,位于左侧上方图像为t时刻的视频帧,位于左侧下方图像为t+1时刻的视频帧。
从图6可看出,网络首先利用两个子模块对两幅输入图像分布进行光流特征图的提取。为网络快速匹配,本发明引入了一个“相关层”,可以在两个特征图之间执行特征块的比较,给定两个多通道特征图f1,f2:R2→Rc,R2→Rc代表两个特征图到相关层取值范围变化,用w,h,c分别代表特征图的宽度、高度和通道数,相关层中将f1中的每个待匹配块与f2进行比较,首先考虑两个块的比较,两个块x1,x2的相关性可以定义为:
Figure BDA0003898219450000101
上式中两个块的相关性表示为c(x1,x2),块大小K=2k+1,需要注意的是,上式等同于神经网络中的卷积的一个步骤,但不是将数据与卷积核卷积,而是将待搜索特征图f1中的数据与其对应的搜索特征图f2中的数据进行卷积运算。
其中,计算特征图相关性时的搜索范围,是用待搜索特征图f1中的一点在搜索特征图f2中进行搜索,搜索范围是大小为2k+1的方框,当搜索到最相似的位置,待搜索特征图f1与搜索特征图f2的相关性最大。
对应的,如果待搜索特征图f1中搜索点的坐标为(x,y),则在搜索特征图f2中,横向搜索范围为(x-k,x+k),纵向搜索范围为(y-k,y+k)。
由于计算相关性c(x1,x2)涉及c×K2次乘法,比较所有的图块组合就会涉及w2×h2运算,这样的方式产生很大的结果并使有效的前进和反向传播变得棘手。因此,出于计算原因,本发明限制了比较的最大位移,并且在两个特征图中引入了步幅,具体计算如下:
给定最大位移d,对于每个待匹配块x1,都通过限制搜索匹配块x2的范围,仅在D=2×d+1的邻域中计算相关性c(x1,x2)。
使用步幅s1和s2,以全局量化x1并量化以x1为中心的邻域内的x2,实际比对中,因为人脸尺寸较小,所以将x1,x2两个块的步幅设置为1。
理论上所产生的结果是四维的:对于两个2D位置的每个组合,都获得一个相关值,即两个向量的标量积,分别包含裁剪后的图块的值。实际上,组合通道中的相对位移,能获得大小为(w×h×D2)的输出。
相关层应用了视觉中图像匹配的思想,在视觉算法匹配过程中,为了寻找上图中左侧人脸在右侧人脸中对应的位置,用搜索框在右侧人脸对应像素位置周围依次滑动,做相关运算(即对应位置像素相乘求和)。得到的值越大,代表越相关,即图像越接近。分割网络中的相关运算类似,不同点是其不在图像本身做相关,在卷积得到的特征图上做相关运算。
如图7所示,上文提及计算待匹配块x1,待匹配块x2的相关性,在平面图中可以理解为左侧人脸中白框为匹配块x1,右侧黑框为(给定最大位移d,对于每个待匹配块x1,都通过限制匹配块x2的范围,仅在大小D=2×d+1的邻域中计算相关性,c(x1,x2))对应到图6中,图6的右图中黑框中白色框的个数为5(D=2×d+1),也就是将匹配块x2限制在黑框的范围内与待匹配块x1进行匹配。
通过如上操作,待匹配块x1可以在匹配块x2中,以较小的搜索范围获得较高的精度,同时可以有效的减少计算量和存储消耗,使得光流的提取可以达到准实时的效果。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点,对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明;因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (10)

1.基于面部光流场与纹理特性融合的深伪视频检测方法,其特征在于,包括步骤:
计算输入人脸序列的光流强度图,得到对应的光流图像序列;
对人脸图像序列的RGB图像与对应的光流图像序列的光流强度图逐个进行融合,得到融合图像序列;
将得到的融合图像序列输入训练好的检测模型中进行真伪鉴别,输出真伪结果。
2.根据权利要求1所述基于面部光流场与纹理特性融合的深伪视频检测方法,其特征在于,利用图像拼接或权重融合手段,对所述人脸图像序列的RGB图像与对应的光流图像序列的光流强度图逐个进行融合。
3.根据权利要求2所述基于面部光流场与纹理特性融合的深伪视频检测方法,其特征在于,所述人脸图像序列的RGB图像与对应的光流图像序列的光流强度图按不同的融合系数ρ进行融合,ρ大于0小于1;
设Irgb代表RGB图像,Ioptical_flow代表光流图像,Imix代表融合后的图像,则融合图像可表示为:
Imix=(1-ρ)×Irgb+ρ×Ioptical_flow
4.根据权利要求3所述基于面部光流场与纹理特性融合的深伪视频检测方法,其特征在于,所述人脸图像序列的RGB图像与对应的光流图像序列的光流强度图按1:1的比例进行融合,融合系数ρ为0.5。
5.根据权利要求1所述基于面部光流场与纹理特性融合的深伪视频检测方法,其特征在于,所述的检测模型对融合图像经过网络计算后,得到范围为[0,1]的预测结果,预测结果越趋近于0代表输入图越真实,预测结果越趋近于1代表输入图像为生成图像。
6.根据权利要求1所述基于面部光流场与纹理特性融合的深伪视频检测方法,其特征在于,所述的计算输入人脸序列的光流强度图时,首先利用两个子模块对t、t+1时刻的两幅输入图像视频帧分布进行光流特征图的卷积提取,得到两个相关的多通道特征图,在两个多通道特征图之间执行特征块的比较,计算两个特征块的相关性时,通过以下步骤实现:
给定最大位移d,对于每个待匹配块x1,限制搜索匹配块x2的范围,仅在D=2×d+1的邻域中计算相关性c(x1,x2),使用步幅s1和步幅s2,以全局量化待匹配块x1,并量化以待匹配块x1为中心的邻域内的搜索匹配块x2
Figure FDA0003898219440000021
式中,f1,f2分别为两个多通道特征图。
7.根据权利要求1所述基于面部光流场与纹理特性融合的深伪视频检测方法,其特征在于,提取输入人脸序列的光流强度图,得到光流图像序列的步骤之前,还包括步骤:
对输入序列进行人脸检测、跟踪、关键点检测、识别操作,将识别出的人脸按照识别的ID分别进行存储,形成人脸序列。
8.根据权利要求1所述基于面部光流场与纹理特性融合的深伪视频检测方法,其特征在于,输出真伪结果时,将模型的预测结果在输入视频上进行可视化展示,将人脸检测框用不同的颜色表示或在人脸检测框的一侧进行真伪标注。
9.根据权利要求1所述基于面部光流场与纹理特性融合的深伪视频检测方法,其特征在于,所述的检测模型可以采用如下步骤训练形成:
将真实视频集与伪造视频集进行标签化,真实视频的标签为0,伪造视频的标签为1,然后对真实视频集与伪造视频集进行解码操作,得到对应的图像序列;
对图像序列进行人脸检测,并检测到的人脸进行跟踪;
当检测到图像序列中存在多个人脸时,应用人脸识别方法,将图像序列中的裁剪后的人脸按ID信息分别存储,对裁剪好的人脸序列进行光流计算;
得到光流图后,利用不同的图像融合方法,将光流图像与裁剪到的人脸图像进行融合;
对于得到的融合图像,采用扩增方法进行数据增广;
将增广后的数据送入分类网络中进行训练,当分类网络的Loss降低到足够低时,得到最优的分类模型,保存此时分类模型的结构与权重参数,用于后续的检测过程,至此训练过程结束。
10.根据权利要求9所述基于面部光流场与纹理特性融合的深伪视频检测方法,其特征在于,所述的进行数据增广的方法包括随机裁剪、色调、亮度、对比度、随机遮挡。
CN202211279831.8A 2022-10-19 2022-10-19 基于面部光流场与纹理特性融合的深伪视频检测方法 Pending CN115527276A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211279831.8A CN115527276A (zh) 2022-10-19 2022-10-19 基于面部光流场与纹理特性融合的深伪视频检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211279831.8A CN115527276A (zh) 2022-10-19 2022-10-19 基于面部光流场与纹理特性融合的深伪视频检测方法

Publications (1)

Publication Number Publication Date
CN115527276A true CN115527276A (zh) 2022-12-27

Family

ID=84702857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211279831.8A Pending CN115527276A (zh) 2022-10-19 2022-10-19 基于面部光流场与纹理特性融合的深伪视频检测方法

Country Status (1)

Country Link
CN (1) CN115527276A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116051838A (zh) * 2023-01-06 2023-05-02 深圳技术大学 面向对象的高分辨率无人机图像多尺度分割方法及系统
CN117274885A (zh) * 2023-11-23 2023-12-22 湖北微模式科技发展有限公司 一种人脸伪造视频检测方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116051838A (zh) * 2023-01-06 2023-05-02 深圳技术大学 面向对象的高分辨率无人机图像多尺度分割方法及系统
CN117274885A (zh) * 2023-11-23 2023-12-22 湖北微模式科技发展有限公司 一种人脸伪造视频检测方法
CN117274885B (zh) * 2023-11-23 2024-02-09 湖北微模式科技发展有限公司 一种人脸伪造视频检测方法

Similar Documents

Publication Publication Date Title
Matern et al. Exploiting visual artifacts to expose deepfakes and face manipulations
CN115527276A (zh) 基于面部光流场与纹理特性融合的深伪视频检测方法
Johnston et al. A review of digital video tampering: From simple editing to full synthesis
CN110555434A (zh) 一种局部对比和全局指导的立体图像视觉显著性检测方法
CN110866879B (zh) 一种基于多密度雨纹感知的图像去雨方法
Li et al. Beyond single reference for training: Underwater image enhancement via comparative learning
CN111563418A (zh) 一种基于注意力机制的非对称多模态融合显著性检测方法
KR20090084563A (ko) 비디오 영상의 깊이 지도 생성 방법 및 장치
Yang et al. Spatiotemporal trident networks: detection and localization of object removal tampering in video passive forensics
CN111815528A (zh) 基于卷积模型和特征融合的恶劣天气图像分类增强方法
CN113112416B (zh) 一种语义引导的人脸图像修复方法
CN111369548A (zh) 一种基于生成对抗网络的无参考视频质量评价方法及装置
CN111222447A (zh) 基于神经网络及多通道融合lbp特征的活体检测方法
Yan et al. No reference quality assessment for 3D synthesized views by local structure variation and global naturalness change
CN111401368B (zh) 一种基于深度学习的新闻视频标题提取方法
CN113553954A (zh) 行为识别模型的训练方法及装置、设备、介质和程序产品
CN112906631A (zh) 一种基于视频的危险驾驶行为检测方法和检测系统
CN111696021A (zh) 一种基于显著性检测的图像自适应隐写分析系统及方法
Breitenstein et al. Amodal cityscapes: a new dataset, its generation, and an amodal semantic segmentation challenge baseline
CN116152173A (zh) 一种图像篡改检测定位方法及装置
CN114399734A (zh) 一种基于视觉信息的森林火灾预警方法
CN114419102A (zh) 一种基于帧差时序运动信息的多目标跟踪检测方法
CN116824641B (zh) 姿态分类方法、装置、设备和计算机存储介质
CN113066074A (zh) 一种基于双目视差偏移融合的视觉显著性预测方法
CN114449362B (zh) 视频封面的选取方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination