CN111476727A - 一种面向换脸视频检测的视频运动增强方法 - Google Patents

一种面向换脸视频检测的视频运动增强方法 Download PDF

Info

Publication number
CN111476727A
CN111476727A CN202010222610.1A CN202010222610A CN111476727A CN 111476727 A CN111476727 A CN 111476727A CN 202010222610 A CN202010222610 A CN 202010222610A CN 111476727 A CN111476727 A CN 111476727A
Authority
CN
China
Prior art keywords
model
image
frame
face
morphological
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010222610.1A
Other languages
English (en)
Other versions
CN111476727B (zh
Inventor
夏志华
费建伟
顾飞
余佩鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202010222610.1A priority Critical patent/CN111476727B/zh
Publication of CN111476727A publication Critical patent/CN111476727A/zh
Application granted granted Critical
Publication of CN111476727B publication Critical patent/CN111476727B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/73Deblurring; Sharpening
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20024Filtering details
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种面向换脸视频检测的视频运动增强方法,构建形态‑纹理特征编码模型、形态特征差异增强模型、增强形态特征与纹理特征融合重建模型;编码模型是权值共享的一对卷积神经网络,对视频中的相邻帧进行特征提取并通过双流卷积输出图像的纹理特征以及形态特征;增强模型接收编码模型输出的前后帧的形态特征并作差,利用一个放大因子乘以前后帧形态差异并叠加到前帧的形态特征中;重建模型接收编码模型输出的后帧纹理特征以及增强模型输出的增强形态特征,将两种特征叠加并利用一系列卷积层进行图像重建,得到以放大因子为倍数的运动增强帧。本发明充分挖掘了伪造人脸视频中残留的运动不一致性的瑕疵,能有效提高检测模型的的精度。

Description

一种面向换脸视频检测的视频运动增强方法
技术领域
本发明涉及模式识别技术领域,尤其涉及一种面向换脸视频检测的视频运动增强方法。
背景技术
目前,视频作为通信的重要内容,在人们的生活中起着重要的作用。同时,视频也能够作为法庭中的证据。然而近年来,由于深度学习等技术的发展,针对视频的伪造技术已经达人脸作为身份认证的重要信息,具有的先天的便利性与唯一性。然而随着人工智能技术的快速发展,使用深度学习模型伪造的人脸假视频在社交媒体上广泛传播。一些现有的手机应用如DeepfaceLab,Deep-FaceSwap和myFakeApp等为没有编程或图像处理基础的人提供了方便的换脸技术。不法分子可能利用假脸视频技术,制造虚假新闻,恶意视频,色情视频等,会严重损害了公众对大众传媒的信任度,扰乱社会治安,破坏国家安全。伪造人脸视频技术对社会的威胁已引起了学术界和工业界的广泛关注,国内外学者和机构均已展开有关检测伪造人脸视频的算法研究。目前所提出的检测方法既有基于传统手工特征,也有基于深度学习网络。但总体看来,现有伪造人脸检测技术仅处于初级阶段,各种算法通常在特定的数据库上具有良好效果,但泛化性能较差,跨库检测性能下降严重,而现有伪造算法多种多样,因此亟需解决假脸视频检测技术通用性不足的短板。尽管如今已经有大量的基于深度学习的伪造人脸检测研究方法被提出,但是还存在一些明显的缺陷与不足。主要存在以下几方面的问题:
(1)仅从图像层面进行考虑。大多数针对伪造人脸视频的检测算法将视频分解成独立的帧,在帧内进行伪造检测。这类方法只考虑了基于图像的伪造瑕疵,而伪造算法在生成人脸视频时,并没有引入时域信息,因此在时间尺度上残留了大量可以用来区分真假人脸的特征。然而大部分检测方法只关注了帧级别的篡改痕迹,而没有关注到时间域上的篡改痕迹。
(2)考虑的篡改特征比较单一。现有的基于特征的篡改方法均是从单一的角度进行检测,例如基于眨眼的方法,基于嘴型的方法,基于呼吸频率的方法与基于相机噪声的方法。其他基于图像瑕疵的方法大多直接利用深度学习模型,无法直观的提取真假人脸的差异,也难以结合其他方面的篡改特征。
发明内容
发明目的:针对以上问题,本发明提出一种面向换脸视频检测的视频运动增强方法,通过该方法可以增强视频中的面部运动幅度,暴露出伪造人脸与真实人脸在运动细节上的差异,为检测器提供高精度且可解释的特征。
技术方案:为实现本发明的目的,本发明所采用的技术方案是:一种面向换脸视频检测的视频运动增强方法,包括如下步骤:
(1)构建运动增强模型,包括三个部分的卷积神经网络:编码模型、增强模型和重建模型;构建训练数据以及监督信息并训练模型,得到训练后的运动增强模型;
(2)将待运动增强的人脸视频进行逐帧分解,得到一系列帧序列,提取帧序列中的人脸图像并构造帧图像对(fi,fi+1),fi,fi+1分别为第i,i+1帧人脸图像;
(3)将帧图像对(fi,fi+1)输入编码模型,编码模型分别对输入帧对中的帧图像提取特征,输出两帧图像的形态特征与纹理特征;
(4)将编码模型输出的两帧形态特征输入增强模型,增强模型对两个形态特征图直接求差,得到前后帧的形态特征差异,该形态差异乘以放大因子后与前一帧的形态特征相加,得到增强后的形态特征;
(5)将步骤(3)所得后一帧的纹理特征以及步骤(4)所得的增强形态特征输入重建模型,重建模型将这两种特征融合并重建得到预测的第i+1帧的运动增强帧。
进一步的,所述步骤(1),构建运动增强模型,包括三个部分的卷积神经网络:编码模型、增强模型和重建模型;具体如下:
所述编码模型为权值共享的一对卷积神经网络,前后帧分别作为该对卷积神经网络的输入,分别经过一个7×7、3×3的卷积和三个残差模块后分成两个分支,每个分支都包含一个3×3卷积和两个残差模块,其中一支输出形态特征,另一支输出纹理特征,最终分别输出前后两帧图像的形态特征与纹理特征;
所述增强模型接收编码模型输出的两帧形态特征并作差,对形态差异经过一个3×3的卷积后乘以放大倍数,随后再利用一个3×3卷积和残差模块进行处理,将得到的特征与前帧的形态特征叠加得到增强形态特征;
所述重建模型接收编码模型输出的后帧的纹理特征并进行上采样,与增强形态特征叠加后经过9个残差模块、2个3×3卷积,通过7×7卷积复原到原始输入图像的尺寸;
上述三个模型中的每个卷积后都跟随着一个ReLU激活函数层;
由于这三个模型间的连接是可微的,因此在训练时可以端到端地利用反向传播以及随机梯度下降对网络参数进行更新。该运动增强模型可以实现将连续图像中的物体的运动幅度按照指定倍数进行放大。
进一步的,所述步骤(1),构建运动增强模型的训练数据以及监督信息的方法如下:
(1.1)从背景图像数据集MS-COCO中随机选择n帧图像作为训练样本的背景图像;从前景物体数据集PASCAL-VOC中随机选取m个物体作为训练样本的前景物体;
(1.2)对所选的m个前景物体的尺寸以及角度作随机扰动;
(1.3)将一个前景物体随机粘贴在一帧背景图像上作为模型输入的前一帧,对该图像中的前景物体向任意角度进行随机距离的位移,得到的图像作为模型输入的后一帧;
(1.4)以与步骤(1.3)同样的角度重复前景物体的位移,但位移距离放大一定倍数,模拟运动增强的实际效果(groud-truth),得到的实际运动增强图像作为模型输出的监督信息;
(1.5)为了使模型只学习噪声引起的变化,保持样本图像的背景不变,重复步骤(1.3)~(1.4),直至所选的m个前景物体全部处理完成,得到m个训练样本以及监督信息;
(1.6)对所选择的n帧背景图像,重复步骤(1.3)~(1.5),得到运动增强模型的训练数据以及监督信息。
进一步的,所述步骤(1.3),确保运动增强模型学习到全局的运动特征,保持前景物体的位置不变,对样本图像的背景进行位移,得到的图像作为模型输入的后一帧;保持位移角度不变,放大背景的位移距离得到实际运动增强图像。
进一步的,所述步骤(1.3),确保编码模型提取到的纹理特征对比度满足预期,将样本图像的背景进行高斯模糊滤波以降低图像背景与前景的边缘对比度;保持前景物体的位置不变,对样本图像的背景进行位移,得到的图像作为模型输入的后一帧;保持位移角度不变,放大背景的位移距离得到实际运动增强图像。
进一步的,高斯模糊滤波中使用的计算公式如下:
Figure BDA0002426611160000031
其中,G(u,v)表示高斯模糊滤波器中的元素值,u,v分别表示滤波器的宽与高,σ表示正态分布的标准差。
进一步的,所述步骤(2),提取帧序列中的人脸图像,方法如下:
(2.1)对原始帧图像进行直方图均衡化和高斯滤波平滑预处理;
(2.2)对预处理后的图像进行颜色空间转换,用肤色模型检测图像中的皮肤像素;
(2.3)对检测到的肤色区域进行形态学处理;
(2.4)标定出图像中最大块的肤色区域,作为人脸的候选区域;
(2.5)定位出所检测到的人脸区域。
进一步的,所述步骤(2.2),对预处理后的图像进行颜色空间转换,用肤色模型检测图像中的皮肤像素,方法如下:
首先利用以下公式对像素强度进行变换;
X=(77/256)R+(150/256)G+(29/256)B
Cr=(131/256)R-(110/256)G-(21/256)B+128
Cb=-(44/256)R-(87/256)G+(131/256)B+128
其中,R,G,B分别表示图像像素在红色、绿色与蓝色通道的强度值,范围从0到255;变换后的颜色空间中,Y表示像素颜色的亮度成分,Cb表示蓝色色度分量,Cr表示红色色度分量;
肤色模型如下所示:
Figure BDA0002426611160000041
其中,M(i,j)表示二值人脸图像,i,j表示图像中像素的横坐标与纵坐标,Cb(i,j)与Cr(i,j)表示该像素的蓝色色度与红色色度值;根据该肤色模型将包含人脸的图像转变成一个二值图像,白色的区域即为肤色区域。
进一步的,所述步骤(2.5),利用垂直积分投影方法对人脸候选区域进行判决,根据判决结果,将人脸图像区域裁剪出来。
有益效果:与现有技术相比,本发明的技术方案具有以下有益的技术效果:
本发明公开的运动增强算法能够增强视频中的面部运动幅度,暴露出伪造人脸视频相比于真实视频中的运动不一致性,利于模型检测视频的真伪,为检测器提供高精度且可解释的特征。经过运动增强的视频序列能够有效提高检测模型的精度,并且对于不同伪造数据集以及不同伪造模型都具有较好的鲁棒性。
附图说明
图1是本发明的运动增强模型框架图;
图2是本发明的编码模型的结构图;
图3是本发明的增强模型的结构图;
图4是本发明的重建模型的结构图。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步的说明。
本发明所述的一种面向换脸视频检测的视频运动增强方法,工作框架如图1所示,具体实现包括如下步骤:
(1)构建运动增强模型,包括三个部分的卷积神经网络:编码模型、增强模型和重建模型;构建训练数据以及监督信息并训练模型,得到训练后的运动增强模型。
如图2所示,所述编码模型为权值共享的一对卷积神经网络,前后帧分别作为该对卷积神经网络的输入,分别经过一个7×7、3×3的卷积和三个残差模块后分成两个分支,每个分支都包含一个3×3卷积和两个残差模块,其中一支输出形态特征,另一支输出纹理特征,最终分别输出前后两帧图像的形态特征与纹理特征;
如图3所示,所述增强模型接收编码模型输出的两帧形态特征并作差,对形态差异经过一个3×3的卷积后乘以放大倍数,随后再利用一个3×3卷积和残差模块进行处理,将得到的特征与前帧的形态特征叠加得到增强形态特征;
如图4所示,所述重建模型接收编码模型输出的后帧的纹理特征并进行上采样,与增强形态特征叠加后经过9个残差模块、2个3×3卷积,最终通过7×7卷积复原到原始输入图像的尺寸;
上述三个模型中的每个卷积后都跟随着一个ReLU激活函数层;由于这三个模型间的连接是可微的,因此在训练模型时可以端到端地利用反向传播以及随机梯度下降对网络参数进行更新。该运动增强模型可以实现将连续图像中的物体的运动幅度按照指定倍数进行放大。
构建运动增强模型的训练数据以及监督信息的方法如下:
(1.1)从背景图像数据集MS-COCO中随机选择n帧图像作为训练样本的背景图像;从前景物体数据集PASCAL-VOC中随机选取m个物体作为训练样本的前景物体;本实施例中,m取值范围为[7,15];
(1.2)对所选的m个前景物体的尺寸以及角度作随机扰动;
(1.3)将一个前景物体随机粘贴在一帧背景图像上作为模型输入的前一帧,对该图像中的前景物体向任意角度进行随机距离的位移,得到的图像作为模型输入的后一帧;
(1.4)以与步骤(1.3)同样的角度重复前景物体的位移,但位移距离放大一定倍数,,模拟运动增强的实际效果,得到的实际运动增强图像作为模型输出的监督信息;
(1.5)为了使模型只学习噪声引起的变化,保持样本图像的背景不变,重复步骤(1.3)~(1.4),直至所选的m个前景物体全部处理完成,得到m个训练样本以及监督信息;
(1.6)对所选择的n帧背景图像,重复步骤(1.3)~(1.5),得到运动增强模型的训练数据以及监督信息。
本实施例中用来合成训练数据的数据源包括20000张MS-COCO数据集中的图像样本以及从PASCAL-VOC数据集中分割出来的7000个物体图像样本。COCO,CommonObjects inCOntext是微软团队提供的一个可以用来进行图像识别的数据集。整个数据集被分为如下三个部分:1)标志性对象图像;2)标志性场景图像;3)非标志性场景图像;共计91种分类。2014发布的数据中包含82783训练图像、40504张验证图像、40775张测试图像。在本实施例中选择了训练数据中标志性场景图像类别下的20000张图像作为人工合成的训练样本图像的背景。PASCAL-VOC数据集共分为20类,共计17125张图像,选择其中7000张实例分割样本,从图像中间物体剪切出来准备合成到背景图像上。在本实施例中,采用了TensorFlow架构,结合python语言进行编程实验,TensorFlow架构使用图描述计算过程,通过构建和运行图即可实现对数据的计算。
所述步骤(1.3),还可以采用如下方法:确保运动增强模型学习到全局的运动特征,保持前景物体的位置不变,对样本图像的背景进行位移,得到的图像作为模型输入的后一帧;保持位移角度不变,放大背景的位移距离得到实际运动增强图像。
所述步骤(1.3),还可以采用如下方法:确保编码模型提取到的纹理特征对比度满足预期,将样本图像的背景进行高斯模糊滤波以降低图像背景与前景的边缘对比度;保持前景物体的位置不变,对样本图像的背景进行位移,得到的图像作为模型输入的后一帧;保持位移角度不变,放大背景的位移距离得到实际运动增强图像。
高斯模糊滤波中使用的计算公式如下:
Figure BDA0002426611160000061
其中,G(u,v)表示高斯模糊滤波器中的元素值,u,v分别表示滤波器的宽与高,σ表示正态分布的标准差。
(2)将待运动增强的人脸视频进行逐帧分解,得到一系列帧序列,提取帧序列中的人脸图像并构造帧图像对(fi,fi+1),fi,fi+1分别为第i,i+1帧人脸图像。
通常,在人脸视频中,人脸只占整幅图像的一部分区域,人脸视频伪造算法也仅仅对人脸区域进行伪造篡改,因此人脸以外的区域对于伪造视频检测任务就变成了一种冗余信息。同时,如果将整幅图像帧都输入到检测模型中,会极大的增加模型的计算消耗,冗余区域也会影响到模型对特征的提取,因此需要将帧序列中的人脸图像区域提取出来。
所述的提取帧序列中的人脸图像方法如下:
(2.1)对原始帧图像进行直方图均衡化和高斯滤波平滑预处理。
(2.2)对预处理后的图像进行颜色空间转换,用肤色模型检测图像中的皮肤像素;
首先利用以下公式对像素强度进行变换;
Y=(77/256)R+(150/256)G+(29/256)B
Cr=(131/256)R-(110/256)G-(21/256)B+128
Cb=-(44/256)R-(87/256)G+(131/256)B+128
其中,R,G,B分别表示图像像素在红色、绿色与蓝色通道的强度值,范围从0到255;变换后的颜色空间中,Y表示像素颜色的亮度成分,Cb表示蓝色色度分量,Cr表示红色色度分量;
肤色模型如下所示:
Figure BDA0002426611160000062
其中,M(i,j)表示二值人脸图像,i,j表示图像中像素的横坐标与纵坐标,Cb(i,j)与Cr(i,j)表示该像素的蓝色色度与红色色度值;根据该肤色模型将包含人脸的图像转变成一个二值图像,白色的区域即为肤色区域。
(2.3)对检测到的肤色区域进行形态学处理。
(2.4)标定出图像中最大块的肤色区域,作为人脸的候选区域。
(2.5)定位出所检测到的人脸区域。利用垂直积分投影方法对人脸候选区域进行判决,根据判决结果,将人脸图像区域裁剪出来。
(3)将帧图像对(fi,fi+1)输入编码模型,编码模型分别对输入帧对中的帧图像提取特征,输出两帧图像的形态特征与纹理特征;
(4)将编码模型输出的两帧形态特征输入增强模型,增强模型对两个形态特征图直接求差,得到前后帧的形态特征差异,该形态差异乘以放大因子后与前一帧的形态特征相加,得到增强后的形态特征;
(5)将步骤(3)所得后一帧的纹理特征以及步骤(4)所得的增强形态特征输入重建模型,重建模型将这两种特征融合并重建得到预测的第i+1帧的运动增强帧。
本实施例在FaceForensic++数据集以及DeepFakes Detection Challenge(DFDC)数据集上进行了测试,分别将CNN-LSTM模型以及3DCNN模型作为基准分类器,测试该运动增强预处理的有效性,使用FaceForensic++数据集测试的平均结果如表1所示,使用DFDC数据集测试的平均结果如表2所示。从实验结果可以得出,经过运动增强的视频序列能够有效提高检测模型的精度,并且对于数据集以及模型都具有较好的鲁棒性。在一定程度上说明了运动增强能够暴露出伪造人脸视频相比于真实视频中的运动不一致性,利于模型检测视频的真伪。
表1
Figure BDA0002426611160000071
表2
Figure BDA0002426611160000072
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (9)

1.一种面向换脸视频检测的视频运动增强方法,其特征在于:包括如下步骤:
(1)构建运动增强模型,包括三个部分的卷积神经网络:编码模型、增强模型和重建模型;构建训练数据以及监督信息并训练模型,得到训练后的运动增强模型;
(2)将待运动增强的人脸视频进行逐帧分解,得到一系列帧序列,提取帧序列中的人脸图像并构造帧图像对(fi,fi+1),fi,fi+1分别为第i,i+1帧人脸图像;
(3)将帧图像对(fi,fi+1)输入编码模型,编码模型分别对输入帧对中的帧图像提取特征,输出两帧图像的形态特征与纹理特征;
(4)将编码模型输出的两帧形态特征输入增强模型,增强模型对两个形态特征图直接求差,得到前后帧的形态特征差异,该形态差异乘以放大因子后与前一帧的形态特征相加,得到增强后的形态特征;
(5)将步骤(3)所得后一帧的纹理特征以及步骤(4)所得的增强形态特征输入重建模型,重建模型将这两种特征融合并重建得到预测的第i+1帧的运动增强帧。
2.根据权利要求1所述的一种面向换脸视频检测的视频运动增强方法,其特征在于:所述步骤(1),构建运动增强模型,包括三个部分的卷积神经网络:编码模型、增强模型和重建模型;具体如下:
所述编码模型为权值共享的一对卷积神经网络,前后帧分别作为该对卷积神经网络的输入,分别经过一个7×7、3×3的卷积和三个残差模块后分成两个分支,每个分支都包含一个3×3卷积和两个残差模块,其中一支输出形态特征,另一支输出纹理特征,最终分别输出前后两帧图像的形态特征与纹理特征;
所述增强模型接收编码模型输出的两帧形态特征并作差,对形态差异经过一个3×3的卷积后乘以放大倍数,随后再利用一个3×3卷积和残差模块进行处理,将得到的特征与前帧的形态特征叠加得到增强形态特征;
所述重建模型接收编码模型输出的后帧的纹理特征并进行上采样,与增强形态特征叠加后经过9个残差模块、2个3×3卷积,通过7×7卷积复原到原始输入图像的尺寸;
上述三个模型中的每个卷积后都跟随着一个ReLU激活函数层;在训练运动增强模型时端到端地利用反向传播以及随机梯度下降对网络参数进行更新。
3.根据权利要求1所述的一种面向换脸视频检测的视频运动增强方法,其特征在于:所述步骤(1),构建运动增强模型的训练数据以及监督信息的方法如下:
(1.1)从背景图像数据集MS-COCO中随机选择n帧图像作为训练样本的背景图像;从前景物体数据集PASCAL-VOC中随机选取m个物体作为训练样本的前景物体;
(1.2)对所选的m个前景物体的尺寸以及角度作随机扰动;
(1.3)将一个前景物体随机粘贴在一帧背景图像上作为模型输入的前一帧,对该图像中的前景物体向任意角度进行随机距离的位移,得到的图像作为模型输入的后一帧;
(1.4)以与步骤(1.3)同样的角度重复前景物体的位移,但位移距离放大一定倍数,模拟运动增强的实际效果,得到的实际运动增强图像作为模型输出的监督信息;
(1.5)保持样本图像的背景不变,重复步骤(1.3)~(1.4),直至所选的m个前景物体全部处理完成,得到m个训练样本以及监督信息;
(1.6)对所选择的n帧背景图像,重复步骤(1.3)~(1.5),得到运动增强模型的训练数据以及监督信息。
4.根据权利要求3所述的一种面向换脸视频检测的视频运动增强方法,其特征在于:所述步骤(1.3),确保运动增强模型学习到全局的运动特征,保持前景物体的位置不变,对样本图像的背景进行位移,得到的图像作为模型输入的后一帧;保持位移角度不变,放大背景的位移距离得到实际运动增强图像。
5.根据权利要求3或4所述的一种面向换脸视频检测的视频运动增强方法,其特征在于:所述步骤(1.3),确保编码模型提取到的纹理特征对比度满足预期,将样本图像的背景进行高斯模糊滤波以降低图像背景与前景的边缘对比度。
6.根据权利要求5所述的一种面向换脸视频检测的视频运动增强方法,其特征在于:高斯模糊滤波中使用的计算公式如下:
Figure FDA0002426611150000021
其中,G(u,v)表示高斯模糊滤波器中的元素值,u,v分别表示滤波器的宽与高,σ表示正态分布的标准差。
7.根据权利要求1所述的一种面向换脸视频检测的视频运动增强方法,其特征在于:所述步骤(2),提取帧序列中的人脸图像,方法如下:
(2.1)对原始帧图像进行直方图均衡化和高斯滤波平滑预处理;
(2.2)对预处理后的图像进行颜色空间转换,用肤色模型检测图像中的皮肤像素;
(2.3)对检测到的肤色区域进行形态学处理;
(2.4)标定出图像中最大块的肤色区域,作为人脸的候选区域;
(2.5)定位出所检测到的人脸区域。
8.根据权利要求7所述的一种面向换脸视频检测的视频运动增强方法,其特征在于:所述步骤(2.2),对预处理后的图像进行颜色空间转换,用肤色模型检测图像中的皮肤像素,方法如下:
首先利用以下公式对像素强度进行变换;
Y=(77/256)R+(150/256)G+(29/256)B
Cr=(131/256)R-(110/256)G-(21/256)B+128
Cb=-(44/256)R-(87/256)G+(131/256)B+128
其中,R,G,B分别表示图像像素在红色、绿色与蓝色通道的强度值,范围从0到255;变换后的颜色空间中,Y表示像素颜色的亮度成分,Cb表示蓝色色度分量,Cr表示红色色度分量;
肤色模型如下所示:
Figure FDA0002426611150000031
其中,M(i,j)表示二值人脸图像,i,j表示图像中像素的横坐标与纵坐标,Cb(i,j)与Cr(i,j)表示该像素的蓝色色度与红色色度值;根据该肤色模型将包含人脸的图像转变成一个二值图像,白色的区域即为肤色区域。
9.根据权利要求7或8所述的一种面向换脸视频检测的视频运动增强方法,其特征在于:所述步骤(2.5),利用垂直积分投影方法对人脸候选区域进行判决,根据判决结果裁剪人脸图像区域。
CN202010222610.1A 2020-03-26 2020-03-26 一种面向换脸视频检测的视频运动增强方法 Active CN111476727B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010222610.1A CN111476727B (zh) 2020-03-26 2020-03-26 一种面向换脸视频检测的视频运动增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010222610.1A CN111476727B (zh) 2020-03-26 2020-03-26 一种面向换脸视频检测的视频运动增强方法

Publications (2)

Publication Number Publication Date
CN111476727A true CN111476727A (zh) 2020-07-31
CN111476727B CN111476727B (zh) 2023-04-25

Family

ID=71747825

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010222610.1A Active CN111476727B (zh) 2020-03-26 2020-03-26 一种面向换脸视频检测的视频运动增强方法

Country Status (1)

Country Link
CN (1) CN111476727B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950497A (zh) * 2020-08-20 2020-11-17 重庆邮电大学 一种基于多任务学习模型的ai换脸视频检测方法
CN112883874A (zh) * 2021-02-22 2021-06-01 中国科学技术大学 针对深度人脸篡改的主动防御方法
CN113506272A (zh) * 2021-07-14 2021-10-15 人民网股份有限公司 一种虚假视频的检测方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106875329A (zh) * 2016-12-20 2017-06-20 北京光年无限科技有限公司 一种人脸替换方法及装置
CN108090403A (zh) * 2016-11-22 2018-05-29 上海银晨智能识别科技有限公司 一种基于3d卷积神经网络的人脸动态识别方法及系统
CN109829443A (zh) * 2019-02-23 2019-05-31 重庆邮电大学 基于图像增强与3d卷积神经网络的视频行为识别方法
CN110287846A (zh) * 2019-06-19 2019-09-27 南京云智控产业技术研究院有限公司 一种基于注意力机制的人脸关键点检测方法
US20200026928A1 (en) * 2019-09-26 2020-01-23 Intel Corporation Deep learning for dense semantic segmentation in video with automated interactivity and improved temporal coherence

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090403A (zh) * 2016-11-22 2018-05-29 上海银晨智能识别科技有限公司 一种基于3d卷积神经网络的人脸动态识别方法及系统
CN106875329A (zh) * 2016-12-20 2017-06-20 北京光年无限科技有限公司 一种人脸替换方法及装置
CN109829443A (zh) * 2019-02-23 2019-05-31 重庆邮电大学 基于图像增强与3d卷积神经网络的视频行为识别方法
CN110287846A (zh) * 2019-06-19 2019-09-27 南京云智控产业技术研究院有限公司 一种基于注意力机制的人脸关键点检测方法
US20200026928A1 (en) * 2019-09-26 2020-01-23 Intel Corporation Deep learning for dense semantic segmentation in video with automated interactivity and improved temporal coherence

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陆炎: ""自动三维人脸迁移算法研究"" *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950497A (zh) * 2020-08-20 2020-11-17 重庆邮电大学 一种基于多任务学习模型的ai换脸视频检测方法
CN111950497B (zh) * 2020-08-20 2022-07-01 重庆邮电大学 一种基于多任务学习模型的ai换脸视频检测方法
CN112883874A (zh) * 2021-02-22 2021-06-01 中国科学技术大学 针对深度人脸篡改的主动防御方法
CN112883874B (zh) * 2021-02-22 2022-09-06 中国科学技术大学 针对深度人脸篡改的主动防御方法
CN113506272A (zh) * 2021-07-14 2021-10-15 人民网股份有限公司 一种虚假视频的检测方法及系统
CN113506272B (zh) * 2021-07-14 2024-02-13 人民网股份有限公司 一种虚假视频的检测方法及系统

Also Published As

Publication number Publication date
CN111476727B (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
Guo et al. Fake face detection via adaptive manipulation traces extraction network
Zhu et al. A deep learning approach to patch-based image inpainting forensics
Wang et al. Detection and localization of image forgeries using improved mask regional convolutional neural network
CN110349136A (zh) 一种基于深度学习的篡改图像检测方法
Zhuang et al. Image tampering localization using a dense fully convolutional network
CN108537743B (zh) 一种基于生成对抗网络的面部图像增强方法
Tang et al. Median filtering detection of small-size image based on CNN
CN110852316B (zh) 一种采用密集结构卷积网络的图像篡改检测和定位方法
Liu et al. A passive image authentication scheme for detecting region-duplication forgery with rotation
CN111476727A (zh) 一种面向换脸视频检测的视频运动增强方法
Shan et al. Robust median filtering forensics using image deblocking and filtered residual fusion
Chen et al. An improved splicing localization method by fully convolutional networks
Zhang et al. Improved Fully Convolutional Network for Digital Image Region Forgery Detection.
CN112907598A (zh) 一种基于注意力cnn文档证件类图像篡改检测方法
Wei et al. Controlling neural learning network with multiple scales for image splicing forgery detection
CN111696021A (zh) 一种基于显著性检测的图像自适应隐写分析系统及方法
Sharma et al. A hybrid technique to discriminate Natural Images, Computer Generated Graphics Images, Spliced, Copy Move tampered images and Authentic images by using features and ELM classifier
Rhee Detection of spliced image forensics using texture analysis of median filter residual
Zhang et al. An end-to-end deep learning model for robust smooth filtering identification
CN110348320B (zh) 一种基于多损失深度融合的人脸防伪方法
Mareen et al. Comprint: Image forgery detection and localization using compression fingerprints
Huang et al. DS-UNet: A dual streams UNet for refined image forgery localization
Xu et al. Document images forgery localization using a two‐stream network
Gu et al. FBI-Net: Frequency-based image forgery localization via multitask learning with self-attention
Mazumdar et al. Two-stream encoder–decoder network for localizing image forgeries

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant