CN110868598A - 基于对抗生成网络的视频内容替换方法及系统 - Google Patents

基于对抗生成网络的视频内容替换方法及系统 Download PDF

Info

Publication number
CN110868598A
CN110868598A CN201910989000.1A CN201910989000A CN110868598A CN 110868598 A CN110868598 A CN 110868598A CN 201910989000 A CN201910989000 A CN 201910989000A CN 110868598 A CN110868598 A CN 110868598A
Authority
CN
China
Prior art keywords
target image
image
source
loss
source target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910989000.1A
Other languages
English (en)
Other versions
CN110868598B (zh
Inventor
孙锬锋
蒋兴浩
唐致远
许可
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201910989000.1A priority Critical patent/CN110868598B/zh
Publication of CN110868598A publication Critical patent/CN110868598A/zh
Application granted granted Critical
Publication of CN110868598B publication Critical patent/CN110868598B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供了一种基于对抗生成网络的视频内容替换方法及系统,包括:对视频帧中的源目标图像进行提取;对源目标图像进行语义分割;使用图像变换操作对源目标图像进行数据增强;将增强后的数据集配对的语义分割图一同输入网络训练生成式对抗模型;精确检测源目标图像ROI区域并进行切割和摆正;以ROI区域图像作为生成模型输入获取生成目标图像与合成掩膜;使用高斯模糊后的掩膜控制生成目标图像边缘平滑化和去模糊;直方图匹配策略调整生成目标图像的色调与帧源目标图像保持一致;生成视频帧抗抖动处理;融合源图像与生成目标图像。本发明明显改善了生成的清晰度,相较于传统技术,具有易操作、成本低、效果好、耗时短等特点和优势。

Description

基于对抗生成网络的视频内容替换方法及系统
技术领域
本发明涉及视频图像处理及人工智能交叉领域,具体地,涉及一种基于对抗生成网络的视频内容替换方法及系统,尤其涉及一种基于对抗网络的目标图像生成视频替换方法。
背景技术
随着影视行业的迅速发展,计算机科学与应用逐渐渗透到了影视制作的各个方面,不仅加速了制作进程,更使人类的创造力能够在影视作品上得以前所未有的呈现。然而,随着VFX的应用带来的巨大的后期人力需求和设备购置需要,影视产业的成本居高难下,许多大制作成本达到上亿美元。在影视大厂不断钻研如何提高VFX特效的真实度和张力的同时,也在研究如何减少VFX的成本开销。同时,VFX的高投入也让许多有想法的创作家无法将自己的创意付诸实现。如何在保持甚至提高VFX效果的同时降低成本,是一个具有挑战性和研究价值的问题。随着算力的指数式增长,深度学习被提出并应用到了各个领域中,以解决传统计算机程序所无法解决的问题。在影视制作中,深度学习已开始在超分辨率、物体追踪等领域发挥了巨大作用,人们也在积极探索深度学习的更多可能性。生成式对抗网络作为其中的一个重要分支,自提出以来在图像生成领域展现了其惊人的成果。
生成式对抗网络(GAN)自提出以来,在图像生成、图像编辑、表示学习等领域取得了瞩目的成绩。GAN的灵感来自于零和博弈,生成器与判别器在博弈学习中逐渐收敛,生成器最终能学习到输入样本的分布,而判别器最终训练为一个识别样本空间的二元分类器。基于GAN训练的模型可实现文字转图像、线稿转绘画、风格迁移和数据预测等任务。GAN通过约束对抗损失来确保生成的图像理论上无法与真实图像相区别,是图像生成领域强有力的工具。但GAN也存在众多问题,为解决这些问题,扩大GAN的应用领域和价值,大量关注GAN的研究人员相继提出了基于GAN改进的模型,包括但不限于通过向生成网络和判别网络输入条件信息进行约束的条件生成对抗网络、结合深度卷积神经网络进一步提取图像语义信息的基于DCGAN解决和减少训练困难、模式坍缩问题的WGAN、利用cGAN和自编码器实现通用图像转换的pix2pix、基于pxi2pix通过双向转换一致性损失实现非监督的图像转换的CycleGAN、基于CycleGAN结合时域信息实现视频转换的RecycleGAN、基于CycleGAN同时解决多领域图像转换的StarGAN、和最新的通过多层风格嵌入解决高分辨率真实图像生成的英伟达研究成果StyleGAN。其中CycleGAN是目前常见的深度学习人脸替换解决方案,而RecycleGAN针对视频隐藏的时域信息进一步优化了CycleGAN。但前两者生成只能生成较低分辨率的图像,StyleGAN的提出为高清图像生成提供了一条解决方案。无配对图像到图像翻译关注在无配对监督数据情况下的图像转换任务。由于欠缺配对图像数据,缺少输入空间到输出空间的一致性关系,这是一个非常具有挑战性的任务。基于深度学习的自动编码器可发现多领域图像的底层语义通用模式,进而实现多领域图像通用编码器的学习,再通过学习各领域图像的高层细节专用解码器,实现领域间的图像翻译任务。GAN的出现结合这一提取底层信息-重建高层信息的思路,研究人员提出了CoGAN其通过共享生成器和判别器神经网络部分编码底层信息的参数来实现图像潜在语义的通用表示学习,再通过生成器输出图像翻译结果。另一种广为使用的网络为CycleGAN,网络中加入的双向转换一致性损失确保了输出图像与输入图像语义上的一致性。而最新的基于CycleGAN提出的、专用于视频到视频的RecycleGAN关注无配对图像到图像与视频到视频翻译的欠约束性,指出需要进一步充分利用各种辅助信息,如视频中编码的时域信息进行图像翻译。
针对计算机自动化的目标图像替换,目前公开的专利数目并不多,其中公开号为CN201611122803,标题为《一种图像替换方法及装置》的中国专利提供了一种目标图像替换方案,该方法通过从视频中方获取第一人脸图像后,再获取待替换照片,并识别出所述待替换照片中的第二人脸图像,再将第二人脸图像替换第一人脸图像来实现视频中的人脸目标替换,然而该方法仅仅生硬地将已有的图像粘贴到目标图上,不能生成用户所没有拍摄过的面部图像,且无法实现保留源目标图像的语义信息,例如表情、眼神等取决于外部输入的第二人脸图像,而非源视频,应用场景相当受限。公开号为CN201810975216,标题为《一种人脸图像替换方法和装置》的中国专利提供了另一种目标图像替换方案,该方法获取目标人脸图像集后,对其进行扭曲处理,输入神经网络进行训练后,将得到能够将训练场景图像中的脸部图像替换为目标人脸图像的目标神经网络,然而该方法对于目标人脸图像的处理过于粗糙,不能充分利用关键点、语义分割、重要区域等外部信息进行有指导的图像生成,且网络设计过于简单,无法胜任清晰图像生成的场景,并且该方法仅关注人脸图像替换问题,而未解决广义的目标图像替换问题,无法媲美人工制作的影视特效。
在VFX制作虚拟场景中,通过深度学习,特别是对抗式生成网络的方法来辅助视频中的目标图像替换将有可能大大精筒后期处理与前期准备工作,减成本的同时获得真实效果。将生成式对抗网络应用在目标图像生成视频替换上具有相当的研究价值。为此,本发明提出一种基于对抗网络的目标图像生成视频替换方法。该方法不仅可以自动实现与以往人工制作相媲美的视频目标图像替换效果,而且易操作、成本低、效果好、耗时短。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于对抗生成网络的视频内容替换方法及系统。
根据本发明提供的一种基于对抗生成网络的视频内容替换方法,包括
步骤S1:使用卷积网络对视频帧中的源目标图像进行提取,获得提取的源目标图像;
步骤S2:对提取出的源目标图像标记关键点,连结关键点着色进行语义分割,输出源目标图像的关键点数据与语义分割图;
步骤S3:对提取的源目标图像和输出的语义分割图进行成对的数据增强操作,包括对图像进行图像变换操作,获得数据增强后的源目标图像和语义分割图;
步骤S4:将提取的源目标图像、输出的语义分割图以及数据增强后的源目标图像和语义分割图,一同输入生成式对抗网络进行网络训练,获得生成式对抗网络模型;
步骤S5:根据步骤S1输出的源目标图像,及步骤S2输出的关键点数据,检测源目标图像ROI区域并进行切割和摆正,获得ROI区域图像;
步骤S6:将ROI区域图像输入获得的生成式对抗网络模型,获取生成目标图像与生成掩膜;
步骤S7:根据获取的生成目标图像,使用高斯模糊后的掩膜控制所述生成目标图像边缘平滑化和去模糊,获取边缘掩膜;
步骤S8:根据获取到生成目标图像,将生成目标图像的直方图匹配到输入的源目标图像上,确保两者色调一致,获取精调生成目标图像;
步骤S9:根据源视频中当前视频帧时间轴之前的历史视频帧的源目标图像中心点位置和当前视频帧的源目标图像中心点位置,调节当前帧的真实目标图像中心点位置,获取实际坐标值;
步骤S10:将获取的生成掩膜、边缘掩膜、精调生成目标图像以及实际坐标值,与源视频中的原图像进行以帧为单位的图像融合,最终输出替换目标图像的特效视频。
优选地,所述步骤S1包括:使用FFMPEG对视频文件进行帧解码提取帧图像,将每个帧图像输入预训练目标检测模型中获取源目标图像位置坐标与预设关键点,并根据位置坐标对源目标图像进行留取预设背景的截取,根据预设关键点坐标对源目标图像进行摆正;
所述提取包括:位置检测、截取以及摆正;
源目标图像指源视频帧图像中进行内容替换的区域图像;
预训练目标检测模型:为具有对帧图像进行源目标图像检测和关键点标定能力的检测模型。
优选地,所述步骤S2包括:
使用针对源目标图像的预训练关键点精细标注模型对提取的源目标图像进行关键点检测和标注,根据关键点对源目标图像中的关键区域进行连结标定并进行区域着色,输出源目标图像的出语义分割图;
预训练关键点精细标注模型:关键点数量多于预训练目标检测模型,以及检测能力比预训练目标检测模型更精准的关键点检测模型。
优选地,所述步骤S3:
所述图像变换操作包括以下任一种或任多种:翻转、旋转、平移、缩放、裁剪、运动模糊以及畸变。
优选地,所述步骤S4包括:
将获取的源目标图像、源目标图像的出语义分割图、数据增强后的源目标图像和语义分割图作为训练数据输入设计的生成式对抗网络进行训练,获取两个能够各自生成源域与目标域图像的生成式对抗网络模型;
所述设计的生成式对抗网络包括:
生成器设计步骤:
以自编码器为模型设计,共有两个生成器,互相共享编码器的同时各自独占一个解码器;
在生成式对抗网络的训练阶段两个生成器的训练目标为分别重构输入的源目标图像,与替换源视频帧图像中源目标图像的替换目标图像,其中编码器输入为截取摆正和数据增强后的源目标图像,结构上基于预设步长的下采样卷积神经网络,采用输入及输出网络宽、中间网络窄的瓶颈结构设计,并引入适用于卷积网络的注意力机制扩大感受野,每层归一化方法均采用适用于图像训练的实例归一化;
解码器输入为共享编码器的输出语义向量,以及获得的语义分割图,结构上基于子像素卷积神经网络,每一层采用了以语义分割图为监督的空间自适应层归一化方法引导生成目标图像的不同部分,同时也引入了注意力机制引导掩膜的生成;
判别器设计步骤:
判别器输入为标注为真的源目标图像,即来源于源视频帧图像的源目标图像,与标注为假的源目标图像,即来源于生成器输出的图像,其训练目标为成功分类真假目标图像,与生成器共同组成生成式对抗网络;其结构上基于预设步长的下采样卷积神经网络,引入了注意力机制;输出层通过单层卷积输出多维判别结果,该判别结果取平均后将用于对抗损失的计算,即为判别器D(x)的输出;
在训练过程中,生成器与判别器交叉训练,生成器每训练一轮,训练时输出的合成目标图像将被标注为假数据接着输入下一轮判别器的训练中,判别器得到一轮训练后,下一轮继续生成器的训练;
生成器和判别器的训练依靠于神经网络的反向传播算法,反向传播算法中的输出偏差值,即损失值,由总损失提供;
对抗损失设计步骤:对抗损失包括判别器损失和生成器损失,是引导训练生成式对抗网络的生成器和判别器进行相互博弈和对抗学习输入分布的损失函数;采用了混合策略,混合源目标图像,生成器生成的掩膜,与生成的图像后再输入判别器,提高训练稳定性,将原先的sigmoid交叉熵损失修改为最小二乘损失加快收敛;
其中判别器损失表示如下:
Figure BDA0002237622200000051
其中,
Figure BDA0002237622200000052
表示:判别器当前的损失值;
pdata(x)表示:源视频帧图像中源目标图像所具有的分布;
下标data表示:源视频帧中的源目标图像数据;
p(x)表示:数据的概率分布;
Figure BDA0002237622200000053
表示:从源目标图像分布下的数据集,即源视频帧中的源目标图像中采样作为x进行损失计算;
D表示:判别器函数;
λx表示:混合策略中对x加权后的源目标图像;
λ表示:混合策略中的混合度;
G(x)表示:生成器的输出图像;
x表示:来源于源视频帧图像中的源目标图像;
Gmf(x)表示:生成器输出掩膜与生成器输出图像融合后的输出图像;
下标m表示:掩膜;
下标f表示:掩膜与图像的融合函数;
生成器损失表示如下:
Figure BDA0002237622200000061
其中,
Figure BDA0002237622200000062
表示:生成器当前的损失值;
重构损失设计步骤:
重构损失函数评估生成器输出的生成目标图像与源目标图像的像素级差距,监督生成器还原输入的目标图像;其函数表示如下:
Figure BDA0002237622200000063
其中,
|| ||1表示:L1范数,表示向量中每个元素绝对值之和;
Figure BDA0002237622200000064
表示:重构损失值;
Gm(x)表示:生成器输出掩膜;
循环转换损失设计步骤:
循环转换损失通过将源目标图像转换为生成目标图像后,再以生成目标图像作为输入转换回源域,计算经两次转换得到的源域生成目标图像与源目标图像之间的像素级差距,监督生成器保留源目标图像的语义信息;其中,循环转换损失包括掩膜的转换损失与掩膜结合图像转换损失两部分;
掩膜转换损失定义如下:
Figure BDA0002237622200000065
其中,
Figure BDA0002237622200000066
表示:掩膜循环转换损失值;
Figure BDA0002237622200000067
表示:从源目标图像分布下的数据集,即源视频帧中的源目标图像中采样作为x进行损失计算;
Figure BDA0002237622200000071
表示:从转换目标图像分布下的数据集,即转换目标视频帧中的转换目标图像中采样作为y进行损失计算;
GmA表示:具有生成源目标图像掩膜能力的生成器;
GmB(x)表示:将源目标图像输入具有生成转换目标图像掩膜能力的生成器后得到的转换目标图像掩膜输出;
GmB表示:具有生成转换目标图像掩膜能力的生成器;
GmA(y)表示:将转换目标图像输入具有生成源目标图像掩膜能力的生成器后得到的源目标图像掩膜输出;
y表示:目标视频帧图像中的转换目标图像;
x表示:从源视频帧中采样的源目标图像数据;
下标B表示:转换目标图像的分布域;
下标A表示:源目标图像的分布域;
下标data_A表示:于视频中提取的源目标图像数据;
小标data_B表示:于视频中提取的转换目标图像数据;
掩膜结合图像转换损失定义如下:
Figure BDA0002237622200000072
其中,
Figure BDA0002237622200000073
表示:掩膜结合图像后的循环转换损失值;
GA表示:具有生成源目标图像能力的生成器;
GB表示:具有生成转换目标图像能力的生成器;
GB(x)表示:将源目标图像输入具有生成转换目标图像能力的生成器后得到的转换目标图像输出;
GA(y)表示:将转换目标图像输入具有生成源目标图像能力的生成器后得到的源目标图像输出;
感知损失设计步骤:
通过使用预训练模型将高维图像数据转为低维语义向量,直接评估生成目标图像与源目标图像之间的语义距离,监督生成器输出图像语义与源目标图像一致;感知损失函数表示如下:
Figure BDA0002237622200000081
其中,
|| ||2表示:L2范数,表示向量的欧氏距离;
Figure BDA0002237622200000082
表示:感知损失值;
Cj表示:第j层网络的输出通道数量;
Hj表示:第j层网络的输出的高;
Wj表示:第j层网络的输出的宽;
φj表示:第j层网络的激活函数;
下标j表示:预训练模型的网络层级索引;
φj(x)表示:第j层网络的激活值;
总变分损失设计步骤:
总变分损失作为损失函数中的正则项,约束掩膜的学习,减少生成目标图像的噪音数据,监督生成器输出光滑的图像;总变分损失原为对图像梯度幅值的积分,但由于计算机图像表示的离散性,连续域上的积分变为像素离散域内的求和;损失函数定义如下:
Figure BDA0002237622200000083
其中,
Figure BDA0002237622200000084
表示:总变分损失值;
Ho表示:生成器输出图像的高;
Wo表示:生成器输出图像的宽;
下标i表示:生成器输出图像的高度轴像素索引;
下标j表示:生成器输出图像的宽度轴像素索引;
Vaniso(G(x))表示:生成器输出图像的变分;
Gm(x)i+1,j表示:生成器输出图像在坐标(i+1,j)处的像素值;
Gm(x)i,j+1表示:生成器输出图像在坐标(i,j+1)处的像素值;
Gm(x)i,j表示:生成器输出图像在坐标(i,j)处的像素值;
梯度损失设计步骤:
梯度损失评估输入图像与生成图像之间的梯度差异,保留必要的梯度信息,避免总变分损失的去噪平滑效果造成的边缘淡化;损失函数定义如下:
Figure BDA0002237622200000091
其中,
Figure BDA0002237622200000092
表示:梯度损失值;
Vaniso(x)表示:来源于帧图像的输入图像的变分;
其中Mfocus(x)为目标图像关键区域掩膜,选择预置该值以指导模型特别关注某一区域内的梯度信息,追踪具有复杂结构和运动部位的目标时,预置该项显著提高追踪效果和细节捕捉;
总损失设计步骤:
总损失最终用于计算当前模型与理想模型的差距,通过反向传播算法来逐步调节当前模型的参数值,以逐渐逼近理想模型;结合文前提出的损失函数,本发明模型的总损失函数可表示如下:
Figure BDA0002237622200000093
其中,
Figure BDA0002237622200000094
表示:当前的总损失值;
下标G表示:生成器;
λ1表示:生成器损失的权值,为用户可选的超参数;
λ2表示:重构损失的权值,为用户可选的超参数;
λ3表示:循环转换损失的权值,为用户可选的超参数;
λ4表示:感知损失的权值,为用户可选的超参数;
λ5表示:总变分损失的权值,为用户可选的超参数;
λ6表示:梯度损失的权值,为用户可选的超参数。
优选地,所述步骤S5包括:
根据步骤S1中输出的源目标图像,及步骤S2输出的对应的关键点数据,对源目标图像区域进行截取,截取的图像尺寸小于提取的源目标图像的尺寸,排除提取的源目标图像中残留的背景图像因素,并根据关键点进行图像摆正。
优选地,所述步骤S7包括:根据生成目标图像形状与边缘信息生成经高斯模糊处理的边缘掩膜;
所述步骤S8包括;根据获取到生成目标图像,采用直方图匹配策略调整生成目标图像的色调与帧源目标图像保持一致,获取精调生成目标图像;
步骤S9:根据源视频中当前视频帧时间轴之前的历史视频帧的源目标图像中心点位置和当前视频帧的源目标图像中心点位置输入卡尔曼滤波器,调节当前帧的真实目标图像中心点位置。
根据本发明提供的一种基于对抗生成网络的视频内容替换系统,包括
模块S1:使用卷积网络对视频帧中的源目标图像进行提取,获得提取的源目标图像;
模块S2:对提取出的源目标图像标记关键点,连结关键点着色进行语义分割,输出源目标图像的关键点数据与语义分割图;
模块S3:对提取的源目标图像和输出的语义分割图进行成对的数据增强操作,包括对图像进行图像变换操作,获得数据增强后的源目标图像和语义分割图;
模块S4:将提取的源目标图像、输出的语义分割图以及数据增强后的源目标图像和语义分割图,一同输入生成式对抗网络进行网络训练,获得生成式对抗网络模型;
模块S5:根据模块S1输出的源目标图像,及模块S2输出的关键点数据,检测源目标图像ROI区域并进行切割和摆正,获得ROI区域图像;
模块S6:将ROI区域图像输入获得的生成式对抗网络模型,获取生成目标图像与生成掩膜;
模块S7:根据获取的生成目标图像,使用高斯模糊后的掩膜控制所述生成目标图像边缘平滑化和去模糊,获取边缘掩膜;
模块S8:根据获取到生成目标图像,将生成目标图像的直方图匹配到输入的源目标图像上,确保两者色调一致,获取精调生成目标图像;
模块S9:根据源视频中当前视频帧时间轴之前的历史视频帧的源目标图像中心点位置和当前视频帧的源目标图像中心点位置,调节当前帧的真实目标图像中心点位置,获取实际坐标值;
模块S10:将获取的生成掩膜、边缘掩膜、精调生成目标图像以及实际坐标值,与源视频中的原图像进行以帧为单位的图像融合,最终输出替换目标图像的特效视频。
优选地,所述模块S1包括:使用FFMPEG对视频文件进行帧解码提取帧图像,将每个帧图像输入预训练目标检测模型中获取源目标图像位置坐标与预设关键点,并根据位置坐标对源目标图像进行留取预设背景的截取,根据预设关键点坐标对源目标图像进行摆正;
所述提取包括:位置检测、截取以及摆正;
源目标图像指源视频帧图像中进行内容替换的区域图像;
预训练目标检测模型:为具有对帧图像进行源目标图像检测和关键点标定能力的检测模型。
所述模块S2包括:
使用针对源目标图像的预训练关键点精细标注模型对提取的源目标图像进行关键点检测和标注,根据关键点对源目标图像中的关键区域进行连结标定并进行区域着色,输出源目标图像的出语义分割图;
预训练关键点精细标注模型:关键点数量多于预训练目标检测模型,以及检测能力比预训练目标检测模型更精准的关键点检测模型。
所述模块S3:
所述图像变换操作包括以下任一种或任多种:翻转、旋转、平移、缩放、裁剪、运动模糊以及畸变。
优选地,所述模块S4包括:
将获取的源目标图像、源目标图像的出语义分割图、数据增强后的源目标图像和语义分割图作为训练数据输入设计的生成式对抗网络进行训练,获取两个能够各自生成源域与目标域图像的生成式对抗网络模型;
所述设计的生成式对抗网络包括:
生成器设计模块:
以自编码器为模型设计,共有两个生成器,互相共享编码器的同时各自独占一个解码器;
在生成式对抗网络的训练阶段两个生成器的训练目标为分别重构输入的源目标图像,与替换源视频帧图像中源目标图像的替换目标图像,其中编码器输入为截取摆正和数据增强后的源目标图像,结构上基于预设步长的下采样卷积神经网络,采用输入及输出网络宽、中间网络窄的瓶颈结构设计,并引入适用于卷积网络的注意力机制扩大感受野,每层归一化方法均采用适用于图像训练的实例归一化;
解码器输入为共享编码器的输出语义向量,以及获得的语义分割图,结构上基于子像素卷积神经网络,每一层采用了以语义分割图为监督的空间自适应层归一化方法引导生成目标图像的不同部分,同时也引入了注意力机制引导掩膜的生成;
判别器设计模块:
判别器输入为标注为真的源目标图像,即来源于源视频帧图像的源目标图像,与标注为假的源目标图像,即来源于生成器输出的图像,其训练目标为成功分类真假目标图像,与生成器共同组成生成式对抗网络;其结构上基于预设步长的下采样卷积神经网络,引入了注意力机制;输出层通过单层卷积输出多维判别结果,该判别结果取平均后将用于对抗损失的计算,即为判别器D(x)的输出;
在训练过程中,生成器与判别器交叉训练,生成器每训练一轮,训练时输出的合成目标图像将被标注为假数据接着输入下一轮判别器的训练中,判别器得到一轮训练后,下一轮继续生成器的训练;
生成器和判别器的训练依靠于神经网络的反向传播算法,反向传播算法中的输出偏差值,即损失值,由总损失提供;
对抗损失设计模块:对抗损失包括判别器损失和生成器损失,是引导训练生成式对抗网络的生成器和判别器进行相互博弈和对抗学习输入分布的损失函数;采用了混合策略,混合源目标图像,生成器生成的掩膜,与生成的图像后再输入判别器,提高训练稳定性,将原先的sigmoid交叉熵损失修改为最小二乘损失加快收敛;
其中判别器损失表示如下:
Figure BDA0002237622200000121
其中,
Figure BDA0002237622200000122
表示:判别器当前的损失值;
pdata(x)表示:源视频帧图像中源目标图像所具有的分布;
下标data表示:源视频帧中的源目标图像数据;
p(x)表示:数据的概率分布;
Figure BDA0002237622200000123
表示:从源目标图像分布下的数据集,即源视频帧中的源目标图像中采样作为x进行损失计算;
D表示:判别器函数;
λx表示:混合策略中对x加权后的源目标图像;
λ表示:混合策略中的混合度;
G(x)表示:生成器的输出图像;
x表示:来源于源视频帧图像中的源目标图像;
Gmf(x)表示:生成器输出掩膜与生成器输出图像融合后的输出图像;
下标m表示:掩膜;
下标f表示:掩膜与图像的融合函数;
生成器损失表示如下:
Figure BDA0002237622200000131
其中,
Figure BDA0002237622200000132
表示:生成器当前的损失值;
重构损失设计模块:
重构损失函数评估生成器输出的生成目标图像与源目标图像的像素级差距,监督生成器还原输入的目标图像;其函数表示如下:
Figure BDA0002237622200000133
其中,
|| ||1表示:L1范数,表示向量中每个元素绝对值之和;
Figure BDA0002237622200000134
表示:重构损失值;
Gm(x)表示:生成器输出掩膜;
循环转换损失设计模块:
循环转换损失通过将源目标图像转换为生成目标图像后,再以生成目标图像作为输入转换回源域,计算经两次转换得到的源域生成目标图像与源目标图像之间的像素级差距,监督生成器保留源目标图像的语义信息;其中,循环转换损失包括掩膜的转换损失与掩膜结合图像转换损失两部分;
掩膜转换损失定义如下:
Figure BDA0002237622200000135
其中,
Figure BDA0002237622200000136
表示:掩膜循环转换损失值;
Figure BDA0002237622200000137
表示:从源目标图像分布下的数据集,即源视频帧中的源目标图像中采样作为x进行损失计算;
Figure BDA0002237622200000138
表示:从转换目标图像分布下的数据集,即转换目标视频帧中的转换目标图像中采样作为y进行损失计算;
GmA表示:具有生成源目标图像掩膜能力的生成器;
GmB(x)表示:将源目标图像输入具有生成转换目标图像掩膜能力的生成器后得到的转换目标图像掩膜输出;
GmB表示:具有生成转换目标图像掩膜能力的生成器;
GmA(y)表示:将转换目标图像输入具有生成源目标图像掩膜能力的生成器后得到的源目标图像掩膜输出;
y表示:目标视频帧图像中的转换目标图像;
x表示:从源视频帧中采样的源目标图像数据;
下标B表示:转换目标图像的分布域;
下标A表示:源目标图像的分布域;
下标data_A表示:于视频中提取的源目标图像数据;
小标data_B表示:于视频中提取的转换目标图像数据;
掩膜结合图像转换损失定义如下:
Figure BDA0002237622200000141
其中,
Figure BDA0002237622200000142
表示:掩膜结合图像后的循环转换损失值;
GA表示:具有生成源目标图像能力的生成器;
GB表示:具有生成转换目标图像能力的生成器;
GB(x)表示:将源目标图像输入具有生成转换目标图像能力的生成器后得到的转换目标图像输出;
GA(y)表示:将转换目标图像输入具有生成源目标图像能力的生成器后得到的源目标图像输出;
感知损失设计模块:
通过使用预训练模型将高维图像数据转为低维语义向量,直接评估生成目标图像与源目标图像之间的语义距离,监督生成器输出图像语义与源目标图像一致;感知损失函数表示如下:
Figure BDA0002237622200000143
其中,
|| ||2表示:L2范数,表示向量的欧氏距离;
Figure BDA0002237622200000144
表示:感知损失值;
Cj表示:第j层网络的输出通道数量;
Hj表示:第j层网络的输出的高;
Wj表示:第j层网络的输出的宽;
φj表示:第j层网络的激活函数;
下标j表示:预训练模型的网络层级索引;
φj(x)表示:第j层网络的激活值;
总变分损失设计模块:
总变分损失作为损失函数中的正则项,约束掩膜的学习,减少生成目标图像的噪音数据,监督生成器输出光滑的图像;总变分损失原为对图像梯度幅值的积分,但由于计算机图像表示的离散性,连续域上的积分变为像素离散域内的求和;损失函数定义如下:
Figure BDA0002237622200000151
其中,
Figure BDA0002237622200000152
表示:总变分损失值;
Ho表示:生成器输出图像的高;
Wo表示:生成器输出图像的宽;
下标i表示:生成器输出图像的高度轴像素索引;
下标j表示:生成器输出图像的宽度轴像素索引;
Vaniso(G(x))表示:生成器输出图像的变分;
Gm(x)i+1,j表示:生成器输出图像在坐标(i+1,j)处的像素值;
Gm(x)i,j+1表示:生成器输出图像在坐标(i,j+1)处的像素值;
Gm(x)i,j表示:生成器输出图像在坐标(i,j)处的像素值;
梯度损失设计模块:
梯度损失评估输入图像与生成图像之间的梯度差异,保留必要的梯度信息,避免总变分损失的去噪平滑效果造成的边缘淡化;损失函数定义如下:
Figure BDA0002237622200000153
其中,
Figure BDA0002237622200000154
表示:梯度损失值;
Vaniso(x)表示:来源于帧图像的输入图像的变分;
其中Mfocus(x)为目标图像关键区域掩膜,选择预置该值以指导模型特别关注某一区域内的梯度信息,追踪具有复杂结构和运动部位的目标时,预置该项显著提高追踪效果和细节捕捉;
总损失设计模块:
总损失最终用于计算当前模型与理想模型的差距,通过反向传播算法来逐步调节当前模型的参数值,以逐渐逼近理想模型;结合文前提出的损失函数,本发明模型的总损失函数可表示如下:
Figure BDA0002237622200000161
其中,
Figure BDA0002237622200000162
表示:当前的总损失值;
下标G表示:生成器;
λ1表示:生成器损失的权值,为用户可选的超参数;
λ2表示:重构损失的权值,为用户可选的超参数;
λ3表示:循环转换损失的权值,为用户可选的超参数;
λ4表示:感知损失的权值,为用户可选的超参数;
λ5表示:总变分损失的权值,为用户可选的超参数;
λ6表示:梯度损失的权值,为用户可选的超参数。
所述模块S5包括:
根据模块S1中输出的源目标图像,及模块S2输出的对应的关键点数据,对源目标图像区域进行截取,截取的图像尺寸小于提取的源目标图像的尺寸,排除提取的源目标图像中残留的背景图像因素,并根据关键点进行图像摆正。
所述模块S7包括:根据生成目标图像形状与边缘信息生成经高斯模糊处理的边缘掩膜;
所述模块S8包括;根据获取到生成目标图像,采用直方图匹配策略调整生成目标图像的色调与帧源目标图像保持一致,获取精调生成目标图像;
所述模块S9包括:根据源视频中当前视频帧时间轴之前的历史视频帧的源目标图像中心点位置和当前视频帧的源目标图像中心点位置输入卡尔曼滤波器,调节当前帧的真实目标图像中心点位置。
与现有技术相比,本发明具有如下的有益效果:
1、本发明针对影视特效中常见的目标图像替换场景,通过关键点分析、语义分割图析出,设计了一种基于对抗网络的目标图像生成视频替换方法,保留了视频中目标图像的语义信息,如人的表情、物体的状态等,而替换了目标图像的外部特征,如人的容貌、物体的外观等。在训练好替换生成模型后,该发明能实现自动的视频中目标图像替换,无需人工介入,相较于传统技术,具有易操作、成本低、效果好、耗时短等特点和优势;
2、本发明关注启发式地设计了语义分割图作为掩膜的控制权重图,和空间自适应标准化的输入,明显改善了生成的清晰度,是一种基于深度学习技术实现的视频特效技术。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为基于对抗生成网络的目标图像生成视频内容替换方法的流程示意图。
图2为基于对抗生成网络的目标图像生成视频内容替换方法实施结果示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
针对当前影视制作中目标图像替换的耗时长、开销大等不足,本发明的目的是提出一种有效的视频目标图像替换方法。该方法不仅可以自动实现与以往人工制作相媲美的视频目标图像替换效果,而且易操作、成本低、效果好、耗时短。
根据本发明提供的一种基于对抗生成网络的视频内容替换方法,包括
步骤S1:使用卷积网络对视频帧中的源目标图像进行提取,获得提取的源目标图像;
步骤S2:对提取出的源目标图像标记关键点,连结关键点着色进行语义分割,输出源目标图像的关键点数据与语义分割图;
步骤S3:对提取的源目标图像和输出的语义分割图进行成对的数据增强操作,包括对图像进行图像变换操作,获得数据增强后的源目标图像和语义分割图;
步骤S4:将提取的源目标图像、输出的语义分割图以及数据增强后的源目标图像和语义分割图,一同输入生成式对抗网络进行网络训练,获得生成式对抗网络模型;
步骤S5:根据步骤S1输出的源目标图像,及步骤S2输出的关键点数据,检测源目标图像ROI区域并进行切割和摆正,获得ROI区域图像;
步骤S6:将ROI区域图像输入获得的生成式对抗网络模型,获取生成目标图像与生成掩膜;
步骤S7:根据获取的生成目标图像,使用高斯模糊后的掩膜控制所述生成目标图像边缘平滑化和去模糊,获取边缘掩膜;
步骤S8:根据获取到生成目标图像,将生成目标图像的直方图匹配到输入的源目标图像上,确保两者色调一致,获取精调生成目标图像;
步骤S9:根据源视频中当前视频帧时间轴之前的历史视频帧的源目标图像中心点位置和当前视频帧的源目标图像中心点位置,调节当前帧的真实目标图像中心点位置,获取实际坐标值;
步骤S10:将获取的生成掩膜、边缘掩膜、精调生成目标图像以及实际坐标值,与源视频中的原图像进行以帧为单位的图像融合,最终输出替换目标图像的特效视频。
具体地,所述步骤S1包括:使用FFMPEG对视频文件进行帧解码提取帧图像,将每个帧图像输入预训练目标检测模型中获取源目标图像位置坐标与预设关键点,并根据位置坐标对源目标图像进行留取预设背景的截取,根据预设关键点坐标对源目标图像进行摆正;
所述提取包括:位置检测、截取以及摆正;
源目标图像指源视频帧图像中进行内容替换的区域图像;
预训练目标检测模型:为具有对帧图像进行源目标图像检测和关键点标定能力的检测模型。进一步地,所述检测模型包括:能够对人脸图像进行检测框选与数个关键点标定的MTCNN预训练模型,其效率高速度快。
具体地,所述步骤S2包括:
使用针对源目标图像的预训练关键点精细标注模型对提取的源目标图像进行关键点检测和标注,根据关键点对源目标图像中的关键区域进行连结标定并进行区域着色,输出源目标图像的出语义分割图;
预训练关键点精细标注模型:关键点数量多于预训练目标检测模型,以及检测能力比预训练目标检测模型更精准的关键点检测模型。进一步地,所述关键点检测模型包括:能够对人脸图像进行多达68个关键点检测的dlib模型,其运行速度相对较慢。
具体地,所述步骤S3:
所述图像变换操作包括以下任一种或任多种:翻转、旋转、平移、缩放、裁剪、运动模糊以及畸变。
具体地,所述步骤S4包括:
将获取的源目标图像、源目标图像的出语义分割图、数据增强后的源目标图像和语义分割图作为训练数据输入设计的生成式对抗网络进行训练,获取两个能够各自生成源域与目标域图像的生成式对抗网络模型;
所述设计的生成式对抗网络包括:
生成器设计步骤:
以自编码器为模型设计,共有两个生成器,互相共享编码器的同时各自独占一个解码器;
在生成式对抗网络的训练阶段两个生成器的训练目标为分别重构输入的源目标图像,与替换源视频帧图像中源目标图像的替换目标图像,其中编码器输入为截取摆正和数据增强后的源目标图像,结构上基于预设步长的下采样卷积神经网络,采用输入及输出网络宽、中间网络窄的瓶颈结构设计,并引入适用于卷积网络的注意力机制扩大感受野,每层归一化方法均采用适用于图像训练的实例归一化;
解码器输入为共享编码器的输出语义向量,以及获得的语义分割图,结构上基于子像素卷积神经网络,每一层采用了以语义分割图为监督的空间自适应层归一化方法引导生成目标图像的不同部分,同时也引入了注意力机制引导掩膜的生成;
判别器设计步骤:
判别器输入为标注为真的源目标图像,即来源于源视频帧图像的源目标图像,与标注为假的源目标图像,即来源于生成器输出的图像,其训练目标为成功分类真假目标图像,与生成器共同组成生成式对抗网络;其结构上基于预设步长的下采样卷积神经网络,引入了注意力机制;输出层通过单层卷积输出多维判别结果,该判别结果取平均后将用于对抗损失的计算,即为判别器D(x)的输出;
在训练过程中,生成器与判别器交叉训练,生成器每训练一轮,训练时输出的合成目标图像将被标注为假数据接着输入下一轮判别器的训练中,判别器得到一轮训练后,下一轮继续生成器的训练;
生成器和判别器的训练依靠于神经网络的反向传播算法,反向传播算法中的输出偏差值,即损失值,由总损失提供;
对抗损失设计步骤:对抗损失包括判别器损失和生成器损失,是引导训练生成式对抗网络的生成器和判别器进行相互博弈和对抗学习输入分布的损失函数;采用了混合策略,混合源目标图像,生成器生成的掩膜,与生成的图像后再输入判别器,提高训练稳定性,将原先的sigmoid交叉熵损失修改为最小二乘损失加快收敛;
其中判别器损失表示如下:
Figure BDA0002237622200000201
其中,
Figure BDA0002237622200000202
表示:判别器当前的损失值;
pdata(x)表示:源视频帧图像中源目标图像所具有的分布;
下标data表示:源视频帧中的源目标图像数据;
p(x)表示:数据的概率分布;
Figure BDA0002237622200000203
表示:从源目标图像分布下的数据集,即源视频帧中的源目标图像中采样作为x进行损失计算;
D表示:判别器函数;
λx表示:混合策略中对x加权后的源目标图像;
λ表示:混合策略中的混合度;
G(x)表示:生成器的输出图像;
x表示:来源于源视频帧图像中的源目标图像;
Gmf(x)表示:生成器输出掩膜与生成器输出图像融合后的输出图像;
下标m表示:掩膜;
下标f表示:掩膜与图像的融合函数;
生成器损失表示如下:
Figure BDA0002237622200000204
其中,
Figure BDA0002237622200000205
表示:生成器当前的损失值;
重构损失设计步骤:
重构损失函数评估生成器输出的生成目标图像与源目标图像的像素级差距,监督生成器还原输入的目标图像;其函数表示如下:
Figure BDA0002237622200000206
其中,
|| ||1表示:L1范数,表示向量中每个元素绝对值之和;
Figure BDA0002237622200000211
表示:重构损失值;
Gm(x)表示:生成器输出掩膜;
循环转换损失设计步骤:
循环转换损失通过将源目标图像转换为生成目标图像后,再以生成目标图像作为输入转换回源域,计算经两次转换得到的源域生成目标图像与源目标图像之间的像素级差距,监督生成器保留源目标图像的语义信息;其中,循环转换损失包括掩膜的转换损失与掩膜结合图像转换损失两部分;
掩膜转换损失定义如下:
Figure BDA0002237622200000212
其中,
Figure BDA0002237622200000213
表示:掩膜循环转换损失值;
Figure BDA0002237622200000214
表示:从源目标图像分布下的数据集,即源视频帧中的源目标图像中采样作为x进行损失计算;
Figure BDA0002237622200000215
表示:从转换目标图像分布下的数据集,即转换目标视频帧中的转换目标图像中采样作为y进行损失计算;
GmA表示:具有生成源目标图像掩膜能力的生成器;
GmB(x)表示:将源目标图像输入具有生成转换目标图像掩膜能力的生成器后得到的转换目标图像掩膜输出;
GmB表示:具有生成转换目标图像掩膜能力的生成器;
GmA(y)表示:将转换目标图像输入具有生成源目标图像掩膜能力的生成器后得到的源目标图像掩膜输出;
y表示:目标视频帧图像中的转换目标图像;
x表示:从源视频帧中采样的源目标图像数据;
下标B表示:转换目标图像的分布域;
下标A表示:源目标图像的分布域;
下标data_A表示:于视频中提取的源目标图像数据;
小标data_B表示:于视频中提取的转换目标图像数据;
掩膜结合图像转换损失定义如下:
Figure BDA0002237622200000221
其中,
Figure BDA0002237622200000222
表示:掩膜结合图像后的循环转换损失值;
GA表示:具有生成源目标图像能力的生成器;
GB表示:具有生成转换目标图像能力的生成器;
GB(x)表示:将源目标图像输入具有生成转换目标图像能力的生成器后得到的转换目标图像输出;
GA(y)表示:将转换目标图像输入具有生成源目标图像能力的生成器后得到的源目标图像输出;
感知损失设计步骤:
通过使用预训练模型将高维图像数据转为低维语义向量,直接评估生成目标图像与源目标图像之间的语义距离,监督生成器输出图像语义与源目标图像一致;感知损失函数表示如下:
Figure BDA0002237622200000223
其中,
|| ||2表示:L2范数,表示向量的欧氏距离;
Figure BDA0002237622200000224
表示:感知损失值;
Cj表示:第j层网络的输出通道数量;
Hj表示:第j层网络的输出的高;
Wj表示:第j层网络的输出的宽;
φj表示:第j层网络的激活函数;
下标j表示:预训练模型的网络层级索引;
φj(x)表示:第j层网络的激活值;
总变分损失设计步骤:
总变分损失作为损失函数中的正则项,约束掩膜的学习,减少生成目标图像的噪音数据,监督生成器输出光滑的图像;总变分损失原为对图像梯度幅值的积分,但由于计算机图像表示的离散性,连续域上的积分变为像素离散域内的求和;损失函数定义如下:
Figure BDA0002237622200000231
其中,
Figure BDA0002237622200000232
表示:总变分损失值;
Ho表示:生成器输出图像的高;
Wo表示:生成器输出图像的宽;
下标i表示:生成器输出图像的高度轴像素索引;
下标j表示:生成器输出图像的宽度轴像素索引;
Vaniso(G(x))表示:生成器输出图像的变分;
Gm(x)i+1,j表示:生成器输出图像在坐标(i+1,j)处的像素值;
Gm(x)i,j+1表示:生成器输出图像在坐标(i,j+1)处的像素值;
Gm(x)i,j表示:生成器输出图像在坐标(i,j)处的像素值;
梯度损失设计步骤:
梯度损失评估输入图像与生成图像之间的梯度差异,保留必要的梯度信息,避免总变分损失的去噪平滑效果造成的边缘淡化;损失函数定义如下:
Figure BDA0002237622200000233
其中,
Figure BDA0002237622200000234
表示:梯度损失值;
Vaniso(x)表示:来源于帧图像的输入图像的变分;
其中Mfocus(x)为目标图像关键区域掩膜,选择预置该值以指导模型特别关注某一区域内的梯度信息,追踪具有复杂结构和运动部位的目标时,预置该项显著提高追踪效果和细节捕捉;
总损失设计步骤:
总损失最终用于计算当前模型与理想模型的差距,通过反向传播算法来逐步调节当前模型的参数值,以逐渐逼近理想模型;结合文前提出的损失函数,本发明模型的总损失函数可表示如下:
Figure BDA0002237622200000235
其中,
Figure BDA0002237622200000241
表示:当前的总损失值;
下标G表示:生成器;
λ1表示:生成器损失的权值,为用户可选的超参数;
λ2表示:重构损失的权值,为用户可选的超参数;
λ3表示:循环转换损失的权值,为用户可选的超参数;
λ4表示:感知损失的权值,为用户可选的超参数;
λ5表示:总变分损失的权值,为用户可选的超参数;
λ6表示:梯度损失的权值,为用户可选的超参数。
具体地,所述步骤S5包括:
根据步骤S1中输出的源目标图像,及步骤S2输出的对应的关键点数据,对源目标图像区域进行截取,截取的图像尺寸小于提取的源目标图像的尺寸,排除提取的源目标图像中残留的背景图像因素,并根据关键点进行图像摆正。
具体地,所述步骤S7包括:根据生成目标图像形状与边缘信息生成经高斯模糊处理的边缘掩膜;
所述步骤S8包括;根据获取到生成目标图像,采用直方图匹配策略调整生成目标图像的色调与帧源目标图像保持一致,获取精调生成目标图像;
步骤S9:根据源视频中当前视频帧时间轴之前的历史视频帧的源目标图像中心点位置和当前视频帧的源目标图像中心点位置输入卡尔曼滤波器,调节当前帧的真实目标图像中心点位置。
根据本发明提供的一种基于对抗生成网络的视频内容替换系统,包括
模块S1:使用卷积网络对视频帧中的源目标图像进行提取,获得提取的源目标图像;
模块S2:对提取出的源目标图像标记关键点,连结关键点着色进行语义分割,输出源目标图像的关键点数据与语义分割图;
模块S3:对提取的源目标图像和输出的语义分割图进行成对的数据增强操作,包括对图像进行图像变换操作,获得数据增强后的源目标图像和语义分割图;
模块S4:将提取的源目标图像、输出的语义分割图以及数据增强后的源目标图像和语义分割图,一同输入生成式对抗网络进行网络训练,获得生成式对抗网络模型;
模块S5:根据模块S1输出的源目标图像,及模块S2输出的关键点数据,检测源目标图像ROI区域并进行切割和摆正,获得ROI区域图像;
模块S6:将ROI区域图像输入获得的生成式对抗网络模型,获取生成目标图像与生成掩膜;
模块S7:根据获取的生成目标图像,使用高斯模糊后的掩膜控制所述生成目标图像边缘平滑化和去模糊,获取边缘掩膜;
模块S8:根据获取到生成目标图像,将生成目标图像的直方图匹配到输入的源目标图像上,确保两者色调一致,获取精调生成目标图像;
模块S9:根据源视频中当前视频帧时间轴之前的历史视频帧的源目标图像中心点位置和当前视频帧的源目标图像中心点位置,调节当前帧的真实目标图像中心点位置,获取实际坐标值;
模块S10:将获取的生成掩膜、边缘掩膜、精调生成目标图像以及实际坐标值,与源视频中的原图像进行以帧为单位的图像融合,最终输出替换目标图像的特效视频。
具体地,所述模块S1包括:使用FFMPEG对视频文件进行帧解码提取帧图像,将每个帧图像输入预训练目标检测模型中获取源目标图像位置坐标与预设关键点,并根据位置坐标对源目标图像进行留取预设背景的截取,根据预设关键点坐标对源目标图像进行摆正;
所述提取包括:位置检测、截取以及摆正;
源目标图像指源视频帧图像中进行内容替换的区域图像;
预训练目标检测模型:为具有对帧图像进行源目标图像检测和关键点标定能力的检测模型。
所述模块S2包括:
使用针对源目标图像的预训练关键点精细标注模型对提取的源目标图像进行关键点检测和标注,根据关键点对源目标图像中的关键区域进行连结标定并进行区域着色,输出源目标图像的出语义分割图;
预训练关键点精细标注模型:关键点数量多于预训练目标检测模型,以及检测能力比预训练目标检测模型更精准的关键点检测模型。
所述模块S3:
所述图像变换操作包括以下任一种或任多种:翻转、旋转、平移、缩放、裁剪、运动模糊以及畸变。
具体地,所述模块S4包括:
将获取的源目标图像、源目标图像的出语义分割图、数据增强后的源目标图像和语义分割图作为训练数据输入设计的生成式对抗网络进行训练,获取两个能够各自生成源域与目标域图像的生成式对抗网络模型;
所述设计的生成式对抗网络包括:
生成器设计模块:
以自编码器为模型设计,共有两个生成器,互相共享编码器的同时各自独占一个解码器;
在生成式对抗网络的训练阶段两个生成器的训练目标为分别重构输入的源目标图像,与替换源视频帧图像中源目标图像的替换目标图像,其中编码器输入为截取摆正和数据增强后的源目标图像,结构上基于预设步长的下采样卷积神经网络,采用输入及输出网络宽、中间网络窄的瓶颈结构设计,并引入适用于卷积网络的注意力机制扩大感受野,每层归一化方法均采用适用于图像训练的实例归一化;
解码器输入为共享编码器的输出语义向量,以及获得的语义分割图,结构上基于子像素卷积神经网络,每一层采用了以语义分割图为监督的空间自适应层归一化方法引导生成目标图像的不同部分,同时也引入了注意力机制引导掩膜的生成;
判别器设计模块:
判别器输入为标注为真的源目标图像,即来源于源视频帧图像的源目标图像,与标注为假的源目标图像,即来源于生成器输出的图像,其训练目标为成功分类真假目标图像,与生成器共同组成生成式对抗网络;其结构上基于预设步长的下采样卷积神经网络,引入了注意力机制;输出层通过单层卷积输出多维判别结果,该判别结果取平均后将用于对抗损失的计算,即为判别器D(x)的输出;
在训练过程中,生成器与判别器交叉训练,生成器每训练一轮,训练时输出的合成目标图像将被标注为假数据接着输入下一轮判别器的训练中,判别器得到一轮训练后,下一轮继续生成器的训练;
生成器和判别器的训练依靠于神经网络的反向传播算法,反向传播算法中的输出偏差值,即损失值,由总损失提供;
对抗损失设计模块:对抗损失包括判别器损失和生成器损失,是引导训练生成式对抗网络的生成器和判别器进行相互博弈和对抗学习输入分布的损失函数;采用了混合策略,混合源目标图像,生成器生成的掩膜,与生成的图像后再输入判别器,提高训练稳定性,将原先的sigmoid交叉熵损失修改为最小二乘损失加快收敛;
其中判别器损失表示如下:
Figure BDA0002237622200000271
其中,
Figure BDA0002237622200000272
表示:判别器当前的损失值;
pdata(x)表示:源视频帧图像中源目标图像所具有的分布;
下标data表示:源视频帧中的源目标图像数据;
p(x)表示:数据的概率分布;
Figure BDA0002237622200000273
表示:从源目标图像分布下的数据集,即源视频帧中的源目标图像中采样作为x进行损失计算;
D表示:判别器函数;
λx表示:混合策略中对x加权后的源目标图像;
λ表示:混合策略中的混合度;
G(x)表示:生成器的输出图像;
x表示:来源于源视频帧图像中的源目标图像;
Gmf(x)表示:生成器输出掩膜与生成器输出图像融合后的输出图像;
下标m表示:掩膜;
下标f表示:掩膜与图像的融合函数;
生成器损失表示如下:
Figure BDA0002237622200000274
其中,
Figure BDA0002237622200000275
表示:生成器当前的损失值;
重构损失设计模块:
重构损失函数评估生成器输出的生成目标图像与源目标图像的像素级差距,监督生成器还原输入的目标图像;其函数表示如下:
Figure BDA0002237622200000276
其中,
|| ||1表示:L1范数,表示向量中每个元素绝对值之和;
Figure BDA0002237622200000277
表示:重构损失值;
Gm(x)表示:生成器输出掩膜;
循环转换损失设计模块:
循环转换损失通过将源目标图像转换为生成目标图像后,再以生成目标图像作为输入转换回源域,计算经两次转换得到的源域生成目标图像与源目标图像之间的像素级差距,监督生成器保留源目标图像的语义信息;其中,循环转换损失包括掩膜的转换损失与掩膜结合图像转换损失两部分;
掩膜转换损失定义如下:
Figure BDA0002237622200000281
其中,
Figure BDA0002237622200000282
表示:掩膜循环转换损失值;
Figure BDA0002237622200000283
表示:从源目标图像分布下的数据集,即源视频帧中的源目标图像中采样作为x进行损失计算;
Figure BDA0002237622200000284
表示:从转换目标图像分布下的数据集,即转换目标视频帧中的转换目标图像中采样作为y进行损失计算;
GmA表示:具有生成源目标图像掩膜能力的生成器;
GmB(x)表示:将源目标图像输入具有生成转换目标图像掩膜能力的生成器后得到的转换目标图像掩膜输出;
GmB表示:具有生成转换目标图像掩膜能力的生成器;
GmA(y)表示:将转换目标图像输入具有生成源目标图像掩膜能力的生成器后得到的源目标图像掩膜输出;
y表示:目标视频帧图像中的转换目标图像;
x表示:从源视频帧中采样的源目标图像数据;
下标B表示:转换目标图像的分布域;
下标A表示:源目标图像的分布域;
下标data_A表示:于视频中提取的源目标图像数据;
小标data_B表示:于视频中提取的转换目标图像数据;
掩膜结合图像转换损失定义如下:
Figure BDA0002237622200000285
其中,
Figure BDA0002237622200000286
表示:掩膜结合图像后的循环转换损失值;
GA表示:具有生成源目标图像能力的生成器;
GB表示:具有生成转换目标图像能力的生成器;
GB(x)表示:将源目标图像输入具有生成转换目标图像能力的生成器后得到的转换目标图像输出;
GA(y)表示:将转换目标图像输入具有生成源目标图像能力的生成器后得到的源目标图像输出;
感知损失设计模块:
通过使用预训练模型将高维图像数据转为低维语义向量,直接评估生成目标图像与源目标图像之间的语义距离,监督生成器输出图像语义与源目标图像一致;感知损失函数表示如下:
Figure BDA0002237622200000291
其中,
|| ||2表示:L2范数,表示向量的欧氏距离;
Figure BDA0002237622200000292
表示:感知损失值;
Cj表示:第j层网络的输出通道数量;
Hj表示:第j层网络的输出的高;
Wj表示:第j层网络的输出的宽;
φj表示:第j层网络的激活函数;
下标j表示:预训练模型的网络层级索引;
φj(x)表示:第j层网络的激活值;
总变分损失设计模块:
总变分损失作为损失函数中的正则项,约束掩膜的学习,减少生成目标图像的噪音数据,监督生成器输出光滑的图像;总变分损失原为对图像梯度幅值的积分,但由于计算机图像表示的离散性,连续域上的积分变为像素离散域内的求和;损失函数定义如下:
Figure BDA0002237622200000293
其中,
Figure BDA0002237622200000294
表示:总变分损失值;
Ho表示:生成器输出图像的高;
Wo表示:生成器输出图像的宽;
下标i表示:生成器输出图像的高度轴像素索引;
下标j表示:生成器输出图像的宽度轴像素索引;
Vaniso(G(x))表示:生成器输出图像的变分;
Gm(x)i+1,j表示:生成器输出图像在坐标(i+1,j)处的像素值;
Gm(x)i,j+1表示:生成器输出图像在坐标(i,j+1)处的像素值;
Gm(x)i,j表示:生成器输出图像在坐标(i,j)处的像素值;
梯度损失设计模块:
梯度损失评估输入图像与生成图像之间的梯度差异,保留必要的梯度信息,避免总变分损失的去噪平滑效果造成的边缘淡化;损失函数定义如下:
Figure BDA0002237622200000301
其中,
Figure BDA0002237622200000302
表示:梯度损失值;
Vaniso(x)表示:来源于帧图像的输入图像的变分;
其中Mfocus(x)为目标图像关键区域掩膜,选择预置该值以指导模型特别关注某一区域内的梯度信息,追踪具有复杂结构和运动部位的目标时,预置该项显著提高追踪效果和细节捕捉;
总损失设计模块:
总损失最终用于计算当前模型与理想模型的差距,通过反向传播算法来逐步调节当前模型的参数值,以逐渐逼近理想模型;结合文前提出的损失函数,本发明模型的总损失函数可表示如下:
Figure BDA0002237622200000303
其中,
Figure BDA0002237622200000304
表示:当前的总损失值;
下标G表示:生成器;
λ1表示:生成器损失的权值,为用户可选的超参数;
λ2表示:重构损失的权值,为用户可选的超参数;
λ3表示:循环转换损失的权值,为用户可选的超参数;
λ4表示:感知损失的权值,为用户可选的超参数;
λ5表示:总变分损失的权值,为用户可选的超参数;
λ6表示:梯度损失的权值,为用户可选的超参数。
所述模块S5包括:
根据模块S1中输出的源目标图像,及模块S2输出的对应的关键点数据,对源目标图像区域进行截取,截取的图像尺寸小于提取的源目标图像的尺寸,排除提取的源目标图像中残留的背景图像因素,并根据关键点进行图像摆正。
所述模块S7包括:根据生成目标图像形状与边缘信息生成经高斯模糊处理的边缘掩膜;
所述模块S8包括;根据获取到生成目标图像,采用直方图匹配策略调整生成目标图像的色调与帧源目标图像保持一致,获取精调生成目标图像;
所述模块S9包括:根据源视频中当前视频帧时间轴之前的历史视频帧的源目标图像中心点位置和当前视频帧的源目标图像中心点位置输入卡尔曼滤波器,调节当前帧的真实目标图像中心点位置。
下面通过优选例,对本发明进行更为具体地说明。
优选例1
本发明的技术方案为:基于对抗网络的目标图像生成视频替换方法,如图1所示,为基于对抗生成网络的目标图像生成视频内容替换方法的流程示意图,包括以下步骤:
S1:使用卷积网络对视频帧中的源目标图像进行位置检测和框选;
S2:对源目标图像标记关键点,连结关键点着色进行语义分割;
S3:使用翻转、旋转、平移、畸变等图像变换操作对提取出的源目标图像进行数据增强丰富数据集;
S4:将增强后的数据集,及其配对的语义分割图一同输入网络训练生成式对抗模型;
S5:精确检测源目标图像ROI区域并进行切割和摆正;
S6:以ROI区域图像作为生成模型输入获取生成目标图像与合成掩膜;
S7:使用高斯模糊后的掩膜控制生成目标图像边缘平滑化和去模糊;
S8:直方图匹配策略调整生成目标图像的色调与帧源目标图像保持一致;
S9:根据历史的源目标图像中心点位置和当前检测的源目标图像中心点位置调节当前帧的真实目标图像中心点位置;
S10:融合源图像与生成目标图像。
所述步骤S1包括使用FFMPEG对视频文件进行帧解码提取帧图像,将每个帧图像输入预训练卷积网络目标检测模型中获取源目标图像位置坐标与部分关键点,并根据位置坐标对源目标图像进行截取,根据部分关键点坐标对目标图像进行摆正;
所述步骤S2包括使用针对目标图像的预训练关键点精细标注模型对S1中截取和摆正的源目标图像进行更多更精细关键点的检测和标注,根据预设规则连结检测到的具体关键点并进行区域着色,作为之后步骤中合成目标图像的语义输入;
所述步骤S3包括对S1输出的源目标图像和S2输出的语义分割图进行成对的数据增强操作,包括对图像进行翻转、旋转、平移、缩放、裁剪、运动模糊、畸变等操作;
所述步骤S4包括将前三个阶段的输出图像作为训练数据输入预设计的生成式对抗网络进行训练,以获取两个能够各自生成源域与目标域图像的生成器模型。网络的设计细节如下部分:
(4-1)生成器:生成器为以自编码器为模型设计,共有两个生成器,互相共享编码器的同时各自独占一个解码器;训练阶段两个生成器的训练目标为分别重构输入的源目标图像与替换目标图像,其中编码器输入为截取摆正和数据增强后的源目标图像,结构上基于步长为2的下采样卷积神经网络,采用了Bottleneck的结构设计,并引入了适用于卷积网络的注意力机制扩大感受野,每层归一化方法均采用适用于图像训练的实例归一化;解码器输入为共享编码器的输出语义向量,以及步骤S2的输出语义分割图,结构上基于子像素卷积神经网络,每一层采用了以语义分割图为监督的空间自适应层归一化方法引导生成目标图像的不同部分,同时也引入了注意力机制引导掩膜的生成。
(4-2)判别器:判别器输入为标注为真的源目标图像与标注为假的生成目标图像,其训练目标为成功分类真假目标图像,与生成器共同组成生成式对抗网络。其结构上基于步长为2的下采样卷积神经网络,同样引入了注意力机制;输出层通过单层卷积输出8x8x1的多维判别结果。
(4-3)对抗损失:采用了mixup策略提高训练稳定性,将原先的sigmoid交叉熵损失修改为最小二乘损失加快收敛。其中判别器损失表示如下:
Figure BDA0002237622200000321
生成器损失表示如下:
Figure BDA0002237622200000322
(4-4)重构损失:重构损失函数评估生成器输出的生成目标图像与源目标图像的像素级差距,监督生成器尽可能还原输入的目标图像。其函数表示如下:
Figure BDA0002237622200000331
(4-5)循环转换损失:循环转换损失通过将源目标图像转换为生成目标图像后,再以生成目标图像作为输入转换回源域,计算经两次转换得到的源域生成目标图像与源目标图像之间的像素级差距,监督生成器保留源目标图像的语义信息。其中,循环转换损失包括掩膜的转换损失与掩膜结合图像转换损失两部分。掩膜转换损失定义如下:
Figure BDA0002237622200000332
掩膜结合图像转换损失定义如下:
Figure BDA0002237622200000333
(4-6)感知损失:感知损失通过使用预训练模型将高维图像数据转为低维语义向量,直接评估生成目标图像与源目标图像之间的语义距离,监督生成器输出图像语义与源目标图像一致。感知损失函数表示如下:
Figure BDA0002237622200000334
(4-7)总变分损失:总变分损失作为损失函数中的正则项,约束掩膜的学习,减少生成目标图像的噪音数据,监督生成器输出光滑的图像。总变分损失原为对图像梯度幅值的积分,但由于计算机图像表示的离散性,连续域上的积分变为像素离散域内的求和。损失函数定义如下:
Figure BDA0002237622200000335
(4-8)梯度损失:梯度损失评估输入图像与生成图像之间的梯度差异,保留必要的梯度信息,避免总变分损失的去噪平滑效果造成的边缘淡化。损失函数定义如下:
Figure BDA0002237622200000336
其中Mfocus(x)为目标图像关键区域掩膜,为可选项,用户可选择预置该值以指导模型特别关注某一区域内的梯度信息,追踪具有复杂结构和运动部位的目标时,预置该项可显著提高追踪效果和细节捕捉。
(4-9)总损失:结合文前提出的损失函数,本发明模型的总损失函数可表示如下:
Figure BDA0002237622200000341
所述步骤S5包括根据S2步骤中输出的源目标图像及其对应的关键点数据进一步精调和变换源目标图像区域;
所述步骤S6包括以S5的输出源目标图像作为已完成训练的生成器模型输入,得到精调区域后的生成目标图像与生成掩膜;
所述步骤S7包括根据生成目标图像形状与边缘信息生成经高斯模糊处理的边缘掩膜;
所述步骤S8包括将生成目标图像的直方图匹配到输入的源目标图像上,确保两者色调一致;
所述步骤S9包括使用卡尔曼滤波器对过去和现在的测量值和误差值进行分析预测当前目标图像位置的实际值;
所述步骤S10包括根据S6输出的生成掩膜,S7输出的边缘掩膜,S8输出的精调生成目标图像,S9输出的实际坐标值,和源视频中的原图像进行以帧为单位的图像融合,最终输出替换目标图像的特效视频。如图2所示,为基于对抗生成网络的目标图像生成视频内容替换方法实施结果示意图。
优选例2:
一种基于对抗生成网络的目标图像生成视频内容替换方法,包括以下步骤:
S1:使用卷积网络对视频帧中的源目标图像进行位置检测、截取和摆正,其中源目标图像指代源视频帧图像中需要进行内容替换的区域图像;
S2:对源目标图像标记关键点,连结关键点着色进行语义分割,输出为源目标图像的语义分割图;
S3:使用翻转、旋转、平移、畸变等图像变换操作对提取出的源目标图像进行数据增强丰富数据集;
S4:将增强后的数据集,及其配对的语义分割图一同输入网络训练生成式对抗模型。其中语义分割图为S2步骤的输出;生成式对抗模型基于二人博弈的思想对输入数据的分布进行学习,训练成功的生成式对抗模型将具有生成与输入数据相似分布的输出的能力,在本发明中,即指具有生成训练数据中所不存在的目标图像的能力,其输出的模型文件将用于S6中的生成目标图像获取;
S5:精确检测源目标图像ROI区域并进行切割和摆正;
S6:以ROI区域图像作为生成模型输入获取生成目标图像与合成掩膜;
S7:使用高斯模糊后的掩膜控制生成目标图像边缘平滑化和去模糊;
S8:直方图匹配策略调整生成目标图像的色调与帧源目标图像保持一致;
S9:根据历史的源目标图像中心点位置和当前检测的源目标图像中心点位置调节当前帧的真实目标图像中心点位置;
S10:融合源图像与生成目标图像。
所述步骤S1包括使用FFMPEG对视频文件进行帧解码提取帧图像,将每个帧图像输入预训练目标检测模型中获取源目标图像位置坐标与部分关键点,并根据位置坐标对源目标图像进行留取部分背景的粗略截取,根据部分关键点坐标对目标图像进行摆正,即检测、截取和摆正。其中源目标图像指代源视频帧图像中需要进行内容替换的区域图像,预训练目标检测模型可为任意的、具有对帧图像进行源目标图像检测和少量关键点标定能力的检测模型;
所述步骤S2包括使用针对源目标图像的预训练关键点精细标注模型对S1中截取和摆正的源目标图像进行关键点检测和标注,根据关键点对源目标图像中的关键区域进行连结标定并进行区域着色,作为之后步骤中合成目标图像的语义输入。其中预训练关键点精细标注模型可为任意的、具有对源目标图像进行相较于S1中的预训练目标检测模型更多、更精准的关键点检测能力的检测模型;
所述步骤S3包括对S1输出的源目标图像和S2输出的语义分割图进行成对的数据增强操作,包括对图像进行翻转、旋转、平移、缩放、裁剪、运动模糊、畸变等操作,其输出为数据增强后的源目标图像和语义分割图;
所述步骤S4包括将S1输出的源目标图像、S2输出的语义分割图、S3输出的数据增强后的源目标图像和语义分割图作为训练数据输入一对生成式对抗网络进行训练,以获取两个能够各自生成源域与目标域图像的生成器模型。在训练过程中,生成器与判别器交叉训练,生成器每训练一轮,其训练时输出的合成目标图像将被标注为假数据紧接着输入下一轮判别器的训练中,判别器得到一轮训练后,下一轮继续生成器的训练。具体的,生成器和判别器的训练依靠于神经网络的反向传播算法,该算法中的输出偏差值,即损失值,由总损失提供。该生成式对抗网络的设计细节与功能效用如下部分所示:
(4-1)生成器:生成器为以自编码器为模型设计,共有两个生成器,互相共享编码器的同时各自独占一个解码器;训练阶段两个生成器的训练目标为分别重构输入的源目标图像,与将用于替换源视频帧图像中源目标图像的替换目标图像,其中编码器输入为截取摆正和数据增强后的源目标图像,结构上基于步长为2的下采样卷积神经网络,采用了输入输出网络宽、中间网络窄的瓶颈结构设计,并引入了适用于卷积网络的注意力机制扩大感受野,每层归一化方法均采用适用于图像训练的实例归一化;解码器输入为共享编码器的输出语义向量,以及步骤S2的输出语义分割图,结构上基于子像素卷积神经网络,每一层采用了以语义分割图为监督的空间自适应层归一化方法引导生成目标图像的不同部分,同时也引入了注意力机制引导掩膜的生成。
(4-2)判别器:判别器输入源目标图像,其中来源于源视频帧图像的源目标图像,将其标注为真;而来源于本S4步骤中生成器训练一轮时输出的合成目标图像,将其标注为假。判别器的训练目标为成功分类真假目标图像,与生成器共同组成生成式对抗网络。其结构上基于步长为2的下采样卷积神经网络,同样引入了注意力机制;输出层通过单层卷积输出8x8x1的多维判别结果,该结果取平均后将用于4-3中对抗损失的计算,即为下文中判别器D(x)的输出。
(4-3)对抗损失:采用了混合策略,混合源目标图像,生成器生成的掩膜,与生成的图像后再输入判别器,提高训练稳定性,将原先的sigmoid交叉熵损失修改为最小二乘损失加快收敛。其中判别器损失表示如下:
Figure BDA0002237622200000361
其中,
Figure BDA0002237622200000362
表示:判别器当前的损失值;
Figure BDA0002237622200000363
表示:从源目标图像分布下的数据集,即源视频帧中的源目标图像中采样作为x进行损失计算;
D表示:判别器函数;
λx表示:混合策略中对x加权后的源目标图像;
λ表示:混合策略中的混合度;
G(x)表示:生成器的输出图像;
x表示:来源于源视频帧图像中的源目标图像;
Gmf(x)表示:生成器输出掩膜与生成器输出图像融合后的输出图像;
m表示:生成器输出掩膜;
f表示:掩膜与图像的融合函数
生成器损失表示如下:
Figure BDA0002237622200000371
其中,
Figure BDA0002237622200000372
表示:生成器当前的损失值;
(4-4)重构损失:重构损失函数评估生成器输出的生成目标图像与源目标图像的像素级差距,监督生成器尽可能还原输入的目标图像。其函数表示如下:
Figure BDA0002237622200000373
其中,
Figure BDA0002237622200000374
表示:重构损失值;
(4-5)循环转换损失:循环转换损失通过将源目标图像转换为生成目标图像后,再以生成目标图像作为输入转换回源域,计算经两次转换得到的源域生成目标图像与源目标图像之间的像素级差距,监督生成器保留源目标图像的语义信息。其中,循环转换损失包括掩膜的转换损失与掩膜结合图像转换损失两部分。掩膜转换损失定义如下:
Figure BDA0002237622200000375
其中,
Figure BDA0002237622200000376
表示:掩膜循环转换损失值;
Figure BDA0002237622200000377
表示:从源目标图像分布下的数据集,即源视频帧中的源目标图像中采样作为x进行损失计算;
Figure BDA0002237622200000378
表示:从转换目标图像分布下的数据集,即转换视目标频帧中的转换目标图像中采样作为y进行损失计算;
GmA表示:具有生成源目标图像掩膜能力的生成器;
GmB(x)表示:将源目标图像输入具有生成转换目标图像掩膜能力的生成器后得到的转换目标图像掩膜输出;
GmB表示:具有生成转换目标图像掩膜能力的生成器;
GmA(y)表示:将转换目标图像输入具有生成源目标图像掩膜能力的生成器后得到的源目标图像掩膜输出;
y表示:目标视频帧图像中的转换目标图像;
掩膜结合图像转换损失定义如下:
Figure BDA0002237622200000381
其中,
Figure BDA0002237622200000382
表示:掩膜结合图像后的循环转换损失值;
GA表示:具有生成源目标图像能力的生成器;
GB表示:具有生成转换目标图像能力的生成器;
GB(x)表示:将源目标图像输入具有生成转换目标图像能力的生成器后得到的转换目标图像输出;
GA(y)表示:将转换目标图像输入具有生成源目标图像能力的生成器后得到的源目标图像输出;
(4-6)感知损失:感知损失通过使用预训练模型将高维图像数据转为低维语义向量,直接评估生成目标图像与源目标图像之间的语义距离,监督生成器输出图像语义与源目标图像一致。感知损失函数表示如下:
Figure BDA0002237622200000383
其中,
Figure BDA0002237622200000384
表示:感知损失值;
Cj表示:第j层网络的输出通道数量;
Hj表示:第j层网络的输出的高;
Wj表示:第j层网络的输出的宽;
φj表示:第j层网络的激活函数;
j表示:预训练模型的网络层级索引;
φj(x)表示:第j层网络的激活值;
(4-7)总变分损失:总变分损失作为损失函数中的正则项,约束掩膜的学习,减少生成目标图像的噪音数据,监督生成器输出光滑的图像。总变分损失原为对图像梯度幅值的积分,但由于计算机图像表示的离散性,连续域上的积分变为像素离散域内的求和。
损失函数定义如下:
Figure BDA0002237622200000391
其中,
Figure BDA0002237622200000392
表示:总变分损失值;
Ho表示:生成器输出图像的高;
Wo表示:生成器输出图像的宽;
Vaniso(G(x))表示:生成器输出图像的变分;
Gm(x)i+1,j表示:生成器输出图像在坐标(i+1,j)处的像素值;
Gm(x)i,j+1表示:生成器输出图像在坐标(i,j+1)处的像素值;
Gm(x)i,j表示:生成器输出图像在坐标(i,j)处的像素值;
(4-8)梯度损失:梯度损失评估输入图像与生成图像之间的梯度差异,保留必要的梯度信息,避免总变分损失的去噪平滑效果造成的边缘淡化。损失函数定义如下:
Figure BDA0002237622200000393
其中,
Figure BDA0002237622200000394
表示:梯度损失值;
Vaniso(x)表示:来源于帧图像的输入图像的变分;
其中Mfocus(x)为目标图像关键区域掩膜,为可选项,用户可选择预置该值以指导模型特别关注某一区域内的梯度信息,追踪具有复杂结构和运动部位的目标时,预置该项可显著提高追踪效果和细节捕捉。
(4-9)总损失:总损失最终用于计算当前模型与理想模型的差距。本S4步骤中生成式对抗模型的训练,即生成器和判别器的训练依靠于神经网络的反向传播算法,该算法中的输出偏差值,即损失值,由总损失提供。结合文前提出的损失函数,本发明模型的总损失函数可表示如下:
Figure BDA0002237622200000395
其中,
Figure BDA0002237622200000396
表示:当前的总损失值;
λ1表示:生成器损失的权值,为用户可选的超参数;
λ2表示:重构损失的权值,为用户可选的超参数;
λ3表示:循环转换损失的权值,为用户可选的超参数;
λ4表示:感知损失的权值,为用户可选的超参数;
λ5表示:总变分损失的权值,为用户可选的超参数;
λ6表示:梯度损失的权值,为用户可选的超参数;
所述步骤S5包括根据S2步骤中输出的源目标图像及其对应的关键点数据对源目标图像区域进行相较于S1中的截取步骤更小的有限区域内的源目标图像截取,尽可能排除S1输出源目标图像中残留的背景图像因素,并根据关键点进行图像摆正;
所述步骤S6包括以S5的输出源目标图像作为已完成训练的生成器模型输入,得到精调区域后的生成目标图像与生成掩膜;
所述步骤S7包括根据生成目标图像形状与边缘信息生成经高斯模糊处理的边缘掩膜;
所述步骤S8包括将生成目标图像的直方图匹配到输入的源目标图像上,确保两者色调一致;
所述步骤S9包括将源视频中当前帧时间轴之前的目标图像中心坐标序列和当前帧的目标图像中心坐标输入卡尔曼滤波器。滤波器输出的坐标位置,即为当前目标图像中心坐标的检测位置的纠偏,相较于直接检测的中心坐标更接近真实坐标;
所述步骤S10包括根据S6输出的生成掩膜,S7输出的边缘掩膜,S8输出的精调生成目标图像,S9输出的实际坐标值,和源视频中的原图像进行以帧为单位的图像融合,最终输出替换目标图像的特效视频。
本发明实施实例仅为本发明的较佳实施例而已,并不用以限制本发明,也是为了让读者更好的理解本发明的原理和基本内容,本发明的保护范围并不以上述实施实例为限,本领域技术开发人员按照本发明所叙述的内容所做的修改替换、等效操作皆应纳入保护范围。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种基于对抗生成网络的视频内容替换方法,其特征在于,包括:
步骤S1:使用卷积网络对视频帧中的源目标图像进行提取,获得提取的源目标图像;
步骤S2:对提取出的源目标图像标记关键点,连结关键点着色进行语义分割,输出源目标图像的关键点数据与语义分割图;
步骤S3:对提取的源目标图像和输出的语义分割图进行成对的数据增强操作,包括对图像进行图像变换操作,获得数据增强后的源目标图像和语义分割图;
步骤S4:将提取的源目标图像、输出的语义分割图以及数据增强后的源目标图像和语义分割图,一同输入生成式对抗网络进行网络训练,获得生成式对抗网络模型;
步骤S5:根据步骤S1输出的源目标图像,及步骤S2输出的关键点数据,检测源目标图像ROI区域并进行切割和摆正,获得ROI区域图像;
步骤S6:将ROI区域图像输入获得的生成式对抗网络模型,获取生成目标图像与生成掩膜;
步骤S7:根据获取的生成目标图像,使用高斯模糊后的掩膜控制所述生成目标图像边缘平滑化和去模糊,获取边缘掩膜;
步骤S8:根据获取到生成目标图像,将生成目标图像的直方图匹配到输入的源目标图像上,确保两者色调一致,获取精调生成目标图像;
步骤S9:根据源视频中当前视频帧时间轴之前的历史视频帧的源目标图像中心点位置和当前视频帧的源目标图像中心点位置,调节当前帧的真实目标图像中心点位置,获取实际坐标值;
步骤S10:将获取的生成掩膜、边缘掩膜、精调生成目标图像以及实际坐标值,与源视频中的原图像进行以帧为单位的图像融合,最终输出替换目标图像的特效视频。
2.根据权利要求1所述的一种基于对抗生成网络的视频内容替换方法,其特征在于,所述步骤S1包括:使用FFMPEG对视频文件进行帧解码提取帧图像,将每个帧图像输入预训练目标检测模型中获取源目标图像位置坐标与预设关键点,并根据位置坐标对源目标图像进行留取预设背景的截取,根据预设关键点坐标对源目标图像进行摆正;
所述提取包括:位置检测、截取以及摆正;
源目标图像指源视频帧图像中进行内容替换的区域图像;
预训练目标检测模型:为具有对帧图像进行源目标图像检测和关键点标定能力的检测模型。
3.根据权利要求2所述的一种基于对抗生成网络的视频内容替换方法,其特征在于,所述步骤S2包括:
使用针对源目标图像的预训练关键点精细标注模型对提取的源目标图像进行关键点检测和标注,根据关键点对源目标图像中的关键区域进行连结标定并进行区域着色,输出源目标图像的出语义分割图;
预训练关键点精细标注模型:关键点数量多于预训练目标检测模型,以及检测能力比预训练目标检测模型更精准的关键点检测模型。
4.根据权利要求1所述的一种基于对抗生成网络的视频内容替换方法,其特征在于,所述步骤S3:
所述图像变换操作包括以下任一种或任多种:翻转、旋转、平移、缩放、裁剪、运动模糊以及畸变。
5.根据权利要求1所述的一种基于对抗生成网络的视频内容替换方法,其特征在于,所述步骤S4包括:
将获取的源目标图像、源目标图像的出语义分割图、数据增强后的源目标图像和语义分割图作为训练数据输入设计的生成式对抗网络进行训练,获取两个能够各自生成源域与目标域图像的生成式对抗网络模型;
所述设计的生成式对抗网络包括:
生成器设计步骤:
以自编码器为模型设计,共有两个生成器,互相共享编码器的同时各自独占一个解码器;
在生成式对抗网络的训练阶段两个生成器的训练目标为分别重构输入的源目标图像,与替换源视频帧图像中源目标图像的替换目标图像,其中编码器输入为截取摆正和数据增强后的源目标图像,结构上基于预设步长的下采样卷积神经网络,采用输入及输出网络宽、中间网络窄的瓶颈结构设计,并引入适用于卷积网络的注意力机制扩大感受野,每层归一化方法均采用适用于图像训练的实例归一化;
解码器输入为共享编码器的输出语义向量,以及获得的语义分割图,结构上基于子像素卷积神经网络,每一层采用了以语义分割图为监督的空间自适应层归一化方法引导生成目标图像的不同部分,同时也引入了注意力机制引导掩膜的生成;
判别器设计步骤:
判别器输入为标注为真的源目标图像,即来源于源视频帧图像的源目标图像,与标注为假的源目标图像,即来源于生成器输出的图像,其训练目标为成功分类真假目标图像,与生成器共同组成生成式对抗网络;其结构上基于预设步长的下采样卷积神经网络,引入了注意力机制;输出层通过单层卷积输出多维判别结果,该判别结果取平均后将用于对抗损失的计算,即为判别器D(x)的输出;
在训练过程中,生成器与判别器交叉训练,生成器每训练一轮,训练时输出的合成目标图像将被标注为假数据接着输入下一轮判别器的训练中,判别器得到一轮训练后,下一轮继续生成器的训练;
生成器和判别器的训练依靠于神经网络的反向传播算法,反向传播算法中的输出偏差值,即损失值,由总损失提供;
对抗损失设计步骤:对抗损失包括判别器损失和生成器损失,是引导训练生成式对抗网络的生成器和判别器进行相互博弈和对抗学习输入分布的损失函数;采用了混合策略,混合源目标图像,生成器生成的掩膜,与生成的图像后再输入判别器,提高训练稳定性,将原先的sigmoid交叉熵损失修改为最小二乘损失加快收敛;
其中判别器损失表示如下:
Figure FDA0002237622190000031
其中,
Figure FDA0002237622190000032
表示:判别器当前的损失值;
pdata(x)表示:源视频帧图像中源目标图像所具有的分布;
下标data表示:源视频帧中的源目标图像数据;
p(x)表示:数据的概率分布;
Figure FDA0002237622190000033
表示:从源目标图像分布下的数据集,即源视频帧中的源目标图像中采样作为x进行损失计算;
D表示:判别器函数;
λx表示:混合策略中对x加权后的源目标图像;
λ表示:混合策略中的混合度;
G(x)表示:生成器的输出图像;
x表示:来源于源视频帧图像中的源目标图像;
Gmf(x)表示:生成器输出掩膜与生成器输出图像融合后的输出图像;
下标m表示:掩膜;
下标f表示:掩膜与图像的融合函数;
生成器损失表示如下:
Figure FDA0002237622190000041
其中,
Figure FDA0002237622190000042
表示:生成器当前的损失值;
重构损失设计步骤:
重构损失函数评估生成器输出的生成目标图像与源目标图像的像素级差距,监督生成器还原输入的目标图像;其函数表示如下:
Figure FDA0002237622190000043
其中,
|| ||1表示:L1范数,表示向量中每个元素绝对值之和;
Figure FDA0002237622190000044
表示:重构损失值;
Gm(x)表示:生成器输出掩膜;
循环转换损失设计步骤:
循环转换损失通过将源目标图像转换为生成目标图像后,再以生成目标图像作为输入转换回源域,计算经两次转换得到的源域生成目标图像与源目标图像之间的像素级差距,监督生成器保留源目标图像的语义信息;其中,循环转换损失包括掩膜的转换损失与掩膜结合图像转换损失两部分;
掩膜转换损失定义如下:
Figure FDA0002237622190000045
其中,
Figure FDA0002237622190000046
表示:掩膜循环转换损失值;
Figure FDA0002237622190000047
表示:从源目标图像分布下的数据集,即源视频帧中的源目标图像中采样作为x进行损失计算;
Figure FDA0002237622190000048
表示:从转换目标图像分布下的数据集,即转换目标视频帧中的转换目标图像中采样作为y进行损失计算;
GmA表示:具有生成源目标图像掩膜能力的生成器;
GmB(x)表示:将源目标图像输入具有生成转换目标图像掩膜能力的生成器后得到的转换目标图像掩膜输出;
GmB表示:具有生成转换目标图像掩膜能力的生成器;
GmA(y)表示:将转换目标图像输入具有生成源目标图像掩膜能力的生成器后得到的源目标图像掩膜输出;
y表示:目标视频帧图像中的转换目标图像;
x表示:从源视频帧中采样的源目标图像数据;
下标B表示:转换目标图像的分布域;
下标A表示:源目标图像的分布域;
下标data_A表示:于视频中提取的源目标图像数据;
小标data_B表示:于视频中提取的转换目标图像数据;
掩膜结合图像转换损失定义如下:
Figure FDA0002237622190000051
其中,
Figure FDA0002237622190000052
表示:掩膜结合图像后的循环转换损失值;
GA表示:具有生成源目标图像能力的生成器;
GB表示:具有生成转换目标图像能力的生成器;
GB(x)表示:将源目标图像输入具有生成转换目标图像能力的生成器后得到的转换目标图像输出;
GA(y)表示:将转换目标图像输入具有生成源目标图像能力的生成器后得到的源目标图像输出;
感知损失设计步骤:
通过使用预训练模型将高维图像数据转为低维语义向量,直接评估生成目标图像与源目标图像之间的语义距离,监督生成器输出图像语义与源目标图像一致;感知损失函数表示如下:
Figure FDA0002237622190000053
其中,
|| ||2表示:L2范数,表示向量的欧氏距离;
Figure FDA0002237622190000054
表示:感知损失值;
Cj表示:第j层网络的输出通道数量;
Hj表示:第j层网络的输出的高;
Wj表示:第j层网络的输出的宽;
φj表示:第j层网络的激活函数;
下标j表示:预训练模型的网络层级索引;
φj(x)表示:第j层网络的激活值;
总变分损失设计步骤:
总变分损失作为损失函数中的正则项,约束掩膜的学习,减少生成目标图像的噪音数据,监督生成器输出光滑的图像;总变分损失原为对图像梯度幅值的积分,但由于计算机图像表示的离散性,连续域上的积分变为像素离散域内的求和;损失函数定义如下:
Figure FDA0002237622190000061
其中,
Figure FDA0002237622190000062
表示:总变分损失值;
Ho表示:生成器输出图像的高;
Wo表示:生成器输出图像的宽;
下标i表示:生成器输出图像的高度轴像素索引;
下标j表示:生成器输出图像的宽度轴像素索引;
Vaniso(G(x))表示:生成器输出图像的变分;
Gm(x)i+1,j表示:生成器输出图像在坐标(i+1,j)处的像素值;
Gm(x)i,j+1表示:生成器输出图像在坐标(i,j+1)处的像素值;
Gm(x)i,j表示:生成器输出图像在坐标(i,j)处的像素值;
梯度损失设计步骤:
梯度损失评估输入图像与生成图像之间的梯度差异,保留必要的梯度信息,避免总变分损失的去噪平滑效果造成的边缘淡化;损失函数定义如下:
Figure FDA0002237622190000063
其中,
Figure FDA0002237622190000064
表示:梯度损失值;
Vaniso(x)表示:来源于帧图像的输入图像的变分;
其中Mfocus(x)为目标图像关键区域掩膜,选择预置该值以指导模型特别关注某一区域内的梯度信息,追踪具有复杂结构和运动部位的目标时,预置该项显著提高追踪效果和细节捕捉;
总损失设计步骤:
总损失最终用于计算当前模型与理想模型的差距,通过反向传播算法来逐步调节当前模型的参数值,以逐渐逼近理想模型;结合文前提出的损失函数,本发明模型的总损失函数可表示如下:
Figure FDA0002237622190000071
其中,
Figure FDA0002237622190000072
表示:当前的总损失值;
下标G表示:生成器;
λ1表示:生成器损失的权值,为用户可选的超参数;
λ2表示:重构损失的权值,为用户可选的超参数;
λ3表示:循环转换损失的权值,为用户可选的超参数;
λ4表示:感知损失的权值,为用户可选的超参数;
λ5表示:总变分损失的权值,为用户可选的超参数;
λ6表示:梯度损失的权值,为用户可选的超参数。
6.根据权利要求1所述的一种基于对抗生成网络的视频内容替换方法,其特征在于,所述步骤S5包括:
根据步骤S1中输出的源目标图像,及步骤S2输出的对应的关键点数据,对源目标图像区域进行截取,截取的图像尺寸小于提取的源目标图像的尺寸,排除提取的源目标图像中残留的背景图像因素,并根据关键点进行图像摆正。
7.根据权利要求1所述的一种基于对抗生成网络的视频内容替换方法,其特征在于,所述步骤S7包括:根据生成目标图像形状与边缘信息生成经高斯模糊处理的边缘掩膜;
所述步骤S8包括;根据获取到生成目标图像,采用直方图匹配策略调整生成目标图像的色调与帧源目标图像保持一致,获取精调生成目标图像;
步骤S9:根据源视频中当前视频帧时间轴之前的历史视频帧的源目标图像中心点位置和当前视频帧的源目标图像中心点位置输入卡尔曼滤波器,调节当前帧的真实目标图像中心点位置。
8.一种基于对抗生成网络的视频内容替换系统,其特征在于,包括
模块S1:使用卷积网络对视频帧中的源目标图像进行提取,获得提取的源目标图像;
模块S2:对提取出的源目标图像标记关键点,连结关键点着色进行语义分割,输出源目标图像的关键点数据与语义分割图;
模块S3:对提取的源目标图像和输出的语义分割图进行成对的数据增强操作,包括对图像进行图像变换操作,获得数据增强后的源目标图像和语义分割图;
模块S4:将提取的源目标图像、输出的语义分割图以及数据增强后的源目标图像和语义分割图,一同输入生成式对抗网络进行网络训练,获得生成式对抗网络模型;
模块S5:根据模块S1输出的源目标图像,及模块S2输出的关键点数据,检测源目标图像ROI区域并进行切割和摆正,获得ROI区域图像;
模块S6:将ROI区域图像输入获得的生成式对抗网络模型,获取生成目标图像与生成掩膜;
模块S7:根据获取的生成目标图像,使用高斯模糊后的掩膜控制所述生成目标图像边缘平滑化和去模糊,获取边缘掩膜;
模块S8:根据获取到生成目标图像,将生成目标图像的直方图匹配到输入的源目标图像上,确保两者色调一致,获取精调生成目标图像;
模块S9:根据源视频中当前视频帧时间轴之前的历史视频帧的源目标图像中心点位置和当前视频帧的源目标图像中心点位置,调节当前帧的真实目标图像中心点位置,获取实际坐标值;
模块S10:将获取的生成掩膜、边缘掩膜、精调生成目标图像以及实际坐标值,与源视频中的原图像进行以帧为单位的图像融合,最终输出替换目标图像的特效视频。
9.根据权利要求8所述的一种基于对抗生成网络的视频内容替换系统,其特征在于,所述模块S1包括:使用FFMPEG对视频文件进行帧解码提取帧图像,将每个帧图像输入预训练目标检测模型中获取源目标图像位置坐标与预设关键点,并根据位置坐标对源目标图像进行留取预设背景的截取,根据预设关键点坐标对源目标图像进行摆正;
所述提取包括:位置检测、截取以及摆正;
源目标图像指源视频帧图像中进行内容替换的区域图像;
预训练目标检测模型:为具有对帧图像进行源目标图像检测和关键点标定能力的检测模型。
所述模块S2包括:
使用针对源目标图像的预训练关键点精细标注模型对提取的源目标图像进行关键点检测和标注,根据关键点对源目标图像中的关键区域进行连结标定并进行区域着色,输出源目标图像的出语义分割图;
预训练关键点精细标注模型:关键点数量多于预训练目标检测模型,以及检测能力比预训练目标检测模型更精准的关键点检测模型。
所述模块S3:
所述图像变换操作包括以下任一种或任多种:翻转、旋转、平移、缩放、裁剪、运动模糊以及畸变。
10.根据权利要求8所述的一种基于对抗生成网络的视频内容替换系统,其特征在于,所述模块S4包括:
将获取的源目标图像、源目标图像的出语义分割图、数据增强后的源目标图像和语义分割图作为训练数据输入设计的生成式对抗网络进行训练,获取两个能够各自生成源域与目标域图像的生成式对抗网络模型;
所述设计的生成式对抗网络包括:
生成器设计模块:
以自编码器为模型设计,共有两个生成器,互相共享编码器的同时各自独占一个解码器;
在生成式对抗网络的训练阶段两个生成器的训练目标为分别重构输入的源目标图像,与替换源视频帧图像中源目标图像的替换目标图像,其中编码器输入为截取摆正和数据增强后的源目标图像,结构上基于预设步长的下采样卷积神经网络,采用输入及输出网络宽、中间网络窄的瓶颈结构设计,并引入适用于卷积网络的注意力机制扩大感受野,每层归一化方法均采用适用于图像训练的实例归一化;
解码器输入为共享编码器的输出语义向量,以及获得的语义分割图,结构上基于子像素卷积神经网络,每一层采用了以语义分割图为监督的空间自适应层归一化方法引导生成目标图像的不同部分,同时也引入了注意力机制引导掩膜的生成;
判别器设计模块:
判别器输入为标注为真的源目标图像,即来源于源视频帧图像的源目标图像,与标注为假的源目标图像,即来源于生成器输出的图像,其训练目标为成功分类真假目标图像,与生成器共同组成生成式对抗网络;其结构上基于预设步长的下采样卷积神经网络,引入了注意力机制;输出层通过单层卷积输出多维判别结果,该判别结果取平均后将用于对抗损失的计算,即为判别器D(x)的输出;
在训练过程中,生成器与判别器交叉训练,生成器每训练一轮,训练时输出的合成目标图像将被标注为假数据接着输入下一轮判别器的训练中,判别器得到一轮训练后,下一轮继续生成器的训练;
生成器和判别器的训练依靠于神经网络的反向传播算法,反向传播算法中的输出偏差值,即损失值,由总损失提供;
对抗损失设计模块:对抗损失包括判别器损失和生成器损失,是引导训练生成式对抗网络的生成器和判别器进行相互博弈和对抗学习输入分布的损失函数;采用了混合策略,混合源目标图像,生成器生成的掩膜,与生成的图像后再输入判别器,提高训练稳定性,将原先的sigmoid交叉熵损失修改为最小二乘损失加快收敛;
其中判别器损失表示如下:
Figure FDA0002237622190000101
其中,
Figure FDA0002237622190000102
表示:判别器当前的损失值;
pdata(x)表示:源视频帧图像中源目标图像所具有的分布;
下标data表示:源视频帧中的源目标图像数据;
p(x)表示:数据的概率分布;
Figure FDA0002237622190000103
表示:从源目标图像分布下的数据集,即源视频帧中的源目标图像中采样作为x进行损失计算;
D表示:判别器函数;
λx表示:混合策略中对x加权后的源目标图像;
λ表示:混合策略中的混合度;
G(x)表示:生成器的输出图像;
x表示:来源于源视频帧图像中的源目标图像;
Gmf(x)表示:生成器输出掩膜与生成器输出图像融合后的输出图像;
下标m表示:掩膜;
下标f表示:掩膜与图像的融合函数;
生成器损失表示如下:
Figure FDA0002237622190000104
其中,
Figure FDA0002237622190000111
表示:生成器当前的损失值;
重构损失设计模块:
重构损失函数评估生成器输出的生成目标图像与源目标图像的像素级差距,监督生成器还原输入的目标图像;其函数表示如下:
Figure FDA0002237622190000112
其中,
|| ||1表示:L1范数,表示向量中每个元素绝对值之和;
Figure FDA0002237622190000113
表示:重构损失值;
Gm(x)表示:生成器输出掩膜;
循环转换损失设计模块:
循环转换损失通过将源目标图像转换为生成目标图像后,再以生成目标图像作为输入转换回源域,计算经两次转换得到的源域生成目标图像与源目标图像之间的像素级差距,监督生成器保留源目标图像的语义信息;其中,循环转换损失包括掩膜的转换损失与掩膜结合图像转换损失两部分;
掩膜转换损失定义如下:
Figure FDA0002237622190000114
其中,
Figure FDA0002237622190000115
表示:掩膜循环转换损失值;
Figure FDA0002237622190000116
表示:从源目标图像分布下的数据集,即源视频帧中的源目标图像中采样作为x进行损失计算;
Figure FDA0002237622190000117
表示:从转换目标图像分布下的数据集,即转换目标视频帧中的转换目标图像中采样作为y进行损失计算;
GmA表示:具有生成源目标图像掩膜能力的生成器;
GmB(x)表示:将源目标图像输入具有生成转换目标图像掩膜能力的生成器后得到的转换目标图像掩膜输出;
GmB表示:具有生成转换目标图像掩膜能力的生成器;
GmA(y)表示:将转换目标图像输入具有生成源目标图像掩膜能力的生成器后得到的源目标图像掩膜输出;
y表示:目标视频帧图像中的转换目标图像;
x表示:从源视频帧中采样的源目标图像数据;
下标B表示:转换目标图像的分布域;
下标A表示:源目标图像的分布域;
下标data_A表示:于视频中提取的源目标图像数据;
小标data_B表示:于视频中提取的转换目标图像数据;
掩膜结合图像转换损失定义如下:
Figure FDA0002237622190000121
其中,
Figure FDA0002237622190000122
表示:掩膜结合图像后的循环转换损失值;
GA表示:具有生成源目标图像能力的生成器;
GB表示:具有生成转换目标图像能力的生成器;
GB(x)表示:将源目标图像输入具有生成转换目标图像能力的生成器后得到的转换目标图像输出;
GA(y)表示:将转换目标图像输入具有生成源目标图像能力的生成器后得到的源目标图像输出;
感知损失设计模块:
通过使用预训练模型将高维图像数据转为低维语义向量,直接评估生成目标图像与源目标图像之间的语义距离,监督生成器输出图像语义与源目标图像一致;感知损失函数表示如下:
Figure FDA0002237622190000123
其中,
|| ||2表示:L2范数,表示向量的欧氏距离;
Figure FDA0002237622190000124
表示:感知损失值;
Cj表示:第j层网络的输出通道数量;
Hj表示:第j层网络的输出的高;
Wj表示:第j层网络的输出的宽;
φj表示:第j层网络的激活函数;
下标j表示:预训练模型的网络层级索引;
φj(x)表示:第j层网络的激活值;
总变分损失设计模块:
总变分损失作为损失函数中的正则项,约束掩膜的学习,减少生成目标图像的噪音数据,监督生成器输出光滑的图像;总变分损失原为对图像梯度幅值的积分,但由于计算机图像表示的离散性,连续域上的积分变为像素离散域内的求和;损失函数定义如下:
Figure FDA0002237622190000131
其中,
Figure FDA0002237622190000132
表示:总变分损失值;
Ho表示:生成器输出图像的高;
Wo表示:生成器输出图像的宽;
下标i表示:生成器输出图像的高度轴像素索引;
下标j表示:生成器输出图像的宽度轴像素索引;
Vaniso(G(x))表示:生成器输出图像的变分;
Gm(x)i+1,j表示:生成器输出图像在坐标(i+1,j)处的像素值;
Gm(x)i,j+1表示:生成器输出图像在坐标(i,j+1)处的像素值;
Gm(x)i,j表示:生成器输出图像在坐标(i,j)处的像素值;
梯度损失设计模块:
梯度损失评估输入图像与生成图像之间的梯度差异,保留必要的梯度信息,避免总变分损失的去噪平滑效果造成的边缘淡化;损失函数定义如下:
Figure FDA0002237622190000133
其中,
Figure FDA0002237622190000134
表示:梯度损失值;
Vaniso(x)表示:来源于帧图像的输入图像的变分;
其中Mfocus(x)为目标图像关键区域掩膜,选择预置该值以指导模型特别关注某一区域内的梯度信息,追踪具有复杂结构和运动部位的目标时,预置该项显著提高追踪效果和细节捕捉;
总损失设计模块:
总损失最终用于计算当前模型与理想模型的差距,通过反向传播算法来逐步调节当前模型的参数值,以逐渐逼近理想模型;结合文前提出的损失函数,本发明模型的总损失函数可表示如下:
Figure FDA0002237622190000141
其中,
Figure FDA0002237622190000142
表示:当前的总损失值;
下标G表示:生成器;
λ1表示:生成器损失的权值,为用户可选的超参数;
λ2表示:重构损失的权值,为用户可选的超参数;
λ3表示:循环转换损失的权值,为用户可选的超参数;
λ4表示:感知损失的权值,为用户可选的超参数;
λ5表示:总变分损失的权值,为用户可选的超参数;
λ6表示:梯度损失的权值,为用户可选的超参数。
所述模块S5包括:
根据模块S1中输出的源目标图像,及模块S2输出的对应的关键点数据,对源目标图像区域进行截取,截取的图像尺寸小于提取的源目标图像的尺寸,排除提取的源目标图像中残留的背景图像因素,并根据关键点进行图像摆正。
所述模块S7包括:根据生成目标图像形状与边缘信息生成经高斯模糊处理的边缘掩膜;
所述模块S8包括;根据获取到生成目标图像,采用直方图匹配策略调整生成目标图像的色调与帧源目标图像保持一致,获取精调生成目标图像;
所述模块S9包括:根据源视频中当前视频帧时间轴之前的历史视频帧的源目标图像中心点位置和当前视频帧的源目标图像中心点位置输入卡尔曼滤波器,调节当前帧的真实目标图像中心点位置。
CN201910989000.1A 2019-10-17 2019-10-17 基于对抗生成网络的视频内容替换方法及系统 Active CN110868598B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910989000.1A CN110868598B (zh) 2019-10-17 2019-10-17 基于对抗生成网络的视频内容替换方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910989000.1A CN110868598B (zh) 2019-10-17 2019-10-17 基于对抗生成网络的视频内容替换方法及系统

Publications (2)

Publication Number Publication Date
CN110868598A true CN110868598A (zh) 2020-03-06
CN110868598B CN110868598B (zh) 2021-06-22

Family

ID=69652503

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910989000.1A Active CN110868598B (zh) 2019-10-17 2019-10-17 基于对抗生成网络的视频内容替换方法及系统

Country Status (1)

Country Link
CN (1) CN110868598B (zh)

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111445387A (zh) * 2020-06-16 2020-07-24 浙江科技学院 一种基于图像块随机重排的高分辨率图像风格迁移方法
CN111444881A (zh) * 2020-04-13 2020-07-24 中国人民解放军国防科技大学 伪造人脸视频检测方法和装置
CN111476866A (zh) * 2020-04-09 2020-07-31 咪咕文化科技有限公司 视频优化与播放方法、系统、电子设备及存储介质
CN111539262A (zh) * 2020-04-02 2020-08-14 中山大学 一种基于单张图片的运动转移方法及系统
CN111611997A (zh) * 2020-04-30 2020-09-01 青岛联合创智科技有限公司 一种基于人体动作迁移的卡通定制形象运动视频生成方法
CN111666994A (zh) * 2020-05-28 2020-09-15 平安科技(深圳)有限公司 样本图像数据增强方法、装置、电子设备及存储介质
CN111754401A (zh) * 2020-05-29 2020-10-09 新加坡依图有限责任公司(私有) 解码器训练方法、高清人脸图像生成方法、装置及计算机设备
CN112100908A (zh) * 2020-08-31 2020-12-18 西安工程大学 一种基于多条件深度卷积生成对抗网络的服装设计方法
CN112270654A (zh) * 2020-11-02 2021-01-26 浙江理工大学 基于多通道gan的图像去噪方法
CN112288741A (zh) * 2020-11-23 2021-01-29 四川长虹电器股份有限公司 一种基于语义分割的产品表面缺陷检测方法、系统
CN112381031A (zh) * 2020-11-24 2021-02-19 中国科学院上海微系统与信息技术研究所 基于卷积神经网络的实时在线受电弓羊角检测方法
CN112446364A (zh) * 2021-01-29 2021-03-05 中国科学院自动化研究所 高清人脸替换视频生成方法及系统
CN112995433A (zh) * 2021-02-08 2021-06-18 北京影谱科技股份有限公司 一种时序视频生成方法、装置、计算设备及存储介质
CN113034517A (zh) * 2021-03-31 2021-06-25 华南理工大学 基于生成对抗模型的全自动抠图方法及装置、介质和设备
CN113256629A (zh) * 2021-07-05 2021-08-13 之江实验室 一种图像标定错误检测方法及装置
CN113327681A (zh) * 2020-10-30 2021-08-31 重庆市璧山区人民医院 一种基于生成式对抗网络的肿瘤放疗计划自动设计方法
CN113361594A (zh) * 2021-06-03 2021-09-07 安徽理工大学 一种基于生成模型的对抗样本生成方法
CN113436064A (zh) * 2021-08-26 2021-09-24 北京世纪好未来教育科技有限公司 目标对象关键点的检测模型训练方法、检测方法和设备
CN113449748A (zh) * 2020-03-25 2021-09-28 阿里巴巴集团控股有限公司 一种图像数据处理方法及装置
CN113505772A (zh) * 2021-06-23 2021-10-15 北京华创智芯科技有限公司 基于生成对抗网络的车牌图像生成方法及系统
CN113505829A (zh) * 2021-07-09 2021-10-15 南京大学 一种基于变分自编码器的表情序列自动生成方法
CN113506268A (zh) * 2021-07-12 2021-10-15 东南大学 一种面向铁轨图像的半监督异物检测方法
CN113542759A (zh) * 2020-04-15 2021-10-22 辉达公司 生成对抗神经网络辅助的视频重建
CN113538216A (zh) * 2021-06-16 2021-10-22 电子科技大学 一种基于属性分解的图像风格迁移方法
CN113592724A (zh) * 2020-04-30 2021-11-02 北京金山云网络技术有限公司 目标人脸图像的修复方法和装置
CN113744306A (zh) * 2021-06-08 2021-12-03 电子科技大学 基于时序内容感知注意力机制的视频目标分割方法
CN113870399A (zh) * 2021-09-23 2021-12-31 北京百度网讯科技有限公司 表情驱动方法、装置、电子设备及存储介质
WO2022048204A1 (zh) * 2020-09-03 2022-03-10 平安科技(深圳)有限公司 图像生成方法、装置、电子设备及计算机可读存储介质
CN114529788A (zh) * 2022-04-25 2022-05-24 江苏智云天工科技有限公司 工业检测中的样本生成方法、样本生成装置
CN117313818A (zh) * 2023-09-28 2023-12-29 四川大学 对轻量级卷积神经网络训练的方法及终端设备
US20240070925A1 (en) * 2021-10-26 2024-02-29 Deep Render Ltd Method and data processing system for lossy image or video encoding, transmission and decoding

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110103673A1 (en) * 2009-11-03 2011-05-05 Rosenstengel John E Systems, computer-readable media, methods, and medical imaging apparatus for the automated detection of suspicious regions of interest in noise normalized x-ray medical imagery
US8685687B2 (en) * 2006-07-05 2014-04-01 The Scripps Research Institute Chimeric zinc finger recombinases optimized for catalysis by directed evolution
CN103824269A (zh) * 2012-11-16 2014-05-28 广州三星通信技术研究有限公司 人脸特效处理方法以及系统
CN109166102A (zh) * 2018-07-24 2019-01-08 中国海洋大学 一种基于判别区域候选对抗网络的图像转图像翻译方法
CN109361934A (zh) * 2018-11-30 2019-02-19 腾讯科技(深圳)有限公司 图像处理方法、装置、设备及存储介质
CN109815928A (zh) * 2019-01-31 2019-05-28 中国电子进出口有限公司 一种基于对抗学习的人脸图像合成方法和装置
CN109978893A (zh) * 2019-03-26 2019-07-05 腾讯科技(深圳)有限公司 图像语义分割网络的训练方法、装置、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8685687B2 (en) * 2006-07-05 2014-04-01 The Scripps Research Institute Chimeric zinc finger recombinases optimized for catalysis by directed evolution
US20110103673A1 (en) * 2009-11-03 2011-05-05 Rosenstengel John E Systems, computer-readable media, methods, and medical imaging apparatus for the automated detection of suspicious regions of interest in noise normalized x-ray medical imagery
CN103824269A (zh) * 2012-11-16 2014-05-28 广州三星通信技术研究有限公司 人脸特效处理方法以及系统
CN109166102A (zh) * 2018-07-24 2019-01-08 中国海洋大学 一种基于判别区域候选对抗网络的图像转图像翻译方法
CN109361934A (zh) * 2018-11-30 2019-02-19 腾讯科技(深圳)有限公司 图像处理方法、装置、设备及存储介质
CN109815928A (zh) * 2019-01-31 2019-05-28 中国电子进出口有限公司 一种基于对抗学习的人脸图像合成方法和装置
CN109978893A (zh) * 2019-03-26 2019-07-05 腾讯科技(深圳)有限公司 图像语义分割网络的训练方法、装置、设备及存储介质

Cited By (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449748A (zh) * 2020-03-25 2021-09-28 阿里巴巴集团控股有限公司 一种图像数据处理方法及装置
CN111539262B (zh) * 2020-04-02 2023-04-18 中山大学 一种基于单张图片的运动转移方法及系统
CN111539262A (zh) * 2020-04-02 2020-08-14 中山大学 一种基于单张图片的运动转移方法及系统
CN111476866A (zh) * 2020-04-09 2020-07-31 咪咕文化科技有限公司 视频优化与播放方法、系统、电子设备及存储介质
CN111476866B (zh) * 2020-04-09 2024-03-12 咪咕文化科技有限公司 视频优化与播放方法、系统、电子设备及存储介质
CN111444881B (zh) * 2020-04-13 2020-12-25 中国人民解放军国防科技大学 伪造人脸视频检测方法和装置
CN111444881A (zh) * 2020-04-13 2020-07-24 中国人民解放军国防科技大学 伪造人脸视频检测方法和装置
CN113542759A (zh) * 2020-04-15 2021-10-22 辉达公司 生成对抗神经网络辅助的视频重建
CN113542759B (zh) * 2020-04-15 2024-05-10 辉达公司 生成对抗神经网络辅助的视频重建
CN113592724A (zh) * 2020-04-30 2021-11-02 北京金山云网络技术有限公司 目标人脸图像的修复方法和装置
CN111611997A (zh) * 2020-04-30 2020-09-01 青岛联合创智科技有限公司 一种基于人体动作迁移的卡通定制形象运动视频生成方法
CN111611997B (zh) * 2020-04-30 2023-04-18 青岛联合创智科技有限公司 一种基于人体动作迁移的卡通定制形象运动视频生成方法
CN111666994A (zh) * 2020-05-28 2020-09-15 平安科技(深圳)有限公司 样本图像数据增强方法、装置、电子设备及存储介质
CN111754401A (zh) * 2020-05-29 2020-10-09 新加坡依图有限责任公司(私有) 解码器训练方法、高清人脸图像生成方法、装置及计算机设备
CN111445387B (zh) * 2020-06-16 2020-10-16 浙江科技学院 一种基于图像块随机重排的高分辨率图像风格迁移方法
CN111445387A (zh) * 2020-06-16 2020-07-24 浙江科技学院 一种基于图像块随机重排的高分辨率图像风格迁移方法
CN112100908B (zh) * 2020-08-31 2024-03-22 西安工程大学 一种基于多条件深度卷积生成对抗网络的服装设计方法
CN112100908A (zh) * 2020-08-31 2020-12-18 西安工程大学 一种基于多条件深度卷积生成对抗网络的服装设计方法
WO2022048204A1 (zh) * 2020-09-03 2022-03-10 平安科技(深圳)有限公司 图像生成方法、装置、电子设备及计算机可读存储介质
CN113327681A (zh) * 2020-10-30 2021-08-31 重庆市璧山区人民医院 一种基于生成式对抗网络的肿瘤放疗计划自动设计方法
CN112270654A (zh) * 2020-11-02 2021-01-26 浙江理工大学 基于多通道gan的图像去噪方法
CN112288741A (zh) * 2020-11-23 2021-01-29 四川长虹电器股份有限公司 一种基于语义分割的产品表面缺陷检测方法、系统
CN112381031A (zh) * 2020-11-24 2021-02-19 中国科学院上海微系统与信息技术研究所 基于卷积神经网络的实时在线受电弓羊角检测方法
CN112381031B (zh) * 2020-11-24 2024-02-02 中国科学院上海微系统与信息技术研究所 基于卷积神经网络的实时在线受电弓羊角检测方法
CN112446364A (zh) * 2021-01-29 2021-03-05 中国科学院自动化研究所 高清人脸替换视频生成方法及系统
US11776576B2 (en) 2021-01-29 2023-10-03 Institute Of Automation, Chinese Academy Of Sciences Video generation method and system for high resolution face swapping
CN112446364B (zh) * 2021-01-29 2021-06-08 中国科学院自动化研究所 高清人脸替换视频生成方法及系统
CN112995433A (zh) * 2021-02-08 2021-06-18 北京影谱科技股份有限公司 一种时序视频生成方法、装置、计算设备及存储介质
CN113034517A (zh) * 2021-03-31 2021-06-25 华南理工大学 基于生成对抗模型的全自动抠图方法及装置、介质和设备
CN113034517B (zh) * 2021-03-31 2023-02-14 华南理工大学 基于生成对抗模型的全自动抠图方法及装置、介质和设备
CN113361594B (zh) * 2021-06-03 2023-10-20 安徽理工大学 一种基于生成模型的对抗样本生成方法
CN113361594A (zh) * 2021-06-03 2021-09-07 安徽理工大学 一种基于生成模型的对抗样本生成方法
CN113744306B (zh) * 2021-06-08 2023-07-21 电子科技大学 基于时序内容感知注意力机制的视频目标分割方法
CN113744306A (zh) * 2021-06-08 2021-12-03 电子科技大学 基于时序内容感知注意力机制的视频目标分割方法
CN113538216A (zh) * 2021-06-16 2021-10-22 电子科技大学 一种基于属性分解的图像风格迁移方法
CN113505772A (zh) * 2021-06-23 2021-10-15 北京华创智芯科技有限公司 基于生成对抗网络的车牌图像生成方法及系统
CN113505772B (zh) * 2021-06-23 2024-05-10 北京华创智芯科技有限公司 基于生成对抗网络的车牌图像生成方法及系统
CN113256629A (zh) * 2021-07-05 2021-08-13 之江实验室 一种图像标定错误检测方法及装置
CN113505829B (zh) * 2021-07-09 2024-04-26 南京大学 一种基于变分自编码器的表情序列自动生成方法
CN113505829A (zh) * 2021-07-09 2021-10-15 南京大学 一种基于变分自编码器的表情序列自动生成方法
CN113506268A (zh) * 2021-07-12 2021-10-15 东南大学 一种面向铁轨图像的半监督异物检测方法
CN113506268B (zh) * 2021-07-12 2024-04-23 东南大学 一种面向铁轨图像的半监督异物检测方法
CN113436064B (zh) * 2021-08-26 2021-11-09 北京世纪好未来教育科技有限公司 目标对象关键点的检测模型训练方法、检测方法和设备
CN113436064A (zh) * 2021-08-26 2021-09-24 北京世纪好未来教育科技有限公司 目标对象关键点的检测模型训练方法、检测方法和设备
CN113870399A (zh) * 2021-09-23 2021-12-31 北京百度网讯科技有限公司 表情驱动方法、装置、电子设备及存储介质
US20240070925A1 (en) * 2021-10-26 2024-02-29 Deep Render Ltd Method and data processing system for lossy image or video encoding, transmission and decoding
CN114529788A (zh) * 2022-04-25 2022-05-24 江苏智云天工科技有限公司 工业检测中的样本生成方法、样本生成装置
CN117313818A (zh) * 2023-09-28 2023-12-29 四川大学 对轻量级卷积神经网络训练的方法及终端设备

Also Published As

Publication number Publication date
CN110868598B (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
CN110868598B (zh) 基于对抗生成网络的视频内容替换方法及系统
Zhang et al. Unsupervised discovery of object landmarks as structural representations
Wang et al. Deep learning for image super-resolution: A survey
Bansal et al. Recycle-gan: Unsupervised video retargeting
WO2020108362A1 (zh) 人体姿态检测方法、装置、设备及存储介质
Meng et al. Single-image dehazing based on two-stream convolutional neural network
Meng et al. Sample fusion network: An end-to-end data augmentation network for skeleton-based human action recognition
EP2344980B1 (de) Vorrichtung, verfahren und computerprogramm zur erkennung einer geste in einem bild, sowie vorrichtung, verfahren und computerprogramm zur steuerung eines geräts
Roa'a et al. Generation of high dynamic range for enhancing the panorama environment
Chen et al. End-to-end learning of object motion estimation from retinal events for event-based object tracking
CN111861880B (zh) 基于区域信息增强与块自注意力的图像超分与融合方法
Klenk et al. E-nerf: Neural radiance fields from a moving event camera
Tu et al. Consistent 3d hand reconstruction in video via self-supervised learning
CN104835182A (zh) 摄像机上实现动态目标实时跟踪的方法
CN113808005A (zh) 一种基于视频驱动的人脸姿态迁移方法及装置
CN112258436A (zh) 图像处理模型的训练方法、装置、图像处理方法及模型
Li et al. An improved pix2pix model based on Gabor filter for robust color image rendering
Ma et al. Recovering realistic details for magnification-arbitrary image super-resolution
Xu et al. Motion recognition algorithm based on deep edge-aware pyramid pooling network in human–computer interaction
Krishnan et al. SwiftSRGAN-Rethinking super-resolution for efficient and real-time inference
CN112884773B (zh) 基于背景变换下目标注意力一致性的目标分割模型
Yu et al. Detecting line segments in motion-blurred images with events
Khan et al. Face recognition via multi-level 3D-GAN colorization
Molnár et al. Variational autoencoders for 3D data processing
Wu et al. Two-Stage Progressive Underwater Image Enhancement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant