CN110706151B - 一种面向视频的非均匀风格迁移方法 - Google Patents

一种面向视频的非均匀风格迁移方法 Download PDF

Info

Publication number
CN110706151B
CN110706151B CN201910859285.7A CN201910859285A CN110706151B CN 110706151 B CN110706151 B CN 110706151B CN 201910859285 A CN201910859285 A CN 201910859285A CN 110706151 B CN110706151 B CN 110706151B
Authority
CN
China
Prior art keywords
style
video
loss
content
stylization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910859285.7A
Other languages
English (en)
Other versions
CN110706151A (zh
Inventor
任桐炜
武港山
刘星宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Publication of CN110706151A publication Critical patent/CN110706151A/zh
Application granted granted Critical
Publication of CN110706151B publication Critical patent/CN110706151B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

一种面向视频的非均匀风格迁移方法,首先对于输入的视频,为每个视频帧上所有像素设定相应的风格化程度,将视频帧表示为一层或多层特征图,同时采用相同的方法将风格图像表示为一层或多层特征图,计算风格迁移中的内容损失、风格损失和时间一致性损失,求和得到总损失函数,最小化风格迁移总损失函数,生成风格迁移结果。供本发明方法解决了视频风格迁移中过度风格化或风格化不足的问题,实现了在突出部分区域内容的同时强烈渲染其它区域的风格,在风格化的过程中更好的平衡风格化视频的内容保持程度和风格渲染程度。

Description

一种面向视频的非均匀风格迁移方法
技术领域
本发明属于计算机视频技术领域,涉及针对视频的风格迁移方法,具体为一种面向视频的非均匀风格迁移方法。
背景技术
视频风格迁移是指参照给定图像的风格,对一个视频进行渲染,使得生成与给定图风格一致的风格化视频。其中,被风格化的视频称为内容视频,作为风格的图像称为风格图像,风格迁移生成的结果称为风格化视频。视频风格迁移可以帮助人们轻松的编辑视频,取得特定效果的编辑结果。
传统的视频风格迁移方法是对视频的每一帧单独进行风格化,再将所有帧的风格化结果合并成视频。这种做法效率通常不高,每个视频帧的处理通常需要几十秒;且由于各个视频帧的风格化是独立的,导致每帧的风格化结果一致性较差,生成的风格化视频会存在明显的闪烁(参考文献1、4)。针对风格化效率低下的问题,一些学者提出了近实时的视频风格化方法,极大地提升了风格化速度(参考文献3、5);针对风格化视频闪烁的问题,一些学者提出了光流约束的方法,可以保证相邻帧之间的相同区域有着相似的风格化结果(参考文献2、6)。
但是,视频风格迁移中的另一个关键问题却始终没有得到关注,即如何平衡视频内容保持程度和风格渲染程度。现在的视频风格化方法对全图均使用相同的参数设置进行风格化,易使结果过度风格化或者风格化不足,如图2所示,图2中的(a)为原视频的视频帧取样,图2中的(b)显示了过度风格化结果,图2中的(c)显示了风格化不足的结果,图2中的(d)为期待的风格化结果,即风格化结果中难以辨别原视频的内容或者难以感受到风格的影响。很多情况下,难以选择一个合适的全局参数实现风格化,都不可避免的会过度风格化或风格化不足。
本发明所涉及的面向视频的非均匀风格迁移方法,提供了一种针对过度风格化或者风格化不足问题的解决方案,实现了在视频中对不同区域采用不同的风格化程度,生成非均匀的风格迁移结果。
发明内容
本发明要解决的问题是:解决视频风格迁移过程中可能产生的过度风格化或风格化不足的问题,目的是平衡风格化视频的内容保持程度和风格渲染程度。
本发明的技术方案为:一种面向视频的非均匀风格迁移方法,在视频中,对视频的不同区域采用不同的风格化,生成非均匀的风格迁移结果。
具体的,对视频帧的不同区域设定不同的风格化程度设定,对视频帧计算风格迁移中的内容损失和风格损失,并对相邻视频帧的风格化结果计算时间一致性损失,最小化总损失,对视频生成非均匀的风格迁移结果。
作为优选方式,本发明包括以下步骤:
1)对于待风格化的视频,采用人工或者自动的方式,为所有视频帧上各个像素区域设定风格化程度;
2)对于视频的某个视频帧,将其表示为一层或多层特征图,同时采用相同的方法将风格图像表示为一层或多层特征图,计算对应层的特征图在风格迁移中的内容损失和风格损失;
3)对照相邻视频帧的风格化结果,计算时间一致性损失;
4)将内容损失、风格损失和时间一致性损失相融合,计算风格迁移中的总损失;
5)最小化风格迁移总损失函数,生成风格迁移结果。
本发明的有益效果是:提供了一种解决视频风格迁移中过度风格化或风格化不足问题的方案,同时保证对视频风格化的速度和稳定性,实现了在突出部分区域内容的同时强烈渲染其它区域的风格,在风格化的过程中更好的平衡风格化视频的内容保持程度和风格渲染程度。本发明方法具有良好的广泛性与实用性。
附图说明
图1为本发明的实施流程。
图2为过度风格化和风格化不足效果展示。
图3为采用人工标注方式来设定风格化程度时,本发明结果与现有代表性方法结果的比较示例。
图4为采用自动检测显著性方式来设定风格化程度时,本发明结果与现有代表性方法结果的比较示例。
图5为采用自动检测运动区域方式来设定风格化程度时,本发明结果与现有代表性方法结果的比较示例。
具体实施方式
本发明提出了一种面向视频的实时非均匀风格迁移方法,对视频的不同区域采用不同的风格化,如图1所示,本发明对视频帧的不同区域设定不同的风格化程度设定,对视频帧计算风格迁移中的内容损失和风格损失,并对相邻视频帧的风格化结果计算时间一致性损失,最小化总损失,对视频生成非均匀的风格迁移结果。
下面通过一个优选的具体实施方式来说明本发明的实施。
本发明实施例具体包括以下步骤:
1)对于输入的视频,采用人工或者自动的方式,为所有视频帧上各个像素设定风格化程度。本发明在具体实施中采用了以下3种代表性的风格化程度设定方法:
1.1)采用人工标注的方式:在输入视频中每隔30帧取出一张关键帧,人工标注这些视频帧中不同区域标注等级,等级取值为1到5,每个标注的区域内所有像素的等级取值与所属区域的等级取值相同;利用光流建立图像之间像素映射关系,生成其余视频帧中各个像素的等级取值;将第t帧中位置(i,j)的像素的初始风格化程度/>设为/>其中/>为/>的等级取值。
1.2)采用自动求取显著区域的方式:自动求取各个像素的显著性,将第t帧上像素的显著性值设为其初始风格化程度/>
1.3)采用自动求取运动区域的方式:自动检测视频中的运动区域,将第t帧的运动区域内的像素的初始风格化程度设为1,其余像素的初始风格化程度/>设为0。对初始风格化程度/>其进行线性变换操作,使其值域变成[a,b]的二维矩阵,a默认是0.05,b默认是0.95,防止出现极限大或极限小的情况。
2)对于输入的某个视频帧,将其表示为一层或多层特征图,同时采用相同的方法将风格图像表示为一层或多层特征图,计算风格迁移中的内容损失和风格损失:
2.1)将视频帧、风格图像和前一帧风格化结果分别作为卷积神经网络的输入,其中对于视频第一帧,使用随机生成的初始化图像作为风格化图像的初始值,得到其前一帧风格化结果。使用VGG-19神经网络中relu1_1,relu2_1,relu3_1,relu4_1四个卷积层提取特征图;
2.2)对设定的风格化程度,在卷积层relu1_1,relu2_1,relu3_1,relu4_1每层上分别调整其大小至内容视频帧在对应卷积层的特征图的宽高,形成四个新的二维矩阵。每层分别对四个二维矩阵进行复制,累叠,产生与内容视频帧图像在对应卷积层的特征图相同个数的同个数新矩阵,生成四组新矩阵,每组分别将该组新矩阵累叠合成三维显著区域矩阵,产生四个三维显著区域矩阵,分别对应着relu1_1,relu2_1,relu3_1,relu4_1。
2.3)计算风格迁移中的内容损失和风格损失如下:
其中,Fl、Al、Xl分别是内容视频帧、风格图像、风格化视频帧的第l层特征图,Ml×Nl表示特征图在第l层的大小,Ωl是由内容视频帧的各个像素的风格化程度组成的矩阵调整大小后在第l层上的结果,即前述的三维显著区域矩阵,所述调整指将风格化程度大小调整至第l层的特征图的宽高,G(·)表示基于Gram matrix的特征相关性, λl代表每层风格损失占比权重,默认是1。L表示层数,默认值为4。
3)对照相邻视频帧的风格化结果,计算时间一致性损失如下:
其中,H表示输入的视频帧中既不属于非遮挡地区,也不属于运动边界的像素集合,非遮挡区域以及运动边界的识别可以参考文献2,pij表示H中的像素,xij表示pij的风格化结果,表示由前一帧的风格化结果根据光流扭曲生成的图像,|·|代表集合的个数。
4)将内容损失、风格损失和时间一致损失相融合,计算风格迁移中的总损失:
Ltotal=αLcontent+βLstyle+rLtemporal
其中,α,β,γ分别是对应内容损失、风格损失和一致性损失的权重,默认取值为1,5,20。
5)最小化风格迁移总损失函数,生成风格迁移结果。
本发明实施在从互联网搜集的视频集上,与现有代表性的方法进行了比较。本发明采用了几种代表性的风格化程度设定方法。图3所示为采用人工标注方式来设定风格化程度时,本发明结果与现有代表性方法结果的比较示例;图4所示为采用自动检测显著性方式来设定风格化程度时,本发明结果与现有代表性方法结果的比较示例;图5为采用自动检测运动区域方式来设定风格化程度时,本发明结果与现有代表性方法结果的比较示例。在图3-图5中,图3-图5的(a)为风格图像,图3-图5的(b)为内容图像,图3-图5的(e)为本发明结果,图3-图5的(c)-(d)显示了参与比较的代表性方法的结果,包括:Gatys方法(参考文献1),Ruder方法(参考文献2)。实验结果表明,Gatys方法生成的风格化视频会存在明显的闪烁,Ruder方法存在过度风格化或者风格化不足的问题。本发明生成的风格化视频平衡了视频内容保存与风格样式呈现,例如图3-图5的(e)可见本发明方法能够很好的保留视频中的主体内容,而只将环境因素进行风格化,帮助人们在享受图像风格化的同时理解图像内容;同时,本发明生成的风格化视频也具有较高的一致性,相邻帧之间的相同区域有着相似的风格化结果。
参考文献:
1.Leon A.Gatys,Alexander S.Ecker,and Matthias Bethge.Image styletransfer using convolutional neural networks.IEEE International Conference onComputer Vision and Pattern Recognition,2414–2423,2016.
2.Manuel Ruder,Alexey Dosovitskiy,and Thomas Brox.Artistic styletransfer for videos.German Conference on Pattern Recognition,26–36,2016.
3.Justin Johnson,Alexandre Alahi,and Li Fei-Fei.Perceptual losses forreal-time style transfer and super-resolution.European Conference on ComputerVision,2016.
4.Xiaochang Liu,Mingming Cheng,Yukun Lai,and Paul L Rosin.Depth-awareneural style transfer.Symposium on Non-Photorealistic Animation andRendering,2017.
5.Dongdong Chen,Lu Yuan,Jing Liao,Nenghai Yu,and Gang Hua.Stylebank:An explicit representation for neural image style transfer.IEEE InternationalConference on Computer Vision and Pattern Recognition,2017
6.Haozhi Huang,Hao Wang,Wenhan Luo,Lin Ma,Wenhao Jiang,Xiaolong Zhu,Zhifeng Li,and Wei Liu.Real-time neural style transfer for videos.IEEEInternational Conference on Computer Vision and Pattern Recognition,2017.

Claims (4)

1.一种面向视频的非均匀风格迁移方法,其特征是对视频帧的不同区域设定不同的风格化程度,对各视频帧计算风格迁移中的内容损失和风格损失,并对相邻视频帧的风格化结果计算时间一致性损失,最小化总损失,对视频生成非均匀的风格迁移结果,所述总损失为内容损失、风格损失及时间一致性损失之和,包括以下步骤:
1)对于待风格化的视频,采用人工或者自动的方式,为所有视频帧上各个像素区域设定风格化程度;所述设定风格化程度的方式为:对于第t帧中位置(i,j)的像素/>通过人工或者自动的方式为其设定风格化程度/>
2)对于视频的某个视频帧,将其表示为一层或多层特征图,同时采用相同的方法将风格图像表示为一层或多层特征图,计算对应层的特征图在风格迁移中的内容损失和风格损失;采用卷积神经网络提取视频帧和风格图像的多层特征图,所述内容损失Lcontent和风格损失Lstyle为:
其中,Fl、Al、Xl分别是内容视频帧、风格图像、风格化视频帧的第l层特征图,Ml×Nl表示特征图在第l层的大小,Ωl是由内容视频帧的各个像素的风格化程度组成的矩阵调整大小后在第l层上的结果,所述调整指将风格化程度大小调整至第l层的特征图的宽高,G(·)表示基于Gram matrix的特征相关性,λl代表每层风格损失占比权重,L表示特征图总层数;
3)对照相邻视频帧的风格化结果,计算时间一致性损失;所述的时间一致性损失Ltemporal为:
其中,H表示输入的视频帧中不属于非遮挡地区和运动边界的像素集合,pij表示H中的像素,xij表示pij的风格化结果,表示由前一帧的风格化结果根据光流扭曲生成的图像,|·|表示集合元素的个数;
4)将内容损失、风格损失和时间一致性损失相融合,计算风格迁移中的总损失;
5)在对视频进行风格化的过程中,最小化风格迁移总损失函数,生成风格迁移结果。
2.根据权利要求1所述的面向视频的非均匀风格迁移方法,其特征是λl默认为1,L默认值为4。
3.根据权利要求1所述的面向视频的非均匀风格迁移方法,其特征是步骤4)所述风格迁移中的总损失Ltotal为:
Ltotal=αLcontent+βLstyle+rLtemporal
其中,α,β,γ分别是对应内容损失Lcontent、风格损失Lstyle和时间一致性损失Ltemporal的权重。
4.根据权利要求1所述的面向视频的非均匀风格迁移方法,其特征是步骤1)中风格化程度的设定方法包括:
1.1)采用人工标注的方式:在输入视频中每隔n帧取出一张关键帧,人工标注这些视频帧中不同区域的标注等级,等级取值为1到s,每个标注的区域内所有像素的等级取值与所属区域的等级取值相同;利用光流建立视频帧之间像素映射关系,生成其余未标注的视频帧中各个像素的等级取值;将第t帧上像素的初始风格化程度/>设为/>其中/>的等级取值;
1.2)采用自动求取显著区域的方式:自动求取各个像素的显著性,将第t帧上像素的显著性值设为其初始风格化程度/>
1.3)采用自动求取运动区域的方式:自动检测视频中的运动区域,将第t帧的运动区域内的像素的初始风格化程度设为1,其余像素的初始风格化程度/>设为0,对初始风格化程度/>其进行线性变换操作,使其值域变成[a,b]的二维矩阵,a默认0.05,b默认0.95,防止出现极限大或极限小的情况。
CN201910859285.7A 2018-09-13 2019-09-11 一种面向视频的非均匀风格迁移方法 Active CN110706151B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811068222 2018-09-13
CN2018110682221 2018-09-13

Publications (2)

Publication Number Publication Date
CN110706151A CN110706151A (zh) 2020-01-17
CN110706151B true CN110706151B (zh) 2023-08-08

Family

ID=69194843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910859285.7A Active CN110706151B (zh) 2018-09-13 2019-09-11 一种面向视频的非均匀风格迁移方法

Country Status (1)

Country Link
CN (1) CN110706151B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111986075B (zh) * 2020-08-12 2022-08-09 兰州交通大学 一种目标边缘清晰化的风格迁移方法
CN114760497A (zh) * 2021-01-08 2022-07-15 阿里巴巴集团控股有限公司 视频生成方法、非易失性存储介质及电子设备
CN112884636B (zh) * 2021-01-28 2023-09-26 南京大学 一种自动生成风格化视频的风格迁移方法
CN115631091B (zh) * 2022-12-23 2023-03-21 南方科技大学 一种选择性风格迁移方法及终端
CN116862757B (zh) * 2023-05-19 2024-08-02 上海任意门科技有限公司 一种控制人脸风格化程度的方法、装置、电子设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663806A (zh) * 2012-03-02 2012-09-12 西安交通大学 基于艺术视觉的图像卡通风格化渲染方法
CN107705242A (zh) * 2017-07-20 2018-02-16 广东工业大学 一种结合深度学习与深度感知的图像风格化迁移方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10147459B2 (en) * 2016-09-22 2018-12-04 Apple Inc. Artistic style transfer for videos

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663806A (zh) * 2012-03-02 2012-09-12 西安交通大学 基于艺术视觉的图像卡通风格化渲染方法
CN107705242A (zh) * 2017-07-20 2018-02-16 广东工业大学 一种结合深度学习与深度感知的图像风格化迁移方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
利用图像滤波的沙画风格化方法;吴涛等;《岭南师范学院学报》;20170615(第03期);全文 *

Also Published As

Publication number Publication date
CN110706151A (zh) 2020-01-17

Similar Documents

Publication Publication Date Title
CN110706151B (zh) 一种面向视频的非均匀风格迁移方法
CN109671023B (zh) 一种人脸图像超分辨率二次重建方法
Wang et al. Variational single nighttime image haze removal with a gray haze-line prior
CN107516319A (zh) 一种高精度简易交互式抠图方法、存储设备及终端
CN111242844B (zh) 图像处理方法、装置、服务器和存储介质
CN106875437A (zh) 一种面向rgbd三维重建的关键帧提取方法
CN112308803B (zh) 一种基于深度学习的自监督低照度图像增强及去噪方法
CN103440674B (zh) 一种数字图像蜡笔特效的快速生成方法
CN110634147A (zh) 基于双边引导上采样的图像抠图方法
CN103778900A (zh) 一种图像处理方法及系统
CN110163055A (zh) 手势识别方法、装置和计算机设备
CN111612802B (zh) 一种基于现有图像语义分割模型的再优化训练方法及应用
CN110660018B (zh) 一种面向图像的非均匀风格迁移方法
WO2022194079A1 (zh) 天空区域分割方法、装置、计算机设备和存储介质
CN116030498A (zh) 面向虚拟服装走秀的三维人体姿态估计方法
CN113901928A (zh) 一种基于动态超分辨率的目标检测方法、输电线路部件检测方法及系统
CN107194870B (zh) 一种基于显著性物体检测的图像场景重构方法
CN109600667B (zh) 一种基于网格与帧分组的视频重定向的方法
US20090195558A1 (en) Online Image Processing Methods Utilizing User's Satisfaction Loop
CN113011438B (zh) 基于节点分类和稀疏图学习的双模态图像显著性检测方法
CN112561785B (zh) 基于风格迁移的丝绸文物图像数据扩充方法
CN112686285A (zh) 一种基于计算机视觉的工程质量检测方法及系统
CN111353964B (zh) 基于卷积神经网络的结构一致立体图像风格迁移方法
CN111223058B (zh) 一种图像增强方法
CN115937011A (zh) 一种基于时滞特征回归的关键帧位姿优化视觉slam方法、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant