CN112883806A - 基于神经网络的视频风格迁移方法、装置、计算机设备和存储介质 - Google Patents
基于神经网络的视频风格迁移方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN112883806A CN112883806A CN202110085857.8A CN202110085857A CN112883806A CN 112883806 A CN112883806 A CN 112883806A CN 202110085857 A CN202110085857 A CN 202110085857A CN 112883806 A CN112883806 A CN 112883806A
- Authority
- CN
- China
- Prior art keywords
- image
- video
- style
- migration
- video data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013508 migration Methods 0.000 title claims abstract description 150
- 230000005012 migration Effects 0.000 title claims abstract description 149
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 86
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000006870 function Effects 0.000 claims description 55
- 238000012549 training Methods 0.000 claims description 41
- 238000004590 computer program Methods 0.000 claims description 13
- 230000000694 effects Effects 0.000 abstract description 7
- 230000008569 process Effects 0.000 description 11
- 230000014759 maintenance of location Effects 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 239000004576 sand Substances 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000014616 translation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/20—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种基于神经网络的视频风格迁移方法、装置、计算机设备和存储介质。所述方法包括:获取第一图像,以及需依据第一图像转化的视频数据,视频数据中包括以时间顺序排列的多帧第二图像;将第一图像以及视频数据输入训练后的视频风格迁移神经网络,得到具有第一图像风格特征以及视频数据内容特征的迁移视频数据;其中,训练后的视频风格迁移神经网络包括风格编码器、内容编码器、语义依赖关系学习网络以及解码器。采用本方法能够提高整体图像的迁移效果,并且达到视频风格迁移防抖动的目标。
Description
技术领域
本申请涉及视频风格迁移技术领域,特别是涉及一种基于神经网络的视频风格迁移方法、装置、计算机设备和存储介质。
背景技术
传统的图像和视频风格化方法使用手工制作的算法过滤器来将输入图像或视频转换为特定风格。这些可以基于给定艺术媒介的物理模拟、编程技术或合成预定义的笔或笔触。虽然这些方法在各自的设计领域都取得了不错的结果,但它们总是局限于单一的风格或一小组风格,并且受到不直观的控制,难以表达艺术意图。对这个问题的一个更现代的观点是基于生成性对抗网络的方法,这些方法可以被训练来执行图像到图像以及视频到视频的翻译,包括风格化。
在现有技术中,还引入了基于神经网络的方法,专门针对艺术风格化,针对每个风格训练对应的网络。这些方法无法重现未经训练的风格,并且对于它们支持的风格,结果通常无法精确地再现精细的纹理细节。Sanakoyeu等人尝试通过引入风格感知的内容丢失来提高风格化质量,但结果仍然存在一些不一致的情况。研究人员还引入了风格化技术,即使用单一网络将任意视觉风格转换为内容图像,但对目标风格的保持度有限。一般来说,神经方法需要耗时且晦涩的训练过程,并且提供有限的用户控制,基于实例的方法自然支持使用任意风格的图像进行风格化,而不需要训练。最广泛的方法提出了图像类比的概念,即在样式样本和目标照片上添加引导通道,以指导基于图像包的合成算法,该算法决定如何将样式的不同特征转移到目标的各个区域。剩下的问题是找到合适的引导通道,在某些情况下或针对特定内容(例如,人脸)可以通过算法生成。手动创建引导通道是可能的,但是对于视频来说,这是不直观的和非常费力的。为了规避这一问题,制定了不需要具体指导的通用方法。最新的基于神经网络的技术是通过使用训练在对象分类上的VGG网络的响应来指导合成来实现的。后一种方法在结构上类似于ImageNet中的图像时会产生令人印象深刻的结果,即具有单一可识别前景对象或场景的自然照片,但当将其推广到不同类型的图像(如复杂的自然场景或抽象风格)。视频的样式化提供了处理时间一致性的额外挑战。这本身就是先前研究的一个主题,其中一致性被定义为基于微观结构的合成的附加约束,以及对可见时间闪烁量的控制。类似地,对于不需要特定类型引导的通用样式转移,显式时间一致性被纳入基于神经和基于图像包的技术中。赖等人介绍一种盲时间相干方法,以每帧样式化的视频为输入,输出时间一致的视频作为后处理。
现有的视频风格方法尽管取得了显著的成果,但是仍然存在以下问题:视频前后帧之间或者连读多帧之间相同的内容被风格化为不同的颜色,这样会导致视频播放的抖动,也就是同一个内容上面不同的颜色在播放的时候来换切换导致的频闪。
发明内容
基于此,有必要针对上述技术问题,提供一种能够防止抖动的基于神经网络的视频风格迁移方法、装置、计算机设备和存储介质。
一种基于神经网络的视频风格迁移方法,所述方法包括:
获取第一图像,以及需依据所述第一图像转化的视频数据,所述视频数据中包括以时间顺序排列的多帧第二图像;
将所述第一图像以及视频数据输入训练后的视频风格迁移神经网络,得到具有所述第一图像风格特征以及所述视频数据内容特征的迁移视频数据;
其中,所述训练后的视频风格迁移神经网络包括风格编码器、内容编码器、语义依赖关系学习网络以及解码器。
可选的,所述将所述第一图像以及视频数据输入训练后的视频风格迁移神经网络,得到具有所述第一图像风格特征的迁移视频数据包括:
将所述第一图像输入风格编码器,得到与所述第一图像风格特征相关的第一语义特征;
依次将连续两帧所述第二图像输入内容编码器,得到与所述视频数据内容特征相关的多个第二语义特征;
将所述第一语义特征以及各所述第二语义特征输入语义依赖关系学习网络,得到相应的多个依赖关系语义特征;
将各所述依赖关系语义特征输入解码器,得到所述迁移视频数据。
可选的,将所述连续两帧所述第二图像输入内容编码器,得到与所述视频数据内容特征相关的第二语义特征包括:
将前一帧的所述第二图像作为参考图像,根据所述参考图像的内容特征对后一帧的第二图像进行语义特征的提取。
可选的,所述语义依赖关系学习网络包括:微观结构依赖学习模块以及风格依赖关系学习模块。
可选的,训练所述视频风格迁移神经网络的方法包括:
获取引导图像以及训练视频数据,所述训练视频数据包括以时间顺序排列的多帧训练图像;
将所述引导图像以及连续两帧所述训练图像输入所述视频风格迁移神经网络,得到训练迁移视频数据,其中所述训练迁移视频数据包括与各帧所述训练图像相应的迁移视频图像;
根据所述迁移视频图像以及引导图像进行计算,得到风格损失函数以及内容损失函数;
根据所述风格损失函数以及内容损失函数计算得到总损失函数,若所述总损失函数符合预设标准,则得到训练后的视频风格迁移神经网络;
若所述总损失函数不符合预设标准,则调节所述视频风格迁移神经网络的各参数,重新将所述引导图像以及连续两帧所述训练图像输入所述视频风格迁移神经网络,直至所述总损失函数符合预设标准。
可选的,计算所述内容损失函数包括:
根据所述训练迁移视频数据进行计算,提取与各帧所述迁移视频图像相关的微观结构,以及匹配微观结构;
根据所述微观结构以及匹配微观结构进行计算,得到内容损失函数。
本申请还提供了一种基于神经网络的视频风格迁移装置,包括:
第一模块,用于获取第一图像,以及需依据所述第一图像转化的视频数据,所述视频数据中包括以时间顺序排列的多帧第二图像;
第二模块,用于将所述第一图像以及视频数据输入训练后的视频风格迁移神经网络,得到具有所述第一图像风格特征以及所述视频数据内容特征的迁移视频数据;
其中,所述训练后的视频风格迁移神经网络包括风格编码器、内容编码器、语义依赖关系学习网络以及解码器。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取第一图像,以及需依据所述第一图像转化的视频数据,所述视频数据中包括以时间顺序排列的多帧第二图像;
将所述第一图像以及视频数据输入训练后的视频风格迁移神经网络,得到具有所述第一图像风格特征以及所述视频数据内容特征的迁移视频数据;
其中,所述训练后的视频风格迁移神经网络包括风格编码器、内容编码器、语义依赖关系学习网络以及解码器。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取第一图像,以及需依据所述第一图像转化的视频数据,所述视频数据中包括以时间顺序排列的多帧第二图像;
将所述第一图像以及视频数据输入训练后的视频风格迁移神经网络,得到具有所述第一图像风格特征以及所述视频数据内容特征的迁移视频数据;
其中,所述训练后的视频风格迁移神经网络包括风格编码器、内容编码器、语义依赖关系学习网络以及解码器。
上述基于神经网络的视频风格迁移方法、装置、计算机设备和存储介质,通过在视频风格迁移神经网络加入语义依赖关系学习网络层,以学习到图像长范围像素之间的依赖关系,进而能够提高视频图像的迁移效果,以达到在对视频图像进行风格迁移时防抖动的效果。
附图说明
图1为一个实施例中基于神经网络的视频风格迁移方法的流程示意图;
图2为一个实施例中视频风格迁移神经网络进行风格迁移的步骤流程示意图;
图3为一个实施例中训练视频风格迁移神经网络的方法的流程示意图;
图4为一个实施例中基于神经网络的视频风格迁移装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
如图1所示,提供了一种基于神经网络的视频风格迁移方法,包括以下步骤:
步骤S100,获取第一图像,以及需依据第一图像转化的视频数据,视频数据中包括以时间顺序排列的多帧第二图像;
步骤S200,将第一图像以及视频数据输入训练后的视频风格迁移神经网络,得到具有第一图像风格特征以及视频数据内容特征的迁移视频数据;
其中,训练后的视频风格迁移神经网络包括风格编码器、内容编码器、语义依赖关系学习网络以及解码器。
视频的风格化已经取得了较为逼真的效果,但在风格化过程中还存在一些问题,如视频同一内容在播放过程中的色彩抖动,究其原因就是不同帧在风格化的时候类似内容算法给予了不同的风格化结果等,这个主要原因是由于目前表达风格化的方法是基于格林矩阵的方法,而满足相同格林矩阵就认为是同一风格,而相同格林矩阵的图像在内容和色彩上可能会有较大的变化,进而导致相同的或者类似的内容其风格化后的结果会有较大的差异,这个也和网络初始化的条件有关。同一个网络,也可能由于多次不同的初始化而导致其风格化的结果有明显差异,这种差异在图像风格化的时候影响不大,但是在视频风格化的时候就可能出现较大的抖动。
在对视频进行风格迁移的过程中,由于视频中各帧图像之间有时间的连续性,相连的图像帧之间会有内容重叠,而且重叠的部分较多。在现有技术中,采用格林矩阵对各帧图像进行风格定义,由于非常多的风格迁移结果都会满足这种风格定义,也就是说相邻的两个图像帧中的相同内容部分,在迁移后可能表面的色彩和纹理就不一样了,这样在视频播放的时候,容易产生抖动,严重影响视频风格迁移的质量。
针对上述问题,本申请提供了一种视频风格迁移神经网络,通过将第一图像以及视频数据输入该神经网络进行风格迁移,得到具有第一图像风格特征以及与原视频数据内容特征相似或相同的迁移视频数据。
其中,风格特征主要是指第一图像的色彩纹理等风格,也就是说迁移视频数据中每一帧第二图像均具有与第一图像相同的色彩纹理等风格,又同时保持原有的内容部分。
在步骤S200中,视频风格迁移神经网络的架构具体包括风格编码器、内容编码器、语义依赖关系学习网络以及解码器,在将第一图像以及视频数据输入该网络后,如图2所示,其中实施迁移的具体步骤包括:
S210,将第一图像输入风格编码器,得到与第一图像风格特征相关的第一语义特征;
S220,依次将连续两帧第二图像输入内容编码器,得到与视频数据内容特征相关的多个第二语义特征;
S230,将第一语义特征以及各第二语义特征输入语义依赖关系学习网络,得到相应的多个依赖关系语义特征;
S240,将各依赖关系语义特征输入解码器,得到迁移视频数据。
在步骤S210中,通过采用风格编码器对第一图像的风格进行学习,并输出第一语义特征,其中风格编码器采用卷积神经网络的结构。
在步骤S220中,通过内容编码器对视频数据中具有时间连续性的各帧第二图像的内容进行学习。在学习过程中,将前后连续的两帧第二图像输入内容编码器,输出与在后一帧第二图像内容相应的内容语义特征,也就是第二语义特征,其中内容编码器采用卷积神经网络的结构。
在这里,输入连续两帧第二图像的目的在于,将前一帧的第二图像作为参考图像,根据参考图像的内容特征对后一帧的第二图像进行语义特征的提取。也就是在对在后一帧的第二图像的内容特征进行提取时,通过上一帧的第二图像对内容风格化进行约束,使得在后一帧的第二图像中的内容和在前一帧图像中的相同内容风格化后结构一致,这样确保了不同第二图像之间的风格化结果不会出现抖动。
在其中一实施例中,若在后一帧为视频数据的第一帧,则进行内容特征提取时,参考图像为空。
为了保持视频数据中的每帧第一图像内容,需要对迁移后的图像内容和迁移前的视频图像内容做一致性约束,而这种内容上风格化的一致性约束是通过在对视频风格迁移神经网络进行训练时,通过损失函数来实现,之后在阐述如何对视频风格迁移神经网络进行训练时会对损失函数进行详细介绍,并且,除了保证内容上一致性的损失函数以外,还采用保持风格上一致的损失函数,对视频风格迁移神经网络进行训练。
在步骤S210和S220中采用的风格编码器以及内容编码器均为通过损失函数训练后,具有保持内容或风格一致的语义特征提取模块。
由于在视频风格迁移神经网络中的编码器和解码器,均采用了卷积神经网络的结构使得该神经网络具有较好的局部结构学习能力,但是对于长范围的依赖关系的学习较差,为了提高整体图像迁移后的结构保持和风格保持,在该神经网络中设计了语义依赖关系学习网络,用于学习到图像长范围像素之间的依赖关系,进而能够提高视频图像的迁移效果。
其中,依赖关系是指图像中的一个像素,和图像中其他范围的像素之间的关系,如果两个像素之间在空间上离开的比较远就是长范围的。一般网络学习一个像素和自己周围比如5*5的范围的关系,这个关系是短范围的,而256*56范围或者以上的关系都能够学习到,就是长范围的依赖。
在步骤S130中,语义依赖关系学习网络,首先根据内容编码器输出的第二语义特征Fc和风格编码器输出的第一语义特征Fs,计算出相应的语义依赖关系图。该图中的每个点都代表特征中的一个点(结构)和其他所有特征点(或者结构)的依赖关系。然后将计算得到语义依赖关系图乘以刚才的Fc和Fs就得到语义依赖关系学习网络的输出,也就是依赖关系语义特征。而这其中的语义依赖关系图是通过语义依赖关系学习网络学习得到的。
在本实施例中,语义依赖关系学习网络包括微观结构依赖关系学习模块和风格依赖关系学习模块。
具体的,微观结构依赖学习模块负责根据第一语义特征Fs以及第二语义特征Fc对微观结构依赖关系构建一个依赖关系图。本模块学习微观空间结构(以每个位置为中心的图像包)之间的长范围依赖关系。给定两个输入语义特征Fc,Fs∈RC×H×W,其中C是特征的通道数,H,W分别是语义特征的宽度和高度。
首先将它们输入卷积层和ReLU层,分别生成两个新的特征B和C,其中B,C∈RC×H×W。然后在特征B中提取出一定大小的微观结构(这里以3×3的微观结构为例),并将其重塑为卷积滤波器。为了匹配特征C中的某一个微观的结构Cx,y和特征B中的微观结构Bx’,y’,再计算具有归一化内积余弦值作为两个微观结构的依赖关系:
在算式(1)中,Sx,y,x’,y’表示特征B中以位置(x’,y’)为中心的微观结构与特征C中以位置(x,y)为中心的微观结构的依赖关系,该值越大说明相关性越强。从特征B中提取的微观结构数量为N,其中N等于使用步长1提取微观结构时的H×W。用N个在B中提取的微观结构(从特征映射B中提取)对特征映射C中的所有微观结构计算其依赖关系,得到一个新的微观结构依赖关系图E。其中E是一个四维张量,即E∈RH×W×H×W,并将其整形为RN×N。然后应用softmax对这种依赖关系进行归一化,得到这两个特征之间的微观结构依赖关系图S∈RN×N:
在算式(2)中,Sj,k表示第i个和第j个微观结构之间的依赖系数。然后对Fc和Fs与S的转置进行矩阵相乘,得到四维张量R3×3×C×N。最后,使用四维张量重建特征,重叠像素的值取平均值。
具体的,风格依赖关系学习模块用于学习不同通道特征映射与模型外观纹理的相关性,类似于微观结构依赖学习模块。根据第一语义特征Fs和第二语义特征Fs∈RC×H×W,直接计算出风格依赖关系Z∈RC×C。具体来说,将Fc和Fs重塑为D和E,然后在D和E之间进行矩阵乘法。最后,应用softmax层来获得风格依赖关系图Z∈RC×C:
在算式(3)中,Zi,j表示i个特征通道的风格对j个特征通道的风格之间的依赖关系。
如图3所示,还提供了一种训练视频风格迁移神经网络的方法,以得到具有风格迁移能力的视频风格迁移神经网络,包括:
步骤S310,获取引导图像以及训练视频数据,训练视频数据包括以时间顺序排列的多帧训练图像;
步骤S320,将引导图像以及连续两帧训练图像输入视频风格迁移神经网络,得到训练迁移视频数据,其中训练迁移视频数据包括与各帧训练图像相应的迁移视频图像;
步骤S330,根据迁移视频图像以及引导图像进行计算,得到风格损失函数以及内容损失函数;
步骤S340,根据风格损失函数以及内容损失函数计算得到总损失函数,若总损失函数符合预设标准,则得到训练后的视频风格迁移神经网络;
步骤S350,若总损失函数不符合预设标准,则调节视频风格迁移神经网络的各参数,重新将引导图像以及连续两帧训练图像输入视频风格迁移神经网络,直至总损失函数符合预设标准。
在对视频风格迁移神经网络进行训练时,将引导图像,也就是风格转换参照图像,以及训练视频数据输入视频风格迁移神经网络中,其中步骤S310以及步骤S320与上述使用训练后的视频风格迁移神经网络步骤相似,在此则不再赘述。
在步骤S330至S350中,在通过视频风格迁移神经网络得到迁移视频图像后,计算损失总函数也就是风格损失函数以及内容损失函数之和,并通过总损失函数对视频风格迁移神经网络进行多次迭代训练,直至总损失函数最小的时候,也就是说继续训练总损失函数已经无法再变小,就认为网络已经训练完成。
而在具体的训练过程中,根据每次迭代训练后的总损失函数,相应的调整总损失函数的权重以及视频风格迁移神经网络中的各个参数。因为总损失函数其实就是希望视频风格迁移神经网络的输出能够满足的条件,一个损失函数就是一个用数学公式表达的具体的条件,当尽可能满足所有的条件时,视频风格迁移神经网络训练完成。
并且,根据对最终的风格迁移图像的具体条件可以设置不同的权重,比如希望视频风格迁移后的内容保持的好一些,就将内容保持相关的损失函数的权重提高一些,具体提高多少,要在训练过程中认为动态调整。而如果希望视频风格迁移后的风格保持的好一些,那就提升风格相关的损失函数权重。
在本实施例中,通过风格损失函数保持风格迁移后的图像和引导图像的风格一致,该风格损失函数可采用现有盖蒂(Gateys)等人提出的风格表达损失函数。
在其中一实施例中,为了保持风格迁移后的图像和原始迁移内容之间内容一致,也采用了盖蒂(Gateys)等人提出的内容保持损失函数。但是为了能够使得视频不同帧之间相同内容或者相似内容在迁移后也相同或者相似,采用了特殊设计的语义相关的内容保持损失函数。
在本实施例中,计算内容算式函数包括根据训练迁移视频数据进行计算,提取与各帧迁移视频图像相关的微观结构,以及匹配微观结构;根据微观结构以及匹配微观结构进行计算,得到内容损失函数。
具体的,设ψ(φ(Fg))表示从迁移后的迁移视频图像Fg提取的所有微观结构(例如3*3的图像包)的列表,φ(Fg)表示Fg的一组指定的从预先训练的VGG网络中提取的特征集合。每个“神经微观结构”的索引为ψi(φ(Fg))的大小为K×K×C,其中K是语义特征微观结构的宽度和高度,C是从中提取特征微观结构的层的通道数,则内容损失函数设为:
在算式(4)中,Fg是生成的迁移视频图像,Fg-1是Fg的前一帧生成迁移视频图像,而M是ψ(φ(Fg)的微观结构数量。对于每个微观结构ψi(φ(Fg)),可以找到了它的最佳匹配微观结构ψNN(i)(φ(Fg-1)。
通过附加的卷积层可以有效地执行匹配过程。通过在连续帧之间的相同内容之间进行风格和内容的最大匹配而保持不同的帧之间的风格化一致,进而保证风格化后的视频播放不抖动。
上述基于神经网络的视频风格迁移方法,针对视频风格化过程中存在的问题,如视频同一内容在播放过程中的色彩抖动,提出了一个视频风格迁移神经网络的架构,包含:风格编码器(主要以引导图像作为输入)来从引导图像学习该图像的风格;内容编码器(主要以视频的两个连续帧作为输入),主要学习视频帧图像的内容;解码器主要以风格编码器的输出、内容编码器的输出作为输入,然后合成一帧特定的风格化的图像。视频第一帧图像输入的时候,内容编码器就输入该第一帧的图像,参考的内容图像为空,而当第二帧视频图像输入的时候,以第一帧的图像作为参考图像。这里的参考图像的作用就是通过上一帧的图像来约束下一帧的图像风格化的结果,也就是说希望第二帧的图像中的内容和第一帧图像中的相同内容风格化后的结果一致,这样就确保了不同视频帧之间的风格化结果不会出现抖动。而这种风格化的一致性约束是通过内容损失函数来实现的。另外为了使得迁移后的风格符合引导图像的风格,需要用到格林矩阵的风格损失函数来实现。为了保持视频的原始每帧的图像内容,需要对迁移后的图像内容和迁移前的视频图像内容做一致性约束,这个约束是通过语义空间特征向量一致性损失函数来实现的。
而上述视频风格迁移神经网络(也就是包括编码器和解码器)对局部结构学习的比较好,因为采用了卷积神经网络的结构,但是对于长范围的依赖关系的学习较差,为了提高整体图像迁移后的结构保持和风格保持,本申请中的视频风格迁移神经网络还具有一层特殊的风格和微观结构的语义依赖关系学习网络层,也就是通过这个层能够学习到图像长范围像素之间的依赖关系,进而能够提高视频图像的迁移效果。
应该理解的是,虽然图1-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种基于神经网络的视频风格迁移装置,包括:第一模块400和第二模块500,其中:
第一模块400,用于获取第一图像,以及需依据所述第一图像转化的视频数据,所述视频数据中包括以时间顺序排列的多帧第二图像;
第二模块500,用于将所述第一图像以及视频数据输入训练后的视频风格迁移神经网络,得到具有所述第一图像风格特征以及所述视频数据内容特征的迁移视频数据;
其中,所述训练后的视频风格迁移神经网络包括风格编码器、内容编码器、语义依赖关系学习网络以及解码器。
关于基于神经网络的视频风格迁移装置的具体限定可以参见上文中对于基于神经网络的视频风格迁移方法的限定,在此不再赘述。上述基于神经网络的视频风格迁移装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于神经网络的视频风格迁移方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取第一图像,以及需依据所述第一图像转化的视频数据,所述视频数据中包括以时间顺序排列的多帧第二图像;
将所述第一图像以及视频数据输入训练后的视频风格迁移神经网络,得到具有所述第一图像风格特征以及所述视频数据内容特征的迁移视频数据;
其中,所述训练后的视频风格迁移神经网络包括风格编码器、内容编码器、语义依赖关系学习网络以及解码器。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取第一图像,以及需依据所述第一图像转化的视频数据,所述视频数据中包括以时间顺序排列的多帧第二图像;
将所述第一图像以及视频数据输入训练后的视频风格迁移神经网络,得到具有所述第一图像风格特征以及所述视频数据内容特征的迁移视频数据;
其中,所述训练后的视频风格迁移神经网络包括风格编码器、内容编码器、语义依赖关系学习网络以及解码器。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (9)
1.基于神经网络的视频风格迁移方法,其特征在于,包括:
获取第一图像,以及需依据所述第一图像转化的视频数据,所述视频数据中包括以时间顺序排列的多帧第二图像;
将所述第一图像以及视频数据输入训练后的视频风格迁移神经网络,得到具有所述第一图像风格特征以及所述视频数据内容特征的迁移视频数据;
其中,所述训练后的视频风格迁移神经网络包括风格编码器、内容编码器、语义依赖关系学习网络以及解码器。
2.根据权利要求1所述的视频风格迁移方法,其特征在于,所述将所述第一图像以及视频数据输入训练后的视频风格迁移神经网络,得到具有所述第一图像风格特征的迁移视频数据包括:
将所述第一图像输入风格编码器,得到与所述第一图像风格特征相关的第一语义特征;
依次将连续两帧所述第二图像输入内容编码器,得到与所述视频数据内容特征相关的多个第二语义特征;
将所述第一语义特征以及各所述第二语义特征输入语义依赖关系学习网络,得到相应的多个依赖关系语义特征;
将各所述依赖关系语义特征输入解码器,得到所述迁移视频数据。
3.根据权利要求2所述的视频风格迁移方法,其特征在于,将所述连续两帧所述第二图像输入内容编码器,得到与所述视频数据内容特征相关的第二语义特征包括:
将前一帧的所述第二图像作为参考图像,根据所述参考图像的内容特征对后一帧的第二图像进行语义特征的提取。
4.根据权利要求1所述的视频风格迁移方法,其特征在于,所述语义依赖关系学习网络包括:微观结构依赖学习模块以及风格依赖关系学习模块。
5.根据权利要求1所述的视频风格迁移方法,其特征在于,训练所述视频风格迁移神经网络的方法包括:
获取引导图像以及训练视频数据,所述训练视频数据包括以时间顺序排列的多帧训练图像;
将所述引导图像以及连续两帧所述训练图像输入所述视频风格迁移神经网络,得到训练迁移视频数据,其中所述训练迁移视频数据包括与各帧所述训练图像相应的迁移视频图像;
根据所述迁移视频图像以及引导图像进行计算,得到风格损失函数以及内容损失函数;
根据所述风格损失函数以及内容损失函数计算得到总损失函数,若所述总损失函数符合预设标准,则得到训练后的视频风格迁移神经网络;
若所述总损失函数不符合预设标准,则调节所述视频风格迁移神经网络的各参数,重新将所述引导图像以及连续两帧所述训练图像输入所述视频风格迁移神经网络,直至所述总损失函数符合预设标准。
6.根据权利要求5所述的视频风格迁移方法,其特征在于,计算所述内容损失函数包括:
根据所述训练迁移视频数据进行计算,提取与各帧所述迁移视频图像相关的微观结构,以及匹配微观结构;
根据所述微观结构以及匹配微观结构进行计算,得到内容损失函数。
7.一种基于神经网络的视频风格迁移装置,其特征在于,包括:
第一模块,用于获取第一图像,以及需依据所述第一图像转化的视频数据,所述视频数据中包括以时间顺序排列的多帧第二图像;
第二模块,用于将所述第一图像以及视频数据输入训练后的视频风格迁移神经网络,得到具有所述第一图像风格特征以及所述视频数据内容特征的迁移视频数据;
其中,所述训练后的视频风格迁移神经网络包括风格编码器、内容编码器、语义依赖关系学习网络以及解码器。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述基于神经网络的视频风格迁移方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的基于神经网络的视频风格迁移方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110085857.8A CN112883806B (zh) | 2021-01-21 | 2021-01-21 | 基于神经网络的视频风格迁移方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110085857.8A CN112883806B (zh) | 2021-01-21 | 2021-01-21 | 基于神经网络的视频风格迁移方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112883806A true CN112883806A (zh) | 2021-06-01 |
CN112883806B CN112883806B (zh) | 2024-03-22 |
Family
ID=76050046
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110085857.8A Active CN112883806B (zh) | 2021-01-21 | 2021-01-21 | 基于神经网络的视频风格迁移方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112883806B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113327194A (zh) * | 2021-06-30 | 2021-08-31 | 北京百度网讯科技有限公司 | 图像风格迁移方法、装置、设备和存储介质 |
CN114445313A (zh) * | 2022-01-28 | 2022-05-06 | 北京百度网讯科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN114885174A (zh) * | 2022-02-23 | 2022-08-09 | 中国科学院自动化研究所 | 视频处理方法、装置及电子设备 |
CN115187706A (zh) * | 2022-06-28 | 2022-10-14 | 北京汉仪创新科技股份有限公司 | 一种人脸风格迁移的轻量化方法、系统、存储介质和电子设备 |
CN118283201A (zh) * | 2024-06-03 | 2024-07-02 | 上海蜜度科技股份有限公司 | 视频合成方法、系统、存储介质及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109859096A (zh) * | 2018-12-28 | 2019-06-07 | 北京达佳互联信息技术有限公司 | 图像风格迁移方法、装置、电子设备及存储介质 |
CN110310221A (zh) * | 2019-06-14 | 2019-10-08 | 大连理工大学 | 一种基于生成对抗网络的多域图像风格迁移方法 |
CN110738715A (zh) * | 2018-07-19 | 2020-01-31 | 北京大学 | 一种基于样例的动态文本特效的自动迁移方法 |
US20200118003A1 (en) * | 2018-10-15 | 2020-04-16 | Sony Corporation | Information processing apparatus, method, and program |
CN111815509A (zh) * | 2020-09-02 | 2020-10-23 | 北京邮电大学 | 一种图像风格转换及模型训练的方法及装置 |
CN111986075A (zh) * | 2020-08-12 | 2020-11-24 | 兰州交通大学 | 一种目标边缘清晰化的风格迁移方法 |
-
2021
- 2021-01-21 CN CN202110085857.8A patent/CN112883806B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110738715A (zh) * | 2018-07-19 | 2020-01-31 | 北京大学 | 一种基于样例的动态文本特效的自动迁移方法 |
US20200118003A1 (en) * | 2018-10-15 | 2020-04-16 | Sony Corporation | Information processing apparatus, method, and program |
CN109859096A (zh) * | 2018-12-28 | 2019-06-07 | 北京达佳互联信息技术有限公司 | 图像风格迁移方法、装置、电子设备及存储介质 |
CN110310221A (zh) * | 2019-06-14 | 2019-10-08 | 大连理工大学 | 一种基于生成对抗网络的多域图像风格迁移方法 |
CN111986075A (zh) * | 2020-08-12 | 2020-11-24 | 兰州交通大学 | 一种目标边缘清晰化的风格迁移方法 |
CN111815509A (zh) * | 2020-09-02 | 2020-10-23 | 北京邮电大学 | 一种图像风格转换及模型训练的方法及装置 |
Non-Patent Citations (1)
Title |
---|
CHUAN LI ET AL.: ""Combining Markov Random Fields and Convolutional Neural Networks for Image Synthesis"", 《ARXIV》, pages 1 - 9 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113327194A (zh) * | 2021-06-30 | 2021-08-31 | 北京百度网讯科技有限公司 | 图像风格迁移方法、装置、设备和存储介质 |
CN114445313A (zh) * | 2022-01-28 | 2022-05-06 | 北京百度网讯科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN114885174A (zh) * | 2022-02-23 | 2022-08-09 | 中国科学院自动化研究所 | 视频处理方法、装置及电子设备 |
CN115187706A (zh) * | 2022-06-28 | 2022-10-14 | 北京汉仪创新科技股份有限公司 | 一种人脸风格迁移的轻量化方法、系统、存储介质和电子设备 |
CN115187706B (zh) * | 2022-06-28 | 2024-04-05 | 北京汉仪创新科技股份有限公司 | 一种人脸风格迁移的轻量化方法、系统、存储介质和电子设备 |
CN118283201A (zh) * | 2024-06-03 | 2024-07-02 | 上海蜜度科技股份有限公司 | 视频合成方法、系统、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112883806B (zh) | 2024-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112883806A (zh) | 基于神经网络的视频风格迁移方法、装置、计算机设备和存储介质 | |
TWI749356B (zh) | 一種圖像風格轉換方法及設備、儲存介質 | |
Li et al. | Low-light image and video enhancement using deep learning: A survey | |
CN106778928B (zh) | 图像处理方法及装置 | |
KR20190100320A (ko) | 이미지 처리를 위한 신경망 모델 훈련 방법, 장치 및 저장 매체 | |
WO2020073758A1 (en) | Method and apparatus for training machine learning modle, apparatus for video style transfer | |
CN111583100B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN111161306B (zh) | 一种基于运动注意力的视频目标分割方法 | |
CN111383232A (zh) | 抠图方法、装置、终端设备及计算机可读存储介质 | |
Puy et al. | A flexible convolutional solver for fast style transfers | |
CN110874575A (zh) | 一种脸部图像处理方法及相关设备 | |
Huang et al. | IA-FaceS: A bidirectional method for semantic face editing | |
CN113706583A (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
Liu et al. | Facial image inpainting using attention-based multi-level generative network | |
CN115984447A (zh) | 图像渲染方法、装置、设备和介质 | |
CN111292251B (zh) | 图像偏色校正方法、装置以及计算机存储介质 | |
Ye et al. | Glow in the dark: Low-light image enhancement with external memory | |
CN112819687A (zh) | 基于无监督神经网络的跨域图像转换方法、装置、计算机设备和存储介质 | |
Liang et al. | PIE: Physics-Inspired Low-Light Enhancement | |
Pang et al. | Structure-preserving feature alignment for old photo colorization | |
CN110830848B (zh) | 图像插值方法、装置、计算机设备和存储介质 | |
CN114078130B (zh) | 图像生成方法、装置、计算机设备和存储介质 | |
CN113989106A (zh) | 图像任意美学风格迁移方法、装置、计算机设备和存储介质 | |
CN114630012B (zh) | 一种虚拟试衣视频生成方法、装置、电子设备及介质 | |
CN118014821A (zh) | 基于大模型风格先验知识的风格迁移方法、计算机设备、可读存储介质和程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |