CN113793253A - 自动生成风格化视频的风格迁移系统 - Google Patents
自动生成风格化视频的风格迁移系统 Download PDFInfo
- Publication number
- CN113793253A CN113793253A CN202111006662.6A CN202111006662A CN113793253A CN 113793253 A CN113793253 A CN 113793253A CN 202111006662 A CN202111006662 A CN 202111006662A CN 113793253 A CN113793253 A CN 113793253A
- Authority
- CN
- China
- Prior art keywords
- image
- stylized
- style
- loss
- stylistic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000005012 migration Effects 0.000 title claims abstract description 8
- 238000013508 migration Methods 0.000 title claims abstract description 8
- 238000000034 method Methods 0.000 claims abstract description 22
- 230000006870 function Effects 0.000 claims description 55
- 230000008859 change Effects 0.000 claims description 24
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 abstract description 6
- 238000012545 processing Methods 0.000 abstract description 4
- 230000000087 stabilizing effect Effects 0.000 abstract description 4
- 238000013528 artificial neural network Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 abstract description 3
- 238000012546 transfer Methods 0.000 description 13
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种自动生成风格化视频的风格迁移系统,涉及图像处理领域,包括:至少一个存储器,被配置为存储程序指令;至少一个处理器,被配置为执行所述程序指令,所述程序指令使所述至少一个处理器执行以下步骤:接收视频序列的第一图像和第二图像,其中第一图像和第二图像是连续的图像帧;将与风格图像相关联的风格网络模型应用于第一图像和第二图像,以分别生成风格图像的风格中的第一风格化图像和第二风格化图像,本公开通过考虑源连续帧和风格化连续帧的运动变化来指导神经网络的学习过程,这可以减轻风格化连续帧之间的闪烁伪影,从而在稳定视频风格转移方面提供更好的结果。
Description
技术领域
本公开涉及图像处理领域,更具体地,涉及一种用于风格化视频帧的方法以及自动生成风格化视频的风格迁移系统。
背景技术
可以使用风格转移技术以风格图像或参考图像的风格来重构图像或视频。例如,风格化的视频帧具有VincentVanGogh的“星空夜”风格。
视频风格转换将原始帧序列转换为另一风格化帧序列。与仅改变色调或色彩分布的传统滤光器相比,这可以为用户提供更令人印象深刻的效果。另外,可以创建风格过滤器的数量不受限制,这可以极大地丰富诸如智能手机之类的电子设备中的产品(诸如视频相册)。
视频风格转移中使用的技术可以被分类为基于图像的解决方案和基于视频的解决方案,如下所述。
1)基于图像的解决方案
图像风格转移方法的特征在于学习风格并将其应用于其它图像。简而言之,图像风格转移方法使用从白噪声的梯度下降来分别合成与源图像的内容和参考图像的风格相匹配的图像。可以使用前馈网络来减少计算时间并有效地进行图像风格转移。
大多数基于图像的视频风格转移方法基于图像风格转移方法,其中它们逐帧地将基于图像的风格转移应用于视频。然而,该方案不可避免地在视频风格化中带来时间上的不一致性,因此在连续风格化帧之间造成严重的闪烁伪影和运动对象的风格化不一致。
2)基于视频的解决方案
基于视频的解决方案试图直接在视频域上实现视频风格转移。例如,传统的方法是通过惩罚与输入视频的光流的偏离来获得稳定的视频。随着原始视频中元素的移动,风格特征保持从一帧到另一帧存在。然而,这种方法在计算上对于实时风格转移来说太重,每帧需要几分钟。
因此,需要解决该领域现有技术中存在的问题。
发明内容
本公开的目的是提出一种自动生成风格化视频的风格迁移系统。
在本公开的第一方面,一种用于风格化视频帧的方法,包括:
接收视频序列的第一图像和第二图像,其中第一图像和第二图像是连续的图像帧;
将与风格图像相关联的风格网络模型应用于第一图像和第二图像,以分别生成风格图像的风格中的第一风格化图像和第二风格化图像;
对所述第一图像,所述第二图像,所述第一风格化图像,所述第二风格化图像和所述风格图像应用损失网络模型以生成损失函数;
基于所生成的损耗函数为风格网络模型确定一组权重;以及
由至少一个处理器通过将具有所确定的一组权重的风格网络模型应用于视频帧来风格化视频帧。
根据结合本公开的第一方面的实施例,风格网络模型包括第一风格网络和第二风格网络,并且将风格网络模型应用于第一图像,第二图像包括:
将所述第一风格网络应用于所述第一图像,以生成具有所述风格图像风格的所述第一风格化图像;以及
将第二风格网络应用于第二图像以生成风格图像风格的第二风格化图像。
根据结合本公开的第一方面的实施例,通过最小化损失函数来确定风格网络模型的权重集。
根据结合本公开的第一方面的实施例,损失函数包括与第一图像的内容与第一风格化图像的内容匹配程度和第二图像的内容与第二风格化图像的内容匹配程度相关的内容损失,风格损失,涉及第一风格化图像与风格图像的风格匹配程度以及第二风格化图像与风格图像的风格匹配程度,以及与所述第一图像和所述第二图像之间的运动变化与所述第一风格化图像和所述第二风格化图像之间的运动变化匹配程度相关的时间损失。
根据结合本公开的第一方面的实施例,应用损耗网络模型来生成损耗函数包括:
生成与所述第一图像和所述第一风格化图像的空间特征之间的差异相关联的第一内容损失和与所述第二图像和所述第二风格化图像的空间特征之间的差异相关联的第二内容损失;
生成与所述第一风格化图像的风格特征和所述风格图像之间的差异相关联的第一风格损失和与所述第二风格化图像的风格特征和所述风格图像之间的差异相关联的第二风格损失;
产生与所述第一图像与所述第二图像之间的运动变化和所述第一风格化图像与所述第二风格化图像之间的运动变化之间的差值相关联的时间损失;以及
组合第一内容损失,第二内容损失,第一风格损失,第二风格损失和时间损失以生成损失函数。
根据结合本公开的第一方面的实施例,第一风格损失是第一风格化图像和风格图像的克矩阵之间的差的平方Frobenius范数,第二风格损失是第二风格化图像和风格图像的克矩阵之间的差的平方Frobenius范数。
根据结合本公开的第一方面的实施例,损耗网络模型包括第一损耗网络和第二损耗网络,并且应用损耗网络模型来生成损耗函数包括:
将所述第一丢失网络应用于所述第一图像和所述第一风格化图像以生成所述第一内容丢失,以及将所述第一丢失网络应用于所述第一风格化图像和所述风格化图像以生成所述第一风格丢失;以及
将第二丢失网络应用于第二图像和第二风格化图像以生成第二内容丢失,以及将第二丢失网络应用于第二风格化图像和风格图像以生成第二风格丢失。
根据结合本公开的第一方面的实施例,风格网络模型和损耗网络模型是卷积神经网络模型。在本公开的第二方面,一种自动生成风格化视频的风格迁移系统,包括:
至少一个存储器,被配置为存储程序指令;
至少一个处理器,被配置为执行所述程序指令,所述程序指令使所述至少一个处理器执行以下步骤:
接收视频序列的第一图像和第二图像,其中第一图像和第二图像是连续的图像帧;
将与风格图像相关联的风格网络模型应用于第一图像和第二图像,以分别生成风格图像的风格中的第一风格化图像和第二风格化图像;
对所述第一图像,所述第二图像,所述第一风格化图像,所述第二风格化图像和所述风格图像应用损失网络模型以生成损失函数;
基于所生成的损耗函数为风格网络模型确定一组权重;以及
通过将具有所确定的一组权重的风格网络模型应用于视频帧来风格化视频帧。
根据结合本公开的第二方面的实施例,风格网络模型包括第一风格网络和第二风格网络,并且将风格网络模型应用于第一图像,第二图像包括:
将所述第一风格网络应用于所述第一图像,以生成具有所述风格图像风格的所述第一风格化图像;以及
将第二风格网络应用于第二图像以生成风格图像风格的第二风格化图像。
根据结合本公开的第二方面的实施例,通过最小化损失函数来确定风格网络模型的权重集。
根据结合本公开的第二方面的实施例,损失函数包括与第一图像的内容与第一风格化图像的内容匹配程度和第二图像的内容与第二风格化图像的内容匹配程度相关的内容损失,风格损失,涉及第一风格化图像与风格图像的风格匹配程度以及第二风格化图像与风格图像的风格匹配程度,以及与所述第一图像和所述第二图像之间的运动变化与所述第一风格化图像和所述第二风格化图像之间的运动变化匹配程度相关的时间损失。根据结合本公开的第二方面的实施例,应用损耗网络模型来生成损耗函数包括:
生成与所述第一图像和所述第一风格化图像的空间特征之间的差异相关联的第一内容损失和与所述第二图像和所述第二风格化图像的空间特征之间的差异相关联的第二内容损失;
生成与所述第一风格化图像的风格特征和所述风格图像之间的差异相关联的第一风格损失和与所述第二风格化图像的风格特征和所述风格图像之间的差异相关联的第二风格损失;
产生与所述第一图像与所述第二图像之间的运动变化和所述第一风格化图像与所述第二风格化图像之间的运动变化之间的差值相关联的时间损失;以及
组合第一内容损失,第二内容损失,第一风格损失,第二风格损失和时间损失以生成损失函数。
根据结合本公开的第二方面的实施例,损耗网络模型包括第一损耗网络和第二损耗网络,并且应用损耗网络模型来生成损耗函数包括:
将所述第一丢失网络应用于所述第一图像和所述第一风格化图像以生成所述第一内容丢失,以及将所述第一丢失网络应用于所述第一风格化图像和所述风格化图像以生成所述第一风格丢失;以及
将第二丢失网络应用于第二图像和第二风格化图像以生成第二内容丢失,以及将第二丢失网络应用于第二风格化图像和风格图像以生成第二风格丢失。
在本公开的第三方面中,存储有程序指令的非临时性计算机可读介质,当由至少一个处理器执行该程序指令时,使该至少一个处理器执行包括以下步骤的步骤:
接收视频序列的第一图像和第二图像,其中第一图像和第二图像是连续的图像帧;
将与风格图像相关联的风格网络模型应用于第一图像和第二图像,以分别生成风格图像的风格中的第一风格化图像和第二风格化图像;
对所述第一图像,所述第二图像,所述第一风格化图像,所述第二风格化图像和所述风格图像应用损失网络模型以生成损失函数;
基于所生成的损耗函数为风格网络模型确定一组权重;以及
通过将具有所确定的一组权重的风格网络模型应用于视频帧来风格化视频帧。
根据结合本公开的第三方面的实施例,风格网络模型包括第一风格网络和第二风格网络,并且将风格网络模型应用于第一图像和第二图像包括:
将所述第一风格网络应用于所述第一图像,以生成具有所述风格图像风格的所述第一风格化图像;以及
将第二风格网络应用于第二图像以生成风格图像风格的第二风格化图像。
根据结合本公开的第三方面的实施例,通过最小化损失函数来确定风格网络模型的权重集。
根据结合本公开的第三方面的实施例,损失函数包括与第一图像的内容与第一风格化图像的内容匹配程度和第二图像的内容与第二风格化图像的内容匹配程度相关的内容损失,风格损失,涉及第一风格化图像与风格图像的风格匹配程度以及第二风格化图像与风格图像的风格匹配程度,以及与所述第一图像和所述第二图像之间的运动变化与所述第一风格化图像和所述第二风格化图像之间的运动变化匹配程度相关的时间损失。
根据结合本公开的第三方面的实施例,应用损耗网络模型来生成损耗函数包括:
生成与所述第一图像和所述第一风格化图像的空间特征之间的差异相关联的第一内容损失和与所述第二图像和所述第二风格化图像的空间特征之间的差异相关联的第二内容损失;
生成与所述第一风格化图像的风格特征和所述风格图像之间的差异相关联的第一风格损失和与所述第二风格化图像的风格特征和所述风格图像之间的差异相关联的第二风格损失;
产生与所述第一图像与所述第二图像之间的运动变化和所述第一风格化图像与所述第二风格化图像之间的运动变化之间的差值相关联的时间损失;以及
组合第一内容损失,第二内容损失,第一风格损失,第二风格损失和时间损失以生成损失函数。
根据结合本公开的第三方面的实施例,损耗网络模型包括第一损耗网络和第二损耗网络,并且应用损耗网络模型来生成损耗函数包括:
将所述第一丢失网络应用于所述第一图像和所述第一风格化图像以生成所述第一内容丢失,以及将所述第一丢失网络应用于所述第一风格化图像和所述风格化图像以生成所述第一风格丢失;以及
将第二丢失网络应用于第二图像和第二风格化图像以生成第二内容丢失,以及将第二丢失网络应用于第二风格化图像和风格图像以生成第二风格丢失。
在本公开中,考虑第一图像,第二图像,第一风格化图像,第二风格化图像和风格图像来构造损失函数,以提高视频风格转移的稳定性。不是盲目地强制连续帧完全相同,本公开通过考虑源连续帧和风格化连续帧的运动变化来指导神经网络的学习过程,这可以减轻风格化连续帧之间的闪烁伪影,从而在稳定视频风格转移方面提供更好的结果。本公开的其它优点包括更好的网络收敛性能(由于更好的时间损失)和在运行时间期间没有额外的计算负担。
具体实施方式
下面详细描述本公开的实施例,其中的技术问题,结构特征,实现的目的和效果如下。具体地,本公开的实施例中的术语仅用于描述特定实施例的目的,而不是限制本发明。在视频风格转移中,本公开引入时间稳定性机制,其考虑源连续帧和风格化连续帧的运动变化,即源和风格化的运动变化是同步的。这在稳定视频风格转移方面产生了更好的结果。与在运行时间期间引入大的计算负担的一些传统风格转移方法不同,本公开允许视频的实时的无皱褶风格转移。
在本公开的第一方面,一种用于风格化视频帧的方法,包括:
接收视频序列的第一图像和第二图像,其中第一图像和第二图像是连续的图像帧;
将与风格图像相关联的风格网络模型应用于第一图像和第二图像,以分别生成风格图像的风格中的第一风格化图像和第二风格化图像;
对所述第一图像,所述第二图像,所述第一风格化图像,所述第二风格化图像和所述风格图像应用损失网络模型以生成损失函数;
基于所生成的损耗函数为风格网络模型确定一组权重;以及
由至少一个处理器通过将具有所确定的一组权重的风格网络模型应用于视频帧来风格化视频帧。
根据结合本公开的第一方面的实施例,风格网络模型包括第一风格网络和第二风格网络,并且将风格网络模型应用于第一图像,第二图像包括:
将所述第一风格网络应用于所述第一图像,以生成具有所述风格图像风格的所述第一风格化图像;以及
将第二风格网络应用于第二图像以生成风格图像风格的第二风格化图像。
根据结合本公开的第一方面的实施例,通过最小化损失函数来确定风格网络模型的权重集。
根据结合本公开的第一方面的实施例,损失函数包括与第一图像的内容与第一风格化图像的内容匹配程度和第二图像的内容与第二风格化图像的内容匹配程度相关的内容损失,风格损失,涉及第一风格化图像与风格图像的风格匹配程度以及第二风格化图像与风格图像的风格匹配程度,以及与所述第一图像和所述第二图像之间的运动变化与所述第一风格化图像和所述第二风格化图像之间的运动变化匹配程度相关的时间损失。
根据结合本公开的第一方面的实施例,应用损耗网络模型来生成损耗函数包括:
生成与所述第一图像和所述第一风格化图像的空间特征之间的差异相关联的第一内容损失和与所述第二图像和所述第二风格化图像的空间特征之间的差异相关联的第二内容损失;
生成与所述第一风格化图像的风格特征和所述风格图像之间的差异相关联的第一风格损失和与所述第二风格化图像的风格特征和所述风格图像之间的差异相关联的第二风格损失;
产生与所述第一图像与所述第二图像之间的运动变化和所述第一风格化图像与所述第二风格化图像之间的运动变化之间的差值相关联的时间损失;以及
组合第一内容损失,第二内容损失,第一风格损失,第二风格损失和时间损失以生成损失函数。
根据结合本公开的第一方面的实施例,第一风格损失是第一风格化图像和风格图像的克矩阵之间的差的平方Frobenius范数,第二风格损失是第二风格化图像和风格图像的克矩阵之间的差的平方Frobenius范数。
根据结合本公开的第一方面的实施例,损耗网络模型包括第一损耗网络和第二损耗网络,并且应用损耗网络模型来生成损耗函数包括:
将所述第一丢失网络应用于所述第一图像和所述第一风格化图像以生成所述第一内容丢失,以及将所述第一丢失网络应用于所述第一风格化图像和所述风格化图像以生成所述第一风格丢失;以及
将第二丢失网络应用于第二图像和第二风格化图像以生成第二内容丢失,以及将第二丢失网络应用于第二风格化图像和风格图像以生成第二风格丢失。
根据结合本公开的第一方面的实施例,风格网络模型和损耗网络模型是卷积神经网络模型。在本公开的第二方面,一种自动生成风格化视频的风格迁移系统,包括:
至少一个存储器,被配置为存储程序指令;
至少一个处理器,被配置为执行所述程序指令,所述程序指令使所述至少一个处理器执行以下步骤:
接收视频序列的第一图像和第二图像,其中第一图像和第二图像是连续的图像帧;
将与风格图像相关联的风格网络模型应用于第一图像和第二图像,以分别生成风格图像的风格中的第一风格化图像和第二风格化图像;
对所述第一图像,所述第二图像,所述第一风格化图像,所述第二风格化图像和所述风格图像应用损失网络模型以生成损失函数;
基于所生成的损耗函数为风格网络模型确定一组权重;以及
通过将具有所确定的一组权重的风格网络模型应用于视频帧来风格化视频帧。
根据结合本公开的第二方面的实施例,风格网络模型包括第一风格网络和第二风格网络,并且将风格网络模型应用于第一图像,第二图像包括:
将所述第一风格网络应用于所述第一图像,以生成具有所述风格图像风格的所述第一风格化图像;以及
将第二风格网络应用于第二图像以生成风格图像风格的第二风格化图像。
根据结合本公开的第二方面的实施例,通过最小化损失函数来确定风格网络模型的权重集。
根据结合本公开的第二方面的实施例,损失函数包括与第一图像的内容与第一风格化图像的内容匹配程度和第二图像的内容与第二风格化图像的内容匹配程度相关的内容损失,风格损失,涉及第一风格化图像与风格图像的风格匹配程度以及第二风格化图像与风格图像的风格匹配程度,以及与所述第一图像和所述第二图像之间的运动变化与所述第一风格化图像和所述第二风格化图像之间的运动变化匹配程度相关的时间损失。根据结合本公开的第二方面的实施例,应用损耗网络模型来生成损耗函数包括:
生成与所述第一图像和所述第一风格化图像的空间特征之间的差异相关联的第一内容损失和与所述第二图像和所述第二风格化图像的空间特征之间的差异相关联的第二内容损失;
生成与所述第一风格化图像的风格特征和所述风格图像之间的差异相关联的第一风格损失和与所述第二风格化图像的风格特征和所述风格图像之间的差异相关联的第二风格损失;
产生与所述第一图像与所述第二图像之间的运动变化和所述第一风格化图像与所述第二风格化图像之间的运动变化之间的差值相关联的时间损失;以及
组合第一内容损失,第二内容损失,第一风格损失,第二风格损失和时间损失以生成损失函数。
根据结合本公开的第二方面的实施例,损耗网络模型包括第一损耗网络和第二损耗网络,并且应用损耗网络模型来生成损耗函数包括:
将所述第一丢失网络应用于所述第一图像和所述第一风格化图像以生成所述第一内容丢失,以及将所述第一丢失网络应用于所述第一风格化图像和所述风格化图像以生成所述第一风格丢失;以及
将第二丢失网络应用于第二图像和第二风格化图像以生成第二内容丢失,以及将第二丢失网络应用于第二风格化图像和风格图像以生成第二风格丢失。
在本公开的第三方面中,存储有程序指令的非临时性计算机可读介质,当由至少一个处理器执行该程序指令时,使该至少一个处理器执行包括以下步骤的步骤:
接收视频序列的第一图像和第二图像,其中第一图像和第二图像是连续的图像帧;
将与风格图像相关联的风格网络模型应用于第一图像和第二图像,以分别生成风格图像的风格中的第一风格化图像和第二风格化图像;
对所述第一图像,所述第二图像,所述第一风格化图像,所述第二风格化图像和所述风格图像应用损失网络模型以生成损失函数;
基于所生成的损耗函数为风格网络模型确定一组权重;以及
通过将具有所确定的一组权重的风格网络模型应用于视频帧来风格化视频帧。
根据结合本公开的第三方面的实施例,风格网络模型包括第一风格网络和第二风格网络,并且将风格网络模型应用于第一图像和第二图像包括:
将所述第一风格网络应用于所述第一图像,以生成具有所述风格图像风格的所述第一风格化图像;以及
将第二风格网络应用于第二图像以生成风格图像风格的第二风格化图像。
根据结合本公开的第三方面的实施例,通过最小化损失函数来确定风格网络模型的权重集。
根据结合本公开的第三方面的实施例,损失函数包括与第一图像的内容与第一风格化图像的内容匹配程度和第二图像的内容与第二风格化图像的内容匹配程度相关的内容损失,风格损失,涉及第一风格化图像与风格图像的风格匹配程度以及第二风格化图像与风格图像的风格匹配程度,以及与所述第一图像和所述第二图像之间的运动变化与所述第一风格化图像和所述第二风格化图像之间的运动变化匹配程度相关的时间损失。
根据结合本公开的第三方面的实施例,应用损耗网络模型来生成损耗函数包括:
生成与所述第一图像和所述第一风格化图像的空间特征之间的差异相关联的第一内容损失和与所述第二图像和所述第二风格化图像的空间特征之间的差异相关联的第二内容损失;
生成与所述第一风格化图像的风格特征和所述风格图像之间的差异相关联的第一风格损失和与所述第二风格化图像的风格特征和所述风格图像之间的差异相关联的第二风格损失;
产生与所述第一图像与所述第二图像之间的运动变化和所述第一风格化图像与所述第二风格化图像之间的运动变化之间的差值相关联的时间损失;以及
组合第一内容损失,第二内容损失,第一风格损失,第二风格损失和时间损失以生成损失函数。
根据结合本公开的第三方面的实施例,损耗网络模型包括第一损耗网络和第二损耗网络,并且应用损耗网络模型来生成损耗函数包括:
将所述第一丢失网络应用于所述第一图像和所述第一风格化图像以生成所述第一内容丢失,以及将所述第一丢失网络应用于所述第一风格化图像和所述风格化图像以生成所述第一风格丢失;以及
将第二丢失网络应用于第二图像和第二风格化图像以生成第二内容丢失,以及将第二丢失网络应用于第二风格化图像和风格图像以生成第二风格丢失。
在本公开中,考虑第一图像,第二图像,第一风格化图像,第二风格化图像和风格图像来构造损失函数,以提高视频风格转移的稳定性。不是盲目地强制连续帧完全相同,本公开通过考虑源连续帧和风格化连续帧的运动变化来指导神经网络的学习过程,这可以减轻风格化连续帧之间的闪烁伪影,从而在稳定视频风格转移方面提供更好的结果。本公开的其它优点包括更好的网络收敛性能(由于更好的时间损失)和在运行时间期间没有额外的计算负担。
本领域普通技术人员可以理解,在本公开的实施例中描述和公开的每个单元,模块,算法和步骤是使用电子硬件或用于计算机的软件和电子硬件的组合来实现的。这些功能是在硬件中运行还是在软件中运行取决于应用情况和技术方案的设计要求。本领域普通技术人员可以使用不同的方式来实现每个特定应用的功能,而这种实现不应超出本公开的范围。
本领域普通技术人员可以理解,由于上述系统,设备和模块的工作过程基本相同,因此他/ 她可以参考上述实施例中的系统,设备和模块的工作过程。为了便于描述和简化,将不详细说明这些工作过程。
可以理解,在本公开的实施例中公开的系统,设备和方法可以通过其它方式实现。上述实施例仅仅是示例性的。模块的划分仅基于逻辑函数,而其它划分存在于实现中。有可能在另一系统中组合或集成多个模块或部件。也可以省略或跳过一些特性。另一方面,所显示或讨论的相互耦合,直接耦合或通信耦合通过一些端口,设备或模块来操作,无论是间接地还是通过电气,机械或其它类型的形式来通信地操作。
作为用于说明的分离部件的模块被物理地分离或不被物理地分离。用于显示的模块是或不是物理模块,即位于一个地方或分布在多个网络模块上。根据实施例的目的使用一些或全部模块。
此外,每个实施例中的每个功能模块可以集成在一个处理模块中,物理上独立,或者集成在具有两个或两个以上模块的一个处理模块中。
如果该软件功能模块被实现并作为产品使用和销售,则它可以被存储在计算机中的可读存储介质中。基于这种理解,本公开提出的技术方案可以基本上或部分地实现为软件产品的形式。或者,有利于现有技术的技术方案的一部分可以以软件产品的形式实现。计算机中的软件产品被存储在存储介质中,该存储介质包括用于计算设备(诸如个人计算机,服务器或网络设备)运行由本公开的实施例公开的所有或一些步骤的多个命令。该存储介质包括USB盘,移动硬盘,只读存储器(ROM),随机存取存储器(RAM),软盘或能够存储程序代码的其它类型的介质。
虽然已经结合被认为是最实用和优选的实施例描述了本公开,应当理解,本公开不限于所公开的实施例,而是意欲覆盖在不偏离所附权利要求的最宽解释范围的情况下做出的各种配置。
Claims (10)
1.一种用于风格化视频帧的方法,包括:接收视频序列的第一图像和第二图像,其中第一图像和第二图像是连续的图像帧;将与风格图像相关联的风格网络模型应用于第一图像和第二图像,以分别生成风格图像的风格中的第一风格化图像和第二风格化图像;对所述第一图像,所述第二图像,所述第一风格化图像,所述第二风格化图像和所述风格图像应用损失网络模型以生成损失函数;基于所生成的损耗函数为风格网络模型确定一组权重;以及由至少一个处理器通过将具有所确定的一组权重的风格网络模型应用于视频帧来风格化视频帧。
2.如权利要求1所述的方法,其中风格网络模型包括第一风格网络和第二风格网络,并且将风格网络模型应用于第一图像和第二图像包括:将所述第一风格网络应用于所述第一图像,以生成具有所述风格图像风格的所述第一风格化图像;以及将第二风格网络应用于第二图像以生成风格图像风格的第二风格化图像。
3.如权利要求1所述的方法,其特征在于,通过最小化损失函数来确定风格网络模型的权重集。
4.如权利要求3所述的方法,其中损失函数包括与第一图像的内容与第一风格化图像的内容匹配程度和第二图像的内容与第二风格化图像的内容匹配程度相关的内容损失,风格损失,涉及第一风格化图像与风格图像的风格匹配程度以及第二风格化图像与风格图像的风格匹配程度,以及与所述第一图像和所述第二图像之间的运动变化与所述第一风格化图像和所述第二风格化图像之间的运动变化匹配程度相关的时间损失。
5.如权利要求4所述的方法,其特征在于,应用所述损耗网络模型来生成所述损耗函数包括:生成与所述第一图像和所述第一风格化图像的空间特征之间的差异相关联的第一内容损失和与所述第二图像和所述第二风格化图像的空间特征之间的差异相关联的第二内容损失;生成与所述第一风格化图像的风格特征和所述风格图像之间的差异相关联的第一风格损失和与所述第二风格化图像的风格特征和所述风格图像之间的差异相关联的第二风格损失;产生与所述第一图像与所述第二图像之间的运动变化和所述第一风格化图像与所述第二风格化图像之间的运动变化之间的差值相关联的时间损失;以及组合第一内容损失,第二内容损失,第一风格损失,第二风格损失和时间损失以生成损失函数。
6.如权利要求5所述的方法,其中第一风格损失是第一风格化图像和风格图像的克矩阵之间的差的平方Frobenius范数,第二风格损失是第二风格化图像和风格图像的克矩阵之间的差的平方Frobenius范数。
7.如权利要求5所述的方法,其中所述损耗网络模型包括第一损耗网络和第二损耗网络,并且应用所述损耗网络模型来生成所述损耗函数包括:将所述第一丢失网络应用于所述第一图像和所述第一风格化图像以生成所述第一内容丢失,以及将所述第一丢失网络应用于所述第一风格化图像和所述风格化图像以生成所述第一风格丢失;以及将第二丢失网络应用于第二图像和第二风格化图像以生成第二内容丢失,以及将第二丢失网络应用于第二风格化图像和风格图像以生成第二风格丢失。
8.如权利要求1所述的方法,其特征在于,所述风格网络模型和损耗网络模型是卷积神经网络模型。
9.一种自动生成风格化视频的风格迁移系统,包括:至少一个存储器,被配置为存储程序指令;至少一个处理器,被配置为执行所述程序指令,所述程序指令使所述至少一个处理器执行以下步骤:接收视频序列的第一图像和第二图像,其中第一图像和第二图像是连续的图像帧;将与风格图像相关联的风格网络模型应用于第一图像和第二图像,以分别生成风格图像的风格中的第一风格化图像和第二风格化图像;对所述第一图像,所述第二图像,所述第一风格化图像,所述第二风格化图像和所述风格图像应用损失网络模型以生成损失函数;基于所生成的损耗函数为风格网络模型确定一组权重;以及通过将具有所确定的一组权重的风格网络模型应用于视频帧来风格化视频帧。
10.如权利要求9所述的系统,其中风格网络模型包括第一风格网络和第二风格网络,并且将风格网络模型应用于第一映像和第二映像包括:将所述第一风格网络应用于所述第一图像,以生成具有所述风格图像风格的所述第一风格化图像;以及将第二风格网络应用于第二图像以生成风格图像风格的第二风格化图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111006662.6A CN113793253A (zh) | 2021-08-30 | 2021-08-30 | 自动生成风格化视频的风格迁移系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111006662.6A CN113793253A (zh) | 2021-08-30 | 2021-08-30 | 自动生成风格化视频的风格迁移系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113793253A true CN113793253A (zh) | 2021-12-14 |
Family
ID=78876587
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111006662.6A Withdrawn CN113793253A (zh) | 2021-08-30 | 2021-08-30 | 自动生成风格化视频的风格迁移系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113793253A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180300850A1 (en) * | 2017-04-14 | 2018-10-18 | Facebook, Inc. | Artifact reduction for image style transfer |
CN109859096A (zh) * | 2018-12-28 | 2019-06-07 | 北京达佳互联信息技术有限公司 | 图像风格迁移方法、装置、电子设备及存储介质 |
WO2020248767A1 (en) * | 2019-06-11 | 2020-12-17 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method, system, and computer-readable medium for stylizing video frames |
-
2021
- 2021-08-30 CN CN202111006662.6A patent/CN113793253A/zh not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180300850A1 (en) * | 2017-04-14 | 2018-10-18 | Facebook, Inc. | Artifact reduction for image style transfer |
CN109859096A (zh) * | 2018-12-28 | 2019-06-07 | 北京达佳互联信息技术有限公司 | 图像风格迁移方法、装置、电子设备及存储介质 |
WO2020248767A1 (en) * | 2019-06-11 | 2020-12-17 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method, system, and computer-readable medium for stylizing video frames |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111370020B (zh) | 一种将语音转换成唇形的方法、系统、装置和存储介质 | |
Ehrhardt et al. | RELATE: Physically plausible multi-object scene synthesis using structured latent spaces | |
Yue-Hei Ng et al. | Beyond short snippets: Deep networks for video classification | |
DE102019130702A1 (de) | Stilbasierte architektur für generative neuronale netzwerke | |
EP4198875A1 (en) | Image fusion method, and training method and apparatus for image fusion model | |
CN113906467A (zh) | 风格化视频帧的方法、系统、及计算机可读介质 | |
WO2020073758A1 (en) | Method and apparatus for training machine learning modle, apparatus for video style transfer | |
US10013804B2 (en) | Delivering virtualized content | |
US20190332419A1 (en) | Data processing architecture for improved data flow | |
Park et al. | Preserving semantic and temporal consistency for unpaired video-to-video translation | |
DE112016005776T5 (de) | Systeme und Verfahren zum Bereitstellen eines Bild-Klassifikators | |
RU2770748C1 (ru) | Способ и аппарат для обработки изображений, устройство и носитель данных | |
Cheng et al. | Towards pose-invariant lip-reading | |
US11568524B2 (en) | Tunable models for changing faces in images | |
KR102346756B1 (ko) | 발화 동영상 생성 방법 및 장치 | |
CN112750176A (zh) | 一种图像处理方法、装置、电子设备及存储介质 | |
CN110688897A (zh) | 一种基于联合判断与生成学习的行人重识别方法及装置 | |
CN111797855A (zh) | 图像处理、模型训练方法、装置、介质和设备 | |
CN114419204A (zh) | 一种视频生成方法、装置、设备和存储介质 | |
CN115393231A (zh) | 一种缺陷图像的生成方法、装置、电子设备和存储介质 | |
JP2023545052A (ja) | 画像処理モデルの訓練方法及び装置、画像処理方法及び装置、電子機器並びにコンピュータプログラム | |
CN113793253A (zh) | 自动生成风格化视频的风格迁移系统 | |
Li et al. | Gamma-enhanced spatial attention network for efficient high dynamic range imaging | |
CN113222841A (zh) | 一种图像处理方法、装置、设备及介质 | |
CN113538254A (zh) | 图像恢复方法、装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20211214 |
|
WW01 | Invention patent application withdrawn after publication |