CN113793253A - 自动生成风格化视频的风格迁移系统 - Google Patents

自动生成风格化视频的风格迁移系统 Download PDF

Info

Publication number
CN113793253A
CN113793253A CN202111006662.6A CN202111006662A CN113793253A CN 113793253 A CN113793253 A CN 113793253A CN 202111006662 A CN202111006662 A CN 202111006662A CN 113793253 A CN113793253 A CN 113793253A
Authority
CN
China
Prior art keywords
image
stylized
style
loss
stylistic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202111006662.6A
Other languages
English (en)
Inventor
易佳慧
艾志博
叶香莲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202111006662.6A priority Critical patent/CN113793253A/zh
Publication of CN113793253A publication Critical patent/CN113793253A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种自动生成风格化视频的风格迁移系统,涉及图像处理领域,包括:至少一个存储器,被配置为存储程序指令;至少一个处理器,被配置为执行所述程序指令,所述程序指令使所述至少一个处理器执行以下步骤:接收视频序列的第一图像和第二图像,其中第一图像和第二图像是连续的图像帧;将与风格图像相关联的风格网络模型应用于第一图像和第二图像,以分别生成风格图像的风格中的第一风格化图像和第二风格化图像,本公开通过考虑源连续帧和风格化连续帧的运动变化来指导神经网络的学习过程,这可以减轻风格化连续帧之间的闪烁伪影,从而在稳定视频风格转移方面提供更好的结果。

Description

自动生成风格化视频的风格迁移系统
技术领域
本公开涉及图像处理领域,更具体地,涉及一种用于风格化视频帧的方法以及自动生成风格化视频的风格迁移系统。
背景技术
可以使用风格转移技术以风格图像或参考图像的风格来重构图像或视频。例如,风格化的视频帧具有VincentVanGogh的“星空夜”风格。
视频风格转换将原始帧序列转换为另一风格化帧序列。与仅改变色调或色彩分布的传统滤光器相比,这可以为用户提供更令人印象深刻的效果。另外,可以创建风格过滤器的数量不受限制,这可以极大地丰富诸如智能手机之类的电子设备中的产品(诸如视频相册)。
视频风格转移中使用的技术可以被分类为基于图像的解决方案和基于视频的解决方案,如下所述。
1)基于图像的解决方案
图像风格转移方法的特征在于学习风格并将其应用于其它图像。简而言之,图像风格转移方法使用从白噪声的梯度下降来分别合成与源图像的内容和参考图像的风格相匹配的图像。可以使用前馈网络来减少计算时间并有效地进行图像风格转移。
大多数基于图像的视频风格转移方法基于图像风格转移方法,其中它们逐帧地将基于图像的风格转移应用于视频。然而,该方案不可避免地在视频风格化中带来时间上的不一致性,因此在连续风格化帧之间造成严重的闪烁伪影和运动对象的风格化不一致。
2)基于视频的解决方案
基于视频的解决方案试图直接在视频域上实现视频风格转移。例如,传统的方法是通过惩罚与输入视频的光流的偏离来获得稳定的视频。随着原始视频中元素的移动,风格特征保持从一帧到另一帧存在。然而,这种方法在计算上对于实时风格转移来说太重,每帧需要几分钟。
因此,需要解决该领域现有技术中存在的问题。
发明内容
本公开的目的是提出一种自动生成风格化视频的风格迁移系统。
在本公开的第一方面,一种用于风格化视频帧的方法,包括:
接收视频序列的第一图像和第二图像,其中第一图像和第二图像是连续的图像帧;
将与风格图像相关联的风格网络模型应用于第一图像和第二图像,以分别生成风格图像的风格中的第一风格化图像和第二风格化图像;
对所述第一图像,所述第二图像,所述第一风格化图像,所述第二风格化图像和所述风格图像应用损失网络模型以生成损失函数;
基于所生成的损耗函数为风格网络模型确定一组权重;以及
由至少一个处理器通过将具有所确定的一组权重的风格网络模型应用于视频帧来风格化视频帧。
根据结合本公开的第一方面的实施例,风格网络模型包括第一风格网络和第二风格网络,并且将风格网络模型应用于第一图像,第二图像包括:
将所述第一风格网络应用于所述第一图像,以生成具有所述风格图像风格的所述第一风格化图像;以及
将第二风格网络应用于第二图像以生成风格图像风格的第二风格化图像。
根据结合本公开的第一方面的实施例,通过最小化损失函数来确定风格网络模型的权重集。
根据结合本公开的第一方面的实施例,损失函数包括与第一图像的内容与第一风格化图像的内容匹配程度和第二图像的内容与第二风格化图像的内容匹配程度相关的内容损失,风格损失,涉及第一风格化图像与风格图像的风格匹配程度以及第二风格化图像与风格图像的风格匹配程度,以及与所述第一图像和所述第二图像之间的运动变化与所述第一风格化图像和所述第二风格化图像之间的运动变化匹配程度相关的时间损失。
根据结合本公开的第一方面的实施例,应用损耗网络模型来生成损耗函数包括:
生成与所述第一图像和所述第一风格化图像的空间特征之间的差异相关联的第一内容损失和与所述第二图像和所述第二风格化图像的空间特征之间的差异相关联的第二内容损失;
生成与所述第一风格化图像的风格特征和所述风格图像之间的差异相关联的第一风格损失和与所述第二风格化图像的风格特征和所述风格图像之间的差异相关联的第二风格损失;
产生与所述第一图像与所述第二图像之间的运动变化和所述第一风格化图像与所述第二风格化图像之间的运动变化之间的差值相关联的时间损失;以及
组合第一内容损失,第二内容损失,第一风格损失,第二风格损失和时间损失以生成损失函数。
根据结合本公开的第一方面的实施例,第一风格损失是第一风格化图像和风格图像的克矩阵之间的差的平方Frobenius范数,第二风格损失是第二风格化图像和风格图像的克矩阵之间的差的平方Frobenius范数。
根据结合本公开的第一方面的实施例,损耗网络模型包括第一损耗网络和第二损耗网络,并且应用损耗网络模型来生成损耗函数包括:
将所述第一丢失网络应用于所述第一图像和所述第一风格化图像以生成所述第一内容丢失,以及将所述第一丢失网络应用于所述第一风格化图像和所述风格化图像以生成所述第一风格丢失;以及
将第二丢失网络应用于第二图像和第二风格化图像以生成第二内容丢失,以及将第二丢失网络应用于第二风格化图像和风格图像以生成第二风格丢失。
根据结合本公开的第一方面的实施例,风格网络模型和损耗网络模型是卷积神经网络模型。在本公开的第二方面,一种自动生成风格化视频的风格迁移系统,包括:
至少一个存储器,被配置为存储程序指令;
至少一个处理器,被配置为执行所述程序指令,所述程序指令使所述至少一个处理器执行以下步骤:
接收视频序列的第一图像和第二图像,其中第一图像和第二图像是连续的图像帧;
将与风格图像相关联的风格网络模型应用于第一图像和第二图像,以分别生成风格图像的风格中的第一风格化图像和第二风格化图像;
对所述第一图像,所述第二图像,所述第一风格化图像,所述第二风格化图像和所述风格图像应用损失网络模型以生成损失函数;
基于所生成的损耗函数为风格网络模型确定一组权重;以及
通过将具有所确定的一组权重的风格网络模型应用于视频帧来风格化视频帧。
根据结合本公开的第二方面的实施例,风格网络模型包括第一风格网络和第二风格网络,并且将风格网络模型应用于第一图像,第二图像包括:
将所述第一风格网络应用于所述第一图像,以生成具有所述风格图像风格的所述第一风格化图像;以及
将第二风格网络应用于第二图像以生成风格图像风格的第二风格化图像。
根据结合本公开的第二方面的实施例,通过最小化损失函数来确定风格网络模型的权重集。
根据结合本公开的第二方面的实施例,损失函数包括与第一图像的内容与第一风格化图像的内容匹配程度和第二图像的内容与第二风格化图像的内容匹配程度相关的内容损失,风格损失,涉及第一风格化图像与风格图像的风格匹配程度以及第二风格化图像与风格图像的风格匹配程度,以及与所述第一图像和所述第二图像之间的运动变化与所述第一风格化图像和所述第二风格化图像之间的运动变化匹配程度相关的时间损失。根据结合本公开的第二方面的实施例,应用损耗网络模型来生成损耗函数包括:
生成与所述第一图像和所述第一风格化图像的空间特征之间的差异相关联的第一内容损失和与所述第二图像和所述第二风格化图像的空间特征之间的差异相关联的第二内容损失;
生成与所述第一风格化图像的风格特征和所述风格图像之间的差异相关联的第一风格损失和与所述第二风格化图像的风格特征和所述风格图像之间的差异相关联的第二风格损失;
产生与所述第一图像与所述第二图像之间的运动变化和所述第一风格化图像与所述第二风格化图像之间的运动变化之间的差值相关联的时间损失;以及
组合第一内容损失,第二内容损失,第一风格损失,第二风格损失和时间损失以生成损失函数。
根据结合本公开的第二方面的实施例,损耗网络模型包括第一损耗网络和第二损耗网络,并且应用损耗网络模型来生成损耗函数包括:
将所述第一丢失网络应用于所述第一图像和所述第一风格化图像以生成所述第一内容丢失,以及将所述第一丢失网络应用于所述第一风格化图像和所述风格化图像以生成所述第一风格丢失;以及
将第二丢失网络应用于第二图像和第二风格化图像以生成第二内容丢失,以及将第二丢失网络应用于第二风格化图像和风格图像以生成第二风格丢失。
在本公开的第三方面中,存储有程序指令的非临时性计算机可读介质,当由至少一个处理器执行该程序指令时,使该至少一个处理器执行包括以下步骤的步骤:
接收视频序列的第一图像和第二图像,其中第一图像和第二图像是连续的图像帧;
将与风格图像相关联的风格网络模型应用于第一图像和第二图像,以分别生成风格图像的风格中的第一风格化图像和第二风格化图像;
对所述第一图像,所述第二图像,所述第一风格化图像,所述第二风格化图像和所述风格图像应用损失网络模型以生成损失函数;
基于所生成的损耗函数为风格网络模型确定一组权重;以及
通过将具有所确定的一组权重的风格网络模型应用于视频帧来风格化视频帧。
根据结合本公开的第三方面的实施例,风格网络模型包括第一风格网络和第二风格网络,并且将风格网络模型应用于第一图像和第二图像包括:
将所述第一风格网络应用于所述第一图像,以生成具有所述风格图像风格的所述第一风格化图像;以及
将第二风格网络应用于第二图像以生成风格图像风格的第二风格化图像。
根据结合本公开的第三方面的实施例,通过最小化损失函数来确定风格网络模型的权重集。
根据结合本公开的第三方面的实施例,损失函数包括与第一图像的内容与第一风格化图像的内容匹配程度和第二图像的内容与第二风格化图像的内容匹配程度相关的内容损失,风格损失,涉及第一风格化图像与风格图像的风格匹配程度以及第二风格化图像与风格图像的风格匹配程度,以及与所述第一图像和所述第二图像之间的运动变化与所述第一风格化图像和所述第二风格化图像之间的运动变化匹配程度相关的时间损失。
根据结合本公开的第三方面的实施例,应用损耗网络模型来生成损耗函数包括:
生成与所述第一图像和所述第一风格化图像的空间特征之间的差异相关联的第一内容损失和与所述第二图像和所述第二风格化图像的空间特征之间的差异相关联的第二内容损失;
生成与所述第一风格化图像的风格特征和所述风格图像之间的差异相关联的第一风格损失和与所述第二风格化图像的风格特征和所述风格图像之间的差异相关联的第二风格损失;
产生与所述第一图像与所述第二图像之间的运动变化和所述第一风格化图像与所述第二风格化图像之间的运动变化之间的差值相关联的时间损失;以及
组合第一内容损失,第二内容损失,第一风格损失,第二风格损失和时间损失以生成损失函数。
根据结合本公开的第三方面的实施例,损耗网络模型包括第一损耗网络和第二损耗网络,并且应用损耗网络模型来生成损耗函数包括:
将所述第一丢失网络应用于所述第一图像和所述第一风格化图像以生成所述第一内容丢失,以及将所述第一丢失网络应用于所述第一风格化图像和所述风格化图像以生成所述第一风格丢失;以及
将第二丢失网络应用于第二图像和第二风格化图像以生成第二内容丢失,以及将第二丢失网络应用于第二风格化图像和风格图像以生成第二风格丢失。
在本公开中,考虑第一图像,第二图像,第一风格化图像,第二风格化图像和风格图像来构造损失函数,以提高视频风格转移的稳定性。不是盲目地强制连续帧完全相同,本公开通过考虑源连续帧和风格化连续帧的运动变化来指导神经网络的学习过程,这可以减轻风格化连续帧之间的闪烁伪影,从而在稳定视频风格转移方面提供更好的结果。本公开的其它优点包括更好的网络收敛性能(由于更好的时间损失)和在运行时间期间没有额外的计算负担。
具体实施方式
下面详细描述本公开的实施例,其中的技术问题,结构特征,实现的目的和效果如下。具体地,本公开的实施例中的术语仅用于描述特定实施例的目的,而不是限制本发明。在视频风格转移中,本公开引入时间稳定性机制,其考虑源连续帧和风格化连续帧的运动变化,即源和风格化的运动变化是同步的。这在稳定视频风格转移方面产生了更好的结果。与在运行时间期间引入大的计算负担的一些传统风格转移方法不同,本公开允许视频的实时的无皱褶风格转移。
在本公开的第一方面,一种用于风格化视频帧的方法,包括:
接收视频序列的第一图像和第二图像,其中第一图像和第二图像是连续的图像帧;
将与风格图像相关联的风格网络模型应用于第一图像和第二图像,以分别生成风格图像的风格中的第一风格化图像和第二风格化图像;
对所述第一图像,所述第二图像,所述第一风格化图像,所述第二风格化图像和所述风格图像应用损失网络模型以生成损失函数;
基于所生成的损耗函数为风格网络模型确定一组权重;以及
由至少一个处理器通过将具有所确定的一组权重的风格网络模型应用于视频帧来风格化视频帧。
根据结合本公开的第一方面的实施例,风格网络模型包括第一风格网络和第二风格网络,并且将风格网络模型应用于第一图像,第二图像包括:
将所述第一风格网络应用于所述第一图像,以生成具有所述风格图像风格的所述第一风格化图像;以及
将第二风格网络应用于第二图像以生成风格图像风格的第二风格化图像。
根据结合本公开的第一方面的实施例,通过最小化损失函数来确定风格网络模型的权重集。
根据结合本公开的第一方面的实施例,损失函数包括与第一图像的内容与第一风格化图像的内容匹配程度和第二图像的内容与第二风格化图像的内容匹配程度相关的内容损失,风格损失,涉及第一风格化图像与风格图像的风格匹配程度以及第二风格化图像与风格图像的风格匹配程度,以及与所述第一图像和所述第二图像之间的运动变化与所述第一风格化图像和所述第二风格化图像之间的运动变化匹配程度相关的时间损失。
根据结合本公开的第一方面的实施例,应用损耗网络模型来生成损耗函数包括:
生成与所述第一图像和所述第一风格化图像的空间特征之间的差异相关联的第一内容损失和与所述第二图像和所述第二风格化图像的空间特征之间的差异相关联的第二内容损失;
生成与所述第一风格化图像的风格特征和所述风格图像之间的差异相关联的第一风格损失和与所述第二风格化图像的风格特征和所述风格图像之间的差异相关联的第二风格损失;
产生与所述第一图像与所述第二图像之间的运动变化和所述第一风格化图像与所述第二风格化图像之间的运动变化之间的差值相关联的时间损失;以及
组合第一内容损失,第二内容损失,第一风格损失,第二风格损失和时间损失以生成损失函数。
根据结合本公开的第一方面的实施例,第一风格损失是第一风格化图像和风格图像的克矩阵之间的差的平方Frobenius范数,第二风格损失是第二风格化图像和风格图像的克矩阵之间的差的平方Frobenius范数。
根据结合本公开的第一方面的实施例,损耗网络模型包括第一损耗网络和第二损耗网络,并且应用损耗网络模型来生成损耗函数包括:
将所述第一丢失网络应用于所述第一图像和所述第一风格化图像以生成所述第一内容丢失,以及将所述第一丢失网络应用于所述第一风格化图像和所述风格化图像以生成所述第一风格丢失;以及
将第二丢失网络应用于第二图像和第二风格化图像以生成第二内容丢失,以及将第二丢失网络应用于第二风格化图像和风格图像以生成第二风格丢失。
根据结合本公开的第一方面的实施例,风格网络模型和损耗网络模型是卷积神经网络模型。在本公开的第二方面,一种自动生成风格化视频的风格迁移系统,包括:
至少一个存储器,被配置为存储程序指令;
至少一个处理器,被配置为执行所述程序指令,所述程序指令使所述至少一个处理器执行以下步骤:
接收视频序列的第一图像和第二图像,其中第一图像和第二图像是连续的图像帧;
将与风格图像相关联的风格网络模型应用于第一图像和第二图像,以分别生成风格图像的风格中的第一风格化图像和第二风格化图像;
对所述第一图像,所述第二图像,所述第一风格化图像,所述第二风格化图像和所述风格图像应用损失网络模型以生成损失函数;
基于所生成的损耗函数为风格网络模型确定一组权重;以及
通过将具有所确定的一组权重的风格网络模型应用于视频帧来风格化视频帧。
根据结合本公开的第二方面的实施例,风格网络模型包括第一风格网络和第二风格网络,并且将风格网络模型应用于第一图像,第二图像包括:
将所述第一风格网络应用于所述第一图像,以生成具有所述风格图像风格的所述第一风格化图像;以及
将第二风格网络应用于第二图像以生成风格图像风格的第二风格化图像。
根据结合本公开的第二方面的实施例,通过最小化损失函数来确定风格网络模型的权重集。
根据结合本公开的第二方面的实施例,损失函数包括与第一图像的内容与第一风格化图像的内容匹配程度和第二图像的内容与第二风格化图像的内容匹配程度相关的内容损失,风格损失,涉及第一风格化图像与风格图像的风格匹配程度以及第二风格化图像与风格图像的风格匹配程度,以及与所述第一图像和所述第二图像之间的运动变化与所述第一风格化图像和所述第二风格化图像之间的运动变化匹配程度相关的时间损失。根据结合本公开的第二方面的实施例,应用损耗网络模型来生成损耗函数包括:
生成与所述第一图像和所述第一风格化图像的空间特征之间的差异相关联的第一内容损失和与所述第二图像和所述第二风格化图像的空间特征之间的差异相关联的第二内容损失;
生成与所述第一风格化图像的风格特征和所述风格图像之间的差异相关联的第一风格损失和与所述第二风格化图像的风格特征和所述风格图像之间的差异相关联的第二风格损失;
产生与所述第一图像与所述第二图像之间的运动变化和所述第一风格化图像与所述第二风格化图像之间的运动变化之间的差值相关联的时间损失;以及
组合第一内容损失,第二内容损失,第一风格损失,第二风格损失和时间损失以生成损失函数。
根据结合本公开的第二方面的实施例,损耗网络模型包括第一损耗网络和第二损耗网络,并且应用损耗网络模型来生成损耗函数包括:
将所述第一丢失网络应用于所述第一图像和所述第一风格化图像以生成所述第一内容丢失,以及将所述第一丢失网络应用于所述第一风格化图像和所述风格化图像以生成所述第一风格丢失;以及
将第二丢失网络应用于第二图像和第二风格化图像以生成第二内容丢失,以及将第二丢失网络应用于第二风格化图像和风格图像以生成第二风格丢失。
在本公开的第三方面中,存储有程序指令的非临时性计算机可读介质,当由至少一个处理器执行该程序指令时,使该至少一个处理器执行包括以下步骤的步骤:
接收视频序列的第一图像和第二图像,其中第一图像和第二图像是连续的图像帧;
将与风格图像相关联的风格网络模型应用于第一图像和第二图像,以分别生成风格图像的风格中的第一风格化图像和第二风格化图像;
对所述第一图像,所述第二图像,所述第一风格化图像,所述第二风格化图像和所述风格图像应用损失网络模型以生成损失函数;
基于所生成的损耗函数为风格网络模型确定一组权重;以及
通过将具有所确定的一组权重的风格网络模型应用于视频帧来风格化视频帧。
根据结合本公开的第三方面的实施例,风格网络模型包括第一风格网络和第二风格网络,并且将风格网络模型应用于第一图像和第二图像包括:
将所述第一风格网络应用于所述第一图像,以生成具有所述风格图像风格的所述第一风格化图像;以及
将第二风格网络应用于第二图像以生成风格图像风格的第二风格化图像。
根据结合本公开的第三方面的实施例,通过最小化损失函数来确定风格网络模型的权重集。
根据结合本公开的第三方面的实施例,损失函数包括与第一图像的内容与第一风格化图像的内容匹配程度和第二图像的内容与第二风格化图像的内容匹配程度相关的内容损失,风格损失,涉及第一风格化图像与风格图像的风格匹配程度以及第二风格化图像与风格图像的风格匹配程度,以及与所述第一图像和所述第二图像之间的运动变化与所述第一风格化图像和所述第二风格化图像之间的运动变化匹配程度相关的时间损失。
根据结合本公开的第三方面的实施例,应用损耗网络模型来生成损耗函数包括:
生成与所述第一图像和所述第一风格化图像的空间特征之间的差异相关联的第一内容损失和与所述第二图像和所述第二风格化图像的空间特征之间的差异相关联的第二内容损失;
生成与所述第一风格化图像的风格特征和所述风格图像之间的差异相关联的第一风格损失和与所述第二风格化图像的风格特征和所述风格图像之间的差异相关联的第二风格损失;
产生与所述第一图像与所述第二图像之间的运动变化和所述第一风格化图像与所述第二风格化图像之间的运动变化之间的差值相关联的时间损失;以及
组合第一内容损失,第二内容损失,第一风格损失,第二风格损失和时间损失以生成损失函数。
根据结合本公开的第三方面的实施例,损耗网络模型包括第一损耗网络和第二损耗网络,并且应用损耗网络模型来生成损耗函数包括:
将所述第一丢失网络应用于所述第一图像和所述第一风格化图像以生成所述第一内容丢失,以及将所述第一丢失网络应用于所述第一风格化图像和所述风格化图像以生成所述第一风格丢失;以及
将第二丢失网络应用于第二图像和第二风格化图像以生成第二内容丢失,以及将第二丢失网络应用于第二风格化图像和风格图像以生成第二风格丢失。
在本公开中,考虑第一图像,第二图像,第一风格化图像,第二风格化图像和风格图像来构造损失函数,以提高视频风格转移的稳定性。不是盲目地强制连续帧完全相同,本公开通过考虑源连续帧和风格化连续帧的运动变化来指导神经网络的学习过程,这可以减轻风格化连续帧之间的闪烁伪影,从而在稳定视频风格转移方面提供更好的结果。本公开的其它优点包括更好的网络收敛性能(由于更好的时间损失)和在运行时间期间没有额外的计算负担。
本领域普通技术人员可以理解,在本公开的实施例中描述和公开的每个单元,模块,算法和步骤是使用电子硬件或用于计算机的软件和电子硬件的组合来实现的。这些功能是在硬件中运行还是在软件中运行取决于应用情况和技术方案的设计要求。本领域普通技术人员可以使用不同的方式来实现每个特定应用的功能,而这种实现不应超出本公开的范围。
本领域普通技术人员可以理解,由于上述系统,设备和模块的工作过程基本相同,因此他/ 她可以参考上述实施例中的系统,设备和模块的工作过程。为了便于描述和简化,将不详细说明这些工作过程。
可以理解,在本公开的实施例中公开的系统,设备和方法可以通过其它方式实现。上述实施例仅仅是示例性的。模块的划分仅基于逻辑函数,而其它划分存在于实现中。有可能在另一系统中组合或集成多个模块或部件。也可以省略或跳过一些特性。另一方面,所显示或讨论的相互耦合,直接耦合或通信耦合通过一些端口,设备或模块来操作,无论是间接地还是通过电气,机械或其它类型的形式来通信地操作。
作为用于说明的分离部件的模块被物理地分离或不被物理地分离。用于显示的模块是或不是物理模块,即位于一个地方或分布在多个网络模块上。根据实施例的目的使用一些或全部模块。
此外,每个实施例中的每个功能模块可以集成在一个处理模块中,物理上独立,或者集成在具有两个或两个以上模块的一个处理模块中。
如果该软件功能模块被实现并作为产品使用和销售,则它可以被存储在计算机中的可读存储介质中。基于这种理解,本公开提出的技术方案可以基本上或部分地实现为软件产品的形式。或者,有利于现有技术的技术方案的一部分可以以软件产品的形式实现。计算机中的软件产品被存储在存储介质中,该存储介质包括用于计算设备(诸如个人计算机,服务器或网络设备)运行由本公开的实施例公开的所有或一些步骤的多个命令。该存储介质包括USB盘,移动硬盘,只读存储器(ROM),随机存取存储器(RAM),软盘或能够存储程序代码的其它类型的介质。
虽然已经结合被认为是最实用和优选的实施例描述了本公开,应当理解,本公开不限于所公开的实施例,而是意欲覆盖在不偏离所附权利要求的最宽解释范围的情况下做出的各种配置。

Claims (10)

1.一种用于风格化视频帧的方法,包括:接收视频序列的第一图像和第二图像,其中第一图像和第二图像是连续的图像帧;将与风格图像相关联的风格网络模型应用于第一图像和第二图像,以分别生成风格图像的风格中的第一风格化图像和第二风格化图像;对所述第一图像,所述第二图像,所述第一风格化图像,所述第二风格化图像和所述风格图像应用损失网络模型以生成损失函数;基于所生成的损耗函数为风格网络模型确定一组权重;以及由至少一个处理器通过将具有所确定的一组权重的风格网络模型应用于视频帧来风格化视频帧。
2.如权利要求1所述的方法,其中风格网络模型包括第一风格网络和第二风格网络,并且将风格网络模型应用于第一图像和第二图像包括:将所述第一风格网络应用于所述第一图像,以生成具有所述风格图像风格的所述第一风格化图像;以及将第二风格网络应用于第二图像以生成风格图像风格的第二风格化图像。
3.如权利要求1所述的方法,其特征在于,通过最小化损失函数来确定风格网络模型的权重集。
4.如权利要求3所述的方法,其中损失函数包括与第一图像的内容与第一风格化图像的内容匹配程度和第二图像的内容与第二风格化图像的内容匹配程度相关的内容损失,风格损失,涉及第一风格化图像与风格图像的风格匹配程度以及第二风格化图像与风格图像的风格匹配程度,以及与所述第一图像和所述第二图像之间的运动变化与所述第一风格化图像和所述第二风格化图像之间的运动变化匹配程度相关的时间损失。
5.如权利要求4所述的方法,其特征在于,应用所述损耗网络模型来生成所述损耗函数包括:生成与所述第一图像和所述第一风格化图像的空间特征之间的差异相关联的第一内容损失和与所述第二图像和所述第二风格化图像的空间特征之间的差异相关联的第二内容损失;生成与所述第一风格化图像的风格特征和所述风格图像之间的差异相关联的第一风格损失和与所述第二风格化图像的风格特征和所述风格图像之间的差异相关联的第二风格损失;产生与所述第一图像与所述第二图像之间的运动变化和所述第一风格化图像与所述第二风格化图像之间的运动变化之间的差值相关联的时间损失;以及组合第一内容损失,第二内容损失,第一风格损失,第二风格损失和时间损失以生成损失函数。
6.如权利要求5所述的方法,其中第一风格损失是第一风格化图像和风格图像的克矩阵之间的差的平方Frobenius范数,第二风格损失是第二风格化图像和风格图像的克矩阵之间的差的平方Frobenius范数。
7.如权利要求5所述的方法,其中所述损耗网络模型包括第一损耗网络和第二损耗网络,并且应用所述损耗网络模型来生成所述损耗函数包括:将所述第一丢失网络应用于所述第一图像和所述第一风格化图像以生成所述第一内容丢失,以及将所述第一丢失网络应用于所述第一风格化图像和所述风格化图像以生成所述第一风格丢失;以及将第二丢失网络应用于第二图像和第二风格化图像以生成第二内容丢失,以及将第二丢失网络应用于第二风格化图像和风格图像以生成第二风格丢失。
8.如权利要求1所述的方法,其特征在于,所述风格网络模型和损耗网络模型是卷积神经网络模型。
9.一种自动生成风格化视频的风格迁移系统,包括:至少一个存储器,被配置为存储程序指令;至少一个处理器,被配置为执行所述程序指令,所述程序指令使所述至少一个处理器执行以下步骤:接收视频序列的第一图像和第二图像,其中第一图像和第二图像是连续的图像帧;将与风格图像相关联的风格网络模型应用于第一图像和第二图像,以分别生成风格图像的风格中的第一风格化图像和第二风格化图像;对所述第一图像,所述第二图像,所述第一风格化图像,所述第二风格化图像和所述风格图像应用损失网络模型以生成损失函数;基于所生成的损耗函数为风格网络模型确定一组权重;以及通过将具有所确定的一组权重的风格网络模型应用于视频帧来风格化视频帧。
10.如权利要求9所述的系统,其中风格网络模型包括第一风格网络和第二风格网络,并且将风格网络模型应用于第一映像和第二映像包括:将所述第一风格网络应用于所述第一图像,以生成具有所述风格图像风格的所述第一风格化图像;以及将第二风格网络应用于第二图像以生成风格图像风格的第二风格化图像。
CN202111006662.6A 2021-08-30 2021-08-30 自动生成风格化视频的风格迁移系统 Withdrawn CN113793253A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111006662.6A CN113793253A (zh) 2021-08-30 2021-08-30 自动生成风格化视频的风格迁移系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111006662.6A CN113793253A (zh) 2021-08-30 2021-08-30 自动生成风格化视频的风格迁移系统

Publications (1)

Publication Number Publication Date
CN113793253A true CN113793253A (zh) 2021-12-14

Family

ID=78876587

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111006662.6A Withdrawn CN113793253A (zh) 2021-08-30 2021-08-30 自动生成风格化视频的风格迁移系统

Country Status (1)

Country Link
CN (1) CN113793253A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180300850A1 (en) * 2017-04-14 2018-10-18 Facebook, Inc. Artifact reduction for image style transfer
CN109859096A (zh) * 2018-12-28 2019-06-07 北京达佳互联信息技术有限公司 图像风格迁移方法、装置、电子设备及存储介质
WO2020248767A1 (en) * 2019-06-11 2020-12-17 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method, system, and computer-readable medium for stylizing video frames

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180300850A1 (en) * 2017-04-14 2018-10-18 Facebook, Inc. Artifact reduction for image style transfer
CN109859096A (zh) * 2018-12-28 2019-06-07 北京达佳互联信息技术有限公司 图像风格迁移方法、装置、电子设备及存储介质
WO2020248767A1 (en) * 2019-06-11 2020-12-17 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method, system, and computer-readable medium for stylizing video frames

Similar Documents

Publication Publication Date Title
CN111370020B (zh) 一种将语音转换成唇形的方法、系统、装置和存储介质
Ehrhardt et al. RELATE: Physically plausible multi-object scene synthesis using structured latent spaces
Yue-Hei Ng et al. Beyond short snippets: Deep networks for video classification
DE102019130702A1 (de) Stilbasierte architektur für generative neuronale netzwerke
EP4198875A1 (en) Image fusion method, and training method and apparatus for image fusion model
CN113906467A (zh) 风格化视频帧的方法、系统、及计算机可读介质
WO2020073758A1 (en) Method and apparatus for training machine learning modle, apparatus for video style transfer
US10013804B2 (en) Delivering virtualized content
US20190332419A1 (en) Data processing architecture for improved data flow
Park et al. Preserving semantic and temporal consistency for unpaired video-to-video translation
DE112016005776T5 (de) Systeme und Verfahren zum Bereitstellen eines Bild-Klassifikators
RU2770748C1 (ru) Способ и аппарат для обработки изображений, устройство и носитель данных
Cheng et al. Towards pose-invariant lip-reading
US11568524B2 (en) Tunable models for changing faces in images
KR102346756B1 (ko) 발화 동영상 생성 방법 및 장치
CN112750176A (zh) 一种图像处理方法、装置、电子设备及存储介质
CN110688897A (zh) 一种基于联合判断与生成学习的行人重识别方法及装置
CN111797855A (zh) 图像处理、模型训练方法、装置、介质和设备
CN114419204A (zh) 一种视频生成方法、装置、设备和存储介质
CN115393231A (zh) 一种缺陷图像的生成方法、装置、电子设备和存储介质
JP2023545052A (ja) 画像処理モデルの訓練方法及び装置、画像処理方法及び装置、電子機器並びにコンピュータプログラム
CN113793253A (zh) 自动生成风格化视频的风格迁移系统
Li et al. Gamma-enhanced spatial attention network for efficient high dynamic range imaging
CN113222841A (zh) 一种图像处理方法、装置、设备及介质
CN113538254A (zh) 图像恢复方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20211214

WW01 Invention patent application withdrawn after publication