CN114049384A - 图像生成视频的方法、装置及电子设备 - Google Patents
图像生成视频的方法、装置及电子设备 Download PDFInfo
- Publication number
- CN114049384A CN114049384A CN202111318900.7A CN202111318900A CN114049384A CN 114049384 A CN114049384 A CN 114049384A CN 202111318900 A CN202111318900 A CN 202111318900A CN 114049384 A CN114049384 A CN 114049384A
- Authority
- CN
- China
- Prior art keywords
- image
- flow
- processing model
- image processing
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000003062 neural network model Methods 0.000 claims abstract description 11
- 238000005111 flow chemistry technique Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 49
- 230000009466 transformation Effects 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 7
- 230000000694 effects Effects 0.000 description 25
- 230000008569 process Effects 0.000 description 10
- 239000013598 vector Substances 0.000 description 8
- 230000008859 change Effects 0.000 description 5
- 238000002372 labelling Methods 0.000 description 5
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 230000009969 flowable effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000689 upper leg Anatomy 0.000 description 1
- 230000037303 wrinkles Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Processing (AREA)
Abstract
本公开涉及一种图像生成视频的方法、装置及电子设备,涉及图像处理技术领域。包括:获取第一图像;将第一图像输入至目标图像处理模型,获取目标图像处理模型输出的针对第一图像的第一流动参数,基于第一流动参数对第一图像进行流动处理,以生成多帧第二图像,组合多帧第二图像得到视频;其中,第一流动参数包括:至少一个区域、每个区域的流动方向,目标图像处理模型为神经网络模型。
Description
技术领域
本公开涉及图像处理技术领域,尤其涉及一种图像生成视频的方法、装置及电子设备。
背景技术
目前,一些图像中会存在头发、衣服等对象,这些对象在实际场景中是处于流动状态的,在需要呈现这些对象的流动效果时,亟需一种生成具有流动效果的视频的方法。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种图像生成视频的方法、装置及电子设备。可以通过静态图像生成具有流动效果的视频。
为了实现上述目的,本公开实施例提供的技术方案如下:
第一方面,提供一种图像生成视频的方法,包括:
获取第一图像;
将第一图像输入至目标图像处理模型,获取目标图像处理模型输出的针对第一图像的第一流动参数;其中,第一流动参数包括:至少一个区域、每个区域的流动方向,目标图像处理模型为神经网络模型;
基于第一流动参数对第一图像进行处理,以生成多帧第二图像,组合多帧第二图像得到视频。
作为本公开实施例一种可选的实施方式,处理参数还包括:每个区域的流动速度。
作为本公开实施例一种可选的实施方式,所述目标图像处理模型为基于样本信息训练得到的神经网络模型,所述样本信息包括:多个样本图像,以及每个样本图像的标准流动参数;
将第一图像输入至目标图像处理模型,获取目标图像处理模型输出的针对第一图像的第一流动参数之前,还包括:
获取样本信息;
循环执行以下步骤至少一次,以得到目标图像处理模型:
从多个样本图像中获取目标样本图像,将目标样本图像输入至初始图像处理模型;
获取初始图像处理模型输出的目标样本图像的第二流动参数;
根据第二流动参数与标准流动参数,确定目标损失函数;
基于目标损失函数,修正初始图像处理模型。
作为本公开实施例一种可选的实施方式,目标损失函数包括以下至少一项:
交叉熵损失函数、全变分损失函数、dice损失函数、focal损失函数、L1正则损失函数。
作为本公开实施例一种可选的实施方式,获取样本信息,包括:
获取原始图像;
针对原始图像进行几何变换,和/或,颜色变换,以得到至少一个变换图像;
将原始图像和至少一个变换图像作为样本信息中的样本图像。
作为本公开实施例一种可选的实施方式,几何变换包括:翻转,旋转,裁剪,变形,缩放中的至少一种;
作为本公开实施例一种可选的实施方式,颜色变换包括:添加噪声、颜色扰动中的至少一种。
作为本公开实施例一种可选的实施方式,将第一图像输入至目标图像处理模型,包括:
对第一图像进行下采样操作,得到下采样后的第一图像;
将下采样后的第一图像输入至目标图像处理模型。
作为本公开实施例一种可选的实施方式,每个区域中边缘区域的流动速度小于中心区域的流动速度。
作为本公开实施例一种可选的实施方式,目标图像处理模型中包括:多次下采样操作,和/或,多次卷积操作,
针对相邻下采样操作,和/或,相邻卷积操作的操作相关参数不同;
其中,操作相关参数包括以下至少一项:
核大小、膨胀系数、步长。
作为本公开实施例一种可选的实施方式,目标图像处理模型为基于高分辨率网络模型的语义分割模型。
第二方面,提供一种图像生成视频的装置,包括:
获取模块,用于获取第一图像;将第一图像输入至目标图像处理模型,获取目标图像处理模型输出的针对第一图像的第一流动参数;其中,第一流动参数包括:至少一个区域、每个区域的流动方向,目标图像处理模型为神经网络模型;
生成模块,用于基于第一流动参数对第一图像进行流动处理,以生成多帧第二图像,组合多帧第二图像得到视频。
作为本公开实施例一种可选的实施方式,处理参数还包括:每个区域的流动速度。
作为本公开实施例一种可选的实施方式,所述目标图像处理模型为基于样本信息训练得到的神经网络模型,所述样本信息包括:多个样本图像,以及每个样本图像的标准流动参数;
获取模块,还用于:将第一图像输入至目标图像处理模型,获取目标图像处理模型输出的针对第一图像的第一流动参数之前,获取样本信息;
循环执行以下步骤至少一次,以得到目标图像处理模型:
从多个样本图像中获取目标样本图像,将目标样本图像输入至初始图像处理模型;
获取初始图像处理模型输出的目标样本图像的第二流动参数;
根据第二流动参数与标准流动参数,确定目标损失函数;
基于目标损失函数,修正初始图像处理模型。
作为本公开实施例一种可选的实施方式,目标损失函数包括以下至少一项:
交叉熵损失函数、全变分损失函数、dice损失函数、focal损失函数、L1正则损失函数。
作为本公开实施例一种可选的实施方式,获取模块,具体用于:
获取原始图像;
针对原始图像进行几何变换,和/或,颜色变换,以得到至少一个变换图像;
将原始图像和至少一个变换图像作为样本信息中的样本图像。
作为本公开实施例一种可选的实施方式,几何变换包括:翻转,旋转,裁剪,变形,缩放中的至少一种;
作为本公开实施例一种可选的实施方式,颜色变换包括:添加噪声、颜色扰动中的至少一种。
作为本公开实施例一种可选的实施方式,获取模块,具体用于:
对第一图像进行下采样操作,得到下采样后的第一图像;
将下采样后的第一图像输入至目标图像处理模型。
作为本公开实施例一种可选的实施方式,每个区域中边缘区域的流动速度小于中心区域的流动速度。
作为本公开实施例一种可选的实施方式,目标图像处理模型中包括:多次下采样操作,和/或,多次卷积操作,
针对相邻下采样操作,和/或,相邻卷积操作的操作相关参数不同;
其中,操作相关参数包括以下至少一项:
核大小、膨胀系数、步长。
作为本公开实施例一种可选的实施方式,目标图像处理模型为基于高分辨率网络模型的语义分割模型。
第三方面,提供一种电子设备,包括:处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理器执行时实现如第一方面或其可选的实施方式中的任一项的图像生成视频的方法。
第四方面,提供一种计算机可读存储介质,包括:计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现如第一方面或其可选的实施方式中的任一项的图像生成视频的方法。
第五方面,提供一种计算机程序产品,包括:当计算机程序产品在计算机上运行时,使得计算机实现如第一方面或其可选的实施方式中的任一项的图像生成视频的方法。
本公开实施例提供的技术方案与现有技术相比具有如下优点:可以获取第一图像;将第一图像输入至目标图像处理模型,获取目标图像处理模型输出的针对第一图像的第一流动参数;其中,第一流动参数包括:至少一个区域、每个区域的流动方向,目标图像处理模型为基于样本信息训练得到的神经网络模型,样本信息包括:多个样本图像,以及每个样本图像的标准流动参数;基于第一流动参数对第一图像进行流动处理,以生成多帧第二图像,组合多帧第二图像得到视频。通过该方案,由于可以基于目标图像处理模型,生成对应于第一图像的流动参数(区域、流动方向),这样就可以基于生成的流动参数和第一图像,去进一步生成具有流动效果的视频,从而可以实现通过静态图像生成具有流动效果的视频。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的一种图像生成视频的方法的流程示意图一;
图2为本公开实施例提供的一种图像生成视频的方法的流程示意图二;
图3为本公开实施例提供的一种图像生成视频的装置的结构框图;
图4为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
本发明的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述对象的特定顺序。例如,第一图像和第二图像等是用于区别不同的图像,而不是用于描述图像的特定顺序。
一些图像中会存在头发、衣服等对象,在需要呈现这些对象的动态效果时,需要针对静态图像中的头发、衣服等对象实现流动效果的视频,因此亟需一种通过静态图像生成具有流动效果的视频的方法。
在一些实施例中,可以实现让图像中一部分区域流动起来的显示特效,具体实现过程中,需要用户人工选定图像中的区域、并设置流动方向等信息之后再生成视频。在通过图像生成流动效果视频过程中,由于需要人工选定区域、并针对这些区域设置流动方向,因此通过图像生成流动效果视频过程的实现复杂度高。
本公开实施例提供了一种图像生成视频的方法,该方法由于可以基于目标图像处理模型,生成对应于第一图像的流动参数(区域、流动方向),这样就可以基于生成的流动参数和第一图像,去进一步生成具有流动效果的视频,相比于人工选定区域、并设置流动方向去生成流动效果的视频,可以降低通过图像生成流动效果视频过程的实现复杂度。
上述图像生成视频的方法,可以应用于图像生成视频的装置或电子设备,该图像生成视频的装置可以为电子设备中可以实现该图像生成视频的方法的功能模块或者功能实体。
上述电子设备可以为服务器、平板电脑、手机、笔记本电脑、掌上电脑、车载终端、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)、个人计算机(personal computer,PC)等,本公开实施例对此不作具体限定。
如图1所示,为本公开实施例提供的一种图像生成视频的方法的流程示意图,该方法可以包括模型训练阶段和实际应用阶段两个阶段。
模型训练阶段包括以下步骤101至106。
101、获取样本信息。
其中,样本信息包括:多个样本图像,以及每个样本图像的标准流动参数;该标准流动参数中可以包括至少一个区域、每个区域的流动方向,以及每个区域的流动速度。
其中,上述区域可以是指可流动区域。针对图像中的一些主体在实际场景中是可以流动的,例如,水流、头发、服装等,本公开实施例中针对图像中的水流、头发、服装等区域即可以确认为是可流动区域。在本公开实施例中也称为流动区域。
在一些实施例中,获取样本信息,包括:获取原始图像;针对原始图像进行几何变换,和/或,颜色变换,以得到至少一个变换图像;将原始图像和至少一个变换图像作为样本信息中的样本图像。
在实际的模型训练过程中,为了表征模型的精度,需要大量的图像数据作为训练样本,这样就需要充分利用已有的图像进行数据增强,已得到更多的训练样本。数据增强在本公开中的含义是在不实质性的增加数据的情况下,让有限的数据产生等价于更多数据的价值,在通过数据增强去增强一个样本图像的时候,可对该样本图像进行几何变换,和/或,颜色变换,以得到增强后的多个样本图像。
其中,几何变换操作没有改变图像本身的内容。几何变换可以包括:翻转,旋转,裁剪,变形,缩放中的至少一种。
本公开实施例中,对图像进行随机缩放、随机裁剪等几何变换,并将变换后的图像作为样本信息中的样本图像,可以提升后续训练得到的目标图像处理模型针对不同大小,不同位置的流动区域识别的准确性。
本公开实施例中,基于头发区域、服装区域等流动方向单一方向的情况,提出了对图像进行随机旋转,并将随机旋转后的图像作为样本信息中的样本图像,可以提升后续训练得到的目标图像处理模型对不同流动方向的鲁棒性。
上述随机翻转和随机旋转不会改变图像的大小,而随机裁剪由于是裁剪出原有图像中的部分内容,因此会改变图像的大小,裁剪后得到的图像会相比于原有图像更小。
其中,颜色变换可以包括:添加噪声、颜色扰动中的至少一种。颜色变换的数据增强一般会改变图像的内容。
在一些实施例中,基于添加噪声的数据增强是在原来的图像的基础上,随机叠加一些噪声,最常见的是叠加高斯噪声,还有一些实现方式中,可以在面积大小可选定、位置随机的矩形区域上丢弃一些像素,使得图像产生一些彩色噪声。
颜色扰动是在某一种颜色空间中通过增加或减少某些颜色分量,或者更改颜色通道的顺序,以实现对原始图像的颜色变化,得到颜色变化后的多种图像。
本公开实施例中,针对浅色头发、浅色服装可能无法被正确分割为流动区域的情况,提出了对原始图像进行颜色扰动,以增加颜色扰动后的多种图像,作为样本图像,基于这样的图像样本进行训练之后,可以减少图像处理模型对浅色区域的误分。
本公开实施例中,获取样本信息时,多个样本图像可以是基于自有图像资源的图像,以及基于已有图像资源进行数据增强后得到的图像。在获取每个样本图像的标准处理参数时,可以是通过人工标注的方式,基于每个样本图像标注流动区域掩膜,以得到每个样本图像的流动区域,以及通过人工标注的方式,标注每个样本图像的流动区域中的流动方向和流动速度的向量,以得到每个样本图像的流动区域中的流动方向和流动速度。
示例性的,如图2所示,为一种图像处理模型训练过程与应用过程的示意图,从图2中可以看出,可以根据原始图像,通过人工标注生成流动区域掩膜,以及生成每个流动区域的流动方向和流动速度,然后将这些信息作为样本信息去训练图像处理模型。
上述样本信息可以是基于自有的图像资源,建立的全场景的图像流动数据集。
本公开实施例中,针对不同的场景,设置有不同的类型的流动参数。也即针对每种场景对应有一些待处理的区域、以及这些区域的流动参数。也即本发明实施例中,第一流动参数可以包括:至少一种场景对应的流动参数,每种场景对应的流动参数中,包括至少一个同类区域(即相同类型的流动区域,如2个头发区域),以及每个区域的流动参数。
针对主要覆盖场景,本专利建立的针对流动区域、流动方向和流动速度的标注规则如下:
(1)针对包括人物图像的场景:人物的头发、胡子区域为流动区域,头发、胡子的生长方向为流动方向,流动速度可以为基于一某固定速度匀速流动;
(2)针对包括动物图像的场景:动物的毛发区域为流动区域,毛发的毛发纹理方向为流动方向,流动速度可以为基于一某固定速度匀速流动。
(3)针对包括动物图像的场景:服装区域为流动区域,服装的皱褶、曲线的方向为流动方向、服装区域中躯干部分从上到下的方向为流动方向、从肩膀到手的方向为流动方向,或者从大腿到脚的方向为流动方向,流动速度可以为基于一某固定速度匀速流动。
(4)针对包括天空图像的场景:例如云朵区域为流动区域,云朵的自然流动方向为流动方向,或者从左到右的方向未流动方向,流动速度可以为基于一某固定速度匀速流动。
(5)针对包括水流的场景:水流区域为流动区域,水流自然流动的方向为流动方向,或者,水流由高到低的方向为流动方向,流动速度可以为基于一某固定速度匀速流动。
针对一张图像,利用人工标注信息,最终可能会生成包括有多类别流动区域的掩膜(mask)和包含流动方向和流动速度信息的流动向量。
102、从多个样本图像中获取目标样本图像,将目标样本图像输入至初始图像处理模型。
其中,目标样本图像可以为多个样本图像中的任意一个样本图像。
103、获取初始图像处理模型输出的目标样本图像的第二流动参数。
其中,第二流动参数为上述目标样本图像的至少一个流动区域,以及每个流动区域的流动方向和流动速度。
104、根据第二流动参数与标准流动参数,确定目标损失函数。
105、基于目标损失函数,修正初始图像处理模型。
其中,目标损失函数包括以下至少一项:
交叉熵损失函数、全变分损失函数、dice损失函数、focal损失函数、L1正则损失函数。
本公开实施例中,为了保障算法准确度可以结合交叉熵损失函数全变分损失函数和L1正则损失函数进行加权组合来监督图像处理模型中关于流动区域、流动方向、流动速度的预测。
上述交叉熵损失函数主要作用于识别流动区域的精度,因此在一些实施例中,将交叉熵损失函数的权重设置的较高,可以提高针对流动区域的预测精度,而L1正则损失函数则主要作用于流动向量(流动速度和流动方向)的精度,因此将L1正则损失函数的权重设置的较高,则可以提高针对流动向量的预测精度。
进一步的,由于全变分损失函数作用于流动区域内流动向量的平滑处理,因此为了解决局部区域流动向量差异过大导致流动效果错乱的问题,本公开实施例引入全变分损失函数对流动向量进行预测,可以进一步提高流动效果的平滑度,使得画面效果更加顺畅。
106、循环上述102至105至少一次,以得到目标图像处理模型。
本公开实施例中,为了保证精度预测流动参数的精度,目标图像处理模型采用基于高分辨率网络模型(High Resolution Network,HR Net)的语义分割模型,或者,目标图像处理模型为基于高分辨率网络模型变体的语义分割模型。这类模型可以具有更高运算精度,其中运算量较大,运算参数较多,更加适用于设置在服务侧,即设置在服务器中使用。
在一些实施例中,上述目标图像处理模型中包括:多次下采样操作,和/或,多次卷积操作。
在一些实施例中,在设置该目标图像处理模型中多次下采样操作和操作相关参数时,可以针对相邻下采样操作设置不同的操作相关参数。
在一些实施例中,在设置该目标图像处理模型中多次卷积操作的操作相关参数时,可以针对相邻卷积操作设置不同的操作相关参数。
其中,操作相关参数包括核大小(kernel size)、膨胀系数(dilate)、步长(stride)中的至少一项。
也就是说,针对相邻的下采样操作可以下采样的核大小、下采样的膨胀系数、以及下采样的步长中的至少一项设置的不同;针对相邻的卷积操作也可以将卷积的核大小(kernel size)、卷积的膨胀系数(dilate),以及卷积的步长中的至少一项设置的不同。
本公开实施例中,对模型网络中相邻的下采样操作或者卷积操作设置了不同的操作相关参数,可以避免在进行下采用操作或者卷积操作时,每次都针对固定位置的图像数据进行处理所导致的棋盘效应(gridding effect),改善了预测出的流动区域掩膜中出现的棋盘效应问题。
实际应用阶段包括以下步骤107至110。
107、获取第一图像。
如图2中所示,用户可以通过用户输入触发电子设备基于第一图像生成具有流动效果的视频,用户输入过程中可以触发使用图像流动服务(可以是关联图像处理模型的特效道具),生成具有流动效果的视频,触发使用图像流动服务时会调用训练好的图像处理模型(即目标图像处理模型),对第一图像进行处理,预测对应的流动参数。
108、将第一图像输入至目标图像处理模型,获取目标图像处理模型输出的针对第一图像的第一流动参数。
其中,第一流动参数包括:至少一个区域(本公开实施例中也称为流动区域)、每个区域的流动方向,以及每个区域的流动速度。
在一些实施例中,将第一图像输入至目标图像处理模型,包括:对第一图像进行下采样操作,得到下采样后的第一图像,将下采样后的第一图像输入至目标图像处理模型。
图像的下采样可以理解为:对于一幅图像尺寸为M*N的分辨率图像,对其进行s倍下采样,即得到(M/s)*(N/s)尺寸的分辨率图像,其中,s为M和N的公约数。在下采样的过程中,就是把原始图像每个s*s个像素点的图像变成了一个像素点,这一个像素点的值可以是窗口内所有像素的均值。
示例性的,对第一图像进行下采样,可以将第一图像转化为小尺寸图像,从而可以减少目标图像处理模型的计算量和耗时。
在一些实施例中,第一流动参数中也可以不包括流动速度,此时目标图像处理模型可以不预测流动速度,流动速度可以为默认的固定流动速度。
109、基于第一流动参数对第一图像进行流动处理,以生成多帧第二图像。
110、组合多帧第二图像得到视频。
如图2所示,基于第一图像和目标图像处理模型,可以预测该第一图像中的至少一个流动区域,以及每个流动区域的流动方向和流动速度,进一步的,基于这些预测的流动参数对第一图像进行流动处理,可以按照视频帧的时间顺序,得到多针第二图像,这样就可以得到视频,即具有流动效果的视频。
基于第一流动参数对第一图像进行流动处理时,可以按照时间顺序生成多帧第二图像,并根据该时间顺序组合多针第二图像,从而得到具有流动效果的视频。
针对多个流动区域边界处的残影问题,为了预防非流动区域流动,本公开实施例可以利用物体显著性多个流动区域边界处的流动向量变小,避免不同区域之间像素越界,对流动区域内的流动速度进行了分区域分层级限制,具体的,在基于流动参数对第一图像进行流动处理时可以限制上述每个流动区域中边缘区域的流动速度小于中心区域的流动速度。
进一步的,还可以为流动区域中的边缘区域和中心区域设置不同的流动速度范围,并基于相应的流动速度范围限制每个流动区域中边缘区域的流动速度,以及限制每个流动区域中心区域的流动速度。
本公开实施例提供的图像生成视频的方法,可以获取第一图像;将第一图像输入至目标图像处理模型,获取目标图像处理模型输出的针对第一图像的第一流动参数;其中,第一流动参数包括:至少一个流动区域、每个流动区域的流动方向,目标图像处理模型为基于样本信息训练得到的神经网络模型,样本信息包括:多个样本图像,以及每个样本图像的标准流动参数;基于第一流动参数对第一图像进行流动处理,以生成多帧第二图像,组合多帧第二图像得到视频。通过该方案,由于可以基于目标图像处理模型,生成对应于第一图像的流动参数(区域、流动方向),这样就可以基于生成的流动参数和第一图像,去进一步生成具有流动效果的视频,从而实现通过静态图像实现具有流动效果的视频。
如图3所示,本公开实施例提供一种图像生成视频的装置的结构框图,该装置包括:
获取模块301,用于获取第一图像;将第一图像输入至目标图像处理模型,获取目标图像处理模型输出的针对第一图像的第一流动参数;其中,第一流动参数包括:至少一个区域、每个区域的流动方向,目标图像处理模型为神经网络模型;
生成模块302,用于基于第一流动参数对第一图像进行流动处理,以生成多帧第二图像,组合多帧第二图像得到视频。
作为本公开实施例一种可选的实施方式,处理参数还包括:每个区域的流动速度。
作为本公开实施例一种可选的实施方式,
所述目标图像处理模型为基于样本信息训练得到的神经网络模型,所述样本信息包括:多个样本图像,以及每个样本图像的标准流动参数;
获取模块301,还用于:将第一图像输入至目标图像处理模型,获取目标图像处理模型输出的针对第一图像的第一流动参数之前,获取样本信息;
循环执行以下步骤至少一次,以得到目标图像处理模型:
从多个样本图像中获取目标样本图像,将目标样本图像输入至初始图像处理模型;
获取初始图像处理模型输出的目标样本图像的第二流动参数;
根据第二流动参数与标准流动参数,确定目标损失函数;
基于目标损失函数,修正初始图像处理模型。
作为本公开实施例一种可选的实施方式,目标损失函数包括以下至少一项:
交叉熵损失函数、全变分损失函数、dice损失函数、focal损失函数、L1正则损失函数。
作为本公开实施例一种可选的实施方式,获取模块,具体用于:
获取原始图像;
针对原始图像进行几何变换,和/或,颜色变换,以得到至少一个变换图像;
将原始图像和至少一个变换图像作为样本信息中的样本图像。
作为本公开实施例一种可选的实施方式,几何变换包括:翻转,旋转,裁剪,变形,缩放中的至少一种;
作为本公开实施例一种可选的实施方式,颜色变换包括:添加噪声、颜色扰动中的至少一种。
作为本公开实施例一种可选的实施方式,获取模块301,具体用于:
对第一图像进行下采样操作,得到下采样后的第一图像;
将下采样后的第一图像输入至目标图像处理模型。
作为本公开实施例一种可选的实施方式,每个区域中边缘区域的流动速度小于中心区域的流动速度。
作为本公开实施例一种可选的实施方式,目标图像处理模型中包括:多次下采样操作,和/或,多次卷积操作,
针对相邻下采样操作,和/或,相邻卷积操作的操作相关参数不同;
其中,操作相关参数包括以下至少一项:
核大小、膨胀系数、步长。
作为本公开实施例一种可选的实施方式,目标图像处理模型为基于高分辨率网络模型的语义分割模型。
本公开实施例提供一种电子设备,包括:处理器401、存储器402及存储在存储器402上并可在处理器401上运行的计算机程序,计算机程序被处理器401执行时实现上述方法实施例中涉及的图像生成视频的方法。
其中,该计算机可读存储介质可以为只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
本公开实施例提供一种计算机可读存储介质,包括:计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现上述方法实施例中的图像生成视频的方法。
本公开实施例提供一种计算机程序产品,包括:当计算机程序产品在计算机上运行时,使得计算机实现上述方法实施例中的图像生成视频的方法。
本领域技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。
本公开中,处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本公开中,存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
本公开中,计算机可读介质包括永久性和非永久性、可移动和非可移动存储介质。存储介质可以由任何方法或技术来实现信息存储,信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。根据本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (13)
1.一种图像生成视频的方法,其特征在于,包括:
获取第一图像;
将所述第一图像输入至目标图像处理模型,获取所述目标图像处理模型输出的针对所述第一图像的第一流动参数;其中,所述第一流动参数包括:至少一个区域、每个区域的流动方向,所述目标图像处理模型为神经网络模型;
基于所述第一流动参数对所述第一图像进行处理,以生成多帧第二图像,组合所述多帧第二图像得到视频。
2.根据权利要求1所述的方法,其特征在于,所述处理参数还包括:每个区域的流动速度。
3.根据权利要求2所述的方法,其特征在于,
所述目标图像处理模型为基于样本信息训练得到的神经网络模型,所述样本信息包括:多个样本图像,以及每个样本图像的标准流动参数;
所述将所述第一图像输入至目标图像处理模型,获取所述目标图像处理模型输出的针对所述第一图像的第一流动参数之前,还包括:
获取所述样本信息;
循环执行以下步骤至少一次,以得到所述目标图像处理模型:
从所述多个样本图像中获取目标样本图像,将所述目标样本图像输入至初始图像处理模型;获取所述初始图像处理模型输出的所述目标样本图像的第二流动参数;
根据所述第二流动参数与所述标准流动参数,确定目标损失函数;
基于所述目标损失函数,修正所述初始图像处理模型。
4.根据权利要求3所述的方法,其特征在于,所述目标损失函数包括以下至少一项:
交叉熵损失函数、全变分损失函数、dice损失函数、focal损失函数、L1正则损失函数。
5.根据权利要求3所述的方法,其特征在于,所述获取样本信息,包括:
获取原始图像;
针对所述原始图像进行几何变换,和/或,颜色变换,以得到至少一个变换图像;
将所述原始图像和所述至少一个变换图像作为所述样本信息中的样本图像。
6.根据权利要求5所述的方法,其特征在于,
所述几何变换包括:翻转,旋转,裁剪,变形,缩放中的至少一种;
和/或,
所述颜色变换包括:添加噪声、颜色扰动中的至少一种。
7.根据权利要求1所述的方法,其特征在于,所述将所述第一图像输入至目标图像处理模型,包括:
对所述第一图像进行下采样操作,得到下采样后的所述第一图像;
将下采样后的所述第一图像输入至所述目标图像处理模型。
8.根据权利要求2所述的方法,其特征在于,所述每个区域中边缘区域的流动速度小于中心区域的流动速度。
9.根据权利要求1至8任一项所述的方法,其特征在于,所述目标图像处理模型中包括:多次下采样操作,和/或,多次卷积操作,
针对相邻下采样操作,和/或,相邻卷积操作的操作相关参数不同;
其中,所述操作相关参数包括以下至少一项:
核大小、膨胀系数、步长。
10.根据权利要求1所述的方法,其特征在于,所述目标图像处理模型为基于高分辨率网络模型的语义分割模型。
11.一种图像生成视频的装置,其特征在于,包括:
获取模块,用于获取第一图像;将所述第一图像输入至目标图像处理模型,获取所述目标图像处理模型输出的针对所述第一图像的第一流动参数;其中,所述第一流动参数包括:至少一个区域、每个区域的流动方向;
生成模块,用于基于所述第一流动参数对所述第一图像进行流动处理,以生成多帧第二图像,组合所述多帧第二图像得到视频。
12.一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至10中任一项所述的图像生成视频的方法。
13.一种计算机可读存储介质,其特征在于,包括:所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至10中任一项所述的图像生成视频的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111318900.7A CN114049384A (zh) | 2021-11-09 | 2021-11-09 | 图像生成视频的方法、装置及电子设备 |
PCT/CN2022/130624 WO2023083179A1 (zh) | 2021-11-09 | 2022-11-08 | 图像生成视频的方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111318900.7A CN114049384A (zh) | 2021-11-09 | 2021-11-09 | 图像生成视频的方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114049384A true CN114049384A (zh) | 2022-02-15 |
Family
ID=80207826
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111318900.7A Pending CN114049384A (zh) | 2021-11-09 | 2021-11-09 | 图像生成视频的方法、装置及电子设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114049384A (zh) |
WO (1) | WO2023083179A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114581859A (zh) * | 2022-05-07 | 2022-06-03 | 北京科技大学 | 一种转炉下渣监测方法及系统 |
CN114943834A (zh) * | 2022-04-14 | 2022-08-26 | 西北工业大学 | 一种少标注样本下基于原型队列学习的全场景语义分割方法 |
WO2023083179A1 (zh) * | 2021-11-09 | 2023-05-19 | 北京字节跳动网络技术有限公司 | 图像生成视频的方法、装置及电子设备 |
WO2023083171A1 (zh) * | 2021-11-09 | 2023-05-19 | 北京字节跳动网络技术有限公司 | 图像数据流的处理方法、装置及电子设备 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103929634A (zh) * | 2013-01-11 | 2014-07-16 | 三星电子株式会社 | 3d动画效果产生方法和系统 |
US20180082460A1 (en) * | 2016-09-22 | 2018-03-22 | Autodesk, Inc. | Techniques for generating dynamic effects animations |
CN110490896A (zh) * | 2018-01-25 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 一种视频帧图像处理方法和装置 |
US20200134929A1 (en) * | 2018-10-31 | 2020-04-30 | Sony Interactive Entertainment Inc. | Graphical style modification for video games using machine learning |
KR20200050237A (ko) * | 2018-11-01 | 2020-05-11 | 가천대학교 산학협력단 | 파노라마 영상을 이용한 송전선 디플렉션 감시 장치 및 방법 |
US10679428B1 (en) * | 2017-05-26 | 2020-06-09 | Snap Inc. | Neural network-based image stream modification |
US20200342652A1 (en) * | 2019-04-25 | 2020-10-29 | Lucid VR, Inc. | Generating Synthetic Image Data for Machine Learning |
CN112199140A (zh) * | 2020-09-09 | 2021-01-08 | Oppo广东移动通信有限公司 | 应用插帧方法及相关装置 |
CN113223121A (zh) * | 2021-04-30 | 2021-08-06 | 北京达佳互联信息技术有限公司 | 视频生成方法、装置、电子设备及存储介质 |
US20210256663A1 (en) * | 2019-03-07 | 2021-08-19 | Tencent Technology (Shenzhen) Company Limited | Image processing method and apparatus, computer device, and storage medium |
US20210335390A1 (en) * | 2020-04-23 | 2021-10-28 | Beijing Dajia Internet Information Technology Co., Ltd. | Method and device for generating dynamic image |
CN113591918A (zh) * | 2021-06-29 | 2021-11-02 | 北京百度网讯科技有限公司 | 图像处理模型的训练方法、图像处理方法、装置和设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001325617A (ja) * | 2000-05-15 | 2001-11-22 | Sekisui House Ltd | Cg画像による流動物の表示方法及びその装置 |
CN114049384A (zh) * | 2021-11-09 | 2022-02-15 | 北京字节跳动网络技术有限公司 | 图像生成视频的方法、装置及电子设备 |
-
2021
- 2021-11-09 CN CN202111318900.7A patent/CN114049384A/zh active Pending
-
2022
- 2022-11-08 WO PCT/CN2022/130624 patent/WO2023083179A1/zh unknown
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103929634A (zh) * | 2013-01-11 | 2014-07-16 | 三星电子株式会社 | 3d动画效果产生方法和系统 |
US20180082460A1 (en) * | 2016-09-22 | 2018-03-22 | Autodesk, Inc. | Techniques for generating dynamic effects animations |
US10679428B1 (en) * | 2017-05-26 | 2020-06-09 | Snap Inc. | Neural network-based image stream modification |
CN110490896A (zh) * | 2018-01-25 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 一种视频帧图像处理方法和装置 |
US20200134929A1 (en) * | 2018-10-31 | 2020-04-30 | Sony Interactive Entertainment Inc. | Graphical style modification for video games using machine learning |
KR20200050237A (ko) * | 2018-11-01 | 2020-05-11 | 가천대학교 산학협력단 | 파노라마 영상을 이용한 송전선 디플렉션 감시 장치 및 방법 |
US20210256663A1 (en) * | 2019-03-07 | 2021-08-19 | Tencent Technology (Shenzhen) Company Limited | Image processing method and apparatus, computer device, and storage medium |
US20200342652A1 (en) * | 2019-04-25 | 2020-10-29 | Lucid VR, Inc. | Generating Synthetic Image Data for Machine Learning |
US20210335390A1 (en) * | 2020-04-23 | 2021-10-28 | Beijing Dajia Internet Information Technology Co., Ltd. | Method and device for generating dynamic image |
CN112199140A (zh) * | 2020-09-09 | 2021-01-08 | Oppo广东移动通信有限公司 | 应用插帧方法及相关装置 |
CN113223121A (zh) * | 2021-04-30 | 2021-08-06 | 北京达佳互联信息技术有限公司 | 视频生成方法、装置、电子设备及存储介质 |
CN113591918A (zh) * | 2021-06-29 | 2021-11-02 | 北京百度网讯科技有限公司 | 图像处理模型的训练方法、图像处理方法、装置和设备 |
Non-Patent Citations (1)
Title |
---|
ALEKSANDER HOLYNSKI等: "Animating Pictures with Eulerian Motion Fields", 2021 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITIONR, 2 November 2021 (2021-11-02) * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023083179A1 (zh) * | 2021-11-09 | 2023-05-19 | 北京字节跳动网络技术有限公司 | 图像生成视频的方法、装置及电子设备 |
WO2023083171A1 (zh) * | 2021-11-09 | 2023-05-19 | 北京字节跳动网络技术有限公司 | 图像数据流的处理方法、装置及电子设备 |
CN114943834A (zh) * | 2022-04-14 | 2022-08-26 | 西北工业大学 | 一种少标注样本下基于原型队列学习的全场景语义分割方法 |
CN114943834B (zh) * | 2022-04-14 | 2024-02-23 | 西北工业大学 | 一种少标注样本下基于原型队列学习的全场景语义分割方法 |
CN114581859A (zh) * | 2022-05-07 | 2022-06-03 | 北京科技大学 | 一种转炉下渣监测方法及系统 |
CN114581859B (zh) * | 2022-05-07 | 2022-09-13 | 北京科技大学 | 一种转炉下渣监测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2023083179A1 (zh) | 2023-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114049384A (zh) | 图像生成视频的方法、装置及电子设备 | |
US11055535B2 (en) | Method and device for video classification | |
US11455782B2 (en) | Target detection method and apparatus, training method, electronic device and medium | |
TWI773189B (zh) | 基於人工智慧的物體檢測方法、裝置、設備及儲存媒體 | |
Xu et al. | Centernet heatmap propagation for real-time video object detection | |
CN110881109B (zh) | 用于增强现实应用的视频中的实时叠加放置 | |
WO2014074959A1 (en) | Real-time face detection using pixel pairs | |
CN109902588B (zh) | 一种手势识别方法、装置及计算机可读存储介质 | |
WO2023083171A1 (zh) | 图像数据流的处理方法、装置及电子设备 | |
CN115631112B (zh) | 一种基于深度学习的建筑轮廓矫正方法及装置 | |
Cornia et al. | Multi-level net: A visual saliency prediction model | |
Zhang et al. | A crowd counting framework combining with crowd location | |
Wang et al. | Is-mvsnet: Importance sampling-based mvsnet | |
Wang et al. | PalGAN: Image colorization with palette generative adversarial networks | |
CN107578375B (zh) | 图像处理方法及装置 | |
Zhang et al. | Construction of a feature enhancement network for small object detection | |
Yang et al. | A multi-scale feature fusion spatial–channel attention model for background subtraction | |
Zhao et al. | Defocus Blur detection via transformer encoder and edge guidance | |
CN116682076A (zh) | 面向船舶安全监管的多尺度目标检测方法、系统及设备 | |
García-González et al. | Background modeling by shifted tilings of stacked denoising autoencoders | |
Wang et al. | SCNet: Scale-aware coupling-structure network for efficient video object detection | |
Li et al. | ABYOLOv4: improved YOLOv4 human object detection based on enhanced multi-scale feature fusion | |
US11647294B2 (en) | Panoramic video data process | |
Zhou et al. | Enhancing Real-Time Super Resolution with Partial Convolution and Efficient Variance Attention | |
CN113315914B (zh) | 全景视频数据处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |