CN117336526A

CN117336526A - 视频生成方法、装置、存储介质及电子设备

Info

Publication number: CN117336526A
Application number: CN202311284634.XA
Authority: CN
Inventors: 王凡祎; 苏婧文
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2023-09-28
Filing date: 2023-09-28
Publication date: 2024-01-02

Abstract

本申请公开了一种视频生成方法、装置、存储介质及电子设备。该方法包括：获取包括移动对象的图像；确定移动对象在图像中所处的移动区域；对移动区域进行光流估计，得到移动区域的运动场；基于运动场及图像生成目标视频。本申请可以实现基于静态图像生成动态视频。

Description

视频生成方法、装置、存储介质及电子设备

技术领域

本申请属于电子技术领域，尤其涉及一种视频生成方法、装置、计算机可读存储介质及电子设备。

背景技术

目前，一些图像中会存在天空、江、河、海、瀑布等对象，这些对象在实际场景中是处于流动状态的，在需要呈现这些对象的流动效果时，需要提供一种图像到视频的生成方法，以实现基于静态图像生成动态视频。

发明内容

本申请实施例提供一种视频生成方法、装置、存储介质及电子设备，可以实现基于静态图像生成动态视频。

第一方面，本申请实施例提供一种视频生成方法，包括：

获取包括移动对象的图像；

确定所述移动对象在所述图像中所处的移动区域；

对所述移动区域进行光流估计，得到所述移动区域的运动场；

基于所述运动场及所述图像生成目标视频。

第二方面，本申请实施例提供一种视频生成装置，包括：

图像获取模块，用于获取包括移动对象的图像；

区域确定模块，用于确定所述移动对象在所述图像中所处的移动区域；

光流估计模块，用于对所述移动区域进行光流估计，得到所述移动区域的运动场；

视频生成模块，用于基于所述运动场及所述图像生成目标视频。

第三方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机上执行时，使得所述计算机执行本申请实施例提供的视频生成方法。

第四方面，本申请实施例还提供一种电子设备，包括存储器，处理器，所述处理器通过调用所述存储器中存储的计算机程序，用于执行本申请实施例提供的视频生成方法。

本申请实施例中，通过获取包括移动对象的图像；确定所述移动对象在所述图像中所处的移动区域；对所述移动区域进行光流估计，得到所述移动区域的运动场；基于所述运动场及所述图像生成目标视频，由此，通过确定出图像中如天空、瀑布等移动对象所处的移动区域的运动场，基于该运动场可以确定移动区域中各像素点在其他图像中的位置，从而可以基于该运动场及该图像确定其他图像，进而生成目标视频，可以实现基于静态图像生成动态视频。

附图说明

下面结合附图，通过对本申请的具体实施方式详细描述，将使本申请的技术方案及其有益效果显而易见。

图1是本申请实施例提供的视频生成方法的流程示意图。

图2是本申请实施例提供的第一区域和移动区域的示意图。

图3是本申请实施例提供的基于图像M11得到掩膜图像M21的示意图。

图4是本申请实施例提供的第二区域和目标移动区域的示意图。

图5是本申请实施例提供的视频生成装置的结构示意图。

图6是本申请实施例提供的电子设备的结构示意图。

具体实施方式

应当说明的是，本申请中的术语“第一”、“第二”和“第三”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块，而是某些实施例还包括没有列出的步骤或模块，或某些实施例还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施例提供一种视频生成方法、视频生成装置、存储介质及电子设备。视频生成方法的执行主体可以是本申请实施例提供的视频生成装置，或者集成了该视频生成装置的电子设备，其中该视频生成装置可以采用硬件或者软件的方式实现。其中，电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑等配置有处理器而具有视频生成能力的设备。

请参阅图1，图1是本申请实施例提供的视频生成方法的流程示意图，流程可以包括：

在101中，获取包括移动对象的图像。

其中，移动对象可以包括可流动的自然景物，包括但不限于天空、江、河、海、瀑布等。移动对象也可以包括可随风飘动的物体，如树叶、头发、衣服等。

包括移动对象的图像可以是包括上述一个或多个移动对象的图像。包括移动对象的图像可以仅包括移动对象，也可以包括移动对象和静止对象。例如，包括移动对象的图像中可以包括天空、河等移动对象，还可以包括山、房子等静止对象。

包括移动对象的图像可以是通过如智能手机或平板电脑等配置有摄像头的电子设备对包括移动对象的拍摄场景进行拍摄得到的图像。包括移动对象的图像也可以是通过如智能手机或平板电脑等电子设备根据与相应的移动对象对应的文本生成的图像。

其中，在根据用户操作启动拍摄类应用程序(比如电子设备的系统应用“相机”)后，其摄像头所对准的场景即为拍摄场景。比如，用户通过手指点击电子设备上“相机”应用的图标启动“相机应用”后，若用户使用电子设备的摄像头对准一包括XX物体的场景，则该包括XX物体的场景即为拍摄场景。根据以上描述，本领域技术人员应当理解的是，拍摄场景并非特指某一特定场景，而是跟随摄像头的指向所实时对准的场景。

在102中，确定移动对象在图像中所处的移动区域。

在103中，对移动区域进行光流估计，得到移动区域的运动场。

其中，运动场是图像点的速度的二维矢量场，由观察摄像机与观测场景之间的相对运动引起，是三维相对矢量在二维图像平面上的投影。

估计光流的目的是为图像中的每一个像素点赋予一个运动向量。对于整个图像来说，光流估计的过程就是建立一个包括所有运动向量的运动场。而对于图像中的移动区域来说，光流估计的过程就是建立一个包括移动区域中所有像素点的运动向量的运动场。

可以理解的是，在摄像头不移动时，移动对象与摄像头之间存在相对运动，而静止对象与摄像头之间不存在相对运动，因此，本实施例中，可以仅对移动对象所处的移动区域进行光流估计。也即是说，确定移动对象在图像中所处的移动区域，并对移动区域进行光流估计，得到移动区域的运动场。

比如，可以通过相关技术所提供的光流估计算法对移动区域进行光流估计，得到移动区域的运动场。

又比如，可以通过相关技术所提供的光流估计算法对包括移动对象的图像进行光流估计，得到该图像的运动场。随后，基于该图像的运动场，确定移动区域的运动场，也即是说，从该图像的运动场中获取移动区域中的每一个像素点的运动向量，得到移动区域的运动场。

在104中，基于运动场及图像生成目标视频。

比如，当得到移动区域的运动场之后，可以基于移动区域的运动场及包括移动对象的图像生成移动区域局部运动的目标视频。也即，目标视频中移动区域处于运动状态，而除移动区域之外的区域处于静止状态。

本实施例中，通过获取包括移动对象的图像；确定移动对象在图像中所处的移动区域；对移动区域进行光流估计，得到移动区域的运动场；基于运动场及图像生成目标视频，由此，通过确定出图像中如天空、瀑布等移动对象所处的移动区域的运动场，基于该运动场可以确定移动区域中各像素点在其他图像中的位置，从而可以基于该运动场及该图像确定其他图像，进而生成目标视频，可以实现基于静态图像生成动态视频。

在一可选地实施例中，确定移动对象在图像中所处的移动区域，包括：

通过语义分割模型对图像进行语义分割，以确定移动对象在图像中所处的移动区域，得到掩膜图像，其中，掩膜图像中与移动区域对应的第一区域的像素点的像素值与掩膜图像中除第一区域之外的区域的像素点的像素值不同；

对移动区域进行光流估计，得到移动区域的运动场，包括：

根据掩膜图像及图像，对移动区域进行光流估计，得到移动区域的运动场。

其中，语义分割是将图像中每个像素点都分配一个语义类别的过程，即将像素点标记为属于哪个物体或背景。语义分割可以精细地描述图像，因为它可以分辨物体之间的空间关系，并且能够实现更准确的物体定位和分割。

比如，可以预先收集大量的包括移动对象的图像作为样本图像对语义分割模型进行训练，得到训练后的语义分割模型。后续在获取包括移动对象的图像之后，可以通过训练后的语义分割模型对该图像进行语义分割，以确定移动对象在该图像中所处的移动区域，得到掩膜图像。

其中，掩膜图像中与移动区域对应的第一区域的像素点的像素值与掩膜图像中除第一区域之外的区域的像素点的像素值不同。例如，掩膜图像可以为一二值图像，第一区域中所有像素点的像素值可以为1，掩膜图像中除第一区域之外的区域中所有像素点的像素值可以为0。

掩膜图像与包括移动对象的图像大小相同，第一区域在掩膜图像中的位置与移动区域在图像中的位置相同。例如，第一区域与移动区域可以如图2所示。

在一可选地实施例中，语义分割模型可以包括扩散模型加持下的开放环境全景分割框架(Open-vocabulary DIffusion-based panoptic SEgmentation，ODISE)。

该语义分割模型可以通过输入移动对象对应的文本来进行语义分割。例如，假设输入的文本为河，包括移动对象的图像中包括河、天空，则移动对象所在的区域包括河所在区域和天空所在区域，则将包括移动对象的图像输入该语义分割模型中所得到的掩膜图像为掩膜图像中与河所在区域对应的区域的像素点的像素值为1，掩膜图像中除与河所在区域对应的区域之外的区域的像素点的像素值为0的图像。

在未输入移动对象对应的文本时，该语义分割模型可以针对所有移动对象进行语义分割。例如，如图3所示，假设包括移动对象的图像M11中包括河、天空、丛林，则移动对象所在的移动区域包括天空所在区域A11和河所在区域A12，则将图像M11输入该语义分割模型中所得到的掩膜图像M21为掩膜图像M21中与区域A11对应的区域A21和与区域A12对应的区域A22的像素点的像素值为1，掩膜图像中除区域A21和区域A22之外的区域，即区域A23和区域A24的像素点的像素值为0的图像。

其中，输入的文本的语言形式可以依该语义分割模型训练过程中采用的语言形式而定。若训练过程中采用的语言形式为中文，则输入的文本的语言形式为中文。若训练过程中采用的语言形式为英文，则输入的文本的语言形式为英文。

语义分割模型还可以包括但不限于分割一切模型(Segment Anything Model，SAM)、lang-seg模型。

在一可选地实施例中，当移动对象仅包括天空时，还可以采用相关技术所提供的专用于确定图像中的天空所在区域的语义分割算法从包括移动对象的图像中确定天空所在的移动区域，得到掩膜图像，其中，该掩膜图像中与天空所在的移动区域对应的第三区域的像素点的像素值与该掩膜图像中除第三区域之外的区域的像素点的像素值不同。例如，掩膜图像可以为一二值图像，第三区域中所有像素点的像素值可以为1，掩膜图像中除第三区域之外的区域中所有像素点的像素值可以为0。

当得到掩膜图像之后，可以根据掩膜图像及包括移动对象的图像，对移动区域进行光流估计，得到移动区域的运动场。

例如，可以预先对光流估计模型进行训练，得到训练后的光流估计模型。后续在得到包括移动对象的图像及掩膜图像之后，可以通过该训练后的光流估计模型，根据掩膜图像及包括移动对象的图像，对移动区域进行光流估计，得到移动区域的运动场。

其中，在训练光流估计模型时，可以收集大量的包括移动对象的视频，仅将每一包括移动对象的视频的第一帧作为样本图像，并对每一样本图像进行语义分割，以确定移动对象在该样本图像中所处的区域，得到每一样本图像对应的掩膜图像，其中，每一样本图像对应的掩膜图像中与移动对象在该样本图像中所处的区域对应的第四区域的像素点的像素值与每一样本图像对应的掩膜图像中除第四区域之外的区域的像素点的像素值不同。随后，可以将每一样本图像及其对应的掩膜图像输入光流估计模型中，由光流估计模型估计每一样本图像中移动对象所处区域的运动场，训练目标为模型估计的运动场与根据视频中的相应帧确定的运动场尽可能相同，后续便可以通过训练后的光流估计模型直接估计任一包括移动对象的图像的运动场。

其中，光流估计模型可以包括NVIDIA Pix2PixHD GAN模型、FlowNet2模型、PWC-Net模型等。

在一可选地实施例中，通过语义分割模型对图像进行语义分割，得到掩膜图像，包括：

确定图像的类别；

获取与类别对应的语义分割模型；

通过与类别对应的语义分割模型，对图像进行语义分割，得到掩膜图像。

由于包括移动对象的图像可以是通过如智能手机或平板电脑等配置有摄像头的电子设备对包括移动对象的拍摄场景进行拍摄得到的图像，也可以是通过如智能手机或平板电脑等电子设备根据与相应的移动对象对应的文本生成的图像，而不同的语义分割模型针对于不同来源的图像，如拍摄的图像或生成的图像的表现不同，有的语义分割模型针对拍摄的图像的表现更好，有的语义分割模型针对生成的图像的表现更好。

基于此，本实施例中，可以将拍摄的图像和生成的图像划分为两个不同类别的图像，并为两个不同类别的图像分别训练不同的语义分割模型来进行语义分割。

例如，可以分别针对每一类别的图像训练多个不同的语义分割模型，并从训练后的多个不同的语义分割模型中为每一类别的图像确定预测准确度最高的语义分割模型，作为与每一类别对应的语义分割模型。后续在确定出包括移动对象的图像的类别之后，可以获取与该类别对应的语义分割模型；通过与该类别对应的语义分割模型，对该图像进行语义分割，得到掩膜图像。

例如，假设两个不同的类别为类别C1和类别C2，拍摄的图像的类别为类别C1，生成的图像的类别为类别C2，与类别C1对应的语义分割模型为语义分割模型M1，与类别C2对应的语义分割模型为语义分割模型M2，若包括移动对象的图像为拍摄的图像，则可以通过语义分割模型M1，对该图像进行语义分割，得到掩膜图像；若包括移动对象的图像为生成的图像，则可以通过语义分割模型M2，对该图像进行语义分割，得到掩膜图像。

在一可选地实施例中，图像包括多个移动对象，通过与类别对应的语义分割模型，对图像进行语义分割，得到掩膜图像，包括：

获取输入的目标文本，目标文本与多个移动对象中的目标移动对象对应；

通过与类别对应的语义分割模型，根据目标文本，对图像进行语义分割，以确定目标移动对象在图像中所处的目标移动区域，得到目标掩膜图像，其中，目标移动区域的像素点的像素值与掩膜图像中除目标移动区域之外的区域的像素点的像素值不同；

根据掩膜图像及图像，对移动区域进行光流估计，得到移动区域的运动场，包括：

根据目标掩膜图像及图像，对移动区域进行光流估计，得到移动区域的运动场。

考虑到在图像中包括多个移动对象时，用户仅想要确定其中部分移动对象所在区域的运动场的情形，本实施例中，可以提供第一文本输入接口，通过该第一文本输入接口接收用户输入的目标文本；再通过与类别对应的语义分割模型，根据目标文本，对图像进行语义分割，以确定目标移动对象在图像中所处的目标移动区域，得到目标掩膜图像，其中，目标掩膜图像中与目标移动区域对应的第二区域的像素点的像素值与目标掩膜图像中除第二区域之外的区域的像素点的像素值不同。

例如，假设目标文本为河，包括移动对象的图像中包括河、天空，则移动对象所在的移动区域包括河所在区域和天空所在区域，则将该目标文本及包括移动对象的图像输入该语义分割模型中所得到的目标掩膜图像为目标掩膜图像中与河所在的移动区域，即目标移动区域对应的区域的像素点的像素值为1，目标掩膜图像中除与河所在的移动区域，即目标移动区域对应的区域之外的区域的像素点的像素值为0的图像。

目标掩膜图像与包括移动对象的图像大小相同，第二区域在目标掩膜图像中的位置与目标移动区域在图像中的位置相同。例如，第二区域与目标移动区域可以如图4所示。

在一可选地实施例中，在包括移动对象的图像包括多个移动对象时，也可以在包括移动对象的图像的类别为生成的图像时，获取输入的目标文本，目标文本与多个移动对象中的目标移动对象对应；通过与生成的图像的类别对应的语义分割模型，根据目标文本，对图像进行语义分割，以确定目标移动对象在图像中所处的目标移动区域，得到目标掩膜图像，其中，目标移动区域的像素点的像素值与掩膜图像中除目标移动区域之外的区域的像素点的像素值不同；根据目标掩膜图像及图像，对移动区域进行光流估计，得到移动区域的运动场。

例如，假设图像的类别为类别C1和类别C2，拍摄的图像的类别为类别C1，生成的图像的类别为类别C2，与类别C2对应的语义分割模型为语义分割模型M2，若包括移动对象的图像为生成的图像，则可以获取输入的目标文本，再通过语义分割模型M2，根据该目标文本，对该图像进行语义分割，以确定目标移动对象在图像中所处的目标移动区域，得到目标掩膜图像。

在一可选地实施例中，获取输入的目标文本，包括：

通过屏幕显示多个候选文本，每一候选文本与包括移动对象的图像中的一移动对象对应；

采集人眼图像，并根据人眼图像，确定人眼视线在屏幕上的焦点位置；

从多个候选文本中确定处于焦点位置的目标文本。

例如，假设多个候选文本包括“河”和“天空”，那么，可以通过屏幕显示候选文本“河”和“天空”，若用户想要选择的移动对象为天空，那么，用户可以用双眼注视屏幕中文本“天空”所处位置，电子设备可以采集人眼图像，并根据该人眼图像，通过眼球追踪技术，确定人眼视线在屏幕上的焦点位置为文本“天空”所处位置，则可以确定目标文本为“天空”。

在一可选地实施例中，获取包括移动对象的图像，包括：

获取输入的文本，输入的文本与移动对象对应；

通过文生图模型，根据输入的文本，生成图像。

比如，可以预先设计一些自然风光的文本，该自然风光包括可移动的自然景物，包括但不限于天空、江、河、海、丛林、山等。还可以预先使用大量的真实的包括自然风光的图像训练文生图模型，得到训练后的文生图模型。后续可以提供第二文本输入接口，通过该第二文本输入接口接收用户输入的文本，再通过训练后的文生图模型，根据用户输入的文本，生成包括移动对象的图像。

例如，用户可通过该第二文本输入接口输入天空、河、山，从而电子设备可以通过文生图模型，根据天空、河、山，生成包括天空、河这两个移动对象，及山这个静止对象的图像。

其中，文生图模型可以包括stablediffusion模型，如stablediffusion v1.5模型、DALL-E模型、DALL-E2模型、Parti模型、Imagen模型、文心ERNIE-ViLG模型、文心一格模型等模型

在一可选地实施例中，获取输入的文本，包括：

通过屏幕显示多个待选文本，每一待选文本与一待选移动对象对应；

将多个待选文本中处于焦点位置的待选文本确定为输入的文本。

其中，待选文本可以为预先设置的移动对象，即待选移动对象对应的文本。例如，预先设置的移动对象包括：天空、江、河、海、瀑布，则待选文本可以包括：“天空”、“江”、“河”、“海”、“瀑布”。

例如，假设多个待选文本包括“天空”、“江”、“河”、“海”、“瀑布”，那么，可以通过屏幕显示待选文本“天空”、“江”、“河”、“海”、“瀑布”，若用户想要选择瀑布，那么，用户可以用双眼注视屏幕中文本“瀑布”所处位置，电子设备可以采集人眼图像，并根据该人眼图像，通过眼球追踪技术，确定人眼视线在屏幕上的焦点位置为文本“瀑布”所处位置，则可以确定输入的文本为“瀑布”。

在一可选地实施例中，基于运动场及图像生成目标视频，包括：

基于运动场及图像，生成图像序列；

通过超分算法，对图像序列中的每一图像进行超分处理，得到目标图像序列；

基于目标图像序列，生成目标视频。

比如，可以先基于移动区域的运动场及包括移动对象的图像，生成图像序列。其中，包括移动对象的图像可以作为图像序列的第一帧图像。在得到图像序列之后，可以通过超分算法，对图像序列中的每一图像进行超分处理，得到分辨率更高的目标图像序列，再基于目标图像序列，生成目标视频。

在一可选地实施例中，可以预先收集大量的包括移动对象的视频，将每一包括移动对象的视频的第一视频帧确定为样本图像，再确定每一样本图像中的移动区域的运动场，得到每一样本图像对应的运动场。

之后，基于每一样本图像及其对应的运动场训练相应的图像序列估计模型，以基于每一样本图像及其对应的运动场估计未来帧中应该发生的事，即基于每一样本图像及其对应的运动场预测其他视频帧，如预测将每一样本图像作为第一视频帧的视频中的第二视频帧、第三视频帧、第四视频帧，等等，得到每一样本图像对应的预测结果。

之后，将每一样本图像对应的预测结果与每一样本图像所在的原始视频中的视频帧进行比较，基于比较结果修改图像序列预测模型，直至模型收敛，得到图像序列预测模型。

或者，比较基于每一样本图像及其对应的运动场预测的第二视频帧、第三视频帧、第四视频帧等分别与每一样本图像所在原始视频中的第二视频帧、第三视频帧、第四视频帧等的相似度是否大于相似度阈值；基于比较结果修改图像序列预测模型，直至基于每一样本图像及其对应的运动场预测的第二视频帧、第三视频帧、第四视频帧等均分别与每一样本图像所在原始视频中的第二视频帧、第三视频帧、第四视频帧等的相似度大于相似度阈值，得到训练后的图像序列预测模型。其中，相似度阈值可以根据实际情况设置，此处不作具体限制。

后续在得到包括移动对象的图像及该图像中的移动区域的运动场时，可以将该运动场及该图像输入训练后的图像序列预测模型中，得到模型输出的图像序列。再将该包括移动对象的图像作为模型输出的图像序列中的第一个图像的前一个图像，得到最终的图像序列。例如，若模型输出的图像序列为图像M32、M33、M34、M35......M3n，包括移动对象的图像为图像M31，则最终的图像序列为图像M31、M32、M33、M34、M35......M3n。n为大于5的正整数。

之后，通过超分算法，对最终的图像序列中的每一图像进行超分处理，得到分辨率更高的目标图像序列。

其中，超分算法可以包括real-ESRGAN算法等算法。例如，假设图像序列中的每一图像的分辨率为512*512，可以通过real-ESRGAN算法将图像序列中的每一图像的分辨率提高4倍，使得目标图像序列中的每一目标图像的分辨率为2048*2048。

之后，基于目标图像序列，生成目标视频。例如，假设目标图像序列包括图像M41、M42、M43、M44、M45......M4n，则可将图像M41作为目标视频中的第一帧，将图像M42作为目标视频中的第二帧，将图像M43作为目标视频中的第三帧，将图像M44作为目标视频中的第四帧，将图像M45作为目标视频中的第五帧......将图像M4n作为目标视频中的第n帧。其中，n为大于5的正整数。

在一可选地实施例中，还可以根据屏幕显示尺寸对目标图像序列中的每一目标图像的尺寸进行调整，以使每一目标图像的尺寸适配屏幕显示尺寸。例如，可以根据屏幕显示尺寸采用图像边缘截断的方式裁切目标图像序列中的每一目标图像，得到裁切后的图像序列，再基于裁切后的图像序列，生成目标视频。

在基于目标图像序列，生成目标视频时，还可以由电子设备或用户对帧率进行控制，如控制目标视频的帧率为60帧每秒、90帧每秒等。

可以理解的是，诸如智能手机或平板电脑等电子设备的壁纸包括静态壁纸和动态壁纸两种，目前，动态壁纸相对于静态壁纸来说，用户的倾向性和偏好性更高，而通过本申请实施例提供的视频生成方法可以根据静态图像生成目标视频，即动态视频，所生成的动态视频可以作为动态壁纸供用户使用。

另外，对于根据拍摄的图像生成动态壁纸的方式来说，由于仅需要提供占用内存较少的拍摄的图像来供用户选择以生成动态壁纸，无需提供占用内存较大的动态壁纸供用户选择，且对于根据生成的图像生成动态壁纸的方式来说，由于可以直接由用户输入相应的文本来生成相应的图像，再根据相应的图像生成相应的动态壁纸，因此，通过本申请实施例所提供的视频生成方法生成动态壁纸，可以一定程度上节省电子设备的存储空间。

在一可选地实施例中，考虑到不同用户的需求不同，可以预先通过本申请实施例提供的视频生成方法生成一些目标视频作为动态壁纸供用户选择，并提供相应的动态壁纸制作接口供用户自行制作动态壁纸，那么，通过该动态壁纸制作接口可以接收用户输入的拍摄的图像或用户输入的文本，再根据用户输入的拍摄的图像或用户输入的文本通过本申请实施例提供的视频生成方法生成目标视频作为动态壁纸。

请参阅图5，图5为本申请实施例提供的视频生成装置的结构示意图。视频生成装置200包括：图像获取模块201、区域确定模块202、光流估计模块203及视频生成模块204。

图像获取模块201，用于获取包括移动对象的图像。

区域确定模块202，用于确定所述移动对象在所述图像中所处的移动区域。

光流估计模块203，用于对所述移动区域进行光流估计，得到所述移动区域的运动场。

视频生成模块204，用于基于所述运动场及所述图像生成目标视频。

在一可选地实施例中，区域确定模块202，可以用于：通过语义分割模型对所述图像进行语义分割，以确定所述移动对象在所述图像中所处的移动区域，得到掩膜图像，其中，所述掩膜图像中与所述移动区域对应的第一区域的像素点的像素值与所述掩膜图像中除所述第一区域之外的区域的像素点的像素值不同；

光流估计模块203，可以用于：根据所述掩膜图像及所述图像，对所述移动区域进行光流估计，得到所述移动区域的运动场。

在一可选地实施例中，区域确定模块202，可以用于：确定所述图像的类别；获取与所述类别对应的语义分割模型；通过与所述类别对应的语义分割模型，对所述图像进行语义分割，得到掩膜图像。

在一可选地实施例中，所述图像包括多个移动对象，区域确定模块202，可以用于：获取输入的目标文本，所述目标文本与多个所述移动对象中的目标移动对象对应；通过与所述类别对应的语义分割模型，根据所述目标文本，对所述图像进行语义分割，以确定所述目标移动对象在所述图像中所处的目标移动区域，得到目标掩膜图像，其中，所述目标掩膜图像中与所述目标移动区域对应的第二区域的像素点的像素值与所述目标掩膜图像中除所述第二区域之外的区域的像素点的像素值不同；

光流估计模块203，可以用于：根据所述目标掩膜图像及所述图像，对所述移动区域进行光流估计，得到所述移动区域的运动场。

在一可选地实施例中，区域确定模块202，可以用于：通过屏幕显示多个候选文本，每一候选文本与一所述移动对象对应；采集人眼图像，并根据所述人眼图像，确定人眼视线在所述屏幕上的焦点位置；从多个所述候选文本中确定处于所述焦点位置的目标文本。

在一可选地实施例中，图像获取模块201，可以用于：获取输入的文本，所述输入的文本与所述移动对象对应；通过文生图模型，根据所述输入的文本，生成所述图像。

在一可选地实施例中，视频生成模块204，可以用于：基于所述运动场及所述图像，生成图像序列；通过超分算法，对所述图像序列中的每一图像进行超分处理，得到目标图像序列；基于所述目标图像序列，生成所述目标视频。

本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，当计算机程序在计算机上执行时，使得计算机执行如本实施例提供的视频生成方法。

本申请实施例还提供一种电子设备，包括存储器，处理器，处理器通过调用存储器中存储的计算机程序，用于执行本实施例提供的视频生成方法。

例如，上述电子设备可以是诸如平板电脑或者智能手机等移动终端。请参阅图6，图6为本申请实施例提供的电子设备的结构示意图。

该电子设备300可以包括处理器301、存储器302等部件。本领域技术人员可以理解，图6中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，如电子设备300还可包括屏幕。

处理器301是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器302内的应用程序，以及调用存储在存储器302内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。

存储器302可用于存储应用程序和数据。存储器302存储的应用程序中包含有可执行代码。应用程序可以组成各种功能模块。处理器301通过运行存储在存储器302的应用程序，从而执行各种功能应用以及数据处理。

在本实施例中，电子设备中的处理器301会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行代码加载到存储器302中，并由处理器301来运行存储在存储器302中的应用程序，从而实现：

获取包括移动对象的图像；

确定所述移动对象在所述图像中所处的移动区域；

基于所述运动场及所述图像生成目标视频。

在一可选地实施例中，处理器301执行所述确定所述移动对象在所述图像中所处的移动区域时，可以执行：通过语义分割模型对所述图像进行语义分割，以确定所述移动对象在所述图像中所处的移动区域，得到掩膜图像，其中，所述掩膜图像中与所述移动区域对应的第一区域的像素点的像素值与所述掩膜图像中除所述第一区域之外的区域的像素点的像素值不同；处理器301执行所述对所述移动区域进行光流估计，得到所述移动区域的运动场时，可以执行：根据所述掩膜图像及所述图像，对所述移动区域进行光流估计，得到所述移动区域的运动场。

在一可选地实施例中，处理器301执行所述通过语义分割模型对所述图像进行语义分割，得到掩膜图像时，可以执行：确定所述图像的类别；获取与所述类别对应的语义分割模型；通过与所述类别对应的语义分割模型，对所述图像进行语义分割，得到掩膜图像。

在一可选地实施例中，所述图像包括多个移动对象，处理器301执行所述通过与所述类别对应的语义分割模型，对所述图像进行语义分割，得到掩膜图像时，可以执行：获取输入的目标文本，所述目标文本与多个所述移动对象中的目标移动对象对应；通过与所述类别对应的语义分割模型，根据所述目标文本，对所述图像进行语义分割，以确定所述目标移动对象在所述图像中所处的目标移动区域，得到目标掩膜图像，其中，所述目标掩膜图像中与所述目标移动区域对应的第二区域的像素点的像素值与所述目标掩膜图像中除所述第二区域之外的区域的像素点的像素值不同；处理器301执行所述根据所述掩膜图像及所述图像，对所述移动区域进行光流估计，得到所述移动区域的运动场时，可以执行：根据所述目标掩膜图像及所述图像，对所述移动区域进行光流估计，得到所述移动区域的运动场。

在一可选地实施例中，处理器301执行所述获取输入的目标文本时，可以执行：通过屏幕显示多个候选文本，每一候选文本与一所述移动对象对应；采集人眼图像，并根据所述人眼图像，确定人眼视线在所述屏幕上的焦点位置；从多个所述候选文本中确定处于所述焦点位置的目标文本。

在一可选地实施例中，处理器301执行所述获取包括移动对象的图像时，可以执行：获取输入的文本，所述输入的文本与所述移动对象对应；通过文生图模型，根据所述输入的文本，生成所述图像。

在一可选地实施例中，处理器301执行所述基于所述运动场及所述图像生成目标视频时，可以执行：基于所述运动场及所述图像，生成图像序列；通过超分算法，对所述图像序列中的每一图像进行超分处理，得到目标图像序列；基于所述目标图像序列，生成所述目标视频。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对视频生成方法的详细描述，此处不再赘述。

本申请实施例提供的视频生成装置与上文实施例中的视频生成方法属于同一构思，在视频生成装置上可以运行视频生成方法实施例中提供的任一方法，其具体实现过程详见视频生成方法实施例，此处不再赘述。

需要说明的是，对本申请实施例视频生成方法而言，本领域普通技术人员可以理解实现本申请实施例视频生成方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，如存储在存储器中，并被至少一个处理器执行，在执行过程中可包括如视频生成方法的实施例的流程。其中，该计算机可读存储介质可为磁碟、光盘、只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)等。

可以理解的是，在本申请的具体实施方式中，涉及到用户信息，如应用使用行为数据、日志等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

对本申请实施例的视频生成装置而言，其各功能模块可以集成在一个处理芯片中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中，存储介质譬如为只读存储器，磁盘或光盘等。

以上对本申请实施例所提供的一种视频生成方法、装置、存储介质及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频生成方法，其特征在于，包括：

获取包括移动对象的图像；

确定所述移动对象在所述图像中所处的移动区域；

基于所述运动场及所述图像生成目标视频。

2.根据权利要求1所述的图像处理方法，其特征在于，所述确定所述移动对象在所述图像中所处的移动区域，包括：

通过语义分割模型对所述图像进行语义分割，以确定所述移动对象在所述图像中所处的移动区域，得到掩膜图像，其中，所述掩膜图像中与所述移动区域对应的第一区域的像素点的像素值与所述掩膜图像中除所述第一区域之外的区域的像素点的像素值不同；

所述对所述移动区域进行光流估计，得到所述移动区域的运动场，包括：

根据所述掩膜图像及所述图像，对所述移动区域进行光流估计，得到所述移动区域的运动场。

3.根据权利要求2所述的图像处理方法，其特征在于，所述通过语义分割模型对所述图像进行语义分割，得到掩膜图像，包括：

确定所述图像的类别；

获取与所述类别对应的语义分割模型；

通过与所述类别对应的语义分割模型，对所述图像进行语义分割，得到掩膜图像。

4.根据权利要求3所述的图像处理方法，其特征在于，所述图像包括多个移动对象，所述通过与所述类别对应的语义分割模型，对所述图像进行语义分割，得到掩膜图像，包括：

获取输入的目标文本，所述目标文本与多个所述移动对象中的目标移动对象对应；

通过与所述类别对应的语义分割模型，根据所述目标文本，对所述图像进行语义分割，以确定所述目标移动对象在所述图像中所处的目标移动区域，得到目标掩膜图像，其中，所述目标掩膜图像中与所述目标移动区域对应的第二区域的像素点的像素值与所述目标掩膜图像中除所述第二区域之外的区域的像素点的像素值不同；

所述根据所述掩膜图像及所述图像，对所述移动区域进行光流估计，得到所述移动区域的运动场，包括：

根据所述目标掩膜图像及所述图像，对所述移动区域进行光流估计，得到所述移动区域的运动场。

5.根据权利要求4所述的图像处理方法，其特征在于，所述获取输入的目标文本，包括：

通过屏幕显示多个候选文本，每一候选文本与一所述移动对象对应；

采集人眼图像，并根据所述人眼图像，确定人眼视线在所述屏幕上的焦点位置；

从多个所述候选文本中确定处于所述焦点位置的目标文本。

6.根据权利要求1所述的图像处理方法，其特征在于，所述获取包括移动对象的图像，包括：

获取输入的文本，所述输入的文本与所述移动对象对应；

通过文生图模型，根据所述输入的文本，生成所述图像。

7.根据权利要求1所述的图像处理方法，其特征在于，所述基于所述运动场及所述图像生成目标视频，包括：

基于所述运动场及所述图像，生成图像序列；

通过超分算法，对所述图像序列中的每一图像进行超分处理，得到目标图像序列；

基于所述目标图像序列，生成所述目标视频。

8.一种视频生成装置，其特征在于，包括：

图像获取模块，用于获取包括移动对象的图像；

9.一种计算机可读存储介质，其特征在于，所述存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行权利要求1至7任一项所述的视频生成方法。

10.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行权利要求1至7任一项所述的视频生成方法。