CN117078809A

CN117078809A - 基于图像的动效生成方法、装置、设备和存储介质

Info

Publication number: CN117078809A
Application number: CN202311078037.1A
Authority: CN
Inventors: 侯明伟
Original assignee: Ant Blockchain Technology Shanghai Co Ltd
Current assignee: Ant Blockchain Technology Shanghai Co Ltd
Priority date: 2023-08-24
Filing date: 2023-08-24
Publication date: 2023-11-17

Abstract

本申请一个或多个实施例提供一种基于图像的动效生成方法、装置、设备和存储介质，该方法包括：针对目标图像进行图像深度估计，得到与目标图像对应的目标深度图像，并将目标深度图像分割为前景深度图像和背景深度图像；生成与前景深度图像对应的前景掩膜图像和与背景深度图像对应的背景掩膜图像，并分别基于前景掩膜图像和背景掩膜图像从目标图像中提取出前景图像和背景图像；分别针对背景图像和背景深度图像中与前景图像包含的前景对象对应的区域内缺失的像素点进行图像修复；基于前景图像、前景深度图像、修复后的背景图像和修复后的背景深度图像，生成针对目标图像进行视角变换的动态效果图像。

Description

基于图像的动效生成方法、装置、设备和存储介质

技术领域

本申请一个或多个实施例涉及计算机应用技术领域，尤其涉及一种基于图像的动效生成方法、装置、设备和存储介质。

背景技术

现如今，动效已经成为数字媒体中越来越重要的表现形式。动效(MotionGraphics)是指将动画和视觉效果应用于图形设计中，通过运动、变化和交互等手段来传达信息、增加吸引力和提升用户体验的一种创作技术和媒体形式。动效可以给静态的图形元素增加生命力，使其具有动态性和表现力。动效既可以是简单的过渡效果，也可以是复杂的场景搭建和动画表现，具体形式包括图形元素的平移、旋转、缩放、透明度变化、形状变换，以及粒子效果、流体模拟等。

通常，不仅可以基于静态的图形元素生成动效，还可以基于静态的图像生成动效，例如：可以对图像中的某个区域进行缩放，或者以图像中的某个像素为中心点对整张图像进行缩放，以形成动效。动效可以使静态的图像在视觉上具有动态效果，也就将静态的图像转化成了动态效果图像。动态效果图像相对于静态的图像而言，可以给用户带来三维立体的感受，从而可以增加图像对用户的吸引力，提升用户查看图像时的体验。在这种情况下，如何基于图像生成高质量的动效，也就成为了备受关注的问题。

发明内容

本申请一个或多个实施例提供技术方案如下：

本申请提供一种基于图像的动效生成方法，所述方法包括：

针对目标图像进行图像深度估计，得到与所述目标图像对应的目标深度图像，并将所述目标深度图像分割为前景深度图像和背景深度图像；

生成与所述前景深度图像对应的前景掩膜图像和与所述背景深度图像对应的背景掩膜图像，并基于所述前景掩膜图像从所述目标图像中提取出前景图像，以及基于所述背景掩膜图像从所述目标图像中提取出背景图像；

针对所述背景图像中与所述前景图像包含的前景对象对应的区域内缺失的像素进行图像修复，以及针对所述背景深度图像中与所述前景对象对应的区域内缺失的像素进行图像修复；

基于所述前景图像、所述前景深度图像、修复后的所述背景图像和修复后的所述背景深度图像，生成针对所述目标图像进行视角变换的动态效果图像。

本申请还提供一种基于图像的动效生成装置，所述装置包括：

分割模块，针对目标图像进行图像深度估计，得到与所述目标图像对应的目标深度图像，并将所述目标深度图像分割为前景深度图像和背景深度图像；

提取模块，生成与所述前景深度图像对应的前景掩膜图像和与所述背景深度图像对应的背景掩膜图像，并基于所述前景掩膜图像从所述目标图像中提取出前景图像，以及基于所述背景掩膜图像从所述目标图像中提取出背景图像；

修复模块，针对所述背景图像中与所述前景图像包含的前景对象对应的区域内缺失的像素进行图像修复，以及针对所述背景深度图像中与所述前景对象对应的区域内缺失的像素进行图像修复；

生成模块，基于所述前景图像、所述前景深度图像、修复后的所述背景图像和修复后的所述背景深度图像，生成针对所述目标图像进行视角变换的动态效果图像。

本申请还提供一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现如上述任一项所述方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如上述任一项所述方法的步骤。

在上述技术方案中，针对待生成动效的图像，可以先得到与该图像对应的深度图像，并将该深度图像分割为前景深度图像和背景深度图像，再利用与该前景深度图像对应的前景掩膜图像从该图像中提取出前景图像，并利用与该背景深度图像对应的背景掩膜图像从该图像中提取出背景图像，然后可以分别针对该背景图像和该背景深度图像中与该前景图像包含的前景对象对应的区域内缺失的像素进行图像修复，最后可以基于该前景图像、该前景深度图像、修复后的该背景图像和修复后的该背景深度图像，生成针对该图像进行视角变换的动态效果图像。

采用上述方式，一方面，通过针对背景图像和背景深度图像进行图像修复，可以将背景图像和背景深度图像补充完整，使背景图像和背景深度图像中不再有确实的像素，从而可以保证在针对原始图像进行视角变换时，变换后的视角下的图像中不再有缺失的像素，因此可以提高生成的动态效果图像的图像质量，提升用户在查看图像时的体验；另一方面，不直接将原始图像中分割成前景图像和背景图像，而是利用分别与前景深度图像和背景深度图像对应的掩膜图像，从原始图像中提取出前景图像和背景图像，可以使前景图像和前景深度图像中的像素保持一致，并且使背景图像和背景深度图像中的像素保持一致，从而可以进一步地提高生成的动态效果图像的图像质量，提升用户在查看图像时的体验。

附图说明

下面将对示例性实施例的描述中所需要使用的附图进行说明，其中：

图1是本申请一示例性实施例示出的一种原始图像的示意图；

图2是本申请一示例性实施例示出的一种变换后的视角下的图像的示意图；

图3是本申请一示例性实施例示出的一种基于图像的动效生成流程的示意图；

图4是本申请一示例性实施例示出的一种基于图像的动效生成方法的流程图；

图5是本申请一示例性实施例示出的另一种变换后的视角下的图像的示意图；

图6是本申请一示例性实施例示出的一种设备的结构示意图；

图7是本申请一示例性实施例示出的一种基于图像的动效生成装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或者相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请一个或多个实施例相一致的所有实施方式。相反，它们仅是与本申请一个或多个实施例的一些方面相一致的例子。

需要说明的是，在其他实施例中并不一定按照本申请示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本申请所描述的更多或者更少。此外，本申请中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本申请中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

动效是指将动画和视觉效果应用于图形设计中，通过运动、变化和交互等手段来传达信息、增加吸引力和提升用户体验的一种创作技术和媒体形式。通过合理运用动效，可以达到以下效果：通过动效的变化、运动等方式，突出和强调重要信息或关键内容；通过动效的响应和交互，提供更丰富的用户体验，增加用户的参与感；动感的图像和视觉效果可以吸引用户的注意力，增加设计作品或产品的视觉冲击力；动效可以帮助设计者讲述故事，通过场景的切换、角色的动作等来传达情感和信息；等等。总而言之，动效是一种将动画和视觉效果与图形设计相结合的创作手段，通过动态的元素和效果来增强视觉表达力和用户体验。

通常，不仅可以基于静态的图形元素生成动效，还可以基于静态的图像生成动效。动效可以使静态的图像在视觉上具有动态效果，也就将静态的图像转化成了动态效果图像。动态效果图像相对于静态的图像而言，可以给用户带来三维立体的感受，从而可以增加图像对用户的吸引力，提升用户查看图像时的体验。

在实际的应用中，基于静态的图像生成的动效可以是视角变换形式的动效，即针对静态的图像进行视角变换的动态效果图像。

针对静态的图像进行视角变换得到动态效果图像，指的是根据静态的图像还原出三维场景，并通过模拟的拍摄设备从连续变换的视角对该三维场景进行拍摄，得到该三维场景在连续变换的视角下的多个图像，由这多个图像按照拍摄顺序组合成动态效果图像。其中，连续变换的视角可以包括：原始视角(即拍摄得到原始的图像时的视角)，原始视角向右偏转5度，原始视角向右偏转10度；以此类推。

在实现针对静态的图像的视角变换时，具体可以按照以下步骤进行：确定视角变换所需的参数，包括观察者的位置、朝向和视角大小等，这些参数将用于计算新的观察方向和位置；将图像中各个像素的位置坐标转换为世界坐标系或场景坐标系中的位置，可以使用逆投影技术将像素坐标映射到场景中的三维空间位置；根据视角参数和坐标转换后的像素位置，计算新的观察方向和位置。可以使用几何学方法(例如：相机模型)来计算新的观察方向和位置；使用光线追踪算法，从新的观察位置出发，追踪光线与场景中物体的交点，并计算光线的颜色值，可以采用类似于常规光线追踪算法的方式，但光线的起点和方向由视角变换后的观察位置和方向确定；根据光线追踪计算得到的颜色值，对新的观察位置的图像进行重建，可以采用插值、滤波等技术，以得到平滑和连续的视角变换结果。

通常，针对静态的图像的视角变换是基于已经渲染好的图像进行的，而不是直接在场景中进行实时计算，因此需要先进行光场渲染，生成初始的图像，再在此基础上进行视角变换。

光场渲染利用捕获到的光场数据，通过对光线的追踪和图像的重建，生成具有逼真的深度和视角效果的图像。光场渲染的过程可以包括以下几个步骤：使用特殊的相机或传感器来采集场景中的光场数据，这些数据包含了各个像素处光线的方向、强度和颜色等信息，常见的光场采集方法包括多摄像机阵列、微透镜阵列等；根据光场数据，追踪从摄像机到场景中不同物体和表面的光线路径，这包括了光线的反射、折射和遮挡等效果，可以使用光线追踪算法(例如：蒙特卡洛光线追踪算法)来模拟光线的传播过程；根据追踪到的光线路径，并通过对光线进行采样和插值，计算图像中的各个像素的像素值，常见的图像重建方法包括插值、滤波和辐射度估计等；基于光场数据，可以实现在渲染后改变观察者的视角，从而实现自由观察和交互的效果，可以通过重新计算各个像素的光线方向和位置，来改变观察者的视点。

此外，还可以采用深度学习的方式，通过训练神经网络来学习图像之间的视角变换关系。

在针对静态的图像进行视角变换时，通常需要使用深度图像(Depth Map)来辅助光线追踪和图像重建的过程。深度图像是一种灰度图像，其中各个像素的灰度值(也称为深度值)表示该像素对应的场景中的物体或表面与观察者之间的距离。也即，深度图像提供了场景中不同物体和表面的深度信息。通过深度图像，可以确定光线在场景中的传播路径和相交情况，并且可以更准确地计算视角变换后的观察方向和位置。

在实际的应用中，一个图像可以被划分包含前景对象的部分和包含背景的部分。其中，包含前景对象的部分可以被称为前景图像，包含背景的部分可以被称为背景图像。以用于记录旅游景点处的游客的图像为例，游客即为前景对象，旅游景点处的环境即为背景，仅包含游客的部分即为前景图像，不包含游客但包含旅游景点处的环境的部分即为背景图像。

通常，前景对象和背景与观察者之间的距离差别较大，也就导致前景图像与背景图像中的像素的深度值差别较大。因此，对于一个图像而言，前景图像与背景图像的交界处，也就是与这个图像对应的深度图像中的深度断层处。

在针对静态的图像进行视角变换时，变换后的视角下的图像与原始图像相比，由于前景图像和背景图像中的像素的深度值差别较大，通常会导致前景图像和背景图像的移动方向和移动距离也存在一定的差别。请参考图1和图2，图1是本申请一示例性实施例示出的一种原始图像的示意图，图2是本申请一示例性实施例示出的一种变换后的视角下的图像的示意图。如图1所示，原始图像可以被划分为前景图像和背景图像。如图2所示，该变换后的视角下的图像与原始图像相比，由于前景图像和背景图像的移动方向和移动距离存在差别，导致在与原始图像对应的深度图像中的深度断层处，前景图像与背景图像部分重叠(通常是由前景图像覆盖背景图像)，并且在前景图像和背景图像之间出现了空隙，该空隙中是缺失的像素。

相关技术中，对于变换后的视角下的图像中的空隙而言，通常会采用前景图像边缘上的像素的像素值，填充至该空隙中与缺失的像素对应的位置上，作为缺失的像素的像素值。因此，对于生成的动态效果图像而言，在与原始图像对应的深度图像中的深度断层处，会出现明显的拉伸感和违和感，从而影响用户在查看图像时的体验。

本申请一个或多个实施例提供的技术方案提供了一种用于基于图像的动效生成的技术方案，可以提高生成的动态效果图像的图像质量，提升用户在查看图像时的体验。

在具体实现时，对于待生成动效的任意一张静态的图像(可称为目标图像)而言，首先可以针对目标图像进行图像深度估计，得到与目标图像对应的深度图像(可称为目标深度图像)。

在得到了上述目标深度图像的情况下，可以将该目标深度图像分割为前景深度图像和背景深度图像，该前景深度图像即为与上述目标图像包含的前景图像对应的深度图像，该背景深度图像即为与该目标图像包含的背景图像对应的深度图像。

为了使上述前景图像和上述前景深度图像中的像素保持一致，并且使上述背景图像和上述背景深度图像中的像素保持一致，可以先生成与该前景深度图像对应的掩膜图像(可称为前景掩膜图像)，并生成与该背景深度图像对应的掩膜图像(可称为背景掩膜图像)。

在得到了上述前景掩膜图像和上述背景掩膜图像的情况下，可以基于上述前景掩膜图像从上述目标图像中提取出一个区域，这个区域即为上述前景图像。并且，可以基于上述背景掩膜图像从该目标图像中提取出另一个区域，这个区域即为上述背景图像。

在上述背景图像和上述背景深度图像中，与上述前景图像包含的前景对象对应的区域内都缺失了像素，这就会导致在针对上述目标图像进行视角变换时，变换后的视角下的图像中存在缺失的像素。因此，可以针对该背景图像中与该前景对象对应的区域内缺失的像素进行图像修复，以将该背景图像补充完整，使该背景图像中不再有缺失的像素。并且，可以针对该背景深度图像中与该前景对象对应的区域内缺失的像素进行图像修复，以将该背景深度图像补充完整，使该背景深度图像中不再有缺失的像素。

在得到了上述前景图像、上述前景深度图像、修复后的上述背景图像和修复后的上述背景深度图像的情况下，可以进一步地基于该前景图像、该前景深度图像、修复后的该背景图像和修复后的该背景深度图像，生成针对上述目标图像进行视角变换的动态效果图像。

下面对本申请一个或多个实施例提供的用于基于图像的动效生成的技术方案进行描述。

请参考图3，图3是本申请一示例性实施例示出的一种基于图像的动效生成流程的示意图。

如图3所示，在上述基于图像的动效生成流程中，首先可以针对静态的图像进行图像深度估计，得到与该图像对应的深度图像。

然后，可以针对上述深度图像进行图像分割，以将该深度图像分割为与前景图像对应的前景深度图像，以及与背景图像对应的背景深度图像；并且，可以基于该前景深度图像生成前景掩膜图像，并基于该背景深度图像生成背景掩膜图像。

再然后，可以将上述图像分割为上述前景图像和上述背景图像。具体地，可以基于上述前景掩膜图像从该图像中提取出该前景图像，并基于上述背景掩膜图像从该图像中提取出该背景图像。如图1所示，前景图像的大小取决于前景对象的大小，或者可以认为前景图像的大小与原始图像的大小相同，但其中与背景对应的区域内缺失了像素；背景图像的大小与原始图像的大小相同，但其中与前景对象对应的区域内缺失了像素。类似地，前景深度图像的大小取决于前景对象的大小，或者可以认为前景深度图像的大小与原始图像对应的深度图像的大小相同，但其中与背景对应的区域内缺失了像素；背景深度图像的大小与原始深度图像对应的深度图像的大小相同，但其中与前景对象对应的区域内缺失了像素。

再然后，可以针对上述背景图像中缺失的像素进行图像修复，并针对上述背景深度图像中缺失的像素进行图像修复，以将该背景图像和该背景深度图像补充完整，使该背景图像和该背景深度图像中不再有缺失的像素。

最后，可以基于上述前景图像、上述前景深度图像、补充完整的上述背景图像、补充完整的上述背景深度图像，生成与原始图像对应的动态效果图像，具体可以是针对原始图像进行视角变换的动态效果图像。

请结合图3，参考图4，图4是本申请一示例性实施例示出的一种基于图像的动效生成方法的流程图。

在本实施例中，上述基于图像的动效生成方法可以应用于服务器。其中，该服务器可以是包含一台独立的物理主机的服务器，也可以是由多台互相独立的物理主机构成的服务器集群；或者，该服务器可以是由主机集群承载的虚拟服务器、云服务器等。

或者，上述基于图像的动效生成方法可以应用于台式计算机、笔记本电脑、掌上电脑(PDAs，Personal Digital Assistants)、平板设备等，具有一定的计算能力的电子设备上。

上述基于图像的动效生成方法可以包括以下步骤：

步骤402：针对目标图像进行图像深度估计，得到与所述目标图像对应的目标深度图像，并将所述目标深度图像分割为前景深度图像和背景深度图像。

在本实施例中，对于待生成动效的任意一张静态的图像(可称为目标图像)而言，首先可以针对目标图像进行图像深度估计，得到与目标图像对应的深度图像(可称为目标深度图像)。

为了得到与上述目标图像对应的上述目标深度图像，具体可以基于一定的图像深度估计算法，针对该目标图像进行图像深度估计，以得到该目标深度图像。例如，可以使用计算机视觉算法来估计图像的深度。这些算法主要基于图像间的纹理、像素间的视差等信息。其中一种常见的方法是使用双目视觉系统，利用两个摄像头拍摄同一场景的图像，然后通过视差计算反推出深度信息。此外，还有基于单目图像的深度估计方法，如基于光流、基于结构体和基于神经网络等。

在一些实施例中，可以将Midas(Monocular depth estimation in real-timewith Adaptive Scale Invariance，实时自适应尺度不变的单目深度估计)算法作为行数图像深度估计算法。也即，可以基于Midas算法，针对上述目标图像进行图像深度估计，得到与该目标图像对应的上述目标深度图像。

需要说明的是，Midas算法是一种计算机视觉领域的算法，用于图像深度估计。具体地，Midas算法可以用于针对单目图像进行图像深度估计。其中，单目图像指的是仅使用一张彩色图像(即RGB图像)进行处理或分析的图像；通过使用单目图像，可以利用图像中的颜色、纹理、形状等特征来进行物体检测和分类，还可以进行对相机的姿态估计，即估计相机在三维空间中的位置和方向。

Midas算法的目标是从单目图像中预测各个像素的深度信息，而无需使用额外的深度传感器或多张图像。它基于卷积神经网络(Convolutional Neural Networks，CNN)，通过训练模型来学习从单目图像中预测场景中的物体或表面与观察者之间的距离。例如，可以将被标注了各个像素的深度值的单目图像作为训练样本，对预先构建的卷积神经网络进行有监督训练，得到训练好的卷积神经网络，后续即可由训练好的卷积神经网络预测单目图像中各个像素的深度值。

Midas算法具有尺度不变性，这意味着它能够自适应地处理不同尺度的图像，从小尺度的细节到大尺度的整体结构，都能得到准确的深度估计结果。此外，Midas算法还具有实时性，它能够在实时环境中进行深度估计，使得在移动设备等资源受限的设备上也能运行，并以较低的延迟提供即时的深度信息。

如前所述，一个图像可以被划分为前景图像和背景图像，并且由于前景对象和背景与观察者之间的距离差别较大，导致前景图像与背景图像中的像素的深度值差别较大。因此，与这个图像对应的深度图像类似地可以被划分为与前景图像对应的深度图像，以及与背景图像对应的深度图像。

在将上述目标深度图像分割为上述前景深度图像和上述背景深度图像时，具体可以基于一定的图像分割算法(例如：基于阈值的图像分割算法、基于边缘提取的图像分割算法，或者基于形态学的图像分割算法等)，针对该目标深度图像进行图像分割，以将该目标深度图像分割为该前景深度图像和该背景深度图像。

在一些实施例中，可以将Agglomerative Clustering(凝聚层次聚类)算法作为上述图像分割算法。也即，可以基于Agglomerative Clustering算法，针对上述目标深度图像进行像素聚类，以从该目标深度图像包含的所有像素中聚类出与前景对象对应的像素，以及与背景对应的像素；此时，可以将该目标深度图像中与前景对象对应的像素所在的区域作为上述前景深度图像，即由与前景对象对应的像素组成该前景深度图像，并将该目标深度图像中与背景对应的像素所在的区域作为上述背景深度图像，即由与背景对应的像素组成该背景深度图像。

需要说明的是，聚类算法是一种无监督学习算法，用于将数据点划分为具有相似特征的簇。Agglomerative Clustering算法的核心思想是从每个数据点开始，逐步合并最相似的数据点或簇，形成越来越大的簇。它以自底向上的方式进行操作，直到所有的数据点都被合并为一个簇，或者满足预设的停止条件。

Agglomerative Clustering算法的步骤如下：将每个数据点视为一个独立的簇；计算每两个数据点之间的相似度或距离；选择相似度最高的两个簇进行合并，形成一个新的簇；更新相似度矩阵以反映新簇与其他簇之间的相似度；重复执行合并和更新的步骤，直到满足停止条件(例如：达到预设的簇数目或相似度阈值)；返回最终的聚类结果。其中，相似度的度量方式可以是欧氏距离、曼哈顿距离、相关性等；同时，还可以选择不同的连接方式，如单链接、完全链接或均值链接等，来决定如何计算簇与簇之间的相似度。

步骤404：生成与所述前景深度图像对应的前景掩膜图像和与所述背景深度图像对应的背景掩膜图像，并基于所述前景掩膜图像从所述目标图像中提取出前景图像，以及基于所述背景掩膜图像从所述目标图像中提取出背景图像。

在本实施例中，为了使上述前景图像和上述前景深度图像中的像素保持一致，并且使上述背景图像和上述背景深度图像中的像素保持一致，可以不直接针对上述目标图像进行图像分割，以将该目标图像分割为前景图像和背景图像，而是先生成与该前景深度图像对应的掩膜图像(可称为前景掩膜图像)，并生成与该背景深度图像对应的掩膜图像(可称为背景掩膜图像)。

掩膜(Mask)图像用于选择与之对应的另一个图像的特定区域。掩膜由像素值为0或1的像素组成，像素值为0表示相应位置的像素将被屏蔽或忽略，像素值1表示相应位置的像素将被考虑或保留。通过将掩膜应用于与之对应的另一个图像，可以选择性地从这个图像中提取出感兴趣的区域。

在得到了上述前景掩膜图像和上述背景掩膜图像的情况下，可以基于上述前景掩膜图像从上述目标图像中提取出一个区域，这个区域即为上述前景图像。并且，可以基于上述背景掩膜图像从该目标图像中提取出另一个区域，这个区域即为上述背景图像。具体地，可以基于该前景掩膜图像包含的像素值为1的像素，从上述目标图像中提取出应位置的像素，组成该前景图像；同理，可以基于该背景掩膜图像包含的像素值为1的像素，从该目标图像中提取出对应位置的像素，组成该背景图像。

在一些实施例中，在基于上述前景掩膜图像从上述目标图像中提取出上述前景图像时，为了提高像素提取效率，具体可以将该前景掩膜图像与该目标图像进行点乘运算，并将点乘运算结果(该点乘运算结果实际上也是图像)确定为从该目标图像中提取出的该前景图像。

图像的点乘运算是一种将对应位置的像素的像素值相乘的操作。以大小相同的图像A和图像B为例，如果图像A中的像素1A与图像B中的像素1B为对应位置的像素，则说明像素1A在图像A中的位置与像素1B在图像B中的位置相同，例如：像素1A为图像A中第m行第n列的像素，像素1B为图像B中第m行第n列的像素。图像的点乘运算的数学表示为：C(i,j)＝A(i,j)*B(i,j)；C(i,j)表示作为点乘运算结果的图像C中第i行第j列的像素的像素值，A(i,j)表示图像A中第i行第j列的像素的像素值，B(i,j)表示图像B中第i行第j列的像素的像素值。假设图像A和图像B均为大小为2*1的图像，图像A仅包含一行像素，这一行像素具体包含两个像素，从左到右分别为像素1A和像素2A，图像B也仅包含一行像素，这一行像素具体包含两个像素，从左到右分别为像素1B和像素2B，则图像A与图像B进行点乘运算得到的图像也仅包含一行像素，这一行像素具体包含两个像素，从左到右分别为像素1和像素2，其中像素1的像素值＝像素1A的像素值*像素1B的像素值，像素2的像素值＝像素2A的像素值*像素2B的像素值。

由于上述前景掩膜图像包含的像素的像素值为0或1，对于上述目标图像中的某个像素而言，如果该前景掩膜图像中对应位置的像素的像素值为0，则上述点乘运算结果中对应位置的像素的像素值为0，如果该前景掩膜图像中对应位置的像素的像素值为1，则该点乘运算结果中对应位置的像素的像素值保持不变。因此，该点乘运算结果就可以作为上述前景图像。

同理，在基于上述背景掩膜图像从上述目标图像中提取出上述背景图像时，可以将该背景掩膜图像与该目标图像进行点乘运算，并将点乘运算结果确定为从该目标图像中提取出的该背景图像。

步骤406：针对所述背景图像中与所述前景图像包含的前景对象对应的区域内缺失的像素进行图像修复，以及针对所述背景深度图像中与所述前景对象对应的区域内缺失的像素进行图像修复。

如前所述，背景图像的大小与原始图像的大小相同，但其中与前景对象对应的区域内缺失了像素；类似地，背景深度图像的大小与原始深度图像对应的深度图像的大小相同，但其中与前景对象对应的区域内缺失了像素。

在本实施例中，在上述背景图像和上述背景深度图像中，与上述前景图像包含的前景对象对应的区域内都缺失了像素，这就会导致在针对上述目标图像进行视角变换时，变换后的视角下的图像中存在缺失的像素。因此，可以针对该背景图像中与该前景对象对应的区域内缺失的像素进行图像修复，以将该背景图像补充完整，使该背景图像中不再有缺失的像素。并且，可以针对该背景深度图像中与该前景对象对应的区域内缺失的像素进行图像修复，以将该背景深度图像补充完整，使该背景深度图像中不再有缺失的像素。可以根据实际的需求，采用一定的图像修复方式，针对该背景图像和该背景深度图像进行图像修复。

在一些实施例中，在针对上述背景图像中与上述前景对象对应的区域内缺失的像素进行图像修复时，可以将上述前景掩膜图像作为辅助，来辅助确定该背景图像中缺失的像素的数量和位置等相关信息。具体地，可以先基于该前景掩膜图像，确定该背景图像中与该前景对象对应的区域内缺失的像素，再针对这些缺失的像素中的任一像素(可称为第一目标像素)，基于该背景图像中与该第一目标像素关联的像素的像素值，预测该第一目标像素的像素值(例如：取与该第一目标像素关联的像素的像素值的平均值)，并将预测出的像素值填充至该背景图像中与该第一目标像素对应的位置。其中，与该第一目标像素关联的像素，可以是与第一目标像素相邻的像素；例如，假设以正方形表示图像中的像素，则在图像中与某个像素相邻的像素，即为边与这个像素的边相接的4个像素。

同理，在针对上述背景深度图像中与上述前景对象对应的区域内缺失的像素进行图像修复时，具体可以先基于上述前景掩膜图像，确定该背景深度图像中与该前景对象对应的区域内缺失的像素，再针对这些缺失的像素中的任一像素(可称为第二目标像素)，基于该背景深度图像中与该第二目标像素关联的像素的像素值，预测该第二目标像素的像素值，并将预测出的像素值填充至该背景深度图像中与该第二目标像素对应的位置。

在一些实施例中，也可以采用机器学习算法，构建机器学习模型，由该机器学习模型针对上述背景图像和上述背景深度图像中与上述前景对象对应的区域内缺失的像素进行图像修复。通过构建机器学习模型，由机器学习模型执行图像修复的工作，可以提升图像修复的效率，并提高图像修复的准确度。

在针对上述背景图像中与上述前景对象对应的区域内缺失的像素进行图像修复时，具体可以将该背景图像和上述前景掩膜图像输入上述机器学习模型(可称为图像修复模型)，由该图像修复模型基于该背景图像和该前景掩膜图像，针对该背景图像中与该前景对象对应的区域内缺失的像素进行图像修复。

同理，在针对上述背景深度图像中与上述前景对象对应的区域内缺失的像素进行图像修复时，具体可以将该背景深度图像和上述前景掩膜图像输入上述图像修复模型，以使该图像修复模型基于该背景深度图像和该前景掩膜图像，针对该背景深度图像中与该前景对象对应的区域内缺失的像素进行图像修复。

需要说明的是，构建的机器学习模型进行图像修复的核心思想可以如前所述，先基于掩膜图像确定待修复的图像中缺失的像素，再针对这些缺失的像素中的任一像素，基于待修复的图像中与该像素关联的像素的像素值，预测该像素的像素值，并将预测出的像素值填充至待修复的图像中与该像素对应的位置。

在一些实施例中，上述图像修复模型具体可以是基于生成对抗网络(GenerativeAdversarial Networks，GAN)构建的机器学习模型。

生成对抗网络是一种深度学习模型架构，由生成器(Generator)和判别器(Discriminator)两个部分组成。其目标是通过生成器和判别器的对抗训练，使得生成器能够生成逼真的样本数据。其工作原理如下：生成器接收一个随机噪声向量(通常服从某种分布)，并将其映射为一张合成的样本图像，生成器旨在生成与真实样本相似的样本图像；判别器是一个二分类模型，用于评估输入图像是真实样本还是生成器生成的样本，判别器的目标是尽可能准确地区分真实样本和生成样本；在训练过程中，生成器和判别器相互博弈，生成器的目标是生成越来越逼真的样本，以迷惑判别器，而判别器的目标是尽可能准确地区分真实样本和生成样本；通过交替训练生成器和判别器，不断优化两者之间的对抗关系，生成器通过反向传播的梯度信号逐渐改进生成质量，而判别器则通过对生成样本和真实样本的分类准确性进行训练；当生成器和判别器达到动态平衡状态时，生成器能够生成更加逼真的样本，判别器则变得越来越难以区分真实样本和生成样本。

在上述图像修复模型是基于生成对抗网络构建的机器学习模型的情况下，该图像修复模型类似地可以包含生成器和判别器。

上述生成器可以用于基于上述背景图像和上述前景掩膜图像，生成修复后的该背景图像，并基于上述背景深度图像和该前景掩膜图像，生成修复后的该背景深度图像。该生成器的目标是学习如何根据输入信息补全缺失的像素，并生成逼真的细节和纹理。该生成器可以采用编码器-解码器(Encoder-Decoder)结构，并使用卷积神经网络(ConvolutionalNeural Networks，CNN)处理图像特征。其中，编码器负责将待修复的图像和掩膜图像转换为低维的特征表示，捕捉待修复的图像的上下文信息，解码器负责将特征表示解码并生成修复后的完整图像。该生成器不断优化以最大程度地减小修复图像与真实图像之间的差距。

上述判别器可以用于判别生成的修复后的上述背景图像是否为真实的图像，并判别生成的修复后的上述背景深度图像是否为真实的图像。该判别器是一个用于区分生成的修复图像和真实完整图像的二分类器，它的目标是学习区分哪些图像是真实的、完整的图像，哪些是通过上述生成器生成的图像。该判别器可以采用卷积神经网络结构，并输出表示输入该判别器的图像是真实图像的概率。

上述生成器通过生成逼真的修复图像来欺骗上述判别器，而该判别器则通过尽可能准确地区分生成的图像和真实的图像来指导生成器的训练。

在一些实施例中，上述生成器可以包含门控卷积(Gated Convolution)层。具体地，该生成器中的编码器和解码器都可以包含门控卷积层。

门控卷积是一种卷积操作，它引入了门控机制以选择性地过滤和调整特征表示。门控卷积的作用是在特征图上引入更加灵活的非线性响应，并增强模型对不完整输入的建模能力。这种机制允许模型自动学习有效的滤波和调整输入特征，从而提高修复图像的质量和准确性。

具体地，门控卷积层可以通过两个并行的卷积层来实现，第一个卷积层被称为卷积(Convolution)层，负责生成特征图，第二个卷积层被称为门控(Gate)层，负责生成一个0到1之间的激活门限值，用于选择性地适用卷积层的输出。通过将卷积层和门控层的输出相乘，门控卷积层可以生成一个经过选择性调节的特征图。

在一些实施例中，上述生成器可以是基于注意力机制(Attention Mechanism)的生成器。

引入注意力机制可以帮助上述生成器更好地理解待修复的图像的上下文信息，并生成高质量的修复图像。注意力机制允许该生成器在生成修复像素时聚焦于图像的相关区域，从而提高图像修复的效果。

具体地，上述生成器可以采用一种称为Contextual Attention的注意力机制。这种机制通过在编码器和解码器之间引入一个注意力模块，使该生成器能够根据待修复的图像和已生成的部分修复内容，动态地选择和聚焦于合适的上下文区域。

在一些实施例中，上述图像修复模型具体可以是DeepFillv2模型。

DeepFillv2模型是一种基于深度学习的图像修复模型，用于自动填补图像中的缺失或损坏区域，使图像看起来更加完整和自然。

DeepFillv2采用了生成对抗网络的结构，其中包括一个生成器网络和一个判别器网络。生成器负责预测并生成修复图像，而判别器则尝试区分真实的图像与生成的修复图像，促使生成器生成更逼真的结果。

步骤408：基于所述前景图像、所述前景深度图像、修复后的所述背景图像和修复后的所述背景深度图像，生成针对所述目标图像进行视角变换的动态效果图像。

在本实施例中，在得到了上述前景图像、上述前景深度图像、修复后的上述背景图像和修复后的上述背景深度图像的情况下，可以进一步地基于该前景图像、该前景深度图像、修复后的该背景图像和修复后的该背景深度图像，生成针对上述目标图像进行视角变换的动态效果图像。

在一些实施例中，在生成针对上述目标图像进行视角变换的动态效果图像时，具体可以基于上述前景深度图像，确定针对上述前景图像进行视角变换的动态效果图像(可称为第一动态效果图像)，并基于上述背景深度图像，确定针对上述背景图像进行视角变换的动态效果图像(可称为第二动态效果图像)，最后可以对该第一动态效果图像和该第二动态效果图像进行图像叠加，得到针对该目标图像进行视角变换的动态效果图像。

也即，针对上述背景深度图像中与上述前景对象对应的区域内缺失的像素进行图像修复，是为了实现针对上述背景图像中与该前景对象对应的区域(该区域内缺失的像素也经过了图像修复)的视角变换。

如前所述，动态效果图像实际上是由多个图像按照拍摄顺序组合成的。

需要说明的是，上述第一动态效果图像和上述第二动态效果图像包含的图像的数量相同。而在对该第一动态效果图像和该第二动态效果图像进行图像叠加时，是对该第一动态效果图像和该第二动态效果图像包含的对应顺序的图像进行图像叠加。假设该第一动态效果图像中的图像1A与该第二动态效果图像中的图像1B为对应顺序的图像，则说明图像1A在该第一动态效果图像包含的多个图像中的顺序，与图像1B在该第二动态效果图像包含的多个图像中的顺序相同，例如：图像1A为该第一动态效果图像包含的多个图像中的第m个图像，图像1B为该第二动态效果图像包含的多个图像中的第m个图像。

此外，在对上述第一动态效果图像和上述第二动态效果图像进行图像叠加时，始终由前景图像覆盖背景图像。

需要说明的是，在生成针对上述目标图像进行视角变换的动态效果图像时，也可以先对上述前景图像和修复后的上述背景图像进行图像融合，并对上述前景深度图像和修复后的上述背景深度图像进行图像融合。对于融合后的图像和融合后的深度图像而言，该前景图像和修复后的该背景图像重叠的区域内的像素具有两个像素值，分别为该前景图像中对应位置的像素的像素值，以及修复后的该背景图像中对应位置的像素的像素值；同理，该前景深度图像和修复后的该背景深度图像重叠的区域内的像素也具有两个像素值，分别为该前景深度图像中对应位置的像素的像素值，以及修复后的该背景深度图像中对应位置的像素的像素值。

在这种情况下，可以基于融合后的图像和融合后的深度图像，生成针对上述目标图像进行视角变换的动态效果图像。

请参考图5，图5是本申请一示例性实施例示出的另一种变换后的视角下的图像的示意图。如图5所示，在该变换后的视角下的图像中，空隙中缺失的像素已经通过图像修复补充完整，因此不再有缺失的像素。

与前述基于图像的动效生成方法的实施例相对应，本申请还提供了基于图像的动效生成装置的实施例。

请参考图6，图6是本申请一示例性实施例示出的一种设备的结构示意图。在硬件层面，该设备包括处理器602、内部总线604、网络接口606、内存608以及非易失性存储器610，当然还可能包括所需要的其他硬件。本申请一个或多个实施例可以基于软件方式来实现，比如由处理器602从非易失性存储器610中读取对应的计算机程序到内存608中然后运行。当然，除了软件实现方式之外，本申请一个或多个实施例并不排除其他实现方式，比如逻辑器件或者软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑模块，也可以是硬件或者逻辑器件。

请参考图7，图7是本申请一示例性实施例示出的一种基于图像的动效生成装置的框图。

上述基于图像的动效生成装置可以应用于图6所示的设备，以实现本申请的技术方案。

其中，该基于图像的动效生成装置可以包括：

分割模块702，针对目标图像进行图像深度估计，得到与所述目标图像对应的目标深度图像，并将所述目标深度图像分割为前景深度图像和背景深度图像；

提取模块704，生成与所述前景深度图像对应的前景掩膜图像和与所述背景深度图像对应的背景掩膜图像，并基于所述前景掩膜图像从所述目标图像中提取出前景图像，以及基于所述背景掩膜图像从所述目标图像中提取出背景图像；

修复模块706，针对所述背景图像中与所述前景图像包含的前景对象对应的区域内缺失的像素进行图像修复，以及针对所述背景深度图像中与所述前景对象对应的区域内缺失的像素进行图像修复；

生成模块708，基于所述前景图像、所述前景深度图像、修复后的所述背景图像和修复后的所述背景深度图像，生成针对所述目标图像进行视角变换的动态效果图像。

可选地，所述针对目标图像进行图像深度估计，得到与所述目标图像对应的目标深度图像，包括：

基于Midas算法针对目标图像进行图像深度估计，得到与所述目标图像对应的目标深度图像。

可选地，所述将所述目标深度图像分割为前景深度图像和背景深度图像，包括：

基于Agglomerative Clustering算法针对所述目标深度图像进行像素聚类，以从所述目标深度图像中聚类出由与前景对象对应的像素组成的前景深度图像，以及由与背景对应的像素组成的背景深度图像。

可选地，所述基于所述前景掩膜图像从所述目标图像中提取出前景图像，包括：

将所述前景掩膜图像与所述目标图像进行点乘运算，并将点乘运算结果确定为从所述目标图像中提取出的前景图像；

所述基于所述背景掩膜图像从所述目标图像中提取出背景图像，包括：

将所述背景掩膜图像与所述目标图像进行点乘运算，并将点乘运算结果确定为从所述目标图像中提取出的背景图像。

可选地，所述针对所述背景图像中与所述前景图像包含的前景对象对应的区域内缺失的像素进行图像修复，包括：

基于所述前景掩膜图像，确定所述背景图像中与所述前景图像包含的前景对象对应的区域内缺失的像素；

针对所述缺失的像素中的任一目标像素，基于所述背景图像中与所述目标像素关联的像素的像素值，预测所述目标像素的像素值，并将预测出的像素值填充至所述背景图像中与所述目标像素对应的位置；

所述针对所述背景深度图像中与所述前景对象对应的区域内缺失的像素进行图像修复，包括：

基于所述前景掩膜图像，确定所述背景深度图像中与所述前景对象对应的区域内缺失的像素；

针对所述缺失的像素中的任一目标像素，基于所述背景深度图像中与所述目标像素关联的像素的像素值，预测所述目标像素的像素值，并将预测出的像素值填充至所述背景深度图像中与所述目标像素对应的位置。

将所述背景图像和所述前景掩膜图像输入图像修复模型，以使所述图像修复模型基于所述背景图像和所述前景掩膜图像，针对所述背景图像中与所述前景图像包含的前景对象对应的区域内缺失的像素进行图像修复；

将所述背景深度图像和所述前景掩膜图像输入图像修复模型，以使所述图像修复模型基于所述背景深度图像和所述前景掩膜图像，针对所述背景深度图像中与所述前景对象对应的区域内缺失的像素进行图像修复。

可选地，所述图像修复模型为基于生成对抗网络构建的机器学习模型；所述图像修复模型包含生成器和判别器；所述生成器用于基于所述背景图像和所述前景掩膜图像，生成修复后的所述背景图像，并基于所述背景深度图像和所述前景掩膜图像，生成修复后的所述背景深度图像；所述判别器用于判别生成的修复后的所述背景图像是否为真实的图像，并判别生成的修复后的所述背景深度图像是否为真实的图像。

可选地，所述生成器包含门控卷积层。

可选地，所述生成器为基于注意力机制的生成器。

可选地，所述图像修复模型为DeepFillv2模型。

可选地，所述生成针对所述目标图像进行视角变换的动态效果图像，包括：

基于所述前景深度图像，确定针对所述前景图像进行视角变换的第一动态效果图像；

基于所述背景深度图像，确定针对所述背景图像进行视角变换的第二动态效果图像；

对所述第一动态效果图像和所述第二动态效果图像进行图像叠加，得到针对所述目标图像进行视角变换的动态效果图像。

对于装置实施例而言，其基本对应于方法实施例，因此相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请的技术方案的目的。

上述实施例阐明的系统、装置、模块或者单元，具体可以由计算机芯片或者实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

在一个典型的配置中，计算机包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或者闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或者技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或者其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或者其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或者其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或者其他磁性存储设备或者任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

上述对本申请特定实施例进行了描述。其他实施例在本申请的范围内。在一些情况下，在本申请中记载的动作或者步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在本申请一个或多个实施例中所使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请一个或多个实施例。单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。术语“和/或”是指并包含一个或多个相关联的列出项目的任何或者所有可能组合。

在本申请一个或多个实施例中所使用的术语“一个实施例”、“一些实施例”、“示例”、“具体示例”或者“一种实施方式”等的描述意指结合该实施例所描述的具体特征或者特点包含于本申请的至少一个实施例中。对这些术语的示意性描述不必须针对相同的实施例。而且，所描述的具体特征或者特点可以在本申请一个或多个实施例中以合适的方式结合。此外，在不相互矛盾的情况下，可以将不同的实施例以及不同实施例中的具体特征或者特点进行结合。

应当理解，尽管在本申请一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请一个或多个实施例范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或者“当……时”或者“响应于确定”。

以上所述仅为本申请一个或多个实施例的较佳实施例而已，并不用以限制本申请一个或多个实施例，凡在本申请一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请一个或多个实施例保护的范围之内。

本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

Claims

1.一种基于图像的动效生成方法，所述方法包括：

2.根据权利要求1所述的方法，所述针对目标图像进行图像深度估计，得到与所述目标图像对应的目标深度图像，包括：

3.根据权利要求1所述的方法，所述将所述目标深度图像分割为前景深度图像和背景深度图像，包括：

4.根据权利要求1所述的方法，所述基于所述前景掩膜图像从所述目标图像中提取出前景图像，包括：

5.根据权利要求1所述的方法，所述针对所述背景图像中与所述前景图像包含的前景对象对应的区域内缺失的像素进行图像修复，包括：

6.根据权利要求5所述的方法，所述针对所述背景图像中与所述前景图像包含的前景对象对应的区域内缺失的像素进行图像修复，包括：

7.根据权利要求6所述的方法，所述图像修复模型为基于生成对抗网络构建的机器学习模型；所述图像修复模型包含生成器和判别器；所述生成器用于基于所述背景图像和所述前景掩膜图像，生成修复后的所述背景图像，并基于所述背景深度图像和所述前景掩膜图像，生成修复后的所述背景深度图像；所述判别器用于判别生成的修复后的所述背景图像是否为真实的图像，并判别生成的修复后的所述背景深度图像是否为真实的图像。

8.根据权利要求7所述的方法，所述生成器包含门控卷积层。

9.根据权利要求7所述的方法，所述生成器为基于注意力机制的生成器。

10.根据权利要求7所述的方法，所述图像修复模型为DeepFillv2模型。

11.根据权利要求1所述的方法，所述生成针对所述目标图像进行视角变换的动态效果图像，包括：

12.一种基于图像的动效生成装置，所述装置包括：

13.一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现如权利要求1至11中任一项所述的方法。

14.一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如权利要求1至11中任一项所述的方法。