CN114170349A

CN114170349A - 图像生成方法、装置、电子设备及存储介质

Info

Publication number: CN114170349A
Application number: CN202010947268.1A
Authority: CN
Inventors: 安世杰; 张渊; 郑文
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-09-10
Filing date: 2020-09-10
Publication date: 2022-03-11
Also published as: WO2022052620A1

Abstract

本公开提供了一种图像生成方法、装置、电子设备及存储介质，涉及图像处理技术领域。方法包括：确定第一图像中第一图像区域的第一深度信息和第二图像区域的第二深度信息，第一图像区域为目标对象所在的图像区域，第二图像区域为除目标对象以外的背景图像所在的区域；根据第二图像区域的图像数据，替换第一图像区域的图像数据，得到第二图像；对第二图像中的第三图像区域进行深度填充，得到第三图像区域的第三深度信息；根据第一深度信息和第三深度信息，将第一图像区域中的图像数据融合至深度填充后的第二图像中，得到第三图像。这样，在视角变换时，能够填补背景空洞的，防止目标对象的边界处出现扭曲或缺失，优化生成的三维图像的图像效果。

Description

图像生成方法、装置、电子设备及存储介质

技术领域

本公开涉及图像处理技术领域，特别涉及一种图像生成方法、装置、电子设备及存储介质。

背景技术

随着图像处理技术的发展，用户能随时随地拍摄照片，而用户在查看拍摄照片时，只能查看到平面的静态景物和人像，如果用户希望查看三维的动态效果的图像，需要依靠后期制作，或者拍摄视频来实现。

相关技术中，为了使用户能够查看三维效果的图像，常基于双目视觉的深度估计法，通过双摄相机拍摄同一场景的不同角度的图像，确定不同角度的图像的差异，将不同角度的图像的差异转化成图像中目标对象的深度信息(目标对象距离成像点的距离)，根据该深度信息重建图像的三维网格(mesh)结构，通过选择固定的角度，将三维网格结构的图像对应的视角进行旋转、平移或缩放等计算，再将该计算好的三维网格结构映射到平面图像上，得到三维图像显示效果。

上述相关技术中，只是将不同角度的图像进行融合，并没有对背景区域进行处理，导致图像中的人像发生角度变化时，会使背景区域出现扭曲或缺失，导致图像的人工痕迹明显。

发明内容

本公开实施例提供了一种图像生成方法、装置、电子设备及存储介质，能够优化生成的三维图像的图像效果。所述技术方案如下：

根据本公开实施例的一方面，提供了一种图像生成方法，所述方法包括：

确定第一图像中第一图像区域的第一深度信息和第二图像区域的第二深度信息，所述第一图像区域为目标对象所在的图像区域，所述第二图像区域为所述第一图像中除所述目标对象以外的背景图像所在的区域；

根据所述第二图像区域的图像数据，替换所述第一图像中的第一图像区域的图像数据，得到第二图像；

根据所述第二深度信息，对所述第二图像中的第三图像区域进行深度填充，得到所述第三图像区域的第三深度信息，所述第三图像区域为与所述第一图像区域对应的图像区域；

根据所述第一深度信息和所述第三深度信息，将所述第一图像区域中的图像数据融合至深度填充后的所述第二图像中，得到第三图像。

在一些实施例中，所述根据所述第一深度信息和所述第三深度信息，将所述第一图像区域中的图像数据融合至深度填充后的所述第二图像中，得到第三图像，包括：

基于所述第一图像区域的图像数据创建第一三维模型，所述第一三维模型为所述目标对象对应的三维模型；

基于深度填充后的所述第二图像创建第二三维模型，所述第二三维模型为所述背景图像对应的三维模型；

基于所述第一深度信息和所述第三深度信息，将所述第一三维模型和所述第二三维模型对应的像素信息进行融合，得到所述第三图像，其中，所述第一三维模型对应的像素点在所述第三图像中映射的深度信息为所述第一深度信息，所述第二三维模型对应的像素点在所述第三图像中映射的深度信息为所述第三深度信息。

在一些实施例中，所述基于所述第一深度信息和所述第三深度信息，将所述第一三维模型和所述第二三维模型的像素信息进行融合，得到所述第三图像，包括：

从所述第一三维模型中确定所述目标对象的每个像素点的深度信息，所述每个像素点的深度信息以所述目标对象的目标关键点的深度信息为基准，所述目标关键点为所述目标对象的任一关键点；

确定所述目标对象的目标关键点在所述第二三维模型中对应的目标像素点；

将所述目标关键点的像素信息和所述目标关键点对应的第一深度信息赋值给所述目标像素点；

根据所述目标关键点与所述目标对象中其他像素点的位置关系，确定所述目标对象中其他像素点在所述第二三维模型中对应的像素位置；

将所述第一三维模型中，其他像素点的像素信息和所述其他像素点对应的第三深度信息赋值给所述将第二三维模型中对应的像素位置的像素点，得到第三图像。

在一些实施例中，所述根据所述第二图像区域的图像数据，替换所述第一图像中的第一图像区域的图像数据，得到第二图像，包括：

通过图像分割模型对所述第一图像进行图像分割，确定所述第一图像区域对应的区域轮廓；

去除所述第一图像中所述区域轮廓内的所述第一图像区域对应的图像数据；

将所述第二图像区域的图像数据输入至图像补全模型，得到所述第二图像，所述图像补全模型用于对所述第一图像区域的像素值进行背景填充。

在一些实施例中，所述方法还包括：

获取多个第一图像集合，每个第一图像集合对应一个图像类别；

对于每个第一图像集合，根据第一数量和第二数量，确定所述第一图像集合的采样权重，所述第一数量为第一图像集合中包括的样本图像的数量，所述第二数量为所述多个第一图像集合中包括的样本图像的总数量，所述采样权重与所述第二数量正相关，且所述采样权重与所述第一数量负相关；

基于所述第一图像集合的采样权重，对所述第一图像集合进行采样，得到第二图像集合；

根据多个第二图像集合，训练第二深度确定模型得到所述第一深度确定模型。

在一些实施例中，所述第一深度确定模型包括特征提取层、特征图生成层、特征融合层和深度确定层；

所述确定第一图像中第一图像区域的第一深度信息和第二图像区域的第二深度信息，包括：

将所述第一图像输入至所述特征提取层，通过所述特征提取层对所述第一图像进行多层特征提取，得到所述第一图像的多个图像特征；

通过所述特征图生成层分别对所述多个图像特征进行采样处理，得到不同尺度的多个特征图；

通过所述特征融合层对所述多个特征图进行特征融合，得到融合后的特征图；

通过所述深度确定层对所述融合后的特征图进行卷积处理，得到所述第一深度信息和所述第二深度信息。

在一些实施例中，所述根据所述第一深度信息和所述第三深度信息，将所述第一图像区域中的图像数据融合至深度填充后的所述第二图像中，得到第三图像之后，所述方法还包括：

确定特效元素在所述第三图像的图像坐标系下的位置坐标；以及，确定所述特效元素在所述第三图像的相机坐标系下的深度坐标，所述深度坐标为所述相机坐标系下所述特效元素在所述图像中的深度信息对应的坐标位置；

将所述特效元素融合至所述第三图像中的所述图像坐标系下的位置坐标和在所述相机坐标系下的深度坐标，得到所述第四图像。

将所述目标对象的目标关键点对应的位置坐标设置为所述第三图像对应的相机坐标系的坐标原点处；

确定向所述相机坐标系的每个坐标轴对应的方向进行旋转的旋转角度；

基于所述旋转角度，移动所述第三图像中的像素点，生成图像视频。

在一些实施例中，所述确定向所述坐标系的每个坐标轴对应的方向进行旋转的旋转角度，包括：

获取所述目标像素点在任一方向的第一预设展示角度、预设运动速度和预设展示帧数；根据所述预设运动速度和预设展示帧数，确定展示角度权重；根据所述展示角度权重和所述第一预设展示角度，确定所述方向的旋转角度。

根据本公开实施例的另一方面，提供了一种图像生成装置，所述装置包括：

第一确定单元，被配置为执行确定第一图像中第一图像区域的第一深度信息和第二图像区域的第二深度信息，所述第一图像区域为目标对象所在的图像区域，所述第二图像区域为所述第一图像中除所述目标对象以外的背景图像所在的区域；

替换单元，被配置为执行根据所述第二图像区域的图像数据，替换所述第一图像中的第一图像区域的图像数据，得到第二图像；

填充单元，被配置为执行根据所述第二深度信息，对所述第二图像中的第三图像区域进行深度填充，得到所述第三图像区域的第三深度信息，所述第三图像区域为与所述第一图像区域对应的图像区域；

第一融合单元，被配置为执行根据所述第一深度信息和所述第三深度信息，将所述第一图像区域中的图像数据融合至深度填充后的所述第二图像中，得到第三图像。

在一些实施例中，所述第一融合单元包括：

第一创建子单元，被配置为执行基于所述第一图像区域的图像数据创建第一三维模型，所述第一三维模型为所述目标对象对应的三维模型；

第二创建子单元，被配置为执行基于深度填充后的所述第二图像创建第二三维模型，所述第二三维模型为所述背景图像对应的三维模型；

融合子单元，被配置为执行基于所述第一深度信息和所述第三深度信息，将所述第一三维模型和所述第二三维模型对应的像素信息进行融合，得到所述第三图像，其中，所述第一三维模型对应的像素点在所述第三图像中映射的深度信息为所述第一深度信息，所述第二三维模型对应的像素点在所述第三图像中映射的深度信息为所述第三深度信息。

在一些实施例中，所述融合子单元，被配置为执行从所述第一三维模型中确定所述目标对象的每个像素点的深度信息，所述每个像素点的深度信息以所述目标对象的目标关键点的深度信息为基准，所述目标关键点为所述目标对象的任一关键点；确定所述目标对象的目标关键点在所述第二三维模型中对应的目标像素点；将所述目标关键点的像素信息和所述目标关键点对应的第一深度信息赋值给所述目标像素点；根据所述目标关键点与所述目标对象中其他像素点的位置关系，确定所述目标对象中其他像素点在所述第二三维模型中对应的像素位置；将所述第一三维模型中，其他像素点的像素信息和所述其他像素点对应的第三深度信息赋值给所述将第二三维模型中对应的像素位置的像素点，得到第三图像。

在一些实施例中，所述替换单元包括：

分割子单元，被配置为执行通过图像分割模型对所述第一图像进行图像分割，确定所述第一图像区域对应的区域轮廓；

去除子单元，被配置为执行去除所述第一图像中所述区域轮廓内的所述第一图像区域对应的图像数据；

补全子单元，被配置为执行将所述第二图像区域的图像数据输入至图像补全模型，得到所述第二图像，所述图像补全模型用于对所述第一图像区域的像素值进行背景填充。

在一些实施例中，所述装置还包括：

获取单元，被配置为执行获取多个第一图像集合，每个第一图像集合对应一个图像类别；

第二确定单元，被配置为执行对于每个第一图像集合，根据第一数量和第二数量，确定所述第一图像集合的采样权重，所述第一数量为第一图像集合中包括的样本图像的数量，所述第二数量为所述多个第一图像集合中包括的样本图像的总数量，所述采样权重与所述第二数量正相关，且所述采样权重与所述第一数量负相关；

第一采样单元，被配置为执行基于所述第一图像集合的采样权重，对所述第一图像集合进行采样，得到第二图像集合；

模型训练单元，被配置为执行根据多个第二图像集合，训练第二深度确定模型得到所述第一深度确定模型。

所述第一确定单元包括：

特征提取子单元，被配置为执行将所述第一图像输入至所述特征提取层，通过所述特征提取层对所述第一图像进行多层特征提取，得到所述第一图像的多个图像特征；

采样子单元，被配置为执行通过所述特征图生成层分别对所述多个图像特征进行采样处理，得到不同尺度的多个特征图；

特征融合子单元，被配置为执行通过所述特征融合层对所述多个特征图进行特征融合，得到融合后的特征图；

卷积子单元，被配置为执行通过所述深度确定层对所述融合后的特征图进行卷积处理，得到所述第一深度信息和所述第二深度信息。

在一些实施例中，所述装置还包括：

第三确定单元，被配置为执行确定特效元素在所述第三图像的图像坐标系下的位置坐标；以及，确定所述特效元素在所述第三图像的相机坐标系下的深度坐标，所述深度坐标为所述相机坐标系下所述特效元素在所述图像中的深度信息对应的坐标位置；

第二融合单元，被配置为执行将所述特效元素融合至所述第三图像中的所述图像坐标系下的位置坐标和在所述相机坐标系下的深度坐标，得到所述第四图像。

在一些实施例中，所述装置还包括：

坐标设置单元，被配置为执行将所述目标对象的目标关键点对应的位置坐标设置为所述第三图像对应的相机坐标系的坐标原点处；

第四确定单元，被配置为执行确定向所述相机坐标系的每个坐标轴对应的方向进行旋转的旋转角度；

生成单元，被配置为执行基于所述旋转角度，移动所述第三图像中的像素点，生成图像视频。

在一些实施例中，所述第四确定单元包括：

获取子单元，被配置为执行获取所述目标像素点在任一方向的第一预设展示角度、预设运动速度和预设展示帧数；根据所述预设运动速度和预设展示帧数，确定展示角度权重；根据所述展示角度权重和所述第一预设展示角度，确定所述方向的旋转角度。

根据本公开实施例的另一方面，提供了一种电子设备，所述终端包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现上述任一可能实现方式所述的图像生成方法。

根据本公开实施例的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现上述任一可能实现方式所述的图像生成方法。

根据本公开实施例的另一方面，提供了一种计算机程序产品或计算机程序，所述计算机程序产品或所述计算机程序包括计算机程序代码，所述计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取所述计算机程序代码，处理器执行所述计算机程序代码，使得所述计算机设备执行上述图像生成方法中所执行的操作。

在本公开实施例中，对第一图像中的第一图像区域进行图像填充和深度填充，得到第二图像，由于第二图像是经过背景填充和深度填充后得到的，这样将第二图像和第一图像中目标对象所在的第一图像区域进行融合，得到第三图像，在第三图像的视角发生变化时，能够填补背景空洞的同时，还防止目标对象的边界处出现扭曲或缺失，优化了生成的图像的图像效果。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还能够根据这些附图获得其他的附图。

图1是根据一示例性实施例提供的一种图像生成方法流程图；

图2是根据一示例性实施例提供的一种图像生成方法流程图；

图3是根据一示例性实施例提供的一种图像处理的示意图；

图4是根据一示例性实施例提供的一种图像处理的示意图；

图5是根据一示例性实施例提供的一种图像处理的示意图；

图6是根据一示例性实施例提供的一种图像生成方法流程图；

图7是根据一示例性实施例提供的一种图像生成方法流程图；

图8是根据一示例性实施例提供的一种图像处理的示意图；

图9是根据一示例性实施例提供的一种图像生成方法流程图；

图10是根据一示例性实施例提供的一种图像处理的示意图；

图11是根据一示例性实施例提供的一种图像生成装置的框图；

图12是根据一示例性实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开实施方式作进一步地详细描述。

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在图像采集的过程中，为了使采集到的图像能够以三维图像的形式进行展示，电子设备对采集到的画面进行图像处理，生成三维图像展示给用户。本公开实施例提供的方案应用在电子设备中，该电子设备为具有图像采集功能的电子设备。例如，该电子设备为摄像机，或者，该电子设备为有摄像头的手机、平板电脑或可穿戴设备等。在本公开实施例中，对该电子设备不做具体限定。

图1为根据一示例性实施例提供的一种图像生成方法流程图。如图1所示，该方法包括以下步骤：

步骤101：确定第一图像中第一图像区域的第一深度信息和第二图像区域的第二深度信息，该第一图像区域为目标对象所在的图像区域，该第二图像区域为该第一图像中除该目标对象以外的背景图像所在的区域。

步骤102：根据该第二图像区域的图像数据，替换该第一图像中的第一图像区域的图像数据，得到第二图像。

步骤103：根据该第二深度信息，对该第二图像中的第三图像区域进行深度填充，得到该第三图像区域的第三深度信息，该第三图像区域为与该第一图像区域对应的图像区域。

步骤104：根据该第一深度信息和该第三深度信息，将该第一图像区域中的图像数据融合至深度填充后的该第二图像中，得到第三图像。

在一些实施例中，该根据该第一深度信息和该第三深度信息，将该第一图像区域中的图像数据融合至深度填充后的该第二图像中，得到第三图像，包括：

基于该第一图像区域的图像数据创建第一三维模型，该第一三维模型为该目标对象对应的三维模型；

基于深度填充后的该第二图像创建第二三维模型，该第二三维模型为该背景图像对应的三维模型；

基于该第一深度信息和该第三深度信息，将该第一三维模型和该第二三维模型对应的像素信息进行融合，得到该第三图像，其中，该第一三维模型对应的像素点在该第三图像中映射的深度信息为该第一深度信息，该第二三维模型对应的像素点在该第三图像中映射的深度信息为该第三深度信息。

在一些实施例中，该基于该第一深度信息和该第三深度信息，将该第一三维模型和该第二三维模型的像素信息进行融合，得到该第三图像，包括：

从该第一三维模型中确定该目标对象的每个像素点的深度信息，该每个像素点的深度信息以该目标对象的目标关键点的深度信息为基准，该目标关键点为该目标对象的任一关键点；

确定该目标对象的目标关键点在该第二三维模型中对应的目标像素点；

将该目标关键点的像素信息和该目标关键点对应的第一深度信息赋值给该目标像素点；

根据该目标关键点与该目标对象中其他像素点的位置关系，确定该目标对象中其他像素点在该第二三维模型中对应的像素位置；

将该第一三维模型中，其他像素点的像素信息和该其他像素点对应的第三深度信息赋值给该将第二三维模型中对应的像素位置的像素点，得到第三图像。

在一些实施例中，该根据该第二图像区域的图像数据，替换该第一图像中的第一图像区域的图像数据，得到第二图像，包括：

通过图像分割模型对该第一图像进行图像分割，确定该第一图像区域对应的区域轮廓；

去除该第一图像中该区域轮廓内的该第一图像区域对应的图像数据；

将该第二图像区域的图像数据输入至图像补全模型，得到该第二图像，该图像补全模型用于对该第一图像区域的像素值进行背景填充。

在一些实施例中，该方法还包括：

对于每个第一图像集合，根据第一数量和第二数量，确定该第一图像集合的采样权重，该第一数量为第一图像集合中包括的样本图像的数量，该第二数量为该多个第一图像集合中包括的样本图像的总数量，该采样权重与该第二数量正相关，且该采样权重与该第一数量负相关；

基于该第一图像集合的采样权重，对该第一图像集合进行采样，得到第二图像集合；

根据多个第二图像集合，训练第二深度确定模型得到该第一深度确定模型。

在一些实施例中，该第一深度确定模型包括特征提取层、特征图生成层、特征融合层和深度确定层；

该确定第一图像中第一图像区域的第一深度信息和第二图像区域的第二深度信息，包括：

将该第一图像输入至该特征提取层，通过该特征提取层对该第一图像进行多层特征提取，得到该第一图像的多个图像特征；

通过该特征图生成层分别对该多个图像特征进行采样处理，得到不同尺度的多个特征图；

通过该特征融合层对该多个特征图进行特征融合，得到融合后的特征图；

通过该深度确定层对该融合后的特征图进行卷积处理，得到该第一深度信息和该第二深度信息。

在一些实施例中，该根据该第一深度信息和该第三深度信息，将该第一图像区域中的图像数据融合至深度填充后的该第二图像中，得到第三图像之后，该方法还包括：

确定特效元素在该第三图像的图像坐标系下的位置坐标；以及，确定该特效元素在该第三图像的相机坐标系下的深度坐标，该深度坐标为该相机坐标系下该特效元素在该图像中的深度信息对应的坐标位置；

将该特效元素融合至该第三图像中的该图像坐标系下的位置坐标和在该相机坐标系下的深度坐标，得到该第四图像。

将该目标对象的目标关键点对应的位置坐标设置为该第三图像对应的相机坐标系的坐标原点处；

确定向该相机坐标系的每个坐标轴对应的方向进行旋转的旋转角度；

基于该旋转角度，移动该第三图像中的像素点，生成图像视频。

在一些实施例中，该确定向该坐标系的每个坐标轴对应的方向进行旋转的旋转角度，包括：

获取该目标像素点在任一方向的第一预设展示角度、预设运动速度和预设展示帧数；根据该预设运动速度和预设展示帧数，确定展示角度权重；根据该展示角度权重和该第一预设展示角度，确定该方向的旋转角度。

图2为根据一示例性实施例提供的一种图像生成方法流程图。在本公开实施例中以训练第一深度确定模型为例进行说明。如图2所示，该方法包括以下步骤：

步骤201：电子设备获取多个第一图像集合，每个第一图像集合对应一个图像类别。

电子设备获取多个图像，标记该多个图像中像素点的深度，得到多个样本图像。其中，该多个样本图像划分为训练数据和测试数据。训练数据用于对于模型进行训练，测试数据用于确定训练得到的模型是否符合要求。

在一些实施例中，电子设备直接将获取到的样本图像分为训练数据和测试数据。在一些实施例中，电子设备对获取到的样本图像进行分类，再分别确定每个图像类别对应的训练数据和测试数据。例如，根据图像的拍摄场景将样本图像分为室内场景类型和室外场景类型；根据图像的图像内容，将样本图像分为有人场景类型和无人场景类型等。

在本实现方式中，通过对样本图像进行分类，使得能够针对不同图像类别下深度的差异对模型进行训练，从而提高了训练得到的第一深度确定模型的准确性。

步骤202：对于每个第一图像集合，电子设备根据第一数量和第二数量，确定该第一图像集合的采样权重。

其中，该第一数量为第一图像集合中包括的样本图像的数量，该第二数量为该多个第一图像集合中包括的样本图像的总数量，该采样权重与该第二数量正相关，且该采样权重与该第一数量负相关。电子设备根据不同图像合集中的样本图像的数量，确定不同图像类别的图像的采样权重，根据该采样权重进行模型训练。

在一些实施例中，电子设备将第二数量和第一数量的比值作为该第一数量对应的图像集合的采样权重。例如，第二数量为K和第一数量为k_i，则该第一数量对应的第一图像集合的采样权重为K/k_i。其中，i表示图像集合的标签。在本实现方式中，将样本图像的总数量和每个图像类别中样本图像的数量的比值作为该图像类别的采样权重，从而样本数量越多的图像类别的采样权重越小，样本数量越少的图像类别的采样权重越大，这样能够保证在进行模型训练时，各个样本类别的数据均衡，防止模型训练出现偏差。

步骤203：电子设备基于该第一图像集合的采样权重，对该第一图像集合进行采样，得到第二图像集合。

在本步骤中，电子设备根据每个第一图像集合的采样权重，分别从多个第一图像集合中获取样本图像，将每个第一图像集合中采样得到的样本图像组成第二图像集合。

在一些实施例中，电子设备确定第三数量，第三数量为预期的第二图像集合的总数量。对于每个第一图像合集，电子设备根据该第一图像集合的采样权重和该第三数量，确定需要从该第一图像集合中采集图像的第四数量，从该第一图像集合中采集该第四数量的图像。其中，该第四数量的图像为第一图像集合中连续的相邻图像，或者，该第四数量的图像为第一图像集合中随机采样得到的图像，或者，该第四数量的图像为第一图像集合中均匀采样得到的图像等。在本公开实施例中，对电子设备从第一图像集合进行采样的方式不作具体限定。

步骤204：电子设备根据多个第二图像集合，训练第二深度确定模型得到该第一深度确定模型。

电子设备根据第二图像集合和向量损失函数，对第二深度确定模型的模型参数进行调整，得到训练完成的第一深度确定模型，该过程通过以下步骤(1)-(3)实现，包括：

(1)电子设备根据该第二图像集合和向量损失函数，确定该第二深度确定模型的损失值。

电子设备对该第二深度确定模型进行模型训练。电子设备将该第二图像集合中的样本图像输入至第二深度确定模型中，输出该训练数据对应的深度信息，将该第二深度确定模型输出的深度信息与第二图像集合中的样本图像中标注的深度信息输入至损失函数中，得到第二深度确定模型的损失值。

在一些实施例中，该损失函数包括深度x方向损失函数、深度y方向损失函数、法向量损失函数和反向鲁棒损失函数(Reversed HuBer)中的至少一个。

另外，在本步骤之前，电子设备构建第二深度确定模型。在一些实施例中，电子设备通过卷积神经网络来构建第二深度确定模型。

该第二深度确定模型的结构与第一深度确定模型的结构相同。相应的，参见图3，该第二深度确定模型包括特征提取层、特征图生成层、特征融合层和深度确定层。其中，第二深度确定模型中的每一层由卷积层组成，并且，每一层卷积层为相同结构的卷积层或不同结构的卷积层。例如，第二深度确定模型中的卷积层为Depthwise Convolution(深度卷积结构)、Pointwise Convolution(逐点卷积结构)或Depthwise-Pointwise Convolution(深度逐点卷积结构)中的至少一种。在本公开实施例中，对该卷积层的结构不作具体限定。

其中，该特征提取层由四层卷积层组成。该特征提取层用于对输入的图像进行多层特征提取，得到该图像的对多个图像特征。例如，图像为普通的3通道图像。相应的，电子设备将3通道的图像输入第一层卷积层，通过第一层卷积层将该3通道图像输出为16通道图像；再将该16通道图像输入至第二层卷积层，通过第二层卷积层将该16通道图像输出为32通道图像；再将该32通道图像输入至第三层卷积层，通过第三层卷积层将该32通道图像输出为64通道图像；再将该64通道图像输入至第四层卷积层，通过第四层卷积层将该64通道图像输出为128通道图像。对于不同通道数的图像，分别提取该图像的图像特征，从而能够得到不同卷积层对应的不同的图像特征。

该特征图生成层用于对多个图像特征进行采样处理，得到不同尺度的多个特征图，通过特征提取层输出的不同卷积程度的图像特征，来确定图像中局部图像的特征和全局图像的特征，记录每个像素点在图像的位置与全局图像的相对关系，以便向特征融合层和深度确定层提供局部特征信息和全局特征信息。

其中，该特征图生成层由五层卷积层组成。第一层卷积层至第四层卷积层用于对128通道的图像进行卷积，得到该128通道图像的特征采样信息；该第一层至第四层卷积层分别与第五层卷积层连接，将卷积后的图像输入至第五层卷积层，该第五卷积层将接收到的四个图像进行融合，得到512通道图像，对该512通道图像进行下采样，得到128通道图像，将该128通道图像输入至特征融合层。

该特征融合层用于对该多个特征图进行特征融合，得到融合后的特征图。其中，该特征融合层逐步恢复图像分辨率以及缩减通道数，并融合了特征提取层的特征，兼顾了图像中不同深度的特征。

其中，该特征融合层包括三层卷积层，第一层卷积层对128通道的图像进行下采样，得到64通道图像；第二层卷积层用于对64通道图像进行下采样，得到32通道图像；第三层卷积层用于对32通道图像进行采样，得到16通道图像。

该深度确定层用于对卷积处理后的图像进行深度确定，得到原图像中各个像素点的深度信息。

在一些实施例中，电子设备先获取样本图像，再构建第二深度确定模型；或者，电子设备先构建第二深度确定模型，再获取样本图像；或者，电子设备同时获取样本图像和构建第二深度确定模型。也即，电子设备先执行步骤201，再执行步骤202；或者，电子设备先执行步骤202，再执行步骤201；或者，电子设备同时执行步骤201和步骤202。在本公开实施例中，对步骤201和步骤202的执行顺序不作具体限定。

(2)电子设备通过该损失值和模型优化器更新该第二深度确定模型的模型参数，得到第三深度确定模型。

优化器用于采用随机梯度下降方法来更新模型参数。在本步骤中，电子设备根据该优化器对该随机梯度下降法对该梯度进行更新。在一些实施例中，该梯度值根据需要进行设置，在本公开实施例中，对该梯度值不作具体限定。

(3)电子设备根据该训练数据和向量损失函数，确定该第三深度确定模型的损失值，直到该损失值小于预设损失值，完成模型训练得到该第一深度确定模型。

电子设备调整第二深度确定模型的模型参数后，继续对得到的第三深度确定模型进行模型训练，该过程与步骤(1)-(2)相似，在此不再赘述，每次执行完步骤(2)之后，电子设备根据该模型的损失值，确定模型训练是否完成。响应于该损失值不小于预设损失值继续执行步骤(1)-(2)，响应于该损失值小于预设损失值，完成模型训练，得到第一深度确定模型。

在一些实施例中，电子设备完成模型训练后，对该第一深度确定模型的预测结果进行评价。相应的，电子设备通过该测试数据对该第三深度确定模型进行测试，得到该第三深度测试确定模型的测试结果。其中，电子设备采用mean Relative Error(平均相对误差)算法或Root Mean Squared Error(均方根误差算法)中的至少一种算法来针对第一确定模型的预测结果进行评价。电子设备将评估合格的第一深度确定模型确定为可用的深度确定模型。参见图4和图5，图4和图5是根据一示例性实施例提供的一种场景深度预测效果图。参见图4和图5，深度信息相同的像素点被标注为相同的标记，且，深度信息越相似，标注的标记越相似。例如，通过不同的颜色区分不同的深度信息，深度信息越相似，颜色就越相近。

在一些实施例中，该训练第一深度确定模型的过程由其他电子设备执行，相应的，电子设备获取第一深度确定模型的过程为：电子设备向其他电子设备发送获取请求，该获取请求用于请求获取第一深度确定模型；其他电子设备根据该获取请求获取第一深度确定模型，将该第一深度确定模型发送给电子设备；电子设备接收该第一深度确定模型。其中，其他电子设备训练第一深度确定模型的过程与电子设备训练第一深度确定模型的过程相似，在此不再赘述。

在本公开实施例中，通过对样本数据进行分类，得到多个第一图像集合，通过每个图像集合中样本图像的数量和多个第一图像集合中样本图像的总数量，来确定每个第一图像集合的采样权重，从而在进行采样时，能够通过样本图像的数量控制每个类别的图像的数量，保证了样本图像的数量越多的第一图像集合的权重越小，样本图像的数量越小的第一图像的权重越大，这样，保证在训练时每个类别的数据中，样本图像均衡，防止模型训练出现偏差。

图6为根据一示例性实施例提供的一种图像生成方法流程图。在本公开实施例中以对图像进行处理，生成三维动态图像为例进行说明。如图6所示，该方法包括以下步骤：

步骤601：电子设备确定第一图像中第一图像区域的第一深度信息和第二图像区域的第二深度信息。

其中，该第一图像区域为目标对象所在的图像区域，该第二图像区域为该第一图像中除该目标对象以外的背景图像所在的区域。在一些实施例中，该目标对象为指定物体、人或其他动物面部等对象。

在一些实施例中，电子设备通过第一深度确定模型得到第一深度信息和第二深度信息，该过程为：电子设备将第一图像输入至第一深度确定模型，得到第一深度信息和第二深度信息。其中，该第一深度确定模型的结构与第二深度确定模型的结构相同，相应的，该第一深度确定模型包括特征提取层、特征图生成层、特征融合层和深度确定层。本步骤通过以下步骤(1)-(4)实现，包括：

(1)电子设备将该第一图像输入至该特征提取层，通过该特征提取层对该第一图像进行多层特征提取，得到该第一图像的多个图像特征。

本步骤与步骤204的步骤(1)中，电子设备通过第二深度确定模型中特征提取层提取图像特征的过程相似，在此不再赘述。

(2)电子设备通过该特征图生成层分别对该多个图像特征进行采样处理，得到不同尺度的多个特征图。

本步骤与步骤204的步骤(1)中，电子设备通过第二深度确定模型中特征图生成层，生成特征图的过程相似，在此不再赘述。

(3)电子设备通过该特征融合层对该多个特征图进行特征融合，得到融合后的特征图。

本步骤与步骤204的步骤(1)中，电子设备通过第二深度确定模型中特征融合层进行特征融合的过程相似，在此不再赘述。

(4)电子设备通过该深度确定层对该融合后的特征图进行卷积处理，得到该第一深度信息和该第二深度信息。

本步骤与步骤204的步骤(1)中，电子设备通过第二深度确定模型中的深度确定层确定图像的深度信息的过程相似，在此不再赘述。

在本实现方式中，通过事先训练好的第一深度确定模型，确定该第一图像的第一深度信息和第二深度信息，从而缩短了第一深度信息的确定时长，进而提高了成像速度，使得本方案能够适用于即时成像的场景中。

另外，需要说明的一点是，在本步骤之前，电子设备检测第一图像中是否存在目标对象，响应于第一图像中存在目标对象，电子设备执行步骤601；响应于第一图像中不存在目标对象，直接执行步骤605，对该第一图像进行建模。

需要说明的另一点是，响应于第一图像中存在目标对象，电子设备还检测目标对象对应的第一图像区域与第一图像的面积比，响应于该第一图像区域与该第一图像的面积比大于预设阈值，执行步骤601，响应于第一图像区域与该第一图像的面积比不大于预设阈值，直接执行步骤605，对该第一图像进行建模。

在一些实施例中，该第一图像为任一类型的图像，例如，该第一图像为RGB(RedGreen Blue)三通道图像。

步骤602：电子设备根据该第二图像区域的图像数据，替换该第一图像中的第一图像区域的图像数据，得到第二图像。

图像数据为图像中像素点的位置、像素值等信息。在本步骤中，电子设备将第一图像区域内的图像数据通过掩码去除，再通过第一图像中第二图像区域对第一图像区域进行背景填充，得到第二图像。其中，本步骤通过以下步骤(1)-(3)实现，包括：

(1)电子设备通过图像分割模型对该第一图像进行图像分割，确定该第一图像区域对应的区域轮廓。

其中，该图像分割模型为电子设备事先获取的图像分割模型。在一些实施例中，该图像分割模型为掩码分割模型。在本步骤中，电子设备通过该图像分割模型确定该第一图像中第一图像区域，标记该第一图像区域对应的区域轮廓。

(2)电子设备去除该第一图像中该区域轮廓内的该第一图像区域对应的图像数据。

电子设备对轮廓区域内的像素点进行处理，去除第一图像区域中像素点的像素值，得到第一图像区域的图像掩码。参见图7和图8，图7和图8中第一图像区域为人所在的区域，对该第一图像进行掩码处理后，得到图7和图8左侧图像所示的掩码图像。

(3)电子设备将该第二图像区域的图像数据输入至图像补全模型，得到该第二图像法，该图像补全模型用于对该第一图像区域的像素值进行背景填充。

电子设备将第二图像区域的像素值输入到图像补全模型中，使得图像补全模型根据该第二图像区域的像素值对去除了像素值的第一图像区域进行背景填充，得到完整的背景图像。参见图7和8，图7和图8右侧图像为进行补全后得到的完整的背景图。其中，该图像补全模型根据该第二图像区域中的图像数据对该第二图像中缺失的部分进行背景填充，电子设备通过图像补全模型确定第二图像区域的图像特征，根据第二图像区域的图像特征对第一图像区域的像素值进行背景填充。

在本实现方式中，通过对第一图像中的第一图像区域进行背景填充，得到新的第二图像作为背景图像，从而防止了在视角变换时，目标对象的边界处出现空洞区域，优化了生成的三维图像的图像效果。

步骤603：电子设备根据该第二深度信息，对该第二图像中的第三图像区域进行深度填充，得到该第三图像区域的第三深度信息，该第三图像区域为与该第一图像区域对应的图像区域。

在本步骤中，电子设备对第二图像中填充的图像进行深度信息填充。其中，电子设备根据该第二深度信息，向该第二图像中的第三图像区域进行深度信息扩散，得到该第三深度信息。在一些实施例中，该进行深度信息扩散的扩散方式为泊松扩散方式。例如，电子设备确定第二图像区域中将该第二图像区域中相邻像素点之间的深度信息变化规律，根据该深度信息变化规律确定填充的图像区域中各个像素点的深度信息；或者，电子设备确定该轮廓区域的像素点的深度信息，将该轮廓区域对应的深度信息确定为填充区域的深度信息，根据该深度信息对该图像区域进行填充。

在本实现方式中，电子设备通过对填充的背景进行深度信息填充，从而使填充的背景图像与原第二图像区域的深度匹配，从而使生成的背景更和谐，生成的三维图像的效果更真实。

步骤604：电子设备基于该第一图像区域的图像数据创建第一三维模型，该第一三维模型为该目标对象对应的三维模型。

其中，第一三维模型为基于第一图像区域的图像数据生成的三维模型。在一些实施例中，电子设备根据第一区域中目标对象的至少一个关键点建立第一图像区域的三维模型。例如，电子设备识别第一区域中目标对象的至少一个关键点，根据该至少一个关键点，通过三维模型生成算法生成该目标对象对应的第一三维模型。参见图9，图9中右图为根据左图的人脸图像建立的第一三维模型。例如，该目标对象为人脸，则该至少一个关键点为人脸关键点。在一些实施例中，该三维模型生成算法为3DMM(3D Morphable Model，3D形变模型；3D，3 Dimensional，三维)算法。则该第一三维模型为mesh网格图像模型。

步骤605：电子设备基于深度填充后的该第二图像创建第二三维模型，该第二三维模型为该背景图像对应的三维模型。

本步骤与步骤604相似，在此不再赘述。

步骤606：电子设备基于该第一深度信息和该第三深度信息，将该第一三维模型和该第二三维模型对应的像素信息进行融合，得到该第三图像。

其中，该第一三维模型对应的像素点在该第三图像中映射的深度信息为该第一深度信息，该第二三维模型对应的像素点在该第三图像中映射的深度信息为该第三深度信息。

在本实现方式中，通过将第一三维模型和第二三维模型融合生成第三图像，使得第三图像中包含三维的目标图像和三维的背景图像，从而保证了在视角变换时，能够填补背景空洞的同时，还防止目标对象的边界处出现扭曲或缺失，优化了生成的三维图像的图像效果。

在一些实施例中，电子设备确定一空坐标系，将第一三维模型和第二三维模型融合至该坐标系下，使得第一三维模型和第二三维模型对应的像素点的深度信息为基于一个图像坐标系的标准下的深度信息，分别将第一三维模型和第二三维模型对应的像素信息分别复制到对应的像素位置，得到第三图像。在一些实施例中，电子设备根据第一三维模型或第二三维模型建立坐标系，将第二三维模型或第一三维模型映射到该坐标系中，分别将第一三维模型和第二三维模型对应的像素信息分别复制到对应的像素位置，得到第三图像。其中，映射过程中，电子设备分别根据第一三维模型或第二三维模型中任一关键点在第二图像中的位置和第一三维模型和第二三维模型中各个关键点之间的参数信息，确定其他像素点与目标关键点的位置关系，根据该位置关系对第一三维模型和第二三维模型进行融合，得到第三图像。本步骤通过以下步骤(A1)-(A5)实现，包括：

(A1)电子设备从该第一三维模型中确定该目标对象的每个像素点的深度信息，该每个像素点的深度信息以该目标对象的目标关键点的深度信息为基准，该目标关键点为该目标对象的任一关键点。

其中，该每个像素点的深度信息以该目标对象的目标关键点的深度信息为基准，该目标关键点为该至少一个关键点中的任一关键点。例如，该目标关键点为人脸图像中鼻头对应的像素点，或者，该目标关键点为第一三维模型的中心点。电子设备从目标对象的至少一个关键点中，选择一个目标关键点，将该目标关键点的深度信息确定为第一深度信息，电子设备根据目标第一三维模型的模型参数，确定第一三维模型中各个像素点相对于目标关键点的深度信息，基于该目标关键点的第一深度信息和第一三维模型中各个像素点相对于目标关键点的深度信息，得到第一三维模型中各个像素点的深度信息。例如，该第一三维模型为通过3DMM算法确定的mesh图像，则根据mesh图像中各个点的的参数信息确定目标对象的各个像素点的深度信息。

(A2)电子设备确定该目标对象的目标关键点在该第二三维模型中对应的目标像素点。

在本步骤中，第一三维模型和第二三维模型为同一张第一图像中的目标对象和背景图像对应的三维模型，因此，第一三维模型和第二三维模型能够映射到同一图像坐标系中。在本步骤中，电子设备将第一三维模型映射到第二三维模型中。在一些实施例中，电子设备选择第二三维模型的中心点作为目标像素点，或者，电子设备根据第一三维模型与第一图像的映射关系，以及，第二三维模型与第一图像的映射关系，确定第一三维模型和第二三维模型的映射关系，基于该第一三维模型和第二三维模型的映射关系，从第二三维模型中确定目标关键点对应的目标像素点。

(A3)电子设备将该目标关键点的像素信息和该目标关键点对应的第一深度信息赋值给该目标像素点。

该像素信息包括像素点的像素值等信息。电子设备第二三维模型中的目标像素点的深度信息修改为目标关键点的第一深度信息。例如，电子设备将三维人脸中鼻头的位置确定为目标关键点，则将该目标关键点对应的像素点的深度信息确定为第一深度信息。

在一些实施例中，电子设备直接将目标关键点的像素值和目标关键点对应的第一深度信息赋值给该目标像素点。在一些实施例中，电子设备在第二三维模型上设置新的图层，将该图层中目标像素点对应的位置赋值为该像素值和第一深度信息。

在本实现方式中，通过添加新的图层，使得第一三维模型和第二三维模型之间能够互不影响，且到达一体成型的效果，优化了生成的三维图像的图像效果。

(A4)电子设备根据该目标关键点与该目标对象中其他像素点的位置关系，确定该目标对象中其他像素点在该第二三维模型中对应的像素位置。

在本步骤中，电子设备在确定目标像素点后，基于目标关键点与第一三维模型中其他像素点的对应关系，在第二三维模型中确定其他像素点在第二三维模型中的像素位置。

例如，电子设备将第一三维模型的目标关键点设置在第二三维模型对应的坐标系的原点，将该第一三维模型和第二三维模型对应的坐标系的原点设置的第二图像中目标关键点对应的像素点的位置。

(A5)将该第一三维模型中，其他像素点的像素值和该其他像素点对应的第三深度信息赋值给该将第二三维模型中对应的像素位置的像素点，得到第三图像。

本步骤与步骤(A3)相似，在此不再赘述。

在本实现方式中，电子设备根据不同的像素点在同一图像中的对应关系，将第一三维模型和第二三维模型进行融合，使得在视角变换时，能够填补背景空洞的同时，还防止目标对象的边界处出现扭曲或缺失，优化了生成的三维图像的图像效果。

另外，电子设备还能够在该第三图像中添加特效元素，得到具有特效元素的第四图像，该过程为：电子设备确定特效元素在该第三图像的图像坐标系下的位置坐标；以及，确定该特效元素在该第三图像的相机坐标系下的深度坐标，该深度坐标为该相机坐标系下该特效元素在该图像中的深度信息对应的坐标位置；将该特效元素融合至该第三图像中的该图像坐标系下的位置坐标和在该相机坐标系下的深度坐标，得到该第四图像。

其中，电子设备根据相机成像原理，将像素位置转换到坐标系。坐标系下的坐标为齐次坐标(X，Y，1)，在该坐标系下该像素点的深度为该深度图估计的距离，将该齐次坐标的深度坐标1和深度Z相乘构成真实深度坐标(X,Y,Z)，即为重建出的三维模型。

在本步骤中，电子设备选定三维图像中不同的位置和深度，放置不同的动态效果，得到第四图像。例如，参见图10，在人脸周围、深度分别为1，2，3.5的位置放置蝴蝶元素。该过程与步骤606中的(A1)-(A5)相似，在此不再赘述。

在本实现方式中，电子设备根据深度信息在第三图像中添加特效元素，使得添加的特效元素与第三图像更加贴合生动，优化了生成的三维图像的图像效果。

电子设备生成了三维的第三图像后，还能够设置三维图像中目标对象的运动轨迹，根据该运动轨迹生成图像视频。该过程通过以下步骤(B1)-(B3)实现，包括：

(B1)电子设备将该目标对象的目标关键点对应的位置坐标设置为该第三图像对应的相机坐标系的坐标原点处。

在本步骤中，电子设备将生成的第三图像中目标关键点对应的位置设置为相机坐标系的坐标原点。

(B2)电子设备确定向该相机坐标系的每个坐标轴对应的方向进行旋转的旋转角度。

在本步骤中，电子设备分别确定不同方向上的旋转角度，在一些实施例中，该旋转角度为预设的旋转角度，或者，该旋转角度为根据旋转指令生成的旋转角度。

相应的，在一些实施例中，电子设备获取该目标像素点在任一方向的第一预设展示角度、预设运动速度和预设展示帧数；根据该预设运动速度和预设展示帧数，确定展示角度权重；根据该展示角度权重和该第一预设展示角度，确定该方向的旋转角度。

例如，预设X(或Y)方向上的第一预设展示角度为AmpX(或AmpY)，t为预设展示帧数，在一些实施例中，该预设展示帧数还通过时间标识，s为预设运动速度，那么每次绕X轴旋转AmpX*sin(s*t)角度(或绕Y轴旋转选AmpY*sin(s*t)角度)。其中，sin(s*t)为展示角度群众。

在本实现方式中，通过预先设置的运动轨迹，确定第三图像的展示轨迹，使得第三图像能够按照指定的路线进行旋转展示，防止第三图像生成视频时产生轨迹混乱的问题。

在一些实施例中，电子设备获取旋转指令，根据该旋转指令，从该旋转指令对应的旋转角度和第二预设展示角度中，选择该方向的旋转角度。

其中，该旋转指令为电子设备接收到的用户通过屏幕输入的指令，或者，该旋转指令为由电子设备中的角度传感器产生的指令。相应的，在一些实施例中，电子设备接收用户输入的手势操作，根据手势操作确定旋转角度。在另一些实施例中，电子设备通过角度传感器确定当前电子设备的倾斜角度，将该倾斜角度确定为旋转角度。例如，该角度传感器为陀螺仪，则电子设备根据电子设备姿态获取陀螺仪四元数attitude，计算出X轴和Y轴的倾斜角度x_anlge和y_angle，绕X轴旋转min(x_anlge,AmpX)角度，再绕Y轴旋转min(y_anlge,AmpY)角度。

在本实现方式中，电子设备根据接收到的旋转指令确定第三图像的运动轨迹，使得第三图像的运动轨迹更加灵活。

(B3)电子设备基于该旋转角度，移动该第三图像中的像素点，生成图像视频。

在本步骤中，电子设备将坐标系平移到目标像素点，基于该目标像素点和旋转角度旋转第三图像中的像素点，得到图像视频。目标关键点按照上述运动轨迹运动，最终回到初始位置，重复执行上述(B2)-(B3)得到三维运动视频。

在本实现方式中，第三图像根据运行轨迹生成三维运动视频，丰富了图像的展示方式。

图11据一示例性实施例提供的一种图像生成的框图。参见图11，装置包括：

第一确定单元1101，被配置为执行确定第一图像中第一图像区域的第一深度信息和第二图像区域的第二深度信息，所述第一图像区域为目标对象所在的图像区域，所述第二图像区域为所述第一图像中除所述目标对象以外的背景图像所在的区域；

替换单元1102，被配置为执行根据所述第二图像区域的图像数据，替换所述第一图像中的第一图像区域的图像数据，得到第二图像；

填充单元1103，被配置为执行根据所述第二深度信息，对所述第二图像中的第三图像区域进行深度填充，得到所述第三图像区域的第三深度信息，所述第三图像区域为与所述第一图像区域对应的图像区域；

第一融合单元1104，被配置为执行根据所述第一深度信息和所述第三深度信息，将所述第一图像区域中的图像数据融合至深度填充后的所述第二图像中，得到第三图像。

在一些实施例中，所述第一融合单元1104包括：

在一些实施例中，所述替换单元1102包括：

在一些实施例中，所述装置还包括：

所述第一确定单元1101包括：

在一些实施例中，所述装置还包括：

在一些实施例中，所述第四确定单元包括：

需要说明的是：上述实施例提供的图像生成装置在图像生成时，仅以上述各功能模块的划分进行举例说明，实际应用中，能够根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的图像生成装置与图像生成方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图12示出了本公开一个示例性实施例提供的电子设备1200的结构框图。在一些实施例中，该电子设备1200是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(MovingPicture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备1200还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，电子设备1200包括有：处理器1201和存储器1202。

在一些实施例中，处理器1201包括一个或多个处理核心，比如4核心处理器、8核心处理器等。在一些实施例中，处理器1201采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(ProgrammableLogic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。在一些实施例中，处理器1201也包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central Processing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1201集成有GPU(GraphicsProcessing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1201还包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

在一些实施例中，存储器1202包括一个或多个计算机可读存储介质，该计算机可读存储介质是非暂态的。在一些实施例中，存储器1202还包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1202中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1201所执行以实现本公开中方法实施例提供的图像生成方法。

在一些实施例中，电子设备1200还可选包括有：外围设备接口1203和至少一个外围设备。在一些实施例中，处理器1201、存储器1202和外围设备接口1203之间通过总线或信号线相连。在一些实施例中，各个外围设备通过总线、信号线或电路板与外围设备接口1203相连。具体地，外围设备包括：射频电路1204、显示屏1205、摄像头组件1206、音频电路1207、定位组件1208和电源1209中的至少一种。

外围设备接口1203可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1201和存储器1202。在一些实施例中，处理器1201、存储器1202和外围设备接口1203被集成在同一芯片或电路板上；在一些其他实施例中，处理器1201、存储器1202和外围设备接口1203中的任意一个或两个在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1204用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1204通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1204将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。在一些实施例中，射频电路1204包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。在一些实施例中，射频电路1204通过至少一种无线通信协议来与其他终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1204还包括NFC(Near Field Communication，近距离无线通信)有关的电路，本公开对此不加以限定。

显示屏1205用于显示UI(User Interface，用户界面)。在一些实施例中，该UI包括图形、文本、图标、视频及其他们的任意组合。当显示屏1205是触摸显示屏时，显示屏1205还具有采集在显示屏1205的表面或表面上方的触摸信号的能力。在一些实施例中，该触摸信号作为控制信号输入至处理器1201进行处理。此时，显示屏1205还用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1205为一个，设置在电子设备1200的前面板；在另一些实施例中，显示屏1205为至少两个，分别设置在电子设备1200的不同表面或呈折叠设计；在另一些实施例中，显示屏1205是柔性显示屏，设置在电子设备1200的弯曲表面上或折叠面上。甚至，显示屏1205还设置成非矩形的不规则图形，也即异形屏。在一些实施例中，显示屏1205采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1206用于采集图像或视频。在一些实施例中，摄像头组件1206包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其他融合拍摄功能。在一些实施例中，摄像头组件1206还包括闪光灯。在一些实施例中，闪光灯是单色温闪光灯，在一些实施例中，闪光灯是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，用于不同色温下的光线补偿。

在一些实施例中，音频电路1207包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1201进行处理，或者输入至射频电路1204以实现语音通信。出于立体声采集或降噪的目的，在一些实施例中，麦克风为多个，分别设置在电子设备1200的不同部位。在一些实施例中，麦克风是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1201或射频电路1204的电信号转换为声波。在一些实施例中，扬声器是传统的薄膜扬声器，在一些实施例中，扬声器以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅能够将电信号转换为人类可听见的声波，也能够将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1207还包括耳机插孔。

定位组件1208用于定位电子设备1200的当前地理位置，以实现导航或LBS(Location Based Service，基于位置的服务)。在一些实施例中，定位组件1208是基于美国的GPS(Global Positioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源1209用于为电子设备1200中的各个组件进行供电。在一些实施例中，电源1209是交流电、直流电、一次性电池或可充电电池。当电源1209包括可充电电池时，该可充电电池是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还用于支持快充技术。

在一些实施例中，电子设备1200还包括有一个或多个传感器1210。该一个或多个传感器1210包括但不限于：加速度传感器1211、陀螺仪传感器1212、压力传感器1213、指纹传感器1214、光学传感器1215以及接近传感器1216。

在一些实施例中，加速度传感器1211检测以电子设备1200建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1211用于检测重力加速度在三个坐标轴上的分量。在一些实施例中，处理器1201根据加速度传感器1211采集的重力加速度信号，控制显示屏1205以横向视图或纵向视图进行用户界面的显示。在一些实施例中，加速度传感器1211还用于游戏或者用户的运动数据的采集。

在一些实施例中，陀螺仪传感器1212检测电子设备1200的机体方向及转动角度，陀螺仪传感器1212与加速度传感器1211协同采集用户对电子设备1200的3D动作。处理器1201根据陀螺仪传感器1212采集的数据，能够实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

在一些实施例中，压力传感器1213设置在电子设备1200的侧边框和/或显示屏1205的下层。当压力传感器1213设置在电子设备1200的侧边框时，能够检测用户对电子设备1200的握持信号，由处理器1201根据压力传感器1213采集的握持信号进行左右手识别或快捷操作。当压力传感器1213设置在显示屏1205的下层时，由处理器1201根据用户对显示屏1205的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1214用于采集用户的指纹，由处理器1201根据指纹传感器1214采集到的指纹识别用户的身份，或者，由指纹传感器1214根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1201授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。在一些实施例中，指纹传感器1214被设置在电子设备1200的正面、背面或侧面。当电子设备1200上设置有物理按键或厂商Logo时，指纹传感器1214与物理按键或厂商Logo集成在一起。

光学传感器1215用于采集环境光强度。在一个实施例中，处理器1201根据光学传感器1215采集的环境光强度，控制显示屏1205的显示亮度。具体地，当环境光强度较高时，调高显示屏1205的显示亮度；当环境光强度较低时，调低显示屏1205的显示亮度。在另一个实施例中，处理器1201还根据光学传感器1215采集的环境光强度，动态调整摄像头组件1206的拍摄参数。

接近传感器1216，也称距离传感器，通常设置在电子设备1200的前面板。接近传感器1216用于采集用户与电子设备1200的正面之间的距离。在一个实施例中，当接近传感器1216检测到用户与电子设备1200的正面之间的距离逐渐变小时，由处理器1201控制显示屏1205从亮屏状态切换为息屏状态；当接近传感器1216检测到用户与电子设备1200的正面之间的距离逐渐变大时，由处理器1201控制显示屏1205从息屏状态切换为亮屏状态。

本领域技术人员能够理解，图12中示出的结构并不构成对电子设备1200的限定，能够包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机可读存储介质，计算机可读存储介质中存储至少一条程序代码，至少一条程序代码由服务器加载并执行，以实现上述实施例中图像生成方法。在一些实施例中，该计算机可读存储介质是存储器。例如，该计算机可读存储介质是ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory，紧凑型光盘只读储存器)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该计算机设备执行上述图像生成方法中所执行的操作。

本领域普通技术人员能够理解实现上述实施例的全部或部分步骤能够通过硬件来完成，也能够通过程序来程序代码相关的硬件完成，该的程序存储于一种计算机可读存储介质中，上述提到的存储介质是只读存储器，磁盘或光盘等。

以上该仅为本公开的可选实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种图像生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一深度信息和所述第三深度信息，将所述第一图像区域中的图像数据融合至深度填充后的所述第二图像中，得到第三图像，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一深度信息和所述第三深度信息，将所述第一三维模型和所述第二三维模型的像素信息进行融合，得到所述第三图像，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述第二图像区域的图像数据，替换所述第一图像中的第一图像区域的图像数据，得到第二图像，包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述第一深度确定模型包括特征提取层、特征图生成层、特征融合层和深度确定层；

7.根据权利要求1所述的方法，其特征在于，所述根据所述第一深度信息和所述第三深度信息，将所述第一图像区域中的图像数据融合至深度填充后的所述第二图像中，得到第三图像之后，所述方法还包括：

8.一种图像生成装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述终端包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如权利要求1-7任一项所述的图像生成方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如权利要求1-7任一项所述的图像生成方法。