CN112270745A

CN112270745A - 一种图像生成方法、装置、设备以及存储介质

Info

Publication number: CN112270745A
Application number: CN202011217111.XA
Authority: CN
Inventors: 邓瑞峰; 林天威; 李甫; 张赫男
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2021-01-26
Anticipated expiration: 2040-11-04
Also published as: CN112270745B

Abstract

本申请公开了一种图像生成方法、装置、设备以及存储介质，涉及人工智能技术，尤其涉及计算机视觉、深度学习和三维重建技术领域。具体实现方案为：根据二维图像的全景分割结果和显著性检测结果，确定所述二维图像的主体区域和所述主体区域的语义标签；根据所述主体区域的语义标签，对所述二维图像的深度图的主体区域进行异常深度值修正；根据修正后的深度图和所述二维图像，生成三维图像。提高了图像生成效果，为三维图像的生成提供了一种新思路。

Description

一种图像生成方法、装置、设备以及存储介质

技术领域

本申请涉及图像处理技术领域，尤其涉及人工智能技术，进一步为计算机视觉、深度学习和三维重建技术领域。具体涉及一种图像生成方法、装置、设备以及存储介质。

背景技术

三维重建技术是计算机视觉领域的一个核心技术，可基于二维图像及其深度图来重建三维图像。目前，二维图像的深度图通常是通过采集或预测得到的，准确性较低，从而导致重建后的三维图像存在物体形状和空间关系上的失真，严重影响三维图像的图像效果，亟需改进。

发明内容

本公开提供了一种图像生成方法、装置、设备以及存储介质。

根据本公开的第一方面，提供了一种图像生成方法，包括：

根据二维图像的全景分割结果和显著性检测结果，确定所述二维图像的主体区域和所述主体区域的语义标签；

根据所述主体区域的语义标签，对所述二维图像的深度图的主体区域进行异常深度值修正；

根据修正后的深度图和所述二维图像，生成三维图像。

根据本公开的第二方面，提供了一种图像生成装置，包括：

主体信息确定模块，用于根据二维图像的全景分割结果和显著性检测结果，确定所述二维图像的主体区域和所述主体区域的语义标签；

深度图修正模块，用于根据所述主体区域的语义标签，对所述二维图像的深度图的主体区域进行异常深度值修正；

图像生成模块，用于根据修正后的深度图和所述二维图像，生成三维图像。

根据本公开的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本申请任一实施例的图像生成方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质。计算机指令用于使计算机执行本申请任一实施例的图像生成方法。

根据本申请的技术解决了三维图像生成过程中存在物体形状和空间关系上的失真问题，提高了三维图像生成效果，为三维图像的生成提供了一种新思路。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1A是根据本申请实施例提供的一种图像生成方法的流程图；

图1B是根据本申请实施例提供的二维图像；

图1C-1D是根据本申请实施例提供的修正前后的深度图；

图2A是根据本申请实施例的另一种图像生成方法的流程图；

图2B是根据本申请实施例提供的基于修正前的深度图生成的三维视频中的三帧效果图；

图2C是根据本申请实施例提供的基于修正后的深度图生成的三维视频中的三帧效果图；

图3是根据本申请实施例的另一种图像生成方法的流程图；

图4是根据本申请实施例的另一种图像生成方法的流程图；

图5是根据本申请实施例的一种图像生成装置的结构示意图；

图6是用来实现本申请实施例的图像生成方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1A是根据本申请实施例提供的一种图像生成方法的流程图；图1B是根据本申请实施例提供的二维图像；图1C-1D是根据本申请实施例提供的修正前后的深度图。本实施例适用于基于二维图像和二维图像的深度图重建三维图像的情况。该实施例可以由电子设备中配置的图像生成装置来执行，该装置可以采用软件和/或硬件来实现。如图1A-1D所示，该方法包括：

S101，根据二维图像的全景分割结果和显著性检测结果，确定二维图像的主体区域和主体区域的语义标签。

其中，本申请实施例中的二维图像可以是彩色图像(如RGB图像)，也可以是灰度图像。其可以是电子设备中配置的图像采集装置(如摄像头)采集的。主体区域可以二维图像的场景主体(即图像中想要表现的核心目标对象)所在区域。例如，图1B所示的二维图像中，三只海鸥所在的区域就是主体区域。

本申请实施例的二维图像的全景分割结果可以是对二维图像进行全景分割得到的。具体的，可以是对二维图像进行语义分析，为属于同一语义的像素点分配相同的语义标签和实例标识，根据各像素点的语义标签和实例标识，生成表征各像素点的语义标签和实例标识的全景分割掩膜(即全景分割结果)。其中，全景分割结果中包含有至少一个候选语义区域，每个候选语义区域对应一个实例标识和一个语义标签，可选的，不同实例标识可以通过不同颜色来区分。例如，针对图1B所示的二维图像，其对应的全景分割结果(即全景分割掩膜)中包括5个候选语义区域，其中实例标识为0的候选语义区域的语义标签为天空；实例标识为1的候选语义区域的语义标签为高山；实例标识为2的候选语义区域的语义标签为海面；实例标识为3的候选语义区域的语义标签为海鸥；实例标识为4的候选语义区域的语义标签为陆地。

本申请实施例的二维图像的显著性检测结果可以的对二维图像进行显著性检测得到的，具体的，可以是对二维图像进行分析，检测图像中的目标显著区域(即通常为二维图像中的场景主体所在区域)，进而生成表征各像素点是否为目标显著区域的二值化显著性掩膜(即显著性检测结果)。其中，显著性检测结果中包含目标显著区域和非目标显著区域两个部分。例如，针对图1B所示的二维图像，其对应的显著性检测结果(即二值化显著性掩膜)中包括海鸥区域(即目标显著区域)和非海鸥区域(即非目标显著区域)。

需要说明的是，由于全景分割和显著性检测的分割和检查原理不同，所以即使针对同一场景主体，全景分割得到场景主体对应的语义区域与显著性检测得到的目标显著区域也不一定会完全相同。即针对图1B所示的二维图像，全景分割得到海鸥区域和显著性检测得到的海鸥区域也不一定完全相同。

可选的，本申请实施例对二维图像进行全景分割和显著性检测的过程可以通过预先训练好的神经网络模型实现，例如，可以预先为全景分割和显著性检测各训练一个神经网络模型，还可以训练一个既可以实现全景分割又可以实现显著性检测的通用神经网络模型等。

可选的，本申请实施例确定二维图像的主体区域的方式有很多，可以是根据显著性检测结果来确定，例如，直接将显著性检测结果中的目标显著区域作为二维图像的主体区域；还可以是根据全景分割结果来确定，例如，分析全景分割结果中的各候选语义区域，选择表征场景主体的候选语义区域作二维图像的主体区域；还可以是根据全景分割结果和显著性检测结果来确定，例如，将全景分割结果中表征场景主体的候选语义区域与显著性检测结果中的目标显著区域进行融合确定二维图像的主体区域等。还可以采用其他方式确定，对此本实施例不进行限定。

可选的，本申请实施例在确定出二维图像的主体区域后，需要进一步确定主体区域的语义标签。具体的，由于全景分割结果中包含二维图像中所有候选语义区域对应的语义标签，所以本步骤可以是在全景分割结果中的候选语义区域中找到场景主体对应的目标语义区域，例如，全景分割结果中，与主体区域匹配度最高的候选语义区域即为目标语义区域。再获取该目标语义区域的语义标签作为主体区域的语义标签。

S102，根据主体区域的语义标签，对二维图像的深度图的主体区域进行异常深度值修正。

其中，本申请实施例中的二维图像的深度图可以是在二维图像采集的过程中，通过电子设备上配置的传感器(如测距传感器或摄像头等)采集的；还可以是对二维图像进行深度值预测得到的，例如，将二维图像输入到预先训练好的深度预测网络中，运行该深度预测网络，即可得到二维图像对应的深度图。需要说明的是，二维图像的深度图是通过采集或预测得到的，可能存在深度值不准确的情况。另外，二维图像与其深度图中的各像素点是一一对应的，即二维图像的主体区域和深度图的主体区域对应的像素点也是一致的，区别在于，二维图像的主体区域的灰度值表征的是场景主体的像素值，深度图的主体区域的灰度值表征的是场景主体的深度值。

可选的，在本申请实施例中，根据主体区域的语义标签，对二维图像的深度图的主体区域进行异常深度值修正时，可以是分析主体区域的语义标签所属的类别，按照各类别对应的修正规则，对深度图像中该主体区域中的异常深度值进行修正。例如，若主体区域的语义标签所属类别为平面类别，平面类别的主体区域内部的深度图应该是平滑的，不应出现深度突变，所以对平面类别的主体区域内部的突变深度值(即异常深度值)进行平滑处理(如深度值均值处理)。还可以是根据语义标签判断主体区域是否由多个部分组成，并分析各部分的深度差值，若某一部分与其他部分的深度差值大于预设要求，则对该部分的深度值(即异常深度值)进行修正。还可以采用其他方式根据主体区域的语义标签，对深度图中的主体区域进行异常深度值修正，对此本实施例不进行限定。

示例性的，以图1C所示的二维图像修正前的深度图为例。由于海鸥翅膀区域所属类别可近似为平面类别，所以海鸥翅膀区域的深度值应该是平滑的，不应该存在突变，而图1C的方框1中的海鸥左翅膀的边缘位置的深度值与左翅膀内部的深度值相比，明显存在突变，此时可以对图1C的方框1中的海鸥左翅膀区域的深度值进行平滑处理，以达到海鸥左翅膀的整体灰度值平滑且不存在突变，修正后效果见图1D中的方框1。另外，根据确定的主体区域和主体区域的语义标签可知，图1C中的主体区域包括三只海鸥，即方框1、方框2和方框3，即主体区域由三部分组成，由图1C可知，方框2对应的海鸥部分的深度值与方框1和方框3对应的海鸥区域的深度值相比，深度相差较大，即方框2中的海鸥区域的深度值异常，此时，可以是基于方框1和方框3的海鸥区域的深度值，对方框2中海鸥区域的异常深度值进行修正，例如，可以是对方框1和方框3区域的海鸥深度值进行均值处理，并将均值处理后的深度值作为方框2的海鸥区域的深度值，修正后效果见图1D中的方框2。

S103，根据修正后的深度图和二维图像，生成三维图像。

可选的，二维图像是在特定的拍摄角度(如图像采集装置的采集视角)和拍摄参数(如图像采集装置的内参和外参)下采集的，本申请实施例在对二维图像的深度图进行修正后，可以是采用三维图像渲染技术，基于二维图像的拍摄角度和拍摄参数，确定渲染角度，然后在该渲染角度下，根据二维图像中的各像素点的平面坐标和像素值，及各像素点在修正后的深度图中对应的深度值，投影渲染得到该二维图像的三维图像。

可选的，本申请实施例可以通过移动图像采集装置采集多帧图像，并对图像采集装置在每个位姿下采集到的二维图像帧，都按照上述方法生成一帧三维图像，进而将生成的各帧三维图像组合成一段三维视频。

本申请实施例的技术方案，结合二维图像的全景分割结果和显著性检测结果，确定二维图像的主体区域和主体区域的语义标签，进而根据主体区域的语义标签对深度图的主体区域进行修正，基于修正后的深度图和二维图像，生成三维图像。本申请实施例在对二维图像的深度进行修正时，将全景分割和显著性检测技术相结合，基于全景分割得到的主体区域的语义标签来对主体区域的深度值进行修正，提高了主体区域深度值的准确性，避免了生成的三维图像中场景主体存在形状和空间关系上的失真，提高了生成的三维图像的准确性和真实性，为三维图像的生成提供了一种新思路。

可选的，在本申请实施例中，确定所述二维图像的主体区域之后，还包括：修正所述主体区域中的缺失像素点和噪声像素点。具体的，可以采用形态学算法(如膨胀、腐蚀、开或闭等)，对主体区域内部的孔洞(即缺失像素点)和外部的斑点(即噪声像素点)进行修正；还可以是采用滤波技术(如中值滤波算法)对确定的主体区域进行滤波处理，以修正主体区域的缺失像素点和噪声像素点；还可以通过预先训练好的神经网络模型来修正主体区域中的缺失像素点和噪声像素点等，对此本申请实施例不进行限定。本申请实施例在确定出二维图像的主体区域之后，通过对主体区域的缺失像素点和噪声像素点进行修正，以提高确定出的二维图像的主体区域的准确性。为后续对主体区域的深度值的精准修正提供了保证，极大的提高了生成的三维图像的三维效果。

图2A是根据本申请实施例的另一种图像生成方法的流程图；图2B是根据本申请实施例提供的基于修正前的深度图生成的三维视频中的三帧效果图；图2C是根据本申请实施例提供的基于修正后的深度图生成的三维视频中的三帧效果图。本实施例在上述实施例的基础上，给出了根据二维图像的全景分割结果和显著性检测结果，确定二维图像的主体区域的具体情况介绍，如图2A-2C所示，该方法包括：

S201，根据二维图像的全景分割结果和/或显著性检测结果，确定二维图像的场景主体。

其中，二维图像的场景主体，可以是二维图像中想要体现的核心目标对象，例如，图1B所示的二维图像中的场景主体可以是海鸥。

可选的，本申请实施例在确定二维图像的场景主体时，可以依据二维图像的全景分割结果和显著性检测结果中的至少一个结果。具体包括以下三种情况：

情况一、根据二维图的全景分割结果确定场景主体时，可以预先设置各类语义标签所属类别作为场景主体的优先级，例如，人>动物>植物>背景(如天空、大地等)；动态类别语义标签>静态类别语义标签等。进而基于上述设置的优先级，对全景分割结果中各个候选语义区域对应的语义标签进行分析，确定出表征场景主体的语义标签，进而将该标签对应的目标对象作为场景主体；还可以是对全景分割结果中各个候选语义区域对应的语义标签进行分析，确定各语义标签对应的目标对象作为场景主体的置信度，并将置信度最高的语义标签对应的目标对象作为场景主体。还可以根据二维图的全景分割结果，采用其他方式确定场景主体，对此本申请实施例不进行限定。

情况二、根据二维图像的显著性检测结果确定场景主体时，可以对二维图像的显著性检测结果中的目标显著区域的形状进行分析，确定该目标区域所表征的目标对象，并将该目标对象作为二维图像的场景主体。

情况三、根据二维图像的全景分割结果和显著性检测结果来确定场景主体时，可以是根据二维图像的全景分割结果中的候选语义区域与显著性检测结果中的目标显著区域之间的相似度，确定二维图像的场景主体。具体的，可以是分别计算全景分割结果中的各候选语义区域与显著性检测结果中的目标显著区域的相似度，并将相似度最高的候选语义区域的语义标签对应的目标对象，作为二维图像的场景主体。其中，计算候选语义区域与目标显著区域的相似度的方式有很多，例如，可以包括但不限于：计算候选语义区域与目标显著区域的交并比；还可以计算候选语义区域与目标显著区域的边缘重合度等。为了降低相似度的计算量，本申请实施例优选通过计算交并比来表征相似度。

针对上述三种情况，本申请实施例优选情况三来确定二维图像的场景主体，这样设置的好处是：将显著性检测结果和全景分割结果相融合，来确定场景主体，相比于根据一种分割结果来确定主体区域相比，场景主体的确定更为准确。

S202，根据全景分割结果中场景主体的目标语义区域和显著性检测结果中的目标显著区域，确定二维图像的主体区域。

可选的，本申请实施例在确定二维图像的主体区域时，是将场景主体在全景分割结果中对应的语义区域(即目标语义区域)和该场景主体在显著性检测结果中对应的目标显著区域相结合，来准确确定二维图像的主体区域。具体的，本申请实施例可以是分析场景主体的语义标签、目标语义区域和目标显著区域的形状和面积关系，确定该语义标签对应的场景主体中哪些区域目标语义区域分割的比较准确，将其作为第一融合区域；以及哪些区域目标显著区域检测的比较准确，将其作为第二融合区域，将第一融合区域和第二融合区域进行融合，得到二维图像的主体区域。例如，当人为场景主体时，根据该语义标签“人”可知，目标显著区域对人的上半身检测较为准确，而目标语义区域对人的下半身分割较为准确，此时可以是将目标语义区域中的下半身区域(即第一融合区域)，与目标显著区域中的上半身区域(即第二融合区域)进行融合，融合后的区域即为人的主体区域。

可选的，通常情况下显著性检测技术相比于全景分割技术，对场景主体的边缘划分更为准确，所以本申请实施例还可以是依据目标显著区域的边缘区域对目标语义区域的边缘区域进行删减和补全处理，得到二维图像的主体区域。

可选的，本申请实施例执行S201和202之前还可以包括：判断全景分割结果是否合理，若合理，则执行S201和S202的操作来确定二维图像的主体区域，若全景分割结果不合理，此时全景分割结果中的目标语义区域的参考价值不大，反而会干扰主体区域的确定，此时可以是直接将显著性检测结果中的目标显著区域作为二维图像的主体区域，然后直接执行后续S203的操作。在保证主体区域确定准确的同时，提高了主体区域的确定效率。

可选的，为了进一步保证主体区域确定的准确性，在本申请实施例在确定出二维图像的主体区域之后，还可以包括：修正主体区域中的缺失像素点和噪声像素点。具体的修正方式在上述实施例中已经介绍，在此本实施例不进行赘述。

S203，根据二维图像的全景分割结果，确定主体区域的语义标签。

S204，根据主体区域的语义标签，对二维图像的深度图的主体区域进行异常深度值修正。

S205，根据修正后的深度图和二维图像，生成三维图像。

需要说明的是，重建三维图像时，二维图像的主体区域确定的是否准确，对后续三维图像的生成效果影响重大。例如，针对图1B所示的二维图像，若确定的主体区域缺失海鸥头部，则生成的三维图像中就会存在海鸥头部和身体分离的情况，具体效果见图2B中的三帧图像。本申请实施例的方案基于场景主体在全景分割结果和显著性检测结果中的两个区域(即目标语义区域和目标显著区域)，结合两个区域各自的优势来确定二维图像的主体区域，极大的保证了主体区域确定的准确性，基于本申请实施例确定的主体区域生成的三维图像就很好的避免了海鸥头部与身体分离的情况，具体效果见图2C中的三帧图像。

本申请实施例的技术方案，根据二维图像的全景分割结果和显著性检测结果来确定二维图像的场景主体，灵活性和准确性更强。结合场景主体在全景分割结果和显著性检测结果中对应的区域，来确定场景主体的主体区域，提高了主体区域的边界确定的准确性，基于该主体区域的语义标签，对深度图中的精准主体区域进行深度修正，提高了主体区域深度修正的可靠性，使得基于该深度图和二维图像生成的三维图像的图像效果更为逼真。

图3是根据本申请实施例的另一种图像生成方法的流程图，本实施例在上述实施例的基础上，给出了对二维图的深度图进行修正的另一种情况介绍，如图3所示，该方法包括：

S301，根据二维图像的全景分割结果和/或显著性检测结果，确定二维图像的场景主体。

S302，确定全景分割结果中场景主体的目标语义区域与主体交集区域之间的比例关系。

其中，主体交集区域为显著性检测结果中的目标显著区域与目标语义区域之间的交集区域。

可选的，若全景分割结果中场景主体的目标语义区域为P，显著性检测结果中的目标显著区域为Q，则交集区域为P∩Q。本步骤确定的比例关系W＝(P∩Q)/P。

S303，在比例关系小于或等于第一阈值的情况下，从目标显著区域中剔除主体交集区域，得到二维图像的主体区域。

可选的，若S302确定的比例关系W小于或等于第一阈值(即预先设置的低阈值)，则说明全景分割结果中的目标语义区域P与显著性检测结果中的目标显著区域Q的关联不大，由于通常情况下，显著性检测的效果要优于全景分割，也就是说，该情况下表征主体区域目标语义区域P的准确性要低于目标显著区域Q，所以此时可以在目标显著区域Q中剔除主体交集区域(即P∩Q)，将剔除后剩余的目标显著区域作为二维图像的主体区域。

S304，在比例关系大于第一阈值且小于第二阈值的情况下，将目标显著区域和目标语义区域的并集区域作为二维图像的主体区域。

其中，所述第一阈值小于第二阈值，即第一阈值为低阈值，第二阈值为高阈值。第一阈值和第二阈值可以根据实际情况预先设定，例如，可以是针对不同类型的语义标签设置不同的第一阈值和第二阈值。

可选的，若S302确定的比例关系W大于第一阈值(即预先设置的低阈值)且小于第二阈值(即预先设置的高阈值)，则说明全景分割结果中的目标语义区域P与显著性检测结果中的目标显著区域Q的重合度适中，该情况下目标语义区域P和目标显著区域Q几乎都能表征场景主体，且两者又都有一部分特有区域(即两者的非交集区域)，此时可以是在目标显著区域Q和目标语义区域P的并集区域，作为二维图像的主体区域。即将目标语义区域P相对于目标显著区域Q多出来的区域补全到目标显著区域Q中，得到二维图像的主体区域。

S305，在比例关系大于或等于第二阈值的情况下，将目标显著区域作为二维图像的主体区域。

可选的，若S302确定的比例关系W大于或等于第二阈值(即预先设置的高阈值)，则说明全景分割结果中的目标语义区域P几乎全部包含在目标显著区域Q中，此时目标显著区域Q相对于目标语义区域P表征场景主体更为全面，所以可以直接将目标显著区域Q作为二维图像的主体区域。

S306，根据二维图像的全景分割结果，确定主体区域的语义标签。

S307，根据主体区域的语义标签，对二维图像的深度图的主体区域进行异常深度值修正。

S308，根据修正后的深度图和二维图像，生成三维图像。

本申请实施例的技术方案，根据二维图像的全景分割结果和显著性检测结果来确定二维图像的场景主体，结合场景主体在全景分割结果和显著性检测结果中对应区域计算的比例关系与预设的高阈值和低阈值之间的关系，确定是对目标显著区域进行区域剔除或区域补充得到二维图像的主体区域，还是直接将目标显著区域作为主体区域。本申请实施例的方案为二维图像主体区域的确定设置了具体的确定规则，进一步提高了主体区域的边界确定的准确性。为后续对深度图主体区域的精准修正，以及生成逼真的三维图像提供了保障。

图4是根据本申请实施例的另一种图像生成方法的流程图，本实施例在上述实施例的基础上，给出了对二维图像的深度图进行修正的另一种情况介绍，如图4所示，该方法包括：

S401，根据二维图像的全景分割结果和显著性检测结果，确定二维图像的主体区域和主体区域的语义标签。

S402，根据主体区域的语义标签，对二维图像的深度图的主体区域进行异常深度值修正。

S403，对修正后的深度图进行主体区域和非主体区域的区分度增强处理。

通常情况下，三维图像的前景区域(即主体区域)的深度值与背景区域(即非主体区域)的深度值要有一定的区分，才能提高三维图像的三维效果。所以本申请实施例在对深度图进行主体区域的异常深度值修正后，还需要进一步增强深度图中主体区域和非主体区域之间的区分度。可选的，本申请实施例，增强深度图中主体区域和非主体区域之间的区分度的方法有很多，例如，可以预先训练一个增强主体区域和非主体区域区分度的神经网络模型，并将S402修正后的深度图输入到该神经网络模型中，运行该神经网络模型，即可得到增强处理后的深度图。还可以是对修正后的深度图进行非主体区域的深度衰减处理。具体的深度衰减公式为：d′＝·d^β，其中α与β是小于1的常数因子；d是深度图中各像素点衰减前的深度值；d′为深度图中各像素点衰减后的深度值。还可以采用其他方式来增强深度图中主体区域和非主体区域之间的区分度，对此本实施例不进行限定。

S404，根据二次修正后的深度图和二维图像，生成三维图像。

需要说明的是，本申请实施例中S402和S403都是对深度图进行修正的过程，一个是修正深度图的主体区域中的异常深度值，一个是增强主体区域和非主体区域之间的区分度，两者没有先后顺序之分，可以是按照上述实施例中的介绍先执行S402，再对S402修正后的深度图执行S403的操作；还可以是先执行S403，再对S403修正后的深度图执行S402的操作。对此本实施例不进行限定。

本申请实施例的技术方案，结合二维图像的全景分割结果和显著性检测结果，确定二维图像的主体区域和主体区域的语义标签，根据主体区域的语义标签对深度图的主体区域进行首次修正后，对首次修正后的深度图进行主体区域和非主体区域的区分度增强处理，以实现对深度图的二次修正，进而基于二次修正后的深度图和二维图像，生成三维图像。本申请实施例在对深度图的主体区域的异常深度值进行修正后，还进一步增强了主体区域和非主体区域的深度区分值，通过两次深度值修正，使得修正后的深度图更为准确，进而提高基于该深度图生成的三维图像的三维效果。

可选的，本申请实施例在对二维图像的深度图进行主体区域异常深度值修正，以及主体区域和非主体区域区分度增强之外，还可以进一步对深度图进行其他修正处理，例如，为了使得基于修正后的深度图生成的三维图像的效果更贴近自然，本申请实施例还可以是在上述实施例介绍的深度图修正方法的基础上，对修正后的深度图进行主体区域和/或非主体区域的平滑处理，例如，可以进行高斯平滑处理。可选的，本申请实施例可以是分析深度图中主体区域和非主体区域的深度值的变化程度，对深度值变化较大的主体区域或非主体区域进行平滑处理。可选的，若主体区域和非主体区域的深度值变化程度都在合理范围内，则可以是优选对修正后的深度图的非主体区域进行平滑处理。

图5是根据本申请实施例的一种图像生成装置的结构示意图。本实施例适用于基于二维图像和二维图像的深度图重建三维图像的情况。该装置可实现本申请任意实施例的图像生成方法。该装置500具体包括如下：

主体信息确定模块501，用于根据二维图像的全景分割结果和显著性检测结果，确定所述二维图像的主体区域和所述主体区域的语义标签；

深度图修正模块502，用于根据所述主体区域的语义标签，对所述二维图像的深度图的主体区域进行异常深度值修正；

图像生成模块503，用于根据修正后的深度图和所述二维图像，生成三维图像。

进一步的，所述主体信息确定模块501包括：

场景主体确定单元，用于根据所述二维图像的全景分割结果和/或显著性检测结果，确定所述二维图像的场景主体；

主体区域确定单元，用于根据所述全景分割结果中所述场景主体的目标语义区域和所述显著性检测结果中的目标显著区域，确定所述二维图像的主体区域。

进一步的，所述主体区域确定单元具体用于：

确定所述全景分割结果中所述场景主体的目标语义区域与主体交集区域之间的比例关系，其中，所述主体交集区域为所述显著性检测结果中的目标显著区域与所述目标语义区域之间的交集区域；

在所述比例关系小于或等于第一阈值的情况下，从所述目标显著区域中剔除所述主体交集区域，得到所述二维图像的主体区域；

在所述比例关系大于所述第一阈值且小于第二阈值的情况下，将所述目标显著区域和所述目标语义区域的并集区域作为所述二维图像的主体区域；

在所述比例关系大于或等于所述第二阈值的情况下，将所述目标显著区域作为所述二维图像的主体区域；

其中，所述第一阈值小于第二阈值。

进一步的，所述场景主体确定单元具体用于：

根据所述二维图像的全景分割结果中的候选语义区域与所述显著性检测结果中的目标显著区域之间的相似度，确定所述二维图像的场景主体。

进一步的，所述主体信息确定模块501还包括：

主体区域修正单元，用于修正所述主体区域中的缺失像素点和噪声像素点。

进一步的，所述深度图修正模块502还用于：

对修正后的深度图进行主体区域和非主体区域的区分度增强处理。

进一步的，所述深度图修正模块502具体用于：

对修正后的深度图进行非主体区域的深度衰减处理。

进一步的，所述深度图修正模块502还用于：

对修正后的深度图进行主体区域和/或非主体区域的平滑处理。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图6所示，是根据本申请实施例的图像生成方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，该电子设备包括：一个或多个处理器601、存储器602，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。

存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的图像生成方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的图像生成方法。

存储器602作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的图像生成方法对应的程序指令/模块(例如，附图5所示的主体信息确定模块501、深度图修正模块502和图像生成模块503)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的图像生成方法。

存储器602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据图像生成方法的电子设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器602可选包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至图像生成方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

图像生成方法的电子设备还可以包括：输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接，图6中以通过总线连接为例。

输入装置603可接收输入的数字或字符信息，以及产生与图像生成方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

根据本申请实施例的技术方案，结合二维图像的全景分割结果和显著性检测结果，确定二维图像的主体区域和主体区域的语义标签，进而根据主体区域的语义标签对深度图的主体区域进行修正，基于修正后的深度图和二维图像，生成三维图像。本申请实施例在对二维图像的深度进行修正时，将全景分割和显著性检测技术相结合，基于全景分割得到的主体区域的语义标签来对主体区域的深度值进行修正，提高了主体区域深度值的准确性，避免了生成的三维图像中场景主体存在形状和空间关系上的失真，提高了生成的三维图像的准确性和真实性，为三维图像的生成提供了一种新思路。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种图像生成方法，包括：

根据修正后的深度图和所述二维图像，生成三维图像。

2.根据权利要求1所述的方法，其中，根据二维图像的全景分割结果和显著性检测结果，确定所述二维图像的主体区域，包括：

根据所述二维图像的全景分割结果和/或显著性检测结果，确定所述二维图像的场景主体；

根据所述全景分割结果中所述场景主体的目标语义区域和所述显著性检测结果中的目标显著区域，确定所述二维图像的主体区域。

3.根据权利要求2所述的方法，其中，根据所述全景分割结果中所述场景主体的目标语义区域和所述显著性检测结果中的目标显著区域，确定所述二维图像的主体区域，包括：

其中，所述第一阈值小于第二阈值。

4.根据权利要求2所述的方法，其中，根据所述二维图像的全景分割结果和显著性检测结果，确定所述二维图像的场景主体，包括：

5.根据权利要求1-3中任一项所述的方法，确定所述二维图像的主体区域之后，还包括：

修正所述主体区域中的缺失像素点和噪声像素点。

6.根据权利要求1所述的方法，还包括:

7.根据权利要求6所述的方法，其中，对修正后的深度图进行主体区域和非主体区域的区分度增强处理，包括：

对修正后的深度图进行非主体区域的深度衰减处理。

8.根据权利要求1所述的方法，还包括：

9.一种图像生成装置，包括：

10.根据权利要求9所述的装置，其中，所述主体信息确定模块包括：

11.根据权利要求10所述的装置，其中，所述主体区域确定单元具体用于：

其中，所述第一阈值小于第二阈值。

12.根据权利要求10所述的装置，其中，所述场景主体确定单元具体用于：

13.根据权利要求9-11中任一项所述的装置，其中，所述主体信息确定模块还包括：

14.根据权利要求9所述的装置，其中，所述深度图修正模块还用于：

15.根据权利要求14所述的装置，其中，所述深度图修正模块具体用于：

对修正后的深度图进行非主体区域的深度衰减处理。

16.根据权利要求9所述的装置，其中，所述深度图修正模块还用于：

17.一种电子设备，其中，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的图像生成方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的图像生成方法。