CN111815696B

CN111815696B - 基于语义实例分割的深度图优化方法、装置、设备和介质

Info

Publication number: CN111815696B
Application number: CN201910289709.0A
Authority: CN
Inventors: 吴旻烨
Original assignee: Yaoke Intelligent Technology Shanghai Co ltd
Current assignee: Yaoke Intelligent Technology Shanghai Co ltd
Priority date: 2019-04-11
Filing date: 2019-04-11
Publication date: 2023-08-22
Anticipated expiration: 2039-04-11
Also published as: CN111815696A

Abstract

本申请提供的一种基于语义实例分割的深度图优化方法、装置、设备和介质，通过获取光场图像集，利用光场深度计算方法得到场景深度图，针对各相机所采集的图像，利用语义实例分割匹配算法检测到各图像内的一或多个物体，并匹配到对应的像素区域及位置框；依据位置框计算相应物体在对应相机内的物体中心，并根据各相机之间的相对位置关系得到大致深度值；依据大致深度值计算所述物体对应的物体深度图，并将物体深度图融合到场景深度图中得到各物体对应的最终深度图。本申请能够在复杂场景环境下实现深度图快速计算，在相同的计算量情况下得到更精确的深度图，同时可调节计算速度和精度之间的平衡。

Description

基于语义实例分割的深度图优化方法、装置、设备和介质

技术领域

本发明涉及计算机视觉处理技术领域，特别是涉及一种基于语义实例分割的深度图优化方法、装置、设备和介质。

背景技术

随着机器视觉、自动驾驶、机器人的火爆，对于场景的深度获取就显得格外重要；在一些应用中，如自动驾驶中的物体识别和障碍物检测，工业中散乱码放物体的识别、分拣、拆垛、码垛，物流场景中物体的货架抓取等等，都需要使用到深度图信息。深度图的获取主要有两种方式，一是通过深度相机来获取深度图，但往往受限于深度相机的精度、有效距离以及成本等问题。另一种是双目立体视觉，为机器视觉的一种重要形式，它是基于视差原理并利用成像设备从不同的位置获取被测物体的两幅图像，通过计算图像对应点间的位置偏差，来获取物体三维几何信息的方法。

双目立体视觉测量方法具有效率高、精度合适、系统结构简单、成本低等优点，非常适合于制造现场的在线、非接触产品检测和质量控制。对运动物体(包括动物和人体形体)测量中，由于图像获取是在瞬间完成的，因此立体视觉方法是一种更有效的测量方法。双目立体视觉系统是计算机视觉的关键技术之一，获取空间三维场景的距离信息也是计算机视觉研究中最基础的内容。但是，传统的双目立体视觉会因为场景光照的变化而对场景深度的结果产生影响，使得深度图的精度降低或者产生噪点。

发明内容

鉴于以上所述现有技术的缺点，本申请的目的在于提供一种基于语义实例分割的深度图优化方法、装置、设备和介质，以解决现有技术中的问题。

为实现上述目的及其他相关目的，本申请提供一种基于语义实例分割的深度图优化方法，所述方法包括：获取由光场相机阵列针对目标场景所采集的光场图像集，利用光场深度计算方法得到对应整个场景的场景深度图；针对光场相机阵列中各相机所采集的图像，利用语义实例分割匹配算法检测到各所述图像内的一或多个物体，并针对各所述物体匹配到对应的像素区域及位置框；依据所述位置框计算相应所述物体在对应所述相机内的物体中心，并根据各所述相机之间的相对位置关系得到各所述物体对应的深度值；依据所述深度值计算所述物体对应的物体深度图，并将所述物体深度图融合到所述场景深度图中得到各所述物体对应的最终深度图。

于本申请的一实施例中，所述光场深度计算方法包括：D＝LFDepth(*I^c},B,t₁,t₂,s……)；其中，D表示场景深度图；*I^c}表示每个所述相机的图像集；B表示所述场景深度图中的目标区域；t₁表示目标区域深度的最小值；t₂表示目标区域深度的最大值；s表示深度采样率。

于本申请的一实施例中，所述光场深度计算方法针对目标区域在其深度的最小值t_1与最大值t_2之间按照所述深度采样率s进行场景的深度值搜索。

于本申请的一实施例中，所述光场深度计算方法还包括：当需要对各相机所采集的图像进行光场校正预处理时，依据各所述相机对应的内参矩阵与外参矩阵针对光场相机阵列中各相机所采集的图像进行光场校正预处理。

于本申请的一实施例中，所述深度值遵循以下约束公式：其中，q表示所述物体对应的相机；d_j表示所述物体的深度值；/>表示编号为j的物体在相机c内的物体中心；K^c表示相机c的内参矩阵；R^c表示相机c的外参矩阵；依据上述约束公式，使用梯度下降法求解得到所述深度值d_j。

于本申请的一实施例中，述依据所述深度值计算所述物体对应的物体深度图的方法包括：t₁＝d_j-τ，t₂＝d_j+τ；其中，D_j表示所述物体对应的物体深度图；d_j表示深度值；τ表示预设量；*I^c}表示每个所述相机的图像集；/>表示相机q中编号为j的物体的目标区域；t₁表示目标区域深度的最小值；t₂表示目标区域深度的最大值；s表示深度采样率。

于本申请的一实施例中，所述将所述物体深度图融合到所述场景深度图中得到各所述物体对应的最终深度图的方法包括：依据所述物体对应的所述物体深度图中的目标区域，通过所述物体对应的像素区域将所述物体深度图中属于所述物体的像素融合到所述最终深度图；所述最终深度图的计算公式如下：其中,D^*表示最终深度图；D表示场景深度图；D_j表示物体深度图；表示在相机q中编号为j的物体的像素区域；γ表示可调节参数。

为实现上述目的及其他相关目的，本申请提供一种电子装置，所述装置包括：获取模块，用于获取由光场相机阵列针对目标场景所采集的光场图像集，利用光场深度计算方法得到对应整个场景的场景深度图；处理模块，用于针对光场相机阵列中各相机所采集的图像，利用语义实例分割匹配算法检测到各所述图像内的一或多个物体，并针对各所述物体匹配到对应的像素区域及位置框；依据所述位置框计算相应所述物体在对应所述相机内的物体中心，并根据各所述相机之间的相对位置关系得到各所述物体对应的深度值；依据所述深度值计算所述物体对应的物体深度图，并将所述物体深度图融合到所述场景深度图中得到各所述物体对应的最终深度图。

为实现上述目的及其他相关目的，本申请提供一种电子设备，所述设备包括：存储器、处理器、及通信器；所述存储器用于存储计算机程序；所述处理器运行计算机程序实现如上所述的基于语义实例分割的深度图优化方法；所述通信器用于与外部设备通信。

为实现上述目的及其他相关目的，本申请提供一种计算机存储介质，存储有计算机程序，所述计算机程序被运行时执行如上所述的基于语义实例分割的深度图优化方法。

综上所述，本申请的一种基于语义实例分割的深度图优化方法、装置、设备和介质，通过获取由光场相机阵列针对目标场景所采集的光场图像集，利用光场深度计算方法得到对应整个场景的场景深度图；针对光场相机阵列中各相机所采集的图像，利用语义实例分割匹配算法检测到各所述图像内的一或多个物体，并针对各所述物体匹配到对应的像素区域及位置框；依据所述位置框计算相应所述物体在对应所述相机内的物体中心，并根据各所述相机之间的相对位置关系得到各所述物体对应的深度值；依据所述深度值计算所述物体对应的物体深度图，并将所述物体深度图融合到所述场景深度图中得到各所述物体对应的最终深度图。

具有以下有益效果：

能够在复杂场景环境下实现深度图快速计算，在相同的计算量情况下得到更精确的深度图，同时可调节计算速度和精度之间的平衡。

附图说明

图1显示为本申请于一实施例中的双目立体视觉测距的原理示意图。

图2显示为本申请于一实施例中的基于语义实例分割的深度图优化方法的流程示意图。

图3显示为本申请于一实施例中的光场相机阵列的结构示意图。

图4显示为本申请于一实施例中的电子装置的模块示意图。

图5显示为本申请于一实施例中的电子设备的结构示意图。

具体实施方式

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

下面以附图为参考，针对本申请的实施例进行详细说明，以便本申请所属技术领域的技术人员能够容易地实施。本申请可以以多种不同形态体现，并不限定于此处说明的实施例。

为了明确说明本申请，省略与说明无关的部件，对于通篇说明书中相同或类似的构成要素，赋予了相同的参照符号。

在通篇说明书中，当说某部件与另一部件“连接”时，这不仅包括“直接连接”的情形，也包括在其中间把其它元件置于其间而“间接连接”的情形。另外，当说某种部件“包括”某种构成要素时，只要没有特别相反的记载，则并非将其它构成要素排除在外，而是意味着可以还包括其它构成要素。

当说某部件在另一部件“之上”时，这可以是直接在另一部件之上，但也可以在其之间伴随着其它部件。当对照地说某部件“直接”在另一部件“之上”时，其之间不伴随其它部件。

虽然在一些实例中术语第一、第二等在本文中用来描述各种元件，但是这些元件不应当被这些术语限制。这些术语仅用来将一个元件与另一个元件进行区分。例如，第一接口及第二接口等描述。再者，如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在所述的特征、步骤、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其他特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“A、B或C”或者“A、B和/或C”意味着“以下任一个：A；B；C；A和B；A和C；B和C；A、B和C”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

此处使用的专业术语只用于言及特定实施例，并非意在限定本申请。此处使用的单数形态，只要语句未明确表示出与之相反的意义，那么还包括复数形态。在说明书中使用的“包括”的意义是把特定特性、区域、整数、步骤、作业、要素及/或成份具体化，并非排除其它特性、区域、整数、步骤、作业、要素及/或成份的存在或附加。

表示“下”、“上”等相对空间的术语可以为了更容易地说明在附图中图示的一部件相对于另一部件的关系而使用。这种术语是指，不仅是在附图中所指的意义，还包括使用中的装置的其它意义或作业。例如，如果翻转附图中的装置，曾说明为在其它部件“下”的某部件则说明为在其它部件“上”。因此，所谓“下”的示例性术语，全部包括上与下方。装置可以旋转90°或其它角度，代表相对空间的术语也据此来解释。

虽然未不同地定义，但包括此处使用的技术术语及科学术语，所有术语均具有与本申请所属技术领域的技术人员一般理解的意义相同的意义。普通使用的字典中定义的术语追加解释为具有与相关技术文献和当前提示的内容相符的意义，只要未进行定义，不得过度解释为理想的或非常公式性的意义。

双目立体视觉(Binocular Stereo Vision)是机器视觉的一种重要形式，它是基于视差原理并利用成像设备从不同的位置获取被测物体的两幅图像，通过计算图像对应点间的位置偏差，来获取物体三维几何信息的方法。

如图1所示，展示为本申请于一实施例中的双目立体视觉测距的原理示意图。对于空间物体表面任意一点P，如果从左右2个摄像机O₁、O_r同时观察P，并能确定在左摄像机O₁图像I₁上的点P_l与右摄像机O_r图像Ir上的点Pr是空间同一点P的图像点(称P_l与Pr，为共轭对应点)，则可计算出空间点P的三维坐标(包含距离信息)。基于双目立体视觉的测距系统包含摄像机标定、立体校正、立体匹配和三维重建等步骤。

考虑到传统的双目立体视觉会因为场景光照的变化而对场景深度的结果产生影响，使得深度图的精度降低或者产生噪点，为次本申请提出基于语义实例分割的深度图优化方法、及相应的装置、设备和介质，以实现复杂场景环境下的深度图快速计算方法，在相同的计算量情况下得到更精确的深度图，同时可调节计算速度和精度之间的平衡。

如图2所示，展示为本申请一实施例中的基于语义实例分割的深度图优化方法的流程示意图。如图所示，所述方法包括：

步骤S201：获取由光场相机阵列针对目标场景所采集的光场图像集，利用光场深度计算方法得到对应整个场景的场景深度图。

于本申请的一实施例中，所述光场相机阵列，各所述相机优选为光场相机，也可是普通相机。如图3所示，展示为本申请于一实施例中的光场相机阵列的结构示意图。所述光场相机阵列1由M行N列共N×M个相机2组成，M，N大于等于1。这些相机2排布在一个平面上，相机2之间的间距可随使用场景和用途任意调整。

所述光场相机阵列1中各相机2针对一目标场景所采集的图像构成光场图像集。

需要说明的是，所述的目标场景包括简单的场景环境，还包括复杂的场景环境，例如，在自动驾驶中用于物体识别或障碍物检测的场景，或者，工业中散乱码放物体的识别、分拣、拆垛、码垛，物流场景中物体的货架抓取等等。

上述复杂场景具有多变化、场景物体多等特点，面对这类复杂场景来测量场景深度，其计算速度必然大大降低，而这在如自动驾驶障碍物识别的应用中却是指明的缺陷。反之，如果保证计算速度，那么测量的精度必然会下降。因此，在面对复杂场景时，传统的双目立体视觉会差强人意。

为此，本申请提出一种能够同时可调节计算速度和精度之间的平衡的方法，即可以单方面的提高计算速度或测量精度，或者依据需求调节二者之间平衡。

需要说明的是，这里提到光场相机阵列并非代表执行本方法必须要用到光场相机阵列，本方法的关键在于所获取的光场图像集，与采集光场图像设备的相关参数(内外参数)，以及在获得这些输入后如何优化深度。光场相机阵列与本方法所应用的设备并非为一整体。

例如，本方法应用于一电子设备，而这一电子设备只需要接收光场图像集进行后续处理即可，其可以连接光场相机阵列组成系统，也可以是独立设备，能够与任意地点或任意型号或任意相机数量的光场相机阵列形成组合，而并不是绑定的关系。

在获取光场图像集后，则需要通过光场深度计算方法得到对应整个场景的场景深度图。

于本申请的一实施例中，所述光场深度计算方法包括：

D＝LFDepth(*I^c},B,t₁,t₂,s……)；

其中，D表示场景深度图；*I^c}表示每个所述相机的图像集；B表示所述场景深度图中的目标区域；t₁表示目标区域深度的最小值；t₂表示目标区域深度的最大值；s表示深度采样率。

于本实施例中，这里把光场深度计算算法抽象为一个函数。

所述光场深度计算方法针对目标区域在其深度的最小值t₁与最大值t₂之间按照所述深度采样率s进行场景的深度值搜索。

于本实施例中，算法在深度的最大值最小之间按照采样率进行场景的深度值搜索，采样的个数越多，算法执行的时间就越长，同时精度也就越高。当深度采样率s越低时，算法计算的时间就越快。

在一些情况下，所述光场深度计算方法需要所采集的图像进行光场校正预处理，而有些情况则不需要，如当前场景简单或场景内物体变化少。

于本申请的一实施例中，当需要对各相机所采集的图像进行光场校正预处理时，依据各所述相机对应的内参矩阵与外参矩阵针对光场相机阵列中各相机所采集的图像进行光场校正预处理。

于本实施例中，相机图像可以进行光场校正(rectification)预处理，也可以不进行光场校正预处理。

其中，相机内参反映的是摄像机坐标系到图像坐标系之间的投影关系，外参反映的是摄像机坐标系和世界坐标系之间的旋转R和平移T关系，所述光场校正可以为畸变校正或立体校正。

步骤S202：针对光场相机阵列中各相机所采集的图像，利用语义实例分割匹配算法检测到各所述图像内的一或多个物体，并针对各所述物体匹配到对应的像素区域及位置框。

于本实施例中，所述语义分割为图像语义分割，根据语义特征将图像中每一像素标记为相应的类别，对所述目标场景进行语义分割为把场景中的各个物体从场景中分割出来。

具体来说，所述光场深度图包含深度图像和彩色图像。所述深度图像和彩色图像对物体的外观属性描述具有互补作用，深度图像包含有物体的轮廓信息，彩色图像侧重于物体表面颜色的变化，二者结合对场景图像中的物体进行分割效果更好。

所述语义分割模型为预先构建的基于卷积神经网络的分割模型，将样本场景的深度图像和彩色图像作为所述语义分割模型的输入，对样本场景的图像进行人工语义分割的结果作为输出，对所述语义分割模型进行训练，确定所述语义分割模型每一层的最优参数。

具体的，将所述目标场景的目标场景的场景深度图作为预设语义分割模型的输入，得到所述目标场景的语义分割结果。并在基于语义分割结果的基础上，为每个物体匹配或划分对应的像素区域和对应的位置框。

每个相机图像中的语义实例分割匹配结果，用表示在相机c中编号为i的物体的像素区域。用/>表示在相机c中编号为i的物体的位置框。总共检测到n_o个物体。光场相机阵列中每个相机的内参矩阵K^c，和外参矩阵R^c。

需说明的是，标准语义分割是指为每个像素分类，得到它的所属类；使用标准的PASCAL VOC IoU(intersection-over-union)得分来评估预测结果与真实场景之间的匹配准确度，算法能够对图像中的每一个像素点进行准确的类别预测。

实例分割，是语义分割的子类型，同时对每个目标进行定位和语义分割，每个目标即为实例，该任务最终以每个实例的分割准确度进行评估。

步骤S203：依据所述位置框计算相应所述物体在对应所述相机内的物体中心，并根据各所述相机之间的相对位置关系得到各所述物体对应的深度值。

于本实施例中，利用多目视觉中的相机几何约束，可以通过每个相机中的物体中心来计算深度值d_j。假设目标深度图的相机为q，则有以下约束公式：

其中，q表示所述物体对应的相机；d_j表示所述物体的深度值；表示编号为j的物体在相机c内的物体中心；K^c表示相机c的内参矩阵；R^c表示相机c的外参矩阵；

依据上述约束公式，使用梯度下降法求解得到所述深度值d_j。

所述梯度下降是迭代法的一种，可以用于求解最小二乘问题(线性和非线性都可以)。在求解无约束优化问题时，梯度下降(Gradient Descent)是最常采用的方法之一，另一种常用的方法是最小二乘法。在求解损失函数的最小值时，可以通过梯度下降法来一步步的迭代求解，得到最小化的损失函数和模型参数值。反过来，如果我们需要求解损失函数的最大值，这时就需要用梯度上升法来迭代了。

需要说明的是，所计算出物体在对应相机内的物体中心，其也是物体对应位置框的中心。

通过步骤S203得到深度值d_j后，就可以据以设定一个范围更小的深度值的搜索范围。

步骤S204：依据所述深度值计算所述物体对应的物体深度图，并将所述物体深度图融合到所述场景深度图中得到各所述物体对应的最终深度图。

于本申请的一实施例中，所述依据所述深度值计算所述物体对应的物体深度图的方法包括：

t₁＝d_j-τ，t₂＝d_j+τ；

其中，D_j表示所述物体对应的物体深度图；d_j表示深度值；τ表示预设量；*I^c}表示每个所述相机的图像集；表示相机q中编号为j的物体的目标区域；t₁表示目标区域深度的最小值；t₂表示目标区域深度的最大值；s表示深度采样率。

于本实施例中，[t₁,t₂]，t₁＝d_j-τ，t₂＝d_j+τ。即为新设定的深度值搜索范围，这里的预设量τ是一个比较小的量，用来容错。

由于把深度值范围大大缩小，所以在相同深度采样率s的情况下，能得到更加精确的深度图。类似的，还可以适当降低深度采样率s，相比原图计算深度，也能得到好的效果和更快的计算速度。

需要说明的是，本申请所述方法基于将深度值范围大大缩小，从而为计算速度或精确度提供了上升的空间，这一点具有重大意义，也是本方法相对于现有方法具有明显进步的地方。例如，在如无人驾驶等需要快速计算能力的场景应用中，本方法可以在保证原有深度图像精度的基础上，大幅增加计算速度，能够很好的应用于复杂多变的场景中。

于本申请的一实施例中，所述将所述物体深度图融合到所述场景深度图中得到各所述物体对应的最终深度图的方法包括：

依据所述物体对应的所述物体深度图中的目标区域，通过所述物体对应的像素区域将所述物体深度图中属于所述物体的像素融合到所述最终深度图；

所述最终深度图的计算公式如下：

其中,D^*表示最终深度图；D表示场景深度图；D_j表示物体深度图；表示在相机q中编号为j的物体的像素区域；γ表示可调节参数。

于本实施中，对于D^*中不属于任何物体的深度图区域，直接使用D中的相应区域进行填充。

综上所述，本申请所述的基于语义实例分割的深度图优化方法，主要利用光场相机的数据特点，设计了基于语义信息的光场深度图计算方法，实现在复杂场景环境下的深度图快速计算方法，在相同的计算量情况下得到更精确的深度图，同时可调节计算速度和精度之间的平衡。

如图4所示，展示为本申请于一实施例中的电子装置的模块示意图。如图所示，所述装置400包括：

获取模块401，用于获取由光场相机阵列针对目标场景所采集的光场图像集，利用光场深度计算方法得到对应整个场景的场景深度图；

处理模块402，用于针对光场相机阵列中各相机所采集的图像，利用语义实例分割匹配算法检测到各所述图像内的一或多个物体，并针对各所述物体匹配到对应的像素区域及位置框；依据所述位置框计算相应所述物体在对应所述相机内的物体中心，并根据各所述相机之间的相对位置关系得到各所述物体对应的深度值；依据所述深度值计算所述物体对应的物体深度图，并将所述物体深度图融合到所述场景深度图中得到各所述物体对应的最终深度图。

需要说明的是，上述装置各模块/单元之间的信息交互、执行过程等内容，由于与本申请所述方法实施例基于同一构思，其带来的技术效果与本申请方法实施例相同，具体内容可参见本申请前述所示的方法实施例中的叙述，此处不再赘述。

还需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些单元可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，处理模块402可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上处理模块402的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(digital signal processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

如图5所示，展示为本申请于一实施例中的电子设备的结构示意图。如图所示，所述电子设备500包括：存储器501、处理器502、及通信器503；所述存储器501用于存储计算机程序；所述处理器502运行计算机程序实现如图2所述的基于语义实例分割的深度图优化方法。

在一些实施例中，所述电子设备500中的所述存储器501的数量均可以是一或多个，所述处理器502的数量均可以是一或多个，所述通信器503的数量均可以是一或多个，而图5中均以一个为例。

于本申请一实施例中，所述电子设备500中的处理器502会按照如图2所述的步骤，将一个或多个以应用程序的进程对应的指令加载到存储器501中，并由处理器502来运行存储在存储器502中的应用程序，从而实现如图2所述的基于语义实例分割的深度图优化方法。

在一些实施例中，所述通信器503通信连接的外部设备可以是光场相机阵列。

所述存储器501可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。所述存储器501存储有操作系统和操作指令、可执行模块或者数据结构，或者它们的子集，或者它们的扩展集，其中，操作指令可包括各种操作指令，用于实现各种操作。操作系统可包括各种系统程序，用于实现各种基础业务以及处理基于硬件的任务。

所述处理器502可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

所述通信器503用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信连接。所述通信器503可包含一组或多组不同通信方式的模块，例如，与CAN总线通信连接的CAN通信模块。所述通信连接可以是一个或多个有线/无线通讯方式及其组合。通信方式包括：互联网、CAN、内联网、广域网(WAN)、局域网(LAN)、无线网络、数字用户线(DSL)网络、帧中继网络、异步传输模式(ATM)网络、虚拟专用网络(VPN)和/或任何其它合适的通信网络中的任何一个或多个。例如：WIFI、蓝牙、NFC、GPRS、GSM、及以太网中任意一种及多种组合。

在一些具体的应用中，所述电子设备500的各个组件通过总线系统耦合在一起，其中总线系统出包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清除说明起见，在图5中将各种总线都成为总线系统。

于本申请的一实施例中，本申请提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如图2所述的基于语义实例分割的深度图优化方法。

所述计算机可读存储介质，本领域普通技术人员可以理解：实现上述系统及各单元功能的实施例可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述系统及各单元功能的实施例；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述，本申请提供的一种基于语义实例分割的深度图优化方法、装置、设备和介质，通过获取由光场相机阵列针对目标场景所采集的光场图像集，利用光场深度计算方法得到对应整个场景的场景深度图；针对光场相机阵列中各相机所采集的图像，利用语义实例分割匹配算法检测到各所述图像内的一或多个物体，并针对各所述物体匹配到对应的像素区域及位置框；依据所述位置框计算相应所述物体在对应所述相机内的物体中心，并根据各所述相机之间的相对位置关系得到各所述物体对应的深度值；依据所述深度值计算所述物体对应的物体深度图，并将所述物体深度图融合到所述场景深度图中得到各所述物体对应的最终深度图。

本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本申请的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中包含通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本申请的权利要求所涵盖。

Claims

1.一种基于语义实例分割的深度图优化方法，其特征在于，所述方法包括：

获取由光场相机阵列针对目标场景所采集的光场图像集，利用光场深度计算方法得到对应整个场景的场景深度图；

针对光场相机阵列中各相机所采集的图像，利用语义实例分割匹配算法检测到各所述图像内的一或多个物体，并针对各所述物体匹配到对应的像素区域及位置框；

依据所述位置框计算相应所述物体在对应所述相机内的物体中心，并根据各所述相机之间的相对位置关系得到各所述物体对应的深度值；

依据所述深度值计算所述物体对应的物体深度图，并将所述物体深度图融合到所述场景深度图中得到各所述物体对应的最终深度图；其中，所述将所述物体深度图融合到所述场景深度图中得到各所述物体对应的最终深度图的方法包括：

所述最终深度图的计算公式如下：

2.根据权利要求1所述的基于语义实例分割的深度图优化方法，其特征在于，所述深度值遵循以下约束公式：

其中，q表示所述物体对应的相机；d_j表示所述物体的深度值；表示编号为j的物体在相机c内的物体中心；K^c表示相机c的内参矩阵；R^c表示相机c的外参矩阵；依据上述约束公式，使用梯度下降法求解得到所述深度值d_j。

3.一种电子装置，其特征在于，所述装置包括：

获取模块，用于获取由光场相机阵列针对目标场景所采集的光场图像集，利用光场深度计算方法得到对应整个场景的场景深度图；

处理模块，用于针对光场相机阵列中各相机所采集的图像，利用语义实例分割匹配算法检测到各所述图像内的一或多个物体，并针对各所述物体匹配到对应的像素区域及位置框；依据所述位置框计算相应所述物体在对应所述相机内的物体中心，并根据各所述相机之间的相对位置关系得到各所述物体对应的深度值；依据所述深度值计算所述物体对应的物体深度图，并将所述物体深度图融合到所述场景深度图中得到各所述物体对应的最终深度图；其中，所述将所述物体深度图融合到所述场景深度图中得到各所述物体对应的最终深度图的方法包括：

所述最终深度图的计算公式如下：

4.一种电子设备，其特征在于，所述设备包括：存储器、处理器、及通信器；所述存储器用于存储计算机程序；所述处理器运行计算机程序实现如权利要求1或2所述的基于语义实例分割的深度图优化方法；所述通信器用于与外部设备通信。

5.一种计算机存储介质，其特征在于，存储有计算机程序，所述计算机程序被运行时执行如权利要求1或2所述的基于语义实例分割的深度图优化方法。