CN112949641A

CN112949641A - 图像分割方法及电子设备、计算机可读存储介质

Info

Publication number: CN112949641A
Application number: CN202110155712.0A
Authority: CN
Inventors: 孙靖文; 夏壮; 伍广彬; 言宏亮; 于波; 张华�
Original assignee: Shenzhen Geling Institute Of Artificial Intelligence And Robotics; Shenzhen Geling Institute Of Artificial Intelligence And Robotics Co ltd; SHENZHEN GUANGNING INDUSTRIAL CO LTD
Current assignee: Shenzhen Geling Institute Of Artificial Intelligence And Robotics; Shenzhen Geling Institute Of Artificial Intelligence And Robotics Co ltd; SHENZHEN GUANGNING INDUSTRIAL CO LTD
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2021-06-11

Abstract

本申请公开了一种图像分割方法及电子设备、计算机可读存储介质，涉及图像处理领域。其中图像分割方法包括：获取待分割的原始图像，所述原始图像包括RGB图像和深度图像；对所述原始图像进行特征提取，得到RGB图像特征和深度图像特征；将所述RGB图像特征和所述深度图像特征进行特征融合，得到最终融合特征；将所述最终融合特征输入至预设的图像分割网络进行分割处理，得到目标掩码。根据本发明的图像分割方法，能够充分利用场景的深度信息，增加分割的精确度，改善分割效果。

Description

图像分割方法及电子设备、计算机可读存储介质

技术领域

本申请涉及图像处理领域，特别涉及一种图像分割方法及电子设备、计算机可读存储介质。

背景技术

所谓目标分割，假定输入一张RGB图像，能够通过一定的技术与手段输出目标物体的掩码，这是计算机视觉领域一个长久的任务。现有的目标分割大多使用RGB图像作为输入，通过深度卷积神经网络提取出图像中物体的色彩与纹理信息作为特征，对其操作达到分割的目的，然而对于工业零件这类色彩与纹理信息较少的物体，仅使用RGB图像的特征难以达到较好的分割效果；同时，在工业场景下，零件堆叠遮挡严重，同种零件实例较多，对于需要精度较高的分割任务影响较大。

发明内容

本申请的目的在于至少解决现有技术中存在的技术问题之一，提供一种图像分割方法，能够充分利用场景的深度信息，增加分割的准确度。

根据本申请第一方面实施例的图像分割方法，包括：

获取待分割的原始图像，所述原始图像包括RGB图像和深度图像；

对所述原始图像进行特征提取，得到RGB图像特征和深度图像特征；

将所述RGB图像特征和所述深度图像特征进行特征融合，得到最终融合特征；

将所述最终融合特征输入至预设的图像分割网络进行分割处理，得到目标掩码。

根据本申请实施例的图像分割方法，至少具有如下技术效果：当RGB图像与处理后的深度图像输入进深度神经网络后，能够得到大量的数据特征，通过基于注意力机制的特征融合方法，能够从这些特征中快速筛选出高价值信息，抑制其他无用信息；充分运用了图像的深度信息，弥补了特殊场景下物体色彩与纹理信息不强时深度神经网络效果的不足，将深度信息引入到图像特征中，增加特征信息，提升分割的准确度。

根据本申请的一些实施例，所述对所述原始图像进行特征提取，得到RGB图像特征和深度图像特征包括：

获取所述深度图像和所述RGB图像；

将所述深度图像转换成三通道图像；

对所述RGB图像进行特征提取得到所述RGB图像特征，对所述三通道图像进行提取得到所述深度图像特征。

根据本申请的一些实施例，所述将所述深度图像转换成三通道图像包括：

根据相机内参矩阵、旋转矩阵和平移矩阵，将所述深度图像的深度转换成世界坐标系下的三维坐标；

对所述三维坐标进行min-max标准化处理；

根据处理后的三维坐标值，得到所述三通道图像。

根据本申请的一些实施例，所述根据处理后的三维坐标值，得到所述三通道图像包括：

获取所述深度图像的原始像素位置；

将所述三维坐标值作为R、G、B三个通道像素值；

将所述三维坐标值填入所述原始像素位置，得到所述三通道图像。

根据本申请的一些实施例，所述对所述RGB图像进行特征提取得到RGB图像特征，对所述三通道图像进行提取得到深度图像特征包括：

将所述RGB图像输入所述图像分割网络，得到RGB图像特征；

将所述三通道图像输入所述图像分割网络，得到深度图像特征。

根据本申请的一些实施例，所述将所述RGB图像特征和所述深度图像特征进行特征融合，得到最终融合特征包括：

将所述RGB图像特征与所述深度图像特征按照矩阵乘法相乘，得到第一融合特征；

将所述第一融合特征进行归一化处理，得到注意力机制系数；

根据所述注意力机制系数，得到所述最终融合特征。

根据本申请的一些实施例，所述根据所述注意力机制系数，得到所述最终融合特征包括：

将所述注意力机制系数与对应的RGB图像特征及对应的深度图像特征相乘，得到对应的融合特征值；

整合所述融合特征值，得到所述最终融合特征。

根据本申请的一些实施例，所述融合特征值通过以下公式计算得到：

h_ijk(y,z)＝γ_ijk[f_ijk(y)+ωg_ijk(z)]

其中，h_ijk(y,z)为融合后第k个通道中位于(i,j)位置的特征值，γ_ijk为第k个通道中位于(i，j)位置的特征值的注意力机制系数，f_ijk(y)为所述RGB图像特征在第k个通道中位于(i,j)位置的特征值，g_ijk(z)为所述深度图像特征在第k个通道中位于(i,j)位置的特征值，ω为平衡权重系数。

根据本申请第二方面实施例的电子设备，包括：

至少一个处理器，以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行所述指令时实现上述第一方面所述的图像分割方法。

根据本申请第三方面实施例的计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行上述第一方面所述的图像分割方法。

本申请的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

下面结合附图和实施例对本申请进一步地说明；

图1为本申请实施例的图像分割方法的流程示意图；

图2为本申请实施例的得到RGB图像特征和深度图像特征的流程示意图；

图3为本申请实施例的将深度图像转换成三通道图像的流程示意图；

图4为本申请实施例的得到最终融合特征的流程示意图；

图5为本申请实施例的根据注意力机制系数得到最终融合特征的流程示意图；

图6为本申请另一实施例的电子设备的示意图。

具体实施方式

本部分将详细描述本申请的具体实施例，本申请之较佳实施例在附图中示出，附图的作用在于用图形补充说明书文字部分的描述，使人能够直观地、形象地理解本申请的每个技术特征和整体技术方案，但其不能理解为对本申请保护范围的限制。

在本申请的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

在本申请的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

下面参考附图描述根据本申请实施例的图像分割方法。

如图1所示，根据本申请实施例的图像分割方法，包括：

S100：获取待分割的原始图像，原始图像包括RGB图像和深度图像；

S200：对原始图像进行特征提取，得到RGB图像特征和深度图像特征；

S300：将RGB图像特征和深度图像特征进行特征融合，得到最终融合特征；

S400：将最终融合特征输入至预设的图像分割网络进行分割处理，得到目标掩码。

其中，在本实施例中，图像分割网络包括骨干网络和头部网络，深度图像也被称为距离影像，是指将从图像采集器到场景中各点的距离即深度作为像素值的图像，它直接反映了景物可见表面的几何形状。

具体地，首先确定需要进行目标分割处理的原始图像；获取该原始图像的RGB图像和深度图像，并对深度图像进行预处理；将RGB图像和预处理的深度图像输入骨干网络中得到对应的RGB图像特征和对应的深度图像特征；将RBG图像特征和深度图像特征进行第一次融合并进行归一化，求得注意力机制系数；将注意力机制系数与对应的RGB图像特征及对应的深度图像特征进行第二次融合，得到最终融合特征；将最终融合特征输入头部网络，得到原始图像的掩码；通过掩码，提取原始图像中的感兴趣区域，分割出原始图像中的目标区域。

深度图像经过坐标转换可以计算为点云数据，有规则及必要信息的点云数据也可以反算为深度图像数据。通过深度图像可以较为准确地得到堆叠物体之间的空间关系，能够提供RGB图像中所不存在的空间信息，达到更好的分割效果。在数字图像处理中，掩码主要用于：提取感兴趣区，用预先制作的感兴趣区掩码与待处理图像相乘，得到感兴趣区图像，感兴趣区内图像值保持不变，而区外图像值都为0；屏蔽作用，用掩码对图像上某些区域作屏蔽，使其不参加处理或不参加处理参数的计算，或仅对屏蔽区作处理或统计；结构特征提取，用相似性变量或图像匹配方法检测和提取图像中与掩码相似的结构特征；特殊形状图像的制作。

根据本申请实施例的图像分割方法，当RGB图像与处理后的深度图像输入进深度神经网络后，能够得到大量的数据特征，通过基于注意力机制的特征融合方法，能够从这些特征中快速筛选出高价值信息，抑制其他无用信息；充分运用了图像的深度信息，弥补了特殊场景下物体色彩与纹理信息不强时深度神经网络效果的不足，将深度信息引入到图像特征中，增加特征信息，提升分割的准确度。

如图2所示，在本申请的一些具体实施例中，对原始图像进行特征提取，得到RGB图像特征和深度图像特征包括：

S210：获取深度图像和RGB图像；

S220：将深度图像转换成三通道图像；

S230：对RGB图像进行特征提取得到RGB图像特征，对三通道图像进行提取得到深度图像特征。

具体地，获取原始图像的深度图像，将单一通道的深度图像转换为与RGB图像类似的三通道图像，从而能够在输入神经网络前对转换后的深度图像进行与RGB图像相同的预处理与数据增加，无需单独进行运算量更大的数据增加操作。通过深度图像可以较为准确地得到堆叠物体之间的空间关系，能够提供RGB图像中所不存在的空间信息，达到更好的分割准确度。

如图3所示，在本申请的一些具体实施例中，将深度图像转换成三通道图像包括：

S221：根据相机内参矩阵、旋转矩阵和平移矩阵，将深度图像的深度转换成世界坐标系下的三维坐标；

S222：对三维坐标进行min-max标准化处理；

S223：根据处理后的三维坐标值，得到三通道图像。

具体地，首先根据相机内参矩阵M_3×3、旋转矩阵R_3×3和平移矩阵T_3×1，将深度图像内位于[u,v]^T位置的深度d按照下式转换为世界坐标系下的三维坐标[x_w,y_w,z_w]^T：

其中，u、v为深度图像的位置坐标，d为深度图像内位于[u,v]^T位置的深度，M为内参矩阵，R为旋转矩阵，T为平移矩阵。

内参矩阵M由相机构造决定，可以通过相机标定得到相应参数，旋转矩阵R与平移矩阵T则是相机相对于世界坐标系原点的位置，使相机坐标系与世界坐标系重合，则相应的旋转矩阵R为一单位矩阵，平移矩阵T为[0,0,0]^T；此时的内参矩阵M为：

其中，f为焦距，即图像平面到相机坐标系原点的距离；d_x、d_y为每个像素在图像平面x和y方向上的物理尺寸；u₀、v₀为图像坐标系原点在像素坐标系中的坐标。

由上述两式结合可以得到深度图像点[u,v]^T转换为世界坐标点[x_w,y_w,z_w]^T的变换公式：

再将按照深度图像按照变换公式得到所有三维坐标的x_w、y_w、z_w坐标进行min-max标准化处理，将所有坐标值映射到[0-255]之间，如下式所示：

在本申请的一些具体实施例中，根据处理后的三维坐标值，得到三通道图像包括：

获取深度图像的原始像素位置；

将三维坐标值作为R、G、B三个通道像素值；

将三维坐标值填入原始像素位置，得到三通道图像。

通过此方法处理的深度图像能最大程度保留原始图像的空间信息，同时又能够在输入神经网络前对其进行与RGB图像相同的预处理与数据增强，减少数据增强操作的运算量，提升算法运行效率。

在本申请的一些具体实施例中，对RGB图像进行特征提取得到RGB图像特征，对三通道图像进行提取得到深度图像特征包括：

将RGB图像输入图像分割网络，得到RGB图像特征；

将三通道图像输入图像分割网络，得到深度图像特征。

其中，图像分割网络包括骨干网络与头部网络，骨干网络为VoVNet网络即一种实时高效的目标检测骨干网络。具体地，将RGB图像与三通道图像输入至图像分割网络的骨干网络中，采用VoVNet网络能够更加快速准确地进行图像特征提取。

如图4所示，在本申请的一些具体实施例中，将RGB图像特征和深度图像特征进行特征融合，得到最终融合特征包括：

S310：将RGB图像特征与深度图像特征按照矩阵乘法相乘，得到第一融合特征；

S320：将第一融合特征进行归一化处理，得到注意力机制系数；

S330：根据注意力机制系数，得到最终融合特征。

具体地，将RGB图像输入VoVNet网络，得到对应的RGB图像特征f(y)；将三通道图像即处理后的深度图像输入VoVNet网络，得到深度图像特征g(z)；将RGB图像特征f(y)与深度图像特征g(z)按照矩阵乘法相乘得到第一融合特征μ即μ＝f(y)^Tg(z)。

对第一融合特征进行归一化处理，即使用softmax函数对μ进行处理，得到注意力机制系数；其中softmax函数如下式所示：

其中，μ_ijk为第一融合特征在第k个通道中位于(i，j)位置的特征值，γ_ijk为第k个通道中位于(i，j)位置的特征值的注意力机制系数，W为融合特征图的宽度，H为融合特征图的高度。根据通过softmax函数处理得到的注意力机制系数γ_ijk，得到与注意力机制系数γ_ijk对应的最终融合特征。

如图5所示，在本申请的一些具体实施例中，根据注意力机制系数，得到最终融合特征包括：

S331：将注意力机制系数与对应的RGB图像特征及对应的深度图像特征相乘，得到对应的融合特征值；

S332：整合融合特征值，得到最终融合特征。

将通过第一融合特征归一化处理得到的注意力机制系数γ_ijk分别与对应的RGB图像特征值f_ijk(y)及对应的深度图像特征值g_ijk(z)相乘，进行第二次融合得到融合后的第k个通道中位于(i,j)位置的融合特征值，整合全部融合特征值，得到最终融合特征。

当RGB图像与处理后的深度图像输入进深度神经网络后，能够得到大量的数据特征，通过基于注意力机制的特征融合方法，能够从这些特征中快速筛选出高价值信息，抑制其他无用信息。

在本申请的一些具体实施例中，融合特征值通过以下公式计算得到：

h_ijk(y,z)＝γ_ijk[f_ijk(y)+ωg_ijk(z)]

其中，h_ijk(y,z)为融合后第k个通道中位于(i,j)位置的特征值，γ_ijk为第k个通道中位于(i，j)位置的特征值的注意力机制系数，f_ijk(y)为RGB图像特征在第k个通道中位于(i,j)位置的特征值，g_ijk(z)为深度图像特征在第k个通道中位于(i,j)位置的特征值，ω为平衡权重系数。

具体地，ω为平衡两级特征即RGB图像特征和深度图像特征的平衡权重系数，该参数可以参与网络的后向传播，能够在网络模型训练过程中被优化；ω首先会设置一个初始值1，然后在整个网络训练的过程中不断的调整，直到整个网络收敛为止。

将全部的融合特征值h_ijk(y,z)整合得到最终融合特征h(y,z)，h(y，z)是一个三维tensor，h_ijk(y,z)是代表这个三维tensor中第k个通道，第(i,j)处的值；其中，tensor即张量。

将第一融合特征h(y，z)输入后续的神经网络进行处理，即输入头部网络中进行处理，得到所需掩码；其中，头部网络包括检测头部网络和分割头部网络，检测头部网络为FOCS网络，分割头部网络为SAG-mask网络。

本申请实施例的第二方面，提供了一种电子设备，该电子设备600可以是任意类型的智能终端，如手机、平板电脑、个人计算机等。

如图6所示，根据本申请的一些实施例，该电子设备600包括：一个或多个处理器601和存储器602，图6中以一个处理器601为例。

处理器601和存储器602可以通过总线或其他方式进行通信连接，图6以通过总线连接为例。

存储器602作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态性计算机可执行程序以及单元，如本申请实施例中的电子设备600对应的程序指令/单元。处理器601通过运行存储在存储器602中的非暂态软件程序、指令以及单元，从而执行各种功能应用以及数据处理，即实现上述方法实施例的图像分割方法。

存储器602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据程序指令/单元创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器602可选包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至该电子设备600。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个单元存储在存储器602中，当被一个或者多个处理器601执行时，执行上述任意方法实施例中的图像分割方法。例如，执行以上描述的图1中的方法步骤S100至S400，图2中的方法步骤S210至S230，图3中的方法步骤S221至S223，图4中的方法步骤S310至S330，图5中的方法步骤S331至S332。

本申请实施例的第三方面，还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器601执行，例如，被图6中的一个处理器601执行，可使得上述一个或多个处理器601执行上述方法实施例中的图像分割方法，例如，执行以上描述的图1中的方法步骤S100至S400，图2中的方法步骤S210至S230，图3中的方法步骤S221至S223，图4中的方法步骤S310至S330，图5中的方法步骤S331至S332。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成，程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本申请的实施例，本领域的普通技术人员可以理解：在不脱离本申请的原理和宗旨的情况下可以对这些实施例进行的多种变化、修改、替换和变型，均应包含在本申请的保护范围之内。

Claims

1.一种图像分割方法，其特征在于，包括：

2.根据权利要求1所述的图像分割方法，其特征在于，所述对所述原始图像进行特征提取，得到RGB图像特征和深度图像特征包括：

获取所述深度图像和所述RGB图像；

将所述深度图像转换成三通道图像；

3.根据权利要求2所述的图像分割方法，其特征在于，所述将所述深度图像转换成三通道图像包括：

对所述三维坐标进行min-max标准化处理；

根据处理后的三维坐标值，得到所述三通道图像。

4.根据权利要求3所述的图像分割方法，其特征在于，所述根据处理后的三维坐标值，得到所述三通道图像包括：

获取所述深度图像的原始像素位置；

将所述三维坐标值作为R、G、B三个通道像素值；

5.根据权利要求2所述的图像分割方法，其特征在于，所述对所述RGB图像进行特征提取得到RGB图像特征，对所述三通道图像进行提取得到深度图像特征包括：

将所述RGB图像输入所述图像分割网络，得到RGB图像特征；

6.根据权利要求1所述的图像分割方法，其特征在于，所述将所述RGB图像特征和所述深度图像特征进行特征融合，得到最终融合特征包括：

根据所述注意力机制系数，得到所述最终融合特征。

7.根据权利要求6所述的图像分割方法，其特征在于，所述根据所述注意力机制系数，得到所述最终融合特征包括：

整合所述融合特征值，得到所述最终融合特征。

8.根据权利要求7所述的图像分割方法，其特征在于，所述融合特征值通过以下公式计算得到：

h_ijk(y,z)＝γ_ijk[f_ijk(y)+ωg_ijk(z)]

9.一种电子设备，其特征在于，包括：

至少一个处理器，以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行所述指令时实现如权利要求1至8任一所述的图像分割方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1至8任一项所述的图像分割方法。