CN112560965B

CN112560965B - 图像语义分割方法、存储介质和计算机设备

Info

Publication number: CN112560965B
Application number: CN202011511465.5A
Authority: CN
Inventors: 范筱媛; 王磊; 林佩珍; 程俊
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2024-04-05
Anticipated expiration: 2040-12-18
Also published as: CN112560965A

Abstract

本发明公开了图像语义分割方法、存储介质和计算机设备。该方法包括：初始编码：获取初始点云子集，并利用K近邻算法获取初始点云子集中每个点最近邻的2K个邻域点，构成扩张邻域点集；对扩张邻域点集进行随机抽取，获得由K个邻域点构成的K邻域点集；获取K邻域点集中每个点的增广特征向量；对K邻域点集中每个点的增广特征向量进行注意力池化处理，以获得初始点云子集中每个点的初始编码特征向量；解码：对初始点云子集中每个点的初始编码特征向量进行解码处理，获得初始点云子集中每个点的解码特征向量；预测：根据解码特征向量进行分类预测，获得语义标签信息。本申请使用了邻域扩张，能更好地扩大感受野，学习到更丰富的几何信息。

Description

图像语义分割方法、存储介质和计算机设备

技术领域

本发明属于图像处理技术领域，具体地讲，涉及图像语义分割方法、计算机可读存储介质、计算机设备。

背景技术

语义分割是将图像中每个像素归于类别标签的计算机视觉任务。三维语义分割对三维场景理解、自动驾驶等领域具有重要作用。近年来，基于三维目标语义分割的算法取得了巨大的进步，然而维数的增加给目标采样带来了计算量的增加，大多数现有方法只能在小规模点云上进行训练和操作。

深度卷积网络在大部分计算机视觉任务中表现出优异的性能，由于深度传感器获取的原始点云通常是不规则的采样、非结构化和无序的，所以不能直接应用这种非结构化数据。

给定一个大尺度的点云数据，它有数百万个点，要用深度学习的方法进行训练和测试，不可避免地需要在每层中逐步的对点进行有效地下采样，而不丢失有用的点特征。

目前已有的方法大多采用最远点采样(Farthest Point Sampling,FPS)，即为了从具有N个点(大规模)的点云数据PC中采取K个点，最远点采样返回一个重排列的度量空间{pc₁，...，pc_k，...，pc_K}使得每个pc_k都是距离前面k-1个点最远的点。尽管最远点采样对整个点集有很好的覆盖范围，该方法的计算复杂度是O(n²)级的，所以最远点采样不适合大规模的点云数据。

随机采样则统一地从原始点云数据的N个点中选取K个点。该方法的计算复杂度是O(1)，即与总输入点数不相关。与最远点采样相比，随机采样具有很高的效率，且规则简单，处理百万级数量级的点只需要0.004秒。总而言之，随机采样具有以下两个优点：1)随机采样具有很高的计算效率，因为它与输入点的总数无关；2)它不需要额外的内存用于计算。因此，与所有现有的采样方法相比，随机采样是处理大规模点云数据的最合适的方法。然而，由于随机性，随机采样可能丢掉一些关键点的信息。

发明内容

(一)本发明所要解决的技术问题

如何避免在利用随机采样处理大规模点云数据的过程中丢失关键点信息的问题。

(二)本发明所采用的技术方案

一种图像语义分割方法，所述图像语义分割方法包括：

初始编码步骤：

获取初始点云子集，并利用K近邻算法获取所述初始点云子集中每个点最近邻的2K个邻域点，构成扩张邻域点集；

对所述扩张邻域点集进行随机抽取，获得由K个邻域点构成的K邻域点集；

获取所述K邻域点集中每个点的增广特征向量；

对所述K邻域点集中每个点的增广特征向量进行注意力池化处理，以获得所述初始点云子集中每个点的初始编码特征向量；

解码步骤：对所述初始点云子集中每个点的初始编码特征向量进行解码处理，获得所述初始点云子集中每个点的解码特征向量；

预测步骤：根据所述解码特征向量进行分类预测，获得语义标签信息。

优选地，在获得所述初始点云子集中每个点的解码特征向量之后，所述图像语义分割方法还包括：

二次编码步骤：获取二次点云子集，所述二次点云子集中每个点的特征向量为初始编码特征向量，将所述二次点云子集作为二次编码的初始点云子集，并重复一次初始编码步骤，获得所述初始点云子集的二次编码特征向量。

优选地，获取所述K邻域点集中每个点的增广特征向量的方法包括：

对所述K邻域点集中的每个点进行相对位置编码，获得相对位置编码特征；

将所述K邻域点集中的每个点的特征与相对位置编码特征进行合并，获得所述K邻域点集中每个点的增广特征向量。

优选地，对所述K邻域点集中每个点的增广特征向量进行注意力池化处理的方法包括：

根据公式(1)计算所述K邻域点集中每个点的增广特征向量的注意力得分，

根据公式(2)计算得到初始点云子集中每个点的初始编码特征向量，

其中，为注意力得分，/>为增广特征向量，W为多层感知机的可学习权重，/>为初始编码特征向量。

优选地，所述图像语义分割方法还包括：重复M次初始编码步骤和二次编码步骤，分别获得1级至M级的二次编码特征向量，其中第M次的初始编码步骤中初始点云子集的每个点的特征向量为第M-1次的二次编码步骤得到的二次编码特征向量。

优选地，所述解码步骤包括：

依次对1级至M-1级的二次编码特征向量分别进行1次至M-1次的上采样处理，获得1至M-1级的上采样特征向量，M-1级的二次编码特征向量对应M-1个级别依次增大的上采样特征向量；

对M级的二次编码特征向量进行M次上采样处理，其中在进行第M次上采样的同时，将第M次上采样的得到特征向量与1至M-1级的上采样特征向量、1级至M-1级的二次编码特征向量中尺度相同的特征向量融合，以获得M个级别依次增大的上采样特征向量；

将M级的二次编码特征向量在第M次上采样和融合得到的M级上采样特征向量作为每个点的最终解码特征向量。

优选地，所述预测步骤包括：

将每个点的解码特征向量输入至若干全连接层和dropout层中进行分类，获得原始点云数据对应的语义标签信息。

优选地，获取初始点云子集的方法为：对原始点云数据进行随机采样，获得初始点云子集。

本发明还公开了一种计算机可读存储介质，所述计算机可读存储介质存储有图像语义分割程序，所述图像语义分割程序被处理器执行时实现上述的图像语义分割方法。

本发明还公开了一种计算机设备，所述计算机设备包括计算机可读存储介质、处理器和存储在所述计算机可读存储介质中的图像语义分割程序，所述图像语义分割程序被处理器执行时实现上述的图像语义分割方法。

(三)有益效果

本发明公开了一种图像语义分割方法，相对于传统的语义分割方法，具有如下技术效果：

本申请使用了邻域扩张，能更好的扩大感受域，学习到更丰富的几何信息，同时多级分层特征融合的方法，融合多级的特征，丰富了语义信息，相对于其他语义分割模型具有更高的语义分割准确率，更快的检测速度和更强的鲁棒性。

附图说明

图1为本发明的实施例一的图像语义分割方法的流程图；

图2为本发明的实施例一的图像语义分割方法的整体框架图；

图3为本发明的实施例一的初始编码步骤的流程图；

图4为本发明的实施例一的解码步骤的流程图；

图5为本发明的实施例一的多级分层特征融合的流程图；

图6为本发明的实施例的计算机设备原理框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在详细描述本申请的各个实施例之前，首先简单描述本申请的发明构思：现有技术中采用随机取样的方式处理大量的点云数据时存在丢失关键信息的技术问题，本申请在随机取样的基础上，通过增大感受野的方式进行邻域扩张，以保留点的更多关键信息，具体是先采用K近邻算法获取每个点最近邻的2K个邻域点，再从2K个邻域点中随机抽取K个邻域点进行后续计算即对于每个采样的点，扩大其两倍的感受野，从而使得获取的邻域点的特征更具代表性。

具体地，如图1和图2所示，本实施例一的图像语义分割方法包括如下步骤：

S10、初始编码步骤：

S11：获取初始点云子集，并利用K近邻算法获取所述初始点云子集中每个点最近邻的2K个邻域点，构成扩张邻域点集；

S12：对所述扩张邻域点集进行随机抽取，获得由K个邻域点构成的K邻域点集；

S13：获取所述K邻域点集中每个点的增广特征向量；

S14：对所述K邻域点集中每个点的增广特征向量进行注意力池化处理，以获得所述初始点云子集中每个点的初始编码特征向量；

S20、解码步骤：对所述初始点云子集中每个点的初始编码特征向量进行解码处理，获得所述初始点云子集中每个点的解码特征向量；

S30、预测步骤：根据所述解码特征向量进行分类预测，获得语义标签信息。如图3所示，首先进行局部空间编码，在步骤S11和步骤S12中，对于第i个点，首先由KNN算法获得2K个邻域点，构成扩张邻域点集对所述扩张邻域点集进行随机抽取，获得由K个邻域点构成的K邻域点集/>即对于每个采样的点，扩大其两倍的感受野，从而使得获取的邻域点的特征更具代表性。

示例性地，获取初始点云子集的方法为：对原始点云数据进行随机采样，获得初始点云子集。

进一步地，步骤S13中获取所述K邻域点集中每个点的增广特征向量的方法包括：

步骤S131：对所述K邻域点集中的每个点进行相对位置编码，获得相对位置编码特征。

其中，对于中心点p_i最近的K个点进行相对位置编码如下：

其中p_i和是点的位置坐标(x，y，z)，/>是级联操作，||·||是二范式。

步骤S132：将所述K邻域点集中的每个点的特征与相对位置编码特征进行合并，获得所述K邻域点集中每个点的增广特征向量。

具体来说，将点p_i的邻域点相对位置编码/>与对应的点的特征/>合并，获得增广特征向量/>它显式地编码了中心点p_i的局部几何结构。

进一步地，步骤S14中对所述K邻域点集中每个点的增广特征向量进行注意力池化处理的方法包括：

经过初始编码步骤之后，点云数据被大规模的下采样，会丢失很多细节信息，因此需要扩大每个点的接受域使得输入点云的几何细节尽可能的被保留。

作为另一个实施例，在获得所述初始点云子集中每个点的解码特征向量之后，所述图像语义分割方法还包括：

示例性地，二次编码步骤包括如下步骤：

S11’：获取二次点云子集，并利用K近邻算法获取所述二次点云子集中每个点最近邻的2K个邻域点，构成二次扩张邻域点集；

S12’：对所述二次扩张邻域点集进行随机抽取，获得由K个邻域点构成的二次K邻域点集；

S13’：获取所述二次K邻域点集中每个点的增广特征向量；

S14’：对所述二次K邻域点集中每个点的增广特征向量进行注意力池化处理，以获得所述二次点云子集中每个点的二次编码特征向量。

在初始编码步骤之后，其接收域为K个相邻点，在二次编码步骤之后，其接收域扩大到K²个点。

进一步地，图像语义分割方法还包括：重复M次初始编码步骤和二次编码步骤，分别获得1级至M级的二次编码特征向量，其中第M次的初始编码步骤中初始点云子集的每个点的特征向量为第M-1次的二次编码步骤得到的二次编码特征向量。作为优选实施例，M值为4，即获得四个级别的二次编码特征向量，分别用F₁₀、F₂₀、F₃₀、F₄₀来表示，级别依次增大。

进一步地，不同层次的特征对于大小不一的目标对象的敏感度是不同的，高层次的特征具有更强的语义性，但是在实际分割中，大物体边缘信息和小物体本身是很容易被深层网络一次次的降采样和一次次升采样给弄丢的，这个时候就可能需要低层次的特征来获得物体的细节信息，因此，分级多层特征融合是很有必要的。示例性地，如图4所示，S20的解码步骤包括如下步骤：

步骤S21：依次对1级至M-1级的二次编码特征向量分别进行1次至M-1次的上采样处理，获得1至M-1级的上采样特征向量，M-1级的二次编码特征向量对应M-1个级别依次增大的上采样特征向量。

步骤S22：对M级的二次编码特征向量进行M次上采样处理，其中在进行第M次上采样的同时，将第M次上采样的得到特征向量与1至M-1级的上采样特征向量、1级至M-1级的二次编码特征向量中尺度相同的特征向量融合，以获得M个级别依次增大的上采样特征向量。

步骤S23：将M级的二次编码特征向量在第M次上采样和融合得到的M级上采样特征向量作为每个点的最终解码特征向量。

示例性地，如图5所示，下斜的箭头表示编码，上斜的箭头表示解码，即上采样。当M等于4时，对1级的二次编码特征向量F₁₀进行一次上采样，得到上采样特征向量F₁₀；对2级的二次编码特征向量F₂₀进行两次上采样，得到上采样特征向量F₁₁和F₀₂；对3级的二次编码特征向量F₃₀进行三次上采样，得到上采样特征向量F₂₁、F₁₂和F₀₃。对4级的二次编码特征向量F₄₀进行4次上采样，在每一次上采样时将尺度相同的特征向量融合，如图中的每一层虚线表示，分别获得4个级别依次增大的上采样特征向量F₃₁、F₂₂、F₁₃和F₀₄，将上采样特征向量F₀₄作为最终解码特征向量。

示例性地，预测步骤S30为将每个点的解码特征向量输入至若干全连接层和dropout层中进行分类，获得原始点云数据对应的语义标签信息。

本实施例一公开的图像语义分割方法，使用邻域扩张，能更好的扩大感受域，学习到更丰富的几何信息，同时多级分层特征融合的方法，融合多级的特征，丰富了语义信息，相对于其他语义分割模型具有更高的语义分割准确率，更快的检测速度和更强的鲁棒性。

为验证所提出的方法的有效性，进行了大量实验。实验结果表明本实施例一的可行性及有效性，测试及对比实验效果图参见如下部分。

表1为本实施例一与其他方法对比结果。实验数据表明，本实施例一的方法结果优于其他方法。其中：OA为平均准确率，mIoU为平均交并比。

表1.各方法结果对比(单位：％)

为进一步展示本实施例一方法较RandLA-Net方法的优越性，以下为相关结果展示。其中R-4，R-5分别代表四层和五层网络的RandLA-Net结果，O-4表示本实施例一的四层网络结果。结果表明本方法在大部分物体的语义分割上有较好的效果。

表2.Area1mIoU结果对比(单位：％)

表3.Area2mIoU结果对比(单位：％)

表4.Area3mIoU结果对比(单位：％)

表5.Area4mIoU结果对比(单位：％)

表6.Area5mIoU结果对比(单位：％)

表7.Area6mIoU结果对比(单位：％)

进一步地，本实施例二还公开了一种计算机可读存储介质，所述计算机可读存储介质存储有图像语义分割程序，所述图像语义分割程序被处理器执行时实现上述的图像语义分割方法。

进一步地，本申请还公开了一种计算机设备，在硬件层面，如图6所示，该计算机设备包括处理器20、内部总线30、网络接口40、计算机可读存储介质50。处理器20从计算机可读存储介质中读取对应的计算机程序然后运行，在逻辑层面上形成请求处理装置。当然，除了软件实现方式之外，本说明书一个或多个实施例并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。所述计算机可读存储介质50上存储有图像语义分割程序，所述图像语义分割程序被处理器执行时实现上述的图像语义分割方法。

计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机可读存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上面对本发明的具体实施方式进行了详细描述，虽然已表示和描述了一些实施例，但本领域技术人员应该理解，在不脱离由权利要求及其等同物限定其范围的本发明的原理和精神的情况下，可以对这些实施例进行修改和完善，这些修改和完善也应在本发明的保护范围内。

Claims

1.一种图像语义分割方法，其特征在于，所述图像语义分割方法包括：

初始编码步骤：

获取所述K邻域点集中每个点的增广特征向量；

预测步骤：根据所述解码特征向量进行分类预测，获得语义标签信息；

在获得所述初始点云子集中每个点的解码特征向量之后，所述图像语义分割方法还包括二次编码步骤：获取二次点云子集，所述二次点云子集中每个点的特征向量为初始编码特征向量，将所述二次点云子集作为二次编码的初始点云子集，并重复一次初始编码步骤，获得所述初始点云子集的二次编码特征向量；

所述图像语义分割方法还包括：重复M次初始编码步骤和二次编码步骤，分别获得1级至M级的二次编码特征向量，其中第M次的初始编码步骤中初始点云子集的每个点的特征向量为第M-1次的二次编码步骤得到的二次编码特征向量；

所述解码步骤包括：

依次对1级至M-1级的二次编码特征向量分别进行1次至M-1次的上采样处理，获得1至M-1级的上采样特征向量，M-1级的二次编码特征向量对应M-1个级别依次增大的上采样特征向量；对M级的二次编码特征向量进行M次上采样处理，其中在进行第M次上采样的同时，将第M次上采样的得到特征向量与1至M-1级的上采样特征向量、1级至M-1级的二次编码特征向量中尺度相同的特征向量融合，以获得M个级别依次增大的上采样特征向量；将M级的二次编码特征向量在第M次上采样和融合得到的M级上采样特征向量作为每个点的最终解码特征向量。

2.根据权利要求1所述的图像语义分割方法，其特征在于，获取所述K邻域点集中每个点的增广特征向量的方法包括：

3.根据权利要求1所述的图像语义分割方法，其特征在于，对所述K邻域点集中每个点的增广特征向量进行注意力池化处理的方法包括：

4.根据权利要求1所述的图像语义分割方法，其特征在于，所述预测步骤包括：

5.根据权利要求1所述的图像语义分割方法，其特征在于，在初始编码步骤中，获取初始点云子集的方法为：对原始点云数据进行随机采样，获得初始点云子集。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有图像语义分割程序，所述图像语义分割程序被处理器执行时实现权利要求1至5任一项所述的图像语义分割方法。

7.一种计算机设备，其特征在于，所述计算机设备包括计算机可读存储介质、处理器和存储在所述计算机可读存储介质中的图像语义分割程序，所述图像语义分割程序被处理器执行时实现权利要求1至5任一项所述的图像语义分割方法。