CN113379791A

CN113379791A - 一种图像中运动分割的方法和装置

Info

Publication number: CN113379791A
Application number: CN202011641254.3A
Authority: CN
Inventors: 李大铭; 邓练兵
Original assignee: Zhuhai Dahengqin Technology Development Co Ltd
Current assignee: Zhuhai Dahengqin Technology Development Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-09-10

Abstract

本发明实施例提供了一种图像中运动分割的方法和装置，所述方法包括：获取连续采集的图像数据；基于预先构建的编解码器，生成所述连续采集的图像数据中相邻的两帧图像数据对应的运动信息；将所述运动信息和所述相邻的两帧图像数据输入预置的目标网络模型，得到至少三层特征图，并根据所述至少三层特征图，生成第一特征集合；根据所述第一特征集合，生成针对所述相邻的两帧图像数据的运动分割结果。通过本发明实施例，实现了对图像中运动分割的优化，提升了运动分割的准确性和效率。

Description

一种图像中运动分割的方法和装置

技术领域

本发明涉及图像识别领域，特别是涉及图像中运动分割的方法和装置。

背景技术

同时定位和地图构建(Simultaneous Localization And Mapping,SLAM)一直是智能机器人、自动驾驶、AR/VR等领域的核心技术和难点。其中，动态目标一直以来都对SLAM精度产生较大影响。因此，对于SLAM视觉里程计技术来讲，运动目标实例分割是一个至关重要的技术。

运动目标实例分割是计算机视觉中的一项重要工作，同时该项技术也是目标跟踪、视觉SLAM、图像识别中的基础技术。运动实例分割实质上将序列图像中运动的区域与背景区域进行区分，同时将每一个运动目标在图像中的像素轮廓分割出来，即完成运动与非运动区域划分的同时也将不同的运动实例进行区分，可以大大提高动态场景中许多任务的效果，如动态视觉SLAM、动态物体避障、动态物体建模等。例如在自主驾驶场景中，对运动物体的分割可以帮助理解周围的运动信息，这是避免碰撞、制动操作和平稳机动的基础。

在现有技术中，运动实例分割方法主要是分为多运动分割方法和基于深度学习的一些方法。其中，多运动分割指的是多模型拟合方法通常先使用SIFT、SURF、ORB等方法提取特征，再通过对以上特征点进行迭代聚类，得到多个具有相近内点的模型，此时除背景外每个模型对应一个运动物体，最终实现了运动分割，多运动分割方法实现了特征点的运动分割，而不是逐像素分割。因为它们只能分割场景中更突出的运动物体，并且一次可以分割的运动模型数量有限，因此其鲁棒性和通用性较为受限。

基于深度学习的运动实例分割指的是随着深度学习的发展，视频中的实例/语义分割和目标检测得到了广泛的研究。这些方法用于在注释数据中分割特定的标记对象类别，因此主要关注的是通过外观进行预定义的语义类别分割，而不是所有移动实例的分割。最近的方法是将实例/语义分割结果与光流中的运动信息相结合，在动态场景中分割运动对象实例，因此该类方法需要一个先验的光流图和至少两帧相邻图像作为输入网络的输入，因此需要一个单独的光流网络产生先验光流图，网络本身并没有实现端到端，同时这样的方法也导致的运动分割计算速度较慢。

发明内容

鉴于上述问题，提出了以便提供克服上述问题或者至少部分地解决上述问题的一种图像中运动分割的方法和装置，包括：

一种图像中运动分割的方法，所述方法包括：

获取连续采集的图像数据；

基于预先构建的编解码器，生成所述连续采集的图像数据中相邻的两帧图像数据对应的运动信息；

将所述运动信息和所述相邻的两帧图像数据输入预置的目标网络模型，得到至少三层特征图，并根据所述至少三层特征图，生成第一特征集合；

根据所述第一特征集合，生成针对所述相邻的两帧图像数据的运动分割结果。

可选地，所述根据所述第一特征集合，生成针对所述相邻的两帧图像数据的运动分割结果，包括：

对所述第一特征集合进行特征融合，得到第二特征集合；

将所述第二特征集合输入预置的由三层卷积层组成的目标模块，得到针对所述相邻的两帧图像数据的运动分割结果。

可选地，所述对所述第一特征集合进行特征融合，得到第二特征集合，包括：

从所述第一特征集合中，确定针对候选图像区域的候选图像特征集合；

对所述候选图像特征集合进行特征融合，得到第二特征集合。

可选地，在所述将所述第二特征集合输入预置的由三层卷积层组成的目标模块，得到针对所述相邻的两帧图像数据的运动分割结果之前，还包括：

获取具有类别信息和每个实例坐标信息的独热编码图；

根据所述独特编码图，对所述第二特征集合进行掩膜处理。

可选地，所述第二特征集合的通道数少于所述第一特征集合的通道数。

一种图像中运动分割的装置，所述装置包括：

图像数据获取模块，用于获取连续采集的图像数据；

运动信息生成模块，用于基于预先构建的编解码器，生成所述连续采集的图像数据中相邻的两帧图像数据对应的运动信息；

第一特征集合生成模块，用于将所述运动信息和所述相邻的两帧图像数据输入预置的目标网络模型，得到至少三层特征图，并根据所述至少三层特征图，生成第一特征集合；

运动分割结果生成模块，用于根据所述第一特征集合，生成针对所述相邻的两帧图像数据的运动分割结果。

可选地，所述运动分割结果生成模块，包括：

第二特征集合得到子模块，用于对所述第一特征集合进行特征融合，得到第二特征集合；

三层卷积层处理子模块，用于将所述第二特征集合输入预置的由三层卷积层组成的目标模块，得到针对所述相邻的两帧图像数据的运动分割结果。

可选地，所述第二特征集合得到子模块，包括：

候选图像特征集合确定单元，用于从所述第一特征集合中，确定针对候选图像区域的候选图像特征集合；

特征融合单元，用于对所述候选图像特征集合进行特征融合，得到第二特征集合。

可选地，还包括：

独热编码图获取模块，用于获取具有类别信息和每个实例坐标信息的独热编码图；

掩膜处理模块，用于根据所述独特编码图，对所述第二特征集合进行掩膜处理。

本发明实施例具有以下优点：

在本发明实施例中，通过获取连续采集的图像数据；基于预先构建的编解码器，生成所述连续采集的图像数据中相邻的两帧图像数据对应的运动信息；将所述运动信息和所述相邻的两帧图像数据输入预置的目标网络模型，得到至少三层特征图，并根据所述至少三层特征图，生成第一特征集合；根据所述第一特征集合，生成针对所述相邻的两帧图像数据的运动分割结果，实现了对图像中运动分割的优化，提升了运动分割的准确性和效率。

附图说明

为了更清楚地说明本发明的技术方案，下面将对本发明的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种网络架构的示意图；

图2是本发明一实施例提供的图像中运动分割的方法的步骤流程图；

图3是本发明一实施例提供的一种编解码器的示意图；

图4是本发明一实施例提供的一种特征融合的示意图；

图5是本发明一实施例提供的图像中运动分割的装置的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在实际应用中，一方面由于需要输入先验的光流图，该光流图生成时需要一个单独的网络来计算，该网络通常采用U-NET等较深的网络结构，计算量大、速度慢；此外，多运动分割方法普遍没有采用GPU加速，其计算方式也并不适合GPU加速，因此速度慢，而常见的基于深度学习的运动实例分割网络通常采用较深的ResNet101等网络作为特征提取的主干网络，因此参数量大、速度慢。针对以上问题，本方案单纯使用相邻两帧图像(两帧RGB图像，未包含光流图)作为输入，采用MobileNet-v3网络作为主干网络提取，并设计了一个较浅的带有短连结构的编解码器结构作为运动信息提取结构。本方法在以上结构基础上实现了端到端的运动实例分割，减少了参数量，提高了分割的速度。

另一方面，不同深度特征图之间的语义鸿沟问题，通常网络使用从主干网络不同深度提取的特征图作为运动分割的特征图，以解决目标尺度变化问题，但是实际上，不同深度提取的特征图本身具有不同的空间维度(即不同的长宽)，因此同一个目标在不同深度的特征图上通常会存在N个像素值的偏差，这对最终的目标边缘轮廓的划分是有重要影响的。本方案提出了一种新的特征融合方式，对输入的特征进行挤压与注意力操作，有效融合不同深度的特征图，对齐不同深度特征上的目标位置，并通过对不同深度特征图的融合提升网络对目标尺度剧烈变化时的运动分割鲁棒性。

总结来说，在本发明实施例中，通过使用较浅的主干网络来减少参数量，通过设计并使用一种小型新型编解码器结构来学习运动信息，并设计使用一种新的特征融合方式来消除不同特征图之间语义鸿沟带来的影响，提高运动分割的精度，并提高了网络对目标尺度变化的鲁棒性。

在本发明实施例中，如图1，首先使用较浅的主干网络来替换常用的resnet101等网络结构，以减少参数量，通过设计并使用一种小型新型编解码器结构来学习运动信息，这种运动信息是潜在的范式，最后设计使用一种新的特征融合方式来消除不同特征图之间语义鸿沟带来的影响，提高运动分割的精度，并提高了网络对目标尺度变化的鲁棒性。

参照图2，示出了本发明一实施例提供的一种图像中运动分割的方法的步骤流程图，具体可以包括如下步骤：

步骤201，获取连续采集的图像数据；

在实际应用中，可以获取实现时序图像(如连续的拍摄的图像、摄像头获取的视频中的时序图像序列等)，以实现其中运动目标的实例分割。

步骤202，基于预先构建的编解码器，生成所述连续采集的图像数据中相邻的两帧图像数据对应的运动信息；

在本发明实施例中，提出的编解码器结构(Coder/Decoder)来学习输入的相邻两帧图像之间潜在的运动信息，该编解码器结构如图3所示，输入为相邻两帧RGB图像，最终学习得到的特征图表示相邻两帧图像之间的运动信息，其中使用到的Attention Module为SE-Net中使用的注意力机制。

与现有的常用编码器结构不同，本方案提出的编码器，

在编码阶段，通过使用下采样跳层抑制了梯度消失的问题，使用跳层操作使得每一阶段的学习更多的偏向于学习“残差”，并将浅层特征与深层语义进行重新编码，降低语义鸿沟提高精度；

在解码阶段，也使用了跳层操作，与编码阶段跳层操作一致；此外与通用的编解码结构不同，如图3所示，常见的编解码器只有同级的编码器、解码器特征图横向链接进行特征传递，但是本方案的特征图是将同阶段的编码器特征图与解码器中(同阶段-1)层的特征图上采样后进行通道维度拼接，为了减少拼接后特征图的冗余和来自不同深度特征图之间的语义鸿沟，使用了来自SE-Net的attention模块进行通道维度优选，并突出光谱维度的运动信息，最终才将生成的虚线框表示的特征图与同层的解码器特征图进行通道维度拼接，这与传统的编解码器结构区别很大，这里这样做，可以减小不同深度特征图的语义鸿沟，反复添加的浅层信息使得深层卷积核更趋向于平滑，提高网络的鲁棒性。

步骤203，将所述运动信息和所述相邻的两帧图像数据输入预置的目标网络模型，得到至少三层特征图，并根据所述至少三层特征图，生成第一特征集合；

在实际应用中，将上一步骤获取的运动信息与输入的两帧图像一起送入作为backbone的MobileNet-v3网络中，提取出{C3,C4,C5}三层特征图。

然后，C5特征图经过一个卷积核为(1,1)的卷积生成P5特征图，将C4经过一个卷积核为(1,1)的卷积生成特征图与P5下采样后的特征图进行通道维拼接生成P4特征图，将C3经过一个卷积核为(1,1)的卷积生成特征图与P4下采样后的特征图进行通道维拼接生成P4特征图，通过P5特征图进行2倍、4倍的线性插值生成P6和P7两层特征图。经过以上步骤构建了一个常规的特征金字塔{P3,P4,P5,P6,P7}(即第一特征集合)。

步骤204，根据所述第一特征集合，生成针对所述相邻的两帧图像数据的运动分割结果。

在本发明一实施例中，步骤204可以包括如下子步骤：

对所述第一特征集合进行特征融合，得到第二特征集合；将所述第二特征集合输入预置的由三层卷积层组成的目标模块，得到针对所述相邻的两帧图像数据的运动分割结果。

其中，第二特征集合的通道数少于所述第一特征集合的通道数。

在本发明一实施例中，在所述将所述第二特征集合输入预置的由三层卷积层组成的目标模块，得到针对所述相邻的两帧图像数据的运动分割结果之前，还可以包括如下步骤：

获取具有类别信息和每个实例坐标信息的独热编码图；根据所述独特编码图，对所述第二特征集合进行掩膜处理。

为了提高分割的精度，设置一种新的特征融合方式实现在获取目标多尺度特征的同时，消除不同深度特征图之间的语义鸿沟，将融合后的特征图记为F mask(即第二特征集合)，那么F mask的生成方式如图4所示。生成过程为{P4,P5,P6,P7}层特征图分别经过两层反卷积层生成的特征图，与P3层经过过标准Inceptionv3模块生成的特征图在通道维度进行拼接，然后拼接后的特征图经过一层卷积核为(1，1)的卷积层消除混叠效应，并将通道数减为8，减少数据量。

然后，将具有8通道的F mask特征图，与具有类别信息和每个实例坐标信息的one-hot图进行掩膜处理，然后送入由三层卷积层组成的mask FCN head模块(即目标模块)，其中mask FCN head的参数是由controller来赋值，最终输出运动分割结果并计算最终的实例分割损失。

需要说明的是，这里的特征融合方式与常见的特征融合方式是有极大区别的。这分两个部分：(1)通常的网络仅仅使用P3层特征来进行实例分割；(2)即使使用特征融合，常即将尺寸小的特征图经过全卷积之后变成同样的尺寸然后在通道维度拼接，最终经过一层卷积核为(1,1)的卷积层自动学习不同尺度特征图的权重，最终将5个特征图进行加权求和得到网络的输出，而本方案并不是这种思想进行的，本方案首先将尺寸小的特征图经过全卷积之后变成同样的尺寸，这里并没有直接进行拼接，而是将P3层特征送入了一个标准的Inceptionv3模块，通过非线性的、扩大感受野、增加尺度信息的操作人为的提高P3层的权重，这是因为对于无人驾驶的运动实例分割任务来讲，很少存在所谓的“伪装”现象，因此物体与周围的区别较大，因此浅层且分辨率高的特征图具有重要的意义，最后将新生成的P3与经过两层反卷积增大尺寸的{P4,P5,P6,P7}层特征图进行通道维度拼接，最后送入卷积核为(1,1)的卷积层进行降维和混叠效应消除，因此本文的特征融合方式是考虑了运动实例分割任务的实际情况，利用专家知识扩大了浅层P3特征的影响，以提升网络性能。

在本发明一实施例中，所述对所述第一特征集合进行特征融合，得到第二特征集合，可以包括如下子步骤：

从所述第一特征集合中，确定针对候选图像区域的候选图像特征集合；对所述候选图像特征集合进行特征融合，得到第二特征集合。

为了提取图像上的候选图像区域，算法分为两个部分进行处理：

(1)构建一个共享的head，分别对{P3,P4,P5,P6,P7}进行相同的卷积计算。每个head包含3个分支，前两个分支都包含4层堆叠的卷积核为(3，3)的卷积层，分别获得每个像素属于某个类别的概率和包围框中心点坐标，而第三个分支包含1层卷积核为(3，3)的卷积层，该卷积层输出通道数为169，被记为controller参数。因此使用第一分支结果去计算候选区域的分类损失，使用第二分支结果来计算包围框中心点与真值包围框中心点的距离损失。

(2)将P3特征图经过两层卷积核为(3，3)的卷积层和一层卷积核为(1，1)的特征图之后进行分割损失的计算，损失函数选择使用focal loss，此时生成的特征图通道数为训练所用的数据集的类别数加一。

经过以上步骤后获得了controller特征和候选区域的编码信息。

具体而言，本发明实施例具有以下效果：

1、速度快：相对于传统的运动分割方式来说，采用了全卷积的网络结构，不需要使用RoIPooling或者RoIAlign等结构，backbone采用了更快的MobileNet-v3网络、并且整体结构优化了候选区域的提取，因此速度快。

2、精度高：由于一种新的特征融合方式的使用，在一定程度上消除了不同深度特征图之间的语义鸿沟，提高了检测精度，另外不同深度特征图融合提高了网络对尺度变化目标的分割鲁棒性。

3、实现了端到端的运动实例分割网络。除了相邻帧图像之外，通常运动分割网络需要提前额外生成光流图作为输入，光流图的生成通常采用FlowNet等结构，运算速度慢，并且不是端到端的形式，不利于部署使用；此外，基于多运动分割的非深度学习方法虽然不需要额外的光流图作为输入，但是计算速度慢，需要大量的计算资源，并且同时可以计算出的运动模型有限，因此本网络可以有效降低计算资源消耗，提高分割速度，且端到端的网络形式便于部署使用。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图5，示出了本发明一实施例提供的一种图像中运动分割的装置的结构示意图，具体可以包括如下模块：

图像数据获取模块501，用于获取连续采集的图像数据；

运动信息生成模块502，用于基于预先构建的编解码器，生成所述连续采集的图像数据中相邻的两帧图像数据对应的运动信息；

第一特征集合生成模块503，用于将所述运动信息和所述相邻的两帧图像数据输入预置的目标网络模型，得到至少三层特征图，并根据所述至少三层特征图，生成第一特征集合；

运动分割结果生成模块504，用于根据所述第一特征集合，生成针对所述相邻的两帧图像数据的运动分割结果。

在本发明一实施例中，所述运动分割结果生成模块504，包括：

在本发明一实施例中，所述第二特征集合得到子模块，包括：

在本发明一实施例中，还包括：

在本发明一实施例中，所述第二特征集合的通道数少于所述第一特征集合的通道数。

本发明一实施例还提供了一种电子设备，可以包括处理器、存储器及存储在存储器上并能够在处理器上运行的计算机程序，计算机程序被处理器执行时实现如上图像中运动分割的方法。

本发明一实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现如上图像中运动分割的方法。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对所提供的一种图像中运动分割的方法和装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种图像中运动分割的方法，其特征在于，所述方法包括：

获取连续采集的图像数据；

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一特征集合，生成针对所述相邻的两帧图像数据的运动分割结果，包括：

对所述第一特征集合进行特征融合，得到第二特征集合；

3.根据权利要求1或2所述的方法，其特征在于，所述对所述第一特征集合进行特征融合，得到第二特征集合，包括：

4.根据权利要求3所述的方法，其特征在于，在所述将所述第二特征集合输入预置的由三层卷积层组成的目标模块，得到针对所述相邻的两帧图像数据的运动分割结果之前，还包括：

获取具有类别信息和每个实例坐标信息的独热编码图；

根据所述独特编码图，对所述第二特征集合进行掩膜处理。

5.根据权利要求4所述的方法，其特征在于，所述第二特征集合的通道数少于所述第一特征集合的通道数。

6.一种图像中运动分割的装置，其特征在于，所述装置包括：

图像数据获取模块，用于获取连续采集的图像数据；

7.根据权利要求6所述的装置，其特征在于，所述运动分割结果生成模块，包括：

8.根据权利要求6或7所述的装置，其特征在于，所述第二特征集合得到子模块，包括：

9.根据权利要求8所述的装置，其特征在于，还包括：

10.根据权利要求9所述的装置，其特征在于，所述第二特征集合的通道数少于所述第一特征集合的通道数。