CN111462140B

CN111462140B - 一种基于区块拼接的实时图像实例分割方法

Info

Publication number: CN111462140B
Application number: CN202010362097.6A
Authority: CN
Inventors: 王瀚漓; 徐昱韬
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2023-07-07
Anticipated expiration: 2040-04-30
Also published as: CN111462140A

Abstract

本发明涉及一种基于区块拼接的实时图像实例分割方法，包括以下步骤：1)采用第一多层卷积神经网络获取输入图像中物体实例的区块分布地图，并获取区块分布地图中每个像素的每个通道对应的值，即区块像素预测值b；2)采用第二多层卷积神经网络获取输入图像的区块拼接地图，并获取区块拼接地图中的每个像素的每个通道对应的值，即区块得分c；3)采用拼接算法将区块拼接地图和区块分布地图拼接组合得到物体实例的遮罩掩码；4)对所有预测物体实例的外接矩形进行处理，完成图像实例分割。与现有技术相比，本发明具有推理速度快、可扩展性强、计算耗费少、模型简洁、分割准确等优点。

Description

一种基于区块拼接的实时图像实例分割方法

技术领域

本发明涉及于数字图像处理技术领域，尤其是涉及一种基于区块拼接的实时图像实例分割方法。

背景技术

计算机视觉的目标是理解视觉中的场景，涉及多种任务，这其中图像分割是最具挑战、最具应用意义的计算机视觉基础任务之一，图像分割的本质目标是为了给输入视觉信号中每个像素进行归类，应用十分广泛，如在自动驾驶汽车中，为了了解汽车周围的环境从而更好地做出行动判断，需要对输入图像中的道路、车辆、行人等进行精确定位，图像分割为无人驾驶汽车的安全稳定提供重要保障，在现代医学图像诊断中，为了精确定位病患的位置，也会使用图像分割技术协助医生做出更准确的判断，在自动化工业生产设备应用中，图像分割技术能准确地定位每一个工件位置，为智能化装配工序提供有力支持，随着智能安防、智慧城市、工业4.0以及新基建等概念的实践发展，未来众多智能化设备越来越需要一个对精准、迅速的图像分割模型，从而更好更快地理解视觉场景。

随着以AlexNet为首的深度卷积神经网络技术的提出，图像分割技术得到了前所未有的发展，当前主流的实例分割方法Mask-RCNN使用二阶段预测形式，即先使用一个推荐框生成器得到初步的目标位置信息，再用这个位置信息去截取特征的相应块，最后再将这些特征块归一化到一个尺度范围后经过一个神经网络得到目标的遮罩掩码，但是这一过程需要巨大的计算耗费，因而目前众多基于此方法的实例分割模型无法达到实时处理的要求。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于区块拼接的实时图像实例分割方法。

本发明的目的可以通过以下技术方案来实现：

一种基于区块拼接的实时图像实例分割方法，包括以下步骤：

1)采用第一多层卷积神经网络获取输入图像中物体实例的区块分布地图，并获取区块分布地图中每个像素的每个通道对应的值，即区块像素预测值b；

区块分布地图中的每一个像素由多个通道组成，代表以像素位置为中心的区块掩码，若一个区块中心恰好属于某个物体，那么这个区块将表示这个物体的一部分片段的掩码，区块分布地图中每个像素的每个通道中的值被称为区块像素预测值；

2)采用第二多层卷积神经网络获取输入图像的区块拼接地图，并获取区块拼接地图中的每个像素的每个通道对应的值，即区块得分c；

区块拼接地图中的每一个像素由多个通道组成，如果某个物体的中心位置在该像素位置附近，则在这些通道中存储一个正方形区域内的所有区块的得分，得分越高区块属于物体的可能性越大，区块拼接地图中的每个像素的每个通道的值被称为区块得分；

3)采用拼接算法将区块拼接地图和区块分布地图拼接组合得到物体实例的遮罩掩码；

4)对所有预测物体实例的外接矩形进行处理，完成图像实例分割。

所述的步骤1)中，区块分布地图中每个像素用以表示物体实例的部分掩码区块，并且每个像素由多个通道组成，代表以该像素位置为中心的区块掩码，物体实例的掩码区块具体为指定类别物体的矩形掩码片段。

所述的步骤1)中，每个掩码区块均与相邻掩码区块重叠。

所述的步骤2)中，区块拼接地图具体表示指定类别物体周围属于该物体区块的区块得分。

所述的步骤2)中，区块拼接地图通过实例分割模型TensorMask中的Aligned-Representation表示方法，并通过Align2Nat变换操作获得。

所述的步骤3)中，拼接算法具体包括以下步骤：

31)设定最终生成完整物体实例的遮罩掩码的分辨率ρ；

32)根据区块像素预测值b和区块得分c计算得到物体实例的遮罩掩码中每一个像素的置信度a，完成拼接。

所述的步骤31)中，遮罩掩码的分辨率ρ计算式为：

ρ＝1+(p-1)(m-1)/2

其中，p为正方形掩码区块的边长，m为正方形拼接地图的边长。

所述的步骤32)中，每一个像素的区块像素预测值b选择为与其有重叠的各个掩码区块中预测值最大的区块内相应位置的预测值。

所述的步骤32)中，遮罩掩码中每一个像素的置信度a由掩码区块内像素对应位置的区块像素预测值b与区块拼接地图中对应掩码区块的区块得分c相乘获得，即：

a＝b×c。

所述的步骤4)具体包括以下步骤：

41)对物体实例的置信度金字塔中的每一层均进行非极大八邻域抑制操作，具体为：采用一个3*3的窗口扫描特征图，当该窗口中心位置的实例置信度不比周围的都大，则将原窗口中心位置对应的实例置信度修改为0；

42)将所有预测输出的物体实例的外接矩形通过一个向量表示，抽取置信度大小排序前n的目标框，并获取相互间的面积交并比，过滤交并比大于设定阈值的冗余预测。

与现有技术相比，本发明具有以下优点：

一、本发明通过卷积神经网络提取图像特征，并使用区块拼接算法将图像中特定物体的遮罩掩码块拼接成一个整体，该方法克服了先前实例分割方法Mask R-CNN计算耗费大、推理速度慢等缺点，将模型复杂度减少至与主流目标框检测方法相当，适用于部署到低功耗、低算力的边缘设备中，并有能力达到实时推理速度，具有较强的可扩展性以及较大的应用价值。

二、本发明提出了能够大幅度减少IOU计算量的新颖非极大抑制方法减少冗余输出，同时，这一方法又极易并行化，适合多线程优化。

三、本发明在速度上与当前实时图像实例分割方法YOLACT相当，但在预测精度上更加准确，除此之外，由于本方法无需以往分割模型中特有的上采样操作，因此能够轻易地由现成目标检测模型扩展而来，仅需要对现有任意一阶段目标检测模型增加一条专门用于实例分割的计算流，使用很少改动就能扩展成同时应用检测与分割的模型，这体现出本发明良好的可扩展性。

附图说明

图1为基于区块拼接的图像实例分割模型架构示意图。

图2为拼接操作以及区块表示形式示意图。

图3为模型输出样例。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本发明提供一种基于区块拼接的图像实时实例分割方法，该方法通过卷积神经网络提取图像的语义信息，并结合特征金字塔进行综合分析，使用一个共享参数的目标检测流以及一个实例分割流在特征金字塔上进行推理，最终得到每一个目标实例的分割结果以及大致外切框位置。卷积神经网络具有很强的特征提取能力，被广泛应用于视觉分类、检测、分割等任务中，本例中的卷积神经网络采用ResNet形式，即一种跨层连接形式的结构，这种结构能更好地优化梯度，以达到更高的模型精度。如图1所示，该模型在ResNet特征提取网络基础上采用特征金字塔，以更快更精确地区别不同尺度物体的信息。与通常的目标检测及实例分割的特征金字塔不同，本例中仅采用四层特征金字塔，以便更快地运行，在输出检测流的最后，特征被分割成两种模式，第一种为了判断目标所属的类别，第二种为了判断目标的外切框位置，在输出分割流的最后，特征同样也被分割成两种模式，第一种为了获得区块拼接地图，第二种则为了获取目标区块的局部掩码，具体实施过程如下：

1、目标局部区块以及区块拼接地图的获取

如图2所示，本发明的目标局部掩码区块为一个目标中一小块区域的遮罩掩码，区块拼接地图为这些区块的组织形式，区块拼接地图是一个具有多个通道的特征图，设其形状为(H，W，C)，其中，通道C用以存储某个像素周围一定范围内的区块得分，如果某个物体的中心位置在某个像素位置附近，则其相应区块的得分就被存储在该像素的通道中，得分越高区块属于这个物体的可能性越大，本例中，区块拼接地图使用现有实例分割模型TensorMask中的Aligned-Representation表示方法，并通过Align2Nat变换操作得到，对于任意一个目标实例，都有一个相对应的区块拼接地图来指明其对应区块掩码的分布，使用模型所输出的区块集合以及任意物体的拼接地图，就能生成该物体的完整分割掩码，设每个区块为边长为p的正方形区域，拼接地图为边长为m的正方形区域，那么最终生成的实例完整掩码分辨率为1+(p-1)(m-1)/2，在上述实例完整掩码中，预测掩码中每一个像素的置信度的计算方式为：拼接地图中与之有重叠的4个区块的区块得分最大值与相应区块像素预测值的乘积。

2、模型架构设计

如图1所示，本发明使用的模型采用ResNet作为特征提取网络，并使用FPN特征金字塔来增加对不同尺度物体检测的鲁棒性，整套框架无需额外的上采样操作，因此在复杂度方面可以做到与现有一阶段目标检测方法如YOLO、RetinaNet、FCOS等相当，这大大增加了模型的运行速度，对于输出的每一层特征，使用一个共享参数的网络提取目标外切框及类别信息，同时，使用另一个共享参数网络提取局部区域掩码及拼接地图信息。在拼接地图输出后增加一个变换操作，这个操作使用了TensorMask的对齐表示转自然表示的方法，以生成更加准确的区块组织分布。

3、快速并行非极大抑制方法

快速并行非极大抑制的目标是为了减少输出的冗余信息，依次使用下述方式对所有预测的物体实例的外接矩形进行处理：

第一步，对物体实例的置信度金字塔中的每一层均进行非极大八邻域抑制操作，具体为：采用一个3*3的窗口扫描实例置信图，实例置信度由附图1中目标类别输出的输出做通道维最大值选择操作得到的通道数为1的图，当这个窗口中心位置的实例置信度不比周围的都大，则将原窗口中心位置对应的实例置信度修改为0；

第二步，把所有预测输出的物体外接矩形使用一个向量表示，抽取置信度前n大的目标框，计算两两间的面积交并比，并使用一个阈值过滤掉交并比大的冗余预测。

4、模型的训练

在训练时，当以下条件满足时，将对目标的标注分配到预测金字塔的特定像素：

(1)当目标中心与该位置的距离小于一个给定值；

(2)当目标的大小满足金字塔中这一层所接受的范围；

(3)对于同时满足要求的多个目标，优先选择面积小的。

在训练时，当标注的某个目标被预测金字塔的某个位置捕获时，则传递损失值。本发明对每一个区块以及拼接地图使用二值交叉熵损失函数计算，整个框架的损失值计算形式如下：

L_all＝(L_bbox+2L_map+0.5L_patch)/N_pos

以上公式中，L_all表示所有的损失值；L_bboxb表示目标外切框损失值，使用IOU损失函数计算；L_map以及L_patch分别表示拼接地图以及区块的损失值，使用二值交叉熵损失函数计算；N_pos为当前图像中被分配目标的个数。

5、模型的推理

当模型训练完之后，对于每张输入图像，通过主干网络(图1中的特征提取网络和FPN特征金字塔)输出四种信息，分别为目标的种类、目标的外切框、区块掩码集合以及区块拼接地图。首先针对目标外切框使用快速并行非极大抑制方法过滤掉重叠度较高的冗余框信息，得到一个无冗余框的集合，然后对这一集合内的框的区块拼接地图以及各个区块使用区块拼接方法进行组合，最终生成这些目标的完整分割掩码。整个过程快速、直接，无需繁琐的ROI截取过程。

为了验证本发明的性能，设计了以下实验。

在公共数据集Microsoft COCO上，使用本发明方法训练模型，与现有方法做对比，本发明在速度上具有优势。得到测试集评价指标如表1所示。

表1测试集评价指标

方法	运行时间(ms)	AP	AP50	AP75
					FCIS	151.5	29.5	51.5	30.2
Mask R-CNN	116.3	35.7	58.0	37.8
					PA-Net	212.8	36.6	58.0	39.3
TensorMask	400+	35.5	57.3	37.4
					本发明	41.5	32.4	51.5	34.6

与现有实时实例分割模型YOLACT对比，本发明在同样速度等级下性能更优，得到测试集评价指标如表2所示。

表2测试集评价指标

方法	运行时间(ms)	分割AP	检测AP
				YOLACT-R50	22.2	28.2	30.3
YOLACT-R101	29.8	29.8	32.3
				本发明-R50	32.6	31.1	36.4
本发明-R101	41.5	32.4	37.9

本发明提出的区块拼接技术将目标掩码块组装成一个整体，整套框架建立在主流的基于卷积神经网络的一阶段目标检测模型基础之上，仅增加了一条分割掩码输出流，无需额外的上采样操作，相比先前的两阶段分割模型，本发明所提出的模型直接输出所识别物体的遮罩掩码，无需繁琐的逐目标特征尺度归一化过程，因而不仅降低了计算量、提升了推理速度，在代码实现上十分简洁，且易于与现成一阶段目标检测框架整合，具有推理速度快、可扩展性强、计算耗费少、模型简洁、分割准确等优势，并且本方法更易于部署到生产应用环境中，如自动化流水线中机械臂对工件的检测与抓取、无人驾驶中的快速车辆位置检测等。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于区块拼接的实时图像实例分割方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于区块拼接的实时图像实例分割方法，其特征在于，所述的步骤1)中，区块分布地图中每个像素用以表示物体实例的部分掩码区块，并且每个像素由多个通道组成，代表以该像素位置为中心的区块掩码，物体实例的掩码区块具体为指定类别物体的矩形掩码片段。

3.根据权利要求2所述的一种基于区块拼接的实时图像实例分割方法，其特征在于，所述的步骤1)中，每个掩码区块均与相邻掩码区块重叠。

4.根据权利要求1所述的一种基于区块拼接的实时图像实例分割方法，其特征在于，所述的步骤2)中，区块拼接地图具体表示指定类别物体周围属于该物体区块的区块得分。

5.根据权利要求1所述的一种基于区块拼接的实时图像实例分割方法，其特征在于，所述的步骤2)中，区块拼接地图通过实例分割模型TensorMask中的Aligned-Representation表示方法，并通过Align2Nat变换操作获得。

6.根据权利要求1所述的一种基于区块拼接的实时图像实例分割方法，其特征在于，所述的步骤3)中，拼接算法具体包括以下步骤：

31)设定最终生成完整物体实例的遮罩掩码的分辨率ρ；

7.根据权利要求6所述的一种基于区块拼接的实时图像实例分割方法，其特征在于，所述的步骤31)中，遮罩掩码的分辨率ρ计算式为：

ρ＝1+(p-1)(m-1)/2

8.根据权利要求6所述的一种基于区块拼接的实时图像实例分割方法，其特征在于，所述的步骤32)中，每一个像素的区块像素预测值b选择为与其有重叠的各个掩码区块中预测值最大的区块内相应位置的预测值。

9.根据权利要求6所述的一种基于区块拼接的实时图像实例分割方法，其特征在于，所述的步骤32)中，遮罩掩码中每一个像素的置信度a由掩码区块内像素对应位置的区块像素预测值b与区块拼接地图中对应掩码区块的区块得分c相乘获得，即：

a＝b×c。

10.根据权利要求1所述的一种基于区块拼接的实时图像实例分割方法，其特征在于，所述的步骤4)具体包括以下步骤：