CN111862119A

CN111862119A - 基于Mask-RCNN的语义信息提取方法

Info

Publication number: CN111862119A
Application number: CN202010704516.XA
Authority: CN
Inventors: 吴怀宇; 李琳; 陈洋; 郑秀娟; 张天宇; 吴帆; 李想成
Original assignee: Wuhan University of Science and Engineering WUSE
Current assignee: Wuhan University of Science and Engineering WUSE; Wuhan University of Science and Technology WHUST
Priority date: 2020-07-21
Filing date: 2020-07-21
Publication date: 2020-10-30

Abstract

本发明公开了一种基于Mask‑RCNN的语义信息提取方法，应用于语义地图构建环节，其特征在于结合深度学习实例分割算法Mask‑RCNN对室内物品进行不同个体的区分，对于语义地图中含有语义信息的图像精确标注并进行实例分割。对分割后的结果进行优化处理，使用DenseCRF算法对Mask‑RCNN分割后的图像边缘进行处理，使分割后的结果更加精确和平滑，提取到更加精确的环境信息，为后续语义地图构建奠定良好的基础，从而使移动机器人实现更好的人机交互。

Description

基于Mask-RCNN的语义信息提取方法

技术领域

本发明涉及本发明涉及图像处理技术领域，尤其涉及一种基于Mask-RCNN实例分割模型的语义地图构建环节中语义信息提取方法。

背景技术

随着机器人技术的不断进步与发展，移动机器人越来越多地进入到人们的日常生活中，传统几何地图已无法满足机器人与复杂环境进行交互的信息需求，因此构建带有物体信息的语义地图成为研究的热点。移动机器人通过语义地图能够和用户进行自然的交流，从而完成自动驾驶、家庭服务等人机交互任务。

语义地图生成的关键是完成对环境语义信息的提取，即实现对室内物体的准确分割。然而室内物品繁多，且对移动机器人来讲每个物体应属于单独的个体，如果只对几种类别进行语义划分，没有区分物体的个体，机器人将无法实现操作对象个体一类的服务任务。传统的分割算法对物体的特征提取不足，特征的区分较弱，在复杂环境下的分割效果不好、分割速度慢、鲁棒性不高，并且无法区分同种类的不同个体。

随着深度学习技术在图像感知领域的快速发展，尤其是卷积神经网络(Convolutional Neural Network,CNN)在图像分类方面的成就，大批学者开始将深度学习应用于图像语义分割，进而为语义地图提供准确的像素级语义标注。但一般语义分割算法只能进行语义分割而不能进行实例分割，例如，待处理的图片中含有两个水杯，像素级类别不会区分其是第一个水杯还是第二个水杯，只会表示该像素对应的是水杯，而不能区分具体实例，因此需要一种实例分割能将同一类别的不同物体区分开。在训练数据集数量不足和数据集类别数较多的情况下，部分分割的结果可能与实际物体的位置存在差异，这主要是由于在训练过程中单个深度学习模型泛化能力不足，也有可能是在训练过程中出现欠拟合或者过拟合，而且分割的物体要经过手动标注，有的物体构造复杂，标注效果不是那么好，也可能使物体分割的边缘存在差异，提供了不准确的语义信息，将影响后续的语义地图构建。因此需要对分割后的图像位置进行修正是构建语义地图的核心之一，物体分割精度高低将影响语义地图的精度，乃至会影响移动机器人对环境感知的准确性。

发明内容

本发明要解决的技术问题是：针对语义地图构建环节中语义信息提取时要实现对物体的个体区分的缺陷，提供语义地图构建环节中一种基于Mask-RCNN实例分割模型的语义信息提取方法，克服传统语义分割算法提取物体语义信息时边缘细节处理的效果不好比较粗糙的问题。

本发明为解决上述技术问题，采用如下技术方案：

一种基于Mask-RCNN的语义信息提取方法，其特征在于应用于语义地图构建环节的语义信息提取，包括如下步骤：

首先利用移动机器人自身携带的Kinect深度相机获取不同环境下的室内彩色图像序列，之后对图像中的物体进行实例级分割，所述的实例级分割过程为：使用一种深度学习分割算法模型进行训练，接着将采集的室内彩色图像传入到训练好的神经网络中经过不断的池化、卷积、提取物体的特征并进行分析，输入分割后的结果实现物体个体的区分，在像素层面识别目标轮廓，在图像中将目标检测出来，然后对每个像素打上标签，区分同类的不同实例；对于实例级分割后的结果，如在边缘细节方面处理不理想则对分割后的边缘进行优化，补充完善边缘细节的分割结果，提高分割准确率，实现对环境语义信息的精确提取。

上述技术方案中，所述的实例级分割过程包括如下步骤：

首先对数据集标注：对获取的室内彩色图像序列的图片按照训练集：测试集：验证集进行划分，然后对训练集的图片进行标注；利用标注好的数据集，放入Mask-RCNN实例分割模型中进行训练；

其次，根据已经训练好的Mask-RCNN实例分割模型对室内图片进行实例分割，将待分割的图片输入到训练好的Mask R-CNN实例分割模型中，识别出可能是物体的候选框，然后将候选框输入到网络模型中进行实例分割，得到目标分类框或、及实例分割的结果，输出物体的目标框或类别、置信度及对应的掩码Mask；

最后，将分割后的结果输入到DenseCRF算法中，对分割后的结果进行优化，使物体的边缘信息更加精确，实现对环境中物体语义信息的提取。

上述技术方案中，Mask R-CNN实例分割模型是在Faster R-CNN特征网络的基础上添加一个预测分割掩码Mask的分支，并且将Faster R-CNN的ROI Pooling网络替换成ROIAlign网络，添加并列的FCN层或Mask层；在实现目标检测的同时，把目标中感兴趣的区域像素分割出来，训练完成后将得到包括类别Category、坐标Coordinates、掩码Mask输出的三分支网络模型和权重；其中Category将输出待检测的图片中包含哪种物体、Coordinates的目的是生成物体所对应的检测框的坐标、Mask输出物体所对应像素上覆盖的分割掩码。

上述技术方案中，Mask-RCNN实例分割模型的训练方法如下：

首先，输入一张Kinect相机获取到的彩色图像，然后进行预处理操作；

其次，将标注后的相关文件输入到Mask R-CNN实例分割模型中进行训练，该实例分割模型先利用共享卷积网络CNN进行训练，然后使用共享的卷积层ResNeXt-101+FPN为全图提取特征，生成不同尺寸的特征图feature maps；

在训练Mask-RCNN模型时，采用如下的损失函数：

L＝Lcls+Lbox+LMask (1)

其中，L表示总的误差，Lcls代表分类误差，Lbox表示回归误差，LMask表示分割误差；

再次，将上一步提取的不同尺寸的特征图通过RPN网络生成待检测框，由待检测框推测其中的物体可能出现的位置生成感兴趣区域ROI并进行筛选保留含有某些物体的检测框去除冗余框以获得最佳的ROI；

再次，采用ROI Align网络对经过筛选的感兴趣区域ROI进行双线性差值操作，将ROI映射到feature maps对应的位置；通过此操作使每个ROI生成固定尺寸的featuremaps；

最后，将上一步得到的feature maps输入到三分支网络得到三个预测结果：物体所对应的检测框坐标、物体的类别、及物体所对应像素上覆盖的分割掩码Mask，经过此操作可以得到分割后的物体信息。

上述技术方案中，RPN网络生成待检测框时依靠一个在共享特征图上滑动的窗口，为每个位置生成9种预先设置好长宽比与面积的anchor；这9种初始anchor包含三种面积：128×128，256×256，512×512，每种面积又包含三种长宽比1:1，1:2，2:1；

利用交并比IOU计算出感兴趣区域ROI，以减少计算时间，只有当交并比大于等于0.5时，这一区域方为感兴趣区域ROI，否则弃之不用。

上述技术方案中，ROI Align网络是一种区域特征聚集方式，当候选框映射产生固定大小的feature map时不再进行取整操作而使用双线性内插的方法提取特征，减少量化操作带来的特征损失。

上述技术方案中，利用DenseCRF算法对分割结果进行优化的过程如下：通过将原始图像中的所有像素与Mask-RCNN实例分割模型的分割结果中的每个像素进行匹配，寻找具有相同属性的像素，对输入进行补充平滑，改善分割结果的细节信息，使图片尽量在边界处分割。

上述技术方案中，利用DenseCRF算法对分割结果进行优化时，通过最小化能量公式实现像素匹配，能量公式如下所示：

其中

是一元势函数，其接受来自Mask-RCNN实例分割模型的softmax端的输出，

是二元势函数，描述的是像素点与像素点之间的关系，相似像素分配相同的标签，而相差较大的像素分配不同标签；

将原图像作为DenseCRF算法中二元势函数

的输入，其中二元势函数将由以下公式得到：

ψ_p(z_i,z_j)＝μ(z_i,z_j)∑w^(m)k^(m)(x_i,x_j) (3)

μ(z_i,z_j)为标签一致性因子，其中：w^(m)是权值参数，m表示其取值范围；k^(m)(x_i,x_j)是特征函数，以特征的形式表示了不同像素之前的“亲密度”，x_i,x_j是像素i和j的特征向量；

上式(4)中，第一项为表面核,第二项为平滑核，其中p_i,p_j分别为像素i和j的位置，I_i,I_j分别为像素i和j的像素颜色值，w⁽¹⁾,w⁽²⁾,θ_α,θ_β,θ_γ均为超参数。

上述技术方案中，采用labelme工具对图片中出现的每个物体进行标注，所述labelme工具标注的类别如desk1，desk2，laptop，book等。

上述技术方案中，室内彩色图像序列应该包含不同背景、光照条件、不同尺度下的图片，保持训练样本的多样性，防止过拟合。

相对于现有技术，本发明有益效果如下：

采用一种深度学习分割算法Mask-RCNN，通过对其模型进行训练然后通过移动机器人搭载的Kinect获取彩色图像序列，对图片中的物体进行实例级分割，模型中的ROIAlign网络使用双线性插值操作很好地解决了ROI Pooling网络中两次量化造成的区域不匹配的问题，能够精确的把物体的位置映射到特征图的位置上，实现对室内物品进行不同个体的区分，对于语义地图中含有语义信息的图像精确标注，位置精确。让机器人在执行某种特定的任务时不会接受到错误的语义信息。

针对分割后的结果在边缘细节方面处理不理想的问题使用DenseCRF算法进行优化，处理物体的边缘，使边缘信息更加准确和平滑，提取到更加精确的环境信息，为后续语义地图构建奠定良好的基础，从而使移动机器人实现更好的人机交互。

附图说明

图1是本发明提供的基于Mask-RCNN的语义信息提取方法的流程图；

图2是未经过处理的原始图；

图3是本发明的Mask-RCNN网络的结构图；

图4中，(a)是本发明使用Mask-RCNN进行实例分割后的结果图；(b)是本发明使用DenseCRF(全连接条件随机场)对Mask-RCNN分割后的图像进行优化的结果图；(c)是优化前和优化后的边缘局部放大结果图。

具体实施方式

为了进一步说明本发明的技术方案，下面将结合附图1-4对本方案进行详细的说明。

如图1所示，根据本发明基于Mask-RCNN的语义信息提取方法，基于搭载着Kinect相机的移动机器人进行；包括如下流程：

步骤S1：彩色图像序列的采集；启动移动机器人，让机器人自由的在室内不同环境下移动，并通过自身携带的Kinect相机采集彩色图像序列，如图2所示为Kinect相机获取的原始图片。图像序列应该包含不同背景、光照条件、不同尺度下的图片，并将采集到的图像输入到PC端进行处理并保存。

在PC端对图像进行处理包括图像增强，像素归一化等，去除噪声的影响，便于网络模型的训练。

步骤S2：数据集标注，对图片进行标注，对获取的图片按照训练集：测试集：验证集＝7:1:2的比例划分，然后对训练集的图片使用labelme进行标注生成.json文件。

步骤S3：训练Mask-RCNN模型，Mask-RCNN网络结构如图3所示，其包含4个部分：backbone(共享卷积层)、RPN网络、ROI Align网络、three branches(三分支网络)。Mask R-CNN训练主要分为两个阶段：第一阶段训练RPN网络：首先输入图像数据集(Input)，共享的卷积层ResNeXt-101+FPN对数据集图像特征提取，生成不同尺寸的feature maps(特征图)；第二阶段使用ROI Align网络将RPN网络生成的ROI映射到feature map对应位置，将映射后的区域生成固定大小的特征图，然后将其输入到三分支网络得到分割结果。在训练Mask-RCNN模型时，采用如下的损失函数：

L＝Lcls+Lbox+LMask (1)

其中，L表示总的误差，Lcls代表分类误差，Lbox表示回归误差，LMask表示分割误差；在上式中，Lcls和LMask都是对positive ROI(正样本)才会起作用，在Mask R-CNN中，positive ROI被定义成了与Ground truth的IOU大于0.5的预测框。在网络训练过程中损失函数是不断收敛的，当损失函数的值较低且损失函数曲线不断降低并处于水平时则该模型训练的就比较好。

步骤S31：输入一张Kinect相机获取到的彩色图像，然后进行预处理操作；

步骤S32：将步骤S2中标注后的相关文件输入到Mask R-CNN模型中进行训练(如图3所示)，该模型先利用共享卷积网络CNN进行训练，然后使用共享的卷积层ResNeXt-101+FPN为全图提取特征。

步骤S33：将提取的feature maps应用于RPN网络，RPN网络将生成待检测框，由待检测框推测其中的物体可能出现的位置生成ROI(感兴趣区域)并进行筛选保留含有某些物体的检测框去除冗余框以获得最佳的ROI。

步骤S331:RPN网络生成待检测框时依靠一个在共享特征图上滑动的窗口，为每个位置生成9种预先设置好长宽比与面积的anchor。这9种初始anchor包含三种面积(128×128，256×256，512×512)，每种面积又包含三种长宽比(1:1，1:2，2:1)。

步骤S332:利用交并比(IOU)计算出感兴趣区域ROI，以减少计算时间，只有当交并比大于等于0.5时，这一区域方为感兴趣区域ROI，否则弃之不用。

步骤S34：采用ROI Align网络对经过筛选的ROI进行双线性差值操作，将ROI映射到feature maps对应的位置；通过此操作使每个ROI生成固定尺寸的feature maps。

步骤S341:ROI Align网络是一种区域特征聚集方式，解决了ROI Pooling网络中两次量化造成的区域不匹配(mis-alignment)的问题，当候选框映射产生固定大小的feature map时不再进行取整操作而使用双线性内插的方法提取特征，减少量化操作带来的特征损失，提升了检测模型的准确性。

步骤S35:将上一步得到的feature maps输入到三分支网络得到三个预测结果：物体所对应的检测框坐标、物体的类别及物体所对应像素上覆盖的分割掩码(mask)，经过此操作可以得到分割后的物体信息。

步骤S351:三分支网络包括Category(类别)、Coordinates(坐标)、Mask(掩码)。其中Category将输出待检测的图片中包含哪种物体、Coordinates的目的是生成物体所对应的检测框的坐标、Mask输出物体所对应像素上覆盖的分割掩码。

步骤S4：使用Mask-RCNN进行图像实例分割。

步骤S41：将待分割的图片输入到训练好的Mask R-CNN模型中，识别出可能是物体的候选框。

步骤S42：将候选窗口输入到网络模型中进行实例分割，得到目标分类框、及实例分割的结果，输出物体的目标框、置信度及对应的掩码Mask，分割结果如图4(a)所示。从图4(a)可以看出Mask-RCNN对边缘细节部分处理不是很好，把背景当做电脑进行分割，掩码超出电脑边界，导致分割后的边缘不是电脑真正的边缘。

步骤S5：对Mask-RCNN分割后的结果进行DenseCRF后处理操作，DenseCRF优化的原理是将原始图像中的所有像素与Mask-RCNN算法的分割结果中的每个像素进行匹配，寻找具有相同属性的像素，对输入进行补充平滑，改善分割结果的细节信息。

步骤S51:进一步的，上述优化分割是通过最小化能量公式实现的，能量公式为：

其中第一项为与像素自身类别相关的一元势函数，后一项为二元势函数，其中u,p表示像素集，z_i,z_j表示像素标签，取值0表示背景，1表示前景，

其中每一个像素的类别信息都与其它像素的类别信息、所有像素的信息相关。二元势函数展开为：

ψ_p(z_i,z_j)＝μ(z_i,z_j)∑w^(m)k^(m)(x_i,x_j) (3)

μ(z_i,z_j)为标签一致性因子，它约束了像素间传导的条件，只有相同标签条件下，能量才可以相互传导，w^(m)是权值参数，m表示其取值范围。k^(m)(x_i,x_j)是特征函数，以特征的形式表示了不同像素之前的“亲密度”，x_i,x_j是像素i和j的特征向量，其中：

上式中，第一项为表面核,第二项为平滑核，其中p_i,p_j分别为像素i和j的位置，I_i,I_j分别为像素i和j的像素颜色值，w⁽¹⁾,w⁽²⁾,θ_α,θ_β,θ_γ均为超参数。

步骤S52:进一步的进行DenseCRF处理的具体内容是将Mask-RCNN的softmax层的输出作为DenseCRF一元势函数

的输入、原图像作为DenseCRF二元数函数

的输入；

步骤S53：打开Anaconda3，导入所需模块，设置unary potential，pairwisepotential，然后将Mask-RCNN分割后的图像、原图像路径输入，在命令窗口输入指令，将得到经DenseCRF优化处理后的图片,完成语义信息的提取，优化后的结果如图4(b)所示，将优化前后的图片进行局部放大处理，如图4(c)所示，可以看出经DenseCRF优化可以改善分割细节，超出电脑边缘的掩码已经被修正。

上述技术方案中，上述基于Mask-RCNN的语义地图构建环节中语义信息提取方法，是基于Windows10 32位操作系统下的Anaconda3,Python3 TensorFlow 1.8-gpu，Keras2.1.6实现的，对图片的标注是通过labelme进行处理。

以上详细描述了本发明的优选实施方式，但是，本发明并不限于上述特定实施方式，本领域技术人员可以在权利要求的范围内进行修改或者同等变换，均应包含在本发明的保护范围之内。

Claims

1.一种基于Mask-RCNN的语义信息提取方法，其特征在于应用于语义地图构建环节的语义信息提取，包括如下步骤：

2.根据权利要求1所述的基于Mask-RCNN的语义信息提取方法，其特征在于所述的实例级分割过程包括如下步骤：

3.根据权利要求2所述的基于Mask-RCNN的语义信息提取方法，其特征在于Mask R-CNN实例分割模型是在Faster R-CNN特征网络的基础上添加一个预测分割掩码Mask的分支，并且将Faster R-CNN的ROI Pooling网络替换成ROIAlign网络，添加并列的FCN层或Mask层；在实现目标检测的同时，把目标中感兴趣的区域像素分割出来，训练完成后将得到包括类别Category、坐标Coordinates、掩码Mask输出的三分支网络模型和权重；其中Category将输出待检测的图片中包含哪种物体、Coordinates的目的是生成物体所对应的检测框的坐标、Mask输出物体所对应像素上覆盖的分割掩码。

4.根据权利要求2或3所述的基于Mask-RCNN的语义信息提取方法，其特征在于Mask-RCNN实例分割模型的训练方法如下：

在训练Mask-RCNN模型时，采用如下的损失函数：

L＝Lcls+Lbox+LMask (1)

再次，采用ROIAlign网络对经过筛选的感兴趣区域ROI进行双线性差值操作，将ROI映射到feature maps对应的位置；通过此操作使每个ROI生成固定尺寸的feature maps；

5.根据权利要求4所述的基于Mask-RCNN的语义信息提取方法，其特征在于RPN网络生成待检测框时依靠一个在共享特征图上滑动的窗口，为每个位置生成9种预先设置好长宽比与面积的anchor；这9种初始anchor包含三种面积：128×128，256×256，512×512，每种面积又包含三种长宽比1:1，1:2，2:1；

6.根据权利要求2所述的基于Mask-RCNN的语义信息提取方法，其特征在于ROI Align网络是一种区域特征聚集方式，当候选框映射产生固定大小的feature map时不再进行取整操作而使用双线性内插的方法提取特征，减少量化操作带来的特征损失。

7.根据权利要求2所述的基于Mask-RCNN的语义信息提取方法，其特征在于利用DenseCRF算法对分割结果进行优化的过程如下：通过将原始图像中的所有像素与Mask-RCNN实例分割模型的分割结果中的每个像素进行匹配，寻找具有相同属性的像素，对输入进行补充平滑，改善分割结果的细节信息，使图片尽量在边界处分割。

8.根据权利要求2或7所述的基于Mask-RCNN的语义信息提取方法，其特征在于利用DenseCRF算法对分割结果进行优化时，通过最小化能量公式实现像素匹配，能量公式如下所示：

其中

将原图像作为DenseCRF算法中二元势函数

的输入，其中二元势函数将由以下公式得到：

ψ_p(z_i,z_j)＝μ(z_i,z_j)Σw^(m)k^(m)(x_i,x_j) (3)

9.根据权利要求2所述的基于Mask-RCNN的语义信息提取方法，其特征在于采用labelme工具对图片中出现的每个物体进行标注，所述labelme工具标注的类别如desk1，desk2，laptop，book等。

10.根据权利要求2所述的基于Mask-RCNN的语义信息提取方法，其特征在于室内彩色图像序列应该包含不同背景、光照条件、不同尺度下的图片，保持训练样本的多样性，防止过拟合。