CN111401380A

CN111401380A - 一种基于深度特征增强和边缘优化的rgb-d图像语义分割方法

Info

Publication number: CN111401380A
Application number: CN202010215404.8A
Authority: CN
Inventors: 孙艳丰; 李昱钊
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2020-07-10
Anticipated expiration: 2040-03-24
Also published as: CN111401380B

Abstract

本发明针对RGB‑D图像的场景理解问题，提出了一种基于深度特征增强和边缘优化的RGB‑D图像分割方法，属于计算机视觉领域。本发明首先使用以Mask‑RCNN为主干的神经网络提取RGB‑D图像的彩色通道特征；然后设计了一种深度特征增强网络提取深度通道特征并与彩色特征进行融合；最后设计了一种基于随机游走的网络结构来对主干网络输出的分割结果进行边缘优化。本发明具有语义抽象程度高，特征融合充分，分割边缘清晰等优点。

Description

一种基于深度特征增强和边缘优化的RGB-D图像语义分割方法

技术领域

本发明针对RGB-D图像的场景理解问题，提出了一种基于深度特征增强和边缘优化的RGB-D图像分割方法。本发明首先设计了一种深度特征增强网络提取深度通道特征，并与ResNet提取的彩色通道特征相融合；然后使用了一种基于目标预检测的方法对图像进行分割；最后设计了一种基于随机游走的网络结构来对网络输出的分割结果进行边缘优化。本发明属于计算机视觉领域，具体涉及深度学习，图像分割等技术。

背景技术

数字图像在人们的交流和生产活动中扮演着越来越重要的角色。随着信息传递效率的增加，每天都会生成海量的图像数据。计算机技术的发展为处理并理解海量的图像数据提供了可能性。图像分割技术能根据图像各部分包含信息的不同，将图像分割为多个语义区域，在医疗、教育、遥感等领域发挥着重要的作用。 RGB-D图像相较于传统的RGB三通道图像，增加了描述场景中物体距离的深度通道，增加了图像的信息量。本发明为了充分利用深度通道以增加图像分割的准确率，设计了一种基于深度特征增强和边缘优化的RGB-D图像分割方法。

传统的图像分割算法通常利用图像的灰度、颜色、纹理等特征来将图像简单地划分，难以对图像信息进行全面的描述，且无法对区域所属类别进行标注。基于深度学习的分割算法弥补了传统分割算法的缺陷，能自动对图像提取特征并标注分割区域所属类别。RGB-D图像包含了额外的深度通道，提供了场景中物体的几何信息，能够在光线、颜色等区分不明显的情况下仍保有较明显的边界。深度通道中相同类别的像素深度值趋于相似。这种特性使得深度通道能够为神经网络的训练提供先验信息。为了能更好地提取这种先验信息，本发明设计了一种深度特征增强网络来提取深度通道的特征，将其与ResNet网络提取彩色通道特征相融合，构建特征金字塔。

传统的神经网络分割算法采用单级的分割架构，缺乏高级信息的指导。MaskRCNN中采用先进行目标预检测，再对目标区域进行分割的双级检测架构，能有效利用场景中物体的高级信息。因此，本发明基于MaskRCNN种的分割逻辑，使用了一种基于目标预检测的分割方法对图像进行分割。

在神经网络提取特征的过程当中，为了得到旋转不变的特征，通常在网络中加入最大池化层(maxpooling)。最大池化层增加了网络的鲁棒性，但是其过程类似于下采样，会造成特征信息的损失。为了弥补最大池化层的信息损失，本发明通过原始图像计算出转移矩阵，将分割的优化视作一种随机游走过程，从而设计了一种随机游走网络来优化分割结果，增强分割边缘的准确性

发明内容

本发明针对RGB-D图像的场景理解问题，设计了一种基于深度学习的RGB- D图像分割框架。首先，为了弥补传统分割算法的局限性，提取更加鲁棒的特征，并充分深度通道提供的先验信息，本发明设计了一种基于ResNet网络和深度特征增强网络的特征提取方法；其次，为了充分利用场景中物体提供的高级信息，本发明使用了一种基于目标预检测的图像分割方法。最后，为了解决最大池化层的信息损失问题，本发明设计了一种随机游走网络对原始的分割结果边缘进行优化。本发明的主要流程可分为以下三个步骤：基于ResNet网络和深度特征增强网络的特征提取；基于目标预检测的图像分割；基于随机游走网络的分割结果优化。

(1)基于ResNet网络和深度特征增强网络的特征提取

图像分割通常面临场景多，数据复杂的问题。传统的分割算法通常基于图像的一些底层特征建模，难以在所有复杂情形下都实现较好的性能。神经网络算法由于其强大的学习能力，在图像处理领域效果优异。在光照不充分的情况下，普通彩色图像颜色纹理容易出现成像效果较差，辨识度低等缺点，不利于特征的提取。RGB-D图像提供了额外的深度通道信息，在光照条件较差的情况下也能保有明显的几何结构。因为深度通道具有同一类别像素的深度值趋于相同，不同类别像素的深度值趋于不同的特性，所以本发明提出可以将深度通道作为一种先验信息使不同类别的区域特征更易区分。为了加强深度通道的这种特性，减少深度通道的类内差异性，增加类间差异性。本发明设计了一种深度增强网络，来对深度通道特征进行增强和提取，并使用ResNet提取彩色通道的特征，将彩色通道特征与深度通道特征相融合构建特征金字塔。

(2)基于目标预检测的图像分割。

在图像分割领域，通常使用全卷积网络(FCN，Fully Convolutional Networks)作为网络的基础分割框架。FCN通过深层的网络结构提取特征并为每一个像素分配其对应的类别，但是全卷积网络学习过程常常缺乏更高层信息的指导，无法学习到像素之间的关联性。Mask-RCNN采用先检测，后分割的双重架构，基于对场景中物体的检测结果进行分割，能有效利用场景中物体的高层信息来指导分割结果。故本发明采用Mask-RCNN网络中双级分割架构，进行基于目标预检测的图像分割。

(3)基于随机游走网络的分割结果优化

神经网络常用的最大池化层选取上一层特征图的最大值作为下一层网络的输入，这种操作具有旋转不变的特性，使网络提取到的特征更鲁棒。但是最大池化层保留最大值的同时舍弃了其他值，和下采样操作类似，会无可避免地造成特征信息地损失，导致分割结果的边缘部分过于粗糙。本发明认为最大池化层损失的特征信息可以从原始输入图像中得到补充，提出使用原始图像信息来对分割结果进行优化。本发明将优化视作一种随机游走(random walk)过程,从原始图像中计算出状态转移矩阵，使分割图像向原始图像的边缘分布进行转移，进而设计出一种基于随机游走的网络结构来对原始的分割结果进行优化。

本发明首先基于Mask-RCNN网络的架构构建网络，设计了深度特征增强网络提取RGB-D图像彩色通道特征，并与ResNet网络提取的彩色通道特征相融合；再使用先检测，后分割的双极结构来对图像进行分割；最后通过随机游走网络对分割结果进行最终的优化。

本发明与现有技术相比，具有以下明显的优势和有益效果：

首先，本发明使用了基于Mask-RCNN神经网络的主干架构，增加了特征的多样性，并能利用目标检测的结果指导分割。其次，深度增强网络能挖掘出深度通道蕴含的先验信息，以此指导网络的训练。最后，随机游走网络能使优化分割结果边缘，使最终的分割结果更加准确。

附图说明

图1网络框架结构图；

具体实施方式

根据上述描述，以下是一个具体的实施流程，但本专利所保护的范围并不限于该实施流程。

步骤1：基于ResNet网络和深度特征增强网络的特征提取。

为了充分提取图像特征，本发明分别提取RGB-D图像的彩色通道特征和深度通道特征。其中，使用Mask-RCNN中的ResNet主干网络提取图像彩色通道特征，使用深度特征增强网络提取深度通道特征，并将两种特征相融合，构建特征金子塔。

步骤1.1：基于ResNet的彩色通道特征提取。

ResNet是一个多层的卷积神经网络结构。根据卷积层的尺寸，可以将ResNet 中的卷积层分为五个卷积组。整个ResNet的详细结构如图1所示，其中，stage1， stage2，stage3，stage4，stage5分别表示五个卷积组,每个卷积组的参数如表一所示。

stage1结构由1个卷积层和一个最大池化层构成,

stage2结构由7个卷积层构成,

stage3结构由10个卷积层构成

stage4结构由16个卷积层构成，

stage5结构由7个卷积层构成

取RGB-D图像的彩色通道X_in作为ResNet的输入。使用ResNet提取彩色通道特征的步骤如下所示：

(1)设输入彩色通道图像X_in尺寸为(height,height,3)，将图像输入stage1 提取特征。设stage1输出的特征图为C1。

(2)将特征图C1输入stage2继续提取特征，得到输出的特征图C2。

(3)将特征图C2输入stage3继续提取特征，得到输出的特征图C3。

(4)将特征图C3输入stage4继续提取特征，得到输出的特征图C4。

(5)将特征图C4输入stage5继续提取特征，得到输出的特征图C5。

步骤1.2：基于深度增强网络的深度通道特征提取

深度增强网络结构如图1所示。与ResNet对应，深度增强网络同样包含4 个卷积网络组Dstage1,Dstage2,Dstage3,Dstage4。其中，Dstage1由一个卷积层和一个最大池化层组成，Dstage2,Dstage3,Dstage4结构一样，均由6个前后相接的卷积层组成。每个卷积组参数如表二所示。

取RGB-D图像的深度通道D_in作为深度特征增强网络的输入。取图像的真值分割结果用于计算损失函数。

代表卷积之间逐像素点乘，

代表卷积之间逐像素加。网络训练的具体步骤如下：

(1)设输入深度通道图像D_in的尺寸为(heigh,width,1),将图像输入Dstage1 提取特征。设Dstage1输出特征图为D1，将D1与步骤1.1中的C1相融合，融合后的

(2)将特征图D1送入Dstage2提取特征。设Dstage2输出特征图为D2,按照 (1)中的方法将D2和C2融合,得到H2。

(3)将特征图D2送入Dstage3提取特征。设Dstage2输出特征图为D3,按照 (1)中的方法将D3和C3融合,得到H3。

(4)将特征图D3送入Dstage4提取特征。设Dstage4输出特征图为D4,按照 (1)中的方法将D4和C4融合,得到H4。

(5)将特征图D4送入Dstage5提取特征。设Dstage5输出特征图为D5,按照 (1)中的方法将D5和C5融合,得到H5。

(6)利用特征图D5计算损失函数。设数据集中共有K个类别，则每个类别损失函数计算公式如下：

S表示D5中属于这个类别的像素，D表示D5中不属于这个类别的像素。p_i,j表示D5中(i,j)位置像素的值，p_S和p_D分别表示S中所有像素的平均值和D中所有像素的平均值。上述损失函数减小了类内差异。此外，使用以下损失函数增加不同类别之间的差异性。α，β为常数，分别为1.5和0.8：

l_c＝exp(-β*(p_S-p_D)²)

(7)综上所述，将K个类别的损失函数结果相加得到最终的损坏函数：

λ₁,λ₂,λ₃分别表示三个常数，分别为0.6，0.2，0.2.用于控制损失函数的混合比例。使用损失值l_all优化深度特征增强网络。

步骤1.3：构建特征金字塔

使用步骤1.2中的特征图H2,H3,H4,H5构建特征金字塔结构。使用1×1的卷积层对H5进行卷积，最终得到特征图P5。对H4进行同样的卷积操作，并将其输出结果与上采样后的P5逐像素相加，得到特征图P4。以此类推，将卷积后的H3与上采样后的P4相加得到P3,将卷积后的H2与上采样后的P3相加得到 P2。P2,P3,P4,P5即为特征金字塔结构，用于之后进一步操作。

步骤2：基于目标预检测的图像分割。

步骤2.1：基于RPN的候选框生成。

RPN即候选框生成网络(RPN,Region Proposal Network)，是一种小型的网络结构。RPN为后面的目标检测和分割生成一系列的候选框。后续网络仅对候选框中的物体进行处理，避免了密集的计算。RPN网络结构如图1所示，可以分为两个分支。上方分支用于预测每个位置出现候选框的概率，下方分支用于预测每个位置候选框的偏移量。

准备步骤1.2(8)中的特征图P5作为RPN的输入；准备RGB-D图像的真实目标框用于计算真值标签和真实偏移值。RPN网络训练的具体步骤如下：

(1)根据特征图P5预定义好一组锚框(有可能成为候选框的框)，即在P5 每一个像素位置定义k_a个不同尺寸的锚框。设P5的长宽均为N_a.则锚框数量共有N_a×N_a×k_a个。

(2)计算网络训练的真值标签，用于RPN上方分支的训练。若锚框与真实目标框重合度超过50％，则标记为正标签，反之标记为负标签；计算锚框与真实目标框的真实偏移值，用于RPN下方分支的训练。

(3)对特征图P5进行卷积操作，卷积核尺寸为3×3，步长为1×1，输出通道为512，最终得到特征图F_a.将F_a输入RPN的两个分支。

(4)对特征图F_a进行1×1的卷积，输出通道数为2k_a的特征图。对特征图使用softmax，后，该网络分支输出一个N_a×N_a×2k_a的概率值P_class。每个锚框对应两个概率值，分别表示该锚框为候选框以及不为候选框的概率。使用P_class和(2)中的真值标签，计算交叉熵损失函数L_class.

(5)对特征图F_a进行1×1的卷积，输出通道数为N_a×N_a×4k_a的偏移值P_reg。每个锚框对应4个偏移值，分别表示锚框在平行，垂直两个方向上的位移偏移值，以及长和宽的缩放偏移值。使用和P_reg和(2)中的真实偏移值，计算smooth L1损失函数L_reg.

(6)使用L_class与L_reg之和作为最终损失值，优化RPN网络参数。

步骤1.3：最终分割

如图1所示，最终分割网络由四个卷积层和一个反卷积层组成。

准备步骤1.2(8)中特征金字塔P2,P3,P4,P5作为输入；准备步骤2.1中RPN 输出的概率值P_class和偏移值P_reg分别用于锚框的筛选和定位；准备图像真实分割结果用于计算损失函数；训练的具体步骤如下：

(1)根据概率值P_class对锚框进行排名，取排名前n个锚框作为候选框。

(2)根据每个候选框尺寸，从特征金字塔中的四层特征图P2,P3,P4,P5中选择一层提取特征。设选择特征图Pk。k表示特征图的序号，其计算公式为：

其中，H_p,W_p分别代表候选框的高度和宽度。

(3)将每个候选框坐标加上P_reg中的位移偏移值，将每个候选框尺寸乘上P_reg中的缩放偏移值，得到最终的候选框位置L_box和尺寸S_box。

(4)根据每一个L_box和S_box,从特征图Pk中裁取特征图F_box，即在特征图Pk 的位置L_box处裁取尺寸为S_box的特征图，表示为F_box.

(5)将每一个特征图F_box输入分割分支网络，输出分割结果m_t.将每一个候选框的分割结果m_t组合成为最终分割结果M_t.使用真实分割结果和分割结果M_t，计算交叉熵函数L_mask.

(6)使用L_mask优化分割网络以及步骤1.1中的ResNet网络。

步骤3：基于随机游走网络的分割结果优化

随机游走是一种数学统计模型，可以用于描述分子的布朗运动。运用在图像领域则是假设图像上每一点都以某一概率向相邻点不断扩散。将分割图像的优化过程视作一种随机游走过程。取步骤1.3中的分割结果M_t.则优化过程可以表示为：

M_t+1＝TM_t

其中，转移矩阵T表示图像中每个像素点向其他位置转移的概率，矩阵的 (i,j)位置的值表示图像上第i个点转移到第j个点的概率。使用随机游走网络可以使分割结果边缘部分更加细致。

下面详细介绍使用随机游走网络优化分割结果的主要步骤。准备RGB-D的彩色通道X_in和深度通道D_in，用于转移矩阵T的计算；准备步骤1.3中输出的分割结果M_t，则具体步骤如下所示：

(1)计算相似矩阵S。设M_t尺寸为N×N.则相似矩阵的尺寸为N²×N².计算过程可以表示为：

其中，I_i和I_j分别表示彩色通道图像X_in中的第i和第j个像素的值，D_i和D_j分别表示深度通道图像D_in中的第i和第j个像素的值。θ为一个常数。R(i)表示第i个像素的邻域像素。S_ij表示相似矩阵S中(i,j)位置的值。

(2)对相似矩阵进一步进行处理得到矩阵U。首先使用1x1的卷积层对相似矩阵S进行点乘，然后进行指数运算，计算过程可以表示为：：

U_ij＝exp(W_ij·S_ij)

W_ij代表卷积核的参数，U_ij表示矩阵U中(i,j)位置的值。

(3)对U_ij每一行进行归一化，得到最终的转移矩阵T：

T_ij＝RowNormalize(U_ij)

(4)将尺寸为N×N的分割结果M_t变形为尺寸为N²×1的列向量V_t.将转移矩阵T与V_t进行矩阵乘法，得到优化后的列向量V_t+1,计算过程可以表示为：

V_t+1＝TV_t

(4)将V_t+1重新变形为尺寸为N×N的矩阵M_t+1.则M_t+1即为最终优化后的分割结果。

训练时使用真实分割结果和分割结果Mt+1，计算交叉熵函数 Lrandom，并使用损失函数优化随机游走网络中的参数。

表一ResNet各网络组参数

表二深度特征增强网络各网络组参数。

Claims

1.一种基于深度特征增强和边缘优化的RGB-D图像语义分割方法，其特征包括以下内容：

步骤1：利用ResNet网络提取RGB-D图像的彩色通道特征，并设计深度特征增强网络提取RGB-D图像的深度通道特征，最后将彩色通道和深度通道特征相融合构建特征金字塔；

步骤2：进行基于目标预检测的图像分割：首先使用RPN网络基于特征金子塔最后一层特征生成目标候选框；再使用分割网络对目标候选框内特征图逐一进行分割；将每个候选框分割结果相组合成为最终分割结果；

步骤3：设计一种随机游走网络对步骤2中的最终分割结果进行边缘优化：网络首先利用原始RGB-D图像计算出转移矩阵；再将分割结果与转移矩阵相运算得到优化后的分割结果。

2.根据权利要求1所述的一种基于深度特征增强和边缘优化的RGB-D图像语义分割方法，其特征在于步骤1所述RGB-D图像彩色通道特征的提取采用基于ResNet的特征提取层，

其中，ResNet中的卷积层分为五个网络组，即stage1，stage2，stage3，stage4，stage5，

特征提取的步骤如下所示：

(1)数据准备：取RGB-D图像的彩色通道X_in作为ResNet的输入；

(2)设输入图像为X_in尺寸为(height,height,3)，将图像输入stage1提取特征，设stage1输出的特征图为C1；

(3)将特征图C1输入stage2继续提取特征，得到输出的特征图C2；

(4)将特征图C2输入stage3继续提取特征，得到输出的特征图C3；

(5)将特征图C3输入stage4继续提取特征，得到输出的特征图C4；

(6)将特征图C4输入stage5继续提取特征，得到输出的特征图C5。

3.根据权利要求2所述的一种基于深度特征增强和边缘优化的RGB-D图像语义分割方法，其特征在于：

stage1结构由1个卷积层和一个最大池化层构成，

stage2结构由7个卷积层构成，

stage3结构由10个卷积层构成

stage4结构由16个卷积层构成，

stage5结构由7个卷积层构成。

4.根据权利要求1所述的一种基于深度特征增强和边缘优化的RGB-D图像语义分割方法，其特征在于：步骤1中所述深度特征增强网络结构如下：

深度增强网络包含4个卷积网络组Dstage1,Dstage2,Dstage3,Dstage4，其中，Dstage1由一个卷积层和一个最大池化层组成，Dstage2,Dstage3,Dstage4结构一样，均由6个前后相接的卷积层组成；

代表卷积之间逐像素点乘，

代表卷积之间逐像素加，网络训练的具体步骤如下：

(1)数据准备：取RGB-D图像的深度通道D_in作为深度特征增强网络的输入，取图像的真值分割结果用于计算损失函数；

(2)输入深度通道图像D_in的尺寸为(heigh,width,1),将图像输入Dstage1提取特征，Dstage1输出特征图为D1，将D1与权利要求2中的C1相融合，融合后的

(3)将特征图D1送入Dstage2提取特征，Dstage2输出特征图为D2,按照本权利要求中第(2)步的方法将D2和C2融合,得到H2；

(4)将特征图D2送入Dstage3提取特征。设Dstage2输出特征图为D3,按照本权利要求中第(2)步中的方法将D3和C3融合,得到H3；

(5)将特征图D3送入Dstage4提取特征。设Dstage4输出特征图为D4,按照本权利要求中第(2)步中的方法将D4和C4融合,得到H4；

(6)将特征图D4送入Dstage5提取特征。设Dstage5输出特征图为D5,按照本权利要求中第(2)步中的方法将D5和C5融合,得到H5；

(7)构建损失函数：

利用特征图D5计算损失函数：数据集中共有K个类别，则每个类别损失函数计算公式如下：

S表示D5中属于这个类别的像素，D表示D5中不属于这个类别的像素，N_s表示S包含的像素总数，N_d表示D包含的像素总数，p_i,j表示D5中(i,j)位置像素的值，p_S和p_D分别表示S中所有像素的平均值和D中所有像素的平均值，上述损失函数减小了类内差异，此外，使用以下损失函数增加不同类别之间的差异性，α，β为常数，：

l_c＝exp(-β*(p_S-p_D)²)

综上所述，将K个类别的损失函数结果相加得到最终的损失函数：

λ₁,λ₂,λ₃分别表示三个常数，用于控制损失函数的混合比例，使用损失值l_all优化深度特征增强网络。

5.根据权利要求1所述的一种基于深度特征增强和边缘优化的RGB-D图像语义分割方法，其特征在于所述步骤1中的特征金字塔结构，

其构建方法如下：

数据准备：准备权利要求4中的特征图H2,H3,H4,H5构建特征金字塔结构；

构建步骤：使用1×1的卷积层对H5进行卷积，最终得到特征图P5；对H4进行同样的卷积操作，并将其输出结果与上采样后的P5逐像素相加，得到特征图P4；以此类推，将卷积后的H3与上采样后的P4相加得到P3,将卷积后的H2与上采样后的P3相加得到P2；P2,P3,P4,P5即为特征金字塔结构。

6.根据权利要求1所述的一种基于深度特征增强和边缘优化的RGB-D图像语义分割方法，其特征在于所述步骤2中的RPN网络用于为后面的目标检测和分割生成一系列的候选框，后续网络仅对候选框中的物体进行处理；RPN分为两个分支：上方分支用于预测每个位置出现候选框的概率，下方分支用于预测每个位置候选框的偏移量；

RPN网络的具体训练步骤如下：

(1)数据准备：准备权利要求5中的特征图P5作为RPN的输入；准备RGB-D图像的真实目标框用于计算真值标签和真实偏移值；

(2)根据特征图P5预定义好一组锚框：所述锚框指有可能成为候选框的框，即在P5每一个像素位置定义k_a个不同尺寸的锚框；设P5的长宽均为N_a，则锚框数量共有N_a×N_a×k_a个；

(3)计算网络训练的真值标签，用于RPN上方分支的训练；若锚框与真实目标框重合度超过50％，则标记为正标签，反之标记为负标签；计算锚框与真实目标框的真实偏移值，用于RPN下方分支的训练。

(4)对特征图P5进行卷积操作，卷积核尺寸为3×3，步长为1×1，输出通道为512，最终得到特征图F_a.

(5)对于RPN上方分支：对特征图F_a进行1×1的卷积，输出通道数为2k_a的特征图，对特征图使用softmax后，RPN上方分支输出一个N_a×N_a×2k_a的概率值P_class；每个锚框对应两个概率值，分别表示该锚框为候选框以及不为候选框的概率；使用P_class和本权利要求步骤(3)中的真值标签，计算交叉熵损失函数L_class；

(6)对于RPN下方分支：对特征图F_a进行1×1的卷积，输出通道数为N_a×N_a×4k_a的偏移值P_reg；每个锚框对应4个偏移值，分别表示锚框在平行，垂直两个方向上的位移偏移值，以及长和宽的缩放偏移值；使用和P_reg和本权利要求步骤(3)中的真实偏移值，计算smooth L1损失函数L_reg；

使用L_class与L_reg之和作为最终损失值，优化RPN网络参数。

7.根据权利要求1所述的一种基于深度特征增强和边缘优化的RGB-D图像语义分割方法，其特征在于步骤2中所述的基于候选框的分割网络由四个卷积层和一个反卷积层组成，训练的步骤如下：

(1)数据准备：准备权利要求5中特征金字塔P2,P3,P4,P5作为输入；准备RPN输出的概率值P_class和偏移值P_reg分别用于锚框的筛选和定位；准备图像真实分割结果用于计算损失函数；

(2)根据概率值P_class对锚框进行排名，取排名前n个锚框作为候选框；

(3)根据每个候选框尺寸，从特征金字塔中的四层特征图P2,P3,P4,P5中选择一层提取特征，设选择的特征图Pk，k表示特征图的序号，其计算公式为：

其中，H_p,W_p分别代表候选框的高度和宽度；

(4)将每个候选框坐标加上P_reg中的位移偏移值，将每个候选框尺寸乘上P_reg中的缩放偏移值，得到最终的候选框位置L_box和尺寸S_box；

(5)根据每一个L_box和S_box,从特征图Pk中裁取特征图F_box，即在特征图Pk的位置L_box处裁取尺寸为S_box的特征图，表示为F_box；

(6)将每一个特征图F_box输入分割分支网络，输出分割结果m_t，将每一个候选框的分割结果m_t组合成为最终分割结果M_t，使用真实分割结果和分割结果M_t，计算交叉熵函数L_mask；

(7)使用L_mask优化分割网络以及ResNet网络。

8.根据权利要求1所述的一种基于深度特征增强和边缘优化的RGB-D图像语义分割方法，其特征在于步骤3中所述的随机游走网络。

随机游走网络优化分割结果的步骤如下所示：

(1)准备数据：准备RGB-D的彩色通道X_in和深度通道D_in，用于转移矩阵T的计算；准备权利要求7中的分割结果M_t，

(2)计算相似矩阵S：设M_t尺寸为N×N.则相似矩阵的尺寸为N²×N².计算过程可以表示为：

其中，I_i和I_j分别表示彩色通道图像X_in中的第i和第j个像素的值，D_i和D_j分别表示深度通道图像D_in中的第i和第j个像素的值；θ为一个常数，R(i)表示第i个像素的邻域像素，S_ij表示相似矩阵S中(i,j)位置的值；

(3)对相似矩阵进一步进行处理得到矩阵U：首先使用1x1的卷积层对相似矩阵S进行点乘，然后进行指数运算，计算过程可以表示为：

U_ij＝exp(W_ij·S_ij)

W_ij代表卷积核的参数，U_ij表示矩阵U中(i,j)位置的值。

(4)对U_ij每一行进行归一化，得到最终的转移矩阵T：

T_ij＝RowNormalize(U_ij)

(5)将尺寸为N×N的分割结果M_t变形为尺寸为N²×1的列向量V_t，将转移矩阵T与V_t进行矩阵乘法，得到优化后的列向量V_t+1,计算过程可以表示为：

V_t+1＝TV_t

(6)将V_t+1重新变形为尺寸为N×N的矩阵M_t+1.则M_t+1即为最终优化后的分割结果。