CN114332601A

CN114332601A - 一种基于语义分割的采摘机器人非结构化道路识别方法

Info

Publication number: CN114332601A
Application number: CN202111457637.XA
Authority: CN
Inventors: 郑太雄; 张红; 江明哲; 杨新琴
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-12-02
Filing date: 2021-12-02
Publication date: 2022-04-12

Abstract

本发明涉及一种基于语义分割的采摘机器人非结构化道路识别方法，属于机器人领域。首先通过RGB彩色相机获取非结构化道路图像，其次将Mobilenetv2作为主干网络对道路特征信息进行提取，并将其送入PSPnet的金字塔池化模块(Pyramid Pooling Module)进行分区域池化得到不同尺寸的特征图，然后通过双线性差值上采样操作对特征图进行多尺度特征信息融合，在后通过弃权进行特征优化，最后输入到预测分类层中得到最终预测结果。

Description

一种基于语义分割的采摘机器人非结构化道路识别方法

技术领域

本发明属于机器人领域，涉及一种基于语义分割的采摘机器人非结构化道路识别方法。

背景技术

非结构化道路识别技术主要被应用在智能移动机器人领域。早在20世纪70年代，已经有部分发达国家率先开始了非结构化道路研究。相对于普通环境下的智能移动机器人，智能农业机器人的作业环境较差且更为复杂，具有模糊性、不均匀性、多目标性等特征。为了实现农业机器人安全、自主的移动，开发新的非结构化道路识别技术开始被各大研究机构提上日程。

传统的非结构化道路识别技术，如基于颜色、纹理、形状等特征的非结构化道路识别方法，缺点是依赖非结构化道路的外在颜色、纹理和形状等特征，但这些特征会被阴影、曝光、障碍物等因素影响而无法获取完整的特征，导致道路识别精度不高。虽然基于数学模型的非结构化道路识别方法鲁棒性较强，但需要建立严格的几何假设，导致该方法的适用范围比较窄。随着信息技术和计算机技术的发展，计算机图像处理和机器学习趋于成熟，在非结构化道路的识别上采用机器学习图像分割技术与分类器的方法，如基于K-means聚类算法、基于贝叶斯分类器算法、基于支持向量机SVM算法等，但这些算法的缺点是首先需要来自训练图像的先验概率信息，其次无法识别训练集未出现过的变量特征，再次对先验概率信息会因光照条件导致目标图像颜色变化而改变的问题也得不到很好的解决，最后对算法参数的调节和核函数参数过于敏感，泛化能力较差。随着深度学习的不断发展和完善，研究者将各种基于深度学习的语义分割神经网络算法模型用于道路识别，如FCNs网络模型、SegNet网络模型、Deeplabv+网络模型、PSPnet网络模型、U-net网络模型等，这些网络模型首先能够较好的解决采摘机器人在非结构化环境中存在阴影、障碍物、边界模糊而导致识别失败的问题，其次对于解决非结构化道路识别的问题展现出比传统方法更好的通用性和鲁棒性，最后比传统的非结构化道路方法的识别精度更高。不同的基于深度学习的语义分割神经网络模型也存在不同的问题，例如基于VGG16、Alexnet等分类网络来实现语义分割的FCNs网络模型对计算机性能要求非常高，U-net网络模型更适应简单环境的语义分割，SegNnet网络模型缺乏语义上下文联系且对局部特征不够敏感，Deeplabv+网络模型需要更大的训练集且不易收敛。

发明内容

有鉴于此，本发明的目的在于提供一种基于语义分割的采摘机器人非结构化道路识别方法。解决了传统非结构化道路识别易受光照条件影响、道路边界模糊、道路形状蜿蜒曲折等问题，还克服了一般深度学习神经网络模型需要大量训练集、计算量大、计算时间长、对计算机硬件要求高等缺点。

为达到上述目的，本发明提供如下技术方案：

一种基于语义分割的采摘机器人非结构化道路识别方法，该方法包括如下步骤：

S1：在农业场景中，使用RGB彩色相机采集在自然环境下的非结构化道路图像；

S2：采用Mobilenetv2作为特征提取主干网络，即结合深度可分离卷积和线性瓶颈层对图像进行特征图提取；

S3：采用PSPnet网络结构进行语义分割操作，即将步骤(2)得到的特征图输入到金字塔池化模块进行自适应平均池化得到局部特征；

S4：将S3得到的局部特征进行上采样操作，然后将其与S2得到的特征图进行特征融合，得到信息更全面的融合特征；

S5：将S4得到的融合特征进行卷积操作，然后将其输入弃权层得到优化特征；

S6：将S5得到的优化特征进行卷积操作，然后将其输入softmax分类器得到最终预测结果。

可选的，所述S2中得到特征图的过程为：

首先，输入的标注图像通过1*1的卷积操作升维，其次，通过3*3的深度卷积并用ReLU6激活得到中间相同维度的特征，最后，通过线性瓶颈层得到特征图；

其中，深度可分离卷积参数量的计算公式如下：

标准卷积参数量的计算公式如下：

深度可分离卷积和标准卷积参数量之比为：

D_p为输出的卷积核大小，D_k输入的卷积核大小，输入的通道数为M，输出的通道数为N；使用深度可分离卷积能够极大的减少参数量；

其中，上述过程多次使用整流线性单元RELU6函数作为激活函数，其公式为：

RELU6＝(6,min(0,x))

其中，x表示神经元。

可选的，所述S3中，将输入的特征图分别进行4种分区域平均池化，即将特征图分别分割成1*1区域，2*2区域，3*3区域和6*6区域进行平均池化，并在每个区域进行池化过程后使用1*1的卷积操作保证输出的局部特征图大小为原特征图大小的四分之一。

可选的，所述S4中，将输入的各局部特征图使用双线差值算法进行上采样操作来保证局部特征图和原特征图大小相同。

可选的，所述S5中，卷积操作使用的卷积核为3*3，弃权层的弃权率设置为0.1。

可选的，所述S6中，使用1*1的卷积整合特征，再输入到softmax分类器得到最终预测结果。

本发明的有益效果在于：

(1)本发明能够解决不同光照条件影响、道路边界模糊、道路形状蜿蜒曲折等问题下的非结构化道路识别，使采摘机器人对非结构化道路识别具有较好的鲁棒性和通用性。

(2)本发明采用Mobilenetv2+PSPnet网络，不仅可以准确地识别非结构化道路，还能降低模型训练和测试的计算量和运行时间。

(3)本发明将RGB彩色相机获取到的彩色图像缩放到473*473，进一步减少模型训练和测试的计算量和运行时间。

(4)本发明采用Mobilenetv2作为主干网络提取图像特征，由于可分离卷积结构降低了模型参数，同时结合线性瓶颈层可以让特征损失更低，这两种结构的组合，可以减少训练时间和降低训练的难度，提高模型的收敛性能。

(5)本发明采用金字塔场景解析网络(PSP)扩展主干网络，不仅可以收集不同尺度的语境信息并融合，还能消除卷积神经网络进行图像分类时需输入固定尺寸的约束。

(6)本发明采用双线差值的上采样将不同尺度的池化特征进行融合，减少了特征损失，提高了模型的预测精度。

(7)本发明设计了主副两个特征分支，在训练时，同时采用主副分支能够增加训练速度，加快收敛；在预测时，仅使用主分支，增加处理效率。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明的流程示意图；

图2为本发明的mobilenetv2基本结构单元；

图3为本发明的深度神经网络结构图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

本发明提供了一种基于深度学习的非结构化环境下采摘机器人目标检测方法，下面结合附图进行具体的阐述。

如图1所示，本发明包括如下具体步骤：

(1)在农业场景中，使用RGB彩色相机采集在自然环境下的非结构化道路图像；

(2)如图2所示，采用Mobilenetv2作为特征提取主干网络，即结合深度可分离卷积(Depth-wise Separable Convolution)和线性瓶颈层(Linear Bottlenecks)对图像进行特征图提取。输入的标注图像通过1*1的卷积操作升维，其次，通过3*3的深度卷积并用ReLU6激活得到中间相同维度的特征，最后，通过线性瓶颈层(无RULU操作的1*1卷积)得到特征图。

其中，深度可分离卷积参数量的计算公式如下：

标准卷积参数量的计算公式如下：

深度可分离卷积和标准卷积参数量之比为：

D_p为输出的卷积核大小，D_k输入的卷积核大小，输入的通道数为M，输出的通道数为N。相同的输入，深度可分离卷积的计算量是常规卷积的

在计算量相同的情况下，深度可分离卷积操作能够使神经网络层数更深，在网络层数相同的情况下，深度可分离卷积操作能够使神经网络运行速度更快。

RELU6＝(6,min(0,x))

x表示神经元。相比于RLU函数，使用RELU6函数能够在低精度的时候也有很好的数值分辨率。

(3)采用PSPnet网络结构进行语义分割操作，将所述步骤(3)的特征图分别进行4种分区域平均池化，即将特征图分别分割成1*1区域，2*2区域，3*3区域和6*6区域进行平均池化，并在每个区域进行池化过程后使用1*1的卷积操作保证输出的局部特征图大小为原特征图大小的四分之一；

(4)将步骤(3)得到的局部特征通过双线差值算法进行上采样，然后将其与步骤(2)得到的特征图进行特征融合，得到信息更全面的融合特征；

(5)将步骤(4)得到的融合特征进行卷积操作，然后将其输入弃权层(Dropout)层得到优化特征；

(6)将步骤(5)得到的优化特征进行卷积操作，然后将其输入softmax分类器得到最终预测结果。

其中，图像中道路的平均交并比(MIOU)、类别平均像素准确率(MPA)为语义分割网络性能指标。平均交并比(MIOU)和类别平均像素准确率(MPA)的计算建立在混淆矩阵之上的，混淆矩阵示意如表1。

表1分类结果混淆矩阵

类别平均像素准确率的计算公式为：

平均交并比的计算公式为：

MIOU＝[TP/(TP+FP+FN)+TN/(TN+FN+FP)]/2

MPA和MIOU越高，模型语义分割的性能越强。

网络模型在优化过程中使用交叉熵损失函数计算模型损失值，损失值具体计算公式为：

y_i为第i类真值，y_i'为第i类估计值，N为类别数。

如图3所示，本发明的网络结构由两部分组成，第一部分为Mobilenetv2结构，473*473大小的图像数据进入Mobilenetv2后，首先经过Expansion layer操作映射到高维空间，其次通过深度可分离卷积操作得到数据的高纬特征，然后经过Projection layer操作将高纬特征映射到低纬空间，最后经过线性瓶颈层得到目标图像特征；第二部分为PSPnet结构，将Mobilenetv2得到的特征输入PSPnet模块，首先同时进行4次尺度不同的区域池化得到4种不同尺寸的池化特征，其次通过双线差值上采样操作将4种不同尺寸的池化特征与初始输入特征的尺度大小保持一致，再次将5种特征融合为一种特征输入弃权层，最后输入预测层得到图像的预测结果。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于语义分割的采摘机器人非结构化道路识别方法，其特征在于：该方法包括如下步骤：

2.根据权利要求1所述的一种基于语义分割的采摘机器人非结构化道路识别方法，其特征在于：所述S2中得到特征图的过程为：

其中，深度可分离卷积参数量的计算公式如下：

标准卷积参数量的计算公式如下：

深度可分离卷积和标准卷积参数量之比为：

RELU6＝(6,min(0,x))

其中，x表示神经元。

3.根据权利要求2所述的一种基于语义分割的采摘机器人非结构化道路识别方法，其特征在于：所述S3中，将输入的特征图分别进行4种分区域平均池化，即将特征图分别分割成1*1区域，2*2区域，3*3区域和6*6区域进行平均池化，并在每个区域进行池化过程后使用1*1的卷积操作保证输出的局部特征图大小为原特征图大小的四分之一。

4.根据权利要求3所述的一种基于语义分割的采摘机器人非结构化道路识别方法，其特征在于：所述S4中，将输入的各局部特征图使用双线差值算法进行上采样操作来保证局部特征图和原特征图大小相同。

5.根据权利要求4所述的一种基于语义分割的采摘机器人非结构化道路识别方法，其特征在于：所述S5中，卷积操作使用的卷积核为3*3，弃权层的弃权率设置为0.1。

6.根据权利要求5所述的一种基于语义分割的采摘机器人非结构化道路识别方法，其特征在于：所述S6中，使用1*1的卷积整合特征，再输入到softmax分类器得到最终预测结果。