CN114155481A

CN114155481A - 一种基于语义分割的非结构化田间道路场景识别方法及装置

Info

Publication number: CN114155481A
Application number: CN202111441311.8A
Authority: CN
Inventors: 孟庆宽; 杨晓霞; 路海龙
Original assignee: Tianjin University of Technology and Education China Vocational Training Instructor Training Center
Current assignee: Tianjin University of Technology and Education China Vocational Training Instructor Training Center
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-03-08

Abstract

本发明公开了一种基于语义分割的非结构化田间道路场景识别方法及装置，该方法包括：获取非结构化田间道路场景图像构建数据集，对所述图像数据集进行语义标注；将所述标注数据集进行数据扩增与划分；构建语义分割模型，在MobilenetV2特征提取网络中融入混合扩张卷积，引入通道注意力模块对特征提取网络各阶段特征通道重新标定，设计空间金字塔池化模块计算多尺度层级特征并与输入特征拼接；初始化所述特征提取网络参数进行预训练，将训练完成的特征提取网络加入空间金字塔池化模块和像素预测网络，部署在训练集上采用随机梯度下降法训练；训练完成后将待识别图像输入到语义分割模型得到分割结果。此方法具有良好的分割效果，可以实现精度与速度的均衡。

Description

一种基于语义分割的非结构化田间道路场景识别方法及装置

技术领域

本发明涉及农业田间道路场景识别领域，具体涉及一种基于语义分割的非结构化田间道路场景识别方法及装置。

背景技术

智能农业装备系统能够自主、高效、安全的完成农业作业任务，具有良好的作业精度与效率。环境信息感知是智能农业装备系统的关键技术之一，决定了农业装备的自主导航能力和作业水平。机器视觉系统具有探测范围广、获取信息丰富等特点，是智能农业装备进行田间信息获取主要采用的传感设备之一。基于视觉的农业田间道路场景识别解析属于环境信息感知的重要组成单元，主要任务是检测可通行区域、识别动静态障碍物类别，为后续的路径规划和决策控制提供依据。快速、精准的实现田间道路场景识别对于保证智能农业装备在非结构化道路环境中安全可靠的运行具有重要意义。

传统方法通过人工设计特征方式基于颜色、纹理、形状等表层特征中的一种或多种的组合进行道路场景识别解析，对结构化道路具有良好的适应性，但缺乏对图像深层特征和高级语义信息的提取与表达，容易受到道路形态、光照变化、路面干扰物等因素影响，难以应用于复杂非结构化田间道路场景检测。

相比于传统方法，基于深度学习的语义分割技术能够完成对复杂图像场景的识别解析，已经成为解决高层视觉问题的主流工具。基于深度卷积神经网络的语义分割模型能够实现语义像素预测分类，具有良好的分割效果，但也存在权值参数多，计算复杂度高、推理速度慢等不足，同时未充分考虑图像上下文信息，对于全局特征利用率低，导致复杂场景的分割精度不高。

发明内容

本发明提出一种基于语义分割的非结构化田间道路场景识别方法及装置，以期实时精准的对农业非结构道路场景中所包含的对象进行识别解析。模型采用MobileNetV2网络提取图像特征，以提高运行推理速度；引入混合扩张卷积和通道注意力模块，在增加特征图感受野的基础上保留更多的像素空间位置，同时提升重要特征通道权重系数实现更优预测；通过空间金字塔池化模块将多尺度池化特征进行融合，得到完整的全局特征表达，增强对复杂道路场景识别的准确性。

第一方面，本发明提供一种基于语义分割的非结构化田间道路场景识别方法，包括：

S01、获取非结构化田间道路场景图像构建数据集，对所述图像数据集进行语义标注；

S02、将所述标注数据集进行数据扩增，扩增后数据划分为训练集、验证集、测试集；

S03、基于Keras深度学习框架构建语义分割模型，在MobilenetV2特征提取网络中融入混合扩张卷积，引入通道注意力模块对特征提取网络各阶段特征通道重新标定，设计空间金字塔池化模块计算多尺度层级特征并与输入特征拼接；

S04、初始化所述特征提取网络参数进行预训练，将训练完成的特征提取网络加入空间金字塔池化模块和像素预测网络，部署在道路图像训练集上采用随机梯度下降法训练；

S05、训练完成后将待识别图像输入到语义分割模型，输出道路场景对象的语义类别和位置信息。

可选的，所述步骤S03中，基于Keras深度学习框架构建语义分割模型，在MobilenetV2特征提取网络中融入混合扩张卷积，引入通道注意力模块对特征提取网络各阶段特征通道重新标定，设计空间金字塔池化模块计算多尺度层级特征并与输入特征拼接，具体包括：

(1)采用MobileNetV2前5个阶段卷积神经网络进行图像特征信息提取，将混合扩张卷积融入到特征提取网络的阶段4与阶段5中，采用通道注意力模块将不同阶段特征融合，利用高级阶段的强语义信息指导低级阶段对内部特征通道根据重要程度重新标定；

(2)构建空间金字塔池化模块，将输入特征信息分为3个层级，第1层级采用全局平均池化操作计算特征向量，第2、3层级将输入特征划分为2×2、4×4个子区域，每个子区域采用平均池化操作计算特征向量；

(3)将所述3个不同层级计算得到的特征向量进行上采样并与输入特征拼接得到全局特征，经过卷积、上采样和像素预测分类得到语义分割图像。

可选的，所述步骤S04中初始化所述特征提取网络参数进行预训练，将训练完成的特征提取网络加入空间金字塔池化模块和像素预测网络，部署在道路图像训练集上采用随机梯度下降法训练，具体包括：

(1)对MobilnetV2网络、混合扩张卷积和通道注意力模块构成特征提取网络，采用均值为0、标准差为0.01的高斯分布随机初始化参数，设置网络训练所涉及的超参数，利用交叉熵损失函数为目标函数将所述特征提取网络部署在ImageNet数据集上进行预训练；

(2)将所述训练完成的特征提取网络去掉平均池化层和分类层，加入空间金字塔池化模块与像素预测分类网络，采用均值为0、标准差为0.01的高斯分布随机初始化新增加网络的参数，设置网络训练所涉及的超参数，利用多任务损失函数为目标函数基于随机梯度下降法进行联合训练。

第二方面，本发明还提供一种基于语义分割的非结构化田间道路场景识别装置，包括：图像采集标注模块，用于获取非结构化田间道路场景图像构建数据集，对所述图像数据集进行语义标注；

数据扩增分类模块，用于将所述标注数据集进行数据扩增，扩增后数据划分为训练集、验证集、测试集；

语义分割模型构建模块，用于基于Keras深度学习框架构建语义分割模型，在MobilenetV2特征提取网络中融入混合扩张卷积，引入通道注意力模块对特征提取网络各阶段特征通道重新标定，设计空间金字塔池化模块计算多尺度层级特征并与输入特征拼接；

语义分割模型训练模块，用于初始化所述特征提取网络参数进行预训练，将训练完成的特征提取网络加入空间金字塔池化模块和像素预测网络，部署在道路图像训练集上采用随机梯度下降法训练；

分割结果输出模块，用于训练完成后将待识别图像输入到语义分割模型，输出道路场景对象的语义类别和位置信息。

可选的，所述语义分割模型构建模块，具体包括：

特征提取单元，用于采用MobileNetV2前5个阶段卷积神经网络进行图像特征信息提取，将混合扩张卷积融入到特征提取网络的阶段4与阶段5中，采用通道注意力模块将不同阶段特征融合，利用高级阶段的强语义信息指导低级阶段对内部特征通道根据重要程度重新标定；空间金字塔池化单元，用于构建空间金字塔池化模块，将输入特征信息分为3个层级，第1层级采用全局平均池化操作计算特征向量，第2、3层级将输入特征划分为2×2、4×4个子区域，每个子区域采用平均池化操作计算特征向量；

预测分割单元，用于将所述3个不同层级计算得到的特征向量进行上采样并与输入特征拼接得到全局特征，经过卷积、上采样和像素预测分类得到语义分割图像。

可选的，所述语义分割模型训练模块，具体包括：

预训练单元，用于对MobilnetV2网络、混合扩张卷积和通道注意力模块构成特征提取网络，采用均值为0、标准差为0.01的高斯分布随机初始化参数，设置网络训练所涉及的超参数，利用交叉熵损失函数为目标函数将所述特征提取网络部署在ImageNet数据集上进行预训练；联合训练单元，用于将所述训练完成的特征提取网络去掉平均池化层和分类层，加入空间金字塔池化模块与像素预测分类网络，采用均值为0、标准差为0.01的高斯分布随机初始化新增加网络的参数，设置网络训练所涉及的超参数，利用多任务损失函数为目标函数基于随机梯度下降法进行联合训练。

由以上技术方案可知：本发明提供的一种基于语义分割的非结构化田间道路场景识别方法及装置，具有以下优点：

①采用MobilenetV2轻量卷积神经网络提取图像特征以提高图像特征提取速度，将混合扩张卷积融入特征提取网络，在保证特征图分辨率的基础上增加感受野并保持信息的连续性与完整性；

②引入通道注意力模块对特征提取网络各阶段特征通道依据重要程度重新标定，提高特征利用效率和预测一致性；

③设计空间金字塔池化模块计算多尺度层级特征并与输入特征拼接融合，获取更加有效的全局场景上下文信息，增强对复杂道路场景识别的准确性；

④基于语义分割的非结构化田间道路场景识别方法及装置具有准确性高、推理速度快、参数量小等优点，能够较好的实现精度与速度的均衡。

附图说明

图1为本发明实施例提供的一种基于语义分割的非结构化田间道路场景识别方法流程示意图；

图2为本发明实施例提供的特征提取网络融合混合扩张卷积结构示意图；

图3为本发明实施例提供的通道注意力模块结构示意图；

图4为本发明实施例提供的基于语义分割的非结构化田间道路场景识别模型结构示意图；

图5为本发明实施例提供的一种基于语义分割的非结构化田间道路场景识别装置结构示意图。

具体实施方式

下面结合附图，对发明的具体实施方式做进一步描述，以下实施例仅用于更加清楚的说明本发明的技术方案，而不能用来限制本发明的保护范围。

图1为本发明实施例提供的一种基于语义分割的非结构化田间道路场景识别方法流程示意图，如图1所示，该方法包括以下步骤：

101、获取非结构化田间道路场景图像构建数据集，对所述图像数据集进行语义标注；

102、将所述标注数据集进行数据扩增，扩增后数据划分为训练集、验证集、测试集；

103、基于Keras深度学习框架构建语义分割模型，在MobilenetV2特征提取网络中融入混合扩张卷积，引入通道注意力模块对特征提取网络各阶段特征通道重新标定，设计空间金字塔池化模块计算多尺度层级特征并与输入特征拼接；

104、初始化所述特征提取网络参数进行预训练，将训练完成的特征提取网络加入空间金字塔池化模块和像素预测网络，部署在道路图像训练集上采用随机梯度下降法训练；105、训练完成后将待识别图像输入到语义分割模型，输出道路场景对象的语义类别和位置信息。

所述步骤101包括以下具体步骤：

(1.1)使摄像机与水平地面向下呈20°～30°夹角，距离地面高度约150cm，在不同天气条件、不同光照强度、不同环境背景下采集田间道路图像构建图像数据集；

(1.2)采用标注工具对所述图像数据集中需要训练的对象进行位置和类别标注；

本实施例中采用Labelme软件进行图像标注。打开Labelme软件点击Open Dir选择需要标注图像所在目录；通过Create Polygons将目标对象描点形成首尾相连的闭合区域，在弹出的labelme框中键入标签名，点击OK完成标注；通过Save保存标注图像，点击NextImage选项对下一张图像标注，直至所有图像标注完成。标注完成的图像将在图像目录下生成同名的.json文件，通过Lableme批量转换工具将.json文件转换为.png格式的标签图像。

所述步骤102包括以下具体步骤：

(2.1)将所述标注图像数据集通过几何变换与颜色变换进行数据扩增；

本实施例中采用Python编程进行数据增强。将原始图像与对应的标签图像分别放入2个文件夹进行相同的数据增强操作。几何变换：包括水平翻转、垂直翻转、图像旋转和图像缩放。其中，图像旋转的角度选择-45°、-30°、-15°、45°、30°、15°，图像缩放的尺度选择0.8倍、0.9倍、1.1倍、1.2倍。颜色变换：将图像对比度、明暗度、色度进行调整，对比度调整值为原始值的0.8倍、0.9倍、1.1倍、1.2倍，明暗度调整值为原始值的0.85倍、0.95倍、1.05倍、1.15倍，色度调整值为原始值的0.7倍、0.8倍、0.9倍、1.1倍、1.2倍、1.3倍；

(2.2)将所述扩增数据集按照8:1:1的比例随机拆分为训练集、验证集、测试集。

所述步骤103包括以下具体步骤：

(3.1)采用MobileNetV2前5个阶段卷积神经网络进行图像特征信息提取，将混合扩张卷积融入到特征提取网络的阶段4与阶段5中，采用通道注意力模块将不同阶段特征融合，利用高级阶段的强语义信息指导低级阶段对内部特征通道根据重要程度重新标定，具体过程包括：①本实施例中深度学习框架选择Keras，在Windows 10操作系统上基于Python语言进行程序设计，具体设计思路为：采用MobileNet V2前5个阶段卷积神经网络进行图像特征信息提取，经过4次下采样，最终输出特征图尺寸为输入图像的1/16。其中，阶段5是在阶段4的基础上扩充特征通道数量，没有进行下采样操作。一组混合扩张卷积由n(n≥2)个K×K(K≥2)尺寸的卷积核构成，卷积核的扩张率依次设置为[r₁,…r_n]，每一层使用不同的扩张率，连续多个不同扩张率的扩张卷积操作可以避免感受野出现空间间隙和信息不连续等问题。此外，上述扩张率[r₁,…r_n]中的元素值呈阶梯状逐渐增加，不能有大于1的公约数，需要满足以下公式约束：

M_i＝max[M_i+1-2r_i,M_i+1-2(M_i+1-r_i),r_i]

M₂≤K

式中K表示卷积核尺寸，r_i表示第i层卷积核设置的扩张率，M_i表示第i层卷积核计算得到的扩张率，M₂≤K能够保证混合扩张卷积运算不存在格点问题；

将混合扩张卷积融入到特征提取网络的阶段4和阶段5中，阶段4中的6个线性瓶颈倒残差模块(Inverted residuals and linear bottlenecks block，IRLBB)被分为2组混合扩张卷积运算单元，每组中的深度可分离卷积扩张率设置为1、2、3，阶段5中的4个线性瓶颈倒残差模块选择前3个为1组，扩张率设置为1、2、3。图2为混合扩张卷积融合特征提取网络结构示意图，IRLBB为线性瓶颈倒残差模块，N为线性瓶颈倒残差模块执行次数，HDC(1,2,3)表示扩张率为1、2、3的混合扩张卷积(Hybrid dilated convolution，HDC)；

②本实施例中通道注意力模块组成如图3所示，将高级阶段与低级阶段进行通道拼接，通过权重学习模块获取每个通道重要程度，生成新的权重向量，采用乘法形式对低级阶段特征通道权重重新标定，提高重要特征权重，降低非重要特征权重，进而增强整个阶段的判别特征。图3中Global pooling为全局平均池化运算，其作用是将特征图压缩为一维向量，Sigmoid为激活函数，ReLU为非线性激活函数，1×1Conv为投影卷积；

(3.2)构建空间金字塔池化模块，将输入特征信息分为3个层级，第1层级采用全局平均池化操作计算特征向量，第2、3层级将输入特征划分为2×2、4×4个子区域，每个子区域采用平均池化操作计算特征向量，具体过程包括：

图4中空间金字塔池化模块包含了3路不同尺度层级特征，第1层级采用全局平均池化操作计算特征向量，获取图像级别全局上下文信息；第2、3层级将输入特征图划分为不同尺寸子区域，在每个子区域上采用平均池化操作计算特征向量作为该子区域内所有像素的局部上下文信息。为使各层级池化特征权重保持一致，采用1×1投影卷积将各层池化特征通道调整为输入特征通道的1/S，S表示金字塔层级维数。本实施例中，空间金字塔层级维数S等于3，1、2、3层输入特征图划分的子区域个数分别为1、4、16；

(3.3)将所述3个不同层级计算得到的特征向量进行上采样并与输入特征拼接得到全局特征，经过卷积、上采样和像素预测分类得到语义分割图像，具体过程包括：

利用双线性差值算法对各层级池化特征进行上采样恢复到与输入特征图相同的尺寸，然后将不同层级特征与输入特征拼接得到全局特征，最后采用3x3卷积与1x1卷积实现特征整合与通道调整，再经过上采样和像素分类操作生成最终预测图。图4为基于语义分割的非结构化田间道路场景识别模型结构示意图，其中CAB表示通道注意力模块(Channelattention block，CAB)，HDC(1,2,3)表示扩张率为1、2、3的混合扩张卷积(Hybrid dilatedconvolution，HDC)，Softmax为多分类函数。

所述步骤104包括以下具体步骤：

(4.1)对MobilnetV2网络、混合扩张卷积和通道注意力模块构成特征提取网络，采用均值为0、标准差为0.01的高斯分布随机初始化参数，设置网络训练所涉及的超参数，利用交叉熵损失函数为目标函数将所述特征提取网络部署在ImageNet数据集上进行预训练，具体过程包括：

①为提高训练速度和效率，将ImageNet数据图像转换为TFRecord格式，TFRecord文件的每个字段记录了图像名称、维度、编码数据和标签定义等信息；

②网络参数采用均值为0、标准差为0.01的高斯分布进行随机初始化，权重衰减系数为0.0005，BatchSize设置为32，初始学习率为0.025，动量因子为0.9。训练开始阶段进行学习率热身，在前1000个Batch训练时学习率由0线性增加到0.025，随后学习率随着迭代次数的增加采用分段常数方式衰减；

(4.2)将所述训练完成的特征提取网络去掉平均池化层和分类层，加入空间金字塔池化模块与像素预测分类网络，采用均值为0、标准差为0.01的高斯分布随机初始化新增加网络的参数，设置网络训练所涉及的超参数，利用多任务损失函数为目标函数基于随机梯度下降法进行联合训练，具体过程包括：

①将预训练特征提取网络去掉平均池化层和分类层，加入空间金字塔池化模块与像素预测分类网络，冻结特征提取网络前4个阶段卷积层，采用均值为0、标准差为0.01的高斯分布随机初始化新增加网络的参数，BatchSize设置为8，动量因子为0.9，学习率为0.001，衰减系数为0.8，训练epoch数为50；迭代完成后解冻特征提取网络前4个阶段，对整个模型进行全部训练，学习率为0.0001，衰减系数为0.5，训练epoch数仍为50；

②训练过程中采用多任务损失函数完成目标物体像素预测分类，多任务损失函数由交叉熵损失和Dice系数损失构成。交叉熵损失针对每个像素计算独热编码向量与预测值的交叉熵，然后对所有像素求和取平均来度量预测像素类别与真实像素类别的差异程度，损失越小表示预测准确性越高。Dice系数损失为集合相似度度量函数，用来计算真实分割图像与预测分割图像的像素相似程度，取值范围为[0,1]。多任务损失函数定义如下：

式中，L_ce为交叉熵损失，L_dice为Dice系数损失，N为像素总数，T为类别数，

为标签的独热编码向量，当像素i的类别与c的类别一致时取1否则取0，

表示像素i预测为类别c的概率，X为真实分割图像像素集合，Y为预测分割图像像素集合。

所述步骤105包括以下具体步骤：

将待识别图像输入到训练好的语义分割模型得到非结构化田间道路场景目标对象语义分割结果，所述分割结果包括目标对象类别和位置信息。

图5为本发明实施例提供的一种基于语义分割的非结构化田间道路场景识别装置结构示意图，如图5所示，该装置包括：

图像采集标注模块501，用于获取非结构化田间道路场景图像构建数据集，对所述图像数据集进行语义标注；

数据扩增分类模块502，用于将所述标注数据集进行数据扩增，扩增后数据划分为训练集、验证集、测试集；

语义分割模型构建模块503，用于基于Keras深度学习框架构建语义分割模型，在MobilenetV2特征提取网络中融入混合扩张卷积，引入通道注意力模块对特征提取网络各阶段特征通道重新标定，设计空间金字塔池化模块计算多尺度层级特征并与输入特征拼接；

语义分割模型训练模块504，用于初始化所述特征提取网络参数进行预训练，将训练完成的特征提取网络加入空间金字塔池化模块和像素预测网络，部署在道路图像训练集上采用随机梯度下降法训练；

分割结果输出模块505，用于训练完成后将待识别图像输入到语义分割模型，输出道路场景对象的语义类别和位置信息。

所述图像采集标注模块501，具体包括：

图像采集单元，用于使摄像机与水平地面向下呈20°～30°夹角，距离地面高度约150cm，在不同天气条件、不同光照强度、不同环境背景下采集田间道路图像构建图像数据集；

图像标注单元，用于采用标注工具对所述图像数据集中需要训练的对象进行位置和类别标注。

所述数据扩增分类模块502，具体包括：

数据扩增单元，用于将所述标注图像数据集通过几何变换与颜色变换进行数据扩增；

数据分类单元，用于将所述扩增数据集按照8:1:1的比例随机拆分为训练集、验证集、测试集。

所述语义分割模型构建模块503，具体包括：

所述语义分割模型训练模块504，具体包括：

所述分割结果输出模块505，具体包括：

本发明的方法与装置是一一对应的，因此方法中一些参数的计算过程也适用于该装置中的计算过程，在装置中不再进行详细说明。

本发明的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离发明格式实例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种基于语义分割的非结构化田间道路场景识别方法，其特征在于，包括：

2.根据权利要求1所述的一种基于语义分割的非结构化田间道路场景识别方法，其特征在于，所述步骤S03具体包括：

3.根据权利要求1所述的一种基于语义分割的非结构化田间道路场景识别方法，其特征在于，所述步骤S04具体包括：

4.一种基于语义分割的非结构化田间道路场景识别装置，其特征在于，包括：

图像采集标注模块，用于获取非结构化田间道路场景图像构建数据集，对所述图像数据集进行语义标注；

5.根据权利要求4所述的一种基于语义分割的非结构化田间道路场景识别装置，其特征在于，所述语义分割模型构建模块，具体包括：

特征提取单元，用于采用MobileNetV2前5个阶段卷积神经网络进行图像特征信息提取，将混合扩张卷积融入到特征提取网络的阶段4与阶段5中，采用通道注意力模块将不同阶段特征融合，利用高级阶段的强语义信息指导低级阶段对内部特征通道根据重要程度重新标定；

空间金字塔池化单元，用于构建空间金字塔池化模块，将输入特征信息分为3个层级，第1层级采用全局平均池化操作计算特征向量，第2、3层级将输入特征划分为2×2、4×4个子区域，每个子区域采用平均池化操作计算特征向量；

6.根据权利要求4所述的一种基于语义分割的非结构化田间道路场景识别装置，其特征在于，所述语义分割模型训练模块，具体包括：

预训练单元，用于对MobilnetV2网络、混合扩张卷积和通道注意力模块构成特征提取网络，采用均值为0、标准差为0.01的高斯分布随机初始化参数，设置网络训练所涉及的超参数，利用交叉熵损失函数为目标函数将所述特征提取网络部署在ImageNet数据集上进行预训练；

联合训练单元，用于将所述训练完成的特征提取网络去掉平均池化层和分类层，加入空间金字塔池化模块与像素预测分类网络，采用均值为0、标准差为0.01的高斯分布随机初始化新增加网络的参数，设置网络训练所涉及的超参数，利用多任务损失函数为目标函数基于随机梯度下降法进行联合训练。