CN109446970B

CN109446970B - 一种基于深度学习的变电站巡检机器人道路场景识别方法

Info

Publication number: CN109446970B
Application number: CN201811240897.XA
Authority: CN
Inventors: 张葛祥; 刘明春; 荣海娜
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2018-10-24
Filing date: 2018-10-24
Publication date: 2021-04-27
Anticipated expiration: 2038-10-24
Also published as: CN109446970A

Abstract

本发明公开了一种基于深度学习的变电站巡检机器人道路场景识别方法，包括采集变电站道路场景图像并构建道路场景图像库、构建卷积编码网络并训练、在卷积编码网络基础上构建反卷积解码网络并训练、利用测试集测试模型和变电站巡检机器人道路场景识别应用的步骤。本发明搭建的全卷积神经网络同时兼顾识别精度及效率，通过将深层高精度卷积神经网络精简为小型浅层的网络来降低网络参数以及存储空间来提高识别效率，并采用了多种解码网络相融合的方式来获取更多目标信息保证识别精度；采用深度学习场景识别方法可获取变电站巡检机器人当前环境的稠密信息，对机器人导航避障提供更多有效的指导信息，使机器人环境适应能力更强。

Description

一种基于深度学习的变电站巡检机器人道路场景识别方法

技术领域

本发明涉及计算机模式识别技术领域，具体是一种基于深度学习的变电站巡检机器人道路场景识别方法。

背景技术

随着科技的不断发展，以“信息化、数字化、自动化、互动化”为特征的智能电网建设逐渐深入，智能机器人在变电站得到了广泛的应用，并取得了良好的效果。对于变电站巡检机器人而言，对可行道路进行有效的检测识别是机器人能够正常工作的前提保证。目前，绝大多数变电站巡检机器人主要采用激光雷达来实现机器人的导航、定位以及避障等。该方式虽然检测精度较高，但却忽略了对道路场景的识别理解，使机器人无法有效预测所处的环境情况，如机器人前方道路情况、障碍物类型(是否可越过)、机器人行驶方向是否偏离道路等，这极大的影响了变电站巡检机器人的工作效率以及其环境适应能力。因此，为了使变电站巡检机器人更好的理解环境进而更加有效的完成巡检任务，急需一种适用于变电站巡检机器人的道路场景识别方法。

传统的道路识别主要通过手动提取图像道路场景特征进而实现对可行道路识别，该方法需要大量的实验以及专业知识，且大多数方法仅适用于简单结构化道路环境。而深度学习作为近年来人工智能领域最为火热的一个方向，其采用数据驱动的方式，摆脱了人工设计特征的限制，使其可有效的避免传统人工设计和选择特征存在的不足，可有效应用于各种复杂环境的识别。同时，随着近几年计算机的飞速发展以及大数据时代的到来，深度学习也已经在图像处理领用取得了重大突破。对图像场景识别而言，自2015年Long等人提出了全卷积神经网络(FCN，Fully Convolutional Networks)的场景识别分割算法后，一系列基于深度学习的场景理解识别网络相继推出，不断刷新图像识别分割的精度及效率。但目前绝大部分高精度网络如SegNet、PSPNet、DeepLab等，其模型相对较大，识别效率较低，需使用高性能显卡如Titan Xp、Tesla V100等才能实现实时识别；而对于高效率网络如SegNet-basic、ENet、ShuffleNet等网络，虽然能在一般的嵌入式应用中实现高效实时识别，但识别精度相对较低，尤其是对小目标的识别。

发明内容

为了克服以上技术缺点，发明了一种针对变电站巡检机器人的道路场景识别方法，该方法无需高性能显卡，同时在保证识别精度的前提下可对变电站道路场景进行高效识别，为变电站巡检机器人提供有效的路况信息。

本发明的目的是提供一种基于深度学习的变电站巡检机器人道路场景识别方法，通过构建相对小型、浅层的卷积编码-反卷积解码结构的全卷积神经网络模型实现巡检机器人实时识别。卷积编码网络借鉴VGG网络结构来对图像特征进行提取，反卷积解码网络采用两种解码结构相融合的方式来获取目标更多局部精细细节信息以提高识别精度。通过依次训练卷积编码网络和反卷积解码网络使最终模型能够在复杂的变电站环境中准确高效识别分割出可行道路、杂草、石头、障碍物等目标。

实现本发明目的的技术方案为，一种基于深度学习的变电站巡检机器人道路场景识别方法，包括

步骤一：采集变电站道路场景图像，并构建道路场景图像库，包括

1、数据采集：通过变电站巡检机器人采集各个变电站不同光照、不同场景的道路视频；

2、构建数据库：从采集的道路视频中提取出清晰且重复率低的视频帧，构建训练集和测试集；

3、样本标注：标注出图像中目标的所有像素点，所述目标包括道路、杂草、石头和障碍物；

步骤二：构建卷积编码网络并训练，包括

1、载入VGG16网络；

2、移除VGG16网络pool4层之后的卷积层与全连接层，并将剩余结构的每层输出通道数降低；

3、在每个卷积层之后引入批正则化操作来加速模型收敛；

4、对每个池化层pool采用2位二进制数来记录最大池化索引，即滤波窗口中最大特征值的位置，该值用于后续的反卷积解码网络中；

5、在网络末尾添加1x1的卷积层，输出通道为目标类别数，同时添加损失层LossLayer和精度层Accuracy Layer，采用交叉熵损失函数作为Loss层的目标函数，计算公式如下：

其中x表示样本，n表示样本总数，y是期望输出，a是实际输出；精度计算公式如下：

G＝∑_in_ii/∑_it_i (2)

其中n_ii为代表属于类别i正确分类的像素个数，t_i代表类别i的总像素；

6、训练卷积编码网络权值，采用迁移学习的方式将VGG16在ImageNet上训练好的权重作为预训练模型来微调编码网络，同时将标签图缩小为模型最终输出尺寸，并采用随机梯度下降法对参数进行迭代调优，同时设置相应的学习率、最大迭代次数、动量参数、权值衰减参数，不断迭代训练直至网络收敛；

步骤三：在卷积编码网络基础上构建反卷积解码网络并训练，包括

1、反卷积解码网络由两部分组成，首先搭建第一部分解码网络，载入卷积编码网络；

2、移除步骤二添加的1x1卷积层，添加上采样层unpooling，同时在上采样层中使用原先存储的与之维度对应的池化层索引信息，即将编码网络中pool_i的索引值应用于对应的unpooling_i中；

3、在上采样层后添加3x3卷积层，卷积层层数和输出通道数与编码网络中对应维度的卷积层一致；

4、重复上述2，3两步中的上采样层和卷积层的添加，将编码网络镜像为解码网络，完成第一部分解码网络搭建；

5、搭建第二部分解码网络，将pool4层进行反卷积到pool3层维度后与pool3融合，对融合后的特征图再反卷积到pool2层维度后再与pool2融合，将最终融合后的特征图再反卷积到unpooling2维度并与之相加，实现两个编码网络的融合；

6、采用中值频率均衡方法来平衡各个类别，计算公式如下：

其中num_i表示该类的总像素个数，count_i表示含有该类的图像数量，w和h表示图像宽高，median(f_i)表示求f_i的中值；

7、训练整个编码-解码网络权值，将训练好的编码网络模型作为预训练模型，其他参数设置与训练编码网络类似，不断迭代使模型收敛；

步骤四：利用测试集测试模型，包括

1、将训练的编码-解码网络转化为测试网络，移除Loss层和Accuracy层，添加Softmax层计算各类别概率，计算公式如下：

其中z_k为输入的第k类的特征向量，j表示不同类别；

2、选择步骤三中训练精度最高的k个网络权值分别对测试网络进行赋值，通过测试集数据对网络进行测试，并计算其全局精度G、平均精度C和交除并均值IoU，计算公式如下：

G＝∑_in_ii/∑_it_i (6)

C＝(1/n_c1)∑_in_ii/t_i (7)

IoU＝(1/n_c1)∑_in_ii/(t_i+∑_jn_ji-n_ii) (8)

其中，n_ii为代表属于类别i正确分类的像素个数，n_ij为代表属于类别i却被预测为类别j的像素个数，n_c1代表总的类数，t_i＝∑_jn_ij代表类别i的总像素；

步骤五：变电站巡检机器人道路场景识别应用，包括

1、通过变电站巡检机器人获取变电站道路场景视频流；

2、从步骤四中的k个权值中挑选出全局精度G、平均精度C以及交除并均值IoU最高的权重作为最终网络的权值；

3、将巡检机器人获取的道路场景视频流通过最终的网络进行逐帧预测并显示出预测结果。

本发明的有益效果在于，

1.场景识别精度以及效率更高。本发明搭建的全卷积神经网络同时兼顾识别精度及效率，通过将深层高精度卷积神经网络精简为小型浅层的网络来降低网络参数以及存储空间来提高识别效率，并采用了多种解码网络相融合的方式来获取更多目标信息保证识别精度。

2.变电站巡检机器人环境适应力更强。本发明采用深度学习场景识别方法可获取机器人当前环境的稠密信息，有效弥补了激光雷达、超声波等传感器对目标无法识别的不足，对变电站巡检机器人导航避障提供更多有效的指导信息，使机器人环境适应能力更强。

附图说明

图1是本发明的方法流程图。

图2是本发明所搭建的编码网络结构图。

图3是本发明所搭建的编码-解码网络结构图。

图4是本发明识别结果图，其中(a)为原图，(b)为人工标注图，(c)为SegNet-basic识别结果图，(d)为本发明方法识别结果。

具体实施方式

以下结合附图和实施例对本发明的具体实施方式作进一步的说明。

本发明按照图1中流程进行实施，首先利用实际变电站巡检机器人对道路场景图像进行采集后人工标注构建数据集，然后分别搭建卷积编码网络以及反卷积解码网络，并依次迭代训练使模型收敛，最终得到道路场景识别网络模型。实验采用Nvidia Jetson TX2嵌入式开发板作为开发平台，并在Ubuntu16.04操作系统下搭建Caffe深度学习框架以及相应的CUDA库进行变电站道路图像识别模型的训练和测试，最后结合Python实现变电站巡检机器人对道路场景的识别。

本发明具体实施采取如下步骤：

步骤一：采集变电站道路场景图像，并构建道路场景图像库：

1、数据采集：通过变电站巡检机器人采集各个变电站不同光照(早上、中午、晚上等)，不同场景(晴天、雨天、阴天等)的道路视频。

2、构建数据库：从采集的道路视频中提取出清晰且重复率较低的视频帧，共2433张图像，将图像尺寸归一化256x256大小，并随机选择1600张作为训练集和剩余833张作为测试集。

3、样本标注：采用网上公开标注工具labelme手工标注出图像中道路、杂草、石头、围栏以及路坑5类目标的所有像素点，剩余未标注的像素作为背景。

步骤二：构建卷积编码网络并训练：

1、卷积编码神经网络结构如图2所示，主要借鉴VGG16网络结构，载入VGG16网络；

2、移除VGG16网络pool4层之后的卷积层与全连接层，并将剩余结构的每层输出通道数改为64。

3、在每个卷积层之后引入批正则化(Batch Normalization)操作来加速模型收敛并控制过拟合。

4、对每个池化层(pool)采用2位二进制数来记录最大池化索引，即滤波窗口中最大特征值的位置，该值用于后续的反卷积解码网络中。

5、在网络末尾添加1x1的卷积层，输出通道为目标类别数即out_num为5，同时添加损失层(Loss Layer)和精度(Accuracy Layer)层，采用交叉熵损失函数作为Loss层的目标函数，计算公式如下：

其中x表示样本，n表示样本总数，y是期望输出，a是实际输出；

精度计算公式如下：

G＝∑_in_ii/∑_it_i (2)

其中n_ii为代表属于类别i正确分类的像素个数，t_i代表类别i的总像素。

6、训练卷积编码网络，采用迁移学习的方式将VGG16在ImageNet上训练好的权重作为预训练模型，通过该方式微调编码网络。同时将标签图缩小为16倍，采用随机梯度下降法对参数进行迭代调优，同时设置学习率为0.01，学习策略为step，学习率变化比率为1.0，动量为0.9，最大迭代次数为20000，权重衰减为0.0005，批尺寸(batch_size)为4，通过GPU不断迭代训练直至损失函数收敛。

步骤三：在卷积编码网络基础上构建反卷积解码网络并训练：

1、反卷积解码网络由两部分组成，如图3所示，首先搭建第一部分解码网络，载入卷积编码网络。

2、移除步骤二添加的1x1卷积层并添加上采样层(unpooling)，同时在上采样层中使用原先存储的与之维度对应的池化层索引信息，即将编码网络中pool4的索引值应用于对应的unpooling4中，pool3应用于unpooling3中，以此类推。

3、在上采样层后添加3x3卷积层，卷积层层数和输出通道数与编码网络中对应维度的卷积层一致，即输出通道为64，unpooling4和unpooling3后接三个3x3的卷积层，unpooling2和unpooling1后面接两个3x3卷积层。

4、将最后一个卷积层输出通道改为5，并与后续的Accuracy层和Loss层相连，完成第一部分解码网络搭建。

5、搭建第二部分解码网络，首先将pool4层进行反卷积到pool3层维度(1x64x32x32)后与pool3融合，然后对融合后的特征图再反卷积到pool2层维度(1x64x64x64)后再与pool2融合，最后将最终融合后的特征图再反卷积到unpooling2维度(1x64x128x128)并与之相加，实现两个编码网络的融合。

6、采用中值频率均衡方法来平衡各个类别，计算公式如下：

其中num_i表示该类的总像素个数，count_i表示含有该类的图像数量，w和h表示图像宽高，median(f_i)表示求f_i的中值。根据公式计算权值结果为背景：0.43；道路：0.46；草：0.91；围栏：1.0；石头：6.13；路坑：20.47。

7、训练整个编码-解码网络，将训练好的编码网络模型作为预训练模型，最大迭代次数改为40000次，其他参数设置与训练编码网络相同，不断迭代使模型收敛。

步骤四：利用测试集测试模型：

其中z_k为输入的第k类的特征向量，j∈[0～5]。

2、选择步骤三中训练精度最高的4个网络权值分别对测试网络进行赋值，通过测试集数据对网络进行测试，并计算其全局精度(G)、平均精度(C)，交除并均值(MeanIntersection over Union,Mean IoU)，计算公式如下：

G＝∑_in_ii/∑_it_i (6)

C＝(1/n_c1)∑_in_ii/t_i (7)

IoU＝(1/n_c1)∑_in_ii/(t_i+∑_jn_ji-n_ii) (8)

其中，n_ii为代表属于类别i正确分类的像素个数，n_ij为代表属于类别i却被预测为类别j的像素个数，n_c1代表总的类数，t_i＝∑_jn_ij代表类别i的总像素。

步骤五：变电站巡检机器人道路场景识别应用：

1、通过变电站巡检机器人获取变电站道路场景视频流。

2、从步骤四中的4个权值中挑选出全局精度G、平均精度C以及交除并均值IoU最高的权重作为最终网络的权值。本发明的最高网络精度与SegNet-basic模型对比如表1所示。

表1与SegNet-basic模型对比结果

Claims

1.一种基于深度学习的变电站巡检机器人道路场景识别方法，其特征在于，包括

（ 1）、数据采集：通过变电站巡检机器人采集各个变电站不同光照、不同场景的道路视频；

（ 2）、构建数据库：从采集的道路视频中提取出清晰且重复率低的视频帧，构建训练集和测试集；

（ 3）、样本标注：标注出图像中目标的所有像素点，所述目标包括道路、杂草、石头和障碍物；

步骤二：构建卷积编码网络并训练，包括

（ 1）、载入VGG16网络；

（ 2）、移除VGG16网络pool4层之后的卷积层与全连接层，并将剩余结构的每层输出通道数降低；

（ 3）、在每个卷积层之后引入批正则化操作来加速模型收敛；

（ 4）、对每个池化层pool采用2位二进制数来记录最大池化索引，即滤波窗口中最大特征值的位置，该值用于后续的反卷积解码网络中；

（ 5）、在网络末尾添加1x1的卷积层，输出通道为目标类别数，同时添加损失层LossLayer和精度层Accuracy Layer，采用交叉熵损失函数作为Loss层的目标函数，计算公式如下：

精度计算公式如下：

G＝∑_in_ii/∑_it_i (2)

（ 6）、训练卷积编码网络权值，采用迁移学习的方式将VGG16在ImageNet上训练好的权重作为预训练模型来微调编码网络，同时将标签图缩小为模型最终输出尺寸，并采用随机梯度下降法对参数进行迭代调优，同时设置相应的学习率、最大迭代次数、动量参数、权值衰减参数，不断迭代训练直至网络收敛；

（ 1）、反卷积解码网络由两部分组成，首先搭建第一部分解码网络，载入卷积编码网络；

（ 2）、移除步骤二添加的1x1卷积层，添加上采样层unpooling，同时在上采样层中使用原先存储的与之维度对应的池化层索引信息，即将编码网络中pool_i的索引值应用于对应的unpooling_i中；

（ 3）、在上采样层后添加3x3卷积层，卷积层层数和输出通道数与编码网络中对应维度的卷积层一致；

（ 4）、重复上述2，3两步中的上采样层和卷积层的添加，将编码网络镜像为解码网络，完成第一部分解码网络搭建；

（ 5）、搭建第二部分解码网络，将pool4层进行反卷积到pool3层维度后与pool3融合，对融合后的特征图再反卷积到pool2层维度后再与pool2融合，将最终融合后的特征图再反卷积到unpooling2维度并与之相加，实现两个编码网络的融合；

（ 6）、采用中值频率均衡方法来平衡各个类别，计算公式如下：

（ 7）、训练整个编码-解码网络权值，将训练好的编码网络模型作为预训练模型，其他

参数设置与训练编码网络类似，不断迭代使模型收敛；

步骤四：利用测试集测试模型，包括

（ 1）、将训练的编码-解码网络转化为测试网络，移除Loss层和Accuracy层，添加Softmax层计算各类别概率，计算公式如下：

其中z_k为输入的第k类的特征向量，j表示不同类别；

（ 2）、选择步骤三中训练精度最高的k个网络权值分别对测试网络进行赋值，通过测试集数据对网络进行测试，并计算其全局精度G、平均精度C和交除并均值IoU，计算公式如下：

G＝∑_in_ii/∑_it_i (6)

C＝(1/n_c1)∑_in_ii/t_i (7)

IoU＝(1/n_c1)∑_in_ii/(t_i+∑_jn_ji-n_ii) (8)

步骤五：变电站巡检机器人道路场景识别应用，包括

（ 1）、通过变电站巡检机器人获取变电站道路场景视频流；

（ 2）、从步骤四中的k个权值中挑选出全局精度G、平均精度C以及交除并均值IoU最高的权重作为最终网络的权值；

（ 3）、将巡检机器人获取的道路场景视频流通过最终的网络进行逐帧预测并显示出预测结果。