CN108830171A

CN108830171A - 一种基于深度学习的智能物流仓库引导线视觉检测方法

Info

Publication number: CN108830171A
Application number: CN201810510443.3A
Authority: CN
Inventors: 成慧; 申静怡; 周佺
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-05-24
Filing date: 2018-05-24
Publication date: 2018-11-16
Anticipated expiration: 2038-05-24
Also published as: CN108830171B

Abstract

本发明涉及检测方法的技术领域，更具体地，涉及一种基于深度学习的智能物流仓库引导线视觉检测方法。一种基于深度学习的智能物流仓库引导线视觉检测方法，包括训练阶段和测试阶段，所述的训练阶段包括：训练数据获取与标记、构建模型、模型训练、模型验证与对比、模型选取、模型转换；所述的测试阶段包括：输入数据、引导线检测、检测结果拟合。本发明提出的方法灵活性较高，而且可以根据不同的性能要求，修改用于检测的神经网络的卷积核大小以及深度，满足不同的精度要求和运行时间要求。

Description

一种基于深度学习的智能物流仓库引导线视觉检测方法

技术领域

本发明涉及检测方法的技术领域，更具体地，涉及一种基于深度学习的智能物流仓库引导线视觉检测方法。

背景技术

准确的定位和导航是AGV自动实现运输任务的关键。目前较为广泛用于仓库内部分拣和运输任务的AGV主要使用电磁轨道进行路线控制，在仓库建设后期需要在仓库地面铺设磁导线，使得智能仓库的建设成本提升。而对已建好并运行中的旧仓库进行铺设磁导线的改建则更为困难。为了简化物流仓库的建设和改建，并降低成本，许多新型的导航方式，如引导线导航、二维码导航、同步定位与地图构建定位导航等方法均在持续发展中。使用颜色鲜明的引导线进行视觉引导来代替磁导线进行AGV引导具有铺设灵活、成本低的优点，已经成为一种快速发展的AGV引导模式。

引导线检测问题的主要任务是将图像中像素点分类为引导线部分和非引导线部分，可以概括为三个步骤：图像处理、特征提取、模型拟合。传统的引导线检测方法主要基于图像处理算法检测出图像中引导线区域。首先进行图像预处理，使用图像滤波消除噪声或者反透视映射转变视角。然后通过卷积滤波的方法，基于边缘、颜色或者纹理检测分割出图像中引导线区域。最后进行引导线拟合和参数估计。但是人工设计的特征调试困难，很依赖物体属性，并且通常只在特定的场合有效，场景变化之后就需要重新提取特征和调整模型参数，在实际应用中具有很大的局限性。同时，环境光线变化(比如仓库天花板的点光源间隔分布造成的光线变化、仓库窗户区域与长过道区域的光线变化)、地面不理想(比如地面强光或者物体遮挡造成阴影)、引导线褪色和残缺等，均易对AGV的导航任务造成干扰，使得AGV难以准确沿着引导线运行。为了应对光线变化问题，研究人员提出了图像净化和增强的方法，处理阴影和遮挡并进行曝光矫正；或者将颜色空间转换为其他与光线无关的空间，以减少阴影的影响。但是以上方法仍不具有泛化性，算法的鲁棒性也不强。

与传统的机器视觉方法相比，深度神经网络可在训练过程中自动学习特征，不依赖繁杂的人工设计，且仍可得到准确的预测结果，具有更好的算法性能。在无人驾驶领域，研究人员利用深度学习进行车道线的检测。Kim和Lee设计了一种利用卷积神经网络(Convolutional Neural Network，简称CNN)和随机抽样算法(RANdom SAmple Consensus，简称RANSAC)的车道线检测方法。Li提出两个深度神经网络框架用于检测车道线，一个是基于深度卷积神经网络(CNN)的多任务框架，输出包括用于检测车道线存在的分类器和用于估计车道线位置和方向的回归子；另一个是循环神经网络(Recurrent Neural Networks，简称RNN)，可以从图像序列预测车道线边界。在确定车道线参数方面，可以通过较简单的线拟合得到精确的位置，比较常见的模型有样条线、回旋曲线、三次多项式等。

然而，物流仓库引导线的形状与车道线的形状有较大区别，它们的检测场景也显著不同。在车道线检测中，车道线的数目固定，并且两条成对的车道线之间距离相对远，且一左一右，易于对车道线进行拟合。但是，物流仓库的引导线不仅存在交叉和分岔，并且存在数目不定的情况。因此，需要对物流仓库引导线的视觉检测提出新颖有效的方法。

考虑到物流仓库引导线存在交叉、分岔和数目不定的特点，并且仓库内光源分布造成的光线变化、仓库窗户区域与长过道区域的光线变化、地面反光等实际场景，针对已有引导线视觉检测方法的不足，本发明提出了一种基于深度学习的引导线视觉检测方法，使算法能适应物流仓库光线条件等场景的变化，准确地检测存在分岔和交叉的引导线，从而引导AGV沿期望的引导线稳定运行。同时，本发明提出的方法可在树莓派等低成本嵌入式开发平台上实现。

传统的机器视觉算法需要人工进行具有针对性的设计特征，人工设计的特征选取通常只在特定的场合有效，场景变化之后就需要重新提取特征和调整模型参数，在实际应用中具有很大的局限性。而我们通过深度神经网络提取特征，只需要有足够的数据集，直接用目标场景的数据集对网络进行训练就可以让神经网络自己学习到有效的特征表示。

大多数情况下，现有的视觉检测技术对于变化的光照条件和检测环境的适应性不佳，而本发明可以通过丰富数据集的方法进行特征学习以适应变化的检测场景。在实际应用中，具有较好的稳定性和准确率，能应对不同的光线和环境要求。

一般情况下，在引导线视觉检测任务中，目标引导线数目固定。近年来，常见的使用深度神经网络进行车道线检测的任务也是类似，目标车道线之间距离相对远，一般会成对出现，且一左一右，拟合起来难度较低。但是面对物流仓库应用场景中引导线存在交叉、分岔和数目不定的特点，本发明提出了较好的解决方案，不仅可以确定引导线的数目，并且引导线的拟合也具有较快的速度以及较高的准确率。

发明内容

本发明为克服上述现有技术所述的至少一种缺陷，提供一种基于深度学习的智能物流仓库引导线视觉检测方法，本发明提出的方法灵活性较高，而且可以根据不同的性能要求，修改用于检测的神经网络的卷积核大小以及深度，满足不同的精度要求和运行时间要求。

本发明的技术方案是：一种基于深度学习的智能物流仓库引导线视觉检测方法，包括训练阶段和测试阶段，所述的训练阶段包括：训练数据获取与标记、构建模型、模型训练、模型验证与对比、模型选取、模型转换；

所述的测试阶段包括：输入数据、引导线检测、检测结果拟合。

在智能物流仓储行业中，自动引导运输车(Automated Guided Vehicle，AGV)根据地面引导线进行视觉导航具有铺设灵活、成本低的优点，有良好的应用前景。在车道线检测领域，为了精确分辨出视野中的车道线，研究人员尝试了各种传感器。利用摄像头的方法因其低成本和较高的普适性，在车道线检测的应用中处于领先地位，利用视觉算法进行车道线检测是一种比较常见的方案。

然而，由于物流仓库的引导线具有数目不确定、存在分岔和交叉等情况，同时实际场景中光照条件变化，地面反光、物体遮挡、引导线褪色和残缺等造成复杂变化的检测场景，使得引导线视觉检测方案的稳定性与准确性面临较大挑战。

针对智能物流仓库内地面引导线的视觉检测过程中常见的引导线存在交叉、分岔和数目不定、光照不均、地面反光、引导线褪色和残缺等不利于引导线检测的情况，本发明提出了一种基于深度学习的引导线视觉检测方法，使算法能适应物流仓库光线条件等实际场景的变化，准确地检测出存在分岔和交叉的引导线，从而引导AGV沿期望的引导线稳定运行。同时，本发明提出的方法可在车载低成本嵌入式计算机上实现。

与现有技术相比，有益效果是：本发明提出的方法灵活性较高，而且可以根据不同的性能要求，修改用于检测的神经网络的卷积核大小以及深度，满足不同的精度要求和运行时间要求。

本发明提出的方法对于图像预处理的要求较少，网络训练操作简洁，可以直接由原图得到预测的标签图。

本发明提出的物流仓库引导线视觉检测方法具有较好的泛化性能。实际应用中会遇到不同仓库的引导线视觉特征有差别或者不同仓库环境有差别，本发明提出方法不需要修改网络结构，而可以用不同环境的数据集对网络进行训练以实现引导线的检测与拟合任务。

附图说明

图1是本发明横向切片引导线标签图。

图2是本发明层次聚类结果图。

图3是本发明原图、图像分割结果以及拟合结果可视化图。

图4是本发明训练阶段流程图。

图5是本发明测试阶段流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明，不能理解为对本专利的限制。

本发明提出的物流仓库引导线视觉检测方法基于全卷积神经网络(FullyConvolutional Neural Network,简称FCN)的深度学习模型，提出一种通过Pytorch和Caffe2框架分别完成模型的构建训练与测试过程，并可将该模型在树莓派等嵌入式开发平台上进行部署的实现方案，完成从训练到最终实际进行检测的整体流程的方案设计。基于本方案进行实现，能使得最终实现的视觉引导模块在进行引导线检测时能够自适应不同光照条件，对于引导线残缺或少量被遮挡部分能进行自动补全，同时能检测到存在分岔的不同引导线等。本方案适用于引导线区域始终保持在视野内的情况，同时要求视野内不能出现与引导线颜色及形状过于相似的其他物体。

本方案中描述的完整的通过深度学习方法进行引导线视觉检测的方法，主要包含有两个阶段——训练阶段和测试阶段，两个阶段的流程分别如图4和图5所示。

关于训练阶段，本方案中具体实施步骤如下：

S1.首先需要获取训练数据并对训练数据进行标记获取标记图；先利用树莓派进行实验场地实地数据采集，通过树莓派上自带Picamera进行视频捕捉，得到足够多的视频数据后，对视频数据进行分帧后即得到用于训练FCN的训练图片；

S2.使用matlab实现数据标注脚本，脚本能自动获取目标图片所在文件夹下所有图片并显示，在显示出的图片上用描点的方式点出引导线区域的边缘轮廓，然后使用inpolygon函数对图片进行逐像素判断是否属于引导线区域轮廓多边形中，通过该方式对获取到的训练图片进行标记，标出训练图片中引导线所属区域，得到与训练图片等大小的标记图，作为训练数据的一部分，用于指明训练图片中引导线所在区域，使得FCN能在训练过程中提取学习该区域的特征；

S3.通过计算明确构建出的全卷积网络的各层卷积层所使用的卷积核大小k及步长s、补零区域大小p的具体值，使用Pytorch框架完成FCN的整体构建；本方案中采用的卷积核大小均为5*5，卷积层后使用ReLU层进行激活，一个卷积层与一个ReLU层组合成一个卷积结构，两个卷积结构之后连接一个池化尺寸为2*2的最大池化层构成一个卷积块；本方案中共有3个卷积块，故经过卷积层和池化层的逐步提取特征后最终得到的特征图尺寸为原来的1/8；输入大小为h*w的数据，经过卷积：

h_new＝(h-5+2*2)/1+1＝h

w_new＝(w-5+2*2)/1+1＝w

卷积层和激活层在设置合适的padding参数的情况下不会改变数据维度，特征图的尺寸仅通过之后的池化层缩小为输入的1/2；

多层卷积和池化之后有dropout率为0.5的Dropout层，以0.5的概率丢弃部分神经元，增强模型表达能力，防止过拟合；然后分类器通过1*1的卷积核进行降维，将多通道信息整合，128通道转为2通道；由转置卷积恢复图像大小；使用的卷积核大小为10*10，步长为8，padding为1：

Up_out＝Up_in*8

通过转置卷积，将当前图像扩大8倍，恢复到240*320大小；为了获得概率分布，Sigmoid函数在最后一个输出层之后使用，输出2通道概率图；使用交叉熵作为损失函数，与标签图的ground truth比较，计算损失后反向传播，更新网络权重；

S4.上一步骤中描述的构建及训练过程仅针对一组固定的超参数，实际上在实验过程中还需要调整超参数来获得更好的检测效果；超参数主要包含训练次数epoch，训练批大小batch-size，损失函数loss function和梯度更新方式；通过选取不同的超参数并进行组合，然后进行实验，之后使用验证数据(与训练数据同，包含原始图片和标记图)对模型和超参数进行验证，选取检测效果最好的一组超参数作为最终使用的模型；

S5.经上述步骤得到的模型仅为Pytorch模型，而本方案目的在于在嵌入式开发平台上实现基于深度学习的视觉检测模块，因此为适应树莓派的环境，需要将Pytorch模型转换为可部署在树莓派上的Caffe2框架可用的模型；本方案中采用ONNX工具，将pytorch模型pth文件转为onnx文件格式的ONNX模型，并将ONNX模型导入到Caffe2框架中，使得Caffe2框架能使用ONNX模型的结构和参数，并通过Caffe2完成对引导线的检测。

经过上述步骤，则已完成了FCN模型的训练过程，目标结果为得到可在树莓派上部署的模型；之后，将模型部署到树莓派上，并按如下步骤完成测试及使用阶段：

S6.使用树莓派实时采集数据，并将采集到的当前数据输入模型中，经过与训练阶段相同的卷积、池化、逆卷积操作后得到一张与原图等大的分类图，则该分类图即为使用FCN进行视觉检测得到的结果；此时的检测结果为一个与原图等大的二维二值标签矩阵，将此矩阵转为标签图以便进行之后的图像处理；

S7.对上一步中得到的标签图进行横向切块得到若干分块，然后对各分块求连通域数目用于估计视野中引导线的数目；求取各分块连通域中点，即为引导线的骨干线上的代表点；对图像横向切片(右列数字是每一切片的连通域数目)。如图1所示，连通域数目最大值为3，有3条引导线。

S8.对所有的代表点根据目标类别数进行层次聚类，聚类得到的每一个点集可视作一条引导线区域；关于更新条件，本文选择了类间距离中的最短距离；因为引导线中存在分岔、交叉等情况，因此不同的引导线区域需要单独讨论；

如图2所示，在视野中，通过计算连通域发现出现了两条引导线，对于引导线数目发生变化的上下部分分别聚类，上面部分有两类(分别为左侧方形、右侧方形)，下面部分有一类(圆形)；自底向上的层次聚类通过合并相近类，能较好地得到需要的效果；

S9.对每一引导线区域的骨干点进行直线拟合，用于表征该引导线区域所在引导线的方向及位置；如果两条直线夹角在一定阈值之内，则认为两条直线相近，将他们合并；部分检测与拟合的结果如图3所示。最后将拟合的直线方程作为整个视觉检测模块的输出；即由本方案描述的视觉检测模块进行检测后得到的结果为当前AGV视野内的引导线的表征方程，之后可结合控制模块，完成指引AGV前进的任务。

本发明中，将目标检测问题转为语义分割问题，采用深度神经网络对物流仓储环境中的引导线进行视觉检测。对于获得的标签图像，使用横向切片的办法获取引导线的数目以及引导线的关键点集。使用层次聚类算法将不同的引导线点集分开。使用Pytorch框架进行训练，然后用ONNX将Pytorch模型转为Caffe2模型，算法可在嵌入式平台上运行，结果具有较好的鲁棒性和实时性。

另外，使用其他深度神经网络框架进行语义分割，对环境中的目标引导线进行特征提取和检测。使用基于密度的聚类算法或者K-Means聚类等其他聚类算法实现引导线关键点集合的划分。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于深度学习的智能物流仓库引导线视觉检测方法，其特征在于，包括训练阶段和测试阶段，所述的训练阶段包括：训练数据获取与标记、构建模型、模型训练、模型验证与对比、模型选取、模型转换；

2.根据权利要求1所述的一种基于深度学习的智能物流仓库引导线视觉检测方法，其特征在于：所述的训练阶段具体实施步骤为：

h_new＝(h-5+2*2)/1+1＝h

w_new＝(w-5+2*2)/1+1＝w

Up_out＝Up_in*8

S4.上一步骤中描述的构建及训练过程仅针对一组固定的超参数，实际上在实验过程中还需要调整超参数来获得更好的检测效果；超参数主要包含训练次数epoch，训练批大小batch-size，损失函数loss function和梯度更新方式；通过选取不同的超参数并进行组合，然后进行实验，之后使用验证数据对模型和超参数进行验证，选取检测效果最好的一组超参数作为最终使用的模型；

3.根据权利要求2所述的一种基于深度学习的智能物流仓库引导线视觉检测方法，其特征在于：经过上述步骤，则已完成了FCN模型的训练过程，目标结果为得到可在树莓派上部署的模型；之后，将模型部署到树莓派上，并按如下步骤完成测试及使用阶段：

S7.对上一步中得到的标签图进行横向切块得到若干分块，然后对各分块求连通域数目用于估计视野中引导线的数目；求取各分块连通域中点，即为引导线的骨干线上的代表点；对图像横向切片；

在视野中，通过计算连通域发现出现了两条引导线，对于引导线数目发生变化的上下部分分别聚类，上面部分有两类，下面部分有一类；自底向上的层次聚类通过合并相近类，能较好地得到需要的效果；

S9.对每一引导线区域的骨干点进行直线拟合，用于表征该引导线区域所在引导线的方向及位置；如果两条直线夹角在一定阈值之内，则认为两条直线相近，将他们合并；最后将拟合的直线方程作为整个视觉检测模块的输出；即由本方案描述的视觉检测模块进行检测后得到的结果为当前AGV视野内的引导线的表征方程，之后可结合控制模块，完成指引AGV前进的任务。