CN110751220B

CN110751220B - 一种基于改进卷积神经网络结构的机器视觉室内定位方法

Info

Publication number: CN110751220B
Application number: CN201911015806.7A
Authority: CN
Inventors: 朱斌; 张建荣; 李健
Original assignee: Jiangxi College of Applied Technology
Current assignee: Jiangxi College of Applied Technology
Priority date: 2019-10-24
Filing date: 2019-10-24
Publication date: 2022-02-11
Anticipated expiration: 2039-10-24
Also published as: CN110751220A

Abstract

本发明公开了一种基于改进卷积神经网络结构的机器视觉室内定位方法，该方法主要是提出了一种改进的卷积神经网络结构及针对该结构的神经网络模型训练方法，最终通过训练后的卷积神经网络对输入的视频图像进行分类，得到装备RGB摄像头的移动机器人室内位置，其中，卷积神经网络功能包括：提取语义分割图像及RGB图像的位置特征，利用这两类位置特征来确定移动机器人的实时室内位置。改进的卷积神经网络结构是U‑Net、两个VGG16Net的前13层及一个VGG16Net的后3层相结合的产物，其卷积神经网络由U1、VGG2、VGG3、VGG4及ArcFace分类器五部分构成。本发明可精准实现移动机器人室内位置的实时定位。

Description

一种基于改进卷积神经网络结构的机器视觉室内定位方法

技术领域

本发明涉及人工智能、深度学习算法研究及图像处理算法研究的技术领域，尤其是指一种基于改进卷积神经网络结构的机器视觉室内定位方法。

背景技术

随着人工智能技术的日益发展，各种类型的机器人已广泛应用于各行各业，在移动机器人的应用过程中，实时检测及监控机器人的位置，是其能更好服务人类的前提，因而移动机器人的无线定位技术已逐渐成为研究热点。在室外环境下，基于移动信号的全球定位系统、北斗星导航系统和蜂窝定位技术能满足大多数的定位需求，然而这些方法不适用于室内环境的定位。

针对移动设备的室内定位，学者们提出了基于Wi-Fi信号的室内定位方法，基于蓝牙设备的定位方法及基于射频识别技术的室内定位方法，然而这些方法都存在瓶颈，如基于Wi-Fi的方法易受多径效应影响，基于蓝牙的方法存在相互干扰，而基于射频的方法需要昂贵的设备支持。

基于机器视觉的方法避免了上述所有的瓶颈，为室内定位方法提供了新途径，该类方法仅需在移动设备上安装摄像头即可实现实时定位。传统视觉定位方法通常采用图像匹配法，然而，该类方法易受拍摄角度、光照变化，场景中非固定建筑轮廓的内容变化等浅层特征的影响。随着深度学习技术的普及，不少学者采用深度卷积神经网络提取图像的深层位置特征，越深的卷积神经网络的特征提取效果越好，然而随着网络层数的增多，其所需训练样本的数量也成几何倍数的增加，且在很多应用场景中，为训练样本进行标注也是极其困难的。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种基于改进卷积神经网络结构的机器视觉室内定位方法，可精准实现移动机器人室内位置的实时定位。

为实现上述目的，本发明所提供的技术方案为：一种基于改进卷积神经网络结构的机器视觉室内定位方法，该方法主要是提出了一种改进的卷积神经网络结构及针对该结构的神经网络模型训练方法，最终通过训练后的卷积神经网络对输入的视频图像进行分类，得到装备RGB摄像头的移动机器人室内位置，其中，卷积神经网络功能包括：提取语义分割图像及RGB图像的位置特征，利用这两类位置特征来确定移动机器人的实时室内位置；该改进的卷积神经网络结构是U-Net、两个VGG16Net的前13层及一个VGG16Net的后3层相结合的产物，其卷积神经网络由U1、VGG2、VGG3、VGG4及ArcFace分类器五部分构成；U1为U-Net，用于得到输入图像的语义分割图；VGG2和VGG3为VGG16Net的前13层卷积层，分别用于提取语义分割图的位置特征及原图像的位置特征；VGG4为全连接层，用于对各位置特征分配权重参数；最后，采用ArcFace分类器得到输入图像对应的位置。

进一步，U1为U-Net网络，采用U-Net提取出图像中的路径区域，该U-Net网络由23层组成，前11层为卷积层，包括3*3的卷积核、批归一化处理及ReLU函数，采用步长为1的2*2最大池化窗口进行降采样；卷积层的反复叠加使得U-Net能够提取出隐藏在图像中的浅层、中层及深层图像特征，通过U-Net的第13层后，特征图像被传输至图中右侧由U-Net后11层组成的升采样区，进而对每层卷积层输出的特征图像进行升采样，此时，与特征相关的信息将被保留及放大，而与特征无关的信息将被抛弃；所有降采样层被升采样后融合在一起，从而组合成最终的输出，此时，图像中的每个像素点将按需求被标定。

进一步，VGG16Net为基于图像的分类器，其前13层为卷积层，用于特征提取；而其后3层为全连接层，用于融合特征及生成分类信息；VGG2由VGG16Net的前13层构成，被用于提取RGB图像的位置特征；前4层中，每两层卷积后接批归一化处理，以调整激活函数分布范围，再接ReLU激活函数及池化，卷积核的大小为5*5*64，步长为1，池化为在2*2范围内取最大值，步长为1；后9层中，每三层卷积后接批归一化处理，再接ReLU激活函数及池化，卷积核的大小为3*3*64，步长为1，池化为在2*2范围内取最大值，步长为1；VGG3采用的是与VGG2相同的结构，区别仅在于VGG3的输入为语义分割图像，用于提取基于路径区域的位置特征。

进一步，VGG4为VGG16Net的后3层，由三层全连接层构成，前两层全连接层后接批归一化处理，再接ReLU激活函数及随机失活函数，全连接层由4096个节点组成，采用正则化方法进行随机失活；最后一层全连接层后接ArcFace分类器进行特征分类及输出分类结果。

进一步，针对改进卷积神经网络结构的神经网络模型训练方法，基于多层迁移学习，包括从局部到整体的模型训练步骤及先使用通用数据库进行预训练，再使用专用数据库进行迁移学习的模型处理方法，具体步骤如下：

1)利用ImageNet数据库预训练U1、VGG2及VGG3，使其能够提取图像浅层及中层特征；

2)利用标注了像素点分类信息的图像对U1进行迁移学习，使其能够提取输入RGB图像的语义分割图像；

3)利用标注了位置类别的语义分割图像对VGG2进行迁移学习，使其能够提取语义分割图像的位置特征；

4)利用标注了位置类别的RGB图像对VGG3进行迁移学习，使其能够提取RGB图像的位置特征；

5)将U1、VGG2、VGG3、VGG4及ArcFace分类器结合为一个整体，利用标注了位置类别的RGB图像对整个网络进行二次迁移学习，此时，U1的权重参数保持不变，而VGG2及VGG3的权重参数将会进行微调，VGG4的权重参数在二次迁移学习中被确定。

进一步，对于U1，训练时应用随机梯度下降法，采用标注了每个像素点类别信息的输入图像训练模型，并采用块处理的方法，其中，最小的块尺寸为64，初始化动量值为0.99，权值惩罚项为0.001，采用均值为0及方差为0.01的高斯分布初始化权值，初始化学习率为0.02，当准确率停止提升时，学习率将减小至初始化的一半，减小三次后训练结束。

进一步，对于VGG2，在预训练阶段，块尺寸被设为128，动量值为0.95，惩罚权重项为0.001，学习率被设置为0.01，当准确率提升速度缓慢时，将以5的倍数变小，直到最后变成5*10^-3；在迁移学习阶段，块尺寸被设为100，动量值为0.98，惩罚权重项为0.002，学习率被设置为0.02，当准确率提升速度缓慢时，将以5的倍数变小，直到最后变成5*10^-3。

进一步，对于VGG3，在预训练阶段，块尺寸被设为256，动量值为0.95，惩罚权重项为0.0015，学习率被设置为0.005，当准确率提升速度缓慢时，将以5的倍数变小，直到最后变成2*10^-3；在迁移学习阶段，块尺寸被设为100，动量值为0.95，惩罚权重项为0.002，学习率被设置为0.02，当准确率提升速度缓慢时，将以5的倍数变小，直到最后变成1*10^-3。

进一步，VGG4用于融合RGB图像及语义分割图像的位置特征，训练VGG4前，U1、VGG2、VGG3均已进行了预训练及第一次迁移学习；训练VGG4时，U1、VGG2、VGG3均需参与其中，且进行第二次迁移学习，此时，U1的权值参数将不会发生变化，而VGG2及VGG3的权值参数将会被微调；随机梯度下降法将被应用于训练VGG4，块尺寸被设为128，动量值为0.9，惩罚权重项为0.002，学习率被设置为0.01，当准确率提升速度缓慢时，将以5的倍数变小，直到最后变成2*10^-3。

进一步，ImageNet数据库被用于U1、VGG2及VGG3的预训练，工厂环境中拍摄的自建图像数据库被用于进行一次迁移学习及二次迁移学习，自建图像数据库中，整个工厂被划分为18个区域，每个区域拍摄200幅图像，并为每幅图像标注位置编号，同时每幅图像都手动分割了路径区域。

本发明与现有技术相比，具有如下优点与有益效果：

1、RGB图像中的位置特征及语义分割图像中的位置特征的侧重点不同，融合这两类特征能起到优势互补的作用；较传统使用单一图像位置特征的方法，本发明方法的定位准确率更高，鲁棒性更强，适用范围更广，拓宽了深度学习图像分类算法的思路。

2、基于多层迁移学习的模型训练方法采用公用图像数据库对模型中各子网络进行预训练，再采用专用图像数据库进行迁移学习，训练好各子网络后，再采用专用图像数据库对整个网络进行微调，使之结合成为一个整体。较传统基于迁移学习的方法，在深度神经网络的训练上，本发明方法可以在更少训练样本的前提下，得到高准确率的分类模型，且模型训练速度更快。

附图说明

图1为本发明方法流程图。

图2为本发明改进的卷积神经网络结构图。

图3为U1的网络结构图。

图4为VGG2的网络结构图。

图5为VGG3的网络结构图。

图6为VGG4的网络结构图。

其中，VGG2、VGG3及VGG4为本发明中的子网络的简称，ArcFace classifier(分类器)为Jiankang Deng等在文献“ArcFace:Additive Angular Margin Loss for Deep FaceRecognition”中提出的用于人脸识别的分类器。Conv为卷积核，Batch Normalization为批归一化处理，ReLU为线性整流激活函数，Max Pooling为最大池化层，Un-Pooling为升采样层，Dropout为随机失活函数，Affine代表全连接操作。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

如图1所示，本实施例所提供的基于改进卷积神经网络结构的机器视觉室内定位方法，主要是提出了一种改进的卷积神经网络结构及针对该结构的神经网络模型训练方法，最终通过训练后的卷积神经网络对输入的视频图像进行分类，得到装备RGB摄像头的移动机器人室内位置，其中，卷积神经网络功能包括：提取语义分割图像及RGB图像的位置特征，利用这两类位置特征来确定移动机器人的实时室内位置。

本实施例中改进的卷积神经网络结构是U-Net、两个VGG16Net的前13层及一个VGG16Net的后3层相结合的产物，如图2所示，其卷积神经网络由U1、VGG2、VGG3、VGG4及ArcFace分类器五部分构成。U1为经典的U-Net，用于得到输入图像的语义分割图；VGG2和VGG3为VGG16Net的前13层卷积层，分别用于提取语义分割图的位置特征及RGB图像的位置特征；VGG4为全连接层，用于对各位置特征分配权重参数；最后，采用ArcFace分类器得到输入图像对应的位置。

U1为完整的U-Net网络，卷积神经网络常用于基于图像的分类任务，即找出待分类图像的所属类别。但在很多基于图像的分类任务中，需要对图像中的每个像素点进行分类，U-Net正是用于对图像中的每个像素点进行分类的常用方法之一。具体地，本实施例中采用U-Net提取出图像中的路径区域。U-Net的组成如图3所示，该网络由23层卷积层组成，图中的左侧共12层，由经典卷积层叠加而成，包括3*3的卷积核、批归一化处理及ReLU函数；采用步长为1的2*2最大池化窗口进行降采样。经典卷积层反复叠加使得U-Net能提取出隐藏在图像中的浅层、中层及深层图像特征。通过U-Net的第13层(即中间层)后，特征图像被传输至图中右侧由U-Net后11层组成的升采样区，进而对每层卷积层输出的特征图像进行升采样，此时，与特征相关的信息将被保留及放大，而与特征无关的信息将被抛弃。所有降采样层被升采样后融合在一起，从而组合成最终的输出，此时，图像中的每个像素点将按需求被标定。

VGG16Net为一典型的基于图像的分类器，该网络的前13层为卷积层，用于特征提取；而其后三层为全连接层，用于融合特征及生成分类信息。本实施例的VGG2由VGG16Net的前13层构成，被用于提取RGB图像的位置特征，其结构如图4所示。前4层中，每两层卷积后接批归一化处理，以调整激活函数分布范围，再接ReLU激活函数及池化，卷积核的大小为5*5*64，步长为1，池化为在2*2范围内取最大值，步长为1；后9层中，每三层卷积后接批归一化处理，再接ReLU激活函数及池化，卷积核的大小为3*3*64，步长为1，池化为在2*2范围内取最大值，步长为1。本实施例的VGG3采用的是与VGG2相同的结构，如图5所示，区别仅在于VGG3的输入为语义分割图像，用于提取基于路径区域的位置特征。

VGG4为VGG16Net的后三层，由三层全连接层构成，其结构如图6所示。前两层全连接层后接批归一化处理，再接ReLU激活函数及随机失活函数，全连接层由4096个节点组成，采用正则化方法进行随机失活。最后一层全连接层后接ArcFace分类器进行特征分类及输出分类结果。

本实施例改进的卷积神经网络由五部分联合构成，由于网络结构过于庞大，组成该网络结构的参数太多，而用于训练网络的训练样本又相对较少，直接训练将产生过拟合。针对该问题，本实施例提出基于多层迁移学习的神经网络模型训练方法，包括从局部到整体的模型训练步骤及先使用通用数据库进行预训练，再使用专用数据库进行迁移学习的模型处理方法。具体步骤如下：

1)利用ImageNet数据库预训练U1、VGG2及VGG3，使其能够提取图像浅层及中层特征。

2)利用标注了像素点分类信息的图像对U1进行迁移学习，使其能够提取输入RGB图像的语义分割图像。

3)利用标注了位置类别的语义分割图像对VGG2进行迁移学习，使其能够提取语义分割图像的位置特征。

4)利用标注了位置类别的RGB图像对VGG3进行迁移学习，使其能够提取RGB图像的位置特征。

训练U-Net：应用随机梯度下降法，采用标注了每个像素点类别信息的输入图像训练该模型，采用块处理的方法，其中，最小的块尺寸为64，初始化动量值为0.99，权值惩罚项为0.001。采用均值为0及方差为0.01的高斯分布初始化权值，初始化学习率为0.02，当准确率停止提升时，学习率将减小至初始化的一半，减小三次后训练结束。

训练VGG2：在预训练阶段，块尺寸被设为128，动量值为0.95，惩罚权重项为0.001。学习率被设置为0.01，当准确率提升速度缓慢时，将以5的倍数变小，直到最后变成5*10^-3。在迁移学习阶段，块尺寸被设为100，动量值为0.98，惩罚权重项为0.002,学习率被设置为0.02，当准确率提升速度缓慢时，将以5的倍数变小，直到最后变成5*10^-3。

训练VGG3:在预训练阶段，块尺寸被设为256，动量值为0.95，惩罚权重项为0.0015。学习率被设置为0.005，当准确率提升速度缓慢时，将以5的倍数变小，直到最后变成2*10^-3。在迁移学习阶段，块尺寸被设为100，动量值为0.95，惩罚权重项为0.002,学习率被设置为0.02，当准确率提升速度缓慢时，将以5的倍数变小，直到最后变成1*10^-3。

训练VGG4：VGG4用于融合RGB图像及语义分割图像的位置特征，训练VGG4前，U1、VGG2、VGG3均已进行了预训练及第一次迁移学习。训练VGG4时，U1、VGG2、VGG3均需参与其中，且进行第二次迁移学习，此时，U1的权值参数将不会发生变化，而VGG2及VGG3的权值参数将会被微调。随机梯度下降法将被应用于训练该网络模型，块尺寸被设为128，动量值为0.9，惩罚权重项为0.002。学习率被设置为0.01，当准确率提升速度缓慢时，将以5的倍数变小，直到最后变成2*10^-3。

本实施例中使用的数据库：ImageNet数据库被用于U1、VGG2及VGG3的预训练，工厂环境中拍摄的自建图像数据库被用于进行一次迁移学习及二次迁移学习。自建数据库中，整个工厂被划分为18个区域，每个区域拍摄200幅图像，并为每幅图像标注位置编号，同时每幅图像都手动分割了路径区域。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种基于改进卷积神经网络结构的机器视觉室内定位方法，其特征在于：该方法主要是提出了一种改进的卷积神经网络结构及针对该结构的神经网络模型训练方法，最终通过训练后的卷积神经网络对输入的视频图像进行分类，得到装备RGB摄像头的移动机器人室内位置，其中，卷积神经网络功能包括：提取语义分割图像的位置特征及RGB图像的位置特征，利用这两类位置特征来确定移动机器人的实时室内位置；该改进的卷积神经网络结构是U-Net、两个VGG16Net的前13层及一个VGG16Net的后3层相结合的产物，其卷积神经网络由U1、VGG2、VGG3、VGG4及ArcFace分类器五部分构成；U1为U-Net，用于得到输入图像的语义分割图；VGG2和VGG3为VGG16Net的前13层卷积层，分别用于提取语义分割图的位置特征及原图像的位置特征；VGG4为全连接层，用于对各位置特征分配权重参数；最后，采用ArcFace分类器得到输入图像对应的位置。

2.根据权利要求1所述的一种基于改进卷积神经网络结构的机器视觉室内定位方法，其特征在于：U1为U-Net网络，采用U-Net提取出图像中的路径区域，该U-Net网络由23层组成，前11层为卷积层，包括3*3的卷积核、批归一化处理及ReLU函数，采用步长为1的2*2最大池化窗口进行降采样；卷积层反复叠加使得U-Net能够提取出隐藏在图像中的浅层、中层及深层图像特征，通过U-Net的第13层后，特征图像被传输至图中右侧由U-Net后11层组成的升采样区，进而对每层卷积层输出的特征图像进行升采样，此时，与特征相关的信息将被保留及放大，而与特征无关的信息将被抛弃；所有降采样层被升采样后融合在一起，从而组合成最终的输出，此时，图像中的每个像素点将按需求被标定。

3.根据权利要求1所述的一种基于改进卷积神经网络结构的机器视觉室内定位方法，其特征在于：VGG16Net为基于图像的分类器，其前13层为卷积层，用于特征提取；而其后3层为全连接层，用于融合特征及生成分类信息；VGG2由VGG16Net的前13层构成，被用于提取RGB图像的位置特征；前4层中，每两层卷积后接批归一化处理，以调整激活函数分布范围，再接ReLU激活函数及池化，卷积核的大小为5*5*64，步长为1，池化为在2*2范围内取最大值，步长为1；后9层中，每三层卷积后接批归一化处理，再接ReLU激活函数及池化，卷积核的大小为3*3*64，步长为1，池化为在2*2范围内取最大值，步长为1；VGG3采用的是与VGG2相同的结构，区别仅在于VGG3的输入为语义分割图像，用于提取基于路径区域的位置特征。

4.根据权利要求1所述的一种基于改进卷积神经网络结构的机器视觉室内定位方法，其特征在于：VGG4为VGG16Net的后3层，由三层全连接层构成，前两层全连接层后接批归一化处理，再接ReLU激活函数及随机失活函数，全连接层由4096个节点组成，采用正则化方法进行随机失活；最后一层全连接层后接ArcFace分类器进行特征分类及输出分类结果。

5.根据权利要求1所述的一种基于改进卷积神经网络结构的机器视觉室内定位方法，其特征在于：针对改进卷积神经网络结构的神经网络模型训练方法，基于多层迁移学习，包括从局部到整体的模型训练步骤及先使用通用数据库进行预训练，再使用专用数据库进行迁移学习的模型处理方法，具体步骤如下：

6.根据权利要求5所述的一种基于改进卷积神经网络结构的机器视觉室内定位方法，其特征在于：对于U1，训练时应用随机梯度下降法，采用标注了每个像素点类别信息的输入图像训练模型，并采用块处理的方法，其中，最小的块尺寸为64，初始化动量值为0.99，权值惩罚项为0.001，采用均值为0及方差为0.01的高斯分布初始化权值，初始化学习率为0.02，当准确率停止提升时，学习率将减小至初始化的一半，减小三次后训练结束。

7.根据权利要求5所述的一种基于改进卷积神经网络结构的机器视觉室内定位方法，其特征在于：对于VGG2，在预训练阶段，块尺寸被设为128，动量值为0.95，惩罚权重项为0.001，学习率被设置为0.01，当准确率提升速度缓慢时，将以5的倍数变小，直到最后变成5*10^-3；在迁移学习阶段，块尺寸被设为100，动量值为0.98，惩罚权重项为0.002，学习率被设置为0.02，当准确率提升速度缓慢时，将以5的倍数变小，直到最后变成5*10^-3。

8.根据权利要求5所述的一种基于改进卷积神经网络结构的机器视觉室内定位方法，其特征在于：对于VGG3，在预训练阶段，块尺寸被设为256，动量值为0.95，惩罚权重项为0.0015，学习率被设置为0.005，当准确率提升速度缓慢时，将以5的倍数变小，直到最后变成2*10^-3；在迁移学习阶段，块尺寸被设为100，动量值为0.95，惩罚权重项为0.002，学习率被设置为0.02，当准确率提升速度缓慢时，将以5的倍数变小，直到最后变成1*10^-3。

9.根据权利要求5所述的一种基于改进卷积神经网络结构的机器视觉室内定位方法，其特征在于：VGG4用于融合RGB图像及语义分割图像的位置特征，训练VGG4前，U1、VGG2、VGG3均已进行了预训练及第一次迁移学习；训练VGG4时，U1、VGG2、VGG3均需参与其中，且进行第二次迁移学习，此时，U1的权值参数将不会发生变化，而VGG2及VGG3的权值参数将会被微调；随机梯度下降法将被应用于训练VGG4，块尺寸被设为128，动量值为0.9，惩罚权重项为0.002，学习率被设置为0.01，当准确率提升速度缓慢时，将以5的倍数变小，直到最后变成2*10^-3。

10.根据权利要求5所述的一种基于改进卷积神经网络结构的机器视觉室内定位方法，其特征在于：ImageNet数据库被用于U1、VGG2及VGG3的预训练，工厂环境中拍摄的自建图像数据库被用于进行一次迁移学习及二次迁移学习，自建图像数据库中，整个工厂被划分为18个区域，每个区域拍摄200幅图像，并为每幅图像标注位置编号，同时每幅图像都手动分割了路径区域。