CN110751220B - 一种基于改进卷积神经网络结构的机器视觉室内定位方法 - Google Patents
一种基于改进卷积神经网络结构的机器视觉室内定位方法 Download PDFInfo
- Publication number
- CN110751220B CN110751220B CN201911015806.7A CN201911015806A CN110751220B CN 110751220 B CN110751220 B CN 110751220B CN 201911015806 A CN201911015806 A CN 201911015806A CN 110751220 B CN110751220 B CN 110751220B
- Authority
- CN
- China
- Prior art keywords
- layers
- neural network
- image
- convolutional neural
- vgg3
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Abstract
本发明公开了一种基于改进卷积神经网络结构的机器视觉室内定位方法,该方法主要是提出了一种改进的卷积神经网络结构及针对该结构的神经网络模型训练方法,最终通过训练后的卷积神经网络对输入的视频图像进行分类,得到装备RGB摄像头的移动机器人室内位置,其中,卷积神经网络功能包括:提取语义分割图像及RGB图像的位置特征,利用这两类位置特征来确定移动机器人的实时室内位置。改进的卷积神经网络结构是U‑Net、两个VGG16Net的前13层及一个VGG16Net的后3层相结合的产物,其卷积神经网络由U1、VGG2、VGG3、VGG4及ArcFace分类器五部分构成。本发明可精准实现移动机器人室内位置的实时定位。
Description
技术领域
本发明涉及人工智能、深度学习算法研究及图像处理算法研究的技术领域,尤其是指一种基于改进卷积神经网络结构的机器视觉室内定位方法。
背景技术
随着人工智能技术的日益发展,各种类型的机器人已广泛应用于各行各业,在移动机器人的应用过程中,实时检测及监控机器人的位置,是其能更好服务人类的前提,因而移动机器人的无线定位技术已逐渐成为研究热点。在室外环境下,基于移动信号的全球定位系统、北斗星导航系统和蜂窝定位技术能满足大多数的定位需求,然而这些方法不适用于室内环境的定位。
针对移动设备的室内定位,学者们提出了基于Wi-Fi信号的室内定位方法,基于蓝牙设备的定位方法及基于射频识别技术的室内定位方法,然而这些方法都存在瓶颈,如基于Wi-Fi的方法易受多径效应影响,基于蓝牙的方法存在相互干扰,而基于射频的方法需要昂贵的设备支持。
基于机器视觉的方法避免了上述所有的瓶颈,为室内定位方法提供了新途径,该类方法仅需在移动设备上安装摄像头即可实现实时定位。传统视觉定位方法通常采用图像匹配法,然而,该类方法易受拍摄角度、光照变化,场景中非固定建筑轮廓的内容变化等浅层特征的影响。随着深度学习技术的普及,不少学者采用深度卷积神经网络提取图像的深层位置特征,越深的卷积神经网络的特征提取效果越好,然而随着网络层数的增多,其所需训练样本的数量也成几何倍数的增加,且在很多应用场景中,为训练样本进行标注也是极其困难的。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于改进卷积神经网络结构的机器视觉室内定位方法,可精准实现移动机器人室内位置的实时定位。
为实现上述目的,本发明所提供的技术方案为:一种基于改进卷积神经网络结构的机器视觉室内定位方法,该方法主要是提出了一种改进的卷积神经网络结构及针对该结构的神经网络模型训练方法,最终通过训练后的卷积神经网络对输入的视频图像进行分类,得到装备RGB摄像头的移动机器人室内位置,其中,卷积神经网络功能包括:提取语义分割图像及RGB图像的位置特征,利用这两类位置特征来确定移动机器人的实时室内位置;该改进的卷积神经网络结构是U-Net、两个VGG16Net的前13层及一个VGG16Net的后3层相结合的产物,其卷积神经网络由U1、VGG2、VGG3、VGG4及ArcFace分类器五部分构成;U1为U-Net,用于得到输入图像的语义分割图;VGG2和VGG3为VGG16Net的前13层卷积层,分别用于提取语义分割图的位置特征及原图像的位置特征;VGG4为全连接层,用于对各位置特征分配权重参数;最后,采用ArcFace分类器得到输入图像对应的位置。
进一步,U1为U-Net网络,采用U-Net提取出图像中的路径区域,该U-Net网络由23层组成,前11层为卷积层,包括3*3的卷积核、批归一化处理及ReLU函数,采用步长为1的2*2最大池化窗口进行降采样;卷积层的反复叠加使得U-Net能够提取出隐藏在图像中的浅层、中层及深层图像特征,通过U-Net的第13层后,特征图像被传输至图中右侧由U-Net后11层组成的升采样区,进而对每层卷积层输出的特征图像进行升采样,此时,与特征相关的信息将被保留及放大,而与特征无关的信息将被抛弃;所有降采样层被升采样后融合在一起,从而组合成最终的输出,此时,图像中的每个像素点将按需求被标定。
进一步,VGG16Net为基于图像的分类器,其前13层为卷积层,用于特征提取;而其后3层为全连接层,用于融合特征及生成分类信息;VGG2由VGG16Net的前13层构成,被用于提取RGB图像的位置特征;前4层中,每两层卷积后接批归一化处理,以调整激活函数分布范围,再接ReLU激活函数及池化,卷积核的大小为5*5*64,步长为1,池化为在2*2范围内取最大值,步长为1;后9层中,每三层卷积后接批归一化处理,再接ReLU激活函数及池化,卷积核的大小为3*3*64,步长为1,池化为在2*2范围内取最大值,步长为1;VGG3采用的是与VGG2相同的结构,区别仅在于VGG3的输入为语义分割图像,用于提取基于路径区域的位置特征。
进一步,VGG4为VGG16Net的后3层,由三层全连接层构成,前两层全连接层后接批归一化处理,再接ReLU激活函数及随机失活函数,全连接层由4096个节点组成,采用正则化方法进行随机失活;最后一层全连接层后接ArcFace分类器进行特征分类及输出分类结果。
进一步,针对改进卷积神经网络结构的神经网络模型训练方法,基于多层迁移学习,包括从局部到整体的模型训练步骤及先使用通用数据库进行预训练,再使用专用数据库进行迁移学习的模型处理方法,具体步骤如下:
1)利用ImageNet数据库预训练U1、VGG2及VGG3,使其能够提取图像浅层及中层特征;
2)利用标注了像素点分类信息的图像对U1进行迁移学习,使其能够提取输入RGB图像的语义分割图像;
3)利用标注了位置类别的语义分割图像对VGG2进行迁移学习,使其能够提取语义分割图像的位置特征;
4)利用标注了位置类别的RGB图像对VGG3进行迁移学习,使其能够提取RGB图像的位置特征;
5)将U1、VGG2、VGG3、VGG4及ArcFace分类器结合为一个整体,利用标注了位置类别的RGB图像对整个网络进行二次迁移学习,此时,U1的权重参数保持不变,而VGG2及VGG3的权重参数将会进行微调,VGG4的权重参数在二次迁移学习中被确定。
进一步,对于U1,训练时应用随机梯度下降法,采用标注了每个像素点类别信息的输入图像训练模型,并采用块处理的方法,其中,最小的块尺寸为64,初始化动量值为0.99,权值惩罚项为0.001,采用均值为0及方差为0.01的高斯分布初始化权值,初始化学习率为0.02,当准确率停止提升时,学习率将减小至初始化的一半,减小三次后训练结束。
进一步,对于VGG2,在预训练阶段,块尺寸被设为128,动量值为0.95,惩罚权重项为0.001,学习率被设置为0.01,当准确率提升速度缓慢时,将以5的倍数变小,直到最后变成5*10-3;在迁移学习阶段,块尺寸被设为100,动量值为0.98,惩罚权重项为0.002,学习率被设置为0.02,当准确率提升速度缓慢时,将以5的倍数变小,直到最后变成5*10-3。
进一步,对于VGG3,在预训练阶段,块尺寸被设为256,动量值为0.95,惩罚权重项为0.0015,学习率被设置为0.005,当准确率提升速度缓慢时,将以5的倍数变小,直到最后变成2*10-3;在迁移学习阶段,块尺寸被设为100,动量值为0.95,惩罚权重项为0.002,学习率被设置为0.02,当准确率提升速度缓慢时,将以5的倍数变小,直到最后变成1*10-3。
进一步,VGG4用于融合RGB图像及语义分割图像的位置特征,训练VGG4前,U1、VGG2、VGG3均已进行了预训练及第一次迁移学习;训练VGG4时,U1、VGG2、VGG3均需参与其中,且进行第二次迁移学习,此时,U1的权值参数将不会发生变化,而VGG2及VGG3的权值参数将会被微调;随机梯度下降法将被应用于训练VGG4,块尺寸被设为128,动量值为0.9,惩罚权重项为0.002,学习率被设置为0.01,当准确率提升速度缓慢时,将以5的倍数变小,直到最后变成2*10-3。
进一步,ImageNet数据库被用于U1、VGG2及VGG3的预训练,工厂环境中拍摄的自建图像数据库被用于进行一次迁移学习及二次迁移学习,自建图像数据库中,整个工厂被划分为18个区域,每个区域拍摄200幅图像,并为每幅图像标注位置编号,同时每幅图像都手动分割了路径区域。
本发明与现有技术相比,具有如下优点与有益效果:
1、RGB图像中的位置特征及语义分割图像中的位置特征的侧重点不同,融合这两类特征能起到优势互补的作用;较传统使用单一图像位置特征的方法,本发明方法的定位准确率更高,鲁棒性更强,适用范围更广,拓宽了深度学习图像分类算法的思路。
2、基于多层迁移学习的模型训练方法采用公用图像数据库对模型中各子网络进行预训练,再采用专用图像数据库进行迁移学习,训练好各子网络后,再采用专用图像数据库对整个网络进行微调,使之结合成为一个整体。较传统基于迁移学习的方法,在深度神经网络的训练上,本发明方法可以在更少训练样本的前提下,得到高准确率的分类模型,且模型训练速度更快。
附图说明
图1为本发明方法流程图。
图2为本发明改进的卷积神经网络结构图。
图3为U1的网络结构图。
图4为VGG2的网络结构图。
图5为VGG3的网络结构图。
图6为VGG4的网络结构图。
其中,VGG2、VGG3及VGG4为本发明中的子网络的简称,ArcFace classifier(分类器)为Jiankang Deng等在文献“ArcFace:Additive Angular Margin Loss for Deep FaceRecognition”中提出的用于人脸识别的分类器。Conv为卷积核,Batch Normalization为批归一化处理,ReLU为线性整流激活函数,Max Pooling为最大池化层,Un-Pooling为升采样层,Dropout为随机失活函数,Affine代表全连接操作。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
如图1所示,本实施例所提供的基于改进卷积神经网络结构的机器视觉室内定位方法,主要是提出了一种改进的卷积神经网络结构及针对该结构的神经网络模型训练方法,最终通过训练后的卷积神经网络对输入的视频图像进行分类,得到装备RGB摄像头的移动机器人室内位置,其中,卷积神经网络功能包括:提取语义分割图像及RGB图像的位置特征,利用这两类位置特征来确定移动机器人的实时室内位置。
本实施例中改进的卷积神经网络结构是U-Net、两个VGG16Net的前13层及一个VGG16Net的后3层相结合的产物,如图2所示,其卷积神经网络由U1、VGG2、VGG3、VGG4及ArcFace分类器五部分构成。U1为经典的U-Net,用于得到输入图像的语义分割图;VGG2和VGG3为VGG16Net的前13层卷积层,分别用于提取语义分割图的位置特征及RGB图像的位置特征;VGG4为全连接层,用于对各位置特征分配权重参数;最后,采用ArcFace分类器得到输入图像对应的位置。
U1为完整的U-Net网络,卷积神经网络常用于基于图像的分类任务,即找出待分类图像的所属类别。但在很多基于图像的分类任务中,需要对图像中的每个像素点进行分类,U-Net正是用于对图像中的每个像素点进行分类的常用方法之一。具体地,本实施例中采用U-Net提取出图像中的路径区域。U-Net的组成如图3所示,该网络由23层卷积层组成,图中的左侧共12层,由经典卷积层叠加而成,包括3*3的卷积核、批归一化处理及ReLU函数;采用步长为1的2*2最大池化窗口进行降采样。经典卷积层反复叠加使得U-Net能提取出隐藏在图像中的浅层、中层及深层图像特征。通过U-Net的第13层(即中间层)后,特征图像被传输至图中右侧由U-Net后11层组成的升采样区,进而对每层卷积层输出的特征图像进行升采样,此时,与特征相关的信息将被保留及放大,而与特征无关的信息将被抛弃。所有降采样层被升采样后融合在一起,从而组合成最终的输出,此时,图像中的每个像素点将按需求被标定。
VGG16Net为一典型的基于图像的分类器,该网络的前13层为卷积层,用于特征提取;而其后三层为全连接层,用于融合特征及生成分类信息。本实施例的VGG2由VGG16Net的前13层构成,被用于提取RGB图像的位置特征,其结构如图4所示。前4层中,每两层卷积后接批归一化处理,以调整激活函数分布范围,再接ReLU激活函数及池化,卷积核的大小为5*5*64,步长为1,池化为在2*2范围内取最大值,步长为1;后9层中,每三层卷积后接批归一化处理,再接ReLU激活函数及池化,卷积核的大小为3*3*64,步长为1,池化为在2*2范围内取最大值,步长为1。本实施例的VGG3采用的是与VGG2相同的结构,如图5所示,区别仅在于VGG3的输入为语义分割图像,用于提取基于路径区域的位置特征。
VGG4为VGG16Net的后三层,由三层全连接层构成,其结构如图6所示。前两层全连接层后接批归一化处理,再接ReLU激活函数及随机失活函数,全连接层由4096个节点组成,采用正则化方法进行随机失活。最后一层全连接层后接ArcFace分类器进行特征分类及输出分类结果。
本实施例改进的卷积神经网络由五部分联合构成,由于网络结构过于庞大,组成该网络结构的参数太多,而用于训练网络的训练样本又相对较少,直接训练将产生过拟合。针对该问题,本实施例提出基于多层迁移学习的神经网络模型训练方法,包括从局部到整体的模型训练步骤及先使用通用数据库进行预训练,再使用专用数据库进行迁移学习的模型处理方法。具体步骤如下:
1)利用ImageNet数据库预训练U1、VGG2及VGG3,使其能够提取图像浅层及中层特征。
2)利用标注了像素点分类信息的图像对U1进行迁移学习,使其能够提取输入RGB图像的语义分割图像。
3)利用标注了位置类别的语义分割图像对VGG2进行迁移学习,使其能够提取语义分割图像的位置特征。
4)利用标注了位置类别的RGB图像对VGG3进行迁移学习,使其能够提取RGB图像的位置特征。
5)将U1、VGG2、VGG3、VGG4及ArcFace分类器结合为一个整体,利用标注了位置类别的RGB图像对整个网络进行二次迁移学习,此时,U1的权重参数保持不变,而VGG2及VGG3的权重参数将会进行微调,VGG4的权重参数在二次迁移学习中被确定。
训练U-Net:应用随机梯度下降法,采用标注了每个像素点类别信息的输入图像训练该模型,采用块处理的方法,其中,最小的块尺寸为64,初始化动量值为0.99,权值惩罚项为0.001。采用均值为0及方差为0.01的高斯分布初始化权值,初始化学习率为0.02,当准确率停止提升时,学习率将减小至初始化的一半,减小三次后训练结束。
训练VGG2:在预训练阶段,块尺寸被设为128,动量值为0.95,惩罚权重项为0.001。学习率被设置为0.01,当准确率提升速度缓慢时,将以5的倍数变小,直到最后变成5*10-3。在迁移学习阶段,块尺寸被设为100,动量值为0.98,惩罚权重项为0.002,学习率被设置为0.02,当准确率提升速度缓慢时,将以5的倍数变小,直到最后变成5*10-3。
训练VGG3:在预训练阶段,块尺寸被设为256,动量值为0.95,惩罚权重项为0.0015。学习率被设置为0.005,当准确率提升速度缓慢时,将以5的倍数变小,直到最后变成2*10-3。在迁移学习阶段,块尺寸被设为100,动量值为0.95,惩罚权重项为0.002,学习率被设置为0.02,当准确率提升速度缓慢时,将以5的倍数变小,直到最后变成1*10-3。
训练VGG4:VGG4用于融合RGB图像及语义分割图像的位置特征,训练VGG4前,U1、VGG2、VGG3均已进行了预训练及第一次迁移学习。训练VGG4时,U1、VGG2、VGG3均需参与其中,且进行第二次迁移学习,此时,U1的权值参数将不会发生变化,而VGG2及VGG3的权值参数将会被微调。随机梯度下降法将被应用于训练该网络模型,块尺寸被设为128,动量值为0.9,惩罚权重项为0.002。学习率被设置为0.01,当准确率提升速度缓慢时,将以5的倍数变小,直到最后变成2*10-3。
本实施例中使用的数据库:ImageNet数据库被用于U1、VGG2及VGG3的预训练,工厂环境中拍摄的自建图像数据库被用于进行一次迁移学习及二次迁移学习。自建数据库中,整个工厂被划分为18个区域,每个区域拍摄200幅图像,并为每幅图像标注位置编号,同时每幅图像都手动分割了路径区域。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。
Claims (10)
1.一种基于改进卷积神经网络结构的机器视觉室内定位方法,其特征在于:该方法主要是提出了一种改进的卷积神经网络结构及针对该结构的神经网络模型训练方法,最终通过训练后的卷积神经网络对输入的视频图像进行分类,得到装备RGB摄像头的移动机器人室内位置,其中,卷积神经网络功能包括:提取语义分割图像的位置特征及RGB图像的位置特征,利用这两类位置特征来确定移动机器人的实时室内位置;该改进的卷积神经网络结构是U-Net、两个VGG16Net的前13层及一个VGG16Net的后3层相结合的产物,其卷积神经网络由U1、VGG2、VGG3、VGG4及ArcFace分类器五部分构成;U1为U-Net,用于得到输入图像的语义分割图;VGG2和VGG3为VGG16Net的前13层卷积层,分别用于提取语义分割图的位置特征及原图像的位置特征;VGG4为全连接层,用于对各位置特征分配权重参数;最后,采用ArcFace分类器得到输入图像对应的位置。
2.根据权利要求1所述的一种基于改进卷积神经网络结构的机器视觉室内定位方法,其特征在于:U1为U-Net网络,采用U-Net提取出图像中的路径区域,该U-Net网络由23层组成,前11层为卷积层,包括3*3的卷积核、批归一化处理及ReLU函数,采用步长为1的2*2最大池化窗口进行降采样;卷积层反复叠加使得U-Net能够提取出隐藏在图像中的浅层、中层及深层图像特征,通过U-Net的第13层后,特征图像被传输至图中右侧由U-Net后11层组成的升采样区,进而对每层卷积层输出的特征图像进行升采样,此时,与特征相关的信息将被保留及放大,而与特征无关的信息将被抛弃;所有降采样层被升采样后融合在一起,从而组合成最终的输出,此时,图像中的每个像素点将按需求被标定。
3.根据权利要求1所述的一种基于改进卷积神经网络结构的机器视觉室内定位方法,其特征在于:VGG16Net为基于图像的分类器,其前13层为卷积层,用于特征提取;而其后3层为全连接层,用于融合特征及生成分类信息;VGG2由VGG16Net的前13层构成,被用于提取RGB图像的位置特征;前4层中,每两层卷积后接批归一化处理,以调整激活函数分布范围,再接ReLU激活函数及池化,卷积核的大小为5*5*64,步长为1,池化为在2*2范围内取最大值,步长为1;后9层中,每三层卷积后接批归一化处理,再接ReLU激活函数及池化,卷积核的大小为3*3*64,步长为1,池化为在2*2范围内取最大值,步长为1;VGG3采用的是与VGG2相同的结构,区别仅在于VGG3的输入为语义分割图像,用于提取基于路径区域的位置特征。
4.根据权利要求1所述的一种基于改进卷积神经网络结构的机器视觉室内定位方法,其特征在于:VGG4为VGG16Net的后3层,由三层全连接层构成,前两层全连接层后接批归一化处理,再接ReLU激活函数及随机失活函数,全连接层由4096个节点组成,采用正则化方法进行随机失活;最后一层全连接层后接ArcFace分类器进行特征分类及输出分类结果。
5.根据权利要求1所述的一种基于改进卷积神经网络结构的机器视觉室内定位方法,其特征在于:针对改进卷积神经网络结构的神经网络模型训练方法,基于多层迁移学习,包括从局部到整体的模型训练步骤及先使用通用数据库进行预训练,再使用专用数据库进行迁移学习的模型处理方法,具体步骤如下:
1)利用ImageNet数据库预训练U1、VGG2及VGG3,使其能够提取图像浅层及中层特征;
2)利用标注了像素点分类信息的图像对U1进行迁移学习,使其能够提取输入RGB图像的语义分割图像;
3)利用标注了位置类别的语义分割图像对VGG2进行迁移学习,使其能够提取语义分割图像的位置特征;
4)利用标注了位置类别的RGB图像对VGG3进行迁移学习,使其能够提取RGB图像的位置特征;
5)将U1、VGG2、VGG3、VGG4及ArcFace分类器结合为一个整体,利用标注了位置类别的RGB图像对整个网络进行二次迁移学习,此时,U1的权重参数保持不变,而VGG2及VGG3的权重参数将会进行微调,VGG4的权重参数在二次迁移学习中被确定。
6.根据权利要求5所述的一种基于改进卷积神经网络结构的机器视觉室内定位方法,其特征在于:对于U1,训练时应用随机梯度下降法,采用标注了每个像素点类别信息的输入图像训练模型,并采用块处理的方法,其中,最小的块尺寸为64,初始化动量值为0.99,权值惩罚项为0.001,采用均值为0及方差为0.01的高斯分布初始化权值,初始化学习率为0.02,当准确率停止提升时,学习率将减小至初始化的一半,减小三次后训练结束。
7.根据权利要求5所述的一种基于改进卷积神经网络结构的机器视觉室内定位方法,其特征在于:对于VGG2,在预训练阶段,块尺寸被设为128,动量值为0.95,惩罚权重项为0.001,学习率被设置为0.01,当准确率提升速度缓慢时,将以5的倍数变小,直到最后变成5*10-3;在迁移学习阶段,块尺寸被设为100,动量值为0.98,惩罚权重项为0.002,学习率被设置为0.02,当准确率提升速度缓慢时,将以5的倍数变小,直到最后变成5*10-3。
8.根据权利要求5所述的一种基于改进卷积神经网络结构的机器视觉室内定位方法,其特征在于:对于VGG3,在预训练阶段,块尺寸被设为256,动量值为0.95,惩罚权重项为0.0015,学习率被设置为0.005,当准确率提升速度缓慢时,将以5的倍数变小,直到最后变成2*10-3;在迁移学习阶段,块尺寸被设为100,动量值为0.95,惩罚权重项为0.002,学习率被设置为0.02,当准确率提升速度缓慢时,将以5的倍数变小,直到最后变成1*10-3。
9.根据权利要求5所述的一种基于改进卷积神经网络结构的机器视觉室内定位方法,其特征在于:VGG4用于融合RGB图像及语义分割图像的位置特征,训练VGG4前,U1、VGG2、VGG3均已进行了预训练及第一次迁移学习;训练VGG4时,U1、VGG2、VGG3均需参与其中,且进行第二次迁移学习,此时,U1的权值参数将不会发生变化,而VGG2及VGG3的权值参数将会被微调;随机梯度下降法将被应用于训练VGG4,块尺寸被设为128,动量值为0.9,惩罚权重项为0.002,学习率被设置为0.01,当准确率提升速度缓慢时,将以5的倍数变小,直到最后变成2*10-3。
10.根据权利要求5所述的一种基于改进卷积神经网络结构的机器视觉室内定位方法,其特征在于:ImageNet数据库被用于U1、VGG2及VGG3的预训练,工厂环境中拍摄的自建图像数据库被用于进行一次迁移学习及二次迁移学习,自建图像数据库中,整个工厂被划分为18个区域,每个区域拍摄200幅图像,并为每幅图像标注位置编号,同时每幅图像都手动分割了路径区域。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911015806.7A CN110751220B (zh) | 2019-10-24 | 2019-10-24 | 一种基于改进卷积神经网络结构的机器视觉室内定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911015806.7A CN110751220B (zh) | 2019-10-24 | 2019-10-24 | 一种基于改进卷积神经网络结构的机器视觉室内定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110751220A CN110751220A (zh) | 2020-02-04 |
CN110751220B true CN110751220B (zh) | 2022-02-11 |
Family
ID=69279660
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911015806.7A Active CN110751220B (zh) | 2019-10-24 | 2019-10-24 | 一种基于改进卷积神经网络结构的机器视觉室内定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110751220B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111340938B (zh) * | 2020-02-21 | 2020-12-11 | 贝壳找房(北京)科技有限公司 | 用于获得房屋布局信息的方法、网络模型训练方法及装置 |
CN111578940B (zh) * | 2020-04-24 | 2021-05-11 | 哈尔滨工业大学 | 一种基于跨传感器迁移学习的室内单目导航方法及系统 |
CN111783475B (zh) * | 2020-07-28 | 2021-05-11 | 北京深睿博联科技有限责任公司 | 一种基于短语关系传播的语义视觉定位方法及装置 |
CN113343019B (zh) * | 2021-06-29 | 2022-11-18 | 华南理工大学 | 一种结合浅层与深层特征的小样本丝织品图像检索方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9565521B1 (en) * | 2015-08-14 | 2017-02-07 | Samsung Electronics Co., Ltd. | Automatic semantic labeling based on activity recognition |
CN109506658A (zh) * | 2018-12-26 | 2019-03-22 | 广州市申迪计算机系统有限公司 | 机器人自主定位方法和系统 |
CN109977981A (zh) * | 2017-12-27 | 2019-07-05 | 深圳市优必选科技有限公司 | 基于双目视觉的场景解析方法、机器人及存储装置 |
CN110097553A (zh) * | 2019-04-10 | 2019-08-06 | 东南大学 | 基于即时定位建图与三维语义分割的语义建图系统 |
CN110243370A (zh) * | 2019-05-16 | 2019-09-17 | 西安理工大学 | 一种基于深度学习的室内环境三维语义地图构建方法 |
-
2019
- 2019-10-24 CN CN201911015806.7A patent/CN110751220B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9565521B1 (en) * | 2015-08-14 | 2017-02-07 | Samsung Electronics Co., Ltd. | Automatic semantic labeling based on activity recognition |
CN109977981A (zh) * | 2017-12-27 | 2019-07-05 | 深圳市优必选科技有限公司 | 基于双目视觉的场景解析方法、机器人及存储装置 |
CN109506658A (zh) * | 2018-12-26 | 2019-03-22 | 广州市申迪计算机系统有限公司 | 机器人自主定位方法和系统 |
CN110097553A (zh) * | 2019-04-10 | 2019-08-06 | 东南大学 | 基于即时定位建图与三维语义分割的语义建图系统 |
CN110243370A (zh) * | 2019-05-16 | 2019-09-17 | 西安理工大学 | 一种基于深度学习的室内环境三维语义地图构建方法 |
Non-Patent Citations (1)
Title |
---|
Improving indoor localization using convolutional neural networks on computationally restricted devices;BREGAR K. et al.;《IEEE Access》;20181231;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110751220A (zh) | 2020-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110751220B (zh) | 一种基于改进卷积神经网络结构的机器视觉室内定位方法 | |
CN110163187B (zh) | 基于f-rcnn的远距离交通标志检测识别方法 | |
CN109344701B (zh) | 一种基于Kinect的动态手势识别方法 | |
US20200285896A1 (en) | Method for person re-identification based on deep model with multi-loss fusion training strategy | |
CN107679491B (zh) | 一种融合多模态数据的3d卷积神经网络手语识别方法 | |
Yang et al. | Deep detection network for real-life traffic sign in vehicular networks | |
Jung et al. | ResNet-based vehicle classification and localization in traffic surveillance systems | |
CN104463191A (zh) | 一种基于注意机制的机器人视觉处理方法 | |
CN108647700B (zh) | 基于深度学习的多任务车辆部件识别模型、方法和系统 | |
CN111680655A (zh) | 一种面向无人机航拍影像的视频目标检测方法 | |
CN108960404B (zh) | 一种基于图像的人群计数方法及设备 | |
CN107844795A (zh) | 基于主成分分析的卷积神经网络特征提取方法 | |
CN111274921A (zh) | 一种利用姿态掩模进行人体行为识别的方法 | |
CN111126127B (zh) | 一种多级空间上下文特征指导的高分辨率遥感影像分类方法 | |
CN106023257A (zh) | 一种基于旋翼无人机平台的目标跟踪方法 | |
CN107977660A (zh) | 基于背景先验和前景节点的感兴趣区域检测方法 | |
CN108921850B (zh) | 一种基于图像分割技术的图像局部特征的提取方法 | |
CN106934355A (zh) | 基于深度卷积神经网络的车内手检测方法 | |
Lu et al. | A CNN-transformer hybrid model based on CSWin transformer for UAV image object detection | |
WO2021169049A1 (zh) | 一种真实场景下玻璃检测的方法 | |
CN112487981A (zh) | 基于双路分割的ma-yolo动态手势快速识别方法 | |
CN106327528A (zh) | 无人机运动目标跟踪方法及无人机的工作方法 | |
Zhu et al. | Multi-level prediction Siamese network for real-time UAV visual tracking | |
CN108537109A (zh) | 基于OpenPose的单目相机手语识别方法 | |
CN113808166B (zh) | 基于聚类差分和深度孪生卷积神经网络的单目标跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |