CN110443849B - 一种基于深度图像的双流卷积神经网络回归学习的目标定位方法 - Google Patents

一种基于深度图像的双流卷积神经网络回归学习的目标定位方法 Download PDF

Info

Publication number
CN110443849B
CN110443849B CN201910624713.8A CN201910624713A CN110443849B CN 110443849 B CN110443849 B CN 110443849B CN 201910624713 A CN201910624713 A CN 201910624713A CN 110443849 B CN110443849 B CN 110443849B
Authority
CN
China
Prior art keywords
image
depth image
convolution
gray
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910624713.8A
Other languages
English (en)
Other versions
CN110443849A (zh
Inventor
颜俊
张艺梅
康彬
杨孟渭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201910624713.8A priority Critical patent/CN110443849B/zh
Publication of CN110443849A publication Critical patent/CN110443849A/zh
Application granted granted Critical
Publication of CN110443849B publication Critical patent/CN110443849B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
    • G06T5/92
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models

Abstract

本发明公开了一种基于深度图像的双流卷积神经网络回归学习的目标定位方法。离线阶段,在每个参考位置处,灰度图像及其对应的深度图像由双目相机收集。使用图像预处理技术,灰度图像和深度图像被转换为三通道图像。然后,具有共享权重系数的双流CNN用于离线回归学习。最后,得到了基于距离的回归模型。在线阶段,将得到的灰度图像和深度图像的预处理之后,通过基于距离的回归模型来估计最终距离。

Description

一种基于深度图像的双流卷积神经网络回归学习的目标定位 方法
技术领域
本发明涉及一种目标定位方法,具体来讲是一种利用双目摄像头拍摄的图片,通过双流卷积神经网络学习的方法,进行目标定位,属于定位导航技术领域。
背景技术
基于图像的定位算法作为一门融合计算机视觉、机器学习、多视图几何、图像检索等众多科研领域的交叉性学科技术,在室内定位、机器人导航定位、现实增强、三维重建、地标识别等领域有着关阔的应用前景和巨大的研究价值。但是传统的图像定位算法用图像检索的方式处理定位问题,无法满足一些典型 应用对定位精度的要求。
现有技术包括:一种基于图像识别的室内定位系统(专利申请号:CN201710157566.9,专利公开号:CN108629384A),与CN201710157566.9相比较,本发明不需要应用调制模块对光源发出的光进行幅度调制。
现有技术包括:一种基于图像识别的室内定位系统(专利申请号:CN201710157566.9,专利公开号:CN108629384A),该方法包括光源层、应用层和服务层,所述应用层与所述光源层相互通信,对光源层发出的光线进行采集后的处理,将处理后的图像发送给所述服务层,服务层对图像进行解码后位置分析,根据对应的地图进行定位及导航,并将结果发回应用层。本发明只需将预处理后的图像集输入搭建好的卷积神经网络中训练就可得到基于图像的定位回归模型。
目前,深度学习在机器学习问题上取得了令人瞩目的成果,掀起了机器学习理论、方法和应用研究的一个新高潮。卷积神经网络已经广泛应用于图像处理、计算机视觉领域。此外深度图像的每个像素点的灰度值可用于表征场景中某一点距离摄像机的距离。因此,深度图像可以用深度学习的方法,实现目标定位。
公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。
发明内容
本发明目的在于针对传统的基于图像定位精度低的问题,提出一种基于深度图像的目标定位方法。该方法能够利用图像的深度信息,有效的提高定位精度、定位时间短、算法复杂度低、实现成本低。
本发明解决技术问题采取的技术方案是:一种基于深度图像回归学习的目标定位算法,该方法包括如下步骤:
S1,在每个参考位置处,双目相机收集灰度图像及其对应的深度图像;S2使用图像预处理技术,灰度图像和深度图像被转换为三通道图像;S3具有共享权重系数的双流CNN用于离线回归学习得到了基于距离的回归模型;S4在灰度图像和深度图像的预处理之后,可以通过基于距离的回归模型来估计最终距离。
本发明进一步限定的技术方案为:
进一步的,S2中,图像预处理技术具体为:将两个不同模态的三通道图像分别输入两个单流卷积神经网络中,两个卷积神经网络间权值共享,经过数次卷积和池化得到各自特征后,对两个卷积网络最后一层的神经元使用相同的卷积核进行卷积,对卷积结果进行融合,然后继续使用卷积核提取融合后的特征,最后通过数层全连接层得到输出。
进一步的,步骤S3中基于距离的回归模型的建设过程具体为:
S3.1:把定位区域划分成若干区参考点,把目标位于每个参考点上,双目相机采集不同参考点上目标的灰度图像信息和深度图像信息;
S3.2:灰度图像预处理,将图像的数据类型转换为uint8,将单通道的灰度信息复制到三个通道,并将图像裁剪为指定大小;
S3.3:深度图像预处理,将图像的数据类型转换为unit8,再利用渲染工具将深度图像渲染为彩色图像,并将图像裁剪为指定大小;
S3.4:搭建卷积层融合的双流卷积神经网络;
S3.5:目标的位置回归学习,利用基于卷积层融合的双流卷积神经网络对数据库进行基于位置标签的回归学习,得到基于位置的回归模型。
进一步的,数据库包括:位置信息,三通道灰度图像,渲染图像。
进一步的,步骤S4具体为,S4.1:双目相机采集目标的普通灰度和深度图像;
S4.2:灰度图像预处理,将图像的数据类型转换为uint8,将单通道的灰度信息复制到三个通道,并将图像裁剪为指定大小,得到三通道灰度图像;
S4.3:深度图像预处理,将图像的数据类型转换为unit8,再利用渲染工具将深度图像渲染为彩色图像,并将图像裁剪为指定大小,得到渲染图像;
S4.4:目标位置估计,将三通道灰度图像和渲染后的深度图像送入步骤S3得到的基于位置的回归模型,进而得到目标位置。
进一步的,将深度图像信息渲染为彩色图像,构建数据集。
有益效果:
1.本发明利用的深度图像信息可以直接通过双目相机采集,无需由灰度图像计算得到深度图像信息,降低了应用深度图像的复杂度。
2.本发明将深度图像渲染为彩色图像,使图片更清晰,比深度图像的定位回归结果更稳定,更精确。
3.本发明利用了双流卷积神经网络将两种模态的图像信息融合在一起,提高了图像的目标定位精度。
附图说明
图1为本发明的实验场景图;
图2、图3、图4为一组灰度图像、深度图像和渲染图像;
图5为本发明的基于卷积层融合的双流卷积神经网络结构图;
图6为本发明的算法流程图;
图7为本发明的累积误差分析图。
具体实施方式
下面对本发明的具体实施方式进行详细描述,但应当理解本发明的保护范围并不受具体实施方式的限制。
除非另有其它明确表示,否则在整个说明书和权利要求书中,术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或 组成部分,而并未排除其它元件或其它组成部分。
一种基于深度图像回归学习的目标定位算法,该方法包括如下步骤:
S1,在每个参考位置处,双目相机收集灰度图像及其对应的深度图像;
S2使用图像预处理技术,灰度图像和深度图像被转换为三通道图像;S2中,图像预处理技术具体为:将两个不同模态的三通道图像分别输入两个单流卷积神经网络中,两个卷积神经网络间权值共享,经过数次卷积和池化得到各自特征后,对两个卷积网络最后一层的神经元使用相同的卷积核进行卷积,对卷积结果进行融合,然后继续使用卷积核提取融合后的特征,最后通过数层全连接层得到输出。
S3具有共享权重系数的双流CNN用于离线回归学习得到了基于距离的回归模型;步骤S3中基于距离的回归模型的建设过程具体为:
S3.1:把定位区域划分成若干区参考点,把目标位于每个参考点上,双目相机采集不同参考点上目标的灰度图像信息和深度图像信息;
S3.2:灰度图像预处理,将图像的数据类型转换为uint8,将单通道的灰度信息复制到三个通道,并将图像裁剪为指定大小;
S3.3:深度图像预处理,将图像的数据类型转换为unit8,再利用渲染工具将深度图像渲染为彩色图像,并将图像裁剪为指定大小;
S3.4:搭建卷积层融合的双流卷积神经网络;
S3.5:目标的位置回归学习,利用基于卷积层融合的双流卷积神经网络对数据库进行基于位置标签的回归学习,得到基于位置的回归模型。数据库包括:位置信息,三通道灰度图像,渲染图像。
S4在灰度图像和深度图像的预处理之后,可以通过基于距离的回归模型来估计最终距离。步骤S4具体为,S4.1:双目相机采集目标的普通灰度和深度图像;
S4.2:灰度图像预处理,将图像的数据类型转换为uint8,将单通道的灰度信息复制到三个通道,并将图像裁剪为指定大小,得到三通道灰度图像;
S4.3:深度图像预处理,将图像的数据类型转换为unit8,再利用渲染工具将深度图像渲染为彩色图像,并将图像裁剪为指定大小,得到渲染图像;
S4.4:目标位置估计,将三通道灰度图像和渲染后的深度图像送入步骤S3得到的基于位置的回归模型,进而得到目标位置。
如图1所示,为本发明的实验场景图。本发明定位区域距离相机的位置为1.2米-2.4米,按自己的需求分为多个参考点。
如图2、3、4所示,为本发明距离相机位置为1.2米的一组图像,分别灰度图像、深度图像和渲染图像。
如图5所示,为发明的基于卷积层融合双流卷积神经网络结构图(C是卷积层,P是池化层,FC为全连接层,OUTPUT为输出层),将两个不同模态的三通道图像分别输入两个单流卷积神经网络中,两个卷积神经网络间权值共享,经过数次卷积和池化得到各自特征后,对两个卷积网络最后一层的神经元使用相同的卷积核进行卷积,对卷积结果进行融合,然后继续使用卷积核提取融合后的特征,最后通过数层全连接层得到输出。
如图6所示,为本发明算法流程图,离线阶段,在每个参考位置处,灰度图像及其对应的深度图像由双目相机收集。使用图像预处理技术,灰度图像和深度图像被转换为三通道图像。然后,具有共享权重系数的双流CNN用于离线回归学习。最后,得到了基于距离的回归模型。在线阶段,在灰度图像和深度图像的预处理之后,可以通过基于距离的回归模型来估计最终距离。
如图7所示,为本发明的累积误差分析图,当比较三通道的灰度图像,三通道的深度图像和渲染图像用于算法时不同算法的累积分布函数(CDF)。可以看出本发明所提出的位置估计具有最佳的估计结果。而基于三通道深度图像的方法具有最差的估计性能。原因可归因于不清晰的深度图像。
前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在 于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实 现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims (4)

1.一种基于深度图像的双流卷积神经网络回归学习的目标定位方法,其特征在于,S1,在每个参考位置处,双目相机收集灰度图像及其对应的深度图像;S2使用图像预处理技术,灰度图像和深度图像被转换为三通道图像;S3具有共享权重系数的双流CNN用于离线回归学习得到了基于距离的回归模型;S4在灰度图像和深度图像的预处理之后,通过基于距离的回归模型来估计最终距离;
步骤S3中基于距离的回归模型的建设过程具体为:
S3.1:把定位区域划分成若干区参考点,把目标位于每个参考点上,双目相机采集不同参考点上目标的灰度图像信息和深度图像信息;
S3.2:灰度图像预处理,将图像的数据类型转换为uint8,将单通道的灰度信息复制到三个通道,并将图像裁剪为指定大小;
S3.3:深度图像预处理,将图像的数据类型转换为unit8,再利用渲染工具将深度图像渲染为彩色图像,并将图像裁剪为指定大小;
S3.4:搭建卷积层融合的双流卷积神经网络;
S3.5:目标的位置回归学习,利用基于卷积层融合的双流卷积神经网络对数据库进行基于位置标签的回归学习,得到基于位置的回归模型;
步骤S4具体为,S4.1:双目相机采集目标的普通灰度和深度图像;
S4.2:灰度图像预处理,将图像的数据类型转换为uint8,将单通道的灰度信息复制到三个通道,并将图像裁剪为指定大小,得到三通道灰度图像;
S4.3:深度图像预处理,将图像的数据类型转换为unit8,再利用渲染工具将深度图像渲染为彩色图像,并将图像裁剪为指定大小,得到渲染图像;
S4.4:目标位置估计,将三通道灰度图像和渲染后的深度图像送入步骤S3得到的基于位置的回归模型,进而得到目标位置。
2.根据权利要求1所述的基于深度图像的双流卷积神经网络回归学习的目标定位方法,其特征在于:S2中,图像预处理技术具体为:将两个不同模态的三通道图像分别输入两个单流卷积神经网络中,两个卷积神经网络间权值共享,经过数次卷积和池化得到各自特征后,对两个卷积网络最后一层的神经元使用相同的卷积核进行卷积,对卷积结果进行融合,然后继续使用卷积核提取融合后的特征,最后通过数层全连接层得到输出。
3.根据权利要求1所述的基于深度图像的双流卷积神经网络回归学习的目标定位方法,其特征在于,数据库包括:位置信息,三通道灰度图像,渲染图像。
4.根据权利要求1所述的一种基于深度图像的双流卷积神经网络回归学习的目标定位方法,其特征在于,将深度图像信息渲染为彩色图像,构建数据集。
CN201910624713.8A 2019-07-11 2019-07-11 一种基于深度图像的双流卷积神经网络回归学习的目标定位方法 Active CN110443849B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910624713.8A CN110443849B (zh) 2019-07-11 2019-07-11 一种基于深度图像的双流卷积神经网络回归学习的目标定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910624713.8A CN110443849B (zh) 2019-07-11 2019-07-11 一种基于深度图像的双流卷积神经网络回归学习的目标定位方法

Publications (2)

Publication Number Publication Date
CN110443849A CN110443849A (zh) 2019-11-12
CN110443849B true CN110443849B (zh) 2022-10-14

Family

ID=68430188

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910624713.8A Active CN110443849B (zh) 2019-07-11 2019-07-11 一种基于深度图像的双流卷积神经网络回归学习的目标定位方法

Country Status (1)

Country Link
CN (1) CN110443849B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112164111B (zh) * 2020-09-10 2022-09-06 南京邮电大学 一种基于图像相似度和bpnn回归学习的室内定位方法
CN112135344B (zh) * 2020-09-11 2022-04-08 南京邮电大学 一种基于csi和dcnn的无设备目标定位方法
CN112150525B (zh) * 2020-09-14 2022-10-14 南京邮电大学 一种基于双目摄像头的目标定位方法
CN113808028B (zh) * 2020-09-14 2023-08-08 北京航空航天大学 基于归因算法的对抗样本的检测方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107767413A (zh) * 2017-09-20 2018-03-06 华南理工大学 一种基于卷积神经网络的图像深度估计方法
CN108288035A (zh) * 2018-01-11 2018-07-17 华南理工大学 基于深度学习的多通道图像特征融合的人体动作识别方法
US20180218203A1 (en) * 2017-02-01 2018-08-02 The Government Of The United States Of America, As Represented By The Secretary Of The Navy Recognition Actions on Event Based Cameras with Motion Event Features

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180218203A1 (en) * 2017-02-01 2018-08-02 The Government Of The United States Of America, As Represented By The Secretary Of The Navy Recognition Actions on Event Based Cameras with Motion Event Features
CN107767413A (zh) * 2017-09-20 2018-03-06 华南理工大学 一种基于卷积神经网络的图像深度估计方法
CN108288035A (zh) * 2018-01-11 2018-07-17 华南理工大学 基于深度学习的多通道图像特征融合的人体动作识别方法

Also Published As

Publication number Publication date
CN110443849A (zh) 2019-11-12

Similar Documents

Publication Publication Date Title
CN110443849B (zh) 一种基于深度图像的双流卷积神经网络回归学习的目标定位方法
CN110533712B (zh) 一种基于卷积神经网络的双目立体匹配方法
CN111862126B (zh) 深度学习与几何算法结合的非合作目标相对位姿估计方法
CN110009674B (zh) 基于无监督深度学习的单目图像景深实时计算方法
CN111179314A (zh) 一种基于残差密集孪生网络的目标跟踪方法
CN106780631B (zh) 一种基于深度学习的机器人闭环检测方法
CN110458025B (zh) 一种基于双目摄像头的目标识别与定位方法
Wang et al. A unified framework for mutual improvement of SLAM and semantic segmentation
CN108171249B (zh) 一种基于rgbd数据的局部描述子学习方法
CN113822284B (zh) 一种基于边界注意力的rgbd图像语义分割方法
CN111127401B (zh) 一种基于深度学习的机器人立体视觉机械零件检测方法
CN113538218B (zh) 基于位姿自监督对抗生成网络的弱配对图像风格迁移方法
CN116222577B (zh) 闭环检测方法、训练方法、系统、电子设备及存储介质
CN114494276A (zh) 一种两阶段多模态三维实例分割方法
CN112907573A (zh) 一种基于3d卷积的深度补全方法
CN113838135B (zh) 基于lstm双流卷积神经网络的位姿估计方法、系统及介质
CN113592015B (zh) 定位以及训练特征匹配网络的方法和装置
Xie et al. Feature-guided spatial attention upsampling for real-time stereo matching network
CN108399630B (zh) 一种复杂场景下感兴趣区域内目标快速测距方法
CN115908992B (zh) 双目立体匹配的方法、装置、设备以及存储介质
CN112561947A (zh) 一种图像自适应运动估计方法及应用
Kawanishi et al. Parallel line-based structure from motion by using omnidirectional camera in textureless scene
CN109816710B (zh) 一种双目视觉系统高精度且无拖影的视差计算方法
Shubodh et al. Lip-loc: Lidar image pretraining for cross-modal localization
CN108534797A (zh) 一种实时高精度视觉里程计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant