CN110827415B - 一种全天候未知环境无人自主工作平台 - Google Patents

一种全天候未知环境无人自主工作平台 Download PDF

Info

Publication number
CN110827415B
CN110827415B CN201911092699.8A CN201911092699A CN110827415B CN 110827415 B CN110827415 B CN 110827415B CN 201911092699 A CN201911092699 A CN 201911092699A CN 110827415 B CN110827415 B CN 110827415B
Authority
CN
China
Prior art keywords
image
map
module
neural network
lens
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911092699.8A
Other languages
English (en)
Other versions
CN110827415A (zh
Inventor
张旺
黄康
齐昊罡
蔡炜烔
赵风尚
夏希林
郭相坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN201911092699.8A priority Critical patent/CN110827415B/zh
Publication of CN110827415A publication Critical patent/CN110827415A/zh
Application granted granted Critical
Publication of CN110827415B publication Critical patent/CN110827415B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/003Navigation within 3D models or images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于全天候未知环境无人自主工作平台,属于人工智能和视觉导航领域;包括立体视觉定位、红外可见光融合、图像识别、地图构建和回环与返程检测五个模块,视觉定位与图像识别模块共用图卷积神经网络框架,视觉定位选取关键帧进行特征匹配与视觉定位,图像识别针对点云局部地图进行语义分类,地图构建模块进行点云拼接形成全局深度稠密语义地图。本发明引入深度神经网络提高特征提取效果节省提取时间;采用单目视觉测距,节省多目视差配准时间;进行多光谱融合关键帧图像,实现全天候高效工作,提高被遮目标检出率。

Description

一种全天候未知环境无人自主工作平台
技术领域
本发明涉及人工智能和视觉导航技术领域,特别涉及一种基于V-SLAM(立体视觉实时定位与建图)与多光谱图像融合技术的全天候未知环境无人自主工作平台。
背景技术
针对震后灾区、火灾现场等地理环境短时间内发生极大变化的复杂未知环境,目前并没有高效的搜救和地图构建设备。
针对上述情形,当前地图构建工作主要采用直升机和卫星定位系统协调进行。其中,直升机方案机动性较差、搜索成本高,并且需要地面基站实时规划路径;而卫星建图方式数据量庞大,计算成本高,更适合灾后重建工作。因此,地图未完善前往往需要人力操控无人机进行地形测绘,而人力操控方式受限于于自主性水平和反应速度,只能低空飞行;另外人工操控需要投入大量人力资源,难以满足应急需求。
除建图问题外,受灾群众及重要物资搜救工作也很难有效开展。直升机受外形限制和未知环境复杂度影响,很难在震区及火灾现场发挥有效的搜救作用;而卫星地图有效分辨距离在5米左右,无法定位较小目标。现有无人机设备很难实现有效避障和实时路径规划,只能在中低空巡航测绘,难以实现搜救功能。
为应对上述情况,国内无人机公司研制了多种半自主甚至全自主式无人机;按传感器类型在市场上主要分为两类:
一类是纯立体视觉方案,前端用视觉传感器结合IMU惯性导航单元进行位置和姿态推算,后端利用“加强卡尔曼滤波器”等非线性优化公式或G2O等图优化方式进行位姿推算结果优化。视觉方案依据图像传感器数目又可分为单目立体视觉、双目立体视觉和多目立体视觉方案;
另一类是通过立体视觉获取纹理、轮廓图像和深度估计,激光传感器获得图像更精确深度信息,将两者结合得到深度视觉图像,建立3D环境模型实现路径规划与地图构建。
上述两种方案均利用视觉传感器进行信息位置与姿态(以下称“位姿”)计算,后端进行位姿信息的非线性优化或图优化;方案优点在于用简单的结构达到较好功能值得肯定,缺点在于:纯视觉方案中单目视觉往往丢失深度信息,双目及多目视觉方案花费过多时间和计算成本在镜头配准;而激光方案成本过高,很难实现设备小型化;同时现存方案在夜间及大雾、烟幕下成像质量差,环境适应能力低下。最重要的是,现有产品无法实现机器学习与场景记忆,每次工作过程需要大量重复的位姿解算步骤,且不具备物体识别与语义地图构建功能。
发明内容
本发明为解决上述背景技术中,未知环境探测和灾区搜救工具存在精度差、自主性不足、环境适应性差这些缺陷,提供一种基于V-SLAM技术与多光谱图像融合技术的全天候未知环境无人自主工作平台,具体形式可以为无人机、无人探测车或探测机器人。
一种全天候未知环境无人自主工作平台,包括视觉定位模块、多光谱图像融模块、图像识别模块、地图构建模块和回环与返程检测模块;所述视觉定位模块利用图卷积神经网络在视频流中选取关键帧,生成二进制特征描述符并进行位姿计算;所述地图绘制模块接收来自视觉定位模块稀疏特征点云数据并进行局部地图绘制;所述多光谱图像对关键帧进行图像融合传送给图像识别模块,所述的图像识别模块对多光谱融合图像进行分类,寻找目标对象并进行语义地图构建;找到目标对象后,所述图像识别模块发送信息给视觉定位模块,对目标对象周边环境进行多目立体视觉测距和更稠密的点云地图绘制;所述地图构建模块不断进行点云拼接,并将地图进行反向回环推算;所述回环与返程检测模块保证无人机按原路返程。
进一步地,所述多光谱图像融合模块中采用基于仿生学原理的多孔径镜头,包括:可见光主镜头,用于日间单目视觉定位;近红外主镜头,用于夜间单目视觉定位和日间寻找被遮盖目标;可见光副镜头,用于日间扩展可见光主镜头视场;近红外副镜头,用于夜间扩展近红外主镜头视场信息;远红外镜头,用于探测热源中心和寻找被遮盖目标。
进一步地,所述视觉定位模块,基于V-SLAM框架,其前端部分由图卷积神经网络进行图像序列关键帧的选择和标记;
所述图卷积神经网络含有全卷积神经网络和一个双向卷积网络;
图卷积神经网络采用自适应阈值方法将图卷积神经网络每个特征映射构建为二进制数据,关键帧选取可以看作二进制分类问题,所述自适应阈值Tre的取值公式为:
Figure BDA0002267282550000031
上述公式中阈值记作Tre,s为映射个数,f(x)为二维点坐标x=(u,v)在卷积层的特征映射,Fs(x)是s个坐标映射值的总和,t为自定参数;
关键帧首先用于位姿结算,其次输入图像深度神经网络用于恢复单目视觉深度,构造深度稠密局部点云地图。
进一步地,所述视觉定位模块针对普通环境仅使用第一图卷积通道;针对有遮盖物环境,设置孪生卷积神经网络:第一通道为普通可见光或普通红外通道,日间只接受来自可见光主镜头、夜间只接收近红外主镜头的信息,进行单目立体视觉位姿推算并构建全卷积神经网络,获取单目深度恢复图像;同时第二通道接受来自图像融合模块传递的多光谱图像无视遮盖物影响,寻找目标物体;所述多光谱图像日间为可见光副镜头、远红外镜头、近红外主镜头的融合图像,夜间为远红外镜头、近红外主镜头、近红外副镜头的融合图像,且第二通道在发现目标物体前不用于定位、不设置depth神经网络进行单目图像深度恢复,只进行图像识别以寻找被遮盖目标;发现被遮盖目标后,第一通道关闭,开启第二通道,利用多光谱图像进行多目视觉位姿计算,无人平台停止探测围绕目标四周进行运动,提高该关键区域地图稠密程度;所述视觉定位模块开始工作后,回环检测即开始路径闭环推算。
进一步地,所述地图构建模块接收来自视觉定位模块的特征点云,利用点云拼接技术构建稠密点云地图并利用束调整实现重投影误差最小化;所述图像识别模块接收局部稠密点云地图,利用半监督式图卷积神经网络进行周围环境的多目标聚类分析,进一步进行语义分割并构造稠密深度语义地图,并从当前位姿结合稠密地图反向推算验证回环闭合性。
进一步地,所述地图构建模块采用分层抽取特征的方法进行点云拼接,抽取结构分为三部分:采样层、分组层、特征提取层;
采样层采用最远点采样法:先在点云数据流中抽取N个随机点云,接着在其中任意选取一点Ni,将该点作为起点,寻找其最远点Ni+1,依次进行迭代;按遗传算法将迭代进行变异处理;
分组层在采样层提取出的中心点的自定范围内寻找最近个S近邻点组成补丁;
特征提取层将这S个点通过小型点云卷积网络进行卷积和池化得到的特征作为此中心点的特征,再送入下一个分层继续。
进一步地,所述回环与返程检测模块将地图提取描述符按时间戳与当前环境进行相似性计算;保证未知环境下无人平台完成巡航任务后快速原路返程。
进一步地,所述多光谱图像融合模块应用于日间无遮挡、日间有遮挡及夜间环境,机动采取不同融合方式。基于Resnet-50模型设计深度卷积神经网络进行多光谱图像融合。同时训练人类与动物体温数据集和目标设备温度峰值数据集,通过多光谱图像建立温度映射,计算当前目标的温度信息,判断是否值得营救。
本发明的有益效果:
本发明通过改进图卷积神经网络结构生成视频流中关键帧的特征描述符,将描述符取自适应阈值进行二值化处理,加快特征提取速度并改善提取质量,有效提高了无人平台自避障精度和路径规划速度;
本发明采用仿生的理念,使用多孔径镜头对普通未知环境和搜索目标周边环境;并分别采用单目或多目视觉方式进行测距、3D模型推导和地图构建;未发现人类、重要设备等搜救目标时只利用单目视觉测算位置与姿态,避免多目视差计算与镜头基线长度限制;在目标对象周围构建则利用多目立体视觉和多光谱图像融合建立更详细地图,以便有效找到被粉尘、浓雾、墙体等掩盖的目标;
本发明采用半监督式深度学习,节省目标识别计算时间,通过迁移学习对未设标签的图像进行聚类分析,相较于传统的全监督方式分类精确度更高、聚类效果更好;
本发明构建深度点云拼接神经网络,将特征点云拼接成更适合无人平台自主路径规划的稠密点云图像,提高无人平台避障精度。将稠密点云数据传输与时间戳信息上传到地面站云服务器并在返程时将地图与实际地形进行比对,起到回环检测效果并可实时更新多变未知环境的当前实际地图。
附图说明
图1为本发明系统结构示意图;
图2为视觉定位模块结构示意图;
图3为单目深度恢复神经网络结构示例;
图4为NYU数据集单目深度恢复结果示例;其中,(a)为可见光图像,(b) 为groundtruth图像,(c)为深度估计图;
图5为点云拼接流程图;
图6为改进相邻图优化示意图;
图7为回环检测流程图;
图8为图像分类识别模块示意图;
图9为多孔径镜头方案示意图;图中:1-主可见光镜头,2-可见光副镜头, 3-远红外镜头,4-近红外主镜头,5-近红外副镜头;
图10为多光谱图像融合示例;其中,(a)为可见光图像,(b)为远红外图像,(c)为近红外图像,(d)为多光谱融合图像;
图11为语义分割示例。
具体实施方式
以下结合附图详细介绍本发明的技术方案:
一种全天候未知环境无人自主工作平台,包括:视觉定位模块、多光谱图像融合模块、图像识别模块、地图构建模块和回环与返程检测模块。所述的视觉定位模块利用GCN(图卷积神经网络)在视频流中选取关键帧,生成二进制特征点描述符并进行位姿解算;所述地图绘制模块接收来自定位模块稀疏特征点云数据并进行局部地图绘制;所述的多光谱图像融合模块对关键帧进行图像融合传送给图像识别模块,所述的图像识别模块对多光谱融合图像进行分类,寻找目标对象并进行语义地图构建;找到目标对象后,所述图像识别模块发送信息给视觉定位模块,对目标对象周边环境进行多目立体视觉测距和更稠密的点云地图绘制。所述的地图构建模块不断进行点云拼接,并实时将地图进行反向回环推算。所述的回环与返程检测模块保证无人机基本按原路返程。
如图9所示,所述多光谱图像融合模块采用基于仿生学原理的多孔径镜头:包括可见光主镜头1,用于日间单目视觉定位;近红外主镜头4,用于夜间单目视觉定位和日间寻找被遮盖目标;可见光副镜头2,用于日间扩展可见光主镜头 1视场;近红外副镜头5,用于夜间扩展近红外主镜头4视场信息;远红外镜头 3,用于探测热源中心和寻找被遮盖目标。
所述视觉定位模块,基于V-SLAM框架,其中前端部分由GCN(图卷积神经网络)替代一般SLAM技术方案的描述子和检测子,进行图像序列关键帧的选择和标记;并利用自适应阈值的方法提高端对端式SLAM技术对关键帧处理的效率。关键帧首先用于位姿结算,其次输入图像深度神经网络用于恢复单目视觉深度,构造深度稠密局部点云地图。
所述地图构建模块,接收来自视觉定位模块的特征点云,利用点云拼接技术构建稠密点云地图并利用改进的束调整技术(Bundle Adjustment)最小化重投影误差。
所述图像识别模块接收局部稠密点云地图,利用半监督式图卷积神经网络构造稠密深度语义地图,并从当前位姿结合稠密地图反向推算验证回环闭合性。
所述多光谱图像融合模块应用于日间无遮挡、日间有遮挡及夜间环境,机动采取不同融合方式。基于Resnet-50模型设计深度卷积神经网络进行多光谱图像融合。同时训练人类与动物体温数据集和目标设备温度峰值数据集,通过多光谱图像得到当前目标温度信息判断是否值得营救。
所述回环与返程检测模块,将上述地图提取描述符按时间戳与当前环境进行相似性计算;保证未知环境下无人平台完成巡航任务后快速原路返程。
下面结合附图对本发明进行详细说明:
如图2所述,视觉定位模块,图卷积神经网络含有Resnet-50经典卷积层结构的FCN网络和一个双向卷积网络,预测原始图像中每个8×8像素大小的网格单元。采用自适应阈值方法将GCN网络每个特征映射构建为二进制数据,并以该描述子替代传统SLAM方案,如:ORB-SLAM2的二进制描述子。所述的自适应阈值取值公式为:
Figure BDA0002267282550000081
上述公式中阈值记作Tre,s为映射个数,f(x)为二维点坐标x=(u,v)在卷积层的特征映射,Fs(x)是s个坐标映射值的总和,t为自定参数;而经实验验证:s 为图像宽度值的八分之一,t取8时有最好效果。为防止某个特征响应的梯度值大于1,设置反向传播函数:
Figure BDA0002267282550000082
设置1|f|≤1相当于把反向传播过程也作了二值化处理。另外,根据GCN网络特性,关键点选取可以看作二进制分类问题,定义关键点概率映射为函数O(x),则概率映射模型由二进制掩码构成——1代表该像素点即关键点,0则代表不是。关键点检测的损失函数用两个连续帧进行计算,因此可以将交叉熵函数用作训练的目标函数,具体设置如下:
Figure BDA0002267282550000091
Figure BDA0002267282550000092
xi,+=π-1(Rgtπ(xi,zi+Tgt) (3)
上式中,Lmask为训练GCN关键点检测子的损失函数,Lce为概率映射函数的损失函数,系数α1与α2用于排除非关键点对于损失函数的干扰,Rgt为训练所用数据集的真实旋转矩阵,Tgt为数据集的真实平移矩阵,z为图像的真实深度值。在具体实例中可以设置自适应阈值取得的二值化特征向量为256维以替代 ORB-SLAM等方案中ORB算子的检测子和描述子功能。
所诉的视觉定位,如图1所示,针对普通环境仅使用第一图卷积通道,即采用单目视觉进行检测子和二值化描述子生成,利用卷积神经网络进行单目深度恢复,恢复基于物体图像灰度值随距离变化产生相应变化,实际应用中可以:通过构建全卷积深度网络提取深度特征,然后可通过CRF(条件随机场)进行深度信息优化。所述的视觉定位模块针对火灾现场的烟雾、植被、粉尘,地震、泥石流灾区的山体、建筑这些遮盖物环境,设置孪生卷积神经网络:第一通道为普通可见光(日间)或普通红外(夜间)通道,日间只接受来自可见光主镜头、夜间只接收近红外主镜头的信息,进行单目立体视觉位姿推算,并如图3 所示,构建FCN(全卷积神经网络),获取单目深度恢复图像;同时第二通道接受来自图像融合模块传递的多光谱图像无视遮盖物影响,寻找目标物体;所述多光谱图像日间为可见光副镜头、远红外镜头、近红外主镜头的融合图像,夜间为远红外镜头、近红外主镜头、近红外副镜头的融合图像,且第二通道在发现目标物体前不用于定位、不设置depth神经网络进行单目图像深度恢复,只进行图像识别以寻找被遮盖目标。发现被遮盖目标后,第一通道关闭,开启第二通道利用多光谱图像进行多目视觉位姿计算,无人平台停止探测围绕目标四周运动,提高地图稠密程度。所述视觉定位模块开始工作后,回环检测即开始路径闭环推算。
针对上述点云信息引入改进的束调整(Bundle Adjustment)优化,最小化重投影误差。利用NYU数据集得到恢复示例图像,如图4所示。
所述改进的束调整优化,如图6改进的图优化模型,其节点由相机Pi和三维空间点Xj构成,把Xj投影到相机Pi图像上并把两节连接起来降低重投影误差;定义Xj在连续两个相机Pi和Pi-1上的图像归一化坐标处理为:
Figure BDA0002267282550000101
Figure BDA0002267282550000102
其中
Figure BDA0002267282550000103
用来消除因相机内参k和k',将齐次坐标转化为非齐次坐标。
综上可以得到相邻点Xj和Xj-1的复合重投影误差:
Eij=ln||ui-1,j-vi-1,j||+ln||ui,j-vi,j|| (6)
点优化公式定义为:
Figure BDA0002267282550000104
Xj在Pi中有投影时使δij=1,否则取值为0。使用LM算法优化求最优解。
每次迭代中的增量求解为:
Figure BDA0002267282550000105
上式中δX表示迭代步长,J(X)表示雅可比矩阵,
Figure BDA0002267282550000106
表示期望值,D(X)为方差。
所述地图构建模块,接收来自视觉定位模块的特征点云,利用点云拼接技术构建稠密点云地图并利用改进的束调整技术最小化重投影误差。所述的点云拼接技术,如图5所示步骤S131采用分层抽取特征的方法,抽取结构分为三部分:采样层、分组层、特征提取层。采样层是为了从稠密的点云中抽取出一些相对较为重要的中心点,采用如5所示S1311步骤改进的最远点采样法:先在点云数据流中抽取N个随机点云,接着在其中任意选取一点Ni,将该点作为起点,进行图5中S1313步骤寻找其最远点Ni+1,依次进行迭代;进行S1314步骤按遗传算法将迭代进行变异处理:设置迭代次数为N/100次,而每迭代N/1000 次将相邻五组迭代进行乱序交换;再次迭代直到N/100次结束迭代。
分组层在采样层提取出的中心点的自定范围内寻找最近个S近邻点组成补丁;特征提取层是将这S个点通过小型点云卷积网络进行卷积和池化得到的特征作为此中心点的特征,再送入下一个分层继续。这样每一层得到的中心点都是上一层中心点的子集,并且随着层数加深,中心点的个数越来越少;但是每一个中心点包含的信息越来越多,从而实现各局部点云地图全局拼接。
回环检测步骤如图7所示:从当前位姿结合稠密地图反向推算位姿,能回到初始位置则称为回环检测结果为闭环,未闭环则进行位姿修正,从而消除漂移误差。如图7所示S161步骤先利用ORB算法生成检测子,输入GCN网络;S161 步骤设置二值化响应层,利用自适应阈值方法输出二值化的描述符;接着进行度量学习,以近邻方式训练描述子。设置二进制特征描述子训练中三元组的损失函数为:
Figure BDA0002267282550000111
Figure BDA0002267282550000112
xi,+=π-1(rgt·π(xi,di)+tgt) (9)
所述公式(9)中Lmetricc表示度量学习损失函数,m为截断的距离余量,dis等价于对32字节(256位)描述子的汉明距离,tgt表示位姿真值(Ground Truth) 的旋转矩阵信息,rgt为位姿真值的平移向量矩阵信息。
进行S163步骤,利用K-means算法对二进制描述符进行聚类处理;将描述符转化为图像“字典”的单词之后,可以采用多种组织方式来存储单词,如图7 中S164步骤:采用k-d树来存储单词。举k-d树为例,可以采用变异系数法确定不同单词的区分度即权重,进而得到所述地图关键帧的单词向量,然后每隔视频流的十帧进行数据库暴力匹配,验证回环检测是否闭环。变异系数法公式如下:
Figure BDA0002267282550000121
其中
Figure BDA0002267282550000122
表示单词特征值的平均值,σi表示标准差,Wi表示权重取值。
所述图像识别模块接收局部稠密点云地图,该模块利用半监督式图卷积神经网络进行位置环境聚类分析,进行语义分割并构造稠密深度语义地图。如图8 所示:S151步骤进行图像特征学习,实验使用正反两个ResNet50神经网络结构框架(conv1—conv2_x—conv3_x—conv4_x);利用全局最大池化(General Max Pooling简称GMP)方式获取图像层面特征f,f的获取公式表示为:
Figure BDA0002267282550000123
提取输入图像I的特征时,每个GCN卷积层和最大化池化层的作用等价于非线性函数fcnn()和fGMP,具体函数可采用现有模型如:Alexnet模型;特征提取结果用f表示;上式中
Figure BDA0002267282550000124
表示空间域全集,D表示每个标签单词语义向量的维数,再将损失函数由分类交叉熵替换为二元交叉熵。具体方法可以为:计算一份样本各标签的损失(输出层采用sigmoid函数),然后取平均值,把多标签问题转化为每个标签上的二分类问题,在此不作限定。
进行S152步骤——GCN语义信息获取,GCN语义分类器采用预训练的BagNet 模型,使用视觉局部特征袋(bag-of-local-features)进行训练。将每个GCN 网络池化层得到的层面特征f输入下一层。完成学习的分类器应用于图像特征,得到类别语义特征:
Figure BDA0002267282550000131
Figure BDA0002267282550000132
BagNet模型可以把单词向量转换成语义向量,并经过卷积层操作(fcov)生成语义特征,规定某张图像的实际语义特征是fsem,
Figure BDA0002267282550000133
为估计值且
Figure BDA0002267282550000134
K即标签个数;⊙表示卷积操作。
S153步骤设置多标签分类训练的损失函数为:
Figure BDA0002267282550000135
上式σ表示激励函数,多标签分类一般使用sigmoid函数。
无人机于未知环境工作时将面对极其复杂的工作环境,对所有待分类对象设置标签并不现实,在多标签分类的损失函数中可以加入基于图的正则化计算:
L=L1+λLreg
Figure BDA0002267282550000136
Figure 1
(14)
上式中X表示图卷积网络中“图”的有标签节点对应的节点矩阵,A表示有标签节点的邻接节点矩阵,通过加入有标签节点矩阵和其邻接矩阵的正则化计算 Lreg,可以对未设定标签的节点也进行聚类分析,从而对未设标签的物体也进行分类识别。无人平台进行未知环境探测时无法对所有物体实现进行标签设置,加入上述邻接矩阵正则化计算后,可以实现半监督式深度学习,对数据集中未设标签的物体进行详细地聚类分析,较之全监督方式节省巨量标签设置时间;较之无监督学习方式,又可以充分利用已有标签,对未知物体进行相似性比较,例如:图像中发现类似大象的物体,又无象牙、长鼻与象趾这些特征;可归为类似的河马与犀牛。大象即有标签节点,河马与犀牛即有标签或无标签的节点,接着进行正则化运算可以推出是河马、犀牛,如都不符合则接着向别的无标签节点聚类。
S154步骤将上述图像特征和语义特征输入到反卷积结构,通过双线性池化将多标签图像进行语义与图像特征融合。进行S154步骤时,在反卷积网络中还可以取消相应的池化层,换成稀疏卷积核(Dilated Convolutions)模型,在损失函数上加入稀疏约束,可简化神经网络结构并实现同样效果。所述语义分割神经网络搭建如下:
Layer name:conv1_1
Layer shape:(3,3,3,64)
Layer name:conv1_2
Layer shape:(3,3,64,64)
Layer name:conv2_1
Layer shape:(3,3,64,128)
Layer name:conv2_2
Layer shape:(3,3,128,128)
Layer name:conv3_1
Layer shape:(3,3,128,256)
Layer name:conv3_2
Layer shape:(3,3,256,256)
Layer name:conv3_3
Layer shape:(3,3,256,256)
Layer name:conv4_1
Layer shape:(3,3,256,512)
Layer name:conv4_2
Layer shape:(3,3,512,512)
Layer name:conv4_3
Layer shape:(3,3,512,512)
Layer name:conv5_1
Layer shape:(3,3,512,512)
Layer name:conv5_2
Layer shape:(3,3,512,512)
Layer name:conv5_3
Layer shape:(3,3,512,512)
Layer name:fc6
Layer shape:[7,7,512,4096]
Layer name:fc7
Layer shape:[1,1,4096,4096]
Layer name:fc8
Layer shape:[1,1,4096,1000]
Finished building Network.
Running the Network
示例中的全卷积网络用ResNet框架进行搭建,进行实验后结果如图10所示。
所述的多光谱图像融合模块应用于日间无遮挡、日间有遮挡及夜间环境,机动采取不同融合方式。包括:可见光主镜头1,用于日间单目视觉定位;近红外主镜头4,用于夜间单目视觉定位和日间寻找被遮盖目标;可见光副镜头2,用于日间扩展可见光主镜头1视场;近红外副镜头5,用于夜间扩展近红外主镜头4视场信息;远红外镜头3,用于探测热源中心和寻找被遮盖目标。针对上述镜头排布,可有以下组合情况:(1)日间打开可见光主镜头1进行单目深度估计,可见光副镜头2、远红外镜头3、近红外主镜头4打开与镜头1进行多光谱融合用于图像识别寻找目标物体,红外副镜头5关闭;(2)无人机镜头能见度低于5m(速度低于10米每秒)或如情形(1)能见度高且成功找到目标物则关闭镜头2,使用可见光主镜头1、远红外镜头3与近红外主镜头4进行多目视觉定位与建图;(3)夜间关闭可见光主镜头1、可见光副镜头2,打开远红外镜头3 用于红外单目视觉深度估计,打开近红外主镜头4、红外副镜头5,将远、近红外图像进行融合用于寻找目标物体。所述多光谱融合可以使用基于Resnet-50 结构搭建的深度卷积神经网络。多光谱融合过程如下:第一步先将红外和可见光图像进行双三次插值,一维插值基函数为:
Figure BDA0002267282550000161
处理二维像素点(X,Y)则利用公式:
Figure BDA0002267282550000162
上式中a和aij均为插值系数,B即Bilinear,表示双三次插值结果。第二步利用FAST检测子生成特征点并用BRIEF描述子生成二进制描述符,进行配准后输入卷积神经网络。第三步,依次进行下采样和上采样,利用按像素级别进行融合。可见光图像主要纹理和轮廓特征,红外图像补充轮廓信息。每个卷积层操作等价于以下公式:
Fi(Y)=max(0,Wi*Y+Bi)(i=1,...) (17)
其中Y表示表示上一层的输入;*表示卷积运算;Wi为卷积核;Bi为神经元偏置向量。卷积得到的特征图再经过激活函数ELU(Exponential Linear Units)进行非线性激励。损失函数示例为:
Figure BDA0002267282550000171
上述公式中n为训练集数目,Γ为损失参数,多光谱融合结果如图7所示。
所述多光谱图像融合模块还可训练人类与动物安全体温数据集和目标设备温度峰值数据集,通过多光谱图像得到当前目标温度信息判断是否值得营救。
所述的返程检测模块保证未知环境下无人平台完成巡航任务后快速原路返程;图1中S160步骤,将上述地图按时间戳与当前环境进行最小距离计算,距离公式可以采用曼哈顿距离、欧氏距离等,这里举闵可夫斯基距离为例,当相似度低于0.95,对路径进行微调;接着设置相似度升高方向为高权重;当相似度超过0.9返回来程对应轨迹。快速实现无人平台原路返回。计算公式为:
Figure BDA0002267282550000172
Figure BDA0002267282550000173
其中||z||p称为x和y点坐标距离参数z的p范数,取p≥0,并规定范数值越小,其相似度越低。
以上所述实例仅代表本发明的具体实现方式之一,但并不能因此而理解为对本发明专利的范围的限制。应申明的是,对同行业的技术人员来说,在不脱离本发明构思的前提下,还可以做出细节调整和改进,这些均属于本发明的保护范围。

Claims (5)

1.一种全天候未知环境无人自主工作平台,其特征在于,包括视觉定位模块、多光谱图像融合模块、图像识别模块、地图构建模块和回环与返程检测模块;所述视觉定位模块利用图卷积神经网络在视频流中选取关键帧,生成二进制特征描述符并进行位姿计算;所述地图绘制模块接收来自视觉定位模块稀疏特征点云数据并进行局部地图绘制;所述多光谱图像融合模块对关键帧进行图像融合传送给图像识别模块,所述的图像识别模块对多光谱融合图像进行分类,寻找目标对象并进行语义地图构建;找到目标对象后,所述图像识别模块发送信息给视觉定位模块,对目标对象周边环境进行多目立体视觉测距和更稠密的点云地图绘制;所述地图构建模块不断进行点云拼接,并将地图进行反向回环推算;所述回环与返程检测模块保证无人机按原路返程;
所述多光谱图像融合模块中采用基于仿生学原理的多孔径镜头,包括:可见光主镜头,用于日间单目视觉定位;近红外主镜头,用于夜间单目视觉定位和日间寻找被遮盖目标;可见光副镜头,用于日间扩展可见光主镜头视场;近红外副镜头,用于夜间扩展近红外主镜头视场信息;远红外镜头,用于探测热源中心和寻找被遮盖目标;
所述视觉定位模块,针对普通环境仅使用第一图卷积通道;针对有遮盖物环境,设置孪生卷积神经网络:第一通道为普通可见光或普通红外通道,日间只接受来自可见光主镜头、夜间只接收近红外主镜头的信息,进行单目立体视觉位姿推算并构建全卷积神经网络,获取单目深度恢复图像;同时第二通道接受来自图像融合模块传递的多光谱图像,无视遮盖物影响,寻找目标物体;所述多光谱图像日间为可见光副镜头、远红外镜头、近红外主镜头的融合图像,夜间为远红外镜头、近红外主镜头、近红外副镜头的融合图像,且第二通道在发现目标物体前不用于定位、不设置depth神经网络进行单目图像深度恢复,只进行图像识别以寻找被遮盖目标;发现被遮盖目标后,第一通道关闭,开启第二通道,利用多光谱图像进行多目视觉位姿计算,无人平台停止探测,围绕目标四周进行运动,提高关键区域地图稠密程度;所述视觉定位模块开始工作后,回环检测即开始路径闭环推算。
2.如权利要求1所述的一种全天候未知环境无人自主工作平台,其特征在于,所述视觉定位模块,基于V-SLAM框架,其前端部分由图卷积神经网络进行图像序列关键帧的选择和标记;
所述图卷积神经网络含有全卷积神经网络和一个双向卷积网络;
图卷积神经网络采用自适应阈值方法将图卷积神经网络每个特征映射构建为二进制数据,关键帧选取可以看作二进制分类问题,所述自适应阈值Tre的取值公式为:
Figure FDA0003732214070000021
上述公式中阈值记作Tre,s为映射个数,f(x)为二维点坐标x=(u,v)在卷积层的特征映射,Fs(x)是s个坐标映射值的总和,t为自定参数;
关键帧首先用于位姿结算,其次输入图像深度神经网络用于恢复单目视觉深度,构造深度稠密局部点云地图。
3.如权利要求1所述的一种全天候未知环境无人自主工作平台,其特征在于,所述地图构建模块接收来自视觉定位模块的特征点云,利用点云拼接技术构建稠密点云地图并利用束调整最小化重投影误差;所述图像识别模块接收局部稠密点云地图,利用半监督式图卷积神经网络进行周围环境的多目标聚类分析,进行语义分割并构造稠密深度语义地图,并从当前位姿结合稠密地图反向推算验证回环闭合性。
4.如权利要求3所述的一种全天候未知环境无人自主工作平台,其特征在于,所述地图构建模块采用分层抽取特征的方法进行点云拼接,抽取结构分为三部分:采样层、分组层、特征提取层;
采样层采用最远点采样法:先在点云数据流中抽取N个随机点云,接着在其中任意选取一点Ni,将该点作为起点,寻找其最远点Ni+1,依次进行迭代;按遗传算法将迭代进行变异处理;
分组层在采样层提取出的中心点的自定范围内寻找最近个S近邻点组成补丁;
特征提取层将这S个点通过小型点云卷积网络进行卷积和池化得到的特征作为此中心点的特征,再送入下一个分层继续。
5.如权利要求1所述的一种全天候未知环境无人自主工作平台,其特征在于,所述回环与返程检测模块将地图提取描述符按时间戳与当前环境进行相似性计算;保证未知环境下无人平台完成巡航任务后快速原路返程。
CN201911092699.8A 2019-11-11 2019-11-11 一种全天候未知环境无人自主工作平台 Active CN110827415B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911092699.8A CN110827415B (zh) 2019-11-11 2019-11-11 一种全天候未知环境无人自主工作平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911092699.8A CN110827415B (zh) 2019-11-11 2019-11-11 一种全天候未知环境无人自主工作平台

Publications (2)

Publication Number Publication Date
CN110827415A CN110827415A (zh) 2020-02-21
CN110827415B true CN110827415B (zh) 2022-08-23

Family

ID=69553692

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911092699.8A Active CN110827415B (zh) 2019-11-11 2019-11-11 一种全天候未知环境无人自主工作平台

Country Status (1)

Country Link
CN (1) CN110827415B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325794B (zh) * 2020-02-23 2023-05-26 哈尔滨工业大学 一种基于深度卷积自编码器的视觉同时定位与地图构建方法
CN111582043B (zh) * 2020-04-15 2022-03-15 电子科技大学 基于多任务学习的高分辨率遥感影像地物变化检测方法
CN111626121B (zh) * 2020-04-24 2022-12-20 上海交通大学 基于视频中多层次交互推理的复杂事件识别方法及系统
CN111612046B (zh) * 2020-04-29 2023-10-20 杭州电子科技大学 特征金字塔图卷积神经网络及其在3d点云分类中的应用
CN111693047B (zh) * 2020-05-08 2022-07-05 中国航空工业集团公司西安航空计算技术研究所 一种高动态场景下的微小型无人机视觉导航方法
CN111583332B (zh) * 2020-05-18 2024-02-13 中国科学院自动化研究所 基于并行搜索2d-3d匹配的视觉定位方法、系统、装置
CN111666897A (zh) * 2020-06-08 2020-09-15 鲁东大学 基于卷积神经网络的斑石鲷个体识别方法
CN112146660B (zh) * 2020-09-25 2022-05-03 电子科技大学 一种基于动态词向量的室内地图定位方法
CN112212867B (zh) * 2020-10-19 2024-05-28 中国科学技术大学 一种机器人自定位与导航的方法及系统
CN112904900B (zh) * 2021-01-14 2021-12-17 吉林大学 一种基于鸟类视觉特征的多运动目标搜索与定位装置及方法
CN112950696A (zh) * 2021-02-03 2021-06-11 珠海格力智能装备有限公司 导航地图的生成方法及生成装置、电子设备
CN112991239B (zh) * 2021-03-17 2023-06-30 广东工业大学 一种基于深度学习的图像反向恢复方法
CN113093806B (zh) * 2021-04-07 2022-06-14 涵涡智航科技(玉溪)有限公司 一种用于飞行器空间全向避障方法及系统
CN113436240B (zh) * 2021-06-22 2022-09-20 同济大学 一种基于域适应的复杂环境下的单目图像深度估计方法
CN113542595B (zh) * 2021-06-28 2023-04-18 北京沧沐科技有限公司 一种基于昼夜图像的捕获与监控方法与系统
CN113673482B (zh) * 2021-09-03 2023-04-18 四川大学 基于动态标签分配的细胞抗核抗体荧光识别方法及系统
WO2023149963A1 (en) 2022-02-01 2023-08-10 Landscan Llc Systems and methods for multispectral landscape mapping
CN114708392B (zh) * 2022-03-22 2024-05-14 重庆大学 一种基于闭环轨迹的八叉树地图构建方法
CN115861763B (zh) * 2023-03-01 2023-04-25 电子科技大学 一种多光谱多视角环境感知方法
CN116549529A (zh) * 2023-06-08 2023-08-08 吉林大学 具有抗疲劳功效的组合物及其制备方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599108A (zh) * 2016-11-30 2017-04-26 浙江大学 一种三维环境中多模态环境地图构建方法
CN107193279A (zh) * 2017-05-09 2017-09-22 复旦大学 基于单目视觉和imu信息的机器人定位与地图构建系统
CN110363816A (zh) * 2019-06-25 2019-10-22 广东工业大学 一种基于深度学习的移动机器人环境语义建图方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599108A (zh) * 2016-11-30 2017-04-26 浙江大学 一种三维环境中多模态环境地图构建方法
CN107193279A (zh) * 2017-05-09 2017-09-22 复旦大学 基于单目视觉和imu信息的机器人定位与地图构建系统
CN110363816A (zh) * 2019-06-25 2019-10-22 广东工业大学 一种基于深度学习的移动机器人环境语义建图方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Detection of bodies in maritime rescue operations using unmanned aerial vehicles with multispectral cameras;Gallegos, AJ等;《JOURNAL OF FIELD ROBOTICS》;20190604;第36卷(第4期);782-796 *
基于机载视觉的无人机自主着舰引导关键技术研究;桂阳;《中国博士学位论文全文数据库 (工程科技Ⅱ辑)》;20160115(第1期);C031-39 *

Also Published As

Publication number Publication date
CN110827415A (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
CN110827415B (zh) 一种全天候未知环境无人自主工作平台
Sarlin et al. Back to the feature: Learning robust camera localization from pixels to pose
Chen et al. A survey on deep learning for localization and mapping: Towards the age of spatial machine intelligence
CN112258618B (zh) 基于先验激光点云与深度图融合的语义建图与定位方法
Zhou et al. To learn or not to learn: Visual localization from essential matrices
Miclea et al. Monocular depth estimation with improved long-range accuracy for UAV environment perception
EP3690744A1 (en) Method for integrating driving images acquired from vehicles performing cooperative driving and driving image integrating device using same
Vaquero et al. Dual-branch CNNs for vehicle detection and tracking on LiDAR data
CN117456136A (zh) 一种基于多模态视觉识别的数字孪生场景智能生成方法
Saleem et al. Neural network-based recent research developments in SLAM for autonomous ground vehicles: A review
CN104463962B (zh) 基于gps信息视频的三维场景重建方法
Wang et al. Unsupervised learning of 3d scene flow from monocular camera
CN116772820A (zh) 一种基于slam和语义分割的局部细化建图系统及方法
Yao et al. Vision-based environment perception and autonomous obstacle avoidance for unmanned underwater vehicle
CN112950786A (zh) 一种基于神经网络的车辆三维重建方法
Lu et al. Monocular semantic occupancy grid mapping with convolutional variational auto-encoders
Munoz-Silva et al. A Survey on Point Cloud Generation for 3D Scene Reconstruction
Xiong et al. VirtualLoc: Large-scale Visual Localization Using Virtual Images
Grelsson Vision-based localization and attitude estimation methods in natural environments
Brink Using probabilistic graphical models to detect dynamic objects for mobile robots
Wang Towards Efficient 3D Reconstructions from High-Resolution Satellite Imagery
Qiao et al. Objects matter: Learning object relation graph for robust absolute pose regression
US20230105331A1 (en) Methods and systems for semantic scene completion for sparse 3d data
US12008762B2 (en) Systems and methods for generating a road surface semantic segmentation map from a sequence of point clouds
US20230267615A1 (en) Systems and methods for generating a road surface semantic segmentation map from a sequence of point clouds

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant