CN114719848A - 基于视觉与惯性导航信息融合神经网络的无人机高度估算方法 - Google Patents
基于视觉与惯性导航信息融合神经网络的无人机高度估算方法 Download PDFInfo
- Publication number
- CN114719848A CN114719848A CN202210087193.3A CN202210087193A CN114719848A CN 114719848 A CN114719848 A CN 114719848A CN 202210087193 A CN202210087193 A CN 202210087193A CN 114719848 A CN114719848 A CN 114719848A
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- feature
- runway
- visual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000000007 visual effect Effects 0.000 title claims abstract description 26
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 22
- 230000004927 fusion Effects 0.000 claims abstract description 20
- 238000005259 measurement Methods 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 52
- 230000006870 function Effects 0.000 claims description 25
- 238000011176 pooling Methods 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 17
- 230000007246 mechanism Effects 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 14
- 230000008859 change Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 238000003384 imaging method Methods 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 9
- 239000010410 layer Substances 0.000 claims description 7
- 230000007787 long-term memory Effects 0.000 claims description 7
- 230000002441 reversible effect Effects 0.000 claims description 7
- 206010034719 Personality change Diseases 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 238000005096 rolling process Methods 0.000 claims description 4
- 239000002356 single layer Substances 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 3
- 230000002238 attenuated effect Effects 0.000 claims description 2
- 238000013136 deep learning model Methods 0.000 abstract description 4
- 230000010365 information processing Effects 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000011160 research Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/10—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 by using measurements of speed or acceleration
- G01C21/12—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 by using measurements of speed or acceleration executed aboard the object being navigated; Dead reckoning
- G01C21/16—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 by using measurements of speed or acceleration executed aboard the object being navigated; Dead reckoning by integrating acceleration or speed, i.e. inertial navigation
- G01C21/165—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 by using measurements of speed or acceleration executed aboard the object being navigated; Dead reckoning by integrating acceleration or speed, i.e. inertial navigation combined with non-inertial navigation instruments
- G01C21/1656—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 by using measurements of speed or acceleration executed aboard the object being navigated; Dead reckoning by integrating acceleration or speed, i.e. inertial navigation combined with non-inertial navigation instruments with passive imaging devices, e.g. cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10032—Satellite or aerial image; Remote sensing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Automation & Control Theory (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了基于视觉与惯性导航信息融合神经网络的无人机高度估算方法,属于图像信息处理领域。本发明的基于视觉与惯性导航信息融合神经网络的无人机高度估算方法,基于物理学原理与对视觉和惯性测量传感器采集的数据信息来建立理想高度物理模型,建立该模型的其目的主要是为解决深度学习模型泛化能力不足的问题,同时减少神经网络需要感知的参数的数量从而降低模型学习的复杂度。其次,利用深度学习模型来克服理想物理模型精度不足的问题。第三,也是最关键的部分,本发明设计了一种视觉和惯性特征的融合模块,以提取视觉‑惯性数据序列的复杂数据关联,解决数据质量差和传感器缺乏精确标定以及同步等问题。
Description
技术领域
本发明属于图像信息处理领域,具体涉及基于视觉与惯性导航信息融合神经网络的无人机高度估算方法。
背景技术
无人机高度估算是指通过无人机搭载传感器或接收信息来实时获取无人机飞行高度。高度估算在无人机自主着陆、导航及定位、飞行避障等领域具有重要的应用价值。特别是无人机的自主着陆,高度估算技术是引导无人机实现自主降落的关键技术。目前大型的固定翼无人机在机场降落时常采用远程人工遥控的方式进行,自主化程度较低,因此亟需开发一种高度估算方法为大型的固定翼无人机提供实时的高度估算,从而实现无人机的自主着陆。
近年来,国内外广大研究人员在无人机飞行高度估算及应用研究领域取得了一定成果。可将已有的无人机高度估算方法分为四类:1)基于接受全球定位系统(globalpositioning system GPS)的方法。该方法利用无人机不断接收的全球定位系统信号,无人机的实时飞行位置与高度进行计算,目前基于GPS差分技术的定位(高度估算)精度已经可以达到厘米级。然而,由于实际环境中GPS信号可能存在被干扰,建筑物遮挡等问题,导致无人机无法正常接收GPS信号从而无法实现高度估算。2)基于惯性导航系统的(InertialNavigation System INS)方法。该类方法通常是与其他估算方法进行组合从而实现高度估算的。由于惯性导航系统从惯性测量单元获取的信息是加速度信息,需要二次积分才能获取位移(距离)测量结果。此外,常规价格的惯性测量单元都存在着累计误差且无法主动消除,因此在长航程的飞行过程中,其高度估算误差会越来越大。3)基于其他主动测距设备的无人机高度估算方法,该类方法通常采用在无人机上加装激光测距仪等主动式测距设备实现,这类方法在有限的测量范围和条件下可以取得较高的高度估算精度,但由于是主动式测距设备,设备的功耗往往比较大并且同样容易被强光等因素干扰影响其测量精度。4)基于视觉的方法。该方法主要利用视觉特征、先验信息、成像原理、坐标系转换以及运动学建模等知识对无人机与着陆场之间的相对运动与位置进行建模,从而实现高度估算。这类方法具有抗干扰、低功耗、低成本等优点,已经成为了高度估算领域的一大研究热点。但是,目前该领域的研究尚未完全成熟,通常在利用视觉特征等进行飞行高度建模时会采用理想化处理,将无人机实时运动状态等复杂的非线性问题进行线性化处理。此外,在固定翼无人机实际飞行情况下仍存在以下问题:1)目前视觉算法主要以地面的辅助着陆系统为主,通常是在机场搭建双目视觉系统用来捕获跟踪无人机,比利用双目测距原理计算出无人机与地面辅助系统的相对距离进而估算出无人机的飞行高度。搭建这样的辅助着陆系统成本高,适用条件严苛,并且双目相机系统的有效测距范围有限,因此并不具备大规模使用的潜力。2)现有的基于单目相机进行高度估算的算法主要应用于无人机进行近距离的垂直着陆。其特点是搭载相机始终垂直于地面,且需要在地面设置可视并捕获的标识物,从而辅助无人机进行自身飞行高度的估算,而地面标识物尺寸的限制,使得这类算法的估算范围有限,并且无人机与着陆区域的相对速度较为缓慢。对于固定翼无人机等大型无人机来说其估算范围要求较大且不能进行较为缓慢的着陆,因此单目相机很难满足这类无人机对高度估算的需求。此外,由于无人机飞行过程中通常存在机身抖动以及高速运动的情况,因此所拍摄的图像信息可能存在运动造成的模糊甚至是图像信息的丢失,因此现有的单目视觉方案存在失效的风险。3)现有的研究已有将惯性导航信息与视觉信息融合以解决图像模糊、丢失以及惯性测量单元累计误差等问题的方案,并且在小型无人机的定位与姿态估算应用上取得了较高精度的结果。但惯性导航信息与视觉信息的融合需要对传感器进行外参矫正,并且还需要对收集信息进行时间对齐。否则信息融合非但不能获得比单一视觉方案更好的效果,反而会导致高度估算方法出现更大的误差。
发明内容
本发明的目的在于克服上述现有技术的缺点,提供基于视觉与惯性导航信息融合神经网络的无人机高度估算方法。
为达到上述目的,本发明采用以下技术方案予以实现:
基于视觉与惯性导航信息融合神经网络的无人机高度估算方法,包括以下操作:
(1)利用通道注意力机制和空间注意力机制的卷积神经网络对输入图像中的信息进行特征提取与编码,得到特征向量av;
基于无人机实时拍摄的图像数据IN、无人机的俯仰角、无人机相对跑道朝向夹角、滚转角以及图像平面中获取的跑道两侧边线与跑道底边边线的夹角λ和β来建立理想的飞行高度估算模型和误差函数,将理想高度估计模型与误差函数分别送入单层LSTM网络进行特征编码,对编码后的向量进行逐位相加获得特征向量af,将所述特征向量af与图像特征编码后的特征向量av进行特征连接操作,之后输入到特征融合模块;
(2)将所述特征向量af与图像特征编码后的特征向量av进行特征连接操作,之后输入到基于自注意力机制的特征融合模块中;
两个特征向量连接后的特征向量为:
gdir(av,af)=[av;af]
将连接后的特征向量输入到基于自注意力机制的特征融合模块中,基于自注意力机制的特征融合模块将av和af分别映射为向量Qv,Kv,Vv以及向量Qf,Kf,Vf,根据下式将两组向量交叉运算,从而计算出特征向量av和af之间的相关度mv以及mf,将两个相关度分别与av和af做逐点乘操作,从而获得特征融合后的特征向量;
(3)将融合后的特征向量输入到双向长时记忆网络来提取时序特征,双向长时记忆网络对融合后的特征向量进行正向和反向的时序特征提取,最终通过对输出的回归实现无人机飞行高度的估算。
进一步的,步骤(1)中图像中的信息进行特征提取与编码,具体为:
(101)将图像输入ResNet卷积模块中,ResNet卷积模块提取出特征图;
(102)将所述特征图输入通道注意力子模块,分别经过基于W和H的全局最大池化和全局平均池化,两个池化结果分别经过共享参数的多层感知机,将多层感知机输出的特征进行基于逐像素的加和操作,再经过sigmoid进行激活操作,生成最终的通道注意力特征图;将通道注意力特征图与ResNet卷积模块提取的特征图进行逐元素乘法操作,通道注意力子模块输出特征图;
(103)将通道注意力子模块输出的特征图输入到空间注意力子模块,做一个基于通道的全局最大池化和全局平均池化,之后将这2个池化结果基于通道做特征连接操作;然后经过一个卷积操作,降维成单个通道,再经过sigmoid激活操作,生成空间注意力特征;
(104)最后将空间注意力特征和空间注意力子模块的输入特征做逐元素乘法,完成图像中信息的特征提取;
(105)将特征结果输入全连接层,对图像特征进行编码。
进一步的,步骤(1)中建立理想的飞行高度估算模型和误差函数,具体步骤为:
(111)假定相机坐标系与无人机坐标系完全重合,无人机此时不存在俯仰以及滚转姿态变化且飞行方向与跑道的朝向完全一致,利用单目相机成像原理与投影变化关系,得到无人机相对跑道高度与机场以及图像信息的理想建模关系:
其中,D为跑道的实际宽度,λ为图像平面中跑道任意一条边线和跑道底段标识线之间的夹角;
(112)根据无人机相对跑道高度与机场以及图像信息的理想建模关系,引入姿态变化因素,假设无人机存在俯仰变化,基于单目相机成像原理与投影变化关系,则建模关系表示为:
其中,Pitch为无人机俯仰角;
(113)将无人机相对跑道朝向的姿态信息引入,基于单目相机成像原理与投影变化关系,则建模关系可进一步为:
where theλ≠β
其中,Yaw表示无人机飞行方向与跑道朝向的夹角,λ和β分别表示跑道边线与跑道底端标识线的夹角;
(114)在此时的高度估算模型引入与无人机飞行的姿态信息相关的误差项,误差项表示为:
ε(Pitch,Yaw,Roll)
(115)构建的无人机相对跑道飞行高度的模型为理想高度估计模型和误差函数之和表示为:
Altitude=F(Pitch,Yaw,Roll,λ,β,D)=f(Pitch,Yaw,Roll,λ,β,D)+
ε(Pitch,Yaw,Roll)。
进一步的,步骤(1)中的跑道左右边线与底边边线的夹角λ和β的获取途径为:
将图像中跑道的左右边线和跑道底边边线进行标注,计算跑道左右边线与底边边线的夹角λ和β。
进一步的,步骤(1)中利用惯性测量单元获取飞行姿态数据,飞行姿态数据包含有无人机的俯仰角,航向角,滚转角,无人机当前飞行的经度,纬度;
基于无人机航向角以及跑道朝向角计算出无人机与跑道朝向的相对夹角。
利用无人机航向角以及跑道朝向角计算出无人机与跑道朝向的相对夹角;
进一步的,步骤(3)中通过对输出的回归实现无人机飞行高度的估算,神经网络的损失函数选取回归任务中常用的L1smooth损失函数。
进一步的,训练时采用学习率衰减的方式进行,初始学习率设置为0.0005,迭代学习次数为600次,学习率每20个迭代训练衰减0.1。
进一步的,在每次迭代过程中,计算训练数据的loss只进行一次反向传递并更新模型参数,然后计算验证数据的loss并求和,反向传递完成模型参数的第二次更新。
与现有技术相比,本发明具有以下有益效果:
本发明的基于视觉与惯性导航信息融合神经网络的无人机高度估算方法,基于物理学原理与对视觉和惯性测量传感器采集的数据信息来建立理想高度物理模型,建立该模型的目的主要是为解决深度学习模型泛化能力不足的问题,同时减少神经网络需要感知的参数的数量从而降低模型学习的复杂度。其次,利用深度学习模型来克服理想物理模型精度不足的问题。第三,也是最关键的部分,本发明设计了一种视觉和惯性特征的融合方法,以提取视觉-惯性数据序列的复杂数据关联,解决数据质量差和传感器缺乏精确标定以及同步等问题。
附图说明
图1为本发明的流程图;
图2为本发明中的结合通道-空间注意力机制的图像特征提取网络模块示意图;
图3为本发明中无人机飞行信息、图像信息与无人机飞行高度理想化建模的单目成像与投影变换示意图,其中,图3(a)为无人机俯仰角、相对跑道朝向偏角、滚转角均为0度时的图像平面与所建立高度估计模型;图3(b)表示了无人机俯仰角不为0度,相对跑道朝向偏角以及滚转角均为0度时的图像平面与所建立高度估计模型;图3(c)表示无人机俯仰角与相对跑道朝向偏角不为0度,滚转角为0度时的图像平面与所建立高度估计模型。
图4为本发明中图像特征和理想化建模特征融合模块示意图;
图5为实施例对固定翼无人机飞行高度预测结果示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面结合附图对本发明做进一步详细描述:
参见图1,图1为本发明的流程图,基于视觉与惯性导航信息融合神经网络的无人机高度估算方法,包括:
步骤一:通过卷积神经网络与注意力机制对输入图像中的信息进行特征提取与编码,具体为:
所述步骤一中针对输入图像中重要信息进行特征提取的融合注意力机制的卷积神经网络的具体如下:
适用于输入图像特征提取的卷积神经网络结构是基于广泛应用性进行设计的。该全卷积神经网络结构的输入可为任意尺寸图像彩色图像;输出与输入尺寸相同。
1)主干网络
用于特征提取的主干网络F采用任意的特征提取网络结构(为了方便叙述,本发明中采用ResNet作为例子进行叙述)。在原有的网络结构基础上加入了通道注意力机制和空间注意力机制,如图2所示,从而使网络对输入图像中重要的信息进行针对性的特征提取。
2)通道注意力子模块由上层ResNet卷积模块获取的特征图F∈RC×H×W,将其作为通道注意力子模块的输入,使其分别经过基于W(特征图宽width)和H(特征图高height)的全局最大池化(global max pooling)和全局平均池化(global average pooling),平均池化和最大池化用来聚合特征映射的空间信息。然后分别经过共享参数的多层感知机(MLP)。将MLP输出的特征进行基于逐像素的加和操作,再经过sigmoid进行激活操作,生成最终的通道注意力特征图。将通道注意力特征图与上层ResNet卷积模块获取的特征图(即输入特征图)进行逐元素乘法操作,生成空间注意力子模块需要的输入特征。
上述过程可由如下公式表示:
3)空间注意力子模块
将通道注意力子模块输出的特征图作为空间注意力子模块的输入特征图。首先做一个基于通道的全局最大池化和全局平均池化,然后将这2个结果基于通道做特征连接(concatenation)操作。然后经过一个卷积操作,降维成单个通道。再经过sigmoid激活操作,生成空间注意力特征。最后将空间注意力特征和空间注意力子模块的输入特征做逐元素乘法,得到最终生成的特征。
上述过程可由如下公式表示:
4)全连接层进行图像特征编码
将上述特征结果输入全连接层,对图像特征进行编码:
F·W+B=Y
步骤二:设计高度估算理想模型,采用LSTM进行特征编码,具体为:
惯性测量单元获取飞行姿态数据,飞行姿态数据包含有无人机的俯仰角,航向角,滚转角,无人机当前飞行的经度,纬度;利用无人机航向角以及跑道朝向角计算出无人机与跑道朝向的相对夹角;此外将捕捉到的图像中跑道的左右边线和跑道底边边线进行了标注,并计算图像平面内跑道左右边线与底边边线的夹角;
无人机实时拍摄的图像数据IN(N=1,2,…,n),无人机的惯导信息Pitch(俯仰角),Yaw(无人机相对跑道朝向夹角),Roll(滚转角),以及图像平面中获取的跑道两侧边线与跑道底边边线的夹角λ和β。下面如图3所示将依靠逐步引入已知参数来建立理想的飞行高度估算模型,图3(a)为无人机俯仰角、相对跑道朝向偏角、滚转角均为0度时的图像平面与所建立高度估计模型;图3(b)表示了无人机俯仰角不为0度,相对跑道朝向偏角以及滚转角均为0度时的图像平面与所建立高度估计模型;图3(c)表示无人机俯仰角与相对跑道朝向偏角不为0度,滚转角为0度时的图像平面与所建立高度估计模型。
1)将无人机与跑道间的相对姿态,运动状态进行理想化处理。即先假定相机坐标系与无人机坐标系完全重合,并且无人机此时不存在俯仰以及滚转等姿态变化且飞行方向与跑道的朝向完全一致。利用单目相机成像原理与投影变化关系,可以得到无人机相对跑道高度与机场以及图像信息的理想建模关系:
其中,D为跑道的实际宽度,λ为图像平面中跑道任意一条边线和跑道底段标识线之间的夹角。
2)根据上述建模结果,引入姿态变化因素,假设无人机存在俯仰变化,基于单目相机成像原理与投影变化关系,则上述建模关系可表示为:
其中,Pitch为无人机俯仰角。
3)进一步考虑无人机运动姿态,将无人机相对跑道朝向的姿态信息引入,基于单目相机成像原理与投影变化关系,则上述建模关系可进一步表示为:
其中,Yaw表示无人机飞行方向与跑道朝向的夹角,λ和β分别表示跑道边线与跑道底端标识线的夹角。两个角度并不相等。
4)由此,初步建立了一个理想的无人机相对跑道飞行高度与无人机姿态信息、图像信息之间的理想模型。可以看出,由于Roll(滚转角)与其余两个姿态角耦合的关系,滚转角对于图像平面内的λ和β也存在着极大影响。因此引入滚转角进行高度估算建模非常复杂,与此同时上述建模中的理想化处理意味着此时的高度估算模型一定存在一个误差项,由上述推导过程可以认为这个误差项的产生主要是与无人机飞行的姿态信息有关,因此将误差项表示为:
ε(Pitch,Yaw,Roll)
5)深度学习算法构建的无人机相对跑道飞行高度的模型,无人机相对跑道飞行高度的模型为理想高度估计模型和误差函数之和,表示为:
Altitude=F(Pitch,Yaw,Roll,λ,β,D)
=f(Pitch,Yaw,Roll,λ,β,D)+ε(Pitch,Yaw,Roll)
其中f(Pitch,Yaw,Roll,λ,β,D)表示利用惯性测量单元获取的飞行姿态信息(Pitch,Yaw,Roll)结合视觉图像信息(λ,β)以及跑道实际宽度D所构建的理想高度估计模型。而ε(Pitch,Yaw,Roll)则表示通过飞行姿态信息及视觉特征提取信息由深度学习网络获取的误差函数,本发明的高度估计模型给正是上述模型函数组合而来。
6)将理想高度估计模型f(Pitch,Yaw,Roll,λ,β,D)与误差函数ε(Pitch,Yaw,Roll)分别送入单层LSTM网络进行特征编码,对编码后的向量进行逐位相加最终获得特征向量af,然后将该特征向量与图像特征编码后的特征向量av进行特征连接操作(concatenation),将其输入到特征融合模块。
步骤三:将编码后的特征输入设计好的特征融合模块,进行特征融合;
如步骤一、二所述,此时已经得到了图像特征编码的特征向量以及理想模型特征编码的特征向量。但这两个特征向量所表征的特征的物理含义不同,并且不在同一特征空间中,如果只是简单的进行特征连接操作,很难将两种特征的关系进行建立,进而使算法无法从这些特征中学习到有用的信息。因此需要构建一个特征融合的过程,使得不同特征空间的两组特征能够得到统一的表征。
图4为本发明中图像特征和理想化建模特征融合模块示意图,该模块的目的是将不同物理含义的视觉图像特征与高度估计模型的编码特征进行融合,帮助网络发掘不用类型数据特征的关联,最终将融合的特征输出至双向LSTM(Bi-LSTM)中,实现最终的高度估计回归。
由步骤二可以得到两类特征向量连接后的特征,将其表示为:
gdir(av,af)=[av;af]
将特征向量av,af进行连接后,采用放缩点积注意力(scaled dot-productattention)来计算av和af之间的相关性。首先将av和af分别映射成两组向量Qv,Kv,Vv以及Qf,Kf,Vf。这里Qv,Kv,Vv与av的映射关系是通过av与三个不同的权重矩阵进行乘操作获取的,这三个权重矩阵的元素则是随着网络训练学习而来。Qf,Kf,Vf与af之间的映射关系也是经过相同操作而来。这里针对av和af的映射,主要是为了发掘这两种不同特征向量之间的关联(相似度),因此关联性(相似度)可表示为:
其中d对应了Q,K的维度。然后利用激活函数Softmax重新加权计算完的相关度。重新加权的过程可以表示为:
最终,将重新加权计算后的相关度与向量Vv和Vf进行加权求和,得到最终的注意力机制计算结果:
根据上述公式将两组向量交叉运算,从而计算出特征向量av和af之间的相关度Sv以及Sf。并将两者分别与av和af做逐点乘操作,从而获得特征融合后的特征向量gfusion(av,af)=[av⊙Sv;af⊙Sf]即图一及图四中的G,然后将特征向量输入到步骤四中的双向长时记忆网络(Bi-LSTM)来提取时序特征。
步骤四:将上述特征融合结果输入至双向长时记忆网络,从两个时间方向上提取特征的时序特征,具体为:
步骤四主要将通过特征融合的特征向量进行正向和反向的时序特征提取,最终通过对输出的回归实现无人机飞行高度的估算。
实施例
一、获取数据
本实施例是基于无人机前视摄像机捕获的视频图像信息进行飞行高度估算,相机捕获的视频单帧图像尺寸为1280×720,本发明中根据无人机姿态信息的采集频率对视频信息进行了粗略的同步删减。基本保证一帧视频对应一组无人机飞行姿态信息。无人机飞行姿态数据由无人机搭载的惯性测量单元获取,飞行姿态数据包含有无人机的俯仰角,航向角,滚转角,无人机当前飞行的经度,纬度。为了评估算法的准确性,还包括由GPS差分获取的无人机飞行高度。着陆跑道信息包含由跑道的朝向以及跑道的宽度。本发明利用无人机航向角以及跑道朝向角计算出无人机与跑道朝向的相对夹角,作为高度估算理想化建模的输入。此外将捕捉到的图像中跑道的左右边线和跑道底边边线进行了标注,并计算除了图像平面内跑道左右边线与底边边线的夹角,用作高度估算理想化建模的输入。综上所述,输入包含有视频图像输入(每个视频共8帧图像),与之粗同步的无人机飞行姿态信息,图像平面上的跑道左右边线与底边边线的夹角,共三类输入。为了方便网络学习计算,将后两类进行整合一并输入至网络。
二、网络训练
训练网络时将2000组数据按8:2的比例分为训练集和验证集。另外单独选取600组不同飞行高度的数据;
本发明中的网络算法采用的是端到端的方式,训练和测试结构一致。图像特征提取网络采用的是结合通道-空间注意力机制的ResNet50网络,结构如图2所示,网络输入的图像进行了尺寸缩放,由原来的1280×720缩放为了640×360;高度估算理想化建模以及误差项由单层的长时记忆网络进行时序特征提取并编码。
网络的损失函数选取了回归任务中常用的L1smooth损失函数。选取该损失函数主要是由于传统的L1损失函数和L2损失函数都存在着明显的缺陷。L1损失函数存在不可导点,收敛慢。而L2损失函数对异常值响应过大,且存在梯度爆炸的可能。因此本发明采用了两者优点相结合的L1smooth损失函数,同时尽可能避免了L1和L2损失函数的缺点。
训练时采用学习率衰减的方式进行,初始学习率设置为0.0005。迭代学习次数为600次。学习率每20个迭代训练衰减0.1。
每次迭代过程中,计算训练数据的loss只进行一次反向传递并更新模型参数,然后计算验证数据的loss并求和,反向传递完成模型参数的第二次更新。
参见图5,图5为实施例对固定翼无人机飞行高度预测结果示意图,图中展示了本发明在真实着陆场景中的高度估计结果。每一行都展示了单目相机在不同场景下拍摄的图像,图像拍摄时对应的无人机真实飞行高度,本章算法的预测高度以及其预测误差。这些结果表明,即使图像数据序列的质量较差,本章算法也能在远距离范围提供精确和鲁棒的高度估计。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。
Claims (8)
1.基于视觉与惯性导航信息融合神经网络的无人机高度估算方法,其特征在于,包括以下操作:
(1)利用通道注意力机制和空间注意力机制的卷积神经网络对输入图像中的信息进行特征提取与编码,得到特征向量av;
基于无人机实时拍摄的图像数据IN、无人机的俯仰角、无人机相对跑道朝向夹角、滚转角以及图像平面中获取的跑道两侧边线与跑道底边边线的夹角λ和β来建立理想的飞行高度估算模型和误差函数,将理想高度估计模型与误差函数分别送入单层LSTM网络进行特征编码,对编码后的向量进行逐位相加获得特征向量af,将所述特征向量af与图像特征编码后的特征向量av进行特征连接操作,之后输入到特征融合模块;
(2)将所述特征向量af与图像特征编码后的特征向量av进行特征连接操作,之后输入到基于自注意力机制的特征融合模块中;
两个特征向量连接后的特征向量为:
gdir(av,af)=[av;af]
将连接后的特征向量输入到基于自注意力机制的特征融合模块中,基于自注意力机制的特征融合模块将av和af分别映射为向量Qv,Kv,Vv以及向量Qf,Kf,Vf,根据下式将两组向量交叉运算,从而计算出特征向量av和af之间的相关度mv以及mf,将两个相关度分别与av和af做逐点乘操作,从而获得特征融合后的特征向量;
(3)将融合后的特征向量输入到双向长时记忆网络来提取时序特征,双向长时记忆网络对融合后的特征向量进行正向和反向的时序特征提取,最终通过对输出的回归实现无人机飞行高度的估算。
2.根据权利要求1所述的基于视觉与惯性导航信息融合神经网络的无人机高度估算方法,其特征在于,步骤(1)中图像中的信息进行特征提取与编码,具体为:
(101)将图像输入ResNet卷积模块中,ResNet卷积模块提取出特征图;
(102)将所述特征图输入通道注意力子模块,分别经过基于W和H的全局最大池化和全局平均池化,两个池化结果分别经过共享参数的多层感知机,将多层感知机输出的特征进行基于逐像素的加和操作,再经过sigmoid进行激活操作,生成最终的通道注意力特征图;将通道注意力特征图与ResNet卷积模块提取的特征图进行逐元素乘法操作,通道注意力子模块输出特征图;
(103)将通道注意力子模块输出的特征图输入到空间注意力子模块,做一个基于通道的全局最大池化和全局平均池化,之后将这2个池化结果基于通道做特征连接操作;然后经过一个卷积操作,降维成单个通道,再经过sigmoid激活操作,生成空间注意力特征;
(104)最后将空间注意力特征和空间注意力子模块的输入特征做逐元素乘法,完成图像中信息的特征提取;
(105)将特征结果输入全连接层,对图像特征进行编码。
3.根据权利要求1所述的基于视觉与惯性导航信息融合神经网络的无人机高度估算方法,其特征在于,步骤(1)中建立理想的飞行高度估算模型和误差函数,具体步骤为:
(111)假定相机坐标系与无人机坐标系完全重合,无人机此时不存在俯仰以及滚转姿态变化且飞行方向与跑道的朝向完全一致,利用单目相机成像原理与投影变化关系,得到无人机相对跑道高度与机场以及图像信息的理想建模关系:
其中,D为跑道的实际宽度,λ为图像平面中跑道任意一条边线和跑道底段标识线之间的夹角;
(112)根据无人机相对跑道高度与机场以及图像信息的理想建模关系,引入姿态变化因素,假设无人机存在俯仰变化,基于单目相机成像原理与投影变化关系,则建模关系表示为:
其中,Pitch为无人机俯仰角;
(113)将无人机相对跑道朝向的姿态信息引入,基于单目相机成像原理与投影变化关系,则建模关系可进一步为:
where theλ≠β
其中,Yaw表示无人机飞行方向与跑道朝向的夹角,λ和β分别表示跑道边线与跑道底端标识线的夹角;
(114)在此时的高度估算模型引入与无人机飞行的姿态信息相关的误差项,误差项表示为:
ε(Pitch,Yaw,Roll)
(115)构建的无人机相对跑道飞行高度的模型为理想高度估计模型和误差函数之和表示为:
Altitude=F(Pitch,Yaw,Roll,λ,β,D)=f(Pitch,Yaw,Roll,λ,β,D)+ε(Pitch,Yaw,Roll)。
4.根据权利要求1所述的基于视觉与惯性导航信息融合神经网络的无人机高度估算方法,其特征在于,步骤(1)中的跑道左右边线与底边边线的夹角λ和β的获取途径为:
将图像中跑道的左右边线和跑道底边边线进行标注,计算跑道左右边线与底边边线的夹角λ和β。
5.根据权利要求1所述的基于视觉与惯性导航信息融合神经网络的无人机高度估算方法,其特征在于,步骤(1)中利用惯性测量单元获取飞行姿态数据,飞行姿态数据包含有无人机的俯仰角,航向角,滚转角,无人机当前飞行的经度,纬度;
基于无人机航向角以及跑道朝向角计算出无人机与跑道朝向的相对夹角。
利用无人机航向角以及跑道朝向角计算出无人机与跑道朝向的相对夹角;
6.根据权利要求1所述的基于视觉与惯性导航信息融合神经网络的无人机高度估算方法,其特征在于,步骤(3)中通过对输出的回归实现无人机飞行高度的估算,神经网络的损失函数选取回归任务中常用的L1smooth损失函数。
7.根据权利要求6所述的基于视觉与惯性导航信息融合神经网络的无人机高度估算方法,其特征在于,训练时采用学习率衰减的方式进行,初始学习率设置为0.0005,迭代学习次数为600次,学习率每20个迭代训练衰减0.1。
8.根据权利要求7所述的基于视觉与惯性导航信息融合神经网络的无人机高度估算方法,其特征在于,在每次迭代过程中,计算训练数据的loss只进行一次反向传递并更新模型参数,然后计算验证数据的loss并求和,反向传递完成模型参数的第二次更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210087193.3A CN114719848B (zh) | 2022-01-25 | 2022-01-25 | 基于视觉与惯性导航信息融合神经网络的无人机高度估算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210087193.3A CN114719848B (zh) | 2022-01-25 | 2022-01-25 | 基于视觉与惯性导航信息融合神经网络的无人机高度估算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114719848A true CN114719848A (zh) | 2022-07-08 |
CN114719848B CN114719848B (zh) | 2024-05-03 |
Family
ID=82235141
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210087193.3A Active CN114719848B (zh) | 2022-01-25 | 2022-01-25 | 基于视觉与惯性导航信息融合神经网络的无人机高度估算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114719848B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115356740A (zh) * | 2022-08-09 | 2022-11-18 | 群周科技(上海)有限公司 | 一种机载环境下的可降落区域降落定位方法 |
CN116381753A (zh) * | 2023-06-01 | 2023-07-04 | 北京航空航天大学 | Gnss/ins组合导航系统在gnss中断时的神经网络辅助导航方法 |
CN116630828A (zh) * | 2023-05-30 | 2023-08-22 | 中国公路工程咨询集团有限公司 | 基于地形环境适配的无人机遥感信息采集系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8761439B1 (en) * | 2011-08-24 | 2014-06-24 | Sri International | Method and apparatus for generating three-dimensional pose using monocular visual sensor and inertial measurement unit |
CN109655059A (zh) * | 2019-01-09 | 2019-04-19 | 武汉大学 | 一种基于θ-增量学习的视觉-惯性融合导航系统及方法 |
CN110095116A (zh) * | 2019-04-29 | 2019-08-06 | 桂林电子科技大学 | 一种基于lift的视觉定位和惯性导航组合的定位方法 |
WO2019157925A1 (zh) * | 2018-02-13 | 2019-08-22 | 视辰信息科技(上海)有限公司 | 视觉惯性里程计的实现方法及系统 |
CN113495575A (zh) * | 2021-08-18 | 2021-10-12 | 北京航空航天大学 | 一种基于注意力机制的无人机自主着陆视觉引导方法 |
-
2022
- 2022-01-25 CN CN202210087193.3A patent/CN114719848B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8761439B1 (en) * | 2011-08-24 | 2014-06-24 | Sri International | Method and apparatus for generating three-dimensional pose using monocular visual sensor and inertial measurement unit |
WO2019157925A1 (zh) * | 2018-02-13 | 2019-08-22 | 视辰信息科技(上海)有限公司 | 视觉惯性里程计的实现方法及系统 |
CN109655059A (zh) * | 2019-01-09 | 2019-04-19 | 武汉大学 | 一种基于θ-增量学习的视觉-惯性融合导航系统及方法 |
CN110095116A (zh) * | 2019-04-29 | 2019-08-06 | 桂林电子科技大学 | 一种基于lift的视觉定位和惯性导航组合的定位方法 |
CN113495575A (zh) * | 2021-08-18 | 2021-10-12 | 北京航空航天大学 | 一种基于注意力机制的无人机自主着陆视觉引导方法 |
Non-Patent Citations (1)
Title |
---|
熊敏君;卢惠民;熊丹;肖军浩;吕鸣;: "基于单目视觉与惯导融合的无人机位姿估计", 计算机应用, no. 2, 20 December 2017 (2017-12-20) * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115356740A (zh) * | 2022-08-09 | 2022-11-18 | 群周科技(上海)有限公司 | 一种机载环境下的可降落区域降落定位方法 |
CN116630828A (zh) * | 2023-05-30 | 2023-08-22 | 中国公路工程咨询集团有限公司 | 基于地形环境适配的无人机遥感信息采集系统及方法 |
CN116630828B (zh) * | 2023-05-30 | 2023-11-24 | 中国公路工程咨询集团有限公司 | 基于地形环境适配的无人机遥感信息采集系统及方法 |
CN116381753A (zh) * | 2023-06-01 | 2023-07-04 | 北京航空航天大学 | Gnss/ins组合导航系统在gnss中断时的神经网络辅助导航方法 |
CN116381753B (zh) * | 2023-06-01 | 2023-08-15 | 北京航空航天大学 | Gnss/ins组合导航系统在gnss中断时的神经网络辅助导航方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114719848B (zh) | 2024-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3940421A1 (en) | Positioning method and device based on multi-sensor fusion | |
CN114719848B (zh) | 基于视觉与惯性导航信息融合神经网络的无人机高度估算方法 | |
CN109885080B (zh) | 自主控制系统及自主控制方法 | |
EP3158293B1 (en) | Sensor fusion using inertial and image sensors | |
US9031809B1 (en) | Method and apparatus for generating three-dimensional pose using multi-modal sensor fusion | |
US9766074B2 (en) | Vision-aided inertial navigation | |
Strydom et al. | Visual odometry: autonomous uav navigation using optic flow and stereo | |
CN106595659A (zh) | 城市复杂环境下多无人机视觉slam的地图融合方法 | |
US10322819B2 (en) | Autonomous system for taking moving images from a drone, with target tracking and improved target location | |
US20220292711A1 (en) | Pose estimation method and device, related equipment and storage medium | |
CN111338383B (zh) | 基于gaas的自主飞行方法及系统、存储介质 | |
Sanfourche et al. | Perception for UAV: Vision-Based Navigation and Environment Modeling. | |
CN114001733A (zh) | 一种基于地图的一致性高效视觉惯性定位算法 | |
CN115272596A (zh) | 一种面向单调无纹理大场景的多传感器融合slam方法 | |
CN111812978B (zh) | 一种多无人机协作slam方法与系统 | |
CN112556719A (zh) | 一种基于cnn-ekf的视觉惯性里程计实现方法 | |
Tarrio et al. | Realtime edge based visual inertial odometry for MAV teleoperation in indoor environments | |
CN112945233B (zh) | 一种全局无漂移的自主机器人同时定位与地图构建方法 | |
Li et al. | Metric sensing and control of a quadrotor using a homography-based visual inertial fusion method | |
Cristofalo et al. | Vision-based control for fast 3-d reconstruction with an aerial robot | |
CN113408623A (zh) | 非合作目标柔性附着多节点融合估计方法 | |
Zhu et al. | Autonomous reinforcement control of visual underwater vehicles: Real-time experiments using computer vision | |
CN116824433A (zh) | 基于自监督神经网络的视觉-惯导-雷达融合自定位方法 | |
CN112991400B (zh) | 一种无人艇的多传感器辅助定位方法 | |
JP2019023865A (ja) | エラー回復を実行するための方法、システム、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |