CN108227735B - 基于视觉飞行自稳定的方法、计算机可读介质和系统 - Google Patents

基于视觉飞行自稳定的方法、计算机可读介质和系统 Download PDF

Info

Publication number
CN108227735B
CN108227735B CN201711352780.6A CN201711352780A CN108227735B CN 108227735 B CN108227735 B CN 108227735B CN 201711352780 A CN201711352780 A CN 201711352780A CN 108227735 B CN108227735 B CN 108227735B
Authority
CN
China
Prior art keywords
camera pose
matrix
representing
estimated
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711352780.6A
Other languages
English (en)
Other versions
CN108227735A (zh
Inventor
孙昕尧
廖鑫鹏
任小波
汪灏泓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TCL Technology Group Co Ltd
Original Assignee
TCL Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TCL Technology Group Co Ltd filed Critical TCL Technology Group Co Ltd
Publication of CN108227735A publication Critical patent/CN108227735A/zh
Application granted granted Critical
Publication of CN108227735B publication Critical patent/CN108227735B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/08Control of attitude, i.e. control of roll, pitch, or yaw
    • G05D1/0808Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft
    • G05D1/0816Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft to ensure stability
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64UUNMANNED AERIAL VEHICLES [UAV]; EQUIPMENT THEREFOR
    • B64U20/00Constructional aspects of UAVs
    • B64U20/80Arrangement of on-board electronics, e.g. avionics systems or wiring
    • B64U20/87Mounting of imaging devices, e.g. mounting of gimbals
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0094Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots involving pointing a payload, e.g. camera, weapon, sensor, towards a fixed or moving target
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64UUNMANNED AERIAL VEHICLES [UAV]; EQUIPMENT THEREFOR
    • B64U10/00Type of UAV
    • B64U10/10Rotorcrafts
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64UUNMANNED AERIAL VEHICLES [UAV]; EQUIPMENT THEREFOR
    • B64U2101/00UAVs specially adapted for particular uses or applications
    • B64U2101/30UAVs specially adapted for particular uses or applications for imaging, photography or videography
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64UUNMANNED AERIAL VEHICLES [UAV]; EQUIPMENT THEREFOR
    • B64U2201/00UAVs characterised by their flight controls
    • B64U2201/10UAVs characterised by their flight controls autonomous, i.e. by navigating independently from ground or air stations, e.g. by using inertial navigation systems [INS]
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64UUNMANNED AERIAL VEHICLES [UAV]; EQUIPMENT THEREFOR
    • B64U60/00Undercarriages
    • B64U60/60Undercarriages with rolling cages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10032Satellite or aerial image; Remote sensing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2211/00Image generation
    • G06T2211/40Computed tomography
    • G06T2211/441AI-based methods, deep learning or artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Remote Sensing (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Mechanical Engineering (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Studio Devices (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于视觉飞行自稳定的方法、计算机可读介质和系统,所述方法包括接收由安装在无人机上的相机拍摄的一个以上的原始图像,接收用于稳定的初始参考图像并从所述初始参考图像获得初始相机位姿,提取连续图像之间的基本矩阵并估计相对于所述初始相机位姿的当前相机位姿,其中所述相机位姿包括所述相机的取向和位置,基于已估计的所述当前相机位姿,预测基于深度门控循环Q网络来抵消所述无人机的横向干扰的动作,和基于预测的所述动作来抵消所述无人机的横向干扰,驱动所述无人机回到所述初始相机位姿。

Description

基于视觉飞行自稳定的方法、计算机可读介质和系统
技术领域
本发明涉及计算机技术,特别涉及一种基于视觉飞行自稳定的方法、计算机可读介质和系统。
背景技术
飞行动力学(动态飞行稳定性和控制)在诸如无人驾驶飞行器(UAV)或无人机之类的移动平台的研究中是非常重要的。无人机通常需要一个高度稳定的定位系统,因为位置估计中的随机误差将产生不相干的控制动作,导致UAV的崩溃和贵重硬件的损失。目前,大多数无人机使用GPS获取位置。然而,GPS精度直接取决于估计位置的卫星数量多少。在城市环境,特别是室内环境中数量可以显然是不足的。
此外,用于横向稳定控制的常规方法是通过反馈状态变量来回应计算流体动力学(即横向平移速度,横摆率,滚动速度和滚动角度),其中,状态变量可以由无人机的感觉系统测量。然而,测量精度仍然低于室内环境应用的要求。
本发明公开的方法及其系统用于解决现有技术中的一个或者多个问题。
发明内容
一方面本发明公开了一种深度门控循环Q网络(DGRQN)用于无人驾驶飞行器(UAV)基于视觉飞行自稳的方法,其特征在于,所述方法包括接收由安装在无人机上的相机拍摄的一个以上的原始图像,接收用于稳定的初始参考图像并从所述初始参考图像获得初始相机位姿,提取连续图像之间的基本矩阵并估计相对于所述初始相机位姿的当前相机位姿,其中相机位姿包括所述相机的取向和位置,基于已估计的所述当前相机位姿,预测基于深度门控循环Q网络来抵消所述无人机的横向干扰的动作,和基于预测的所述动作来抵消所述无人机的横向干扰,驱动所述无人机回到所述初始相机位姿。
另一方面本发明还包括一种具有计算机程序的非暂时性计算机可读介质,当由处理器执行时,实现一种深度门控循环Q网络(DGRQN)用于无人驾驶飞行器(UAV)基于视觉飞行自稳的方法,所述方法包括接收由安装在无人机上的相机拍摄的一个以上的原始图像,接收用于稳定的初始参考图像并从所述初始参考图像获得初始相机位姿,提取连续图像之间的基本矩阵并估计相对于所述初始相机位姿的当前相机位姿,其中相机位姿包括所述相机的取向和位置,基于已估计的所述当前相机位姿,预测基于深度门控循环Q网络来抵消所述无人机的横向干扰的动作,和基于预测的所述动作来抵消所述无人机的横向干扰,驱动所述无人机回到所述初始相机位姿。
另一方面本发明还包括一种深度门控循环Q网络(DGRQN)用于无人驾驶飞行器(UAV)基于视觉飞行自稳的系统,所述系统包括相机位姿估计模块(CPE)和深度门控循环Q网络引擎模块,其中所述相机位姿估计模块用于接收由安装在无人机上的相机拍摄的一个以上的原始图像,提取连续图像之间的基本矩阵并估计相对于所述初始相机位姿的当前相机位姿,其中相机位姿包括所述相机的取向和位置;所述深度门控循环Q网络引擎模块用于基于已估计的所述当前相机位姿,预测基于深度门控循环Q网络来抵消所述无人机的横向干扰的动作,和基于预测的所述动作来抵消所述无人机的横向干扰,驱动所述无人机回到所述初始相机位姿。
本发明的其他方面,所属技术领域的技术人员能够依据本发明的权利要求书,说明书,以及附图有效实施并充分公开。
以下附图仅仅是用于解释本发明的具体实施例,并不限制本发明的范围。
附图说明
图1为本发明具体实施方式的工作环境示意图;
图2为本发明具体实施方式的计算机系统的结构框图;
图3为本发明具体实施方式的通过深度门控循环Q网络(DGRQN)实现用于UAV的基于视觉的飞行自稳定的系统结构框图;
图4为本发明具体实施方式的通过DGRQN实现用于UAV的基于视觉的飞行自稳定的方法流程图;
图5为本发明具体实施方式的相对于多个连续视图的初始相机位姿估计现在相机位姿的流程图;
图6为本发明具体实施方式的DGRQN;
图7为本发明具体实施方式的用于根据DGRQN预测无人机横向干扰的动作的方法流程图;
图8为本发明具体实施方式的单个门控循环单元(GRU);
图9为本发明具体实施方式的训练Q网络的方法。
具体实施方式
为了便于理解本发明,下面参照相关附图对本发明进行更全面的描述。下面将结合本发明实施例的附图,对本发明实施例的技术方案进行描述。除非另外指出,在各图中相同的参考数字用于相同或相似的部件。显然,所描述的实施例是本发明的实施例的一部分,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
鉴于GPS和感觉系统的不可用性和不准确性,本发明提供了一种用于无人机的通过深度门控循环Q网络(DGRQN)实现基于视觉的飞行自稳定的方法和系统。所公开的系统可以是用于无人机的智能自定位控制系统,其仅基于在室内环境中从车载单目相机捕获的视觉信息。可以改善无人机悬停状态下的自稳定性,并且可以实现在任何运动规划之前给定了初始参考相机视图的无人机的固有稳定性。没有抵抗横向干扰运动的能力,无人机可能很容易偏离预先设计的位置,并且因此可能干扰随后的视觉导航。
在所公开的实施例中,一旦无人机进入悬停状态,基于视觉的飞行自稳定问题可以变为了视觉场景匹配问题。通过给定初始参考相机视图来估计相对于目前为止捕获的多个视图的初始参考相机视图的相机运动,并且通过将无人机驱使回到其起点来抵消相机运动,从而来实现自稳定。
确定无人机是否稳定的标准可以取决于与原始视图的场景匹配的质量。在估计和抵消相机运动的过程中面临了大量不确定性的挑战,例如相机运动估计的准确性以及无人机的精确控制等。在大且高度动态的环境下,在未知环境中通过交互和分析反馈来推断无人机的最佳行为的方法是非常期望的。
此外,在公开的实施例中,基于增强学习范式,无人机可以学习最佳控制行为以通过探索实现自我稳定。尤其是,将初始相机位姿与迄今捕获的多个视图估计的位姿之间的差异结合到深度Q学习框架内的强化学习范式中。其真正的意图是,横向干扰引起的所述无人机运动和所述无人机的控制动作会起到两者相互抵消的作用。通过奖励高质量的场景匹配和惩罚低质量的场面匹配,所述无人机能够逐步学习最优控制的行为以实现自稳定。
图1为本发明具体实施方式的工作环境100示意图,如图1所示,所述环境100包括移动平台102,服务器104,用户106,网络108,其中也可以包括其他设备。所述移动平台102指包括任何合适的移动平台,例如,自行车,汽车,卡车,轮船,船,火车,直升机,飞机和各种混合动力车等。
所述移动平台102可以通过网络108回应来自用户106的命令。所述用户106可以使用遥控器110来控制移动平台102。所述遥控器110可以不连接到所述移动平台102并且可以从远处无线与所述移动平台102通信。所述移动平台102可以遵循一组预定指令。在某些实施例中,所述移动平台102可以通过回应用户106的一个或多个命令半自主地操作,而其他是自主地操作。
在一个实施例中,所述移动平台102可以是无人驾驶飞行器(UAV)或无人机102。各种类型的无人机102可以适用于所公开的系统和方法。例如,所述无人机102可以是由多个旋转器推动的空中旋翼飞机。如图1所示,所述无人机102可以包括机身1021,一个以上旋转器1022和一个或一个以上起落架1023。也可以包括其他合适的部件。
所述机身1021可以包括控制单元,惯性测量单元(IMU),处理器,电池,电源和/或其他传感器。所述旋转器1022可以经由从所述机身1021的边缘或中心部分分支的一个或一个以上臂或延伸部连接到所述机身1021,并且一个或一个以上臂可以在臂的端部处或附近具有所述旋转器1022。所述旋转器1022可以旋转以产生用于无人机102的升力,并且所述无人机102能够通过空气自由移动的推进单元。所述起落架1023可以支撑所述无人机102的重量,并提供滚动底盘/滑行和减震功能。
此外,一个或一个以上图像传感器1024可以安装在无人机102上。所述图像传感器1024可以是基于各种机构的图像传感器,诸如超声波检测器,雷达,单目相机和双目相机等等。所述图像传感器1024可以直接安装在无人机102的所述机身1021上。在一些实施例中,所述无人机102还可以包括设置在所述无人机102的所述机身1021表面上的万向节机构1025。所述图像传感器1024可以附属于所述万向节机构1025,为所述图像传感器1024提供了关于所述机身1021的一个或一个以上轴的旋转自由度。
所述服务器104可以包括用于向所述用户106提供个性化内容的任何适当类型的计算机服务器或一个或一个以上计算机服务器。例如,所述服务器104可以是云计算服务器。所述服务器104还可以促进其他服务器和所述移动平台102之间的通信,数据存储和数据处理。所述移动平台102和所述服务器104可以通过一个或多个通信网络108彼此通信,诸如有线网络,无线网络和/或卫星网络等。
所述移动平台102和/或所述服务器104可以在任何适当的计算电路平台上实现。图2是能够实现所述移动平台102和/或所述服务器104的计算机系统的结构框图。
如图2所示,所述计算机系统200包括处理器202,存储介质204,显示器206,通讯模块208,数据库214以及外围设备212。其中某些组件可被省略,也可以包括其他组件。
所述处理器202可以包括任何合适的一个或多个处理器。具体的,所述处理器202可以包括用于多线程或并行处理的多个核心。所述存储介质204可以包括内存模块,如ROM、RAM、闪存模块和大容量存储器,比如CD-ROM和硬盘等。所述存储介质204可以存储有计算机程序,当所述处理器202执行这些计算机程序时,可以实现各种方法步骤。
具体的,所述外围设备212可以包括各种传感器和I/O设备,比如键盘和鼠标,所述通讯模块208包括用于通过交流网络建立连接的网络交互设备。所述数据库214包括一个或多个数据库以用于存储某些数据以及在存储数据中的进行某些操作,如数据库搜索。
回到图1,通过深度门控循环Q网络实现基于视觉的飞行自稳定系统可以应用所述移动平台102。图3为本发明具体实施方式的通过深度门控循环Q网络(DGRQN)实现用于UAV基于视觉的飞行自稳定的系统。如图3所示,UAV的通过DGRQN实现视觉自稳定系统300包括相机位姿估计(CPE)模块302和深度门控循环Q-网络(DGRQN))引擎模块304。所述CPE模块302还可以包括初始化模块3022和位姿估计模块3024。
所述CPE模块302可以用于为接收一个或一个以上原始图像或原始视图301,在连续视图之间提取基本矩阵,并且相对于初始相机位姿估计当前相机位姿。特别地,所述初始化模块3022可以用于接收为了稳定的参考图像(即,I_ref),并从所述初始参考图像获得初始相机位姿。所述位姿估计模块3024可以用于在连续视图之间提取基本矩阵,并且相对于初始相机位姿估计当前相机位姿。
在一实施例中,所述位姿估计模块3024可以根据来自于两个连续视图的所述初始相机位姿来估计所述当前相机位姿。在另一实施例中,所述位姿估计模块3024可以根据来自于多个连续视图(大于两个)的所述初始相机位姿来估计当所述当前相机位姿。
应当注意,所述位姿估计模块3024可以用于仅在初始化之后估计所述当前相机位姿,即,所述初始化模块3022已经接收到用于稳定的所述参考图像(即,I_ref)。如此初始化可以促进所述初始参考图像和所述后续图像之间的所述场景匹配。
所述DGRQN引擎模块304可以包括增强学习引擎,所述增强学习引擎可以通过无模式强化学习技术Q学习推动的最终神经网络来实现。所述DGRQN引擎模块304可以用于将所述已估计的相机位姿作为所述输入进行编码,预测理想动作305以抵消所述无人机的横向干扰,并且驱使无人机回到其初始位置。在所述无人机行动有明确计划的情况下,增强学习的参与可以减轻其负担。
在一些实施例中,所述UAV通过所述DGRQN的实现基于视觉的飞行自稳定系统300还包括用于为训练Q网络的Q网络训练模块。所述初步模块,所述CPE模块,所述DGRQN引擎模块和所述Q网络训练模块的详细功能将在通过深度门控循环Q-网络(DGRQN)实现基于视觉的飞行自稳定的方法的描述中进一步说明。图4所示为本发明具体实施方式的通过深度门控循环Q-网络(DGRQN)实现基于视觉的飞行自稳定的方法流程图。
如图4所示,开始时接收多个原始图像或原始视图(S402)。特别地,可以通过诸如超声,视觉,飞行时间(TOF)和雷达等各种方法来接收所述原始图像。在所公开的实施例中,可以通过安装在无人机上的单眼相机接收所述原始输入图像,同时接收用于稳定的初始参考图像(即,I_ref),并且从所述初始参考图像获得初始相机位姿(S404)。
在获得用于稳定的所述初始参考图像(即,I_ref)之后,提取连续视图之间的基本矩阵,并且相对于所述初始相机位姿估计当前相机位姿(S406)。
在一个实施例中,可以从两个连续视图中提取连续视图之间的基本矩阵,并且可以从两个连续视图估计当前相机相对于在初始参考图像中获得的初始相机位姿的位姿。特别地,在第一视图和第二视图中分别用同质3维向量q和q'表示图像点。同质的4维向量Q表示世界点。图像投影q~PQ的3×4相机矩阵P表示透视图,其中~表示比例的相等。具有有限投影中心的视图可以被分解为P=K[R|T],其中K是保持固有参数的三角校准矩阵并且R是旋转矩阵。第一视图和第二视图的相机矩阵分别为K1[I|0]和K2[R|T]。[T]×是斜对称矩阵,表示为:
Figure GDA0003080607550000071
因此对所有x来说,[T]×x=T×x。然后,第一视图和第二视图之间的基本矩阵表示为:
Figure GDA0003080607550000072
所述基本矩阵可以根据如下等式(3)编码为共面约束或极线约束:
q′TFq=0 (3)
在不知道校准矩阵的情况下,可以考虑第一视图和第二视图之间的基本矩阵。此外,当投影中心不是有限时,基本矩阵可以继续存在。如果K1和K2是已知的,可以认为相机已被校准。在所公开的实施例中,可以认为图像点q和q'分别预先乘以
Figure GDA0003080607550000081
Figure GDA0003080607550000082
并且可以将极线约束简化为:
q′TEq=0, (4)
其中,所述矩阵E=[T]×R是必要矩阵。
根据相机是否已被校准,可以使用用于求解F的8点算法或用于求解E的5点算法。例如,给定基本矩阵E,可以通过使用奇异值分解(SVD)来恢复R和t,即E=UΣVT。令
Figure GDA0003080607550000083
以下公式6中所示的E=[R|t]的四个解决方案,所述四种解决方案是R(即,R1和R2)的两种可能解决方案以及T(即,T1和T2)的两种可能解决方案,所述公式6如下所示:
R1=UWVT,R2=UWTVT,T1=U3,T2=-U3 (6)
为了选择真实的配置,首先计算R的行列式,并且需要det(R)=1时有有效解,因为det(R)=-1指R是映射。然后可以使用三角互证来计算3D点,并且有效的解可以具有正的Z值。
在另一个实施例中,从多个(多于两个)连续视图中提取连续视图之间的基本矩阵,并且从多个(多于两个)连续视图中,估计相对初始相机位姿的当前相机位姿,所述初始相机位姿在初始参考图像中获得。可以认为从具有多个视图的运动获取结构是从一组二维视图估计三维结构的过程。在所公开的实施例中,可以认为从一组二维视图估计所述三维结构的处理是当所述无人机飞行时从一系列视图估计已校准相机位姿的过程,并同时重建所述场景达到未知的比例因子的三维结构。
图5为本发明具体实施方式的相比于多个连续视图的初始相机位姿估计现在相机位姿的流程图。如图5所示,从多个(多于两个)连续视图中提取连续视图之间的基本矩阵,并且从多个(多于两个)连续视图估计相对于所述初始相机位姿的当前相机位姿可以包括以下步骤:
步骤S502:对于每对连续的图像,相对点跟踪器找到一组点;
步骤S504:估计当前视图的相对相机位姿,其中当前视图的相对相机位姿包括相对于之前视图的当前视图的相机取向和位置;
步骤S506:将所述当前视图的所述相对相机位姿变换为序列的第一视图I_ref(即,初始参考图像)的坐标系统;
步骤S508:存储包括所述相机位姿和所述图像点的当前视图属性;
步骤S510:存储先前视图和当前视图之间的所述初始匹配;
步骤S512:给定I_ref,通过目前为止接收到的所有视图找到点轨迹;
步骤S514:应用具有多个视图的三角互证来计算对应于点轨迹的初始三维位置;
步骤S516:应用光束平差法同时改进相机位姿和三维点;和
步骤S518:给出目前为止的所有视图,通过矩阵乘法求出相对于所述第一视图I_ref的最终旋转R和平移T.特别地,每个时间戳t的矩阵中的所述旋转R和所述平移T可以存储在如下的等式(7)中的Ht
Figure GDA0003080607550000091
回到图4,在相对于从所述初始参考图像(即I_ref)获得的相对初始相机位姿的所述当前相机位姿之后,基于深度门控循环Q网络(DGRQN)来预测用于抵消UAV的横向干扰的理想动作(S408)。
在游戏上,深度Q网络(DQN)已经显示出它们学习人类水平控制策略的能力。然而,仅使用最后几个系统状态训练所述经典DQN作为输入,这限制了任务中需要长期存储器模型的性能。在所公开的实施例中,为了防止所述无人机漂移,该序列的信息对于防止无人机漂移是非常重要的。另一方面,循环神经网络(RNN)在序列处理任务中学习能力很强。所述DGRQN可以用于将所述门控RNN和简化的深度Q网络结合。
图6为本发明具体实施方式的深度门控循环Q网络(DGRQN)。如图6所示,所述DGRQN可以包括特征编码602,深度神经网络(DNN)604,深度门控循环神经网络(DGRN)606和Q学习608。图7为本发明具体实施方式的用于预测基于深度门控循环Q网络DGRQN的无人机抵消横向干扰的理想动作的方法流程图。
如图7所示,首先,将所述所述已估计的相机位姿编码为用作DGRQN输入的特征向量(S702)。特别地,如图6所示,所述DGRQN的原始输入可以是每个时间戳t的4×4矩阵Ht。然后,可以根据以下等式8将Ht编码为6个特征向量v(θrollpitchyaw,Tx,Ty,Tz)的长度,等式(8)如下所示:
Figure GDA0003080607550000101
其中θroll表示方向的滚动角,且θroll=atan2(h32,h33);θpitch表示方向的俯仰角,
Figure GDA0003080607550000102
θywa表示方向的偏航角,且θyaw=atan2(h21h11);Tx表示x轴上的平移,且Tx=h14;Ty表示y轴上的平移,Ty=h24;Tz表示z轴上的平移,Tz=h34。所述已编码的特征向量v(θrollpitchyaw,Tx,Ty,Tz)会由于所述已估计的无人机当前位姿与所述无人机的初始位姿之间的变化而呈现无人机的当前状态。
返回到图7,在将已估计的相机位姿编码为特征向量后,所述特征向量由深度神经网络(DNN)处理(S704)。特别地,如图6所示,将所述特征向量传递到三个隐层的DNN604,并且相应数量的隐藏单元可以是150,200和100。所有单元之后可以是带漏洞的线性修正单元(LReLU)。可以将所述DNN 604的输出馈送到DGRN 606。
返回如图7,在由DNN处理所述特征向量之后,由深度门控的神经网络(DGRN)处理所述特征向量(S706)。可以认为无人机的运动是随时间变化的位姿序列,因此,基于无人机之前的状态执行动作是非常期望的。在所公开的实施例中,可以采用作为长短期记忆循环神经网络(LSTM RNN)变量的双层DGRN。所述双层DGRN可以将经典的长短期记忆(LSTM)单元的忘记门和输入门组合成一个“更新门”。
图8为本发明具体实施方式的单个门控循环单元(GRU)800。如图8所示,所述信号GRU800将xt和最后一步单位的输出ht-1作为输入。同时,ht表示GRU800的输出,并且可以将ht馈送到下一个RNN层和下一步的GRU。所公开的DGRQN可以具有两层门控神经网络(GRN),所述GRN可以采用先前的DNN输出作为输入。可以将GRN的输出形成为每个候选动作的Q值的向量。
由每个GRU 800执行的计算由以下等式表示:
zt=σ(Wz·[ht-1,xt]) (9)
rt=σ(Wr·[ht-1,xt]) (10)
Figure GDA0003080607550000111
Figure GDA0003080607550000112
返回图7,在通过所述DGRN处理所述特征向量之后,通过Q学习处理所述特征向量以获得所述已估计的当前相机位姿与所述初始相机位姿之间的差异(S708)。特别地,所述增强学习可以允许机器通过交互和接收来自随机环境的反馈来学习作为代理的最佳行为。所述强化学习的经典模型具有作为马尔可夫决策过程(MDP)的形式化环境,并且可以由四元组(S,A,P,R)表示来描述。在每个时间戳t,系统观察状态st∈S,,并执行导致奖励rt~R(st,at)和下一状态st+1~P(st,at).的动作at∈A。
Q学习是一种用于估计在给定状态下执行操作的最大最终奖励值的策略。Q学习将Q函数Q(st,at)定义为系统在状态st执行at的最佳最终奖励。然后根据下一个状态的Q值,可以通过以下等式(13)获得当前状态Q值,等式(13)如下所述:
Figure GDA0003080607550000121
其中r表示当前状态下的实例报酬。在所公开的实施例中,奖励可以通过等式(14)计算,等式(14如下),
Figure GDA0003080607550000122
其中I表示4×4的恒等矩阵。r的值显示所述已估计的当前相机位姿与所述初始相机位姿之间的差异。
使用优化的Q函数,所述代理只需要在每个状态下执行最高Q值的动作。所述深度Q网络框架可以克服传统Q学习中的挑战,例如,在真正任务中的大量独特状态可以使学习不可训练。所公开的方法可以通过查询来自网络的输出来在线估计Q值。所述最终网络的所述最终输出层可以具有8的长度以呈现8种不同动作的Q值(所有加法,滚动,俯仰和偏航上的正和负运动)。所述激活函数可以是线性回归,因为Q值可以是任何实数。在所公开的实施例中,所述已编码特征向量vt呈现所述状态st
在某些实施例中,用于无人机的深度门控循环Q网络的视觉的自稳定的方法还包括训练Q网络以获得最终网络。在训练中采用所述平方误差损失函数等式(15),等式(15)如下所示:
Figure GDA0003080607550000123
图9所示为本发明具体实施方式的训练Q网络的方法。如图9所示,训练Q网络包括以下所述步骤:
步骤S902:基于所述当前状态st,通过整个所述RDQN进行正向传播,获得每个动作的Q值预测的向量,并执行动作at
步骤S904:基于下一个状态st+1,执行正向传播并选择最大输出的Q值作为所述
Figure GDA0003080607550000124
步骤S906:设定动作的目标值at作为
Figure GDA0003080607550000125
并计算损失;和
步骤S908:执行反向传播来更新权重。
如图4所示,在根据深度门控循环Q网络(DGRQN)预测到抵消无人机横向打扰的理想动作之后,所述UAV被驱动回到其初始位置,从而实现自稳定(S410)。
所公开的飞行自稳定系统和方法可以仅需要视觉信息,即由车载单目相机拍摄的多个相机视图来抵消横向干扰。也就是说,所公开的飞行自稳定系统和方法可以仅对图像或视觉传感器进行回应。给定初始参考图像,基于与所述相机位姿估计结合的状态评估机制,所公开的飞行自稳定系统和方法能够逐渐地了解在开放环境中实现自稳定的最佳控制行为。所述深度Q框架可以基于由循环神经网络(RNN)启用的长/短期状态存储器来学习这种最佳控制行为。
此外,所公开的修改的深度Q框架可以用从所述相机位姿估计模块提取的输入替代来自卷积神经网络(CNN)的输入,从而提高计算效率。DGRQN控制引擎目标的设计可以实现无人机在无需手动拼接条件下仍智能地停留在初始位姿。与传统的深Q网络相比,所公开的系统可以采用所述相机位姿估计模块来提取无人机的位姿信息,通过该位姿信息可以允许网络获得基于视觉的特征,而不是通过常规处理。
所公开的框架可以简化整个系统并降低计算成本,这可以满足安装在低端无人机中的车载处理器的系统要求以实现实时处理。此外,已修改的DGRQN可以允许系统具有比传统深度Q网络更多帧的存储空间,这可以会提高最终动作决策的最优性,因为结果不仅与当前状态相关,而且与先前帧相关。
这些技术将进一步转化,本发明具体实施例提供将各种显示模块和方法步骤用做电子硬件,计算机软件,或者软硬件结合。为了清楚说明软硬件的互换性,各种显示,单元和步骤已在上文就其功能进行描述。在软硬件上是否能够实施此功能取决于具体应用和对全系统的限制。本领域技术人员可以对于每个具体申请采用各种方法实施上述描述的功能,但是不应该将这些实施决定解释为不在本发明保护范围内。
本发明提供实例用于向本领域普通技术人员描述本发明。对所述实例的各种修改对本领域普通技术人员是显而易见的,并且在本发明实施例中给出的一般性原则在不脱离本发明的精神或者保护范围的情况下,也可以应用于其他实施例中。因此,本发明不限于本文所述实例中,而应给予本发明实例所述原则和新特征的更广范的领域。

Claims (20)

1.一种深度门控循环Q网络用于基于视觉飞行自稳的方法,其特征在于,所述方法包括:
接收由安装在无人机上的相机拍摄的一个以上的原始图像;
接收用于稳定的初始参考图像并从所述初始参考图像获得初始相机位姿;
提取连续图像之间的基本矩阵并估计相对于所述初始相机位姿的当前相机位姿,其中相机位姿包括所述相机的取向和位置;
基于已估计的所述当前相机位姿,预测基于所述深度门控循环Q网络来抵消所述无人机的横向干扰的动作;和
基于预测的所述动作来抵消所述无人机的横向干扰,驱动所述无人机回到所述初始相机位姿。
2.根据权利要求1所述的深度门控循环Q网络用于基于视觉飞行自稳的方法,其特征在于,所述的提取连续图像之间的基本矩阵并估计相对于所述初始相机位姿的所述当前相机位姿还包括:
从两个以上的所述连续图像中提取所述基本矩阵并估计相对于所述初始相机位姿的所述当前相机位姿,包括:
对于每对所述连续图像,相对点跟踪器找到一组点;
估计在当前时间戳接收的当前图像的相对相机位姿,其中所述当前图像 的所述相对相机位姿包括所述当前图像相对于在先前时间戳接收的先前图像的相机取向和位置;
将所述当前图像的所述相对相机位姿变换为序列的所述初始参考图像的坐标系;
存储包括所述相机位姿和图像点在内的当前图像属性;
存储所述先前图像和所述当前图像之间的初始匹配;
给出所述初始参考图像,找到所有接收到的图像的点轨迹;
应用具有一个以上视图的三角互证来计算对应于所述点轨迹的初始三维位置;
应用光束平差法以同时改善相机位姿和三维点;和
给出所有接收到的所述图像,通过矩阵乘法得到相对于所述初始参考图像的旋转矩阵R和平移矩阵T,其中将时间戳t处的所述旋转矩阵R和所述平移矩阵T存储为
Figure FDA0003080607540000021
3.根据权利要求1所述的深度门控循环Q网络用于基于视觉飞行自稳的方法,其特征在于,所述的提取连续图像之间的基本矩阵并估计相对于所述初始相机位姿的所述当前相机位姿还包括:
提取两个连续图像之间的基本矩阵,并从两个连续图像估计相对于所述初始相机位姿的所述当前相机位姿,
其中所述基本矩阵F被计算为
Figure FDA0003080607540000022
其中[T]×表示一个斜对称矩阵,表示为
Figure FDA0003080607540000023
K1和K2分别用于两个连续图像中的第一图像和的第二图像的相机矩阵,R表示旋转矩阵,T表示平移矩阵,t1表示所述斜对称矩阵中第三行第二列的数值,t2表示所述斜对称矩阵中第一行第三列的数值,t3表示所述斜对称矩阵中第二行第一列的数值;
和所述当前相机机位姿被计算为R1=UWVT,R2=UWTVT,T1=U3,T2=-U3,其中
Figure FDA0003080607540000024
E=[T]×R=UΣVT,E表示必要矩阵,R1表示所述旋转矩阵R的一种解决方案,R2表示所述旋转矩阵R的另一种解决方案,T1表示所述平移矩阵T的一种解决方案,T2表示所述平移矩阵T的另一种解决方案,当det(R1)=1时,R1有效,当det(R2)=1时,R2有效,当三维点的z值为正时,T1是有效的,T2是有效的,将时间戳t处的所述旋转矩阵R和所述平移矩阵T存储为
Figure FDA0003080607540000025
4.根据权利要求1所述的深度门控循环Q网络用于基于视觉飞行自稳的方法,其特征在于,所述的预测基于深度门控循环Q网络来抵消所述无人机的横向干扰的动作还包括:
将所述已估计的相机位姿编码为特征向量;
通过深度神经网络处理所述特征向量;
通过深度门控循环神经网络处理所述深度神经网络处理过的所述特征向量;和
通过Q学习处理所述特征向量以获得所述已估计的当前相机位姿与所述初始相机位姿之间的差异。
5.根据权利要求4所述的深度门控循环Q网络用于基于视觉飞行自稳的方法,其特征在于,将所述已估计的相机位姿编码为特征向量还包括:
将所述已估计的相机位姿Ht编码为6个特征向量v(θrollpitchyaw,Tx,Ty,Tz),其中
Figure FDA0003080607540000031
其中θroll表示方向的滚动角,θroll=atan2(h32,h33);θpitch表示方向的俯仰角,
Figure FDA0003080607540000032
θywa表示方向的偏航角,θyaw=atan2(h21,h11);Tx表示x轴上的平移,Tx=h14;Ty表示y轴上的平移,Ty=h24;Tz表示z轴上的平移,Tz=h34;h11表示所述已估计的相机位姿Ht的矩阵中第一行第一列的数值;h12表示所述已估计的相机位姿Ht的矩阵中第一行第二列的数值;h13表示所述已估计的相机位姿Ht的矩阵中第一行第三列的数值;h14表示所述已估计的相机位姿Ht的矩阵中第一行第四列的数值;h21表示所述已估计的相机位姿Ht的矩阵中第二行第一列的数值;h22表示所述已估计的相机位姿Ht的矩阵中第二行第二列的数值;h23表示所述已估计的相机位姿Ht的矩阵中第二行第三列的数值;h24表示所述已估计的相机位姿Ht的矩阵中第二行第四列的数值;h31表示所述已估计的相机位姿Ht的矩阵中第三行第一列的数值;h32表示所述已估计的相机位姿Ht的矩阵中第三行第二列的数值;h33表示所述已估计的相机位姿Ht的矩阵中第三行第三列的数值;h34表示所述已估计的相机位姿Ht的矩阵中第三行第四列的数值。
6.根据权利要求5所述的深度门控循环Q网络用于基于视觉飞行自稳的方法,其特征在于,所述深度门控循环神经网络还包括一个以上门控循环单元,通过所述深度门控循环神经网络处理所述深度神经网络处理过的所述特征向量包括,
在门控循环单元中执行以下计算
zt=σ(Wz·[ht-1,xt])
rt=σ(Wr·[ht-1,xt])
Figure FDA0003080607540000033
Figure FDA0003080607540000034
其中,ht代表所述门控循环单元,ht提供给下一个循环神经网络层和下一个所述门控循环单元,ht-1表示先前的所述门控循环单元的输出。
7.根据权利要求4所述的深度门控循环Q网络用于基于视觉飞行自稳的方法,其特征在于,所述的通过Q学习处理所述特征向量以获得所述已估计的当前相机位姿与所述初始相机位姿之间的差异还包括:
基于下一个状态的Q值,通过
Figure FDA0003080607540000041
计算当前状态Q值,其中r表示当前状态下的实际奖励,st表示当前状态,at表示所述当前状态的动作,st+1表示下一状态,at+1表示所述下一状态的动作,
Figure FDA0003080607540000042
表示所述下一个状态的最佳最终奖励,
Figure FDA0003080607540000043
Figure FDA0003080607540000044
I表示4×4单位矩阵,r值表示所述已估计的当前相机位姿与所述初始相机位姿之间的差异,i表示矩阵中的行数,j表示矩阵中的列数,Ht表示所述已估计的相机位姿。
8.根据权利要求1所述的深度门控循环Q网络用于基于视觉飞行自稳的方法,其特征在于,训练所述Q网络,其中训练所述Q网络包括:
基于当前状态st,执行通过整个循环深度Q网络的正向传播,获得每个动作的Q值预测的向量,并执行动作at
基于下一个状态st+1,执行正向传播并选择最大输出的所述Q值作为
Figure FDA0003080607540000045
表示所述下一个状态的最佳最终奖励,at+1为所述下一个状态执行的动作;
将所述动作at的目标值设定为
Figure FDA0003080607540000046
并计算损失,rt为当前状态下的实际奖励;和
执行反向传播来更新权重,
其中平方误差损失函数
Figure FDA0003080607540000047
用于训练所述Q网络。
9.一种具有计算机程序的非暂时性计算机可读介质,当由处理器执行时,实现深度门控循环Q网络用于基于视觉飞行自稳的方法,所述方法包括:
接收由安装在无人机上的相机拍摄的一个以上的原始图像;
接收用于稳定的初始参考图像并从所述初始参考图像获得初始相机位姿;
提取连续图像之间的基本矩阵并估计相对于所述初始相机位姿的当前相机位姿,其中相机位姿包括所述相机的取向和位置;
基于已估计的所述当前相机位姿,预测基于深度门控循环Q网络来抵消所述无人机的横向干扰的动作;和
基于预测的所述动作来抵消所述无人机的横向干扰,驱动所述无人机回到所述初始相机位姿。
10.根据权利要求9所述的具有计算机程序的非暂时性计算机可读介质,其特征在于,所述的提取连续图像之间的基本矩阵并估计相对于所述初始相机位姿的当前相机位姿还包括:
从两个以上的所述连续图像中提取所述基本矩阵并估计相对于所述初始相机位姿的所述当前相机位姿,包括,
对于每对所述连续图像,相对点跟踪器找到一组点;
估计在当前时间戳接收的当前图像的相对相机位姿,其中所述当前图像 的所述相对相机位姿包括所述当前图像相对于在先前时间戳接收的先前图像的相机取向和位置;
将所述当前图像的所述相对相机位姿变换为序列的所述初始参考图像的坐标系;
存储包括所述相机位姿和图像点在内的当前图像属性;
存储所述先前图像和所述当前图像之间的初始匹配;
给出所述初始参考图像,找到所有接收到的图像的点轨迹;
应用具有一个以上视图的三角互证来计算对应于所述点轨迹的初始三维位置;
应用光束平差法以同时改善相机位姿和三维点;和
给出所有接收到的所述图像,通过矩阵乘法得到相对于所述初始参考图像的旋转矩阵R和平移矩阵T,其中将时间戳t处的所述旋转矩阵R和所述平移矩阵T存储为
Figure FDA0003080607540000051
11.根据权利要求9所述的具有计算机程序的非暂时性计算机可读介质,其特征在于,所述的提取连续图像之间的基本矩阵并估计相对于所述初始相机位姿的当前相机位姿还包括:
提取两个所述连续图像之间的所述基本矩阵,并从两个连续图像估计相对于所述初始相机位姿的所述当前相机位姿,
其中由
Figure FDA0003080607540000061
计算所述基本矩阵F,其中[T]×表示一个斜对称矩阵,表示为
Figure FDA0003080607540000062
K1和K2分别用于两个连续图像中的第一图像和的第二图像的相机矩阵,R表示旋转矩阵,T表示平移矩阵,t1表示所述斜对称矩阵中第三行第二列的数值,t2表示所述斜对称矩阵中第一行第三列的数值,t3表示所述斜对称矩阵中第二行第一列的数值;和所述当前相机机位姿被计算为R1=UWVT,R2=UWTVT,T1=U3,T2=-U3,其中
Figure FDA0003080607540000063
E=[T]×R=UΣVT,E表示必要矩阵,R1表示所述旋转矩阵R的一种解决方案,R2表示所述旋转矩阵R的另一种解决方案,T1表示所述平移矩阵T的一种解决方案,T2表示所述平移矩阵T的另一种解决方案,当det(R1)=1时,R1有效,当det(R2)=1时,R2有效,当三维点的z值为正时,T1是有效的,T2是有效的,将时间戳t处的所述旋转矩阵R和所述平移矩阵T存储为
Figure FDA0003080607540000064
12.根据权利要求9所述的具有计算机程序的非暂时性计算机可读介质,其特征在于,基于所述已估计的当前相机位姿,预测基于深度门控循环Q网络来抵消所述无人机的横向干扰的动作还包括:
将所述已估计的相机位姿编码为特征向量;
通过深度神经网络处理所述特征向量;
通过深度门控循环神经网络处理所述深度神经网络处理过的所述特征向量;和
通过Q学习处理所述特征向量以获得所述已估计的当前相机位姿与所述初始相机位姿之间的差异。
13.根据权利要求12所述的具有计算机程序的非暂时性计算机可读介质,其特征在于,所述将所述已估计的相机位姿编码为特征向量还包括:
将所述已估计的相机位姿Ht编码为6个特征向量v(θrollpitchyaw,Tx,Ty,Tz),其中
Figure FDA0003080607540000071
其中θroll表示方向的滚动角,θroll=atan2(h32,h33);θpitch表示方向的俯仰角,
Figure FDA0003080607540000072
θywa表示方向的偏航角,θyaw=atan2(h21,h11);Tx表示x轴上的平移,Tx=h14;Ty表示y轴上的平移,Ty=h24;Tz表示z轴上的平移,Tz=h34;h11表示所述已估计的相机位姿Ht的矩阵中第一行第一列的数值;h12表示所述已估计的相机位姿Ht的矩阵中第一行第二列的数值;h13表示所述已估计的相机位姿Ht的矩阵中第一行第三列的数值;h14表示所述已估计的相机位姿Ht的矩阵中第一行第四列的数值;h21表示所述已估计的相机位姿Ht的矩阵中第二行第一列的数值;h22表示所述已估计的相机位姿Ht的矩阵中第二行第二列的数值;h23表示所述已估计的相机位姿Ht的矩阵中第二行第三列的数值;h24表示所述已估计的相机位姿Ht的矩阵中第二行第四列的数值;h31表示所述已估计的相机位姿Ht的矩阵中第三行第一列的数值;h32表示所述已估计的相机位姿Ht的矩阵中第三行第二列的数值;h33表示所述已估计的相机位姿Ht的矩阵中第三行第三列的数值;h34表示所述已估计的相机位姿Ht的矩阵中第三行第四列的数值;
所述深度门控循环神经网络还包括一个以上门控循环单元,通过所述深度门控循环神经网络处理所述深度神经网络处理过的所述特征向量包括,
在门控循环单元中执行以下计算
zt=σ(Wz·[ht-1,xt])
rt=σ(Wr·[ht-1,xt])
Figure FDA0003080607540000073
Figure FDA0003080607540000074
其中,ht代表所述门控循环单元,ht提供给下一个循环神经网络层和下一个所述门控循环单元,ht-1表示先前的所述门控循环单元的输出;和
所述通过Q学习处理所述特征向量以获得所述已估计的当前相机位姿与所述初始相机位姿之间的差异还包括:
基于下一个状态的Q值,通过
Figure FDA0003080607540000081
计算当前状态Q值,其中r表示当前状态下的实际奖励,st表示当前状态,at表示所述当前状态的动作,st+1表示下一状态,at+1表示所述下一状态的动作,
Figure FDA0003080607540000082
表示所述下一个状态的最佳最终奖励,
Figure FDA0003080607540000083
Figure FDA0003080607540000084
I表示4×4单位矩阵,r值表示所述已估计的当前相机位姿与所述初始相机位姿之间的差异,i表示矩阵中的行数,j表示矩阵中的列数。
14.根据权利要求9所述的具有计算机程序的非暂时性计算机可读介质,其特征在于,训练所述Q网络,其中训练所述Q网络包括:
基于当前状态st,执行通过整个循环深度Q网络的正向传播,获得每个动作的Q值预测的向量,并执行动作at
基于下一个状态st+1,执行正向传播并选择最大输出的所述Q值作为
Figure FDA0003080607540000085
表示所述下一个状态的最佳最终奖励,at+1为所述下一个状态执行的动作;
将动作at的目标值设定为
Figure FDA0003080607540000086
并计算损失,rt为当前状态下的实际奖励;和
执行反向传播来更新权重,
其中平方误差损失函数
Figure FDA0003080607540000087
用于训练所述Q网络。
15.一种深度门控循环Q网络用于基于视觉飞行自稳的系统,其特征在于,所述系统包括:
相机位姿估计模块:用于接收由安装在无人机上的相机拍摄的一个以上的原始图像,接收用于稳定的初始参考图像并从所述初始参考图像获得初始相机位姿,提取连续图像之间的基本矩阵并估计相对于所述初始相机位姿的当前相机位姿,其中相机位姿包括所述相机的取向和位置;和
深度门控循环Q网络引擎模块:用于基于已估计的所述当前相机位姿,预测基于深度门控循环Q网络来抵消所述无人机的横向干扰的动作;和
基于预测的所述动作来抵消所述无人机的横向干扰,驱动所述无人机回到所述初始相机位姿。
16.根据权利要求15所述的深度门控循环Q网络用于基于视觉飞行自稳的系统,其特征在于,所述相机位姿估计模块还包括初始模块和位姿估计模块:
所述初始模块:用于初始化用于稳定的初始参考图像并从所述初始参考图像获得初始相机位姿;和
所述位姿估计模块:用于从两个以上的所述连续图像中提取所述基本矩阵并估计相对于所述初始相机位姿的所述当前相机位姿,包括,
对于每对所述连续图像,相对点跟踪器找到一组点;
估计在当前时间戳接收的当前图像的相对相机位姿,其中所述当前图像 的所述相对相机位姿包括所述当前图像相对于在先前时间戳接收的先前图像的相机取向和位置;
将所述当前图像的所述相对相机位姿变换为序列的所述初始参考图像的坐标系;
存储包括所述相机位姿和图像点在内的当前图像属性;
存储所述先前图像和所述当前图像之间的初始匹配;
给出所述初始参考图像,找到所有接收到的图像的点轨迹;
应用具有一个以上视图的三角互证来计算对应于所述点轨迹的初始三维位置;
应用光束平差法以同时改善相机位姿和三维点;和
给出所有接收到的所述图像,通过矩阵乘法得到相对于所述初始参考图像的旋转矩阵R和平移矩阵T,其中将时间戳t处的所述旋转矩阵R和所述平移矩阵T存储为
Figure FDA0003080607540000091
17.根据权利要求15所述的深度门控循环Q网络用于基于视觉飞行自稳的系统,其特征在于,所述的相机位姿估计模块还包括初始模块和相机位姿估计:
其中,所述初始模块:用于初始化用于稳定的初始参考图像并从所述初始参考图像获得初始相机位姿;和
所述相机位姿估计化模块:用于提取两个连续图像之间的基本矩阵,并从两个连续图像估计相对于所述初始相机位姿的所述当前相机位姿,
其中由
Figure FDA0003080607540000101
计算所述基本矩阵F,其中[T]×表示一个斜对称矩阵,表示为
Figure FDA0003080607540000102
K1和K2分别用于两个所述连续图像中的第一图像和的第二图像的相机矩阵,R表示旋转矩阵,T表示平移矩阵,t1表示所述斜对称矩阵中第三行第二列的数值,t2表示所述斜对称矩阵中第一行第三列的数值,t3表示所述斜对称矩阵中第二行第一列的数值;和所述当前相机机位姿被计算为R1=UWVT,R2=UWTVT,T1=U3,T2=-U3,其中
Figure FDA0003080607540000103
E=[T]×R=UΣVT,E表示必要矩阵,R1表示所述旋转矩阵R的一种解决方案,R2表示所述旋转矩阵R的另一种解决方案,T1表示所述平移矩阵T的一种解决方案,T2表示所述平移矩阵T的另一种解决方案,当det(R1)=1时,R1有效,当det(R2)=1时,R2有效,当三维点的z值为正时,T1是有效的,T2是有效的,将时间戳t处的所述旋转矩阵R和所述平移矩阵T存储为
Figure FDA0003080607540000104
18.根据权利要求15所述的深度门控循环Q网络用于基于视觉飞行自稳的系统,其特征在于,所述深度门控循环Q网络引擎模块是通过
将所述已估计的相机位姿编码为特征向量;
通过深度神经网络处理所述特征向量;
通过深度门控循环神经网络处理所述深度神经网络处理过的所述特征向量;和
通过Q学习处理所述特征向量以获得所述已估计的当前相机位姿与所述初始相机位姿之间的差异,来基于所述已估计的当前相机位姿,预测基于深度门控循环Q网络来抵消所述无人机的横向干扰的动作。
19.根据权利要求18所述的深度门控循环Q网络用于基于视觉飞行自稳的系统,其特征在于,所述深度门控循环Q网络引擎模块还包括通过将所述已估计的相机位姿Ht编码为6个特征向量v(θrollpitchyaw,Tx,Ty,Tz),其中
Figure FDA0003080607540000105
其中θroll表示方向的滚动角,θroll=atan2(h32,h33);θpitch表示方向的俯仰角,
Figure FDA0003080607540000111
θywa表示方向的偏航角,θyaw=atan2(h21,h11);Tx表示x轴上的平移,Tx=h14;Ty表示y轴上的平移,Ty=h24;Tz表示z轴上的平移,Tz=h34;h11表示所述已估计的相机位姿Ht的矩阵中第一行第一列的数值;h12表示所述已估计的相机位姿Ht的矩阵中第一行第二列的数值;h13表示所述已估计的相机位姿Ht的矩阵中第一行第三列的数值;h14表示所述已估计的相机位姿Ht的矩阵中第一行第四列的数值;h21表示所述已估计的相机位姿Ht的矩阵中第二行第一列的数值;h22表示所述已估计的相机位姿Ht的矩阵中第二行第二列的数值;h23表示所述已估计的相机位姿Ht的矩阵中第二行第三列的数值;h24表示所述已估计的相机位姿Ht的矩阵中第二行第四列的数值;h31表示所述已估计的相机位姿Ht的矩阵中第三行第一列的数值;h32表示所述已估计的相机位姿Ht的矩阵中第三行第二列的数值;h33表示所述已估计的相机位姿Ht的矩阵中第三行第三列的数值;h34表示所述已估计的相机位姿Ht的矩阵中第三行第四列的数值;将所述已估计的相机位姿编码为特征向量;
所述深度门控循环神经网络还包括一个以上门控循环单元,通过所述深度门控循环神经网络处理所述深度神经网络处理过的所述特征向量包括,
在门控循环单元中执行以下计算
zt=σ(Wz·[ht-1,xt])
rt=σ(Wr·[ht-1,xt])
Figure FDA0003080607540000112
Figure FDA0003080607540000113
其中,ht代表所述门控循环单元,ht提供给下一个循环神经网络层和下一个所述门控循环单元,ht-1表示先前的所述门控循环单元的输出;
所述的通过Q学习处理所述特征向量以获得所述已估计的当前相机位姿与所述初始相机位姿之间的差异还包括:
基于下一个状态的Q值,通过
Figure FDA0003080607540000114
计算当前状态Q值,其中r表示当前状态下的实际奖励,st表示当前状态,at表示所述当前状态的动作,st+1表示下一状态,at+1表示所述下一状态的动作,
Figure FDA0003080607540000115
表示所述下一个状态的最佳最终奖励,
Figure FDA0003080607540000116
Figure FDA0003080607540000121
I表示4×4单位矩阵,r值表示所述已估计的当前相机位姿与所述初始相机位姿之间的差异,i表示矩阵中的行数,j表示矩阵中的列数。
20.根据权利要求16所述的深度门控循环Q网络用于基于视觉飞行自稳的系统,其特征在于,还包括:
Q网络训练模块,通过基于当前状态st,执行通过整个循环深度Q网络的正向传播,获得每个动作的Q值预测的向量,并执行动作at
基于下一个状态st+1,执行正向传播并选择最大输出的所述Q值作为
Figure FDA0003080607540000122
表示所述下一个状态的最佳最终奖励,at+1为所述下一个状态执行的动作;
将所述动作at的目标值设定为
Figure FDA0003080607540000123
并计算损失,rt为当前状态下的实际奖励;和
执行反向传播来更新权重,
其中平方误差损失函数
Figure FDA0003080607540000124
用于训练所述Q网络。
CN201711352780.6A 2016-12-22 2017-12-15 基于视觉飞行自稳定的方法、计算机可读介质和系统 Active CN108227735B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/388,662 2016-12-22
US15/388,662 US10241520B2 (en) 2016-12-22 2016-12-22 System and method for vision-based flight self-stabilization by deep gated recurrent Q-networks

Publications (2)

Publication Number Publication Date
CN108227735A CN108227735A (zh) 2018-06-29
CN108227735B true CN108227735B (zh) 2021-08-10

Family

ID=62649664

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711352780.6A Active CN108227735B (zh) 2016-12-22 2017-12-15 基于视觉飞行自稳定的方法、计算机可读介质和系统

Country Status (2)

Country Link
US (1) US10241520B2 (zh)
CN (1) CN108227735B (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10317207B2 (en) * 2017-03-09 2019-06-11 Moxa Inc. Three-dimensional trace verification apparatus and method thereof
US10878314B2 (en) * 2017-03-09 2020-12-29 Alphaics Corporation System and method for training artificial intelligence systems using a SIMA based processor
CN107292392B (zh) * 2017-05-11 2019-11-22 苏州大学 基于深度带权双q学习的大范围监控方法及监控机器人
CN107479368B (zh) * 2017-06-30 2021-09-21 北京百度网讯科技有限公司 一种基于人工智能的训练无人机控制模型的方法及系统
CN109543703B (zh) * 2017-09-22 2023-06-23 华为技术有限公司 传感器数据处理的方法及装置
WO2020014864A1 (zh) * 2018-07-17 2020-01-23 深圳市大疆创新科技有限公司 位姿确定方法、设备、计算机可读存储介质
EP3834138B1 (en) * 2018-09-27 2024-06-26 DeepMind Technologies Limited Reinforcement learning neural networks grounded in learned visual entities
CN109640068A (zh) * 2018-10-31 2019-04-16 百度在线网络技术(北京)有限公司 视频帧的信息预测方法、装置、设备以及存储介质
JP7241517B2 (ja) * 2018-12-04 2023-03-17 三菱電機株式会社 航法装置、航法パラメータ計算方法およびプログラム
CN109840921B (zh) * 2019-01-29 2020-07-03 北京三快在线科技有限公司 无人驾驶任务结果的确定方法、装置及无人驾驶设备
CN110110847B (zh) * 2019-04-30 2020-02-07 吉林大学 一种基于注意力的深度加速强化学习的目标定位方法
US11657269B2 (en) * 2019-05-23 2023-05-23 Salesforce.Com, Inc. Systems and methods for verification of discriminative models
CN110231829B (zh) * 2019-06-20 2022-01-07 上海大学 基于数据增融的强化学习小型无人旋翼机自主着陆方法
CN111508024A (zh) * 2019-06-27 2020-08-07 浙江大学 一种基于深度学习估计机器人位姿的方法
CN110276739B (zh) * 2019-07-24 2021-05-07 中国科学技术大学 一种基于深度学习的视频去抖方法
CN112396662B (zh) * 2019-08-13 2024-05-24 杭州海康威视数字技术股份有限公司 一种转换矩阵修正的方法及装置
CN110580548A (zh) * 2019-08-30 2019-12-17 天津大学 一种基于类集成学习的多步交通速度预测方法
CN110716574B (zh) * 2019-09-29 2023-05-02 哈尔滨工程大学 一种基于深度q网络的uuv实时避碰规划方法
CN111275054B (zh) * 2020-01-16 2023-10-31 北京迈格威科技有限公司 图像处理方法、装置、电子设备及存储介质
CN111897353B (zh) * 2020-07-08 2022-08-02 西北工业大学 基于gru的飞行器机动轨迹预测方法
CN111797785B (zh) * 2020-07-09 2022-04-29 电子科技大学 一种基于深度学习的多航空器跟踪方法
EP3971821A1 (en) * 2020-09-22 2022-03-23 Toyota Jidosha Kabushiki Kaisha Image completion using self-attention and uncertainty
CN112233141B (zh) * 2020-09-28 2022-10-14 国网浙江省电力有限公司杭州供电公司 电力场景下基于无人机视觉的运动目标追踪方法及系统
CN112505065B (zh) * 2020-12-28 2022-11-04 上海工程技术大学 一种实现室内无人机对大部件表面缺陷进行检测的方法
CN114463420A (zh) * 2022-01-29 2022-05-10 北京工业大学 一种基于注意力卷积神经网络的视觉里程计算法
WO2024035883A1 (en) * 2022-08-10 2024-02-15 Inspired Flight Technologies, Inc. Drone system failure prediction and risk mitigation
CN115659229B (zh) * 2022-12-27 2023-03-28 四川迪晟新达类脑智能技术有限公司 一种低小慢目标威胁程度评估方法及装置
CN115857556B (zh) * 2023-01-30 2023-07-14 中国人民解放军96901部队 一种基于强化学习的无人飞行器协同探测规划方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130074360A (ko) * 2011-12-26 2013-07-04 한국항공우주산업 주식회사 신경회로망을 이용하여 구동기의 비선형성에 따른 제어 성능의 저하를 개선하는 제어 장치
CN104501779A (zh) * 2015-01-09 2015-04-08 中国人民解放军63961部队 基于多站测量的无人机高精度目标定位方法
CN105892474A (zh) * 2016-03-31 2016-08-24 深圳奥比中光科技有限公司 无人机以及无人机控制方法
CN106249267A (zh) * 2016-09-30 2016-12-21 南方科技大学 一种目标定位追踪方法和装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4546956B2 (ja) * 2003-06-12 2010-09-22 本田技研工業株式会社 奥行き検出を用いた対象の向きの推定
GB2493779A (en) * 2011-08-19 2013-02-20 Bae Systems Plc Adaptive communications network for mobile client platforms
WO2015143615A1 (zh) * 2014-03-24 2015-10-01 深圳市大疆创新科技有限公司 飞行器状态实时修正的方法和装置
CN105120146B (zh) * 2015-08-05 2018-06-26 普宙飞行器科技(深圳)有限公司 一种利用无人机进行运动物体自动锁定拍摄装置及拍摄方法
AU2016315938B2 (en) * 2015-08-31 2022-02-24 Cape Analytics, Inc. Systems and methods for analyzing remote sensing imagery
US10460453B2 (en) * 2015-12-30 2019-10-29 Texas Instruments Incorporated Feature point identification in sparse optical flow based tracking in a computer vision system
US10520943B2 (en) * 2016-08-12 2019-12-31 Skydio, Inc. Unmanned aerial image capture platform
US11120353B2 (en) * 2016-08-16 2021-09-14 Toyota Jidosha Kabushiki Kaisha Efficient driver action prediction system based on temporal fusion of sensor data using deep (bidirectional) recurrent neural network
US10242581B2 (en) * 2016-10-11 2019-03-26 Insitu, Inc. Method and apparatus for target relative guidance
US20180150718A1 (en) * 2016-11-30 2018-05-31 Gopro, Inc. Vision-based navigation system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130074360A (ko) * 2011-12-26 2013-07-04 한국항공우주산업 주식회사 신경회로망을 이용하여 구동기의 비선형성에 따른 제어 성능의 저하를 개선하는 제어 장치
CN104501779A (zh) * 2015-01-09 2015-04-08 中国人民解放军63961部队 基于多站测量的无人机高精度目标定位方法
CN105892474A (zh) * 2016-03-31 2016-08-24 深圳奥比中光科技有限公司 无人机以及无人机控制方法
CN106249267A (zh) * 2016-09-30 2016-12-21 南方科技大学 一种目标定位追踪方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于轻小型无人机的高光谱成像系统研究;葛明锋;《中国博士学位论文全文数据库 信息科技辑》;20150115(第01期);第1-86页 *

Also Published As

Publication number Publication date
US20180231985A1 (en) 2018-08-16
US10241520B2 (en) 2019-03-26
CN108227735A (zh) 2018-06-29

Similar Documents

Publication Publication Date Title
CN108227735B (zh) 基于视觉飞行自稳定的方法、计算机可读介质和系统
Wang et al. Online high-precision probabilistic localization of robotic fish using visual and inertial cues
CN108230361B (zh) 用无人机探测器和追踪器融合来增强目标追踪方法及系统
García Carrillo et al. Combining stereo vision and inertial navigation system for a quad-rotor UAV
CN109885080B (zh) 自主控制系统及自主控制方法
Spasojevic et al. Perception-aware time optimal path parameterization for quadrotors
Romero et al. Stabilization and location of a four rotor helicopter applying vision
US11774987B2 (en) Control of vehicle movement by application of geometric algebra and state and error estimation
US20180046181A1 (en) Multiple unmanned aerial vehicle autonomous coordination
Song et al. Guidance and control of autonomous surface underwater vehicles for target tracking in ocean environment by deep reinforcement learning
Sans-Muntadas et al. Learning an AUV docking maneuver with a convolutional neural network
Devo et al. Autonomous single-image drone exploration with deep reinforcement learning and mixed reality
Dong et al. Visual perception-based target aircraft movement prediction for autonomous air combat
Son et al. Synthetic deep neural network design for lidar-inertial odometry based on CNN and LSTM
Fink et al. Dynamic visual servoing for a quadrotor using a virtual camera
Cristofalo et al. Vision-based control for fast 3-d reconstruction with an aerial robot
Zahinos et al. Cooperative multi-uav system for surveillance and search&rescue operations over a mobile 5g node
Li et al. Metric sensing and control of a quadrotor using a homography-based visual inertial fusion method
Mebarki et al. Vision-based and IMU-aided scale factor-free linear velocity estimator
Shi et al. Fuzzy behavior navigation for an unmanned helicopter in unknown environments
Ma et al. Development of a vision-based guidance law for tracking a moving target
Zheng et al. Image-based visual servoing of quadrotor using homography reconstruction
Godio et al. Autonomous Drones in GNSS-Denied Environments: Results from the Leonardo Drone Contest
AlMahamid et al. VizNav: A Modular Off-Policy Deep Reinforcement Learning Framework for Vision-Based Autonomous UAV Navigation in 3D Dynamic Environments
Buele et al. Training in “First Person View” Systems for Racing Drones

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 516006 TCL science and technology building, No. 17, Huifeng Third Road, Zhongkai high tech Zone, Huizhou City, Guangdong Province

Applicant after: TCL Technology Group Co.,Ltd.

Address before: 516006 Guangdong province Huizhou Zhongkai hi tech Development Zone No. nineteen District

Applicant before: TCL RESEARCH AMERICA Inc.

GR01 Patent grant
GR01 Patent grant