CN109164821B - 一种无人机姿态训练方法及装置 - Google Patents

一种无人机姿态训练方法及装置 Download PDF

Info

Publication number
CN109164821B
CN109164821B CN201811123962.0A CN201811123962A CN109164821B CN 109164821 B CN109164821 B CN 109164821B CN 201811123962 A CN201811123962 A CN 201811123962A CN 109164821 B CN109164821 B CN 109164821B
Authority
CN
China
Prior art keywords
information
unmanned plane
network
control
rewards
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811123962.0A
Other languages
English (en)
Other versions
CN109164821A (zh
Inventor
孔庆凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Wuqi Nanjing Technology Co ltd
Original Assignee
Zhongke Material (beijing) Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Material (beijing) Technology Co Ltd filed Critical Zhongke Material (beijing) Technology Co Ltd
Priority to CN201811123962.0A priority Critical patent/CN109164821B/zh
Publication of CN109164821A publication Critical patent/CN109164821A/zh
Application granted granted Critical
Publication of CN109164821B publication Critical patent/CN109164821B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/08Control of attitude, i.e. control of roll, pitch, or yaw
    • G05D1/0808Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明实施例涉及一种无人机姿态训练方法及装置,所述方法包括:获取无人机处于设定场景下的传感器信息、面板接触信息以及无人机基于控制信息在设定场景下的实际姿态信息;基于面板接触信息、实际姿态信息和目标姿态信息确定奖励信息;基于奖励信息按照最小化损失原则,对强化学习的深度神经网络进行训练,以使实际姿态快速响应目标姿态,得到训练好的深度神经网络模型,用以通过环境状态信息控制无人机的飞行姿态。通过强化学习模型直接控制无人机的动力装置,实现端到端的直接学习控制,通过强化学习使其具有智能化决策控制能力,能实现自动的姿态控制,并能够适用于更复杂的真实场景。

Description

一种无人机姿态训练方法及装置
技术领域
本发明实施例涉及人工智能领域,尤其涉及一种无人机姿态训练方法及装置。
背景技术
自动控制系统通常都由几个控制环来组成,“内环”用来进行底层的控制,如稳定控制等,“外环”用来做任务级控制,如路径控制等。对于一般的无人机控制来讲,也主要是通过层间结合的多控制环组成,每个控制环使用PID控制器进行控制。但是一般来讲,多环控制需要人为进行参数整定,当面对环境参数变化时,多环控制器就有可能变得不稳定,同时参数整定需要极富相关领域知识,调整难度较大。集成化、智能化的无人机控制也变得越来越重要,而目前兴起的强化学习(RL)方法在机器人控制领域有很好的表现,特别是在任务决策方面,而目前还没有真实的针对无人机“内环”控制的相关实体训练装置和方法,大部分相关工作也都是在模拟阶段,而模拟和真实环境存在模型迁移问题,也即是“realitygap”问题。
发明内容
本发明实施例提供了一种无人机姿态训练方法及装置,可以收集无人机与面板接触信息、目标状态信息、无人机内部传感器信息,然后利用该信息,通过迁移后的强化学习模型直接控制无人机的动力装置,实现端到端的直接学习控制,通过强化学习使其具有智能化决策控制能力,能实现自动的姿态控制,并能够适用于更复杂的真实场景。
第一方面,本发明实施例提供一种无人机姿态训练方法,包括:
获取无人机处于设定场景下的传感器信息、面板接触信息以及无人机基于控制信息在所述设定场景下的实际姿态信息;
基于面板接触信息、实际姿态信息和目标姿态信息确定奖惩信息;
基于所述奖惩信息按照最小化损失原则,对强化学习的深度神经网络进行训练,强化学习方法采用两部分网络,策略网络通过状态信息直接输出控制信息,评价网络通过奖惩信息评价策略网络,使得策略网络更新以获取更高的奖励。以控制所述实际姿态快速响应所述目标姿态,得到训练好的深度神经网络模型用以通过环境信息控制所述无人机的飞行姿态。
在一个可能的实施方式中,所述面板接触信息通过以下方式获取:
将所述无人机放置于方盒中进行姿势训练,并限定所述无人机在所述方盒中的运动范围,其中,所述方盒包括六个由金属材料构成的面,且每个面之间通过绝缘片阻隔,所述无人机通过连接杆连接,且连接杆与每个面带有不同的电极;
通过所述连接杆上的电极获取面板接触信息。
在一个可能的实施方式中,所述基于面板接触信息、实际姿态信息和目标姿态信息确定奖惩信息,包括:
当所述无人机与方盒存在接触时,将所述面板接触信息作为奖惩信息;
当所述无人机与方盒不存在接触时,将实际姿态信息和目标姿态信息之间的差异信息作为奖惩信息。
在一个可能的实施方式中,所述传感器信息至少包括以下之一:
无人机的姿态、陀螺仪、位置、方位、加速度、气压;
所述控制信息包括:所述无人机的四个电机的动力输出。
在一个可能的实施方式中,
基于所述奖惩信息按照最小化损失原则,对强化学习的深度神经网络进行训练。强化学习方法采用两部分网络,策略网络通过状态信息直接输出控制信息,评价网络通过奖惩信息评价策略网络,使得策略网络更新以获取更高的奖励。以控制所述实际姿态快速响应所述目标姿态,得到训练好的深度神经网络模型用以通过环境信息控制所述无人机的飞行姿态,包括:
将所述传感器信息和所述实际姿态信息作为近端策略优化PPO算法的输入,执行策略网络输出控制信息;
价值评估网络根据所述控制信息确定所述无人机姿态的价值信息,通过所述价值信息指导所述执行策略网络的更新;
基于所述奖惩信息按照最小化损失原则完成对所述价值评估网络的更新,使用梯度策略对执行策略网络进行更新,策略网络直接输出电机控制信息,以使所述实际姿态快速响应所述目标姿态,得到训练好的深度神经网络模型,用以通过环境状态信息控制所述无人机的飞行姿态。
第二方面,本发明实施例提供一种无人机姿态训练装置,其特征在于,包括:
获取模块,用于获取无人机处于设定场景下的传感器信息、面板接触信息以及无人机基于控制信息在所述设定场景下的实际姿态信息;
确定模块,用于基于面板接触信息、实际姿态信息和目标姿态信息确定奖惩信息;
训练模块,用于基于所述奖惩信息按照最小化损失原则,对强化学习的深度神经网络进行训练,其中,所述强化学习的方法采用两部分网络,执行策略网络通过状态信息直接输出控制信息,价值评估网络通过奖惩信息评价所述执行策略网络,使得所述执行策略网络更新以获得更高的奖励,以使所述实际姿态快速响应所述目标姿态信息,得到训练好的深度神经网络模型,用以通过环境状态信息控制所述无人机的飞行姿态。
在一个可能的实施方式中,所述获取模块,具体用于将所述无人机放置于方盒中进行姿势训练,并限定所述无人机在所述方盒中的运动范围,其中,所述方盒包括六个由金属材料构成的面,且每个面之间通过绝缘片阻隔,所述无人机通过连接杆连接,且连接杆与每个面带有不同的电极;
通过所述连接杆上的电极获取面板接触信息。
在一个可能的实施方式中,所述确定模块,具体用于当所述无人机与方盒存在接触时,将所述面板接触信息作为奖惩信息;
当所述无人机与方盒不存在接触时,将实际姿态信息和目标姿态信息之间的差异信息作为奖惩信息。
在一个可能的实施方式中,所述传感器信息至少包括以下之一:
无人机的姿态、陀螺仪、位置、方位、加速度、气压;
所述控制信息包括:所述无人机的四个电机的动力输出。
在一个可能的实施方式中,所述训练模块,具体用于将所述传感器信息和所述实际姿态信息作为近端策略优化PPO算法的输入,执行策略网络输出控制信息;价值评估网络根据所述控制信息确定所述无人机姿态的价值信息,通过所述价值信息指导所述执行策略网络的更新;基于所述奖惩信息按照最小化损失原则完成对所述价值评估网络的更新,使用策略梯度对执行策略网络进行更新,以使所述实际姿态快速响应所述目标姿态,得到训练好的深度神经网络模型,用以通过环境状态信息控制所述无人机的飞行姿态。
本发明实施例提供的无人机姿态训练方案,通过获取无人机处于设定场景下的传感器信息、面板接触信息以及无人机基于控制信息在所述设定场景下的实际姿态信息;基于面板接触信息、实际姿态信息和目标姿态信息确定奖惩信息;基于所述奖惩信息按照最小化损失原则,对强化学习的深度神经网络进行训练,以使所述实际姿态快速响应所述目标姿态,得到训练好的深度神经网络模型,用以通过控制信息控制所述无人机的飞行姿态。可以收集无人机与面板接触信息、目标状态信息、无人机内部传感器信息,然后利用该信息,通过强化学习模型直接控制无人机的动力装置,实现端到端的直接学习控制,通过强化学习使其具有智能化决策控制能力,能实现自动的姿态控制,并能够适用于更复杂的真实场景。
附图说明
图1为本发明实施例提供的一种无人机姿态训练方法流程示意图;
图2为本发明实施例涉及的无人机姿势训练数据采集装置示意图;
图3为本发明实施例提供的一种无人机姿态训练装置的结构示意图;
图4为本发明实施例提供的一种无人机姿态训练设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为便于对本发明实施例的理解,下面将结合附图以具体实施例做进一步的解释说明,实施例并不构成对本发明实施例的限定。
图1为本发明实施例提供的一种无人机姿态训练方法流程示意图,如图1所示,该方法具体包括:
S101、获取无人机处于设定场景下的传感器信息、面板接触信息以及无人机基于控制信息在所述设定场景下的实际姿态信息。
参照图2,示出了本发明实施例涉及的无人机姿势训练数据采集装置示意图,通过该装置可采集无人机处于设定场景下的传感器信息、面板接触信息以及无人机基于控制信息在所述设定场景下的实际姿态信息。
本实施例中涉及的无人机可以是:四轴无人机,四轴无人机具有6自由度(DOF),分为3轴平移和3轴旋转,使用4个电机做动力控制,四轴飞行器四个电机呈X字形排列,驱动四片桨旋转产生向上的推力。四个电机轴距几何中心的距离相等,当对角两个轴产生的升力相同时能够保证力矩的平衡,四轴不会向任何一个方向倾转;而四个电机一对正转,一对反转的方式使得绕竖直轴方向旋转的反扭矩平衡,保证了四轴航向的稳定,机载带有整体的传感和控制系统。
具体地,将所述无人机放置于方盒中进行姿势训练,并限定所述无人机在所述方盒中的运动范围,其中,所述方盒包括六个由金属材料构成的面,且每个面之间通过绝缘片阻隔,所述无人机通过连接杆连接,且连接杆与每个面带有不同的电极;通过所述连接杆上的电极获取面板接触信息。
如,通过连接球与方盒各个接触面的碰撞信息传输到无人机控制主板中,提供碰撞信息给主飞控,根据碰撞信息可以获得无人机的面板接触信息。
所述传感器信息至少包括以下之一:无人机的姿态、陀螺仪、位置、方位、加速度、气压;所述控制信息包括:所述无人机的四个电机的动力输出。
S102、基于面板接触信息、实际姿态信息和目标姿态信息确定奖惩信息。
具体地,当所述无人机与方盒存在接触时,将所述面板接触信息作为奖惩信息;当所述无人机与方盒不存在接触时,将实际姿态信息和目标姿态信息之间的差异信息作为奖惩信息。
具体可采用如下公式表示:
其中,Rt代表深度网络学习得到的reward,在姿态训练中,reward信号来源分为两种,分别是在连接杆与训练方盒接触的时候,直接给出一个-ωT的奖惩信息,这个值可以在训练过程中调节;另一个是在无触碰的情况下,给出现有姿态和目标姿态之间的差距作为奖励信号,α和β为超参数,分别代表目标姿态的三轴速度和实际姿态的三轴速度,它们差值由比例放大后作为奖惩一部分,分别代表目标姿态值和实际姿态值,其差值由比例放大后作为奖励的部分。
S103、基于所述奖惩信息按照最小化损失原则,对强化学习的深度神经网络进行训练,以使所述实际姿态快速响应所述目标姿态,得到训练好的深度神经网络模型,用以通过环境状态信息控制所述无人机的飞行姿态。
在本实施例中,具体的强化学习算法为PPO(Proximal Policy OptimizationAlgorithms,近端策略优化),利用传感器信息和实际姿态信息作为PPO算法的输入,通过PPO算法输出无人机动力系统的控制信息。
其中,所述强化学习的方法采用两部分网络,执行策略网络通过状态信息直接输出控制信息,价值评估网络通过奖惩信息评价所述执行策略网络,使得所述执行策略网络更新以获得更高的奖励,所述实际姿态信息对应有无人机的实际姿态,所述目标姿态信息对应有无人机的目标姿态。
具体地,将所述传感器信息和所述实际姿态信息作为近端策略优化PPO算法的输入,执行策略网络输出控制信息;价值评估网络根据所述控制信息确定所述无人机姿态的价值信息,通过所述价值信息指导所述执行策略网络的更新;基于所述奖惩信息按照最小化损失原则完成对所述价值评估网络的更新,执行策略网络使用策略梯度进行更新,以使所述实际姿态快速响应所述目标姿态,得到训练好的深度神经网络模型以通过环境状态信息控制所述无人机的飞行姿态。
在本实施例中深度神经网络包括两个网络,分别为执行策略网络和价值评估网络(Q-value网络),执行策略网络根据当前环境状态直接输出执行参数;评价网络根据奖惩信号评价策略网络输出的执行动作的价值,执行网络通过执行动作的价值改变策略,不断提升动作价值,不断逼近更优的动作。
执行策略网络μ(s|θμ)根据传感器信息和目标状态信息作为输入,输出连续的、确定性的控制信息,其神经网络参数为θμ
Q-value网络Q(s,a|θQ)为价值评估网络,用来评价在某状态下采取某动作的价值,用来指导策略网络μ(s|θμ)的更新,其网络参数为θQ
策略网络使用以下更新方式:
代表整个网络在时间片t时候的loss,用来更新执行策略网络和价值评估网络,分别由3部分构成:
(1)代表策略梯度的提升,其具体的形式如下:
其每次使用有限的策略提升来对策略梯度进行更新,防止梯度更新过大造成的训练模型发散而造成的不稳定。
中,,代表每次策略选择动作概率相对上次选择概率的提升比率; 是指每次提升比率限制在一定的范围内,范围为(1-∈,1+∈)所指定的范围中,∈为超参数。是指每次动作选择中,实际所得的reward相对Q-value网络期望值之差值,具体形式如下:
whereδt=rt+γV(st+1)-V(st)
由t到T之间的多个eposides构成,每个eposide得到一个实际值相对于预测的一个优势值δt,V(st)为Q-value的预测值,γ和λ为超参数,可在实际不同情况下学习调整。
(2)代表Q-value评价函数的更新,为一个平方误差值:
代表在状态st下,所计算出的Value和目标差值的平方差,被比例系数c1放缩后作为整体loss的一部分。
S[πθ](st)计算在st状态下,策略πθ的交叉熵,被比例系数c2用放缩后的loss用来奖励更多的探索策略。
代表loss来对整个的策略网络进行更新,通过训练平台采集的数据不断的优化模型,使得整个模型不断优化为最优模型。
本发明实施例提供的无人机姿态训练方法,通过获取无人机处于设定场景下的传感器信息、面板接触信息以及无人机基于控制信息在所述设定场景下的实际姿态信息;基于面板接触信息、实际姿态信息和目标姿态信息确定奖惩信息;基于所述奖惩信息按照最小化损失原则,对强化学习的深度神经网络进行训练,以使所述实际姿态快速响应所述目标姿态,得到训练好的深度神经网络模型,用以通过环境状态信息控制所述无人机的飞行姿态。可以收集无人机与面板接触信息、目标状态信息、无人机内部传感器信息,然后利用该信息,通过迁移后的强化学习模型直接控制无人机的动力装置,实现端到端的直接学习控制,通过强化学习使其具有智能化决策控制能力,能实现自动的姿态控制,并能够适用于更复杂的真实场景。
图3为本发明实施例提供的一种无人机姿态训练装置的结构示意图,如图3所示,该装置具体包括:
获取模块301,用于获取无人机处于设定场景下的传感器信息、面板接触信息以及无人机基于控制信息在所述设定场景下的实际姿态信息;
确定模块302,用于基于面板接触信息、实际姿态信息和目标姿态信息确定奖惩信息;
训练模块303,用于基于所述奖惩信息按照最小化损失原则,对强化学习的深度神经网络进行训练,其中,所述强化学习的方法采用两部分网络,执行策略网络通过状态信息直接输出控制信息,价值评估网络通过奖惩信息评价所述执行策略网络,使得所述执行策略网络更新以获得更高的奖励,以控制所述实际姿态快速响应所述目标姿态,得到训练好的深度神经网络模型,用以通过环境信息控制所述无人机的飞行姿态。
可选地,所述获取模块301,具体用于将所述无人机放置于方盒中进行姿势训练,并限定所述无人机在所述方盒中的运动范围,其中,所述方盒包括六个由金属材料构成的面,且每个面之间通过绝缘片阻隔,所述无人机通过连接杆连接,且连接杆与每个面带有不同的电极;
通过所述连接杆上的电极获取面板接触信息。
可选地,所述确定模块302,具体用于当所述无人机与方盒存在接触时,将所述面板接触信息作为奖惩信息;
当所述无人机与方盒不存在接触时,将实际姿态信息和目标姿态信息之间的差异信息作为奖惩信息。
可选地,所述传感器信息至少包括以下之一:
无人机的姿态、陀螺仪、位置、方位、加速度、气压;
所述控制信息包括:所述无人机的四个电机的动力输出。
可选地,所述训练模块303,具体用于将所述传感器信息和所述实际姿态信息作为近端策略优化PPO算法的输入,执行策略网络输出控制信息;价值评估网络根据所述控制信息确定所述无人机姿态的价值信息,通过所述价值信息指导所述执行策略网络的更新;基于所述奖惩信息按照最小化损失原则完成对所述价值评估网络的更新,以使所述实际姿态快速响应所述目标姿态信息,得到训练好的深度神经网络模型,用以通过环境状态信息控制所述无人机的飞行姿态。
本实施例提供的无人机姿态训练装置可以是如图3中所示的无人机姿态训练装置,可执行如图1中无人机姿态训练方法的所有步骤,进而实现图1所示无人机姿态训练方法的技术效果,具体请参照图1相关描述,为简洁描述,在此不作赘述。
图4为本发明实施例提供的一种无人机姿态训练设备的硬件结构示意图,如图4所示,该无人机姿态训练设备具体包括:
处理器410、存储器420、收发器430。
处理器410可以是中央处理器(英文:central processing unit,CPU),或者CPU和硬件芯片的组合。上述硬件芯片可以是专用集成电路(英文:application-specificintegrated circuit,ASIC),可编程逻辑器件(英文:programmable logic device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文:complex programmable logicdevice,CPLD),现场可编程门阵列(英文:field-programmable gate array,FPGA),通用阵列逻辑(英文:generic array logic,GAL)或其任意组合。
存储器420用于存储各种应用,操作系统和数据。存储器420可以将存储的数据传输给处理器410。存储器420可以包括易失性存储器,非易失性动态随机存取内存(英文:nonvolatile random access memory,NVRAM)、相变化随机存取内存(英文:phase changeRAM,PRAM)、磁阻式随机存取内存(英文:magetoresistive RAM,MRAM)等,例如至少一个磁盘存储器件、电子可擦除可编程只读存储器(英文:electrically erasable programmableread-only memory,EEPROM)、闪存器件,例如反或闪存(NOR flash memory)或是反及闪存(NAND flash memory)、半导体器件,例如固态硬盘(英文:solid state disk,SSD)等。存储器420还可以包括上述种类的存储器的组合。
收发器430,用于发送和/或接收数据,收发器430可以是麦克风等。
所述各器件的工作过程如下:
所述处理器410,用于获取无人机处于设定场景下的传感器信息、面板接触信息以及无人机基于控制信息在所述设定场景下的实际姿态信息;基于面板接触信息、实际姿态信息和目标姿态信息确定奖惩信息;基于所述奖惩信息按照最小化损失原则,对强化学习的深度神经网络进行训练,,其中,所述强化学习的方法采用两部分网络,执行策略网络通过状态信息直接输出控制信息,价值评估网络通过奖惩信息评价所述执行策略网络,使得所述执行策略网络更新以获得更高的奖励,以控制所述实际姿态快速响应所述目标姿态,得到训练好的深度神经网络模型,用以通过环境信息控制所述无人机的飞行姿态。
可选地,所述处理器410,还用于将所述无人机放置于方盒中进行姿势训练,并限定所述无人机在所述方盒中的运动范围,其中,所述方盒包括六个由金属材料构成的面,且每个面之间通过绝缘片阻隔,所述无人机通过连接杆连接,且连接杆与每个面带有不同的电极;通过所述连接杆上的电极获取面板接触信息。
可选地,所述处理器410,还用于当所述无人机与方盒存在接触时,将所述面板接触信息作为奖惩信息;当所述无人机与方盒不存在接触时,将实际姿态信息和目标姿态信息之间的差异信息作为奖惩信息。
可选地,所述传感器信息至少包括以下之一:
无人机的姿态、陀螺仪、位置、方位、加速度、气压;
所述控制信息包括:所述无人机的四个电机的动力输出。
可选地,所述处理器410,还用于将所述传感器信息和所述实际姿态信息作为近端策略优化PPO算法的输入,执行策略网络输出控制信息;
价值评估网络根据所述控制信息确定所述无人机姿态的价值信息,通过所述价值信息指导所述执行策略网络的更新;基于所述奖惩信息按照最小化损失原则完成对所述价值评估网络的更新,使用梯度策略对执行策略网络进行更新,执行策略网络直接输出电机控制信息,以控制所述实际姿态快速响应所述目标姿态,得到训练好的深度神经网络模型,用以通过控制信息控制所述无人机的飞行姿态。
本实施例提供的无人机姿态训练设备可以是如图4中所示的无人机姿态训练设备,可执行如图1中无人机姿态训练方法的所有步骤,进而实现图1所示无人机姿态训练方法的技术效果,具体请参照图1相关描述,为简洁描述,在此不作赘述。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种无人机姿态训练方法,其特征在于,包括:
获取无人机处于设定场景下的传感器信息、面板接触信息以及无人机基于控制信息在所述设定场景下的实际姿态信息;
基于面板接触信息、实际姿态信息和目标姿态信息确定奖惩信息;
基于所述奖惩信息按照最小化损失原则,对强化学习的深度神经网络进行训练,其中,所述强化学习的方法采用两部分网络,执行策略网络通过状态信息直接输出控制信息,价值评估网络通过奖惩信息评价所述执行策略网络,使得所述执行策略网络更新以获得更高的奖励,以控制所述实际姿态快速响应所述目标姿态信息,得到训练好的深度神经网络模型,用以通过环境信息控制所述无人机的飞行姿态;
所述面板接触信息通过以下方式获取:
将所述无人机放置于方盒中进行姿势训练,并限定所述无人机在所述方盒中的运动范围,其中,所述方盒包括六个由金属材料构成的面,且每个面之间通过绝缘片阻隔,所述无人机通过连接杆连接,且连接杆与每个面带有不同的电极;
通过所述连接杆上的电极获取面板接触信息。
2.根据权利要求1所述的方法,其特征在于,所述基于面板接触信息、实际姿态信息和目标姿态信息确定奖惩信息,包括:
当所述无人机与方盒存在接触时,将所述面板接触信息作为奖惩信息;
当所述无人机与方盒不存在接触时,将实际姿态信息和目标姿态信息之间的差异信息作为奖惩信息。
3.根据权利要求1所述的方法,其特征在于,所述传感器信息至少包括以下之一:
无人机的姿态、陀螺仪、位置、方位、加速度、气压;
所述控制信息包括:所述无人机的四个电机的动力输出。
4.根据权利要求1-3任一所述的方法,其特征在于,所述基于所述奖惩信息按照最小化损失原则,对强化学习的深度神经网络进行训练,包括:
将所述传感器信息和所述实际姿态信息作为近端策略优化PPO算法的输入,执行策略网络输出控制信息;
价值评估网络根据所述控制信息确定所述无人机姿态的价值信息,通过所述价值信息指导所述执行策略网络的更新;
基于所述奖惩信息按照最小化损失原则完成对所述价值评估网络的更新,使用梯度策略对执行策略网络进行更新,执行策略网络直接输出电机控制信息,以使所述实际姿态快速响应所述目标姿态,得到训练好的深度神经网络模型,用以通过环境信息控制所述无人机的飞行姿态。
5.一种无人机姿态训练装置,其特征在于,包括:
获取模块,用于获取无人机处于设定场景下的传感器信息、面板接触信息以及无人机基于控制信息在所述设定场景下的实际姿态信息;
确定模块,用于基于面板接触信息、实际姿态信息和目标姿态信息确定奖惩信息;
训练模块,用于基于所述奖惩信息按照最小化损失原则,对强化学习的深度神经网络进行训练,其中,所述强化学习的方法采用两部分网络,执行策略网络通过状态信息直接输出控制信息,价值评估网络通过奖惩信息评价所述执行策略网络,使得所述执行策略网络更新以获得更高的奖励,以控制所述实际姿态快速响应所述目标姿态,得到训练好的深度神经网络模型,用以通过环境信息控制所述无人机的飞行姿态;
所述获取模块,具体用于将所述无人机放置于方盒中进行姿势训练,并限定所述无人机在所述方盒中的运动范围,其中,所述方盒包括六个由金属材料构成的面,且每个面之间通过绝缘片阻隔,所述无人机通过连接杆连接,且连接杆与每个面带有不同的电极;
通过所述连接杆上的电极获取面板接触信息。
6.根据权利要求5所述的装置,其特征在于,所述确定模块,具体用于当所述无人机与方盒存在接触时,将所述面板接触信息作为奖惩信息;
当所述无人机与方盒不存在接触时,将实际姿态信息和目标姿态信息之间的差异信息作为奖惩信息。
7.根据权利要求5所述的装置,其特征在于,所述传感器信息至少包括以下之一:
无人机的姿态、陀螺仪、位置、方位、加速度、气压;
所述控制信息包括:所述无人机的四个电机的动力输出。
8.根据权利要求5-7任一所述的装置,其特征在于,所述训练模块,具体用于将所述传感器信息和所述实际姿态信息作为近端策略优化PPO算法的输入,执行策略网络输出控制信息;价值评估网络根据所述控制信息确定所述无人机姿态的价值信息,通过所述价值信息指导所述执行策略网络的更新;基于所述奖惩信息按照最小化损失原则完成对所述价值评估网络的更新,使用梯度策略对执行策略网络进行更新,执行策略网络直接输出电机控制信息,以控制所述实际姿态快速响应所述目标姿态,得到训练好的深度神经网络模型,用以通过环境信息控制所述无人机的飞行姿态。
CN201811123962.0A 2018-09-26 2018-09-26 一种无人机姿态训练方法及装置 Active CN109164821B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811123962.0A CN109164821B (zh) 2018-09-26 2018-09-26 一种无人机姿态训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811123962.0A CN109164821B (zh) 2018-09-26 2018-09-26 一种无人机姿态训练方法及装置

Publications (2)

Publication Number Publication Date
CN109164821A CN109164821A (zh) 2019-01-08
CN109164821B true CN109164821B (zh) 2019-05-07

Family

ID=64892599

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811123962.0A Active CN109164821B (zh) 2018-09-26 2018-09-26 一种无人机姿态训练方法及装置

Country Status (1)

Country Link
CN (1) CN109164821B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220067526A1 (en) * 2019-01-14 2022-03-03 Siemens Aktiengesellschaft Hardware accelerator extension to transfer learning - extending/finishing training to the edge
CN109696830B (zh) * 2019-01-31 2021-12-03 天津大学 小型无人直升机的强化学习自适应控制方法
CN110059646B (zh) * 2019-04-23 2021-02-09 暗物智能科技(广州)有限公司 训练动作规划模型的方法及目标搜索方法
US11493926B2 (en) * 2019-05-15 2022-11-08 Baidu Usa Llc Offline agent using reinforcement learning to speedup trajectory planning for autonomous vehicles
CN110717260A (zh) * 2019-09-26 2020-01-21 杭州电子科技大学 一种无人机机动能力模型建立方法
CN110989649B (zh) * 2019-12-26 2023-07-25 中国航空工业集团公司沈阳飞机设计研究所 面向高机动固定翼无人机的飞行动作控制装置及训练方法
CN111415389B (zh) * 2020-03-18 2023-08-29 清华大学 基于强化学习的无标签六维物体姿态预测方法及装置
CN111596677B (zh) * 2020-05-07 2021-11-30 北京航空航天大学 一种基于在线学习的航天器临近操作自主控制方法及系统
CN112131661A (zh) * 2020-09-10 2020-12-25 南京大学 一种无人机自主跟拍运动目标的方法
CN112286216A (zh) * 2020-11-11 2021-01-29 鹏城实验室 基于视觉识别的无人机自主降落无人艇的方法及系统
CN112486192B (zh) * 2020-11-18 2022-04-08 四川大学 一种基于目的地运动预测的飞行器引导迁移学习训练算法
CN112506210B (zh) * 2020-12-04 2022-12-27 东南大学 一种用于自主目标跟踪的无人机控制方法
CN114355936A (zh) * 2021-12-31 2022-04-15 深兰人工智能(深圳)有限公司 智能体的控制方法、装置、智能体及计算机可读存储介质
CN114489100B (zh) * 2022-01-18 2023-07-04 中国地质大学(北京) 基于姿态同步的超视距无人机遥控系统
CN115562345B (zh) * 2022-10-28 2023-06-27 北京理工大学 一种基于深度强化学习的无人机侦测轨迹规划方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5448681A (en) * 1992-03-27 1995-09-05 National Semiconductor Corporation Intelligent controller with neural network and reinforcement learning
CN1590039A (zh) * 2003-08-25 2005-03-09 索尼株式会社 机器人及机器人的姿态控制方法
CN103324085A (zh) * 2013-06-09 2013-09-25 中国科学院自动化研究所 基于监督式强化学习的最优控制方法
CN103365296A (zh) * 2013-06-29 2013-10-23 天津大学 一种四旋翼无人飞行器非线性输出反馈飞行控制方法
CN107020636A (zh) * 2017-05-09 2017-08-08 重庆大学 一种基于策略梯度的机器人学习控制方法
CN107239728A (zh) * 2017-01-04 2017-10-10 北京深鉴智能科技有限公司 基于深度学习姿态估计的无人机交互装置与方法
CN107479368A (zh) * 2017-06-30 2017-12-15 北京百度网讯科技有限公司 一种基于人工智能的训练无人机控制模型的方法及系统
CN107817820A (zh) * 2017-10-16 2018-03-20 复旦大学 一种基于深度学习的无人机自主飞行控制方法与系统
CN107856035A (zh) * 2017-11-06 2018-03-30 深圳市唯特视科技有限公司 一种基于强化学习和全身控制器的鲁棒性动态运动方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5448681A (en) * 1992-03-27 1995-09-05 National Semiconductor Corporation Intelligent controller with neural network and reinforcement learning
CN1590039A (zh) * 2003-08-25 2005-03-09 索尼株式会社 机器人及机器人的姿态控制方法
CN103324085A (zh) * 2013-06-09 2013-09-25 中国科学院自动化研究所 基于监督式强化学习的最优控制方法
CN103365296A (zh) * 2013-06-29 2013-10-23 天津大学 一种四旋翼无人飞行器非线性输出反馈飞行控制方法
CN107239728A (zh) * 2017-01-04 2017-10-10 北京深鉴智能科技有限公司 基于深度学习姿态估计的无人机交互装置与方法
CN107020636A (zh) * 2017-05-09 2017-08-08 重庆大学 一种基于策略梯度的机器人学习控制方法
CN107479368A (zh) * 2017-06-30 2017-12-15 北京百度网讯科技有限公司 一种基于人工智能的训练无人机控制模型的方法及系统
CN107817820A (zh) * 2017-10-16 2018-03-20 复旦大学 一种基于深度学习的无人机自主飞行控制方法与系统
CN107856035A (zh) * 2017-11-06 2018-03-30 深圳市唯特视科技有限公司 一种基于强化学习和全身控制器的鲁棒性动态运动方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A Novel Approach to Feedback Control with Deep Reinforcement Learning;YuanWang,等;《10th IFAC Symposium on Advanced Control of Chemical Processes ADCHEM 2018》;20180727;第31-36页
基于双目视觉和深度学习的无人机人机交互系统;叶秀峰;《中国优秀硕士学位论文全文数据库工程科技II辑》;20180515(第2018(05)期);第C031-113页
基于强化学习与动态运动基元的移动机器人抓取研究;胡英柏;《中国优秀硕士学位论文全文数据库信息科技辑》;20180715(第2018(07)期);第I140-258页
飞行器姿态的再励学习跟踪控制;沈超,等;《2007中国控制与决策学术年会论文集》;20071231;第427-434页

Also Published As

Publication number Publication date
CN109164821A (zh) 2019-01-08

Similar Documents

Publication Publication Date Title
CN109164821B (zh) 一种无人机姿态训练方法及装置
US9687984B2 (en) Apparatus and methods for training of robots
CN111483468B (zh) 基于对抗模仿学习的无人驾驶车辆换道决策方法和系统
CN109511277B (zh) 多状态连续动作空间的合作式方法及系统
CN110442129B (zh) 一种多智能体编队的控制方法和系统
Berkenkamp Safe exploration in reinforcement learning: Theory and applications in robotics
US20210064065A1 (en) Methods, devices, mobile robots, and systems of navigation path tracking control
JP7372296B2 (ja) 自動運転のための速度計画方法、装置、デバイス、媒体及び車両
CN115993781B (zh) 抗网络攻击无人集群系统协同控制方法、终端及存储介质
CN110223565A (zh) 一种飞行模拟方法、装置、设备及存储介质
US20220366246A1 (en) Controlling agents using causally correct environment models
Zareb et al. Evolutionary autopilot design approach for UAV quadrotor by using GA
CN102411302A (zh) 基于直接自适应模糊控制的mems微陀螺仪控制方法
Duan et al. Sim-to-real learning of footstep-constrained bipedal dynamic walking
CN116560401A (zh) 一种无人机编队中僚机控制指令的确定方法及终端设备
CN103472725B (zh) 一种基于名义控制器的神经网络全调节的控制方法
CN113910221B (zh) 一种机械臂自主运动规划方法、装置、设备及存储介质
Han et al. Robot path planning in dynamic environments based on deep reinforcement learning
Feiyu et al. Autonomous localized path planning algorithm for UAVs based on TD3 strategy
CN114690630A (zh) 神经网络控制器与基于模型的控制器相组合的车辆控制
García et al. Incremental reinforcement learning for multi-objective robotic tasks
Das et al. A proximal policy optimization with curiosity algorithm for virtual drone navigation
de Croon Drone-racing champions outpaced by AI
CN113985732B (zh) 针对飞行器系统的自适应神经网络控制方法及装置
US20230325635A1 (en) Controlling agents using relative variational intrinsic control

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210608

Address after: Room 613a, building 5, artificial intelligence Industrial Park, 266 Chuangyan Road, Qilin science and Technology Innovation Park, Nanjing, Jiangsu 210000

Patentee after: Nanjing Zhongke ultramicro Computer Technology Co.,Ltd.

Address before: Room 1248, 12 / F, research complex building, Institute of computing technology, Chinese Academy of Sciences, No. 6, South Road, Haidian District, Beijing 100086

Patentee before: JEEJIO (BEIJING) TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220803

Address after: Room 1248, 12 / F, research complex building, Institute of computing technology, Chinese Academy of Sciences, No. 6, South Road, Haidian District, Beijing 100086

Patentee after: JEEJIO (BEIJING) TECHNOLOGY Co.,Ltd.

Address before: Room 613a, building 5, artificial intelligence Industrial Park, 266 Chuangyan Road, Qilin science and Technology Innovation Park, Nanjing, Jiangsu 210000

Patentee before: Nanjing Zhongke ultramicro Computer Technology Co.,Ltd.

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: Building 613A, Building 5, Qilin Artificial Intelligence Industrial Park, No. 266 Chuangyan Road, Qilin Technology Innovation Park, Nanjing City, Jiangsu Province, 211135

Patentee after: Zhongke Wuqi (Nanjing) Technology Co.,Ltd.

Address before: Room 1248, 12 / F, research complex building, Institute of computing technology, Chinese Academy of Sciences, No. 6, South Road, Haidian District, Beijing 100086

Patentee before: JEEJIO (BEIJING) TECHNOLOGY Co.,Ltd.