CN109625333B - 一种基于深度增强学习的空间非合作目标捕获方法 - Google Patents

一种基于深度增强学习的空间非合作目标捕获方法 Download PDF

Info

Publication number
CN109625333B
CN109625333B CN201910005655.0A CN201910005655A CN109625333B CN 109625333 B CN109625333 B CN 109625333B CN 201910005655 A CN201910005655 A CN 201910005655A CN 109625333 B CN109625333 B CN 109625333B
Authority
CN
China
Prior art keywords
aircraft
target
neural network
service
control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910005655.0A
Other languages
English (en)
Other versions
CN109625333A (zh
Inventor
王月娇
马钟
杨一岱
王竹平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Microelectronics Technology Institute
Original Assignee
Xian Microelectronics Technology Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Microelectronics Technology Institute filed Critical Xian Microelectronics Technology Institute
Priority to CN201910005655.0A priority Critical patent/CN109625333B/zh
Publication of CN109625333A publication Critical patent/CN109625333A/zh
Application granted granted Critical
Publication of CN109625333B publication Critical patent/CN109625333B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64GCOSMONAUTICS; VEHICLES OR EQUIPMENT THEREFOR
    • B64G1/00Cosmonautic vehicles
    • B64G1/22Parts of, or equipment specially adapted for fitting in or to, cosmonautic vehicles
    • B64G1/24Guiding or controlling apparatus, e.g. for attitude control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64GCOSMONAUTICS; VEHICLES OR EQUIPMENT THEREFOR
    • B64G1/00Cosmonautic vehicles
    • B64G1/22Parts of, or equipment specially adapted for fitting in or to, cosmonautic vehicles
    • B64G1/24Guiding or controlling apparatus, e.g. for attitude control
    • B64G1/244Spacecraft control systems
    • B64G1/245Attitude control algorithms for spacecraft attitude control
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/08Control of attitude, i.e. control of roll, pitch, or yaw
    • G05D1/0808Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft

Abstract

本发明公开了一种基于深度增强学习的空间非合作目标捕获方法,分两步完成并实现交互。第一步,利用三维可视化软件搭建服务飞行器和目标飞行器的三维可视化环境,可视化环境的输入是服务飞行器的控制力和控制力矩,输出是服务飞行器和目标飞行器的状态。第二步,构建卷积神经网络模型,在三维可视化环境中对服务飞行器进行智能自主空间非合作目标捕获训练。卷积神经网络模型以服务飞行器和目标飞行器的状态为输入,利用其权重参数,输出控制服务飞行器所需的控制力和控制力矩并送入可视化环境中,两个飞行器的状态继续被输入神经网络以进行持续的深度增强训练。通过可视化环境和神经网络的不断交互,捕获反馈结果得以正确输出。

Description

一种基于深度增强学习的空间非合作目标捕获方法
技术领域
本发明属于航空航天技术领域,具体涉及一种基于深度增强学习的空间非合作目标捕获方法。
背景技术
非合作目标是指不为对接或捕获设计的航天器,如己方未装置合作部件的卫星、空间碎片等以及对方航天器,其在信息层面上不沟通、机动行为上不配合,其捕获极具挑战性。许多空间军事任务如破坏敌方空间飞行器、对未成功进入预定轨道的卫星进行辅助入轨等都需要先完成非合作目标的在轨捕获。
从目前的发展情况来看,对空间合作目标的捕获技术已相对成熟,并成功应用于在轨服务中,然而,对空间非合作目标捕获仍是一个世界性难题,还没有进行过在轨演示验证。空间非合作目标捕获的一般过程为服务飞行器接收人工指令,然后进入转移轨道,向目标机动。现有系统提出的引导与控制手段基本相似,主要是通过计算机视觉系统从多个角度对目标拍照,计算相对位姿信息,实现围绕目标绕飞消旋,以及进一步的捕获。但这些手段都存在一定局限性:要么目标模型已知;要么需地面进行图像处理,再上传数据至星上,存在一定的时延,可靠性受影响;要么只能针对某一类特定目标,都存在局限性。因此,目前对空间非合作目标的捕获,迫切地需要一种高可靠、高自主的具备高度智能化程度的引导与控制技术。
发明内容
为了解决上述问题,本发明提供了一种基于深度增强学习的空间非合作目标捕获方法,针对基于视觉的空间非合作目标捕获问题,研究在多摄像头获取的视觉信息的基础上,基于卷积神经网络模型和DQN(Deep Q-Learning)的智能自主捕获方法。突破现有方法只能针对已知的特定目标的局限。使空间服务飞行器可利用视觉信息,智能自主学习,不断提升自身的智能化程度,自动地捕获目标。
为达到上述目的,本发明所述一种基于深度增强学习的空间非合作目标捕获方法包括以下步骤:第一步,搭建三维可视化环境:利用可视化软件搭建服务飞行器和目标飞行器的三维可视化环境,三维可视化环境的输入是服务飞行器的控制力和控制力矩,输出是服务飞行器和目标飞行器的状态,状态包括位置、线速度和姿态角速度;
第二步,构建卷积神经网络模型:卷积神经网络模型以服务飞行器和目标飞行器的状态作为输入,以控制服务飞行器所需的控制力和控制力矩为输出;以完成轨道近距离跟踪,绕飞消旋和姿态控制为任务,离散化卷积神经网络模型输出的控制力和控制力矩,构建分段加权奖励函数;
第三步,卷积神经网络模型训练:利用DQN算法在三维可视化环境中对服务飞行器进行空间非合作目标捕获训练,利用卷积神经网络模型输出控制力和控制力矩并将其送入可视化环境中,环境输出的两个飞行器状态又继续被输入到神经网络模型中,通过三维可视化环境和卷积神经网络模型的不断交互,通过神经网络持续的自我学习,不断更新卷积神经网络模型的权重参数,直至获得正确的捕获反馈结果;
第四步,完成非合作目标捕获任务:利用训练好的卷积神经网络模型对服务飞行器实施控制,从而对目标飞行器实现轨道近距离跟踪,绕飞消旋和组合体的姿态控制。
进一步的,在DQN算法中,建立一个卷积神经网络模型作为智能体,以服务飞行器和目标飞行器的状态作为输入,输出服务飞行器的控制力和控制力矩,卷积神经网络模型的输入层有36个节点,对应于环境传回的连续两帧三维图像中服务飞行器和目标飞行器各自的位置、线速度和姿态角速度的36维表示;输出层共有13个节点,对应于服务飞行器的控制力和控制力矩被离散化后的13类取值方式;在每个时间步骤,决策被发送回空间三维可视化环境,并从空间三维可视化环境中继续输出目标飞行器和服务飞行器的状态供给卷积神经网络模型以进行连续的深度增强训练,最终达到不断更新卷积神经网络模型的模型参数,正确输出捕获反馈结果的目的。
进一步的,第一步中,搭建三维可视化环境包括以下步骤:
Step1:初始化服务飞行器和目标飞行器的位置
Figure GDA0002977384780000031
线速度
Figure GDA0002977384780000032
姿态角速度ω0及姿态四元数Q0
Step2:卷积神经网络模型给出施加于服务飞行器上的控制力F和控制力矩T,F=[Fx,Fy,Fz]T,T=[Tx,Ty,Tz]T而目标飞行器由于仅在重力作用下绕地球自由移动,F和T为零;
Step3:依次对式(1)~(3)积分,求解两类飞行器的位置ri、线速度vi、姿态角速度ωi及姿态四元数Qi,循环输出两类飞行器的位姿(r,v,ω,Q);
Figure GDA0002977384780000033
Figure GDA0002977384780000034
Figure GDA0002977384780000035
公式(1)中,
Figure GDA0002977384780000036
为飞行器在轨道坐标系下的位置,
Figure GDA0002977384780000037
为飞行器的线速度,
Figure GDA0002977384780000038
Figure GDA0002977384780000039
的一阶导数,
F=[Fx,Fy,Fz]T是接受控制的飞行器发动机产生的控制力,μ为地球引力常数3.986e5km3/s2,RE为地球赤道半径,J2=1.0826e-3为地球摄动带谐系数;
公式(2)中,T为作用于飞行器上的控制力矩,I为飞行器的转动惯量矩阵,ω=[ωxyz]T为飞行器的姿态角速度,
Figure GDA0002977384780000041
是ω的一阶导数;
公式(3)中,ω=[ωxyz]T为飞行器的姿态角速度,q=[q0 q1 q2 q3]T为飞行器的姿态四元数,
Figure GDA0002977384780000042
是q=[q0 q1 q2 q3]T的一阶导数;
Step4:以步骤3得到的服务飞行器和目标飞行器的位姿(r,v,ω,Q)作为服务飞行器和目标飞行器的初始姿态输入到可视化软件的可视化模块中,并将模拟图像输入到卷积神经网络模型,进行深度增强学习训练。
进一步的,控制力和控制力矩的离散化方法包括:
服务飞行器的控制力F=[Fx,Fy,Fz]T,F∈R3和控制力矩T=[Tx,Ty,Tz]T,T∈R3均为三维向量,设定控制力和控制力矩中每一个方向分量可取三个值,其取值范围为1.0e-02*{-1,0,1},e表示10的幂,由此共有13种决策的值分布方式,这13种决策由0~12来定义,表示用于卷积神经网络模型的迭代更新的控制力和控制力矩。
进一步的,奖励函数的加权构建方法包括:
用于鼓励或压制决策的奖励函数reward为分段函数,当服务飞行器和目标飞行器由于距离太近而发生碰撞时,奖励设定为负值;当两个飞行器不满足捕获条件时,奖励的设计由三部分构成,服务飞行器和目标飞行器之间的相对距离d和相对姿态角速度a,以及服务飞行器成功捕获目标飞行器的时间步step,且遵循奖励随着d,a,时间步的增大而减小;除此之外,服务飞行器在固定时间步中成功捕获目标飞行器后,奖励被设置为随步数增加而增加的函数,并且其值大于其它两项的值。
进一步的,奖励函数reward如下:
Figure GDA0002977384780000051
上式中各项的权重系数通过实验中各项的比重确定,e为:10的幂,d为服务飞行器和目标飞行器之间的相对距离,a为服务飞行器和目标飞行器之间的相对姿态角速度。
与现有技术相比,本发明至少具有以下有益的技术效果,通过引入人工智能技术,实现了空间服务飞行器对非合作目标的近距离跟踪、绕飞消旋和组合体姿态控制。使空间服务飞行器可利用视觉信息智能自主学习,可以在仿真环境中离线学习,也可以在真实空间环境中在线学习,无需已知目标飞行器的模型,也无需地面进行图像处理,再上传数据至星上,减小了时延,增强了可靠性。突破了现有方法只能针对已知的特定目标的局限,解决了现有方法依赖被控对象质量参数准确辨识的难点,为空间飞行器在轨质量参数变化的控制问题提供了解决方案,具有很强的智能性和一定的普适性。
附图说明
图1为三维可视化环境和策略网络模型的交互过程图;
图2为基于深度增强学习的空间非合作目标捕获流程图;
图3a为近距离跟踪阶段示意图;
图3b为捕获前的绕飞消旋示意图;
图3c为服务飞行器和目标飞行器形成一个组合体意图;
图3d为控制组合体的姿态示意图;
图4a为施加控制的服务飞行器在三维可视化环境中的视图;
图4b为三维可视化环境中显示的服务飞行器和目标飞行器的相对位置和速度;
图4c为三维可视化环境中显示的服务飞行器和目标飞行器的姿态角速度;
图5为奖励函数的迭代进程图;
图6为姿态控制试验的迭代进程;
图7为姿态角速度三轴误差的迭代进程。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
目前,深度增强学习技术的突破使人工智能有了跨越式的发展。许多难以通过直接编程实现的任务都利用人工智能技术实现了突破。因此,本发明提出了结合人工智能中深度增强学习的最新进展,采用深度增强学习技术,针对基于视觉的空间非合作目标捕获问题,研究在多摄像头获取的视觉信息的基础上,基于卷积神经网络模型和DQN(Deep Q-Learning)的智能自主捕获方法。突破现有方法只能针对已知的特定目标的局限。使空间服务飞行器可利用视觉信息,智能自主学习,不断提升自身的智能化程度,自动地捕获目标。为实现对非合作空间飞行目标的捕获提供可靠保障,为空间飞行器在轨服务与维护奠定技术基础。并且,采用人工智能技术实现空间非合作目标的捕获,具有智能性与自主性。其技术在航天器在轨维修、空间碎片清理、空间攻防,以及未来无人空间飞行器深空航行等领域都具有强大的应用前景。
本发明的空间非合作目标捕获问题定义如下:
服务飞行器和目标飞行器同时在空间飞行,其中目标飞行器仅在重力作用下绕地球自由移动,而服务飞行器在发动机的作用下产生控制力和控制力矩,从而实现一系列动作,即服务飞行器对目标飞行器的轨道近距离跟踪,绕飞消旋和姿态控制,完成非合作目标捕获任务。
本发明采用深度增强学习技术进行空间非合作目标捕获,分两步骤完成并实现交互。第一步,利用三维可视化软件搭建服务飞行器和目标飞行器的三维可视化环境,可视化环境的输入是服务飞行器的控制力和控制力矩,输出是服务飞行器和目标飞行器的状态。第二步,构建卷积神经网络模型,离散化神经网络输出的控制力和控制力矩,以分段加权方式构建奖励函数,以完成轨道近距离跟踪,绕飞消旋和姿态控制等一系列动作为任务,利用DQN算法在三维可视化环境中对服务飞行器进行智能自主空间非合作目标捕获训练。卷积神经网络模型以服务飞行器和目标飞行器的状态为输入,利用其权重参数,智能输出控制服务飞行器所需的控制力和控制力矩并送入可视化环境中,由此两个飞行器的状态继续被输入神经网络以进行持续的深度增强训练。通过可视化环境和神经网络的不断交互,通过神经网络持续的自我学习和自我演化,神经网络的权重参数不断更新,捕获反馈结果(是否成功完成捕获任务)得以正确输出。三维可视化环境与卷积神经网络模型的交互过程如图1所示。
卷积神经网络模型的参数更新过程由DQN算法完成,DQN对三维可视化环境与卷积神经网络模型之间的交互过程进行深度增强训练。详细过程如图2所示。
可视化软件用于为飞行器及其相机创建空间三维可视化环境。在可视化环境中,一方面,卷积神经网络模型提供服务飞行器所需的控制力和控制力矩;轨道动力学模型使用它作为输入来给出位置和线速度输出;由姿态动力学模型得出服务飞行器的姿态角和姿态角速度;经过可视化模块模拟服务飞行器的状态并呈现在软件界面上,为智能控制器提供了所需的状态输入信息。另一方面,目标飞行器仅在重力作用下绕地球自由移动,因此,施加的控制力和控制力矩是空的;类似地,通过轨道动力学模型和姿态动力学模型连续获得目标飞行器的位置,线速度,姿态角和姿态角速度信息并可视化。
在DQN算法中,建立了一个卷积神经网络模型作为智能体,以服务飞行器和目标飞行器的状态作为输入,输出服务飞行器的控制力和控制力矩。网络的输入层有36个节点,对应于环境传回的连续两帧三维图像中服务飞行器和目标飞行器各自的位置、线速度和姿态角速度的36维(每个飞行器的位置、线速度和姿态角速度均为三维向量,位置、线速度和姿态角速度形成9维,两个飞行器是18维,两帧图像就是36维)表示。隐藏层有两层,第一层有512个节点,第二层有1024个节点。输出层共有13个节点,对应于服务飞行器的控制力和控制力矩被离散化后的13类取值方式。在每个时间步骤,决策被发送回空间三维可视化环境,并从空间三维可视化环境中继续输出目标飞行器和服务飞行器的状态(上文提到的36维表示)供给卷积神经网络模型以进行连续的深度增强训练,最终达到不断更新卷积神经网络模型的模型参数,正确输出捕获反馈结果的目的。
三维可视化环境搭建方法
空间非合作目标捕获以轨道坐标系作为参考系,首先建立轨道动力学模型,用以描述服务飞行器和目标飞行器在力的作用下的飞行状态,同时为描述飞行器姿态在力矩作用下的运动情况,又建立了姿态动力学与运动学模型。这些模型为搭建三维可视化环境奠定了理论基础,为智能自主目标捕获方法提供了必要的输入参数。
1)建立轨道动力学模型方程,求解飞行器(本文的飞行器指服务飞行器和目标飞行器)的线速度
设飞行器在轨道坐标系下的位置为
Figure GDA0002977384780000091
线速度为
Figure GDA0002977384780000092
则飞行器在轨道上的运动满足公式(1),
Figure GDA0002977384780000093
其中,F=[Fx,Fy,Fz]T是接受控制的飞行器发动机产生的控制力,μ为地球引力常数3.986e5km3/s2,RE为地球赤道半径6378.1363km,地球摄动带谐系数J2=1.0826e-3。若已知飞行器在初始时刻的位置
Figure GDA0002977384780000094
和线速度
Figure GDA0002977384780000095
则可通过数值积分,确定其在任意时刻的位置和线速度。
2)建立姿态动力学模型方程,求解服务飞行器和目标飞行器的姿态角速度
飞行器的动力学模型由单刚体的欧拉动力学方程描述如下:
Figure GDA0002977384780000096
其中T为作用于飞行器上的控制力矩,I为飞行器的转动惯量矩阵,ω=[ωxyz]T为飞行器的姿态角速度,
Figure GDA0002977384780000097
是ω的一阶导数,若已知ω的初值为ω0,给定控制力矩T,将I设为定值,则能够通过积分上式得到任意时刻飞行器的姿态角速度。
3)建立姿态运动学模型方程,求解服务飞行器和目标飞行器的姿态四元数
由于飞行器的姿态可通过姿态四元数来表征。下式为飞行器基于四元数的姿态运动学方程,ω=[ωxyz]T为飞行器的姿态角速度,q=[q0 q1 q2 q3]T为飞行器的姿态四元数,
Figure GDA0002977384780000098
是q=[q0 q1 q2 q3]T的一阶导数,若已知飞行器在初始时刻的姿态四元数为Q=[Q0 Q1 Q2 Q3]T,则可通过积分表示飞行器在任意时刻的姿态。
Figure GDA0002977384780000099
4)搭建动力学的三维可视化环境
根据上面的动力学模型,搭建三维可视化环境的过程如下:
Step1:初始化服务飞行器和目标飞行器的位置
Figure GDA0002977384780000101
线速度
Figure GDA0002977384780000102
姿态角速度ω0及姿态四元数Q0
Step2:卷积神经网络模型给出施加于服务飞行器上的控制力F和控制力矩T,F=[Fx,Fy,Fz]T,T=[Tx,Ty,Tz]T,而目标飞行器由于仅在重力作用下绕地球自由移动,F和T为零;
Step3:依次对式(1)~(3)积分,求解两类飞行器的位置ri、线速度vi、姿态角速度ωi及姿态四元数Qi,循环输出两类飞行器的位姿(r,v,ω,Q);
Step4:以步骤3得到的两类飞行器的位姿(r,v,ω,Q)作为两类飞行器的初始姿态输入到可视化软件的可视化模块中,并将模拟图像输入到卷积神经网络模型,进行后续的深度增强学习训练。
控制力和控制力矩的离散化方法
传统的DQN方法是一个面向离散控制的算法,即在深度增强训练中输出的行动决策是离散的,无法面向连续的动作,对应Atari游戏,只需几个独立的键盘或手柄按钮即可控制。DQN不能面对连续的行动,因为卷积神经网络模型的更新需要通过寻求最大的决策(Action)来实现。而在空间非合作目标捕获问题中,施加于服务飞行器上的控制力和控制力矩是连续的高维向量,因此本方法在应用DQN的过程中对服务飞行器的控制力和控制力矩进行离散化。
服务飞行器的控制力F∈R3和控制力矩T∈R3均为三维向量,设定控制力和控制力矩中每一个方向分量可取三个值,其取值范围为1.0e-02*{-1,0,1},e表示10的幂,1.0e-02表示1.0乘10的-2次方,由此共有13种Action(决策)的值分布方式。13种Action由0~12来定义,可以表示用于卷积神经网络模型的迭代更新的控制力和控制力矩。其中,“Action=0”表示智能体输出的控制力和控制力矩为零,即服务飞行器没有被施加外力和力矩,只依靠其原始线速度和角速度继续移动和旋转。控制力、控制力矩和Action之间的对应关系如下表所示。
表1.离散化控制力和控制力矩
离散化后的控制力F和控制力矩T 决策(Action)
F<sub>x</sub>=F<sub>y</sub>=F<sub>z</sub>=T<sub>x</sub>=T<sub>y</sub>=T<sub>z</sub>=0 0
F<sub>x</sub>=-1.0e-02,F<sub>y</sub>=F<sub>z</sub>=T<sub>x</sub>=T<sub>y</sub>=T<sub>z</sub>=0 1
F<sub>x</sub>=1.0e-02,F<sub>y</sub>=F<sub>z</sub>=T<sub>x</sub>=T<sub>y</sub>=T<sub>z</sub>=0 2
F<sub>x</sub>=0,F<sub>y</sub>=-1.0e-02,F<sub>z</sub>=T<sub>x</sub>=T<sub>y</sub>=T<sub>z</sub>=0 3
F<sub>x</sub>=0,F<sub>y</sub>=1.0e-02,F<sub>z</sub>=T<sub>x</sub>=T<sub>y</sub>=T<sub>z</sub>=0 4
F<sub>x</sub>=F<sub>y</sub>=0,F<sub>z</sub>=-1.0e-02,T<sub>x</sub>=T<sub>y</sub>=T<sub>z</sub>=0 5
F<sub>x</sub>=F<sub>y</sub>=0,F<sub>z</sub>=1.0e-02,T<sub>x</sub>=T<sub>y</sub>=T<sub>z</sub>=0 6
F<sub>x</sub>=F<sub>y</sub>=F<sub>z</sub>=0,T<sub>x</sub>=-1.0e-02,T<sub>y</sub>=T<sub>z</sub>=0 7
F<sub>x</sub>=F<sub>y</sub>=F<sub>z</sub>=0,T<sub>x</sub>=1.0e-02,T<sub>y</sub>=T<sub>z</sub>=0 8
F<sub>x</sub>=F<sub>y</sub>=F<sub>z</sub>=T<sub>x</sub>=0,T<sub>y</sub>=-1.0e-02,T<sub>z</sub>=0 9
F<sub>x</sub>=F<sub>y</sub>=F<sub>z</sub>=T<sub>x</sub>=0,T<sub>y</sub>=1.0e-02,T<sub>z</sub>=0 10
F<sub>x</sub>=F<sub>y</sub>=F<sub>z</sub>=T<sub>x</sub>=T<sub>y</sub>=0,T<sub>z</sub>=-1.0e-02 11
F<sub>x</sub>=F<sub>y</sub>=F<sub>z</sub>=T<sub>x</sub>=T<sub>y</sub>=0,T<sub>z</sub>=1.0e-02 12
奖励函数的分段加权构建方法
深度增强学习的目标是获得最优的决策,使得智能体收到的累积奖励最大。本方法利用加权函数的思想构建奖励函数,根据空间服务飞行器同目标的相对位姿特点定义函数变量,这些变量加上各项权重共同组成了智能体执行任务的评判标准,使得导致飞行器好的输出的行动决策得到鼓励,导致坏结果的行动决策得到压制,从而不断训练服务飞行器的控制力矩输出,以得到尽可能多的奖励。
假设初始时刻服务飞行器与目标飞行器在同一轨道面内,二者相距小于2km,相对速度小于0.1m/s,捕获的定义为,服务飞行器与目标飞行器的相对距离小于某个定值S(S<2km),同时服务飞行器的绕飞角速度等于目标飞行器的自旋角速度,并保持这样的情况一段时间。每次实验随机初始化目标的轨道参数及自旋状态,并给予智能体控制的空间服务飞行器固定的时间步来找到目标并接近(最终相对距离小于定值S)、消旋(两者相对角速度为零)最终成功停靠在目标上。经过固定的时间量后,本次实验终止。
用于鼓励或压制决策(Action)的奖励函数(reward)为分段函数。当服务飞行器和目标飞行器由于距离太近而发生碰撞(collision)时,奖励设定为负值;当两个飞行器不满足捕获条件时,奖励的设计由三部分构成,服务飞行器和目标飞行器之间的相对距离d和相对姿态角速度a,以及服务飞行器成功捕获目标飞行器的时间步step,且遵循奖励随着d,a,时间步的增大而减小的性质;除此之外,服务飞行器在固定时间步中成功捕获目标飞行器后,奖励被设置为随步数增加而增加的函数,并且其值大于其它两项的值,具体如下:
Figure GDA0002977384780000121
上式中各项的权重系数通过实验中各项的比重确定,e表示10的幂。
本发明定义终止状态是服务飞行器到达期望位置,期望姿态,在指定的时间步长内保持一段时间,并且在该过程期间没有发生碰撞。DQN算法中需要根据终止状态设置训练任务的终止条件,并且对每个动作执行是否完成任务作出判断,即DQN从卷积神经网络模型中得到的力和力矩是否可以在每次任务中完成目标捕获。这里设置当reward=-10时,任务终止,否则任务继续训练。
本发明通过引入人工智能技术,提出了一种基于深度增强学习的智能自主目标捕获方法,实现了空间服务飞行器对非合作目标的近距离跟踪、绕飞消旋和组合体姿态控制。使空间服务飞行器可利用视觉信息智能自主学习,可以在仿真环境中离线学习,也可以在真实空间环境中在线学习,无需已知目标模型,也无需地面进行图像处理,再上传数据至星上,建小了时延,增强了可靠性。突破了现有方法只能针对已知的特定目标的局限,解决了现有方法依赖被控对象质量参数准确辨识的难点,为空间飞行器在轨质量参数变化的控制问题提供了解决方案,具有很强的智能性和一定的普适性。
实验验证
验证方案:为验证试验结果,空间非合作目标捕获分四阶段进行。首先仿真实现服务飞行器轨道近距离跟踪目标和绕飞消旋这一过程,然后针对服务飞行器在捕获目标时遭遇的姿态突然发生变化的问题,通过自主学习实现服务飞行器的智能姿态控制。如图3a至图3d所示,其中,图3a为阶段1:近距离跟踪;图3b为阶段2:捕获前的绕飞消旋;图3c为阶段3:服务飞行器和目标飞行器形成一个组合体,此时组合体具有未知的旋转状态和质量参数;图3d为阶段4:控制组合体的姿态使其稳定。图3a至图3d中,1为目标飞行器,2服务飞行器。
三维可视化环境
本发明利用可视化软件Unity模拟服务飞行器和目标飞行器的力学特性,并使用Python编程进行深度增强训练,建立了飞行器的三维可视化环境,三维可视化环境的输入是沿服务飞行器本体坐标系三轴的连续控制力和控制力矩,输出是下一时刻服务飞行器的位姿,并将输出可视化。三维可视化环境如图4a至图4c所示,该环境模拟飞行器在外加控制和扰动作用下的动力学状态如图4a所示,提供分析引擎用于计算数据、并可显示多种形式的二维地图,其核心能力是产生位置和姿态数据;如图4b中产生服务飞行器和目标飞行器的瞬时相对位置(8.4,12.1,44.2)km和速度(0.0,0.0,-0.1)km/s;图4c中产生服务飞行器和目标飞行器的瞬时姿态角速度分别为(0.0,0.0,0.0)rad/s和(0.0,0.0,7.0)rad/s,能将控制系统的输入、输出可视化,同时可直接人为在任意时刻对飞行器姿态进行干涉,为智能姿态控制算法提供良好的训练环境。
组合体的姿态控制试验过程如下:
当服务飞行器对目标飞行器开始实施捕获以后,服务飞行器和目标飞行器形成的组合体相当于受到了外部扰动,其姿态会发生改变。因此首先利用动力学模型模拟组合体在太空中的运动状态,然后在上述动力学模型的基础上对组合体施加一个随机突发扰动力矩模拟失控的姿态,并同时随机改变转动惯量以模拟组合体的质量参数变化。本发明提出的方法能通过卷积神经网络模型输出控制力矩并不断施加于组合体上,以控制组合体的姿态角速度稳定,使其恢复稳定的飞行姿态。
仿真试验过程中,随机给定组合体的初始姿态角和角速度信息,根据相机传回的图片对整个组合体的姿态控制过程进行观察。当姿态速度误差不再随时间增加而减小时,认为姿态控制过程结束,根据终态的姿态角速度误差评价姿态控制系统的控制精度及稳定度。
具体来说,首先随机初始化组合体的位置
Figure GDA0002977384780000141
、线速度
Figure GDA0002977384780000142
、姿态角速度ω0及姿态四元数Q0。然后定义正弦随机扰动力矩TS=1.0e-03*[-1,0,1]T*sin(r)作为恒定扰动,其中r从(-1,1)中随机取值,再定义一个随机突发扰动力矩TR=1.0e-02*[r1,r2,r3]T,其中r1,r2,r3均为随机数。姿态控制方法应能在此扰动后,不断输出控制力矩,使组合体的姿态角速度能够收敛到一定值,且此值与期望姿态角速度ω0之间的误差趋于零时,说明姿态控制算法具有有效性。算法在Anaconda3软件包和TensorFlow深度学习软件框架的基础上实现。
每迭代100次计算一次奖励函数的平均值并绘图。由图5可以看出奖励函数遵循减函数的性质,从第300次迭代开始,奖励的平均值快速提升,迭代到第2000次时,奖励的平均值基本达到了高峰,后面进入平台期,没有太大提升,说明DQN获得了控制力矩的最优智能输出,增强学习取得了最优决策。
如图6所示,当DQN算法还未应用于组合体的姿态控制中,试验的迭代次数处于-10和0之间,这时组合体在恒定扰动下平稳运行,因此其姿态角速度呈正弦随机变化。加载了瞬时突发随机扰动力矩后,组合体的姿态角速度瞬间增加。然后深度增强算法DQN开始了组合体的控制力矩训练过程。随着迭代次数的增加,姿态角速度的衰减变化表明三轴方向上的角速度值逐渐减小并收敛,图7中姿态角速度与期望值的误差逐渐趋于零,由此表明组合体的姿态达到稳态,基于DQN的姿态控制方法是有效的。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

Claims (4)

1.一种基于深度增强学习的空间非合作目标捕获方法,其特征在于,包括以下步骤:
第一步,搭建三维可视化环境:利用可视化软件搭建服务飞行器和目标飞行器的三维可视化环境,三维可视化环境的输入是服务飞行器的控制力和控制力矩,输出是服务飞行器和目标飞行器的状态,状态包括位置、线速度和姿态角速度;
第二步,构建卷积神经网络模型:卷积神经网络模型以服务飞行器和目标飞行器的状态作为输入,以控制服务飞行器所需的控制力和控制力矩为输出;以完成轨道近距离跟踪,绕飞消旋和姿态控制为任务,离散化卷积神经网络模型输出的控制力和控制力矩,构建分段加权奖励函数;
第三步,卷积神经网络模型训练:利用DQN算法在三维可视化环境中对服务飞行器进行空间非合作目标捕获训练,利用卷积神经网络模型输出控制力和控制力矩并将其送入可视化环境中,环境输出的两个飞行器状态又继续被输入到神经网络模型中,通过三维可视化环境和卷积神经网络模型的不断交互,通过神经网络持续的自我学习,不断更新卷积神经网络模型的权重参数,直至获得正确的捕获反馈结果;
第四步,完成非合作目标捕获任务:利用训练好的卷积神经网络模型对服务飞行器实施控制,从而对目标飞行器实现轨道近距离跟踪,绕飞消旋和组合体的姿态控制;
在DQN算法中,建立一个卷积神经网络模型作为智能体,以服务飞行器和目标飞行器的状态作为输入,输出服务飞行器的控制力和控制力矩,卷积神经网络模型的输入层有36个节点,对应于环境传回的连续两帧三维图像中服务飞行器和目标飞行器各自的位置、线速度和姿态角速度的36维表示;输出层共有13个节点,对应于服务飞行器的控制力和控制力矩被离散化后的13类取值方式;在每个时间步骤,决策被发送回空间三维可视化环境,并从空间三维可视化环境中继续输出目标飞行器和服务飞行器的状态供给卷积神经网络模型以进行连续的深度增强训练,最终达到不断更新卷积神经网络模型的模型参数,正确输出捕获反馈结果的目的。
2.根据权利要求1所述的一种基于深度增强学习的空间非合作目标捕获方法,其特征在于,第一步中,搭建三维可视化环境包括以下步骤:
Step1:初始化服务飞行器和目标飞行器的位置
Figure FDA0002993327730000021
线速度
Figure FDA0002993327730000022
姿态角速度ω0及姿态四元数Q0
Step2:卷积神经网络模型给出施加于服务飞行器上的控制力F和控制力矩T,F=[Fx,Fy,Fz]T,T=[Tx,Ty,Tz]T而目标飞行器由于仅在重力作用下绕地球自由移动,F和T为零;
Step3:依次对式(1)~(3)积分,求解两类飞行器的位置ri、线速度vi、姿态角速度ωi及姿态四元数Qi,循环输出两类飞行器的位姿(r,v,ω,Q);
Figure FDA0002993327730000023
Figure FDA0002993327730000024
Figure FDA0002993327730000025
公式(1)中,
Figure FDA0002993327730000026
为飞行器在轨道坐标系下的位置,
Figure FDA0002993327730000027
为飞行器的线速度,
Figure FDA0002993327730000028
Figure FDA0002993327730000029
的一阶导数,
F=[Fx,Fy,Fz]T是接受控制的飞行器发动机产生的控制力,μ为地球引力常数3.986e5km3/s2,RE为地球赤道半径,J2=1.0826e-3为地球摄动带谐系数;
公式(2)中,T为作用于飞行器上的控制力矩,I为飞行器的转动惯量矩阵,ω=[ωxyz]T为飞行器的姿态角速度,
Figure FDA0002993327730000031
是ω的一阶导数;
公式(3)中,ω=[ωxyz]T为飞行器的姿态角速度,q=[q0 q1 q2 q3]T为飞行器的姿态四元数,
Figure FDA0002993327730000032
是q=[q0 q1 q2 q3]T的一阶导数;
Step4:以步骤3得到的服务飞行器和目标飞行器的位姿(r,v,ω,Q)作为服务飞行器和目标飞行器的初始姿态输入到可视化软件的可视化模块中,并将模拟图像输入到卷积神经网络模型,进行深度增强学习训练。
3.根据权利要求1所述的一种基于深度增强学习的空间非合作目标捕获方法,其特征在于,控制力和控制力矩的离散化方法包括:
服务飞行器的控制力F=[Fx,Fy,Fz]T,F∈R3和控制力矩T=[Tx,Ty,Tz]T,T∈R3均为三维向量,设定控制力和控制力矩中每一个方向分量可取三个值,其取值范围为1.0e-02*{-1,0,1},e表示10的幂,由此共有13种决策的值分布方式,这13种决策由0~12来定义,表示用于卷积神经网络模型的迭代更新的控制力和控制力矩。
4.根据权利要求1所述的一种基于深度增强学习的空间非合作目标捕获方法,其特征在于,奖励函数的加权构建方法包括:
用于鼓励或压制决策的奖励函数reward为分段函数,当服务飞行器和目标飞行器由于距离太近而发生碰撞时,奖励设定为负值;当两个飞行器不满足捕获条件时,奖励的设计由三部分构成,服务飞行器和目标飞行器之间的相对距离d和相对姿态角速度a,以及服务飞行器成功捕获目标飞行器的时间步step,且遵循奖励随着d,a,时间步的增大而减小;除此之外,服务飞行器在固定时间步中成功捕获目标飞行器后,奖励被设置为随步数增加而增加的函数,并且其值大于其它两项的值。
CN201910005655.0A 2019-01-03 2019-01-03 一种基于深度增强学习的空间非合作目标捕获方法 Active CN109625333B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910005655.0A CN109625333B (zh) 2019-01-03 2019-01-03 一种基于深度增强学习的空间非合作目标捕获方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910005655.0A CN109625333B (zh) 2019-01-03 2019-01-03 一种基于深度增强学习的空间非合作目标捕获方法

Publications (2)

Publication Number Publication Date
CN109625333A CN109625333A (zh) 2019-04-16
CN109625333B true CN109625333B (zh) 2021-08-03

Family

ID=66056706

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910005655.0A Active CN109625333B (zh) 2019-01-03 2019-01-03 一种基于深度增强学习的空间非合作目标捕获方法

Country Status (1)

Country Link
CN (1) CN109625333B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110471444B (zh) * 2019-08-19 2022-07-12 西安微电子技术研究所 基于自主学习的无人机智能避障方法
CN110674935B (zh) * 2019-09-24 2022-12-20 中国航空工业集团公司沈阳飞机设计研究所 向机载嵌入式平台移植智能算法的方法及智能计算平台
IT201900019322A1 (it) 2019-10-18 2021-04-18 Thales Alenia Space Italia Spa Con Unico Socio Assistenza end-to-end in orbita
CN110850719B (zh) * 2019-11-26 2021-03-30 北京航空航天大学 一种基于强化学习的空间非合作目标参数自整定追踪方法
CN111381499B (zh) * 2020-03-10 2022-09-27 东南大学 基于三维空间射频地图学习的网联飞行器自适应控制方法
CN112180967B (zh) * 2020-04-26 2022-08-19 北京理工大学 基于评判-执行架构的多无人机协同对抗决策方法
CN111898293B (zh) * 2020-07-08 2022-07-05 西北工业大学 一种空间碎片涡流消旋的磁场张量数值计算方法
CN111862201B (zh) * 2020-07-17 2023-06-23 北京航空航天大学 一种基于深度学习的空间非合作目标相对位姿估计方法
CN112340063B (zh) * 2020-09-28 2022-05-31 南京邮电大学 一种基于深度强化学习的卫星消旋方法
US11907335B2 (en) * 2020-10-16 2024-02-20 Cognitive Space System and method for facilitating autonomous target selection
CN112799429B (zh) * 2021-01-05 2022-03-29 北京航空航天大学 基于强化学习的多弹协同攻击制导律设计方法
CN113916254A (zh) * 2021-07-22 2022-01-11 北京控制工程研究所 一种停靠式抓捕的航天器自主交会对接试验方法
CN116337086B (zh) * 2023-05-29 2023-08-04 中国人民解放军海军工程大学 无人机网捕最优捕获位置计算方法、系统、介质及终端

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101733746A (zh) * 2009-12-22 2010-06-16 哈尔滨工业大学 空间机器人非合作目标自主识别与捕获方法
CN103863583A (zh) * 2014-02-27 2014-06-18 中国空间技术研究院 一种飞舌抓捕机构及空间目标捕获方法
CN107529389B (zh) * 2013-07-12 2016-09-07 上海新跃仪表厂 一种跟踪非合作目标特征部位的姿轨耦合控制方法
CN105956351A (zh) * 2016-07-05 2016-09-21 上海航天控制技术研究所 一种基于机器学习的触觉信息分类计算建模方法
CN106125745A (zh) * 2016-06-29 2016-11-16 中国人民解放军国防科学技术大学 一种对空间合作目标跟踪成像的卫星姿态控制方法
CN106548475A (zh) * 2016-11-18 2017-03-29 西北工业大学 一种适用于空间非合作自旋目标运动轨迹的预测方法
CN107292015A (zh) * 2017-06-15 2017-10-24 武汉理工大学 基于神经网络算法的水下航行器均衡潜浮模型仿真评估方法
WO2018117872A1 (en) * 2016-12-25 2018-06-28 Baomar Haitham The intelligent autopilot system
CN108375904A (zh) * 2018-02-28 2018-08-07 北京航空航天大学 一种非合作目标航天器交会对接最终段饱和控制方法
CN108469737A (zh) * 2018-04-28 2018-08-31 北京空间飞行器总体设计部 一种空间非合作目标导航捕获的动力学控制方法及系统
CN108680198A (zh) * 2018-04-11 2018-10-19 北京空间飞行器总体设计部 一种基于羽流扰动的相对导航目标惯性参数辨识方法
CN108734737A (zh) * 2018-06-14 2018-11-02 哈尔滨工业大学 基于视觉slam估计空间旋转非合作目标转轴的方法
CN108804846A (zh) * 2018-06-20 2018-11-13 哈尔滨工业大学 一种非合作目标组合体航天器的数据驱动姿态控制器设计方法
CN109048890A (zh) * 2018-07-13 2018-12-21 哈尔滨工业大学(深圳) 基于机器人的协调轨迹控制方法、系统、设备及存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101733746A (zh) * 2009-12-22 2010-06-16 哈尔滨工业大学 空间机器人非合作目标自主识别与捕获方法
CN107529389B (zh) * 2013-07-12 2016-09-07 上海新跃仪表厂 一种跟踪非合作目标特征部位的姿轨耦合控制方法
CN103863583A (zh) * 2014-02-27 2014-06-18 中国空间技术研究院 一种飞舌抓捕机构及空间目标捕获方法
CN106125745A (zh) * 2016-06-29 2016-11-16 中国人民解放军国防科学技术大学 一种对空间合作目标跟踪成像的卫星姿态控制方法
CN105956351A (zh) * 2016-07-05 2016-09-21 上海航天控制技术研究所 一种基于机器学习的触觉信息分类计算建模方法
CN106548475A (zh) * 2016-11-18 2017-03-29 西北工业大学 一种适用于空间非合作自旋目标运动轨迹的预测方法
WO2018117872A1 (en) * 2016-12-25 2018-06-28 Baomar Haitham The intelligent autopilot system
CN107292015A (zh) * 2017-06-15 2017-10-24 武汉理工大学 基于神经网络算法的水下航行器均衡潜浮模型仿真评估方法
CN108375904A (zh) * 2018-02-28 2018-08-07 北京航空航天大学 一种非合作目标航天器交会对接最终段饱和控制方法
CN108680198A (zh) * 2018-04-11 2018-10-19 北京空间飞行器总体设计部 一种基于羽流扰动的相对导航目标惯性参数辨识方法
CN108469737A (zh) * 2018-04-28 2018-08-31 北京空间飞行器总体设计部 一种空间非合作目标导航捕获的动力学控制方法及系统
CN108734737A (zh) * 2018-06-14 2018-11-02 哈尔滨工业大学 基于视觉slam估计空间旋转非合作目标转轴的方法
CN108804846A (zh) * 2018-06-20 2018-11-13 哈尔滨工业大学 一种非合作目标组合体航天器的数据驱动姿态控制器设计方法
CN109048890A (zh) * 2018-07-13 2018-12-21 哈尔滨工业大学(深圳) 基于机器人的协调轨迹控制方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN109625333A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
CN109625333B (zh) 一种基于深度增强学习的空间非合作目标捕获方法
CN111618847B (zh) 基于深度强化学习与动态运动基元的机械臂自主抓取方法
CN110806756B (zh) 基于ddpg的无人机自主引导控制方法
Lee et al. Adaptive image-based visual servoing for an underactuated quadrotor system
CN111880573A (zh) 一种基于视觉惯导融合的四旋翼自主导航方法
CN112650058B (zh) 一种基于强化学习的四旋翼无人机轨迹控制方法
Hanover et al. Autonomous drone racing: A survey
Shaker et al. Vision-based landing of a simulated unmanned aerial vehicle with fast reinforcement learning
Patel et al. An intelligent hybrid artificial neural network-based approach for control of aerial robots
Prabowo et al. Hardware in-the-loop simulation for visual servoing of fixed wing UAV
Pinheiro et al. Trajectory planning for hybrid unmanned aerial underwater vehicles with smooth media transition
Sarabakha et al. Y6 tricopter autonomous evacuation in an indoor environment using Q-learning algorithm
Zemalache et al. Controlling a drone: Comparison between a based model method and a fuzzy inference system
Jacquet et al. Perception-constrained and Motor-level Nonlinear MPC for both Underactuated and Tilted-propeller UAVS
Deshpande et al. Developmental reinforcement learning of control policy of a quadcopter UAV with thrust vectoring rotors
Lai et al. Image dynamics-based visual servo control for unmanned aerial manipulatorl with a virtual camera
CN114518770A (zh) 一种电势场和深度强化学习融合的无人机路径规划方法
Wang et al. Image-based visual servoing of quadrotors to arbitrary flight targets
CN117215197B (zh) 四旋翼飞行器在线轨迹规划方法、系统、电子设备及介质
Li et al. Robocentric model-based visual servoing for quadrotor flights
Lai et al. An onboard-eye-to-hand visual servo and task coordination control for aerial manipulator based on a spherical model
Zhou et al. Vision-based navigation of uav with continuous action space using deep reinforcement learning
CN108227723A (zh) 一种水下机器人及其稳定性分析及结构优化的应用方法
Davidi et al. Formation flight using multiple integral backstepping controllers
CN116588353A (zh) 基于深度强化学习的复杂约束下航天器姿态规划方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant