CN112141369B

CN112141369B - 一种航天器平移靠拢段自主交会对接的决策与控制方法

Info

Publication number: CN112141369B
Application number: CN202011074168.9A
Authority: CN
Inventors: 黄成�; 贾有权; 邓立为
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2020-10-09
Filing date: 2020-10-09
Publication date: 2023-10-20
Anticipated expiration: 2040-10-09
Also published as: CN112141369A

Abstract

一种航天器平移靠拢段自主交会对接的决策与控制方法，属于交会对接领域。包括步骤：建立面向优先注意维度决策的场景分类矩阵，研究平移靠拢段手控交会对接的人‑机‑环境耦合交互量化模型；解析航天员、航天器、环境及动态联合扰动之间的关系，建立不同交会对接场景下的行为决策指令规则集；基于深度神经网络和半物理仿真实验，建立自主追踪航天器驾驶员先验模型；基于深度强化学习和全物理仿真实验，建立追踪航天器自主行为决策模型；研究包含顶层决策和底层控制的仿生式分层控制架构，实现追踪航天器自主行为决策与控制。本发明通过引入类脑思维思想，解决航天器平移靠拢阶段的自主交会对接方式缺少人工控制的灵活性和智能性问题。

Description

一种航天器平移靠拢段自主交会对接的决策与控制方法

技术领域

本发明涉及交会对接领域，具体涉及一种航天器平移靠拢段自主交会对接的决策与控制方法。

背景技术

空间交会对接是在轨航天器的常规空间活动，在在轨装配、回收、补给、维修及空间救援等领域得到广泛应用。在交会对接过程中，追踪航天器的飞行可以分为远程导引、近程导引、平移靠拢三个阶段，目前，前两个阶段已经实现自动化，而在整个任务中起到关键性作用的平移靠拢段交会对接，在一些重要空间任务中一般采用航天员手动控制或地面站遥感控制方式完成。随着航天任务数量的日益增长和任务类型的逐渐多样化，航天员及地面站在回路的平移靠拢段交会对接操作模式需要大量人力及设备进行实时监控与指令上传，任务成本显著增加，而且这种大回路用于高轨或深空区域的空间任务时可能会因为通信延迟、不确定性等因素导致任务失败，加之这个平移靠拢过程需要极为精细的操作，极为耗费时间和精力，如果对接时间过长会造成航天员体力消耗过大，甚至会导致整个任务的失败。所以，发展航天器平移靠拢段自主交会对接技术是未来航天器技术发展的必然趋势。

与传统的遥控操作、手动操作、自动控制等交会对接操控方式相比，自主控制方式不依靠航天员与地面站，完全由航天器上设备自主实现平移靠拢段交会对接，能够降低资源消耗和技术风险，可以用来解决那些用传统操控方式难以解决的复杂问题，在在轨服务、空间救援及深空探索等领域具有广阔的应用前景。尽管具有诸多优势，但平移靠拢段自主交会对接方式存在的难以复现人工控制方式灵活性和智能性问题已经成为制约其在空间交会对接任务中规模化和重要化应用的瓶颈。

突破这一瓶颈问题的一种新思路是利用类脑思维思想，即模拟人的思维机制特别是人的信息处理及决策机制，基于平移靠拢段手控交会对接的人-机-环境耦合交互机理进行行为决策与控制，充分结合人控智能灵活和自控稳定可靠的双重优势，提高自主交会对接任务的效率和成功率。为了完成交会对接从传统操控方式到智能化自主控制方式的跨越，需要突破系列的理论和技术难题。平移靠拢段自主交会对接的决策问题是一个多变量、强耦合的多解数学问题，现有的自主行为决策方法过度依赖人工智能算法，对环境和任务适应性差，如何充分模拟人的智能，从操作人员的认知、决策和操作各层面提取完成任务的认知过程和特征，建立具有自主决策能力的模型,实现基于人-机-环境耦合交互机理的自主行为决策十分重要；在安全性要求很高的领域，传统控制理论依然是一个相对完善的工具，能够从理论上保证其响应时间、稳定性和收敛性，如何结合非线性控制器的优势，实现基于自主行为决策结果的航天器跟踪控制是需要突破的关键问题。

发明内容

本发明解决的技术问题是：针对平移靠拢阶段的自主交会对接方式缺少人工控制的灵活性和智能性的问题，提出一种航天器平移靠拢段自主交会对接的决策与控制方法，实现追踪航天器的自主行为决策与控制。

本发明的技术解决方案是：一种航天器平移靠拢段自主交会对接的决策与控制方法，步骤如下：

(1)建立面向优先注意维度决策的场景分类矩阵，研究平移靠拢段手控交会对接的人-机-环境耦合交互量化模型；

(2)解析航天员、航天器、环境及动态联合扰动之间的关系，建立不同交会对接场景下的行为决策指令规则集；

(3)基于深度神经网络和半物理仿真实验，建立自主追踪航天器驾驶员先验模型；

(4)基于深度强化学习和全物理仿真实验，建立追踪航天器自主行为决策模型；

(5)研究包含顶层决策和底层控制的仿生式分层控制架构，实现追踪航天器自主行为决策与控制。

进一步地，所述平移靠拢段交会对接操控过程采用六自由度控制方式，交会对接决策的流程为：首先选择优先注意维度，然后根据选择的操作顺序分别确定执行偏差消除控制的时间及输出量。

进一步地，所述步骤(1)中建立人-机-环境耦合交互量化模型的方法为：

a.获取影响手控交会对接中航天员操控行为的航天员因素H(视野范围)、M航天器因素(执行器性能)和环境因素E(对接状态信息)，提取可观测性尺寸、最大控制冲量、状态特征等关键参数；

b.确定人、机和环境各自的动态扰动Δ_H(反应时间、操作频率)，Δ_M(航天器的软硬件故障、工作能耗等)、Δ_E(相对运动参数变化等)，利用数学函数描述它们的耦合作用关系，确定三个因素之间的耦合扰动项集合Δ，并确定偏差消除操控行为p⁺；

c.采用多变量非线性回归方法建立人-机-环境耦合交互量化模型:

进一步地，所述步骤(2)中建立行为决策指令规则集的方法为：构建统一的信息描述及处理方法，引入多物理约束条件(安全控制区域、动力学约束等)，根据选择的操作顺序分别确定执行偏差消除控制的时间及输出量，建立不同交会对接场景下的行为决策指令规则集，为驾驶员先验模型的建立提供决策基础。

进一步地，所述步骤(3)中建立自主追踪航天器驾驶员先验模型的方法为：

a.根据之前对平移靠拢段手控交会对接人-机-环境耦合交互机理的研究结果，将航天员手控交会对接时的闭环操控流程定义为受自身、航天器和环境三方面因素综合影响的非线性动态系统，由此确定深度学习模型中输入层的输入值向量和输出层的神经元个数；

b.采用深度神经网络反向传播算法建立深度学习模型，确定总层数、各隐藏层神经元个数，并选用交叉熵损失函数和Sigmoid激活函数的组合提高算法收敛速度，提取能表征航天员感知、决策、操控等关键参数，如姿态和平移感知阈值、用于决定加速或减速程度的安全范围阈值、单位偏移控制输出量等；

c.利用驾驶模拟平台能提供逼真仿真环境和操作人员在环功能的特性，针对不同场景下的平移靠拢段手控交会对接任务开展半物理仿真实验，通过训练操作人员面向追踪航天器仿真模型的实际操控过程采集大量样本数据；

d.利用行为决策指令规则集和样本数据对模型进行离线训练，解决由于训练样本不足导致模型陷入局部极值点的问题，量化出能够精确逼近航天员行为动作的自主追踪航天器驾驶员先验模型。

进一步地，所述步骤(4)中建立追踪航天器自主行为决策模型的方法为：

a.在驾驶员先验模型的基础上，考虑到驾驶员先验模型在环的非线性动态系统具有连续的状态及动作空间，采用基于Actor-Critic结构的深度确定性策略梯度算法建立追踪航天器自主行为决策模型的推理机制；

b.针对非线性动态系统建立行为环境马尔可夫决策模型，基于驾驶员先验模型的研究结果确定模型的状态空间和动作空间，制定奖励函数，以累积航天器接收的环境奖赏反馈最大为原则形成评价机制；

c.开展多任务(不同交会对接状态下的任务)、多约束(安全控制区域约束、接近走廊和分离走廊约束、动力学约束等)的自主交会对接模拟实验，对自主行为决策模型进行更新迭代；

d.将自主行为决策程序迁移到交会对接全物理仿真系统中的追踪模拟器，通过开展相关实验利用实验结果对自主行为决策模型参数进一步更新迭代。

进一步地，所述步骤(5)中仿生式分层控制架构为：

a.将有限时间控制器植入自主行为决策框架，分别用于顶层决策和底层控制，采用手动操作模式作为备份解决自主航天器无法处理的交会对接操控问题，通过建立两者之间切换条件的数学表达，构建两种控制模式之间切换的触发条件及触发规则；

b.在分层控制架构中，规划层选择优先注意维度生成操作顺序，本能层根据操作顺序针对每一个维度确定执行偏差消除控制的时间以及输出量进而生成航天器运动轨迹，有限时间控制层控制航天器对生成的位姿轨迹进行跟踪；；

c.当出现安全裕度过低或自主交会对接无法进行的情况时，感受器的反馈信息将触发慎思层的反射触发规则模块，该模块立即通知规划层终止当前运动，由航天员手动操作完成交会对接。

与现有技术相比，本发明的有益效果是：本发明综合考虑了航天员因素、航天器因素和环境因素之间的耦合关系，建立了平移靠拢段手控交会对接的人-机-环境耦合交互量化模型；用计算机模拟平移靠拢段手控交会对接中航天员操控流程表现出特定的行为规律，建立了自主追踪航天器驾驶员先验模型；设计仿生式分层控制架构实现追踪航天器自主行为决策与控制，并采用手动操作模式作为备份解决自主航天器无法处理的交会对接操控问题。本发明利用类脑思维思想，充分结合人控智能灵活和自控稳定可靠的双重优势，提高自主交会对接任务的效率和成功率。

附图说明

为使得本发明中的技术方案，下面将会选取一些附图对本发明进行阐述。下述附图仅为本发明的一些实例；使用者可根据该附图获得其他类似的附图。其中：

图1为本发明的技术路线示意图。

具体实施方式

下面将更加深刻，完整的阐述本发明实施案例中的技术方案。所述实施案例为部分是实施案例。使用者可根据本发明，不需付出创造性劳动的获得其他实施案例。该“其他实施案例”均属于本发明保护的范围。

如图1所示，一种航天器平移靠拢段自主交会对接的决策与控制方法，包括以下步骤：

根据本发明的一种实施方式，在平移靠拢段交会对接操控过程中采用六自由度控制方式，交会对接决策的流程为：首先选择优先注意维度，然后根据选择的操作顺序分别确定执行偏差消除控制的时间及输出量。

基于以上实施方式，在上述步骤(1)中建立人-机-环境耦合交互量化模型的方法为：

在上述步骤(2)中建立行为决策指令规则集的方法为：构建统一的信息描述及处理方法，引入多物理约束条件(安全控制区域、动力学约束等)，根据选择的操作顺序分别确定执行偏差消除控制的时间及输出量，建立不同交会对接场景下的行为决策指令规则集，为驾驶员先验模型的建立提供决策基础。

在上述步骤(3)中建立自主追踪航天器驾驶员先验模型的方法为：

在上述步骤(4)中建立追踪航天器自主行为决策模型的方法为：

在上述步骤(5)中仿生式分层控制架构为：

综上所述，本发明综合考虑了航天员因素、航天器因素和环境因素之间的耦合关系，建立了平移靠拢段手控交会对接的人-机-环境耦合交互量化模型；用计算机模拟平移靠拢段手控交会对接中航天员操控流程表现出特定的行为规律，建立了自主追踪航天器驾驶员先验模型；设计仿生式分层控制架构实现追踪航天器自主行为决策与控制，并采用手动操作模式作为备份解决自主航天器无法处理的交会对接操控问题。本发明利用类脑思维思想，充分结合人控智能灵活和自控稳定可靠的双重优势，提高自主交会对接任务的效率和成功率。

以上所述仅为本发明的一个实施方式而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种航天器平移靠拢段自主交会对接的决策与控制方法，其特征在于，包括以下步骤：

（1）建立面向优先注意维度决策的场景分类矩阵，研究平移靠拢段手控交会对接的人-机-环境耦合交互量化模型；

建立人-机-环境耦合交互量化模型的方法为：

a.获取影响手控交会对接中航天员操控行为的航天员因素：视野范围，航天器因素：执行器性能，环境因素/>：对接状态信息，提取可观测性尺寸、最大控制冲量、状态特征的关键参数；

b.确定人、机和环境各自的动态扰动：反应时间、操作频率，/>：航天器的软硬件故障、工作能耗，/>：相对运动参数变化，利用数学函数描述它们的耦合作用关系，确定三个因素之间的耦合扰动项集合/>，并确定偏差消除操控行为/>；

；

（2）解析航天员、航天器、环境及动态联合扰动之间的关系，建立不同交会对接场景下的行为决策指令规则集；

建立行为决策指令规则集的方法为：构建统一的信息描述及处理方法，引入多物理约束条件包括安全控制区域和动力学约束，根据选择的操作顺序分别确定执行偏差消除控制的时间及输出量，建立不同交会对接场景下的行为决策指令规则集，为驾驶员先验模型的建立提供决策基础；

（3）基于深度神经网络方法建立能够提取航天员行为动作特性的深度学习模型，研究驾驶员先验模型的离线训练方法，建立自主追踪航天器驾驶员先验模型；

建立自主追踪航天器驾驶员先验模型的方法为：

b.采用深度神经网络反向传播算法建立深度学习模型，确定总层数、各隐藏层神经元个数，并选用交叉熵损失函数和Sigmoid激活函数的组合提高算法收敛速度，提取能表征航天员感知、决策、操控的关键参数，包括姿态和平移感知阈值、用于决定加速或减速程度的安全范围阈值、单位偏移控制输出量；

d.利用行为决策指令规则集和样本数据对模型进行离线训练，解决由于训练样本不足导致模型陷入局部极值点的问题，量化出能够精确逼近航天员行为动作的自主追踪航天器驾驶员先验模型；

（4）基于深度强化学习的训练方式，建立追踪航天器自主行为决策的泛化机制，通过交会对接全物理仿真实验更新迭代自主行为决策模型参数，建立追踪航天器自主行为决策模型；

建立追踪航天器自主行为决策模型的方法为：

c.开展多任务即不同交会对接状态下的任务，多约束包括安全控制区域约束、接近走廊和分离走廊约束和动力学约束的自主交会对接模拟实验，对自主行为决策模型进行更新迭代；

d.将自主行为决策程序迁移到交会对接全物理仿真系统中的追踪模拟器，通过开展相关实验利用实验结果对自主行为决策模型参数进一步更新迭代；

（5）研究包含顶层决策和底层控制的仿生式分层控制架构，实现追踪航天器自主行为决策与控制；

仿生式分层控制架构为：

b.在分层控制架构中，规划层选择优先注意维度生成操作顺序，本能层根据操作顺序针对每一个维度确定执行偏差消除控制的时间以及输出量进而生成航天器运动轨迹，有限时间控制层控制航天器对生成的位姿轨迹进行跟踪；

2.根据权利要求1所述的一种航天器平移靠拢段自主交会对接的决策与控制方法，其特征在于，所述平移靠拢段手控交会对接操控过程采用六自由度控制方式，交会对接决策的流程为：首先选择优先注意维度，然后根据选择的操作顺序分别确定执行偏差消除控制的时间及输出量。