CN116880528B

CN116880528B - 一种登月航天器着陆控制方法、装置及设备

Info

Publication number: CN116880528B
Application number: CN202310907657.5A
Authority: CN
Inventors: 王健; 布向伟; 彭昊旻; 姚颂; 魏凯; 马向明; 李凌云
Original assignee: Dongfang Space Jiangsu Aerospace Power Co ltd; Dongfang Space Technology Shandong Co Ltd; Orienspace Hainan Technology Co Ltd; Orienspace Technology Beijing Co Ltd
Current assignee: Dongfang Space Jiangsu Aerospace Power Co ltd; Dongfang Space Technology Shandong Co Ltd; Orienspace Hainan Technology Co Ltd; Orienspace Technology Beijing Co Ltd
Priority date: 2023-07-24
Filing date: 2023-07-24
Publication date: 2024-04-05
Anticipated expiration: 2043-07-24
Also published as: CN116880528A

Abstract

本发明提供一种登月航天器着陆控制方法、装置及设备，所述方法包括：获取目标航天器在着陆阶段的传感器数据；根据所述传感器数据，确定所述目标航天器所处着陆范围的至少一个环境特征；根据所述至少一个环境特征，确定所述目标航天器的着陆路径；获取所述目标航天器的至少一个执行器的反馈数据；根据所述着陆路径、至少一个执行器的反馈数据和目标航天器所处着陆范围的至少一个环境特征，调整至少一个执行器的控制参数，控制所述执行器处于目标状态；控制所述目标航天器在目标状态下按照着陆路径进行着陆。本发明的方案可以增强对外太空非常态环境的感知和适应能力，提高登月着陆的精确性和可靠性，实现航天器自主导航和智能决策。

Description

一种登月航天器着陆控制方法、装置及设备

技术领域

本发明涉及登月航天技术领域，特别是一种登月航天器着陆控制方法、装置及设备。

背景技术

登月计划旨在推动航天技术的发展和探索未知空间的奥秘，而登月着陆为该计划的关键环节，对于实现登月航天器安全着陆、准确探测月球表面及执行科学任务具有重要意义。然而，登月着陆任务面临着多方面的挑战，如需要应对月球表面复杂的地形和极端的环境，以及精确选择降落点和进行目标检测。

现有技术中，登月航天器着陆主要面临以下问题：

1.对未知环境的应对能力有限：登月着陆任务需要处理未知的月球表面地貌和环境条件，其中可能存在未知的障碍物或地形特征。传统技术在面对未知环境时的适应能力有限，缺乏对新情况的实时学习和调整策略的能力，因此可能导致着陆器无法准确识别和应对未知障碍物，增加了着陆任务的风险；

2.难以处理复杂决策问题：登月着陆任务涉及到众多的决策问题，例如选择最佳着陆点、调整着陆速度、优化路径规划等。传统技术在处理这些复杂决策问题时存在局限性，往往需要依赖人工决策或者固定规则的判断，无法充分考虑多个因素之间的复杂关系，从而无法实现最优的决策结果；

3.依赖于人工经验和传统控制理论：传统的登月着陆技术主要依赖于工程经验和传统控制理论，其设计和决策过程主要由专家和工程师基于已知的规则和经验进行。这种方法的局限在于无法充分利用大规模数据和复杂模式的信息，导致算法的性能和鲁棒性有限；

4.对复杂环境的感知和适应性不足：登月着陆任务面临月球表面复杂地形、不可预见的障碍物和恶劣的环境条件等挑战。传统技术往往难以准确感知和适应这些复杂因素，导致导航、控制和决策的精度和鲁棒性下降；

5.难以处理大量传感器数据：登月着陆任务需要处理大量的传感器数据，如图像、激光雷达数据和惯性测量单元数据等。传统技术在处理和分析这些数据时存在一定的局限性，无法充分挖掘数据中的关键特征，影响着陆器的决策和动作。

发明内容

本发明要解决的技术问题是提供一种登月航天器着陆控制方法、装置及设备，可以增强对外太空非常态环境的感知和适应能力，提高登月着陆的精确性和可靠性，实现航天器自主导航和智能决策。

为解决上述技术问题，本发明的技术方案如下：

一种登月航天器着陆控制方法，包括：

获取目标航天器在着陆阶段的传感器数据；

根据所述传感器数据，确定所述目标航天器所处着陆范围的至少一个环境特征；

根据所述至少一个环境特征，确定所述目标航天器的着陆路径；

获取所述目标航天器的至少一个执行器的反馈数据；

根据所述着陆路径、至少一个执行器的反馈数据和目标航天器所处着陆范围的至少一个环境特征，调整至少一个执行器的控制参数，控制所述执行器处于目标状态；

控制所述目标航天器在目标状态下按照着陆路径进行着陆。

可选的，确定所述目标航天器所处着陆范围的至少一个环境特征的地形感知模型的训练过程如下：

根据月球表面地理特征，确定决策树分裂节点特征集；

在所述分裂节点特征集中随机选择N个分裂节点特征，构建m个决策树，其中每一个决策树包含N个分裂节点；

获取预设地形数据集的地形数据；

将所述地形数据输入m个决策树，按照预设分裂节点特征对数据进行分类，得到m个分类结果；

取m个分类结果中占比最多的结果输出，得到预测结果；

将所述预测结果与真实结果进行比较，计算当前m个决策树与N个分裂节点特征下的准确率；

调整m与N的取值，得到至少一个准确率；

将所述准确率取值最高时对应的m与N值确定为最终参数值，得到所述地形感知模型；其中，m和N均为正整数。

可选的，所述分裂节点特征包括：海拔高度、坡度、坡向、光照状况、土壤类型、地貌特征、地表覆盖类型、地表纹理和地形曲率。

可选的，根据所述至少一个环境特征，确定所述目标航天器的着陆路径，包括：

根据所述环境特征，确定目标航天器在月球表面的目标着陆点；

根据所述目标着陆点，确定目标航天器从初始位置至目标着陆点的n个可选中间节点；

通过预设着陆算法，在n个可选中间节点中确定从初始位置至目标着陆点的最优路径；所述最优路径包含由至少一个中间节点、初始位置和目标着陆点组成的目标路径向量。

可选的，通过预设着陆算法，在n个可选中间节点中确定从初始位置至目标着陆点的最优路径，包括：

查询预设Q表，获取目标航天器从初始位置执行预设4个动作各自对应的Q值；

选取Q值最大的动作执行，到达下一个中间节点；

循环查询预设Q表，执行当前节点Q值最大的动作，直至到达目标着陆点，循环结束；

得到从初始位置至目标着陆点的最优路径。

可选的，所述着陆算法的训练过程如下：

根据初始位置、n个中间节点和目标着陆点的相对位置关系，确定目标航天器在初始位置、n个中间节点以及目标着陆点执行4个动作分别对应的奖励值或惩罚值，形成R矩阵；

根据所述R矩阵，控制代理实体在预设转移规则下完成s次探索，对初始化的Q表进行s轮更新；

将第s轮更新的Q表确定为最终Q表，完成着陆算法的训练。

可选的，所述转移规则包括：

确定一预设参数ε值，所述ε大于0小于1；

获取一随机数，当所述随机数大于ε时，则代理实体在当前节点状态执行Q值最大的动作，到达下一节点；

当所述随机数小于ε时，则代理实体在当前节点状态执行预设4个动作中的任一动作，到达下一节点。

本发明还提供一种登月航天器着陆控制装置，包括：

获取模块，获取目标航天器在着陆阶段的传感器数据；

控制模块，根据所述传感器数据，确定所述目标航天器所处着陆范围的至少一个环境特征；根据所述至少一个环境特征，确定所述目标航天器的着陆路径；获取所述目标航天器的至少一个执行器的反馈数据；根据所述着陆路径、至少一个执行器的反馈数据和目标航天器所处着陆范围的至少一个环境特征，调整至少一个执行器的控制参数，控制所述执行器处于目标状态；控制所述目标航天器在目标状态下按照着陆路径进行着陆。

本发明还提供一种计算设备，包括：处理器、存储有计算机程序的存储器，所述计算机程序被处理器运行时，执行如上述的方法。

本发明还提供一种计算机可读存储介质，存储指令，当所述指令在计算机上运行时，使得计算机执行如上述的方法。

本发明的上述方案至少包括以下有益效果：

本发明的上述方案，通过获取目标航天器在着陆阶段的传感器数据；根据所述传感器数据，确定所述目标航天器所处着陆范围的至少一个环境特征；根据所述至少一个环境特征，确定所述目标航天器的着陆路径；获取所述目标航天器的至少一个执行器的反馈数据；根据所述着陆路径、至少一个执行器的反馈数据和目标航天器所处着陆范围的至少一个环境特征，调整至少一个执行器的控制参数，控制所述执行器处于目标状态；控制所述目标航天器在目标状态下按照着陆路径进行着陆。可以增强对外太空非常态环境的感知和适应能力，提高登月着陆的精确性和可靠性，实现航天器自主导航和智能决策。

附图说明

图1是本发明实施例的登月航天器着陆控制方法的流程示意图；

图2是本发明实施例的登月航天器着陆控制方法的地形感知模型训练示意图；

图3是本发明实施例的登月航天器着陆控制装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

如图1所示，本发明的实施例提出一种登月航天器着陆控制方法，包括：

步骤11，获取目标航天器在着陆阶段的传感器数据；

步骤12，根据所述传感器数据，确定所述目标航天器所处着陆范围的至少一个环境特征；

步骤13，根据所述至少一个环境特征，确定所述目标航天器的着陆路径；

步骤14，获取所述目标航天器的至少一个执行器的反馈数据；

步骤15，根据所述着陆路径、至少一个执行器的反馈数据和目标航天器所处着陆范围的至少一个环境特征，调整至少一个执行器的控制参数，控制所述执行器处于目标状态；

步骤16，控制所述目标航天器在目标状态下按照着陆路径进行着陆。

本实施例中，通过训练数据模型对目标航天器登月着陆阶段面临的月球环境做预测，并通过着陆算法对该环境下的着陆路径做出规划，控制目标航天器平稳着陆。本方法中，通过基于AI3.0的大数据模型能够利用深度学习技术对大量的地形数据进行处理和分析，并通过目标检测和识别技术准确识别地表特征，为航天器的着陆路径规划和决策提供重要信息。同时基于AI3.0数据模型的登月着陆算法能够利用强化学习和控制理论，通过学习和优化自主导航和控制策略，增强航天器的适应性和自我调节能力，以应对月球环境的变化和挑战。

所述执行器是指用于控制和操作登月航天器的设备或装置。它们可以包括发动机、姿态控制推进器、着陆脚、摄像头云台等。执行器的主要作用是执行航天器的运动、调整姿态、控制推进等操作。

本发明一可选的实施例中，确定所述目标航天器所处着陆范围的至少一个环境特征的地形感知模型的训练过程如下：

根据月球表面地理特征，确定决策树分裂节点特征集；

获取预设地形数据集的地形数据；

取m个分类结果中占比最多的结果输出，得到预测结果；

调整m与N的取值，得到至少一个准确率；

该实施例中，预先收集大规模的月球表面地形数据，对数据进行预处理，如去噪、滤波、数据对齐处理等。通过收集的地形数据，利用深度学习算法构建地形感知模型，使用收集到的地形数据进行模型的训练和优化，达到准确感知和分析航天器所处环境特征的效果。

其中上述地形感知模型的训练过程的部分Python语言代码如下：

其中，首先初始化地形数据集和地表感知标签，train_test_split函数用于将数据集和地表感知标签划分为训练集和预测集，优选的，训练集和预测集的比例为8比2。

Predict函数用于进行预测，模拟地形感知模型对月球地表的感知结果。函数接收测试集的地形数据作为输入，并返回预测的月球表面地表感知结果。

accuracy_score函数用于计算预测准确率，评估地形感知模型的性能。该函数接收测试集地表感知标签和Predict函数预测结果作为输入，并返回预测的准确率。

如图2所示，本方法中，地形感知模型的训练过程具体为：设置一m参数值，优选的，本方法中，m取值100。在训练过程中，m的值通过观察模型误差确定，选取模型误差稳定时的m值，m参数表示决策树的数量值。初始化分裂节点特征集，所述分裂节点特征集包含S个分裂节点特征，S大于N，N为一个决策树的分裂节点个数。

所述分裂节点特征包括：海拔高度、坡度、坡向、光照状况、土壤类型、地貌特征、地表覆盖类型、地表纹理和地形曲率。

海拔高度：地形的海拔高度是最基本的特征之一，可以用于划分不同海拔区域的地形；

坡度：坡度是地形表面的倾斜程度，通过测量相邻点之间的高度差来计算；

坡向：坡向指示地形表面的朝向，例如朝向北、南、东或西；

光照状况：地形表面的光照状况可以影响着陆器的视野和能见度，因此可以作为节点分裂的特征之一；

土壤类型：不同土壤类型对着陆器的着陆和移动具有不同的影响，因此可以将土壤类型作为特征进行节点分裂；

地貌特征：例如河流、山脉、峡谷等地貌特征可以提供关于地形的额外信息，可作为节点分裂的特征之一；

地表覆盖类型：不同地表覆盖类型(如岩石、沙漠、湖泊)对着陆器的运动和稳定性具有不同的影响，可以作为节点分裂的特征；

地表纹理：地表纹理描述地形表面的纹理特征，例如粗糙度、纹理密度等；

地形曲率：地形曲率指示地表的弯曲程度，可用于识别地形的平坦区域和凹凸区域。

根据上述分裂节点特征，在训练集数据样本中有放回的随机抽取m个样本集，作为每一棵决策树的根节点处样本集。初始化一N值，在分裂节点特征集中随机抽取N个节点特征，抽取m次，构建m棵决策树，其中每一棵决策树有N个分裂节点。输入地形数据进行预测，m个决策树根据节点特征进行分类，输出m个分类结果。最终模型预测结果通过投票得到，选取预测结果中占比最多的预测结果作为最终预测结果。计算在此时m与N值下的预测准确率并打印。调整N值，重新随机在分裂节点特征集中抽取分裂节点特征，构建决策树，即基分类器。再次对输入数据进行预测，并计算准确率。选取预测准确率最高时的m与N值作为最终参数值，得到所述地形感知模型。

本发明一可选的实施例中，步骤13可以包括：

步骤131，根据所述环境特征，确定目标航天器在月球表面的目标着陆点；

步骤132，根据所述目标着陆点，确定目标航天器从初始位置至目标着陆点的n个可选中间节点；

步骤133，通过预设着陆算法，在n个可选中间节点中确定从初始位置至目标着陆点的最优路径；所述最优路径包含由至少一个中间节点、初始位置和目标着陆点组成的目标路径向量。

本实施例中，根据上述地表感知模型预测到的月球表面环境特征，确定目标着陆点，并根据初始航天器所处的位置和目标着陆点的位置关系，确定n个可选中间节点。目标航天器从初始位置经过至少一个可选中间节点，可以到达目标着陆点。本方法中，通过预设着陆算法，在n个可选中间节点中确定具体的中间节点，并确定依次经过的中间节点的顺序。初始位置、至少一个中间节点和目标着陆点组成一个目标路径向量，根据所述目标路径向量，调整执行器状态完成航天器的着陆。

本发明一可选的实施例中，步骤133可以包括：

步骤1331，查询预设Q表，获取目标航天器从初始位置执行预设4个动作各自对应的Q值；

步骤1332，选取Q值最大的动作执行，到达下一个中间节点；

步骤1333，循环查询预设Q表，执行当前节点Q值最大的动作，直至到达目标着陆点，循环结束；

步骤1334，得到从初始位置至目标着陆点的最优路径。

本实施例中，着陆算法通过查询预设Q表，确定目标航天器在每一个中间节点和初始节点的下一个价值最大的节点，根据Q值做出行动选择。直到到达目标着陆点。所述Q表如下表1所示：

表1，Q表

其中S0-S9为状态，即初始位置、中间节点和目标着陆点，每一个节点对应一个状态。A0-A3为动作，即目标航天器在每一个状态(初始位置、中间节点和目标着陆点)下可以执行的动作。Q值为目标航天器在每一个节点下执行每一个动作对应的价值，其中Q值大则代表目标航天器在该节点状态下执行该动作更有利于获得更多的回报，即更有利于着陆。所述Q表由预先训练得到。

本发明一可选的实施例中，所述着陆算法的训练过程如下：

将第s轮更新的Q表确定为最终Q表，完成着陆算法的训练。

上述着陆算法的详细训练过程如下：

首先初始化Q表，由于agent(代理实体)尚未对环境进行探索，所以各个Q值初始化为0。定义状态数量，优选的n取值8，共10个状态。根据初始位置、n个中间节点和目标着陆点的相对位置关系，确定R矩阵，即定义目标航天器在每一个状态下采取每一个动作收获的奖励或惩罚值。本方法中，当成功着陆时，R值取值为100、当越界时，R取值-100、当着陆失败时，R取值-1。

定义环境参数，max_episodes＝1000，即agent探索1000次；学习率α等于0.1，即旧的Q值将从新的Q值那里学到的新Q占自身的百分之十；折扣因子γ等于0.99，即未来奖励的重要程度为0.99。

上述过程对应的部分Python代码如下：

上述代码表示了初始化Q表、定义参数、定义R矩阵及状态与动作的关系，其中探索率epsilon为agent在每一次探索中在每一个状态下作出下一步动作的函数对应的参数，将在后面具体阐述。

在定义好相关参数及确定R矩阵后，agent开始对环境进行第一次探索。首先将agent随机置于一初始状态s上，agent根据预设转移规则做出一个动作a，并到达下一个状态s＇。在到达状态s＇后继续根据预设转移规则做一个动作a＇，直到得到最大奖励值100，即到达目标着陆点，此为agent的一次episodes(探索)。在本方法中，agent在上述一次探索中需要更新在每一个状态采取相应动作后对应的Q值，即NewQ(s,a)。NewQ(s,a)的计算方式如下：

NewQ(s,a)＝Q(s,a)+α[R(s,a)+γmaxQ'(s',a')-Q(s,a)]

其中，NewQ(s,a)为在状态s采取动作a后的最新Q值、Q(s,a)为在本次探索前在状态s采取动作a的Q值、α为学习率，取值0.1、R(s,a)为R矩阵中在状态s采取动作a时的奖励R值、γ为折扣因子，取值0.99、Q＇(s＇,a＇)为在状态s＇时采取动作a＇对应的Q值，本公式中，选取状态s＇时所有可以采取的动作a＇对应的最大Q值。

其中，R(s,a)+γmaxQ'(s',a')为在(s,a)下的实际Q值，由实时奖励和未来的长期奖励组成；R(s,a)+γmaxQ'(s',a')-Q(s,a)即为本次探索Q值的变化，即ΔQ(s,a)；学习率α控制更新幅度，因此，NewQ(s,a)还有如下表示方式：

NewQ(s,a)＝Q(s,a)+αΔQ(s,a)

即为在Q(s,a)的基础上以学习率α和差值ΔQ(s,a)的乘积的幅度进行变化。在agent进行第一次探索时，由于Q表初始化全部为0，则Q(s,a)等于0。

通过上述公式计算得到新的Q(s,a)值，并更新Q表中相应位置的值。由于agent在一次探索形成的路径向量中对应多个状态，相应对应多个动作，因此更新agent在一次探索中形成的新的Q值。本训练中，max_episodes＝1000，即agent会进行1000次探索。相应的Q表更新了1000轮，最终ΔQ(s,a)趋向于0，Q(s,a)不再变化，Q表趋于稳定，说明得到了一个收敛的结果。结束训练，得到最终的着陆算法。

上述探索过程对应的部分Python代码如下：

其中epsilon-greedy即为agent在每个状态下的转移规则；

landing_environment(state,action):这个函数用于模拟着陆环境，接受当前状态和执行的动作作为输入，并返回相应的奖励和下一个状态。在这个函数中，根据当前状态和执行的动作，计算下一个状态，并根据着陆情况给予相应的奖励。如果当前状态为最终状态，则奖励为成功着陆奖励，下一个状态为None；如果下一个状态超出状态范围，则奖励为越界惩罚；否则奖励为着陆失败惩罚。

Q[state,action]+＝learning_rate*(reward+discount_factor*np.max(Q[next_stat e,:])-Q[state,action]):这行代码用于更新Q表。根据更新规则，首先计算当前状态行动对的Q值，然后根据当前状态的奖励、下一个状态的最大Q值和学习率，计算新的Q值，并更新Q表中对应的位置。

optimal_policy＝np.argmax(Q,axis＝1):这行代码用于找到最优的着陆策略。通过在每个状态处选择具有最大Q值的行动，生成一个一维数组，其中每个元素表示对应状态的最优行动。

本发明一可选的实施例中，所述转移规则包括：

确定一预设参数ε值，所述ε大于0小于1；

该实施例中，训练过程中agent在每一个状态下采取的动作通过预设算法决定。首先确定一参数ε值，即上述探索率epsilon。然后随机化一个0到1区间内的值，如果该值小于ε，则agent随机选择一动作；如果该值大于ε，则agent选择当前状态下Q值最大的动作。在训练过程中，逐渐减小探索率，即epsilon＝epsilon*0.95，使得agent逐步减小探索率。

本发明的上述方法，还建立在线实时诊断系统，包括故障检测、诊断和处理模块。初值：模型的准确性为90％。将地形感知模型、着陆算法和在线实时诊断系统进行集成，建立完整的系统。进行系统的验证和测试，使用模拟器进行实验。

本发明通过上述方法，建立基于AI3.0数据模型的登月着陆算法，该算法结合大规模数据和先进的数据处理技术，提供精确的地形感知和分析能力，以实现登月着陆的精确性和可靠性的提升；

建立一种基于AI3.0数据模型的在线实时诊断的登月航天器故障自我诊断算法，该算法具备登月着陆过程中的自主故障检测、故障诊断和自主故障处理能力，实现对登月航天器故障的快速检测、准确诊断和自主修复，提高任务执行的可靠性和故障自适应能力；

发明一种与登月计划相关的登月航天器技术，该技术能够应用于登月计划中的着陆任务，为登月航天器的着陆过程提供精确性、自主性和适应性的技术支持，推动登月计划的顺利实施和航天事业的发展。

上述实施例能够带来如下优势：

1.提高着陆精度和可靠性：本发明的基于AI3.0数据模型的登月着陆优化算法能够利用大规模数据和先进的数据处理技术，实现对地形特征的准确感知和分析。相比传统技术，该算法能够提供更精确的导航和控制能力，从而提高着陆器的精确性和可靠性；

2.增强环境适应能力：本发明的技术方案结合了AI3.0数据模型的优势，使登月航天器能够感知和适应复杂的登月环境。通过深度学习和强化学习等技术，该方案能够提高对地形特征和障碍物的识别能力，应对月球表面的不确定性和变化，增强了登月航天器在复杂环境中的适应性；

3.实现自主导航和智能决策：本发明的技术方案基于AI3.0数据模型，使登月航天器具备自主导航和智能决策能力。通过深度学习和推理推断等技术，航天器能够学习和优化自主导航和控制策略，实现智能决策和动作。相比传统技术，该方案能够提高航天器对环境变化的实时响应能力，增加任务的效率和安全性；

4.实时故障自我诊断：本发明的技术方案引入在线实时诊断系统，使登月航天器能够自主检测、诊断和处理故障。该系统通过监测传感器数据、状态参数和执行器反馈信息，实时检测潜在的故障情况，并进行故障诊断和根因分析。这样，航天器能够更早地发现故障并采取相应的故障处理措施，提高故障处理的速度和准确性；

5.提高任务可靠性和自适应能力：本发明的技术方案能够提高登月着陆任务的可靠性和自适应能力。精确的着陆导航、智能的环境感知和自主的故障处理使登月航天器能够更好地适应复杂的登月环境，提高任务执行的成功率和安全性。

如图3所示，本发明还提供一种登月航天器着陆控制装置30，包括：

获取模块31，获取目标航天器在着陆阶段的传感器数据；

控制模块32，根据所述传感器数据，确定所述目标航天器所处着陆范围的至少一个环境特征；根据所述至少一个环境特征，确定所述目标航天器的着陆路径；获取所述目标航天器的至少一个执行器的反馈数据；根据所述着陆路径、至少一个执行器的反馈数据和目标航天器所处着陆范围的至少一个环境特征，调整至少一个执行器的控制参数，控制所述执行器处于目标状态；控制所述目标航天器在目标状态下按照着陆路径进行着陆。

根据月球表面地理特征，确定决策树分裂节点特征集；

获取预设地形数据集的地形数据；

取m个分类结果中占比最多的结果输出，得到预测结果；

调整m与N的取值，得到至少一个准确率；

选取Q值最大的动作执行，到达下一个中间节点；

得到从初始位置至目标着陆点的最优路径。

可选的，所述着陆算法的训练过程如下：

将第s轮更新的Q表确定为最终Q表，完成着陆算法的训练。

可选的，所述转移规则包括：

确定一预设参数ε值，所述ε大于0小于1；

需要说明的是，该装置是与上述方法对应的装置，上述方法实施例中的所有实现方式均适用于该装置的实施例中，也能达到相同的技术效果。

本发明的实施例一种计算设备，包括：处理器、存储有计算机程序的存储器，所述计算机程序被处理器运行时，执行如上述的方法。上述方法实施例中的所有实现方式均适用于该实施例中，也能达到相同的技术效果。

本发明的实施例还提供一种计算机可读存储介质，存储有指令，所述指令在计算机上运行时，使得计算机执行如上述的方法。上述方法实施例中的所有实现方式均适用于该实施例中，也能达到相同的技术效果。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

此外，需要指出的是，在本发明的装置和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行，某些步骤可以并行或彼此独立地执行。对本领域的普通技术人员而言，能够理解本发明的方法和装置的全部或者任何步骤或者部件，可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。

因此，本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此，本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本发明，并且存储有这样的程序产品的存储介质也构成本发明。显然，所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。还需要指出的是，在本发明的装置和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种登月航天器着陆控制方法，其特征在于，包括：

获取目标航天器在着陆阶段的传感器数据；

获取所述目标航天器的至少一个执行器的反馈数据；

控制所述目标航天器在目标状态下按照着陆路径进行着陆；

其中，确定所述目标航天器所处着陆范围的至少一个环境特征的地形感知模型的训练过程如下：

根据月球表面地理特征，确定决策树分裂节点特征集；

获取预设地形数据集的地形数据；

取m个分类结果中占比最多的结果输出，得到预测结果；

调整m与N的取值，得到至少一个准确率；

将所述准确率取值最高时对应的m与N值确定为最终参数值，得到所述地形感知模型；其中，m和N均为正整数；

训练过程具体包括，预先收集大规模的月球表面地形数据，对数据进行预处理，包括去噪、滤波、数据对齐处理；通过收集的地形数据，利用深度学习算法构建地形感知模型，使用收集到的地形数据进行模型的训练和优化，达到准确感知和分析航天器所处环境特征的效果；

地形感知模型的训练过程具体为：设置一m参数值，m取值100；在训练过程中，m的值通过观察模型误差确定，选取模型误差稳定时的m值，m参数表示决策树的数量值；初始化分裂节点特征集，所述分裂节点特征集包含S个分裂节点特征，S大于N，N为一个决策树的分裂节点个数；

其中，所述分裂节点特征包括：海拔高度、坡度、坡向、光照状况、土壤类型、地貌特征、地表覆盖类型、地表纹理和地形曲率；

根据所述分裂节点特征，在训练集数据样本中有放回的随机抽取m个样本集，作为每一棵决策树的根节点处样本集；初始化一N值，在分裂节点特征集中随机抽取N个节点特征，抽取m次，构建m棵决策树，其中每一棵决策树有N个分裂节点；输入地形数据进行预测，m个决策树根据节点特征进行分类，输出m个分类结果；最终模型预测结果通过投票得到，选取预测结果中占比最多的预测结果作为最终预测结果；计算在此时m与N值下的预测准确率并打印；调整N值，重新随机在分裂节点特征集中抽取分裂节点特征，构建决策树，即基分类器；再次对输入数据进行预测，并计算准确率；选取预测准确率最高时的m与N值作为最终参数值，得到所述地形感知模型。

2.根据权利要求1所述的登月航天器着陆控制方法，其特征在于，根据所述至少一个环境特征，确定所述目标航天器的着陆路径，包括：

3.根据权利要求2所述的登月航天器着陆控制方法，其特征在于，通过预设着陆算法，在n个可选中间节点中确定从初始位置至目标着陆点的最优路径，包括：

选取Q值最大的动作执行，到达下一个中间节点；

得到从初始位置至目标着陆点的最优路径。

4.根据权利要求3所述的登月航天器着陆控制方法，其特征在于，所述着陆算法的训练过程如下：

将第s轮更新的Q表确定为最终Q表，完成着陆算法的训练。

5.根据权利要求4所述的登月航天器着陆控制方法，其特征在于，所述转移规则包括：

确定一预设参数ε值，所述ε大于0小于1；

6.一种登月航天器着陆控制装置，其特征在于，包括：

获取模块，获取目标航天器在着陆阶段的传感器数据；

控制模块，根据所述传感器数据，确定所述目标航天器所处着陆范围的至少一个环境特征；根据所述至少一个环境特征，确定所述目标航天器的着陆路径；获取所述目标航天器的至少一个执行器的反馈数据；根据所述着陆路径、至少一个执行器的反馈数据和目标航天器所处着陆范围的至少一个环境特征，调整至少一个执行器的控制参数，控制所述执行器处于目标状态；控制所述目标航天器在目标状态下按照着陆路径进行着陆；

根据月球表面地理特征，确定决策树分裂节点特征集；

获取预设地形数据集的地形数据；

取m个分类结果中占比最多的结果输出，得到预测结果；

调整m与N的取值，得到至少一个准确率；

7.一种计算设备，其特征在于，包括：处理器、存储有计算机程序的存储器，所述计算机程序被处理器运行时，执行如权利要求1至5任一项所述的方法。

8.一种计算机可读存储介质，其特征在于，存储指令，当所述指令在计算机上运行时，使得计算机执行如权利要求1至5任一项所述的方法。