CN111687840B

CN111687840B - 一种对空间目标实施抓捕的方法、装置和存储介质

Info

Publication number: CN111687840B
Application number: CN202010526883.5A
Authority: CN
Inventors: 张涛; 李少朋; 王圣杰
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-06-11
Filing date: 2020-06-11
Publication date: 2021-10-29
Anticipated expiration: 2040-06-11
Also published as: CN111687840A

Abstract

本申请公开了一种对空间目标实施抓捕的方法、装置和存储介质，具体为获取抓捕装置的初始状态信息，初始状态信息包括表示抓捕装置在初始动作状态下的环境状态信息和动作属性信息，将初始状态信息和抓捕装置所要接近的空间目标的位置信息输入预先训练的第一移动状态优化模型，第一移动状态优化模型用于表示抓捕装置的动作属性信息和空间目标的位置信息之间的移动关系，通过第一移动状态优化模型确定抓捕装置的最优移动信息，并按照最优移动信息移动抓捕装置对空间目标进行抓捕。本申请实施例通过训练的第一移动状态优化模型，提升了第一移动状态优化模型对抓捕装置的最优移动信息的表征能力，提升了对空间目标的抓捕效率和准确率。

Description

一种对空间目标实施抓捕的方法、装置和存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种对空间目标实施抓捕的方法、装置和存储介质。

背景技术

随着空间技术的不断发展，空间机器人成为研究热点。空间机器人通常是指装有机械臂的服务卫星。机械臂由于其自身具有的灵巧操作性，可以提高服务卫星完成各类复杂空间任务的能力，例如消旋、抓捕、对接、精细操作等。空间机器人在各类任务中的规划与控制因此成为研究的热点问题。空间机器人具有复杂的动力学特性，在自由漂浮时属于非完整系统，其规划与控制问题相较于地面机器人更加复杂。

人工智能能够在一定程度上提高空间机器人的自主性，是空间机器人从人在回路的规划与控制如遥操作过渡到无人参与的自主规划与控制的重要一环，为空间智能的研究提供了理论基础。强化学习是人工智能在机器人领域中的典型应用。强化学习的主要特征是策略搜索，即通过求解目标函数为奖励函数的带有一定约束的非凸优化问题来得到策略的局部最优解。规划与控制作为机器人领域的两大主要问题，虽然评价的指标不尽相同，但大多都可以建模为马尔科夫决策过程，从而在强化学习的框架下求解。深度学习的出现进一步提高了强化学习的处理能力，即深度强化学习，深度强化学习在强化学习的优化框架下，采用深度学习来提取与环境交互得到的经验即样本的特征，大大提高了强化学习的表征能力，使得强化学习在机器人的规划与控制问题中有了更好的应用前景。然而，强化学习在机器人规划与控制问题中的应用面临着计算复杂度高、样本利用率低、样本获取难度高、奖励函数稀疏或不易设计、模型估计存在误差、实时性和准确率都较低等问题，且对可以适用的空间机器人有类型的要求，不具有普适性。

发明内容

本申请实施例提供了一种对空间目标实施抓捕的方法，克服了抓捕装置对空间目标进行抓捕时可能存在的的准确率较低，且实时性较差的问题，提升了抓捕效率。

该方法包括：

获取抓捕装置的初始状态信息，所述初始状态信息包括表示抓捕装置在初始动作状态下的环境状态信息和动作属性信息；

将所述初始状态信息和所述抓捕装置所要接近的空间目标的位置信息输入预先训练的第一移动状态优化模型，其中，所述第一移动状态优化模型用于表示在所述抓捕装置和所述空间目标之间的相对位姿固定时，所述抓捕装置的所述动作属性信息和所述空间目标的所述位置信息之间的移动关系；

通过所述第一移动状态优化模型确定所述抓捕装置的最优移动信息，并按照所述最优移动信息移动所述抓捕装置对所述空间目标进行抓捕。

可选地，获取所述抓捕装置的样本状态信息，所述样本状态信息包括表示抓捕装置在至少一个时刻下的样本环境状态信息和样本动作属性信息；

基于所述抓捕装置在当前时刻下的所述样本动作属性信息和在前一时刻下的所述样本动作属性信息，生成所述抓捕装置在当前时刻的移动关系函数；

基于所述抓捕装置在当前时刻下的所述样本环境状态信息和在前一时刻下的所述样本环境状态信息，生成所述抓捕装置在当前时刻的状态转移函数；

根据所述移动关系函数和所述状态转移函数，确定所述第一移动状态优化模型的第一奖励函数，并基于所述第一奖励函数对所述第一移动状态优化模型进行优化，以完成所述第一移动状态优化模型的训练。

可选地，基于所述抓捕装置在当前时刻下的所述状态转移函数和所述移动关系函数，以及在后一时刻下的所述状态转移函数生成每个时刻下的单个奖励函数；

根据所述每个时刻下的所述单个奖励函数，确定累计奖励函数作为所述第一移动状态优化模型的所述第一奖励函数。

可选地，基于所述第一奖励函数、所述状态转移函数和所述移动关系函数生成所述第一移动状态优化模型的状态优化函数和状态动作优化函数，其中，所述状态优化函数用于评估当前环境状态信息的优劣，以及所述状态动作优化函数用于评估当前样本环境状态信息和样本动作属性信息间关联信息的优劣；

对所述状态优化函数采用最小化均方贝尔曼误差的方式更新参数，以及对所述状态动作优化函数采用确定性策略梯度更新参数，分别获取最优状态优化函数和最优状态动作优化函数；

通过所述最优状态优化函数和所述最优状态动作优化函数确定所述累计奖励函数的最优值，并作为所述第一移动状态优化模型的所述第一奖励函数。

可选地，当所述空间目标的所述位置信息与所述抓捕装置的初始位置信息之间包含多个可行进位置信息时，将所述抓捕装置的所述初始状态信息输入第二移动状态优化模型，其中，所述第二移动状态优化模型表示在所述抓捕装置和所述空间目标之间的相对位姿不固定时，所述抓捕装置的所述动作属性信息和所述空间目标的所述位置信息之间的移动关系；

所述第二移动状态优化模型同时生成在每个所述可行进位置信息的阶段最优移动信息，并操作所述抓捕装置移动至最优可行进位置；

操作所述抓捕装置移动至每一个所述最优可行进位置，直至所述抓捕装置移动至可对所述控件目标进行抓捕的最优位置。

可选地，在所述可行进位置之间训练时的当前时刻的所述样本环境状态信息执行至和下一时刻的所述样本环境状态信息相同时，确定所述第二奖励函数的值为0，否则为负。

在本发明的另一个实施例中，提供了一种对空间目标实施抓捕的装置，该装置包括：

获取模块，用于获取抓捕装置的初始状态信息，所述初始状态信息包括表示抓捕装置在初始动作状态下的环境状态信息和动作属性信息；

输入模块，用于将所述初始状态信息和所述抓捕装置所要接近的空间目标的位置信息输入预先训练的第一移动状态优化模型，其中，所述第一移动状态优化模型用于表示在所述抓捕装置和所述空间目标之间的相对位姿固定时，所述抓捕装置的所述动作属性信息和所述空间目标的所述位置信息之间的移动关系；

确定模块，用于通过所述第一移动状态优化模型确定所述抓捕装置的最优移动信息，并按照所述最优移动信息移动所述抓捕装置对所述空间目标进行抓捕。

可选地，所述训练模块包括：

获取单元，用于获取所述抓捕装置的样本状态信息，所述样本状态信息包括表示抓捕装置在至少一个时刻下的样本环境状态信息和样本动作属性信息；

第一生成单元，用于基于所述抓捕装置在当前时刻下的所述样本动作属性信息和在前一时刻下的所述样本动作属性信息，生成所述抓捕装置在当前时刻的移动关系函数；

第二生成单元，用于基于所述抓捕装置在当前时刻下的所述样本环境状态信息和在前一时刻下的所述样本环境状态信息，生成所述抓捕装置在当前时刻的状态转移函数；

确定单元，用于根据所述移动关系函数和所述状态转移函数，确定所述第一移动状态优化模型的奖励函数，并基于所述奖励函数对所述第一移动状态优化模型进行优化，以完成所述第一移动状态优化模型的训练。

在本发明的另一个实施例中，提供了一种非瞬时计算机可读存储介质，所述非瞬时计算机可读存储介质存储指令，所述指令在由处理器执行时使得所述处理器执行上述一种对空间目标实施抓捕的方法中的各个步骤。

在本发明的另一个实施例中，提供了一种终端设备，包括处理器，所述处理器用于执行上述一种对空间目标实施抓捕的方法中的各个步骤。

基于上述实施例，首先获取抓捕装置的初始状态信息，初始状态信息包括表示抓捕装置在初始动作状态下的环境状态信息和动作属性信息，其次，将初始状态信息和抓捕装置所要接近的空间目标的位置信息输入预先训练的第一移动状态优化模型，其中，第一移动状态优化模型用于表示抓捕装置的动作属性信息和空间目标的位置信息之间的移动关系，最后，通过第一移动状态优化模型确定抓捕装置的最优移动信息，并按照最优移动信息移动抓捕装置对空间目标进行抓捕。本申请实施例通过深度学习方法提取抓捕装置的动作与环境交互得到的经验即样本的特征训练的第一移动状态优化模型，提升了第一移动状态优化模型对抓捕装置的最优移动信息的表征能力，针对不同的目标和场景有更好的普适性，提升了对空间目标的抓捕效率和准确率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例100所提供的一种对空间目标实施抓捕的方法的流程示意图；

图2示出了本申请实施例200提供的一种对空间目标实施抓捕的方法的具体流程的示意图；

图3示出了本申请实施例300提供的另一种对空间目标实施抓捕的方法的具体流程的示意图；

图4示出了本申请实施例400还提供一种对空间目标实施抓捕的装置的示意图；

图5示出了本申请实施例500所提供的一种终端设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。

随着空间机器人技术的发展，在感知系统辅助下的空间机械臂遥操作逐渐取代人工作业，但受限于天地信息传输的大时延，在轨遥操作的适用场景比较有限，稳定性较低。随着空间在轨服务技术的不断突破，面向空间在轨服务的自主操作控制技术已成为宇航技术发展的新增长点。基于现有技术中的问题，本申请实施例提供了一种对空间目标实施抓捕的方法，主要适用于人工智能技术领域。通过针对抓捕静态空间目标的任务，考虑空间目标与抓捕装置的相对位姿在整个训练过程中固定的情形，设计第一移动状态优化模型，实现抓捕装置对空间目标的抓捕；以及针对抓捕静态空间目标的任务，考虑空间目标与抓捕装置的相对位姿在整个训练过程中不固定的情形，设计第二移动状态优化模型，实现抓捕装置对空间目标的抓捕。下面以具体实施例对本发明的技术方案进行详细说明，以实现一种对空间目标实施抓捕的方法。以下几个具体实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。如图1所示，为本申请实施例100提供的一种对空间目标实施抓捕的方法的流程示意图。其中，详细步骤如下：

S11，获取抓捕装置的初始状态信息，初始状态信息包括表示抓捕装置在初始动作状态下的环境状态信息和动作属性信息。

本步骤中，抓捕装置可以为空间机械臂，机械臂由于其自身具有的灵巧操作性，可以提高空间目标完成各类复杂空间任务的能力，例如消旋、抓捕、对接、精细操作等。进一步地，获取抓捕装置在初始动作状态下移动的力矩、角速度和移动速度等当前动作的动作属性信息，以及，获取抓捕装置初始动作状态下的抓捕装置的关节位置、与空间目标的位置距离等当前所在环境状态的环境状态信息。由初始动作状态下的环境状态信息和动作属性信息组成抓捕装置的初始状态信息。

S12，将初始状态信息和抓捕装置所要接近的空间目标的位置信息输入预先训练的第一移动状态优化模型。

本步骤中，第一移动状态优化模型用于表示在抓捕装置和空间目标之间的相对位姿固定时，抓捕装置的动作属性信息和空间目标的位置信息之间的移动关系。具体的，第一移动状态优化模型主要为由移动关系函数和状态转移函数生成的第一奖励函数的优化问题。其中，移动关系函数表示抓捕装置的动作空间，以及状态转移函数表示抓捕装置的环境空间。由移动关系函数和状态转移函数可生成表示评估当前环境状态信息和动作属性信息间关联信息的优劣的状态动作优化函数。状态动作优化函数作为策略映射通常指从环境的状态或观测值到智能体动作的映射。进一步地，由状态动作优化函数指导抓捕装置向空间目标移动，并由第一奖励函数对抓捕装置的每一步动作进行评判。第一奖励函数的函数值越大，则取得该奖励所采取的动作越优。第一奖励函数取决于抓捕装置在当前时刻下的状态转移函数和移动关系函数，以及在后一时刻下的状态转移函数。

进一步地，将初始状态信息和抓捕装置所要接近的空间目标的位置信息输入前述第一移动状态优化模型。

S13，通过第一移动状态优化模型确定抓捕装置的最优移动信息，并按照最优移动信息移动抓捕装置对空间目标进行抓捕。

本步骤中，由第一移动状态优化模型输出当前状态下的抓捕装置在最终逼近段对空间目标进行抓捕的最优移动信息。

如上所述，基于上述实施例，首先获取抓捕装置的初始状态信息，初始状态信息包括表示抓捕装置在初始动作状态下的环境状态信息和动作属性信息，其次，将初始状态信息和抓捕装置所要接近的空间目标的位置信息输入预先训练的第一移动状态优化模型，其中，第一移动状态优化模型用于表示抓捕装置的动作属性信息和空间目标的位置信息之间的移动关系，最后，通过第一移动状态优化模型确定抓捕装置的最优移动信息，并按照最优移动信息移动抓捕装置对空间目标进行抓捕。本申请实施例通过深度学习方法提取抓捕装置的动作与环境交互得到的经验即样本的特征训练的第一移动状态优化模型，提升了第一移动状态优化模型对抓捕装置的最优移动信息的表征能力，针对不同的目标和场景有更好的普适性，提升了对空间目标的抓捕效率和准确率。

本申请实施例的应用场景主要为对空间目标实施抓捕以进行太空在轨服务的场景。抓捕任务的顺利进行是很多复杂空间任务(如在轨服务、主动碎片移除等)的重要环节之一。空间机器人的抓捕任务通常分为轨道机动、绕飞观察、最终逼近、接触抓捕、捕后稳定等一系列子任务。本申请实施例的研究目标定位在抓捕任务的最终逼近段。在抓捕任务的最终逼近段，抓捕装置需要根据空间目标的运动状态和形貌特征在线规划机械臂的运动轨迹，并控制抓捕装置抓捕末端抵近抓捕点并满足实施接触抓捕任务的条件，为之后接触抓捕任务的开展做好准备。抓捕任务最终逼近段规划与控制方法也可以被其他复杂空间任务(如抓捕空间目标、对接、对翻滚空间目标的消旋、照明、燃料加注、货物搬运、精细操作等)所借鉴。

如图2所示，为本申请实施例200提供的一种对空间目标实施抓捕的方法的具体流程的示意图。该具体流程的详细过程如下：

S201，获取抓捕装置的在初始动作状态下的样本环境状态信息和样本动作属性信息。

这里，采用马尔可夫决策过程(Markov Decision Process,MDP)数学模型记录抓捕装置的在初始动作状态下的样本环境状态信息和样本动作属性信息。具体的，MDP由五部分组成，即<S,A,R,P,ρ0>。其中，状态转移函数S∈s_t样本环境状态信息，状态转移函数A∈a_t样本动作属性信息，

为第一奖励函数，

为状态动作变化函数，ρ0为初始状态分布，即s0～ρ0。马尔科夫决策过程表示下一时刻的环境状态信息只取决于当前的环境状态信息和抓捕装置本体当前时刻所采取的动作属性信息，与之前环境状态信息及抓捕装置的历史动作属性信息无关。

S202，基于抓捕装置在当前时刻下的样本动作属性信息和在前一时刻下的样本动作属性信息，生成抓捕装置在当前时刻的移动关系函数。

这里，移动关系函数A表示抓捕装置前后时刻的样本动作属性信息的变化关系。

S203，基于抓捕装置在当前时刻下的样本环境状态信息和在前一时刻下的样本环境状态信息，生成抓捕装置在当前时刻的状态转移函数。

这里，状态转移函数S用来表示在样本环境状态信息为s_t时，抓捕装置采取移动关系函数a_t，使得环境状态转移到s_t+1的概率，即s_t+1～P(s_t+1|s_t,a_t)。当状态转移采用确定性模型，即概率为1时，状态转移函数可以表示为s_t+1＝f(s_t,a_t)。

S204，生成状态动作优化函数。

这里，状态动作优化函数为第一移动状态优化模型的策略函数，用于评估当前的样本环境状态信息和样本动作属性信息间关联信息的优劣。状态动作优化函数通常有两种形式,一种为确定性策略，表示为a_t＝μ(s_t)；另一种为随机性策略，表示为a_t～π(a_t|s_t)，其中，π(a_t|s_t)为样本动作属性信息at服从的分布，因此有∑a_tπ(a_t|s_t)＝1。当抓捕装置的样本动作属性信息值离散时，状态动作优化函数可以选取玻耳兹曼(Boltzman)分布：

当抓捕装置的样本动作属性信息值连续时，通常状态动作优化函数可以选取高斯分布，即

θ为神经网络参数。此时，状态动作优化函数可以表示为a_t＝μ(s_t,θμ)+σ(s_t,θσ)*z，其中，

。为了描述简洁，以下记μ＝μ(s_t,θμ)，σ＝σ(s_t,θσ)。一般情况下，随机性策略通常用于抓捕装置的探索与训练阶段，来提高强化学习算法的学习性能，使状态动作优化函数不易陷入局部最优解；而在测试或应用训练好的策略时通常选取确定性策略，来使抓捕装置表现出最优性能。

定义抓取装置的运动轨迹为一系列样本环境状态信息和样本动作属性信息的序列，即τ＝(s₀,a₀,s₁,a₁,…)。由状态转移函数与状态动作优化函数，及贝叶斯概率模型，有则一条轨迹出现的概率P(s_t+1＝P(s_t+1|s_t,a_t)π(a_t|s_t)P(s_t)，

S205，生成第一奖励函数。

这里，基于抓捕装置在当前时刻下的状态转移函数和移动关系函数，以及在后一时刻下的状态转移函数生成每个时刻下的单个奖励函数。具体的，第一奖励函数是强化学习的核心概念之一。第一奖励函数的数值越大，则取得该奖励所采取的样本动作属性信息a_t越优。奖励函数取决于环境当前时刻的状态s_t，抓捕装置当前时刻采取的动作at和环境下一时刻的状态s_t+1，即一次实验的累计奖励函数定义为r_t＝R(s_t,a_t,s_t+1)，

其中，γ∈(0,1)为折扣因子，用来表示奖励随着时间的推进重要性逐渐降低。

进一步地，根据每个时刻下的所述单个奖励函数，确定累计奖励函数作为第一移动状态优化模型的第一奖励函数。具体的，则一次实验的期望累积奖励函数可以表示为J(π)＝∫P(τ|π)R(τ)＝Eτ～π[R(τ)]τ，其中，π是π(a_t|s_t)的简写。由以上，强化学习的基本问题可以表述为以下对第一奖励函数max J(π)＝Eτ～π[R(τ)]进行优化的问题。

S206，通过第一奖励函数对第一移动状态优化模型进行优化，以完成第一移动状态优化模型的训练。

本步骤中，基于第一奖励函数、状态转移函数和移动关系函数生成第一移动状态优化模型的状态优化函数和状态动作优化函数，其中，状态优化函数用于评估当前环境状态信息的优劣，以及状态动作优化函数用于评估当前样本环境状态信息和样本动作属性信息间关联信息的优劣。通过最优状态优化函数和最优状态动作优化函数确定累计奖励函数的最优值，并作为第一移动状态优化模型的第一奖励函数。具体的，状态优化函数为值函数，用于评估环境当前状态的优劣，定义如下：

V^π(s)＝E_τ～π[R(τ)|s₀＝s]

Q^π(s，a)＝E_τ～n[R(τ)|s₀＝s，a₀＝a]

其中，V^π(s)称为状态值函数，Q^π(s，a)称为状态动作值函数，均为状态优化函数。由定义式，可得以下贝尔曼方程(Bellman Equations)：

V^π(s)＝E_{a～π，s′～P}[r+γV^π(s′)]

Q^π(s，a)＝E_s′～P[r+γE_a′～π[Q^π(s′，a′)]]

其中，a～π，a′～π，s′～P，r分别是a～π(a|s)，a′～π(a′|s′)，s′～P(s′|s，a)，r＝R(s，a，s′)的简写，以下在不引起混淆的情况下不再特殊说明。

进一步地，对状态优化函数采用最小化均方贝尔曼误差的方式更新参数，以及对状态动作优化函数采用确定性策略梯度更新参数，分别获取最优状态优化函数和最优状态动作优化函数。具体的，定义最优状态值函数V*(s)与最优状态动作值函数：

由贝尔曼最优原理，可得贝尔曼最优方程：

各值函数之间的关系式为：

V^π(s)＝E_a～π[Q^π(s，a)]

在值函数估计中，除了选取合适的值函数结构，如神经网络等，值函数的更新方式同样非常重要。固定策略函数π(a|s)，并假设策略函数π(a|s)下的真实值函数为Vπ(s)与Qπ(s，a)，定义值函数估计为Vπ(s，ω_v)，Qπ(s，a，ω_q)，则可以通过最小化均方误差来找到最优的参数值，即：

其中，Ps为状态分布，例如，可以取Ps为状态的稳态分布d，即：

通常，无法事先估计策略函数π(a|s)下的真实值函数Vπ(s)与Qπ(s，a)，因此需要对Vπ(s)与Qπ(s，a)进行估计，可以通过最小化估计误差的方式来寻找最优参数，例如最小化均方第二类贝尔曼误差(Mean Squared Bellman Error，MSBE)：

在定义了值函数后，第一奖励函数max J(π)＝Eτ～π[R(τ)]等价于max J(π)＝V^π(s₀)，由贝尔曼最优原理，可知，第一奖励函数可表述为max J(π)＝Es～dπ[V^π(s)]。

进一步地，如果只使用值函数估计，则最优的状态动作优化函数通过求解以下优化问题得到

当A离散时，a*可以通过遍历动作空间得到。当动作空间A连续时，可以对状态动作优化函数进行参数化，即a_t＝μ(s_t,θμ)以及a_t～π(a_t|s_t,θπ)。

进一步地，引入随机性策略梯度定理与确定性策略梯度定理。

定理1:随机性策略函数的梯度为：

且当值函数估计满足

时，沿上述梯度更新θ且采用一定的步长策略时，状态动作优化函数可以收敛到局部极值。

定理2:确定性策略函数的梯度为：

且当值函数估计满足

为了进一步提升策略的探索性，本申请实施合理采熵正则化的技巧，将方差参数化，使得抓捕装置在环境的不同状态下有不同的探索能力，且通过最大化熵来提高策略的探索性。分布P(x)的熵定义为H(P)＝E_x～P[-logP(x)]。熵正则化值函数定义为：

由前述定义，可以得到熵正则化值函数之间的关系式：

V^π(s)＝E_a～π[Q^π(s，a)1+αH(π(·|s))

＝E_a～π[Q^π(s，a)-αlogπ(d|s)]

以及熵正则化贝尔曼方程：

V^π(s)＝E_{a～π，s′～P}[r+γV^π(s′)]+αH(π(·|s))

Q^π(sa)＝E_s′～P[r+γ(E_a′～π[Q^π(s′，a′)]+αH(π(·|s)))]

＝E_s′～P[r+γV^π(s)]

由以上熵正则化贝尔曼方程，可以定义第三类熵正则化贝尔曼误差

∈(s，ω_v，ω_q)＝E_{a～π，s′～P}[r+γV^π(s′，ω_v)]-E_a～π[Q^π(s，a，ω_q)]

S207，获取抓捕装置的初始状态信息，初始状态信息包括表示抓捕装置在初始动作状态下的环境状态信息和动作属性信息。

S208，将初始状态信息和抓捕装置所要接近的空间目标的位置信息输入预先训练的第一移动状态优化模型。

S209，通过第一移动状态优化模型确定抓捕装置的最优移动信息，并按照最优移动信息移动抓捕装置对空间目标进行抓捕。

这里，第一移动状态优化模型输出抓捕装置接近空间目标并进行抓捕的移动速度、关节角速度、需要移动的力矩和需要移动的距离等最优移动信息。进一步使用最优移动信息对抓捕装置进行空间目标的抓捕。

如图3所示，为本申请实施例300提供的另一种对空间目标实施抓捕的方法的具体流程的示意图。具体的，实施例200给出了基于单任务强化学习算法的第一移动状态优化模型，即在整个训练过程中，空间目标的抓捕点与抓捕装置的之间的相对位姿不变。为了提高抓捕装置的泛用性，进一步考虑多任务强化学习，即训练过程的每一次实验，空间目标的抓捕点相对于抓捕装置的之间的相对位姿是随机的。该具体流程的详细过程如下：

S301，获取抓捕装置的在初始动作状态下的样本环境状态信息和样本动作属性信息。

这里，采用广义马尔可夫决策过程(Universal Markov Decision Process，UMDP)数学模型记录抓捕装置的在初始动作状态下的样本环境状态信息和样本动作属性信息。具体的，MDP由六部分组成，即<S，G，A，R，P，ρ0>。其中，状态转移函数S∈s_t样本环境状态信息，G为目标环境空间，状态转移函数A∈a_t样本动作属性信息，

为第二奖励函数，

为状态动作变化函数，ρ0为初始状态分布，即s0～ρ0。与MDP相比，UMDP引入了目标环境空间的概念。

S302，生成第二奖励函数。

其中，在UMDP的每一次实验开始时，环境会从空间目标中生成一个目标值g∈G，且在本次实验过程中保持不变。广义值函数估计(Universal Value FunctionApproximator，UVFA)是指，将目标也作为值函数的输入来估计值函数，即：

V^π(s，g)＝E_τ～π[R(τ)|s₀＝s，g₀＝g]

Q^π(s，g，a)＝E_τ～π[R(τ)|s₀＝s，g₀＝g，a₀＝a]

通过后见经验回放的分层强化学习设计第二奖励函数，基于后见经验回放的分层强化学习的基本原理如下：

即，a_t的产生不再是一层映射，而是复合映射，即：

a_t～Π₀Π₁…Π_n+1(s_t，g_t)

其中，定义的分层策略采取迭代的方式运行。基于后见经验回放，可以构造出一条假想的低层策略已收敛的样本，称之为后见动作样本。后见动作样本(Hindsight ActionTransitions，HAT)的构造方式为，子层的策略在运行到给定步长后，将环境所处的样本环境状态信息作为父层的样本动作属性信息。以此方式构造的后见动作为：

其中，N+1为总层数，即可行进位置的数量，＝＝为相等判断符，左右值相等时取1，否则取0。具体的，在可行进位置之间训练时的当前时刻的样本环境状态信息执行至和下一时刻的样本环境状态信息相同时，确定第二奖励函数的值为0，否则为负即-1。后见动作样本的作用在于训练当前层策略时，当前层以下的节点都可以认为是最优策略，从而各层策略可以同步训练。需要注意的是，后见动作样本只适用于除最低层外的其他层策略，因为最底层的动作值是抓捕装置与环境交互的真实动作。

进一步地，后见目标样本(HindSight Goal Transitions，HGT)定义为：

这里，TBD指To Be Determined，即目标(goal)是待定的，从而奖励也待定。目标的选取方式有多种，例如当本层策略运行到给定步长后，选取该条轨迹的其中一个样本作为后见动作样本，目标值则可以取该条轨迹在该样本之后的其余样本的状态值；或者直接取该样本的下一时刻状态作为goal，即：

则可以进一步确定第二奖励函数为：

需要注意的是，后见目标样本对每一层都适用，因为每一层都有自己的轨迹。

注意到第二奖励函数永远为负，且有界，设下界为Uq，即Q∈[Uq,0]，对状态优化函数的输出值进行clip操作，来限制Q函数的估计误差。

S303，对第二移动状态优化模型进行训练，并确定最优的第二移动状态优化模型。

这里，每一层都采用基于第一移动状态优化模型，设计状态优化函数和状态动作优化函数的估计方式与更新方式，即每一层都采用神经网络来作为状态优化函数和状态动作优化函数的函数估计，对于状态优化函数，仍采用最小化均方贝尔曼误差的方式更新参数，对于状态动作优化函数，仍采用确定性策略梯度更新参数。

S304，获取抓捕装置的在初始动作状态下的环境状态信息和动作属性信息。

S305，将环境状态信息和动作属性信息输入第二移动状态优化模型，同时生成在每个可行进位置的阶段最优移动信息。

这里，当空间目标的所述位置信息与抓捕装置的初始位置信息之间包含多个可行进位置信息时，将抓捕装置的初始状态信息输入第二移动状态优化模型，可以同时规划抓捕装置前进至每个可行进位置的阶段最优移动信息。其中，第二移动状态优化模型表示在抓捕装置和空间目标之间的相对位姿不固定时，抓捕装置的动作属性信息和空间目标的所述位置信息之间的移动关系。其中，阶段最优移动信息为抓捕装置接近空间目标并进行抓捕的移动速度、关节角速度、需要移动的力矩和需要移动的距离等阶段最优移动信息。

S306，基于阶段最优移动信息，操作抓捕装置移动至每个最优可行进位置。

这里，第二移动状态优化模型在每个可行进位置信息生成阶段最优移动信息，并操作抓捕装置移动至最优可行进位置。

S307，判断最优可行进位置是否与空间目标的位置信息最接近的最优位置。

这里，当最优可行进位置与空间目标的位置信息最接近时，结束流程。若否，则重复执行步骤S306至步骤S307的过程，直至抓捕装置移动至可对控件目标进行抓捕的最优位置。

本申请基于上述步骤实现上述一种对空间目标实施抓捕的方法。通过设计第一移动状态优化模型和第二移动状态优化模型分别对抓捕装置和空间目标之间的相对位姿固定时的抓捕路径，以及抓捕装置和空间目标之间的相对位姿不固定时的抓捕路径进行规划，提升了抓捕装置的抓捕效率和准确率。

基于同一发明构思，本申请实施例400还提供一种对空间目标实施抓捕的装置，其中，如图4所示，该装置包括：

获取模块41，用于获取抓捕装置的初始状态信息，初始状态信息包括表示抓捕装置在初始动作状态下的环境状态信息和动作属性信息；

输入模块42，用于将初始状态信息和抓捕装置所要接近的空间目标的位置信息输入预先训练的第一移动状态优化模型，其中，第一移动状态优化模型用于表示在抓捕装置和空间目标之间的相对位姿固定时，抓捕装置的动作属性信息和空间目标的位置信息之间的移动关系；

确定模块43，用于通过第一移动状态优化模型确定抓捕装置的最优移动信息，并按照最优移动信息移动抓捕装置对空间目标进行抓捕。

本实施例中，获取模块41、输入模块42和确定模块43的具体功能和交互方式，可参见图1对应的实施例的记载，在此不再赘述。

可选地，该装置进一步包括训练模块44，训练模块44包括：

获取单元，用于获取抓捕装置的样本状态信息，样本状态信息包括表示抓捕装置在至少一个时刻下的样本环境状态信息和样本动作属性信息；

第一生成单元，用于基于抓捕装置在当前时刻下的样本动作属性信息和在前一时刻下的样本动作属性信息，生成抓捕装置在当前时刻的移动关系函数；

第二生成单元，用于基于抓捕装置在当前时刻下的样本环境状态信息和在前一时刻下的样本环境状态信息，生成抓捕装置在当前时刻的状态转移函数；

确定单元，用于根据移动关系函数和状态转移函数，确定第一移动状态优化模型的奖励函数，并基于奖励函数对第一移动状态优化模型进行优化，以完成第一移动状态优化模型的训练。

如图5所示，本申请的又一实施例500还提供一种终端设备，包括处理器501，其中，处理器501用于执行上述一种对空间目标实施抓捕的方法的步骤。从图5中还可以看出，上述实施例提供的终端设备还包括非瞬时计算机可读存储介质502，该非瞬时计算机可读存储介质502上存储有计算机程序，该计算机程序被处理器501运行时执行上述一种对空间目标实施抓捕的方法的步骤。实际应用中，该终端设备可以是一台或多台计算机，只要包括上述计算机可读介质和处理器即可。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘和FLASH等，该存储介质上的计算机程序被运行时，能够执行上述的一种对空间目标实施抓捕的方法中的各个步骤。实际应用中，所述的计算机可读介质可以是上述实施例中描述的设备/装置/系统中所包含的，也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或多个程序被执行时，能够执行上述的一种对空间目标实施抓捕的方法中的各个步骤。

根据本申请公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件，或者上述的任意合适的组合，但不用于限制本申请保护的范围。在本申请公开的实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

本申请附图中的流程图和框图，示出了按照本申请公开的各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或者代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应该注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同附图中所标注的顺序发生。例如，两个连接地表示的方框实际上可以基本并行地执行，它们有时也可以按照相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或者流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本申请中。特别地，在不脱离本申请精神和教导的情况下，本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，所有这些组合和/或结合均落入本申请公开的范围。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行变更或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些变更、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种对空间目标实施抓捕的方法，其特征在于，包括：

通过所述第一移动状态优化模型确定所述抓捕装置的最优移动信息，以及，将所述抓捕装置的所述初始状态信息输入第二移动状态优化模型，并生成在每个所述抓捕装置的可行进位置信息的阶段最优移动信息，其中，所述第二移动状态优化模型表示在所述抓捕装置和所述空间目标之间的相对位姿不固定时，所述抓捕装置的所述动作属性信息和所述空间目标的所述位置信息之间的移动关系，并按照所述最优移动信息，或所述阶段最优移动信息移动所述抓捕装置对所述空间目标进行抓捕；其中，所述最优移动信息包括所述第一移动状态优化模型输出的所述抓捕装置接近所述空间目标并进行抓捕的移动速度、关节角速度、需要移动的力矩和需要移动的距离。

2.根据权利要求1所述的方法，其特征在于，在所述将所述初始状态信息和所述抓捕装置所要接近的空间目标的位置信息输入预先训练的第一移动状态优化模型的步骤之前，所述方法进一步包括所述第一移动状态优化模型的训练步骤：

获取所述抓捕装置的样本状态信息，所述样本状态信息包括表示抓捕装置在至少一个时刻下的样本环境状态信息和样本动作属性信息；

3.根据权利要求2所述的方法，其特征在于，所述确定所述第一移动状态优化模型的第一奖励函数的步骤包括：

基于所述抓捕装置在当前时刻下的所述状态转移函数和所述移动关系函数，以及在后一时刻下的所述状态转移函数生成每个时刻下的单个奖励函数；

4.根据权利要求3所述的方法，其特征在于，所述确定累计奖励函数作为所述第一移动状态优化模型的所述第一奖励函数的步骤包括：

基于所述第一奖励函数、所述状态转移函数和所述移动关系函数生成所述第一移动状态优化模型的状态优化函数和状态动作优化函数，其中，所述状态优化函数用于评估当前环境状态信息的优劣，以及所述状态动作优化函数用于评估当前样本环境状态信息和样本动作属性信息间关联信息的优劣；

5.根据权利要求2所述的方法，其特征在于，通过所述第一移动状态优化模型确定所述抓捕装置的最优移动信息的步骤和所述并按照所述最优移动信息移动所述抓捕装置对所述空间目标进行抓捕的步骤之间，所述方法进一步包括：

当所述空间目标的所述位置信息与所述抓捕装置的初始位置信息之间包含多个可行进位置信息时，将所述抓捕装置的所述初始状态信息输入第二移动状态优化模型，其中，所述第二移动状态优化模型表示在所述抓捕装置和所述空间目标之间的相对位姿不固定时，所述抓捕装置的所述动作属性信息和所述空间目标的所述位置信息之间的移动关系；

操作所述抓捕装置移动至每一个所述最优可行进位置，直至所述抓捕装置移动至可对所述空间目标进行抓捕的最优位置。

6.根据权利要求5所述的方法，其特征在于，所述第二移动状态优化模型中的第二奖励函数的确定方式为：

在所述可行进位置之间训练时的当前时刻的所述样本环境状态信息执行至和下一时刻的所述样本环境状态信息相同时，确定所述第二奖励函数的值为0，否则为负。

7.一种对空间目标实施抓捕的装置，其特征在于，所述装置包括：

确定模块，用于通过所述第一移动状态优化模型确定所述抓捕装置的最优移动信息，以及，将所述抓捕装置的所述初始状态信息输入第二移动状态优化模型，并生成在每个所述抓捕装置的可行进位置信息的阶段最优移动信息，其中，所述第二移动状态优化模型表示在所述抓捕装置和所述空间目标之间的相对位姿不固定时，所述抓捕装置的所述动作属性信息和所述空间目标的所述位置信息之间的移动关系，并按照所述最优移动信息，或所述阶段最优移动信息移动所述抓捕装置对所述空间目标进行抓捕；其中，所述最优移动信息包括所述第一移动状态优化模型输出的所述抓捕装置接近所述空间目标并进行抓捕的移动速度、关节角速度、需要移动的力矩和需要移动的距离。

8.根据权利要求7所述的装置，所述装置进一步包括训练模块，所述训练模块包括：

9.一种非瞬时计算机可读存储介质，其特征在于，所述非瞬时计算机可读存储介质存储指令，所述指令在由处理器执行时使得所述处理器执行如权利要求1至6任一项所述的一种对空间目标实施抓捕的方法中的各个步骤。

10.一种终端设备，其特征在于，包括处理器，所述处理器用于执行如权利要求1至6中任一项所述的一种对空间目标实施抓捕的方法中的各个步骤。