CN115057006A

CN115057006A - 一种基于强化学习的蒸馏策略评估的方法、装置及介质

Info

Publication number: CN115057006A
Application number: CN202210680169.0A
Authority: CN
Inventors: 吴凤鸽; 王诗轩; 赵军锁; 高航
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2022-06-15
Filing date: 2022-06-15
Publication date: 2022-09-16
Anticipated expiration: 2042-06-15
Also published as: CN115057006B

Abstract

本申请实施例提供一种基于强化学习的蒸馏策略评估的方法、装置及介质，该方法可应用在卫星姿态控制中，所述方法包括：根据搭建的卫星仿真环境和设计的域参数分布区间，通过教师训练过程得到N个教师策略，其中，N为大于1的整数；依据蒸馏损失函数和所述N个教师策略完成对学生策略更新，得到控制策略，其中，所述蒸馏损失函数与目标误差值相关，所述目标误差值是通过所述N个教师策略中各教师策略的性能评估结果确定的，所述各教师策略的性能评估结果是通过各次迭代的平均回报值和平均轨迹长度确定的；根据所述控制策略完成针对在真实环境中的卫星的姿态控制。本申请实施例可以解决现有技术中部分教师策略不是最优策略从而影响蒸馏后的学生策略的健壮性等问题。

Description

一种基于强化学习的蒸馏策略评估的方法、装置及介质

技术领域

本申请涉及卫星姿态控制领域，具体而言本申请实施例涉及一种基于强化学习的蒸馏策略评估的方法、装置及介质。

背景技术

近些年深度强化学习在机器人的控制领域中已取得较为显著的成果，但在卫星的姿态控制领域的应用还在研究阶段中。目前深度强化学习对机器装置的训练需要先在模拟环境中试验，但如何将深度强化学习的算法与模型顺利迁移到真实世界的环境中仍是机器人控制领域较难解决的问题之一。而对于卫星姿态控制领域，更难以在真实环境中测试。其中最大的障碍是模拟环境与真实环境之间通常存在一定的差异，如真实环境中的卫星硬件存在磨损、延迟、摩擦阻力不稳定等情况，而这些不确定性可能会导致策略迁移的失败。

为了尽可能模拟出真实环境中的多种不确定性情况，一个较为突出的方法是域随机化，将物理模拟环境参数化，如环境中的物体质量、连杆间的阻尼或摩擦力系数等，随机化参数化的物理模拟环境中的参数，使智能体能够适应环境的多种变换，进而在真实世界中拥有更好的性能。将随机化一组参数的模拟环境称为源域，策略最终要迁移到的真实环境称为目标域。源域中的每个参数都根据一个特定的分布范围随机选取，每个随机化不同域参数的源域都是一个不同设定的模拟环境，智能体在多个不同的源域中训练。当源域的范围足够广时，目标域的情况就可以被源域覆盖到，即训练的策略可以泛化到真实环境中。由于域随机化方法不需要真实环境的数据作为策略训练的参照，因此对卫星姿控应用中真实数据难以获取的问题有了极大的缓解，且可以尽可能多地模拟出卫星的各种不确定状态。

但随之而来的问题是，域参数的分布的范围总是不容易确定。为了使参数的分布能够尽可能覆盖到真实环境，通常分布会设置得很大，这可能导致智能体学习到一些无意义的数据，造成高方差和收敛性不好。在卫星姿控领域，高方差会导致卫星姿态不稳定，对精度造成较大影响。

为了改善这一问题，一些研究将策略蒸馏技术引入域随机化方法中，将一个集成多个策略的模型蒸馏到一个较小的未训练的控制策略中，令其模仿集成的多个策略的性能，从而对仿真与现实之间的误差更具有鲁棒性。策略蒸馏是知识蒸馏在强化学习领域的变体，在多任务学习中应用更加广泛。集成的策略作为教师策略在不同的域中训练，其中每个域是同一个环境经过随机化不同参数产生的实例。之后控制策略模仿这些教师策略，学习教师策略中的知识。通常这个控制策略与学生策略相同，即将教师策略的知识蒸馏到控制策略，即学生策略中。经过蒸馏，学生策略将多个教师策略的性能集成在一起，实现教师策略模型的压缩，使学生策略的泛化性足够好，减小模拟与现实之间的误差。算法流程图如图1所示。

对卫星进行姿态控制时，通常卫星的姿控模型会设计得非常庞大，应用策略蒸馏方法对卫星的姿控进行学习，将其压缩到一个较小的模型，更易于后续的优化更新，且可以降低模型的方差。

发明内容

本申请实施例的目的在于提供一种基于强化学习的蒸馏策略评估的方法、装置及介质，采用本申请实施例的方法可以解决现有技术中部分教师策略不是最优策略从而影响蒸馏后的学生策略的健壮性等问题，通过对教师策略进行评估，提高控制策略对教师策略性能的判别能力，使控制策略尽可能模仿性能更优的教师策略，增强控制策略的稳健性和迁移的泛化性。

第一方面，本申请实施例提供一种基于强化学习的蒸馏策略评估的方法，所述方法可应用在卫星姿态控制中，所述方法包括：根据搭建的卫星仿真环境和设计的域参数分布区间，通过教师训练过程得到N个教师策略，其中，N为大于1的整数；依据蒸馏损失函数完成对学生策略更新，得到控制策略，其中，所述蒸馏损失函数与目标误差值相关，所述目标误差值是通过所述N个教师策略中各教师策略的性能评估结果确定的，所述各教师策略的性能评估结果是通过各次迭代的平均回报值和平均轨迹长度确定的；根据所述控制策略完成针对在真实环境中的卫星的姿态控制。

本申请的一些实施例通过在蒸馏损失函数中引入用于评估教师策略性能的目标误差值，该目标误差值是通过各次迭代的平均回报值和平均轨迹长度确定的，本申请的这些实施例通过对教师策略进行评估，提高控制策略对教师策略性能的判别能力，使控制策略尽可能模仿性能更优的教师策略，增强控制策略的稳健性和迁移的泛化性。

在一些实施例中，所述目标误差值的计算公式如下：

其中，

表示对第n教师策略的性能评估结果，n的取值范围为大于等于1且小于等于N，p^s表示学生策略的性能评估结果，所述学生策略的性能评估结果与各次迭代的平均回报值和平均轨迹长度相关。

本申请的一些实施例提供了一种基于N个教师处理评估结果得到目标误差值的方法。

在一些实施例中，所述依据蒸馏损失函数完成对学生策略更新，得到所述控制策略，包括：获取所述N个教师策略中对各教师策略的性能评估结果，其中，一个教师策略与一个域参数值的环境对应，所述N个教师策略对应N个不同的域参数值的环境；获取N个学生策略评估结果；计算与 N个域参数值的环境对应的N个教师策略的性能评估结果与相应的学生策略评估结果的差值，得到N个差值；从所述N个差值中取最大值作为所述目标误差值。

本申请的一些实施例提供了一种获取目标误差值的方法。

在一些实施例中，所述获取所述N个教师策略中对各教师策略的性能评估结果，包括：将K次迭代中各次迭代对应的所述第n教师策略的平均回报值与平均轨迹长度按照极差法进行标准化处理，得到K个处理结果；对所述K个处理结果进行降维处理，得到一个成分矩阵，其中，所述成分矩阵的行表示所述平均回报值和所述平均轨迹长度两个指标，所述成分矩阵的列表示两个主成分；根据所述成分矩阵中各个元素值计算出指标线性组合系数矩阵；根据所述指标线性组合系数矩阵中各个线性组合系数计算出所述两个指标中各个指标的权重值，其中，所述权重值包括第一权重值和第二权重值；对所述第一权重值做归一化处理得到第一归一化权重值，并对所述第二权重值做归一化处理得到第二归一化权重值；根据所述第一归一化权重值、所述第二归一化权重值和所述第k次迭代中每次迭代的平均回报值和平均轨迹长度得到一个教师策略的性能评估结果。

本申请的一些实施例提供了一种如何根据平均回报值和平均轨迹长度得到教师策略的性能结果的评估方法。

在一些实施例中，所述根据所述指标线性组合系数矩阵中各个线性组合系数计算出所述各个指标的权重值，包括：计算所述每个指标对应的每个主成分的线性组合系数与对应主成分的方差贡献率相乘之和，再除以所有主成分的方差贡献率之和，得到与所述每个指标的对应的权重值。

在一些实施例中，所述根据所述权重值得到一个教师策略的性能评估结果，包括：将所述权重值进行归一化，得到归一化权重值；根据所述归一化权重值得到与所述教师策略的性能评估结果。

本申请的一些实施例提供了一种将权重值进行归一化处理的方法，提升技术方案的通用性。

在一些实施例中，所述根据所述归一化权重值得到与所述教师策略的性能评估结果，包括：将第k次迭代的第k平均回报值与所述第k平均回报值对应权重相乘，得到第一乘积；将与所述第k次迭代对应的第k平均轨迹长度与所述第k平均轨迹长度对应权重相乘，得到第二乘积；求解所述第一乘积和所述第二乘积的和，并重复上述过程得到所有迭代的和，得到综合结果；将所述综合结果除以所述所有迭代的总次数得到所述教师策略的性能评估结果。

在一些实施例中，所述蒸馏损失函数的公式为：

其中，所述

表征所述目标误差值，n表征任一教师策略编号，τ_1：N表征所述学生策略在每个教师环境中训练得到的轨迹，

表征训练得到的第n教师策略，θ^s表征所述学生策略，

表征所述学生策略在与所述第n教师策略相同的环境实例中产生的轨迹τ_n在所述教师策略下产生的第一动作分布；

表征所述学生策略在所述第n教师环境产生的轨迹τ_n在所述学生策略下产生的第二动作分布，KL表征计算所述第一动作分布和所述第二动作分布的散度值，N表示教师策略的个数。

在一些实施例中，所述对第n教师策略的性能评估结果的计算公式如下：

其中，I为总迭代次数，k为第k次迭代，

为所述第n教师策略。

在一些实施例中，所述根据搭建的卫星仿真环境和设计的域参数分布区间，通过教师训练过程得到N个教师策略，包括：建立卫星姿控任务的训练环境，确定各域参数的分布，其中，所述域参数类型包括：卫星的质量、所述卫星的迎风面积、所述卫星的受晒面积、所述卫星的初始姿态角和目标姿态角、飞轮的最大控制力矩、飞轮的转速、磁力矩器的工作温度；在每个域参数的分布区间范围内进行随机取值，得到N个环境实例ξ，其中，一个环境实例是将所有类的域参数分别在分布区间内随机取一个值得到的；根据所述N个环境实例，并使用强化学习算法训练教师策略网络，得到所述N个教师策略，其中，一个环境实例对应一个教师策略。

在一些实施例中，所述教师策略网络包括：径向基神经网络RBF，卷积神经网络CNN或循环神经网络RNN。

第二方面，本申请的一些实施例提供一种基于强化学习的蒸馏策略评估的装置，所述装置包括：构建模块，被配置为根据搭建的卫星仿真环境和设计的域参数分布区间，通过教师训练过程得到N个教师策略，其中， N为大于1的整数；控制处理获取模块，被配置为依据蒸馏损失函数完成对学生策略更新，得到控制策略，其中，所述蒸馏损失函数与目标误差值相关，所述目标误差值是通过所述N个教师策略中各教师策略的性能评估结果确定的；姿态控制模块，被配置为根据所述控制策略完成针对在真实环境中的卫星的姿态控制。

第三方面，本申请的一些实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时可实现如第一方面任意实施例所述的方法。

第四方面，本申请的一些实施例提供一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述程序时可实现如第一方面任意实施例所述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的获取控制策略的系统架构图；

图2为本申请实施例提供的基于强化学习的蒸馏策略评估的方法流程图之一；

图3为本申请实施例提供的基于强化学习的蒸馏策略评估的方法流程图之二；

图4为本申请实施例提供的基于强化学习的蒸馏策略评估的装置组成框图；

图5为本申请实施例提供的电子设备组成示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

现有的将策略蒸馏与域随机化结合的方法应用到仿真到现实迁移领域中可以有效解决域参数分布过广导致的高方差问题，但对教师策略的性能好坏没有明确的评估。虽然教师策略是在不同域中训练好的策略模型，但教师策略可能会出现次优的情况，即如果教师策略在训练过程中并没有收敛到最优或收敛得效果不好，在后续的蒸馏过程中会对控制策略产生负面影响，导致最终的迁移结果不够稳健。

本申请将提出一种针对教师策略的评估方法，即在教师策略训练完毕后，分别对教师策略和学生策略的回报值与平均轨迹长度进行评估，将两者按照一定比例权重压缩成一个可以代表策略性能的值，两个值做差作为蒸馏损失函数中的补充项来判定教师策略的性能好坏。

可以理解的是，如果卫星姿控的策略模型不够健壮，会产生较大的不确定性，影响控制的精度。因此需要对教师策略进行信任评估，判断对每个教师策略的信任程度。

请参看图1，图1为本申请一些实施例提供的获取控制策略的系统架构图，在该图中包括教师训练模块以及学生训练模块。

图1中的策略评估模块用于根据N个教师策略计算权重，并根据该权重进行蒸馏处理(即将权重值输入蒸馏处理模块)，根据权重值和蒸馏处理结果更新相关参数，根据更新后的参数调整轨迹结果，直至学生训练过程结束得到控制策略。需要说明的是，对于图1中教师训练过程中的相关参数的具体含义可参考下文描述，为避免重复在此不对这些参数做过多赘述。

也就是说，在本申请的一些实施例中在教师策略训练完毕后，分别对教师策略和学生策略的平均回报值与平均轨迹长度进行评估，将两个指标按照一定比例权重压缩成一个可以代表教师策略和学生策略性能的值，两个策略的值做差作为蒸馏损失函数中的补充项来判定对教师策略的信任程度。该方法可以解决现有技术中部分教师策略不是最优策略从而影响蒸馏后的学生策略的健壮性等问题。通过对教师策略进行评估，提高控制策略对教师策略性能的判别能力，使控制策略尽可能模仿性能更优的教师策略，增强控制策略的稳健性和迁移的泛化性。

模型分为教师策略训练过程和学生策略训练过程。上文提到的控制策略与本方法中的学生策略相同，算法流程图如图1所示。

结合图1可知，对于每个环境实例ξ，假设其中的域参数分布为p_φ(ξ)，在分布内为每个教师策略的每个域参数随机取一个值，N个教师策略

对应N个环境实例ξ₁…ξ_N，根据N个环境训练好N个教师策略。此为教师训练过程。将学生策略在每个教师环境中训练，每个教师环境实例ξ_n对应一条轨迹结果，分别对教师训练产生的轨迹和学生训练产生的N条轨迹τ_1：N进行策略评估。再根据策略评估计算最大目标误差，结合教师策略与学生策略的轨迹结果产生的动作分布的KL散度，组成蒸馏损失函数，作为蒸馏过程。蒸馏过程对学生策略θ^s进行更新，学生策略更新完成后继续在N个教师环境中采样产生新的轨迹结果。

下面结合图2示例性阐述本申请一些实施例提供的基于强化学习的蒸馏策略评估的方法。

如图2所示，本申请一些实施例提供的基于强化学习的蒸馏策略评估的方法示例性包括：S101，根据搭建的卫星仿真环境和设计的域参数分布区间，通过教师训练过程得到N个教师策略，其中，N为大于1的整数； S102，依据蒸馏损失函数完成对学生策略更新，得到控制策略，其中，所述蒸馏损失函数与目标误差值相关，所述目标误差值是通过所述N个教师策略中各教师策略的性能评估结果确定的，所述各教师策略的性能评估结果是通过各次迭代的平均回报值和平均轨迹长度确定的；S103，根据所述控制策略完成针对在真实环境中的卫星的姿态控制。

下面示例性阐述上述各步骤。

在本申请的一些实施例中，S101示例性包括如下两步：

第一步，建立卫星姿控任务的训练环境，确定各域参数的分布，其中，所述域参数类型包括：卫星的质量、所述卫星的迎风面积、所述卫星的受晒面积、所述卫星的初始姿态角和目标姿态角、飞轮的最大控制力矩、飞轮的转速、磁力矩器的工作温度。

例如，上述确定域参数的分布中的域参数包括卫星的质量、卫星的迎风面积、卫星的受晒面积、卫星的初始姿态角和目标姿态角、飞轮的最大控制力矩、飞轮的转速、磁力矩器的工作温度。卫星的初始姿态角和目标姿态角都使用体坐标系相对于轨道坐标系的姿态四元数在体坐标系下的投影。设计卫星质量满足均匀分布，卫星的迎风面积和受晒面积均满足正态分布，卫星的初始姿态角和目标姿态角满足均匀分布，飞轮的控制力矩满足均匀分布，飞轮的转速满足正态分布，磁力矩器的工作温度满足均匀分布。

例如，假设卫星质量满足最小值是15kg，最大值是25kg的均匀分布，卫星质量这个参数的分布为在15到25之间，卫星质量这个参数在15到25 之间随机取值。

第二步，在每个域参数的分布区间范围内进行随机取值，得到N个环境实例ξ，其中，一个环境实例是将环境中所有域参数分别在分布区间内随机取一个值得到的。

其次在每个域参数分布范围内对其随机取值。初始化教师环境，模拟卫星任务多种可能的变化。对于每个环境实例ξ，假设其中的域参数分布为 p_φ(ξ)，在分布内为每个教师策略的每个域参数随机取一个值，N个教师策略

对应N个环境实例ξ₁,......,ξ_N。具体如图1的相关参数。

可以理解的是，只有先确定好参数分布的范围，对每个参数随机取值时才能在设定的范围中取。因为每个参数值都有具体含义，比如卫星质量大概在20kg左右，如果设置的值过大，如200kg，其与实际情况不符，该数据对仿真环境的训练没有意义。因此需要保证每个参数的取值在有意义的一定范围内。

第三步，根据所述N个环境实例，并使用强化学习算法训练教师策略网络，得到所述N个教师策略，其中，一个环境实例对应一个教师策略。例如，在一些实施例中，所述教师策略网络包括：径向基神经网络RBF，卷积神经网络CNN或循环神经网络RNN。

例如，使用强化学习算法DDPG来训练教师策略，其中策略网络选用 RBF神经网络(或者，还有CNN、RNN、LSTM、FNN神经网络， CNN(Convolutional Neural Networks)卷积神经网络，RNN(Recurrent Neural Networks)循环神经网络，LSTM(Long Short TermMemory)长短期记忆网络， FNN(Feedforward Neural Networks)前馈神经网络)，得出N个训练好的教师策略。例如，由于训练时每次迭代总采样个数设定为8000个，当总采样数小于8000时，继续采样生成新的轨迹；当所有轨迹的采样数之和大于8000 时，本次迭代的采样结束，得到的轨迹数为本次迭代采样到的轨迹个数。每条轨迹包含一定数量的采样数，计算所有采样的奖励值之和与采样数之和，得到该条轨迹的回报值和轨迹长度。计算一次迭代所有轨迹的回报值和轨迹长度，计算出一次迭代的平均回报值和平均轨迹长度。

下面示例性阐述S102。

在本申请的一些实施例中，所述目标误差值的计算公式如下：

其中，

表示对第n教师策略的性能评估结果，n的取值范围为大于等于1且小于等于N，p^s表示学生策略的性能评估结果，所述学生策略是在与所述第n教师策略具有同样的域参数值的环境中训练得到的，所述学生策略的性能评估结果与各次迭代的平均回报值和平均轨迹长度相关。

在本申请的一些实施例中，所述获取所述N个教师策略中对各教师策略的性能评估结果，包括：将K次迭代中各次迭代对应的所述第n教师策略的平均回报值与平均轨迹长度按照极差法进行标准化处理，得到K个处理结果；对所述K个处理结果进行降维处理，得到一个成分矩阵，其中，所述成分矩阵的行表示所述平均回报值和所述平均轨迹长度两个指标，所述成分矩阵的列表示两个主成分；根据所述成分矩阵中各个元素值计算出指标线性组合系数矩阵；根据所述指标线性组合系数矩阵中各个线性组合系数计算出所述两个指标中各个指标的权重值，其中，所述权重值包括第一权重值和第二权重值；对所述第一权重值做归一化处理得到第一归一化权重值，并对所述第二权重值做归一化处理得到第二归一化权重值；根据所述第一归一化权重值、所述第二归一化权重值和所述第k次迭代中每次迭代的平均回报值和平均轨迹长度得到一个教师策略的性能评估结果。

在本申请的一些实施例中，所述根据所述K个线性组合系数中各个线性组合系数计算出所述指标的权重值，得到K对权重值，包括：计算所述每个指标对应的每个主成分的线性组合系数与对应主成分的方差贡献率相乘之和，再除以所有主成分的方差贡献率之和，得到与所述每个指标的对应的权重值。

在本申请的一些实施例中，所述根据所述权重值得到一个教师策略的性能评估结果，包括：将所述权重值进行归一化，得到归一化权重值；根据所述归一化权重值得到与所述教师策略的性能评估结果。

在本申请的一些实施例中，所述根据所述归一化权重值得到与所述教师策略的性能评估结果，包括：将第k次迭代的第k平均回报值与所述第k 平均回报值对应权重相乘，得到第一乘积；将与所述第k次迭代对应的第k 平均轨迹长度与所述第k平均轨迹长度对应权重相乘，得到第二乘积；求解所述第一乘积和所述第二乘积的和，并重复上述过程得到所有迭代的和，再对所述和进行得加，得到综合结果；将所述综合结果除以所述所有迭代的总次数得到所述教师策略的性能评估结果。

需要说明的是，一次迭代可以得到一个平均回报值和平均轨迹长度，K 次迭代可以得到K个平均回报值和K个平均轨迹长度，因此原来是一个2*K 矩阵，2代表平均回报值和平均轨迹长度两个指标，K代表K次迭代对应的K个值。将这K个平均回报值和K个平均轨迹长度降维，降成用两个主成分值来表示K个值。降维后是一个2*2矩阵，即成分矩阵。也就是一个教师策略对应一个成分矩阵。降维还会得到每个主成分值对应一个特征根和一个方差贡献率。这两个值用来计算线性组合系数和权重值。

下面结合具体计算公式示例性阐述获取

的计算过程。

根据教师策略的平均回报值和平均轨迹长度对N个教师策略进行策略评估。首先，将教师策略的平均回报值与平均轨迹长度按照极差法进行标准化，其中，平均回报值为正向指标，按照

计算标准化值；平均轨迹长度为负向指标，按照

计算标准化值。之后，使用PCA降维方法(即对一个教师策略N次迭代得到的N个平均回报值和N个平均轨迹长度进行降维，降维后平均回报值和平均轨迹长度分别得到两个主成分值，两个主成分值分别对应一个特征根和一个方差贡献率)，提取因子参数设为 0.99，保证降维后的数据保留99％的信息。经过PCA降维后，标准化后的平均回报值与平均轨迹长度被压缩成一个2*2矩阵，即成分矩阵，矩阵的行表示平均回报值和平均轨迹长度两个指标，矩阵的列表示两个主成分(主成分是PCA降维生成的，同时生成每个主成分的特征根和方差贡献率)。根据公式(1)计算出指标的线性组合系数矩阵，其中线性组合系数[i][j]表示第i 个指标第j个主成分的系数，成分矩阵[i][j]表示第i个指标第j个主成分的值。

根据公式(2)计算出指标的权重值，每个指标对应一个权重值。计算每个指标每个主成分的线性组合系数与对应主成分的方差贡献率相乘之和，除以所有主成分的方差贡献率之和，得到每个指标的权重。

根据如下公式(3)将权重归一化，使所有指标的权重和为1。需要说明的是，对公式(2)得到的权重进行归一化，有几个指标就有几个权重，本申请的一些实施例设置了平均回报值和平均轨迹长度两个指标，因此有两个权重，i的取值范围是(1，2)。归一化的目的是使权重之和为1，公式(2) 计算得出的权重之和不是1，因此需要归一化。之后用这个归一化的权重与平均回报值和平均轨迹长度相乘计算得出性能值。

归一化权重[i]＝权重[i]/(权重[1]+权重[2]) 公式(3)

根据公式(4)计算出教师策略的性能值，第一个权重为平均回报值的权重，第二个权重为平均轨迹长度的权重，k表示第k次迭代，将一次迭代的平均回报值与其对应权重相乘加上平均轨迹长度与其对应权重相乘，将所有迭代相加，再除以迭代总数I，最终得到第n个教师策略的性能值

。

需要说明的是，将学生策略在N个教师环境中训练一遍，得到N条训练轨迹，对这N条训练轨迹计算得到学生策略的平均回报值和平均轨迹长度(其平均回报值和平均轨迹长度的获取方式与教师策略有一点不同)。学生策略没有公式(1)、公式(2)、公式(3)的计算过程，直接用刚才计算到的平均回报值和平均轨迹长度乘上此时对应的教师策略计算出的平均回报值和平均轨迹长度的权重值，得到学生策略的性能。也就是说计算第n 个教师策略的性能的时候，计算出的权重值也应用到学生策略的性能计算中，即学生策略的性能＝第n个教师策略的第一权重值乘上学生策略的平均回报值和第n个教师策略的第二权重值乘上学生策略的平均轨迹长度。类似公式(4)，但没有求和与做除法的步骤。

在本申请的一些实施例中，上述S102记载的依据蒸馏损失函数完成对学生策略更新得到所述控制策略额过程示例性包括：获取所述N个教师策略中对各教师策略的性能评估结果，其中，一个教师策略与一个域参数值的环境对应，所述N个教师策略对应N个不同的域参数值的环境；分别获取所述N个不同的域参数值的环境中的学生策略评估结果，得到N个学生策略评估结果；计算与N个域参数值的环境对应的N个教师策略的性能评估结果与相应的学生策略评估结果的差值，得到N个差值；从所述N个差值中取最大值作为所述目标误差值。

例如，在本申请的一些实施例中，所述蒸馏损失函数的公式为：

其中，所述

表征所述目标误差值，n表征任一教师策略编号，τ_1：N表征学生策略在每个教师环境中训练得到的轨迹，

表征训练得到的第n教师策略，θ^s表征学生策略，

表征所述学生策略在与所述第n 教师策略相同的环境实例中产生的轨迹τ_n在所述教师策略下产生的第一动作分布；π_θs(τ_n)表征所述学生策略在第n教师环境产生的轨迹τ_n在所述学生策略下产生的第二动作分布，计算两个动作分布的KL散度值，最小化每个教师-学生对的动作分布的KL散度之和。也就是说，本申请一些是实施例的蒸馏损失由辅助损失项

和损失项KL散度组成。在更新过程中，损失函数逐渐变小，学生策略与最优教师策略逐渐靠近。

需要说明的是，拥有相同域参数取值的环境中训练的教师-学生对。计算每个教师-学生对的误差，获取所有误差的最大值，即公式(5)中的

作为蒸馏损失函数中KL损失的辅助损失项(蒸馏损失函数在学生策略更新时使用，用来估计学生策略与教师策略的一致程度，使学生策略尽可能靠近教师策略)，其中

表示第n个教师策略的性能，p^s表示学生策略的性能。蒸馏损失函数的公式如公式(5)所示。其中n表示第n个教师策略，N表示教师策略的总数。在学生策略的每次迭代中，学生策略会在每个教师环境中训练，得到轨迹τ_1：N，

表示第n个教师策略，θ^s表示学生策略，

表示学生策略在第n个教师环境产生的轨迹τ_n在教师策略下产生的动作分布；

表示学生策略在第n个教师环境产生的轨迹τ_n在学生策略下产生的动作分布。计算两个动作分布的KL散度值，最小化每个教师-学生对的动作分布的KL散度之和。与教师-学生的误差最大值

相加，得到蒸馏损失函数。根据蒸馏损失函数更新学生策略θ^s。

完成上述仿真环境中的训练，将压缩教师策略模型的学生策略作为卫星姿态控制任务中的强化学习策略，应用到基于强化学习算法研究的卫星姿态控制真实环境任务中。应用流程如图3所示。

综上所述，本申请实施例获取控制策略的流程如图3所示，该过程包括：搭建卫星的仿真环境；设计卫星域参数及其分布；应用域随机化蒸馏策略评估算法得到学生策略(即控制策略)；应用在卫星真实环境中。

请参考图4，图4示出了本申请实施例提供的基于强化学习的蒸馏策略评估的装置，应理解，该装置与上述图2方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置的具体功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。装置包括至少一个能以软件或固件的形式存储于存储器中或固化在装置的操作系统中的软件功能模块，该认证装置，包括：构建模块101、控制处理获取模块102以及姿态控制模块 103。

构建模块101，被配置为根据搭建的卫星仿真环境和设计的域参数分布区间，通过教师训练过程得到N个教师策略，其中，N为大于1的整数。

控制处理获取模块102，被配置为依据蒸馏损失函数完成对学生策略更新，得到控制策略，其中，所述蒸馏损失函数与目标误差值相关，所述目标误差值是通过所述N个教师策略中各教师策略的性能评估结果确定的。

姿态控制模块103，被配置为根据所述控制策略完成针对在真实环境中的卫星的姿态控制。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法中的对应过程，在此不再过多赘述。

本申请的一些实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时可实现如上述方法实施例所述的方法。

如图5所示，本申请的一些实施例提供一种电子设备500，包括存储器 510、处理器520以及存储在所述存储器510上并可在所述处理器520上运行的计算机程序，其中，所述处理器520通过总线530从存储器510读取程序并执行所述程序时可实现如上述方法任一实施例所述的方法。

处理器520可以处理数字信号，可以包括各种计算结构。例如复杂指令集计算机结构、结构精简指令集计算机结构或者一种实行多种指令集组合的结构。在一些示例中，处理器520可以是微处理器。

存储器510可以用于存储由处理器520执行的指令或指令执行过程中相关的数据。这些指令和/或数据可以包括代码，用于实现本申请实施例描述的一个或多个模块的一些功能或者全部功能。本公开实施例的处理器520 可以用于执行存储器510中的指令以实现图2中所示的方法。存储器510 包括动态随机存取存储器、静态随机存取存储器、闪存、光存储器或其它本领域技术人员所熟知的存储器。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种基于强化学习的蒸馏策略评估的方法，所述方法可应用在卫星姿态控制中，其特征在于，所述方法包括：

根据搭建的卫星仿真环境和设计的域参数分布区间，通过教师训练过程得到N个教师策略，其中，N为大于1的整数；

依据蒸馏损失函数完成对学生策略更新，得到控制策略，其中，所述蒸馏损失函数与目标误差值相关，所述目标误差值是通过所述N个教师策略中各教师策略的性能评估结果确定的，所述各教师策略的性能评估结果是通过各次迭代的平均回报值和平均轨迹长度确定的；

根据所述控制策略完成针对在真实环境中的卫星的姿态控制。

2.如权利要求1所述的方法，其特征在于，所述目标误差值的计算公式如下：

其中，

表征对第n教师策略的性能评估结果，n的取值范围为大于等于1且小于等于N，p^s表示学生策略的性能。

3.如权利要求2所述的方法，其特征在于，所述依据蒸馏损失函数完成对学生策略更新，得到所述控制策略，包括：

将K次迭代中各次迭代对应的所述第n教师策略的平均回报值与平均轨迹长度按照极差法进行标准化处理，得到K个处理结果；

对所述K个处理结果进行降维处理，得到一个成分矩阵，其中，所述成分矩阵的行表示所述平均回报值和所述平均轨迹长度两个指标，所述成分矩阵的列表示两个主成分；

根据所述成分矩阵中各个元素值计算出指标线性组合系数矩阵；

根据所述指标线性组合系数矩阵中各个线性组合系数计算出所述两个指标中各个指标的权重值，其中，所述权重值包括第一权重值和第二权重值；

对所述第一权重值做归一化处理得到第一归一化权重值，并对所述第二权重值做归一化处理得到第二归一化权重值；

根据所述第一归一化权重值、所述第二归一化权重值和所述k次迭代中每次迭代的平均回报值和平均轨迹长度得到一个教师策略的性能评估结果。

4.如权利要求2-3任一项所述的方法，其特征在于，所述获取所述N个教师策略中对各教师策略的性能评估结果，包括：

将所述第n教师策略的平均回报值与平均轨迹长度按照极差法进行标准化处理，得到处理结果；

对所述处理结果进行降维处理，得到成分矩阵，其中，所述成分矩阵的行表示所述平均回报值和所述平均轨迹长度两个指标，所述成分矩阵的列表示两个主成分；

根据所述成分矩阵计算出指标线性组合系数矩阵，得到线性组合系数；

根据所述线性组合系数计算出所述指标的权重值，每个指标对应一个权重值；

根据所述权重值得到一个教师策略的性能评估结果。

5.如权利要求4所述的方法，其特征在于，所述根据所述线性组合系数计算出所述指标的权重值，每个指标对应一个权重值，包括：

计算所述每个指标对应的每个主成分的线性组合系数与对应主成分的方差贡献率相乘之和，再除以所有主成分的方差贡献率之和，得到与所述每个指标的对应的权重值。

6.如权利要求4所述的方法，其特征在于，所述根据所述权重值得到一个教师策略的性能评估结果，包括：

将所述权重值进行归一化，得到归一化权重值；

根据所述归一化权重值得到与所述教师策略的性能评估结果。

7.如权利要求6所述的方法，其特征在于，所述根据所述归一化权重值得到与所述教师策略的性能评估结果，包括：

将第k次迭代的第k平均回报值与所述第k平均回报值对应权重相乘，得到第一乘积；

将与所述第k次迭代对应的第k平均轨迹长度与所述第k平均轨迹长度对应权重相乘，得到第二乘积；

求解所述第一乘积和所述第二乘积的和，并重复上述过程得到所有迭代的和，得到综合结果；

将所述综合结果除以所述所有迭代的总次数得到所述教师策略的性能评估结果。

8.如权利要求2所述的方法，其特征在于，所述蒸馏损失函数的公式为：

其中，所述

表征训练得到的第n教师策略，θ^s表征所述学生策略，

表征所述学生策略在与所述第n教师策略相同的环境实例中产生的轨迹τ_n在所述教师策略下产生的第一动作分布；π_θs(τ_n)表征所述学生策略在第n教师环境产生的轨迹τ_n在所述学生策略下产生的第二动作分布，KL表征计算所述第一动作分布和所述第二动作分布的散度值，N表示教师策略的个数。

9.如权利要求8所述的方法，其特征在于，所述对第n教师策略的性能评估结果的计算公式如下：

其中，I为总迭代次数，k为第k次迭代，

为所述第n教师策略。

10.如权利要求1所述的方法，其特征在于，

所述根据搭建的卫星仿真环境和设计的域参数分布区间，通过教师训练过程得到N个教师策略，包括：

建立卫星姿控任务的训练环境，确定各域参数的分布，其中，所述域参数类型包括：卫星的质量、所述卫星的迎风面积、所述卫星的受晒面积、所述卫星的初始姿态角和目标姿态角、飞轮的最大控制力矩、飞轮的转速、磁力矩器的工作温度；

在每个域参数的分布区间范围内进行随机取值，得到N个环境实例ξ，其中，一个环境实例是将所有类的域参数分别在分布区间内随机取一个值得到的；

根据所述N个环境实例，并使用强化学习算法训练教师策略网络，得到所述N个教师策略，其中，一个环境实例对应一个教师策略。

11.如权利要求10所述的方法，其特征在于，所述教师策略网络包括：径向基神经网络RBF，卷积神经网络CNN或循环神经网络RNN。

12.一种基于强化学习的蒸馏策略评估的装置，其特征在于，所述装置包括：

构建模块，被配置为根据搭建的卫星仿真环境和设计的域参数分布区间，通过教师训练过程得到N个教师策略，其中，N为大于1的整数；

控制处理获取模块，被配置为依据蒸馏损失函数完成对学生策略更新，得到控制策略，其中，所述蒸馏损失函数与目标误差值相关，所述目标误差值是通过所述N个教师策略中各教师策略的性能评估结果确定的；

姿态控制模块，被配置为根据所述控制策略完成针对在真实环境中的卫星的姿态控制。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时可实现权利要求1-11中任意一条权利要求所述的方法。

14.一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述程序时可实现权利要求1-11中任意一条权利要求所述的方法。