CN110990769B

CN110990769B - 一种适合多自由度机器人的姿态迁移算法系统

Info

Publication number: CN110990769B
Application number: CN201911170676.4A
Authority: CN
Inventors: 江敏; 徐姜琴; 郭诗辉
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2021-10-22
Anticipated expiration: 2039-11-26
Also published as: CN110990769A

Abstract

本发明公开了一种适合多自由度机器人的姿态迁移算法系统，涉及机器人领域，本发明姿态迁移算法系统将机器人在不同环境下的姿态或动作生成任务视为一个多目标优化问题，将在简单环境中已经获得的机器人姿态(或动作)作为源域，将适合未知的复杂环境中的姿态(或动作)作为目标域，在寻找目标域的最优解时，利用源域的知识产生高质量的初始种群，并在此基础上利用任何一种基于种群的多目标优化算法快速地产生出适合复杂环境的机器人姿态(或动作)。本发明可以使用不同的迁移学习算法来进行知识复用，对于任何基于种群的多目标优化算法而言，本发明所提出的算法系统无需修改，即可与其实现有效结合。

Description

一种适合多自由度机器人的姿态迁移算法系统

技术领域

本发明涉及机器人领域，尤其涉及一种适合多自由度机器人快速适应复杂环境的姿态生成算法框架。

背景技术

姿态优化是机器人学研究领域的一个重要课题。现有的方法大多遵循两种策略来获得多自由度机器人的运动姿态。第一种策略是受生物启发的，其研究动机在于，人和动物的运动模式能够巧妙地将稳定性、环境适应性等诸多因素进行结合，并使能量消耗降到最低。因此，研究者希望借鉴来自于人类或动物的运动姿态形成原理，并将其再现于机器人上。然而，由于人和动物与机器人在运动学和动力学上的显著差异，使得生物运动数据并不能直接应用于机器人。

第二种策略是将姿态优化问题转换为函数优化问题，其中一类方法试图将机器人姿态生成问题归结为求解多个相互冲突的函数的最优解问题，即通过求解多目标优化问题来得到最优姿态。例如，通过最大化运动速度、稳定性、驱动力并同时最小化能量消耗来得到一个性能优异的姿态序列。但是机器人所涉及的优化目标往往较为复杂，以及环境变化等不同因素的影响，其优化目标也会不断发生变化，使得常规的解析方法在很多情况下难以奏效。采用进化算法或者其它基于种群的优化算法来求解相关的多目标优化问题，是一种有前途的解决方案。

然而，现有的基于种群优化的方法在解决优化函数不断变化的问题时，即也就是所谓的动态多目标优化时，往往采用重新初始化参数或重新初始化种群的方式来进行，这些策略没有充分考虑如何利用预先获得的知识，来提高复杂环境下姿态生成的质量和速度。

发明内容

有鉴于现有技术的上述缺陷，本发明的目的是提供一类基于迁移学习的机器人姿态生成算法框架。该框架将迁移学习与基于种群的进化优化方法进行结合，利用预先获得的知识来提高在复杂环境下运动生成的质量和速度，以有限的资源获使得机器人能够快速得到适应新环境或者新任务的姿态或动作。

为实现上述目的，本发明提供了以下方案：

一种适合多自由度机器人的姿态迁移算法框架，所述姿态迁移算法框架的输入包括：源环境和目标环境中的优化函数；所述源环境为已经掌握某种技能或姿态的环境；所述目标环境为需要掌握某种技能或者姿态的环境；在源环境中已经获得的优化姿态种群；所述姿态迁移算法框架的输出为：目标域的最优姿态种群；

所述姿态迁移算法框架执行以下步骤：

步骤1：通过随机采样获得目标环境的姿态种群样本；

步骤2：采用迁移学习方法，将源域的最优姿态种群和目标域中的随机抽样的姿态种群进行比较，由此找到和已经获得的最优姿态最为接近的目标域中的姿态种群；

步骤3：根据步骤2搜索到的目标域种群个体集生成目标环境中的初始姿态种群；

步骤4：根据初始姿态种群，在目标环境中采用进化算法对机器人的姿态进行优化，得到目标域的最优姿态种群。

本发明实现了如下技术效果：本发明的基于迁移学习的多自由度机器人的姿态迁移算法框架，将机器人在不同环境下的动作生成任务视为一个多目标优化问题，将在简单环境中训练的机器人姿态作为源域，将未知的复杂环境中的训练任务作为目标域；在目标域进行优化时，利用迁移学习方法和源域的知识来产生高质量的初始种群，并在此基础上利用基于种群的优化算法快速地产生出适合复杂环境的机器人姿态。对于任何基于种群的多目标优化算法而言，本发明所提出的算法框架无需修改，即可与其实现有效结合。本发明可以使用不同的迁移学习算法来进行知识复用。

附图说明

图1是本发明的一个较佳实施例的六足机器人模型图解；

图2是本发明的单个机器人控制轨迹的表示；

图3是本发明所提出的算法框架；

图4是本发明实施例的机器人在不同地形环境中行走；

图5是在环境E1(复杂场景1)中使用三种基于种群的优化算法的比较结果；

图6是机器人在环境E1中的行走性能的视觉比较结果；

图7是在环境E2(复杂场景2)中使用三种基于种群的优化算法的比较结果；

图8是在环境E3(复杂场景3)中使用三种基于种群的优化算法的比较结果；

图9是三种算法的迭代进化曲线。

具体实施方式

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。图中的组件并未按比例绘制，而类似的组件符号通常用来表示类似的组件。

现结合附图和具体实施方式对本发明进一步说明。

本发明公开了一种多自由度机器人的姿态迁移算法框架。其中多自由度机器人的姿态优化问题是一个(动态)多目标最优化问题，该框架将迁移学习与基于种群的优化算法结合起来，利用预先获得的知识(多目标最优化问题的解)来提高在复杂环境下运动生成的质量和速度，以有限的资源获得更好的机器人行为进化结果。

多目标最优化问题

多目标最优化问题(multiple objective optimizationproblem)是从一个问题的所有可能的备选方案中，选择出依某种指标来说是最优的解决方案。一般多目标优化问题定义如下：

其中k是目标函数的个数，m是不等式约束g(x)的个数，和e是相等约束h(x)的数目.x∈Eⁿ是决策变量的向量，其中n是自变量x_i的数目.F(x)∈E^k是目标函数的向量F_i(x)：Eⁿ→E¹.F_i(x)也称为目标标准代价函数、成本函数或价值函数。如果F_i(x)随时间变动，我们则称相应的多目标优化问题为动态多目标优化。

定义1.[决策向量支配]一个决策向量x₁ Pareto支配另一个向量x₂，用x₁＞x₂，如果且仅当：

定义2.[Pareto最优集]两者x和x^*是决策向量，如果一个决策向量x^*当且仅当没有其他决策向量x时，称为非支配x^*，这样x＞x^*.Pareto最优集(POS)是所有Pareto最优解的集合，即：

定义3.[Pareto最优前沿]Pareto最优集中所有解的函数空间表示为Pareto最优前沿(POF)。

POF＝{F(x^*)|x^*∈POS} (4)

当有两个、三个及以上目标时，Pareto最优前沿分别表示为曲线、曲面和超曲面。

本发明给出了多自由度机器人一个具体实施例：

图1给出了一个螳螂六足机器人模型。在本实施例中，通过在仿真软件Webots中使用螳螂六足机器人模型进行姿态仿真。图1是一个六足机器人模型图解，其中(a)为模型的俯视图，(b)为单腿近视图，(c)为六足机器人模型示意图，(d)为单腿旋转角度。为了便于描述，机器人模型的结构可以简化，如图1(c)所示的腿，从1号到6号进行编号，以相等的间隔固定在机器人的身体外部。机器人的姿态由腿部关节决定，这个机器人有18个自由度，每条腿有三个关节。每个关节是一个铰链，允许沿主轴运动。通过指定每个模拟时间步长的角速度来确定运动。

在模拟过程中，所有腿都能独立移动。在图1(d)中，θ₁表示围绕z轴的旋转角度，而θ₂和θ₃表示围绕x轴的旋转角度。脚的位置P＝(p_x，p_y，p_z)由每个关节的旋转角度和每个连杆的长度确定，并可由正向运动学方程计算：

其中Trans(·，·，·)和Rot(·，·)分别表示平移矩阵和旋转矩阵；l_i表示第i连杆的长度；θ_m，i表示第m条腿的第i个关节的旋转角度；u表示法向量。这样，可以将行走行为视为执行一系列机器人姿势，这些姿势已转换为关节角度矢量，如图2所示，其中P_i表示第i种不同的姿态；L₁-L₆表示6条腿；θ(1，2，3)表示每一条腿的3个自由度。

优化目标

将多自由度机器人姿态优化问题看作一个多目标问题。步行速度(W_v)和稳定性(S_t)这两个目标函数是评价机器人姿态性能的指标。因此，该问题被表述为一个双目标优化问题。

步行速度是多自由度机器人速度和方向的综合指标。它同样适用于进化计算适应度函数。速度可以通过捕捉运动周期内开始和结束位置之间的欧几里德距离来计算，运动方向反映了在指定方向上直线运动的能力。具体定义如下：

ζ^s和ζ^q是权重系数，f_s指示运动周期内的速度，ΔX是机器人的运动矢量，V^*是指定所需运动方向的单位矢量。我们希望机器人能沿着指定的方向前进。因此，如果机器人在行走过程中朝相反的方向移动，步行效率设置为-1，并且所有W_v的正常值都远远大于0。第二项f_q＝exp(-Δθ²)反映实际行走方向和预设目标方向之间的偏离角Δθ。由于优化器的目标是最小化目标函数，因此速度分量的最终目标被设置为W_v的倒数。

稳定性是机器人保持平衡、避免硬件损坏的关键。准确、快速地评估稳定条件是一个重要而有意义的问题。一个标准的解决方案是直接使用来自惯性测量单元(IMU)的稳定性分数作为机器人稳定性的指标。然而，研究人员发现，仅仅使用IMU的读数无法准确反映机器人的稳定性。我们提出了一个目标函数，它结合了线性加速度和人体方位信息。具体而言，定义如下：

其中acc，

是当前加速度和运动周期中的平均加速度，i是样本索引，所谓样本是指我们以固定的时间间隔读取传感器的值；j∈[x，y，z]是轴。roll和pitch是从机器人上的传感器读取的值，其含义分别是：加速度分量F＝<F_x，F_y，F_z>被定义为最小化加速度波动，从而表明高水平的稳定性；方位分量G表明较小的横滚和俯仰值，反映机器人首选的具有较高稳定性的直立姿态。

式(9)所示的综合稳定目标函数是线性加速度和方向分量之和，如式(7)和式(8)所示。scaling_factor为比例因子，用于平衡加速度和方向，以便它们可以均匀地影响适应值，在实验中将适应值设置为50。

为了将两个优化目标函数的评价标准统一为一个尽可能小的值(都大于零)，将式6的步行速度W_v取其-1次方，

迁移学习模块

我们可以使用不同的迁移学习方法来实现我们的目标。在本发明的实施例中，我们以迁移成分分析(Transfer Component Analysis，TCA)技术为工具进行实验。TCA方法试图学习一组可以在不同域之间迁移的潜在的公共成分。因此，通过将来自不同域的数据映射到由迁移成分集表示的潜在空间，可以显著减少域之间数据分布的差异。然后，在该潜在空间中跨域训练标准的机器学习分类器或回归模型。TCA的目的是寻找更好的特征表示，减少源域和目标域之间的数据分布差异。基于这种考虑，TCA使用称为最大最小距离(MaximumMinimum Distance，MMD)的度量来评估不同域之间的差异，定义如下：

其中tr(A)表示矩阵A的轨迹，以及矩阵

代表

其中，

表示核矩阵，其元素为k_i，j＝κ(x_i，y_i)＝φ(x_i)^Tφ(y_i)，K(·，·)表示核函数，φ(·)表示特征映射函数。

表示域X和Y中的数据相似性.矩阵L包含测量矩阵的系数，其元素如下：

TCA算法的优化问题可以写成：

在这种情况下，

I指的是(m+n)×(m+n)恒等式矩阵，W^TW是一个正则化项，并且1是一个(m+n)×1矩阵，其元素均为1，m和n表示源域和目标域中的样本数，μ是折衷系数。TCA算法的降维矩阵W的求解问题可以转化为矩阵迹最大化问题。这个问题可以通过广义特征值分解(GED)来解决，该分解的解包含前d个按特征值降序排序的特征向量。算法1(Algorithm 1)给出了TCA的过程。

姿态迁移算法框架

本发明公开了一个基于迁移学习的机器人姿态优化算法框架Tr-GO。我们将机器人运动生成问题描述为一个多目标优化问题，并通过进化计算加以解决。迁移学习技术利用已有的优化经验作为辅助手段，提高初始个体在新情境下的抽样质量。这样，我们希望算法框架能帮助我们以更少的计算时间和资源获得更好的姿态优化结果。同时，该框架具有通用性，可以采用不同的迁移学习算法，并与任何一种基于种群的姿态进化算法相结合。

图3给出了基于迁移学习的机器人姿态优化算法框架。在这个示意性的框架中，我们采用的迁移学习技术是TCA方法。从迁移学习的角度出发，我们认为在简单环境(如平地)和复杂环境(如崎岖地形或斜坡)中的姿态优化任务之间存在一定的相关性，将多自由度机器人在简单环境和未知复杂环境中的姿态优化分别作为源任务和目标任务。以简单环境下训练的姿态为源域，以复杂环境下训练的姿态为目标域。这两个任务的一个共同点是，它们都试图生成一个姿态，从而最大限度地优化每个环境中的性能指标。在以往的工作中，更多的是关注特定环境下的姿态优化任务，而没有考虑如何利用不同领域之间的相关性和姿态生成任务的相关特性，重用过去优化过的知识。这表明现有的方法在提高机器人运动生成算法的性能和减少计算资源消耗方面有很大的改进空间。

从进化计算的角度来看，六足机器人在特定环境下的姿态生成是一个多目标优化问题。对于多目标优化问题，利用基于种群的优化方法可以得到最终的姿态种群(POP)。当机器人处在一个未知的新环境时，如果能复用已经获得的最优姿态种群(POP)，则可以提高姿态生成的速度和质量。

在图3中的步骤1，在源任务下采用进化算法对机器人姿态进行优化，得到源域最优姿态种群POP₀。

我们的目标是解决在新的目标环境(例如E₁)中的姿态生成和优化任务。这需要通过步骤2在新的环境中进行随机姿态抽样。这一步骤与进化算法中初始种群的构建密切相关。初始种群的多样性往往会影响最终优化的动作质量。因此，当计算资源允许时，可以适当地增加种群的多样性。

我们的工作引入了迁移学习，使用源域最优姿态种群POP₀来辅助目标域中初始姿态的构建。在步骤3的姿态过渡模块中，我们选择了迁移成分分析(Transfer ComponentAnalysis,TCA)技术作为算法框架的迁移学习工具。

TCA算法试图寻找一个映射函数，这个映射函数将源域和目标域的不同姿态映射到一个隐空间，在该隐空间中源域和目标域的分布差异将显著减少。通过步骤4，我们在隐藏空间中搜索目标域个体集，使其尽可能接近源域种群个体。

在步骤5中，我们最终生成用于目标进化的初始种群。这些种群通过迁移技术保留了源域种群的优势，并将源域知识应用到目标任务中。与随机抽样产生的初始个体相比，本方法构造的个体具有更显著的优势。同时，通过进化算法对优化种群进行训练。

最后，在步骤6中，我们将优化的姿态应用到新的复杂环境中。算法框架中的姿态迁移模块具有通用性，不仅适用于TCA方法，也适用于许多其他的迁移学习算法。在步骤4中，TCA方法可以替换为其它迁移学习方法。

算法2：

算法2(Algorithm2)给出了姿态迁移算法模块的伪代码，POP_s是已经获得的源域中的最优姿态的集合和

是目标环境E中随机抽样的姿态种群。F_S(.),F_T(.)分别是机器人处在源域和目标域中的性能评价函数。

在第1行，进行一些初始化工作，包括滤除源域中的某些姿态，以节约计算时间并且提高后续计算的精度。

在第2行，分别使用源域和目标域的性能评价函数对不同的姿态进行打分。

在第3行中，使用迁移成分分析(TCA)方法来得到一个隐空间，在这个隐空间中源域和目标域的分布之间的差异变得尽可能小。注意，TCA算法的输入是已知简单环境(E₀)的最优解以及复杂环境(E_1or2,...,n)中的机器人随机产生的行走姿态样本，其输出为变换矩阵W。我们可以用矩阵W构建潜在空间。

在第4行中，

表示映射后隐空间中的种群个体集，首先是一个空集。

在第5到9行，是将源域中已经得到的最优姿态映射到隐空间。

在第10到13行，对于每一个源域的最优姿态，我们在目标域中寻找一个对应的姿态，寻找的标准是这两个姿态在隐空间中尽量接近，也就是第11行中公式所反映的含义。

第14行，我们将刚刚找到的目标域中的姿态作为新环境中的初始种群InitPOP_T。

算法3说明，我们可以利用任何一种基于种群的优化算法，在种群InitPOP_T的基础上进行计算，从而得到适合新环境的最优姿态。

算法3：

第2-5行说明，当机器人处于新的环境时，可以调用算法2。第4行是利用任何一种基于对的多目标优化算法EAs来对初始种群进行求解，最后得到了优化姿态集合POP_T。

实验分析

在这个实验中，我们使用了机器人仿真软件webots并创建了一模拟机器人：螳螂六足机器人。我们模拟机器人可能遇到的不同复杂地形环境。表1显示了机器人关节角度的操作范围和初始值。机器人虚拟躯干的详细参数如表二所示。

表(1)关节角度参数	范围	初始
			第一关节	-60°≤θ<sub>1</sub>≤20°	-60°(例外：腿3、4为0)
第二关节	-20°≤θ<sub>2</sub>≤40°	30°
			第三关节	-140°≤θ<sub>3</sub>≤-85°	-125°

表(2)六足机器人模型参数

参数	身体	腿
			质量(公斤)	5.2	0.9
长度(m)	0.72	0.05
			宽度(m)	0.42	0.05
高度(m)	0.1	0.1

本文提出的算法与任何适合于机器人姿态生成的基于种群的优化算法都是兼容的。以遗传算法(NSGA-II)、基于流形的多目标优化算法(RM-MEDA)和多目标粒子群算法(MOPSO)为例进行了实验研究。TCA算法中的平衡因子设为0.5，隐空间维数为20，采用高斯核函数。机器人运动生成的优化目标是在复杂地形中，能够顺利地通过障碍物到达预先指定的目标点。为了充分验证我们的方法，在实验中将三个复杂的地形环境设置为对照组，分别表示为E₁,E₂,E₃平地模拟环境E₁如图4(a)所示。图4(b)显示了带有倾斜山丘的草地地形。这个环境较为复杂，因为机器人在斜坡上容易翻滚和滑倒。当它不能爬上山坡并保持直行时，可能会被迫转弯。在实验中，将爬山作为测试任务具有直观性。图4(c)显示障碍物被随机放置在地面上模拟崎岖地形，机器人容易被障碍物绊倒。因此，当一系列姿态能够使机器人在不跌倒的情况下穿越崎岖地形，则这些姿态被认为是成功的。图4(d)中的地形与图4(b)中的地形相似，只是坡度和形状不同。模拟器中的地形由柏林噪声(perlinnoise)算法生成，其中perlinnoctaves(用于定义柏林噪声的倍频程数)参数对应于图4(b)和图4(d)分别为3和5。图4(c)中岩石的高度设定在0到0.5之间。

图5给出了在环境1中使用三种EA算法(进化算法)进行运动进化的比较结果，其中(a)使用NSGA-II算法，(b)使用RM-MEDA算法，(c)使用MOPSO算法。每种算法在以下三种条件下进行测试：随机抽样(红色)，直接使用EO环境样本(黑色)和使用我们建议的Tr-Go框架(绿色)。从图5可见，在三种算法中，采用Tr-Go框架(绿色)的稳定度(Stability)最佳。

典型的机器人姿态包括三角形姿态、波浪姿态、自由姿态等。因此，将这些姿态模式作为姿态生成的基本知识，可以减少进化早期过多的无效随机种群。在本实施例中，我们选择三角形姿态模式，基于其在稳定性和昆虫行为上的优势。在进行三角形姿态时，一侧的前腿、后腿和另一侧的中间腿组成一组，并提供稳定的三角支撑。两组腿交替抬起并支撑身体，使昆虫能够快速移动。这种姿态模式是早期进化中产生随机姿态的约束条件。从仿生学的角度可以发现，昆虫在平坦无阻的地形上快速行进时，往往以交替的三角形姿态移动。

实验结果

我们在三个目标环境中验证了我们的方法的有效性(E₁,E₂,E₃)以及三种不同的进化算法(NSGA-II、RM-MEDA、MOPSO)。

1)环境E₁试验结果

实验是在复杂地形环境E₁下进行的。为了在更直观的模拟环境中观察机器人的最终训练效果，我们将机器人优化任务指定为在由E₁表示的当前斜坡地形中成功爬过给定的山丘。首先，使用NSGA-II算法测试Tr-GO算法。在平坦地形环境E₀中利用NSGA-II算法对随机产生的200个初始种群进行100次迭代。经过优化后，通过非支配排序选出最佳的100个个体作为源域。在复杂地形E₁中运动生成任务可以分为三种情况作为控制实验。第一种情况(随机NSGA-II)，与平坦地形环境一样，在复杂地形环境中随机抽取200个初始个体(即随机种群个体)。第二种情况(platdataNSGA-II)，将平坦地形环境E₀下的最终的姿态优化结果POP_S直接用作E₁环境中机器人运动演化的初始种群。第三种情况，使用Tr-GO算法将姿态优化结果POP_S处理为E₁环境下的初始种群。之后，对三种情况分别进行100次进化迭代，并根据非支配排序选出前100个个体。

比较三种情况下的实验结果，图5(a)显示了使用NSGA-II算法作为基础优化算法，来处理三种不同情况下，稳定性和逆速度的情况。在这里我们希望说明的是，图中的逆速度是通常意义的速度值的倒数，这样做的目的是将一个最大化问题变为最小化问题，从而使得图表更加容易阅读。一个姿态的稳定性和逆速度的值越小，则说明这个姿态更加稳定，同时机器人的行走速度也越快。

在该图中，黑色圆圈表示的是利用随机生成的姿态经过优化后得到的结果，红色的圆圈表示直接将简单环境中获得的最优姿态直接作为初始种群而得到的结果；绿色圆圈则是使用Tr-Go算法得到的最优姿态。结果表明，红色和黑色两种姿态，在经过100次迭代后得到的机器人运动性能评价结果没有显著性差异。这说明没有迁移学习过程，直接使用其它环境的最优姿态和随机生成姿态没有区别。而绿圈的值和红色、黑色圈的值有着明显的差别，这意味着经过100次迭代后，使用了迁移学习方法得到的机器人姿态要明显优于其他两种情况。证明了将迁移学习的Tr-GO与NSGA-II相结合，能够帮助机器人获得更为优异的姿态。

同样，我们还使用RM-MEDA算法和MOPSO算法作为基础优算法，测试了在E₁环境中的Tr-GO框架。实验也分为三个案例进行比较。目标函数的最终向量分布如图5(b)和图5(c)所示。每幅图中三种颜色的圆的分布与三种情况的最终结果一致。可以看出，用Tr-GO框架(绿色)得到的群体绩效评价优于其他两个分别用黑色和红色表示的群体绩效评价。

除了图5中的定量评估外，在图6中，我们还给出了三种不同情况下机器人在环境E₁中的行走性能的视觉比较结果。图6(a)和图6(b)示出了不使用Tr-GO算法的情况，在这两种情况下产生的运动在遇到斜坡时可能由于转向而无法保证直线行走或爬坡；在图6(c)中，机器人使用了Tr-GO算法，成功地爬过山坡，完成了任务。这一比较证实了所提出的Tr-GO框架提高了进化计算中个体的质量。

为了验证该算法能广泛应用于各种复杂地形下的机器人运动生成任务，在E₂(崎岖的地形)和E₃(陡峭的丘陵地带)环境中进行了对比实验。

2)环境E₂试验结果

图7给出了在环境E₂中将三种EA算法：(a)NSGA-II算法，(b)RM-MEDA算法和(c)MOPSO算法作为基础优化算法，同Tr-Go进行结合的实验结果。图中的黑圈，红圈和绿圈的含义和上述含义相同。

在环境E₂(图7)中的实验结果表明，在度量值方面，使用Tr-GO框架的绿圈分布优于没有使用Tr-GO框架的黑圈和红圈分布。与环境E₁的区别在于，在使用NSGA-II算法和RM-MEDA算法的情况下，环境E2中黑色圆圈的评估略优于红色圆圈。

这表明，在环境E₂中，利用平坦地形的优化结果作为初始姿态比直接使用随机初始姿态能获得更好的性能。其原因可能是E₂环境在某种程度上与平坦环境E₀直接相关。一个具有解释力例子是，机器人有可能每次都可以踩到障碍物上，而不会掉进障碍物的缝隙中，在这种情况下，机器人能够从平地的最优姿态中得到更多帮助。因此，直接利用平坦地形的运动优化结果，也可以在复杂地形E₂的演化结果上取得一定的改善，但在有限的直接相关下，其演化效果并不显著。

在使用MOPSO算法，使用随机初始姿态比使用平坦地形直接提高了一点性能。我们将其归因于MOPSO算法的不足之处，如无法保持解集的多样性以及陷入局部最优的倾向。实验中的随机初始姿态在初始种群的多样性上可能稍高一些，但是石头地形的复杂性和随机性使得这一优势在实验结果中并不明显。

然而，如果我们观察三种不同的进化算法的结果时，不难发现被标记为绿圈的姿态始终优于其他两种情况。这种证实了我们的方法在产生高质量初始种群和加速优化过程方面的优势。

3)环境E₃试验结果

图8显示了在环境E₃中，三种没有使用转移学习的算法((a)对应NSGA-II算法，(b)对应RM-MEDA算法，(c)对应MOPSO算法)与Tr-GO算法进行了比较的结果。同样，实验结果都证明，Tr-GO算法在稳定性和速度方面都有明显的优势。

值得注意的是，直接利用已经获得的最优姿态作为初始种群并不总是比随机生成的姿态种群好。例如，在使用RM-MEDA算法的图8(b)中，黑圆圈的评估结果与红圆圈相比没有显著的优势。可能的原因是两种环境之间的差异过大。这些结果与环境E₁的结果相符。

4)进化效率

本实施例中进一步研究了迁移学习对姿态种群进化迭代的影响。在上述三种情况下，我们绘制了环境E₁中两个目标函数的平均值。如图9所示，序数轴是两个性能指标的平均值。我们使用进化10代后Tr-GO方法得到的值作为基准(蓝色的虚线水平线)，并与其他两种初始种群得到的结果进进行比较。结果表明，Tr-GO算法在演化早期就具有性能优势，并在整个演化过程中始终保持这种优势。可以看出，在(a)-(f)中，其他两种比较算法(Random-*，PlatData-*，用红色和黑色曲线表示)需要更多的进化迭代才能达到相同的性能指标水平。

我们进一步记录了实现相同性能所需的具体运行时间。如表3所示，我们记录了三种不同的算法达到同一个目标值，Tr-GO算法进化10代后达到的目标值，所需的时间。结果表明我们所提出的方法所消耗的时间要远小于其余基线算法实现相同性能值所需的时间。需要指出的是，在某些情况下(表格中用∞标记)，基线算法始终不能达到Tr-GO框架的目标函数值。

表3实现指定性能值的不同优化目标的时间成本(小时)

本发明结合迁移学习和多目标优化技术，提出了一种多自由度机器人的姿态迁移算法框架。针对多自由度机器人的姿态优化问题，提出利用迁移学习的方法来充分利用已经获得的姿态或动作，来产生出一个高质量的的初始种群，并在此基础上利用进化计算快速地产生出适合复杂环境的机器人姿态。对于任何基于种群的多目标迁移学习算法而言，本发明所提出的算法框架无需修改，即可与其实现有效结合。为了验证这一点，我们使用了三种不同的地形环境和三种流行的姿态进化算法进行对比实验。实验结果证明了本发明的提出的姿态迁移算法的有效性。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种适合多自由度机器人的姿态迁移系统，其特征在于：

所述姿态迁移系统的输入包括：源环境和目标环境中的优化函数；在源环境中已经获得的最优姿态种群；其中，所述源环境为已经掌握某种技能或姿态的环境；所述目标环境为需要掌握某种技能或者姿态的环境；所述姿态迁移系统的输出为：目标环境的最优姿态种群；

所述姿态迁移系统执行以下步骤：

步骤1：通过随机采样获得目标环境的姿态种群样本；

步骤2：采用迁移学习方法，将源环境的最优姿态种群和目标环境中的随机抽样的姿态种群进行比较，由此找到和已经获得的最优姿态最为接近的目标环境中的姿态种群；

步骤3：根据步骤2搜索到的目标环境种群个体集生成目标环境中的初始姿态种群；

步骤4：根据初始姿态种群，在目标环境中采用进化算法对机器人的姿态进行优化，得到目标环境的最优姿态种群；

所述步骤4中的姿态优化问题为一个多目标问题，所述多目标问题的目标函数包括步行速度目标函数和稳定性目标函数；

所述稳定性目标函数为：

其中acc,

是当前加速度和运动周期中的平均加速度，N为一个采样周期中的总采样次数，i是采样样本索引，j∈[x,y,z]是轴；roll和pitch是从机器人上的传感器读取的值；F为加速度分量；G为方位分量，用于表明横滚和俯仰值；scaling_factor为比例因子。

2.如权利要求1所述的适合多自由度机器人的姿态迁移系统，其特征在于：所述迁移学习方法包括迁移成分分析方法。

3.如权利要求2所述的适合多自由度机器人的姿态迁移系统，其特征在于：迁移成分分析方法表示为求解矩阵W：

subject to W^TKHKW＝I

其中，tr(A)表示矩阵A的迹，矩阵K表示核函数矩阵，矩阵L的元素表示测量矩阵的系数，

I指的是(m+n)×(m+n)恒等式矩阵，W^TW是一个正则化项，并且1是一个(m+n)×1矩阵，其元素均为1，m和n表示源环境和目标环境中的样本数，μ是折衷系数。

4.如权利要求1所述的适合多自由度机器人的姿态迁移系统，其特征在于：所述步行速度目标函数为：

其中，ζ^s和ζ^q是权重系数，f_s指示运动周期内的速度，ΔX是机器人的运动矢量，V^*是指定所需运动方向的单位矢量；fq＝exp(-Δθ²)，其中Δθ反映实际行走方向和预设目标方向之间的偏离角。

5.如权利要求1所述的适合多自由度机器人的姿态迁移系统，其特征在于：适用于所述步骤4的进化算法包括NSGA-II算法、RM-MEDA算法、MOPSO算法。