CN118192276B - 一种基于多目标MAP-Elites的机器人损伤恢复方法 - Google Patents

一种基于多目标MAP-Elites的机器人损伤恢复方法 Download PDF

Info

Publication number
CN118192276B
CN118192276B CN202410612668.5A CN202410612668A CN118192276B CN 118192276 B CN118192276 B CN 118192276B CN 202410612668 A CN202410612668 A CN 202410612668A CN 118192276 B CN118192276 B CN 118192276B
Authority
CN
China
Prior art keywords
controller
value
behavior
controller parameters
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410612668.5A
Other languages
English (en)
Other versions
CN118192276A (zh
Inventor
向毅
徐书凝
黄翰
曹捷
崔书中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202410612668.5A priority Critical patent/CN118192276B/zh
Publication of CN118192276A publication Critical patent/CN118192276A/zh
Application granted granted Critical
Publication of CN118192276B publication Critical patent/CN118192276B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于多目标MAP‑Elites的机器人损伤恢复方法,涉及机器人控制技术领域,包括初始化行为地图,从行为地图中挑选一个父代控制器参数;利用多个样本控制器参数计算得到得到梯度方向信息,将父代控制器参数进化为子代控制器参数;根据支配关系,更新行为地图网格中的参数;采用基于地图的贝叶斯优化算法和行为地图,初始化损伤恢复模型;对损伤恢复模型进行调整和搜索,得到最佳控制器参数。相比于现有技术,无需与真实环境交互,即可获得使机器人在受损环境得到损伤恢复的控制器参数,且大大节省了搜索时间,有效的提高了运算效率。

Description

一种基于多目标MAP-Elites的机器人损伤恢复方法
技术领域
本发明涉及机器人控制技术领域,尤其涉及一种基于多目标MAP-Elites的机器人损伤恢复方法。
背景技术
在强化学习领域中,机器人损伤恢复问题是一个重要的研究方向,特别涉及到,在现实世界环境中,如何使机器人能够在遭受损伤或意外情况后自主地进行修复和恢复功能。多足机器人的损伤恢复是一个需要高度灵活性和适应性的任务,要求机器人能够在受损后,识别受损部位,以迅速调整其行为策略,如调整步态、改变腿部运动方式等,以恢复正常的运动功能。Cédric Colas、Joost Huizinga等人在《Scaling MAP-Elites to DeepNeuroevolution》这篇论文中,利用基于单目标进化策略的质量多样性算法,在四足蚂蚁机器人的损伤后适应性调整上取得了显著成效,具体为,首先在未损伤的环境中进行初步训练,采用单一目标函数作为适应度函数,用以评估候选解在优化目标上的性能表现,进而引导搜索过程的高效进行。随后,在机器人受损的环境中再次进行训练,通过对原有模型进行精细调整,从预先构建的网格中挑选出最合适的策略应用于受损场景,以实现更出色的性能表现。该方案相较于其他同类型的算法展现出了更好的性能表现。
在原有的单目标方法中,将可能存在的多个性能指标简单混合为单一的目标函数,却忽视了不同目标间可能存在的相互制约和复杂关系,从而丢失了目标间潜在的有价值信息。此外,单目标方法往往限制了搜索空间的广度,导致算法无法充分探索多目标问题所蕴含的丰富潜在解决方案。这种局限性使得算法在局部搜索中容易陷入困境,难以发现更优的全局解。
因此,亟需提供一种基于多目标MAP-Elites的机器人损伤恢复方法,以更好地处理多目标优化问题,提高算法的性能和适应性。
发明内容
针对现有技术存在的问题,本发明提供了一种基于多目标MAP-Elites的机器人损伤恢复方法,能更好地处理多目标优化问题,充分地考虑到不同目标,更好的探索解空间中的多样性,避免陷入局部最优,最终获得更优质量的解决方案。
本发明的技术方案是这样实现的:
一种基于多目标MAP-Elites的机器人损伤恢复方法,所述机器人为多足机器人;该方法包括行为地图构建阶段和损伤适应阶段,分别对应机器人的未受损环境和受损环境;所述未受损环境和所述受损环境均为模拟环境;所述受损环境至少有一个;
所述行为地图构建阶段,包括如下步骤:
T1、初始化行为地图;所述行为地图包括若干个网格,网格内存储有至少一个控制器参数;
T2、从所述行为地图中挑选一个所述控制器参数,作为父代控制器参数;在所述父代控制器参数的周围采样,得到多个样本控制器参数;将多个所述样本控制器参数分别与所述未受损环境进行交互,并评估所述交互,得到评估结果,所述评估结果包括行为特征、距离适应度值和成本适应度值;根据所述评估结果计算进化梯度,得到梯度方向信息;
其中,所述交互即使用所述控制器参数控制所述机器人在所述模拟环境中运行一个回合步数;
T3、根据所述梯度方向信息,进化所述父代控制器参数,得到子代控制器参数;将所述子代控制器参数与所述未受损环境进行交互并得到评估结果,根据所述行为特征定位所述子代控制器参数对应于所述行为地图内的位置,得到目标网格;
T4、根据所述距离适应度值和所述成本适应度值,比对所述子代控制器参数和所述目标网格内的所有控制器参数之间的支配关系;
根据所述支配关系,将所述子代控制器参数存储至所述目标网格,或替换所述目标网格内的控制器参数,或将所述子代控制器参数丢弃;
T5、重复执行步骤T2至T4,直至达到预设的第一迭代停止条件;
所述损伤适应阶段包括如下步骤:
T6、选择一个所述受损环境,采用基于地图的贝叶斯优化算法和所述行为地图,初始化损伤恢复模型;对所述损伤恢复模型进行调整和搜索,得到最佳控制器参数;通过使用所述最佳控制器参数,使所述多足机器人在所述受损环境得到恢复;
T7、重复步骤T6,直至模拟全部所述受损环境。
行为地图构建阶段对应模拟机器人的未受损环境,损伤适应阶段对应模拟受损环境,也即被测试环境;
距离适应度值用于评估机器人向前运动行进的距离,如在控制机器人执行动作后,向x轴方向前进的距离;成本适应度值用于评估运动过程中花费的成本,即机器人各关节扭矩成本;如成本适应度可以为执行动作向量的平方和的一半,动作向量一般包含所有关节的扭矩。
行为特征是指描述个体行为或性能的特征,通常用来度量个体在解决问题或执行任务时的效果或表现。任何有助于定义个体行为或性能的指标或属性均可被认为是行为特征。MAP-Elites是演化计算领域的一个质量多样性优化框架。其核心思想是维护一组有限的单元,每个单元保存该行为空间区域中最佳的个体,也即精英客体,从而实现质量和多样性的同时优化。MAP-Elites可通过定义行为特征,将模拟机器人在环境中的“状态-动作”轨迹映射到行为地图中。因而,根据行为特征,可定位拥有该行为特征的个体在行为地图中所处的网格。
T5中,第一迭代停止条件可以为迭代次数达到预设的目标总次数。
本发明中的损伤恢复是指即使机器人的某一处或某几处关节受损,利用某一控制器参数,依然能控制机器人维持向前行进的形态,在面对未预料的损伤时也能继续行进。
将原先单一的目标拆解并构造为两个适应度函数,能同时对两个目标进行处理,避免算法陷入局部最优解,促进搜索算法探索解空间中的多样性,发现更广泛的解决方案。最终针对特定的受损环境,从行为地图中筛选出最合适的最佳控制器参数,作为最佳的解决方案。
相较于现有技术,本方案无需按照不同的、真实的损伤环境训练模型,才能获得一个能控制机器人在该损伤环境中向前行进的控制器参数,而是使用一个行为地图,能构造出适应多种损伤环境的控制器参数组。
作为以上方案的进一步优化,所述T1的具体步骤包括:
T11、初始化行为空间,所述行为空间具有存储Num个所述控制器参数的存储容量;将所述行为空间根据预设的离散值Dis转化为具有若干网格的行为地图;
T12、以全连接神经网络为基础,随机初始化神经网络模型参数,得到所述控制器参数;使用所述控制器参数控制所述机器人与所述未受损环境进行交互并评估所述交互,得到评估结果;根据所述行为特征将所述控制器参数定位并存储至所述网格中。
行为空间是指描述个体特征的空间,对行为空间沿不同维度进行离散,可得到一个以网格结构表示的行为地图,每个网格中维护一个或多个在当前网格中性能最优的个体。
全连接神经网络(Fully Connected Neural Network,FCN)是一种连接方式较为简单的人工神经网络结构,属于前馈神经网络的一种。它主要由输入层、隐藏层和输出层构成,每个隐藏层中可以有多个神经元。全连接神经网络具有强大的特征提取和学习能力,可以应用于多种任务,如分类、回归以及无监督学习等。
每一次交互过程都进行多次评估,最终的评估结果为多次评估结果的均值。
作为以上方案的进一步优化,所述T11中,还包括预设维度值Dim;其中,根据所述离散值Dis,将所述行为空间沿每一维度均匀离散成Dis份,得到网格数量为的行为地图;每个所述网格可容纳的所述控制器参数的数量为
作为以上方案的进一步优化,所述行为特征为一个多维向量,其中每个维度代表了在每一回合步数中,所述机器人的每一足接触地面的时间比例,每个维度的取值范围均为[0,1];
每一个所述网格分别对应一个唯一的第一标识符,所述第一标识符为多维数组或多维向量,包括多个索引值;
所述行为地图、行为特征和所述第一标识符的维度相同;所述定位的过程为,将所述取值范围按照所述维度均分为多个区间,根据所述区间将所述行为特征的每一个参数按照先后位置分别映射转化为索引值,进而得到相对应的所述第一标识符。
模拟环境开放对外接口;通过调用模拟环境提供的接口,获取来自模拟环境的当前回合步数中的接触信息以及接触点的数量,循环遍历各个接触点;若有接触,且为多足蚂蚁机器人某一条腿与地面发生的,则对应腿的接触地面次数加1,将触地次数除以当前回合步数可计算每条腿接触地面的时间比例。
作为以上方案的进一步优化,所述T2的具体步骤包括:
T21、在所述行为地图中,根据所述距离适应度值和所述成本适应度值之和作为等权整体适应度值;选择所述等权整体适应度值最大的所述控制器参数所在的所述网格;
或,对于最近的存储过所述控制器参数的a个所述网格,按照所述等权整体适应度值进行降序排序,随机选择排序靠前的b个所述网格中的一个;其中,a和b均为自定义值,且a≥b;
T22、从被选择的所述网格中,随机选择一个所述控制器参数作为所述父代控制器参数;
T23、根据所述父代控制器参数构造各向同性的多元高斯分布,在所述多元高斯分布中进行随机采样,生成多个样本控制器参数;
T24、使用所述样本控制器参数控制所述机器人与所述未受损环境进行交互,并评估得到所述评估结果;
T25、对于所述样本控制器参数的距离适应度值和成本适应度值分别赋予不同的权重,计算加权整体适应度值;利用随机梯度上升法,对所述加权整体适应度值进行梯度估计,得到所述梯度方向信息。
T21中,若最近的存储数据的网格数量小于a,则仅采用前一种方法选择网格;否则,按照50% 的概率任选两种方法的一种进行网格的选择;
“随机梯度上升法”是一种优化算法,它使用随机选择的样本来估计梯度,并沿着梯度上升的方向更新参数,以最大化目标函数。“梯度估计”即近似计算加权整体适应度值相对于模型参数的梯度。梯度是一个向量,它指示了函数在每个点上的最陡峭上升方向。
使用加权后的适应度值计算梯度,指导进化方向,更充分地考虑到不同目标之间的关系和权衡,也可以增加搜索算法探索解空间中的多样性,避免算法陷入局部最优解。
作为以上方案的进一步优化,所述距离适应度值、所述成本适应度值和所述加权整体适应度值分别用表示;所述距离适应度值、所述成本适应度值对应的权重分别为
在每一轮迭代中,所述加权整体适应度值的计算过程为:
其中,R为权重范围控制参数;为距离函数初始权重,所述距离适应度值对应的权重范围为;N为迭代次数,即控制器参数。
作为以上方案的进一步优化,所述T4中,所述支配关系包括完全支配、完全被支配和非支配;
若所述子代控制器参数在距离适应度值和成本适应度值上均优于所述目标网格内的所有控制器参数,即为完全支配;此时将所述目标网格内的所有控制器参数移除,再将所述子代控制器参数存储至所述目标网格内;
若所述目标网格内的至少一个控制器参数对所述子代控制器参数完全支配,即为完全被支配,则丢弃所述子代控制器参数;
若子代控制器参数与所述目标网格内的控制器参数之间的支配关系不为完全支配或完全被支配,即为非支配;此时,判断所述目标网格的存储空间是否达到最大容量:若未达到最大容量,则直接将所述子代控制器参数存储至所述目标网格;否则,随机选择所述目标网格内的一个控制器参数与所述子代控制器参数进行替换。
对于两个参数A、B的多个适应度值,若A的所有适应度值均优于B的所有适应度值,则A完全支配B;反之,则A完全被B支配;否则,A和B为非支配关系。
通过支配关系不断更新网格中存储的控制器参数组,这一组控制器参数对应的适应度值,可形成一个帕累托前沿,即在当前网格中,使用该组控制器参数均能获得最佳的第一性能值,并提供了在不同受损环境下,在两目标间进行权衡和选择的可能性。
作为以上方案的进一步优化,所述多足机器人的每一足都包括至少两个关节,所述关节包括损伤和正常两种状态;
所述T6中,对于所述控制器参数,根据所述距离适应度值和所述成本适应度值以自定义的权重相加得到性能值;其中,所述控制器参数在与未受损环境和受损环境交互并计算得到的所述性能值,分别为第一性能值和第二性能值;
特别的是,性能值和前述的加权整体适应度值中均用到了权重,但两者并不相同;在加权整体适应度值中,权重有算法自适应更新;而性能值中,权重由用户根据实际需求自定义。
所述T6的具体步骤包括:
T61、设置任意数量和任意位置的所述关节为损伤状态,以模拟所述受损环境;
T62、在所述行为地图中,计算所有所述控制器参数的第一性能值,其中,第一性能值最大的所述控制器参数为第一目标参数;
采用基于地图的贝叶斯优化算法,使用所述行为地图中的所有控制器参数的行为特征和第一性能值,构建一个高斯过程模型;所述高斯过程模型用于预测所述控制器参数的性能;所述高斯过程模型为一个字典,所述字典的键为第二标识符,所述第二标识符与所述行为地图内的所述控制器参数一一对应;所述字典的值为一个元组,包括均值和方差;其中,所述均值即为所述控制器参数的估计性能;
T63、利用所述均值和所述方差构造采集函数;通过所述采集函数计算所述控制器参数的函数值,并选择函数值最大的一个控制器参数为第二目标参数;
T64、使用所述第二目标参数和所述受损环境交互,得到评估结果;使用所述第二目标参数的行为特征和第二性能值对所述高斯过程模型进行更新;
T65、重复执行T63、T64,直至达到预设的第二迭代停止条件;
T66、选择所述估计性能最大的所述控制器参数作为第三目标参数;将所述第一目标参数和所述第三目标参数分别与所述受损环境进行交互并得到评估结果,并选择第二性能值最大的一个作为所述最佳控制器参数。
在基于地图的贝叶斯优化算法中,所有控制器参数的行为特征和第一性能值被用作一种先验知识,帮助算法更有效地探索参数空间。通过结合地图的特定结构和特征,算法能够更准确地预测第二性能值在不同参数配置下的表现。
高斯过程(Gaussian Process, GP)是概率论和数理统计中随机过程的一种,指的是一组随机变量的集合,这个集合里面的任意有限个随机变量都服从联合正态分布。在高斯过程中,任意随机变量的线性组合都服从正态分布,每个有限维分布都是联合正态分布,其本身在连续指数集上的概率密度函数即是所有随机变量的高斯测度。高斯过程由其数学期望和协方差函数完全决定,并继承了正态分布的诸多性质。
T61用于模拟特定的受损环境;
T65中,第二迭代停止条件可以为迭代次数达到预设的目标总次数。
重复执行T61至T66,直至模拟全部所述受损环境,即可筛选出针对每种受损环境的最佳控制器参数。最佳控制器参数控制机器人在受损环境中可以耗费较低成本情况下较好地向前行走,也即对于特定的场景环境,获得的控制器参数可以做到耗费较低成本情况下较远地向前行走,或是尽量远地向前行走同时不消耗过多的成本。
在真实环境中,训练参数需要使用控制器参数控制机器人完整的执行一遍运行过程,其中包括遍历多种受损环境、以及多个控制器参数,时间消耗非常大。在本方案中,通过模拟过程、以及更新高斯过程模型既可以预测每个控制器参数对应的估计性能,虽然也需要进行遍历,但遍历只用于计算行为特征之间的相关性,以此来更新高斯过程模型,不需要将所有控制器参数放入环境中一一进行测试,其时间消耗远小于在某一受损环境中遍历所有控制器参数得到的结果。
最佳控制器参数也可以直接选择第一目标参数,只不过效果可能相较于第一、第三目标参数比较后的选择差,但节省了第三目标参数的计算时间,相当于牺牲质量换取时间。
作为以上方案的进一步优化,所述T61中,还构造更新容器;
所述T63中,还将所述第二目标参数存储至所述更新容器;
所述T62中,对所述行为地图内的所有控制器参数分别初始化均值和方差;
其中,对所述控制器参数的第一性能值进行归一化处理,转化为[0,1]内的小数值,即为所述均值的初始值。
所述方差的初始值为:
其中,i为所述第二标识符,表示所述行为地图内的第i个控制器参数;表示第i个控制器参数的行为特征;M(x,y)为核函数,所述核函数的构造公式为:
其中,x和y分别表示两个行为特征,d表示x和y之间的欧几里得距离,v为预设的长度尺度参数;为指数函数,表示e的次方;所述核函数用于计算两个行为特征之间的相关性;
所述T64中,对所述高斯过程模型的所有均值和方差进行更新。
其中,所述均值的更新过程为:
T641、构造性能差异向量;对于所述更新容器内的所有所述第二目标参数,计算其第一性能值和第二性能值的差值,并将所述差值存储至所述性能差异向量内;
T642、对于所述更新容器内的所有所述第二目标参数,采用所述核函数计算任意两个控制器参数的行为特征之间的相关性,并加入一个方差为0.01的高斯白噪声,得到协方差矩阵K;
T643、对于所述行为地图内的所有所述控制器参数,利用所述核函数,分别计算与所述更新容器内的所有所述第二目标参数之间的行为特征的相关性,得到协方差矩阵k。
T644、所述高斯过程模型中,所述均值的计算为:
其中,表示第i个所述控制器参数的第一性能值。
所述方差的更新过程为:
T645、第i个所述控制器参数对应的方差的更新计算为:
即行为特征本身的自相关性度量减去各协方差矩阵的点积。
本方案中的核函数即为Matérn核函数,用于计算两点之间的相似度,并被用来建立协方差矩阵。这个协方差矩阵表示的是在所有输入行为特征间性能值的相关性。
相关性的度量帮助模型了解新的行为特征怎样依据与已知点对(BC,P)的相关性进行性能值的估计。通过构建相关性,高斯过程模型可以利用已有数据对(BC,P)来对未知数据对(BC,P)做出有根据的预测,即根据已在受损环境中测试的控制器参数得到的行为特征对应的性能值,预测还未在受损环境中测试的控制器参数得到的行为特征对应的性能值。相较于完整遍历一遍行为地图中所有控制器参数与受损环境的交互,利用高斯过程模型预测交互结果,具有预测准确度、质量高的特点,而又大大的缩短了获取目标参数的时间,提高了效率。
方差的初始化中,通过核函数得到一个行为特征本身的自相关性度量,表示这个点的预测变异性没有被其它点影响。
进一步的,v的值为2.5。 作为以上方案的进一步优化,所述采集函数表示为:;其中,为探索参数,i为所述第二标识符。
UCB为Upper Confidence Bound,即置信区间算法。其中,是指希腊字母kappa,与上述的协方差矩阵k不是同一个参数。
与现有技术相比,本发明取得以下有益效果:
(1)在进化阶段,本发明拆解了原先单一的目标构造了两个适应度函数,能同时对两个目标进行处理,避免算法陷入局部最优解,促进搜索算法探索解空间中的多样性,发现更广泛的解决方案。
(2)根据迭代轮次,本发明自动对各适应度函数在整体适应度函数中所占比重进行调整,无需人为手工设置各目标的权重系数。通过不断对权重进行调整,可探索到更多的方向,增加进化的多样性,也能更充分地考虑到不同目标,随着训练推进,存在的不同权衡关系。
(3)基于MAP-Elites构造多目标模型,在模型中的每一个网格中均存储一个帕累托前沿,通过不断对网格中加入新的解来更新每个网格中的帕累托前沿,最终可以获得多组最优权衡解集合,在保证了多样性的情况下也同时考虑到了解决方案的质量。最终针对特定的受损环境,从行为地图中筛选出最合适的最佳控制器参数,作为最佳的解决方案。
(4)相较于现有技术,本方案无需按照不同的、真实的损伤环境训练模型,才能获得一个能控制机器人在该损伤环境中向前行进的控制器参数,而是使用一个行为地图,能构造出适应多种损伤环境的控制器参数组。
(5)通过高斯过程模型即可预测控制器参数在受损环境的估计性能,而无需完全遍历所有控制器参数与受损环境的模拟交互,大大节省了获得最佳控制器参数的搜索时间,有效提高了匹配效率。
(6)不同的机器人任务,有不同的要求,在成本导向型任务重,更注重成本的把控,耗费的成本越少,经济效益越高;而在效果导向型任务重,更注重是否能使机器人往前行进的距离更远,成本不是最需要考虑的指标。可根据具体需求为导向,使机器人在耗费较低成本情况下尽量远地向前行走,或是尽量远地向前行走同时不消耗过多的成本。
附图说明
图1是本发明实施例提供的损伤恢复方法的交互示意图;
图2是本发明实施例提供的损伤恢复方法在行为地图构建阶段的流程示意图;
图3是本发明实施例提供的损伤恢复方法在行为损伤适应阶段的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1至图3所示,本实施例提供了一种基于多目标MAP-Elites的机器人损伤恢复方法,机器人为四足机器人,四足机器人的每一足都包括两个关节,关节包括损伤和正常两种状态;该方法包括行为地图构建阶段和损伤适应阶段,分别对应机器人的未受损环境和受损环境;未受损环境和受损环境均为模拟环境;在本实施例中,以Mujoco Ant-v2模拟环境,进行了系统的效果测试。Mujoco Ant-v2是一个模拟环境中的任务,具体指的是在MuJoCo(一个多关节动力学和运动引擎)物理引擎中模拟的Ant机器人模型的第二个版本。Ant-v2模型是一个四足机器人,它的目标通常是在不同的地形和环境下稳定地行走或执行特定的任务。
行为地图构建阶段,包括如下步骤:
T1、初始化行为地图,具体步骤包括:
T11、初始化行为空间,行为空间具有存储Num个控制器参数的存储容量;将行为空间根据预设的离散值Dis和预设维度值Dim,将行为空间沿每一维度均匀离散成Dis份,得到网格数量为的行为地图;每个网格可容纳的控制器参数的数量为。每一个网格分别对应一个唯一的第一标识符,第一标识符为多维数组或多维向量,包括多个索引值。
根据模拟环境原有设定,在行为空间总存储容量为个控制器参数不变的情况下,依照设定的离散值5,将行为空间沿着每一维度均匀离散成5份,形成5×5×5×5的行为地图。此时,行为地图共有625个网格,每个网格中最大可容纳参数数量为16。
同时,创建一个从0开始到624结束,公差为1的一维数组,并将该1维数组按照4维空间中的排列方式重新排列,使得行为地图中每个网格具有唯一的第一标识符,以便于后续可根据坐标快速定位到对应的网格。
T12、以全连接神经网络为基础,随机初始化神经网络模型参数,得到控制器参数;使用控制器参数控制机器人与未受损环境进行交互并评估交互,得到评估结果;根据行为特征将控制器参数定位并存储至网格中。
使用具有两个隐藏层的全连接神经网络作为控制器,其中每个隐藏层包含256个神经元,通过Xavier初始化来随机初始化神经网络模型参数。利用初始化的控制器参数控制模拟环境中的四足蚂蚁机器人运行1个回合步数,每一回合步数交互结束时进行30次评估,并对评估结果取均值,可得到最终的行为特征,向前行进的总距离以及每个关节的扭矩成本总和。
在本实施例中,行为特征为一个多维向量,其中每个维度代表了在每一回合步数中,机器人的每一足接触地面的时间比例,每个维度的取值范围均为[0,1];
行为地图、行为特征和第一标识符的维度相同;定位的过程为,将取值范围按照维度均分为多个区间,根据区间将行为特征的每一个参数按照先后位置分别映射转化为索引值,进而得到相对应的第一标识符。
根据行为特征,可定位初始化得到的控制器参数在行为地图中的位置。以行为特征[0.1,0.3,0.3,0.9]为例,0.1在取值范围[0,1]均分为5份情况下位于索引位置为0所包含的范围,即[0,0.2)内,0.3和0.9则分别位于索引位置为1和4处,此时,通过(0,1,1,4)可获得标识符数组中对应的唯一网格标识符。在获得网格标识后,可将控制器参数加入到该标识对应的行为地图网格中。
行为空间是指描述个体特征的空间,对行为空间沿不同维度进行离散,可得到一个以网格结构表示的行为地图,每个网格中维护一个或多个在当前网格中性能最优的个体。
全连接神经网络(Fully Connected Neural Network,FCN)是一种连接方式较为简单的人工神经网络结构,属于前馈神经网络的一种。它主要由输入层、隐藏层和输出层构成,每个隐藏层中可以有多个神经元。全连接神经网络具有强大的特征提取和学习能力,可以应用于多种任务,如分类、回归以及无监督学习等。
每一次交互过程都进行多次评估,最终的评估结果为多次评估结果的均值。
模拟环境开放对外接口;通过调用模拟环境提供的接口,获取来自模拟环境的当前回合步数中的接触信息以及接触点的数量,循环遍历各个接触点;若有接触,且为四足蚂蚁机器人某一条腿与地面发生的,则对应腿的接触地面次数加1,将触地次数除以当前回合步数可计算每条腿接触地面的时间比例。
T2、从行为地图中挑选一个控制器参数,作为父代控制器参数;在父代控制器参数的周围采样,得到多个样本控制器参数;将多个样本控制器参数分别与未受损环境进行交互,并评估交互,得到评估结果,评估结果包括行为特征、距离适应度值和成本适应度值;根据评估结果计算进化梯度,得到梯度方向信息;
其中,交互即使用控制器参数控制机器人在模拟环境中运行一个回合步数。
在本实施例中,T2的具体步骤包括:
T21、在行为地图中,根据距离适应度值和成本适应度值之和作为等权整体适应度值;选择等权整体适应度值最大的控制器参数所在的网格;
或,对于最近的存储过控制器参数的a个网格,按照等权整体适应度值进行降序排序,随机选择排序靠前的b个网格中的一个;其中,a和b均为自定义值,且a≥b;
在行为地图中,若被填充的网格总数小于设定值5,则挑选等权整体适应度值为最高值所对应的控制器参数所在的网格,若被填充的网格总数大于等于5,则以50%的概率,或是等权整体适应度值为最大的控制器参数所在的网格,或是在最近填充的5个网格中,依照每个网格中所有控制器参数,按照等权整体适应度值进行降序排序,从排名前二的网格中随机选择一个。
T22、从被选择的网格中,随机选择一个控制器参数作为父代控制器参数;
T23、根据父代控制器参数构造各向同性的多元高斯分布,在多元高斯分布中进行随机采样,生成多个样本控制器参数;
T24、使用样本控制器参数控制机器人与未受损环境进行交互,并评估得到评估结果;
T25、对于样本控制器参数的距离适应度值和成本适应度值分别赋予不同的权重,计算加权整体适应度值;利用随机梯度上升法,对加权整体适应度值进行梯度估计,得到梯度方向信息。
在本实施例中,距离适应度值、成本适应度值和加权整体适应度值分别用表示;距离适应度值、成本适应度值对应的权重分别为
在每一轮迭代中,加权整体适应度值的计算过程为:
其中,R为权重范围控制参数;为距离函数初始权重,距离适应度值对应的权重范围为;N为迭代次数,即控制器参数。
上述两个权重参数在实际应用时,根据不同的问题,可进行不同程度的缩放。这是因为在计算得到适应度值后,会对适应度值进行秩归一化,用排名位置来替代原始的适应度值,消除适应度值的绝对大小对进化策略的影响,使得个体的适应度值更加相对化,更好地反映了其在种群中的相对位置。若的值过大,然而权重设置依然在[0,1]的范围内,加权后得到的适应度值很难影响到最终适应度值的排名。因此,为了使权重值的设定能有效影响到适应度值的排名,使进化过程产生更多样的变化,可根据不同问题所拥有的不同适应度值的大小,适当对权重值进行放大(或缩小),在本发明所应用的问题中,对权重参数均进行了百倍的放大。
“随机梯度上升法”是一种优化算法,它使用随机选择的样本来估计梯度,并沿着梯度上升的方向更新参数,以最大化目标函数。“梯度估计”即近似计算加权整体适应度值相对于模型参数的梯度。梯度是一个向量,它指示了函数在每个点上的最陡峭上升方向。
使用加权后的适应度值计算梯度,指导进化方向,更充分地考虑到不同目标之间的关系和权衡,也可以增加搜索算法探索解空间中的多样性,避免算法陷入局部最优解。
T3、使用Adam优化器,在学习率为0.01、l2系数为0.005的情况下,根据梯度方向信息,进化父代控制器参数,得到子代控制器参数;将子代控制器参数与未受损环境进行交互并得到评估结果,根据行为特征定位子代控制器参数对应于行为地图内的位置,得到目标网格;
T4、根据距离适应度值和成本适应度值,比对子代控制器参数和目标网格内的所有控制器参数之间的支配关系。
根据支配关系,将子代控制器参数存储至目标网格,或替换目标网格内的控制器参数,或将子代控制器参数丢弃;本发明所应用的问题中,两个目标存在着互相竞争的关系,一个目标上的改进必然会导致另一个目标的恶化,不能同时优化这两个目标。因而,每个行为地图离散的网格中,维护的不是只有一个最优的控制器参数,而是一组代表最优的控制器参数,根据网格内各控制器参数的适应度值,形成一个帕累托前沿,Q代表网格中存储的控制器参数数组;根据T11的计算,一个网格最多可以存储16个控制器参数,即m=16;
支配关系包括完全支配、完全被支配和非支配;
若子代控制器参数在距离适应度值和成本适应度值上均优于目标网格内的所有控制器参数,也即待加入的子代控制器参数比任何一个旧控制器参数控制的四足蚂蚁机器人在模拟环境中的表现都要优秀,等价于,即为完全支配;此时将目标网格内的所有控制器参数移除,再将子代控制器参数存储至目标网格内;
若目标网格内的至少一个控制器参数对子代控制器参数完全支配,等价于,即为完全被支配,则丢弃子代控制器参数;
若子代控制器参数与目标网格内的控制器参数之间的支配关系不为完全支配或完全被支配,等价于,或,即为非支配;此时,判断目标网格的存储空间是否达到最大容量:若未达到最大容量,则直接将子代控制器参数存储至目标网格;否则,随机选择目标网格内的一个控制器参数与子代控制器参数进行替换。
对于两个参数A、B的多个适应度值,若A的所有适应度值均优于B的所有适应度值,则A完全支配B;反之,则A完全被B支配;否则,A和B为非支配关系。
通过支配关系不断更新网格中存储的控制器参数组,这一组控制器参数对应的适应度值,可形成一个帕累托前沿,即在当前网格中,使用该组控制器参数均能获得最佳的第一性能值,并提供了在不同受损环境下,在两目标间进行权衡和选择的可能性。
T5、重复执行步骤T2至T4,直至达到预设的第一迭代停止条件;第一迭代停止条件为迭代次数达到预设的目标总次数。
损伤适应阶段包括如下步骤:
T6、选择一个受损环境,采用基于地图的贝叶斯优化算法和行为地图,初始化损伤恢复模型;对损伤恢复模型进行调整和搜索,得到最佳控制器参数;通过使用最佳控制器参数,使四足机器人在受损环境得到恢复;
对于所述控制器参数,根据所述距离适应度值和所述成本适应度值以自定义的权重相加得到性能值;其中,所述控制器参数在与未受损环境和受损环境交互并计算得到的所述性能值,分别为第一性能值和第二性能值;性能值和加权整体适应度值中的权重并非等同参数,但除了权重的具体值之外,性能值的计算方式参照加权整体适应度值的计算。
T6的具体步骤包括:
T61、设置任意数量和任意位置的关节为损伤状态,以模拟受损环境;还构造更新容器;
T62、在行为地图中,计算所有控制器参数的第一性能值,其中,第一性能值最大的控制器参数为第一目标参数;
采用基于地图的贝叶斯优化算法,使用行为地图中的所有控制器参数的行为特征和第一性能值,构建一个高斯过程模型;对行为地图内的所有控制器参数分别初始化均值和方差;
其中,对控制器参数的第一性能值进行归一化处理,转化为[0,1]内的小数值,即为均值的初始值。
方差的初始值为:
其中,i为第二标识符,表示行为地图内的第i个控制器参数;表示第i个控制器参数的行为特征;M(x,y)为核函数,核函数的构造公式为:
其中,x和y分别表示两个行为特征,d表示x和y之间的欧几里得距离,v为预设的长度尺度参数,v的值为2.5;为指数函数,表示e的次方;核函数用于计算两个行为特征之间的相关性。
高斯过程模型用于预测控制器参数的性能;高斯过程模型为一个字典,字典的键为第二标识符,第二标识符与行为地图内的控制器参数一一对应;字典的值为一个元组,包括均值和方差;其中,均值即为控制器参数的估计性能。
T63、利用均值和方差构造采集函数;采集函数表示为:;其中,为探索参数,i为第二标识符。
UCB为Upper Confidence Bound,即置信区间算法。
通过采集函数计算控制器参数的函数值,并选择函数值最大的一个控制器参数为第二目标参数;将第二目标参数存储至更新容器。
T64、使用第二目标参数和受损环境交互,得到评估结果;使用第二目标参数的行为特征和第二性能值对高斯过程模型进行更新;
其中,均值的更新过程为:
T641、构造性能差异向量;对于更新容器内的所有第二目标参数,计算其第一性能值和第二性能值的差值,并将差值存储至性能差异向量内;
T642、对于更新容器内的所有第二目标参数,采用核函数计算任意两个控制器参数的行为特征之间的相关性,并加入一个方差为0.01的高斯白噪声,得到协方差矩阵K;
T643、对于行为地图内的所有控制器参数,利用核函数,分别计算与更新容器内的所有第二目标参数之间的行为特征的相关性,得到协方差矩阵k;
T644、高斯过程模型中,均值的计算为:
其中,表示第i个控制器参数的第一性能值。
方差的更新过程为:
T645、第i个控制器参数对应的方差的更新计算为:
即行为特征本身的自相关性度量减去各协方差矩阵的点积。
本方案中的核函数即为Matérn核函数,用于计算两点之间的相似度,并被用来建立协方差矩阵。这个协方差矩阵表示的是在所有输入行为特征间性能值的相关性。
相关性的度量帮助模型了解新的行为特征怎样依据与已知点对(BC,P)的相关性进行性能值的估计。通过构建相关性,高斯过程模型可以利用已有数据对(BC,P)来对未知数据对(BC,P)做出有根据的预测,即根据已在受损环境中测试的控制器参数得到的行为特征对应的性能值,预测还未在受损环境中测试的控制器参数得到的行为特征对应的性能值。相较于完整遍历一遍行为地图中所有控制器参数与受损环境的交互,利用高斯过程模型预测交互结果,具有预测准确度、质量高的特点,而又大大的缩短了获取目标参数的时间,提高了效率。
方差的初始化中,通过核函数得到一个行为特征本身的自相关性度量,表示这个点的预测变异性没有被其它点影响。
T65、重复执行T63、T64,直至达到预设的第二迭代停止条件;
T66、选择估计性能最大的控制器参数作为第三目标参数;将第一目标参数和第三目标参数分别与受损环境进行交互并得到评估结果,并选择第二性能值最大的一个作为最佳控制器参数。
等权整体适应度值,即在权重相等的条件下,距离适应度值和成本适应度值之和。
在基于地图的贝叶斯优化算法中,所有控制器参数的行为特征和第一性能值被用作一种先验知识,帮助算法更有效地探索参数空间。通过结合地图的特定结构和特征,算法能够更准确地预测第二性能值在不同参数配置下的表现。
高斯过程(Gaussian Process, GP)是概率论和数理统计中随机过程的一种,指的是一组随机变量的集合,这个集合里面的任意有限个随机变量都服从联合正态分布。在高斯过程中,任意随机变量的线性组合都服从正态分布,每个有限维分布都是联合正态分布,其本身在连续指数集上的概率密度函数即是所有随机变量的高斯测度。高斯过程由其数学期望和协方差函数完全决定,并继承了正态分布的诸多性质。
T61用于模拟特定的受损环境。
T65中,第二迭代停止条件可以为迭代次数达到预设的目标总次数。
重复执行T61至T66,直至模拟全部受损环境,即可筛选出针对每种受损环境的最佳控制器参数。最佳控制器参数控制机器人在受损环境中可以耗费较低成本情况下较好地向前行走,也即对于特定的场景环境,获得的控制器参数可以做到耗费较低成本情况下较远地向前行走,或是尽量远地向前行走同时不消耗过多的成本。
在真实环境中,训练参数需要使用控制器参数控制机器人完整的执行一遍运行过程,其中包括遍历多种受损环境、以及多个控制器参数,时间消耗非常大。在本方案中,通过模拟过程、以及更新高斯过程模型既可以预测每个控制器参数对应的估计性能,虽然也需要进行遍历,但遍历只用于计算行为特征之间的相关性,以此来更新高斯过程模型,不需要将所有控制器参数放入环境中一一进行测试,其时间消耗远小于在某一受损环境中遍历所有控制器参数得到的结果。
最佳控制器参数也可以直接选择第一目标参数,只不过效果可能相较于第一、第三目标参数比较后的选择差,但节省了第三目标参数的计算时间,相当于牺牲质量换取时间。
T7、重复步骤T6,直至模拟全部受损环境。
行为地图构建阶段对应模拟机器人的未受损环境,损伤适应阶段对应模拟受损环境,也即被测试环境;
距离适应度值用于评估机器人向前运动行进的距离,如在控制机器人执行动作后,向x轴方向前进的距离;成本适应度值用于评估运动过程中花费的成本,即机器人各关节扭矩成本;如成本适应度可以为执行动作向量的平方和的一半,动作向量一般包含所有关节的扭矩。
行为特征是指描述个体行为或性能的特征,通常用来度量个体在解决问题或执行任务时的效果或表现。任何有助于定义个体行为或性能的指标或属性均可被认为是行为特征。MAP-Elites是演化计算领域的一个质量多样性优化框架。其核心思想是维护一组有限的单元,每个单元保存该行为空间区域中最佳的个体,也即精英客体,从而实现质量和多样性的同时优化。MAP-Elites可通过定义行为特征,将模拟机器人在环境中的“状态-动作”轨迹映射到行为地图中。因而,根据行为特征,可定位拥有该行为特征的个体在行为地图中所处的网格。
本发明中的损伤恢复是指即使机器人的某一处或某几处关节受损,利用某一控制器参数,依然能控制机器人维持向前行进的形态,在面对未预料的损伤时也能继续行进。
将原先单一的目标拆解并构造为两个适应度函数,能同时对两个目标进行处理,避免算法陷入局部最优解,促进搜索算法探索解空间中的多样性,发现更广泛的解决方案。最终针对特定的受损环境,从行为地图中筛选出最合适的最佳控制器参数,作为最佳的解决方案。
相较于现有技术,本方案无需按照不同的、真实的损伤环境训练模型,才能获得一个能控制机器人在该损伤环境中向前行进的控制器参数,而是使用一个行为地图,能构造出适应多种损伤环境的控制器参数组。
根据上述说明书的揭示和教导,本发明所属领域的技术人员还可以对上述实施方式进行变更和修改。因此,本发明并不局限于上面揭示和描述的具体实施方式,对本发明的一些修改和变更也应当落入本发明的权利要求的保护范围内。此外,尽管本说明书中使用了一些特定的术语,但这些术语只是为了方便说明,并不对本发明构成任何限制。

Claims (10)

1.一种基于多目标MAP-Elites的机器人损伤恢复方法,所述机器人为多足机器人;其特征在于,包括行为地图构建阶段和损伤适应阶段,分别对应机器人的未受损环境和受损环境;所述未受损环境和所述受损环境均为模拟环境;所述受损环境至少有一个;
所述行为地图构建阶段,包括如下步骤:
T1、初始化行为地图;所述行为地图包括若干个网格,网格内存储有至少一个控制器参数;
T2、从所述行为地图中挑选一个所述控制器参数,作为父代控制器参数;在所述父代控制器参数的周围采样,得到多个样本控制器参数;将多个所述样本控制器参数分别与所述未受损环境进行交互,并评估所述交互,得到评估结果,所述评估结果包括行为特征、距离适应度值和成本适应度值;根据所述评估结果计算进化梯度,得到梯度方向信息;
其中,所述交互即使用所述控制器参数控制所述机器人在所述模拟环境中运行一个回合步数;
T3、根据所述梯度方向信息,进化所述父代控制器参数,得到子代控制器参数;将所述子代控制器参数与所述未受损环境进行交互并得到评估结果,根据所述行为特征定位所述子代控制器参数对应于所述行为地图内的位置,得到目标网格;
T4、根据所述距离适应度值和所述成本适应度值,比对所述子代控制器参数和所述目标网格内的所有控制器参数之间的支配关系;
根据所述支配关系,将所述子代控制器参数存储至所述目标网格,或替换所述目标网格内的控制器参数,或将所述子代控制器参数丢弃;
T5、重复执行步骤T2至T4,直至达到预设的第一迭代停止条件;
所述损伤适应阶段包括如下步骤:
T6、选择一个所述受损环境,采用基于地图的贝叶斯优化算法和所述行为地图,初始化损伤恢复模型;对所述损伤恢复模型进行调整和搜索,得到最佳控制器参数;通过使用所述最佳控制器参数,使所述多足机器人在所述受损环境得到恢复;
T7、重复步骤T6,直至模拟全部所述受损环境。
2.根据权利要求1所述的一种基于多目标MAP-Elites的机器人损伤恢复方法,其特征在于,所述T1的具体步骤包括:
T11、初始化行为空间,所述行为空间具有存储Num个所述控制器参数的存储容量;将所述行为空间根据预设的离散值Dis转化为具有若干网格的行为地图;
T12、以全连接神经网络为基础,随机初始化神经网络模型参数,得到所述控制器参数;使用所述控制器参数控制所述机器人与所述未受损环境进行交互并评估所述交互,得到评估结果;根据所述行为特征将所述控制器参数定位并存储至所述网格中。
3.根据权利要求2所述的一种基于多目标MAP-Elites的机器人损伤恢复方法,其特征在于,所述T11中,还包括预设维度值Dim;其中,根据所述离散值Dis,将所述行为空间沿每一维度均匀离散成Dis份,得到网格数量为的行为地图;每个所述网格可容纳的所述控制器参数的数量为
4.根据权利要求1所述的一种基于多目标MAP-Elites的机器人损伤恢复方法,其特征在于,所述行为特征为一个多维向量,其中每个维度代表了在每一回合步数中,所述机器人的每一足接触地面的时间比例,每个维度的取值范围均为[0,1];
每一个所述网格分别对应一个唯一的第一标识符,所述第一标识符为多维数组或多维向量,包括多个索引值;
所述行为地图、行为特征和所述第一标识符的维度相同;所述定位的过程为,将所述取值范围按照所述维度均分为多个区间,根据所述区间将所述行为特征的每一个参数按照先后位置分别映射转化为索引值,进而得到相对应的所述第一标识符。
5.根据权利要求1所述的一种基于多目标MAP-Elites的机器人损伤恢复方法,其特征在于,所述T2的具体步骤包括:
T21、在所述行为地图中,根据所述距离适应度值和所述成本适应度值之和作为等权整体适应度值;选择所述等权整体适应度值最大的所述控制器参数所在的所述网格;
或,对于最近的存储过所述控制器参数的a个所述网格,按照所述等权整体适应度值进行降序排序,随机选择排序靠前的b个所述网格中的一个;其中,a和b均为自定义值,且a≥b;
T22、从被选择的所述网格中,随机选择一个所述控制器参数作为所述父代控制器参数;
T23、根据所述父代控制器参数构造各向同性的多元高斯分布,在所述多元高斯分布中进行随机采样,生成多个样本控制器参数;
T24、使用所述样本控制器参数控制所述机器人与所述未受损环境进行交互,并评估得到所述评估结果;
T25、对于所述样本控制器参数的距离适应度值和成本适应度值分别赋予不同的权重,计算加权整体适应度值;利用随机梯度上升法,对所述加权整体适应度值进行梯度估计,得到所述梯度方向信息。
6.根据权利要求5所述的一种基于多目标MAP-Elites的机器人损伤恢复方法,其特征在于,所述距离适应度值、所述成本适应度值和所述加权整体适应度值分别用表示;所述距离适应度值、所述成本适应度值对应的权重分别为
在每一轮迭代中,所述加权整体适应度值的计算过程为:
其中,R为权重范围控制参数;为距离函数初始权重,所述距离适应度值对应的权重范围为;N为迭代次数,即控制器参数。
7.根据权利要求1所述的一种基于多目标MAP-Elites的机器人损伤恢复方法,其特征在于,所述T4中,所述支配关系包括完全支配、完全被支配和非支配;
若所述子代控制器参数在距离适应度值和成本适应度值上均优于所述目标网格内的所有控制器参数,即为完全支配;此时将所述目标网格内的所有控制器参数移除,再将所述子代控制器参数存储至所述目标网格内;
若所述目标网格内的至少一个控制器参数对所述子代控制器参数完全支配,即为完全被支配,则丢弃所述子代控制器参数;
若子代控制器参数与所述目标网格内的控制器参数之间的支配关系不为完全支配或完全被支配,即为非支配;此时,判断所述目标网格的存储空间是否达到最大容量:若未达到最大容量,则直接将所述子代控制器参数存储至所述目标网格;否则,随机选择所述目标网格内的一个控制器参数与所述子代控制器参数进行替换。
8.根据权利要求1所述的一种基于多目标MAP-Elites的机器人损伤恢复方法,其特征在于,所述多足机器人的每一足都包括至少两个关节,所述关节包括损伤和正常两种状态;
所述T6中,对于所述控制器参数,根据所述距离适应度值和所述成本适应度值以自定义的权重相加得到性能值;其中,所述控制器参数在与未受损环境和受损环境交互并计算得到的所述性能值,分别为第一性能值和第二性能值;
所述T6的具体步骤包括:
T61、设置任意数量和任意位置的所述关节为损伤状态,以模拟所述受损环境;
T62、在所述行为地图中,计算所有所述控制器参数的第一性能值,其中,第一性能值最大的所述控制器参数为第一目标参数;
采用基于地图的贝叶斯优化算法,使用所述行为地图中的所有控制器参数的行为特征和第一性能值,构建一个高斯过程模型;所述高斯过程模型用于预测所述控制器参数的性能;所述高斯过程模型为一个字典,所述字典的键为第二标识符,所述第二标识符与所述行为地图内的所述控制器参数一一对应;所述字典的值为一个元组,包括均值和方差;其中,所述均值即为所述控制器参数的估计性能;
T63、利用所述均值和所述方差构造采集函数;通过所述采集函数计算所述控制器参数的函数值,并选择函数值最大的一个控制器参数为第二目标参数;
T64、使用所述第二目标参数和所述受损环境交互,得到评估结果;使用所述第二目标参数的行为特征和第二性能值对所述高斯过程模型进行更新;
T65、重复执行T63、T64,直至达到预设的第二迭代停止条件;
T66、选择所述估计性能最大的所述控制器参数作为第三目标参数;将所述第一目标参数和所述第三目标参数分别与所述受损环境进行交互并得到评估结果,并选择第二性能值最大的一个作为所述最佳控制器参数。
9.根据权利要求8所述的一种基于多目标MAP-Elites的机器人损伤恢复方法,其特征在于,所述T61中,还构造更新容器;
所述T63中,还将所述第二目标参数存储至所述更新容器;
所述T62中,对所述行为地图内的所有控制器参数分别初始化均值和方差;
其中,对所述控制器参数的第一性能值进行归一化处理,转化为[0,1]内的小数值,即为所述均值的初始值;
所述方差的初始值为:
其中,i为所述第二标识符,表示所述行为地图内的第i个控制器参数;表示第i个控制器参数的行为特征;M(x,y)为核函数,所述核函数的构造公式为:
其中,x和y分别表示两个行为特征,d表示x和y之间的欧几里得距离,v为预设的长度尺度参数;为指数函数,表示e的次方;所述核函数用于计算两个行为特征之间的相关性;
所述T64中,对所述高斯过程模型的所有均值和方差进行更新;
其中,所述均值的更新过程为:
T641、构造性能差异向量;对于所述更新容器内的所有所述第二目标参数,计算其第一性能值和第二性能值的差值,并将所述差值存储至所述性能差异向量内;
T642、对于所述更新容器内的所有所述第二目标参数,采用所述核函数计算任意两个控制器参数的行为特征之间的相关性,并加入一个方差为0.01的高斯白噪声,得到协方差矩阵K;
T643、对于所述行为地图内的所有所述控制器参数,利用所述核函数,分别计算与所述更新容器内的所有所述第二目标参数之间的行为特征的相关性,得到协方差矩阵k;
T644、所述高斯过程模型中,所述均值的计算为:
其中,表示第i个所述控制器参数的第一性能值;
所述方差的更新过程为:
T645、第i个所述控制器参数对应的方差的更新计算为:
即行为特征本身的自相关性度量减去各协方差矩阵的点积。
10.根据权利要求8所述的一种基于多目标MAP-Elites的机器人损伤恢复方法,其特征在于,所述采集函数表示为:;其中,为探索参数,i为所述第二标识符。
CN202410612668.5A 2024-05-17 2024-05-17 一种基于多目标MAP-Elites的机器人损伤恢复方法 Active CN118192276B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410612668.5A CN118192276B (zh) 2024-05-17 2024-05-17 一种基于多目标MAP-Elites的机器人损伤恢复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410612668.5A CN118192276B (zh) 2024-05-17 2024-05-17 一种基于多目标MAP-Elites的机器人损伤恢复方法

Publications (2)

Publication Number Publication Date
CN118192276A CN118192276A (zh) 2024-06-14
CN118192276B true CN118192276B (zh) 2024-07-16

Family

ID=91405479

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410612668.5A Active CN118192276B (zh) 2024-05-17 2024-05-17 一种基于多目标MAP-Elites的机器人损伤恢复方法

Country Status (1)

Country Link
CN (1) CN118192276B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110941183A (zh) * 2019-11-30 2020-03-31 华南理工大学 一种基于神经网络的工业机器人动力学辨识方法
CN112540536A (zh) * 2020-11-27 2021-03-23 南京航空航天大学 一种蠕虫管道机器人滑模优化控制器设计方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112799386B (zh) * 2019-10-25 2021-11-23 中国科学院沈阳自动化研究所 基于人工势场与强化学习的机器人路径规划方法
CN117666348A (zh) * 2023-12-06 2024-03-08 电子科技大学中山学院 一种仿人机器人步态受扰恢复控制方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110941183A (zh) * 2019-11-30 2020-03-31 华南理工大学 一种基于神经网络的工业机器人动力学辨识方法
CN112540536A (zh) * 2020-11-27 2021-03-23 南京航空航天大学 一种蠕虫管道机器人滑模优化控制器设计方法

Also Published As

Publication number Publication date
CN118192276A (zh) 2024-06-14

Similar Documents

Publication Publication Date Title
Polydoros et al. Survey of model-based reinforcement learning: Applications on robotics
Amit et al. Discount factor as a regularizer in reinforcement learning
Trabucco et al. Design-bench: Benchmarks for data-driven offline model-based optimization
Juang et al. Hierarchical cluster-based multispecies particle-swarm optimization for fuzzy-system optimization
Jurgenson et al. Harnessing reinforcement learning for neural motion planning
Abdolmaleki et al. Relative entropy regularized policy iteration
Andersson A survey of multiobjective optimization in engineering design
Pautrat et al. Bayesian optimization with automatic prior selection for data-efficient direct policy search
Siebel et al. Evolutionary reinforcement learning of artificial neural networks
Boney et al. Regularizing model-based planning with energy-based models
CN109241291A (zh) 基于深度强化学习的知识图谱最优路径查询系统及其方法
Lee et al. Maximum causal tsallis entropy imitation learning
Lindner et al. Information directed reward learning for reinforcement learning
Whitman et al. Modular mobile robot design selection with deep reinforcement learning
WO2022147583A2 (en) System and method for optimal placement of interacting objects on continuous (or discretized or mixed) domains
CN118192276B (zh) 一种基于多目标MAP-Elites的机器人损伤恢复方法
Janmohamed et al. Improving the Data Efficiency of Multi-Objective Quality-Diversity through Gradient Assistance and Crowding Exploration
Guzman et al. Adaptive model predictive control by learning classifiers
Yue et al. Discrete action on-policy learning with action-value critic
Zhou et al. Bayesian inference for data-efficient, explainable, and safe robotic motion planning: A review
Hu et al. Neural fidelity warping for efficient robot morphology design
Tziortziotis et al. A model based reinforcement learning approach using on-line clustering
CN114118374A (zh) 基于层次一致性学习的多智体强化学习方法及系统
Chen et al. An SOM-based algorithm for optimization with dynamic weight updating
Santana et al. Bio-inspired meta-heuristic as feature selector in ensemble systems: A comparative analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant