CN109483540B

CN109483540B - 基于高斯惩罚的仿人机器人分层踢球优化模型的优化方法

Info

Publication number: CN109483540B
Application number: CN201811388023.9A
Authority: CN
Inventors: 何昊; 梁志伟; 陆裕磊
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2018-11-21
Filing date: 2018-11-21
Publication date: 2022-02-25
Anticipated expiration: 2038-11-21
Also published as: CN109483540A

Abstract

本发明公开了一种基于高斯惩罚的仿人机器人分层踢球优化模型的优化方法，所述方法包括步骤：基于关键帧方法设计仿人机器人的踢球种子动作；构建仿人机器人踢球的分层踢球训练模型，并采用优化分解将仿人机器人的单一踢球动作分解为预设数量的优化层；采用指定算法获取仿人机器人分层踢球优化模型的最优参数集；在对仿人机器人踢球的速度和距离的优化层优化过程中，在线性评价优化仿人机器人踢球速度的基础上，通过高斯惩罚的方式对踢球距离进行优化；本发明可以实现仿人机器人在踢球过程中踢球动作偏移量更小，能有效提升踢球的准确性和稳定性。

Description

基于高斯惩罚的仿人机器人分层踢球优化模型的优化方法

技术领域

本发明属于仿人机器人技术领域，具体为一种基于高斯惩罚的仿人机器人分层踢球优化模型的优化方法。

背景技术

RoboCup3D比赛中使用的仿真机器人是基于标准平台组的NAO机器人模拟而成，rcssserver服务器提供了一个模拟真实世界的比赛环境，基于此平台，仿人机器人的踢球一直作为项目研究的热点之一。在初始阶段时期，RoboCup3D比赛中的大多数队伍的踢球模型基于固定角度的关键帧，使用PID控制器在某些时间施加扭矩的算法达到一定的姿势，通过建立模型手动调参已达到进一步优化，取得了一定效果。由于步行速度和运球一直是决定比赛结果的最强因素，虽然现有技术已取得一定的效果，但3D仿真比赛结果并没有受到踢球的太大影响，原因均是因为现有的仿人机器人模型都是通过手动来调整参数，使得踢球过程中稳定性不够，并且很难获得理想的踢球距离、速度与高度。

发明内容

本发明目的是针对上述中现有技术的仿人机器人模型无法获得理想的踢球距离、速度与高度的问题，提供一种基于高斯惩罚的仿人机器人分层踢球优化模型的优化方法，该方法改进了仿人机器人的训练任务和评价函数设计板块，基于高斯惩罚函数的分层模型来实现对踢球的优化，具体技术方案如下：

一种基于高斯惩罚的仿人机器人分层踢球优化模型的优化方法，所述方法包括步骤：

S1、基于关键帧方法设计仿人机器人的踢球种子动作，并基于所述踢球种子动作构建仿人机器人基于高斯惩罚的分层踢球训练模型；

S2、采用优化分解将仿人机器人的单一踢球动作分解为预设数量的优化层；

S3、采用指定算法获取仿人机器人分层踢球优化模型的最优参数集。

进一步的，所述步骤S1中还包括：采集仿人机器人踢球过程中的关键帧。

进一步的，仿人机器人的踢球动作通过PID控制器控制。

进一步的，所述优化层中包含一踢球速度优化层和一踢球距离优化层。

进一步的，所述步骤S2中包括：

S21、以所述踢球速度优化层为主导的优化：

S211、设定仿人机器人的第一位置坐标和足球在球场上的第二位置坐标，设定预设数目的速度训练任务和指定数量的速度训练次数，控制仿人机器人从所述第一位置坐标走向所述第二位置坐标完成踢球动作，并记录；

S212、构建仿人机器人在预设数目的所述速度训练任务中的线性模型函数f(k)＝w₁k₁+w₂k₂+…+w_mk_m+b；

S213、设定评价函数：

基于步骤S211中的所述记录采用所述评价函数对仿人机器人的踢球速度进行评价并优化；

S22、以所述踢球距离优化层为主导的优化：

S221、以仿人机器人在踢球速度优化层得到动作作为踢球距离优化层的输入，并设定指定数量的仿人机器人的初始位置和一个足球的初始位置，设定预设数目的距离训练任务和指定数目的距离训练次数，控制仿人机器人从不同方向走向足球并完成踢球操作，并记录；

S222、采用高斯函数

获取仿人机器人在距离训练任务中指定数目的距离训练次数中从不同方向完成踢球操作的正态分布图；

S223、设定评价函数：

基于步骤S221中的所述记录和所述正态分布图采用所述评价函数对仿人机器人的踢球距离进行评价并优化。

进一步的，所述步骤S3采用的算法为CMA-ES算法，且所述步骤S3包括：

S31、参数设置：设置种群大小λ，并在每一所述种群中随机生成一个优化任务，构成由λ个优化任务构成的初始种群；

S32、初始化所述初始种群的均值m⁽⁰⁾、步长σ∈R⁺、进化代数g＝0；

S33、分别初始化仿人机器人的进化路径p_C和共轭进化路径p_σ为零向量；

S34、通过对多元正态分布的抽样生成仿人机器人的搜索种群，并假设

是第g带种群中的第i个个体，利用CMA-ES算法生成子代个体函数

其中

是由均值为零且方差为

的高斯函数生成的r维随机向量；σ^(g)是步长因子，m^(g)是μ个最优子代个体的加权均值；

S35、对所述种群进行选择、重组，采用公式

更新搜索所述种群；

S36、根据公式

更新搜索所述进化路径p_C，采用公式

更新搜索所述共轭进化路径p_σ；

S37、根据公式

更新步长σ，根据公式

更新协方差矩阵C；

S38、设定一极小阈值，判断所述种群样本点的最大目标函数与最小目标函数之差与所述极小阈值的大小关系，若所述种群样本点的最大目标函数与最小目标函数之差小于或等于所述极小阈值，则完成所述模型的优化，否则，重复步骤S31～S37。

本发明的基于高斯惩罚的仿人机器人分层踢球优化模型的优化方法，首先采集仿人机器人在踢球时踢球动作的关键帧，并基于关键帧建立仿人机器人的踢球种子动作；然后基于踢球速度和踢球距离对仿人机器人的踢球动作进行高斯惩罚优化；最后通过指定算法获取仿人机器人踢球的最优参数集；与现有技术相比，本发明经过高斯惩罚的方式对仿人机器人的踢球速度和距离进行优化后，增加了仿人机器人的踢球距离，提升了仿人机器人的踢球速度，有利于仿人机器人在3D仿真比赛中球队踢球效率的提升。

附图说明

图1为本发明实施例所述基于高斯惩罚的仿人机器人分层踢球优化模型的优化方法的总流程图示意；

图2为本发明实施例中所述仿人机器人踢球动作关键字的设计样例示意；

图3为本发明实施例中所述分层踢球优化模型的结构图示意示意；

图4为本发明实施例中仿人机器人在踢球距离优化层中不同方向参数集的高斯函数图像示意；

图5为本发明实施例分层优化中顶层优化适应度值变化趋势图示意；

图6为现有的基于线性平均优化得到的仿人机器人踢球动作示意图；；

图7为本发明实施例基于高斯惩罚分层踢球优化得到的仿人机器人踢球动作示意图；

图8为现有的基于线性平均优化得到的仿人机器人踢球距离示意图；

图9为本发明实施例基于高斯惩罚分层踢球优化得到的仿人机器人踢球距离示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

参阅图1，在本发明实施例中，提供了一种基于高斯惩罚的仿人机器人分层踢球优化模型的优化方法，所述方法包括步骤：

在具体实施例中，本发明通过PID控制器来控制仿人机器人的动作，具体的，在一般的物理机器人模型中，机器人的动作可以是施加在每个电机上的扭矩，而效果是旋转的变化关节；并且关键帧被定义为相对于前一个关键帧关节角度变化的绝对值或相对值的完整描述；每个关键帧都有一个比例系数表示达到目标角度允许的电机最大扭矩的百分比；因此为了保证可以通过对分层踢球优化模型的优化来实现对仿人机器人踢球动作的优化；由于可将仿人机器人踢球的整个动作看做一系列关键帧的集合，本发明在可视化的情况下通过采集仿人机器人踢球过程中的关键帧作为对象来设计本发明中仿人机器人的踢球动作，这样，在优化操作过程中，只需要将关键帧中所涉及到的关节角度及间隔时间设为变量，作为算法的输入进行优化即可，实现踢球种子动作的设计；具体的，假设关键帧为k∈K:＝Rⁿ×Rⁿ×{0,1}，其中n是关节数，0表示绝对角度，1表示相对角度；其中一个n维实向量集Rⁿ给出每个关节的目标角度，另一个n维实向量集Rⁿ给出每个关节电机的比例系数；假设仿人机器人的踢球动作为s∈(K×R)^m，其中m是此动作包含的关键帧数量，并且m(k,t)表示此关键帧k到下一帧的角度变化应在t秒之内完成，例如，使用如上定义的k₁和k₂，动作s₁＝((k₁,1.0),(k₂,1.0))表示仿人机器人尽可能的花1秒钟让它的所有关节都变成0°，即使用最多一半的扭矩，然后保持姿态直到1秒后，再花1秒钟尽可能快地将关节1和2旋转180°；其中，基于关键帧方法设计的仿人机器人踢球动作一帧样例如图2所示，此帧中共涉及机器人的17个关节，其中6个关节作为输入进行优化，使用关键字maxVel和vel控制机器人电机达到目标角度的最大速度。

具体的，在实施例中，本发明通过使用实体NAO机器人视觉系统来进行关键帧的采集；所述NAO机器人视觉系统通过头部上下垂直排列着两个摄像头进行关键帧的采集，其中，摄像头可提供分辨率为640*480的YUV422图像，并且可在每秒获取30帧的图像，以此保证通过NAO机器人视觉系统获取图像的实时性；随后，将获取的图像手动移植到仿人机器人上，并加以修正。

由于在3D仿真机器人比赛中，仿人机器人踢球动作的评价需要从几个不同的方面考虑,基于单个踢球动作而言，踢球的距离、速度、准确性、高度(弧度)等均包含在评价范围内；同时，还需考虑踢球和行走结合后的行为的连贯性；为此，本发明通过构建基于高斯惩罚的训练模型，具体可参阅图4，本发明构建的训练模型在结合行走的基础上，对单个踢球动作进行分层优化，将整个优化流程分为以踢球速度为主导、以踢球距离为主导两层进行优化，并在每一层给予仿人机器人多个子任务，对每个子任务进行评价，汇总得分，避免了随机事件发生导致的误差。

S2、并采用优化分解将仿人机器人的单一踢球动作分解为预设数量的优化层；且所述优化层中包含一踢球速度优化层和一踢球距离优化层；

由于在3D仿真比赛中，传统的仿人机器人的踢球速度和距离均不理想，本发明为了保证仿人机器人在比赛中可以具有更良好的踢球速度和踢球距离，以提升球队的踢球效率，以踢球速度优化层和踢球距离优化层为主导分别对仿人机器人的踢球动作进行优化，其中：

以踢球速度优化层为主导的优化具体包括步骤：首先设定仿人机器人的第一位置坐标和足球在球场上的第二位置坐标，设定预设数目的速度训练任务和指定数量的速度训练次数，控制仿人机器人从第一位置坐标走向第二位置坐标完成踢球动作，并记录；具体的,假设以足球为坐标轴的轴心,并将仿人机器人的初始化位置设置为(-2.5,0,0),并假设速度训练任务包含一个子任务,并且训练次数为十次,最后根据汇总得分；然后,假定仿人机器人有m个属性描述的实例k＝(k₁,k₂…k_m)，例如，其踢球的距离、速度或者高度等，其中k_i是k在第i个属性上的取值，构建仿人机器人在预设数目的速度训练任务中的线性模型函数f(k)＝w₁k₁+w₂k₂+…+w_mk_m+b,并将所述线性模型函数表示为f(k)＝w^Tk+d,w₀＝(w₁,w₂,…w_n)^T的向量模式；最后，基于线性模型函数f(k)＝w₁k₁+w₂k₂+…+w_mk_m+b，对踢球速度优化层优化所设任务进行评价；具体的，仿人机器人从场上初始化位置走向球并尝试尽可能快地踢球，本发明的方法从踢球距离和踢球偏移量以及踢球执行的时间来进行综合评价仿人机器人的踢球情况，其中，踢球距离distBallForward越远给予的奖励越高，踢球偏移量越大得分越低，即球静止后和目标点的水平偏差；而执行时间kickTime越小奖励越大；如果没有踢到球或者踢球过程中摔倒给予较大惩罚，用Failure表示仿人机器人没有踢到球，用Fell表示仿人机器人在踢球过程中摔倒；同时，为了突出对踢球速度的优化，在具体实施例中,本发明通过应增大kickTime的权值，以获得更快的踢球动作；在实施例中，本发明将踢球距离、踢球偏移量和执行时间三者权值之比设置为w_F:w_O:w_k＝1:2.5:10，以此来设定评价函数

通过所述评价函数来实现对仿人机器人踢球速度的优化操作。

以踢球距离优化层为主导的优化具体包括步骤：首先，以仿人机器人在踢球速度优化层得到动作作为踢球距离优化层的输入，即结合仿人机器人已优化完成的walk_app，walk_spr行走步态设定指定数量的仿人机器人的初始位置和一个足球的初始位置，并设定预设数目的距离训练任务和指定数目的距离训练次数，控制仿人机器人从不同方向走向足球并完成踢球操作，并记录；具体的，将仿人机器人初始化在相对足球位置的坐标为(-2.5，0，0)，(2.5，0，0)，(0，-2.5，0)，(0，2.5，0)的四个不同位置走向球完成踢球操作，即距离训练任务包含四个子任务，并训练十次次，最后汇总得分；然后，采用高斯函数

获取仿人机器人在距离训练任务中指定数目的距离训练次数中从不同方向完成踢球操作的正态分布图；式中，a、b与c为实常数，且a>0；最后，基于高斯函数，结合机器人顶层训练任务提出高斯惩罚评价，即设定评价函数

结合仿人机器人的训练任务以及得到的高斯函数的正态分布图采用对仿人机器人的踢球距离进行评价并优化；其中，在实际情况中，对训练任务输入参数集，训练过程中使用评价函数向优化算法反馈得分时，基于线型模型定义的评价函数反馈过于刚性，仿人机器人可能学习向偏移目标点的方向踢球，通过更远的踢球距离来补偿偏移distBallOffset所造成的惩罚值；本发明采用的高斯函数可以有效避免这种情况，由于高斯函数是一种指数型的函数，其具有“指数爆炸”的特点，在踢球训练过程中，随着踢球偏移量distBallOffset的增大，会对任务所得分数进行指数衰减的反馈，而distBallForward在模型中的线性增长无法抵消这种衰减，使得总分呈现爆炸性的衰减，从而在进化过程中淘汰掉踢球距离很远但踢的很偏的种群，优化出踢球距离更远，偏移量更小的踢球动作；为了更好的适应高斯函数的形式，获得理想的反馈结果，的引入参数angleOffset；假设仿人机器人踢球点坐标为l₁＝(x₁,y₁,0)，球静止后的坐标l₂＝(x₂,y₂,0),目标点的坐标为l₃＝(x₃,y₃,0)，向量v₁＝l₂-l₁，向量v₂＝l₃-l₁，angleOffset＝<v₁,v₂>；那么在训练过程中，给予每个子任务一个基础分base，达到拉开分差的作用；在仿人机器人开设训练阶段，通过本发明的方法可以更好的区分表现优异的种群和表现较差的种群，从而淘汰后者，缩短了整个训练任务的时间；在具体实施例中，base的具体取值根据不同动作的优化具体调整，对此本发明并不进行限制和固定；优选的，base一般取值在100左右。

由于高斯函数的一维图像是特征对称“bell curve”形状，基于上述的高斯函数

可知，a是曲线尖峰的高度，b是尖峰中心的坐标，c称为标准方差，表征的是bell钟状的宽度，则可得仿人机器人通过距离训练任务后得到如图5所示的高斯函数图像。

S3、采用CMA-ES算法获取仿人机器人分层踢球优化模型的最优参数集，具体包括步骤：

S31、随机生成由λ个变量构成的初始种群。

S32、初始化所述初始种群的均值m⁽⁰⁾、步长σ∈R⁺、进化代数g＝0。

S33、分别初始化仿人机器人的进化路径p_C和共轭进化路径p_σ为零向量。

S34、生成仿人机器人的搜索种群，并假设

其中

是由均值为零且方差为

的高斯函数生成的r维随机向量；σ^(g)是步长因子，m^(g)是μ个最优子代个体的加权均值。

S35、对种群进行选择、重组，采用公式

更新搜索种群；同时，重组

依次选择前μ个

令

其中权重ω_i由初始化时生成，满足

以及ω₁≥ω₂≥…≥ω_μ＞0。

S36、根据公式

更新搜索进化路径p_C，采用公式

更新搜索共轭进化路径p_σ。

S37、根据公式

更新步长σ，根据公式

更新协方差矩阵C。

S38、设定一极小阈值，判断种群样本点的最大目标函数与最小目标函数之差与极小阈值的大小关系，若种群样本点的最大目标函数与最小目标函数之差小于或等于极小阈值，则完成模型的优化，否则，重复步骤S31～S37；具体的，假设极小阈值为δ，则通过公式

来计算种群样本点的最大目标函数与最小目标函数之差与极小阈值δ的大小关系。

优选的，本发明利用HTCondor软件来训练仿人机器人的踢球操作，可有效提升仿人机器人在踢球动作优化过程中的效率；当然，对此本发明并未进行限制和固定，具体可根据实际情况进行选择；请结合图5，本发明通过利用HTCondor软件对仿人机器人进行踢球操作训练，从中可知，在训练任务迭代220次左右的时候，训练适应度值收敛，得分趋于稳定；且在基于基础分95的基础上，训练趋于收敛后，每个任务得分平均值为113，得分最高为118.5，证明了以本发明的基于高斯惩罚的仿人机器人分层踢球优化模型的优化方法可有效提升仿人机器人的踢球效率。

同时参阅图6和图7,以及图8和图9，从中可知，相较于传统的基于线性评价优化得到的仿人机器人踢球动作，本发明的基于高斯惩罚的仿人机器人分层踢球优化模型的优化方法中仿人机器人在踢球动作中可以踢得距离更远、更高，有助于在实际的3D仿真比赛中仿人机器人在运动过程中躲避对方球员的拦截，达到更佳的踢球效率，即通过本发明的方法可以使得仿人机器人踢球动作偏移量更小，踢球准确性、稳定性更好；具体数据可参阅表一基于100此测试统计的结果。

表一

优化模型	距离(m)	偏移量(m)	高度(m)	执行时间(s)
					基于高斯惩罚的分层优化	19.1	0.32	2.7	0.76
基于线性评价的整体优化	12.85	1.2	1.1	2.0

综上可知，本发明的基于高斯惩罚的仿人机器人分层踢球优化模型的优化方法，首先采集仿人机器人在踢球时踢球动作的关键帧，并基于关键帧建立仿人机器人的踢球种子动作；然后基于踢球速度和踢球距离对仿人机器人的踢球动作进行高斯惩罚优化；最后通过指定算法获取仿人机器人踢球的最优参数集；与现有技术相比，本发明经过高斯惩罚的方式对仿人机器人的踢球速度和距离进行优化后，可使得仿人机器人的踢球距离更远，踢球速度更快，有利于仿人机器人在3D仿真比赛中提升球队的踢球效率。

以上仅为本发明的较佳实施例，但并不限制本发明的专利范围，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本发明说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本发明专利保护范围之内。