CN109483540B - 基于高斯惩罚的仿人机器人分层踢球优化模型的优化方法 - Google Patents

基于高斯惩罚的仿人机器人分层踢球优化模型的优化方法 Download PDF

Info

Publication number
CN109483540B
CN109483540B CN201811388023.9A CN201811388023A CN109483540B CN 109483540 B CN109483540 B CN 109483540B CN 201811388023 A CN201811388023 A CN 201811388023A CN 109483540 B CN109483540 B CN 109483540B
Authority
CN
China
Prior art keywords
kicking
humanoid robot
optimization
gaussian
layered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811388023.9A
Other languages
English (en)
Other versions
CN109483540A (zh
Inventor
何昊
梁志伟
陆裕磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201811388023.9A priority Critical patent/CN109483540B/zh
Publication of CN109483540A publication Critical patent/CN109483540A/zh
Application granted granted Critical
Publication of CN109483540B publication Critical patent/CN109483540B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/003Manipulators for entertainment
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63HTOYS, e.g. TOPS, DOLLS, HOOPS OR BUILDING BLOCKS
    • A63H13/00Toy figures with self-moving parts, with or without movement of the toy as a whole
    • A63H13/02Toy figures with self-moving parts, with or without movement of the toy as a whole imitating natural actions, e.g. catching a mouse by a cat, the kicking of an animal
    • A63H13/04Mechanical figures imitating the movement of players or workers
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1679Programme controls characterised by the tasks executed
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Human Computer Interaction (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Manipulator (AREA)

Abstract

本发明公开了一种基于高斯惩罚的仿人机器人分层踢球优化模型的优化方法,所述方法包括步骤:基于关键帧方法设计仿人机器人的踢球种子动作;构建仿人机器人踢球的分层踢球训练模型,并采用优化分解将仿人机器人的单一踢球动作分解为预设数量的优化层;采用指定算法获取仿人机器人分层踢球优化模型的最优参数集;在对仿人机器人踢球的速度和距离的优化层优化过程中,在线性评价优化仿人机器人踢球速度的基础上,通过高斯惩罚的方式对踢球距离进行优化;本发明可以实现仿人机器人在踢球过程中踢球动作偏移量更小,能有效提升踢球的准确性和稳定性。

Description

基于高斯惩罚的仿人机器人分层踢球优化模型的优化方法
技术领域
本发明属于仿人机器人技术领域,具体为一种基于高斯惩罚的仿人机器人分层踢球优化模型的优化方法。
背景技术
RoboCup3D比赛中使用的仿真机器人是基于标准平台组的NAO机器人模拟而成,rcssserver服务器提供了一个模拟真实世界的比赛环境,基于此平台,仿人机器人的踢球一直作为项目研究的热点之一。在初始阶段时期,RoboCup3D比赛中的大多数队伍的踢球模型基于固定角度的关键帧,使用PID控制器在某些时间施加扭矩的算法达到一定的姿势,通过建立模型手动调参已达到进一步优化,取得了一定效果。由于步行速度和运球一直是决定比赛结果的最强因素,虽然现有技术已取得一定的效果,但3D仿真比赛结果并没有受到踢球的太大影响,原因均是因为现有的仿人机器人模型都是通过手动来调整参数,使得踢球过程中稳定性不够,并且很难获得理想的踢球距离、速度与高度。
发明内容
本发明目的是针对上述中现有技术的仿人机器人模型无法获得理想的踢球距离、速度与高度的问题,提供一种基于高斯惩罚的仿人机器人分层踢球优化模型的优化方法,该方法改进了仿人机器人的训练任务和评价函数设计板块,基于高斯惩罚函数的分层模型来实现对踢球的优化,具体技术方案如下:
一种基于高斯惩罚的仿人机器人分层踢球优化模型的优化方法,所述方法包括步骤:
S1、基于关键帧方法设计仿人机器人的踢球种子动作,并基于所述踢球种子动作构建仿人机器人基于高斯惩罚的分层踢球训练模型;
S2、采用优化分解将仿人机器人的单一踢球动作分解为预设数量的优化层;
S3、采用指定算法获取仿人机器人分层踢球优化模型的最优参数集。
进一步的,所述步骤S1中还包括:采集仿人机器人踢球过程中的关键帧。
进一步的,仿人机器人的踢球动作通过PID控制器控制。
进一步的,所述优化层中包含一踢球速度优化层和一踢球距离优化层。
进一步的,所述步骤S2中包括:
S21、以所述踢球速度优化层为主导的优化:
S211、设定仿人机器人的第一位置坐标和足球在球场上的第二位置坐标,设定预设数目的速度训练任务和指定数量的速度训练次数,控制仿人机器人从所述第一位置坐标走向所述第二位置坐标完成踢球动作,并记录;
S212、构建仿人机器人在预设数目的所述速度训练任务中的线性模型函数f(k)=w1k1+w2k2+…+wmkm+b;
S213、设定评价函数:
Figure BDA0001873363380000031
基于步骤S211中的所述记录采用所述评价函数对仿人机器人的踢球速度进行评价并优化;
S22、以所述踢球距离优化层为主导的优化:
S221、以仿人机器人在踢球速度优化层得到动作作为踢球距离优化层的输入,并设定指定数量的仿人机器人的初始位置和一个足球的初始位置,设定预设数目的距离训练任务和指定数目的距离训练次数,控制仿人机器人从不同方向走向足球并完成踢球操作,并记录;
S222、采用高斯函数
Figure BDA0001873363380000032
获取仿人机器人在距离训练任务中指定数目的距离训练次数中从不同方向完成踢球操作的正态分布图;
S223、设定评价函数:
Figure BDA0001873363380000033
基于步骤S221中的所述记录和所述正态分布图采用所述评价函数对仿人机器人的踢球距离进行评价并优化。
进一步的,所述步骤S3采用的算法为CMA-ES算法,且所述步骤S3包括:
S31、参数设置:设置种群大小λ,并在每一所述种群中随机生成一个优化任务,构成由λ个优化任务构成的初始种群;
S32、初始化所述初始种群的均值m(0)、步长σ∈R+、进化代数g=0;
S33、分别初始化仿人机器人的进化路径pC和共轭进化路径pσ为零向量;
S34、通过对多元正态分布的抽样生成仿人机器人的搜索种群,并假设
Figure BDA0001873363380000041
是第g带种群中的第i个个体,利用CMA-ES算法生成子代个体函数
Figure BDA0001873363380000042
其中
Figure BDA0001873363380000043
Figure BDA0001873363380000044
是由均值为零且方差为
Figure BDA0001873363380000045
的高斯函数生成的r维随机向量;σ(g)是步长因子,m(g)是μ个最优子代个体的加权均值;
S35、对所述种群进行选择、重组,采用公式
Figure BDA0001873363380000046
更新搜索所述种群;
S36、根据公式
Figure BDA0001873363380000047
更新搜索所述进化路径pC,采用公式
Figure BDA0001873363380000048
更新搜索所述共轭进化路径pσ
S37、根据公式
Figure BDA0001873363380000049
更新步长σ,根据公式
Figure BDA00018733633800000410
更新协方差矩阵C;
S38、设定一极小阈值,判断所述种群样本点的最大目标函数与最小目标函数之差与所述极小阈值的大小关系,若所述种群样本点的最大目标函数与最小目标函数之差小于或等于所述极小阈值,则完成所述模型的优化,否则,重复步骤S31~S37。
本发明的基于高斯惩罚的仿人机器人分层踢球优化模型的优化方法,首先采集仿人机器人在踢球时踢球动作的关键帧,并基于关键帧建立仿人机器人的踢球种子动作;然后基于踢球速度和踢球距离对仿人机器人的踢球动作进行高斯惩罚优化;最后通过指定算法获取仿人机器人踢球的最优参数集;与现有技术相比,本发明经过高斯惩罚的方式对仿人机器人的踢球速度和距离进行优化后,增加了仿人机器人的踢球距离,提升了仿人机器人的踢球速度,有利于仿人机器人在3D仿真比赛中球队踢球效率的提升。
附图说明
图1为本发明实施例所述基于高斯惩罚的仿人机器人分层踢球优化模型的优化方法的总流程图示意;
图2为本发明实施例中所述仿人机器人踢球动作关键字的设计样例示意;
图3为本发明实施例中所述分层踢球优化模型的结构图示意示意;
图4为本发明实施例中仿人机器人在踢球距离优化层中不同方向参数集的高斯函数图像示意;
图5为本发明实施例分层优化中顶层优化适应度值变化趋势图示意;
图6为现有的基于线性平均优化得到的仿人机器人踢球动作示意图;;
图7为本发明实施例基于高斯惩罚分层踢球优化得到的仿人机器人踢球动作示意图;
图8为现有的基于线性平均优化得到的仿人机器人踢球距离示意图;
图9为本发明实施例基于高斯惩罚分层踢球优化得到的仿人机器人踢球距离示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
参阅图1,在本发明实施例中,提供了一种基于高斯惩罚的仿人机器人分层踢球优化模型的优化方法,所述方法包括步骤:
S1、基于关键帧方法设计仿人机器人的踢球种子动作,并基于所述踢球种子动作构建仿人机器人基于高斯惩罚的分层踢球训练模型;
在具体实施例中,本发明通过PID控制器来控制仿人机器人的动作,具体的,在一般的物理机器人模型中,机器人的动作可以是施加在每个电机上的扭矩,而效果是旋转的变化关节;并且关键帧被定义为相对于前一个关键帧关节角度变化的绝对值或相对值的完整描述;每个关键帧都有一个比例系数表示达到目标角度允许的电机最大扭矩的百分比;因此为了保证可以通过对分层踢球优化模型的优化来实现对仿人机器人踢球动作的优化;由于可将仿人机器人踢球的整个动作看做一系列关键帧的集合,本发明在可视化的情况下通过采集仿人机器人踢球过程中的关键帧作为对象来设计本发明中仿人机器人的踢球动作,这样,在优化操作过程中,只需要将关键帧中所涉及到的关节角度及间隔时间设为变量,作为算法的输入进行优化即可,实现踢球种子动作的设计;具体的,假设关键帧为k∈K:=Rn×Rn×{0,1},其中n是关节数,0表示绝对角度,1表示相对角度;其中一个n维实向量集Rn给出每个关节的目标角度,另一个n维实向量集Rn给出每个关节电机的比例系数;假设仿人机器人的踢球动作为s∈(K×R)m,其中m是此动作包含的关键帧数量,并且m(k,t)表示此关键帧k到下一帧的角度变化应在t秒之内完成,例如,使用如上定义的k1和k2,动作s1=((k1,1.0),(k2,1.0))表示仿人机器人尽可能的花1秒钟让它的所有关节都变成0°,即使用最多一半的扭矩,然后保持姿态直到1秒后,再花1秒钟尽可能快地将关节1和2旋转180°;其中,基于关键帧方法设计的仿人机器人踢球动作一帧样例如图2所示,此帧中共涉及机器人的17个关节,其中6个关节作为输入进行优化,使用关键字maxVel和vel控制机器人电机达到目标角度的最大速度。
具体的,在实施例中,本发明通过使用实体NAO机器人视觉系统来进行关键帧的采集;所述NAO机器人视觉系统通过头部上下垂直排列着两个摄像头进行关键帧的采集,其中,摄像头可提供分辨率为640*480的YUV422图像,并且可在每秒获取30帧的图像,以此保证通过NAO机器人视觉系统获取图像的实时性;随后,将获取的图像手动移植到仿人机器人上,并加以修正。
由于在3D仿真机器人比赛中,仿人机器人踢球动作的评价需要从几个不同的方面考虑,基于单个踢球动作而言,踢球的距离、速度、准确性、高度(弧度)等均包含在评价范围内;同时,还需考虑踢球和行走结合后的行为的连贯性;为此,本发明通过构建基于高斯惩罚的训练模型,具体可参阅图4,本发明构建的训练模型在结合行走的基础上,对单个踢球动作进行分层优化,将整个优化流程分为以踢球速度为主导、以踢球距离为主导两层进行优化,并在每一层给予仿人机器人多个子任务,对每个子任务进行评价,汇总得分,避免了随机事件发生导致的误差。
S2、并采用优化分解将仿人机器人的单一踢球动作分解为预设数量的优化层;且所述优化层中包含一踢球速度优化层和一踢球距离优化层;
由于在3D仿真比赛中,传统的仿人机器人的踢球速度和距离均不理想,本发明为了保证仿人机器人在比赛中可以具有更良好的踢球速度和踢球距离,以提升球队的踢球效率,以踢球速度优化层和踢球距离优化层为主导分别对仿人机器人的踢球动作进行优化,其中:
以踢球速度优化层为主导的优化具体包括步骤:首先设定仿人机器人的第一位置坐标和足球在球场上的第二位置坐标,设定预设数目的速度训练任务和指定数量的速度训练次数,控制仿人机器人从第一位置坐标走向第二位置坐标完成踢球动作,并记录;具体的,假设以足球为坐标轴的轴心,并将仿人机器人的初始化位置设置为(-2.5,0,0),并假设速度训练任务包含一个子任务,并且训练次数为十次,最后根据汇总得分;然后,假定仿人机器人有m个属性描述的实例k=(k1,k2…km),例如,其踢球的距离、速度或者高度等,其中ki是k在第i个属性上的取值,构建仿人机器人在预设数目的速度训练任务中的线性模型函数f(k)=w1k1+w2k2+…+wmkm+b,并将所述线性模型函数表示为f(k)=wTk+d,w0=(w1,w2,…wn)T的向量模式;最后,基于线性模型函数f(k)=w1k1+w2k2+…+wmkm+b,对踢球速度优化层优化所设任务进行评价;具体的,仿人机器人从场上初始化位置走向球并尝试尽可能快地踢球,本发明的方法从踢球距离和踢球偏移量以及踢球执行的时间来进行综合评价仿人机器人的踢球情况,其中,踢球距离distBallForward越远给予的奖励越高,踢球偏移量越大得分越低,即球静止后和目标点的水平偏差;而执行时间kickTime越小奖励越大;如果没有踢到球或者踢球过程中摔倒给予较大惩罚,用Failure表示仿人机器人没有踢到球,用Fell表示仿人机器人在踢球过程中摔倒;同时,为了突出对踢球速度的优化,在具体实施例中,本发明通过应增大kickTime的权值,以获得更快的踢球动作;在实施例中,本发明将踢球距离、踢球偏移量和执行时间三者权值之比设置为wF:wO:wk=1:2.5:10,以此来设定评价函数
Figure BDA0001873363380000091
通过所述评价函数来实现对仿人机器人踢球速度的优化操作。
以踢球距离优化层为主导的优化具体包括步骤:首先,以仿人机器人在踢球速度优化层得到动作作为踢球距离优化层的输入,即结合仿人机器人已优化完成的walkapp,walkspr行走步态设定指定数量的仿人机器人的初始位置和一个足球的初始位置,并设定预设数目的距离训练任务和指定数目的距离训练次数,控制仿人机器人从不同方向走向足球并完成踢球操作,并记录;具体的,将仿人机器人初始化在相对足球位置的坐标为(-2.5,0,0),(2.5,0,0),(0,-2.5,0),(0,2.5,0)的四个不同位置走向球完成踢球操作,即距离训练任务包含四个子任务,并训练十次次,最后汇总得分;然后,采用高斯函数
Figure BDA0001873363380000102
获取仿人机器人在距离训练任务中指定数目的距离训练次数中从不同方向完成踢球操作的正态分布图;式中,a、b与c为实常数,且a>0;最后,基于高斯函数,结合机器人顶层训练任务提出高斯惩罚评价,即设定评价函数
Figure BDA0001873363380000101
结合仿人机器人的训练任务以及得到的高斯函数的正态分布图采用对仿人机器人的踢球距离进行评价并优化;其中,在实际情况中,对训练任务输入参数集,训练过程中使用评价函数向优化算法反馈得分时,基于线型模型定义的评价函数反馈过于刚性,仿人机器人可能学习向偏移目标点的方向踢球,通过更远的踢球距离来补偿偏移distBallOffset所造成的惩罚值;本发明采用的高斯函数可以有效避免这种情况,由于高斯函数是一种指数型的函数,其具有“指数爆炸”的特点,在踢球训练过程中,随着踢球偏移量distBallOffset的增大,会对任务所得分数进行指数衰减的反馈,而distBallForward在模型中的线性增长无法抵消这种衰减,使得总分呈现爆炸性的衰减,从而在进化过程中淘汰掉踢球距离很远但踢的很偏的种群,优化出踢球距离更远,偏移量更小的踢球动作;为了更好的适应高斯函数的形式,获得理想的反馈结果,的引入参数angleOffset;假设仿人机器人踢球点坐标为l1=(x1,y1,0),球静止后的坐标l2=(x2,y2,0),目标点的坐标为l3=(x3,y3,0),向量v1=l2-l1,向量v2=l3-l1,angleOffset=<v1,v2>;那么在训练过程中,给予每个子任务一个基础分base,达到拉开分差的作用;在仿人机器人开设训练阶段,通过本发明的方法可以更好的区分表现优异的种群和表现较差的种群,从而淘汰后者,缩短了整个训练任务的时间;在具体实施例中,base的具体取值根据不同动作的优化具体调整,对此本发明并不进行限制和固定;优选的,base一般取值在100左右。
由于高斯函数的一维图像是特征对称“bell curve”形状,基于上述的高斯函数
Figure BDA0001873363380000111
可知,a是曲线尖峰的高度,b是尖峰中心的坐标,c称为标准方差,表征的是bell钟状的宽度,则可得仿人机器人通过距离训练任务后得到如图5所示的高斯函数图像。
S3、采用CMA-ES算法获取仿人机器人分层踢球优化模型的最优参数集,具体包括步骤:
S31、随机生成由λ个变量构成的初始种群。
S32、初始化所述初始种群的均值m(0)、步长σ∈R+、进化代数g=0。
S33、分别初始化仿人机器人的进化路径pC和共轭进化路径pσ为零向量。
S34、生成仿人机器人的搜索种群,并假设
Figure BDA0001873363380000112
是第g带种群中的第i个个体,利用CMA-ES算法生成子代个体函数
Figure BDA0001873363380000113
其中
Figure BDA0001873363380000114
Figure BDA0001873363380000115
是由均值为零且方差为
Figure BDA0001873363380000116
的高斯函数生成的r维随机向量;σ(g)是步长因子,m(g)是μ个最优子代个体的加权均值。
S35、对种群进行选择、重组,采用公式
Figure BDA0001873363380000121
更新搜索种群;同时,重组
Figure BDA0001873363380000122
依次选择前μ个
Figure BDA0001873363380000123
Figure BDA0001873363380000124
其中权重ωi由初始化时生成,满足
Figure BDA0001873363380000125
以及ω1≥ω2≥…≥ωμ>0。
S36、根据公式
Figure BDA0001873363380000126
更新搜索进化路径pC,采用公式
Figure BDA0001873363380000127
更新搜索共轭进化路径pσ
S37、根据公式
Figure BDA0001873363380000128
更新步长σ,根据公式
Figure BDA0001873363380000129
更新协方差矩阵C。
S38、设定一极小阈值,判断种群样本点的最大目标函数与最小目标函数之差与极小阈值的大小关系,若种群样本点的最大目标函数与最小目标函数之差小于或等于极小阈值,则完成模型的优化,否则,重复步骤S31~S37;具体的,假设极小阈值为δ,则通过公式
Figure BDA00018733633800001210
来计算种群样本点的最大目标函数与最小目标函数之差与极小阈值δ的大小关系。
优选的,本发明利用HTCondor软件来训练仿人机器人的踢球操作,可有效提升仿人机器人在踢球动作优化过程中的效率;当然,对此本发明并未进行限制和固定,具体可根据实际情况进行选择;请结合图5,本发明通过利用HTCondor软件对仿人机器人进行踢球操作训练,从中可知,在训练任务迭代220次左右的时候,训练适应度值收敛,得分趋于稳定;且在基于基础分95的基础上,训练趋于收敛后,每个任务得分平均值为113,得分最高为118.5,证明了以本发明的基于高斯惩罚的仿人机器人分层踢球优化模型的优化方法可有效提升仿人机器人的踢球效率。
同时参阅图6和图7,以及图8和图9,从中可知,相较于传统的基于线性评价优化得到的仿人机器人踢球动作,本发明的基于高斯惩罚的仿人机器人分层踢球优化模型的优化方法中仿人机器人在踢球动作中可以踢得距离更远、更高,有助于在实际的3D仿真比赛中仿人机器人在运动过程中躲避对方球员的拦截,达到更佳的踢球效率,即通过本发明的方法可以使得仿人机器人踢球动作偏移量更小,踢球准确性、稳定性更好;具体数据可参阅表一基于100此测试统计的结果。
表一
优化模型 距离(m) 偏移量(m) 高度(m) 执行时间(s)
基于高斯惩罚的分层优化 19.1 0.32 2.7 0.76
基于线性评价的整体优化 12.85 1.2 1.1 2.0
综上可知,本发明的基于高斯惩罚的仿人机器人分层踢球优化模型的优化方法,首先采集仿人机器人在踢球时踢球动作的关键帧,并基于关键帧建立仿人机器人的踢球种子动作;然后基于踢球速度和踢球距离对仿人机器人的踢球动作进行高斯惩罚优化;最后通过指定算法获取仿人机器人踢球的最优参数集;与现有技术相比,本发明经过高斯惩罚的方式对仿人机器人的踢球速度和距离进行优化后,可使得仿人机器人的踢球距离更远,踢球速度更快,有利于仿人机器人在3D仿真比赛中提升球队的踢球效率。
以上仅为本发明的较佳实施例,但并不限制本发明的专利范围,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本发明说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本发明专利保护范围之内。

Claims (5)

1.基于高斯惩罚的仿人机器人分层踢球优化模型的优化方法,其特征在于,所述方法包括步骤:
S1、基于关键帧方法设计仿人机器人的踢球种子动作,并基于所述踢球种子动作构建仿人机器人基于高斯惩罚的分层踢球训练模型;
S2、采用优化分解将仿人机器人的单一踢球动作分解为预设数量的优化层;
所述步骤S2中包括:
S21、以所述踢球速度优化层为主导的优化:
S211、设定仿人机器人的第一位置坐标和足球在球场上的第二位置坐标,设定预设数目的速度训练任务和指定数量的速度训练次数,控制仿人机器人从所述第一位置坐标走向所述第二位置坐标完成踢球动作,并记录;
S212、构建仿人机器人在预设数目的所述速度训练任务中的线性模型函数f(k)=w1k1+w2k2+…+wmkm+b;
S213、设定踢球的评价函数
Figure FDA0003454972470000011
基于步骤S211中的所述记录采用所述评价函数对仿人机器人的踢球速度进行评价并优化;
S22、以所述踢球距离优化层为主导的优化:
S221、以仿人机器人在踢球速度优化层得到动作作为踢球距离优化层的输入,并设定指定数量的仿人机器人的初始位置和一个足球的初始位置,设定预设数目的距离训练任务和指定数目的距离训练次数,控制仿人机器人从不同方向走向足球并完成踢球操作,并记录;
S222、采用高斯函数
Figure FDA0003454972470000021
获取仿人机器人在距离训练任务中指定数目的距离训练次数中从不同方向完成踢球操作的正态分布图;
S223、设定评价函数
Figure FDA0003454972470000022
基于步骤S221中的所述记录和步骤S222中的所述正态分布图采用所述评价函数对仿人机器人的踢球距离进行评价并优化;
S3、采用指定算法获取仿人机器人分层踢球优化模型的最优参数集,所述指定算法为CMA-ES算法。
2.根据权利要求1所述的基于高斯惩罚的仿人机器人分层踢球优化模型的优化方法,其特征在于,所述步骤S1中还包括:采集仿人机器人踢球过程中的关键帧。
3.根据权利要求2所述的基于高斯惩罚的仿人机器人分层踢球优化模型的优化方法,其特征在于,仿人机器人的踢球动作通过PID控制器控制。
4.根据权利要求1所述的基于高斯惩罚的仿人机器人分层踢球优化模型的优化方法,其特征在于,所述优化层中包含一踢球速度优化层和一踢球距离优化层。
5.根据权利要求1所述的基于高斯惩罚的仿人机器人分层踢球优化模型的优化方法,其特征在于,所述步骤S3采用的算法为CMA-ES算法,且所述步骤S3包括:
S31、参数设置:设置种群大小λ,并在每一所述种群中随机生成一个优化任务,构成由λ个优化任务构成的初始种群;
S32、初始化所述初始种群的均值m(0)、步长σ∈R+、进化代数g=0;
S33、分别初始化仿人机器人的进化路径pC和共轭进化路径pσ为零向量;
S34、通过对多元正态分布的抽样生成仿人机器人的搜索种群,并假设
Figure FDA0003454972470000031
是第g带种群中的第i个个体,利用CMA-ES算法生成子代个体函数
Figure FDA0003454972470000032
其中
Figure FDA0003454972470000033
Figure FDA0003454972470000034
是由均值为零且方差为
Figure FDA0003454972470000035
的高斯函数生成的r维随机向量;σ(g)是步长因子,m(g)是μ个最优子代个体的加权均值;
S35、对所述种群进行选择、重组,采用公式
Figure FDA0003454972470000036
更新搜索所述种群;
S36、根据公式
Figure FDA0003454972470000037
更新搜索所述进化路径pC,采用公式
Figure FDA0003454972470000038
更新搜索所述共轭进化路径pσ
S37、根据公式
Figure FDA0003454972470000039
更新步长σ,根据公式
Figure FDA00034549724700000310
更新协方差矩阵C;
S38、设定一极小阈值,判断所述种群样本点的最大目标函数与最小目标函数之差与所述极小阈值的大小关系,若所述种群样本点的最大目标函数与最小目标函数之差小于或等于所述极小阈值,则完成所述模型的优化,否则,重复步骤S31~S37。
CN201811388023.9A 2018-11-21 2018-11-21 基于高斯惩罚的仿人机器人分层踢球优化模型的优化方法 Active CN109483540B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811388023.9A CN109483540B (zh) 2018-11-21 2018-11-21 基于高斯惩罚的仿人机器人分层踢球优化模型的优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811388023.9A CN109483540B (zh) 2018-11-21 2018-11-21 基于高斯惩罚的仿人机器人分层踢球优化模型的优化方法

Publications (2)

Publication Number Publication Date
CN109483540A CN109483540A (zh) 2019-03-19
CN109483540B true CN109483540B (zh) 2022-02-25

Family

ID=65696521

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811388023.9A Active CN109483540B (zh) 2018-11-21 2018-11-21 基于高斯惩罚的仿人机器人分层踢球优化模型的优化方法

Country Status (1)

Country Link
CN (1) CN109483540B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113156925B (zh) * 2020-01-07 2022-11-29 四川省桑瑞光辉标识系统股份有限公司 一种基于对抗网络的双足机器人行走控制方法及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103301630A (zh) * 2013-06-16 2013-09-18 西安科技大学 足球机器人协调与合作控制方法及系统
CN105033997A (zh) * 2015-09-15 2015-11-11 北京理工大学 一种基于视觉的仿人机器人快速作业全身规划及控制方法
CN108401108A (zh) * 2018-03-12 2018-08-14 南京理工大学 一种推扫式高光谱相机快速自动调焦方法
CN108563220A (zh) * 2018-01-29 2018-09-21 南京邮电大学 仿人足球机器人的运动规划
CN108582066A (zh) * 2018-03-13 2018-09-28 同济大学 一种分层cpg及在仿人机器人行走控制中的应用

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0424737D0 (en) * 2004-11-09 2004-12-08 Isis Innovation Method,computer program and signal processing apparatus for determining statistical information of a signal
CN102819749B (zh) * 2012-07-23 2016-08-03 西安体育学院 一种基于视频分析的足球越位自动判别系统和方法
CN102968620B (zh) * 2012-11-16 2015-05-20 华中科技大学 一种基于分层高斯混合模型的场景识别方法
CN104678766B (zh) * 2015-01-29 2017-07-18 苏州大学 仿人机械臂飞行球体作业最优击球构型一种求取方法
US10300362B2 (en) * 2015-04-23 2019-05-28 Win Reality, Llc Virtual reality sports training systems and methods
US10055669B2 (en) * 2016-08-12 2018-08-21 Qualcomm Incorporated Methods and systems of determining a minimum blob size in video analytics
CN106529387A (zh) * 2016-08-31 2017-03-22 袁峰 球员踢足球的运动状态分析方法及终端

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103301630A (zh) * 2013-06-16 2013-09-18 西安科技大学 足球机器人协调与合作控制方法及系统
CN105033997A (zh) * 2015-09-15 2015-11-11 北京理工大学 一种基于视觉的仿人机器人快速作业全身规划及控制方法
CN108563220A (zh) * 2018-01-29 2018-09-21 南京邮电大学 仿人足球机器人的运动规划
CN108401108A (zh) * 2018-03-12 2018-08-14 南京理工大学 一种推扫式高光谱相机快速自动调焦方法
CN108582066A (zh) * 2018-03-13 2018-09-28 同济大学 一种分层cpg及在仿人机器人行走控制中的应用

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Kicking Motion Design of Humanoid Robots Using Gradual Accumulation;jiawen wang;《2016 Chinese Control and Decision Conference(CCDC)》;20160808;全文 *
基于机器学习的3D仿真足球机器人动作与协作优化;冯欢欢;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180215;第15-24页 *
基于视觉的仿人机器人运动规划研究;郭素敏;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140315;全文 *

Also Published As

Publication number Publication date
CN109483540A (zh) 2019-03-19

Similar Documents

Publication Publication Date Title
Smith et al. A walk in the park: Learning to walk in 20 minutes with model-free reinforcement learning
Smith et al. Legged robots that keep on learning: Fine-tuning locomotion policies in the real world
Liu et al. Emergent coordination through competition
Kober et al. Reinforcement learning to adjust parametrized motor primitives to new situations
Bellemare et al. The arcade learning environment: An evaluation platform for general agents
CN110764416A (zh) 基于深度q网络的仿人机器人步态优化控制方法
Urieli et al. On optimizing interdependent skills: a case study in simulated 3D humanoid robot soccer.
CN106527132B (zh) 基于遗传模拟退火算法的蛇形机器人运动控制方法
Teixeira et al. Humanoid robot kick in motion ability for playing robotic soccer
Chalup et al. Machine learning with AIBO robots in the four-legged league of RoboCup
Rezaeipanah et al. Performing the kick during walking for robocup 3d soccer simulation league using reinforcement learning algorithm
Oh et al. Learning to sample with local and global contexts in experience replay buffer
Mahmoudi et al. MRL team description paper for humanoid KidSize league of RoboCup 2019
Petrazzini et al. Proximal policy optimization with continuous bounded action space via the beta distribution
CN109483540B (zh) 基于高斯惩罚的仿人机器人分层踢球优化模型的优化方法
Tang et al. Humanmimic: Learning natural locomotion and transitions for humanoid robot via wasserstein adversarial imitation
D'Ambrosio et al. Achieving human level competitive robot table tennis
Schwab et al. Learning skills for small size league robocup
Zorina et al. Learning to manipulate tools by aligning simulation to video demonstration
Jouandeau et al. Optimization of parametrised kicking motion for humanoid soccer player
Yu et al. Dynamic bipedal turning through sim-to-real reinforcement learning
CN110990769B (zh) 一种适合多自由度机器人的姿态迁移算法系统
Lai et al. Self-learning for a humanoid robotic ping-pong player
Fahami et al. A reinforcement learning approach to score goals in RoboCup 3D soccer simulation for nao humanoid robot
Gao et al. A survey of research on several problems in the RoboCup3D simulation environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant