CN111580385A - 基于深度强化学习的机器人行走控制方法、系统及介质 - Google Patents
基于深度强化学习的机器人行走控制方法、系统及介质 Download PDFInfo
- Publication number
- CN111580385A CN111580385A CN202010393932.2A CN202010393932A CN111580385A CN 111580385 A CN111580385 A CN 111580385A CN 202010393932 A CN202010393932 A CN 202010393932A CN 111580385 A CN111580385 A CN 111580385A
- Authority
- CN
- China
- Prior art keywords
- robot
- network
- reward
- joint
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 230000002787 reinforcement Effects 0.000 title claims abstract description 25
- 238000013528 artificial neural network Methods 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 38
- 230000007246 mechanism Effects 0.000 claims abstract description 30
- 230000008569 process Effects 0.000 claims abstract description 18
- 230000005021 gait Effects 0.000 claims abstract description 16
- 230000004927 fusion Effects 0.000 claims abstract description 10
- 238000003860 storage Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 10
- 210000002569 neuron Anatomy 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000004088 simulation Methods 0.000 claims description 6
- 230000004083 survival effect Effects 0.000 claims description 6
- 239000006185 dispersion Substances 0.000 claims description 5
- 230000007547 defect Effects 0.000 abstract description 4
- 230000000737 periodic effect Effects 0.000 abstract description 4
- 210000000038 chest Anatomy 0.000 description 11
- 230000006870 function Effects 0.000 description 8
- 230000004044 response Effects 0.000 description 4
- 210000000481 breast Anatomy 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000005096 rolling process Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
- G05B13/029—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks and expert systems
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B62—LAND VEHICLES FOR TRAVELLING OTHERWISE THAN ON RAILS
- B62D—MOTOR VEHICLES; TRAILERS
- B62D57/00—Vehicles characterised by having other propulsion or other ground- engaging means than wheels or endless track, alone or in addition to wheels or endless track
- B62D57/02—Vehicles characterised by having other propulsion or other ground- engaging means than wheels or endless track, alone or in addition to wheels or endless track with ground-engaging propulsion means, e.g. walking members
- B62D57/032—Vehicles characterised by having other propulsion or other ground- engaging means than wheels or endless track, alone or in addition to wheels or endless track with ground-engaging propulsion means, e.g. walking members with alternately or sequentially lifted supporting base and legs; with alternately or sequentially lifted feet or skid
Abstract
本发明提供的基于深度强化学习的机器人行走控制方法,设置奖励机制;构建多专家神经网络;所述多专家神经网络包括一个顶层网络和至少一个底层网络;利用所述奖励机制和采集的样本数据对顶层网络进行训练;在机器人运行过程中,顶层网络根据训练结果和机器人实时测量到的数据对底层网络的输出进行融合,并根据融合结果输出控制指令,将所述控制指令发送给机器人,控制机器人中关节的电机。该方法可以在不同的专家网络之间进行连续切换,增加了组合的多样性,改善现有机器人运动步态非对称、非自然的缺陷。该方法将人类动作捕捉获得的行走步态作为训练学习的参考对象,能让多专家神经网络更快地收敛到像人一样自然的周期性对称行走策略。
Description
技术领域
本发明属于机器人技术领域,具体涉及基于深度强化学习的机器人行走控制方法、系统及介质。
背景技术
常见的机器人运动控制方法大多数都需要花费大量的人力与时间建造精确的模型。随着深度强化学习等其他机器学习算法理论的不断完善,以及电脑运算量的不断增加,机器人运动控制方法中深度强化学习已经成为传统控制算法的替代品。这样深度强化学习算法就能将大量负担转移到了计算机计算中,比起传统控制方法,节省了人力与时间成本,解放了大量劳动力。
但是现有采用深度强化学习的机器人运动控制方法中,强化学习的结果很难把控,可能会学出一些人们意想不到的非理想行为。以双足与四足机器人行走为例,人类与动物的运动步态是周期性并且对称的。但是在缺乏约束的情况下,采用机器学习方法学出来的运动步态往往是非对称并且非自然的。
发明内容
针对现有技术中的缺陷,本发明提供一种基于深度强化学习的机器人行走控制方法、系统及介质,改善现有机器人运动步态非对称、非自然的缺陷。
一种基于深度强化学习的机器人行走控制方法,包括以下步骤:
设置奖励机制;
构建多专家神经网络;所述多专家神经网络包括一个顶层网络和至少一个底层网络;
利用所述奖励机制和采集的样本数据对顶层网络进行训练;
在机器人运行过程中,顶层网络根据训练结果和机器人实时测量到的数据对底层网络的输出进行融合,并根据融合结果输出控制指令,将所述控制指令发送给机器人中关节的电机。
优选地,所述奖励机制包括模仿奖励和任务奖励;
模仿奖励用于引导机器人学习并模仿人类行走步态;任务奖励用于引导机器人以指定速度朝着指定方向行走。
优选地,所述模仿奖励中的奖励项包括以下一个或多个的组合:
关节角度、关节角速度和足部接触信息;
所述任务奖励中的奖励项包括以下一个或多个的组合:
胸部俯仰角、胸部滚转角、跨部俯仰角、跨部滚转角、跨部高度、跨部侧向偏移速度、跨部前向速度、跨部垂直速度、跨部偏航角速度、存活离散奖励、关节力矩。
优选地,所述底层网络由该底层网络中第一层到第三层神经元的权重和偏置构建;
所述顶层网络由该顶层网络中第一层到第三层神经元的权重和偏置构建。
优选地,采集到的样本数据通过以下方法进行过滤:
当通过样本数据检测到机器人摔倒时,删除该样本数据。
优选地,所述对顶层网络进行训练具体包括:
采用具有actor-critic架构的强化学习算法对所述顶层网络进行训练。
优选地,所述将所述控制指令发送给机器人中关节的电机具体包括:
利用PD控制器将所述控制指令转换为目标力矩;
将所述目标力矩发送给机器人中关节的电机。
第二方面,一种基于深度强化学习的机器人行走控制系统,包括处理器和存储器,所述处理器和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行以下方法:
设置奖励机制;
构建多专家神经网络;所述多专家神经网络包括一个顶层网络和至少一个底层网络;
利用所述奖励机制和采集的样本数据对顶层网络进行训练;
在机器人运行过程中,顶层网络根据训练结果和机器人实时测量到的数据对底层网络的输出进行融合,并根据融合结果输出控制指令,将所述控制指令发送给机器人中关节的电机。
优选地,所述处理器被配置用于调用所述程序指令,具体执行以下方法:
利用PD控制器将所述控制指令转换为目标力矩;
将所述目标力矩发送给机器人中关节的电机。
第三方面,一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行以下方法:
设置奖励机制;
构建多专家神经网络;所述多专家神经网络包括一个顶层网络和至少一个底层网络;
利用所述奖励机制和采集的样本数据对顶层网络进行训练;
在机器人运行过程中,顶层网络根据训练结果和机器人实时测量到的数据对底层网络的输出进行融合,并根据融合结果输出控制指令,将所述控制指令发送给机器人中关节的电机。
由上述技术方案可知,本发明提供的基于深度强化学习的机器人行走控制方法、系统及介质,相对于传统多专家神经网络的离散切换方法,可以在不同的专家网络之间进行连续切换,增加了组合的多样性,改善现有机器人运动步态非对称、非自然的缺陷。该方法将人类动作捕捉获得的行走步态作为训练学习的参考对象,能让多专家神经网络更快地收敛到像人一样自然的周期性对称行走策略。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1为本发明实施例一提供的机器人行走控制方法的流程图。
图2为本发明实施例一提供的actor-critic强化学习训练方法的架构。
图3为本发明实施例一中时序相位信息的表述方法。
图4为本发明实施例三提供的多专家神经网络的框架图。
图5为本发明实施例三提供的机器人行走控制方法的框架图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只作为示例,而不能以此来限制本发明的保护范围。需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
实施例一:
一种基于深度强化学习的机器人行走控制方法,参见图1、2,包括以下步骤:
S1:设置奖励机制;
具体地,奖励在深度强化学习中起到引导机器人学习的作用,因此奖励机制设计的好坏直接决定了最终训练的结果。
S2:构建多专家神经网络;所述多专家神经网络包括一个顶层网络和至少一个底层网络;
具体地,该方法中的多专家神经网络分上下两层。底层网络是专家网络,各自负责不同的任务,具体任务类型由神经网络自动地根据具体环境与任务进行针对性学习,无需人为干预。顶层网络是切换网络,负责根据机器人运行时实时反馈的动作捕捉数据切换或启用相应的底层网络。本申请提供的多专家神经网络能够在不同的专家网络之间进行连续切换。顶层网络可以在训练过程中自行学习底层网络的切换逻辑。底层网络也会在训练过程中与顶层网络同步学习策略。相比与传统离散切换的多专家神经网络结构,该方法在机器人行走控制过程中,连续切换比传统的离散切换具有更大优势。
S3:利用所述奖励机制和采集的样本数据对顶层网络进行训练;
具体地,由于不同机器人的机电设计中包括不同的传感器,因此多专家神经网络的状态输入量可以根据实际应用进行调整。例如状态输入量可设置为关节角度、关节速度、胯部线速度、胯部角速度、重心相对胯部位置、足部末端相对胯部位置、足部接触力等等。除了以上代表机器人身体姿态的状态输入量以外,该方法的状态输入量还可以包括时序相位信息,这样就可以提供时间参考,将机器人姿态与动作捕捉的双足步态在相位上对应起来。参见图3,时序相位信息可以表达为围绕着单位圆边缘逆时针运动的坐标点x=cos(θ),y=sin(θ)。
优选地,本申请可以采用具有actor-critic架构的强化学习算法对所述顶层网络进行训练,例如Soft actor critic(SAC),Proximal Policy Optimization(PPO),DeepDeterministic Policy Gradient(DDPG),Trust Region Policy Optimization(TRPO),Asynchronous Advantage Actor Critic(A3C)等强化学习算法。
S4:在机器人运行过程中,顶层网络根据训练结果和机器人实时测量到的数据对底层网络的输出进行融合,并根据融合结果输出控制指令,将所述控制指令发送给机器人中关节的电机。
相对于传统多专家神经网络的离散切换方法,本发明提出的多专家神经网络可以在不同的专家网络之间进行连续切换,增加了组合的多样性,具有更强的自适应性,能适应复杂环境的变化情况。该方法的顶层网络可以根据环境的变化针对性地启用相应的专家网络,人类动作捕捉的行走方式可以作为训练学习的参考对象,能让多专家神经网络更快地收敛到像人一样自然的周期性对称行走策略。顶层网络与底层网络之间的神经连接可求导,梯度可以正常回传。因此,在多专家神经网络的训练过程中,顶层网络与底层网络可以作为一个整体进行训练。
另外,该方法在采集样本数据的过程中,可以对机器人的状态进行随机初始化,增加样本多样性。由于样本数据的好坏会影响到训练的最终效果。对于在执行大多数双足与四足行走等足式行走任务时,由于机器人摔倒在地上的样本数据没有用处,所以该方法在采集样本数据的过程中,可以在机器人摔倒时删除采样数据、终止采样或重置采样过程,防止无用劣质的样本数据进入样本池。该方法可以通过机器人胯部高度或上身与地面接触状态判断机器人是否摔倒。若机器人胯部低于某一高度,或者是机器人上半身接触到了地面时,则认为检测到机器人摔倒。
实施例二:
实施例二在实施例一的基础上,限定了其中一种奖励机制方案。
所述奖励机制为:
r=Arimitatin+Brtask;
其中,r为奖励机制的输出;rimitatin为模仿奖励,A为模仿奖励的权重,模仿奖励用于引导机器人学习并模仿人类行走步态;rtask为任务奖励,B为模仿奖励的权重;任务奖励用于引导机器人以指定速度朝着指定方向行走。
具体地,该方法中,A和B均可以取值为0.5,这样模仿奖励和任务奖励在多专家神经网络的训练过程中权重相同。本实施例中奖励机制由模仿奖励和任务奖励两部分组成。模仿奖励与任务奖励项由更基础的基本奖励项构成。模仿奖励为双足机器人提供人类行走步态提供参考,为深度强化学习算法提供人类行走步态的先验知识,从而加快了加双足机器人学习行走策略的速度。任务奖励用于指导机器人学习行走速度、行走方向、身体姿态、身体高度等。
优选地,所述模仿奖励中的奖励项包括以下一个或多个的组合:关节角度、关节角速度和足部接触信息;例如设置模仿奖励为:
rimitatin=wjo intrjo int+wjo in tvelrjo int vel+wcontactrcontact;
其中,wjo int、wjo int vel、wcontact为预设的权重值,可以根据具体的机器人作出相应的调整;
rcontact为机器人通过足部压力传感器检测到的足部接触信息,当检测到单脚触地时,rcontact=1,否则rcontact=0。足部接触信息为二进制离散信息,1代表机器人足部与地面有接触,反之为0。
具体地,奖励机制设计过程中用到的径向基函数如下所示:
优选地,所述任务奖励中的奖励项包括以下一个或多个的组合:胸部俯仰角、胸部滚转角、跨部俯仰角、跨部滚转角、跨部高度、跨部侧向偏移速度、跨部前向速度、跨部垂直速度、跨部偏航角速度、存活离散奖励、关节力矩。
例如设置任务奖励为:
rtask=wtorsopitchrtorsopitch+wtorsorollrtorsoroll+wbasepitchrbasepitch+wbaserollrbaseroll
+wbaseheightrbaseheight+wbaseyvelrbaseyvel+wbasexvelrbasexvel+wbasezvelrbasezvel
+wbaseyawvelrbaseyawvel+waliveralive+wtorquertorque
其中,wtorso pitch、wtorso roll、wbase pitch、wbase roll、wbase height、wbase yvel、wbase x vel、wbase z vel、wbase yaw vel、walive、wtorque为预设的权重值,可以根据具体的机器人进行相应的调整;
rbase yaw vel为跨部偏航角速度,rbase yaw vel=K(ω,0,α11),ω为机器人实时测量到的跨部的偏航角速度,目标偏航角速度为0;
ralive为存活离散奖励,当机器人实时测量到中上身部分与地面接触时,ralive=1,否则ralive=0;
rtorque为关节力矩限制,rtorque=K(τ,0,α12),τ为机器人实时测量到的关节的力矩,目标力矩为0。
具体地,任务奖励中的目标物理量可以根据具体的机器人进行设置,用于标识对称、自然的人类行走步态。
本发明实施例所提供的方法,为简要描述,实施例部分未提及之处,可参考前述方法实施例中相应内容。
实施例三:
实施例三在上述实施例的基础上,限定了其中一种多专家神经网络。
参见图4,所述第n个底层网络为:
an=Tanh(Wn 2ReLU(Wn 1ReLU(Wn 0X+Bn0)+Bn1)+Bn2);
其中,Wn 0、Wn 1、Wn 2分别为第n个底层网络中第一层到第三层神经元的权重;Bn 0、Bn 1、Bn 2分别为第n个底层网络中第一层到第三层神经元的偏置;Re LU和Tanh为激活函数;an为述第n个底层网络的输出值。
具体地,每个专家网络都设有相应的参数,专家网络的数量可以根据具体的使用场景进行定义。
所述顶层网络为:
其中,W0 g、W1 g、W2 g分别为顶层网络中第一层到第三层的权重;分别为顶层网络中第一层到第三层的偏置;Soft max为激活函数;g为顶层网络的输出值;g的维度与底层网络数量一致,g负责切换底层网络的输出值an;
其中,M为底层网络的总数;a为所述控制指令,所述控制指令为目标关节角度;gn为g中第n个元素的值;控制指令a为所有底层网络的输出值an的加权和。
具体地,g的维度与专家网络的数量一致。假定专家网络的数量为n,g的维度也为n。该方法中对M个底层网络的输出进行加权平均后进行融合,利用g对底层网络输出的an进行合成,输出最终的控制指令。
参见图5,所述将所述控制指令发送给机器人中关节的电机具体包括:
利用PD控制器将所述控制指令转换为目标力矩;
将所述目标力矩发送给机器人中关节的电机。
具体地,控制指令转换方法如下:
参见图5,该方法可以采用内外双层反馈闭环环节,外层是25Hz神经网络控制闭环,内层是500HzPD力矩控制闭环。外层控制环提供关节目标角度,内层控制环将目标角度转化成电机控制力拒。25Hz的神经网络控制环与500Hz的PD控制环的参数可以根据具体机器人进行调整。
考虑到神经网络需要花费更多时间去计算,外层神经网络闭环频率需要设定得比内层PD控制闭环低。控制频率理论上越高越好,在机器人硬件与软件允许的情况下,可以适当提高内外闭环的控制频率。
本发明实施例所提供的方法,为简要描述,实施例部分未提及之处,可参考前述方法实施例中相应内容。
实施例四:
一种基于深度强化学习的机器人行走控制系统,包括处理器和存储器,所述处理器和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行以下方法:
设置奖励机制;
构建多专家神经网络;所述多专家神经网络包括一个顶层网络和至少一个底层网络;
利用所述奖励机制和采集的样本数据对顶层网络进行训练;
在机器人运行过程中,顶层网络根据训练结果和机器人实时测量到的数据对底层网络的输出进行融合,并根据融合结果输出控制指令,将所述控制指令发送给机器人中关节的电机。
优选地,所述奖励机制包括模仿奖励和任务奖励;
模仿奖励用于引导机器人学习并模仿人类行走步态;任务奖励用于引导机器人以指定速度朝着指定方向行走。
优选地,所述模仿奖励中的奖励项包括以下一个或多个的组合:
关节角度、关节角速度和足部接触信息;
所述任务奖励中的奖励项包括以下一个或多个的组合:
胸部俯仰角、胸部滚转角、跨部俯仰角、跨部滚转角、跨部高度、跨部侧向偏移速度、跨部前向速度、跨部垂直速度、跨部偏航角速度、存活离散奖励、关节力矩。
优选地,所述底层网络由该底层网络中第一层到第三层神经元的权重和偏置构建;
所述顶层网络由该顶层网络中第一层到第三层神经元的权重和偏置构建。
优选地,采集到的样本数据通过以下方法进行过滤:
当通过样本数据检测到机器人摔倒时,删除该样本数据。
优选地,所述对顶层网络进行训练具体包括:
采用具有actor-critic架构的强化学习算法对所述顶层网络进行训练。
优选地,所述将所述控制指令发送给机器人中关节的电机具体包括:
利用PD控制器将所述控制指令转换为目标力矩;
将所述目标力矩发送给机器人中关节的电机。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息。
本发明实施例所提供的系统,为简要描述,实施例部分未提及之处,可参考前述方法实施例中相应内容。
实施例五:
一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行以下方法:
设置奖励机制;
构建多专家神经网络;所述多专家神经网络包括一个顶层网络和至少一个底层网络;
利用所述奖励机制和采集的样本数据对顶层网络进行训练;
在机器人运行过程中,顶层网络根据训练结果和机器人实时测量到的数据对底层网络的输出进行融合,并根据融合结果输出控制指令,将所述控制指令发送给机器人中关节的电机。
优选地,所述奖励机制包括模仿奖励和任务奖励;
模仿奖励用于引导机器人学习并模仿人类行走步态;任务奖励用于引导机器人以指定速度朝着指定方向行走。
优选地,所述模仿奖励中的奖励项包括以下一个或多个的组合:
关节角度、关节角速度和足部接触信息;
所述任务奖励中的奖励项包括以下一个或多个的组合:
胸部俯仰角、胸部滚转角、跨部俯仰角、跨部滚转角、跨部高度、跨部侧向偏移速度、跨部前向速度、跨部垂直速度、跨部偏航角速度、存活离散奖励、关节力矩。
优选地,所述底层网络由该底层网络中第一层到第三层神经元的权重和偏置构建;
所述顶层网络由该顶层网络中第一层到第三层神经元的权重和偏置构建。
优选地,采集到的样本数据通过以下方法进行过滤:
当通过样本数据检测到机器人摔倒时,删除该样本数据。
优选地,所述对顶层网络进行训练具体包括:
采用具有actor-critic架构的强化学习算法对所述顶层网络进行训练。
优选地,所述将所述控制指令发送给机器人中关节的电机具体包括:
利用PD控制器将所述控制指令转换为目标力矩;
将所述目标力矩发送给机器人中关节的电机。
所述计算机可读存储介质可以是前述任一实施例所述的终端的内部存储单元,例如终端的硬盘或内存。所述计算机可读存储介质也可以是所述终端的外部存储设备,例如所述终端上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述终端的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本发明实施例所提供的介质,为简要描述,实施例部分未提及之处,可参考前述方法实施例中相应内容。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
Claims (10)
1.一种基于深度强化学习的机器人行走控制方法,其特征在于,包括以下步骤:
设置奖励机制;
构建多专家神经网络;所述多专家神经网络包括一个顶层网络和至少一个底层网络;
利用所述奖励机制和采集的样本数据对顶层网络进行训练;
在机器人运行过程中,顶层网络根据训练结果和机器人实时测量到的数据对底层网络的输出进行融合,并根据融合结果输出控制指令,将所述控制指令发送给机器人中关节的电机。
2.根据权利要求1所述机器人行走控制方法,其特征在于,
所述奖励机制包括模仿奖励和任务奖励;
模仿奖励用于引导机器人学习并模仿人类行走步态;任务奖励用于引导机器人以指定速度朝着指定方向行走。
3.根据权利要求2所述机器人行走控制方法,其特征在于,
所述模仿奖励中的奖励项包括以下一个或多个的组合:
关节角度、关节角速度和足部接触信息;
所述任务奖励中的奖励项包括以下一个或多个的组合:
胸部俯仰角、胸部滚转角、跨部俯仰角、跨部滚转角、跨部高度、跨部侧向偏移速度、跨部前向速度、跨部垂直速度、跨部偏航角速度、存活离散奖励、关节力矩。
4.根据权利要求1所述机器人行走控制方法,其特征在于,
所述底层网络由该底层网络中第一层到第三层神经元的权重和偏置构建;
所述顶层网络由该顶层网络中第一层到第三层神经元的权重和偏置构建。
5.根据权利要求1所述机器人行走控制方法,其特征在于,
采集到的样本数据通过以下方法进行过滤:
当通过样本数据检测到机器人摔倒时,删除该样本数据。
6.根据权利要求1所述机器人行走控制方法,其特征在于,所述对顶层网络进行训练具体包括:
采用具有actor-critic架构的强化学习算法对所述顶层网络进行训练。
7.根据权利要求1所述机器人行走控制方法,其特征在于,所述将所述控制指令发送给机器人中关节的电机具体包括:
利用PD控制器将所述控制指令转换为目标力矩;
将所述目标力矩发送给机器人中关节的电机。
8.一种基于深度强化学习的机器人行走控制系统,其特征在于,包括处理器和存储器,所述处理器和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行以下方法:
设置奖励机制;
构建多专家神经网络;所述多专家神经网络包括一个顶层网络和至少一个底层网络;
利用所述奖励机制和采集的样本数据对顶层网络进行训练;
在机器人运行过程中,顶层网络根据训练结果和机器人实时测量到的数据对底层网络的输出进行融合,并根据融合结果输出控制指令,将所述控制指令发送给机器人中关节的电机。
9.根据权利要求8所述机器人行走控制系统,其特征在于,所述处理器被配置用于调用所述程序指令,具体执行以下方法:
利用PD控制器将所述控制指令转换为目标力矩;
将所述目标力矩发送给机器人中关节的电机。
10.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行以下方法:
设置奖励机制;
构建多专家神经网络;所述多专家神经网络包括一个顶层网络和至少一个底层网络;
利用所述奖励机制和采集的样本数据对顶层网络进行训练;
在机器人运行过程中,顶层网络根据训练结果和机器人实时测量到的数据对底层网络的输出进行融合,并根据融合结果输出控制指令,将所述控制指令发送给机器人中关节的电机。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010393932.2A CN111580385A (zh) | 2020-05-11 | 2020-05-11 | 基于深度强化学习的机器人行走控制方法、系统及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010393932.2A CN111580385A (zh) | 2020-05-11 | 2020-05-11 | 基于深度强化学习的机器人行走控制方法、系统及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111580385A true CN111580385A (zh) | 2020-08-25 |
Family
ID=72115321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010393932.2A Pending CN111580385A (zh) | 2020-05-11 | 2020-05-11 | 基于深度强化学习的机器人行走控制方法、系统及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111580385A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112596534A (zh) * | 2020-12-04 | 2021-04-02 | 杭州未名信科科技有限公司 | 基于深度强化学习的四足机器人的步态训练方法、装置、电子设备及介质 |
CN112904848A (zh) * | 2021-01-18 | 2021-06-04 | 长沙理工大学 | 一种基于深度强化学习的移动机器人路径规划方法 |
CN113093779A (zh) * | 2021-03-25 | 2021-07-09 | 山东大学 | 基于深度强化学习的机器人运动控制方法及系统 |
CN113110442A (zh) * | 2021-04-09 | 2021-07-13 | 深圳阿米嘎嘎科技有限公司 | 四足机器人多重技能运动控制方法、系统及介质 |
CN113190029A (zh) * | 2021-04-06 | 2021-07-30 | 北京化工大学 | 基于深度强化学习的四足机器人适应性步态自主生成方法 |
CN113253733A (zh) * | 2021-06-03 | 2021-08-13 | 杭州未名信科科技有限公司 | 一种基于学习和融合的导航避障方法、装置及系统 |
CN113821045A (zh) * | 2021-08-12 | 2021-12-21 | 浙江大学 | 一种腿足机器人强化学习动作生成系统 |
WO2022223056A1 (zh) * | 2021-07-12 | 2022-10-27 | 上海微电机研究所(中国电子科技集团公司第二十一研究所) | 基于深度强化学习的机器人运动参数自适应控制方法和系统 |
CN115688858A (zh) * | 2022-10-20 | 2023-02-03 | 哈尔滨工业大学(深圳) | 一种细粒度专家行为模仿学习方法、装置、介质及终端 |
CN117555339A (zh) * | 2024-01-11 | 2024-02-13 | 科大讯飞股份有限公司 | 策略网络训练方法及人形双足机器人步态控制方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108288094A (zh) * | 2018-01-31 | 2018-07-17 | 清华大学 | 基于环境状态预测的深度强化学习方法及装置 |
CN109782600A (zh) * | 2019-01-25 | 2019-05-21 | 东华大学 | 一种通过虚拟环境建立自主移动机器人导航系统的方法 |
US20190232489A1 (en) * | 2016-10-10 | 2019-08-01 | Deepmind Technologies Limited | Neural networks for selecting actions to be performed by a robotic agent |
CN110303471A (zh) * | 2018-03-27 | 2019-10-08 | 清华大学 | 助力外骨骼控制系统及控制方法 |
CN110930483A (zh) * | 2019-11-20 | 2020-03-27 | 腾讯科技(深圳)有限公司 | 一种角色控制的方法、模型训练的方法以及相关装置 |
-
2020
- 2020-05-11 CN CN202010393932.2A patent/CN111580385A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190232489A1 (en) * | 2016-10-10 | 2019-08-01 | Deepmind Technologies Limited | Neural networks for selecting actions to be performed by a robotic agent |
CN108288094A (zh) * | 2018-01-31 | 2018-07-17 | 清华大学 | 基于环境状态预测的深度强化学习方法及装置 |
CN110303471A (zh) * | 2018-03-27 | 2019-10-08 | 清华大学 | 助力外骨骼控制系统及控制方法 |
CN109782600A (zh) * | 2019-01-25 | 2019-05-21 | 东华大学 | 一种通过虚拟环境建立自主移动机器人导航系统的方法 |
CN110930483A (zh) * | 2019-11-20 | 2020-03-27 | 腾讯科技(深圳)有限公司 | 一种角色控制的方法、模型训练的方法以及相关装置 |
Non-Patent Citations (1)
Title |
---|
崔俊文等: "基于分层学习的四足机器人运动自适应控制模型", 《计算机测量与控制》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112596534A (zh) * | 2020-12-04 | 2021-04-02 | 杭州未名信科科技有限公司 | 基于深度强化学习的四足机器人的步态训练方法、装置、电子设备及介质 |
CN112904848A (zh) * | 2021-01-18 | 2021-06-04 | 长沙理工大学 | 一种基于深度强化学习的移动机器人路径规划方法 |
CN112904848B (zh) * | 2021-01-18 | 2022-08-12 | 长沙理工大学 | 一种基于深度强化学习的移动机器人路径规划方法 |
CN113093779B (zh) * | 2021-03-25 | 2022-06-07 | 山东大学 | 基于深度强化学习的机器人运动控制方法及系统 |
CN113093779A (zh) * | 2021-03-25 | 2021-07-09 | 山东大学 | 基于深度强化学习的机器人运动控制方法及系统 |
CN113190029A (zh) * | 2021-04-06 | 2021-07-30 | 北京化工大学 | 基于深度强化学习的四足机器人适应性步态自主生成方法 |
CN113190029B (zh) * | 2021-04-06 | 2023-02-28 | 北京化工大学 | 基于深度强化学习的四足机器人适应性步态自主生成方法 |
CN113110442A (zh) * | 2021-04-09 | 2021-07-13 | 深圳阿米嘎嘎科技有限公司 | 四足机器人多重技能运动控制方法、系统及介质 |
CN113110442B (zh) * | 2021-04-09 | 2024-01-16 | 深圳阿米嘎嘎科技有限公司 | 四足机器人多重技能运动控制方法、系统及介质 |
CN113253733A (zh) * | 2021-06-03 | 2021-08-13 | 杭州未名信科科技有限公司 | 一种基于学习和融合的导航避障方法、装置及系统 |
WO2022223056A1 (zh) * | 2021-07-12 | 2022-10-27 | 上海微电机研究所(中国电子科技集团公司第二十一研究所) | 基于深度强化学习的机器人运动参数自适应控制方法和系统 |
CN113821045A (zh) * | 2021-08-12 | 2021-12-21 | 浙江大学 | 一种腿足机器人强化学习动作生成系统 |
CN115688858A (zh) * | 2022-10-20 | 2023-02-03 | 哈尔滨工业大学(深圳) | 一种细粒度专家行为模仿学习方法、装置、介质及终端 |
CN115688858B (zh) * | 2022-10-20 | 2024-02-09 | 哈尔滨工业大学(深圳) | 一种细粒度专家行为模仿学习方法、装置、介质及终端 |
CN117555339A (zh) * | 2024-01-11 | 2024-02-13 | 科大讯飞股份有限公司 | 策略网络训练方法及人形双足机器人步态控制方法 |
CN117555339B (zh) * | 2024-01-11 | 2024-04-26 | 科大讯飞股份有限公司 | 策略网络训练方法及人形双足机器人步态控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111580385A (zh) | 基于深度强化学习的机器人行走控制方法、系统及介质 | |
Agarwal et al. | Legged locomotion in challenging terrains using egocentric vision | |
JP5330138B2 (ja) | 強化学習システム | |
US8660699B2 (en) | Behavior control system and robot | |
Billard et al. | Learning human arm movements by imitation:: Evaluation of a biologically inspired connectionist architecture | |
Penco et al. | Robust real-time whole-body motion retargeting from human to humanoid | |
US8078321B2 (en) | Behavior control system | |
US8099374B2 (en) | Behavior estimating system | |
US20050036649A1 (en) | Robot apparatus, face recognition method, and face recognition apparatus | |
US8463437B2 (en) | Robot | |
US20130054021A1 (en) | Robotic controller that realizes human-like responses to unexpected disturbances | |
CN113064433B (zh) | 机器人迈步控制方法、装置、机器人控制设备及存储介质 | |
Bohez et al. | Imitate and repurpose: Learning reusable robot movement skills from human and animal behaviors | |
CN112596534A (zh) | 基于深度强化学习的四足机器人的步态训练方法、装置、电子设备及介质 | |
US8805582B2 (en) | Robot control apparatus | |
US20140303529A1 (en) | Apparatus and method for controlling smart wear | |
Ookubo et al. | Learning nonlinear muscle-joint state mapping toward geometric model-free tendon driven musculoskeletal robots | |
Kasaei et al. | Robust biped locomotion using deep reinforcement learning on top of an analytical control approach | |
CN116619382A (zh) | 机器人运动控制方法、系统及电子设备 | |
CN117270398A (zh) | 基于神经网络和强化学习的机器人步态规划算法 | |
Baltes et al. | Active balancing using gyroscopes for a small humanoid robot | |
CN113110442B (zh) | 四足机器人多重技能运动控制方法、系统及介质 | |
CN116265202A (zh) | 一种机器人的控制方法、装置及介质、一种机器人 | |
Gloye et al. | Predicting away robot control latency | |
Allali et al. | Rhoban football club–team description paper |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200825 |