CN111580385A - 基于深度强化学习的机器人行走控制方法、系统及介质 - Google Patents

基于深度强化学习的机器人行走控制方法、系统及介质 Download PDF

Info

Publication number
CN111580385A
CN111580385A CN202010393932.2A CN202010393932A CN111580385A CN 111580385 A CN111580385 A CN 111580385A CN 202010393932 A CN202010393932 A CN 202010393932A CN 111580385 A CN111580385 A CN 111580385A
Authority
CN
China
Prior art keywords
robot
network
reward
joint
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010393932.2A
Other languages
English (en)
Inventor
杨传宇
蒲灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Amigaga Technology Co ltd
Original Assignee
Shenzhen Amigaga Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Amigaga Technology Co ltd filed Critical Shenzhen Amigaga Technology Co ltd
Priority to CN202010393932.2A priority Critical patent/CN111580385A/zh
Publication of CN111580385A publication Critical patent/CN111580385A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/029Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks and expert systems
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B62LAND VEHICLES FOR TRAVELLING OTHERWISE THAN ON RAILS
    • B62DMOTOR VEHICLES; TRAILERS
    • B62D57/00Vehicles characterised by having other propulsion or other ground- engaging means than wheels or endless track, alone or in addition to wheels or endless track
    • B62D57/02Vehicles characterised by having other propulsion or other ground- engaging means than wheels or endless track, alone or in addition to wheels or endless track with ground-engaging propulsion means, e.g. walking members
    • B62D57/032Vehicles characterised by having other propulsion or other ground- engaging means than wheels or endless track, alone or in addition to wheels or endless track with ground-engaging propulsion means, e.g. walking members with alternately or sequentially lifted supporting base and legs; with alternately or sequentially lifted feet or skid

Abstract

本发明提供的基于深度强化学习的机器人行走控制方法,设置奖励机制;构建多专家神经网络;所述多专家神经网络包括一个顶层网络和至少一个底层网络;利用所述奖励机制和采集的样本数据对顶层网络进行训练;在机器人运行过程中,顶层网络根据训练结果和机器人实时测量到的数据对底层网络的输出进行融合,并根据融合结果输出控制指令,将所述控制指令发送给机器人,控制机器人中关节的电机。该方法可以在不同的专家网络之间进行连续切换,增加了组合的多样性,改善现有机器人运动步态非对称、非自然的缺陷。该方法将人类动作捕捉获得的行走步态作为训练学习的参考对象,能让多专家神经网络更快地收敛到像人一样自然的周期性对称行走策略。

Description

基于深度强化学习的机器人行走控制方法、系统及介质
技术领域
本发明属于机器人技术领域,具体涉及基于深度强化学习的机器人行走控制方法、系统及介质。
背景技术
常见的机器人运动控制方法大多数都需要花费大量的人力与时间建造精确的模型。随着深度强化学习等其他机器学习算法理论的不断完善,以及电脑运算量的不断增加,机器人运动控制方法中深度强化学习已经成为传统控制算法的替代品。这样深度强化学习算法就能将大量负担转移到了计算机计算中,比起传统控制方法,节省了人力与时间成本,解放了大量劳动力。
但是现有采用深度强化学习的机器人运动控制方法中,强化学习的结果很难把控,可能会学出一些人们意想不到的非理想行为。以双足与四足机器人行走为例,人类与动物的运动步态是周期性并且对称的。但是在缺乏约束的情况下,采用机器学习方法学出来的运动步态往往是非对称并且非自然的。
发明内容
针对现有技术中的缺陷,本发明提供一种基于深度强化学习的机器人行走控制方法、系统及介质,改善现有机器人运动步态非对称、非自然的缺陷。
一种基于深度强化学习的机器人行走控制方法,包括以下步骤:
设置奖励机制;
构建多专家神经网络;所述多专家神经网络包括一个顶层网络和至少一个底层网络;
利用所述奖励机制和采集的样本数据对顶层网络进行训练;
在机器人运行过程中,顶层网络根据训练结果和机器人实时测量到的数据对底层网络的输出进行融合,并根据融合结果输出控制指令,将所述控制指令发送给机器人中关节的电机。
优选地,所述奖励机制包括模仿奖励和任务奖励;
模仿奖励用于引导机器人学习并模仿人类行走步态;任务奖励用于引导机器人以指定速度朝着指定方向行走。
优选地,所述模仿奖励中的奖励项包括以下一个或多个的组合:
关节角度、关节角速度和足部接触信息;
所述任务奖励中的奖励项包括以下一个或多个的组合:
胸部俯仰角、胸部滚转角、跨部俯仰角、跨部滚转角、跨部高度、跨部侧向偏移速度、跨部前向速度、跨部垂直速度、跨部偏航角速度、存活离散奖励、关节力矩。
优选地,所述底层网络由该底层网络中第一层到第三层神经元的权重和偏置构建;
所述顶层网络由该顶层网络中第一层到第三层神经元的权重和偏置构建。
优选地,采集到的样本数据通过以下方法进行过滤:
当通过样本数据检测到机器人摔倒时,删除该样本数据。
优选地,所述对顶层网络进行训练具体包括:
采用具有actor-critic架构的强化学习算法对所述顶层网络进行训练。
优选地,所述将所述控制指令发送给机器人中关节的电机具体包括:
利用PD控制器将所述控制指令转换为目标力矩;
将所述目标力矩发送给机器人中关节的电机。
第二方面,一种基于深度强化学习的机器人行走控制系统,包括处理器和存储器,所述处理器和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行以下方法:
设置奖励机制;
构建多专家神经网络;所述多专家神经网络包括一个顶层网络和至少一个底层网络;
利用所述奖励机制和采集的样本数据对顶层网络进行训练;
在机器人运行过程中,顶层网络根据训练结果和机器人实时测量到的数据对底层网络的输出进行融合,并根据融合结果输出控制指令,将所述控制指令发送给机器人中关节的电机。
优选地,所述处理器被配置用于调用所述程序指令,具体执行以下方法:
利用PD控制器将所述控制指令转换为目标力矩;
将所述目标力矩发送给机器人中关节的电机。
第三方面,一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行以下方法:
设置奖励机制;
构建多专家神经网络;所述多专家神经网络包括一个顶层网络和至少一个底层网络;
利用所述奖励机制和采集的样本数据对顶层网络进行训练;
在机器人运行过程中,顶层网络根据训练结果和机器人实时测量到的数据对底层网络的输出进行融合,并根据融合结果输出控制指令,将所述控制指令发送给机器人中关节的电机。
由上述技术方案可知,本发明提供的基于深度强化学习的机器人行走控制方法、系统及介质,相对于传统多专家神经网络的离散切换方法,可以在不同的专家网络之间进行连续切换,增加了组合的多样性,改善现有机器人运动步态非对称、非自然的缺陷。该方法将人类动作捕捉获得的行走步态作为训练学习的参考对象,能让多专家神经网络更快地收敛到像人一样自然的周期性对称行走策略。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1为本发明实施例一提供的机器人行走控制方法的流程图。
图2为本发明实施例一提供的actor-critic强化学习训练方法的架构。
图3为本发明实施例一中时序相位信息的表述方法。
图4为本发明实施例三提供的多专家神经网络的框架图。
图5为本发明实施例三提供的机器人行走控制方法的框架图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只作为示例,而不能以此来限制本发明的保护范围。需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
实施例一:
一种基于深度强化学习的机器人行走控制方法,参见图1、2,包括以下步骤:
S1:设置奖励机制;
具体地,奖励在深度强化学习中起到引导机器人学习的作用,因此奖励机制设计的好坏直接决定了最终训练的结果。
S2:构建多专家神经网络;所述多专家神经网络包括一个顶层网络和至少一个底层网络;
具体地,该方法中的多专家神经网络分上下两层。底层网络是专家网络,各自负责不同的任务,具体任务类型由神经网络自动地根据具体环境与任务进行针对性学习,无需人为干预。顶层网络是切换网络,负责根据机器人运行时实时反馈的动作捕捉数据切换或启用相应的底层网络。本申请提供的多专家神经网络能够在不同的专家网络之间进行连续切换。顶层网络可以在训练过程中自行学习底层网络的切换逻辑。底层网络也会在训练过程中与顶层网络同步学习策略。相比与传统离散切换的多专家神经网络结构,该方法在机器人行走控制过程中,连续切换比传统的离散切换具有更大优势。
S3:利用所述奖励机制和采集的样本数据对顶层网络进行训练;
具体地,由于不同机器人的机电设计中包括不同的传感器,因此多专家神经网络的状态输入量可以根据实际应用进行调整。例如状态输入量可设置为关节角度、关节速度、胯部线速度、胯部角速度、重心相对胯部位置、足部末端相对胯部位置、足部接触力等等。除了以上代表机器人身体姿态的状态输入量以外,该方法的状态输入量还可以包括时序相位信息,这样就可以提供时间参考,将机器人姿态与动作捕捉的双足步态在相位上对应起来。参见图3,时序相位信息可以表达为围绕着单位圆边缘逆时针运动的坐标点x=cos(θ),y=sin(θ)。
优选地,本申请可以采用具有actor-critic架构的强化学习算法对所述顶层网络进行训练,例如Soft actor critic(SAC),Proximal Policy Optimization(PPO),DeepDeterministic Policy Gradient(DDPG),Trust Region Policy Optimization(TRPO),Asynchronous Advantage Actor Critic(A3C)等强化学习算法。
S4:在机器人运行过程中,顶层网络根据训练结果和机器人实时测量到的数据对底层网络的输出进行融合,并根据融合结果输出控制指令,将所述控制指令发送给机器人中关节的电机。
相对于传统多专家神经网络的离散切换方法,本发明提出的多专家神经网络可以在不同的专家网络之间进行连续切换,增加了组合的多样性,具有更强的自适应性,能适应复杂环境的变化情况。该方法的顶层网络可以根据环境的变化针对性地启用相应的专家网络,人类动作捕捉的行走方式可以作为训练学习的参考对象,能让多专家神经网络更快地收敛到像人一样自然的周期性对称行走策略。顶层网络与底层网络之间的神经连接可求导,梯度可以正常回传。因此,在多专家神经网络的训练过程中,顶层网络与底层网络可以作为一个整体进行训练。
另外,该方法在采集样本数据的过程中,可以对机器人的状态进行随机初始化,增加样本多样性。由于样本数据的好坏会影响到训练的最终效果。对于在执行大多数双足与四足行走等足式行走任务时,由于机器人摔倒在地上的样本数据没有用处,所以该方法在采集样本数据的过程中,可以在机器人摔倒时删除采样数据、终止采样或重置采样过程,防止无用劣质的样本数据进入样本池。该方法可以通过机器人胯部高度或上身与地面接触状态判断机器人是否摔倒。若机器人胯部低于某一高度,或者是机器人上半身接触到了地面时,则认为检测到机器人摔倒。
实施例二:
实施例二在实施例一的基础上,限定了其中一种奖励机制方案。
所述奖励机制为:
r=Arimitatin+Brtask
其中,r为奖励机制的输出;rimitatin为模仿奖励,A为模仿奖励的权重,模仿奖励用于引导机器人学习并模仿人类行走步态;rtask为任务奖励,B为模仿奖励的权重;任务奖励用于引导机器人以指定速度朝着指定方向行走。
具体地,该方法中,A和B均可以取值为0.5,这样模仿奖励和任务奖励在多专家神经网络的训练过程中权重相同。本实施例中奖励机制由模仿奖励和任务奖励两部分组成。模仿奖励与任务奖励项由更基础的基本奖励项构成。模仿奖励为双足机器人提供人类行走步态提供参考,为深度强化学习算法提供人类行走步态的先验知识,从而加快了加双足机器人学习行走策略的速度。任务奖励用于指导机器人学习行走速度、行走方向、身体姿态、身体高度等。
优选地,所述模仿奖励中的奖励项包括以下一个或多个的组合:关节角度、关节角速度和足部接触信息;例如设置模仿奖励为:
rimitatin=wjo intrjo int+wjo in tvelrjo int vel+wcontactrcontact
其中,wjo int、wjo int vel、wcontact为预设的权重值,可以根据具体的机器人作出相应的调整;
rjo int为关节角度,
Figure BDA0002486964510000071
K为径向基函数,q为机器人通过关节内部编码器测量到的关节角度,
Figure BDA0002486964510000074
为预设的目标关节角度,αi为预设值,不同奖励项的预设值αi不一样;
rjo int vel为关节角速度,
Figure BDA0002486964510000072
为机器人通过关节内部编码器测量到的关节角速度,
Figure BDA0002486964510000073
为预设的目标关节角速度;
rcontact为机器人通过足部压力传感器检测到的足部接触信息,当检测到单脚触地时,rcontact=1,否则rcontact=0。足部接触信息为二进制离散信息,1代表机器人足部与地面有接触,反之为0。
具体地,模拟奖励中的目标关节角度
Figure BDA0002486964510000089
和目标关节角速度
Figure BDA00024869645100000810
由人类动作捕捉数据提供。
具体地,奖励机制设计过程中用到的径向基函数如下所示:
Figure BDA0002486964510000081
该径向基函数将物理量x与其目标值
Figure BDA0002486964510000082
的差值转换成奖励值。x与
Figure BDA0002486964510000083
之间的误差越低,奖励值越高。α能够影响到径向基函数K分布的宽度,α越低,径向基函数分布越宽,α越高,径向基函数分布越窄,α由具体场景决定。
优选地,所述任务奖励中的奖励项包括以下一个或多个的组合:胸部俯仰角、胸部滚转角、跨部俯仰角、跨部滚转角、跨部高度、跨部侧向偏移速度、跨部前向速度、跨部垂直速度、跨部偏航角速度、存活离散奖励、关节力矩。
例如设置任务奖励为:
rtask=wtorsopitchrtorsopitch+wtorsorollrtorsoroll+wbasepitchrbasepitch+wbaserollrbaseroll
+wbaseheightrbaseheight+wbaseyvelrbaseyvel+wbasexvelrbasexvel+wbasezvelrbasezvel
+wbaseyawvelrbaseyawvel+waliveralive+wtorquertorque
其中,wtorso pitch、wtorso roll、wbase pitch、wbase roll、wbase height、wbase yvel、wbase x vel、wbase z vel、wbase yaw vel、walive、wtorque为预设的权重值,可以根据具体的机器人进行相应的调整;
rtorso pitch为胸部俯仰角,
Figure BDA0002486964510000084
θtorso pitch为机器人实时测量到的胸部的俯仰角,
Figure BDA0002486964510000085
为预设的目标胸部俯仰角;
rtorso roll为胸部滚转角,
Figure BDA0002486964510000086
θtorso roll为机器人实时测量到的胸部的滚转角,
Figure BDA0002486964510000087
为预设的目标胸部滚转角;
rbase pitch为跨部俯仰角,
Figure BDA0002486964510000088
θbase pitch为机器人实时测量到的跨部的俯仰角,
Figure BDA0002486964510000091
为预设的目标跨部俯仰角;
rbase roll为跨部滚转角,
Figure BDA0002486964510000092
θbase roll为机器人实时测量到的跨部的滚转角,
Figure BDA0002486964510000093
为预设的目标跨部滚转角;
rbase height为跨部高度,
Figure BDA0002486964510000094
h为机器人实时测量到的跨部的高度,
Figure BDA0002486964510000095
为预设的目标跨部高度;
rbase y vel为跨部侧向偏移速度,
Figure BDA0002486964510000096
为机器人实时测量到的跨部的侧向偏移速度,
Figure BDA0002486964510000097
为预设的目标跨部侧向偏移速度;
rbase x vel为跨部前向速度,
Figure BDA0002486964510000098
为机器人实时测量到的跨部的前向速度,
Figure BDA0002486964510000099
为预设的目标跨部前向速度;
rbase z vel为跨部垂直速度,
Figure BDA00024869645100000910
为机器人实时测量到的跨部的垂直速度,
Figure BDA00024869645100000911
为预设的目标跨部垂直速度;
rbase yaw vel为跨部偏航角速度,rbase yaw vel=K(ω,0,α11),ω为机器人实时测量到的跨部的偏航角速度,目标偏航角速度为0;
ralive为存活离散奖励,当机器人实时测量到中上身部分与地面接触时,ralive=1,否则ralive=0;
rtorque为关节力矩限制,rtorque=K(τ,0,α12),τ为机器人实时测量到的关节的力矩,目标力矩为0。
具体地,任务奖励中的目标物理量可以根据具体的机器人进行设置,用于标识对称、自然的人类行走步态。
本发明实施例所提供的方法,为简要描述,实施例部分未提及之处,可参考前述方法实施例中相应内容。
实施例三:
实施例三在上述实施例的基础上,限定了其中一种多专家神经网络。
参见图4,所述第n个底层网络为:
an=Tanh(Wn 2ReLU(Wn 1ReLU(Wn 0X+Bn0)+Bn1)+Bn2);
其中,Wn 0、Wn 1、Wn 2分别为第n个底层网络中第一层到第三层神经元的权重;Bn 0、Bn 1、Bn 2分别为第n个底层网络中第一层到第三层神经元的偏置;Re LU和Tanh为激活函数;an为述第n个底层网络的输出值。
具体地,每个专家网络都设有相应的参数,专家网络的数量可以根据具体的使用场景进行定义。
所述顶层网络为:
Figure BDA0002486964510000101
其中,W0 g、W1 g、W2 g分别为顶层网络中第一层到第三层的权重;
Figure BDA0002486964510000102
分别为顶层网络中第一层到第三层的偏置;Soft max为激活函数;g为顶层网络的输出值;g的维度与底层网络数量一致,g负责切换底层网络的输出值an
Figure BDA0002486964510000103
其中,M为底层网络的总数;a为所述控制指令,所述控制指令为目标关节角度;gn为g中第n个元素的值;控制指令a为所有底层网络的输出值an的加权和。
具体地,g的维度与专家网络的数量一致。假定专家网络的数量为n,g的维度也为n。该方法中对M个底层网络的输出进行加权平均后进行融合,利用g对底层网络输出的an进行合成,输出最终的控制指令。
参见图5,所述将所述控制指令发送给机器人中关节的电机具体包括:
利用PD控制器将所述控制指令转换为目标力矩;
将所述目标力矩发送给机器人中关节的电机。
具体地,控制指令转换方法如下:
Figure BDA0002486964510000104
其中,qt为目标关节角度,qm为机器人实时动作捕捉数据中关节角度,
Figure BDA0002486964510000105
为机器人实时动作捕捉数据中关节速度,τ为转换得到的目标力矩。不同机器人中不同关节所需要的P增益与D增益不一样。
参见图5,该方法可以采用内外双层反馈闭环环节,外层是25Hz神经网络控制闭环,内层是500HzPD力矩控制闭环。外层控制环提供关节目标角度,内层控制环将目标角度转化成电机控制力拒。25Hz的神经网络控制环与500Hz的PD控制环的参数可以根据具体机器人进行调整。
考虑到神经网络需要花费更多时间去计算,外层神经网络闭环频率需要设定得比内层PD控制闭环低。控制频率理论上越高越好,在机器人硬件与软件允许的情况下,可以适当提高内外闭环的控制频率。
本发明实施例所提供的方法,为简要描述,实施例部分未提及之处,可参考前述方法实施例中相应内容。
实施例四:
一种基于深度强化学习的机器人行走控制系统,包括处理器和存储器,所述处理器和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行以下方法:
设置奖励机制;
构建多专家神经网络;所述多专家神经网络包括一个顶层网络和至少一个底层网络;
利用所述奖励机制和采集的样本数据对顶层网络进行训练;
在机器人运行过程中,顶层网络根据训练结果和机器人实时测量到的数据对底层网络的输出进行融合,并根据融合结果输出控制指令,将所述控制指令发送给机器人中关节的电机。
优选地,所述奖励机制包括模仿奖励和任务奖励;
模仿奖励用于引导机器人学习并模仿人类行走步态;任务奖励用于引导机器人以指定速度朝着指定方向行走。
优选地,所述模仿奖励中的奖励项包括以下一个或多个的组合:
关节角度、关节角速度和足部接触信息;
所述任务奖励中的奖励项包括以下一个或多个的组合:
胸部俯仰角、胸部滚转角、跨部俯仰角、跨部滚转角、跨部高度、跨部侧向偏移速度、跨部前向速度、跨部垂直速度、跨部偏航角速度、存活离散奖励、关节力矩。
优选地,所述底层网络由该底层网络中第一层到第三层神经元的权重和偏置构建;
所述顶层网络由该顶层网络中第一层到第三层神经元的权重和偏置构建。
优选地,采集到的样本数据通过以下方法进行过滤:
当通过样本数据检测到机器人摔倒时,删除该样本数据。
优选地,所述对顶层网络进行训练具体包括:
采用具有actor-critic架构的强化学习算法对所述顶层网络进行训练。
优选地,所述将所述控制指令发送给机器人中关节的电机具体包括:
利用PD控制器将所述控制指令转换为目标力矩;
将所述目标力矩发送给机器人中关节的电机。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息。
本发明实施例所提供的系统,为简要描述,实施例部分未提及之处,可参考前述方法实施例中相应内容。
实施例五:
一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行以下方法:
设置奖励机制;
构建多专家神经网络;所述多专家神经网络包括一个顶层网络和至少一个底层网络;
利用所述奖励机制和采集的样本数据对顶层网络进行训练;
在机器人运行过程中,顶层网络根据训练结果和机器人实时测量到的数据对底层网络的输出进行融合,并根据融合结果输出控制指令,将所述控制指令发送给机器人中关节的电机。
优选地,所述奖励机制包括模仿奖励和任务奖励;
模仿奖励用于引导机器人学习并模仿人类行走步态;任务奖励用于引导机器人以指定速度朝着指定方向行走。
优选地,所述模仿奖励中的奖励项包括以下一个或多个的组合:
关节角度、关节角速度和足部接触信息;
所述任务奖励中的奖励项包括以下一个或多个的组合:
胸部俯仰角、胸部滚转角、跨部俯仰角、跨部滚转角、跨部高度、跨部侧向偏移速度、跨部前向速度、跨部垂直速度、跨部偏航角速度、存活离散奖励、关节力矩。
优选地,所述底层网络由该底层网络中第一层到第三层神经元的权重和偏置构建;
所述顶层网络由该顶层网络中第一层到第三层神经元的权重和偏置构建。
优选地,采集到的样本数据通过以下方法进行过滤:
当通过样本数据检测到机器人摔倒时,删除该样本数据。
优选地,所述对顶层网络进行训练具体包括:
采用具有actor-critic架构的强化学习算法对所述顶层网络进行训练。
优选地,所述将所述控制指令发送给机器人中关节的电机具体包括:
利用PD控制器将所述控制指令转换为目标力矩;
将所述目标力矩发送给机器人中关节的电机。
所述计算机可读存储介质可以是前述任一实施例所述的终端的内部存储单元,例如终端的硬盘或内存。所述计算机可读存储介质也可以是所述终端的外部存储设备,例如所述终端上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述终端的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本发明实施例所提供的介质,为简要描述,实施例部分未提及之处,可参考前述方法实施例中相应内容。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (10)

1.一种基于深度强化学习的机器人行走控制方法,其特征在于,包括以下步骤:
设置奖励机制;
构建多专家神经网络;所述多专家神经网络包括一个顶层网络和至少一个底层网络;
利用所述奖励机制和采集的样本数据对顶层网络进行训练;
在机器人运行过程中,顶层网络根据训练结果和机器人实时测量到的数据对底层网络的输出进行融合,并根据融合结果输出控制指令,将所述控制指令发送给机器人中关节的电机。
2.根据权利要求1所述机器人行走控制方法,其特征在于,
所述奖励机制包括模仿奖励和任务奖励;
模仿奖励用于引导机器人学习并模仿人类行走步态;任务奖励用于引导机器人以指定速度朝着指定方向行走。
3.根据权利要求2所述机器人行走控制方法,其特征在于,
所述模仿奖励中的奖励项包括以下一个或多个的组合:
关节角度、关节角速度和足部接触信息;
所述任务奖励中的奖励项包括以下一个或多个的组合:
胸部俯仰角、胸部滚转角、跨部俯仰角、跨部滚转角、跨部高度、跨部侧向偏移速度、跨部前向速度、跨部垂直速度、跨部偏航角速度、存活离散奖励、关节力矩。
4.根据权利要求1所述机器人行走控制方法,其特征在于,
所述底层网络由该底层网络中第一层到第三层神经元的权重和偏置构建;
所述顶层网络由该顶层网络中第一层到第三层神经元的权重和偏置构建。
5.根据权利要求1所述机器人行走控制方法,其特征在于,
采集到的样本数据通过以下方法进行过滤:
当通过样本数据检测到机器人摔倒时,删除该样本数据。
6.根据权利要求1所述机器人行走控制方法,其特征在于,所述对顶层网络进行训练具体包括:
采用具有actor-critic架构的强化学习算法对所述顶层网络进行训练。
7.根据权利要求1所述机器人行走控制方法,其特征在于,所述将所述控制指令发送给机器人中关节的电机具体包括:
利用PD控制器将所述控制指令转换为目标力矩;
将所述目标力矩发送给机器人中关节的电机。
8.一种基于深度强化学习的机器人行走控制系统,其特征在于,包括处理器和存储器,所述处理器和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行以下方法:
设置奖励机制;
构建多专家神经网络;所述多专家神经网络包括一个顶层网络和至少一个底层网络;
利用所述奖励机制和采集的样本数据对顶层网络进行训练;
在机器人运行过程中,顶层网络根据训练结果和机器人实时测量到的数据对底层网络的输出进行融合,并根据融合结果输出控制指令,将所述控制指令发送给机器人中关节的电机。
9.根据权利要求8所述机器人行走控制系统,其特征在于,所述处理器被配置用于调用所述程序指令,具体执行以下方法:
利用PD控制器将所述控制指令转换为目标力矩;
将所述目标力矩发送给机器人中关节的电机。
10.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行以下方法:
设置奖励机制;
构建多专家神经网络;所述多专家神经网络包括一个顶层网络和至少一个底层网络;
利用所述奖励机制和采集的样本数据对顶层网络进行训练;
在机器人运行过程中,顶层网络根据训练结果和机器人实时测量到的数据对底层网络的输出进行融合,并根据融合结果输出控制指令,将所述控制指令发送给机器人中关节的电机。
CN202010393932.2A 2020-05-11 2020-05-11 基于深度强化学习的机器人行走控制方法、系统及介质 Pending CN111580385A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010393932.2A CN111580385A (zh) 2020-05-11 2020-05-11 基于深度强化学习的机器人行走控制方法、系统及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010393932.2A CN111580385A (zh) 2020-05-11 2020-05-11 基于深度强化学习的机器人行走控制方法、系统及介质

Publications (1)

Publication Number Publication Date
CN111580385A true CN111580385A (zh) 2020-08-25

Family

ID=72115321

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010393932.2A Pending CN111580385A (zh) 2020-05-11 2020-05-11 基于深度强化学习的机器人行走控制方法、系统及介质

Country Status (1)

Country Link
CN (1) CN111580385A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112596534A (zh) * 2020-12-04 2021-04-02 杭州未名信科科技有限公司 基于深度强化学习的四足机器人的步态训练方法、装置、电子设备及介质
CN112904848A (zh) * 2021-01-18 2021-06-04 长沙理工大学 一种基于深度强化学习的移动机器人路径规划方法
CN113093779A (zh) * 2021-03-25 2021-07-09 山东大学 基于深度强化学习的机器人运动控制方法及系统
CN113110442A (zh) * 2021-04-09 2021-07-13 深圳阿米嘎嘎科技有限公司 四足机器人多重技能运动控制方法、系统及介质
CN113190029A (zh) * 2021-04-06 2021-07-30 北京化工大学 基于深度强化学习的四足机器人适应性步态自主生成方法
CN113253733A (zh) * 2021-06-03 2021-08-13 杭州未名信科科技有限公司 一种基于学习和融合的导航避障方法、装置及系统
CN113821045A (zh) * 2021-08-12 2021-12-21 浙江大学 一种腿足机器人强化学习动作生成系统
WO2022223056A1 (zh) * 2021-07-12 2022-10-27 上海微电机研究所(中国电子科技集团公司第二十一研究所) 基于深度强化学习的机器人运动参数自适应控制方法和系统
CN115688858A (zh) * 2022-10-20 2023-02-03 哈尔滨工业大学(深圳) 一种细粒度专家行为模仿学习方法、装置、介质及终端
CN117555339A (zh) * 2024-01-11 2024-02-13 科大讯飞股份有限公司 策略网络训练方法及人形双足机器人步态控制方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108288094A (zh) * 2018-01-31 2018-07-17 清华大学 基于环境状态预测的深度强化学习方法及装置
CN109782600A (zh) * 2019-01-25 2019-05-21 东华大学 一种通过虚拟环境建立自主移动机器人导航系统的方法
US20190232489A1 (en) * 2016-10-10 2019-08-01 Deepmind Technologies Limited Neural networks for selecting actions to be performed by a robotic agent
CN110303471A (zh) * 2018-03-27 2019-10-08 清华大学 助力外骨骼控制系统及控制方法
CN110930483A (zh) * 2019-11-20 2020-03-27 腾讯科技(深圳)有限公司 一种角色控制的方法、模型训练的方法以及相关装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190232489A1 (en) * 2016-10-10 2019-08-01 Deepmind Technologies Limited Neural networks for selecting actions to be performed by a robotic agent
CN108288094A (zh) * 2018-01-31 2018-07-17 清华大学 基于环境状态预测的深度强化学习方法及装置
CN110303471A (zh) * 2018-03-27 2019-10-08 清华大学 助力外骨骼控制系统及控制方法
CN109782600A (zh) * 2019-01-25 2019-05-21 东华大学 一种通过虚拟环境建立自主移动机器人导航系统的方法
CN110930483A (zh) * 2019-11-20 2020-03-27 腾讯科技(深圳)有限公司 一种角色控制的方法、模型训练的方法以及相关装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
崔俊文等: "基于分层学习的四足机器人运动自适应控制模型", 《计算机测量与控制》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112596534A (zh) * 2020-12-04 2021-04-02 杭州未名信科科技有限公司 基于深度强化学习的四足机器人的步态训练方法、装置、电子设备及介质
CN112904848A (zh) * 2021-01-18 2021-06-04 长沙理工大学 一种基于深度强化学习的移动机器人路径规划方法
CN112904848B (zh) * 2021-01-18 2022-08-12 长沙理工大学 一种基于深度强化学习的移动机器人路径规划方法
CN113093779B (zh) * 2021-03-25 2022-06-07 山东大学 基于深度强化学习的机器人运动控制方法及系统
CN113093779A (zh) * 2021-03-25 2021-07-09 山东大学 基于深度强化学习的机器人运动控制方法及系统
CN113190029A (zh) * 2021-04-06 2021-07-30 北京化工大学 基于深度强化学习的四足机器人适应性步态自主生成方法
CN113190029B (zh) * 2021-04-06 2023-02-28 北京化工大学 基于深度强化学习的四足机器人适应性步态自主生成方法
CN113110442A (zh) * 2021-04-09 2021-07-13 深圳阿米嘎嘎科技有限公司 四足机器人多重技能运动控制方法、系统及介质
CN113110442B (zh) * 2021-04-09 2024-01-16 深圳阿米嘎嘎科技有限公司 四足机器人多重技能运动控制方法、系统及介质
CN113253733A (zh) * 2021-06-03 2021-08-13 杭州未名信科科技有限公司 一种基于学习和融合的导航避障方法、装置及系统
WO2022223056A1 (zh) * 2021-07-12 2022-10-27 上海微电机研究所(中国电子科技集团公司第二十一研究所) 基于深度强化学习的机器人运动参数自适应控制方法和系统
CN113821045A (zh) * 2021-08-12 2021-12-21 浙江大学 一种腿足机器人强化学习动作生成系统
CN115688858A (zh) * 2022-10-20 2023-02-03 哈尔滨工业大学(深圳) 一种细粒度专家行为模仿学习方法、装置、介质及终端
CN115688858B (zh) * 2022-10-20 2024-02-09 哈尔滨工业大学(深圳) 一种细粒度专家行为模仿学习方法、装置、介质及终端
CN117555339A (zh) * 2024-01-11 2024-02-13 科大讯飞股份有限公司 策略网络训练方法及人形双足机器人步态控制方法
CN117555339B (zh) * 2024-01-11 2024-04-26 科大讯飞股份有限公司 策略网络训练方法及人形双足机器人步态控制方法

Similar Documents

Publication Publication Date Title
CN111580385A (zh) 基于深度强化学习的机器人行走控制方法、系统及介质
Agarwal et al. Legged locomotion in challenging terrains using egocentric vision
JP5330138B2 (ja) 強化学習システム
US8660699B2 (en) Behavior control system and robot
Billard et al. Learning human arm movements by imitation:: Evaluation of a biologically inspired connectionist architecture
Penco et al. Robust real-time whole-body motion retargeting from human to humanoid
US8078321B2 (en) Behavior control system
US8099374B2 (en) Behavior estimating system
US20050036649A1 (en) Robot apparatus, face recognition method, and face recognition apparatus
US8463437B2 (en) Robot
US20130054021A1 (en) Robotic controller that realizes human-like responses to unexpected disturbances
CN113064433B (zh) 机器人迈步控制方法、装置、机器人控制设备及存储介质
Bohez et al. Imitate and repurpose: Learning reusable robot movement skills from human and animal behaviors
CN112596534A (zh) 基于深度强化学习的四足机器人的步态训练方法、装置、电子设备及介质
US8805582B2 (en) Robot control apparatus
US20140303529A1 (en) Apparatus and method for controlling smart wear
Ookubo et al. Learning nonlinear muscle-joint state mapping toward geometric model-free tendon driven musculoskeletal robots
Kasaei et al. Robust biped locomotion using deep reinforcement learning on top of an analytical control approach
CN116619382A (zh) 机器人运动控制方法、系统及电子设备
CN117270398A (zh) 基于神经网络和强化学习的机器人步态规划算法
Baltes et al. Active balancing using gyroscopes for a small humanoid robot
CN113110442B (zh) 四足机器人多重技能运动控制方法、系统及介质
CN116265202A (zh) 一种机器人的控制方法、装置及介质、一种机器人
Gloye et al. Predicting away robot control latency
Allali et al. Rhoban football club–team description paper

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200825