CN113110442A - 四足机器人多重技能运动控制方法、系统及介质 - Google Patents

四足机器人多重技能运动控制方法、系统及介质 Download PDF

Info

Publication number
CN113110442A
CN113110442A CN202110383403.9A CN202110383403A CN113110442A CN 113110442 A CN113110442 A CN 113110442A CN 202110383403 A CN202110383403 A CN 202110383403A CN 113110442 A CN113110442 A CN 113110442A
Authority
CN
China
Prior art keywords
target joint
neural network
joint angle
network
quadruped robot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110383403.9A
Other languages
English (en)
Other versions
CN113110442B (zh
Inventor
杨传宇
蒲灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Amigaga Technology Co ltd
Original Assignee
Shenzhen Amigaga Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Amigaga Technology Co ltd filed Critical Shenzhen Amigaga Technology Co ltd
Priority to CN202110383403.9A priority Critical patent/CN113110442B/zh
Publication of CN113110442A publication Critical patent/CN113110442A/zh
Application granted granted Critical
Publication of CN113110442B publication Critical patent/CN113110442B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0214Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Manipulator (AREA)

Abstract

本发明提供了四足机器人的多重技能运动控制方法、系统及介质,方法包括设置奖励机制;构建多专家神经网络;所述多专家神经网络包括一个顶层网络和至少两个底层网络,其中底层网络用于进行四足机器人不同运动技能的学习,顶层网络用于进行根据不同实际场景选择不同运动技能的学习;在四足机器人运行过程中,顶层网络对所有底层网络的权重与偏置进行融合,得到融合神经网络,融合神经网络输出目标关节角度;将融合神经网络输出的目标关节角度传输给PD控制器,转换成目标关节力矩,将目标关节力矩作为最终控制指令发送给四足机器人中关节的电机。该方法能够训练四足机器人完成多重运动技能。

Description

四足机器人多重技能运动控制方法、系统及介质
技术领域
本发明属于机器人技术领域,具体涉及四足机器人多重技能运动控制方法、系统及介质。
背景技术
自然界中,动物与人类能够学会并执行非常复杂的动作,这是因为动物与人类能够把复杂的动作拆分成复数个基本的简单动作,并对简单动作进行学习,最终将不同的简单动作重新组合生成更为复杂的动作。
适应未知与复杂的真实环境是机器人成功在野外运作的关键。真实环境复杂多变,若想成功在真实环境中运行,机器人得学会不同的技能,并根据场景变化选择性的执行。但现有方法中机器人只学习一个神经网络,而一个神经网络只能学习到一种技能,因此现有机器人的学习方法不适合真实环境的学习。
发明内容
针对现有技术中的缺陷,本发明提供一种四足机器人多重技能运动控制方法、系统及介质,能够训练四足机器人完成多重运动技能。
第一方面,一种四足机器人多重技能运动控制方法,包括以下步骤:
设置奖励机制;
构建多专家神经网络;所述多专家神经网络包括一个顶层网络和至少两个底层网络,其中底层网络用于进行四足机器人不同运动技能的学习,顶层网络用于进行根据不同实际场景选择不同运动技能的学习;
在四足机器人运行过程中,顶层网络对所有底层网络的权重与偏置进行融合,得到融合神经网络,融合神经网络输出目标关节角度;
将融合神经网络输出的目标关节角度传输给PD控制器,转换成目标关节力矩,将所述目标关节力矩作为最终控制指令,发送给四足机器人中关节的电机。
优选地,所述奖励机制包括以下奖励:四足行走奖励、摔倒恢复奖励与协同奖励。
优选地,所述奖励由独立的奖励项进行加权平均得到;
其中奖励项通过径向基函数
Figure BDA0003013890880000021
表示:
Figure BDA0003013890880000022
x为真实量,
Figure BDA0003013890880000023
为目标量,α为预设值,影响径向基函数的分布宽度。
优选地,所述奖励项包括:
躯体姿态r1、躯体高度r2、躯体速度r3、关节力矩r4、关节速度r5、足部地面接触r6、躯体地面接触r7、偏航角速度r8、腿部摆动与支撑r9、目标关节位置r10、目标足部接触r11、足部放置位置r12、机器人朝向r13、机器人目标位置r14
优选地,所述底层网络的学习方法包括以下步骤:
进行初步学习:利用所述四足行走奖励和所述摔倒恢复奖励单独学习预设的摔倒恢复策略与四足行走策略,得到初步学习神经网络;
进行协同学习:将初步学习神经网络的权重迁移给底层网络,利用协同奖励对该底层网络进行学习。
优选地,所述顶层网络对所有底层网络的权重与偏置进行融合,得到融合神经网络具体包括:
以顶层网络输出为权重g,利用权重g对底层网络的权重和偏置进行融合,得到融合权重、融合偏置以及融合神经网络。
优选地,所述将融合神经网络输出的目标关节角度传输给PD控制器具体包括:
设置目标关节角度的幅值上限和频率上限;
当所述目标关节角度中存在幅值超过幅值上限的幅值变化量时,去掉该幅值变化量;
当所述目标关节角度中存在频率超过频率上限的频率变化量时,利用低通滤波器去掉该频率变化量;
将过滤后的目标关节角度传输给PD控制器。
第二方面,一种四足机器人多重技能运动控制系统,包括处理器和存储器,所述处理器和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行以下方法:
设置奖励机制;
构建多专家神经网络;所述多专家神经网络包括一个顶层网络和至少两个底层网络,其中底层网络用于进行四足机器人不同运动技能的学习,顶层网络用于进行根据不同实际场景选择不同运动技能的学习;
在四足机器人运行过程中,顶层网络对所有底层网络的权重与偏置进行融合,得到融合神经网络,融合神经网络输出目标关节角度;
将融合神经网络输出的目标关节角度传输给PD控制器,转换成目标关节力矩,将所述目标关节力矩作为最终控制指令,发送给四足机器人中关节的电机。
优选地,所述将融合神经网络输出的目标关节角度传输给PD控制器具体包括:
设置目标关节角度的幅值上限和频率上限;
当所述目标关节角度中存在幅值超过幅值上限的幅值变化量时,去掉该幅值变化量;
当所述目标关节角度中存在频率超过频率上限的频率变化量时,利用低通滤波器去掉该频率变化量;
将过滤后的目标关节角度传输给PD控制器。
第三方面,一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行以下方法:
设置奖励机制;
构建多专家神经网络;所述多专家神经网络包括一个顶层网络和至少两个底层网络,其中底层网络用于进行四足机器人不同运动技能的学习,顶层网络用于进行根据不同实际场景选择不同运动技能的学习;
在四足机器人运行过程中,顶层网络对所有底层网络的权重与偏置进行融合,得到融合神经网络,融合神经网络输出目标关节角度;
将融合神经网络输出的目标关节角度传输给PD控制器,转换成目标关节力矩,将所述目标关节力矩作为最终控制指令,发送给四足机器人中关节的电机。
由上述技术方案可知,本发明提供的基于多专家神经网络的四足机器人的多重技能运动控制方法、系统及方法,设置了奖励机制,构建了多专家神经网络结构,每个底层网络专门学习特定的运动技能,通过顶层网络在不同底层网络之间进行连续切换,实现机器人在多种运动技能之间的切换,训练四足机器人完成多重运动技能。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1为本发明实施例一提供的四足机器人的多重技能运动控制方法的原理图。
图2为本发明实施例一提供的分步递进式训练的原理图。
图3为本发明实施例一提供的多专家神经网络的示意图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只作为示例,而不能以此来限制本发明的保护范围。需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
实施例一:
一种四足机器人的多重技能运动控制方法,参见图1,包括以下步骤:
设置奖励机制;
构建多专家神经网络;所述多专家神经网络包括一个顶层网络和至少两个底层网络,其中底层网络用于进行四足机器人不同运动技能的学习,顶层网络用于进行根据不同实际场景选择不同运动技能的学习;与常规的多专家神经网络融合底层网络输出的方式不同,该多专家神经网络对底层网络的权重与偏置进行融合;
在四足机器人运行过程中,顶层网络对所有底层网络的权重与偏置进行融合,得到融合神经网络,融合神经网络输出目标关节角度;
将融合神经网络输出的目标关节角度传输给PD控制器,转换成目标关节力矩,将所述目标关节力矩作为最终控制指令,发送给四足机器人中关节的电机。
具体地,该方法采用的学习方法为强化学习方法,该方法可以采用任意Actor-Critic强化学习算法进行学习,例如Soft Actor Critic,Proximal PolicyOptimization,Trust Region Policy Optimization,Deep Deterministic PolicyGradient。
该方法设置了奖励机制,构建了多专家神经网络结构,每个底层网络专门学习特定的运动技能。顶层网络根据实时反馈数据,对底层网络的权重与偏置进行融合,生成融合神经网络。融合神经网络输出目标关节角度,PD控制器再将所述目标关节角度转换成目标关节力矩。通过顶层网络在不同底层网络之间进行融合,实现机器人在多种运动技能之间的切换,训练四足机器人完成多重运动技能。
所述奖励机制包括以下奖励:四足行走奖励、摔倒恢复奖励与协同奖励。奖励设计的好坏会影响到最终效果。
优选地,所述奖励由独立的奖励项进行加权平均得到;
其中奖励项通过径向基函数
Figure BDA0003013890880000061
表示:
Figure BDA0003013890880000062
x为真实量,
Figure BDA0003013890880000071
为目标量,α为预设值,影响径向基函数的分布宽度。
具体地,目标量与真实量之间的差距越小,利用径向基函数所算出的奖励项越大。α越低,径向基函数分布越宽。α越高,径向基函数分步越窄。α由具体场景决定。
其中,所述奖励项包括:
躯体姿态r1
Figure BDA0003013890880000072
φ为重力方向的单位向量投影到机器人躯体坐标系中得到的姿态向量;
躯体高度r2
Figure BDA0003013890880000073
h为机器人躯体离地面的高度;
躯体速度r3
Figure BDA0003013890880000074
为机器人躯体在世界坐标系下的线速度,
Figure BDA0003013890880000075
为机器人躯体在世界坐标系下的目标线速度;
关节力矩r4
Figure BDA0003013890880000076
τ为所有关节力矩的向量;
关节速度r5
Figure BDA0003013890880000077
q为所有关节角度的向量;
足部地面接触r6
Figure BDA0003013890880000078
躯体地面接触r7
Figure BDA0003013890880000079
偏航角速度r8
Figure BDA00030138908800000710
ω为机器人在世界坐标系下的偏航角速度;
腿部摆动与支撑r9
Figure BDA00030138908800000711
为第n个足部在世界坐标系下的高度,
Figure BDA00030138908800000712
为第n个足部在世界坐标系下的目标高度,
Figure BDA00030138908800000713
为第n个足部在世界坐标系下与地面平行的水平面上的线速度;
目标关节位置r10
Figure BDA00030138908800000714
目标足部接触r11
Figure BDA00030138908800000715
足部放置位置r12
Figure BDA00030138908800000716
为第n个足部在世界坐标系下的水平位置;
机器人朝向r13
Figure BDA0003013890880000081
为单位向量,该单位向量在机器人躯体坐标系中表示,指向目标点;
机器人目标位置r14
Figure BDA0003013890880000082
为目标点在世界坐标系下的水平位置,
Figure BDA0003013890880000083
为机器人在世界坐标系下的水平位置;
具体地,不同的任务与场景需要针对性地设计奖励,并使用到不同的奖励项。奖励项的权重wi需要根据具体机器人、任务与应用场景进行设计,例如:
四足行走奖励由上述前12个奖励项构成,具体表示为:
Figure BDA0003013890880000084
摔倒恢复奖励由上述前7个奖励项构成,具体表示为:
w1r1+w2r2+w3r3+w4r4+w5r5+w6r6+w7r7
协同奖励由上述所有14个奖励项构成,具体表示为:
Figure BDA0003013890880000085
上式中,wi为权重项。
优选地,所述底层网络的学习方法包括以下步骤:
进行初步学习:利用所述四足行走奖励和所述摔倒恢复奖励单独学习预设的摔倒恢复策略与四足行走策略,得到初步学习神经网络;
进行协同学习:将初步学习神经网络的权重迁移给底层网络,利用协同奖励对该底层网络进行学习。
具体地,该方法底层网络的学习方式为分步递进式训练,参见图2,包含第一步的初步学习和第二步的协同学习。初步学习分别训练四足行走策略和摔倒回复两种策略,训练用到的奖励项为四足行走奖励与摔倒恢复奖励。协同学习利用第一步训练得到的单一神经网络初始化多专家神经网络,最终进行协同训练。即将第一步训练出来的神经网络权重复制到多专家神经网络中的8个底层网络中,用于将第一步所学到的知识迁移到多专家神经网络。第二步协同训练用到的奖励为协同奖励,从而实现先学习简单的单一运动技能,再学习复杂的多运动技能结合,提升学习效果。
优选地,所述顶层网络对所有底层网络的权重与偏置进行融合,得到融合神经网络具体包括:
以顶层网络输出为权重g,利用权重g对底层网络的权重和偏置进行融合,得到融合权重、融合偏置以及融合神经网络。
具体地,本实施例采用图3的多专家神经网络进行举例说明,顶层网络和底层网络的层数可根据具体自行设置。本实施例以3层神经网络层数作为案例进行描述。
所述顶层网络表述为:
g=Φgate=Soft max(W2 Re LU(W1 Re LU(W0X+B0)+B1)+B2);
每个底层网络都有自己独立的权重和偏置。底层网络数量n需根据机器人、任务与应用场景进行设计,本实施例中以8个底层网络作为案例进行描述。第n个底层网络表述为:
Figure BDA0003013890880000091
其中W1、W2、W3、B1、B2、B3分别为顶层网络的权重和偏置;W1 n、W2 n、W3 n、B1 n
Figure BDA0003013890880000092
分别为第n个底层网络的权重和偏置;ReLU、Tanh、Softmax为激活函数。
融合时以顶层网络输出为权重g,对底层网络的网络权重和偏置W1 n、W2 n、W3 n、B1 n
Figure BDA0003013890880000093
进行融合,得到融合权重Wi fuse和融合偏置Bi fuse,Wi fuse=gnWi n,
Figure BDA0003013890880000094
本实施例中以8个底层专家网络作为案例进行描述,8个专家网各自负责不同的四足机器人运动技能。
机器人在运行时,顶层网络通过对本实施例中的8个底层神经网络进行融合,以实现不同四足运动技能之间的融合。该方法融合的是底层网络的权重与偏置。融合过程是一个加权平均过程,即通过加权平均的方法,以顶层网络输出为权重g对底层网络的网络权重与偏置进行融合。融合网络表示为:
Figure BDA0003013890880000101
。融合网络的输出值为目标关节角度。
优选地,所述将融合神经网络输出的目标关节角度传输给PD控制器具体包括:
设置目标关节角度的幅值上限和频率上限;
当所述目标关节角度中存在幅值超过幅值上限的幅值变化量时,去掉该幅值变化量;
当所述目标关节角度中存在频率超过频率上限的频率变化量时,利用低通滤波器去掉该频率变化量。
将过滤后的目标关节角度传输给PD控制器。
具体地,现实环境中因电机控制带宽、通讯延迟等因素,要求输出的控制指令的频率不能太高,否则电机无法很好地响应控制指令。所以该方法为了防止神经网络输出出现突变,给输出的变化量设置上限,超出上限的变化量将被截取掉。公式如下:
Figure BDA0003013890880000102
Δpclip=max(min(Δp,ε),-ε),pclip=p+Δpclip
其中Δp为目标值跟当前测定值之间的差,ε与-ε为差值的上限与下限。Δpclip为限制大小后的差值。pclip为最终限制了幅度的目标值。
该方法为了剔除输出中的高频变化成分,使用了一阶低通滤波,截止频率为5Hz,这样就能防止输出出现剧变,使得动作整体更加平滑柔顺。
实施例二:
一种基于多专家神经网络的机器人运动控制系统,包括处理器和存储器,所述处理器和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行以下方法:
设置奖励机制;
构建多专家神经网络;所述多专家神经网络包括一个顶层网络和至少两个底层网络,其中底层网络用于进行四足机器人不同运动技能的学习,顶层网络用于进行根据不同实际场景选择不同运动技能的学习;
在四足机器人运行过程中,顶层网络对所有底层网络的权重与偏置进行融合,得到融合神经网络,融合神经网络输出目标关节角度;
将融合神经网络输出的目标关节角度传输给PD控制器,转换成目标关节力矩,将所述目标关节力矩作为最终控制指令,发送给四足机器人中关节的电机。
优选地,所述将融合神经网络输出的目标关节角度传输给PD控制器具体包括:
设置目标关节角度的幅值上限和频率上限;
当所述目标关节角度中存在幅值超过幅值上限的幅值变化量时,去掉该幅值变化量;
当所述目标关节角度中存在频率超过频率上限的频率变化量时,利用低通滤波器去掉该频率变化量。
将过滤后的目标关节角度传输给PD控制器。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息。
本发明实施例所提供的系统,为简要描述,实施例部分未提及之处,可参考前述方法实施例中相应内容。
实施例三:
一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行以下方法:
设置奖励机制;
构建多专家神经网络;所述多专家神经网络包括一个顶层网络和至少两个底层网络,其中底层网络用于进行四足机器人不同运动技能的学习,顶层网络用于进行根据不同实际场景选择不同运动技能的学习;
在四足机器人运行过程中,顶层网络对所有底层网络的权重与偏置进行融合,得到融合神经网络,融合神经网络输出目标关节角度;
将融合神经网络输出的目标关节角度传输给PD控制器,转换成目标关节力矩,将所述目标关节力矩作为最终控制指令,发送给四足机器人中关节的电机。
所述计算机可读存储介质可以是前述任一实施例所述的终端的内部存储单元,例如终端的硬盘或内存。所述计算机可读存储介质也可以是所述终端的外部存储设备,例如所述终端上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述终端的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本发明实施例所提供的介质,为简要描述,实施例部分未提及之处,可参考前述方法实施例中相应内容。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (10)

1.一种四足机器人多重技能运动控制方法,其特征在于,包括以下步骤:
设置奖励机制;
构建多专家神经网络;所述多专家神经网络包括一个顶层网络和至少两个底层网络,其中底层网络用于进行四足机器人不同运动技能的学习,顶层网络用于进行根据不同实际场景选择不同运动技能的学习;
在四足机器人运行过程中,顶层网络对所有底层网络的权重与偏置进行融合,得到融合神经网络,融合神经网络输出目标关节角度;
将融合神经网络输出的目标关节角度传输给PD控制器,转换成目标关节力矩,将所述目标关节力矩作为最终控制指令,发送给四足机器人中关节的电机。
2.根据权利要求1所述四足机器人多重技能运动控制方法,其特征在于,
所述奖励机制包括以下奖励:四足行走奖励、摔倒恢复奖励与协同奖励。
3.根据权利要求2所述四足机器人多重技能运动控制方法,其特征在于,
所述奖励由独立的奖励项进行加权平均得到;
其中奖励项通过径向基函数
Figure FDA0003013890870000011
表示:
Figure FDA0003013890870000012
x为真实量,
Figure FDA0003013890870000013
为目标量,α为预设值,影响径向基函数的分布宽度。
4.根据权利要求3所述四足机器人多重技能运动控制方法,其特征在于,
所述奖励项包括:
躯体姿态r1、躯体高度r2、躯体速度r3、关节力矩r4、关节速度r5、足部地面接触r6、躯体地面接触r7、偏航角速度r8、腿部摆动与支撑r9、目标关节位置r10、目标足部接触r11、足部放置位置r12、机器人朝向r13、机器人目标位置r14
5.根据权利要求2所述四足机器人多重技能运动控制方法,其特征在于,
所述底层网络的学习方法包括以下步骤:
进行初步学习:利用所述四足行走奖励和所述摔倒恢复奖励单独学习预设的摔倒恢复策略与四足行走策略,得到初步学习神经网络;
进行协同学习:将初步学习神经网络的权重迁移给底层网络,利用协同奖励对该底层网络进行学习。
6.根据权利要求2所述四足机器人多重技能运动控制方法,其特征在于,所述顶层网络对所有底层网络的权重与偏置进行融合,得到融合神经网络具体包括:
以顶层网络输出为权重g,利用权重g对底层网络的权重和偏置进行融合,得到融合权重、融合偏置以及融合神经网络。
7.根据权利要求4所述四足机器人多重技能运动控制方法,其特征在于,所述将融合神经网络输出的目标关节角度传输给PD控制器具体包括:
设置目标关节角度的幅值上限和频率上限;
当所述目标关节角度中存在幅值超过幅值上限的幅值变化量时,去掉该幅值变化量;
当所述目标关节角度中存在频率超过频率上限的频率变化量时,利用低通滤波器去掉该频率变化量;
将过滤后的目标关节角度传输给PD控制器。
8.一种四足机器人多重技能运动控制系统,其特征在于,包括处理器和存储器,所述处理器和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行以下方法:
设置奖励机制;
构建多专家神经网络;所述多专家神经网络包括一个顶层网络和至少两个底层网络,其中底层网络用于进行四足机器人不同运动技能的学习,顶层网络用于进行根据不同实际场景选择不同运动技能的学习;
在四足机器人运行过程中,顶层网络对所有底层网络的权重与偏置进行融合,得到融合神经网络,融合神经网络输出目标关节角度;
将融合神经网络输出的目标关节角度传输给PD控制器,转换成目标关节力矩,将所述目标关节力矩作为最终控制指令,发送给四足机器人中关节的电机。
9.根据权利要求8所述四足机器人多重技能运动控制系统,其特征在于,所述将融合神经网络输出的目标关节角度传输给PD控制器具体包括:
设置目标关节角度的幅值上限和频率上限;
当所述目标关节角度中存在幅值超过幅值上限的幅值变化量时,去掉该幅值变化量;
当所述目标关节角度中存在频率超过频率上限的频率变化量时,利用低通滤波器去掉该频率变化量;
将过滤后的目标关节角度传输给PD控制器。
10.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行以下方法:
设置奖励机制;
构建多专家神经网络;所述多专家神经网络包括一个顶层网络和至少两个底层网络,其中底层网络用于进行四足机器人不同运动技能的学习,顶层网络用于进行根据不同实际场景选择不同运动技能的学习;
在四足机器人运行过程中,顶层网络对所有底层网络的权重与偏置进行融合,得到融合神经网络,融合神经网络输出目标关节角度;
将融合神经网络输出的目标关节角度传输给PD控制器,转换成目标关节力矩,将所述目标关节力矩作为最终控制指令,发送给四足机器人中关节的电机。
CN202110383403.9A 2021-04-09 2021-04-09 四足机器人多重技能运动控制方法、系统及介质 Active CN113110442B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110383403.9A CN113110442B (zh) 2021-04-09 2021-04-09 四足机器人多重技能运动控制方法、系统及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110383403.9A CN113110442B (zh) 2021-04-09 2021-04-09 四足机器人多重技能运动控制方法、系统及介质

Publications (2)

Publication Number Publication Date
CN113110442A true CN113110442A (zh) 2021-07-13
CN113110442B CN113110442B (zh) 2024-01-16

Family

ID=76715074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110383403.9A Active CN113110442B (zh) 2021-04-09 2021-04-09 四足机器人多重技能运动控制方法、系统及介质

Country Status (1)

Country Link
CN (1) CN113110442B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113821045A (zh) * 2021-08-12 2021-12-21 浙江大学 一种腿足机器人强化学习动作生成系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102200787A (zh) * 2011-04-18 2011-09-28 重庆大学 机器人行为多层次集成学习方法及系统
CN107688856A (zh) * 2017-07-24 2018-02-13 清华大学 基于深度强化学习的室内机器人场景主动识别方法
CN110662634A (zh) * 2017-05-29 2020-01-07 富兰卡爱米卡股份有限公司 用于控制关节型机器人的致动器的系统和方法
CN110930811A (zh) * 2019-11-11 2020-03-27 北京交通大学 一种适用于无人驾驶决策学习和训练的系统
KR20200042265A (ko) * 2018-10-15 2020-04-23 호남대학교 산학협력단 로봇 제어 시스템 및 이를 이용한 로봇 제어 방법
CN111111203A (zh) * 2020-01-16 2020-05-08 网易(杭州)网络有限公司 一种机器人的训练方法及装置、技能释放方法及装置
CN111580385A (zh) * 2020-05-11 2020-08-25 深圳阿米嘎嘎科技有限公司 基于深度强化学习的机器人行走控制方法、系统及介质
CN112488320A (zh) * 2020-09-25 2021-03-12 中国人民解放军军事科学院国防科技创新研究院 一种针对复杂条件下多智能体的训练方法及系统
CN112587378A (zh) * 2020-12-11 2021-04-02 中国科学院深圳先进技术研究院 基于视觉的外骨骼机器人足迹规划系统、方法及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102200787A (zh) * 2011-04-18 2011-09-28 重庆大学 机器人行为多层次集成学习方法及系统
CN110662634A (zh) * 2017-05-29 2020-01-07 富兰卡爱米卡股份有限公司 用于控制关节型机器人的致动器的系统和方法
CN107688856A (zh) * 2017-07-24 2018-02-13 清华大学 基于深度强化学习的室内机器人场景主动识别方法
KR20200042265A (ko) * 2018-10-15 2020-04-23 호남대학교 산학협력단 로봇 제어 시스템 및 이를 이용한 로봇 제어 방법
CN110930811A (zh) * 2019-11-11 2020-03-27 北京交通大学 一种适用于无人驾驶决策学习和训练的系统
CN111111203A (zh) * 2020-01-16 2020-05-08 网易(杭州)网络有限公司 一种机器人的训练方法及装置、技能释放方法及装置
CN111580385A (zh) * 2020-05-11 2020-08-25 深圳阿米嘎嘎科技有限公司 基于深度强化学习的机器人行走控制方法、系统及介质
CN112488320A (zh) * 2020-09-25 2021-03-12 中国人民解放军军事科学院国防科技创新研究院 一种针对复杂条件下多智能体的训练方法及系统
CN112587378A (zh) * 2020-12-11 2021-04-02 中国科学院深圳先进技术研究院 基于视觉的外骨骼机器人足迹规划系统、方法及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHUANYU YANG, ET AL.: "Multi-expert learning of adaptive legged locomotion", SCIENCE ROBOTICS, pages 1 - 14 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113821045A (zh) * 2021-08-12 2021-12-21 浙江大学 一种腿足机器人强化学习动作生成系统

Also Published As

Publication number Publication date
CN113110442B (zh) 2024-01-16

Similar Documents

Publication Publication Date Title
Lin et al. Data-based fault tolerant control for affine nonlinear systems through particle swarm optimized neural networks
Zhu et al. Reinforcement and imitation learning for diverse visuomotor skills
Yu et al. Sim-to-real transfer for biped locomotion
US11853886B2 (en) Recurrent neural network and training process for same
Gay et al. Learning robot gait stability using neural networks as sensory feedback function for central pattern generators
CN111580385A (zh) 基于深度强化学习的机器人行走控制方法、系统及介质
Mahmood et al. Decentrailized formation flight control of quadcopters using robust feedback linearization
Kumar et al. Adapting rapid motor adaptation for bipedal robots
Bohez et al. Imitate and repurpose: Learning reusable robot movement skills from human and animal behaviors
Ren et al. Generalization guarantees for imitation learning
Ota et al. Trajectory optimization for unknown constrained systems using reinforcement learning
Chaffre et al. Sim-to-real transfer with incremental environment complexity for reinforcement learning of depth-based robot navigation
Eimer et al. Self-paced context evaluation for contextual reinforcement learning
Wang et al. A continuous actor-critic reinforcement learning approach to flocking with fixed-wing UAVs
CN113110442A (zh) 四足机器人多重技能运动控制方法、系统及介质
Vos et al. Formation control of wheeled robots in the port-Hamiltonian framework
Kim et al. Learning and generalization of dynamic movement primitives by hierarchical deep reinforcement learning from demonstration
Singh et al. Learning bipedal walking on planned footsteps for humanoid robots
Su et al. Deep reinforcement learning method based on DDPG with simulated annealing for satellite attitude control system
Hoffmann et al. Incremental evolutionary design of TSK fuzzy controllers
Dooraki et al. Reinforcement learning based flight controller capable of controlling a quadcopter with four, three and two working motors
Luo et al. Balance between efficient and effective learning: Dense2sparse reward shaping for robot manipulation with environment uncertainty
Shojaei et al. A hybrid control scheme for a rotational inverted pendulum
Ranaweera et al. Bridging the reality gap between virtual and physical environments through reinforcement learning
Nagasaka et al. Acquisition of visually guided swing motion based on genetic algorithms and neural networks in two-armed bipedal robot

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant