CN113268933B

CN113268933B - 基于强化学习的蛇形急救机器人结构参数快速设计方法

Info

Publication number: CN113268933B
Application number: CN202110676186.2A
Authority: CN
Inventors: 李特; 刘海波; 刘行健; 崔文博; 庹桂本; 陈一同; 王永青
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2021-06-18
Filing date: 2021-06-18
Publication date: 2022-02-15
Anticipated expiration: 2041-06-18
Also published as: CN113268933A

Abstract

本发明基于深度强化学习的蛇形急救机器人结构参数快速设计方法属于蛇形急救机器人结构设计领域，涉及一种用于灾害搜救、基于深度强化学习的蛇形急救机器人结构参数快速设计方法。该方法先构建蛇形急救机器人参数多目标规划模型，针对机器人结构参数多目标规划问题进行马尔可夫建模。根据规划问题分别建立状态空间、动作空间与奖励函数；接着构建强化学习架构。最后对所构建的强化学习网络进行训练，实现蛇形急救机器人快速设计任务。本发明可以在保证完成任务指标的前提下，快速、高效完成蛇形急救机器人结构参数快速设计任务，从而获得综合性能较优的轻量化蛇形急救机器人结构参数。

Description

基于强化学习的蛇形急救机器人结构参数快速设计方法

技术领域

本发明属于蛇形急救机器人结构设计领域，涉及一种基于强化学习的蛇形急救机器人结构参数快速设计的方法。

背景技术

当如山洪、地震等重大灾害降临时，灾后救援一直是人们关注的重点，使用救援机器人参与灾后救援，既可以减少在救援过程中救援人员的伤亡，也可以利用其能跨越各种障碍地形的特点，提高救援的效率。因此，代替人或辅助人来进行救援工作的机器人，必须具备较强的环境适应能力。作为仿生机器人分支之一，蛇形机器人拥有较强的地形适应能力，能够在复杂环境下快速可靠地运动，尤其善于通过各类狭缝环境。但由于有些蛇形机器人采用履带驱动式结构，而履带驱动结构导致机器人整体尺寸较大、能耗较高的问题。因此，应保证蛇形急救机器人在能够完成任务目标的前提下尽可能保证快速轻量化设计。

近年来也有学者针对机器人结构优化问题提出了解决方案。2019年哈工大机器人(合肥)国际创新研究院在专利CN110232247A中公开了“一种基于有限元分析的阀门密封圈的优化设计方法”。该方法首先建立阀门的三维实体模型，对密封圈尺寸进行参数化建模，随后对实体模型与密封圈模型进行有限元分析，最终得到优化结构样式。虽然该方法优化效果较好，但是有限元结构优化方法对网格划分要求较高，网格划分越细，优化精度越高，但计算时间越久。

发明内容

本发明的目的是克服现有技术的缺陷，发明一种基于强化学习的蛇形急救机器人结构参数快速设计方法。该方法利用基于最大熵搜索策略算法实现在给定任务参数的情况下，能够迅速设计出一组轻量化机器人结构参数。可针对不同的翻越阶梯高度与跨越沟壑宽度这两个任务指标，在短时间快速设计出一组可以满足任务指标，并保证机器人质量轻量化的机器人参数。可针对同一任务不同任务需求参数，快速高效地完成设计任务。

本发明采用的技术方案是一种基于强化学习的蛇形急救机器人结构参数快速设计方法，该方法先构建蛇形急救机器人参数多目标规划模型，针对机器人结构参数多目标规划问题进行马尔可夫建模；根据问题分别建立状态空间、动作空间与奖励函数，构建强化学习架构；最后，对所构建的强化学习网络进行训练，实现蛇形急救机器人快速设计任务；方法的具体步骤如下：

步骤1：构建机器人参数多目标规划模型；

将蛇形急救机器人结构参数化，确定需要设计的变量：驱动模块长度l₁，核心模块长度l₂，机器人高度h，翻越台阶、沟壑过程中机器人核心模块与水平面夹角θ这四个参数；

针对翻越台阶任务过程中的越障关键阶段，建立障碍与所定义设计变量之间的关系式；该关系式定义为：

其中，H_max表示在当前结构参数下机器人所能翻越的最大台阶高度，x_G表示后驱动模块与地面呈垂直状态时机器人整体质心与后驱动模块中心线的水平距离，m_G1表示机器人驱动模块质量，m_G2为核心模块质量，m_G为机器人总体质量；

针对跨越沟壑任务过程中的越障关键阶段，建立障碍与所定义设计变量之间的关系式；该关系式定义为：

结合机器人轻量化、便携性要求，定义蛇形急救机器人质量约束条件：

min{m_G＝2m_G1+m_G2} (4)

步骤2：针对机器人结构参数多目标规划问题进行马尔可夫建模；

针对机器人结构参数多目标规划问题，智能体需要不断尝试各组结构参数，通过观察当前状态与奖励，训练神经网络，不断向能获得最大期望奖励值的策略方向进行优化；

在t时刻状态S被定义为：S(t)＝[dH,dS,m_s]， (5)

其中各参数被定义为：dH＝H_max-H_target (6)

dS＝S_max-S_target (7)

m_s＝2m_G1+m_G2 (8)

其中，dH是爬坡能力指标项、dS是翻越沟壑能力指标项，H_max表示理论上当前机器人所能翻越的最大台阶高度，S_max表示理论上当前机器人所能跨越的最大沟壑宽度，H_target代表机器人翻越台阶的任务需求高度，S_target代表机器人跨越沟壑的任务需求长度；

在t时刻动作A被定义为：a(t)＝[Δl₁,Δl₂,Δh,Δθ]， (9)

其中，Δl₁表示在一个时间步内驱动模块长度l₁的改变量，Δl₂表示在一个时间步内核心模块长度l₂的改变量，Δh表示在一个时间步内机器人高度h的改变量，Δθ表示在一个时间步内核心模块与水平面夹角θ的改变量；

该动作空间各项参数范围被定义为：

Δl₁∈(-5mm,5mm)；Δl₂∈(-5mm,5mm)；Δh∈(-1mm,1mm)；Δθ∈(-1°,1°)；

在t时刻奖励R被定义为：

r_m＝2m_G1+m_G2 (12)

其中，w_m、w_h、w_s分别是质量惩罚项m_s、爬坡能力指标项dH、翻越沟壑能力指标项dS的标准化系数；

步骤3：构建强化学习架构。

本发明中选用Soft-Actor-Critic算法为基础框架。在蛇形急救机器人结构参数快速设计任务中SAC算法训练参数设置如下：隐藏层层数为2层；隐藏层神经元数量为256；学习率为0.0001；经验池容量为500000；温度系数设置为自动调节；温度系数学习率为0.0001；

经上述内容构建强化学习网络，智能体在结构参数设计任务过程中，利用贝尔曼方程计算预期评估值Q_soft(s_t,a_t)：

其中，Q_soft(s_t,a_t)表示智能体在t时刻s_t状态下采取动作a_t时的预期评估值，Q_soft(s_t+1,a_t+1)表示智能体在t时刻s_t+1状态下采取动作a_t+1时的预期评估值，α为温度系数，log_π(s_t+1,a_t+1)为熵正则项。

根据公式(7)构建Q值网络更新方程:

构建策略网络更新方程：

其中π_φ(·|s_t)代表当前的策略分布，Q_θ(s_t,·)表示当前根据采样估计到的Q值分布，Z(s_t)是派分函数，作用是令Q值分布标准化。

构建温度系数更新方程：

构建目标网络更新方程：

步骤4：对强化学习网络进行训练

本发明中所设计的强化学习网络训练过程如下：

A.初始化折扣因子、学习率等超参数，并对神经网络进行初始化，其中权值采用随机初始化，偏置项采用常值初始化；

B.初始化初始状态，在取值范围内分别对翻越台阶的任务需求高度H_target、跨越沟壑的任务需求长度S_target、驱动模块长度l₁，核心模块长度l₂、机器人高度h、在跨越台阶任务临界状态时核心模块与水平面夹角θ进行随机取值；

C.将当前状态s_t输入进神经网络进行分析，输出设计动作a_t；

D.机器人更新结构参数并从预设奖励函数中得到奖励反馈r_t以及当前状态s_t+1；

E.将该时间步内采集的样本{s_t,a_t,r_t,s_t+1}存储进经验池；

F.更新网络参数；

G.判断本轮学习过程是否完结，否则跳转回B；

经训练后，收敛后的强化学习算法能够快速高效的完成对任意给定任务需求进行蛇形急救机器人结构参数快速设计的任务。

本发明的有益效果是：这种方法提出了一种针对蛇形急救机器人进行高效结构参数快速设计的方法。该方法通过对蛇形急救机器人越障过程进行分析，得到一组带约束条件的多目标优化方程。运用强化学习的方法在合理范围内对该优化方程进行求解，快速设计出一组蛇形急救机器人结构参数。该方法除了可以针对不同的翻越阶梯高度与跨越沟壑宽度这两个任务指标，设计出一组可以满足任务指标的轻量化机器人参数外，与遗传算法、有限元分析等方法相比，还可以较少设计的时间。

附图说明

附图1-本发明算法流程框图。

附图2-蛇形急救机器人结构简图。其中，1-1前驱动模块，1-2后驱动模块，2核心模块，3前驱动模块导向轮，4前驱动轮，5后驱动轮，6后驱动模块导向轮。

附图3-翻越阶梯关键阶段示意图。其中，l₁-驱动模块长度，l₂-核心模块长度，H_max-在当前结构参数下机器人所能翻越的最大台阶高度，P-机器人整体重心，P₁-驱动模块重心，P₂-核心模块重心，h-机器人高度，θ-翻越沟壑过程中机器人核心模块与水平面夹角。

附图4-翻越沟壑关键阶段示意图。其中，P-机器人整体重心。

附图5-结构参数设计过程流程图。

附图6-结构参数设计任务训练过程回报值。

具体实施方式

结合附图和技术方案详细说明本发明的实施方式。

本发明提出的利用强化学习高效实现蛇形急救机器人参数快速设计的方法，其整体流程如图1所示。先构建机器人参数多目标规划模型，针对机器人结构参数多目标规划问题进行马尔可夫建模。再构建强化学习架构，对强化学习网络进行训练，实现蛇形急救机器人结构参数快速设计任务。

方法的具体步骤如下：

步骤1：构建机器人参数多目标规划模型。

将蛇形急救机器人结构参数化，蛇形急救机器人结构简图如图2所示。其中，前驱动模块1-1与后驱动模块1-2被设计为完全一样的结构。

确定需要设计的变量为：驱动模块1长度l₁，核心模块2长度l₂，机器人高度h，翻越沟壑过程中，机器人核心模块2与水平面夹角θ这四个参数。

机器人翻越阶梯关键阶段示意图，如图3所示。针对翻越台阶任务过程中的越障关键阶段，根据公式(1)、(2)建立障碍与所定义设计变量之间的关系式，求解当前结构参数下机器人所能翻越的最大台阶高度H_max和后驱动模块与地面呈垂直状态时机器人整体质心与后驱动模块中心线的水平距离。

如图4所示，针对跨越沟壑任务过程中的越障关键阶段，根据公式(3)建立障碍与所定义设计变量之间的关系式。结合机器人轻量化、便携性要求，根据公式(4)定义蛇形急救机器人质量约束条件，在此实施例中，各模块材料及外壳厚度均相同，且(2)式中各模块质量在公式中仅呈现比例关系，在(4)式中仅要求总质量最小，因此在实际规划过程中令驱动模块1质量m_G1＝l₁，核心模块2质量m_G2＝l₂。

步骤2：针对机器人结构参数多目标规划问题进行马尔可夫建模。

针对机器人结构参数多目标规划问题，智能体需要不断尝试各组结构参数，通过观察当前状态(设计结果)与奖励，训练神经网络，不断向能获得最大期望奖励值的策略方向进行优化。

根据公式(5)(6)(7)，定义在t时刻状态S为S(t)＝[dH,dS,m_s]。

其中，dH是爬坡能力指标项、dS是翻越沟壑能力指标项，H_max表示理论上当前机器人所能翻越的最大台阶高度，S_max表示理论上当前机器人所能跨越的最大沟壑宽度，H_target代表机器人翻越台阶的任务需求高度，S_target代表机器人跨越沟壑的任务需求长度。

根据公式(8)、(9)、(10)定义在t时刻奖励R，其中w_m＝0.01、w_h＝0.005、w_s＝0.005分别是质量惩罚项r_m、爬坡能力指标项dH、翻越沟壑能力指标项dS的标准化系数。

步骤3：构建强化学习架构。

本发明中选用Soft-Actor-Critic(SAC)算法为基础框架。在蛇形急救机器人结构参数快速设计任务中SAC算法训练参数设置如下：隐藏层层数为2层；隐藏层神经元数量为256；学习率为0.0001；经验池容量为500000；温度系数设置为自动调节；温度系数学习率为0.0001。

经上述内容构建深度强化学习网络，智能体在结构参数快速设计任务过程中，公式(13)、(15)、(17)分别更新Q值网络参数、策略网络参数、目标网络参数。

步骤4：对深度强化学习网络进行训练。

结合图5，本发明中所设计的深度强化学习网络训练过程如下：

A.初始化折扣因子、学习率等超参数，并对神经网络进行初始化，其中权值采用随机初始化，偏置项采用常值初始化。

B.初始化初始状态，在取值范围内分别对翻越台阶的任务需求高度H_target、跨越沟壑的任务需求长度S_target、驱动模块1长度l₁，核心模块2长度l₂、机器人高度h、在跨越台阶任务临界状态时核心模块2与水平面夹角θ进行随机取值。

C.将当前状态s_t输入进神经网络进行分析，输出设计动作a_t。

D.机器人更新结构参数并从预设奖励函数中得到奖励反馈r_t以及当前状态s_t+1。

E.将该时间步内采集的样本{s_t,a_t,r_t,s_t+1}存储进经验池。

F.更新网络参数

G.判断本轮学习过程是否完结，否则跳转回B。

训练过程中奖励曲线如图6所示，横坐标代表训练回合数，纵坐标代表智能体在每个回合所获得的平均奖励值。在前400回合，智能体采用探索策略，因此每回合得到的平均奖励值较低且波动较大。在400回合后，智能体根据经验池收集到的数据开始学习；当训练到达500回合时，平均奖励值在值为-5处小幅度波动，此时算法已经收敛。

收敛后的强化学习智能体可以针对翻越台阶的任务需求高度H_target、跨越沟壑的任务需求长度S_target变化的情况下。快速设计出一组蛇形急救机器人结构参数，并且保证该机器人质量较小。该方法测试结果如下表所示：

不同任务目标下的设计结果

以第1组实验数据举例，此时H_target＝175mm、S_target＝150mm，经验证，ω_h×dH＝0.2303，ω_s×dS＝0.7770，r_m×m_s＝2.908。该方法不仅能够保证蛇形急救机器人能够完成用户给定的任务目标，而且还能够保证机器人轻量化的要求。

Claims

1.一种基于强化学习的蛇形急救机器人结构参数快速设计方法，其特征是，该方法先构建蛇形急救机器人参数多目标规划模型；然后针对机器人结构参数多目标规划问题进行马尔可夫建模，根据规划问题分别建立状态空间、动作空间与奖励函数；接着构建强化学习架构；最后对所构建的强化学习网络进行训练，实现蛇形急救机器人快速设计任务；方法的具体步骤如下：

步骤1：构建机器人参数多目标规划模型；

将蛇形急救机器人结构参数化，确定需要设计的变量为驱动模块长度l₁，核心模块长度l₂，机器人高度h，翻越台阶、沟壑过程中机器人核心模块与水平面夹角θ这四个参数；