CN113268933B - 基于强化学习的蛇形急救机器人结构参数快速设计方法 - Google Patents

基于强化学习的蛇形急救机器人结构参数快速设计方法 Download PDF

Info

Publication number
CN113268933B
CN113268933B CN202110676186.2A CN202110676186A CN113268933B CN 113268933 B CN113268933 B CN 113268933B CN 202110676186 A CN202110676186 A CN 202110676186A CN 113268933 B CN113268933 B CN 113268933B
Authority
CN
China
Prior art keywords
robot
task
reinforcement learning
target
crossing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110676186.2A
Other languages
English (en)
Other versions
CN113268933A (zh
Inventor
李特
刘海波
刘行健
崔文博
庹桂本
陈一同
王永青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202110676186.2A priority Critical patent/CN113268933B/zh
Publication of CN113268933A publication Critical patent/CN113268933A/zh
Application granted granted Critical
Publication of CN113268933B publication Critical patent/CN113268933B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明基于深度强化学习的蛇形急救机器人结构参数快速设计方法属于蛇形急救机器人结构设计领域,涉及一种用于灾害搜救、基于深度强化学习的蛇形急救机器人结构参数快速设计方法。该方法先构建蛇形急救机器人参数多目标规划模型,针对机器人结构参数多目标规划问题进行马尔可夫建模。根据规划问题分别建立状态空间、动作空间与奖励函数;接着构建强化学习架构。最后对所构建的强化学习网络进行训练,实现蛇形急救机器人快速设计任务。本发明可以在保证完成任务指标的前提下,快速、高效完成蛇形急救机器人结构参数快速设计任务,从而获得综合性能较优的轻量化蛇形急救机器人结构参数。

Description

基于强化学习的蛇形急救机器人结构参数快速设计方法
技术领域
本发明属于蛇形急救机器人结构设计领域,涉及一种基于强化学习的蛇形急救机器人结构参数快速设计的方法。
背景技术
当如山洪、地震等重大灾害降临时,灾后救援一直是人们关注的重点,使用救援机器人参与灾后救援,既可以减少在救援过程中救援人员的伤亡,也可以利用其能跨越各种障碍地形的特点,提高救援的效率。因此,代替人或辅助人来进行救援工作的机器人,必须具备较强的环境适应能力。作为仿生机器人分支之一,蛇形机器人拥有较强的地形适应能力,能够在复杂环境下快速可靠地运动,尤其善于通过各类狭缝环境。但由于有些蛇形机器人采用履带驱动式结构,而履带驱动结构导致机器人整体尺寸较大、能耗较高的问题。因此,应保证蛇形急救机器人在能够完成任务目标的前提下尽可能保证快速轻量化设计。
近年来也有学者针对机器人结构优化问题提出了解决方案。2019年哈工大机器人(合肥)国际创新研究院在专利CN110232247A中公开了“一种基于有限元分析的阀门密封圈的优化设计方法”。该方法首先建立阀门的三维实体模型,对密封圈尺寸进行参数化建模,随后对实体模型与密封圈模型进行有限元分析,最终得到优化结构样式。虽然该方法优化效果较好,但是有限元结构优化方法对网格划分要求较高,网格划分越细,优化精度越高,但计算时间越久。
发明内容
本发明的目的是克服现有技术的缺陷,发明一种基于强化学习的蛇形急救机器人结构参数快速设计方法。该方法利用基于最大熵搜索策略算法实现在给定任务参数的情况下,能够迅速设计出一组轻量化机器人结构参数。可针对不同的翻越阶梯高度与跨越沟壑宽度这两个任务指标,在短时间快速设计出一组可以满足任务指标,并保证机器人质量轻量化的机器人参数。可针对同一任务不同任务需求参数,快速高效地完成设计任务。
本发明采用的技术方案是一种基于强化学习的蛇形急救机器人结构参数快速设计方法,该方法先构建蛇形急救机器人参数多目标规划模型,针对机器人结构参数多目标规划问题进行马尔可夫建模;根据问题分别建立状态空间、动作空间与奖励函数,构建强化学习架构;最后,对所构建的强化学习网络进行训练,实现蛇形急救机器人快速设计任务;方法的具体步骤如下:
步骤1:构建机器人参数多目标规划模型;
将蛇形急救机器人结构参数化,确定需要设计的变量:驱动模块长度l1,核心模块长度l2,机器人高度h,翻越台阶、沟壑过程中机器人核心模块与水平面夹角θ这四个参数;
针对翻越台阶任务过程中的越障关键阶段,建立障碍与所定义设计变量之间的关系式;该关系式定义为:
Figure GDA0003391175540000021
Figure GDA0003391175540000022
其中,Hmax表示在当前结构参数下机器人所能翻越的最大台阶高度,xG表示后驱动模块与地面呈垂直状态时机器人整体质心与后驱动模块中心线的水平距离,mG1表示机器人驱动模块质量,mG2为核心模块质量,mG为机器人总体质量;
针对跨越沟壑任务过程中的越障关键阶段,建立障碍与所定义设计变量之间的关系式;该关系式定义为:
Figure GDA0003391175540000023
结合机器人轻量化、便携性要求,定义蛇形急救机器人质量约束条件:
min{mG=2mG1+mG2} (4)
步骤2:针对机器人结构参数多目标规划问题进行马尔可夫建模;
针对机器人结构参数多目标规划问题,智能体需要不断尝试各组结构参数,通过观察当前状态与奖励,训练神经网络,不断向能获得最大期望奖励值的策略方向进行优化;
在t时刻状态S被定义为:S(t)=[dH,dS,ms], (5)
其中各参数被定义为:dH=Hmax-Htarget (6)
dS=Smax-Starget (7)
ms=2mG1+mG2 (8)
其中,dH是爬坡能力指标项、dS是翻越沟壑能力指标项,Hmax表示理论上当前机器人所能翻越的最大台阶高度,Smax表示理论上当前机器人所能跨越的最大沟壑宽度,Htarget代表机器人翻越台阶的任务需求高度,Starget代表机器人跨越沟壑的任务需求长度;
在t时刻动作A被定义为:a(t)=[Δl1,Δl2,Δh,Δθ], (9)
其中,Δl1表示在一个时间步内驱动模块长度l1的改变量,Δl2表示在一个时间步内核心模块长度l2的改变量,Δh表示在一个时间步内机器人高度h的改变量,Δθ表示在一个时间步内核心模块与水平面夹角θ的改变量;
该动作空间各项参数范围被定义为:
Δl1∈(-5mm,5mm);Δl2∈(-5mm,5mm);Δh∈(-1mm,1mm);Δθ∈(-1°,1°);
在t时刻奖励R被定义为:
Figure GDA0003391175540000031
Figure GDA0003391175540000032
rm=2mG1+mG2 (12)
其中,wm、wh、ws分别是质量惩罚项ms、爬坡能力指标项dH、翻越沟壑能力指标项dS的标准化系数;
步骤3:构建强化学习架构。
本发明中选用Soft-Actor-Critic算法为基础框架。在蛇形急救机器人结构参数快速设计任务中SAC算法训练参数设置如下:隐藏层层数为2层;隐藏层神经元数量为256;学习率为0.0001;经验池容量为500000;温度系数设置为自动调节;温度系数学习率为0.0001;
经上述内容构建强化学习网络,智能体在结构参数设计任务过程中,利用贝尔曼方程计算预期评估值Qsoft(st,at):
Figure GDA0003391175540000041
其中,Qsoft(st,at)表示智能体在t时刻st状态下采取动作at时的预期评估值,Qsoft(st+1,at+1)表示智能体在t时刻st+1状态下采取动作at+1时的预期评估值,α为温度系数,logπ(st+1,at+1)为熵正则项。
根据公式(7)构建Q值网络更新方程:
Figure GDA0003391175540000042
Figure GDA0003391175540000043
构建策略网络更新方程:
Figure GDA0003391175540000044
Figure GDA0003391175540000045
其中πφ(·|st)代表当前的策略分布,Qθ(st,·)表示当前根据采样估计到的Q值分布,Z(st)是派分函数,作用是令Q值分布标准化。
构建温度系数更新方程:
Figure GDA0003391175540000046
构建目标网络更新方程:
Figure GDA0003391175540000047
步骤4:对强化学习网络进行训练
本发明中所设计的强化学习网络训练过程如下:
A.初始化折扣因子、学习率等超参数,并对神经网络进行初始化,其中权值采用随机初始化,偏置项采用常值初始化;
B.初始化初始状态,在取值范围内分别对翻越台阶的任务需求高度Htarget、跨越沟壑的任务需求长度Starget、驱动模块长度l1,核心模块长度l2、机器人高度h、在跨越台阶任务临界状态时核心模块与水平面夹角θ进行随机取值;
C.将当前状态st输入进神经网络进行分析,输出设计动作at
D.机器人更新结构参数并从预设奖励函数中得到奖励反馈rt以及当前状态st+1
E.将该时间步内采集的样本{st,at,rt,st+1}存储进经验池;
F.更新网络参数;
G.判断本轮学习过程是否完结,否则跳转回B;
经训练后,收敛后的强化学习算法能够快速高效的完成对任意给定任务需求进行蛇形急救机器人结构参数快速设计的任务。
本发明的有益效果是:这种方法提出了一种针对蛇形急救机器人进行高效结构参数快速设计的方法。该方法通过对蛇形急救机器人越障过程进行分析,得到一组带约束条件的多目标优化方程。运用强化学习的方法在合理范围内对该优化方程进行求解,快速设计出一组蛇形急救机器人结构参数。该方法除了可以针对不同的翻越阶梯高度与跨越沟壑宽度这两个任务指标,设计出一组可以满足任务指标的轻量化机器人参数外,与遗传算法、有限元分析等方法相比,还可以较少设计的时间。
附图说明
附图1-本发明算法流程框图。
附图2-蛇形急救机器人结构简图。其中,1-1前驱动模块,1-2后驱动模块,2核心模块,3前驱动模块导向轮,4前驱动轮,5后驱动轮,6后驱动模块导向轮。
附图3-翻越阶梯关键阶段示意图。其中,l1-驱动模块长度,l2-核心模块长度,Hmax-在当前结构参数下机器人所能翻越的最大台阶高度,P-机器人整体重心,P1-驱动模块重心,P2-核心模块重心,h-机器人高度,θ-翻越沟壑过程中机器人核心模块与水平面夹角。
附图4-翻越沟壑关键阶段示意图。其中,P-机器人整体重心。
附图5-结构参数设计过程流程图。
附图6-结构参数设计任务训练过程回报值。
具体实施方式
结合附图和技术方案详细说明本发明的实施方式。
本发明提出的利用强化学习高效实现蛇形急救机器人参数快速设计的方法,其整体流程如图1所示。先构建机器人参数多目标规划模型,针对机器人结构参数多目标规划问题进行马尔可夫建模。再构建强化学习架构,对强化学习网络进行训练,实现蛇形急救机器人结构参数快速设计任务。
方法的具体步骤如下:
步骤1:构建机器人参数多目标规划模型。
将蛇形急救机器人结构参数化,蛇形急救机器人结构简图如图2所示。其中,前驱动模块1-1与后驱动模块1-2被设计为完全一样的结构。
确定需要设计的变量为:驱动模块1长度l1,核心模块2长度l2,机器人高度h,翻越沟壑过程中,机器人核心模块2与水平面夹角θ这四个参数。
机器人翻越阶梯关键阶段示意图,如图3所示。针对翻越台阶任务过程中的越障关键阶段,根据公式(1)、(2)建立障碍与所定义设计变量之间的关系式,求解当前结构参数下机器人所能翻越的最大台阶高度Hmax和后驱动模块与地面呈垂直状态时机器人整体质心与后驱动模块中心线的水平距离。
如图4所示,针对跨越沟壑任务过程中的越障关键阶段,根据公式(3)建立障碍与所定义设计变量之间的关系式。结合机器人轻量化、便携性要求,根据公式(4)定义蛇形急救机器人质量约束条件,在此实施例中,各模块材料及外壳厚度均相同,且(2)式中各模块质量在公式中仅呈现比例关系,在(4)式中仅要求总质量最小,因此在实际规划过程中令驱动模块1质量mG1=l1,核心模块2质量mG2=l2
步骤2:针对机器人结构参数多目标规划问题进行马尔可夫建模。
针对机器人结构参数多目标规划问题,智能体需要不断尝试各组结构参数,通过观察当前状态(设计结果)与奖励,训练神经网络,不断向能获得最大期望奖励值的策略方向进行优化。
根据公式(5)(6)(7),定义在t时刻状态S为S(t)=[dH,dS,ms]。
其中,dH是爬坡能力指标项、dS是翻越沟壑能力指标项,Hmax表示理论上当前机器人所能翻越的最大台阶高度,Smax表示理论上当前机器人所能跨越的最大沟壑宽度,Htarget代表机器人翻越台阶的任务需求高度,Starget代表机器人跨越沟壑的任务需求长度。
根据公式(8)、(9)、(10)定义在t时刻奖励R,其中wm=0.01、wh=0.005、ws=0.005分别是质量惩罚项rm、爬坡能力指标项dH、翻越沟壑能力指标项dS的标准化系数。
步骤3:构建强化学习架构。
本发明中选用Soft-Actor-Critic(SAC)算法为基础框架。在蛇形急救机器人结构参数快速设计任务中SAC算法训练参数设置如下:隐藏层层数为2层;隐藏层神经元数量为256;学习率为0.0001;经验池容量为500000;温度系数设置为自动调节;温度系数学习率为0.0001。
经上述内容构建深度强化学习网络,智能体在结构参数快速设计任务过程中,公式(13)、(15)、(17)分别更新Q值网络参数、策略网络参数、目标网络参数。
步骤4:对深度强化学习网络进行训练。
结合图5,本发明中所设计的深度强化学习网络训练过程如下:
A.初始化折扣因子、学习率等超参数,并对神经网络进行初始化,其中权值采用随机初始化,偏置项采用常值初始化。
B.初始化初始状态,在取值范围内分别对翻越台阶的任务需求高度Htarget、跨越沟壑的任务需求长度Starget、驱动模块1长度l1,核心模块2长度l2、机器人高度h、在跨越台阶任务临界状态时核心模块2与水平面夹角θ进行随机取值。
C.将当前状态st输入进神经网络进行分析,输出设计动作at
D.机器人更新结构参数并从预设奖励函数中得到奖励反馈rt以及当前状态st+1
E.将该时间步内采集的样本{st,at,rt,st+1}存储进经验池。
F.更新网络参数
G.判断本轮学习过程是否完结,否则跳转回B。
训练过程中奖励曲线如图6所示,横坐标代表训练回合数,纵坐标代表智能体在每个回合所获得的平均奖励值。在前400回合,智能体采用探索策略,因此每回合得到的平均奖励值较低且波动较大。在400回合后,智能体根据经验池收集到的数据开始学习;当训练到达500回合时,平均奖励值在值为-5处小幅度波动,此时算法已经收敛。
收敛后的强化学习智能体可以针对翻越台阶的任务需求高度Htarget、跨越沟壑的任务需求长度Starget变化的情况下。快速设计出一组蛇形急救机器人结构参数,并且保证该机器人质量较小。该方法测试结果如下表所示:
不同任务目标下的设计结果
Figure GDA0003391175540000081
以第1组实验数据举例,此时Htarget=175mm、Starget=150mm,经验证,ωh×dH=0.2303,ωs×dS=0.7770,rm×ms=2.908。该方法不仅能够保证蛇形急救机器人能够完成用户给定的任务目标,而且还能够保证机器人轻量化的要求。

Claims (1)

1.一种基于强化学习的蛇形急救机器人结构参数快速设计方法,其特征是,该方法先构建蛇形急救机器人参数多目标规划模型;然后针对机器人结构参数多目标规划问题进行马尔可夫建模,根据规划问题分别建立状态空间、动作空间与奖励函数;接着构建强化学习架构;最后对所构建的强化学习网络进行训练,实现蛇形急救机器人快速设计任务;方法的具体步骤如下:
步骤1:构建机器人参数多目标规划模型;
将蛇形急救机器人结构参数化,确定需要设计的变量为驱动模块长度l1,核心模块长度l2,机器人高度h,翻越台阶、沟壑过程中机器人核心模块与水平面夹角θ这四个参数;
针对翻越台阶任务过程中的越障关键阶段,建立障碍与所定义设计变量之间的关系式;该关系式定义为:
Figure FDA0003391175530000011
Figure FDA0003391175530000012
其中,Hmax表示理论上在当前结构参数下机器人所能翻越的最大台阶高度,xG表示后驱动模块与地面呈垂直状态时机器人整体质心与后驱动模块中心线的水平距离,mG1表示机器人驱动模块质量,mG2为核心模块质量,mG为机器人总体质量;
针对跨越沟壑任务过程中的越障关键阶段,建立障碍与所定义设计变量之间的关系式;该关系式定义为:
Figure FDA0003391175530000013
结合机器人轻量化、便携性要求,定义蛇形急救机器人质量约束条件:
min{mG=2mG1+mG2} (4)
步骤2:针对机器人结构参数多目标规划问题进行马尔可夫建模;
针对机器人结构参数多目标规划问题,智能体需要不断尝试各组结构参数,通过观察当前状态与奖励,训练神经网络,不断向能获得最大期望奖励值的策略方向进行优化;
在t时刻状态S被定义为:S(t)=[dH,dS,ms],(5)
其中,各参数被定义为:
dH=Hmax-Htarget (6)
dS=Smax-Starget (7)
ms=2mG1+mG2 (8)
其中,dH是爬坡能力指标项、dS是翻越沟壑能力指标项,Smax表示理论上当前机器人所能跨越的最大沟壑宽度,Htarget代表机器人翻越台阶的任务需求高度,Starget代表机器人跨越沟壑的任务需求长度;
在t时刻动作A被定义为:a(t)=[Δl1,Δl2,Δh,Δθ],(9)
该动作空间各项参数范围被定义为:Δl1∈(-5mm,5mm);Δl2∈(-5mm,5mm);Δh∈(-1mm,1mm);Δθ∈(-1°,1°);
其中,Δl1表示在一个时间步内驱动模块长度l1的改变量,Δl2表示在一个时间步内核心模块长度l2的改变量,Δh表示在一个时间步内机器人高度h的改变量,Δθ表示在一个时间步内核心模块与水平面夹角θ的改变量;
在t时刻奖励r被定义为:
Figure FDA0003391175530000021
Figure FDA0003391175530000022
rm=2mG1+mG2 (12)
其中,wm、wh、ws分别是质量惩罚项rm、爬坡能力指标项dH、翻越沟壑能力指标项dS的标准化系数;
步骤3:构建强化学习架构;
选用Soft-Actor-Critic算法为基础框架;在蛇形急救机器人结构参数快速设计任务中SAC算法训练参数设置如下:隐藏层层数为2层;隐藏层神经元数量为256;学习率为0.0001;经验池容量为500000;温度系数设置为自动调节;
温度系数学习率为0.0001;
经上述内容构建强化学习网络,智能体在结构参数设计任务过程中,利用贝尔曼方程计算预期评估值Qsoft(st,at):
Figure FDA0003391175530000023
其中,Qsoft(st,at)表示智能体在t时刻st状态下采取动作at时的预期评估值,Qsoft(st+1,at+1)表示智能体在t时刻st+1状态下采取动作at+1时的预期评估值,α为温度系数,logπ(st+1,at+1)为熵正则项;
根据公式(7)构建Q值网络更新方程:
Figure FDA0003391175530000031
Figure FDA0003391175530000032
构建策略网络更新方程:
Figure FDA0003391175530000033
Figure FDA0003391175530000034
其中πφ(·|st)代表当前的策略分布,Qθ(st,·)表示当前根据采样估计到的Q值分布,Z(st)是派分函数,作用是令Q值分布标准化;
构建温度系数更新方程:
Figure FDA0003391175530000035
构建目标网络更新方程:
Figure FDA0003391175530000036
步骤4:对强化学习网络进行训练
所设计的强化学习网络训练过程如下:
A.初始化折扣因子、学习率,并对神经网络进行初始化,其中权值采用随机初始化,偏置项采用常值初始化;
B.初始化初始状态,在取值范围内分别对翻越台阶的任务需求高度Htarget、跨越沟壑的任务需求长度Starget、驱动模块长度l1,核心模块长度l2、机器人高度h、在跨越台阶任务临界状态时核心模块与水平面夹角θ进行随机取值;
C.将当前状态st输入进神经网络进行分析,输出设计动作at
D.机器人更新结构参数并从预设奖励函数中得到奖励反馈rt以及当前状态st+1
E.将当前时间步内采集的样本{st,at,rt,st+1}存储进经验池;
F.更新网络参数
G.判断本轮学习过程是否完结,否则跳转回B;
经训练后,收敛后的强化学习算法能够针对不同的翻越阶梯高度与跨越沟壑宽度这两个任务指标,在短时间内快速设计出一组能够满足任务指标,并保证机器人质量轻量化的机器人参数。
CN202110676186.2A 2021-06-18 2021-06-18 基于强化学习的蛇形急救机器人结构参数快速设计方法 Active CN113268933B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110676186.2A CN113268933B (zh) 2021-06-18 2021-06-18 基于强化学习的蛇形急救机器人结构参数快速设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110676186.2A CN113268933B (zh) 2021-06-18 2021-06-18 基于强化学习的蛇形急救机器人结构参数快速设计方法

Publications (2)

Publication Number Publication Date
CN113268933A CN113268933A (zh) 2021-08-17
CN113268933B true CN113268933B (zh) 2022-02-15

Family

ID=77235224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110676186.2A Active CN113268933B (zh) 2021-06-18 2021-06-18 基于强化学习的蛇形急救机器人结构参数快速设计方法

Country Status (1)

Country Link
CN (1) CN113268933B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115056868A (zh) * 2022-05-16 2022-09-16 王维 一种行进装置的越障方法及应用该方法的行进装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109760046A (zh) * 2018-12-27 2019-05-17 西北工业大学 基于强化学习的空间机器人捕获翻滚目标运动规划方法
CN110333739A (zh) * 2019-08-21 2019-10-15 哈尔滨工程大学 一种基于强化学习的auv行为规划及动作控制方法
CN110666793A (zh) * 2019-09-11 2020-01-10 大连理工大学 基于深度强化学习实现机器人方形零件装配的方法
CN112596515A (zh) * 2020-11-25 2021-04-02 北京物资学院 一种多物流机器人移动控制方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170032245A1 (en) * 2015-07-01 2017-02-02 The Board Of Trustees Of The Leland Stanford Junior University Systems and Methods for Providing Reinforcement Learning in a Deep Learning System
JP7080811B2 (ja) * 2015-09-11 2022-06-06 グーグル エルエルシー 強化学習ニューラルネットワークのトレーニング
CN111523737B (zh) * 2020-05-29 2022-06-28 四川大学 深度q网络驱动的电力系统运行方式自动趋优调整方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109760046A (zh) * 2018-12-27 2019-05-17 西北工业大学 基于强化学习的空间机器人捕获翻滚目标运动规划方法
CN110333739A (zh) * 2019-08-21 2019-10-15 哈尔滨工程大学 一种基于强化学习的auv行为规划及动作控制方法
CN110666793A (zh) * 2019-09-11 2020-01-10 大连理工大学 基于深度强化学习实现机器人方形零件装配的方法
CN112596515A (zh) * 2020-11-25 2021-04-02 北京物资学院 一种多物流机器人移动控制方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Interpretable End-to-End Urban Autonomous Driving With Latent Deep Reinforcement Learning;J. Chen 等;《IEEE Transactions on Intelligent Transportation Systems》;20210203;第1-11页 *
基于值函数和策略梯度的深度强化学习综述;刘建伟 等;《计算机学报》;20190630;第42卷(第6期);第1406-1438页 *

Also Published As

Publication number Publication date
CN113268933A (zh) 2021-08-17

Similar Documents

Publication Publication Date Title
CN102831306B (zh) 一种用于喷涂机器人的分层喷涂轨迹规划方法
CN105333879B (zh) 同步定位与地图构建方法
US20060293817A1 (en) Intelligent electronically-controlled suspension system based on soft computing optimizer
CN107145161A (zh) 无人机访问多目标点的航迹规划方法及装置
CN106529818B (zh) 基于模糊小波神经网络的水质评价预测方法
CN113268933B (zh) 基于强化学习的蛇形急救机器人结构参数快速设计方法
CN110717627A (zh) 一种基于对偶图框架的全量交通预测方法
CN109725537B (zh) 一种改进的线性最优半主动控制方法
Xiao et al. An Improved Gorilla Troops Optimizer Based on Lens Opposition-Based Learning and Adaptive β-Hill Climbing for Global Optimization.
CN108537337A (zh) 基于优化深度信念网络的锂离子电池soc预测方法
US20070168328A1 (en) Intelligent space tube optimizer
CN111506969A (zh) 一种基于多目标粒子群算法的船型优化方法
CN111047078B (zh) 交通特征预测方法、系统及存储介质
CN114895707B (zh) 基于变频蝙蝠算法的农业无人机路径规划方法及系统
WO2022257190A1 (zh) 一种基于量子游走的行为轨迹序列多特征模拟方法
Zhang et al. Direction-decision learning based pedestrian flow behavior investigation
CN117172136B (zh) 基于ssa-lstm算法的风车桥系统振动响应预测方法
Kareem et al. Planning the Optimal 3D Quadcopter Trajectory Using a Delivery System-Based Hybrid Algorithm.
CN117350175B (zh) 人工智能生态因子空气环境质量监测方法及系统
WO2022104693A1 (zh) 模拟个体粒度长程高速交通流随机振荡的量子谐振子的方法
Li et al. Multi-convLSTM neural network for sensor-based human activity recognition
CN102426709A (zh) 一种基于快速逆向运动学的实时运动合成方法
CN108805965B (zh) 基于多目标进化的人体物理运动生成方法
Woodford Notes on contrastive divergence
Sanghvi et al. Fast Footstep Planning on Uneven Terrain Using Deep Sequential Models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant