CN114779792A - 基于模仿与强化学习的医药机器人自主避障方法及系统 - Google Patents

基于模仿与强化学习的医药机器人自主避障方法及系统 Download PDF

Info

Publication number
CN114779792A
CN114779792A CN202210694891.XA CN202210694891A CN114779792A CN 114779792 A CN114779792 A CN 114779792A CN 202210694891 A CN202210694891 A CN 202210694891A CN 114779792 A CN114779792 A CN 114779792A
Authority
CN
China
Prior art keywords
medical robot
medical
control model
movement control
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210694891.XA
Other languages
English (en)
Other versions
CN114779792B (zh
Inventor
张辉
王可
曹意宏
刘立柱
陈煜嵘
袁小芳
毛建旭
王耀南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202210694891.XA priority Critical patent/CN114779792B/zh
Publication of CN114779792A publication Critical patent/CN114779792A/zh
Application granted granted Critical
Publication of CN114779792B publication Critical patent/CN114779792B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于模仿与强化学习的医药机器人自主避障方法及系统,该方法包括:步骤1:设置医药机器人医药搬运场景;步骤2:获取专家演示二元组数据;步骤3:构建基于模仿学习和强化学习的医药机器人移动控制模型;步骤4:模型训练;步骤5:对医药机器人进行自主控制。本发明在医药机器人移动控制模型中将图注意模块引入价值网络中,使能够适应智能体和障碍物数量不确定的不同环境,同时,区分了医药机器人可观测范围内不同智能体和障碍物对移医药机器人的影响,使其能够更好地做出决策。只需一组网络参数就可以适用于处理各种情况,即网络具有较好的泛化性。

Description

基于模仿与强化学习的医药机器人自主避障方法及系统
技术领域
本发明属于机器人自主决策领域,尤其涉及一种基于模仿与强化学习的医药机器人自主避障方法及系统。
背景技术
在医药生产行业中,为提高医药生产的效率与质量,医药生产渐渐从传统的人为参与生产转变为以智能机器人为基础的自动化、智能化生产。相比传统的利用传送带等方式进行物资搬运,医药机器人行动更加灵活,搬运码垛效率更高。然而,由于医药生产环境复杂多变,需要医药机器人能够适应不同的环境,即具备自主决策避障能力。
在机器人自主决策领域,深度强化学习由于无需精确建模、算法通用性强等优点,得到了广泛的应用。强化学习是一种通过机器人与周围环境不断交互,进而提高机器人自主决策能力的学习方法(参见文献1:梁星星,冯旸赫,马扬,程光权,黄金才,王琦,周玉珍,刘忠.多Agent深度强化学习综述[J].自动化学报,2020,46(12):2537-2557.DOI:10.16383/j.aas.c180372.)。在机器人移动的每一步中,都与环境进行交互,从中获得奖励或者惩罚,从而使机器人做出的动作策略逐步得到优化,通过不断在状态空间进行迭代搜索,获得最优的动作策略(参见文献2:蒲志强,易建强,刘振,丘腾海,孙金林,李非墨.知识和数据协同驱动的群体智能决策方法研究综述[J/OL].自动化学报:1-17[2022-03-11].DOI:10.16383/j.aas.c210118.)。然而,深度强化学习在学习初期存在着探索空间大,算法难以收敛等问题,因此往往会与模仿学习相结合,首先对价值网络进行初始化(参见文献3:李帅龙,张会文,周维佳.模仿学习方法综述及其在机器人领域的应用[J].计算机工程与应用,2019,55(04):17-30.)。但是模仿学习需要提供大量的专家演示数据,这些数据往往难以获得,尤其是在医药场景下。
中国专利申请CN112433525A公开了一种基于模仿学习及深度强化学习的医药机器人导航方法。该方法通过构建基于模仿学习及深度强化学习算法耦合的导航控制框架,利用该耦合的导航框架对医药机器人模型进行训练,进而实现导航任务。然而该方法中模仿学习所需的专家演示数据需要提前准备,此外,该方法由于价值网络的结构所决定,只能处理环境中固定机器人数量的问题。然而实际上,医药环境是动态变化的,环境中智能体的数量、障碍物数量等都有可能发生变化,同时,处于移动机器人周围的智能体和障碍物对移动机器人做出的决策的影响是不同的。当环境中的智能体、障碍物数量发生变化时,常见的深度学习方法需要重新更新网络参数,从而使得模型的泛用性降低。
因此,现有技术需要一种能够为模仿学习算法提供大量专家演示数据集的方法,以及需要提供一种能够在智能体和障碍物数量不确定的环境下实现医药机器人快速自主避障的方法,来处理医药环境下智能体和障碍物数量不确定的医药机器人自主避障。
发明内容
本发明提供了一种基于模仿与强化学习的医药机器人自主避障方法及系统,在智能体和障碍物数量不确定的环境下,处理医药搬运环境下智能体和障碍物数量不确定的医药机器人自主避障。
本发明提供的技术方案如下:
一方面,一种基于模仿与强化学习的医药机器人自主避障方法,包括:
步骤1:设置医药机器人医药搬运场景;
步骤2:令医药机器人在步骤1中设置的医药搬运场景中进行移动,获取环境状态与医药机器人动作策略构成的专家演示二元组数据;
环境状态指的是设置的医药机器人搬运场景中该时刻其他智能体和障碍物与医药机器人所处的距离,医药机器人根据最优互补避碰策略得到的动作策略(如:速度=2m/s),输入单片机中转换为相应的控制指令,电机通过控制指令对医药机器人的速度进行改变,控制医药机器人的移动;
步骤3:采用模仿学习网络和强化学习网络,分别构建基于模仿学习、强化学习的医药机器人移动控制模型;
以所述专家演示二元组数据,对基于模仿学习的医药机器人移动控制模型,进行训练;以训练好的基于模仿学习的医药机器人移动控制模型的参数对基于强化学习的医药机器人移动控制模型的参数进行初始化;
所述基于模仿学习的医药机器人移动控制模型和所述基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构;
步骤4:基于医药搬运场景设置移动步数,令医药机器人与医药搬运场景进行交互训练,训练所述基于强化学习的医药机器人移动控制模型,获得累计奖励最高的基于强化学习的医药机器人移动控制模型;
步骤5:以步骤4得到的所述基于强化学习的医药机器人移动控制模型,对医药机器人进行自主控制;
本发明技术方案通过使医药机器人在设置的医药搬运场景中进行移动,获取环境状态与医药机器人动作策略构成的专家演示二元组数据;利用通过采用图注意模块,一方面能够处理医药场景中智能体和障碍物数量实时变化的情况,另一方面,更精确地表示了医药机器人可观测范围内的智能体和障碍物对其的影响的大小。
进一步地,所述基于模仿学习的医药机器人移动控制模型和基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构,具体如下:
令节点i表示当前医药机器人,当前医药机器人的输入特征向量为
Figure 36152DEST_PATH_IMAGE001
Figure 509858DEST_PATH_IMAGE002
;节点j为当前医药机器人可测量半径内的某一障碍物或者智能体,其输入特征向量为
Figure 478951DEST_PATH_IMAGE003
Figure 961885DEST_PATH_IMAGE004
,则节点i和节点j之间的注意力系数
Figure 965613DEST_PATH_IMAGE005
为:
Figure 875800DEST_PATH_IMAGE006
其中,
Figure 597769DEST_PATH_IMAGE007
为采用的注意力机制网络权重,
Figure 353235DEST_PATH_IMAGE008
Figure 477049DEST_PATH_IMAGE009
为每个节点输出的特征数;||为拼接操作,LeakyReLU为激活函数,W为每个节点的权重,
Figure 826646DEST_PATH_IMAGE010
,F为每个节点输入的特征数,
Figure 504752DEST_PATH_IMAGE011
表示空间维度大小
Figure 329489DEST_PATH_IMAGE012
对当前医药机器人周围所有的智能体和障碍物计算注意力系数,得到进行归一化后的某一障碍物或者智能体对当前医药机器人的影响系数
Figure 42230DEST_PATH_IMAGE013
Figure 294220DEST_PATH_IMAGE014
其中,
Figure 990780DEST_PATH_IMAGE015
为节点i的所有相邻节点;
对当前医药机器人可测量半径内所有智能体和障碍物均计算出影响系数
Figure 88049DEST_PATH_IMAGE013
,并基于多组注意力机制并进行拼接,得到当前医药机器人的输出特征向量
Figure 655297DEST_PATH_IMAGE016
Figure 343767DEST_PATH_IMAGE017
其中,||为拼接操作,K为注意力机制的个数,
Figure 996466DEST_PATH_IMAGE018
为非线性激活函数。
采用多组注意力机制是为了稳定强化学习过程;
输入价值网络模型的前馈部分,使得价值网络模型能够处理环境中智能体或障碍物不定的情况,同时区分出不同的智能体和障碍物对机器人自主避障中的影响。
与常见的通过取最大值或采用LSTM相比,取最大值的方法在大部分时间会无法达到该值,因此浪费了存储空间,同时,对于处于医药机器人周围的智能体和障碍物对医药机器人的影响一视同仁,这显然是不合适的。而基于LSTM的方法,通过将场景中的智能体和障碍物的状态存储在LSTM单元中,实现了根据场景中智能体和障碍物数量来存储,同时,通过对医药场景中除医药机器人以外的智能体和障碍物由远及近进行排序进行存储,利用LSTM对早期输入会遗忘的特性来区分不同的智能体和障碍物对医药机器人的影响,但是,基于LSTM的方法始终需要保证为一个序列,因此利用遗忘特性对不同的智能体和障碍物对医药机器人的影响进行区分不够准确,进而影响后续学习的模型决策。而通过采用图注意模块,一方面能够处理医药场景中智能体和障碍物数量实时变化的情况,另一方面,更精确地表示了医药机器人可观测范围内的智能体和障碍物对其的影响的大小。
进一步地,所述基于模仿学习的医药机器人移动控制模型,以所述专家演示二元组数据进行训练时,是采用行为克隆算法进行模仿学习,具体过程如下:
步骤A1:在给定的专家演示数据集
Figure 163005DEST_PATH_IMAGE019
中进行均匀随机抽样,得到
Figure 136425DEST_PATH_IMAGE020
Figure 730217DEST_PATH_IMAGE021
依次表示第一个时刻到第n个时刻的环境状态,
Figure 870212DEST_PATH_IMAGE022
依次表示在环境状态
Figure 574862DEST_PATH_IMAGE023
下的动作策略;
步骤A2:当前基于模仿学习的医药机器人移动控制模型参数为
Figure 647861DEST_PATH_IMAGE024
,初始值为随机取值,将
Figure 678134DEST_PATH_IMAGE025
输入基于模仿学习的医药机器人移动控制模型,进行反向传播计算梯度,然后利用梯度更新基于模仿学习的医药机器人移动控制模型参数;
基于模仿学习的医药机器人移动控制模型的损失函数如下:
Figure 836582DEST_PATH_IMAGE026
Figure 344924DEST_PATH_IMAGE027
表示基于模仿学习的医药机器人移动控制模型在参数为
Figure 538008DEST_PATH_IMAGE028
和环境状态为s时做出的动作策略,
Figure 7691DEST_PATH_IMAGE029
为给定的专家演示数据集D中与s对应的动作策略;
梯度更新公式如下:
Figure 387857DEST_PATH_IMAGE030
其中,
Figure 231048DEST_PATH_IMAGE031
为更新后的模型参数,
Figure 809797DEST_PATH_IMAGE032
为当前的模型参数,β为行为克隆学习率;
步骤A3:对上述步骤进行迭代直至所述损失函数收敛,获得训练好的基于模仿学习的医药机器人移动控制模型参数θ。
进一步的,医药机器人与医药搬运场景进行交互获得专家演示二元组时,依据最优互补避碰策略确定动作策略,具体如下:
设D1为以p为圆心,r为半径的圆,q为圆内的一点:
Figure 447452DEST_PATH_IMAGE033
医药机器人A对于医药机器人B的τ时间内有碰撞速度集合为:
Figure 580493DEST_PATH_IMAGE034
其中,
Figure 227375DEST_PATH_IMAGE035
Figure 188859DEST_PATH_IMAGE036
分别为医药机器人A和医药机器人B的当前位置,
Figure 262994DEST_PATH_IMAGE037
Figure 148911DEST_PATH_IMAGE038
分别为医药机器人A和医药机器人B所占据的最大圆半径,
Figure 802746DEST_PATH_IMAGE039
表示等比符号,
Figure 824928DEST_PATH_IMAGE040
表示医药机器人A的移动速度,t表示医药机器人的移动时刻,τ为大于0的时间常量,τ决定有碰撞速度集合的大小;
则医药机器人A对医药机器人B在τ时间内最优互补避碰的速度集合为:
Figure 538807DEST_PATH_IMAGE041
其中,
Figure 118211DEST_PATH_IMAGE042
是以
Figure 841316DEST_PATH_IMAGE043
为起点,指向最接近
Figure 718006DEST_PATH_IMAGE044
边界上的点的向量,
Figure 868364DEST_PATH_IMAGE045
为医药机器人A对于医药机器人B的τ时间内有碰撞速度集合
Figure 197714DEST_PATH_IMAGE046
的边界,其计算公式为:
Figure 724511DEST_PATH_IMAGE047
n是以
Figure 455706DEST_PATH_IMAGE046
边界上的点
Figure 245808DEST_PATH_IMAGE048
为起点向外延伸作的法线,其计算公式为:
Figure 59524DEST_PATH_IMAGE049
医药机器人A对于其它所有医药机器人τ时间内最优互补避碰的速度集合为:
Figure 124432DEST_PATH_IMAGE050
其中,
Figure 710134DEST_PATH_IMAGE051
为医药机器人A的最大速率;
确定的动作策略为医药机器人A的移动策略速度:
Figure 671137DEST_PATH_IMAGE052
进一步的,所述基于强化学习的医药机器人移动控制模型训练时,采用doubleDQN算法,具体如下:
以训练好的基于模仿学习的医药机器人移动控制模型的参数对采用double DQN算法的基于强化学习的医药机器人移动控制模型的参数进行初始化;
医药机器人获得当前医药搬运场景即环境状态
Figure 240659DEST_PATH_IMAGE053
,利用初始化后的采用doubleDQN算法的基于强化学习的医药机器人移动控制模型输出相应的动作策略
Figure 843678DEST_PATH_IMAGE054
(如:速度=2m/s),当医药机器人根据采用double DQN算法的基于强化学习的医药机器人移动控制模型的在线价值网络做出的动作策略
Figure 815046DEST_PATH_IMAGE054
移动一步后,获得医药搬运场景对应的环境对该动作策略执行后的反馈奖励
Figure 746617DEST_PATH_IMAGE055
,医药机器人与医药搬运场景对应的环境交互得到下一个时刻的环境状态
Figure 803435DEST_PATH_IMAGE056
,进而得到探索经验
Figure 210145DEST_PATH_IMAGE057
,并将其存放至经验回放池中;
进入到下一个时刻的环境状态
Figure 770440DEST_PATH_IMAGE056
的医药机器人再根据所述在线价值网络得到相应的动作策略
Figure 604403DEST_PATH_IMAGE058
,进而控制医药机器人移动,再次得到探索经验;当经验回放池中的探索经验足够多时,采用double DQN算法的基于强化学习的医药机器人移动控制模型开始利用经验回放池中的探索经验进行误差反向传播,对采用double DQN算法的基于强化学习的医药机器人移动控制模型的参数进行更新,反复从经验回放池中取出经验数组对采用double DQN算法的基于强化学习的医药机器人移动控制模型的参数进行学习直至奖励最大,则采用double DQN算法的基于强化学习的医药机器人移动控制模型训练完毕。
经验回放池中的探索经验足够多是指超过8万条四元组数据;当经验回放池满的时候,删除掉最旧的数据更新经验回放池。
在线价值网络和目标价值网络的更新公式分别如下:
Figure 882938DEST_PATH_IMAGE059
Figure 355989DEST_PATH_IMAGE060
其中,
Figure 36369DEST_PATH_IMAGE061
为当前在线价值网络的参数,
Figure 837972DEST_PATH_IMAGE062
为更新后的在线价值网络参数,
Figure 603803DEST_PATH_IMAGE063
为当前目标价值网络的参数,
Figure 883474DEST_PATH_IMAGE064
为更新后的目标价值网络参数,
Figure 418361DEST_PATH_IMAGE065
为基于图注意模块的价值网络学习率,
Figure 862636DEST_PATH_IMAGE066
为折扣因子,
Figure 584604DEST_PATH_IMAGE067
为超参数,为每次目标价值网络更新的比例;
进一步的,所述采用double DQN算法的基于强化学习的医药机器人移动控制模型中的奖励函数计算公式如下:
Figure 605650DEST_PATH_IMAGE068
其中,
Figure 260622DEST_PATH_IMAGE069
为医药机器人A的当前位置,
Figure 341711DEST_PATH_IMAGE070
为医药机器人A要到达的目标位置,
Figure 816554DEST_PATH_IMAGE071
表示衡量医药机器人与医药搬运场景中的其他智能体和障碍物碰撞的危险程度,取值为医药机器人A与离它最近的其他智能体的距离。
另一方面,一种基于模仿与强化学习的医药机器人自主避障系统,包括:
场景设置单元:设置医药机器人医药搬运场景,并使医药机器人与设置的环境进行交互学习;
专家数据构建单元:令医药机器人在设置的医药搬运场景中进行移动,获取环境状态与医药机器人动作策略构成的专家演示二元组数据;
模型构建与初始化单元:构建基于模仿学习和强化学习的医药机器人移动控制模型;
以所述专家演示二元组数据,对基于模仿学习的医药机器人移动控制模型,进行训练;以训练好的基于模仿学习的医药机器人移动控制模型的参数对基于强化学习的医药机器人移动控制模型的参数进行初始化;
所述基于模仿学习的医药机器人移动控制模型和基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构;
训练单元:基于医药搬运场景设置移动步数,令医药机器人与医药搬运场景进行交互训练,训练所述基于强化学习的医药机器人移动控制模型,获得累计奖励最高的基于强化学习的医药机器人移动控制模型;
控制单元:以训练单元的所述基于强化学习的医药机器人移动控制模型,对医药机器人进行自主控制。
进一步的,基于模仿学习的医药机器人移动控制模型和基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构,是指通过图注意模块建立空间特征图处理智能体和障碍物数目不定的场景,并将医药机器人所观察到的医药搬运场景中的智能体和障碍物的距离作为特征输入图注意模块中,医药机器人以及周围场景中的智能体和障碍物分别为基于医药搬运场景建立的智能体和障碍物的空间特征图的一个节点。
进一步的,所述基于模仿学习的医药机器人移动控制模型,是采用行为克隆算法进行模仿学习;采用double DQN算法的基于强化学习的医药机器人移动控制模型中的奖励函数计算公式如下:
Figure 641291DEST_PATH_IMAGE068
其中,
Figure 885190DEST_PATH_IMAGE069
为医药机器人A的当前位置,
Figure 137180DEST_PATH_IMAGE070
为医药机器人A要到达的目标位置,
Figure 854249DEST_PATH_IMAGE071
表示衡量医药机器人与医药搬运场景中的其他智能体和障碍物碰撞的危险程度,取值为医药机器人A与离它最近的其他智能体的距离。
再一方面,一种计算机存储介质,包括计算机程序,所述计算机程序指令被处理终端执行时使所述处理终端执行上述一种基于模仿与强化学习的医药机器人自主避障方法。
有益效果
相较于现有技术而言,本方案存在以下几点优点:
1、将图注意模块引入价值网络中,使能够适应智能体和障碍物数量不确定的不同环境,同时,区分了医药机器人可观测范围内不同智能体和障碍物对医药机器人的影响,使其能够更好地做出决策。与针对具有不同数量智能体和障碍物的新环境进行再训练不同,只需一组网络参数就可以适用于处理各种情况,即网络具有较好的泛化性。
2、采用模仿学习和强化学习相结合的方法,解决了强化学习中动作策略探索空间大,奖励稀疏、延迟回报的问题。
3、利用最优互补避碰策略获得大量的演示经验,更好的解决了模仿学习中专家演示数据集难以获取的问题。
附图说明
图1为本发明实例的工作原理整体框架示意图;
图2 为本发明实例中采用的模仿学习模型结构图;
图3 为本发明实例中采用的基于图注意模块的价值网络模型结构图;
图4 为本发明实例中采用的强化学习模型结构图。
具体实施方式
下面将结合附图和实施例对本发明做进一步的说明。
实施例1
本发明技术方案提供的实施例一种基于模仿与强化学习的医药机器人自主避障方法,如图1-图4所示,包括:
步骤1:设置医药机器人医药搬运场景;
结合实际医药搬运场景,布置训练环境场地;
步骤2:医药机器人利用最优互补避障策略在步骤1中设置的医药搬运场景中进行移动,获取环境状态与医药机器人动作策略构成的专家演示二元组数据;
医药机器人通过激光雷达判断与周围智能体和障碍物的距离,进而判断当前环境状态,智能体指除医药机器人自身以外的其他医药搬运机器人,障碍物包括医药搬运物资、医护工作人员等除医药机器人以外的医药场景中的物体。
环境状态指的是设置的医药机器人搬运场景中该时刻其他智能体和障碍物与医药机器人所处的距离,医药机器人根据最优互补避碰策略得到的动作策略(如:速度=2m/s),输入单片机中转换为相应的控制指令,电机通过控制指令对医药机器人的速度进行改变,控制医药机器人的移动。
医药机器人与医药搬运场景进行交互时,依据最优互补避碰策略确定动作策略,具体如下:
设D1为以p为圆心,r为半径的圆,q为圆内的一点:
Figure 217097DEST_PATH_IMAGE033
医药机器人A对于医药机器人B的τ时间内有碰撞速度集合为:
Figure 581082DEST_PATH_IMAGE034
其中,
Figure 3973DEST_PATH_IMAGE035
Figure 187830DEST_PATH_IMAGE036
分别为医药机器人A和医药机器人B的当前位置,
Figure 354369DEST_PATH_IMAGE037
Figure 307281DEST_PATH_IMAGE038
分别为医药机器人A和医药机器人B所占据的最大圆半径,
Figure 166653DEST_PATH_IMAGE039
表示等比符号,
Figure 837806DEST_PATH_IMAGE040
表示医药机器人A的移动速度,t表示医药机器人的移动时刻,τ为大于0的时间常量,通常取值为2,τ决定有碰撞速度集合的大小;
则医药机器人A对医药机器人B在τ时间内最优互补避碰的速度集合为:
Figure 76545DEST_PATH_IMAGE041
其中,
Figure 149543DEST_PATH_IMAGE042
是以
Figure 179816DEST_PATH_IMAGE043
为起点,指向最接近
Figure 603844DEST_PATH_IMAGE044
边界上的点的向量,
Figure 377765DEST_PATH_IMAGE045
为医药机器人A对于医药机器人B的τ时间内有碰撞速度集合
Figure 305270DEST_PATH_IMAGE046
的边界,其计算公式为:
Figure 506444DEST_PATH_IMAGE047
n是以
Figure 149259DEST_PATH_IMAGE046
边界上的点
Figure 726871DEST_PATH_IMAGE048
为起点向外延伸作的法线,其计算公式为:
Figure 243303DEST_PATH_IMAGE049
医药机器人A对于其它所有医药机器人τ时间内最优互补避碰的速度集合为:
Figure 615378DEST_PATH_IMAGE050
其中,
Figure 482840DEST_PATH_IMAGE051
为医药机器人A的最大速率;
确定的动作策略为医药机器人A的移动策略速度:
Figure 598564DEST_PATH_IMAGE052
步骤3:采用模仿学习网络和强化学习网络,分别构建基于模仿学习、强化学习的医药机器人移动控制模型;
以所述专家演示二元组数据,对基于模仿学习的医药机器人移动控制模型,进行训练;以训练好的基于模仿学习的医药机器人移动控制模型的参数对基于强化学习的医药机器人移动控制模型的参数进行初始化;
所述基于模仿学习的医药机器人移动控制模型和所述基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构;
由于医药机器人在医药场景中进行搬运时,周围除了其他医药机器人的存在,还有可能会出现医护工作人员等进行走动,因此医药机器人周围的智能体和障碍物数量是不定的,然而后续所采用的前馈神经网络需要固定维度的输入,即需要医药机器人能够自适应场景中智能体和障碍物数量的变化,并将其转换为固定维度输入前馈网络。同时,智能体和障碍物与医药机器人的距离的远近对医药机器人的影响是不同的,将所有智能体和障碍物的影响一视同仁显然是不合适的。因此,在价值网络模型中引入图注意模块,通过图注意模块建立空间特征图来处理智能体和障碍物数目不定的场景。将医药机器人所观察到的医药场景中的智能体和障碍物的距离作为特征输入图注意模块中,医药机器人以及周围场景中的智能体和障碍物分别为基于医药搬运场景建立的智能体和障碍物的空间特征图的一个节点。
所述基于模仿学习的医药机器人移动控制模型和基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构,具体如下:
令节点i表示当前医药机器人,当前医药机器人的输入特征向量为
Figure 766240DEST_PATH_IMAGE001
Figure 574796DEST_PATH_IMAGE002
;节点j为当前医药机器人可测量半径内的某一障碍物或者智能体,其输入特征向量为
Figure 463642DEST_PATH_IMAGE003
Figure 117477DEST_PATH_IMAGE004
,则节点i和节点j之间的注意力系数
Figure 139660DEST_PATH_IMAGE005
为:
Figure 119117DEST_PATH_IMAGE006
其中,
Figure 695592DEST_PATH_IMAGE007
为采用的注意力机制网络权重,
Figure 887539DEST_PATH_IMAGE008
Figure 764228DEST_PATH_IMAGE009
为每个节点输出的特征数;||为拼接操作,LeakyReLU为激活函数,W为每个节点的权重,
Figure 649008DEST_PATH_IMAGE010
,F为每个节点输入的特征数;
对当前医药机器人周围所有的智能体和障碍物计算注意力系数,得到进行归一化后的某一障碍物或者智能体对当前医药机器人的影响系数
Figure 712779DEST_PATH_IMAGE013
Figure 705487DEST_PATH_IMAGE014
其中,
Figure 171103DEST_PATH_IMAGE015
为节点i的所有相邻节点;
对当前医药机器人可测量半径内所有智能体和障碍物均计算出影响系数
Figure 961205DEST_PATH_IMAGE013
,并基于多组注意力机制并进行拼接,得到当前医药机器人的输出特征向量
Figure 777851DEST_PATH_IMAGE016
Figure 311600DEST_PATH_IMAGE017
其中,||为拼接操作,K为注意力机制的个数,
Figure 631723DEST_PATH_IMAGE018
为非线性激活函数。
采用多组注意力机制是为了稳定强化学习过程;
输入价值网络模型的前馈部分,使得价值网络模型能够处理环境中智能体或障碍物不定的情况,同时区分出不同的智能体和障碍物对机器人自主避障中的影响。
与常见的通过取最大值或采用LSTM相比,取最大值的方法在大部分时间会无法达到该值,因此浪费了存储空间,同时,对于处于医药机器人周围的智能体和障碍物对医药机器人的影响一视同仁,这显然是不合适的。而基于LSTM的方法,通过将场景中的智能体和障碍物的状态存储在LSTM单元中,实现了根据场景中智能体和障碍物数量来存储,同时,通过对医药场景中除医药机器人以外的智能体和障碍物由远及近进行排序进行存储,利用LSTM对早期输入会遗忘的特性来区分不同的智能体和障碍物对医药机器人的影响,但是,基于LSTM的方法始终需要保证为一个序列,因此利用遗忘特性对不同的智能体和障碍物对医药机器人的影响进行区分不够准确,进而影响后续学习的模型决策。而通过采用图注意模块,一方面能够处理医药场景中智能体和障碍物数量实时变化的情况,另一方面,更精确地表示了医药机器人可观测范围内的智能体和障碍物对其的影响的大小。
步骤4:基于医药搬运场景设置移动步数,令医药机器人与医药搬运场景进行交互训练,训练所述基于强化学习的医药机器人移动控制模型,获得累计奖励最高的基于强化学习的医药机器人移动控制模型;
所述基于模仿学习的医药机器人移动控制模型,以所述专家演示二元组数据进行训练时,是采用行为克隆算法进行模仿学习,具体过程如下:
步骤A1:在给定的专家演示数据集
Figure 858305DEST_PATH_IMAGE019
中进行均匀随机抽样,得到
Figure 896668DEST_PATH_IMAGE020
Figure 968530DEST_PATH_IMAGE021
依次表示第一个时刻到第n个时刻的环境状态,
Figure 674318DEST_PATH_IMAGE022
依次表示在环境状态
Figure 809151DEST_PATH_IMAGE023
下的动作策略;
步骤A2:当前基于模仿学习的医药机器人移动控制模型参数为
Figure 334811DEST_PATH_IMAGE024
,初始值为随机取值,将
Figure 944783DEST_PATH_IMAGE025
输入基于模仿学习的医药机器人移动控制模型,进行反向传播计算梯度,然后利用梯度更新基于模仿学习的医药机器人移动控制模型参数;
基于模仿学习的医药机器人移动控制模型的损失函数如下:
Figure 239499DEST_PATH_IMAGE026
Figure 73462DEST_PATH_IMAGE027
表示基于模仿学习的医药机器人移动控制模型在参数为
Figure 820839DEST_PATH_IMAGE028
和环境状态为s时做出的动作策略,
Figure 765661DEST_PATH_IMAGE029
为给定的专家演示数据集D中与s对应的动作策略;
梯度更新公式如下:
Figure 180462DEST_PATH_IMAGE030
其中,
Figure 919747DEST_PATH_IMAGE031
为更新后的模型参数,
Figure 682648DEST_PATH_IMAGE032
为当前的模型参数,β为行为克隆学习率;
步骤A3:对上述步骤进行迭代直至所述损失函数收敛,获得训练好的基于模仿学习的医药机器人移动控制模型参数θ。
所述基于强化学习的医药机器人移动控制模型训练时,采用double DQN算法,具体如下:
以训练好的基于模仿学习的医药机器人移动控制模型的参数对采用double DQN算法的基于强化学习的医药机器人移动控制模型的参数进行初始化;
医药机器人获得当前医药搬运场景即环境状态
Figure 431162DEST_PATH_IMAGE053
,利用初始化后的采用doubleDQN算法的基于强化学习的医药机器人移动控制模型输出相应的动作策略
Figure 966048DEST_PATH_IMAGE054
(如:速度=2m/s),当医药机器人根据采用double DQN算法的基于强化学习的医药机器人移动控制模型的在线价值网络做出的动作策略
Figure 407394DEST_PATH_IMAGE054
移动一步后,获得医药搬运场景对应的环境对该动作策略执行后的反馈奖励
Figure 129362DEST_PATH_IMAGE055
,医药机器人与医药搬运场景对应的环境交互得到下一个时刻的环境状态
Figure 681566DEST_PATH_IMAGE056
,进而得到探索经验
Figure 805380DEST_PATH_IMAGE057
,并将其存放至经验回放池中;
进入到下一个时刻的环境状态
Figure 152048DEST_PATH_IMAGE056
的医药机器人再根据所述在线价值网络得到相应的动作策略
Figure 629821DEST_PATH_IMAGE058
,进而控制医药机器人移动,再次得到探索经验;当经验回放池中的探索经验足够多时,采用double DQN算法的基于强化学习的医药机器人移动控制模型开始利用经验回放池中的探索经验进行误差反向传播,对采用double DQN算法的基于强化学习的医药机器人移动控制模型的参数进行更新,反复从经验回放池中取出经验数组对采用double DQN算法的基于强化学习的医药机器人移动控制模型的参数进行学习直至奖励最大,则采用double DQN算法的基于强化学习的医药机器人移动控制模型训练完毕。
其中,基于强化学习的医药机器人移动控制模型的目标价值网络在医药机器人前进n步后进行更新,n根据实际医用场景的大小进行设置,且只有在回放数组中有足够多的四元组时,才开始更新基于强化学习的医药机器人移动控制模型的在线价值网络。当在回放数组中的四元组数量不够时,基于强化学习的医药机器人移动控制模型的在线价值网络只与环境交互,不更新参数。
经验回放池中的探索经验足够多是指超过8万条四元组数据;当经验回放池满的时候,删除掉最旧的数据更新经验回放池。
double DQN网络的输入是状态s,输出是Q值。
在线价值网络和目标价值网络的更新公式分别如下:
Figure 720137DEST_PATH_IMAGE059
Figure 229616DEST_PATH_IMAGE060
其中,
Figure 481605DEST_PATH_IMAGE061
为当前在线价值网络的参数,
Figure 974904DEST_PATH_IMAGE062
为更新后的在线价值网络参数,
Figure 337752DEST_PATH_IMAGE063
为当前目标价值网络的参数,
Figure 701737DEST_PATH_IMAGE064
为更新后的目标价值网络参数,
Figure 145136DEST_PATH_IMAGE065
为基于图注意模块的价值网络学习率,
Figure 594572DEST_PATH_IMAGE066
为折扣因子,
Figure 292269DEST_PATH_IMAGE067
为超参数,为每次目标价值网络更新的比例;
所述采用double DQN算法的基于强化学习的医药机器人移动控制模型中的奖励函数计算公式如下:
Figure 245182DEST_PATH_IMAGE068
其中,
Figure 104554DEST_PATH_IMAGE069
为医药机器人A的当前位置,
Figure 510127DEST_PATH_IMAGE070
为医药机器人A要到达的目标位置,
Figure 745936DEST_PATH_IMAGE071
表示衡量医药机器人与医药搬运场景中的其他智能体和障碍物碰撞的危险程度,取值为医药机器人A与离它最近的其他智能体的距离。
步骤5:以步骤4得到的所述基于强化学习的医药机器人移动控制模型,对医药机器人进行自主控制。
实施例2
本发明技术方案实施例提供一种基于模仿与强化学习的医药机器人自主避障系统,包括:
场景设置单元:设置医药机器人医药搬运场景;
专家数据构建单元:令医药机器人在设置的医药机器人医药搬运场景中进行移动,获取环境状态与医药机器人动作策略构成的专家演示二元组数据;
模型构建与初始化单元:构建基于模仿学习和强化学习的医药机器人移动控制模型;
以所述专家演示二元组数据,对基于模仿学习的医药机器人移动控制模型,进行训练;以训练好的基于模仿学习的医药机器人移动控制模型的参数对基于强化学习的医药机器人移动控制模型的参数进行初始化;
所述基于模仿学习的医药机器人移动控制模型和基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构;
训练单元:基于医药搬运场景设置移动步数,令医药机器人与医药搬运场景进行交互训练,训练所述基于强化学习的医药机器人移动控制模型,获得累计奖励最高的基于强化学习的医药机器人移动控制模型;
控制单元:以训练单元的所述基于强化学习的医药机器人移动控制模型,对医药机器人进行自主控制。
基于模仿学习的医药机器人移动控制模型和基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构,是指通过图注意模块建立空间特征图处理智能体和障碍物数目不定的场景,并将医药机器人所观察到的医药搬运场景中的智能体和障碍物的距离作为特征输入图注意模块中,医药机器人以及周围场景中的智能体和障碍物分别为基于医药搬运场景建立的智能体和障碍物的空间特征图的一个节点。
具体各个模块的实现过程请参照上述方法的内容,在此不再赘述。应该理解到,上述功能模块的划分仅仅是一种逻辑功能的划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。同时,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
实施例3
本发明技术方案实施例还提供一种计算机存储介质,包括计算机程序,所述计算机程序指令被处理终端执行时使所述处理终端执行一种基于模仿与强化学习的医药机器人自主避障方法:
步骤1:设置医药机器人医药搬运场景;
步骤2:医药机器人利用最优互补避障策略在步骤1中设置的进行移动,获取环境状态与医药机器人动作策略构成的专家演示二元组数据;
步骤3:采用模仿学习网络和强化学习网络,分别构建基于模仿学习、强化学习的医药机器人移动控制模型;
以所述专家演示二元组数据,对基于模仿学习的医药机器人移动控制模型,进行训练;以训练好的基于模仿学习的医药机器人移动控制模型的参数对基于强化学习的医药机器人移动控制模型的参数进行初始化;
所述基于模仿学习的医药机器人移动控制模型和基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构;
步骤4:基于医药搬运场景设置移动步数,令医药机器人与医药搬运场景进行交互训练,训练所述基于强化学习的医药机器人移动控制模型,获得累计奖励最高的基于强化学习的医药机器人移动控制模型;
步骤5:以步骤4得到的所述基于强化学习的医药机器人移动控制模型,对医药机器人进行自主控制。
各个步骤的具体实现过程请参照前述方法实施例1的阐述。
所述可读存储介质为计算机可读存储介质,其可以是前述任一实施例所述的控制器的内部存储单元,例如控制器的硬盘或内存。所述可读存储介质也可以是所述控制器的外部存储设备,例如所述控制器上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述可读存储介质还可以既包括所述控制器的内部存储单元也包括外部存储设备。所述可读存储介质用于存储所述计算机程序以及所述控制器所需的其他程序和数据。所述可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的可读存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种基于模仿与强化学习的医药机器人自主避障方法,其特征在于,包括:
步骤1:设置医药机器人医药搬运场景;
步骤2:令医药机器人在步骤1中设置的医药搬运场景中进行移动,获取环境状态与医药机器人动作策略构成的专家演示二元组数据;
步骤3:采用模仿学习网络和强化学习网络,分别构建基于模仿学习、强化学习的医药机器人移动控制模型;
以所述专家演示二元组数据,对基于模仿学习的医药机器人移动控制模型,进行训练;以训练好的基于模仿学习的医药机器人移动控制模型的参数对基于强化学习的医药机器人移动控制模型的参数进行初始化;
所述基于模仿学习的医药机器人移动控制模型和所述基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构;
步骤4:基于医药搬运场景设置移动步数,令医药机器人与医药搬运场景进行交互,训练所述基于强化学习的医药机器人移动控制模型,获得累计奖励最高的基于强化学习的医药机器人移动控制模型;
步骤5:以步骤4得到的所述基于强化学习的医药机器人移动控制模型,对医药机器人进行自主控制。
2.根据权利要求1所述的方法,其特征在于,所述基于模仿学习的医药机器人移动控制模型和基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构,具体如下:
令节点i表示当前医药机器人,当前医药机器人的输入特征向量为
Figure 385143DEST_PATH_IMAGE001
Figure 99022DEST_PATH_IMAGE002
;节点j为当前医药机器人可测量半径内的某一障碍物或者智能体,其输入特征向量为
Figure 941076DEST_PATH_IMAGE003
Figure 398602DEST_PATH_IMAGE004
,则节点i和节点j之间的注意力系数
Figure 9712DEST_PATH_IMAGE005
为:
Figure 628912DEST_PATH_IMAGE006
其中,
Figure 692683DEST_PATH_IMAGE007
为采用的注意力机制网络权重,
Figure 422741DEST_PATH_IMAGE008
Figure 622779DEST_PATH_IMAGE009
为每个节点输出的特征数;||为拼接操作,LeakyReLU为激活函数,W为每个节点的权重,
Figure 412880DEST_PATH_IMAGE010
,F为每个节点输入的特征数;
对当前医药机器人周围所有的智能体和障碍物计算注意力系数,得到进行归一化后的某一障碍物或者智能体对当前医药机器人的影响系数
Figure 961017DEST_PATH_IMAGE011
Figure 760346DEST_PATH_IMAGE012
其中,
Figure 814890DEST_PATH_IMAGE013
为节点i的所有相邻节点;
对当前医药机器人可测量半径内所有智能体和障碍物均计算出影响系数
Figure 41472DEST_PATH_IMAGE011
,并基于多组注意力机制并进行拼接,得到当前医药机器人的输出特征向量
Figure 814256DEST_PATH_IMAGE014
Figure 886117DEST_PATH_IMAGE015
其中,||为拼接操作,K为注意力机制的个数,
Figure 60746DEST_PATH_IMAGE016
为非线性激活函数。
3.根据权利要求1所述的方法,其特征在于,所述基于模仿学习的医药机器人移动控制模型,以所述专家演示二元组数据进行训练时,是采用行为克隆算法进行模仿学习,具体过程如下:
步骤A1:在给定的专家演示数据集
Figure 192650DEST_PATH_IMAGE017
中进行均匀随机抽样,得到
Figure 718310DEST_PATH_IMAGE018
Figure 328283DEST_PATH_IMAGE019
依次表示第一个时刻到第n个时刻的环境状态,
Figure 357418DEST_PATH_IMAGE020
依次表示在环境状态
Figure 925803DEST_PATH_IMAGE021
下的动作策略;
步骤A2:当前基于模仿学习的医药机器人移动控制模型参数为
Figure 676109DEST_PATH_IMAGE022
,初始值为随机取值,将
Figure 355352DEST_PATH_IMAGE023
输入基于模仿学习的医药机器人移动控制模型,进行反向传播计算梯度,然后利用梯度更新基于模仿学习的医药机器人移动控制模型参数;
基于模仿学习的医药机器人移动控制模型的损失函数如下:
Figure 238994DEST_PATH_IMAGE024
Figure 978280DEST_PATH_IMAGE025
表示基于模仿学习的医药机器人移动控制模型在参数为
Figure 947373DEST_PATH_IMAGE026
和环境状态为s时做出的动作策略,
Figure 164728DEST_PATH_IMAGE027
为给定的专家演示数据集D中与s对应的动作策略;
梯度更新公式如下:
Figure 168456DEST_PATH_IMAGE028
其中,
Figure 78643DEST_PATH_IMAGE029
为更新后的模型参数,
Figure 535032DEST_PATH_IMAGE030
为当前的模型参数,β为行为克隆学习率;
步骤A3:对上述步骤进行迭代直至所述损失函数收敛,获得训练好的基于模仿学习的医药机器人移动控制模型参数θ。
4.根据权利要求1所述的方法,其特征在于,医药机器人在医药搬运场景中移动时,依据最优互补避碰策略确定动作策略,具体如下:
设D1为以p为圆心,r为半径的圆,q为圆内的一点:
Figure 556078DEST_PATH_IMAGE031
医药机器人A对于医药机器人B的τ时间内有碰撞速度集合为:
Figure 148733DEST_PATH_IMAGE032
其中,
Figure 964243DEST_PATH_IMAGE033
Figure 173507DEST_PATH_IMAGE034
分别为医药机器人A和医药机器人B的当前位置,
Figure 995314DEST_PATH_IMAGE035
Figure 708055DEST_PATH_IMAGE036
分别为医药机器人A和医药机器人B所占据的最大圆半径,
Figure 694466DEST_PATH_IMAGE037
表示等比符号,
Figure 125447DEST_PATH_IMAGE038
表示医药机器人A的移动速度,t表示医药机器人的移动时刻,τ为大于0的时间常量;
则医药机器人A对医药机器人B在τ时间内最优互补避碰的速度集合为:
Figure 488295DEST_PATH_IMAGE039
其中,
Figure 586701DEST_PATH_IMAGE040
是以
Figure 478434DEST_PATH_IMAGE041
为起点,指向最接近
Figure 662290DEST_PATH_IMAGE042
边界上的点的向量,
Figure 563250DEST_PATH_IMAGE043
为医药机器人A对于医药机器人B的τ时间内有碰撞速度集合
Figure 250584DEST_PATH_IMAGE044
的边界,其计算公式为:
Figure 844376DEST_PATH_IMAGE045
n是以
Figure 249950DEST_PATH_IMAGE044
边界上的点
Figure 957530DEST_PATH_IMAGE046
为起点向外延伸作的法线,其计算公式为:
Figure 764949DEST_PATH_IMAGE047
医药机器人A对于其它所有医药机器人τ时间内最优互补避碰的速度集合为:
Figure 264063DEST_PATH_IMAGE048
其中,
Figure 156933DEST_PATH_IMAGE049
为医药机器人A的最大速率;
确定的动作策略为医药机器人A的移动策略速度:
Figure 399696DEST_PATH_IMAGE050
5.根据权利要求1所述的方法,其特征在于,所述基于强化学习的医药机器人移动控制模型训练时,采用double DQN算法,具体如下:
以训练好的基于模仿学习的医药机器人移动控制模型的参数对采用double DQN算法的基于强化学习的医药机器人移动控制模型的参数进行初始化;
医药机器人获得当前医药搬运场景即环境状态
Figure 61621DEST_PATH_IMAGE051
,利用初始化后的采用double DQN算法的基于强化学习的医药机器人移动控制模型输出相应的动作策略
Figure 731637DEST_PATH_IMAGE052
,当医药机器人根据采用double DQN算法的基于强化学习的医药机器人移动控制模型的在线价值网络做出的动作策略
Figure 377382DEST_PATH_IMAGE052
移动一步后,获得医药搬运场景对应的环境对该动作策略执行后的反馈奖励
Figure 158256DEST_PATH_IMAGE053
,医药机器人与医药搬运场景对应的环境交互得到下一个时刻的环境状态
Figure 471426DEST_PATH_IMAGE054
,进而得到探索经验
Figure 312343DEST_PATH_IMAGE055
,并将其存放至经验回放池中;
进入到下一个时刻的环境状态
Figure 914225DEST_PATH_IMAGE054
的医药机器人再根据所述在线价值网络得到相应的动作策略
Figure 761440DEST_PATH_IMAGE056
,进而控制医药机器人移动,再次得到探索经验;当经验回放池中的探索经验足够多时,采用double DQN算法的基于强化学习的医药机器人移动控制模型开始利用经验回放池中的探索经验进行误差反向传播,对采用double DQN算法的基于强化学习的医药机器人移动控制模型的参数进行更新,反复从经验回放池中取出经验数组对采用doubleDQN算法的基于强化学习的医药机器人移动控制模型的参数进行学习直至奖励最大,则采用double DQN算法的基于强化学习的医药机器人移动控制模型训练完毕。
6.根据权利要求5所述的方法,其特征在于,所述采用double DQN算法的基于强化学习的医药机器人移动控制模型中的奖励函数计算公式如下:
Figure 132379DEST_PATH_IMAGE057
其中,
Figure 409776DEST_PATH_IMAGE058
为医药机器人A的当前位置,
Figure 498955DEST_PATH_IMAGE059
为医药机器人A要到达的目标位置,
Figure 887211DEST_PATH_IMAGE060
表示衡量医药机器人与医药搬运场景中的其他智能体和障碍物碰撞的危险程度,取值为医药机器人A与离它最近的其他智能体的距离。
7.一种基于模仿与强化学习的医药机器人自主避障系统,其特征在于,包括:
场景设置单元:设置医药机器人医药搬运场景;
专家数据构建单元:令医药机器人在设置的医药搬运场景中进行移动,获取环境状态与医药机器人动作策略构成的专家演示二元组数据;
模型构建与初始化单元:构建基于模仿学习和强化学习的医药机器人移动控制模型;
以所述专家演示二元组数据,对基于模仿学习的医药机器人移动控制模型,进行训练;以训练好的基于模仿学习的医药机器人移动控制模型的参数对基于强化学习的医药机器人移动控制模型的参数进行初始化;
所述基于模仿学习的医药机器人移动控制模型和基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构;
训练单元:基于医药搬运场景设置移动步数,令医药机器人与医药搬运场景进行交互训练,训练所述基于强化学习的医药机器人移动控制模型,获得累计奖励最高的基于强化学习的医药机器人移动控制模型;
控制单元:以训练单元的所述基于强化学习的医药机器人移动控制模型,对医药机器人进行自主控制。
8.根据权利要求7所述的系统,其特征在于,基于模仿学习的医药机器人移动控制模型和基于强化学习的医药机器人移动控制模型中的价值网络均采用基于图注意模块的价值网络结构,是指通过图注意模块建立空间特征图处理智能体和障碍物数目不定的场景,并将医药机器人所观察到的医药搬运场景中的智能体和障碍物的距离作为特征输入图注意模块中,医药机器人以及周围场景中的智能体和障碍物分别为基于医药搬运场景建立的智能体和障碍物的空间特征图的一个节点。
9.根据权利要求7所述的系统,其特征在于,所述基于模仿学习的医药机器人移动控制模型,是采用行为克隆算法进行模仿学习;
所述基于强化学习的医药机器人移动控制模型,是采用double DQN算法进行强化学习;
采用double DQN算法的基于强化学习的医药机器人移动控制模型中的奖励函数计算公式如下:
Figure 378235DEST_PATH_IMAGE057
其中,
Figure 560955DEST_PATH_IMAGE058
为医药机器人A的当前位置,
Figure 137430DEST_PATH_IMAGE059
为医药机器人A要到达的目标位置,
Figure 329376DEST_PATH_IMAGE060
表示衡量医药机器人与医药搬运场景中的其他智能体和障碍物碰撞的危险程度,取值为医药机器人A与离它最近的其他智能体的距离。
10.一种计算机存储介质,包括计算机程序,其特征在于,所述计算机程序指令被处理终端执行时使所述处理终端执行权利要求1至6任一项所述的方法。
CN202210694891.XA 2022-06-20 2022-06-20 基于模仿与强化学习的医药机器人自主避障方法及系统 Active CN114779792B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210694891.XA CN114779792B (zh) 2022-06-20 2022-06-20 基于模仿与强化学习的医药机器人自主避障方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210694891.XA CN114779792B (zh) 2022-06-20 2022-06-20 基于模仿与强化学习的医药机器人自主避障方法及系统

Publications (2)

Publication Number Publication Date
CN114779792A true CN114779792A (zh) 2022-07-22
CN114779792B CN114779792B (zh) 2022-09-09

Family

ID=82421264

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210694891.XA Active CN114779792B (zh) 2022-06-20 2022-06-20 基于模仿与强化学习的医药机器人自主避障方法及系统

Country Status (1)

Country Link
CN (1) CN114779792B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116449850A (zh) * 2023-06-12 2023-07-18 南京泛美利机器人科技有限公司 一种基于行为克隆和协同性系数的三体协同搬运方法及系统

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298239A (zh) * 2014-09-29 2015-01-21 湖南大学 一种室内移动机器人增强地图学习路径规划方法
US20180060301A1 (en) * 2016-08-31 2018-03-01 Microsoft Technology Licensing, Llc End-to-end learning of dialogue agents for information access
CN108255182A (zh) * 2018-01-30 2018-07-06 上海交通大学 一种基于深度强化学习的服务机器人行人感知避障方法
CA3060900A1 (en) * 2018-11-05 2020-05-05 Royal Bank Of Canada System and method for deep reinforcement learning
US20200241542A1 (en) * 2019-01-25 2020-07-30 Bayerische Motoren Werke Aktiengesellschaft Vehicle Equipped with Accelerated Actor-Critic Reinforcement Learning and Method for Accelerating Actor-Critic Reinforcement Learning
CN112433525A (zh) * 2020-11-16 2021-03-02 南京理工大学 基于模仿学习及深度强化学习的移动机器人导航方法
CN112904848A (zh) * 2021-01-18 2021-06-04 长沙理工大学 一种基于深度强化学习的移动机器人路径规划方法
CN113096161A (zh) * 2021-03-31 2021-07-09 哈尔滨工业大学(深圳) 一种密集行人环境下强化学习移动机器人的导航方法及装置
CN113282093A (zh) * 2021-07-21 2021-08-20 中国科学院自动化研究所 机器人导航方法、装置、电子设备及存储介质
CN113296502A (zh) * 2021-05-08 2021-08-24 华东师范大学 动态环境下基于层级关系图学习的多机器人协同导航方法
CN113743468A (zh) * 2021-08-03 2021-12-03 武汉理工大学 基于多智能体强化学习的协同驾驶信息传播方法及系统
CN113780002A (zh) * 2021-08-13 2021-12-10 北京信息科技大学 基于图表示学习和深度强化学习的知识推理方法及装置
CN114167865A (zh) * 2021-12-02 2022-03-11 深圳市证通电子股份有限公司 一种基于对抗生成网络与蚁群算法的机器人路径规划方法
CN114485673A (zh) * 2022-02-09 2022-05-13 山东大学 基于深度强化学习的服务机器人人群感知导航方法及系统

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298239A (zh) * 2014-09-29 2015-01-21 湖南大学 一种室内移动机器人增强地图学习路径规划方法
US20180060301A1 (en) * 2016-08-31 2018-03-01 Microsoft Technology Licensing, Llc End-to-end learning of dialogue agents for information access
CN108255182A (zh) * 2018-01-30 2018-07-06 上海交通大学 一种基于深度强化学习的服务机器人行人感知避障方法
CA3060900A1 (en) * 2018-11-05 2020-05-05 Royal Bank Of Canada System and method for deep reinforcement learning
US20200241542A1 (en) * 2019-01-25 2020-07-30 Bayerische Motoren Werke Aktiengesellschaft Vehicle Equipped with Accelerated Actor-Critic Reinforcement Learning and Method for Accelerating Actor-Critic Reinforcement Learning
CN112433525A (zh) * 2020-11-16 2021-03-02 南京理工大学 基于模仿学习及深度强化学习的移动机器人导航方法
CN112904848A (zh) * 2021-01-18 2021-06-04 长沙理工大学 一种基于深度强化学习的移动机器人路径规划方法
CN113096161A (zh) * 2021-03-31 2021-07-09 哈尔滨工业大学(深圳) 一种密集行人环境下强化学习移动机器人的导航方法及装置
CN113296502A (zh) * 2021-05-08 2021-08-24 华东师范大学 动态环境下基于层级关系图学习的多机器人协同导航方法
CN113282093A (zh) * 2021-07-21 2021-08-20 中国科学院自动化研究所 机器人导航方法、装置、电子设备及存储介质
CN113743468A (zh) * 2021-08-03 2021-12-03 武汉理工大学 基于多智能体强化学习的协同驾驶信息传播方法及系统
CN113780002A (zh) * 2021-08-13 2021-12-10 北京信息科技大学 基于图表示学习和深度强化学习的知识推理方法及装置
CN114167865A (zh) * 2021-12-02 2022-03-11 深圳市证通电子股份有限公司 一种基于对抗生成网络与蚁群算法的机器人路径规划方法
CN114485673A (zh) * 2022-02-09 2022-05-13 山东大学 基于深度强化学习的服务机器人人群感知导航方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MICHAEL EVERETT: "Collision Avoidance in Pedestrian-Rich Environments With Deep Reinforcement Learning", 《IEEE ACCESS》 *
TIANLE ZHANG: "Robot Navigation among External Autonomous Agents through Deep Reinforcement Learning using Graph Attention Network", 《IFAC-PAPERS ONLINE》 *
YUYING CHEN: "Robot Navigation in Crowds by Graph Convolutional Networks With Attention Learned From Human Gaze", 《IEEE ROBOTICS AND AUTOMATION LETTERS》 *
易国: "多移动机器人运动目标环绕与避障控制", 《仪器仪表学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116449850A (zh) * 2023-06-12 2023-07-18 南京泛美利机器人科技有限公司 一种基于行为克隆和协同性系数的三体协同搬运方法及系统
CN116449850B (zh) * 2023-06-12 2023-09-15 南京泛美利机器人科技有限公司 一种基于行为克隆和协同性系数的三体协同搬运方法及系统

Also Published As

Publication number Publication date
CN114779792B (zh) 2022-09-09

Similar Documents

Publication Publication Date Title
WO2021103834A1 (zh) 换道决策模型生成方法和无人车换道决策方法及装置
CN112947562B (zh) 一种基于人工势场法和maddpg的多无人机运动规划方法
CN114603564B (zh) 机械臂导航避障方法、系统、计算机设备及存储介质
CN111983922A (zh) 一种基于元模仿学习的机器人演示示教方法
Chu et al. Motion control of unmanned underwater vehicles via deep imitation reinforcement learning algorithm
Wang et al. A survey of learning‐based robot motion planning
CN112819253A (zh) 一种无人机避障和路径规划装置及方法
US11759947B2 (en) Method for controlling a robot device and robot device controller
CN113821041B (zh) 一种多机器人协同导航与避障的方法
CN114779792B (zh) 基于模仿与强化学习的医药机器人自主避障方法及系统
Mohanty et al. Application of deep Q-learning for wheel mobile robot navigation
CN116050505A (zh) 一种基于伙伴网络的智能体深度强化学习方法
Mustafa Towards continuous control for mobile robot navigation: A reinforcement learning and slam based approach
Ejaz et al. Autonomous visual navigation using deep reinforcement learning: An overview
CN114779661B (zh) 基于多分类生成对抗模仿学习算法的化学合成机器人系统
Liu et al. Her-pdqn: A reinforcement learning approach for uav navigation with hybrid action spaces and sparse rewards
CN116817909A (zh) 一种基于深度强化学习的无人机中继式导航方法
Fang et al. Quadrotor navigation in dynamic environments with deep reinforcement learning
CN114967472A (zh) 一种无人机轨迹跟踪状态补偿深度确定性策略梯度控制方法
CN118043824A (zh) 检索增强强化学习
CN113985870B (zh) 一种基于元强化学习的路径规划方法
Alrubyli et al. Using q-learning to automatically tune quadcopter pid controller online for fast altitude stabilization
Afzali et al. A Modified Convergence DDPG Algorithm for Robotic Manipulation
EP4143745A1 (en) Training an action selection system using relative entropy q-learning
Walravens et al. Spiking neural network implementation on fpga for robotic behaviour

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant