CN115079706A - 人机协同控制移动式机器人智能避障方法和系统 - Google Patents

人机协同控制移动式机器人智能避障方法和系统 Download PDF

Info

Publication number
CN115079706A
CN115079706A CN202210978998.7A CN202210978998A CN115079706A CN 115079706 A CN115079706 A CN 115079706A CN 202210978998 A CN202210978998 A CN 202210978998A CN 115079706 A CN115079706 A CN 115079706A
Authority
CN
China
Prior art keywords
robot
current
obstacle avoidance
network
human
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210978998.7A
Other languages
English (en)
Other versions
CN115079706B (zh
Inventor
赵灿灿
欧阳波
丁帅
杨善林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202210978998.7A priority Critical patent/CN115079706B/zh
Publication of CN115079706A publication Critical patent/CN115079706A/zh
Application granted granted Critical
Publication of CN115079706B publication Critical patent/CN115079706B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0214Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0257Control of position or course in two dimensions specially adapted to land vehicles using a radar

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明提供一种人机协同控制移动式机器人智能避障方法和系统,涉及移动式机器人智能避障技术领域。本发明:判断机器人是否抵达目标点,若是则完成当前任务,否则所述机器人自主避障网络根据自主避障算法,结合机器人当前状态,输出机器人当前时刻的线速度和角速度,逐步向目标点靠近;所述人机协同网络根据实时的激光雷达传感数据,输出人机交互动作
Figure 981119DEST_PATH_IMAGE002
,若发出信号
Figure 614226DEST_PATH_IMAGE002
=1,则进入S3,若不发出信号
Figure 541337DEST_PATH_IMAGE002
=0,则重复执行本步骤;机器人发出指令信号至服务端,并接收返回的远程控制信号,进入上一步骤。通过构建深度强化学习训练模型,训练移动式机器人自主选择发出信号交由更高智能的智能体决策——人,能够在复杂的环境和机器人冻结问题中完成避障任务。

Description

人机协同控制移动式机器人智能避障方法和系统
技术领域
本发明涉及移动式机器人智能避障技术领域,具体涉及一种人机协同控制移动式机器人智能避障方法、系统、存储介质和电子设备。
背景技术
避障是指移动式机器人根据采集的障碍物的状态信息,在行走过程中通过传感器感知到妨碍其通行的静态和动态物体时,按照一定的方法进行有效地避障,最后达到目标点。即目前移动式机器人的基于深度强化学习避障算法,主要通过传感器获取数据,结合深度强化学习在仿真环境下进行训练实现机器人端到端的避障控制。
然而,现有的避障方法并不能实现避障任务的完全成功。尤其对于在环境复杂或者人群密集的情况下,会出现机器人冻结问题,机器人冻结是指机器人认为当前所有向前的速度都会导致碰撞,如果阻挡机器人的障碍物或行人不让开的话,机器人会出现无限期的停滞不前,也就是利用训练得到的策略无法解决该问题。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种人机协同控制移动式机器人智能避障方法、系统、存储介质和电子设备,解决了当阻挡机器人的障碍物或行人不让开的时,机器人会无限期停滞不前的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
一种人机协同控制移动式机器人智能避障方法,在仿真环境中预先训练好机器人自主避障网络和人机协同网络,包括:
S1、获取当前目标点位置;
S2、判断机器人是否抵达目标点,若是则进入S4,否则所述机器人自主避障网络根据自主避障算法,结合机器人当前状态,输出机器人当前时刻的线速度和角速度,逐步向目标点靠近;
所述人机协同网络根据实时的激光雷达传感数据,输出人机交互动作
Figure 785102DEST_PATH_IMAGE002
,若发出信号
Figure 119132DEST_PATH_IMAGE003
=1,则进入S3,若不发出信号
Figure 726830DEST_PATH_IMAGE002
=0,则重复执行S2;
S3、机器人发出指令信号至服务端,并接收由服务端返回的远程控制信号,进入S2;
S4、抵达目标点,完成当前任务。
优选的,基于环境复杂度和深度强化学习算法PPO预先训练所述机器人自主避障网络,具体包括:
机器人根据传感器获取自身的当前状态s t ,结合Actor网络输出当前的动作a t 转移到下一状态s t+1 ,并得到环境的反馈奖励r t ,将得到的经验(s t , a t , s t+1 , r t )存储,通过不断更新Actor网络的参数和搜集新的经验,得到最优的策略,使得当前Critic网络对当前的动作评价最高;
其中,强化学习元素的状态
Figure 529832DEST_PATH_IMAGE005
=
Figure 248390DEST_PATH_IMAGE007
,
Figure 702505DEST_PATH_IMAGE009
,
Figure 481105DEST_PATH_IMAGE011
,
Figure 269938DEST_PATH_IMAGE013
,
Figure 588924DEST_PATH_IMAGE015
),
Figure 897546DEST_PATH_IMAGE016
表示通过卷积当前激光雷达数据所得到的特征、
Figure 847047DEST_PATH_IMAGE009
表示信号指令动作,发出信号时
Figure 608330DEST_PATH_IMAGE009
=1,反之
Figure 687931DEST_PATH_IMAGE009
=0、
Figure 851059DEST_PATH_IMAGE011
表示机器人相对于目标的当前位置、
Figure 705883DEST_PATH_IMAGE013
表示当前时刻机器人的速度、
Figure 220041DEST_PATH_IMAGE015
表示当前的环境复杂度;
最终输出的动作a t 为角速度w t 和线速度v t
奖励函数r t 设计如下:
Figure 333359DEST_PATH_IMAGE018
Figure 350994DEST_PATH_IMAGE020
分别代表机器人抵达目标点、逐步向目标点靠近、发生碰撞、时间步数惩罚、远离障碍物、轨迹更加平滑的奖励;
最终Actor网络根据奖励函数r t ,不断地最大化奖励,学习最优避障策略。
优选的,根据激光雷达数据,获取当前的环境复杂度,具体表示为:
Figure DEST_PATH_IMAGE022AAA
Figure DEST_PATH_IMAGE024AAA
Figure DEST_PATH_IMAGE026AAA
Figure DEST_PATH_IMAGE028AAA
Figure DEST_PATH_IMAGE030AAA
其中,H(P) laser 代表当前激光雷达传感数据分布的熵值,n代表对当前激光雷达数据所分的类别数目,p i 代表当前类别i的概率;
O (laser_free) 代表当前激光雷达观测数据中空闲空间占总视野的大小,其中N代表激光雷达发射的射线数,L代表激光雷达最大可观测的距离,L i 代表当前类别激光雷达的观测距离,F i 代表当前类别的频数;
∆h t 表示时间前后数据分布的变化带来的复杂度,采用相邻两个时间点t、t-1时刻的KL散度∆h t 来衡量,并采用前m时刻的KL散度值
Figure 281778DEST_PATH_IMAGE032
来表现时域上的复杂度。
优选的,基于深度强化学习算法DQN预先训练所述人机协同网络,具体包括:
DQN网络的状态输入为多时刻的激光雷达原始传感数据,
Figure 17653DEST_PATH_IMAGE034
通过卷积神经网路和全连接层进行特征提取,最终转换为预设维度的特征向量,并输出两个离散动作(
Figure 200242DEST_PATH_IMAGE036
)的Q值;
所述人机协同网络训练过程同时结合训练好的机器人自主避障网络,在训练时机器人自主避障网络的网络参数固定,只更新人机协同网络的参数;并且所述人机协同网络的奖励函数与机器人自主避障网络的奖励函数相比,增加一项已经发出信号的奖励r s
优选的,在训练人机交互过程中,通过设计启发式函数选择候选点完成避障策略的训练,包括:首先根据一定的规则在当前的地图中随机选取一定数目候选点集
Figure 806803DEST_PATH_IMAGE038
,机器人在执行目标任务
Figure 800167DEST_PATH_IMAGE011
时,若机器人选择发出信号,则机器人根据启发式的选点过程被移动到某一候选点
Figure 757759DEST_PATH_IMAGE040
继续执行导航任务。
优选的,选择当前机器人自主避障网络的价值网络之输出作为一个启发式项进行选点,将此时智能体的目标由
Figure 714345DEST_PATH_IMAGE011
改为
Figure 706572DEST_PATH_IMAGE042
,公式如下:
Figure DEST_PATH_IMAGE044AAAA
采用
Figure 792208DEST_PATH_IMAGE042
到目标点
Figure 237096DEST_PATH_IMAGE011
的距离代价来衡量:
Figure 43378DEST_PATH_IMAGE046
当前机器人智能体的选点规则为:
Figure DEST_PATH_IMAGE048AAAA
其中,i * 代表当前最优点的编号,
Figure 62017DEST_PATH_IMAGE050
代表的是
Figure 866025DEST_PATH_IMAGE042
作为目标时价值网络的输出,
Figure 63788DEST_PATH_IMAGE052
代表的是
Figure 408181DEST_PATH_IMAGE042
到达目标的距离代价,w rl w d 为超参数;
训练过程中,如果不发出信号则机器人不需要移动,此时的r s 为0,但发出信号是会受到惩罚的,惩罚的设置如下:
Figure DEST_PATH_IMAGE054AAA
其中,p now 为机器人当前在地图中的位置,w s 为可调整的超参数。
一种人机协同控制移动式机器人智能避障系统,在仿真环境中预先训练好机器人自主避障网络和人机协同网络,包括:
获取模块,用于获取当前目标点位置;
判断模块,用于判断机器人是否抵达目标点,若是则进入S4,否则所述机器人自主避障网络根据自主避障算法,结合机器人当前状态,输出机器人当前时刻的线速度和角速度,逐步向目标点靠近;
所述人机协同网络根据实时的激光雷达传感数据,输出人机交互动作
Figure 561951DEST_PATH_IMAGE002
,若发出信号
Figure 536860DEST_PATH_IMAGE002
=1,则进入S3,若不发出信号
Figure 972652DEST_PATH_IMAGE002
=0,则重复执行S2;
发令模块,用于机器人发出指令信号至服务端,并接收由服务端返回的远程控制信号,进入S2;
完成模块,用于抵达目标点,完成当前任务。
一种存储介质,其存储有用于人机协同控制移动式机器人智能避障的计算机程序,其中,所述计算机程序使得计算机执行如上所述的人机协同控制移动式机器人智能避障方法。
一种电子设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上所述的人机协同控制移动式机器人智能避障方法。
(三)有益效果
本发明提供了一种人机协同控制移动式机器人智能避障方法、系统、存储介质和电子设备。与现有技术相比,具备以下有益效果:
本发明中,在仿真环境中预先训练好机器人自主避障网络和人机协同网络,包括:S1、获取当前目标点位置;S2、判断机器人是否抵达目标点,若是则进入S4,否则所述机器人自主避障网络根据自主避障算法,结合机器人当前状态,输出机器人当前时刻的线速度和角速度,逐步向目标点靠近;所述人机协同网络根据实时的激光雷达传感数据,输出人机交互动作
Figure 323999DEST_PATH_IMAGE002
,若发出信号
Figure 879745DEST_PATH_IMAGE002
=1,则进入S3,若不发出信号
Figure 291135DEST_PATH_IMAGE002
=0,则重复执行S2;S3、机器人发出指令信号至服务端,并接收由服务端返回的远程控制信号,进入S2;S4、抵达目标点,完成当前任务。通过构建深度强化学习训练模型,训练移动式机器人自主选择发出信号交由更高智能的智能体决策——人,能够在复杂的环境和机器人冻结问题中完成避障任务。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种人机协同控制移动式机器人智能避障方法的流程示意图;
图2 为本发明实施例提供的一种人机协同控制移动式机器人智能避障方法的技术路线图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种人机协同控制移动式机器人智能避障方法、系统、存储介质和电子设备,解决了当阻挡机器人的障碍物或行人不让开的时,机器人会无限期停滞不前的技术问题。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
本发明实施例中:首先,构建基于环境复杂度和深度强化学习算法PPO构建移动式机器人避障网络,完成基本的避障能力,并平衡避障效率和安全问题。其次,结合深度强化学习算法DNQ构建信号指令控制策略训练框架,决定机器人何时采取发送指令控制,解决机器人无法完成的避障任务。最后,介绍如何在仿真环境中训练,得到最优的训练策略,实现人机协同的移动式机器人的避障策略以及最终的发明部署过程。至少解决了如下技术缺陷:
(1)现有的避障算法并未考虑环境的复杂度作为状态的输入信息进行避障。环境的复杂度对于导航策略的选择具有重要的影响,对于环境复杂度较低的场景策略应该更加激进,对于环境复杂度较高的场景策略应该更加保守,这样才能够更好的平衡导航效率和安全的问题。
(2)现有的避障方法并不能实现避障任务的完全成功。对于在环境复杂或者人群密集的情况下,会出现机器人冻结问题,机器人冻结是指机器人认为当前所有向前的速度都会导致碰撞,如果阻挡机器人的障碍物或行人不让开的话,机器人会出现无限期的停滞不前,也就是利用训练得到的策略无法解决该问题。
(3)动作空间过于简单,未考虑人机协同的情况。目前已有的避障算法结合深度强化学习训练的策略输出一般为线速度和角速度,仅考虑通过学习的策略进行控制,并未考虑将人的因素考虑在内。当机器人面对无法完成的任务时,机器人可以主动发送信号指令,通过将信号指令发送给服务端交由更高水平的智能体(例如:人)进行控制,即将信号指令发送与否作为深度强化学习训练的策略输出将能够更好地完成避障任务。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
实施例:
如图1所示,本发明实施例提供了一种人机协同控制移动式机器人智能避障方法,在仿真环境中预先训练好机器人自主避障网络和人机协同网络,包括:
S1、获取当前目标点位置;
S2、判断机器人是否抵达目标点,若是则进入S4,否则所述机器人自主避障网络根据自主避障算法,结合机器人当前状态,输出机器人当前时刻的线速度和角速度,逐步向目标点靠近;
所述人机协同网络根据实时的激光雷达传感数据,输出人机交互动作
Figure 447179DEST_PATH_IMAGE002
,若发出信号
Figure 336637DEST_PATH_IMAGE002
=1,则进入S3,若不发出信号
Figure 74786DEST_PATH_IMAGE002
=0,则重复执行S2;
S3、机器人发出指令信号至服务端,并接收由服务端返回的远程控制信号,进入S2;
S4、抵达目标点,完成当前任务。
本发明实施例通过构建深度强化学习训练模型,训练移动式机器人自主选择发出信号交由更高智能的智能体决策——人,能够在复杂的环境和机器人冻结问题中完成避障任务。
接下来将结合具体内容详细介绍上述技术方案的各个步骤:
需要说明的是,本发明实施例首先在仿真环境中预先训练好机器人自主避障网络和人机协同网络,共同采用基于深度强化学习的训练方法,最终通过机器人不断地与仿真环境进行交互训练得到的避障策略。
在步骤S1中,机器人根据下发的指令,获取当前目标点位置。
在步骤S2中:
一方面,如图2所示,判断机器人是否抵达目标点,若是则进入S4,否则所述机器人自主避障网络根据自主避障算法,结合机器人当前状态,输出机器人当前时刻的线速度和角速度,逐步向目标点靠近;
本发明实施中,基于环境复杂度和深度强化学习算法PPO预先训练所述机器人自主避障网络。
第一、关于环境复杂度。
其是指机器人的可观测数据的复杂程度的描述,本发明实施例使用的传感器数据为激光雷达,通过激光雷达获取的距离数据
Figure DEST_PATH_IMAGE055
,对环境复杂度进行分析。当前的环境复杂度具体表示为:
Figure DEST_PATH_IMAGE022AAAA
Figure DEST_PATH_IMAGE024AAAA
Figure DEST_PATH_IMAGE026AAAA
Figure DEST_PATH_IMAGE028AAAA
Figure DEST_PATH_IMAGE030AAAA
其中,H(P) laser 代表当前激光雷达传感数据分布的熵值,n代表对当前激光雷达数据所分的类别数目,p i 代表当前类别i的概率;
O (laser_free) 代表当前激光雷达观测数据中空闲空间占总视野的大小,其中N代表激光雷达发射的射线数,L代表激光雷达最大可观测的距离,L i 代表当前类别激光雷达的观测距离,F i 代表当前类别的频数;
∆h t 表示时间前后数据分布的变化带来的复杂度,采用相邻两个时间点t、t-1时刻的KL散度∆h t 来衡量,并采用前m时刻的KL散度值
Figure 765399DEST_PATH_IMAGE032
来表现时域上的复杂度。
第二、关于避障算法。
其具体采用深度强化学习算法PPO(Proximal Policy Optimization)近端策略优化算法进行训练。该算法符合Actor-Critic(AC)架构,能够解决连续动作空间的决策问题,其中Actor网络基于当前自身的状态进行动作决策,Critic网络对当前的动作进行评价,通过不断地与环境交互最终Actor能够选择最优的动作。具体包括:
机器人根据传感器获取自身的当前状态s t ,结合Actor网络输出当前的动作a t 转移到下一状态s t+1 ,并得到环境的反馈奖励r t ,将得到的经验(s t , a t , s t+1 , r t )存储,通过不断更新Actor网络的参数和搜集新的经验,得到最优的策略,使得当前Critic网络对当前的动作评价最高;
其中,强化学习元素的状态
Figure 159472DEST_PATH_IMAGE005
=
Figure 101889DEST_PATH_IMAGE007
,
Figure 632227DEST_PATH_IMAGE056
,
Figure 385419DEST_PATH_IMAGE011
,
Figure 266788DEST_PATH_IMAGE013
,
Figure 294787DEST_PATH_IMAGE057
),
Figure 902135DEST_PATH_IMAGE016
表示通过卷积当前激光雷达数据所得到的特征、
Figure 826229DEST_PATH_IMAGE056
表示信号指令动作,发出信号时
Figure 194893DEST_PATH_IMAGE056
=1,反之
Figure 26583DEST_PATH_IMAGE056
=0、
Figure 780781DEST_PATH_IMAGE011
表示机器人相对于目标的当前位置、
Figure 875776DEST_PATH_IMAGE013
表示当前时刻机器人的速度、
Figure 731737DEST_PATH_IMAGE057
表示当前的环境复杂度;
最终输出的动作a t 为角速度w t 和线速度v t
奖励函数r t 设计如下:
Figure 39222DEST_PATH_IMAGE018
Figure 414970DEST_PATH_IMAGE020
分别代表机器人抵达目标点、逐步向目标点靠近、发生碰撞、时间步数惩罚、远离障碍物、轨迹更加平滑的奖励。
具体的,本发明实施例中可以做出如下设置:
Figure 680867DEST_PATH_IMAGE059
=15,代表当
Figure 758544DEST_PATH_IMAGE061
<0.1即机器人与目标点的欧式距离
Figure 400878DEST_PATH_IMAGE061
小于0.1米时,机器人会得到15的奖励值;
为了鼓励机器人向目标点靠近,令
Figure 677139DEST_PATH_IMAGE063
=2.5*(
Figure 363204DEST_PATH_IMAGE065
);
当机器人发生碰撞时会收到
Figure 928177DEST_PATH_IMAGE067
=-15的奖励值;
为鼓了机器人尽快到达目标点令
Figure 46306DEST_PATH_IMAGE069
=-0.1;
让机器人更加注重障碍物令
Figure 393717DEST_PATH_IMAGE071
=-0.2*max(0.6-min
Figure 798154DEST_PATH_IMAGE073
,0),其中
Figure 850423DEST_PATH_IMAGE073
代表当前时刻t的激光雷达数据;
考虑到机器人运动的平稳性令
Figure 568981DEST_PATH_IMAGE075
=-0.1*
Figure 23096DEST_PATH_IMAGE077
最终Actor网络根据奖励函数r t ,不断地最大化的奖励,学习最优策略。
另一方面,如图2所示,所述人机协同网络根据实时的激光雷达传感数据,输出人机交互动作
Figure 785384DEST_PATH_IMAGE002
,若发出信号
Figure 324950DEST_PATH_IMAGE002
=1,则进入S3,若不发出信号
Figure 847198DEST_PATH_IMAGE002
=0,则重复执行S2。
本发明实施例中,为了鼓励机器人在陷入机器人冻结问题或者预感到在环境复杂度较大的场景中会发生碰撞时主动发送信号指令,交由更高层次的智能体完成避障任务,实现更高水平的避障能力,设计了基于深度强化学习算法DQN训练的人机协同网络。
DQN 采用神经网络来估计不同状态-动作组合下的
Figure 155820DEST_PATH_IMAGE079
值,通过梯度更新,选择Q值最高的动作a作为当前状态s的动作输出,该算法能够很好的解决高维状态空间下离散动作决策的问题,故很适合解决本发明的人机交互动作的选择方面。
具体到本发明实施例,DQN网络的状态输入为多时刻的激光雷达原始传感数据,
Figure 902059DEST_PATH_IMAGE080
通过卷积神经网路和全连接层进行特征提取,最终转换为预设维度的特征向量,并输出两个离散动作(
Figure 414074DEST_PATH_IMAGE036
)的Q值;
所述人机协同网络训练过程同时结合训练好的机器人自主避障网络,在训练时机器人自主避障网络的网络参数固定,只更新人机协同网络的参数;并且所述人机协同网络的奖励函数与机器人自主避障网络的奖励函数相比,增加一项已经发出信号的奖励r s ;即
Figure 740013DEST_PATH_IMAGE082
其中,关于r s 的取值将在后续步骤中详细描述。
此外,由于强化学习是通过智能体和环境不断交互进行训练的,真实场景训练会耗费大量的财力和人力,为此选择在仿真环境(如stage_ros、gazebo等)下进行。在训练人机交互过程中,为了模拟在机器人发出信号时交由更高层次的智能体进行控制的过程,本发明实施例设计启发式的选点过程来模拟在真实场景时机器人出现无法完成的导航任务时发出信号后人的操作过程。
具体的设计如下:首先根据一定的规则(例如:以机器人当前位置为圆心,1米为半径的区域内随机采样1000个点)在当前的地图中随机选取一定数目候选点集
Figure 903141DEST_PATH_IMAGE038
,机器人在执行目标任务
Figure 23544DEST_PATH_IMAGE011
时,若机器人选择发出信号,则机器人根据启发式的选点过程被移动到某一候选点
Figure 786969DEST_PATH_IMAGE040
继续执行导航任务。
具体选点启发式设计如下:
为了衡量到达
Figure 651020DEST_PATH_IMAGE083
的代价,选择当前机器人自主避障网络的价值网络之输出作为一个启发式项进行选点,将此时智能体的目标由
Figure 668655DEST_PATH_IMAGE011
改为
Figure 959959DEST_PATH_IMAGE084
,反映机器人当前抵达的候选点
Figure DEST_PATH_IMAGE085
的价值大小即难易程度,公式如下:
Figure DEST_PATH_IMAGE044_5A
同时为了保障选择的点尽量是最优的,符合更高智能体的操作,考虑选择的
Figure 109881DEST_PATH_IMAGE086
尽量在机器人到目标点的路径上,故采用
Figure 761311DEST_PATH_IMAGE087
到目标点
Figure 899031DEST_PATH_IMAGE011
的距离代价来衡量:
Figure DEST_PATH_IMAGE089A
故当前机器人智能体的选点规则为:
Figure DEST_PATH_IMAGE048_5A
其中,其中,i*代表当前最优点的编号,
Figure 456177DEST_PATH_IMAGE050
代表的是
Figure 663036DEST_PATH_IMAGE042
作为目标时价值网络的输出,
Figure 134469DEST_PATH_IMAGE052
代表的是
Figure 126696DEST_PATH_IMAGE042
到达目标的距离代价,w rl w d 为超参数,可以根据场景进行手动调试。
训练过程中,如果不发出信号则机器人不需要移动,此时的r s 为0,但发出信号是会受到惩罚的,惩罚的设置如下:
Figure DEST_PATH_IMAGE054AAAA
其中,p now 为机器人当前在地图中的位置,由于惩罚的奖励 ,机器人在训练过程中则会考虑在何时发出请求指令进行有效地平衡,提前预知是否会出现碰撞或者是冻结的情景,在选择发出信号和不发出信号之前学习到一个平衡, w s 为可调整的超参数,以应对不同场景的需要。
本发明实施例考虑到仿真和实际训练的不同,通过设计启发式函数选择候选点的过完成策略的训练过程,同时设置了响应的奖励函数,使得机器人最终的训练策略能够在合适的情景下主动地发出信号,完成导航任务。
在步骤S3中,机器人发出指令信号至服务端,并接收由服务端返回的远程控制信号,进入S2。
当机器人面对无法完成的任务时,机器人可以主动发送信号指令,通过将信号指令发送给服务端交由更高水平的智能体(例如:人)进行控制,即将信号指令发送与否作为深度强化学习训练的策略输出将能够更好地完成避障任务。
在步骤S4中,抵达目标点,完成当前任务。
本发明实施例对于导航的所述机器人自主避障网络,和一般的移动式机器人导航方法相比,在导航效率上有3%的提升,且碰撞率有5%的下降,能够很好的解决避障任务,主要原因是本研究的避障过程中加入了对当前环境复杂度的描述,机器人能够很好的根据当前的环境复杂度平衡效率和安全的问题。
对于执行一般的任务而言,本发明实施例提供的避障策略接近100%的任务,原因在于上述避障策略能提前预知碰撞或者发生机器人冻结状态时,主动地向人发出信号,交由人来控制,故在避障的成功率将大大提升。
本发明实施例提供了一种人机协同控制移动式机器人智能避障系统,在仿真环境中预先训练好机器人自主避障网络和人机协同网络,包括:
获取模块,用于获取当前目标点位置;
判断模块,用于判断机器人是否抵达目标点,若是则进入S4,否则所述机器人自主避障网络根据自主避障算法,结合机器人当前状态,输出机器人当前时刻的线速度和角速度,逐步向目标点靠近;
所述人机协同网络根据实时的激光雷达传感数据,输出人机交互动作
Figure 445288DEST_PATH_IMAGE002
,若发出信号
Figure 155755DEST_PATH_IMAGE002
=1,则进入S3,若不发出信号
Figure 962037DEST_PATH_IMAGE002
=0,则重复执行S2;
发令模块,用于机器人发出指令信号至服务端,并接收由服务端返回的远程控制信号,进入S2;
完成模块,用于抵达目标点,完成当前任务。
本发明实施例提供了一种存储介质,其存储有用于人机协同控制移动式机器人智能避障的计算机程序,其中,所述计算机程序使得计算机执行如上所述的人机协同控制移动式机器人智能避障方法。
本发明实施例提供了一种电子设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上所述的人机协同控制移动式机器人智能避障方法。
综上所述,与现有技术相比,具备以下有益效果:
1、本发明实施例通过构建深度强化学习训练模型,训练移动式机器人自主选择发出信号交由更高智能的智能体决策——人,能够在复杂的环境和机器人冻结问题中完成避障任务。
2、本发明将环境复杂度这一指标考虑到局部避障算法中,通过分析激光雷达数据,构架了基于激光雷达构建环境复杂度的指标体系,获取了当前的环境复杂度。作为机器人的状态输入,进行训练,使移动式机器人能够在不同的环境中选择出不同的策略。
3、考虑到仿真和实际训练的不同,通过设计启发式函数选择候选点的过完成策略的训练过程,同时设置了响应的奖励函数,使得机器人最终的训练策略能够在合适的情景下主动地发出信号,完成导航任务。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种人机协同控制移动式机器人智能避障方法,其特征在于,在仿真环境中预先训练好机器人自主避障网络和人机协同网络,包括:
S1、获取当前目标点位置;
S2、判断机器人是否抵达目标点,若是则进入S4,否则所述机器人自主避障网络根据自主避障算法,结合机器人当前状态,输出机器人当前时刻的线速度和角速度,逐步向目标点靠近;
所述人机协同网络根据实时的激光雷达传感数据,输出人机交互动作
Figure 320489DEST_PATH_IMAGE002
,若发出信号
Figure 636064DEST_PATH_IMAGE002
=1,则进入S3,若不发出信号
Figure 190804DEST_PATH_IMAGE002
=0,则重复执行S2;
S3、机器人发出指令信号至服务端,并接收由服务端返回的远程控制信号,进入S2;
S4、抵达目标点,完成当前任务。
2.如权利要求1所述的人机协同控制移动式机器人智能避障方法,其特征在于,基于环境复杂度和深度强化学习算法PPO预先训练所述机器人自主避障网络,具体包括:
机器人根据传感器获取自身的当前状态s t ,结合Actor网络输出当前的动作a t 转移到下一状态s t+1 ,并得到环境的反馈奖励r t ,将得到的经验(s t ,a t ,s t+1 ,r t )存储,通过不断更新Actor网络的参数和搜集新的经验,得到最优的策略,使得当前Critic网络对当前的动作评价最高;
其中,强化学习元素的状态
Figure 185305DEST_PATH_IMAGE004
=
Figure 732961DEST_PATH_IMAGE006
,
Figure 699780DEST_PATH_IMAGE008
,
Figure 940268DEST_PATH_IMAGE010
,
Figure 609016DEST_PATH_IMAGE012
,
Figure 960363DEST_PATH_IMAGE014
),
Figure 781688DEST_PATH_IMAGE006
表示通过卷积当前激光雷达数据所得到的特征、
Figure 193078DEST_PATH_IMAGE015
表示信号指令动作,发出信号时
Figure 847657DEST_PATH_IMAGE008
=1,反之
Figure 737116DEST_PATH_IMAGE008
=0、
Figure 412948DEST_PATH_IMAGE010
表示机器人相对于目标的当前位置、
Figure 995239DEST_PATH_IMAGE012
表示当前时刻机器人的速度、
Figure 638578DEST_PATH_IMAGE014
表示当前的环境复杂度;
最终输出的动作a t 为角速度w t 和线速度v t
奖励函数r t 设计如下:
Figure 128466DEST_PATH_IMAGE017
Figure 862066DEST_PATH_IMAGE019
分别代表机器人抵达目标点、逐步向目标点靠近、发生碰撞、时间步数惩罚、远离障碍物、轨迹更加平滑的奖励;
最终Actor网络根据奖励函数r t ,不断地最大化奖励,学习最优避障策略。
3.如权利要求2所述的人机协同控制移动式机器人智能避障方法,其特征在于,根据激光雷达数据,获取当前的环境复杂度,具体表示为:
Figure DEST_PATH_IMAGE021A
Figure DEST_PATH_IMAGE023A
Figure DEST_PATH_IMAGE025A
Figure DEST_PATH_IMAGE027A
Figure DEST_PATH_IMAGE029A
其中,H(P) laser 代表当前激光雷达传感数据分布的熵值,n代表对当前激光雷达数据所分的类别数目,p i 代表当前类别i的概率;
O (laser_free)代表当前激光雷达观测数据中空闲空间占总视野的大小,其中N代表激光雷达发射的射线数,L代表激光雷达最大可观测的距离,L i 代表当前类别激光雷达的观测距离,F i 代表当前类别的频数;
∆h t 表示时间前后数据分布的变化带来的复杂度,采用相邻两个时间点t、t-1时刻的KL散度∆h t 来衡量,并采用前m时刻的KL散度值
Figure 260599DEST_PATH_IMAGE031
来表现时域上的复杂度。
4.如权利要求2所述的人机协同控制移动式机器人智能避障方法,其特征在于,基于深度强化学习算法DQN预先训练所述人机协同网络,具体包括:
DQN网络的状态输入为多时刻的激光雷达原始传感数据,
Figure 125655DEST_PATH_IMAGE033
通过卷积神经网路和全连接层进行特征提取,最终转换为预设维度的特征向量,并输出两个离散动作(
Figure 622496DEST_PATH_IMAGE035
)的Q值;
所述人机协同网络训练过程同时结合训练好的机器人自主避障网络,在训练时机器人自主避障网络的网络参数固定,只更新人机协同网络的参数;并且所述人机协同网络的奖励函数与机器人自主避障网络的奖励函数相比,增加一项已经发出信号的奖励r s
5.如权利要求4所述的人机协同控制移动式机器人智能避障方法,其特征在于,在训练人机交互过程中,通过设计启发式函数选择候选点完成避障策略的训练,包括:首先根据一定的规则在当前的地图中随机选取一定数目候选点集
Figure 272920DEST_PATH_IMAGE037
,机器人在执行目标任务
Figure 931435DEST_PATH_IMAGE010
时,若机器人选择发出信号,则机器人根据启发式的选点过程被移动到某一候选点
Figure 50831DEST_PATH_IMAGE039
继续执行导航任务。
6.如权利要求5所述的人机协同控制移动式机器人智能避障方法,其特征在于,
选择当前机器人自主避障网络的价值网络之输出作为一个启发式项进行选点,将此时智能体的目标由
Figure 85783DEST_PATH_IMAGE010
改为
Figure 653031DEST_PATH_IMAGE041
,公式如下:
Figure DEST_PATH_IMAGE043A
采用
Figure 669397DEST_PATH_IMAGE041
到目标点
Figure 525358DEST_PATH_IMAGE010
的距离代价来衡量:
Figure 364001DEST_PATH_IMAGE045
当前机器人智能体的选点规则为:
Figure DEST_PATH_IMAGE047A
其中,i * 代表当前最优点的编号,
Figure 408924DEST_PATH_IMAGE049
代表的是
Figure 674820DEST_PATH_IMAGE041
作为目标时价值网络的输出,
Figure 752498DEST_PATH_IMAGE051
代表的是
Figure 644099DEST_PATH_IMAGE041
到达目标的距离代价,w rl w d 为超参数;
训练过程中,如果不发出信号则机器人不需要移动,此时的r s 为0,但发出信号是会受到惩罚的,惩罚的设置如下:
Figure DEST_PATH_IMAGE053A
其中,p now 为机器人当前在地图中的位置,w s 为可调整的超参数。
7.一种人机协同控制移动式机器人智能避障系统,其特征在于,在仿真环境中预先训练好机器人自主避障网络和人机协同网络,包括:
获取模块,用于获取当前目标点位置;
判断模块,用于判断机器人是否抵达目标点,若是则进入S4,否则所述机器人自主避障网络根据自主避障算法,结合机器人当前状态,输出机器人当前时刻的线速度和角速度,逐步向目标点靠近;
所述人机协同网络根据实时的激光雷达传感数据,输出人机交互动作
Figure 61305DEST_PATH_IMAGE002
,若发出信号
Figure 248835DEST_PATH_IMAGE002
=1,则进入S3,若不发出信号
Figure 548230DEST_PATH_IMAGE002
=0,则重复执行S2;
发令模块,用于机器人发出指令信号至服务端,并接收由服务端返回的远程控制信号,进入S2;
完成模块,用于抵达目标点,完成当前任务。
8.一种存储介质,其特征在于,其存储有用于人机协同控制移动式机器人智能避障的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1~6任一项所述的人机协同控制移动式机器人智能避障方法。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如权利要求1~6任一项所述的人机协同控制移动式机器人智能避障方法。
CN202210978998.7A 2022-08-16 2022-08-16 人机协同控制移动式机器人智能避障方法和系统 Active CN115079706B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210978998.7A CN115079706B (zh) 2022-08-16 2022-08-16 人机协同控制移动式机器人智能避障方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210978998.7A CN115079706B (zh) 2022-08-16 2022-08-16 人机协同控制移动式机器人智能避障方法和系统

Publications (2)

Publication Number Publication Date
CN115079706A true CN115079706A (zh) 2022-09-20
CN115079706B CN115079706B (zh) 2022-11-15

Family

ID=83244773

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210978998.7A Active CN115079706B (zh) 2022-08-16 2022-08-16 人机协同控制移动式机器人智能避障方法和系统

Country Status (1)

Country Link
CN (1) CN115079706B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080009970A1 (en) * 2006-07-05 2008-01-10 Battelle Energy Alliance, Llc Robotic Guarded Motion System and Method
JP2019175128A (ja) * 2018-03-28 2019-10-10 セコム株式会社 移動制御システム
CN111230902A (zh) * 2020-03-11 2020-06-05 吉帝机器人科技(深圳)有限公司 一种可移动自动贩售机器人
CN112666939A (zh) * 2020-12-09 2021-04-16 深圳先进技术研究院 一种基于深度强化学习的机器人路径规划算法
CN113143461A (zh) * 2021-01-26 2021-07-23 合肥工业大学 人机协同的微创内窥镜持镜机器人系统
CN113759901A (zh) * 2021-08-12 2021-12-07 杭州电子科技大学 一种基于深度强化学习的移动机器人自主避障方法
CN114155947A (zh) * 2021-10-28 2022-03-08 合肥工业大学 远程手术指导可视化人工选择位点跟踪方法、系统和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080009970A1 (en) * 2006-07-05 2008-01-10 Battelle Energy Alliance, Llc Robotic Guarded Motion System and Method
JP2019175128A (ja) * 2018-03-28 2019-10-10 セコム株式会社 移動制御システム
CN111230902A (zh) * 2020-03-11 2020-06-05 吉帝机器人科技(深圳)有限公司 一种可移动自动贩售机器人
CN112666939A (zh) * 2020-12-09 2021-04-16 深圳先进技术研究院 一种基于深度强化学习的机器人路径规划算法
CN113143461A (zh) * 2021-01-26 2021-07-23 合肥工业大学 人机协同的微创内窥镜持镜机器人系统
CN113759901A (zh) * 2021-08-12 2021-12-07 杭州电子科技大学 一种基于深度强化学习的移动机器人自主避障方法
CN114155947A (zh) * 2021-10-28 2022-03-08 合肥工业大学 远程手术指导可视化人工选择位点跟踪方法、系统和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
丁帅: "Autonomous Multiple Instruments Tracking for Robot-Assisted Laparoscopic Surgery With Visual Tracking Space Vector Method", 《 IEEE/ASME TRANSACTIONS ON MECHATRONICS》 *
欧阳波: "Face Tracking Strategy Based on Manipulability of a 7-DOF Robot Arm and Head Motion Intention Ellipsoids", 《2022 IEEE INTERNATIONAL CONFERENCE ON REAL-TIME COMPUTING AND ROBOTICS (RCAR)》 *
王涛: "无人车辆路径规划算法发展现状", 《舰船电子工程》 *

Also Published As

Publication number Publication date
CN115079706B (zh) 2022-11-15

Similar Documents

Publication Publication Date Title
Zhang et al. Vessel trajectory prediction in maritime transportation: Current approaches and beyond
Li et al. Distributed coordination for collision avoidance of multiple ships considering ship maneuverability
WO2021135554A1 (zh) 一种无人车全局路径规划方法和装置
US20210362596A1 (en) End-To-End Tracking of Objects
WO2022007179A1 (zh) 一种多agv运动规划方法、装置和系统
Ai et al. Coverage path planning for maritime search and rescue using reinforcement learning
Cao et al. Target search control of AUV in underwater environment with deep reinforcement learning
Chen et al. Autonomous port management based AGV path planning and optimization via an ensemble reinforcement learning framework
CN111780777A (zh) 一种基于改进a*算法和深度强化学习的无人车路径规划方法
EP3035314A1 (en) A traffic data fusion system and the related method for providing a traffic state for a network of roads
Chen et al. Robot navigation with map-based deep reinforcement learning
KR20180051335A (ko) 신경망 학습에 기반한 입력 처리 방법 및 이를 위한 장치
Deshpande et al. Deep reinforcement learning based vehicle navigation amongst pedestrians using a grid-based state representation
US11574223B2 (en) Method and apparatus for rapid discovery of satellite behavior
CN118394090A (zh) 一种基于深度强化学习的无人车决策与规划方法及系统
Yang et al. Improved reinforcement learning for collision-free local path planning of dynamic obstacle
CN116092055A (zh) 训练方法、获取方法、装置、设备及自动驾驶车辆
Masmoudi et al. Autonomous car-following approach based on real-time video frames processing
CN115079706B (zh) 人机协同控制移动式机器人智能避障方法和系统
Zhang et al. A convolutional neural network method for self-driving cars
Stogiannos et al. Vessel trajectory prediction using radial basis function neural networks
CN118444646A (zh) 基于自注意力机制强化学习的拓扑图上agv调度方法
CN116300928A (zh) 针对车辆的数据处理方法和数据处理模型的训练方法
Jawed et al. Data-driven vehicle trajectory forecasting
CN115688876A (zh) 一种生成流模型的训练方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant