CN115079706A

CN115079706A - 人机协同控制移动式机器人智能避障方法和系统

Info

Publication number: CN115079706A
Application number: CN202210978998.7A
Authority: CN
Inventors: 赵灿灿; 欧阳波; 丁帅; 杨善林
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2022-08-16
Filing date: 2022-08-16
Publication date: 2022-09-20
Anticipated expiration: 2042-08-16
Also published as: CN115079706B

Abstract

本发明提供一种人机协同控制移动式机器人智能避障方法和系统，涉及移动式机器人智能避障技术领域。本发明：判断机器人是否抵达目标点，若是则完成当前任务，否则所述机器人自主避障网络根据自主避障算法，结合机器人当前状态，输出机器人当前时刻的线速度和角速度，逐步向目标点靠近；所述人机协同网络根据实时的激光雷达传感数据，输出人机交互动作

，若发出信号

=1，则进入S3，若不发出信号

=0，则重复执行本步骤；机器人发出指令信号至服务端，并接收返回的远程控制信号，进入上一步骤。通过构建深度强化学习训练模型，训练移动式机器人自主选择发出信号交由更高智能的智能体决策——人，能够在复杂的环境和机器人冻结问题中完成避障任务。

Description

人机协同控制移动式机器人智能避障方法和系统

技术领域

本发明涉及移动式机器人智能避障技术领域，具体涉及一种人机协同控制移动式机器人智能避障方法、系统、存储介质和电子设备。

背景技术

避障是指移动式机器人根据采集的障碍物的状态信息，在行走过程中通过传感器感知到妨碍其通行的静态和动态物体时，按照一定的方法进行有效地避障，最后达到目标点。即目前移动式机器人的基于深度强化学习避障算法，主要通过传感器获取数据，结合深度强化学习在仿真环境下进行训练实现机器人端到端的避障控制。

然而，现有的避障方法并不能实现避障任务的完全成功。尤其对于在环境复杂或者人群密集的情况下，会出现机器人冻结问题，机器人冻结是指机器人认为当前所有向前的速度都会导致碰撞，如果阻挡机器人的障碍物或行人不让开的话，机器人会出现无限期的停滞不前，也就是利用训练得到的策略无法解决该问题。

发明内容

（一）解决的技术问题

针对现有技术的不足，本发明提供了一种人机协同控制移动式机器人智能避障方法、系统、存储介质和电子设备，解决了当阻挡机器人的障碍物或行人不让开的时，机器人会无限期停滞不前的技术问题。

（二）技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

一种人机协同控制移动式机器人智能避障方法，在仿真环境中预先训练好机器人自主避障网络和人机协同网络，包括：

S1、获取当前目标点位置；

S2、判断机器人是否抵达目标点，若是则进入S4，否则所述机器人自主避障网络根据自主避障算法，结合机器人当前状态，输出机器人当前时刻的线速度和角速度，逐步向目标点靠近；

所述人机协同网络根据实时的激光雷达传感数据，输出人机交互动作

，若发出信号

=1，则进入S3，若不发出信号

=0，则重复执行S2；

S3、机器人发出指令信号至服务端，并接收由服务端返回的远程控制信号，进入S2；

S4、抵达目标点，完成当前任务。

优选的，基于环境复杂度和深度强化学习算法PPO预先训练所述机器人自主避障网络，具体包括：

机器人根据传感器获取自身的当前状态s _t，结合Actor网络输出当前的动作a _t转移到下一状态s _t+1，并得到环境的反馈奖励r _t，将得到的经验（s _t , a _t , s _t+1 , r _t）存储，通过不断更新Actor网络的参数和搜集新的经验，得到最优的策略，使得当前Critic网络对当前的动作评价最高；

其中，强化学习元素的状态

=（

,

,

,

,

），

表示通过卷积当前激光雷达数据所得到的特征、

表示信号指令动作，发出信号时

=1，反之

=0、

表示机器人相对于目标的当前位置、

表示当前时刻机器人的速度、

表示当前的环境复杂度；

最终输出的动作a _t为角速度w _t和线速度v _t；

奖励函数r _t设计如下：

分别代表机器人抵达目标点、逐步向目标点靠近、发生碰撞、时间步数惩罚、远离障碍物、轨迹更加平滑的奖励；

最终Actor网络根据奖励函数r _t，不断地最大化奖励，学习最优避障策略。

优选的，根据激光雷达数据，获取当前的环境复杂度，具体表示为：

其中，H(P) _laser代表当前激光雷达传感数据分布的熵值，n代表对当前激光雷达数据所分的类别数目，p _i代表当前类别i的概率；

O _{(laser_free)}代表当前激光雷达观测数据中空闲空间占总视野的大小，其中N代表激光雷达发射的射线数，L代表激光雷达最大可观测的距离，L _i代表当前类别激光雷达的观测距离，F _i代表当前类别的频数；

∆h _t表示时间前后数据分布的变化带来的复杂度，采用相邻两个时间点t、t-1时刻的KL散度∆h _t来衡量，并采用前m时刻的KL散度值

来表现时域上的复杂度。

优选的，基于深度强化学习算法DQN预先训练所述人机协同网络，具体包括：

DQN网络的状态输入为多时刻的激光雷达原始传感数据，

通过卷积神经网路和全连接层进行特征提取，最终转换为预设维度的特征向量，并输出两个离散动作(

)的Q值；

所述人机协同网络训练过程同时结合训练好的机器人自主避障网络，在训练时机器人自主避障网络的网络参数固定，只更新人机协同网络的参数；并且所述人机协同网络的奖励函数与机器人自主避障网络的奖励函数相比，增加一项已经发出信号的奖励r _s。

优选的，在训练人机交互过程中，通过设计启发式函数选择候选点完成避障策略的训练，包括：首先根据一定的规则在当前的地图中随机选取一定数目候选点集

，机器人在执行目标任务

时，若机器人选择发出信号，则机器人根据启发式的选点过程被移动到某一候选点

继续执行导航任务。

优选的，选择当前机器人自主避障网络的价值网络之输出作为一个启发式项进行选点，将此时智能体的目标由

改为

，公式如下：

采用

到目标点

的距离代价来衡量：

当前机器人智能体的选点规则为：

其中，i ^*代表当前最优点的编号，

代表的是

作为目标时价值网络的输出，

代表的是

到达目标的距离代价，w _rl和w _d为超参数；

训练过程中，如果不发出信号则机器人不需要移动，此时的r _s为0，但发出信号是会受到惩罚的，惩罚的设置如下：

其中，p _now为机器人当前在地图中的位置，w _s为可调整的超参数。

一种人机协同控制移动式机器人智能避障系统，在仿真环境中预先训练好机器人自主避障网络和人机协同网络，包括：

获取模块，用于获取当前目标点位置；

判断模块，用于判断机器人是否抵达目标点，若是则进入S4，否则所述机器人自主避障网络根据自主避障算法，结合机器人当前状态，输出机器人当前时刻的线速度和角速度，逐步向目标点靠近；

，若发出信号

=1，则进入S3，若不发出信号

=0，则重复执行S2；

发令模块，用于机器人发出指令信号至服务端，并接收由服务端返回的远程控制信号，进入S2；

完成模块，用于抵达目标点，完成当前任务。

一种存储介质，其存储有用于人机协同控制移动式机器人智能避障的计算机程序，其中，所述计算机程序使得计算机执行如上所述的人机协同控制移动式机器人智能避障方法。

一种电子设备，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行如上所述的人机协同控制移动式机器人智能避障方法。

（三）有益效果

本发明提供了一种人机协同控制移动式机器人智能避障方法、系统、存储介质和电子设备。与现有技术相比，具备以下有益效果：

本发明中，在仿真环境中预先训练好机器人自主避障网络和人机协同网络，包括：S1、获取当前目标点位置；S2、判断机器人是否抵达目标点，若是则进入S4，否则所述机器人自主避障网络根据自主避障算法，结合机器人当前状态，输出机器人当前时刻的线速度和角速度，逐步向目标点靠近；所述人机协同网络根据实时的激光雷达传感数据，输出人机交互动作

，若发出信号

=1，则进入S3，若不发出信号

=0，则重复执行S2；S3、机器人发出指令信号至服务端，并接收由服务端返回的远程控制信号，进入S2；S4、抵达目标点，完成当前任务。通过构建深度强化学习训练模型，训练移动式机器人自主选择发出信号交由更高智能的智能体决策——人，能够在复杂的环境和机器人冻结问题中完成避障任务。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种人机协同控制移动式机器人智能避障方法的流程示意图；

图2 为本发明实施例提供的一种人机协同控制移动式机器人智能避障方法的技术路线图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种人机协同控制移动式机器人智能避障方法、系统、存储介质和电子设备，解决了当阻挡机器人的障碍物或行人不让开的时，机器人会无限期停滞不前的技术问题。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

本发明实施例中：首先，构建基于环境复杂度和深度强化学习算法PPO构建移动式机器人避障网络，完成基本的避障能力，并平衡避障效率和安全问题。其次，结合深度强化学习算法DNQ构建信号指令控制策略训练框架，决定机器人何时采取发送指令控制，解决机器人无法完成的避障任务。最后，介绍如何在仿真环境中训练，得到最优的训练策略，实现人机协同的移动式机器人的避障策略以及最终的发明部署过程。至少解决了如下技术缺陷：

（1）现有的避障算法并未考虑环境的复杂度作为状态的输入信息进行避障。环境的复杂度对于导航策略的选择具有重要的影响，对于环境复杂度较低的场景策略应该更加激进，对于环境复杂度较高的场景策略应该更加保守，这样才能够更好的平衡导航效率和安全的问题。

（2）现有的避障方法并不能实现避障任务的完全成功。对于在环境复杂或者人群密集的情况下，会出现机器人冻结问题，机器人冻结是指机器人认为当前所有向前的速度都会导致碰撞，如果阻挡机器人的障碍物或行人不让开的话，机器人会出现无限期的停滞不前，也就是利用训练得到的策略无法解决该问题。

（3）动作空间过于简单，未考虑人机协同的情况。目前已有的避障算法结合深度强化学习训练的策略输出一般为线速度和角速度，仅考虑通过学习的策略进行控制，并未考虑将人的因素考虑在内。当机器人面对无法完成的任务时，机器人可以主动发送信号指令，通过将信号指令发送给服务端交由更高水平的智能体（例如：人）进行控制，即将信号指令发送与否作为深度强化学习训练的策略输出将能够更好地完成避障任务。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

实施例：

如图1所示，本发明实施例提供了一种人机协同控制移动式机器人智能避障方法，在仿真环境中预先训练好机器人自主避障网络和人机协同网络，包括：

S1、获取当前目标点位置；

，若发出信号

=1，则进入S3，若不发出信号

=0，则重复执行S2；

S4、抵达目标点，完成当前任务。

本发明实施例通过构建深度强化学习训练模型，训练移动式机器人自主选择发出信号交由更高智能的智能体决策——人，能够在复杂的环境和机器人冻结问题中完成避障任务。

接下来将结合具体内容详细介绍上述技术方案的各个步骤：

需要说明的是，本发明实施例首先在仿真环境中预先训练好机器人自主避障网络和人机协同网络，共同采用基于深度强化学习的训练方法，最终通过机器人不断地与仿真环境进行交互训练得到的避障策略。

在步骤S1中，机器人根据下发的指令，获取当前目标点位置。

在步骤S2中：

一方面，如图2所示，判断机器人是否抵达目标点，若是则进入S4，否则所述机器人自主避障网络根据自主避障算法，结合机器人当前状态，输出机器人当前时刻的线速度和角速度，逐步向目标点靠近；

本发明实施中，基于环境复杂度和深度强化学习算法PPO预先训练所述机器人自主避障网络。

第一、关于环境复杂度。

其是指机器人的可观测数据的复杂程度的描述，本发明实施例使用的传感器数据为激光雷达，通过激光雷达获取的距离数据

，对环境复杂度进行分析。当前的环境复杂度具体表示为：

来表现时域上的复杂度。

第二、关于避障算法。

其具体采用深度强化学习算法PPO(Proximal Policy Optimization)近端策略优化算法进行训练。该算法符合Actor-Critic（AC）架构，能够解决连续动作空间的决策问题，其中Actor网络基于当前自身的状态进行动作决策，Critic网络对当前的动作进行评价，通过不断地与环境交互最终Actor能够选择最优的动作。具体包括：

其中，强化学习元素的状态

=（

,

,

,

,

），

表示通过卷积当前激光雷达数据所得到的特征、

表示信号指令动作，发出信号时

=1，反之

=0、

表示机器人相对于目标的当前位置、

表示当前时刻机器人的速度、

表示当前的环境复杂度；

最终输出的动作a _t为角速度w _t和线速度v _t；

奖励函数r _t设计如下：

分别代表机器人抵达目标点、逐步向目标点靠近、发生碰撞、时间步数惩罚、远离障碍物、轨迹更加平滑的奖励。

具体的，本发明实施例中可以做出如下设置：

=15，代表当

<0.1即机器人与目标点的欧式距离

小于0.1米时，机器人会得到15的奖励值；

为了鼓励机器人向目标点靠近，令

=2.5*（

）；

当机器人发生碰撞时会收到

=-15的奖励值；

为鼓了机器人尽快到达目标点令

=-0.1；

让机器人更加注重障碍物令

=-0.2*max(0.6-min

,0)，其中

代表当前时刻t的激光雷达数据;

考虑到机器人运动的平稳性令

=-0.1*

。

最终Actor网络根据奖励函数r _t，不断地最大化的奖励，学习最优策略。

另一方面，如图2所示，所述人机协同网络根据实时的激光雷达传感数据，输出人机交互动作

，若发出信号

=1，则进入S3，若不发出信号

=0，则重复执行S2。

本发明实施例中，为了鼓励机器人在陷入机器人冻结问题或者预感到在环境复杂度较大的场景中会发生碰撞时主动发送信号指令，交由更高层次的智能体完成避障任务，实现更高水平的避障能力，设计了基于深度强化学习算法DQN训练的人机协同网络。

DQN 采用神经网络来估计不同状态-动作组合下的

值，通过梯度更新，选择Q值最高的动作a作为当前状态s的动作输出，该算法能够很好的解决高维状态空间下离散动作决策的问题，故很适合解决本发明的人机交互动作的选择方面。

具体到本发明实施例，DQN网络的状态输入为多时刻的激光雷达原始传感数据，

)的Q值；

所述人机协同网络训练过程同时结合训练好的机器人自主避障网络，在训练时机器人自主避障网络的网络参数固定，只更新人机协同网络的参数；并且所述人机协同网络的奖励函数与机器人自主避障网络的奖励函数相比，增加一项已经发出信号的奖励r _s；即

其中，关于r _s的取值将在后续步骤中详细描述。

此外，由于强化学习是通过智能体和环境不断交互进行训练的，真实场景训练会耗费大量的财力和人力，为此选择在仿真环境（如stage_ros、gazebo等）下进行。在训练人机交互过程中，为了模拟在机器人发出信号时交由更高层次的智能体进行控制的过程，本发明实施例设计启发式的选点过程来模拟在真实场景时机器人出现无法完成的导航任务时发出信号后人的操作过程。

具体的设计如下：首先根据一定的规则（例如：以机器人当前位置为圆心，1米为半径的区域内随机采样1000个点）在当前的地图中随机选取一定数目候选点集

，机器人在执行目标任务

继续执行导航任务。

具体选点启发式设计如下：

为了衡量到达

的代价，选择当前机器人自主避障网络的价值网络之输出作为一个启发式项进行选点，将此时智能体的目标由

改为

，反映机器人当前抵达的候选点

的价值大小即难易程度，公式如下：

同时为了保障选择的点尽量是最优的，符合更高智能体的操作，考虑选择的

尽量在机器人到目标点的路径上，故采用

到目标点

的距离代价来衡量：

故当前机器人智能体的选点规则为：

其中，其中，i*代表当前最优点的编号，

代表的是

作为目标时价值网络的输出，

代表的是

到达目标的距离代价，w _rl和w _d为超参数，可以根据场景进行手动调试。

其中，p _now为机器人当前在地图中的位置，由于惩罚的奖励，机器人在训练过程中则会考虑在何时发出请求指令进行有效地平衡，提前预知是否会出现碰撞或者是冻结的情景，在选择发出信号和不发出信号之前学习到一个平衡， w _s为可调整的超参数，以应对不同场景的需要。

本发明实施例考虑到仿真和实际训练的不同，通过设计启发式函数选择候选点的过完成策略的训练过程，同时设置了响应的奖励函数，使得机器人最终的训练策略能够在合适的情景下主动地发出信号，完成导航任务。

在步骤S3中，机器人发出指令信号至服务端，并接收由服务端返回的远程控制信号，进入S2。

当机器人面对无法完成的任务时，机器人可以主动发送信号指令，通过将信号指令发送给服务端交由更高水平的智能体（例如：人）进行控制，即将信号指令发送与否作为深度强化学习训练的策略输出将能够更好地完成避障任务。

在步骤S4中，抵达目标点，完成当前任务。

本发明实施例对于导航的所述机器人自主避障网络，和一般的移动式机器人导航方法相比，在导航效率上有3%的提升，且碰撞率有5%的下降，能够很好的解决避障任务，主要原因是本研究的避障过程中加入了对当前环境复杂度的描述，机器人能够很好的根据当前的环境复杂度平衡效率和安全的问题。

对于执行一般的任务而言，本发明实施例提供的避障策略接近100%的任务，原因在于上述避障策略能提前预知碰撞或者发生机器人冻结状态时，主动地向人发出信号，交由人来控制，故在避障的成功率将大大提升。

本发明实施例提供了一种人机协同控制移动式机器人智能避障系统，在仿真环境中预先训练好机器人自主避障网络和人机协同网络，包括：

获取模块，用于获取当前目标点位置；

，若发出信号

=1，则进入S3，若不发出信号

=0，则重复执行S2；

完成模块，用于抵达目标点，完成当前任务。

本发明实施例提供了一种存储介质，其存储有用于人机协同控制移动式机器人智能避障的计算机程序，其中，所述计算机程序使得计算机执行如上所述的人机协同控制移动式机器人智能避障方法。

本发明实施例提供了一种电子设备，包括：

一个或多个处理器；

存储器；以及

综上所述，与现有技术相比，具备以下有益效果：

1、本发明实施例通过构建深度强化学习训练模型，训练移动式机器人自主选择发出信号交由更高智能的智能体决策——人，能够在复杂的环境和机器人冻结问题中完成避障任务。

2、本发明将环境复杂度这一指标考虑到局部避障算法中，通过分析激光雷达数据，构架了基于激光雷达构建环境复杂度的指标体系，获取了当前的环境复杂度。作为机器人的状态输入，进行训练，使移动式机器人能够在不同的环境中选择出不同的策略。

3、考虑到仿真和实际训练的不同，通过设计启发式函数选择候选点的过完成策略的训练过程，同时设置了响应的奖励函数，使得机器人最终的训练策略能够在合适的情景下主动地发出信号，完成导航任务。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种人机协同控制移动式机器人智能避障方法，其特征在于，在仿真环境中预先训练好机器人自主避障网络和人机协同网络，包括：

S1、获取当前目标点位置；

，若发出信号

=1，则进入S3，若不发出信号

=0，则重复执行S2；

S4、抵达目标点，完成当前任务。

2.如权利要求1所述的人机协同控制移动式机器人智能避障方法，其特征在于，基于环境复杂度和深度强化学习算法PPO预先训练所述机器人自主避障网络，具体包括：

机器人根据传感器获取自身的当前状态s _t，结合Actor网络输出当前的动作a _t转移到下一状态s _t+1，并得到环境的反馈奖励r _t，将得到的经验（s _t ,a _t ,s _t+1 ,r _t）存储，通过不断更新Actor网络的参数和搜集新的经验，得到最优的策略，使得当前Critic网络对当前的动作评价最高；

其中，强化学习元素的状态