CN113467462B

CN113467462B - 机器人的行人伴随控制方法、装置、移动机器人和介质

Info

Publication number: CN113467462B
Application number: CN202110796333.XA
Authority: CN
Inventors: 胡瑞军; 张育林; 张琦; 梁庄; 赵成; 王兆魁; 张锐; 王训
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-07-14
Filing date: 2021-07-14
Publication date: 2023-04-07
Anticipated expiration: 2041-07-14
Also published as: CN113467462A

Abstract

本申请涉及机器人的行人伴随控制方法、装置、移动机器人和介质，方法包括：获取机器人视野的深度图并提取深度图的深度特征矢量；获取机器人的导航神经网络接收到的行人引导坐标；行人引导坐标为接收到的行人引导点或对机器人预测得到的预测引导点；将多个连续时刻的深度特征矢量和行人引导坐标进行拼接，得到融合输入矢量；调用训练好的导航神经网络并将融合输入矢量输入导航神经网络，得到机器人的导航控制指令信息；根据导航控制指令信息控制机器人进行局部自主导航。基于“预测‑导航”的控制架构，行人伴随稳定性较高。

Description

机器人的行人伴随控制方法、装置、移动机器人和介质

技术领域

本申请涉及机器人导航技术领域，特别是涉及一种机器人的行人伴随控制方法、装置、移动机器人和介质。

背景技术

行人伴随辅助是服务机器人领域的一个重要内容，其在儿童看护、老年人辅助、工厂物流运输、商场自动购物车、机器人轮椅、险地探测和有人天体探测等场景中具有广泛的应用前景和社会效应。辅助机器人对行人的稳定伴随是其开展辅助任务和人机协同工作的前提。稳定伴随意味着辅助机器人能够协调避障和跟随运动，使其始终保持在行人周围一定范围内，从而能够保证行人辅助的及时性和安全视频监控的稳定性。

直觉上，可以使辅助机器人沿着行人运动的轨迹进行运动，并保持一定的滞后性。但是，行人和机器人对工作路况具有不同的通过能力。行人可能需要穿越一些狭窄通道或靠近障碍物的路径，此时机器人需要依靠自身携带的传感器进行道路障碍物检测并进行避障调整，从而实现安全的跟随。目前，障碍物环境中辅助机器人对行人的伴随控制已经有了许多研究，其解决思路主要有两种模式，第一种是将避障行为和跟随行为分离控制；第二种思路是指将避障行为和跟随行为统一控制。然而，在实现本发明的过程中，发明人发现前述传统的辅助机器人避障与行人伴随控制方法中，仍然存在着伴随控制稳定性较差的技术问题。

发明内容

基于此，有必要针对上述技术问题，提供一种机器人的行人伴随控制方法、一种机器人的行人伴随控制装置、一种移动机器人以及一种计算机可读存储介质，行人伴随控制稳定性较高。

为了实现上述目的，本发明实施例采用以下技术方案：

一方面，本发明实施例提供一种机器人的行人伴随控制方法，包括步骤：

获取机器人视野的深度图并提取深度图的深度特征矢量；

获取机器人的导航神经网络接收到的行人引导坐标；行人引导坐标为接收到的行人引导点或对机器人预测得到的预测引导点；

将k^Memory个连续时刻的深度特征矢量和k^Memory个连续时刻的行人引导坐标进行拼接，得到融合输入矢量；k^Memory为大于等于2的整数；

调用训练好的导航神经网络并将融合输入矢量输入导航神经网络，得到机器人的导航控制指令信息；

根据导航控制指令信息控制机器人进行局部自主导航。

另一方面，还提供一种机器人的行人伴随控制装置，包括：

深度矢量模块，用于获取机器人视野的深度图并提取深度图的深度特征矢量；

引导获取模块，用于获取机器人的导航神经网络接收到的行人引导坐标；行人引导坐标为接收到的行人引导点或对机器人预测得到的预测引导点；

矢量融合模块，用于将k^Memory个连续时刻的深度特征矢量和k^Memory个连续时刻的行人引导坐标进行拼接，得到融合输入矢量；k^Memory为大于等于2的整数；

导航输出模块，用于调用训练好的导航神经网络并将融合输入矢量输入导航神经网络，得到机器人的导航控制指令信息；

导航控制模块，用于根据导航控制指令信息控制机器人进行局部自主导航。

又一方面，还提供一种移动机器人，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现任一项的上述机器人的行人伴随控制方法的步骤。

再一方面，还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现任一项的上述机器人的行人伴随控制方法的步骤。

上述技术方案中的一个技术方案具有如下优点和有益效果：

上述机器人的行人伴随控制方法、装置、移动机器人和介质，通过针对移动式辅助机器人在障碍物环境中行人安全、稳定伴随的需求，创造性提出了基于“预测-导航”的控制架构，通过设置合适的避障导航引导点，引导机器人在避障的同时尽可能趋近目标行人，从而将机器人的避障行为和行人趋近跟随统一协调，进行“同步”地避障和跟随，而不是将两种行为在时序上分开独立进行。利于机器人产生更优伴随轨迹，机器人累计距离更短，稳定伴随性能更好。

利用行人运动预测信息来引导机器人的导航运动，使得机器人的避障和跟随行为更有预见性，较好的解决了当机器人面临障碍物时运动严重滞后于行走人员的问题，有效降低了机器人避障或等待导致的人机相对距离超出任务允许的范围的风险。基于行人运动预测引导信息的引导能够加速机器人启动避障行为，同时在避障的同时兼顾行人跟随，因此具有出色的稳定伴随性能。

附图说明

图1为一个实施例中“预测-导航”的稳定伴随控制架构示意图；

图2为一个实施例中机器人的行人伴随控制方法的流程示意图；

图3为一个实施例中基于“预测-导航”架构的行人稳定伴随控制的数据流示意图；

图4为一个实施例中机器人安全性评估函数计算中的深度特征矢量元素权重系数曲线示意图；

图5为一个实施例中机器人的行人伴随控制装置的模块结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

另外，本发明各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时，应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

事实上，机器人没有必要完全重复行人的行走轨迹。行人可能需要在特定位置开展任务，从而产生一定的复杂轨迹或等待，对机器人来说这样的轨迹的重复是没有意义的，机器人的运动轨迹可以在满足稳定伴随的情况下，以尽可能短的轨迹进行运动，从而减少不必要的控制频次、能耗和机械磨损。因此，将行人的运动轨迹作为机器人运动规划的参考，而不是完全重复，或许是一种更合适的解决思路。

目前，障碍物环境中辅助机器人对行人的伴随控制已经有了许多研究，其解决思路主要有两种模式：第一种是将避障行为和跟随行为分离控制，按照“先避障、后跟随”的优先级设定进行机器人的选择，其中，常用的行为控制方法包括模糊逻辑法和PID控制(也即比例积分微分控制)等。第二种思路是将避障行为和跟随行为统一控制，也就是进行避障和跟随路径规划，通常需要依赖障碍物地图构建和路径规划算法，比如A*算法和人工势场法等。尽管将避障行为和跟随行为统一规划的方法可以实现更优的机器人轨迹，可以避免轨迹冗余或机器人行为选择的振荡，但是目前的研究并没有考虑如何实现全过程的稳定伴随，也就是说即使在有障碍的情况下，避障时也需尽可能兼顾人机距离的保持。

因此，需要开展行人轨迹信息支持下的机器人避障与行人伴随控制方法研究，实现更优化的机器人伴随运动控制，从而保证伴随过程中机器人与行人相对距离更稳定。

在实践中，发明人研究发现传统的辅助机器人避障与行人伴随控制方法中，存在着以下缺陷：第一种思路是将避障行为和行人跟随行为是独立开来的，按照“先避障，后跟随”的优先级顺序进行协调选择，这种方法将跟随和避障割裂开，因此机器人避障时并不考虑其跟随目标信息，可能导致机器人总体运动轨迹质量较差，比如存在突变，偏长等，或可能会导致机器人陷入在两种行为之间无线切换的局部困境。

第二种思路是将避障行为和跟随行为统一控制，即同时进行避障和跟随，但是该方法需要实时构建障碍物地图并进行路径规划，需要依赖多线激光雷达点云图和高性能计算。发明人认为在行人跟随的问题上，没有必要建立全局地图或进行全局规划算法的路径搜索，这需要依赖高功耗的激光传感器和计算、内存等资源。因为拥有视觉和思考能力的行人的运动轨迹对机器人来说是很好的参考轨迹，考虑到机器人和行人的运动能力的差异和环境的动态变化，机器人可能只需要进行一些局部的避障决策。

若辅助机器人对行人的运动行为有一定的预知性，则其将会产生一些预见性的协同行为。在本申请的研究工作中，希望利用行人的预测位置来引导机器人的运动，使机器人能够根据行人的运动情况有预见性的避障，从而实现更稳定的人机相对距离的保持。在本申请的方法中，只依靠一个双目觉相机就可以实现行人的安全稳定伴随。

综上，本申请针对传统的辅助机器人避障与行人伴随控制方法中，仍然存在着的伴随控制稳定性较差的技术问题，提供了一种用于移动式辅助机器人的行人伴随控制方法。该方法能够实现移动辅助机器人在障碍物环境中的避障行为和行人跟随行为的协调，从而实现对行人的安全、稳定的伴随：首先，采用一种“预测-导航”控制架构，将机器人跟随和避障行为统一考虑，通过设置合适的避障导航引导点，引导机器人在避障的同时尽可能趋近目标行人；其次，利用行人运动预测信息来引导机器人的导航运动，使得机器人的避障和跟随行为更有预见性，从而实现更稳定的伴随运动。

关于本申请的一些技术术语的解释：稳定伴随：指辅助机器人能够协调避障和跟随运动，使其始终能稳定伴随在行人周围一定范围内，从而能够保证行人辅助的及时性和安全视频监控的稳定性。

强化学习：强化学习模仿行人或动物针对外界信号做出应激反应的现象，通过Agent与环境的交互积累经验，并进行动作选择策略的学习，其通过强化信号来指导学习方向的机器学习方法，是区别于监督学习和无监督学习的第三类机器学习方法。

深度强化学习：一类改进的强化学习方法，其以神经网络代替强化学习的价值函数表，从而使得强化学习能够适用于高维连续的状态空间或高维连续的动作空间。

深度图：深度图是指以物理世界中的点到相机平面的归一化距离为像素点亮度值的图像，反映了视野内物体各点到相机平面的远近程度，根据相机焦距信息和深度图可以计算出深度图中各点的空间距离和3维坐标。深度图通常通过深度相机获取，比如双目视觉相机和tof红外测距相机等。

如图1所示，本申请所提出的“预测-导航”控制架构示意图。在预测层，根据机器人观测到的截止至当前时刻的行人轨迹，预测其未来时刻的运动信息并将其预测结果将作为导航层的引导信息。在导航层，其主体包括一个反应式机器人导航控制器，其输入包括来自行人运动预测信息的导航层的引导信息和包含障碍物情况的环境信息，导航控制器的输出为机器人的运动行为决策。导航控制器能够控制机器人躲避障碍物，安全地到达行人引导点位置。图1中，XJ表示行人轨迹，XYJ表示行人运动引导信息，HX表示环境信息，JW表示机器人运动行为。

请参阅图2，一方面，本发明提供一种机器人的行人伴随控制方法，包括如下步骤S12至S20：

S12，获取机器人视野的深度图并提取深度图的深度特征矢量。

可以理解，机器人视野拍摄的深度图包含了其拍摄到的各个物理世界的点到相机平面的归一化距离的信息，可以为机器人的避障提供有效的障碍物感知所需的信息。利用机器人视野深度特征矢量来反应环境障碍物信息。深度特征图是基于机器人视野深度图进行地面信息减除和降维采样后得到的低维矢量，记为

其表示当前t_k时刻的机器人视野深度特征矢量，N表示该矢量的维度。

在一个实施例中，上述步骤S12中提取深度图的深度特征矢量的过程，具体可以包括如下处理步骤：

S122，对深度图进行地面背景减除，得到障碍物深度图；

S124，对障碍物深度图进行深度特征降维采样，得到深度特征矢量。

可以理解，基于深度图获取深度特征矢量的过程主要包括两步，分别是地面背景减除和深度特征降维采样。地面背景减除的目的是减去深度图中路面相应位置处的深度像素，从而得到只有障碍物的深度图(也即障碍物深度图)。深度特征降维采样是为了将2维的像素矩阵降维到一个1维的矢量，从而减少状态表征对图像本身的依赖，提高算法的泛化能力。

在一个实施例中，关于上述步骤S122，具体可以包括如下处理流程：

获取深度图中开阔地带的地面深度图；

获取机器人在工作过程中当前视野的当前深度图；

计算当前深度图与地面深度图的相似度矩阵；

根据相似度矩阵和当前深度图的像素矩阵进行矩阵元素乘积计算，得到障碍物深度图。

具体的，获取开阔地带的地面深度图D^ground，其第i行、第j列的像素值记为

且满足

获取机器人(可以是真实的机器人或仿真机器人)工作过程中某一时刻的视野深度图

也即选取的该某一时刻的当前视野的当前深度图，其第i行、第j列的像素值记为

且满足

计算当前深度图

与地面深度图D^ground的相似度矩阵S⁰¹，可采用本领域现有的相似度计算算法来实现。相似度矩阵S⁰¹为一个01矩阵，其元素记为

的取值按照前述两个矩阵对应位置像素值的相似度决定：当前述两个矩阵同一位置的两个像素值差异较小时，

取值为0；当前述两个矩阵同一位置的两个像素值的差异较大时，

取值为1。也就是按照如下公式进行计算：

其中，dis^threshold表示像素相似度判别阈值，其取值可根据特定任务环境下背景减除的要求确定；dis_max表示深度相机最远探测距离。

基于相似度矩阵，按照如下公式进行背景减除计算：

其中，定义

运算符号表示两个矩阵对应位置像素值做乘积并充当结果矩阵的同一索引位置的像素值。

在一个实施例中，关于上述步骤S124，具体可以包括如下处理流程：

将障碍物深度图的下半幅沿水平方向分割为N个条状子图；

分别将每个条状子图的最大像素值设为每个条状子图的特征采样值；

将各特征采样值进行反归一化变换，得到深度特征矢量。

具体的，采样时将障碍物深度图下半幅沿水平方向分割为N个条状子图，并用每个条状子图的最大像素值P_i作为该子图的特征采样值，特征采样值反应了该条状子图所在方向上最近障碍物距相机平面的距离的归一化数值，并且有P_i∈(0,1)。将这些特征采样值进行反归一化变换后，得到深度特征矢量：λ^N＝(p₁,p₂,…,p_N-1,p_N)^T，其中，p_i＝(L₂-L₁)×(1-P_i)表示障碍物深度图中从左到右第i个采样带中障碍物的最近距离，L₁和L₂为相机性能参数，分别表示到相机深度测量的最远距离和最近距离。

S14，获取机器人的导航神经网络接收到的行人引导坐标；行人引导坐标为接收到的行人引导点或对机器人预测得到的预测引导点。

可以理解，机器人的导航神经网络可以搭载在机器人的导航控制器的物理实体中。行人引导信息(如上述的引导点)本质上充当了导航控制器(也即非物理实体的导航神经网络)的控制目标，其作用是告诉导航控制器当前时刻的运动目标位置。行人引导信息对导航控制器的引导作用是上述控制方法的核心。

将当前t_k时刻导航控制器接收的行人引导坐标记为G_k，其取值根据机器人视野前方是否存在障碍物来进行判断。当机器人视野前方存在障碍物时，也就是当min(λ_k)＜dis^{obs_threshold}时，以行人未来时刻

时刻的预测位置为预测引导点，从而引导机器人预见性的避障运动。dis^{obs_threshold}表示障碍物存在性判别阈值，其本质上为一个距离值，当min(λ_k)＜dis^{obs_threshold}时，认为机器人前方存在障碍物。

当不满足min(λ_k)＜dis^{obs_threshold}时，以过去时刻某一个时刻

时刻的行人位置为行人引导点，从而控制机器人始终跟随在行人后方一定距离范围内。

因此，在一些实施方式中，上述步骤S14中，通过下式确定行人引导坐标取值为行人引导点或预测引导点：

其中，

G_k表示行人引导坐标，

表示过去

时刻的行人引导点，

表示未来

时刻的预测引导点，λ_k表示当前t_k时刻的深度特征矢量，

表示预测引导点的坐标，

表示行人引导点的坐标。

在一个实施例中，预测引导点的预测过程，包括：

在机器人的体坐标系下，基于卡尔曼滤波算法进行行人的运动轨迹预测，得到预测引导点。下一时刻的行人运动轨迹的预测模型为：

其中，

其中，

表示未来k+t^pre时刻的预测引导点，

表示任意时刻的行人运动轨迹最优估计值，

表示未来k^Pre时刻的传递矩阵，t_k-1表示当前t_k时刻的上一时刻，

和

分别表示预测引导点的行人位置坐标，

和

分别表示预测引导点的行人运动速度分量。

具体的，用ψ表示行人的行走轨迹，用(x^a,y^a)^T表示行人的位置，记为

则从开始到当前t_k时刻的行人轨迹可以表示为：

以(v^x,v^y)^T表示行人的速度。那么行人的运动学方程可以近似为：

基于Kalman(卡尔曼)滤波算法进行行人的运动预测。在机器人的体坐标系下的行人运动模型方程和测量方程写成如下形式：

x_k＝Ax_k-1+w_k

z_k＝Hx_k+v_k

其中，x_k表示运动状态矢量，具体包括

将行人运动近似为匀速模型，则传递矩阵A可以写为：

前式中，H为测量矩阵，w_k表示模型误差，v_k表示观测误差。在应用中，H＝I，I表示单位矩阵，w_k和v_k采用0均值的高斯分布(Normal distribution)，其协方差矩阵分别记为

和

任意时刻的行人轨迹最优估计值

可以计算如下：

其中，

为预测状态，

为预测协方差矩阵，

为Kalman增益矩阵；

表示k时刻的估计协方差矩阵。未来t^Pre时刻的预测运动轨迹的预测为上述的预测模型。

S16，将k^Memory个连续时刻的深度特征矢量和k^Memory个连续时刻的行人引导坐标进行拼接，得到融合输入矢量；k^Memory为大于等于2的整数；

可以理解，前述两个矢量的拼接方式可以是首尾相接，例如下文网络训练中的矢量拼接处理方式。

S18，调用训练好的导航神经网络并将融合输入矢量输入导航神经网络，得到机器人的导航控制指令信息；

S20，根据导航控制指令信息控制机器人进行局部自主导航。

具体的，机器人的导航控制器的物理实体在得到导航神经网络计算输出的导航控制指令信息，比如机器人的运动行为的评价值，进而控制机器人按照该导航控制指令信息对所需跟随的行人进行伴随运动。

上述机器人的行人伴随控制方法，通过针对移动式辅助机器人在障碍物环境中行人安全、稳定伴随的需求，创造性提出了基于“预测-导航”的控制架构，通过设置合适的避障导航引导点，引导机器人在避障的同时尽可能趋近目标行人，从而将机器人的避障行为和行人趋近跟随统一协调，进行“同步”地避障和跟随，而不是将两种行为在时序上分开独立进行。利于机器人产生更优伴随轨迹，机器人累计距离更短，稳定伴随性能更好。

在一个实施例中，本申请采用的“预测-导航”的控制架构，如图1所示，其中，导航层的主体为一个行人运动信息引导下的机器人局部导航控制器(也即非物理实体的导航神经网络)。局部导航控制器基于深度强化学习算法构建，其采用一个基于4层全连接层的动作评价值网络，其中，各隐含层的神经元个数分别为64个、128个和64个，且神经元的激活函数采用Relu函数。

导航神经网络的输入为表征环境障碍物信息和行人运动引导信息的矢量。导航神经网络的输出为7个机器人的离散运动行为的评价值，分别是4个运动朝向调整动作和3个直行行为的评价值。4个运动朝向调整动作包括高速左转、低速左转、低速右转和高速右转；3个直行行为包括低速前进、中速前进和高速前进。将7个动作依次记为a_i∈A,i＝1,…,7，其中，动作库A中包含7个元素。每个动作的控制周期取固定值。因此，导航神经网络的输出层包含7个神经元节点，依次表示前述各动作的评价值，记为q(s_k,a),a∈A，其中，s_k表示当前时刻t_k的系统状态。输出层的激活函数采用线性函数。

如图3所示，为基于深度强化学习的机器人局部导航控制器的数据流图，直观表示了控制器的输入和输出信息；图3中：

关于训练好的导航神经网络，其可以通过如下训练步骤得到：

将k^Memory个连续时刻的深度特征矢量和k^Memory个连续时刻的行人引导坐标进行拼接，得到训练融合矢量；k^Memory为大于等于2的整数；

将设计的目标趋近奖励和避障奖励进行加和运算，得到综合奖励函数；

利用训练融合矢量和综合奖励函数，在障碍物仿真环境中采用超参数分段的训练策略对导航神经网络进行训练，得到训练好的导航神经网络。

可以理解，在对导航神经网络进行训练前，关于连续多时刻深度强化学习状态表征：

由于机器人视野有限，当其在避障运动时存在看不到障碍物的情况，因此采用k^Memory个连续时刻的深度特征矢量(Vector of depth feature)和k^Memory个连续时刻的行人引导坐标拼接起来，一起表征当前的障碍物分布情况，作为导航网络的输入状态，可以表示为：

其维度为dim＝(N+2)×k^Memory。通过将过去连续时刻状态输入到网络中，意味着将Agent的过去k^Memory-1个时刻的记忆引入学习过程，使Agent能够基于对过去时刻的障碍物信息与目标点位置的记忆和当前的视野前方的障碍物情况和目标位置进行导航行为的决策，有助于机器人产生持续的避障行为，从而提高对较大尺寸障碍物的规避能力。

具体的，基于深度强化学习的导航策略包含在其动作评价网络中，机器人导航规划是基于当前系统状态选择一个评价值最高的行为的过程。通过深度强化学习训练，使评价函数网络逼近最优行为选择模型，从而使得导航控制器具备障碍物环境下避障和行人跟随的决策能力。

导航神经网络的训练时，需要设计一定的奖励机制，奖励机器人的目标趋近和障碍规避的行为，惩罚机器人趋近障碍物的行为，从而引导评价网络参数收敛到最佳导航策略模型。需要注意的是，导航控制器的训练只需要训练机器人规避障碍物并趋近引导位置；训练时不需要引入行人的运动模型，也不需要考虑行人的跟随，其中行人跟随和避障行为的协调是通过上文的行人引导信息获取策略来实现的。

在一个实施例中，设计的目标趋近奖励为

其中，K^FGP表示比例系数，

表示t_k时刻目标引导点到机器人的距离，

表示t_k-1时刻目标引导点到机器人的距离，D^arrival表示机器人到达目标引导点的判定距离阈值。

具体的，设计此种奖励用于激励机器人学会到达目标位置，记为

为了加速机器人趋向于目标位置，尽可能优化机器人的运动路径长度，根据引导点到机器人的距离的变化量来给予线性的稠密奖励，按照

计算。其中，K^FGP为比例系数，

表示t_k时刻目标引导点到机器人的距离；而当机器人到达目标位置时，给予100的最大奖励值。机器人到达引导点的判定距离阈值记为D^arrival，因此，设计的目标趋近奖励如上式所示。

在一个实施例中，设计的避障奖励为

其中，K^OA表示比例系数，η^safety表示深度带状分割矢量各元素的权重矢量，

表示t_k时刻的深度特征矢量，

表示t_k-1时刻的深度特征矢量，N表示深度特征向量维数，

表示机器人到任意障碍物的距离，D^collision表示判定机器人与环境障碍物是否发生碰撞的距离阈值。

具体的，当机器人前进方向出现障碍物时，则机器人处于比较危险的状态。根据机器人前方的障碍物分布状况，构造一个机器人安全状态指标函数用于评估某一时刻机器人的安全性，记为F^safety。本实施例中采用深度分割矢量加权求和得到的标量来评估安全性，也就是：

F^safty＝η^safety·λ^N

其中，η^safety＝[η¹,η²,…,η^N]为深度带状分割矢量各元素的权重矢量,λ^N表示深度特征矢量，N为深度特征矢量的维数。F^safty越大则表明机器人安全性越好，说明机器人前进通路上存在的障碍物比较少或比较远。直观上，机器人视野中央的障碍物相比视野两侧的障碍物对机器人的威胁更大。因此，ηⁱ可按照线性规律取值，如图4所示，其前后两端的“0”值是为了减少相机视野边缘的障碍物的影响，因为此处认为相机视野边缘障碍物的分布对机器人的安全性影响比较小。

其中，ρ为折线的斜率，可设定为0.1或0.2。

其中，i＝1,2,…,N。根据机器人安全性指标的变化设计了其避障奖励函数，也即：

其中，

表示k时刻机器人安全状态指标函数，

表示k-1时刻机器人安全状态指标函数。

此外，当机器人与环境障碍发生碰撞时，给予-100的惩罚。D^collision用来表示判定机器人与环境障碍是否发生碰撞的距离阈值。因此，机器人的避障奖励函数可以写为上述前一式的

所示。当机器人在原地转向时，引导点到其距离的变化非常微小，此时机器人的转向行为的奖励主要来自于这一项避障奖励。因此避障奖励主要用于直接对机器人的转向动作进行奖励或惩罚。

综上所示，以下综合奖励函数可以用作机器人的网络强化学习训练过程中的强化信号：

其中，R_k表示综合奖励函数。

应该理解的是，虽然图2流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其他的顺序执行。而且图2的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

请参阅图5，在一个实施例中，还提供了一种机器人的行人伴随控制装置100，包括深度矢量模块11、引导获取模块13、矢量融合模块15、导航输出模块17和导航控制模块19。其中，深度矢量模块11用于获取机器人视野的深度图并提取深度图的深度特征矢量。引导获取模块13用于获取机器人的导航神经网络接收到的行人引导坐标；行人引导坐标为接收到的行人引导点或对机器人预测得到的预测引导点。矢量融合模块15用于将k^Memory个连续时刻的深度特征矢量和k^Memory个连续时刻的行人引导坐标进行拼接，得到融合输入矢量；k^Memory为大于等于2的整数。导航输出模块17用于调用训练好的导航神经网络并将融合输入矢量输入导航神经网络，得到机器人的导航控制指令信息。导航控制模块19用于根据导航控制指令信息控制机器人进行局部自主导航。

上述机器人的行人伴随控制装置100，通过各模块的协作，针对移动式辅助机器人在障碍物环境中行人安全、稳定伴随的需求，创造性提出了基于“预测-导航”的控制架构，通过设置合适的避障导航引导点，引导机器人在避障的同时尽可能趋近目标行人，从而将机器人的避障行为和行人趋近跟随统一协调，进行“同步”地避障和跟随，而不是将两种行为在时序上分开独立进行。利于机器人产生更优伴随轨迹，机器人累计距离更短，稳定伴随性能更好。

在一个实施例中，上述深度矢量模块11可以包括背景减除子模块和矢量采样子模块。背景减除子模块用于对深度图进行地面背景减除，得到障碍物深度图。矢量采样子模块用于对障碍物深度图进行深度特征降维采样，得到深度特征矢量。

在一个实施例中，上述背景减除子模块具体可以用于获取深度图中开阔地带的地面深度图；获取机器人在工作过程中当前视野的当前深度图；计算当前深度图与地面深度图的相似度矩阵；根据相似度矩阵和当前深度图的像素矩阵进行矩阵元素乘积计算，得到障碍物深度图。

在一个实施例中，上述矢量采样子模块具体可以用于将障碍物深度图的下半幅沿水平方向分割为N个条状子图；分别将每个条状子图的最大像素值设为每个条状子图的特征采样值；将各特征采样值进行反归一化变换，得到深度特征矢量。

在一个实施例中，上述机器人的行人伴随控制装置100各模块及其子模块，还可以用于实现上述机器人的行人伴随控制方法各实施例中其他的相应子步骤。

关于机器人的行人伴随控制装置100的具体限定，可以参见上文中机器人的行人伴随控制方法的相应限定，在此不再赘述。上述机器人的行人伴随控制装置100中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于具体数据处理功能的设备中，也可以软件形式存储于前述设备的存储器中，以便于处理器调用执行以上各个模块对应的操作，前述设备可以是但不限于本领域已有的各型导航规划控制的微处理器、单片机或树莓派等设备。

又一方面，还提供一种移动机器人，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时可以实现以下步骤：获取机器人视野的深度图并提取深度图的深度特征矢量；获取机器人的导航神经网络接收到的行人引导坐标；行人引导坐标为接收到的行人引导点或对机器人预测得到的预测引导点；将k^Memory个连续时刻的深度特征矢量和k^Memory个连续时刻的行人引导坐标进行拼接，得到融合输入矢量；k^Memory为大于等于2的整数；调用训练好的导航神经网络并将融合输入矢量输入导航神经网络，得到机器人的导航控制指令信息；根据导航控制指令信息控制机器人进行局部自主导航。

需要说明的是，本实施例中的移动机器人除上述列出的存储器和处理器之外，还可以包括其他必要组成构件，例如但不限于行走机构、抓取机构、收纳机构和/或躯干本体，具体可以根据实际应用场景中的移动机器人的型号确定。

在一个实施例中，处理器执行计算机程序时还可以实现上述机器人的行人伴随控制方法各实施例中增加的步骤或者子步骤。

再一方面，还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取机器人视野的深度图并提取深度图的深度特征矢量；获取机器人的导航神经网络接收到的行人引导坐标；行人引导坐标为接收到的行人引导点或对机器人预测得到的预测引导点；将k^Memory个连续时刻的深度特征矢量和k^Memory个连续时刻的行人引导坐标进行拼接，得到融合输入矢量；k^Memory为大于等于2的整数；调用训练好的导航神经网络并将融合输入矢量输入导航神经网络，得到机器人的导航控制指令信息；根据导航控制指令信息控制机器人进行局部自主导航。

在一个实施例中，计算机程序被处理器执行时，还可以实现上述机器人的行人伴随控制方法各实施例中增加的步骤或者子步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成的，计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其他介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线式动态随机存储器(Rambus DRAM，简称RDRAM)以及接口动态随机存储器(DRDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可做出若干变形和改进，都属于本申请保护范围。因此本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种机器人的行人伴随控制方法，其特征在于，包括步骤：

获取机器人视野的深度图并提取所述深度图的深度特征矢量；

获取所述机器人的导航神经网络接收到的行人引导坐标；所述行人引导坐标为接收到的行人引导点或对所述机器人预测得到的预测引导点；

将k^Memory个连续时刻的所述深度特征矢量和k^Memory个连续时刻的所述行人引导坐标进行拼接，得到融合输入矢量；k^Memory为大于等于2的整数；

调用训练好的所述导航神经网络并将所述融合输入矢量输入所述导航神经网络，得到所述机器人的导航控制指令信息；

根据所述导航控制指令信息控制所述机器人进行局部自主导航；

所述预测引导点的预测过程，包括：

在所述机器人的体坐标系下，基于卡尔曼滤波算法进行行人的运动轨迹预测，得到所述预测引导点；下一时刻的行人运动轨迹的预测模型为：

其中，

其中，

表示未来k+t^pre时刻的预测引导点，

表示基于卡尔曼滤波算法的任意时刻的行人运动轨迹最优估计值，

和

分别表示预测引导点的行人位置坐标，

和

分别表示预测引导点的行人运动速度分量。

2.根据权利要求1所述的机器人的行人伴随控制方法，其特征在于，所述导航神经网络基于深度强化学习算法构建，包括一个基于4层全连接层的动作评价值网络；

训练好的所述导航神经网络，通过如下训练步骤得到：

利用所述训练融合矢量和所述综合奖励函数，在障碍物仿真环境中采用超参数分段的训练策略对所述导航神经网络进行训练，得到训练好的所述导航神经网络。

3.根据权利要求2所述的机器人的行人伴随控制方法，其特征在于，获取所述机器人的导航神经网络接收到的行人引导坐标的步骤中，通过下式确定所述行人引导坐标取值为所述行人引导点或所述预测引导点：

其中，

G_k表示所述行人引导坐标，

表示过去

时刻的所述行人引导点，

表示未来

时刻的所述预测引导点，λ_k表示当前t_k时刻的深度特征矢量，d^{obs_threshold}表示障碍物存在性判别阈值，

表示所述预测引导点的坐标，

表示所述行人引导点的坐标。

4.根据权利要求1所述的机器人的行人伴随控制方法，其特征在于，提取所述深度图的深度特征矢量的过程，包括：

对所述深度图进行地面背景减除，得到障碍物深度图；

对所述障碍物深度图进行深度特征降维采样，得到所述深度特征矢量。

5.根据权利要求4所述的机器人的行人伴随控制方法，其特征在于，对所述障碍物深度图进行深度特征降维采样，得到所述深度特征矢量的步骤，包括：

将所述障碍物深度图的下半幅沿水平方向分割为N个条状子图；N为大于等于2的整数；

分别将每个所述条状子图的最大像素值设为每个所述条状子图的特征采样值；

将各所述特征采样值进行反归一化变换，得到所述深度特征矢量。

6.根据权利要求2所述的机器人的行人伴随控制方法，其特征在于，所述目标趋近奖励为

其中，K^FGP表示比例系数，

表示t_k时刻目标引导点到机器人的距离，

表示t_k-1时刻目标引导点到机器人的距离，D^arrival表示所述机器人到达目标引导点的判定距离阈值；

所述避障奖励为

表示t_k时刻的深度特征矢量，

表示t_k-1时刻的深度特征矢量，N表示深度特征向量维数，

表示机器人到任意障碍物的距离，D^collision表示判定所述机器人与环境障碍物是否发生碰撞的距离阈值。

7.一种机器人的行人伴随控制装置，其特征在于，包括：

深度矢量模块，用于获取机器人视野的深度图并提取所述深度图的深度特征矢量；

引导获取模块，用于获取所述机器人的导航神经网络接收到的行人引导坐标；所述行人引导坐标为接收到的行人引导点或对所述机器人预测得到的预测引导点；

矢量融合模块，用于将k^Memory个连续时刻的所述深度特征矢量和k^Memory个连续时刻的所述行人引导坐标进行拼接，得到融合输入矢量；k^Memory为大于等于2的整数；

导航输出模块，用于调用训练好的所述导航神经网络并将所述融合输入矢量输入所述导航神经网络，得到所述机器人的导航控制指令信息；

导航控制模块，用于根据所述导航控制指令信息控制所述机器人进行局部自主导航；

引导获取模块还用于在所述机器人的体坐标系下，基于卡尔曼滤波算法进行行人的运动轨迹预测，得到所述预测引导点；下一时刻的行人运动轨迹的预测模型为：

其中，

其中，

表示未来k+t^pre时刻的预测引导点，

和

分别表示预测引导点的行人位置坐标，

和

分别表示预测引导点的行人运动速度分量。

8.一种移动机器人，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述机器人的行人伴随控制方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，计算机程序被处理器执行时实现权利要求1至6中任一项所述机器人的行人伴随控制方法的步骤。