CN115457075A

CN115457075A - 一种基于sac-pid的移动机器人目标跟随方法

Info

Publication number: CN115457075A
Application number: CN202210912958.2A
Authority: CN
Inventors: 朱威; 洪力栋; 谯先锋; 郑雅羽; 何德峰
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2022-07-31
Filing date: 2022-07-31
Publication date: 2022-12-09

Abstract

本发明涉及一种基于SAC‑PID的移动机器人目标跟随方法，获取机器人感知数据并预处理，使用目标检测网络获取跟随对象候选区域，跟随对象目标匹配后，采集强化学习的状态信息，以已训练好的SAC强化学习模型，输出移动机器人运动控制的目标角速度和目标线速度，实现移动机器人端到端的目标跟随决策输出，利用PID控制器对移动机器人进行平滑控制。本发明的有益效果在于，建立跟踪目标的模型，有效区分背景和跟随目标，遮挡情况下跟随方法可以继续应用，实现简单，收敛速度快，目标跟随的准确性高，能够应对复杂的应用场景，具备较强的鲁棒性，实现跟踪过程的平滑控制。

Description

一种基于SAC-PID的移动机器人目标跟随方法

技术领域

本发明涉及计算；推算；计数的技术领域，特别涉及一种智能机器人领域的、结合SAC与PID控制的基于SAC-PID的移动机器人目标跟随方法。

背景技术

随着移动机器人、人工智能等技术的快速发展，智能机器人正逐渐成为我们工作和生活的一部分。智能机器人与传统工业机器人相比，其对外界的感知能力更强，对定位系统、障碍检测和地图信息的要求更低，能够在复杂的环境中完成灵活精细的作业。人机融合也是智能机器人发展的重要趋势，在物流行业中，跟随型智能机器人相较于传统的人力搬运，具有搬运效率更高、搬运能力更强、人机协同能力更友好等优点。跟随任务要求机器人在确定跟随对象后，与跟随对象保持安全距离的情况下，无碰撞地完成跟随运动任务，对避障能力、目标检测能力都有一定的要求。

现有机器人跟随技术主要可以分为基于模板匹配的跟随方法、基于估计器的跟随方法和基于分类器的跟随方法。基于模板匹配的跟随方法通过选取第一帧跟随区域的目标信息作为匹配模板，在后续帧中，选择与模板的匹配结果误差最小的区域作为匹配结果实现目标跟随，具有实现简单、收敛速度快的优点，已在物体跟踪领域得到了广泛的运用。基于估计器的跟随方法是一种通过建立目标跟随模型来预测目标对象在下一帧中的位置，并更新目标当前状态的方法，通过不同场景设计不同类型的估计器，以此来提高目标跟随的准确性。基于分类器的目标跟随方法是通过线上学习的方式，并给定的类别和已知的训练数据，在线学习分类规则，然后对未知数据进行分类，能够应对复杂的应用场景，具备较强的鲁棒性。虽然这些方法具有各种优点，但仍然面临着许多难点，例如如何建立跟踪目标的模型、如何区分背景和跟随目标、如何解决遮挡情况下跟随方法失效、如何实现跟踪过程的平滑控制等问题。

申请号为201810980715.6的专利公开了一种基于单目视觉传感器的移动机器人目标对象跟随方法，该方法根据目标对象的目标区域得到跟随对象的图像特征矩阵，再利用跟踪算法和特征矩阵确定目标对象的中心点来实现目标跟随，但该方法不能较好地解决跟随过程中目标丢失的问题。申请号202010993247.3的专利公开了一种基于视觉的机器人跟随方法及跟随机器人，该方法通过将图像信息输入检测神经网络进行检测获取行人检测结果，再根据目标结果对机器人进行跟随控制，但该方法仅使用了单一传感器获取环境信息，容易受到环境因素的干扰，鲁棒性还有待提高。

发明内容

本发明解决了现有技术中存在的问题，提供了一种优化的基于SAC-PID的移动机器人目标跟随方法，采用深度学习目标检测网络检测候选跟随目标，使用深度强化学习算法SAC实现机器人的目标跟随决策，并通过PID实现平滑动作输出。

本发明所采用的技术方案是，一种基于SAC-PID的移动机器人目标跟随方法，所述方法包括以下步骤：

步骤1：以已标定的RGBD相机和激光雷达获取移动机器人目标跟随过程中的一帧实时RGBD数据I_RGBD和N个点的雷达数据R_N，将I_RGBD拆分为RGB图像I_RGB和深度图像I_D，为后续目标检测和跟随对象目标匹配做准备，将R_N进行k倍下采样处理，得到雷达数据R_N/k，减少R_N/k在后续步骤中强化学习状态空间的占例；

步骤2：使用人形数据集训练得到的目标检测网络对RGB图像I_RGB中的人形目标进行检测，获取跟随对象候选区域ROI_t,i；初始化时，跟随对象未确定，则将像素面积最大的候选区域ROI_t,i指定为初始跟随对象OBJ₀，作为后续目标匹配的基准，并返回步骤1，否则进行下一步；其中，t为当前帧的时间索引，i为候选区域索引；

此处目标检测网络主要跟随人形目标，以数据集训练得到，通过在数据集中额外增加一些本地相机拍摄的人形样本增加置信水平；

初始跟随目标未确定是指跟随算法在刚启动并获得第一帧图像之后确定跟随对象的过程，方便后续锁定跟随对象；基于此，由于一般跟随的目标是人，故对于一帧图像的检测结果中的几个人形检测ROI，取其中像素面积最大的框，作为摄像头中跟随的主要对象。

步骤3：对得到的所有候选区域ROI_t,i进行相似度判别，从中选择相似度最大的区域作为当前帧的跟随对象OBJ_t，获得跟随对象OBJ_t在RGB图像I_RGB中的位置信息l_t及其与移动机器人之间的距离信息d_t；解决跟随过程中疑似对象对机器人目标跟随的影响；

步骤4：基于步骤1和步骤3采集强化学习的状态信息S_t；将步骤1得到的激光雷达数据R_N/k加入到状态空间，同时将步骤3中得到的目标跟随对象OBJ_t的位置信息S_l和距离信息S_d也加入到状态空间；

步骤5：将S_t输入已训练好的SAC强化学习模型，输出移动机器人运动控制的目标角速度ω_target和目标线速度v_target，实现移动机器人端到端的目标跟随决策输出；

步骤6：在迁移到现实世界的目标跟随过程中，机器人无法瞬间达到强化学习策略网络输出的目标角速度ω_target和目标线速度v_target，并且在迁移过程中状态观测会发生较大的变化，容易输出与前一帧差异较大的动作，动作间的割裂易导致机器人出现转向震荡，急停急启的不良现象，因此在SAC策略网络输出的分布上采样动作后，基于输出的目标跟随决策，利用PID控制器对移动机器人进行平滑控制。

优选地，所述步骤1中，k的取值范围为{2,3,4}。

优选地，所述步骤3包括以下步骤：

步骤3.1：将得到的所有候选区域ROI_t,i都缩放到与上一帧中跟随对象OBJ_t-1相同大小，分别计算每个候选区域ROI_t,i与上一帧中跟随对象OBJ_t-1的相似度Q_i；Q_i表示当前帧中第i个候选区域ROI_t,i与上一帧中跟随对象OBJ_t-1的总体相似度；

步骤3.2：以Q_i最大的候选区域ROI_t,i作为当前帧的跟随对象OBJ_t，并确定其在RGB图像I_RGB中的位置信息l_t，并根据Q_i最大的候选区域选定对应的d_ROI,i作为当前帧的跟随对象OBJ_t与机器人之间的距离d_t。

优选地，Q_i＝α×Q_distance+(1-α)×Q_histogram，其中，Q_distance表示候选区域ROI_t,i与上一帧中跟随对象OBJ_t-1在距离方面的相似度，Q_histogram表示候选区域ROI_t,i与上一帧中跟随对象OBJ_t-1在直方图方面的相似度，α表示Q_distance的权重系数，其取值范围为[0.2,0.5]；Q_distance和Q_histogram的数值范围均在0到1之间，Q_distance值越大说明待比较对象与机器人的距离越接近上一帧中跟随对象与机器人的距离，Q_histogram值越大说明相似度越高，当两张图像完全相同时，其值为1。

优选地，

在每个候选区域ROI_t,i的中心位置确定一个m×n的RGB像素区域，然后通过RGB图I_RGB与深度图像I_D的对应关系计算该m×n像素区域的深度平均值，并将其作为该候选区域ROI_t,i与机器人之间的距离d_ROI,i，并将根据相似度Q_i，从所有(有限个)候选区域中选择相似度最大者的d_ROI,i作为当前帧的机器人与跟随目标距离d_t；d_t-1表示上一帧中跟随对象OBJ_t-1与移动机器人的距离；d_row,col表示深度图像中候选区域中心坐标附近位置对应的深度值。

优选地，

H_ox(z)、H_oy(c)分别是上一帧中跟随对象OBJ_t-1在水平、垂直方向上的投影直方图的取值，Q_histogram通过从水平、竖直两个方向计算当前候选区域ROI_t,i与上一帧中的目标对象OBJ_t-1的投影直方图相似度计算得到；H_x(z)、H_y(c)分别是缩放后的当前帧中候选区域ROI_t,i在X轴、Y轴方向上的投影直方图的取值；z为水平直方图分量索引，c为竖直直方图分量索引；w、h分别表示候选区域ROI_t,i的宽和高；

H_x(z)、H_y(c)首先是将每一个候选区域ROI_t,i中每个像素位置的R、G、B三通道像素值进行均值化处理，然后计算候选区域ROI_t,i在水平X轴和竖直Y轴两个方向上的垂直投影直方图，为避免ROI区域大小对直方图相似度产生影响，在计算投影直方图时，对累加和也进行了均值化处理，R_z,c、G_z,c、B_z,c为z行c列位置的三通道像素值，H_ox(z)、H_oy(c)的计算方法同H_x(z)、H_y(c)。

优选地，所述步骤4中，当前时刻的状态信息S_t＝{R_N/k,S_l,S_d}S_t＝{R_N/k,S_l,S_d}，其中，S_l＝{l_t-4,l_t-3,l_t-2,l_t-1,l_t}，当S_l队列未满足时则等待，S_d即当前帧中跟随对象OBJ_t与移动机器人之间的距离d_t；

此处将步骤1中得到的雷达距离数据R_N/k作为状态空间的一部分，在每次雷达距离数据R_N/k发生变化后，都需要更新状态空间中的该部分数值；

通过步骤3确定当前帧中的跟随对象OBJ_t的位置信息S_l和距离信息S_d，对于跟随对象OBJ_t的位置状态信息S_l是将前后五帧的RGB图像在步骤3得到的跟随对象位置坐标信息l_t进行组合得到的。

优选地，所述SAC强化学习模型以并置的Q值网络和策略网络及设置的奖励函数进行训练；

策略网络中，将状态信息作为输入，通过全连接神经网络后输出动作分布的均值和方差，使用均值和方差构建动作的高斯分布，通过采样得到最终的动作信息；

策略网络的目标是在已知状态的前提下，策略网络采取的动作能够实现最大化期望奖励与期望熵之和，也就是策略网络的训练目标为获得最大化状态价值

Q^π(s,a)为状态动作价值，α为熵正则化系数，π(a|s)为状态s下采取动作a的概率；α的取值可以由本领域技术人员基于需求自行设置。

为了加快策略网络的收敛，SAC算法采用重新参数化技巧，将策略网络的输出作为均值和方差实现输出动作的高斯分布，并在其中增加随机噪声，最后将采样到的动作进行扁平化操作，使动作在有效范围内；策略中，动作选择公式为

ξ～N(0,I)，其中a′(s,ξ)表示在带有噪声的高斯分布下随机采样得到的动作，ξ为服从均值为0、方差为I的高斯分布，μ_θ(s)表示策略网络输出的均值，σ_θ(s)表示策略网络输出的标准差。

Q值网络中，将状态信息和所述动作信息作为输入，将两者拼接后通过神经网络获得相应状态-动作对的Q值；

对于Q值网络的学习通过均方贝尔曼误差函数实现，损失函数为L_v(D)＝E_{(s,a,r,s',done)～D}(Q_v(s,a)-y)²,v＝1,2，其中，L_v(D)是第v个当前Q值网络的损失函数，D为经验池，(s,a,r,s’,done)为从经验池中采样得到的一条经验，该经验记录了从某一状态s，采取策略网络输出的动作a后获得了奖励r，并到达了下一状态s'的过程，done表示是否是终止状态的标志位(终止状态没有下一状态)；y表示目标Q值，

其中a'由策略网络根据s'得到，从两个目标Q值网络中选取较小的Q_i(s′,a′)，r为当前奖励，γ为衰减因子。通过目标Q值网络构建目标值供当前Q值网络更新，并通过当前Q值网络指导策略网络更新，实现SAC的训练过程。

由于本发明构建了两个当前Q值网络和两个目标Q值网络以及一个策略网络，构建两个Q值网络的目的是避免目标Q值过估计，这两个网络在构筑目标Q值时，选择了估计较低者，但用这个较低的yv来更新两个网络，而对于策略网络而言，则选取当前Q网络中较小者(v＝1,2)进行更新；在目标Q值网络定义了两个的前提下，目标Q值通过目标Q网络输出和奖励r构成，Q(s,a)表示当前Q值网络根据状态s动作a给出的估计，Q’(s’,a’)为目标网络根据下一状态s’和策略网络根据状态s’的动作输出a’的估计；γ主要表示状态动作价值间的关联性，一般取0.8～0.99。

优选地，所述奖励函数r＝r_collision+r_{d_obstacle}+r_{d_object}+r_location，奖励函数的定义主要为了帮助智能体进行有效的训练，在移动机器人目标跟随方法中奖励函数的大小主要由四部分组成，分别为机器人是否与障碍物产生碰撞的惩罚r_collision，机器人与最近障碍物之间的距离奖励r_{d_obstacle}，机器人与跟随目标之间的距离奖励r_{d_object}，跟随对象在机器人视野中的位置奖励r_location；

r_collision为碰撞惩罚，是指机器人在运行过程中与障碍物或是墙体产生碰撞后给予的一定惩罚，惩罚的大小与机器人到障碍物距离成反比，r_collision＝-10×collision，以collision为碰撞标志位，取值为1或0，1代表碰撞，0代表未碰撞；

r_{d_obstacle}为移动机器人与最近障碍物之间的距离奖励，是防止机器人在跟随过程中与障碍物或墙体靠得太近，奖励值的大小与障碍物的距离成反比，以d_obstacle为移动机器人与最近的障碍物之间的距离，d₁为离障碍物的安全距离，应当根据机器人尺寸做出调整，单位为米，

r_{d_object}为移动机器人与跟随对象之间的距离奖励，是为了使机器人能够与跟随对象保持有效距离范围，在设定范围内可获得正向奖励，而超出这个范围将会受到惩罚，本发明实现的目标跟踪距离是d₂～d₃，以d_t为移动机器人与跟随对象之间的距离，d_max是机器人与跟随对象之间的最大距离，若是大于该距离，则认定此次跟随失败，

r_location为跟随对象在移动机器人视野中的奖励，是为了保证机器人一直在跟随对象后面，若存在偏差能够及时进行调整，

其中，ω是移动机器人当前的角速度，ω_max是移动机器人能够达到的最大角速度，w为相机的横向分辨率大小，x是跟随对象的中心坐标。

优选地，所述步骤6中，离散化的PID公式为，

其中T为调节周期，比例项P被表示为K_p，积分项I被表示为

微分项D被表示为

T_i和T_d分别为积分时间和微分时间，k为执行次数，e_k为当前帧的实际值和设定值的误差，

为累计误差，将累计误差求和，消除静差；在机器人跟随任务中，PID控制器的控制目标是平滑当前帧与前一帧的动作输出，避免震荡，因此误差值e_k设为当前速度和强化学习策略网络给出动作的差值，即借助比例项快速调节、积分项消除累计速度误差、微分项增加系统稳定性，实现平滑到达策略网络输出动作设定值的目的；实际速度和目标速度的误差经由离散化的PID公式的输出记作v_PID与ω_PID，作为机器人执行机构的输入。

本发明涉及一种基于SAC-PID的移动机器人目标跟随方法，获取机器人感知数据并预处理，使用目标检测网络获取跟随对象候选区域，跟随对象目标匹配后，采集强化学习的状态信息，以已训练好的SAC强化学习模型，输出移动机器人运动控制的目标角速度和目标线速度，实现移动机器人端到端的目标跟随决策输出，利用PID控制器对移动机器人进行平滑控制。

本发明的有益效果在于，建立跟踪目标的模型，有效区分背景和跟随目标，遮挡情况下跟随方法可以继续应用，实现简单，收敛速度快，目标跟随的准确性高，能够应对复杂的应用场景，具备较强的鲁棒性，实现跟踪过程的平滑控制。

附图说明

图1为本发明的流程框图；

图2为本发明中跟随对象目标匹配流程图；

图3为本发明中SAC决策神经网络及末端PID控制器结构的示意图。

具体实施方式

下面结合实施例对本发明做进一步的详细描述，但本发明的保护范围并不限于此。

本发明方法的实施基于机器人操作系统ROS操作平台，机器人的转向结构是两轮差速，所使用的传感器主要包括Intel RealSense D455深度相机、Delta-3A激光雷达和光电编码器。双轮差速机器人上搭载的计算单元为英伟达公司的AI边缘计算平台JestonXavier NX，操作系统为Ubuntu18.04+ROS Melodic。

如图1所示，一种结合SAC和PID控制的移动机器人目标跟随方法，包括以下步骤：

(1)获取机器人感知数据并预处理；

(2)使用目标检测网络获取跟随对象候选区域；

(3)跟随对象目标匹配；

(4)强化学习状态信息采集；

(5)机器人目标跟随决策；

(6)基于PID的动作控制。

步骤(1)具体包括：

本发明采用已标定好的RGBD相机和激光雷达获取移动机器人目标跟随过程中的状态信息，使用RGBD相机采集一帧实时RGBD数据I_RGBD，并将其拆分为RGB图像I_RGB和深度图像I_D，为后续目标检测和跟随对象目标匹配做准备；使用激光雷达扫描机器人周围一周得到N个点的雷达距离数据R_N，并将N个点的雷达数据R_N进行k倍下采样处理得到R_N/k，k的取值范围为{2,3,4}，以减少R_N/k在后续步骤中强化学习状态空间的占例。

步骤(2)具体包括：

使用已训练好的深度学习目标检测网络模型对RGB图像I_RGB进行人形目标检测，得到跟随对象候选区域ROI_t,i，其中t为当前帧的时间索引，i为候选区域索引；初始化时，跟随对象未确定，则直接将像素面积最大的人形检测候选区域ROI_t,i指定为初始跟随对象OBJ₀，作为后续目标匹配的基准，并回到步骤(1)；若初始跟随对象已确定，则跳到下一步。

为了得到跟随对象在RGB图像I_RGB中的准确位置信息，本发明使用YOLOv5s作为目标检测网络，并采用旷视发布的基准数据集和数据增强方法对检测数据集进行扩充，使检测网络能够得到更好的检测效果。YOLOv5s检测网络训练具体步骤如下：

(2-1)为了适应机器人跟随运行环境的复杂性和跟随对象的广泛性，选择旷视发布的基准数据集CrowdHuman作为本发明目标检测数据集，该数据集包含大量数据，并且标注内容十分丰富。同时为了增加数据集的种类与样式，使用Mosaic数据增强技术对其进行数据增广，通过选取数据集中的任意四张图片进行翻转、缩放、色域变换、剪切操作，然后再将其进行拼接组合成一张图片的方式增强数据的表达能力。

(2-2)使用CrowdHuman基准数据集和Mosaic数据增强方法处理后的图像对YOLOv5s检测网络进行训练，调整网络参数，训练模型至平均精度mAP大于95％时完成训练。然后使用步骤(1)中得到的RGB三通道图像进行目标检测，如果当前RGB图像中没有检测到目标对象，则直接跳至步骤(4)，否则进行步骤(3)。

步骤(3)具体包括：

为了解决跟随过程中疑似对象对机器人的影响，利用上一帧的跟随对象OBJ_t-1对步骤(2)检测得到的候选区域ROI_t,i进行相似度判别，判别过程如图2所示，从中选择相似度最大的区域作为当前帧的跟随对象OBJ_t，具体判别方法如下：

(3-1)使用步骤(2)检测得到的候选区域ROI_t,i计算其域与上一帧中的目标跟随对象OBJ_t-1的相似度。首先将候选区域ROI_t,i缩放到与上一帧中跟随对象OBJ_t-1相同大小，再计算每一个候选区域ROI_t,i与上一帧中跟随对象OBJ_t-1的相似度，具体计算公式如下：

Q_i＝α×Q_distance+(1-α)×Q_histogram (1)

其中，Q_i表示当前帧中第i个候选区域ROI_t,i与上一帧中跟随对象OBJ_t-1的总体相似度；Q_distance表示该候选区域ROI_t,i与上一帧中跟随对象OBJ_t-1在距离方面的相似度；Q_histogram表示该候选区域ROI_t,i与上一帧中跟随对象OBJ_t-1在直方图方面的相似度；α表示Q_distance在整体相似度对比中占据的比例，其取值范围为α∈[0.2,0.5]。

所述距离相似度Q_distance的计算首先是在每个候选区域ROI_t,i的中心位置确定一个m×m的像素区域，在本实施过程中取3×3，然后通过RGB图I_RGB与深度图像I_D的对应关系计算该3×3像素区域的深度平均值，并将其作为该候选区域ROI_t,i与机器人之间的距离，最后再计算与上一帧中对象的距离相似度，具体计算公式如下：

其中，d_t-1表示上一帧中跟随对象OBJ_t-1与机器人的距离；d_row,col表示深度图像中候选区域中心坐标附近位置对应的深度值，中心附近m×m的像素区域可大致表征该候选区域与机器人的距离，深度均值记为d_ROI,i；Q_distance的数值范围为0到1之间，其值越大说明待比较对象与机器人的距离越接近上一帧中跟随对象与机器人的距离。

所述直方图相似度的计算首先是将每一个候选区域ROI_t,i的三通道像素值进行均值化处理，然后从X轴和Y轴两个方向计算当前候选区域ROI_t,i与上一帧中的目标对象OBJ_t-1的直方图相似度，具体计算公式如下：

其中，Q_histogram的数值范围为[0,1]，其值越大说明相似度越高，当两张图像完全相同时，值为1；z为水平投影直方图分量索引，c为竖直投影直方图分量索引；w、h分别表示该候选区域ROI_t,i的宽和高；H_x(z)、H_y(c)分别是缩放后的当前帧中候选区域ROI_t,i在X轴、Y轴方向上的投影直方图的取值，其计算分别按式(4)和(5)，H_ox(z)、H_oy(c)的计算方法与H_x(z)、H_y(c)相同：

(3-2)通过上述步骤计算得到各个候选区域的相似度Q_i，选择相似度最高的候选区域为当前帧的跟随对象OBJ_t，并确定其在RGB图像I_RGB中的位置信息l_t，然后将相似度最大区域的d_ROI,i作为当前帧中跟随对象OBJ_t与机器人之间的距离d_t；所述位置信息l_t包括在前后五帧RGB图像I_RGB中的检测得到的跟随对象在该图像中的位置坐标信息。

步骤(4)具体包括：

SAC决策算法的输入状态S_t主要是由激光雷达数据R_N/k、目标跟随对象OBJ_t的位置信息l_t和距离信息d_t组成，具体表示如式(6)所示。

S_t＝{R_N/k,S_l,S_d} (6)

其中，S_t表示当前时刻的状态信息；S_l表示当前时刻跟随对象OBJ_t的位置状态信息；S_d表示当前时刻机器人与跟随对象OBJ_t的距离状态信息。

具体状态信息的采集步骤如下：

(4-1)对于激光雷达数据R_N/k是在步骤(1)中得到，并将其作为状态SAC算法状态空间的一部分，该部分状态信息在每次机器人与环境交互之后对该部分信息进行更新；

(4-2)对于跟随对象OBJ_t的位置状态信息S_l是将前后五帧的RGB图像在步骤(3)得到的跟随对象位置坐标信息l_t进行组合得到，具体表示如式(7)所示，当缓存队列未满时，则等待缓存队列满再开始，若检测对象丢失，则沿用上一帧位置信息。

S_l＝{l_t-4,l_t-3,l_t-2,l_t-1,l_t} (7)

(4-3)对于跟随对象OBJ_t的距离状态信息S_d是通过获取步骤(3)中跟随对象OBJ_t所对应的相似度最高候选区域的d_ROI,i作为当前帧跟随目标与机器人的距离d_t，若检测对象丢失，则沿用上一帧位置信息。

步骤(5)具体包括：

本发明通过将步骤(4)中的智能体状态信息S_t输入到已训练好的SAC强化学习模型，输出机器人运动控制的目标角速度ω和目标线速度v，实现机器人端到端的目标动作设定值输出。所述SAC强化学习模型的具体训练步骤如下：

通过步骤(4)得到移动机器人目标跟随状态信息S_t，并根据状态S_t的特征和目标跟随控制过程设计SAC强化学习模型的神经网络和奖励函数，最后再对SAC强化学习模型进行训练得到机器人目标跟随控制模型。

(5-1)SAC算法的神经网络结构如图3所示，该网络结构主要分为Q值网络和策略网络。策略网络的输入是机器人传感器采集到的状态信息，经过三层全连接网络后输出动作高斯分布的均值和方差，然后使用其构建动作的高斯分布，最后的动作输出是对该高斯分布进行采样并通过Tanh函数使输出的动作在指定的范围内。Q值网络的输入由传感器采集的状态信息和策略网络输出的动作构成，两者分别输入到全连接层，然后再进行维度拼接，最后通过四层全连接后输出Q值。

(5-2)奖励函数的定义主要为了帮助智能体进行有效的训练，在移动机器人目标跟随方法中奖励函数的大小主要由四部分组成，分别为机器人是否与障碍物产生碰撞的惩罚r_collision，机器人与最近障碍物之间的距离奖励r_{d_obstacle}，机器人与跟随目标之间的距离奖励r_{d_object}，跟随对象在机器人视野中的位置奖励r_location，具体计算公式如下：

r＝r_collision+r_{d_obstacle}+r_{d_object}+r_location (8)

碰撞惩罚r_collision指是机器人在运行过程中与障碍物或是墙体产生碰撞后给予的一定惩罚，惩罚的大小与机器人到障碍物距离成反比，具体计算公式如下：

r_collision＝-10×collision (9)

其中，collision为碰撞标志位，取值为1或0，1代表碰撞，0代表未碰撞。

机器人与最近障碍物之间的距离奖励r_{d_obstacle}，是防止机器人在跟随过程中与障碍物或墙体靠得太近，奖励值的大小与障碍物的距离成反比，具体计算公式如下：

其中，d_obstacle为机器人最近的障碍物之间的距离，d₁为设定的与障碍物的安全距离，在本实施过程中取0.5米。

机器人与跟随对象之间的距离奖励r_{d_object}，设定目标跟随距离在d₂～d₃之间，根据需求选定距离，保持跟随目标在此距离范围内，智能体可获得正向奖励，而超出这个范围将会受到惩罚，机器人最终表现为会尽量保持在这个范围内，跟踪过程中距离太远不利于目标检测，故一般取d₂为1.5、d₃为2.5，奖励具体计算公式为：

其中，d_t是机器人与跟随对象之间的距离；d_max是机器人与跟随对象之间的最大距离，一般为7.5米，若是大于该距离，则认定此次跟随失败。

跟随对象在机器人视野中的奖励r_location，是为了保证机器人一直在跟随对象后面，若存在偏差能够及时进行调整，具体计算公式如下：

其中，ω是机器人当前的角速度；ω_max是机器人能够达到的最大角速度；w为相机的横向分辨率大小；x是跟随对象的中心坐标。

(5-3)根据步骤(4)得到的状态信息和步骤(5-1)和(5-2)设计的神经网络和奖励函数对SAC策略算法进行训练，并且在计算状态动作函数中增加了熵正则化，通过增加熵的方式来加强策略的随机性，进而提升策略后续学习的速度，并且可以避免策略陷入局部最优的情况。在SAC算法中需要同时学习一个策略网络和两个当前Q值网络，对于Q网络的学习是通过均方贝尔曼误差函数来实现，具体损失函数如下：

L_v(D)＝E_{(s,a,r,s',done)～D}(Q_v(s,a)-y)²,v＝1,2 (13)

其中，L_v(D)是第v个Q值网络的损失函数；D为经验池；y是目标Q值，(s,a,r,s',d)为从经验池中采样得到的一条经验，该经验记录了从某一状态s，采取动作a后获得了奖励r，并到达了下一状态s'的过程，done表示是否为终止状态的标志位。具体计算公式如下：

从两个目标Q值网络中选取较小的Q_v'(s′,a′)；r是当前奖励；γ为衰减因子，通过目标Q值网络构建目标值供当前Q值网络学习更新。

策略网络的目标是在已知状态的前提下，策略网络采取的动作能够实现最大化期望奖励与期望熵之和，也就是最大化状态价值V，通过当前Q值网络指导策略网络更新。状态价值V的计算公式为：

其中，Q^π(s,a)为状态动作价值，α为熵正则化系数，π(a|s)为状态s下采取动作a的概率。

同时，为了加快策略网络的收敛，SAC采用重新参数化技巧，将策略网络的输出作为均值和方差实现输出动作的高斯分布，并在其中增加随机噪声，最后将采样到的动作进行扁平化操作，使动作在有效范围内。所以，动作选择公式为：

其中a′(s,ξ)表示在带有噪声的高斯分布下随机采样得到的动作，ξ为服从均值为0、方差为I的高斯分布，μ_θ(s)表示策略网络输出的均值，σ_θ(s)表示策略网络输出的标准差。

步骤(6)具体包括：

(6)基于PID的动作控制

为确保机器人的执行机构能够稳定实现跟踪任务，在动作执行的输出端添加一个PID控制器。将雷达相机获取机器人所处场景的观测信息输入策略网络即可得到目标角速度ω_target和目标线速度v_target。借助光电编码器获得两轮转动量，结合两轮差速模型易得到当前角速度ω_actual与当前线速度v_actual。获取了设定值与实际值，即可利用PID来进行平滑控制。离散化的PID公式为：

其中比例项P可被表示为K_p；积分项I可被表示为

微分项D可被表示为

k为执行次数；e_k设计为当前帧的实际速度和SAC策略网络输出动作的误差；

为累计误差；在本发明实现中，调节时间T为将预处理后的雷达相机数据传入SAC策略网络获取动作，并经由PID控制器输出到机器人执行机构这一过程的时间，周期基本保持不变，因此PID参数可视为定值进行手动调整以满足平滑控制需要。将式(17)的结果作为当前帧机器人执行机构的输入线速度v_PID与输入角速度ω_PID，实现机器人跟随目标效果。

Claims

1.一种基于SAC-PID的移动机器人目标跟随方法，其特征在于：所述方法包括以下步骤：

步骤1：以已标定的RGBD相机和激光雷达获取移动机器人目标跟随过程中的一帧实时RGBD数据I_RGBD和N个点的雷达数据R_N，将I_RGBD拆分为RGB图像I_RGB和深度图像I_D，将R_N进行k倍下采样处理，得到雷达数据R_N/k；

步骤3：对得到的所有候选区域ROI_t,i进行相似度判别，从中选择相似度最大的区域作为当前帧的跟随对象OBJ_t，获得跟随对象OBJ_t在RGB图像I_RGB中的位置信息l_t及其与移动机器人之间的距离信息d_t；

步骤4：基于步骤1和步骤3采集强化学习的状态信息S_t；

步骤6：基于输出的目标跟随决策，利用PID控制器对移动机器人进行平滑控制。

2.根据权利要求1所述的一种基于SAC-PID的移动机器人目标跟随方法，其特征在于：所述步骤1中，k的取值范围为{2,3,4}。

3.根据权利要求1所述的一种基于SAC-PID的移动机器人目标跟随方法，其特征在于：所述步骤3包括以下步骤：

步骤3.1：将得到的所有候选区域ROI_t,i都缩放到与上一帧中跟随对象OBJ_t-1相同大小，分别计算每个候选区域ROI_t,i与上一帧中跟随对象OBJ_t-1的相似度Q_i；

4.根据权利要求3所述的一种基于SAC-PID的移动机器人目标跟随方法，其特征在于：Q_i＝α×Q_distance+(1-α)×Q_histogram，

其中，Q_distance表示候选区域ROI_t,i与上一帧中跟随对象OBJ_t-1在距离方面的相似度，Q_histogram表示候选区域ROI_t,i与上一帧中跟随对象OBJ_t-1在直方图方面的相似度，α表示Q_distance的权重系数，其取值范围为[0.2,0.5]；Q_distance和Q_histogram的数值范围均在0到1之间。

5.根据权利要求4所述的一种基于SAC-PID的移动机器人目标跟随方法，其特征在于：

在每个候选区域ROI_t,i的中心位置确定一个m×n的RGB像素区域，然后通过RGB图I_RGB与深度图像I_D的对应关系计算该m×n像素区域的深度平均值，并将其作为该候选区域ROI_t,i与机器人之间的距离d_ROI,i，并根据相似度Q_i，从所有候选区域中选择相似度最大者的d_ROI,i作为当前帧的机器人与跟随目标距离d_t；d_t-1表示上一帧中跟随对象OBJ_t-1与移动机器人的距离；d_row,col表示深度图像中候选区域中心坐标附近位置对应的深度值。

6.根据权利要求4所述的一种基于SAC-PID的移动机器人目标跟随方法，其特征在于：

H_ox(z)、H_oy(c)分别是上一帧中跟随对象OBJ_t-1在水平、垂直方向上的投影直方图的取值；H_x(z)、H_y(c)分别是缩放后的当前帧中候选区域ROI_t,i在X轴、Y轴方向上的投影直方图的取值；z为水平直方图分量索引，c为竖直直方图分量索引；w、h分别表示候选区域ROI_t,i的宽和高；R_z,c、G_z,c、B_z,c为z行c列位置的三通道像素值。

7.根据权利要求1所述的一种基于SAC-PID的移动机器人目标跟随方法，其特征在于：所述步骤4中，当前时刻的状态信息S_t＝{R_N/k,S_l,S_d}，其中，S_l＝{l_t-4,l_t-3,l_t-2,l_t-1,l_t}，当S_l队列未满足时则等待，令当前帧中跟随对象OBJ_t与移动机器人之间的距离d_t为S_d。

8.根据权利要求1所述的一种基于SAC-PID的移动机器人目标跟随方法，其特征在于：所述SAC强化学习模型以并置的Q值网络和策略网络及设置的奖励函数进行训练；

策略网络的训练目标为获得最大化状态价值V^π(s)，

其中，Q^π(s,a)为状态动作价值，α为熵正则化系数，π(a|s)为状态s下采取动作a的概率；

动作选择公式为

ξ～N(0,I)，其中，a′(s,ξ)表示在带有噪声的高斯分布下随机采样得到的动作，ξ为服从均值为0、方差为I的高斯分布，μ_θ(s)表示策略网络输出的均值，σ_θ(s)表示策略网络输出的标准差；

对于Q值网络的学习通过均方贝尔曼误差函数实现，损失函数为L_v(D)＝E_{(s,a,r,s',done)～D}(Q_v(s,a)-y)²,v＝1,2，其中，L_v(D)是第v个当前Q值网络的损失函数，D为经验池，(s,a,r,s’,done)为从经验池中采样得到的一条经验，记录了从某一状态s，采取策略网络输出的动作a后获得了奖励r，并到达了下一状态s'的过程，done表示是否是终止状态的标志位；y_i是目标Q值，

其中，a'由策略网络根据s'得到，从两个目标Q值网络中选取较小的Q_i(s′,a′)，r为当前奖励，γ为衰减因子。

9.根据权利要求1所述的一种基于SAC-PID的移动机器人目标跟随方法，其特征在于：所述奖励函数r＝r_collision+r_{d_obstacle}+r_{d_object}+r_location，r_collision为碰撞惩罚，r_collision＝-10×collision，以collision为碰撞标志位，1代表碰撞，0代表未碰撞；

r_{d_obstacle}为移动机器人与最近障碍物之间的距离奖励，以d_obstacle为移动机器人与最近的障碍物之间的距离，单位为米，

r_{d_object}为移动机器人与跟随对象之间的距离奖励，以d_object为移动机器人与跟随对象之间的距离，d_max是机器人与跟随对象之间的最大距离，

r_location为跟随对象在移动机器人视野中的奖励，

10.根据权利要求1所述的一种基于SAC-PID的移动机器人目标跟随方法，其特征在于：所述步骤6中，离散化的PID公式为，

其中，比例项P被表示为K_p，积分项I被表示为

微分项D被表示为

e_k为当前帧的实际值和设定值的误差，

为累计误差。