CN116301079A

CN116301079A - 一种轮式机器人速度精确控制方法以及装置

Info

Publication number: CN116301079A
Application number: CN202310213872.5A
Authority: CN
Inventors: 翟维枫; 刘庆; 岳利品; 董哲; 张自超; 陆文涛; 李永恒
Original assignee: North China University of Technology
Current assignee: North China University of Technology
Priority date: 2023-02-28
Filing date: 2023-02-28
Publication date: 2023-06-23

Abstract

本公开是关于一种轮式机器人速度精确控制方法以及装置。其中，该方法包括：采集轮式机器人的驱动电机的深度确定性的策略梯度算法DDPG状态量；基于预设的DDPG模型，以所述DDPG状态量为输入，生成无模型自适应控制MFAC参数；基于预设的MFAC模型，以所述MFAC参数、轮式机器人目标速度为输入，生成轮式机器人的驱动电机的PWM控制信号；基于所述PWM控制信号对所述轮式机器人的驱动电机进行驱动，完成对轮式机器人速度的精确控制。本公开通过将MFAC算法部署到机器人速度控制中，基于DDPG的无模型自适应控制的机器人速度控制，实现了对机器人速度的精确控制。

Description

一种轮式机器人速度精确控制方法以及装置

技术领域

本公开涉及机器人控制领域，具体而言，涉及一种轮式机器人速度精确控制方法、装置。

背景技术

机器人运动中，如何均衡好安全和效率之间的关系是十分重要的，当机器人快速移动时便会提高效率，但由于环境未知，快速移动情况下安全性便会降低，而若要保证安全性则便会降低运动效率。尤其是在导航过程中，面对未知的环境，很容易碰到突现的障碍物以及空间突然变小等状况。因此在权衡运动速度控制的过程中，对机器人速度响应的准确性快速性以及稳定性便要求极高。对于常用的轮式机器人，其具有能源效率高、机械简单、控制系统研究完善等优点。机器人的最基本且重要的任务之一是以无碰撞运动将机器人从起点导航到终点。运动过程中通常涉及路径规划和路径跟踪。因此需要精确的控制机器人的运动速度。

现有技术包括：采用PID控制器的线性控制器来跟踪同步机器人的航向；基于带有前馈补偿器的比例积分(PI)控制器，以跟踪期望路径；自适应滑模动态控制器以及基于PID的自适应跟踪控制器，其控制律基于李亚普诺夫稳定性理论。然而，以上提到的所有控制器均需要在仿真或者在线计算机的帮助先实现。此外，这些算法需要大量的计算时间和巨大的内存。因此，在内存较小的微控制器中实现这些算法是不切实际的，因此在实际机器人上很难实现。而且对于传统的PID控制器，其一对于速度控制来说，对于低速情况下，速度响应在稳定阶段容易发生震荡。其二对于PID参数的调节，常规的参数调节方法有经验凑试法、临界比例度法、衰减曲线法、免疫算法、MEA参数整定方法等，但都存在很大的限制，一般比较复杂繁琐，而且更多的是要基于人工经验的算法。目前调参效果相对较好，并且最常用的参数自调节算法为群体智能优化算法，但其优化过程极易陷入局部最优解，达不到很好的收敛效果。

因此，需要一种或多种方法解决上述问题。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种轮式机器人速度精确控制方法、装置，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。

根据本公开的一个方面，提供一种轮式机器人速度精确控制方法，包括：

采集轮式机器人的驱动电机的深度确定性的策略梯度算法DDPG状态量；

基于预设的DDPG模型，以所述DDPG状态量为输入，生成无模型自适应控制MFAC参数；

基于预设的MFAC模型，以所述MFAC参数、轮式机器人目标速度为输入，生成轮式机器人的驱动电机的PWM控制信号；

基于所述PWM控制信号对所述轮式机器人的驱动电机进行驱动，完成对轮式机器人速度的精确控制。

在本公开的一种示例性实施例中，所述方法还包括：

基于所述轮式机器人的驱动电机的编码器，对所述驱动电机进行测速，完成对轮式机器人的驱动电机的深度确定性的策略梯度算法DDPG状态量的采集，所述DDPG状态量包括速度响应超调量、速度响应上升时间、速度响应稳定时间。

在本公开的一种示例性实施例中，所述方法还包括建立基于状态空间模块、动作空间模块、奖励函数、损失函数的深度确定性的策略梯度算法DDPG模型：

所述状态空间模块、动作空间模块以所述DDPG状态量为输入，生成无模型自适应控制MFAC参数；

所述奖励函数为基于所述DDPG状态量及DDPG状态量阈值生成的奖励函数；

所述损失函数为用于更新DDPG算法中目标网络和目标策略网络的参数值。

在本公开的一种示例性实施例中，所述方法还包括：

基于预设训练组数据，对所述预设的DDPG模型进行训练；

当所述预设的DDPG模型输出的参数值收敛时，完成所述预设的DDPG模型的训练。

在本公开的一种示例性实施例中，所述方法还包括：

所述预设的DDPG模型的奖励函数为r＝r₁+r₂+r₃+r₄，

其中，

so为速度响应超调量大小、ot为速度响应超调量阈值、str为速度响应上升时间、trt为速度响应上升时间阈值、sts为速度响应稳定时间、tst为速度响应稳定时间阈值、ssp为预设给定速度大小、hf为速度响应曲线最大速度值。

在本公开的一种示例性实施例中，所述方法还包括：

所述预设的MFAC模型为

其中，η为步长因子、μ为权重因子、ρ为可调节步长序列、λ为可调的权重系数，

为伪偏导数，Δu为前后两时刻之间系统的输入差值，y^*为系统目标输出值，y为当前时刻系统的输入值，ε为预设充分小的正数，/>

的初值。

在本公开的一个方面，提供一种轮式机器人速度精确控制装置，包括：

状态量采集模块，用于采集轮式机器人的驱动电机的深度确定性的策略梯度算法DDPG状态量；

参数生成模块，用于基于预设的DDPG模型，以所述DDPG状态量为输入，生成无模型自适应控制MFAC参数；

控制信号生成模块，用于基于预设的MFAC模型，以所述MFAC参数、轮式机器人目标速度为输入，生成轮式机器人的驱动电机的PWM控制信号；

驱动控制模块，用于基于所述PWM控制信号对所述轮式机器人的驱动电机进行驱动，完成对轮式机器人速度的精确控制。

本公开的示例性实施例中的一种轮式机器人速度精确控制方法，该方法包括：采集轮式机器人的驱动电机的深度确定性的策略梯度算法DDPG状态量；基于预设的DDPG模型，以所述DDPG状态量为输入，生成无模型自适应控制MFAC参数；基于预设的MFAC模型，以所述MFAC参数、轮式机器人目标速度为输入，生成轮式机器人的驱动电机的PWM控制信号；基于所述PWM控制信号对所述轮式机器人的驱动电机进行驱动，完成对轮式机器人速度的精确控制。本公开通过将MFAC算法部署到机器人速度控制中，基于DDPG的无模型自适应控制的机器人速度控制，实现了对机器人速度的精确控制。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

通过参照附图来详细描述其示例实施例，本公开的上述和其它特征及优点将变得更加明显。

图1示出了根据本公开一示例性实施例的一种轮式机器人速度精确控制方法的流程图；

图2示出了根据本公开一示例性实施例的一种轮式机器人速度精确控制方法的技术路线图；

图3示出了根据本公开一示例性实施例的一种轮式机器人速度精确控制方法的无刷直流电机控制模型图；

图4示出了根据本公开一示例性实施例的一种轮式机器人速度精确控制方法的基于DDPG的MFAC参数自适应调整流程图；

图5示出了根据本公开一示例性实施例的一种轮式机器人速度精确控制装置的示意框图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本公开将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有所述特定细节中的一个或更多，或者可以采用其它的方法、组元、材料、装置、步骤等。在其它情况下，不详细示出或描述公知结构、方法、装置、实现、材料或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个软件硬化的模块中实现这些功能实体或功能实体的一部分，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

在本示例实施例中，首先提供了一种轮式机器人速度精确控制方法；参考图1中所示，该一种轮式机器人速度精确控制方法可以包括以下步骤：

步骤S110，采集轮式机器人的驱动电机的深度确定性的策略梯度算法DDPG状态量；

步骤S120，基于预设的DDPG模型，以所述DDPG状态量为输入，生成无模型自适应控制MFAC参数；

步骤S130，基于预设的MFAC模型，以所述MFAC参数、轮式机器人目标速度为输入，生成轮式机器人的驱动电机的PWM控制信号；

步骤S140，基于所述PWM控制信号对所述轮式机器人的驱动电机进行驱动，完成对轮式机器人速度的精确控制。

如图2所示，为本公开的机器人速度精确控制的技术路线图，下面，将对本示例实施例中的一种轮式机器人速度精确控制方法进行进一步的说明。

实施例一：

在步骤S110中，可以采集轮式机器人的驱动电机的深度确定性的策略梯度算法DDPG状态量。

在本示例的实施例中，所述方法还包括：

在步骤S120中，可以基于预设的DDPG模型，以所述DDPG状态量为输入，生成无模型自适应控制MFAC参数。

在本示例的实施例中，所述方法还包括建立基于状态空间模块、动作空间模块、奖励函数、损失函数的深度确定性的策略梯度算法DDPG模型：

在本示例的实施例中，所述方法还包括：

基于预设训练组数据，对所述预设的DDPG模型进行训练；

在本示例的实施例中，所述方法还包括：

所述预设的DDPG模型的奖励函数为r＝r₁+r₂+r₃+r₄，

其中：

在步骤S130中，可以基于预设的MFAC模型，以所述MFAC参数、轮式机器人目标速度为输入，生成轮式机器人的驱动电机的PWM控制信号。

在本示例的实施例中，所述方法还包括：

所述预设的MFAC模型为

为/>

的初值。

在步骤S140中，可以基于所述PWM控制信号对所述轮式机器人的驱动电机进行驱动，完成对轮式机器人速度的精确控制。

在本示例的实施例中，本公开基于DDPG的以MFAC为控制器的机器人速度控制系统，控制对象为机器人的无刷直流电机。其目的是根据控制过程中电机的速度响应的好坏来调节DDPG的网络参数，通过不断的反馈自学习，从而使神经网络能够训练出一组使电机速度响应达到最优的MFAC控制器的参数值，最终实现提升机器人速度响应的稳定性准确性以及快速性效果。

实施例二：

在本示例的实施例中，如图3所示，为无刷直流电机控制模型图，本公开主要依据的是EPRobot智能车上自行设计的基于ARM Cortex-M4单片机的底盘控制器，其中以A4950芯片作为电机的驱动芯片，在单片机中编写电机控制算法进行无刷直流电机的速度控制，并采用了RT-Thread微型实时操作系统进行的程序编写；控制算法使用MFAC紧格式无模型自适应控制算法精确控制小车电机转速。

对于智能车直流无刷电机的状态空间方程为：

其中E_a为电枢电压、I_a为电枢电流、R_a为电枢电阻、L_a为电枢电感、J_m为电机和反射到电机轴上的负载的等效转动惯量、K_b为反电动势常数、ω_m为电机转轴角度、K为电机力矩常数、B_m为电机和反射到电机轴上的负载的等效粘带摩擦系数。

由电机状态空间方程可得，其是一个单输入单输出(SISO)离散时间非线性系统。在应用MFAC算法作为控制器时系统要满足与之对应的三个假设。

在对电机的状体空间方程推导之后，得以证明其是满足假设一和假设二的。而假设三是对电机调速系统输出变化量也就是输出速度的一种限制，输入的控制信号大小是有限的，输出速度值的大小也是有限的，因此系统是广义的Lipschits(利普希茨)的。所以说电机速度控制器系统是满足三个假设的。

定理：对于上述电机速度控制器系统，满足三个假设，那么一定存在一个称为伪梯度向量的向量

使得当Δu(k)≠0时，有

辨识

的目标是，使/>

无限逼近y(k+1)-y(k)，同时还要使伪偏导数的值变化的不是太快。由此设计如下估计准则函数：

其中

项的引入，惩罚了参数/>

的变化，而且上面准则函数中仅考虑了第k个采样时刻，因此准则函数推到出来的参数估计算法应具有对时变参数的跟踪能力。求导得如下式子：

其中，μ>0权重因子。η∈(0,1]是加入的步长因子，目的是使该算法具有更强的灵活性和一般性。

在本示例的实施例中，本公开控制目的是在k时刻对电机速度控制系统施加控制作用u(k)，使系统输出为期望值y^*(k+1)，因此列出如下的控制输入准则函数：

将

带入上式中，对u(k)求导并令其等于零，得：

其中ρ是可调节步长序列，λ是一个可调的权重系数。

综上依据本文对象设计的完整的无模型自适应控制器如下所示：

对于MFAC控制器的参数调节也是一个十分重要的问题，当采取手动调参的方式时，调节过程中我们无法把握参数的规律，会耗费大量时间以及精力。当应用智能群体优化算法时，比如说粒子群算法(PSO),调参过程中容易陷入局部最优值，不能很好的找到最优的参数值。若将机器人运动的离线数据作为模型的输入数据进行算法参数辨识，以PID参数辨识为例，在辨识过程中，我们还需要调节辨识系统相关的参数值，此参数值需要手动调节，因此存在人工经验因素的干扰，所以存在很大的不确定性，之后将辨识出的参数写入算法中，发现速度响应效果十分不好，因此采用系统辨识的方式进行参数调节稳定性和适用性不好。深度强化学习的智能体与环境进行交互，产生新的状态，同时环境给出奖励。如此循环下去，智能体和环境不断交互产生更多新的数据。再利用新的数据去修改自身的动作策略，经过数次迭代后，智能体就会学习到完成任务所需要的动作策略，经过一定数量的训练之后，奖励值会向着好的方向逼近。当稳定时对应的动作也就趋于稳定，此时对应的参数也就收敛到了最优值。由此可见，深度强化学习的方式摆脱了人工经验因素的限制，并且由于是不断训练和探索的机制，因此更不存在使训练过程陷入局部最优的问题。

在本示例的实施例中，结合智能车的特性，设计DDPG相关指标如下所示：

控制器调参环境设计：本专利要实现的是参数的自动调节，智能体对应的就是控制器的参数变化过程，其面向的对象是无刷直流电机，因此环境设置为电机在控制器控制作用下的速度响应全过程。

状态空间：在算法运行过程中，当动作执行完毕之后，直接影响到的就是参数值，而参数值进一步影响到速度响应的三个指标值，因此将动作执行完成之后的各个参数值作为状态值。状态空间模块的作用为，其一是直接反应控制算法对目标给定的响应效果，其二是用来计算DDPG算法中的奖励值，依据奖励值来指导着DDPG算法自学习优化以实现更好的控制效果。

动作空间：对于整个系统的动作空间来说，其作用是让整个系统实现自动化的参数调节，通过获取DDPG不断优化生成的动作值来控制系统的速度响应，从而使控制结果不断地优化。因此设定动作为控制器的参数值的动态变化值，对于无模型自适应控制器来说，动作就为控制器的四个参数值η、μ、ρ、λ的动态变化。

奖励函数：深度强化学习的收敛性依赖于合理的奖励设置，本文结合速度相应的三个状态值设置奖励函数，使每一次参数调节后使速度响应更加的明显。综合考虑三个速度响应值超调量(overshoot)、上升时间(t_r)、稳定时间(t_s)，对三个值设置权值函数从而作为奖励函数，以达到当超调量越小、上升时间越短、稳定时间越短时奖励函数值越大的目的。因此奖励函数设置如下，其中so为超调量大小、ot为超调量阈值、str为上升时间、trt为上升时间阈值、sts为稳定时间、tst为稳定时间阈值、ssp为设置给定速度大小、hf为速度响应曲线最大速度值：

r＝r₁+r₂+r₃+r₄

在本示例的实施例中，对于速度控制优化问题和MFAC控制器参数调节问题，在此智能车平台上，其对应的控制器输入输出值以及DDPG算法对应的状态、动作、奖励等这些系统参数定义如表1所示：

表1：基于机器人速度控制系统整体结构参数定义在本示例的实施例中，对于DDPG网络训练的损失函数如下所示：

Loss＝-Q_θ(s，a)

其中，第一个公式为Q目标网络的损失函数，其中w为Q网络要训练更新的参数值，s为当前状态，a为当前动作，s′为上一时刻状态，a′为上一时刻动作，Q_w(s，a)为当前时刻Q网络在当前状态和当前动作下生成的Q值，r为当先动作下的奖励值，

为前一时刻网络生成的Q值。第二个公式为策略网络的损失函数，其中θ为策略网络要训练更新的参数值，s为当前状态，a为当前动作，Q_θ(s，a)为当前θ参数下的Q值，因为策略网络的作用是判断Q值优略，因此直接以-Q_θ(s，a)作为损失函数。通过损失函数的值来进行网络的参数更新，最终是网络参数不断地优化以达到我们既定的目标值生成。

在本示例的实施例中，如图4所示为基于DDPG的MFAC参数自适应调整流程图，将训练生成的动作值转换成具体的MFAC参数值后，通过串口发送给控制器，单片机接收到数据后，将参数值写入MFAC算法中，给定目标速度进行电机驱动，响应过程中通过编码器获取响应速度，然后通过串口将响应速度发送给上位机，上位机获取数据后，通过解析计算获得速度相应的三个指标，并通过此三个指标计算奖励值，然后用于下一次训练，往复循环，直至参数值收敛到最优。

需要说明的是，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

此外，在本示例实施例中，还提供了一种轮式机器人速度精确控制装置。参照图5所示，该一种轮式机器人速度精确控制装置500可以包括：状态量采集模块510、参数生成模块520、控制信号生成模块530以及驱动控制模块540。其中：

状态量采集模块510，用于采集轮式机器人的驱动电机的深度确定性的策略梯度算法DDPG状态量；

参数生成模块520，用于基于预设的DDPG模型，以所述DDPG状态量为输入，生成无模型自适应控制MFAC参数；

控制信号生成模块530，用于基于预设的MFAC模型，以所述MFAC参数、轮式机器人目标速度为输入，生成轮式机器人的驱动电机的PWM控制信号；

驱动控制模块540，用于基于所述PWM控制信号对所述轮式机器人的驱动电机进行驱动，完成对轮式机器人速度的精确控制。

上述中各一种轮式机器人速度精确控制装置模块的具体细节已经在对应的一种轮式机器人速度精确控制方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了一种轮式机器人速度精确控制装置500的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。