CN109249393B

CN109249393B - 一种基于经验控制的多参数机器人实时行为校正方法

Info

Publication number: CN109249393B
Application number: CN201811063090.3A
Authority: CN
Inventors: 毛新军; 黄裕泓; 杨硕; 刘哲
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2018-09-12
Filing date: 2018-09-12
Publication date: 2021-03-26
Anticipated expiration: 2038-09-12
Also published as: CN109249393A

Abstract

本发明公开了一种基于经验控制的多参数机器人实时行为校正方法，其包括：基于迭代仿真采集的多组状态信息，通过离线学习的方式生成机器人的参数化控制函数；基于离线学习的参数化函数，构建机器人实时运行过程中的自适应调整模型，利用模型对机器人的偏差行为进行校正；根据外部环境变化，自主地从多个控制参数中选择最为敏感的参数控制机器人的行为更新选择。本发明具有较高稳定性、高效率、高适应能力以及鲁棒性等优点。

Description

一种基于经验控制的多参数机器人实时行为校正方法

技术领域

本发明主要涉及到智能机器人控制领域，特指一种基于经验控制的多参数机器人实时行为校正方法。

背景技术

自动控制是机器人最重要的主题之一。通过自主控制，例如具有自适应的模型，机器人可以在无人类参与的条件下适应环境多样化。目前，自适应的主题和挑战是适应性问题的不确定性以及如何克服这种不确定性。其中一个机器人领域中具有代表性的自适应问题就是Path Following问题。

如果没有精确的Path Following，机器人运动的后果将变得不可预测，特别是在无人驾驶领域。这样的后果将导致机器人继续工作的困难。值得注意的是，包括环境中的不确定性，控制器中时效性差和决策模型不完整等在内的Path Following挑战将影响机器人的行为并导致偏差。为了使机器人按预期目标运行，应该减小偏差的影响，并且纠正机器人的行为。

迄今为止，很多机器人的控制都是基于参数化模型。在这种方法中，机器人可以通过从参数化模型中实时更新机器人的行为并部分适应环境多样性来实现Path Following。然而，参数模型很大程度上依赖于人类设计师的经验和专业知识。由于人类不可能完全了解环境，所以当机器人工作空间难以准确建模时，环境中的不确定性会被放大。为了减少参数模型中不确定性的影响，Policy Search，如损伤快速恢复或Self-Optimization的机器学习方法，被开发使用。Policy Search可以通过机器人行为优化很好地处理环境不确定性，但是这个过程需要消耗大量的计算时间。幸运的是，Grady Williams等人使得使用强化学习(Reinforcement Learning，RL)在模糊环境中快速运行四轮车成为可能。这种方法在使用基于时间片的预测的实时控制方面表现良好，但是其基于神经网络的代价开销大并且很难将其他任务嵌入到机器人中。更重要的是，机器人控制中的大部分机器学习方法都基于单参数，因为难以同时调整不同的参数。因此，设计了一种用于多参数机器控制的低成本机器学习智能方法是富有意义的。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种具有较高稳定性、高效率、高适应能力以及鲁棒性的基于经验控制的多参数机器人实时行为校正方法。

为解决上述技术问题，本发明采用以下技术方案：

一种基于经验控制的多参数机器人实时行为校正方法，其包括：

基于迭代仿真采集的多组状态信息，通过离线学习的方式生成机器人的参数化控制函数；

基于离线学习的参数化函数，构建机器人实时运行过程中的自适应调整模型，利用模型对机器人的偏差行为进行校正；

根据外部环境变化，自主地从多个控制参数中选择最为敏感的参数控制机器人的行为更新选择。

作为本发明的进一步改进：采用离线学习的方式生成机器人的参数化控制函数，参数模型函数将由经验数据离线生成；机器人以不同参数迭代运行，以收集机器人状态信息作为数据集的经验数据；借助经验数据，将函数拟合应用于提取数据集中参数之间的潜在规则以及来它们的影响，然后为每个参数创建模型函数。

作为本发明的进一步改进：包括实时对机器人行为进行自适应调整，机器人的行为根据实时机器人状态信息进行自适应调整；传感器监视器使用传感器收集状态信息并确定如何更新机器人的参数；之后，机器人使用离线学习的参数模型函数来调整多个参数；如果机器人行为产生不可接受的偏差，机器人的行为将会改变否则将维持原有控制参数模型。

作为本发明的进一步改进：包括进行多参数更新的过程，即一次选择敏感参数进行更新，而其他参数保持不变；这个选择将通过学习的参数化函数对控制参数的偏微分函数结合实时状态信息进行。

作为本发明的进一步改进：所述状态信息是连接离线学习控制函数与实时机器人行为调整两个主要部分的桥梁；所述状态信息通过实际任务行为和预期任务行为之间的差异来表示；结合控制参数和偏差，状态信息表示为公式(1)和公式(2)数据集中的向量：

P＝[V A_S]^T (1)

X＝[D_real D_aim V A_C l]^T (2)

其中公式(1)展示着控制器参数是由速度V和倾角的变化步长A_S；在公式(2)中，定义了多个输入；输入包括两种变量，即当前时刻的行为和过去时间的变量；路径和机器人位置之间的偏差l是当前时刻的行为；在公式(2)中，机器人的实际方向D_real，期望的方向D_aim，速度V和来自控制器的实际转角A_C是前一时间的变量；它们是机器人的控制条件，会影响当前的行为l。

作为本发明的进一步改进：所述离线生成控制模型包括以下步骤：

S1：控制函数模型建模；

S2：实现函数拟合的数学模型；

S3：离线学习生成控制模型算法。

作为本发明的进一步改进：所述步骤S1中建模为下式(3)：

在式(3)中，D_t-1＝[D_real D_aim]^T表示方向信息，X_E表示Eq.2中输入的拓展；由于希望在微分时显示D_t-1和A_C，所以该方程具有用于方向信息D_t-1的二阶模型和用于A_C的三角函数(角度值)；由于有多个参数，控制器需要超过一个参数模型的功能，以便每个参数都有自己的规则生效，F_V(X)代表速度V模型函数，F_A(X)代表倾角步长的A_S模型函数。

作为本发明的进一步改进：包括实时更新多个控制参数，在机器人实时运行中，传感器监视机器人的行为以生成具有偏差l的状态信息，用于解释机器人行为偏移；如果偏差l不可接受，机器人应该改变控制器参数，然后使用来自经验的模型函数进行行为更新。

与现有技术相比，本发明的优点在于：

1、本发明的基于经验控制的多参数机器人实时行为校正方法具有较高稳定性、高效率、高适应能力以及鲁棒性等优点。

2、本发明的基于经验控制的多参数机器人实时行为校正方法，自动化程度高，从机器人控制历史中学习，机器人可以自行挖掘每个参数的参数模型以进行行为修正，而不是由人类设计师设计。

3、本发明的基于经验控制的多参数机器人实时行为校正方法，属于轻量级设计，可能花费大量资源的学习方法是脱机的。通过这种方式，机器人可以以最低的成本实时运行。

4、本发明的基于经验控制的多参数机器人实时行为校正方法，采用多参数的设计，由于难以同时精确调整多个参数，因此我们将一次选择敏感参数升级，而其他参数不变。

附图说明

图1是本发明实施例提供的基于经验控制的多参数机器人实时行为校正方法流程图。

图2是本发明实施离线学习的伪代码。

图3是本发明实施实时多参数更新的铭感参数选择伪代码。

图4是本发明的实验环境。

图5是本发明提出的方法在复杂环境下驱动机器人的运行结果。

图6是本发明提出的方法在复杂环境下对参数的更新。

图7是本发明提出的方法与传统方法在平滑路面上运行的结果比较。

图8是不同参数下参数化模型在复杂环境运行结果。

具体实施方式

以下将结合说明书附图和具体实施例对本发明做进一步详细说明。

本发明采用了一种分离的方法，使机器人能够以最小的资源和多个参数进行实时处理，从而一定程度的解决实时Path Following的挑战。由于本发明的方法将利用经验并根据经验采取行动，因此也可以称之为基于经验的控制(Experience-Based Control，EBC)。

为了应对环境中的不确定性，本发明的方法通过学习历史经验自动提取参数与其作用结果之间的参数化模型。在实时操作中，机器人可以通过学习模型的多参数更新来纠正其意外行为。为了保证时间表现，本发明这种方法将学习历史经验的笨重的成本开销采用离线方式解决。在具有多参数的EBC下，机器人(包括各类智能行走设备)将以不同的路径运行，具有高稳定性，高效率和极高的准确性和坚固性。

如图1所示，本发明的基于经验控制的多参数机器人实时行为校正方法，其包括：

本发明的上述方法实际上由两部分组成：经验学习与行为矫正。在经验学习中，机器人离线地从历史数据中学习并为每个参数生成参数化模型函数。在行为矫正中，机器人可以在线地通过学习产生的参数化模型函数中生成多个参数来纠正其实时行为偏差。基于这种基于经验数据的多参数控制方法，机器人可以通过轻量级方法适应环境中的不确定性以此来进行实时行为矫正。

在上述方法中，采用离线学习的方式生成机器人的参数化控制函数。在这一部分，参数模型函数将由经验数据离线生成。机器人将以不同参数迭代运行，以收集机器人状态信息作为数据集的经验数据。借助经验数据，该方法将函数拟合应用于提取数据集中参数之间的潜在规则以及来它们的影响，然后为每个参数创建模型函数。

在上述方法中，实时对机器人行为进行自适应调整。在这部分中，机器人的行为将根据实时机器人状态信息进行自适应调整。传感器监视器使用传感器收集状态信息并确定如何更新机器人的参数。之后，机器人使用离线学习的参数模型函数来调整多个参数。如果机器人行为产生不可接受的偏差，机器人的行为将会改变否则将维持原有控制参数模型。

在上述方法中，需要进行多参数更新的过程。由于难以同时精确地调整多个参数，因此本发明将一次选择敏感参数进行更新，而其他参数保持不变。这个选择将通过学习的参数化函数对控制参数的偏微分函数结合实时状态信息进行。

在具体应用实例中，所述状态信息是连接离线学习控制函数与实时机器人行为调整两个主要部分的桥梁。在本发明的方法中，状态信息通过实际任务行为和预期任务行为之间的差异来表示。预期的任务行为需要机器人在路径中心运行，但总是会出现偏差。结合控制参数和偏差，状态信息表示为数据集中的向量，就像Eq.1和Eq.2一样。

P＝[V A_s]^T (1)

X＝[D_real D_aimV A_C l]^T (2)

Eq.1展示着控制器参数是由速度V和倾角的变化步长A_S。在Eq.2中，定义了多个输入。输入包括两种变量，即当前时刻的行为和过去时间的变量。路径和机器人位置之间的偏差l是当前时刻的行为。在Eq.2中，机器人的实际方向D_real，期望的方向D_aim，速度V和来自控制器的实际转角A_C是前一时间的变量。它们是机器人的控制条件，会影响当前的行为l。

在具体应用实例中，包括离线生成控制模型，由于函数拟合可以在较小误差情况下耦合离散点数据，因此可以根据数据集的经验找出多参数的模型函数。首先需要设计一个基本函数方程，然后再生成函数模式中的各个系数。

首先，控制函数模型建模；

在Eq.2中，影响机器人Path Following行为的最主要因素有方向信息D_real，D_aim和控制数据A_C。在使用微分来表达因素的变化时，应该显示出明显的表现。因此设计了一个如Eq.3的函数：

在Eq.3中，D_t-1＝[D_real D_aim]^T表示方向信息，X_E表示Eq.2中输入的拓展。由于希望在微分时显示D_t-1和A_C，所以该方程具有用于方向信息D_t-1的二阶模型和用于A_C的三角函数(角度值)。由于有多个参数，控制器需要超过一个参数模型的功能，以便每个参数都有自己的规则生效，F_V(X)代表速度V模型函数，F_A(X)代表倾角步长的A_S模型函数。

其次，实现函数拟合的数学模型；

通过设计的功能模式，设计的方法可以挖掘参数与机器人行为之间的隐藏关系。但Eq.3中的系数向量C＝[C₁ C₂ … C_n]^T需要首先确定。在这里，使用加权最小二乘以梯度下降法来获取系数向量C。Eq.3中，机器人控制函数可以表示为：

在数据集中，Eq.2中的输入向量X将拓展为X_E。训练数据集，参数和相应的参数可以定义为：

S_D＝[X_E1 X_E2 X_E3 … X_En]

S_V＝[V₁ V₂ V₃ … V_n] (5)

S_A＝[A_S1 A_S2 A_S3 … A_Sn]

n是数据集中元素的总数。模型函数F(X_E)是从扩展参数向量X_E到相应参数V或A_S的映射。所有相应的参数值将在以后表示为P_r。在实现梯度下降过程中涉及代价函数：

在Eq.6中，加权运算矩阵W被引入。由于数据集中具有数据的优劣之分，因此有必要区分不同质量的数据。任务行为的目标是形成更短的偏移距离和更高的速度。所以，更新权重可以与速度V和偏移距离l结合，就像Eq.7一样。

结合梯度下降法迭代学习率R，可获得加权运算矩阵W(Eq.8)。

为了得到最佳拟合系数，Eq.6中的代价函数值应该是最小的。根据梯度下降法，为了得到最佳拟合结果，每次迭代的步长与代价函数的梯度一致。然后采用有如Eq.9所示的迭代步骤：

在这里系数向量C可以通过Eq.9的结果

进行更新(Eq.10)

通过这种方式，本发明在迭代一次后产生新的系数向量C，将系数向量C分配到模型函数Eq.4中，预测值F(X_E)将向着更小代价的值接近。

在具体应用实例中，包括离线学习生成控制模型算法；通过数学模型，模型函数生成过程可以简单地用算法设计(如图2所示)。由于存在两个控制参数V与A_S，学习方法最终将由图2所示的算法生成两个不相关的模型函数。虽然计算方法相似，但不同的参数值导致通过Eq.9中的

生成最终模型函数的方式不同。在Eq.3中应用最佳拟合系数C_best，生成不同参数的模型函数，并将它们用于实时控制以辅助多参数更新。

在具体应用实例中，包括实时更新多个控制参数，在机器人实时运行中，传感器监视机器人的行为以生成具有偏差l的状态信息，用于解释机器人行为偏移。如果偏差l不可接受，机器人应该改变控制器参数，然后使用来自经验的模型函数进行行为更新。根据每个函数和Eq.3的变化趋势，有：

Eq.1是模型函数Eq.3的微分方程。Eq.11引入了不同参数的影响并与实时状态信息联合，从而选择哪个参数是敏感参数并更新它(V或A_S)。

在图3所展示的算法中，来自Eq.11的每个参数的微分方程用于确定哪个参数是最敏感的。最敏感的参数可以通过Eq.3进行更新，同时其他参数保持不变。通过这种方式，可以忽略多参数的耦合，机器人可以尽力调整其行为。然后他们将在控制器中执行以产生新的任务行为以适应环境。

本发明进一步结合具体的应用实例，来对本发明的方法进行实验分析和验证。

本发明在具体应用实例中采取的实验环境如图4所示。使用摩托车这一不平衡的实验平台进行实验，在平滑地面上进行离线学习，在平滑地面以及复杂地面上进行效果测试，其中控制频率维持在20HZ以上。

从上述的实验来看，为保持摩托车的平衡，角速度V的范围保持[360；720]。由于可以看到，摩托车的工作基础很少，因此本发明进一步将在提出的自主方法和固定参数控制器之间进行对比实验。

控制模型的稳定性与效率：为了验证EBC的高稳定性和高效率，带高频控制器的摩托车在图4(d)中进行了测试，这是一种颠簸且不均匀的地面。图5中的结果表明EBC的稳定性。从图5(a)可以发现摩托车在不确定的地面上以不同的方式运行约3个周期。在图4(d)中，路径在不同区域具有不同的摩擦系数。尽管路径非常复杂，但摩托车的行驶路径接近中心线，即摩托车的行为是可以接受的。值得注意的是，借助EBC，摩托车可以轻松通过弯曲路径，包含有不同曲率的弯道。此外，图5(b)显示了摩托车在变化的环境中工作稳定，因为偏差在较低的值附近摆动。

随着参数精确且频繁的变化，机器人可以靠近路径中心运行，并表现出效率。在EBC中，速度V和倾角校正步长A_s不会同时改变，但会一起工作，如图6所示。由于测试地面的曲线路径和不规则，A_s变化频率更加频繁。这表明这个系统对倾角变化很敏感。在图6(b)中，摩托车多次运行在速度的下界。分析这种现象，当摩托车在粗糙地面或大幅偏转时，控制器会降低速度，以维持摩托车可以连续工作并具有平衡性。另外，图6(b)显示，这种方法可以让机器人高速工作。在其工作之后，当摩托车到达直线或大尺寸的弯道末端时，摩托车将自主加速。

仿真实验结果表明，机器人可以从经验中学习，找出参数及其作用效果之间的控制规则。有了这些规则，机器人就可以使用它们在没有人为干预的情况下以高稳定性和高效率工作。

控制模型的准确性与鲁棒性：由于摩托车通常在现实世界中公路上工作，因此本发明进一步在平坦地面的上进行仿真实验，如图4(c)。

在图7显示了控制模型的预测准确性，它表明机器人可以在Path Following中以接近最佳状态运行。路径偏移量解释了机器人与路径中心之间的偏差。从图7中可以看出，使用固定参数“V＝390；A_S＝0.045”的机器人表现最好。这是因为当摩托车需要转弯时，EBC需要调整参数，然后它会导致行为没有平稳变化。固定的参数可以平稳地维持机器人运动从而表现出更好的性能。同样从结果来看，EBC的效果非常接近最佳参数组效果。更重要的是，“V＝480；AS＝0.050”和“V＝550；AS＝0.050”的参数化控制效果表现不佳，它们在机器人转弯时总是忽略急剧变化的弯曲路径。这表明，当机器人速度变得更高时，机器人控制变得更加困难。在T＝50之后，“V＝450；AS＝0。050”停止，因为摩托车在曲线路径上失去平衡从而倒下。速度“V＝450几乎是通过大曲率弯曲路径的临界点。在大曲率弯道中，机器人需要降低速度，以便机能够通过弯曲路径。而在摩托车行驶中，EBC满足了这种需求，在这种弯道中表现良好。

另外，摩托车在乡村道路上也有较高的出现频率高。其中乡村道路具有摩擦系数不均匀且道路凹凸不平的特点。因此本发明进一步进行了如图8所示的实验。图8和图5的效果相比相比，显示了EBC具有良好的鲁棒性。图8显示摩托车在固定参数下在这样复杂的路径中不能运行多于超过一个环。那是因为他们在上下坡或转弯时都丢失平衡性。但通过EBC，摩托车可以稳定运行(图5)。在图8(c)和图8(d)的路径中，摩托车忽略了具有变化剧烈的弯道，这与平坦地面的结果类似。从图6中可以发现，摩托车将自动调整速度和倾角以适应弯道和不确定的地面。通过EBC，机器人总是可以以稳定的任务行为偏差运行，从而具有较好鲁棒性。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于经验控制的多参数机器人实时行为校正方法，其特征在于，包括：

基于迭代仿真采集的多组状态信息，通过离线学习的方式生成机器人的参数化控制函数；所述状态信息是连接离线学习控制函数与实时机器人行为调整两个主要部分的桥梁；所述状态信息通过实际任务行为和预期任务行为之间的差异来表示；结合控制参数和偏差，状态信息表示为公式(1)和公式(2)数据集中的向量：

P＝[V A_S]^T (1)

X＝[D_real D_aim V A_C l]^T (2)

其中公式(1)展示着控制器参数是由速度V和倾角的变化步长A_S确定；在公式(2)中，定义了多个输入；输入包括两种变量，即当前时刻的行为和过去时间的变量；路径和机器人位置之间的偏差l是当前时刻的行为；在公式(2)中，机器人的实际方向D_real，期望的方向D_aim，速度V和来自控制器的实际转角A_C是前一时间的变量；它们是机器人的控制条件，会影响当前的行为l；

基于离线学习的参数化控制函数，构建机器人实时运行过程中的自适应调整模型，利用模型对机器人的偏差行为进行校正；

2.根据权利要求1所述的基于经验控制的多参数机器人实时行为校正方法，其特征在于，采用离线学习的方式生成机器人的参数化控制函数，参数模型函数将由经验数据离线生成；机器人以不同参数迭代运行，以收集机器人状态信息作为数据集的经验数据；借助经验数据，将函数拟合应用于提取数据集中参数之间的潜在规则以及来自它们的影响，然后为每个参数创建模型函数。

3.根据权利要求1所述的基于经验控制的多参数机器人实时行为校正方法，其特征在于，包括实时对机器人行为进行自适应调整，机器人的行为根据实时机器人状态信息进行自适应调整；传感器监视器使用传感器收集状态信息并确定如何更新机器人的参数；之后，机器人使用离线学习的参数模型函数来调整多个参数；如果机器人行为产生不可接受的偏差，机器人的行为将会改变否则将维持原有控制参数模型。

4.根据权利要求1所述的基于经验控制的多参数机器人实时行为校正方法，其特征在于，包括进行多参数更新的过程，即一次选择敏感参数进行更新，而其他参数保持不变；这个选择将通过学习的参数化函数对控制参数的偏微分函数结合实时状态信息进行。

5.根据权利要求1—4中任意一项所述的基于经验控制的多参数机器人实时行为校正方法，其特征在于，还包括离线生成控制模型，具体包括以下步骤：

S1：控制函数模型建模；

S2：实现函数拟合的数学模型；

S3：离线学习生成控制模型算法。

6.根据权利要求5所述的基于经验控制的多参数机器人实时行为校正方法，其特征在于，所述步骤S1中建模为下式(3)：

在式(3)中，D_t-1＝[D_real D_aim]^T表示方向信息，X_E表示公式(2)中输入的拓展；由于希望在微分时显示D_t-1和A_C，所以该方程具有用于方向信息D_t-1的二阶模型和用于A_C的三角函数；由于有多个参数，控制器需要超过一个参数模型的功能，以便每个参数都有自己的规则生效。

7.根据权利要求1—4中任意一项所述的基于经验控制的多参数机器人实时行为校正方法，其特征在于，包括实时更新多个控制参数，在机器人实时运行中，传感器监视机器人的行为以生成具有偏差l的状态信息，用于解释机器人行为偏移；如果偏差l不可接受，机器人应该改变控制器参数，然后使用来自经验的模型函数进行行为更新。