CN116736722A

CN116736722A - 基于数据驱动的多机器人系统最优比例协同控制方法

Info

Publication number: CN116736722A
Application number: CN202310852971.8A
Authority: CN
Inventors: 施孟佶; 翟培钰; 林伯先; 李孟; 李维豪; 岳江枫; 游龙; 仝世纪; 秦开宇
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2023-07-12
Filing date: 2023-07-12
Publication date: 2023-09-12

Abstract

本发明公开了一种基于数据驱动的多机器人系统最优比例协同控制方法，包括以下步骤：S1、建立由一般线性系统描述的多机器人动力学模型，并通过Bellman最优性原理构建了多机器人系统的最优比例一致性控制问题；S2、设计自适应动态规划算法用来计算基于广义策略迭代的离散时间Hamilton‑Jacobi‑Bellman方程的近似解；S3、搭建评价‑执行神经网络来分别拟合迭代控制律和性能指标；S4、将步骤S3设计的评价‑执行网络控制器部署到机器人群体中。本发明的方法针对由一般线性系统描述的多机器人系统，考虑了具有特定任务目标的最优控制情况，使用评价‑执行网络实现了在线最优协同控制，适用于多机器人系统的集群协同控制领域。

Description

基于数据驱动的多机器人系统最优比例协同控制方法

技术领域

本发明属于多机器人系统的协同控制技术领域，具体涉及一种基于数据驱动的多机器人系统最优比例协同控制方法。

背景技术

近年来，多机器人系统的协同分布式控制因其广泛的应用而成为控制界的一个研究热点。多机器人协同控制是指通过设计控制算法实现多个机器人相互沟通，协同工作完成一项具体任务。然而在工程应用中，多机器人系统中的协同行为的实现不仅涉及到机器人的一致性，而且还涉及到协同控制过程中的能量消耗最小化。因此，如何找到多机器人系统的最优协同控制问题的有效解决方案是目前亟需解决的问题。

目前关于已有许多研究围绕多机器人系统的协同最优控制问题而展开，然而一方面，现有研究大都没有考虑具有不同任务的机器人的运动状态会收敛到一个取决于初始条件的平衡状态，而不是一个共同的值，这在实际应用中会收到极大限制。另一方面，现有的解决最优协同控制问题的方法都会导致计算维度过大难以求解，因此对于可以避免维度灾难的数据驱动控制算法的研究具有重大意义。

发明内容

本发明的目的在于克服现有技术的不足，提供一种考虑了具有特定任务目标的最优控制情况，使用评价-执行网络实现了在线最优协同控制，适用于多机器人系统的集群协同控制领域的基于数据驱动的多机器人系统最优比例协同控制方法。

本发明的目的是通过以下技术方案来实现的：基于数据驱动的多机器人系统最优比例协同控制方法，具体步骤如下：

S1、建立由一般线性系统描述的多机器人动力学模型，根据任务目标构建最优比例一致性问题；机器人的动力学模型如下：

x_i(k+1)＝Ax_i(k)+B_iu_i(k),i＝1,2,…,N (1)

其中x_i(k)∈Rⁿ是第i个机器人k时刻的系统状态量，n表示机器人系统状态维度，N表示机器人数量，是控制输入，m_i表示控制输入维度，A∈R^n×n是系统矩阵，/>是输入矩阵；

将多机器人系统之间的通信网络抽象成一个有向图由一个顶点集一个边集/>以及一个加权邻接矩阵/>组成；其中临界元素非负a_ij≥0；当且仅当(v_j,v_i)∈ε时，a_ij＞0代表机器人i能够接收到机器人j的信息；否则，a_ij＝0；对于/>a_ii＝0；节点v_i的邻居集合表示为/>入度矩阵表示为对角矩阵/>然后通过/>获得拉普拉斯矩阵/>

多机器人系统的比例协同行为是指通过对每个机器人i设计相应的分布式控制律u_i(k)，使得所有的机器人能够按照预设的比例系数收敛到不同的状态并保持稳定，称比例协同行为得到了实现，该问题用下面的数学表示进行刻画：

其中α_i为第i个机器人的协同比例值；

而后，针对每个机器人i，定义比例协同误差：

设为比例协同一致性误差向量，得到：

其中

根据公式(1)和(3)，得到比例一致性误差∈i(k)的动力学方程为：

每个机器人i都需要最小化性能指标函数V_i(∈_i(k),u_i(k),u_(j)(k))，u_(j)(k)是机器人i的邻居机器人的控制输入集合；接下来将设计最优控制律以最小化性能指标函数，同时保证当k趋于无穷时，每个机器人的比例一致性误差∈_i(k)→0；

规定每个机器人的局部性能指标函数为：

其中c_i(∈_i(k),u_i(k),u_(j)(k))是效用函数；γ∈(0,1]是折扣因子；记V_i(∈_i(k),u_i(k),u_(j)(k))＝V_i(∈_i(k))；

根据Bellman最优性原理，最优性能指标函数满足如下的离散时间Hamilton-Jacobi-Bellman方程：

最优控制律为：

将最优控制律代入公式(7)的HJB方程，得到：

S2、设计自适应动态规划算法用来计算基于广义策略迭代的离散时间Hamilton-Jacobi-Bellman方程的近似解；

S3、搭建评价-执行神经网络来分别拟合迭代控制律和性能指标，并根据梯度下降算法迭代更新网络权重；

S4、将步骤S3设计的评价-执行网络控制器部署到机器人群体中。

所述步骤S2具体实现方法为：定义一个综合考虑能量损失和系统控制过程误差的效用函数为：

其中Q_ii＞0,R_ii＞0,R_ij＞0，均为正定对称的权重矩阵；

设和V_i ^p(∈(k))分别表示迭代控制律和迭代性能指标函数；其中，p表示迭代指标，k表示时间步长；记V_i ^p,q(∈_i(k))作为子迭代性能指标函数，其中迭代索引q＝0,1,2,...,N_j，其中N_j是预设的最大子迭代次数；

接下来设计自适应广义策略迭代算法的迭代过程如下：

S21、对于p＝1,2,…控制律的更新规则如下：

S22、固定控制律第p步的迭代性能指标函数V_i ^p(∈(k))按照如下两个阶段计算：

S221、对于q＝1,2,…,N_j：

其中，

S222、第p次子迭代的值函数为：

所述步骤S3具体实现方法为：机器人i的评价网络利用误差∈_i，控制输入u_i及其邻居的控制输入u_(j)来作为网络的输入，输出是性能指标函数V_i的近似值，表示为：

其中X_ci(k)是由∈_i(k),u_i(k),u_(j)(k)组成的critic网络智能体i的输入向量，Y_ci是权重矩阵，w_ci是神经网络隐藏层和输出层的权重矩阵；φ_ci(·)作为critic的激活函数，选取为：

然后，定义critic网络的误差函数：

进而，目标是最小化损失函数：

利用梯度下降原理，设计网络权值的参数在线更新规则如下：

其中，β_c是网络学习率；

机器人i的执行网络利用误差∈_i作为网络的输入；输出是控制律u_i的近似值，表示为：

其中X_ai(k)是由∈_i(k)组成的actor网络机器人i的输入向量，Y_ai是权重矩阵，w_ai是神经网络隐藏层和输出层的权重矩阵，φ_ai(·)作为actor的激活函数约束控制信号；

然后，定义actor网络的误差函数：

ε_ai＝V_i-U_c (21)

其中，U_c是代价函数，设U_c＝0；进而，目标是最小化损失函数：

其中，β_a是网络学习率。

本发明的有益效果是：本发明首先建立多机器人动力学模型，并根据任务目标明确最优比例一致性问题，设计了自适应动态规划算法用来计算基于广义策略迭代的离散时间HJB方程的适当近似解，在此基础上搭建了评价-执行神经网络分别拟合迭代控制律和性能指标，并根据梯度下降算法迭代更新网络权重，实现了多机器人系统的数据驱动在线最优协同控制。本发明的方法针对由一般线性系统描述的多机器人系统，考虑了具体任务目标下对多机器人系统的最优协同控制，采用数据驱动的方法实现在线更新控制，不依赖系统具体模型，适用于多机器人系统的协同控制领域。

附图说明

图1为本发明的一种基于数据驱动的多机器人系统最优协同控制方法的流程图；

图2为本发明实施例中给定的多机器人系统的通信拓扑示意图；

图3为本发明实施例中将数据驱动的自适应动态规划控制算法部署到多机器人系统后呈现的最优比例一致协同行为示意图。

具体实施方式

下面结合附图进一步说明本发明的技术方案。

如图1所示，本发明的一种基于数据驱动的多机器人系统最优比例协同控制方法，具体步骤如下：

x_i(k+1)＝Ax_i(k)+B_iu_i(k),i＝1,2,…,N (1)

其中x_i(k)∈Rⁿ是第i个机器人k时刻的系统状态量，通常表示为机器人的空间位置坐标x_i(k)＝[X_i(k),Y_i(k)]^T，在无人物流行业内，将地面小车作为机器人，其空间位置坐标将由地面小车自身所携带的位置传感器及惯性测量单元等得到，用来描述地面小车机器人的空间位置坐标及在空间上的运动情况，完成对地面小车的定位、轨迹规划以及运动控制，进而实现多机器人系统在无人物流行业的集群送货，自主规划避障，高效物流运输。n表示机器人系统状态维度，N表示机器人数量，是控制输入，m_i表示控制输入维度，A∈R^n×n是系统矩阵，/>是输入矩阵，其中系统矩阵和输入矩阵由研究对象的具体物理模型决定。

多机器人系统通信结结构如图2所示，每个机器人Agent具有发送或接受邻居信息的能力。将多机器人系统之间的通信网络抽象成一个有向图由一个顶点集一个边集/>以及一个加权邻接矩阵/>组成；其中临界元素非负a_ij≥0；当且仅当/>时，a_ij＞0代表机器人i能够接收到机器人j的信息；否则，a_ij＝0；对于/>a_ii＝0；节点v_i的邻居集合表示为/>入度矩阵表示为对角矩阵/>然后通过/>获得拉普拉斯矩阵/>

其中α_i为第i个机器人的协同比例值；

而后，针对每个机器人i，定义比例协同误差：

设为比例协同一致性误差向量，得到：

其中

根据公式(1)和(3)，得到比例一致性误差∈_i(k)的动力学方程为：

规定每个机器人的局部性能指标函数为：

其中c_i(_i(k),u_i(k),u_(j)(k))是效用函数；γ∈(0,1]是折扣因子；为了方便表示，记V_i(∈_i(k),u_i(k),u_(j)(k))＝V_i(∈_i(k))；

根据Bellman最优性原理，最优性能指标函数满足如下的离散时间Hamilton-Jacobi-Bellman(HJB)方程：

最优控制律为：

将最优控制律代入公式(7)的HJB方程，得到：

S2、设计自适应动态规划算法用来计算基于广义策略迭代的离散时间Hamilton-Jacobi-Bellman方程的近似解；具体实现方法为：定义一个综合考虑能量损失和系统控制过程误差的效用函数为：

其中Q_ii＞0,R_ii＞0,R_ij＞0，均为正定对称的权重矩阵；

设和V_i ^p(∈(k))分别表示迭代控制律和迭代性能指标函数；其中，p表示迭代指标，k表示时间步长；为了方便算法设计，记V_i ^p,q(∈_i(k))作为子迭代性能指标函数，其中迭代索引q＝0,1,2,...,N_j，其中N_j是预设的最大子迭代次数；

接下来设计自适应广义策略迭代算法的迭代过程如下：

S21、对于p＝1,2,…控制律的更新规则如下：

S221、对于q＝1,2,…,N_j：

其中，

S222、第p次子迭代的值函数为：

S3、基于步骤S2中的自适应动态规划算法框架，搭建评价-执行神经网络来分别拟合迭代控制律和性能指标，并根据梯度下降算法迭代更新网络权重。

具体实现方法为：机器人i的评价网络利用误差∈_i，控制输入u_i及其邻居的控制输入u_(j)来作为网络的输入，输出是性能指标函数V_i的近似值，表示为：

然后，定义critic网络的误差函数：

进而，目标是最小化损失函数：

其中，β_c是网络学习率；

然后，定义actor网络的误差函数：

ε_ai＝V_i-U_c (21)

其中，β_a是网络学习率。

S4、将步骤S3设计的评价-执行网络控制器部署到机器人群体中，可以在具体任务目标下实现多机器人系统的数据驱动在线最优协同控制，最终的效果如图3所示。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.基于数据驱动的多机器人系统最优比例协同控制方法，其特征在于，具体步骤如下：

x_i(k+1)＝Ax_i(k)+B_iu_i(k),i＝1,2,,N (1)

其中x_i(k)∈Rⁿ是第i个机器人k时刻的系统状态量，n表示机器人系统状态维度，N表示机器人数量，u_i(k)∈R^mi是控制输入，m_i表示控制输入维度，A∈R^n×n是系统矩阵，B_i∈R^n×mi是输入矩阵；

将多机器人系统之间的通信网络抽象成一个有向图由一个顶点集一个边集/>以及一个加权邻接矩阵/>组成；其中临界元素非负a_ij≥0；当且仅当(v_j,v_i)∈时，a_ij＞0代表机器人i能够接收到机器人j的信息；否则，a_ij＝0；对于/>节点v_i的邻居集合表示为/>入度矩阵表示为对角矩阵/>然后通过/>获得拉普拉斯矩阵/>

其中α_i为第i个机器人的协同比例值；

而后，针对每个机器人i，定义比例协同误差：

设为比例协同一致性误差向量，得到：

其中

根据公式(1)和(3)，得到比例一致性误差_i(k)的动力学方程为：

每个机器人i都需要最小化性能指标函数V_i(_i(k),u_i(k),u_(j)(k))，u_(j)(k)是机器人i的邻居机器人的控制输入集合；接下来将设计最优控制律以最小化性能指标函数，同时保证当k趋于无穷时，每个机器人的比例一致性误差_i(k)→0；

规定每个机器人的局部性能指标函数为：

其中c_i(_i(k),u_i(k),u_(j)(k))是效用函数；γ∈(0,1]是折扣因子；记V_i(_i(k),u_i(k),u_(j)(k))＝V_i(_i(k))；

最优控制律为：

将最优控制律代入公式(7)的HJB方程，得到：

2.根据权利要求1所述的基于数据驱动的多机器人系统最优比例协同控制方法，其特征在于，所述步骤S2具体实现方法为：定义一个综合考虑能量损失和系统控制过程误差的效用函数为：

其中Q_ii＞0,R_ii＞0,R_ij＞0，均为正定对称的权重矩阵；

设和V_i ^p((k))分别表示迭代控制律和迭代性能指标函数；其中，p表示迭代指标，k表示时间步长；记V_i ^p,q(_i(k))作为子迭代性能指标函数，其中迭代索引q＝0,1,2,...,N_j，其中N_j是预设的最大子迭代次数；

接下来设计自适应广义策略迭代算法的迭代过程如下：

S21、对于p＝1,2,控制律的更新规则如下：

S22、固定控制律第p步的迭代性能指标函数V_i ^p((k))按照如下两个阶段计算：

S221、对于q＝1,2,,N_j：

其中，

S222、第p次子迭代的值函数为：

3.根据权利要求1所述的基于数据驱动的多机器人系统最优比例协同控制方法，其特征在于，所述步骤S3具体实现方法为：机器人i的评价网络利用误差_i，控制输入u_i及其邻居的控制输入u_(j)来作为网络的输入，输出是性能指标函数V_i的近似值，表示为：

其中X_ci(k)是由_i(k),u_i(k),u_(j)(k)组成的critic网络智能体i的输入向量，Y_ci是权重矩阵，w_ci是神经网络隐藏层和输出层的权重矩阵；φ_ci(·)作为critic的激活函数，选取为：

然后，定义critic网络的误差函数：

进而，目标是最小化损失函数：

其中，β_c是网络学习率；

机器人i的执行网络利用误差_i作为网络的输入；输出是控制律u_i的近似值，表示为：

其中X_ai(k)是由_i(k)组成的actor网络机器人i的输入向量，Y_ai是权重矩阵，w_ai是神经网络隐藏层和输出层的权重矩阵，φ_ai(·)作为actor的激活函数约束控制信号；

然后，定义actor网络的误差函数：

ε_ai＝V_i-U_c (21)

其中，β_a是网络学习率。