CN112506194B

CN112506194B - 一种移动机器人集群分布式安全学习控制方法

Info

Publication number: CN112506194B
Application number: CN202011401269.2A
Authority: CN
Inventors: 杨睿; 郑磊; 成慧
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2022-03-29
Anticipated expiration: 2040-12-03
Also published as: CN112506194A

Abstract

本发明属于移动机器人分布式控制技术领域，更具体地，涉及一种移动机器人集群分布式安全学习控制方法。本发明通过贝叶斯学习对环境扰动进行建模，将学习到的模型结合到先验系统模型作为动力学约束；通过传感器获得邻域移动机器人和障碍物的位置和速度信息，基于速度障碍方法获得当前移动机器人的速度可行域；根据速度可行域设计控制屏障函数，构建并求解二次规划问题以最小校正上层控制器的参考控制量，以满足安全无碰约束。本发明能够在不确定外部扰动的情况下，考虑动力学约束，实现移动机器人集群自适应分布式安全控制的技术目标。

Description

一种移动机器人集群分布式安全学习控制方法

技术领域

本发明属于移动机器人分布式控制技术领域，更具体地，涉及一种移动机器人集群分布式安全学习控制方法。

背景技术

得益于传感器、微处理器等技术的飞速发展，移动机器人技术在军用和民用领域发挥着日益重要的作用。相比于单移动机器人系统，移动机器人集群系统能以彼此协作的方式高效、可靠地完成大面积复杂动态区域的作业任务，在灾害、战场等恶劣环境中具有不可替代的优势，越来越广泛地应用在智慧农业、空中巡查、电力巡检、物流快递等民用领域。实际应用场景中存时变风场、不同地面摩擦等不确定的环境扰动，具备像生物群体一般适应环境变化、能够安全避免集群机间碰撞以及与外部物体的碰撞的群体自主导航能力，是移动机器人集群自主完成作业任务的重要前提。

在集群的分布式控制方式中，利用邻近无人机的信息交互，各无人机自主决策规划并计算其控制指令，采用分布式组织结构的集群无人系统具有更好的可扩展性、适应动态环境以及抗风险和故障的能力。由于机载感知与通信能力有限，无人机仅能获得局部环境信息以及通信范围内邻近个体的信息，如何利用各无人机的局部有限信息，如何通过邻近无人机之间的相互作用，根据场景信息动态重构集群的队形变化，并快速形成新的目标队形，是分布式编队导航中的技术难点问题。另一方面，在实际环境中应用时，要求无人机能在环境不确定情况下自适应于环境扰动，快速、准确、稳定地控制，在此过程中需考虑自适应效果保证机间和与障碍物的无碰安全。目前的研究针对障碍物场景的移动机器人集群控制提出了各有特色的方法，然而考虑自适应于环境不确定扰动，并利用邻域信息考虑动力学模型设计安全分布式控制器，仍面临诸多新的挑战，解决这一问题是提升移动机器人集群提升安全可靠导航能力的关键。

发明内容

本发明为克服上述现有技术中的至少一个缺陷，提供一种移动机器人集群分布式安全学习控制方法，实现了对移动机器人集群自适应、安全的分布式控制。

为解决上述技术问题，本发明采用的技术方案是：一种移动机器人集群分布式安全学习控制方法，包括以下步骤：

S1.构造移动机器人集群中单机的动力学仿射控制模型；

S2.对各移动机器人，基于高斯过程回归对环境不确定扰动进行建模，模型可对扰动进行预测并给出预测的置信度；

S3.对各移动机器人，通过传感器获得邻域移动机器人和障碍物的位置和速度信息，基于速度障碍方法获得当前移动机器人的速度可行域；

S4.根据速度可行域设计控制屏障函数，对各移动机器人，通过联合动力学模型与控制屏障函数构建带不等式约束的二次规划问题，对上层控制器输出的参考控制量进行最小校正，将系统的状态和控制约束在可行安全域内，得到优化控制量；

S5.对各移动机器人，执行优化后得到的控制量，应用于机器人与环境的交互中；

S6.在线收集系统与环境交互的状态和控制序列，更新高斯过程回归模型；

S7.重复步骤S2至步骤S6直至交互结束。

本发明通过贝叶斯学习对环境扰动进行建模，先验系统模型作为动力学约束；通过传感器获得邻域移动机器人和障碍物的位置和速度信息，基于速度障碍方法获得当前移动机器人的速度可行域；根据速度可行域设计控制屏障函数，并构建二次规划问题对上层控制器计算得到的参考控制量进行最小校正，以满足安全无碰约束，实现能够自适应于环境扰动的、并能够保证安全无碰的移动机器人集群分布式控制。同时，方法对上层控制器不做约束，可兼容现有集群控制算法，为其提供安全性保证。

进一步的，所述的步骤S1中，构造的移动机器人集群中单机的动力学仿射控制模型为：

式中，

为系统状态量，

为系统控制量，p,v分别是移动机器人的位置和速度；f(x)+g(x)u代表对系统平动动力学建模所得的先验模型，d(x)表示未建模的不确定环境扰动。

进一步的，所述的S2中，对各移动机器人，通过在线收集的数据集

作为训练集，高斯过程回归通过贝叶斯推理得到状态x^*的下偏差d(x^*)的均值μ(x^*)和方差σ(x^*)；得到关于d(x^*)的高置信区间：D(x^*)＝{d|μ(x^*)-c_δσ(x^*)≤d≤μ(x^*)+c_δσ(x^*)}，c_δ＞0是高斯分布中(1-δ)置信度对应的常数。

进一步的，所述的S3步骤中，借鉴最优互惠速度障碍法的速度可行域构造法，为各移动机器人构造速度可行域，将安全避障问题转化到速度域上来分析。

进一步的，所述的S3步骤具体包括：

假设当前移动机器人A和邻域内其他任一机器人O的位置为p_A和p_O，速度分别为v_A和v_O，分别视作半径为r_A和r_O的圆形；

考虑需要避免碰撞的时间窗口τ，在τ内当前移动机器人A若与机器人O发生碰撞，则相对速度(v_A-v_O)应当落在速度障碍区域

其中D(p,r)表示以p为圆心，r为半径的球域；

将相对速度(v_A-v_O)校正到

外，可避免在r时间内发生碰撞，最小校正量

表示

的边界；由此，可获得速度可行域

其中n为u的单位向量，j为当前机器人在避碰中应当承担的责任系数；

对非合作式障碍物，当前移动机器人需要承担全部避碰责任，即j＝1；对其余移动机器人，则互相应当承担一半责任，即

对该机器人考虑邻域内所有机器人和障碍物，设共计N个，则构造的速度可行域为

进一步的，在所述的步骤S4中，对各移动机器人，记为A，基于可行速度域

构造控制屏障函数h(x)，函数刻画速度v_A与速度可行域

边界的距离；结合基于高斯过程学习的动力学模型和控制屏障函数，给定上层控制器计算得到的参考控制量u₀,不等式约束的二次规划问题的具体公式为：

st.-L_gh(x)u-L_fh(x)-L_μh(x)+c_σ|L_σh(x)|-κ(h(x))≤ε

u_min≤u≤u_max

式中，u_min和u_max分别是控制量上界与下界，正定矩阵R为控制量权重，ε为代表松弛变量，K_ε是对应的系数，c_σ是方差对应的系数，符号L代表李导数，κ是一个k-class类函数。

进一步的，所述的上层控制器可以兼容现成的多种控制算法，如比例-微分-积分控制器或模型预测控制器。

进一步的，所述的步骤S5中，对各移动机器人，执行优化后得到的控制量u^*，移动机器人集群与环境进行交互。

进一步的，所述的步骤S6中，在线收集集群系统与环境交互的位置和速度以及对应的控制量，更新高斯过程回归模型。

与现有技术相比，有益效果是：本发明提供的一种移动机器人集群分布式安全学习控制方法，解决了不确定环境扰动下移动机器人集群分布式控制过程中，无法适应外部扰动、可能发生机间与障碍物之间碰撞的问题。本发明基于高斯过程通过在线收集交互数据及贝叶斯推理在高置信度下实现对环境的扰动进行在线估计和补偿，以建模系统与环境交互环节存在的不确定性，并保证模型局部李普希兹连续；通过邻域移动机器人与障碍物位置和速度信息构造当前移动机器人的速度可行域，通过联合动力学模型与控制屏障函数构建带不等式约束的二次规划问题对参考控制量进行最小校正，在高置信度下保证满足安全无碰约束，从而实现对移动机器人集群自适应、安全的分布式控制。

附图说明

图1是本发明方法的计算过程流程示意图。

图2是本发明机器人集群中对移动机器人A的速度可行域计算示意图，图a为集群中移动机器人A与移动机器人O的位置示意子图，图b为速度障碍与速度可行域

计算示意图，

用于设计控制屏障函数。

具体实施方式

如图1所示，一种移动机器人集群分布式安全学习控制方法，包括以下步骤：

步骤1.本实例根据对移动机器人的先验知识和实际的任务场景，对各移动机器人的非线性仿射系统建模为：

式中，

为系统状态量，

步骤2.对各移动机器人，基于高斯过程回归对环境不确定扰动进行建模，模型可对扰动进行预测并给出预测的置信度。

对各移动机器人，通过在线收集的数据集

步骤3.对各移动机器人，通过传感器获得邻域移动机器人和障碍物的位置和速度信息，基于速度障碍方法获得当前移动机器人的速度可行域。

借鉴最优互惠速度障碍法的速度可行域构造法，为各移动机器人构造速度可行域，如图2所示。

其中D(p,r)表示以p为圆心，r为半径的球域；

若将相对速度(v_A-v_O)校正到

外，可避免在r时间内发生碰撞，最小校正量

表示

的边界；由此，可获得速度可行域

步骤4.根据速度可行域设计控制屏障函数，对各移动机器人，通过联合动力学模型与控制屏障函数构建带不等式约束的二次规划问题，对上层控制器输出的参考控制量通过安全控制器进行最小校正，将系统的状态和控制约束在可行安全域内，得到优化控制量。

对各移动机器人，记为A，基于可行速度域

构造控制屏障函数h(x)，函数刻画速度v_A与速度可行域

边界的距离；如图2(b)所示结合基于高斯过程学习的动力学模型和控制屏障函数，给定上层控制器计算得到的参考控制量u₀,不等式约束的二次规划问题的具体公式为：

st.-L_gh(x)u-L_fh(x)-L_μh(x)+c_σ|L_σh(x)|-κ(h(x))≤ε

u_min≤u≤u_max

步骤5.对各移动机器人，执行优化后得到的控制量u^*，移动机器人集群与环境进行交互。

步骤6.在线收集系统与环境交互的状态和控制序列，更新高斯过程回归模型；

步骤7.重复步骤2至步骤6，直至完成集群控制任务或最大实验设定时长。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。