CN114610040A

CN114610040A - 一种应用于无人操作系统的自主避障学习控制方法及装置

Info

Publication number: CN114610040A
Application number: CN202210342793.XA
Authority: CN
Inventors: 穆朝絮; 王珂
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2022-04-02
Filing date: 2022-04-02
Publication date: 2022-06-10

Abstract

本发明公开了一种应用于无人操作系统的自主避障学习控制方法及装置，用以解决自主无人系统在多障碍环境中的避障控制问题；该方法包括：构建避障环境与最优避障控制模型；利用行为‑评价神经网络构建在线学习控制器；基于状态外推实现经验回放和虚拟探索；确定自适应网络更新规则以实现安全学习与自主避障；装置包括：检测与定位器、微处理器、存储器和驱动装置；本发明公开的避障控制方法设计了一个具备解释性的避障惩罚项，能实时生成较优的安全运行轨迹，可以引导自主无人系统快速地穿过障碍物环境并准确抵达指定目标点。

Description

一种应用于无人操作系统的自主避障学习控制方法及装置

技术领域

本发明涉及强化学习和避障控制领域，更具体地，涉及一种应用于无人操作系统的自主避障学习控制方法及装置。

背景技术

以无人机、无人车、机器人为代表的自主无人系统已经得到普遍关注和应用，这类运动对象的工作环境中存在着多种障碍物，需要无人系统完成既定任务的同时避免与障碍物发生碰撞。因此设计自主避障控制方法，是运动规划的重要环节。一般来说，避障方法分为预生成方法(全局规划)和反应式方法(局部规划)。前者需要整个环境模型，因此不适宜于实时调整；后者因为容易与最优实时反馈结合，更适用于实际动态环境。

反应式方法典型的代表是人工势场法和模型预测控制方法，但是这类方法无法保证控制策略在整个运动轨迹上的最优性，控制策略的优化性有待进一步提升。近年来，强化学习(RL,reinforcementlearning)与最优控制的融合发展为解决这个问题提供了新颖的思路，它借助神经网络和策略迭代实现控制策略的近似求解。

关于利用RL实现自主避障控制，已经提出了诸多控制方案。但是，这些方法的避障策略偏于保守、数学定义不够清晰，优化性能仍然有待提升；此外，如何有效使用学习数据，实现经验回放与自主探索，也是亟待解决的关键问题。

发明内容

本发明提供了一种应用于无人操作系统的自主避障学习控制方法及装置，用以解决自主无人系统的安全学习与自主避障问题，本发明保证了运动过程的安全性和避障策略的最优性，实现了学习数据的高效利用，且设计简单、易于实现，详见下文描述：

本发明提供了一种应用于无人操作系统的自主避障学习控制方法，所述方法包括：

本发明针对自主避障控制问题，利用最优控制和强化学习技术，研究基于经验回放的自主避障学习控制方法，以实现安全可靠的障碍规避，是符合相关技术的应用需求和发展趋势的。通过对现有文献和技术的检索，并未发现类似的技术方案。

1、一种应用于无人操作系统的自主避障学习控制方法，其特征在于，所述方法包括以下步骤：

S10、构建避障环境与最优避障控制模型；

S20、利用行为-评价神经网络构建在线学习控制器；

S30、基于状态外推实现经验回放和虚拟探索；

S40、确定自适应网络更新规则以实现安全学习与自主避障。

进一步，所述步骤S10的构建避障环境与最优避障控制模型过程：

步骤S101，基于检测半径通过下式构建非线性障碍模型；

其中：是f(x(t))内部动态信息，g(x(t))是控制耦合矩阵，而u(t)是控制输入或控制策略；

步骤S102，按下式建立包含障碍函数项的代价函数；

r(x,u)＝x^TQx+u^TRu+B(x).

其中：Q和R是正定且对称的常值矩阵，B(x)是障碍函数项。

步骤S103，根据上述代价函数，利用贝尔曼最优性条件得到最优避障控制模型：

其中：▽J^*是最优代价函数J^*(x)关于x的偏导数。

进一步，所述步骤S20中利用行为-评价神经网络构建在线学习控制器过程：

所述行为-评价神经网络前者给出最优代价函数的近似值

后者给出避障控制策略

计算实时避障控制策略，该控制策略便是学习控制器的输出，具备策略优化功能和避障功能；在得到近似代价函数和避障控制策略后，将其带入贝尔曼方程，计算得到实时贝尔曼误差δ(t)；其中：

步骤S201，根据最优避障控制模型结合多层前馈神经网络构建行为-评价神经网络模块；

步骤S202，按照下式计算实时避障控制策略；

其中：

是状态跟随的激活函数

的偏导数，c(x)是围绕当前状态的核函数，

是行为网络权值，▽B_o(x)是避障惩罚项B_o(x)的偏导数。

步骤S203，按照下式计算实时贝尔曼误差δ(t)；

其中：

是评价网络权值。

进一步，所述S30步骤基于状态外推实现经验回放和虚拟探索过程：

步骤S301，利用状态外推生成经验数据点

步骤S302，按照下式计算外推避障控制策略并存储；

其中：x_k是上述的经验数据点，即外推产生的虚拟状态。步骤S303，按照下式计算外推贝尔曼误差并存储；

其中：经验数据点是围绕当前状态点的外推轨迹，根据经验数据点计算外推避障控制策略并进行存储；在外推点对贝尔曼误差进行重新评估，计算外推贝尔曼误差并进行存储。

进一步，所述S40步骤确定自适应网络更新规则以实现安全学习与自主避障过程；

步骤S401，按照下式确定评价网络的自适应更新规则；

步骤S402，按下式利用梯度下降自适应法确定评价网络的自适应更新规则；

其中：是k_c1,k_c2＞0评价网络学习率，用以调节实时数据和经验数据在更新规则中的分量；

步骤S403，按照下式通过梯度投影算子法确定行为网络的自适应更新规则；

其中是proj{·}投影算子，k_a＞0是行为网络学习率，F_a是一个正定的矩阵；

步骤S404，通过策略迭代过程实现安全学习与自主避障。

本发明还可以采用如下技术方案予以实施：

一种带有无人操作系统的自主避障学习控制方法的装置，所述装置包括：

--检测与定位器，用以给无人系统提供定位信息和探测信息；

--微处理器，主要以典型的嵌入式芯片和相关功能电路为主，用于执行权利要求1-4所述无人操作系统的自主避障学习控制方法的神经网络训练和控制计算；

--存储器，耦合接至微处理器，用以存储系统的运行轨迹信息、保存状态外推产生的学习数据并按期传送给微处理器；

--驱动装置，用以给无人系统提供动力，负责执行控制指令。

有益效果：

本公开实施例的自主避障学习控制方法，将自主无人系统视为一个运动智能体，结合障碍函数法设计一种具备解释性的避障惩罚项，使得智能体能够以更优的方式绕过多个障碍物达到目标点，与已有方法相比，安全性更高、运动路径更短、实时性更高。

附图说明

图1为根据一实施例示出的应用于无人操作系统的自主避障学习控制方法的流程图；

图2为根据一实施例示出的步骤S10的流程图；

图3为根据一实施例示出的步骤S20的流程图；

图4为根据一实施例示出的步骤S30的流程图；

图5为根据一实施例示出的自主避障与状态外推示意图；

图6为根据一实施例示出的步骤S40的流程图；

图7为根据一实施例示出的无人车系统避障过程的安全轨迹对比图。

图8为根据一实施例示出的无人机系统避障过程的安全轨迹图。

图9为根据一实施例示出的应用于无人操作系统的自主避障学习控制装置的框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。应当注意到：除非另外说明，否则在这些实施例中阐述的组件和步骤的相对布置、数学表达式和数值不限制本公开的范围。同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

本发明提供一种应用于无人操作系统的自主避障学习控制方法，包括如下内容：

构建避障环境与最优避障控制模型。自主无人系统是一种典型的智能体系统，在一种实施例中，可以将其表示为仿射非线性系统。认为智能体是具备局部检测能力的，且障碍物体是圆形区域或球形区域。基于检测半径构建障碍环境，每个障碍物会辐射出相应的障碍区域、避让区域和检测区域。在障碍环境的基础上，建立系统运行的安全域，利用障碍函数法构建障碍函数项，然后设计得到代价函数。根据代价函数，利用贝尔曼最优性条件，得到最优避障控制模型和贝尔曼方程。

可选地，根据障碍环境中各类区域的半径，可以设计一个光滑变化的调度函数，其取值在0到1之间平稳变化，该函数负责调节障碍函数项在代价函数中的作用。

进一步地，利用行为-评价(AC，actor-critic)神经网络构建在线学习控制器。针对最优避障控制模型，利用多层前馈神经网络，构建评价网络和行为网络。前者给出最优代价函数的近似值，后者给出避障控制策略。基于行为-评价结构，计算实时避障控制策略，该控制策略便是学习控制器的输出，具备策略优化功能和避障功能。在得到近似代价函数和避障控制策略后，将其带入贝尔曼方程，计算得到实时贝尔曼误差(即学习误差)。

可选地，强化学习过程中的避障惩罚项可以在上述障碍函数项的基础上进行构建，这种设计可以有效保证神经网络逼近的准确性。

进一步地，基于状态外推实现经验回放和虚拟探索。强化学习的实现中，奖励的有效获取是保证决策效果的重要环节，但是实际避障中让智能体进入障碍区域获取负面奖励是不切实际的，因此采用状态外推生成经验数据点。经验数据点是围绕当前状态点的外推轨迹，根据经验数据点计算外推避障控制策略并进行存储。在外推点对贝尔曼误差进行重新评估，计算外推贝尔曼误差并进行存储。

可选地，产生经验数据点的方式可以采用均匀分布、正态分布等，但是外推的基准必须是当前的状态轨迹点。

进一步地，确定自适应网络更新规则以实现安全学习与自主避障。利用梯度下降自适应法确定评价网络的自适应更新规则。利用梯度投影算子法确定行为网络的自适应更新规则。而后，将策略迭代过程表征为AC网络参数的自适应更新过程，实现安全学习与自主避障。

根据本公开的第二个方面，提供一种应用于无人操作系统的自主避障学习控制装置，主要包括：

检测与定位器，用以给无人系统提供定位信息和探测信息，在相关实施例中，检测与定位器可以是激光雷达、视觉相机等。

微处理器，主要以典型的嵌入式芯片和相关功能电路为主，用于执行神经网络训练和控制计算，可以认为是上述的学习控制器。

存储器，耦合接至微处理器，用以存储系统的运行轨迹信息、保存状态外推产生的学习数据并按期传送给微处理器。

驱动装置，用以给无人系统提供动力，负责执行控制指令。本公开考虑的自主无人系统具备对称的驱动装置，在相关实施例中，驱动装置是微型电机设备，可以外接车轮、旋翼等。

实施例1

本发明实施例公开了一种具备局部探测能力的自主无人系统，基于最优控制和强化学习技术提出了一种自主避障学习控制方法，参见图1，该方法包括以下步骤：

S10：构建避障环境与最优避障控制模型；

其中，自主无人系统是一种典型的智能体系统，在本实施例中，可以将其表示为仿射非线性系统

认为智能体是具备局部检测能力的，且障碍物体是圆形区域或球形区域。基于检测半径构建障碍环境，每个障碍物会辐射出相应的障碍区域O_i、避让区域A_i和检测区域

在障碍环境的基础上，建立系统运行的安全域S，利用障碍函数法构建障碍函数项，然后设计得到代价函数J(x)。根据代价函数，利用贝尔曼最优性条件，得到最优避障控制模型u^*(x)和贝尔曼方程。为了调节障碍函数项在代价函数中的作用，设计一个光滑变化的调度函数s(x)，其取值在0到1之间平稳变化。

S20：利用行为-评价(AC)神经网络构建在线学习控制器；

其中，针对最优避障控制模型，利用多层前馈神经网络构建评价网络和行为网络。前者给出最优代价函数的近似值

后者给出避障控制策略

基于行为-评价结构，计算实时避障控制策略，该控制策略便是学习控制器的输出，具备策略优化功能和避障功能。在得到近似代价函数和避障控制策略后，将其带入贝尔曼方程，计算得到实时贝尔曼误差δ(t)(即学习误差)。

S30：基于状态外推实现经验回放和虚拟探索；

注意到，强化学习的实现中，奖励的有效获取是保证决策效果的重要环节，但是实际避障中让智能体进入障碍区域获取负面奖励是不切实际的，因此采用状态外推生成经验数据点

经验数据点是围绕当前状态点的外推轨迹，根据经验数据点计算外推避障控制策略并进行存储。而后，在外推点对贝尔曼误差进行重新评估，计算外推贝尔曼误差并进行存储。

S40：确定自适应网络更新规则以实现安全学习与自主避障；

其中，利用梯度下降自适应法确定评价网络的自适应更新规则。利用梯度投影算子法确定行为网络的自适应更新规则。最后，将策略迭代过程表征为AC网络参数的自适应更新过程，实现安全学习与自主避障。

实施例2

下面结合具体的计算公式，实施例2对实施例1中的方案进行进一步地介绍，详见如下：

首先，通过图1中的步骤S10完成避障控制问题描述与制定。

S10：构建避障环境与最优避障控制模型；

在本实施例中，可以通过图2中的步骤获得最优避障控制模型，步骤S10主要包括：

步骤S101，基于检测半径构建障碍环境。考虑这样的一类无人系统或自主智能体系统，由如下的仿射非线性模型表征：

其中是f(x(t))内部动态信息，g(x(t))是控制耦合矩阵，而u(t)是控制输入或控制策略。认为智能体是具备局部检测能力的，其检测半径为D_i；同时假设障碍物体是圆形区域或球形区域，围绕每一个障碍物定义三个区域，分别为：障碍区域O_i(半径为r_i)、避让区域A_i(半径为R_i)和检测区域

(半径为D_i)。具体来说，智能体进入检测区域，将发现障碍物并开始采取避障动作；进入避让区域后，智能体会采取较大的规避动作；障碍区域就是危险区，一旦进入意味着任务失败。在此基础上，将所有障碍区域表示为

其中h(x)是一个光滑函数，此时系统运行的安全域为S＝Ω-O，其中Ω是系统的操作域。

步骤S102，设计包含障碍函数项的代价函数。利用障碍函数法，设计如下的倒数型障碍函数项B(x)：

其中K_b是一个正增益，s(x)是一个光滑变化的调度函数。可选地，调度函数可以确定如下：

上式中，d_i为智能体与障碍物之间的距离。在一些实施例中，为了刻画智能体的优化需求和避障需求，基于系统状态运行成本、控制能量成本和障碍函数项，可以建立如下的代价函数：

步骤S103，建立最优避障控制模型。根据上述代价函数，利用贝尔曼最优性条件，得到最优避障控制策略如下：

其中▽J^*是最优代价函数J^*(x)关于x的偏导数，而最优代价函数则由贝尔曼方程隐性表征：

在获得最优避障控制模型后，可以继续通过图1中的步骤S20构建学习控制器，实现对公式(5)和(6)的近似求解。

S20：利用行为-评价神经网络构建在线学习控制器；

在本实施例中，可以通过图3中的步骤构建学习控制器，如图3所示，步骤S20主要包括：

步骤S201，构建行为-评价神经网络结构。在一些实施例中，可以采用三层前馈神经网络来构建AC结构。为了更好地逼近代价函数，首先基于上述的障碍函数项B(x)，构造如下所示的避障惩罚项B_o(x)：

其中α是一个正常数。这个避障惩罚项的意义在于，当智能体接近障碍区域时会变得无穷大，而远离时则会逐渐趋于零，因而具备一定数学解释性。接下来，将输入层到隐层的权值矩阵被设置为单位向量，隐层到输出层的权值设置为

代价函数便可近似为：

其中

是状态跟随的激活函数，c(x)是围绕当前状态的核函数。对于行为网络，采用类似的结构，其权值

也用来估计理想的评价权值，以此实现两个网络的互动。

步骤S202，计算实时避障控制策略。在代价函数近似的基础上，依据行为权值

避障控制策略可以计算如下：

该控制策略便是学习控制器的输出。在学习控制器中，评价网络执行策略评估，给出代价函数的近似值

而行为网络执行策略改进，给出实时的避障控制策略

步骤S203，计算实时贝尔曼误差。将近似代价函数和控制策略带入步骤S10中的贝尔曼方程(6)中，计算得到实时贝尔曼误差δ(t)如下：

在利用AC网络结构获得避障控制策略和贝尔曼误差后，继续通过图1中的步骤S30实现经验回放和虚拟探索。

S30：基于状态外推实现经验回放和虚拟探索；

在本实施例中，可以通过图4中的步骤实现经验回放，如图4所示，步骤S30主要包括：

步骤S301，利用状态外推生成经验数据点。从避障惩罚项的设计可以看出，智能体接近障碍物时会有较大的负面奖励，但是实际避障中让智能体进入障碍区域获取负面奖励是不切实际的，因此采用状态外推生成经验数据点。在本实施例中，让智能体在当前状态的闭包邻域内通过外推的方式生成M个外推轨迹点

这种通过状态外推获取经验的方式如图5所示。可以看出，智能体的外推状态可能会碰到障碍物，进而产生较大的负面奖励，从而使得智能体提前做出避障动作，实现安全的虚拟探索。

步骤S302，计算外推避障控制策略并存储。外推轨迹点可以看作是智能体的虚拟经验，在这些经验数据点，计算外推控制策略

如下：

步骤S303，计算外推贝尔曼误差并存储。基于外推控制策略，在外推点对贝尔曼误差进行重新评估，计算外推贝尔曼误差δ_k(t)如下：

对上述外推数据进行存储，作为经验数据在实时学习中进行利用。然后，就可以继续通过图1中的步骤S40实现安全学习与自主避障。

S40：确定自适应网络更新规则以实现安全学习与自主避障；

在本实施例中，可以通过图6中的步骤实现安全学习，如图6所示，步骤S40主要包括：

步骤S401，确定评价网络的自适应更新规则。在一些实施例中，可以结合实时学习数据和经验数据，构建如下的学习误差总和：

为了最小化上述误差总和，利用梯度下降自适应法，确定评价网络的自适应更新规则：

其中是k_c1,k_c2＞0评价网络学习率，用以调节实时数据和经验数据在更新规则中的分量。

步骤S402，确定行为网络的自适应更新规则。在一些实施例中，需要将行为权值约束到一定范围内，以防止控制策略的过大输出。因此，利用梯度投影算子法，确定行为网络的自适应更新规则：

其中是proj{·}投影算子，k_a＞0是行为网络学习率，F_a是一个正定的矩阵。

步骤S403，实现安全学习与自主避障。强化学习算法的策略迭代过程主要表现为(14)和(15)的自适应更新过程，利用避障惩罚项保证安全性，进而实现安全学习；智能体利用网络更新规则更新控制策略参数，获得实时避障控制策略，进而实现自主避障。

实施例3

下面结合具体的实验数据、实例对实施例1和2中的方案进行可行性验证，该实施例在一个无人车系统上进行，详见下文描述：

根据步骤S10，布置了六个障碍物，每个障碍物对应区域的参数为r₁＝0.4,R₁＝0.6,r₂＝0.5,R₂＝0.7,r₃＝0.45,R₃＝0.65,r₄＝0.55,R₄＝0.75,r₅＝0.45,R₅＝0.65,r₆＝0.5,R₆＝0.7；无人车系统的车体半径为0.2米，检测半径设置为1米，即D_i＝1；障碍函数项的增益为K_b＝5，调度函数的主要系数配置为l₁＝1/8,l₁＝5/8,l₁＝3/8；代价函数采取配置为Q＝I₂,R＝5I₂；最后，无人车的起始点标定为(7,6.5)，目标点标定为(0,0)。

根据步骤S20，在本实施例中，行为网络和评价网络的隐层中配置3个节点，激活函数设置为

不失一般性地，三个核函数可以选择为

此外，避障惩罚项B_o(x)中的参数取为α＝1。

根据步骤S30，虚拟外推轨迹采用均匀分布的方式随机产生25个数据点，即M＝25。

根据步骤S40，AC网络更新规则中的参数选择为k_c1＝0.1,k_c2＝0.75,k_a＝0.75,F_a＝0.01I₃。

在上述实施的基础上，考虑两种已有的避障控制方法，用以进行对比评估。图7是根据此实施例示出的无人车系统避障过程的安全轨迹对比图，不难发现，无人车可以有效规避六个障碍物并成功抵达目标点。此外，通过与对比方法1和对比方法2的轨迹对比可以发现，本发明公开的方法在保证安全性的同时，还能以更短的路径、更小的震荡、更小的收敛误差抵达目标点。

总的来说，本发明实施例公开的一种应用于无人操作系统的自主避障学习控制方法的有益效果是属实的。

实施例4

下面结合另一实例和具体的实验数据对实施例1和2中的方案进行可行性验证，该实施例在一个无人机系统上进行，详见下文描述：

根据步骤S10，布置了四个障碍物，每个障碍物对应区域参数为r₁＝0.75,R₁＝1.05,r₂＝0.8,R₂＝1.1,r₃＝0.75,R₃＝1.05,r₄＝0.85,R₄＝1.15；无人机系统的车体半径为0.3米，检测半径设置为1.4米，即D_i＝1.4；障碍函数项的增益为K_b＝40，类似地，调度函数的主要系数配置为l₁＝1/8,l₁＝5/8,l₁＝3/8；代价函数采取配置为Q＝5I₃,R＝I₃；最后，无人机的起始点标定为(9,8,9)，目标点标定为(0,0,0)。

根据步骤S20，在本实施例中，行为网络和评价网络的隐层中配置4个节点，激活函数设置为

不失一般性地，核函数

的外推向量

可以选择为

此外，避障惩罚项B_o(x)中的参数取为α＝0.8。

根据步骤S30，虚拟外推轨迹采用均匀分布的方式，在三维空间上随机产生30个数据点，即M＝30。

根据步骤S40，AC网络更新规则中的参数选择为k_c1＝0.1,k_c2＝0.75,k_a＝0.75,F_a＝0.8I₄。

图8是根据此实施例示出的无人机系统避障过程的安全轨迹图。可以发现，无人机在障碍环境中可以自主地生成一条安全、光滑的运动轨迹，能够成功避开每个障碍物成功达到目标点；同时，无人机不会深入避让区太多，从而有效保证了安全性。

实施例5

本实施例示出一种应用于无人操作系统的自主避障学习控制装置，参见图9中的装置D90，该装置包括如下组成部分：

检测与定位器D901，用以给无人系统提供定位信息和探测信息，例如检测与定位器可以是激光雷达、视觉相机等。D901主要用于检测与障碍物之间的实时距离d_i，该距离信号将传送给微处理器，用来计算调度函数s(x)和避障惩罚项B_o(x)。

微处理器D902，主要以典型的嵌入式芯片和相关功能电路为主，用于执行神经网络训练和控制计算，可以认为是上述的学习控制器。其输出的控制信号

将施加到驱动装置D903和D904。

驱动装置D903和D904，用以给无人系统提供动力，负责执行控制指令。驱动装置可以选择为微型电机设备，外接车轮、旋翼等。注意，非限制性的，驱动装置可以为多个，但对于本公开的设计，驱动装置的数量应该是偶数。

存储器D905，耦合接至微处理器，用以存储系统的运行轨迹信息x(t)、保存状态外推产生的学习数据x_k,

δ_k(t)并按期传送给微处理器。

这里需要指出的是，以上实施例中的装置描述是与实施例中的方法描述相对应的，本发明实施例在此不做赘述。

本领域内的技术人员应当明白，本公开的实施例可提供为方法、原型系统、自主智能移动平台或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例或软硬件结合的实施例的形式。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。