CN114610040A - 一种应用于无人操作系统的自主避障学习控制方法及装置 - Google Patents

一种应用于无人操作系统的自主避障学习控制方法及装置 Download PDF

Info

Publication number
CN114610040A
CN114610040A CN202210342793.XA CN202210342793A CN114610040A CN 114610040 A CN114610040 A CN 114610040A CN 202210342793 A CN202210342793 A CN 202210342793A CN 114610040 A CN114610040 A CN 114610040A
Authority
CN
China
Prior art keywords
obstacle avoidance
learning
network
autonomous
extrapolation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210342793.XA
Other languages
English (en)
Inventor
穆朝絮
王珂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202210342793.XA priority Critical patent/CN114610040A/zh
Publication of CN114610040A publication Critical patent/CN114610040A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • G05D1/0253Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means extracting relative motion information from a plurality of images taken successively, e.g. visual odometry, optical flow

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Electromagnetism (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种应用于无人操作系统的自主避障学习控制方法及装置,用以解决自主无人系统在多障碍环境中的避障控制问题;该方法包括:构建避障环境与最优避障控制模型;利用行为‑评价神经网络构建在线学习控制器;基于状态外推实现经验回放和虚拟探索;确定自适应网络更新规则以实现安全学习与自主避障;装置包括:检测与定位器、微处理器、存储器和驱动装置;本发明公开的避障控制方法设计了一个具备解释性的避障惩罚项,能实时生成较优的安全运行轨迹,可以引导自主无人系统快速地穿过障碍物环境并准确抵达指定目标点。

Description

一种应用于无人操作系统的自主避障学习控制方法及装置
技术领域
本发明涉及强化学习和避障控制领域,更具体地,涉及一种应用于无人操作系统的自主避障学习控制方法及装置。
背景技术
以无人机、无人车、机器人为代表的自主无人系统已经得到普遍关注和应用,这类运动对象的工作环境中存在着多种障碍物,需要无人系统完成既定任务的同时避免与障碍物发生碰撞。因此设计自主避障控制方法,是运动规划的重要环节。一般来说,避障方法分为预生成方法(全局规划)和反应式方法(局部规划)。前者需要整个环境模型,因此不适宜于实时调整;后者因为容易与最优实时反馈结合,更适用于实际动态环境。
反应式方法典型的代表是人工势场法和模型预测控制方法,但是这类方法无法保证控制策略在整个运动轨迹上的最优性,控制策略的优化性有待进一步提升。近年来,强化学习(RL,reinforcementlearning)与最优控制的融合发展为解决这个问题提供了新颖的思路,它借助神经网络和策略迭代实现控制策略的近似求解。
关于利用RL实现自主避障控制,已经提出了诸多控制方案。但是,这些方法的避障策略偏于保守、数学定义不够清晰,优化性能仍然有待提升;此外,如何有效使用学习数据,实现经验回放与自主探索,也是亟待解决的关键问题。
发明内容
本发明提供了一种应用于无人操作系统的自主避障学习控制方法及装置,用以解决自主无人系统的安全学习与自主避障问题,本发明保证了运动过程的安全性和避障策略的最优性,实现了学习数据的高效利用,且设计简单、易于实现,详见下文描述:
本发明提供了一种应用于无人操作系统的自主避障学习控制方法,所述方法包括:
本发明针对自主避障控制问题,利用最优控制和强化学习技术,研究基于经验回放的自主避障学习控制方法,以实现安全可靠的障碍规避,是符合相关技术的应用需求和发展趋势的。通过对现有文献和技术的检索,并未发现类似的技术方案。
1、一种应用于无人操作系统的自主避障学习控制方法,其特征在于,所述方法包括以下步骤:
S10、构建避障环境与最优避障控制模型;
S20、利用行为-评价神经网络构建在线学习控制器;
S30、基于状态外推实现经验回放和虚拟探索;
S40、确定自适应网络更新规则以实现安全学习与自主避障。
进一步,所述步骤S10的构建避障环境与最优避障控制模型过程:
步骤S101,基于检测半径通过下式构建非线性障碍模型;
Figure BDA0003579974590000021
其中:是f(x(t))内部动态信息,g(x(t))是控制耦合矩阵,而u(t)是控制输入或控制策略;
步骤S102,按下式建立包含障碍函数项的代价函数;
Figure BDA0003579974590000022
r(x,u)=xTQx+uTRu+B(x).
其中:Q和R是正定且对称的常值矩阵,B(x)是障碍函数项。
步骤S103,根据上述代价函数,利用贝尔曼最优性条件得到最优避障控制模型:
Figure BDA0003579974590000023
其中:▽J*是最优代价函数J*(x)关于x的偏导数。
进一步,所述步骤S20中利用行为-评价神经网络构建在线学习控制器过程:
所述行为-评价神经网络前者给出最优代价函数的近似值
Figure BDA0003579974590000024
后者给出避障控制策略
Figure BDA0003579974590000025
计算实时避障控制策略,该控制策略便是学习控制器的输出,具备策略优化功能和避障功能;在得到近似代价函数和避障控制策略后,将其带入贝尔曼方程,计算得到实时贝尔曼误差δ(t);其中:
步骤S201,根据最优避障控制模型结合多层前馈神经网络构建行为-评价神经网络模块;
步骤S202,按照下式计算实时避障控制策略;
Figure BDA0003579974590000026
其中:
Figure BDA0003579974590000027
是状态跟随的激活函数
Figure BDA0003579974590000028
的偏导数,c(x)是围绕当前状态的核函数,
Figure BDA0003579974590000029
是行为网络权值,▽Bo(x)是避障惩罚项Bo(x)的偏导数。
步骤S203,按照下式计算实时贝尔曼误差δ(t);
Figure BDA00035799745900000210
其中:
Figure BDA0003579974590000031
是评价网络权值。
进一步,所述S30步骤基于状态外推实现经验回放和虚拟探索过程:
步骤S301,利用状态外推生成经验数据点
Figure BDA0003579974590000032
步骤S302,按照下式计算外推避障控制策略并存储;
Figure BDA0003579974590000033
其中:xk是上述的经验数据点,即外推产生的虚拟状态。步骤S303,按照下式计算外推贝尔曼误差并存储;
Figure BDA0003579974590000034
其中:经验数据点是围绕当前状态点的外推轨迹,根据经验数据点计算外推避障控制策略并进行存储;在外推点对贝尔曼误差进行重新评估,计算外推贝尔曼误差并进行存储。
进一步,所述S40步骤确定自适应网络更新规则以实现安全学习与自主避障过程;
步骤S401,按照下式确定评价网络的自适应更新规则;
Figure BDA0003579974590000035
步骤S402,按下式利用梯度下降自适应法确定评价网络的自适应更新规则;
Figure BDA0003579974590000036
其中:是kc1,kc2>0评价网络学习率,用以调节实时数据和经验数据在更新规则中的分量;
步骤S403,按照下式通过梯度投影算子法确定行为网络的自适应更新规则;
Figure BDA0003579974590000037
其中是proj{·}投影算子,ka>0是行为网络学习率,Fa是一个正定的矩阵;
步骤S404,通过策略迭代过程实现安全学习与自主避障。
本发明还可以采用如下技术方案予以实施:
一种带有无人操作系统的自主避障学习控制方法的装置,所述装置包括:
--检测与定位器,用以给无人系统提供定位信息和探测信息;
--微处理器,主要以典型的嵌入式芯片和相关功能电路为主,用于执行权利要求1-4所述无人操作系统的自主避障学习控制方法的神经网络训练和控制计算;
--存储器,耦合接至微处理器,用以存储系统的运行轨迹信息、保存状态外推产生的学习数据并按期传送给微处理器;
--驱动装置,用以给无人系统提供动力,负责执行控制指令。
有益效果:
本公开实施例的自主避障学习控制方法,将自主无人系统视为一个运动智能体,结合障碍函数法设计一种具备解释性的避障惩罚项,使得智能体能够以更优的方式绕过多个障碍物达到目标点,与已有方法相比,安全性更高、运动路径更短、实时性更高。
附图说明
图1为根据一实施例示出的应用于无人操作系统的自主避障学习控制方法的流程图;
图2为根据一实施例示出的步骤S10的流程图;
图3为根据一实施例示出的步骤S20的流程图;
图4为根据一实施例示出的步骤S30的流程图;
图5为根据一实施例示出的自主避障与状态外推示意图;
图6为根据一实施例示出的步骤S40的流程图;
图7为根据一实施例示出的无人车系统避障过程的安全轨迹对比图。
图8为根据一实施例示出的无人机系统避障过程的安全轨迹图。
图9为根据一实施例示出的应用于无人操作系统的自主避障学习控制装置的框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。应当注意到:除非另外说明,否则在这些实施例中阐述的组件和步骤的相对布置、数学表达式和数值不限制本公开的范围。同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
本发明提供一种应用于无人操作系统的自主避障学习控制方法,包括如下内容:
构建避障环境与最优避障控制模型。自主无人系统是一种典型的智能体系统,在一种实施例中,可以将其表示为仿射非线性系统。认为智能体是具备局部检测能力的,且障碍物体是圆形区域或球形区域。基于检测半径构建障碍环境,每个障碍物会辐射出相应的障碍区域、避让区域和检测区域。在障碍环境的基础上,建立系统运行的安全域,利用障碍函数法构建障碍函数项,然后设计得到代价函数。根据代价函数,利用贝尔曼最优性条件,得到最优避障控制模型和贝尔曼方程。
可选地,根据障碍环境中各类区域的半径,可以设计一个光滑变化的调度函数,其取值在0到1之间平稳变化,该函数负责调节障碍函数项在代价函数中的作用。
进一步地,利用行为-评价(AC,actor-critic)神经网络构建在线学习控制器。针对最优避障控制模型,利用多层前馈神经网络,构建评价网络和行为网络。前者给出最优代价函数的近似值,后者给出避障控制策略。基于行为-评价结构,计算实时避障控制策略,该控制策略便是学习控制器的输出,具备策略优化功能和避障功能。在得到近似代价函数和避障控制策略后,将其带入贝尔曼方程,计算得到实时贝尔曼误差(即学习误差)。
可选地,强化学习过程中的避障惩罚项可以在上述障碍函数项的基础上进行构建,这种设计可以有效保证神经网络逼近的准确性。
进一步地,基于状态外推实现经验回放和虚拟探索。强化学习的实现中,奖励的有效获取是保证决策效果的重要环节,但是实际避障中让智能体进入障碍区域获取负面奖励是不切实际的,因此采用状态外推生成经验数据点。经验数据点是围绕当前状态点的外推轨迹,根据经验数据点计算外推避障控制策略并进行存储。在外推点对贝尔曼误差进行重新评估,计算外推贝尔曼误差并进行存储。
可选地,产生经验数据点的方式可以采用均匀分布、正态分布等,但是外推的基准必须是当前的状态轨迹点。
进一步地,确定自适应网络更新规则以实现安全学习与自主避障。利用梯度下降自适应法确定评价网络的自适应更新规则。利用梯度投影算子法确定行为网络的自适应更新规则。而后,将策略迭代过程表征为AC网络参数的自适应更新过程,实现安全学习与自主避障。
根据本公开的第二个方面,提供一种应用于无人操作系统的自主避障学习控制装置,主要包括:
检测与定位器,用以给无人系统提供定位信息和探测信息,在相关实施例中,检测与定位器可以是激光雷达、视觉相机等。
微处理器,主要以典型的嵌入式芯片和相关功能电路为主,用于执行神经网络训练和控制计算,可以认为是上述的学习控制器。
存储器,耦合接至微处理器,用以存储系统的运行轨迹信息、保存状态外推产生的学习数据并按期传送给微处理器。
驱动装置,用以给无人系统提供动力,负责执行控制指令。本公开考虑的自主无人系统具备对称的驱动装置,在相关实施例中,驱动装置是微型电机设备,可以外接车轮、旋翼等。
实施例1
本发明实施例公开了一种具备局部探测能力的自主无人系统,基于最优控制和强化学习技术提出了一种自主避障学习控制方法,参见图1,该方法包括以下步骤:
S10:构建避障环境与最优避障控制模型;
其中,自主无人系统是一种典型的智能体系统,在本实施例中,可以将其表示为仿射非线性系统
Figure BDA0003579974590000061
认为智能体是具备局部检测能力的,且障碍物体是圆形区域或球形区域。基于检测半径构建障碍环境,每个障碍物会辐射出相应的障碍区域Oi、避让区域Ai和检测区域
Figure BDA0003579974590000062
在障碍环境的基础上,建立系统运行的安全域S,利用障碍函数法构建障碍函数项,然后设计得到代价函数J(x)。根据代价函数,利用贝尔曼最优性条件,得到最优避障控制模型u*(x)和贝尔曼方程。为了调节障碍函数项在代价函数中的作用,设计一个光滑变化的调度函数s(x),其取值在0到1之间平稳变化。
S20:利用行为-评价(AC)神经网络构建在线学习控制器;
其中,针对最优避障控制模型,利用多层前馈神经网络构建评价网络和行为网络。前者给出最优代价函数的近似值
Figure BDA0003579974590000063
后者给出避障控制策略
Figure BDA0003579974590000064
基于行为-评价结构,计算实时避障控制策略,该控制策略便是学习控制器的输出,具备策略优化功能和避障功能。在得到近似代价函数和避障控制策略后,将其带入贝尔曼方程,计算得到实时贝尔曼误差δ(t)(即学习误差)。
S30:基于状态外推实现经验回放和虚拟探索;
注意到,强化学习的实现中,奖励的有效获取是保证决策效果的重要环节,但是实际避障中让智能体进入障碍区域获取负面奖励是不切实际的,因此采用状态外推生成经验数据点
Figure BDA0003579974590000065
经验数据点是围绕当前状态点的外推轨迹,根据经验数据点计算外推避障控制策略并进行存储。而后,在外推点对贝尔曼误差进行重新评估,计算外推贝尔曼误差并进行存储。
S40:确定自适应网络更新规则以实现安全学习与自主避障;
其中,利用梯度下降自适应法确定评价网络的自适应更新规则。利用梯度投影算子法确定行为网络的自适应更新规则。最后,将策略迭代过程表征为AC网络参数的自适应更新过程,实现安全学习与自主避障。
实施例2
下面结合具体的计算公式,实施例2对实施例1中的方案进行进一步地介绍,详见如下:
首先,通过图1中的步骤S10完成避障控制问题描述与制定。
S10:构建避障环境与最优避障控制模型;
在本实施例中,可以通过图2中的步骤获得最优避障控制模型,步骤S10主要包括:
步骤S101,基于检测半径构建障碍环境。考虑这样的一类无人系统或自主智能体系统,由如下的仿射非线性模型表征:
Figure BDA0003579974590000071
其中是f(x(t))内部动态信息,g(x(t))是控制耦合矩阵,而u(t)是控制输入或控制策略。认为智能体是具备局部检测能力的,其检测半径为Di;同时假设障碍物体是圆形区域或球形区域,围绕每一个障碍物定义三个区域,分别为:障碍区域Oi(半径为ri)、避让区域Ai(半径为Ri)和检测区域
Figure BDA0003579974590000072
(半径为Di)。具体来说,智能体进入检测区域,将发现障碍物并开始采取避障动作;进入避让区域后,智能体会采取较大的规避动作;障碍区域就是危险区,一旦进入意味着任务失败。在此基础上,将所有障碍区域表示为
Figure BDA0003579974590000073
其中h(x)是一个光滑函数,此时系统运行的安全域为S=Ω-O,其中Ω是系统的操作域。
步骤S102,设计包含障碍函数项的代价函数。利用障碍函数法,设计如下的倒数型障碍函数项B(x):
Figure BDA0003579974590000074
其中Kb是一个正增益,s(x)是一个光滑变化的调度函数。可选地,调度函数可以确定如下:
Figure BDA0003579974590000075
上式中,di为智能体与障碍物之间的距离。在一些实施例中,为了刻画智能体的优化需求和避障需求,基于系统状态运行成本、控制能量成本和障碍函数项,可以建立如下的代价函数:
Figure BDA0003579974590000076
步骤S103,建立最优避障控制模型。根据上述代价函数,利用贝尔曼最优性条件,得到最优避障控制策略如下:
Figure BDA0003579974590000077
其中▽J*是最优代价函数J*(x)关于x的偏导数,而最优代价函数则由贝尔曼方程隐性表征:
Figure BDA0003579974590000081
在获得最优避障控制模型后,可以继续通过图1中的步骤S20构建学习控制器,实现对公式(5)和(6)的近似求解。
S20:利用行为-评价神经网络构建在线学习控制器;
在本实施例中,可以通过图3中的步骤构建学习控制器,如图3所示,步骤S20主要包括:
步骤S201,构建行为-评价神经网络结构。在一些实施例中,可以采用三层前馈神经网络来构建AC结构。为了更好地逼近代价函数,首先基于上述的障碍函数项B(x),构造如下所示的避障惩罚项Bo(x):
Figure BDA0003579974590000082
其中α是一个正常数。这个避障惩罚项的意义在于,当智能体接近障碍区域时会变得无穷大,而远离时则会逐渐趋于零,因而具备一定数学解释性。接下来,将输入层到隐层的权值矩阵被设置为单位向量,隐层到输出层的权值设置为
Figure BDA0003579974590000083
代价函数便可近似为:
Figure BDA0003579974590000084
其中
Figure BDA0003579974590000085
是状态跟随的激活函数,c(x)是围绕当前状态的核函数。对于行为网络,采用类似的结构,其权值
Figure BDA0003579974590000086
也用来估计理想的评价权值,以此实现两个网络的互动。
步骤S202,计算实时避障控制策略。在代价函数近似的基础上,依据行为权值
Figure BDA0003579974590000087
避障控制策略可以计算如下:
Figure BDA0003579974590000088
该控制策略便是学习控制器的输出。在学习控制器中,评价网络执行策略评估,给出代价函数的近似值
Figure BDA0003579974590000089
而行为网络执行策略改进,给出实时的避障控制策略
Figure BDA00035799745900000810
步骤S203,计算实时贝尔曼误差。将近似代价函数和控制策略带入步骤S10中的贝尔曼方程(6)中,计算得到实时贝尔曼误差δ(t)如下:
Figure BDA00035799745900000811
在利用AC网络结构获得避障控制策略和贝尔曼误差后,继续通过图1中的步骤S30实现经验回放和虚拟探索。
S30:基于状态外推实现经验回放和虚拟探索;
在本实施例中,可以通过图4中的步骤实现经验回放,如图4所示,步骤S30主要包括:
步骤S301,利用状态外推生成经验数据点。从避障惩罚项的设计可以看出,智能体接近障碍物时会有较大的负面奖励,但是实际避障中让智能体进入障碍区域获取负面奖励是不切实际的,因此采用状态外推生成经验数据点。在本实施例中,让智能体在当前状态的闭包邻域内通过外推的方式生成M个外推轨迹点
Figure BDA0003579974590000091
这种通过状态外推获取经验的方式如图5所示。可以看出,智能体的外推状态可能会碰到障碍物,进而产生较大的负面奖励,从而使得智能体提前做出避障动作,实现安全的虚拟探索。
步骤S302,计算外推避障控制策略并存储。外推轨迹点可以看作是智能体的虚拟经验,在这些经验数据点,计算外推控制策略
Figure BDA0003579974590000092
如下:
Figure BDA0003579974590000093
步骤S303,计算外推贝尔曼误差并存储。基于外推控制策略,在外推点对贝尔曼误差进行重新评估,计算外推贝尔曼误差δk(t)如下:
Figure BDA0003579974590000094
对上述外推数据进行存储,作为经验数据在实时学习中进行利用。然后,就可以继续通过图1中的步骤S40实现安全学习与自主避障。
S40:确定自适应网络更新规则以实现安全学习与自主避障;
在本实施例中,可以通过图6中的步骤实现安全学习,如图6所示,步骤S40主要包括:
步骤S401,确定评价网络的自适应更新规则。在一些实施例中,可以结合实时学习数据和经验数据,构建如下的学习误差总和:
Figure BDA0003579974590000095
为了最小化上述误差总和,利用梯度下降自适应法,确定评价网络的自适应更新规则:
Figure BDA0003579974590000096
其中是kc1,kc2>0评价网络学习率,用以调节实时数据和经验数据在更新规则中的分量。
步骤S402,确定行为网络的自适应更新规则。在一些实施例中,需要将行为权值约束到一定范围内,以防止控制策略的过大输出。因此,利用梯度投影算子法,确定行为网络的自适应更新规则:
Figure BDA0003579974590000097
其中是proj{·}投影算子,ka>0是行为网络学习率,Fa是一个正定的矩阵。
步骤S403,实现安全学习与自主避障。强化学习算法的策略迭代过程主要表现为(14)和(15)的自适应更新过程,利用避障惩罚项保证安全性,进而实现安全学习;智能体利用网络更新规则更新控制策略参数,获得实时避障控制策略,进而实现自主避障。
实施例3
下面结合具体的实验数据、实例对实施例1和2中的方案进行可行性验证,该实施例在一个无人车系统上进行,详见下文描述:
根据步骤S10,布置了六个障碍物,每个障碍物对应区域的参数为r1=0.4,R1=0.6,r2=0.5,R2=0.7,r3=0.45,R3=0.65,r4=0.55,R4=0.75,r5=0.45,R5=0.65,r6=0.5,R6=0.7;无人车系统的车体半径为0.2米,检测半径设置为1米,即Di=1;障碍函数项的增益为Kb=5,调度函数的主要系数配置为l1=1/8,l1=5/8,l1=3/8;代价函数采取配置为Q=I2,R=5I2;最后,无人车的起始点标定为(7,6.5),目标点标定为(0,0)。
根据步骤S20,在本实施例中,行为网络和评价网络的隐层中配置3个节点,激活函数设置为
Figure BDA0003579974590000101
不失一般性地,三个核函数可以选择为
Figure BDA0003579974590000102
此外,避障惩罚项Bo(x)中的参数取为α=1。
根据步骤S30,虚拟外推轨迹采用均匀分布的方式随机产生25个数据点,即M=25。
根据步骤S40,AC网络更新规则中的参数选择为kc1=0.1,kc2=0.75,ka=0.75,Fa=0.01I3
在上述实施的基础上,考虑两种已有的避障控制方法,用以进行对比评估。图7是根据此实施例示出的无人车系统避障过程的安全轨迹对比图,不难发现,无人车可以有效规避六个障碍物并成功抵达目标点。此外,通过与对比方法1和对比方法2的轨迹对比可以发现,本发明公开的方法在保证安全性的同时,还能以更短的路径、更小的震荡、更小的收敛误差抵达目标点。
总的来说,本发明实施例公开的一种应用于无人操作系统的自主避障学习控制方法的有益效果是属实的。
实施例4
下面结合另一实例和具体的实验数据对实施例1和2中的方案进行可行性验证,该实施例在一个无人机系统上进行,详见下文描述:
根据步骤S10,布置了四个障碍物,每个障碍物对应区域参数为r1=0.75,R1=1.05,r2=0.8,R2=1.1,r3=0.75,R3=1.05,r4=0.85,R4=1.15;无人机系统的车体半径为0.3米,检测半径设置为1.4米,即Di=1.4;障碍函数项的增益为Kb=40,类似地,调度函数的主要系数配置为l1=1/8,l1=5/8,l1=3/8;代价函数采取配置为Q=5I3,R=I3;最后,无人机的起始点标定为(9,8,9),目标点标定为(0,0,0)。
根据步骤S20,在本实施例中,行为网络和评价网络的隐层中配置4个节点,激活函数设置为
Figure BDA0003579974590000111
不失一般性地,核函数
Figure BDA0003579974590000112
的外推向量
Figure BDA0003579974590000113
可以选择为
Figure BDA0003579974590000114
Figure BDA0003579974590000115
此外,避障惩罚项Bo(x)中的参数取为α=0.8。
根据步骤S30,虚拟外推轨迹采用均匀分布的方式,在三维空间上随机产生30个数据点,即M=30。
根据步骤S40,AC网络更新规则中的参数选择为kc1=0.1,kc2=0.75,ka=0.75,Fa=0.8I4
图8是根据此实施例示出的无人机系统避障过程的安全轨迹图。可以发现,无人机在障碍环境中可以自主地生成一条安全、光滑的运动轨迹,能够成功避开每个障碍物成功达到目标点;同时,无人机不会深入避让区太多,从而有效保证了安全性。
实施例5
本实施例示出一种应用于无人操作系统的自主避障学习控制装置,参见图9中的装置D90,该装置包括如下组成部分:
检测与定位器D901,用以给无人系统提供定位信息和探测信息,例如检测与定位器可以是激光雷达、视觉相机等。D901主要用于检测与障碍物之间的实时距离di,该距离信号将传送给微处理器,用来计算调度函数s(x)和避障惩罚项Bo(x)。
微处理器D902,主要以典型的嵌入式芯片和相关功能电路为主,用于执行神经网络训练和控制计算,可以认为是上述的学习控制器。其输出的控制信号
Figure BDA0003579974590000116
将施加到驱动装置D903和D904。
驱动装置D903和D904,用以给无人系统提供动力,负责执行控制指令。驱动装置可以选择为微型电机设备,外接车轮、旋翼等。注意,非限制性的,驱动装置可以为多个,但对于本公开的设计,驱动装置的数量应该是偶数。
存储器D905,耦合接至微处理器,用以存储系统的运行轨迹信息x(t)、保存状态外推产生的学习数据xk,
Figure BDA0003579974590000121
δk(t)并按期传送给微处理器。
这里需要指出的是,以上实施例中的装置描述是与实施例中的方法描述相对应的,本发明实施例在此不做赘述。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、原型系统、自主智能移动平台或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例或软硬件结合的实施例的形式。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种应用于无人操作系统的自主避障学习控制方法,其特征在于,所述方法包括以下步骤:
S10、构建避障环境与最优避障控制模型;
S20、利用行为-评价神经网络构建在线学习控制器;
S30、基于状态外推实现经验回放和虚拟探索;
S40、确定自适应网络更新规则以实现安全学习与自主避障。
2.根据权利要求1所述的一种应用于无人操作系统的自主避障学习控制方法,其特征在于,所述步骤S10的构建避障环境与最优避障控制模型过程:
步骤S101,基于检测半径通过下式构建非线性障碍模型
Figure FDA0003579974580000011
其中:是f(x(t))内部动态信息,g(x(t))是控制耦合矩阵,而u(t)是控制输入或控制策略;
步骤S102,按下式建立包含障碍函数项的代价函数
Figure FDA0003579974580000012
其中:Q和R是正定且对称的常值矩阵,B(x)是障碍函数项;
步骤S103,根据上述代价函数,利用贝尔曼最优性条件得到最优避障控制模型:
Figure FDA0003579974580000013
其中:
Figure FDA0003579974580000014
是最优代价函数J*(x)关于x的偏导数。
3.根据权利要求1所述的一种应用于无人操作系统的自主避障学习控制方法,其特征在于,所述步骤S20中利用行为-评价神经网络构建在线学习控制器过程:
所述行为-评价神经网络前者给出最优代价函数的近似值
Figure FDA0003579974580000015
后者给出避障控制策略
Figure FDA0003579974580000016
计算实时避障控制策略,该控制策略便是学习控制器的输出,具备策略优化功能和避障功能;在得到近似代价函数和避障控制策略后,将其带入贝尔曼方程,计算得到实时贝尔曼误差δ(t);其中:
步骤S201,根据最优避障控制模型结合多层前馈神经网络构建行为-评价神经网络模块;
步骤S202,按照下式计算实时避障控制策略;
Figure FDA0003579974580000017
其中:
Figure FDA0003579974580000018
是状态跟随的激活函数
Figure FDA0003579974580000019
的偏导数,c(x)是围绕当前状态的核函数,
Figure FDA00035799745800000110
是行为网络权值,
Figure FDA00035799745800000111
是避障惩罚项Bo(x)的偏导数;
步骤S203,按照下式计算实时贝尔曼误差δ(t);
Figure FDA0003579974580000021
其中:
Figure FDA0003579974580000022
是评价网络权值。
4.根据权利要求1所述的一种应用于无人操作系统的自主避障学习控制方法,其特征在于,所述S30步骤基于状态外推实现经验回放和虚拟探索过程:
步骤S301,利用状态外推生成经验数据点
Figure FDA0003579974580000023
步骤S302,按照下式计算外推避障控制策略并存储;
Figure FDA0003579974580000024
其中:xk是上述的经验数据点,即外推产生的虚拟状态。
步骤S303,按照下式计算外推贝尔曼误差并存储;
Figure FDA0003579974580000025
其中:经验数据点是围绕当前状态点的外推轨迹,根据经验数据点计算外推避障控制策略并进行存储;在外推点对贝尔曼误差进行重新评估,计算外推贝尔曼误差并进行存储。
5.根据权利要求1所述的一种应用于无人操作系统的自主避障学习控制方法,其特征在于,所述S40步骤确定自适应网络更新规则以实现安全学习与自主避障过程;
步骤S401,按照下式确定评价网络的自适应更新规则;
Figure FDA0003579974580000026
步骤S402,按下式利用梯度下降自适应法确定评价网络的自适应更新规则;
Figure FDA0003579974580000027
其中:是kc1,kc2>0评价网络学习率,用以调节实时数据和经验数据在更新规则中的分量;
步骤S403,按照下式通过梯度投影算子法确定行为网络的自适应更新规则;
Figure FDA0003579974580000028
其中是proj{·}投影算子,ka>0是行为网络学习率,Fa是一个正定的矩阵;
步骤S404,通过策略迭代过程实现安全学习与自主避障。
6.一种带有无人操作系统的自主避障学习控制方法的装置,其特征在于,所述装置包括:
--检测与定位器,用以给无人系统提供定位信息和探测信息;
--微处理器,主要以典型的嵌入式芯片和相关功能电路为主,用于执行权利要求1-4所述无人操作系统的自主避障学习控制方法的神经网络训练和控制计算;
--存储器,耦合接至微处理器,用以存储系统的运行轨迹信息、保存状态外推产生的学习数据并按期传送给微处理器;
--驱动装置,用以给无人系统提供动力,负责执行控制指令。
CN202210342793.XA 2022-04-02 2022-04-02 一种应用于无人操作系统的自主避障学习控制方法及装置 Pending CN114610040A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210342793.XA CN114610040A (zh) 2022-04-02 2022-04-02 一种应用于无人操作系统的自主避障学习控制方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210342793.XA CN114610040A (zh) 2022-04-02 2022-04-02 一种应用于无人操作系统的自主避障学习控制方法及装置

Publications (1)

Publication Number Publication Date
CN114610040A true CN114610040A (zh) 2022-06-10

Family

ID=81866547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210342793.XA Pending CN114610040A (zh) 2022-04-02 2022-04-02 一种应用于无人操作系统的自主避障学习控制方法及装置

Country Status (1)

Country Link
CN (1) CN114610040A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017153896A1 (fr) * 2016-03-07 2017-09-14 Effidence Robot autonome motorisé avec anticipation d'obstacle
CN110632931A (zh) * 2019-10-09 2019-12-31 哈尔滨工程大学 动态环境下基于深度强化学习的移动机器人避碰规划方法
CN113534669A (zh) * 2021-09-17 2021-10-22 中国人民解放军国防科技大学 基于数据驱动的无人车控制方法、装置和计算机设备
CN113759900A (zh) * 2021-08-12 2021-12-07 中南大学 基于障碍区域预测的巡检机器人轨迹规划与实时避障方法及系统
CN113759724A (zh) * 2021-09-17 2021-12-07 中国人民解放军国防科技大学 基于数据驱动的机器人控制方法、装置和计算机设备
CN113805483A (zh) * 2021-09-17 2021-12-17 中国人民解放军国防科技大学 基于模型预测的机器人控制方法、装置和计算机设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017153896A1 (fr) * 2016-03-07 2017-09-14 Effidence Robot autonome motorisé avec anticipation d'obstacle
CN110632931A (zh) * 2019-10-09 2019-12-31 哈尔滨工程大学 动态环境下基于深度强化学习的移动机器人避碰规划方法
CN113759900A (zh) * 2021-08-12 2021-12-07 中南大学 基于障碍区域预测的巡检机器人轨迹规划与实时避障方法及系统
CN113534669A (zh) * 2021-09-17 2021-10-22 中国人民解放军国防科技大学 基于数据驱动的无人车控制方法、装置和计算机设备
CN113759724A (zh) * 2021-09-17 2021-12-07 中国人民解放军国防科技大学 基于数据驱动的机器人控制方法、装置和计算机设备
CN113805483A (zh) * 2021-09-17 2021-12-17 中国人民解放军国防科技大学 基于模型预测的机器人控制方法、装置和计算机设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHAOSXU MU, ETAL.: "Safe Adaptive Dynamic Programming for Multiplayers Systems With Static and Moving No-entry Regions", IEEE TRANSACTION ON ARTIFICIAL INTELLIGENCE, 3 November 2023 (2023-11-03), pages 1 - 12 *
KE WANG, EI AL.: "Safe Reinforcement Learning and Adaptive Optimal Control With Applications to Obstacle Avoidance Problem", IEEE TRANSACTIONS ON AUTOMATION SCIENCE AND ENGINEERING, 30 September 2023 (2023-09-30), pages 1 - 14 *
PATRYK DEPTULA, ETAL.: "Approximate Optimal Motion Planning to Avoid Unknown Moving Avoidance Regions", IEEE TRANSACTION ON ROBOTICS, vol. 36, no. 2, 30 April 2020 (2020-04-30), pages 414 - 430, XP011781871, DOI: 10.1109/TRO.2019.2955321 *
王珂 等: "基于安全自适应强化学习的自主避障控制方法", 中国科学:信息科学, vol. 52, no. 9, 16 September 2022 (2022-09-16), pages 1672 - 1686 *

Similar Documents

Publication Publication Date Title
Chai et al. Design and experimental validation of deep reinforcement learning-based fast trajectory planning and control for mobile robot in unknown environment
Li et al. An adaptive SOM neural network method for distributed formation control of a group of AUVs
Rigatos Modelling and control for intelligent industrial systems
Zhao et al. A path planning method based on multi-objective cauchy mutation cat swarm optimization algorithm for navigation system of intelligent patrol car
Plaku Region-guided and sampling-based tree search for motion planning with dynamics
Al-Dabooni et al. An improved n-step value gradient learning adaptive dynamic programming algorithm for online learning
Nguyen et al. Formation control scheme with reinforcement learning strategy for a group of multiple surface vehicles
Ranjbarsahraei et al. Adaptive fuzzy formation control for a swarm of nonholonomic differentially driven vehicles: An H∞-based robust control design
Arab et al. Optimal control of wheeled mobile robots: From simulation to real world
Convens et al. Invariant set distributed explicit reference governors for provably safe on-board control of nano-quadrotor swarms
Das Sharma et al. Harmony search-based hybrid stable adaptive fuzzy tracking controllers for vision-based mobile robot navigation
Park et al. Formation reconfiguration control with collision avoidance of nonholonomic mobile robots
CN113485323A (zh) 一种级联多移动机器人灵活编队方法
Hurni et al. A pseudospectral optimal motion planner for autonomous unmanned vehicles
Romano et al. Quadrotor formation flying resilient to abrupt vehicle failures via a fluid flow navigation function
Tsai et al. Adaptive RFWCMAC cooperative formation control for multiple ballbots incorporated with coupling dynamics
CN114610040A (zh) 一种应用于无人操作系统的自主避障学习控制方法及装置
CN116009542A (zh) 动态多智能体覆盖路径规划方法、装置、设备及存储介质
Monje et al. UAVs formation approach using fast marching square methods
Oshin et al. Differentiable robust model predictive control
CN115933630A (zh) 一种基于强化学习的复合避障控制方法及装置
Li et al. Model predictive control for constrained robot manipulator visual servoing tuned by reinforcement learning
Jardine A reinforcement learning approach to predictive control design: autonomous vehicle applications
Truong et al. An efficient navigation framework for autonomous mobile robots in dynamic environments using learning algorithms
Brahimi et al. Intelligent mobile robot navigation using a neuro-fuzzy approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination