CN113805587A - 多无人车分布式编队控制方法、装置和设备 - Google Patents

多无人车分布式编队控制方法、装置和设备 Download PDF

Info

Publication number
CN113805587A
CN113805587A CN202111090082.XA CN202111090082A CN113805587A CN 113805587 A CN113805587 A CN 113805587A CN 202111090082 A CN202111090082 A CN 202111090082A CN 113805587 A CN113805587 A CN 113805587A
Authority
CN
China
Prior art keywords
unmanned vehicle
local
value
function
formation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111090082.XA
Other languages
English (en)
Other versions
CN113805587B (zh
Inventor
张兴龙
徐昕
谢海斌
方强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202111090082.XA priority Critical patent/CN113805587B/zh
Publication of CN113805587A publication Critical patent/CN113805587A/zh
Application granted granted Critical
Publication of CN113805587B publication Critical patent/CN113805587B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0287Control of position or course in two dimensions specially adapted to land vehicles involving a plurality of land vehicles, e.g. fleet or convoy travelling
    • G05D1/0291Fleet control
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Feedback Control In General (AREA)

Abstract

本申请涉及一种多无人车分布式编队控制方法、装置、计算机设备和存储介质。方法包括:针对运动学模型非线性、非凸约束、离散时间相互耦合的子系统组成的多无人车系统,在预测时域内以最小化全局性能指标函数为优化目标,以预测时域内的控制序列为待求解的变量,构建无人车的分布式模型预测控制最优化模型,通过分布式求解的方式求解上述模型预测控制问题,包括针对每个本地无人车构建一个本地控制策略逼近网络和一个本地值函数网络分别用于学习近似最优的控制策略和学习近似最优的性能指标函数,用于评价本地策略的好坏,得到预测时域内的控制策略后,由控制策略生成当前时刻的控制量作为无人车当前的控制量。

Description

多无人车分布式编队控制方法、装置和设备
技术领域
本申请涉及无人车控制领域,特别是涉及一种多无人车分布式编队控制方法、装置、计算机设备和存储介质。
背景技术
随着无人车技术的发展,无人车在服务和工业等领域有了越来越多的应用。多无人车的协同作业,例如编队运输等具有重要的应用前景。多无人车编队控制除了编队要求外,还应满足避障约束条件。目前一种可行的方法是利用分布式模型预测控制方法解决上述约束受限的分布式优化问题,但基于数值优化的计算方式还面临在线计算量大,很难实现高频率实时部署,以及无法大规模扩展的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够实现快速优化部署的多无人车分布式编队控制方法、装置、计算机设备和存储介质。
一种多无人车分布式编队控制方法,所述方法包括:
获取M个无人车组成的多无人车编队的队形信息,根据所述队形信息得到多无人车编队中每个无人车的编队误差信息;
获取无人车控制的状态避障约束信息,根据所述约束信息得到势场函数,根据本地无人车和邻居无人车的编队误差信息、本地无人车的控制量以及所述势场函数构建预测控制性能指标函数,根据所述本地性能指标函数构建全局性能指标函数;
在预测时域内以最小化所述全局性能指标函数为优化目标,以预测时域内的控制序列为待求解的变量,构建无人车的分布式模型预测控制最优化模型;其中,在每个预测时域[k,k+N-1]内,把所述模型预测控制最优化模型分解成N个子优化模型,每个子优化模型构成M个本地子问题通过分布式并行的方式进行求解;
对于每个本地无人车i=1,…,M,根据本地无人车和邻居无人车的编队误差信息和本地无人车的所述势场函数构建每个本地无人车的本地值函数网络;所述本地值函数网络包括值函数权值矩阵;
对于每个本地无人车i=1,…,M,根据本地无人车和邻居无人车的编队误差信息和本地无人车的所述势场函数构建每个本地无人车的本地控制策略逼近网络;所述本地控制策略逼近网络包括控制策略权值矩阵;
对于每个本地无人车i=1,…,M,在每个预测时刻τ∈[k,k+N-1],根据所述本地值函数网络的值和预设的值函数的期望值,得到第一逼近误差,通过最小化所述第一逼近误差对应的逼近目标,得到所述本地值函数权值矩阵的值函数权值更新律;其中,在预测时域[k,k+N-1]的任意预测时刻τ,所述值函数的期望值中包括τ+Lτ+1时刻由本地无人车和邻居无人车状态计算得到的本地值函数网络的值;
对于每个本地无人车i=1,…,M,在每个预测时刻τ∈[k,k+N-1],根据本地控制策略逼近网络的值和预设的控制量的期望值,得到第二逼近误差,通过最小化所述第二逼近误差的欧几里得范数,得到所述控制策略权值矩阵的控制策略权值更新律;其中,在预测时域[k,k+N-1]的任意预测时刻τ,所述控制量的期望值中包括τ+1时刻由本地无人车和邻居无人车状态计算得到的预测控制性能指标函数的值;
对于每个本地无人车i=1,…,M,在多无人车编队控制的任意k时刻,根据k+N-1预测时刻的所述值函数权值更新律和所述控制策略权值更新律、k时刻的本地无人车和邻居无人车的编队误差信息以及所述本地控制策略逼近网络得到无人车在任意k时刻的控制量。
在其中一个实施例中,还包括:获取M个无人车组成的多无人车编队的队形信息,根据所述队形信息得到多无人车编队中第i个无人车的本地编队误差信息为:
Figure BDA0003267069070000031
其中,aij表示第i个和第j个无人车的连接状态,aij=1表示第i个无人车能够接收到第j个无人车的状态信息,gi是连接增益,当gi=1时表示第i个无人车能够接收到预设的领导车的状态信号,Δhji和Δhri是矫正量,由具体的编队队形决定,矩阵Ti为:
Figure BDA0003267069070000032
qi表示第i个无人车的状态,其运动学演化模型为:
Figure BDA0003267069070000033
其中,(xi,yi)为第i个无人车在笛卡尔坐标系下的位置坐标,θi和υi为车辆的横摆角和线速度,wi和ai为线加速度和横摆角,也是无人车的控制量;
根据所述本地编队误差信息和所述无人车运动学模型信息得到所述多无人车编队的本地无人车耦合模型为:
Figure BDA0003267069070000034
其中
Figure BDA0003267069070000035
代表所有邻居无人车的集合,
Figure BDA0003267069070000036
是第i个无人车的状态和控制变量,k是离散时间指针,
Figure BDA0003267069070000037
Figure BDA0003267069070000038
是状态和控制映射函数,
Figure BDA0003267069070000039
在其中一个实施例中,还包括:获取无人车控制的状态避障约束信息,根据所述约束信息得到势场函数
Figure BDA0003267069070000041
所述势场函数是一个关于变量
Figure BDA0003267069070000042
的连续函数,其中,
Figure BDA0003267069070000043
为本地无人车的约束集合;当
Figure BDA00032670690700000412
时所述
Figure BDA0003267069070000044
的值趋近于0,当zi趋近于
Figure BDA0003267069070000045
的边界时其值逐渐趋近于无穷;
根据本地无人车和邻居无人车的编队误差信息和本地无人车的势场函数构建预测控制性能指标函数为:
Figure BDA0003267069070000046
其中,
Figure BDA0003267069070000047
为代价函数,
Figure BDA0003267069070000048
为终端代价函数,Pi=Qi,e=(e1,…,eM),
Figure BDA0003267069070000049
是与第i个无人车相邻的邻居无人车的本地编队误差组成的向量,μ>0是可调参数;
根据所述本地性能指标函数,构建所有无人车的全局性能指标函数为:
Figure BDA00032670690700000410
在其中一个实施例中,还包括:在预测时域内以最小化所述全局性能指标函数为优化目标,以预测时域内的控制序列为待求解的变量,构建无人车的分布式模型预测控制最优化模型为:
min J(e(k))
u1(k),…,uM(k)
Figure BDA00032670690700000411
在每个预测时域[k,k+N-1]内,把所述本地无人车的模型预测控制最优化模型分解成N个子优化模型进行求解;对于每个本地无人车i,在任意τ∈[k,k+N-1]构建模型预测控制最优化子模型为:
Figure BDA0003267069070000051
ui(τ)
其中,
Figure BDA0003267069070000052
在其中一个实施例中,还包括:对于每个无人车i=1,…,M,根据本地无人车和邻居无人车的编队误差信息和本地无人车的所述势场函数构建每个本地无人车的本地值函数网络为:
Figure BDA0003267069070000053
其中,
Figure BDA0003267069070000054
Figure BDA0003267069070000055
是值函数权值矩阵,
Figure BDA0003267069070000056
是基函数向量。
在其中一个实施例中,还包括:对于每个无人车i=1,…,M,根据本地无人车和邻居无人车的编队误差信息和本地无人车的所述势场函数构建每个本地无人车的本地控制策略逼近网络为:
Figure BDA0003267069070000057
其中
Figure BDA0003267069070000058
Figure BDA0003267069070000059
是控制策略权值矩阵,
Figure BDA00032670690700000510
是基函数向量。
在其中一个实施例中,还包括:在每个预测时刻τ∈[k,k+N-1],定义值函数的期望值为:
Figure BDA00032670690700000511
根据所述本地值函数网络的值和所述值函数的期望值,得到第一逼近误差,通过最小化所述第一逼近误差对应的逼近目标δc,i(τ)=qc,1c,i(τ)2+qc,2c,i(k+N)2,得到所述本地值函数权值矩阵的值函数权值更新律为:
Figure BDA0003267069070000061
其中,γc,i是更新律。
在其中一个实施例中,还包括:在每个预测时刻τ∈[k,k+N-1],定义控制量的期望值为:
Figure BDA0003267069070000062
根据本地控制策略逼近网络的值和所述控制量的期望值,得到第二逼近误差
Figure BDA0003267069070000063
通过最小化所述第二逼近误差的欧几里得范数δa,i(τ)=||∈a,i(τ)||2,得到所述控制策略权值矩阵的控制策略权值更新律为:
Figure BDA0003267069070000064
Figure BDA0003267069070000065
其中,γa,i是更新律。
一种多无人车分布式编队控制装置,所述装置包括:
本地无人车耦合模型构建模块,用于获取M个无人车组成的多无人车编队的队形信息,根据所述队形信息得到多无人车编队中每个无人车的编队误差信息;
预测控制性能指标函数构建模块,用于获取无人车控制的状态避障约束信息,根据所述约束信息得到势场函数,根据本地无人车和邻居无人车的编队误差信息、本地无人车的控制量以及所述势场函数构建预测控制性能指标函数,根据所述本地性能指标函数构建全局性能指标函数;
模型预测控制最优化模型构建模块,用于在预测时域内以最小化所述全局性能指标函数为优化目标,以预测时域内的控制序列为待求解的变量,构建无人车的分布式模型预测控制最优化模型;其中,在每个预测时域[k,k+N-1]内,把所述模型预测控制最优化模型分解成N个子优化模型,每个子优化模型构成M个本地子问题通过分布式并行的方式进行求解;
本地值函数网络构建模块,用于对于每个本地无人车i=1,…,M,根据本地无人车和邻居无人车的编队误差信息和本地无人车的所述势场函数构建每个本地无人车的本地值函数网络;所述本地值函数网络包括值函数权值矩阵;
本地控制策略逼近网络构建模块,用于对于每个本地无人车i=1,…,M,根据本地无人车和邻居无人车的编队误差信息和本地无人车的所述势场函数构建每个本地无人车的本地控制策略逼近网络;所述本地控制策略逼近网络包括控制策略权值矩阵;
值函数权值更新律确定模块,用于对于每个本地无人车i=1,…,M,在每个预测时刻τ∈[k,k+N-1],根据所述本地值函数网络的值和预设的值函数的期望值,得到第一逼近误差,通过最小化所述第一逼近误差对应的逼近目标,得到所述本地值函数权值矩阵的值函数权值更新律;在预测时域[k,k+N-1]的任意预测时刻τ,所述值函数的期望值中包括τ+Lτ+1时刻由本地无人车和邻居无人车状态计算得到的本地值函数网络的值;
控制策略权值更新律确定模块,用于对于每个本地无人车i=1,…,M,在每个预测时刻τ∈[k,k+N-1],根据本地控制策略逼近网络的值和预设的控制量的期望值,得到第二逼近误差,通过最小化所述第二逼近误差的欧几里得范数,得到所述控制策略权值矩阵的控制策略权值更新律;在预测时域[k,k+N-1]的任意预测时刻τ,所述控制量的期望值中包括τ+1时刻由本地无人车和邻居无人车状态计算得到的预测控制性能指标函数的值;
控制模块,用于对于每个本地无人车i=1,…,M,在多无人车编队控制的任意k时刻,根据k+N-1预测时刻的所述值函数权值更新律和所述控制策略权值更新律、k时刻的本地无人车和邻居无人车的编队误差信息以及所述本地控制策略逼近网络得到无人车在任意k时刻的控制量。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取M个无人车组成的多无人车编队的队形信息,根据所述队形信息得到多无人车编队中每个无人车的编队误差信息;
获取无人车控制的状态避障约束信息,根据所述约束信息得到势场函数,根据本地无人车和邻居无人车的编队误差信息、本地无人车的控制量以及所述势场函数构建预测控制性能指标函数,根据所述本地性能指标函数构建全局性能指标函数;
在预测时域内以最小化所述全局性能指标函数为优化目标,以预测时域内的控制序列为待求解的变量,构建无人车的分布式模型预测控制最优化模型;其中,在每个预测时域[k,k+N-1]内,把所述模型预测控制最优化模型分解成N个子优化模型,每个子优化模型构成M个本地子问题通过分布式并行的方式进行求解;
对于每个本地无人车i=1,…,M,根据本地无人车和邻居无人车的编队误差信息和本地无人车的所述势场函数构建每个本地无人车的本地值函数网络;所述本地值函数网络包括值函数权值矩阵;
对于每个本地无人车i=1,…,M,根据本地无人车和邻居无人车的编队误差信息和本地无人车的所述势场函数构建每个本地无人车的本地控制策略逼近网络;所述本地控制策略逼近网络包括控制策略权值矩阵;
对于每个本地无人车i=1,…,M,在每个预测时刻τ∈[k,k+N-1],根据所述本地值函数网络的值和预设的值函数的期望值,得到第一逼近误差,通过最小化所述第一逼近误差对应的逼近目标,得到所述本地值函数权值矩阵的值函数权值更新律;其中,在预测时域[k,k+N-1]的任意预测时刻τ,所述值函数的期望值中包括τ+Lτ+1时刻由本地无人车和邻居无人车状态计算得到的本地值函数网络的值;
对于每个本地无人车i=1,…,M,在每个预测时刻τ∈[k,k+N-1],根据本地控制策略逼近网络的值和预设的控制量的期望值,得到第二逼近误差,通过最小化所述第二逼近误差的欧几里得范数,得到所述控制策略权值矩阵的控制策略权值更新律;其中,在预测时域[k,k+N-1]的任意预测时刻τ,所述控制量的期望值中包括τ+1时刻由本地无人车和邻居无人车状态计算得到的预测控制性能指标函数的值;
对于每个本地无人车i=1,…,M,在多无人车编队控制的任意k时刻,根据k+N-1预测时刻的所述值函数权值更新律和所述控制策略权值更新律、k时刻的本地无人车和邻居无人车的编队误差信息以及所述本地控制策略逼近网络得到无人车在任意k时刻的控制量。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取M个无人车组成的多无人车编队的队形信息,根据所述队形信息得到多无人车编队中每个无人车的编队误差信息;
获取无人车控制的状态避障约束信息,根据所述约束信息得到势场函数,根据本地无人车和邻居无人车的编队误差信息、本地无人车的控制量以及所述势场函数构建预测控制性能指标函数,根据所述本地性能指标函数构建全局性能指标函数;
在预测时域内以最小化所述全局性能指标函数为优化目标,以预测时域内的控制序列为待求解的变量,构建无人车的分布式模型预测控制最优化模型;其中,在每个预测时域[k,k+N-1]内,把所述模型预测控制最优化模型分解成N个子优化模型,每个子优化模型构成M个本地子问题通过分布式并行的方式进行求解;
对于每个本地无人车i=1,…,M,根据本地无人车和邻居无人车的编队误差信息和本地无人车的所述势场函数构建每个本地无人车的本地值函数网络;所述本地值函数网络包括值函数权值矩阵;
对于每个本地无人车i=1,…,M,根据本地无人车和邻居无人车的编队误差信息和本地无人车的所述势场函数构建每个本地无人车的本地控制策略逼近网络;所述本地控制策略逼近网络包括控制策略权值矩阵;
对于每个本地无人车i=1,…,M,在每个预测时刻τ∈[k,k+N-1],根据所述本地值函数网络的值和预设的值函数的期望值,得到第一逼近误差,通过最小化所述第一逼近误差对应的逼近目标,得到所述本地值函数权值矩阵的值函数权值更新律;其中,在预测时域[k,k+N-1]的任意预测时刻τ,所述值函数的期望值中包括τ+Lτ+1时刻由本地无人车和邻居无人车状态计算得到的本地值函数网络的值;
对于每个本地无人车i=1,…,M,在每个预测时刻τ∈[k,k+N-1],根据本地控制策略逼近网络的值和预设的控制量的期望值,得到第二逼近误差,通过最小化所述第二逼近误差的欧几里得范数,得到所述控制策略权值矩阵的控制策略权值更新律;其中,在预测时域[k,k+N-1]的任意预测时刻τ,所述控制量的期望值中包括τ+1时刻由本地无人车和邻居无人车状态计算得到的预测控制性能指标函数的值;
对于每个本地无人车i=1,…,M,在多无人车编队控制的任意k时刻,根据k+N-1预测时刻的所述值函数权值更新律和所述控制策略权值更新律、k时刻的本地无人车和邻居无人车的编队误差信息以及所述本地控制策略逼近网络得到无人车在任意k时刻的控制量。
上述多无人车分布式编队控制方法、装置、计算机设备和存储介质,通过根据多无人车编队的队形信息构建本地无人车耦合模型,在预测时域内以最小化全局性能指标函数为优化目标,以预测时域内的控制序列为待求解的变量,构建无人车的分布式模型预测控制最优化模型,其中,在每个预测时域[k,k+N-1]内,把模型预测控制最优化模型分解成N个子优化模型,每个子优化模型构成M个本地子问题通过分布式并行的方式进行求解;定义一种分布式策略优化求解器用于通过分布式求解的方式求解上述模型预测控制问题,包括针对每个本地无人车构建一个本地控制策略逼近网络和一个本地值函数网络分别用于学习近似最优的控制策略和学习近似最优的性能指标函数,用于评价本地策略的好坏,得到预测时域内的控制策略后,由控制策略生成当前时刻的控制量作为无人车当前的控制量。本发明针对运动学模型非线性、非凸约束、离散时间相互耦合的子系统组成的多无人车系统,提出一种基于势场函数、安全相关的强学习方法,通过分布式求解的方式对多无人车编队的控制问题进行求解。
附图说明
图1为一个实施例中多无人车分布式编队控制方法的流程示意图;
图2为一个实施例中多无人车分布式编队控制装置的结构框图;
图3为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种多无人车分布式编队控制方法,包括以下步骤:
步骤102,获取M个无人车组成的多无人车编队的队形信息,根据队形信息得到多无人车编队中每个无人车的编队误差信息。
步骤104,获取无人车控制的状态避障约束信息,根据约束信息得到势场函数,根据本地无人车和邻居无人车的编队误差信息、本地无人车的控制量以及势场函数构建预测控制性能指标函数,根据本地性能指标函数构建全局性能指标函数。
步骤106,在预测时域内以最小化全局性能指标函数为优化目标,以预测时域内的控制序列为待求解的变量,构建无人车的分布式模型预测控制最优化模型。
其中,在每个预测时域[k,k+N-1]内,把模型预测控制最优化模型分解成N个子优化模型,每个子优化模型构成M个本地子问题通过分布式并行的方式进行求解。也就是在任意预测时刻τ∈[k,k+N-1],并行求解M个本地子问题,构成一个子优化模型,在预测时域[k,k+N-1]内,共求解N个子优化模型。
步骤108,对于每个本地无人车i=1,…,M,根据本地无人车和邻居无人车的编队误差信息和本地无人车的势场函数构建每个本地无人车的本地值函数网络。
本地值函数网络包括值函数权值矩阵。
步骤110,对于每个本地无人车i=1,…,M,根据本地无人车和邻居无人车的编队误差信息和本地无人车的势场函数构建每个本地无人车的本地控制策略逼近网络。
本地控制策略逼近网络包括控制策略权值矩阵。
步骤112,对于每个本地无人车i=1,…,M,在每个预测时刻τ∈[k,k+N-1],根据本地值函数网络的值和预设的值函数的期望值,得到第一逼近误差,通过最小化第一逼近误差对应的逼近目标,得到本地值函数权值矩阵的值函数权值更新律。
其中,在预测时域[k,k+N-1]的任意预测时刻τ,值函数的期望值中包括τ+Lτ+1时刻由本地无人车和邻居无人车状态计算得到的本地值函数网络的值。
步骤114,对于每个本地无人车i=1,…,M,在每个预测时刻τ∈[k,k+N-1],根据本地控制策略逼近网络的值和预设的控制量的期望值,得到第二逼近误差,通过最小化第二逼近误差的欧几里得范数,得到控制策略权值矩阵的控制策略权值更新律。
其中,在预测时域[k,k+N-1]的任意预测时刻τ,控制量的期望值中包括τ+1时刻由本地无人车和邻居无人车状态计算得到的预测控制性能指标函数的值。
步骤116,对于每个本地无人车i=1,…,M,在多无人车编队控制的任意k时刻,根据k+N-1预测时刻的值函数权值更新律和控制策略权值更新律、k时刻的本地无人车和邻居无人车的编队误差信息以及本地控制策略逼近网络得到无人车在任意k时刻的控制量。
上述多无人车分布式编队控制方法中,通过根据多无人车编队的队形信息构建本地无人车耦合模型,在预测时域内以最小化全局性能指标函数为优化目标,以预测时域内的控制序列为待求解的变量,构建无人车的分布式模型预测控制最优化模型,其中,在每个预测时域[k,k+N-1]内,把模型预测控制最优化模型分解成N个子优化模型,每个子优化模型构成M个本地子问题通过分布式并行的方式进行求解;定义一种分布式策略优化求解器用于通过分布式求解的方式求解上述模型预测控制问题,包括针对每个本地无人车构建一个本地控制策略逼近网络和一个本地值函数网络分别用于学习近似最优的控制策略和学习近似最优的性能指标函数,用于评价本地策略的好坏,得到预测时域内的控制策略后,由控制策略生成当前时刻的控制量作为无人车当前的控制量。本发明针对运动学模型非线性、非凸约束、离散时间相互耦合的子系统组成的多无人车系统,提出一种基于势场函数、安全相关的强学习方法,通过分布式求解的方式对多无人车编队的控制问题进行求解。
在下一个预测时域,重复分布式求解模型预测控制最优化模型。
在其中一个实施例中,还包括:获取M个无人车组成的多无人车编队的队形信息,根据队形信息得到多无人车编队中第i个无人车的本地编队误差信息为:
Figure BDA0003267069070000131
其中,aij表示第i个和第j个无人车的连接状态,aij=1表示第i个无人车能够接收到第j个无人车的状态信息,gi是连接增益,当gi=1时表示第i个无人车能够接收到预设的领导车的状态信号,Δhji和Δhri是矫正量,由具体的编队队形决定,矩阵Ti为:
Figure BDA0003267069070000132
qi表示第i个无人车的状态,其运动学演化模型为:
Figure BDA0003267069070000141
其中,(xi,yi)为第i个无人车在笛卡尔坐标系下的位置坐标,θi和υi为车辆的横摆角和线速度,wi和ai为线加速度和横摆角也是无人车的控制量;
根据本地编队误差信息和无人车运动学模型信息得到多无人车编队的本地无人车耦合模型为:
Figure BDA00032670690700001415
其中
Figure BDA0003267069070000142
代表所有邻居无人车的集合,
Figure BDA0003267069070000143
是第i个无人车的状态和控制变量,k是离散时间指针,
Figure BDA0003267069070000144
Figure BDA0003267069070000145
是状态和控制映射函数,
Figure BDA0003267069070000146
在其中一个实施例中,还包括:获取无人车控制的状态避障约束信息,根据约束信息得到势场函数
Figure BDA0003267069070000147
势场函数是一个关于变量
Figure BDA0003267069070000148
的连续函数,其中,
Figure BDA0003267069070000149
为本地无人车的约束集合;当
Figure BDA00032670690700001410
Figure BDA00032670690700001411
的值趋近于0,当zi趋近于
Figure BDA00032670690700001412
的边界时其值逐渐趋近于无穷;
根据本地无人车和邻居无人车的编队误差信息和本地无人车的势场函数构建预测控制性能指标函数为:
Figure BDA00032670690700001413
其中,
Figure BDA00032670690700001414
为代价函数,
Figure BDA0003267069070000151
为终端代价函数,Pi=Qi,e=(e1,…,eM),
Figure BDA0003267069070000152
是与第i个无人车相邻的邻居无人车的本地编队误差组成的向量,μ>0是可调参数;
根据本地性能指标函数,构建所有无人车的全局性能指标函数为:
Figure BDA0003267069070000153
在其中一个实施例中,还包括:在预测时域内以最小化全局性能指标函数为优化目标,以预测时域内的控制序列为待求解的变量,构建无人车的分布式模型预测控制最优化模型为:
min J(e(k))
u1(k),…,uM(k)
Figure BDA0003267069070000154
在每个预测时域[k,k+N-1]内,把模型预测控制最优化模型分解成N个子优化模型,每个子优化模型构成M个本地子问题通过分布式并行的方式进行求解对于本地无人车i,在任意τ∈[k,k+N-1]构建模型预测控制最优化子模型为:
Figure BDA0003267069070000155
ui(τ)
其中,
Figure BDA0003267069070000156
在其中一个实施例中,还包括:对于每个无人车i=1,…,M,根据本地无人车和邻居无人车的编队误差信息和本地无人车的势场函数构建每个本地无人车的本地值函数网络为:
Figure BDA0003267069070000161
其中,
Figure BDA0003267069070000162
Figure BDA0003267069070000163
是值函数权值矩阵,
Figure BDA0003267069070000164
是基函数向量。
在其中一个实施例中,还包括:对于每个无人车i=1,…,M,根据本地无人车和邻居无人车的编队误差信息和本地无人车的势场函数构建每个本地无人车的本地控制策略逼近网络为:
Figure BDA0003267069070000165
其中
Figure BDA0003267069070000166
Figure BDA0003267069070000167
是控制策略权值矩阵,
Figure BDA0003267069070000168
是基函数向量。
在其中一个实施例中,还包括:在每个预测时刻τ∈[k,k+N-1],定义值函数的期望值为:
Figure BDA0003267069070000169
根据本地值函数网络的值和值函数的期望值,得到第一逼近误差,通过最小化第一逼近误差对应的逼近目标δc,i(τ)=qc,1c,i(τ)2+qc,2c,i(k+N)2,得到本地值函数权值矩阵的值函数权值更新律为:
Figure BDA00032670690700001610
其中,γc,i是更新律。
在其中一个实施例中,还包括:在每个预测时刻τ∈[k,k+N-1],定义控制量的期望值为:
Figure BDA0003267069070000171
根据本地控制策略逼近网络的值和控制量的期望值,得到第二逼近误差
Figure BDA0003267069070000172
通过最小化第二逼近误差的欧几里得范数δa,i(τ)=||∈a,i(τ)||2,得到控制策略权值矩阵的控制策略权值更新律为:
Figure BDA0003267069070000173
Figure BDA0003267069070000174
其中,γa,i是更新律。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图2所示,提供了一种多无人车分布式编队控制装置,包括:本地无人车耦合模型构建模块202、预测控制性能指标函数构建模块204、模型预测控制最优化模型构建模块206、本地值函数网络构建模块208、本地控制策略逼近网络构建模块210、值函数权值更新律确定模块212、控制策略权值更新律确定模块214和控制模块216,其中:
本地无人车耦合模型构建模块202,用于获取M个无人车组成的多无人车编队的队形信息,根据队形信息得到多无人车编队中每个无人车的编队误差信息;
预测控制性能指标函数构建模块204,用于获取无人车控制的状态避障约束信息,根据约束信息得到势场函数,根据本地无人车和邻居无人车的编队误差信息、本地无人车的控制量以及势场函数构建预测控制性能指标函数,根据本地性能指标函数构建全局性能指标函数;
模型预测控制最优化模型构建模块206,用于在预测时域内以最小化全局性能指标函数为优化目标,以预测时域内的控制序列为待求解的变量,构建无人车的分布式模型预测控制最优化模型;其中,在每个预测时域[k,k+N-1]内,把模型预测控制最优化模型分解成N个子优化模型,每个子优化模型构成M个本地子问题通过分布式并行的方式进行求解;
本地值函数网络构建模块208,用于对于每个本地无人车i=1,…,M,根据本地无人车和邻居无人车的编队误差信息和本地无人车的势场函数构建每个本地无人车的本地值函数网络;本地值函数网络包括值函数权值矩阵;
本地控制策略逼近网络构建模块210,用于对于每个本地无人车i=1,…,M,根据本地无人车和邻居无人车的编队误差信息和本地无人车的势场函数构建每个本地无人车的本地控制策略逼近网络;本地控制策略逼近网络包括控制策略权值矩阵;
值函数权值更新律确定模块212,用于对于每个本地无人车i=1,…,M,在每个预测时刻τ∈[k,k+N-1],根据本地值函数网络的值和预设的值函数的期望值,得到第一逼近误差,通过最小化第一逼近误差对应的逼近目标,得到本地值函数权值矩阵的值函数权值更新律;在预测时域[k,k+N-1]的任意预测时刻τ,值函数的期望值中包括τ+Lτ+1时刻由本地无人车和邻居无人车状态计算得到的本地值函数网络的值;
控制策略权值更新律确定模块214,用于对于每个本地无人车i=1,…,M,在每个预测时刻τ∈[k,k+N-1],根据本地控制策略逼近网络的值和预设的控制量的期望值,得到第二逼近误差,通过最小化第二逼近误差的欧几里得范数,得到控制策略权值矩阵的控制策略权值更新律;在预测时域[k,k+N-1]的任意预测时刻τ,控制量的期望值中包括τ+1时刻由本地无人车和邻居无人车状态计算得到的预测控制性能指标函数的值;
控制模块216,用于对于每个本地无人车i=1,…,M,在多无人车编队控制的任意k时刻,根据k+N-1预测时刻的值函数权值更新律和控制策略权值更新律、k时刻的本地无人车和邻居无人车的编队误差信息以及本地控制策略逼近网络得到无人车在任意k时刻的控制量。
本地无人车耦合模型构建模块202还用于获取M个无人车组成的多无人车编队的队形信息,根据队形信息得到多无人车编队中第i个无人车的本地编队误差信息为:
Figure BDA0003267069070000191
其中,aij表示第i个和第j个无人车的连接状态,aij=1表示第i个无人车能够接收到第j个无人车的状态信息,gi是连接增益,当gi=1时表示第i个无人车能够接收到预设的领导车的状态信号,Δhji和Δhri是矫正量,由具体的编队队形决定,矩阵Ti为:
Figure BDA0003267069070000192
qi表示第i个无人车的状态,其运动学演化模型为:
Figure BDA0003267069070000193
其中,(xi,yi)为第i个无人车在笛卡尔坐标系下的位置坐标,θi和υi为车辆的横摆角和线速度,wi和ai为线加速度和横摆角也是无人车的控制量;
根据本地编队误差信息和无人车运动学模型信息得到多无人车编队的本地无人车耦合模型为:
Figure BDA0003267069070000201
其中
Figure BDA0003267069070000202
代表所有邻居无人车的集合,
Figure BDA0003267069070000203
是第i个无人车的状态和控制变量,k是离散时间指针,
Figure BDA0003267069070000204
Figure BDA0003267069070000205
是状态和控制映射函数,
Figure BDA0003267069070000206
预测控制性能指标函数构建模块204还用于获取无人车控制的状态避障约束信息,根据约束信息得到势场函数
Figure BDA0003267069070000207
势场函数是一个关于变量
Figure BDA0003267069070000208
的连续函数,其中,
Figure BDA0003267069070000209
为本地无人车的约束集合;当
Figure BDA00032670690700002010
Figure BDA00032670690700002011
的值趋近于0,当zi趋近于
Figure BDA00032670690700002012
的边界时其值逐渐趋近于无穷;
根据本地无人车和邻居无人车的编队误差信息和本地无人车的势场函数构建预测控制性能指标函数为:
Figure BDA00032670690700002013
其中,
Figure BDA00032670690700002014
为代价函数,
Figure BDA00032670690700002015
为终端代价函数,Pi=Qi,e=(e1,…,eM),
Figure BDA00032670690700002016
是与第i个无人车相邻的邻居无人车的本地编队误差组成的向量,μ>0是可调参数;
根据本地性能指标函数,构建所有无人车的全局性能指标函数为:
Figure BDA00032670690700002017
模型预测控制最优化模型构建模块206还用于在预测时域内以最小化全局性能指标函数为优化目标,以预测时域内的控制序列为待求解的变量,构建无人车的分布式模型预测控制最优化模型为:
min J(e(k))
u1(k),…,uM(k)
Figure BDA0003267069070000211
在每个预测时域[k,k+N-1]内,把本地无人车的模型预测控制最优化模型分解成N个子优化模型进行求解;对于每个本地无人车i,在任意τ∈[k,k+N-1]构建模型预测控制最优化子模型为:
Figure BDA0003267069070000212
ui(τ)
其中,
Figure BDA0003267069070000213
本地值函数网络构建模块208还用于对于每个无人车i=1,…,M,根据本地无人车和邻居无人车的编队误差信息和本地无人车的势场函数构建每个本地无人车的本地值函数网络为:
Figure BDA0003267069070000214
其中,
Figure BDA0003267069070000215
Figure BDA0003267069070000216
是值函数权值矩阵,
Figure BDA0003267069070000217
是基函数向量。
本地控制策略逼近网络构建模块210还用于对于每个无人车i=1,…,M,根据本地无人车和邻居无人车的编队误差信息和本地无人车的势场函数构建每个本地无人车的本地控制策略逼近网络为:
Figure BDA0003267069070000221
其中
Figure BDA0003267069070000222
Figure BDA0003267069070000223
是控制策略权值矩阵,
Figure BDA0003267069070000224
是基函数向量。
值函数权值更新律确定模块212还用于在每个预测时刻τ∈[k,k+N-1],定义值函数的期望值为:
Figure BDA0003267069070000225
根据本地值函数网络的值和值函数的期望值,得到第一逼近误差,通过最小化第一逼近误差对应的逼近目标δc,i(τ)=qc,1c,i(τ)2+qc,2c,i(k+N)2,得到本地值函数权值矩阵的值函数权值更新律为:
Figure BDA0003267069070000226
其中,γc,i是更新律。
控制策略权值更新律确定模块214还用于在每个预测时刻τ∈[k,k+N-1],定义控制量的期望值为:
Figure BDA0003267069070000227
根据本地控制策略逼近网络的值和控制量的期望值,得到第二逼近误差
Figure BDA0003267069070000228
通过最小化第二逼近误差的欧几里得范数δa,i(τ)=||∈a,i(τ)||2,得到控制策略权值矩阵的控制策略权值更新律为:
Figure BDA0003267069070000231
Figure BDA0003267069070000232
其中,γa,i是更新律。
关于多无人车分布式编队控制装置的具体限定可以参见上文中对于多无人车分布式编队控制方法的限定,在此不再赘述。上述多无人车分布式编队控制装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种多无人车分布式编队控制方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种多无人车分布式编队控制方法,其特征在于,所述方法包括:
获取M个无人车组成的多无人车编队的队形信息,根据所述队形信息得到多无人车编队中每个无人车的编队误差信息;
获取无人车控制的状态避障约束信息,根据所述约束信息得到势场函数,根据本地无人车和邻居无人车的所述编队误差信息、本地无人车的控制量以及所述势场函数构建预测控制性能指标函数,根据所述本地性能指标函数构建全局性能指标函数;
在预测时域内以最小化所述全局性能指标函数为优化目标,以预测时域内的控制序列为待求解的变量,构建无人车的分布式模型预测控制最优化模型;其中,在每个预测时域[k,k+N-1]内,把所述模型预测控制最优化模型分解成N个子优化模型,每个子优化模型构成M个本地子问题通过分布式并行的方式进行求解;
对于每个本地无人车i=1,…,M,根据本地无人车和邻居无人车的编队误差信息和本地无人车的所述势场函数构建每个本地无人车的本地值函数网络;所述本地值函数网络包括值函数权值矩阵;
对于每个本地无人车i=1,…,M,根据本地无人车和邻居无人车的编队误差信息和本地无人车的所述势场函数构建每个本地无人车的本地控制策略逼近网络;所述本地控制策略逼近网络包括控制策略权值矩阵;
对于每个本地无人车i=1,…,M,在每个预测时刻τ∈[k,k+N-1],根据所述本地值函数网络的值和预设的值函数的期望值,得到第一逼近误差,通过最小化所述第一逼近误差对应的逼近目标,得到所述本地值函数权值矩阵的值函数权值更新律;其中,所述值函数的期望值中包括τ+Lτ+1时刻由本地无人车和邻居无人车状态计算得到的本地值函数网络的值;
对于每个本地无人车i=1,…,M,在每个预测时刻τ∈[k,k+N-1],根据本地控制策略逼近网络的值和预设的控制量的期望值,得到第二逼近误差,通过最小化所述第二逼近误差的欧几里得范数,得到所述控制策略权值矩阵的控制策略权值更新律;其中,所述控制量的期望值中包括τ+1时刻由本地无人车和邻居无人车状态计算得到的预测控制性能指标函数的值;
对于每个本地无人车i=1,…,M,在无人车编队控制的任意k时刻,根据τ=k+N-1预测时刻的所述值函数权值更新律和所述控制策略权值更新律、k时刻的本地无人车和邻居无人车的编队误差信息以及所述本地控制策略逼近网络得到本地无人车在任意k时刻的控制量。
2.根据权利要求1所述的方法,其特征在于,获取M个无人车组成的多无人车编队的队形信息,根据所述队形信息构建所述多无人车编队中每个无人车的编队误差信息,包括:
获取有M个无人车组成的多无人车编队的队形信息,根据所述队形信息得到多无人车编队中第i个无人车的本地编队误差信息为:
Figure FDA0003267069060000021
其中,aij表示第i个和第j个无人车的连接状态,aij=1表示第i个无人车能够接收到第j个无人车的状态信息,gi是连接增益,当gi=1时表示第i个无人车能够接收到预设的领导车的状态信号,Δhji和Δhri是矫正量,由具体的编队队形决定,矩阵Ti为:
Figure FDA0003267069060000022
qi表示第i个无人车的状态,其运动学演化模型为:
Figure FDA0003267069060000023
其中,(xi,yi)为第i个无人车在笛卡尔坐标系下的位置坐标,θi和vi为车辆的横摆角和线速度,wi和ai为线加速度和横摆角。
3.根据权利要求2所述的方法,其特征在于,获取无人车控制的状态避障约束信息,根据所述约束信息得到势场函数,根据所述本地无人车编队误差和邻居无人车编队误差以及所述势场函数构建预测控制性能指标函数,根据所述本地性能指标函数构建全局性能指标函数,包括:
获取无人车控制的状态避障约束信息,根据所述约束信息得到势场函数
Figure FDA00032670690600000311
所述势场函数是一个关于变量
Figure FDA0003267069060000031
的连续函数,其中,
Figure FDA0003267069060000032
为本地无人车的约束集合;当
Figure FDA0003267069060000033
时所述
Figure FDA00032670690600000310
的值趋近于0,当zi趋近于
Figure FDA0003267069060000034
的边界时其值逐渐趋近于无穷;
对于每个无人车i=1,…,M,根据本地无人车和邻居无人车的编队误差信息和本地无人车的势场函数构建预测控制性能指标函数为:
Figure FDA0003267069060000035
其中,
Figure FDA0003267069060000036
为代价函数,
Figure FDA0003267069060000037
为终端代价函数,Pi=Qi,e=(e1,…,eM),
Figure FDA0003267069060000038
是与第i个无人车相邻的邻居无人车的本地编队误差组成的向量,μ>0是可调参数;
根据所述本地性能指标函数,构建所有无人车的全局性能指标函数为:
Figure FDA0003267069060000039
4.根据权利要求3所述的方法,其特征在于,在预测时域内以最小化所述全局性能指标函数为优化目标,以预测时域内的控制序列为待求解的变量,构建无人车的分布式模型预测控制最优化模型;其中,在每个预测时域[k,k+N-1]内,把所述模型预测控制最优化模型分解成N个子优化模型,每个子优化模型构成M个本地子问题通过分布式并行的方式进行求解,包括:
在预测时域内以最小化所述全局性能指标函数为优化目标,以预测时域内的控制序列为待求解的变量,构建无人车的分布式模型预测控制最优化模型为:
min J(e(k))
u1(k),…,uM(k)
其中ui(k)=ui(k),…,ui(k+N-1)为预测时域内的控制序列;
在每个预测时域[k,k+N-1]内,把所述本地无人车的模型预测控制最优化模型分解成N个子优化模型进行求解;对于每个本地无人车i=1,…,M,在任意τ∈[k,k+N-1]构建模型预测控制最优化子模型为:
Figure FDA0003267069060000041
ui(τ)
其中,
Figure FDA0003267069060000042
5.根据权利要求4所述的方法,其特征在于,对于每个无人车i=1,…,M,根据本地无人车和邻居无人车的编队误差信息和本地无人车的所述势场函数构建每个本地无人车的本地值函数网络;所述本地值函数网络包括值函数权值矩阵,包括:
对于每个无人车i=1,…,M,根据本地无人车和邻居无人车的编队误差信息和本地无人车的所述势场函数构建每个本地无人车的本地值函数网络为:
Figure FDA0003267069060000043
其中,
Figure FDA0003267069060000044
Figure FDA0003267069060000045
是值函数权值矩阵,
Figure FDA0003267069060000046
是基函数向量。
6.根据权利要求5所述的方法,其特征在于,对于每个无人车i=1,…,M,根据本地无人车和邻居无人车的编队误差信息和本地无人车的所述势场函数构建每个本地无人车的本地控制策略逼近网络;所述本地控制策略逼近网络包括控制策略权值矩阵,包括:
对于每个无人车i=1,…,M,根据本地无人车和邻居无人车的编队误差信息和本地无人车的所述势场函数构建每个本地无人车的本地控制策略逼近网络为:
Figure FDA0003267069060000051
其中
Figure FDA0003267069060000052
是控制策略权值矩阵,
Figure FDA0003267069060000053
是基函数向量。
7.根据权利要求6所述的方法,其特征在于,对于每个无人车i=1,…,M,在每个预测时刻τ∈[k,k+N-1],根据所述本地值函数网络的值和预设的值函数的期望值,得到第一逼近误差,通过最小化所述第一逼近误差对应的逼近目标,得到所述本地值函数权值矩阵的值函数权值更新律,包括:
对于每个无人车i=1,…,M,在每个预测时刻τ∈[k,k+N-1],定义值函数的期望值为:
Figure FDA0003267069060000054
根据所述本地值函数网络的值和所述值函数的期望值,得到第一逼近误差,通过最小化所述第一逼近误差对应的逼近目标δc,i(τ)=qc,1c,i(τ)2+qc,2c,i(k+N)2,得到所述本地值函数权值矩阵的值函数权值更新律为:
Figure FDA0003267069060000061
其中,γc,i是更新律。
8.根据权利要求7所述的方法,其特征在于,对于每个无人车i=1,…,M,在每个预测时刻τ∈[k,k+N-1],根据本地控制策略逼近网络的值和预设的控制量的期望值,得到第二逼近误差,通过最小化所述第二逼近误差的欧几里得范数,得到所述控制策略权值矩阵的控制策略权值更新律,包括:
对于每个无人车i=1,…,M,在每个预测时刻τ∈[k,k+N-1],定义控制量的期望值为:
Figure FDA0003267069060000062
根据本地控制策略逼近网络的值和所述控制量的期望值,得到第二逼近误差
Figure FDA0003267069060000063
通过最小化所述第二逼近误差的欧几里得范数δa,i(τ)=||∈a,i(τ)||2,得到所述控制策略权值矩阵的控制策略权值更新律为:
Figure FDA0003267069060000064
Figure FDA0003267069060000065
其中,γa,i是更新律。
9.一种多无人车分布式编队控制装置,其特征在于,所述装置包括:
本地无人车耦合模型构建模块,用于获取M个无人车组成的多无人车编队的队形信息,根据所述队形信息得到多无人车编队中每个无人车的编队误差信息;
预测控制性能指标函数构建模块,用于获取无人车控制的状态避障约束信息,根据所述约束信息得到势场函数,根据本地无人车和邻居无人车的编队误差信息、本地无人车的控制量以及所述势场函数构建预测控制性能指标函数,根据所述本地性能指标函数构建全局性能指标函数;
模型预测控制最优化模型构建模块,用于在预测时域内以最小化所述全局性能指标函数为优化目标,以预测时域内的控制序列为待求解的变量,构建无人车的分布式模型预测控制最优化模型;其中,在每个预测时域[k,k+N-1]内,把所述模型预测控制最优化模型分解成N个子优化模型,每个子优化模型构成M个本地子问题通过分布式并行的方式进行求解;
本地值函数网络构建模块,用于对于每个本地无人车i=1,…,M,根据本地无人车和邻居无人车的编队误差信息和本地无人车的所述势场函数构建每个本地无人车的本地值函数网络;所述本地值函数网络包括值函数权值矩阵;
本地控制策略逼近网络构建模块,用于对于每个本地无人车i=1,…,M,根据本地无人车和邻居无人车的编队误差信息和本地无人车的所述势场函数构建每个本地无人车的本地控制策略逼近网络;所述本地控制策略逼近网络包括控制策略权值矩阵;
值函数权值更新律确定模块,用于对于每个本地无人车i=1,…,M,在每个预测时刻τ∈[k,k+N-1],根据所述本地值函数网络的值和预设的值函数的期望值,得到第一逼近误差,通过最小化所述第一逼近误差对应的逼近目标,得到所述本地值函数权值矩阵的值函数权值更新律;在预测时域[k,k+N-1]的任意预测时刻τ,所述值函数的期望值中包括τ+Lτ+1时刻由本地无人车和邻居无人车状态计算得到的本地值函数网络的值;
控制策略权值更新律确定模块,用于对于每个本地无人车i=1,…,M,在每个预测时刻τ∈[k,k+N-1],根据本地控制策略逼近网络的值和预设的控制量的期望值,得到第二逼近误差,通过最小化所述第二逼近误差的欧几里得范数,得到所述控制策略权值矩阵的控制策略权值更新律;在预测时域[k,k+N-1]的任意预测时刻τ,所述控制量的期望值中包括τ+1时刻由本地无人车和邻居无人车状态计算得到的预测控制性能指标函数的值;
控制模块,用于对于每个本地无人车i=1,…,M,在多无人车编队控制的任意k时刻,根据k+N-1预测时刻的所述值函数权值更新律和所述控制策略权值更新律、k时刻的本地无人车和邻居无人车的编队误差信息以及所述本地控制策略逼近网络得到无人车在任意k时刻的控制量。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。
CN202111090082.XA 2021-09-17 2021-09-17 多无人车分布式编队控制方法、装置和设备 Active CN113805587B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111090082.XA CN113805587B (zh) 2021-09-17 2021-09-17 多无人车分布式编队控制方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111090082.XA CN113805587B (zh) 2021-09-17 2021-09-17 多无人车分布式编队控制方法、装置和设备

Publications (2)

Publication Number Publication Date
CN113805587A true CN113805587A (zh) 2021-12-17
CN113805587B CN113805587B (zh) 2023-08-15

Family

ID=78895647

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111090082.XA Active CN113805587B (zh) 2021-09-17 2021-09-17 多无人车分布式编队控制方法、装置和设备

Country Status (1)

Country Link
CN (1) CN113805587B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130218365A1 (en) * 2012-02-21 2013-08-22 Toyota Motor Engineering & Mftg. N. America (TEMA) Vehicular platooning using distributed receding horizon control
WO2017024583A1 (zh) * 2015-08-13 2017-02-16 华为技术有限公司 模型预测控制的方法和装置
CN106773689A (zh) * 2016-12-16 2017-05-31 西北工业大学 基于分层分布式模型预测控制的auv编队协同控制方法
CN109032136A (zh) * 2018-07-23 2018-12-18 西北工业大学 基于主从分布式模型预测控制的欠驱动多无人船编队跟踪方法
CN109521797A (zh) * 2018-12-28 2019-03-26 西北工业大学 无人船引导水下航行器群的优化割草型编队控制方法
CN109871032A (zh) * 2019-03-04 2019-06-11 中科院成都信息技术股份有限公司 一种基于模型预测控制的多无人机编队协同控制方法
CN110162086A (zh) * 2019-03-21 2019-08-23 中山大学 一种基于模型预测控制框架的集群无人机编队方法
CN113359437A (zh) * 2021-05-14 2021-09-07 北京理工大学 基于演化博弈的多智能体编队的分层模型预测控制方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130218365A1 (en) * 2012-02-21 2013-08-22 Toyota Motor Engineering & Mftg. N. America (TEMA) Vehicular platooning using distributed receding horizon control
WO2017024583A1 (zh) * 2015-08-13 2017-02-16 华为技术有限公司 模型预测控制的方法和装置
CN106773689A (zh) * 2016-12-16 2017-05-31 西北工业大学 基于分层分布式模型预测控制的auv编队协同控制方法
CN109032136A (zh) * 2018-07-23 2018-12-18 西北工业大学 基于主从分布式模型预测控制的欠驱动多无人船编队跟踪方法
CN109521797A (zh) * 2018-12-28 2019-03-26 西北工业大学 无人船引导水下航行器群的优化割草型编队控制方法
CN109871032A (zh) * 2019-03-04 2019-06-11 中科院成都信息技术股份有限公司 一种基于模型预测控制的多无人机编队协同控制方法
CN110162086A (zh) * 2019-03-21 2019-08-23 中山大学 一种基于模型预测控制框架的集群无人机编队方法
CN113359437A (zh) * 2021-05-14 2021-09-07 北京理工大学 基于演化博弈的多智能体编队的分层模型预测控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
许洋;秦小林;刘佳;张力戈: "多无人机自适应编队协同航迹规划", 计算机应用, vol. 40, no. 005, pages 1515 - 1521 *

Also Published As

Publication number Publication date
CN113805587B (zh) 2023-08-15

Similar Documents

Publication Publication Date Title
US8452423B2 (en) Methods and systems for the design and implementation of optimal multivariable model predictive controllers for fast-sampling constrained dynamic systems
CN111708355A (zh) 基于强化学习的多无人机动作决策方法和装置
Liu et al. Multi-kernel online reinforcement learning for path tracking control of intelligent vehicles
CN112987577B (zh) 一种无人车数据驱动自适应控制方法和装置
Wu et al. Adaptive fuzzy control for perturbed strict-feedback nonlinear systems with predefined tracking accuracy
CN113805483B (zh) 基于模型预测的机器人控制方法、装置和计算机设备
CN113534669B (zh) 基于数据驱动的无人车控制方法、装置和计算机设备
CN113759724B (zh) 基于数据驱动的机器人控制方法、装置和计算机设备
CN114812569B (zh) 一种追逃博弈机动航天器相对状态估计方法、装置和设备
CN111930932B (zh) 网络空间安全领域知识图谱表示学习方法和装置
He et al. Structural performance prediction based on the digital twin model: A battery bracket example
CN114999182A (zh) 基于lstm回馈机制的车流量预测方法、装置及设备
CN111679685A (zh) 基于无人机总能量飞行控制方法和装置
CN110824496B (zh) 运动估计方法、装置、计算机设备和存储介质
CN114348019A (zh) 车辆轨迹预测方法、装置、计算机设备和存储介质
CN112230679B (zh) 基于延时的群组耦合系统协同控制方法和装置
CN111507591B (zh) 电力系统状态确定方法、装置、计算机介质及存储介质
CN113805587B (zh) 多无人车分布式编队控制方法、装置和设备
CN115766383B (zh) 一种基于算法融合技术的设备状态评估预警方法和系统
CN113442949B (zh) 一种车辆控制方法、装置、设备及存储介质
CN114371700A (zh) 一种概率滤波强化学习无人船控制方法、装置及终端设备
CN112989499B (zh) 一种无人车数据驱动控制方法和装置
CN114338664B (zh) 基于分布式架构获取目标状态的方法、装置及存储介质
US20220253578A1 (en) Converting implicit dynamic models into explicit dynamic models
CN110765508B (zh) 老虎窗山墙桁架节点的生成方法、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant