CN114384931B - 一种基于策略梯度的无人机多目标最优控制方法和设备 - Google Patents

一种基于策略梯度的无人机多目标最优控制方法和设备 Download PDF

Info

Publication number
CN114384931B
CN114384931B CN202111590154.7A CN202111590154A CN114384931B CN 114384931 B CN114384931 B CN 114384931B CN 202111590154 A CN202111590154 A CN 202111590154A CN 114384931 B CN114384931 B CN 114384931B
Authority
CN
China
Prior art keywords
strategy
control strategy
unmanned aerial
control
aerial vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111590154.7A
Other languages
English (en)
Other versions
CN114384931A (zh
Inventor
张皓
丁怡
王祝萍
张长柱
黄超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202111590154.7A priority Critical patent/CN114384931B/zh
Publication of CN114384931A publication Critical patent/CN114384931A/zh
Application granted granted Critical
Publication of CN114384931B publication Critical patent/CN114384931B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/104Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明涉及一种基于策略梯度的无人机多目标最优控制方法,具体包括以下步骤:S1、获取无人机在目标飞行区间中离散时间非线性系统的多个性能指标,构建相应的状态‑动作价值函数;S2、获取一个在容许控制集内的初始控制策略;S3、根据多个状态‑动作价值函数和当前的控制策略进行策略评估,得到策略评估结果;S4、根据步骤S3的策略评估结果,结合梯度下降的方法进行策略改进,得到优化控制策略,判断优化控制策略是否满足预设的收敛条件,若否返回步骤S3,若是则将相应的优化控制策略作为最终的无人机控制策略。与现有技术相比,本发明具有使无人机消耗的能量更小,任务完成度更高,提升整体运行效率等优点。

Description

一种基于策略梯度的无人机多目标最优控制方法和设备
技术领域
本发明涉及人工智能和最优控制领域的交汇融合领域,尤其是涉及一种基于策略梯度的无人机多目标最优控制方法和设备。
背景技术
近年来,“智能制造”的发展使得工业领域经历了从电气化到智能化的变革,控制系统的规模变大,复杂性提高,这推动了人工智能和先进控制技术的深度融合。在工程实践中,很多问题会涉及到多个待优化的目标。例如在飞行器控制领域,考虑无人机执行悬停任务的过程中,需要使之与目标位置的误差尽可能小以完成指定任务,同时使无人机消耗的能量尽可能小。多目标最优控制问题就是寻找这样一个最优解,使系统稳定,使多个性能指标在一定意义下同时达到最小值。目前主要的解决方案可以分为两大类。第一种叫做标量化方法,即根据每个目标的重要性来设定相应的偏好,从而将多目标问题转化为单目标问题来解决。第二个是引入帕累托最优的概念。F.Logist等人利用交替标量多目标优化技术,将原问题转化为一系列参数化的单目标优化问题。A.Kumar等人提出了一种新的求解积分约束下多目标最优控制问题的有效数值方法。G.H.Askarirobati等人提出了一种标量化技术来构造多目标最优控制问题的近似帕累托前沿。根据最优控制理论,多目标最优控制问题可转化为求解哈密顿-雅可比-贝尔曼方程(Hamilton-Jacobi-Bellman Equation),这需要精确的系统模型参数。然而,当系统模型未知时,现有技术中的大多数方法都不起作用。
人工智能与最优控制理论的深度融合是解决复杂系统最优控制问题的有效方法,已经得到控制工程领域专家与学者的极大关注。受生物学习机制启发,自适应动态规划(Adaptive Dynamic Programming,ADP)方法可以模拟生物进行反馈学习,通过采集系统离线或在线的输入输出数据,利用强化学习思想在模型未知下设计复杂系统的近似最优控制器。其中,策略梯度自适应动态规划(PGADP)是一种重要的基于策略迭代的方法。然而,现有的方法只考虑了一个单一目标下的解决方案。在工程实践和科学研究中,许多问题需要更多的性能指标来描述系统的目标。目前采用基于策略梯度的方法求解多目标最优控制问题的结果很少。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于策略梯度的无人机多目标最优控制方法和设备,使无人机的任务完成情况、消耗能量等各个不同的目标在系统稳定的前提下,都尽可能得到优化,得到多目标问题的帕累托最优解,有利于使无人机消耗的能量更小,任务完成度更高,提升整体运行效率。
本发明的目的可以通过以下技术方案来实现:
一种基于策略梯度的无人机多目标最优控制方法,具体包括以下步骤:
S1、获取无人机在目标飞行区间中离散时间非线性系统的多个性能指标,构建相应的状态-动作价值函数;
S2、获取一个在容许控制集内的初始控制策略;
S3、根据多个状态-动作价值函数和当前的控制策略进行策略评估,得到策略评估结果;
S4、根据步骤S3的策略评估结果,结合梯度下降的方法进行策略改进,得到优化控制策略,判断优化控制策略是否满足预设的收敛条件,若否返回步骤S3,若是则将相应的优化控制策略作为最终的无人机控制策略。
所述步骤S1中离散时间非线性系统F的公式如下所示:
xk+1=F(xk,uk)
其中,xk和uk分别代表系统的状态输入和控制输入。
进一步地,所述性能指标的公式如下所示:
其中,N为无人机的总个数,Jj是第j个无人机的性能指标,j=1,...,N,为效用函数,其中Wj(u)和Sj(x)都是正定函数,整体性能指标表示为J=[J1,...,JN]T
所述状态-动作价值函数的公式如下所示:
其中,Q(j,u)为第j个状态-动作价值函数,u(xl)为控制策略,且Q(j,u)(0,0)=0,Q(j,u)(xk,μ)表示系统在状态xk处采取动作μ后,又使用控制策略u的第j个性能指标获得的值。
进一步地,所述步骤S3中策略评估的过程具体是对状态-价值动作函数的计算,具体公式如下所示:
其中,i代表的是迭代的轮数,步骤S2中初始控制策略对应的i为0,u(i)代表当前的控制策略。
进一步地,所述步骤S4中策略改进的过程具体是根据当前迭代的策略评估结果和控制策略得到下一轮迭代的控制策略,具体公式如下所示:
其中,α代表学习率。ωj代表性能指标的权重,需要满足
所述步骤S4中优化控制策略的预设的收敛条件为优化控制策略达到帕累托最优。
所述容许控制集由连续并且使得性能指标有界的控制策略组成。
进一步地,所述优化控制策略达到帕累托最优具体为优化控制策略不被容许控制集中所有的控制策略帕累托支配。
一种计算机设备,包括存储器和处理器,所述存储器上存储有可由处理器运行的计算机程序;所述处理器运行所述计算机程序时,执行所述的控制方法。
在上述步骤S1至S4的基础上,采用critic网络逼近控制策略,采用actor网络逼近状态-动作价值函数,完成神经网络的算法实现。
进一步地,分别采用有限维基函数集来逼近控制策略和状态-动作价值函数,具体公式如下所示:
其中,和/>代表激活函数,/>和/>代表critic网络和actor网络的权重估计。
与现有技术相比,本发明具有以下有益效果:
1.本发明使用动作-状态价值函数来代替常用的状态价值函数来评估无人机的控制策略,将每时每刻采取的动作分离开来,以便更好地从实时交互数据中学习,得到多目标问题的帕累托最优解,不依赖于模型参数,有效降低了多无人机在目标区间飞行的总消耗,提高了无人机飞行任务的任务完成度。
2.本发明在策略学习过程中采用了经验回放技术。除了在训练过程中使用在线数据外,还同时使用离线数据来打破数据之间的相关性,提高了多无人机控制系统的整体运行效率。
3.本发明在策略改进过程中采用了策略梯度法,在一个步骤中更新下一个迭代的控制策略,从而有效减少了多无人机控制系统的计算量。
附图说明
图1为本发明的流程示意图;
图2为本发明性能指标收敛过程的示意图;
图3为本发明实施例中Actor网络的权重收敛的示意图;
图4为本发明实施例中一个Critic网络的权重收敛的示意图;
图5为本发明实施例中另一个Critic网络的权重收敛的示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例
如图1所示,一种基于策略梯度的无人机多目标最优控制方法,具体包括以下步骤:
S1、获取无人机在目标飞行区间中离散时间非线性系统的多个性能指标,构建相应的状态-动作价值函数;
S2、获取一个在容许控制集内的初始控制策略;
S3、根据多个状态-动作价值函数和当前的控制策略进行策略评估,得到策略评估结果;
S4、根据步骤S3的策略评估结果,结合梯度下降的方法进行策略改进,得到优化控制策略,判断优化控制策略是否满足预设的收敛条件,若否返回步骤S3,若是则将相应的优化控制策略作为最终的无人机控制策略。
步骤S1中离散时间非线性系统F的公式如下所示:
xk+1=F(xk,uk)
其中,xk和uk分别代表系统的状态输入和控制输入。
本实施例中,离散时间非线性系统的公式如下所示:
其中,xk,1和xk,2为系统的状态输入。
性能指标的公式如下所示:
其中,N为无人机的总个数,Jj是第j个无人机的性能指标,j=1,...,N,为效用函数,其中Wj(u)和Sj(x)都是正定函数,整体性能指标表示为J=[J1,...,JN]T
本实施例中选取了两个目标,性能指标分别表示为和/>
状态-动作价值函数的公式如下所示:
其中,Q(j,u)为第j个状态-动作价值函数,u(xl)为控制策略,且Q(j,u)(0,0)=0,Q(j,u)(xk,μ)表示系统在状态xk处采取动作μ后,又使用控制策略u的第j个性能指标获得的值。
步骤S3中策略评估的过程具体是对状态-价值动作函数的计算,具体公式如下所示:
其中,i代表的是迭代的轮数,步骤S2中初始控制策略对应的i为0,u(i)代表当前的控制策略。
步骤S4中策略改进的过程具体是根据当前迭代的策略评估结果和控制策略得到下一轮迭代的控制策略,具体公式如下所示:
其中,α代表学习率。ωj代表性能指标的权重,需要满足通常可以根据每个目标的重要性来设定。本实施例中,α=0.02,ω=[0.2,0.8]。
步骤S4中优化控制策略的预设的收敛条件为优化控制策略达到帕累托最优。
容许控制集由连续并且使得性能指标有界的控制策略组成。
优化控制策略达到帕累托最优具体为优化控制策略不被容许控制集中所有的控制策略帕累托支配。
一种计算机设备,包括存储器和处理器,存储器上存储有可由处理器运行的计算机程序;处理器运行计算机程序时,执行控制方法。
在上述步骤S1至S4的基础上,采用critic网络逼近控制策略,采用actor网络逼近状态-动作价值函数,完成神经网络的算法实现。
分别采用有限维基函数集来逼近控制策略和状态-动作价值函数,具体公式如下所示:
其中,和/>代表激活函数,/>和/>代表critic网络和actor网络的权重估计。利用残差权重的方法来更新/>和/>
具体实施时,令和/>具体包括以下步骤:
S501、收集无人机的离线数据集ZM={xll,x′l∣l=1,2,...,M},其中M表示数据集的大小,每一对{xll,x′l}是从真实系统中取样的一帧数据,xl代表当前状态,x′l代表在采用控制策略μl之后的下一个状态;
S502、计算每个critic网络的初始权重其中权重计算方法为:
其中,η0和τ为过程参数,代表权重函数;
S503、选择一个在容许控制集内的初始控制策略并令迭代次数k=0;
S504、策略评估:结合无人机的离线数据集ZM和在线数据zk={xk-1,uk-1,xk}计算critic网络的权重同时,将控制策略/>用于实际系统中,获取在线数据zk+1,其中权重更新的公式如下所示:
S505、策略改进:结合离线数据集ZM,在线数据zk={xk-1,uk-1,xk}以及步骤S504中的更新actor网络的权重/>具体公式如下所示:
其中,α为学习率;
S506、令k=k+1,回到步骤S504,直至权重收敛。
本实施例中,性能指标分别收敛到1.3457和3.2327,如图2所示;Critic网络权重ηk的变化过程如图3所示;Actor网络权重ρk,1和ρk,2的变化过程如图4和图5所示,权重最终达到收敛。
此外,需要说明的是,本说明书中所描述的具体实施例,所取名称可以不同,本说明书中所描述的以上内容仅仅是对本发明结构所做的举例说明。凡依据本发明构思的构造、特征及原理所做的等效变化或者简单变化,均包括于本发明的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实例做各种各样的修改或补充或采用类似的方法,只要不偏离本发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

Claims (5)

1.一种基于策略梯度的无人机多目标最优控制方法,其特征在于,具体包括以下步骤:
S1、获取无人机在目标飞行区间中离散时间非线性系统的多个性能指标,构建相应的状态-动作价值函数;
S2、获取一个在容许控制集内的初始控制策略;
S3、根据多个状态-动作价值函数和当前的控制策略进行策略评估,得到策略评估结果;
S4、根据步骤S3的策略评估结果,结合梯度下降的方法进行策略改进,得到优化控制策略,判断优化控制策略是否满足预设的收敛条件,若否返回步骤S3,若是则将相应的优化控制策略作为最终的无人机控制策略;
所述步骤S1中离散时间非线性系统F的公式如下所示:
xk+1=F(xk,uk)
其中,xk和uk分别代表系统的状态输入和控制输入;
所述性能指标的公式如下所示:
其中,N为无人机的总个数,Jj是第j个无人机的性能指标,j=1,...,N,为效用函数,其中Wj(u)和Sj(x)都是正定函数,整体性能指标表示为J=[J1,...,JN]T
所述状态-动作价值函数的公式如下所示:
其中,Q(j,u)为第j个状态-动作价值函数,u(xl)为控制策略,且Q(j,u)(0,0)=0,Q(j,u)(xk,μ)表示系统在状态xk处采取动作μ后,又使用控制策略u的第j个性能指标获得的值;
所述步骤S3中策略评估的过程具体是对状态-价值动作函数的计算,具体公式如下所示:
其中,i代表的是迭代的轮数,步骤S2中初始控制策略对应的i为0,u(i)代表当前的控制策略;
所述步骤S4中策略改进的过程具体是根据当前迭代的策略评估结果和控制策略得到下一轮迭代的控制策略,具体公式如下所示:
其中,α代表学习率,ωj代表性能指标的权重,需要满足
2.根据权利要求1所述的一种基于策略梯度的无人机多目标最优控制方法,其特征在于,所述步骤S4中优化控制策略的预设的收敛条件为优化控制策略达到帕累托最优。
3.根据权利要求2所述的一种基于策略梯度的无人机多目标最优控制方法,其特征在于,所述容许控制集由连续并且使得性能指标有界的控制策略组成。
4.根据权利要求3所述的一种基于策略梯度的无人机多目标最优控制方法,其特征在于,所述优化控制策略达到帕累托最优具体为优化控制策略不被容许控制集中所有的控制策略帕累托支配。
5.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器上存储有可由处理器运行的计算机程序;所述处理器运行所述计算机程序时,执行如权利要求1-4中任一项所述的控制方法。
CN202111590154.7A 2021-12-23 2021-12-23 一种基于策略梯度的无人机多目标最优控制方法和设备 Active CN114384931B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111590154.7A CN114384931B (zh) 2021-12-23 2021-12-23 一种基于策略梯度的无人机多目标最优控制方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111590154.7A CN114384931B (zh) 2021-12-23 2021-12-23 一种基于策略梯度的无人机多目标最优控制方法和设备

Publications (2)

Publication Number Publication Date
CN114384931A CN114384931A (zh) 2022-04-22
CN114384931B true CN114384931B (zh) 2023-08-29

Family

ID=81197960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111590154.7A Active CN114384931B (zh) 2021-12-23 2021-12-23 一种基于策略梯度的无人机多目标最优控制方法和设备

Country Status (1)

Country Link
CN (1) CN114384931B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117826860A (zh) * 2024-03-04 2024-04-05 北京航空航天大学 一种基于强化学习的固定翼无人机控制策略的确定方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992000A (zh) * 2019-04-04 2019-07-09 北京航空航天大学 一种基于分层强化学习的多无人机路径协同规划方法及装置
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
WO2020230137A1 (en) * 2019-05-16 2020-11-19 B.G. Negev Technologies And Applications Ltd., At Ben-Gurion University System and method for automated multi-objective policy implementation, using reinforcement learning
CN112131660A (zh) * 2020-09-10 2020-12-25 南京大学 一种基于多智能体强化学习的无人机集群协同学习方法
CN113467508A (zh) * 2021-06-30 2021-10-01 天津大学 面向围捕任务的多无人机智能协同决策方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106970648B (zh) * 2017-04-19 2019-05-14 北京航空航天大学 城市低空环境下无人机多目标路径规划联合搜索方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992000A (zh) * 2019-04-04 2019-07-09 北京航空航天大学 一种基于分层强化学习的多无人机路径协同规划方法及装置
WO2020230137A1 (en) * 2019-05-16 2020-11-19 B.G. Negev Technologies And Applications Ltd., At Ben-Gurion University System and method for automated multi-objective policy implementation, using reinforcement learning
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN112131660A (zh) * 2020-09-10 2020-12-25 南京大学 一种基于多智能体强化学习的无人机集群协同学习方法
CN113467508A (zh) * 2021-06-30 2021-10-01 天津大学 面向围捕任务的多无人机智能协同决策方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
飞行器航迹规划的多目标优化方法;乔侨;史长久;;微计算机信息(31);全文 *

Also Published As

Publication number Publication date
CN114384931A (zh) 2022-04-22

Similar Documents

Publication Publication Date Title
Lin et al. An efficient deep reinforcement learning model for urban traffic control
CN108133258B (zh) 一种混合全局优化方法
CN103164742B (zh) 一种基于粒子群优化神经网络的服务器性能预测方法
CN111047085B (zh) 一种基于元学习的混合动力车辆工况预测方法
CN110481536B (zh) 一种应用于混合动力汽车的控制方法及设备
US20220326664A1 (en) Improved machine learning for technical systems
CN103729695A (zh) 基于粒子群和bp神经网络的短期电力负荷预测方法
Patyn et al. Comparing neural architectures for demand response through model-free reinforcement learning for heat pump control
CN110751318A (zh) 一种基于ipso-lstm的超短期电力负荷预测方法
CN111553118B (zh) 基于强化学习的多维连续型优化变量全局优化方法
CN111127246A (zh) 一种输电线路工程造价的智能预测方法
US20200202723A1 (en) Machine learning in avionics
CN107092987B (zh) 一种中小型无人机自主着舰风速预测方法
Tan et al. Support vector machine algorithm for artificial intelligence optimization
CN114384931B (zh) 一种基于策略梯度的无人机多目标最优控制方法和设备
CN110097929A (zh) 一种高炉铁水硅含量在线预测方法
CN116526473A (zh) 基于粒子群优化lstm的电热负荷预测方法
Chen et al. A multivariate grey RBF hybrid model for residual useful life prediction of industrial equipment based on state data
CN114154676A (zh) 一种基于pso和双向gru的短期负荷预测模型
Dey et al. Reinforcement Learning Building Control: An Online Approach with Guided Exploration using Surrogate Models
JP7060130B1 (ja) 運用支援装置、運用支援方法及びプログラム
CN114757086A (zh) 多旋翼无人机实时剩余使用寿命预测方法和系统
CN111950691A (zh) 一种基于潜在动作表示空间的强化学习策略学习方法
CN114444763A (zh) 基于afsa-gnn的风电功率预测方法
Chen et al. Hybrid FCM learning algorithm based on particle swarm optimization and gradient descent algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant