CN114384931B

CN114384931B - 一种基于策略梯度的无人机多目标最优控制方法和设备

Info

Publication number: CN114384931B
Application number: CN202111590154.7A
Authority: CN
Inventors: 张皓; 丁怡; 王祝萍; 张长柱; 黄超
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2021-12-23
Filing date: 2021-12-23
Publication date: 2023-08-29
Anticipated expiration: 2041-12-23
Also published as: CN114384931A

Abstract

本发明涉及一种基于策略梯度的无人机多目标最优控制方法，具体包括以下步骤：S1、获取无人机在目标飞行区间中离散时间非线性系统的多个性能指标，构建相应的状态‑动作价值函数；S2、获取一个在容许控制集内的初始控制策略；S3、根据多个状态‑动作价值函数和当前的控制策略进行策略评估，得到策略评估结果；S4、根据步骤S3的策略评估结果，结合梯度下降的方法进行策略改进，得到优化控制策略，判断优化控制策略是否满足预设的收敛条件，若否返回步骤S3，若是则将相应的优化控制策略作为最终的无人机控制策略。与现有技术相比，本发明具有使无人机消耗的能量更小，任务完成度更高，提升整体运行效率等优点。

Description

一种基于策略梯度的无人机多目标最优控制方法和设备

技术领域

本发明涉及人工智能和最优控制领域的交汇融合领域，尤其是涉及一种基于策略梯度的无人机多目标最优控制方法和设备。

背景技术

近年来，“智能制造”的发展使得工业领域经历了从电气化到智能化的变革，控制系统的规模变大，复杂性提高，这推动了人工智能和先进控制技术的深度融合。在工程实践中，很多问题会涉及到多个待优化的目标。例如在飞行器控制领域，考虑无人机执行悬停任务的过程中，需要使之与目标位置的误差尽可能小以完成指定任务，同时使无人机消耗的能量尽可能小。多目标最优控制问题就是寻找这样一个最优解，使系统稳定，使多个性能指标在一定意义下同时达到最小值。目前主要的解决方案可以分为两大类。第一种叫做标量化方法，即根据每个目标的重要性来设定相应的偏好，从而将多目标问题转化为单目标问题来解决。第二个是引入帕累托最优的概念。F.Logist等人利用交替标量多目标优化技术，将原问题转化为一系列参数化的单目标优化问题。A.Kumar等人提出了一种新的求解积分约束下多目标最优控制问题的有效数值方法。G.H.Askarirobati等人提出了一种标量化技术来构造多目标最优控制问题的近似帕累托前沿。根据最优控制理论，多目标最优控制问题可转化为求解哈密顿-雅可比-贝尔曼方程(Hamilton-Jacobi-Bellman Equation)，这需要精确的系统模型参数。然而，当系统模型未知时，现有技术中的大多数方法都不起作用。

人工智能与最优控制理论的深度融合是解决复杂系统最优控制问题的有效方法，已经得到控制工程领域专家与学者的极大关注。受生物学习机制启发，自适应动态规划(Adaptive Dynamic Programming，ADP)方法可以模拟生物进行反馈学习，通过采集系统离线或在线的输入输出数据，利用强化学习思想在模型未知下设计复杂系统的近似最优控制器。其中，策略梯度自适应动态规划(PGADP)是一种重要的基于策略迭代的方法。然而，现有的方法只考虑了一个单一目标下的解决方案。在工程实践和科学研究中，许多问题需要更多的性能指标来描述系统的目标。目前采用基于策略梯度的方法求解多目标最优控制问题的结果很少。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于策略梯度的无人机多目标最优控制方法和设备，使无人机的任务完成情况、消耗能量等各个不同的目标在系统稳定的前提下，都尽可能得到优化，得到多目标问题的帕累托最优解，有利于使无人机消耗的能量更小，任务完成度更高，提升整体运行效率。

本发明的目的可以通过以下技术方案来实现：

一种基于策略梯度的无人机多目标最优控制方法，具体包括以下步骤：

S1、获取无人机在目标飞行区间中离散时间非线性系统的多个性能指标，构建相应的状态-动作价值函数；

S2、获取一个在容许控制集内的初始控制策略；

S3、根据多个状态-动作价值函数和当前的控制策略进行策略评估，得到策略评估结果；

S4、根据步骤S3的策略评估结果，结合梯度下降的方法进行策略改进，得到优化控制策略，判断优化控制策略是否满足预设的收敛条件，若否返回步骤S3，若是则将相应的优化控制策略作为最终的无人机控制策略。

所述步骤S1中离散时间非线性系统F的公式如下所示：

x_k+1＝F(x_k,u_k)

其中，x_k和u_k分别代表系统的状态输入和控制输入。

进一步地，所述性能指标的公式如下所示：

其中，N为无人机的总个数，J_j是第j个无人机的性能指标，j＝1,...,N，为效用函数，其中W_j(u)和S_j(x)都是正定函数，整体性能指标表示为J＝[J₁,...,J_N]^T。

所述状态-动作价值函数的公式如下所示：

其中，Q_(j,u)为第j个状态-动作价值函数，u(x_l)为控制策略，且Q_(j,u)(0,0)＝0，Q_(j,u)(x_k,μ)表示系统在状态x_k处采取动作μ后，又使用控制策略u的第j个性能指标获得的值。

进一步地，所述步骤S3中策略评估的过程具体是对状态-价值动作函数的计算，具体公式如下所示：

其中，i代表的是迭代的轮数，步骤S2中初始控制策略对应的i为0，u⁽ⁱ⁾代表当前的控制策略。

进一步地，所述步骤S4中策略改进的过程具体是根据当前迭代的策略评估结果和控制策略得到下一轮迭代的控制策略，具体公式如下所示：

其中，α代表学习率。ω_j代表性能指标的权重，需要满足

所述步骤S4中优化控制策略的预设的收敛条件为优化控制策略达到帕累托最优。

所述容许控制集由连续并且使得性能指标有界的控制策略组成。

进一步地，所述优化控制策略达到帕累托最优具体为优化控制策略不被容许控制集中所有的控制策略帕累托支配。

一种计算机设备，包括存储器和处理器，所述存储器上存储有可由处理器运行的计算机程序；所述处理器运行所述计算机程序时，执行所述的控制方法。

在上述步骤S1至S4的基础上，采用critic网络逼近控制策略，采用actor网络逼近状态-动作价值函数，完成神经网络的算法实现。

进一步地，分别采用有限维基函数集来逼近控制策略和状态-动作价值函数，具体公式如下所示：

其中，和/>代表激活函数，/>和/>代表critic网络和actor网络的权重估计。

与现有技术相比，本发明具有以下有益效果：

1.本发明使用动作-状态价值函数来代替常用的状态价值函数来评估无人机的控制策略，将每时每刻采取的动作分离开来，以便更好地从实时交互数据中学习，得到多目标问题的帕累托最优解，不依赖于模型参数，有效降低了多无人机在目标区间飞行的总消耗，提高了无人机飞行任务的任务完成度。

2.本发明在策略学习过程中采用了经验回放技术。除了在训练过程中使用在线数据外，还同时使用离线数据来打破数据之间的相关性，提高了多无人机控制系统的整体运行效率。

3.本发明在策略改进过程中采用了策略梯度法，在一个步骤中更新下一个迭代的控制策略，从而有效减少了多无人机控制系统的计算量。

附图说明

图1为本发明的流程示意图；

图2为本发明性能指标收敛过程的示意图；

图3为本发明实施例中Actor网络的权重收敛的示意图；

图4为本发明实施例中一个Critic网络的权重收敛的示意图；

图5为本发明实施例中另一个Critic网络的权重收敛的示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例

如图1所示，一种基于策略梯度的无人机多目标最优控制方法，具体包括以下步骤：

S2、获取一个在容许控制集内的初始控制策略；

步骤S1中离散时间非线性系统F的公式如下所示：

x_k+1＝F(x_k,u_k)

其中，x_k和u_k分别代表系统的状态输入和控制输入。

本实施例中，离散时间非线性系统的公式如下所示：

其中，x_k,1和x_k,2为系统的状态输入。

性能指标的公式如下所示：

本实施例中选取了两个目标，性能指标分别表示为和/>

状态-动作价值函数的公式如下所示：

步骤S3中策略评估的过程具体是对状态-价值动作函数的计算，具体公式如下所示：

步骤S4中策略改进的过程具体是根据当前迭代的策略评估结果和控制策略得到下一轮迭代的控制策略，具体公式如下所示：

其中，α代表学习率。ω_j代表性能指标的权重，需要满足通常可以根据每个目标的重要性来设定。本实施例中，α＝0.02，ω＝[0.2,0.8]。

步骤S4中优化控制策略的预设的收敛条件为优化控制策略达到帕累托最优。

容许控制集由连续并且使得性能指标有界的控制策略组成。

优化控制策略达到帕累托最优具体为优化控制策略不被容许控制集中所有的控制策略帕累托支配。

一种计算机设备，包括存储器和处理器，存储器上存储有可由处理器运行的计算机程序；处理器运行计算机程序时，执行控制方法。

分别采用有限维基函数集来逼近控制策略和状态-动作价值函数，具体公式如下所示：

其中，和/>代表激活函数，/>和/>代表critic网络和actor网络的权重估计。利用残差权重的方法来更新/>和/>

具体实施时，令和/>具体包括以下步骤：

S501、收集无人机的离线数据集Z_M＝{x_l,μ_l,x′_l∣l＝1,2,...,M}，其中M表示数据集的大小，每一对{x_l,μ_l,x′_l}是从真实系统中取样的一帧数据，x_l代表当前状态，x′_l代表在采用控制策略μ_l之后的下一个状态；

S502、计算每个critic网络的初始权重其中权重计算方法为：

其中，η₀和τ为过程参数，代表权重函数；

S503、选择一个在容许控制集内的初始控制策略并令迭代次数k＝0；

S504、策略评估：结合无人机的离线数据集Z_M和在线数据z_k＝{x_k-1,u_k-1,x_k}计算critic网络的权重同时，将控制策略/>用于实际系统中，获取在线数据z_k+1，其中权重更新的公式如下所示：

S505、策略改进：结合离线数据集Z_M，在线数据z_k＝{x_k-1,u_k-1,x_k}以及步骤S504中的更新actor网络的权重/>具体公式如下所示：

其中，α为学习率；

S506、令k＝k+1，回到步骤S504，直至权重收敛。

本实施例中，性能指标分别收敛到1.3457和3.2327，如图2所示；Critic网络权重η_k的变化过程如图3所示；Actor网络权重ρ_k,1和ρ_k,2的变化过程如图4和图5所示，权重最终达到收敛。

此外，需要说明的是，本说明书中所描述的具体实施例，所取名称可以不同，本说明书中所描述的以上内容仅仅是对本发明结构所做的举例说明。凡依据本发明构思的构造、特征及原理所做的等效变化或者简单变化，均包括于本发明的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实例做各种各样的修改或补充或采用类似的方法，只要不偏离本发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种基于策略梯度的无人机多目标最优控制方法，其特征在于，具体包括以下步骤：

S2、获取一个在容许控制集内的初始控制策略；

S4、根据步骤S3的策略评估结果，结合梯度下降的方法进行策略改进，得到优化控制策略，判断优化控制策略是否满足预设的收敛条件，若否返回步骤S3，若是则将相应的优化控制策略作为最终的无人机控制策略；

所述步骤S1中离散时间非线性系统F的公式如下所示：

x_k+1＝F(x_k,u_k)

其中，x_k和u_k分别代表系统的状态输入和控制输入；

所述性能指标的公式如下所示：

其中，N为无人机的总个数，J_j是第j个无人机的性能指标，j＝1,...,N，为效用函数，其中W_j(u)和S_j(x)都是正定函数，整体性能指标表示为J＝[J₁,...,J_N]^T；

所述状态-动作价值函数的公式如下所示：

其中，Q_(j,u)为第j个状态-动作价值函数，u(x_l)为控制策略，且Q_(j,u)(0,0)＝0，Q_(j,u)(x_k,μ)表示系统在状态x_k处采取动作μ后，又使用控制策略u的第j个性能指标获得的值；

所述步骤S3中策略评估的过程具体是对状态-价值动作函数的计算，具体公式如下所示：

其中，i代表的是迭代的轮数，步骤S2中初始控制策略对应的i为0，u⁽ⁱ⁾代表当前的控制策略；

所述步骤S4中策略改进的过程具体是根据当前迭代的策略评估结果和控制策略得到下一轮迭代的控制策略，具体公式如下所示：

其中，α代表学习率，ω_j代表性能指标的权重，需要满足

2.根据权利要求1所述的一种基于策略梯度的无人机多目标最优控制方法，其特征在于，所述步骤S4中优化控制策略的预设的收敛条件为优化控制策略达到帕累托最优。

3.根据权利要求2所述的一种基于策略梯度的无人机多目标最优控制方法，其特征在于，所述容许控制集由连续并且使得性能指标有界的控制策略组成。

4.根据权利要求3所述的一种基于策略梯度的无人机多目标最优控制方法，其特征在于，所述优化控制策略达到帕累托最优具体为优化控制策略不被容许控制集中所有的控制策略帕累托支配。

5.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器上存储有可由处理器运行的计算机程序；所述处理器运行所述计算机程序时，执行如权利要求1-4中任一项所述的控制方法。