CN114114898B

CN114114898B - 空空弹pid参数整定方法、装置、电子设备及存储介质

Info

Publication number: CN114114898B
Application number: CN202210097072.7A
Authority: CN
Inventors: 宋佳; 赵凯; 罗雨歇; 童心迪; 胡云龙; 徐小蔚
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2022-01-27
Filing date: 2022-01-27
Publication date: 2022-04-12
Anticipated expiration: 2042-01-27
Also published as: CN114114898A

Abstract

本申请提供了空空弹PID参数整定方法、装置、电子设备及存储介质，涉及导弹控制技术领域，具体为：从飞行器的控制指令中获取当前时刻的预期角度值；计算当前时刻的预期角度值和上一时刻的实际角度值的差，作为当前时刻的角度误差；通过预先训练完成的强化学习网络，对当前时刻的角度误差进行处理，得到至少一个当前时刻的PID参数；利用至少一个当前时刻的PID参数，对当前时刻的预期角度值和角度误差进行处理，得到当前时刻的实际角度值。本申请实施例通过预先训练好的强化学习网络实时生成PID参数，由此实现空空弹的自动驾驶仪的PID参数的实时整定。

Description

空空弹PID参数整定方法、装置、电子设备及存储介质

技术领域

本申请涉及导弹控制技术领域，尤其是涉及空空弹PID参数整定方法、装置、电子设备及存储介质。

背景技术

随着火箭发动机技术的不断成熟以及导弹气动外形设计的持续研究，目前空空弹性能已经得到大幅提升，拥有更强的机动能力。空空弹的自动驾驶仪是保证空空弹稳定飞行、保证导弹命中精度的重要一环；而导弹设计日益复杂化为自动驾驶仪的参数设置带来更大的挑战。

比例-积分-微分（Proportion Integration Differentiation，比例-积分-微分）因其结构简单，稳定可靠而作为工程上最常使用的自动控制器。传统的PID控制参数整定依赖控制人员的工程经验，因而需要反复进行迭代调整。但是固定的PID参数无法适应空空弹的多阶段的飞行；工程设计人员一般通过选取特征点，对飞行过程进行分段，在特征点处分别设定PID参数，实现PID参数的增益调度。该方法一定程度上提高了不同飞行阶段的控制效果，但是同样增加了系统设计的难度。

发明内容

有鉴于此，本申请空空弹PID参数整定方法、装置、电子设备及存储介质，以解决现有技术存在的空空弹自动驾驶仪的PID控制器参数设计困难以及无法在线实时整定的技术问题。

一方面，本申请实施例提供了一种空空弹PID参数整定方法，包括：

从飞行器的控制指令中获取当前时刻的预期角度值；

计算当前时刻的预期角度值和上一时刻的实际角度值的差，作为当前时刻的角度误差；

通过预先训练完成的强化学习网络，对当前时刻的角度误差进行处理，得到至少一个当前时刻的PID参数；

利用至少一个当前时刻的PID参数，对当前时刻的预期角度值和角度误差进行处理，得到当前时刻的实际角度值。

进一步的，当所述强化学习网络输出一个PID参数，所述强化学习网络的训练过程包括：

将角度误差样本输入强化学习网络，输出PID参数；

计算奖励函数R ₁：

其中，Δφ为角度误差样本，K _p为PID参数的比例系数，Pm为弾体的相角裕度，由输出的PID参数确定；Gm为弾体的幅值裕度，由输出的PID参数确定；

为平衡时域指标的权重，

为平衡增益代价的权重，

为平衡频域指标的权重；

调整强化学习网络的参数，直至奖励函数R ₁达到最大值。

进一步的，当采用一个PID控制器控制弾体的飞行角度，所述利用至少一个当前时刻的PID参数，对当前时刻的预期角度值和角度误差进行处理，得到当前时刻的实际角度值；包括：

PID控制器利用当前时刻的PID参数，对当前时刻的预期角度值和角度误差进行处理，得到当前时刻的实际角速度值；

对当前时刻的实际角速度值进行积分，得到当前时刻的实际角度值。

进一步的，当所述强化学习网络输出两个PID参数，所述强化学习网络的训练过程包括：

将角度误差样本输入强化学习网络，输出PID参数；

计算奖励函数R ₂：

其中，Δφ为角度误差样本，K _po和K _pi分别为两个PID参数的比例系数，Pm为弾体的相角裕度，由输出的PID参数确定；Gm为弾体的幅值裕度，由输出的PID参数确定；β ₁为平衡时域指标的权重，β ₂为平衡增益代价的权重，β ₃为平衡频域指标的权重；

调整强化学习网络的参数，直至奖励函数R ₂达到最大值。

进一步的，当采用外环PID控制器和内环PID控制器共同控制弾体的飞行角度，通过预先训练完成的强化学习网络，对当前时刻的角度误差进行处理，得到至少一个当前时刻的PID参数；包括：

通过预先训练完成的强化学习网络，对当前时刻的角度误差进行处理，得到外环PID控制器的当前时刻的第一PID参数，和内环PID控制器的当前时刻的第二PID参数。

进一步的，当采用外环PID控制器和内环PID控制器共同控制弾体的飞行角度，所述利用至少一个当前时刻的PID参数，对当前时刻的预期角度值和角度误差进行处理，得到当前时刻的实际角度值；包括：

外环PID控制器利用当前时刻的第一PID参数，对当前时刻的预期角度值和角度误差进行处理，得到当前时刻的预期角速度值；

内环PID控制器利用当前时刻的第二PID参数，对当前时刻的预期角速度值和角速度误差进行处理，得到当前时刻的实际角加速度值；所述角速度误差为当前时刻的预期角速度值和上一时刻的实际角速度值的差；

对当前时刻的实际角加速度值进行积分，得到当前时刻的实际角速度值；

另一方面，本申请实施例提供了一种空空弹PID参数整定装置，包括：

获取单元，用于从飞行器的控制指令中获取当前时刻的预期角度值；

误差计算单元，用于计算当前时刻的预期角度值和上一时刻的实际角度值的差，作为当前时刻的角度误差；

PID参数获取单元，用于通过预先训练完成的强化学习网络，对当前时刻的角度误差进行处理，得到至少一个当前时刻的PID参数；

控制单元，用于利用至少一个当前时刻的PID参数，对当前时刻的预期角度值和角度误差进行处理，得到当前时刻的实际角度值。

另一方面，本申请实施例提供了一种电子设备，包括：存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请实施例的空空弹PID参数整定方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时实现本申请实施例的空空弹PID参数整定方法。

本申请实施例通过预先训练好的强化学习网络实时生成PID参数，由此实现空空弹的自动驾驶仪的PID参数的实时整定。

附图说明

为了更清楚地说明本申请具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为强化学习策略的示意图；

图2为本申请实施例提供的空空弹PID参数整定方法的流程图；

图3为本申请实施例提供的一个PID控制器的参数整定示意图；

图4为本申请实施例提供的两个PID控制器的参数整定示意图；

图5为本申请实施例提供的空空弹PID参数整定装置的功能结构示意图；

图6为本申请实施例提供的电子设备的硬件结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为便于本领域技术人员更好地理解本申请，下面先对本申请涉及的技术用语进行简单介绍。

1、强化学习，是指一种通过不断与环境进行交互，能够自主学习的最优策略，被认为是最有可能实现通用人工智能计算的重要途径之一。强化学习讨论的问题是一个智能体如何在复杂不确定的环境中极大化它获得的奖励。在强化学习中，智能体与环境的交互方式如图1所示。这个过程可以通过马尔科夫决策过程表示。

马尔科夫决策过程可以使用元组(S,A,T,R,γ)表示。其中，S是有限的状态空间集合；A是有限的行为空间集合；T是状态转移模型：

R是奖励函数：

γ是衰减因子，γ ∈[0,1]。

给定马尔科夫决策过程的策略π：

定义回报函数G _t：

回报函数是把奖励进行折扣后获得的收益。这里引入Q函数，也就是动作价值函数

，代表在某一状态执行策略π采取某一动作而得到的期望：

对动作价值函数进行求和后得到价值函数

：

一个最优策略

将使得智能体在所有状态下可获得最大化的折扣回报。则在最优策略下动作价值函数

可重写为贝尔曼最优方程：

2、PID控制是控制领域最为广泛使用的一种控制方式，传统的PID控制是基于输出误差的反馈机制，主要是指PID调节器，其具体形式可表述如下：

其中，K _p为比例增益，K _i为积分增益，K _d为微分增益，PID控制虽然具有结构简单、容易实现的特点，但要想利用PID控制系统实现控制，往往需要人工对K _p、K _i和K _d这三个参数进行繁琐地整定调节。

在介绍了本申请涉及的技术用语后，接下来，对本申请实施例的设计思想进行简单介绍。

目前，固定的PID参数无法适应空空弹的多阶段的飞行；工程设计人员一般通过选取特征点，对飞行过程进行分段，在特征点处分别设定PID参数，实现PID参数的增益调度。该方法一定程度上提高了不同飞行阶段的控制效果，但是同样增加了系统设计的难度。

为解决上述技术问题，本申请实施例提供了一种空空弹PID参数整定方法，基于强化学习实现PID参数自整定，而且能够在飞行全过程实时进行PID参数调整。

本申请实施例设计了一个强化学习网络，其输入是误差，输出是PID参数。强化学习网络离线训练完成后，可在弹载计算机上在线部署。强化学习网络训练中的奖励函数中加入了频域指标和比例系数，避免了单纯增大比例系数造成的时域指标上升，但频域指标下降的问题。既保留了PID控制器简单高效的优点，又弥补了传统固定参数PID或简单增益调度PID无法实时调整参数的问题，增强了控制器面对突发状况的鲁棒性。克服现有PID参数设计困难以及无法在线实时整定的问题。

本申请实施例中空空弹自动驾驶仪可以替换为任意对象的驾驶仪，PID参数的调节不针对特定控制对象；自动驾驶仪的结构可以改变，不特指内外环PID。

在介绍了本申请实施例的应用场景和设计思想之后，下面对本申请实施例提供的技术方案进行说明。

如图2所示，本申请实施例提供了一种空空弹PID参数整定方法，包括：

步骤101：从飞行器的控制指令中获取当前时刻的预期角度值；

其中，预期角度值包括：预期俯仰角，预期偏航角和预期滚动角；

步骤102：计算当前时刻的预期角度值和上一时刻的实际角度值的差，作为当前时刻的角度误差；

步骤103：通过预先训练完成的强化学习网络，对当前时刻的角度误差进行处理，得到至少一个当前时刻的PID参数；

利用PID参数对飞行器的自动驾驶仪进行控制时，可以采用两种方式：

第一种方式：采用一个PID控制器，如图3所示，

第二种方式：采用两个PID控制器：内环PID控制器和外环PID控制器，如图4所示。其中，b0为弹体的特性系数。

在本申请实施例中，设计了一个用于实现PID参数自整定的强化学习网络。当采用一个PID控制器时，强化学习网络的输入为角度误差，输出为一个PID参数。在强化学习网络的训练中，本申请实施例通过设计一个包含时域和频域指标的奖励函数，能够同时保证系统的时域响应和频域的稳定裕度。奖励函数设计如下：

计算奖励函数R ₁：

为平衡时域指标的权重，

为平衡增益代价的权重，

为平衡频域指标的权重；

当采用两个PID控制器时，强化学习网络的输入为角度误差，输出为两个PID控制器参数。奖励函数设计如下：

其中，Δφ为角度误差样本，K _po和K _pi分别为两个PID参数的比例系数，Pm为弾体的相角裕度，由输出的PID参数确定；Gm为弾体的幅值裕度，由输出的PID参数确定；β ₁为平衡时域指标的权重，β ₂为平衡增益代价的权重，β ₃为平衡频域指标的权重。

在强化学习网络的训练中，通过不断地迭代调整强化学习网络的参数，当奖励函数最大时，网络训练完毕。此外，为了保证系统的稳定性可以对强化学习网络输出的PID参数加上限幅。

当采用外环PID控制器和内环PID控制器共同控制弾体的飞行角度，通过预先训练完成的强化学习网络，对当前时刻的角度误差进行处理，得到外环PID控制器的当前时刻的第一PID参数，和内环PID控制器的当前时刻的第二PID参数。

步骤104：利用至少一个当前时刻的PID参数，对当前时刻的预期角度值和角度误差进行处理，得到当前时刻的实际角度值；

当采用一个PID控制器时，该步骤包括：

当采用两个PID控制器时，该步骤包括：

基于上述实施例，本申请实施例提供了一种空空弹PID参数整定装置，参阅图5所示，本申请实施例提供的一种空空弹PID参数整定装置200至少包括：

获取单元201，用于从飞行器的控制指令中获取当前时刻的预期角度值；

误差计算单元202，用于计算当前时刻的预期角度值和上一时刻的实际角度值的差，作为当前时刻的角度误差；

PID参数获取单元203，用于通过预先训练完成的强化学习网络，对当前时刻的角度误差进行处理，得到至少一个当前时刻的PID参数；

控制单元204，用于利用至少一个当前时刻的PID参数，对当前时刻的预期角度值和角度误差进行处理，得到当前时刻的实际角度值。

作为一种可能的实施方式，当所述强化学习网络输出一个PID参数，所述装置还包括：第一训练单元205，具体用于：

将角度误差样本输入强化学习网络，输出PID参数；

计算奖励函数R ₁：

为平衡时域指标的权重，

为平衡增益代价的权重，

为平衡频域指标的权重；

调整强化学习网络的参数，直至奖励函数R ₁达到最大值。

作为一种可能的实施方式，当采用一个PID控制器控制弾体的飞行角度，所述控制单元204具体用于：

当所述强化学习网络输出两个PID参数，所述装置还包括：第二训练单元206，具体用于：

将角度误差样本输入强化学习网络，输出PID参数；

计算奖励函数R ₂：

调整强化学习网络的参数，直至奖励函数R ₂达到最大值。

作为一种可能的实施方式，当采用外环PID控制器和内环PID控制器共同控制弾体的飞行角度，所述PID参数获取单元203具体用于：

作为一种可能的实施方式，当采用外环PID控制器和内环PID控制器共同控制弾体的飞行角度，所述控制单元204具体用于：

需要说明的是，本申请实施例提供的空空弹PID参数整定装置200解决技术问题的原理与本申请实施例提供的空空弹PID参数整定方法相似，因此，本申请实施例提供的空空弹PID参数整定装置200的实施可以参见本申请实施例提供的空空弹PID参数整定方法的实施，重复之处不再赘述。

基于上述实施例，本申请实施例还提供了一种电子设备，参阅图6所示，本申请实施例提供的电子设备300至少包括：处理器301、存储器302和存储在存储器302上并可在处理器301上运行的计算机程序，处理器301执行计算机程序时实现本申请实施例提供的空空弹PID参数整定方法。

本申请实施例提供的电子设备300还可以包括连接不同组件（包括处理器301和存储器302）的总线303。其中，总线303表示几类总线结构中的一种或多种，包括存储器总线、外围总线、局域总线等。

存储器302可以包括易失性存储器形式的可读介质，例如随机存储器（RandomAccess Memory，RAM）3021和/或高速缓存存储器3022，还可以进一步包括只读存储器（ReadOnly Memory，ROM）3023。

存储器302还可以包括具有一组（至少一个）程序模块3025的程序工具3024，程序模块3025包括但不限于：操作子系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

电子设备300也可以与一个或多个外部设备304（例如键盘、遥控器等）通信，还可以与一个或者多个使得用户能与电子设备300交互的设备通信（例如手机、电脑等），和/或，与使得电子设备300与一个或多个其它电子设备300进行通信的任何设备（例如路由器、调制解调器等）通信。这种通信可以通过输入/输出（Input /Output，I/O）接口305进行。并且，电子设备300还可以通过网络适配器306与一个或者多个网络（例如局域网（Local AreaNetwork，LAN），广域网（Wide Area Network，WAN）和/或公共网络，例如因特网）通信。如图6所示，网络适配器306通过总线303与电子设备300的其它模块通信。应当理解，尽管图6中未示出，可以结合电子设备300使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列（Redundant Arrays of IndependentDisks，RAID）子系统、磁带驱动器以及数据备份存储子系统等。

需要说明的是，图6所示的电子设备300仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机指令，该计算机指令被处理器执行时实现本申请实施例提供的空空弹PID参数整定方法。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。