CN114114898B - 空空弹pid参数整定方法、装置、电子设备及存储介质 - Google Patents
空空弹pid参数整定方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114114898B CN114114898B CN202210097072.7A CN202210097072A CN114114898B CN 114114898 B CN114114898 B CN 114114898B CN 202210097072 A CN202210097072 A CN 202210097072A CN 114114898 B CN114114898 B CN 114114898B
- Authority
- CN
- China
- Prior art keywords
- current moment
- pid
- pid parameter
- angle
- reinforcement learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000002787 reinforcement Effects 0.000 claims abstract description 65
- 238000012545 processing Methods 0.000 claims abstract description 19
- 230000008569 process Effects 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 9
- 230000001133 acceleration Effects 0.000 claims description 8
- 101100001676 Emericella variicolor andK gene Proteins 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000004069 differentiation Effects 0.000 abstract description 2
- 230000010354 integration Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 14
- 238000013461 design Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 229920001971 elastomer Polymers 0.000 description 1
- 239000000806 elastomer Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008713 feedback mechanism Effects 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B11/00—Automatic controllers
- G05B11/01—Automatic controllers electric
- G05B11/36—Automatic controllers electric with provision for obtaining particular characteristics, e.g. proportional, integral, differential
- G05B11/42—Automatic controllers electric with provision for obtaining particular characteristics, e.g. proportional, integral, differential for obtaining a characteristic which is both proportional and time-dependent, e.g. P. I., P. I. D.
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本申请提供了空空弹PID参数整定方法、装置、电子设备及存储介质,涉及导弹控制技术领域,具体为:从飞行器的控制指令中获取当前时刻的预期角度值;计算当前时刻的预期角度值和上一时刻的实际角度值的差,作为当前时刻的角度误差;通过预先训练完成的强化学习网络,对当前时刻的角度误差进行处理,得到至少一个当前时刻的PID参数;利用至少一个当前时刻的PID参数,对当前时刻的预期角度值和角度误差进行处理,得到当前时刻的实际角度值。本申请实施例通过预先训练好的强化学习网络实时生成PID参数,由此实现空空弹的自动驾驶仪的PID参数的实时整定。
Description
技术领域
本申请涉及导弹控制技术领域,尤其是涉及空空弹PID参数整定方法、装置、电子设备及存储介质。
背景技术
随着火箭发动机技术的不断成熟以及导弹气动外形设计的持续研究,目前空空弹性能已经得到大幅提升,拥有更强的机动能力。空空弹的自动驾驶仪是保证空空弹稳定飞行、保证导弹命中精度的重要一环;而导弹设计日益复杂化为自动驾驶仪的参数设置带来更大的挑战。
比例-积分-微分(Proportion Integration Differentiation,比例-积分-微分)因其结构简单,稳定可靠而作为工程上最常使用的自动控制器。传统的PID控制参数整定依赖控制人员的工程经验,因而需要反复进行迭代调整。但是固定的PID参数无法适应空空弹的多阶段的飞行;工程设计人员一般通过选取特征点,对飞行过程进行分段,在特征点处分别设定PID参数,实现PID参数的增益调度。该方法一定程度上提高了不同飞行阶段的控制效果,但是同样增加了系统设计的难度。
发明内容
有鉴于此,本申请空空弹PID参数整定方法、装置、电子设备及存储介质,以解决现有技术存在的空空弹自动驾驶仪的PID控制器参数设计困难以及无法在线实时整定的技术问题。
一方面,本申请实施例提供了一种空空弹PID参数整定方法,包括:
从飞行器的控制指令中获取当前时刻的预期角度值;
计算当前时刻的预期角度值和上一时刻的实际角度值的差,作为当前时刻的角度误差;
通过预先训练完成的强化学习网络,对当前时刻的角度误差进行处理,得到至少一个当前时刻的PID参数;
利用至少一个当前时刻的PID参数,对当前时刻的预期角度值和角度误差进行处理,得到当前时刻的实际角度值。
进一步的,当所述强化学习网络输出一个PID参数,所述强化学习网络的训练过程包括:
将角度误差样本输入强化学习网络,输出PID参数;
计算奖励函数R 1:
其中,Δφ为角度误差样本,K p 为PID参数的比例系数,Pm为弾体的相角裕度,由输
出的PID参数确定;Gm为弾体的幅值裕度,由输出的PID参数确定;为平衡时域指标的权
重,为平衡增益代价的权重,为平衡频域指标的权重;
调整强化学习网络的参数,直至奖励函数R 1达到最大值。
进一步的,当采用一个PID控制器控制弾体的飞行角度,所述利用至少一个当前时刻的PID参数,对当前时刻的预期角度值和角度误差进行处理,得到当前时刻的实际角度值;包括:
PID控制器利用当前时刻的PID参数,对当前时刻的预期角度值和角度误差进行处理,得到当前时刻的实际角速度值;
对当前时刻的实际角速度值进行积分,得到当前时刻的实际角度值。
进一步的,当所述强化学习网络输出两个PID参数,所述强化学习网络的训练过程包括:
将角度误差样本输入强化学习网络,输出PID参数;
计算奖励函数R 2:
其中,Δφ为角度误差样本,K po 和K pi 分别为两个PID参数的比例系数,Pm为弾体的相角裕度,由输出的PID参数确定;Gm为弾体的幅值裕度,由输出的PID参数确定;β 1为平衡时域指标的权重,β 2为平衡增益代价的权重,β 3为平衡频域指标的权重;
调整强化学习网络的参数,直至奖励函数R 2达到最大值。
进一步的,当采用外环PID控制器和内环PID控制器共同控制弾体的飞行角度,通过预先训练完成的强化学习网络,对当前时刻的角度误差进行处理,得到至少一个当前时刻的PID参数;包括:
通过预先训练完成的强化学习网络,对当前时刻的角度误差进行处理,得到外环PID控制器的当前时刻的第一PID参数,和内环PID控制器的当前时刻的第二PID参数。
进一步的,当采用外环PID控制器和内环PID控制器共同控制弾体的飞行角度,所述利用至少一个当前时刻的PID参数,对当前时刻的预期角度值和角度误差进行处理,得到当前时刻的实际角度值;包括:
外环PID控制器利用当前时刻的第一PID参数,对当前时刻的预期角度值和角度误差进行处理,得到当前时刻的预期角速度值;
内环PID控制器利用当前时刻的第二PID参数,对当前时刻的预期角速度值和角速度误差进行处理,得到当前时刻的实际角加速度值;所述角速度误差为当前时刻的预期角速度值和上一时刻的实际角速度值的差;
对当前时刻的实际角加速度值进行积分,得到当前时刻的实际角速度值;
对当前时刻的实际角速度值进行积分,得到当前时刻的实际角度值。
另一方面,本申请实施例提供了一种空空弹PID参数整定装置,包括:
获取单元,用于从飞行器的控制指令中获取当前时刻的预期角度值;
误差计算单元,用于计算当前时刻的预期角度值和上一时刻的实际角度值的差,作为当前时刻的角度误差;
PID参数获取单元,用于通过预先训练完成的强化学习网络,对当前时刻的角度误差进行处理,得到至少一个当前时刻的PID参数;
控制单元,用于利用至少一个当前时刻的PID参数,对当前时刻的预期角度值和角度误差进行处理,得到当前时刻的实际角度值。
另一方面,本申请实施例提供了一种电子设备,包括:存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例的空空弹PID参数整定方法。
另一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时实现本申请实施例的空空弹PID参数整定方法。
本申请实施例通过预先训练好的强化学习网络实时生成PID参数,由此实现空空弹的自动驾驶仪的PID参数的实时整定。
附图说明
为了更清楚地说明本申请具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为强化学习策略的示意图;
图2为本申请实施例提供的空空弹PID参数整定方法的流程图;
图3为本申请实施例提供的一个PID控制器的参数整定示意图;
图4为本申请实施例提供的两个PID控制器的参数整定示意图;
图5为本申请实施例提供的空空弹PID参数整定装置的功能结构示意图;
图6为本申请实施例提供的电子设备的硬件结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为便于本领域技术人员更好地理解本申请,下面先对本申请涉及的技术用语进行简单介绍。
1、强化学习,是指一种通过不断与环境进行交互,能够自主学习的最优策略,被认为是最有可能实现通用人工智能计算的重要途径之一。强化学习讨论的问题是一个智能体如何在复杂不确定的环境中极大化它获得的奖励。在强化学习中,智能体与环境的交互方式如图1所示。这个过程可以通过马尔科夫决策过程表示。
马尔科夫决策过程可以使用元组(S,A,T,R,γ)表示。其中,S是有限的状态空间集合;A是有限的行为空间集合;T是状态转移模型:
R是奖励函数:
γ是衰减因子,γ ∈[0,1]。
给定马尔科夫决策过程的策略π:
定义回报函数G t :
2、PID控制是控制领域最为广泛使用的一种控制方式,传统的PID控制是基于输出误差的反馈机制,主要是指PID调节器,其具体形式可表述如下:
其中,K p 为比例增益,K i 为积分增益,K d 为微分增益,PID控制虽然具有结构简单、容易实现的特点,但要想利用PID控制系统实现控制,往往需要人工对K p 、K i 和K d 这三个参数进行繁琐地整定调节。
在介绍了本申请涉及的技术用语后,接下来,对本申请实施例的设计思想进行简单介绍。
目前,固定的PID参数无法适应空空弹的多阶段的飞行;工程设计人员一般通过选取特征点,对飞行过程进行分段,在特征点处分别设定PID参数,实现PID参数的增益调度。该方法一定程度上提高了不同飞行阶段的控制效果,但是同样增加了系统设计的难度。
为解决上述技术问题,本申请实施例提供了一种空空弹PID参数整定方法,基于强化学习实现PID参数自整定,而且能够在飞行全过程实时进行PID参数调整。
本申请实施例设计了一个强化学习网络,其输入是误差,输出是PID参数。强化学习网络离线训练完成后,可在弹载计算机上在线部署。强化学习网络训练中的奖励函数中加入了频域指标和比例系数,避免了单纯增大比例系数造成的时域指标上升,但频域指标下降的问题。既保留了PID控制器简单高效的优点,又弥补了传统固定参数PID或简单增益调度PID无法实时调整参数的问题,增强了控制器面对突发状况的鲁棒性。克服现有PID参数设计困难以及无法在线实时整定的问题。
本申请实施例中空空弹自动驾驶仪可以替换为任意对象的驾驶仪,PID参数的调节不针对特定控制对象;自动驾驶仪的结构可以改变,不特指内外环PID。
在介绍了本申请实施例的应用场景和设计思想之后,下面对本申请实施例提供的技术方案进行说明。
如图2所示,本申请实施例提供了一种空空弹PID参数整定方法,包括:
步骤101:从飞行器的控制指令中获取当前时刻的预期角度值;
其中,预期角度值包括:预期俯仰角,预期偏航角和预期滚动角;
步骤102:计算当前时刻的预期角度值和上一时刻的实际角度值的差,作为当前时刻的角度误差;
步骤103:通过预先训练完成的强化学习网络,对当前时刻的角度误差进行处理,得到至少一个当前时刻的PID参数;
利用PID参数对飞行器的自动驾驶仪进行控制时,可以采用两种方式:
第一种方式:采用一个PID控制器,如图3所示,
第二种方式:采用两个PID控制器:内环PID控制器和外环PID控制器,如图4所示。其中,b0为弹体的特性系数。
在本申请实施例中,设计了一个用于实现PID参数自整定的强化学习网络。当采用一个PID控制器时,强化学习网络的输入为角度误差,输出为一个PID参数。在强化学习网络的训练中,本申请实施例通过设计一个包含时域和频域指标的奖励函数,能够同时保证系统的时域响应和频域的稳定裕度。奖励函数设计如下:
计算奖励函数R 1:
其中,Δφ为角度误差样本,K p 为PID参数的比例系数,Pm为弾体的相角裕度,由输
出的PID参数确定;Gm为弾体的幅值裕度,由输出的PID参数确定;为平衡时域指标的权
重,为平衡增益代价的权重,为平衡频域指标的权重;
当采用两个PID控制器时,强化学习网络的输入为角度误差,输出为两个PID控制器参数。奖励函数设计如下:
其中,Δφ为角度误差样本,K po 和K pi 分别为两个PID参数的比例系数,Pm为弾体的相角裕度,由输出的PID参数确定;Gm为弾体的幅值裕度,由输出的PID参数确定;β 1为平衡时域指标的权重,β 2为平衡增益代价的权重,β 3为平衡频域指标的权重。
在强化学习网络的训练中,通过不断地迭代调整强化学习网络的参数,当奖励函数最大时,网络训练完毕。此外,为了保证系统的稳定性可以对强化学习网络输出的PID参数加上限幅。
当采用外环PID控制器和内环PID控制器共同控制弾体的飞行角度,通过预先训练完成的强化学习网络,对当前时刻的角度误差进行处理,得到外环PID控制器的当前时刻的第一PID参数,和内环PID控制器的当前时刻的第二PID参数。
步骤104:利用至少一个当前时刻的PID参数,对当前时刻的预期角度值和角度误差进行处理,得到当前时刻的实际角度值;
当采用一个PID控制器时,该步骤包括:
PID控制器利用当前时刻的PID参数,对当前时刻的预期角度值和角度误差进行处理,得到当前时刻的实际角速度值;
对当前时刻的实际角速度值进行积分,得到当前时刻的实际角度值。
当采用两个PID控制器时,该步骤包括:
外环PID控制器利用当前时刻的第一PID参数,对当前时刻的预期角度值和角度误差进行处理,得到当前时刻的预期角速度值;
内环PID控制器利用当前时刻的第二PID参数,对当前时刻的预期角速度值和角速度误差进行处理,得到当前时刻的实际角加速度值;所述角速度误差为当前时刻的预期角速度值和上一时刻的实际角速度值的差;
对当前时刻的实际角加速度值进行积分,得到当前时刻的实际角速度值;
对当前时刻的实际角速度值进行积分,得到当前时刻的实际角度值。
基于上述实施例,本申请实施例提供了一种空空弹PID参数整定装置,参阅图5所示,本申请实施例提供的一种空空弹PID参数整定装置200至少包括:
获取单元201,用于从飞行器的控制指令中获取当前时刻的预期角度值;
误差计算单元202,用于计算当前时刻的预期角度值和上一时刻的实际角度值的差,作为当前时刻的角度误差;
PID参数获取单元203,用于通过预先训练完成的强化学习网络,对当前时刻的角度误差进行处理,得到至少一个当前时刻的PID参数;
控制单元204,用于利用至少一个当前时刻的PID参数,对当前时刻的预期角度值和角度误差进行处理,得到当前时刻的实际角度值。
作为一种可能的实施方式,当所述强化学习网络输出一个PID参数,所述装置还包括:第一训练单元205,具体用于:
将角度误差样本输入强化学习网络,输出PID参数;
计算奖励函数R 1:
其中,Δφ为角度误差样本,K p 为PID参数的比例系数,Pm为弾体的相角裕度,由输
出的PID参数确定;Gm为弾体的幅值裕度,由输出的PID参数确定;为平衡时域指标的权
重,为平衡增益代价的权重,为平衡频域指标的权重;
调整强化学习网络的参数,直至奖励函数R 1达到最大值。
作为一种可能的实施方式,当采用一个PID控制器控制弾体的飞行角度,所述控制单元204具体用于:
PID控制器利用当前时刻的PID参数,对当前时刻的预期角度值和角度误差进行处理,得到当前时刻的实际角速度值;
对当前时刻的实际角速度值进行积分,得到当前时刻的实际角度值。
当所述强化学习网络输出两个PID参数,所述装置还包括:第二训练单元206,具体用于:
将角度误差样本输入强化学习网络,输出PID参数;
计算奖励函数R 2:
其中,Δφ为角度误差样本,K po 和K pi 分别为两个PID参数的比例系数,Pm为弾体的相角裕度,由输出的PID参数确定;Gm为弾体的幅值裕度,由输出的PID参数确定;β 1为平衡时域指标的权重,β 2为平衡增益代价的权重,β 3为平衡频域指标的权重;
调整强化学习网络的参数,直至奖励函数R 2达到最大值。
作为一种可能的实施方式,当采用外环PID控制器和内环PID控制器共同控制弾体的飞行角度,所述PID参数获取单元203具体用于:
通过预先训练完成的强化学习网络,对当前时刻的角度误差进行处理,得到外环PID控制器的当前时刻的第一PID参数,和内环PID控制器的当前时刻的第二PID参数。
作为一种可能的实施方式,当采用外环PID控制器和内环PID控制器共同控制弾体的飞行角度,所述控制单元204具体用于:
外环PID控制器利用当前时刻的第一PID参数,对当前时刻的预期角度值和角度误差进行处理,得到当前时刻的预期角速度值;
内环PID控制器利用当前时刻的第二PID参数,对当前时刻的预期角速度值和角速度误差进行处理,得到当前时刻的实际角加速度值;所述角速度误差为当前时刻的预期角速度值和上一时刻的实际角速度值的差;
对当前时刻的实际角加速度值进行积分,得到当前时刻的实际角速度值;
对当前时刻的实际角速度值进行积分,得到当前时刻的实际角度值。
需要说明的是,本申请实施例提供的空空弹PID参数整定装置200解决技术问题的原理与本申请实施例提供的空空弹PID参数整定方法相似,因此,本申请实施例提供的空空弹PID参数整定装置200的实施可以参见本申请实施例提供的空空弹PID参数整定方法的实施,重复之处不再赘述。
基于上述实施例,本申请实施例还提供了一种电子设备,参阅图6所示,本申请实施例提供的电子设备300至少包括:处理器301、存储器302和存储在存储器302上并可在处理器301上运行的计算机程序,处理器301执行计算机程序时实现本申请实施例提供的空空弹PID参数整定方法。
本申请实施例提供的电子设备300还可以包括连接不同组件(包括处理器301和存储器302)的总线303。其中,总线303表示几类总线结构中的一种或多种,包括存储器总线、外围总线、局域总线等。
存储器302可以包括易失性存储器形式的可读介质,例如随机存储器(RandomAccess Memory,RAM)3021和/或高速缓存存储器3022,还可以进一步包括只读存储器(ReadOnly Memory,ROM)3023。
存储器302还可以包括具有一组(至少一个)程序模块3025的程序工具3024,程序模块3025包括但不限于:操作子系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
电子设备300也可以与一个或多个外部设备304(例如键盘、遥控器等)通信,还可以与一个或者多个使得用户能与电子设备300交互的设备通信(例如手机、电脑等),和/或,与使得电子设备300与一个或多个其它电子设备300进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(Input /Output,I/O)接口305进行。并且,电子设备300还可以通过网络适配器306与一个或者多个网络(例如局域网(Local AreaNetwork,LAN),广域网(Wide Area Network,WAN)和/或公共网络,例如因特网)通信。如图6所示,网络适配器306通过总线303与电子设备300的其它模块通信。应当理解,尽管图6中未示出,可以结合电子设备300使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of IndependentDisks,RAID)子系统、磁带驱动器以及数据备份存储子系统等。
需要说明的是,图6所示的电子设备300仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机指令,该计算机指令被处理器执行时实现本申请实施例提供的空空弹PID参数整定方法。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (9)
1.一种空空弹PID参数整定方法,其特征在于,包括:
从飞行器的控制指令中获取当前时刻的预期角度值;
计算当前时刻的预期角度值和上一时刻的实际角度值的差,作为当前时刻的角度误差;
通过预先训练完成的强化学习网络,对当前时刻的角度误差进行处理,得到至少一个当前时刻的PID参数;
利用至少一个当前时刻的PID参数,对当前时刻的预期角度值和角度误差进行处理,得到当前时刻的实际角度值;
当所述强化学习网络输出一个PID参数,所述强化学习网络的训练过程包括:
将角度误差样本输入强化学习网络,输出PID参数;
计算奖励函数R 1:
其中,Δφ为角度误差样本,K p 为PID参数的比例系数,Pm为弹体的相角裕度,由输出的PID参数确定;Gm为弹体的幅值裕度,由输出的PID参数确定;为平衡时域指标的权重,为平衡增益代价的权重,为平衡频域指标的权重;
调整强化学习网络的参数,直至奖励函数R 1达到最大值。
2.根据权利要求1所述的空空弹PID参数整定方法,其特征在于,当采用一个PID控制器控制弹体的飞行角度,所述利用至少一个当前时刻的PID参数,对当前时刻的预期角度值和角度误差进行处理,得到当前时刻的实际角度值;包括:
PID控制器利用当前时刻的PID参数,对当前时刻的预期角度值和角度误差进行处理,得到当前时刻的实际角速度值;
对当前时刻的实际角速度值进行积分,得到当前时刻的实际角度值。
3.一种空空弹PID参数整定方法,其特征在于,包括:
从飞行器的控制指令中获取当前时刻的预期角度值;
计算当前时刻的预期角度值和上一时刻的实际角度值的差,作为当前时刻的角度误差;
通过预先训练完成的强化学习网络,对当前时刻的角度误差进行处理,得到至少一个当前时刻的PID参数;
利用至少一个当前时刻的PID参数,对当前时刻的预期角度值和角度误差进行处理,得到当前时刻的实际角度值;
当所述强化学习网络输出两个PID参数,所述强化学习网络的训练过程包括:
将角度误差样本输入强化学习网络,输出PID参数;
计算奖励函数R 2:
其中,Δφ为角度误差样本,K po 和K pi 分别为两个PID参数的比例系数,Pm为弹体的相角裕度,由输出的PID参数确定;Gm为弹体的幅值裕度,由输出的PID参数确定;β 1为平衡时域指标的权重,β 2为平衡增益代价的权重,β 3为平衡频域指标的权重;
调整强化学习网络的参数,直至奖励函数R 2达到最大值。
4.根据权利要求3所述的空空弹PID参数整定方法,其特征在于,当采用外环PID控制器和内环PID控制器共同控制弹体的飞行角度,通过预先训练完成的强化学习网络,对当前时刻的角度误差进行处理,得到至少一个当前时刻的PID参数;包括:
通过预先训练完成的强化学习网络,对当前时刻的角度误差进行处理,得到外环PID控制器的当前时刻的第一PID参数,和内环PID控制器的当前时刻的第二PID参数。
5.根据权利要求4所述的空空弹PID参数整定方法,其特征在于,当采用外环PID控制器和内环PID控制器共同控制弹体的飞行角度,所述利用至少一个当前时刻的PID参数,对当前时刻的预期角度值和角度误差进行处理,得到当前时刻的实际角度值;包括:
外环PID控制器利用当前时刻的第一PID参数,对当前时刻的预期角度值和角度误差进行处理,得到当前时刻的预期角速度值;
内环PID控制器利用当前时刻的第二PID参数,对当前时刻的预期角速度值和角速度误差进行处理,得到当前时刻的实际角加速度值;所述角速度误差为当前时刻的预期角速度值和上一时刻的实际角速度值的差;
对当前时刻的实际角加速度值进行积分,得到当前时刻的实际角速度值;
对当前时刻的实际角速度值进行积分,得到当前时刻的实际角度值。
6.一种空空弹PID参数整定装置,其特征在于,包括:
获取单元,用于从飞行器的控制指令中获取当前时刻的预期角度值;
误差计算单元,用于计算当前时刻的预期角度值和上一时刻的实际角度值的差,作为当前时刻的角度误差;
PID参数获取单元,用于通过预先训练完成的强化学习网络,对当前时刻的角度误差进行处理,得到至少一个当前时刻的PID参数;
控制单元,用于利用至少一个当前时刻的PID参数,对当前时刻的预期角度值和角度误差进行处理,得到当前时刻的实际角度值;
当所述强化学习网络输出一个PID参数,所述强化学习网络的训练过程包括:
将角度误差样本输入强化学习网络,输出PID参数;
计算奖励函数R 1:
其中,Δφ为角度误差样本,K p 为PID参数的比例系数,Pm为弹体的相角裕度,由输出的PID参数确定;Gm为弹体的幅值裕度,由输出的PID参数确定;为平衡时域指标的权重,为平衡增益代价的权重,为平衡频域指标的权重;
调整强化学习网络的参数,直至奖励函数R 1达到最大值。
7.一种空空弹PID参数整定装置,其特征在于,包括:
获取单元,用于从飞行器的控制指令中获取当前时刻的预期角度值;
误差计算单元,用于计算当前时刻的预期角度值和上一时刻的实际角度值的差,作为当前时刻的角度误差;
PID参数获取单元,用于通过预先训练完成的强化学习网络,对当前时刻的角度误差进行处理,得到至少一个当前时刻的PID参数;
控制单元,用于利用至少一个当前时刻的PID参数,对当前时刻的预期角度值和角度误差进行处理,得到当前时刻的实际角度值;
当所述强化学习网络输出两个PID参数,所述强化学习网络的训练过程包括:
将角度误差样本输入强化学习网络,输出PID参数;
计算奖励函数R 2:
其中,Δφ为角度误差样本,K po 和K pi 分别为两个PID参数的比例系数,Pm为弹体的相角裕度,由输出的PID参数确定;Gm为弹体的幅值裕度,由输出的PID参数确定;β 1为平衡时域指标的权重,β 2为平衡增益代价的权重,β 3为平衡频域指标的权重;
调整强化学习网络的参数,直至奖励函数R 2达到最大值。
8.一种电子设备,其特征在于,包括:存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-2任一项所述的空空弹PID参数整定方法或3-5任一项所述的空空弹PID参数整定方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时实现如权利要求1-2任一项所述的空空弹PID参数整定方法或3-5任一项所述的空空弹PID参数整定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210097072.7A CN114114898B (zh) | 2022-01-27 | 2022-01-27 | 空空弹pid参数整定方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210097072.7A CN114114898B (zh) | 2022-01-27 | 2022-01-27 | 空空弹pid参数整定方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114114898A CN114114898A (zh) | 2022-03-01 |
CN114114898B true CN114114898B (zh) | 2022-04-12 |
Family
ID=80361194
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210097072.7A Active CN114114898B (zh) | 2022-01-27 | 2022-01-27 | 空空弹pid参数整定方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114114898B (zh) |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6185470B1 (en) * | 1997-11-07 | 2001-02-06 | Mcdonnell Douglas Corporation | Neural network predictive control method and system |
CN105700538B (zh) * | 2016-01-28 | 2019-04-12 | 武汉光庭信息技术股份有限公司 | 基于神经网络和pid算法的轨迹跟随方法 |
CN106066644A (zh) * | 2016-06-17 | 2016-11-02 | 百度在线网络技术(北京)有限公司 | 建立智能车辆控制模型的方法、智能车辆控制方法及装置 |
CN109470238B (zh) * | 2017-09-08 | 2023-09-01 | 中兴通讯股份有限公司 | 一种定位方法、装置和移动终端 |
CN109343343A (zh) * | 2018-09-19 | 2019-02-15 | 广州大学 | 基于深度学习与深度神经网络的舵机控制系统及方法 |
CN111614299A (zh) * | 2020-05-29 | 2020-09-01 | 上海海事大学 | 一种基于蚁群优化pid永磁同步电机直接转矩控制方法 |
CN111882047B (zh) * | 2020-09-28 | 2021-01-15 | 四川大学 | 一种基于强化学习与线性规划的快速空管防冲突方法 |
CN112959321B (zh) * | 2021-02-10 | 2022-03-11 | 桂林电子科技大学 | 基于改进pi结构的机器人柔性关节转换误差补偿方法 |
CN113306573B (zh) * | 2021-06-23 | 2022-08-16 | 湖南大学 | 一种自动驾驶车辆学习型路径跟踪预测控制方法 |
CN113467453A (zh) * | 2021-07-05 | 2021-10-01 | 天津理工大学 | 巡检机器人和基于模糊pid控制巡检机器人行驶的方法 |
CN113239472B (zh) * | 2021-07-09 | 2021-09-21 | 中国科学院自动化研究所 | 一种基于强化学习的导弹制导方法和装置 |
-
2022
- 2022-01-27 CN CN202210097072.7A patent/CN114114898B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114114898A (zh) | 2022-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110806759B (zh) | 一种基于深度强化学习的飞行器航线跟踪方法 | |
CN114253296B (zh) | 高超声速飞行器机载轨迹规划方法、装置、飞行器及介质 | |
Emami et al. | Neural network-based flight control systems: Present and future | |
Zeghlache et al. | Fault tolerant control based on interval type-2 fuzzy sliding mode controller for coaxial trirotor aircraft | |
US11524767B2 (en) | Methods and systems for flight control configured for use in an electric aircraft | |
Zheng et al. | A turboshaft engine NMPC scheme for helicopter autorotation recovery maneuver | |
CN110989669A (zh) | 一种多级助推滑翔飞行器主动段在线自适应制导算法 | |
US11822328B2 (en) | Methods and systems for flight control configured for use in an electric aircraft | |
An et al. | Adaptive controller design for a switched model of air-breathing hypersonic vehicles | |
CN116520909A (zh) | 哈里斯鹰算法优化模糊pid参数的高值耗材柜温度控制方法 | |
CN114114898B (zh) | 空空弹pid参数整定方法、装置、电子设备及存储介质 | |
Yiyang et al. | Direct thrust control for multivariable turbofan engine based on affine linear parameter-varying approach | |
CN115576353A (zh) | 一种基于深度强化学习的飞行器编队控制方法 | |
CN112817334B (zh) | 一种滑翔飞行器的弹道设计方法、装置及存储介质 | |
CN116700107A (zh) | 一种控制器参数确定方法、装置、设备及可读存储介质 | |
Dong et al. | Trial input method and own-aircraft state prediction in autonomous air combat | |
CN116755323A (zh) | 一种基于深度强化学习的多旋翼无人机pid自整定方法 | |
Almutairi et al. | Reconfigurable dynamic control allocation for aircraft with actuator failures | |
Shao et al. | Design of a gust-response-alleviation online control system based on neuro-fuzzy theory | |
Lun et al. | A fixed-time disturbance rejection control framework based on artificial intelligence for the flight environment testbed system | |
Vural et al. | A comparison of longitudinal controllers for autonomous UAV | |
Liu et al. | Trajectory Tracking Control for Flapping-wing UAV Based on Model-Free Predictive Control | |
Wang et al. | Adaptive Online Optimization Control Method Based on Reinforcement Learning | |
Andropov et al. | Synthesis of artificial network based flight controller using genetic algorithms | |
CN118034071B (zh) | 飞行器控制分配方法、装置、飞行器、存储介质及产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |