CN117784586A - 一种适用于亚音速飞行器的pid参数设计方法 - Google Patents
一种适用于亚音速飞行器的pid参数设计方法 Download PDFInfo
- Publication number
- CN117784586A CN117784586A CN202311775251.2A CN202311775251A CN117784586A CN 117784586 A CN117784586 A CN 117784586A CN 202311775251 A CN202311775251 A CN 202311775251A CN 117784586 A CN117784586 A CN 117784586A
- Authority
- CN
- China
- Prior art keywords
- aircraft
- neural network
- data
- pid
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000013461 design Methods 0.000 title claims abstract description 17
- 238000013528 artificial neural network Methods 0.000 claims abstract description 69
- 230000002787 reinforcement Effects 0.000 claims abstract description 43
- 230000004044 response Effects 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 10
- 238000003062 neural network model Methods 0.000 claims abstract description 7
- 230000008713 feedback mechanism Effects 0.000 claims abstract description 4
- 230000003993 interaction Effects 0.000 claims abstract description 4
- 230000009471 action Effects 0.000 claims description 36
- 230000009977 dual effect Effects 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 15
- 238000011156 evaluation Methods 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 10
- 230000000694 effects Effects 0.000 claims description 9
- 238000005265 energy consumption Methods 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000007613 environmental effect Effects 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 230000008901 benefit Effects 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000011217 control strategy Methods 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 230000007774 longterm Effects 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000004088 simulation Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 abstract description 5
- 230000006978 adaptation Effects 0.000 abstract 1
- 230000006399 behavior Effects 0.000 description 7
- RZVHIXYEVGDQDX-UHFFFAOYSA-N 9,10-anthraquinone Chemical compound C1=CC=C2C(=O)C3=CC=CC=C3C(=O)C2=C1 RZVHIXYEVGDQDX-UHFFFAOYSA-N 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 101001095231 Homo sapiens Peptidyl-prolyl cis-trans isomerase D Proteins 0.000 description 1
- 102100037827 Peptidyl-prolyl cis-trans isomerase D Human genes 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000010006 flight Effects 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
Landscapes
- Feedback Control In General (AREA)
Abstract
本发明公开了一种适用于亚音速飞行器的PID参数设计方法,包括如下步骤:S1、利用神经网络结构学习和模拟亚音速飞行器的动态响应,根据飞行器的历史飞行数据进行训练;S2、通过数据预处理程序实时处理飞行器传感器数据,并生成适合神经网络输入的格式;S3、应用强化学习算法通过与神经网络模型交互,不断调整PID参数并对飞行器的控制性能进行实时优化;S4、设置反馈机制,根据飞行器的实际飞行表现和神经网络的预测结果,动态调整神经网络和强化学习算法的参数,进一步优化PID参数调整策略。本发明通过引入神经网络和强化学习算法,能够实时调整PID参数,以适应飞行环境的变化。这种自适应性显著提高了飞行器在面对不同飞行条件时的控制效果。
Description
技术领域
本发明涉及飞行器技术领域,尤其涉及一种适用于亚音速飞行器的PID参数设计方法。
背景技术
现有技术在亚音速飞行器的控制系统设计中,普遍采用传统的比例-积分-微分(PID)控制器。PID控制器因其结构简单、易于实现和理解,在许多工业和航空领域中被广泛使用。
传统PID控制器通过设定比例(P)、积分(I)和微分(D)三个参数,对飞行器的动态行为进行调节,以实现稳定和准确的飞行控制。然而,这种传统的PID控制器存在显著的缺陷。首先,PID参数通常是固定的,缺乏自适应性,使得控制器难以应对复杂或变化的飞行环境。例如,在极端气象条件或突发紧急情况下,固定参数的PID控制器可能无法提供满意的控制效果。其次,传统PID控制器在面对非线性系统或系统参数变化时表现不佳,因为它们无法自动调整参数以适应这些变化。此外,这些控制器通常需要专家知识和经验来手动调整参数,这不仅耗时而且效率低下。因此,如何提供一种适用于亚音速飞行器的PID参数设计方法是本领域技术人员亟需解决的问题。
发明内容
本发明的一个目的在于提出一种适用于亚音速飞行器的PID参数设计方法,本发明通过引入神经网络和强化学习算法,能够实时调整PID参数,以适应飞行环境的变化。这种自适应性显著提高了飞行器在面对不同飞行条件时的控制效果,保证了飞行的稳定性和安全性。
根据本发明实施例的一种适用于亚音速飞行器的PID参数设计方法,包括如下步骤:
S1、利用神经网络结构学习和模拟亚音速飞行器的动态响应,根据飞行器的历史飞行数据进行训练;
S2、通过数据预处理程序实时处理飞行器传感器数据,并生成适合神经网络输入的格式;
S3、应用强化学习算法通过与神经网络模型交互,不断调整PID参数并对飞行器的控制性能进行实时优化;
S4、设置反馈机制,根据飞行器的实际飞行表现和神经网络的预测结果,动态调整神经网络和强化学习算法的参数,进一步优化PID参数调整策略。
可选的,所述S1具体包括:
S11、选取适合飞行器动态建模的神经网络架构,所述神经网络架构包括多层感知机或循环神经网络,用于处理时间序列数据;
S12、收集飞行器在不同飞行条件下的数据集,所述数据集包括飞行速度、高度、姿态、气温和风速,作为神经网络的训练数据;
S13、对收集的数据进行归一化和去噪处理;
S14、使用损失函数训练神经网络:
其中,L(ω)表示以神经网络参数ω为变量的损失函数,N为训练样本数量,yi为第i个样本的真实输出,f(xi;ω)为神经网络对第i个样本输入xi的预测输出。
可选的,所述S2具体包括:
S21、通过数据接收模块从飞行器的各种传感器收集原始飞行数据;
S22、通过数据清洗子模块从原始数据中移除噪声和异常值;
S23、将各种传感器的原始数据转换为神经网络能够有效处理的格式,将多维数据进行归一化处理:
其中,x表示原始数据,x′表示归一化后的数据,max(x)和min(x)分别表示数据集中的最大值和最小值。
可选的,所述S3具体包括:
S31、选择适用于控制系统优化的强化学习算法;
S32、定义强化学习的状态空间、动作空间和奖励函数,所述状态空间包括飞行器的各种飞行参数和环境条件,所述动作空间由PID控制器的参数变化构成,所述奖励函数基于飞行器的性能指标,包括稳定性、响应速度或能耗;
S33、利用神经网络预测的飞行器动态响应,作为强化学习算法的输入,用于评估不同PID参数配置下的性能;
S34、采用以下强化学习目标函数来指导PID参数的优化:
其中,J(θ)表示以PID参数θ为变量的总体性能指标,R(st,at)为在状态st下采取行动at所获得的即时奖励,γ为折扣因子,用于平衡即时奖励与长期收益,T为考虑的时间范围;
S35、实现学习循环,其中,强化学习算法根据飞行器的实际表现和模拟结果不断调整PID参数。
可选的,所述S31中强化学习算法选用双重深度Q网络:
S311、选用双重深度Q网络,所述双重深度Q网络使用两个深度神经网络:行动评估网络用于选择最佳动作,目标网络用于评估该动作的预期奖励;
S312、定义双重深度Q网络的行动评估网络和目标网络的结构,包括输入层、多个隐藏层以及输出层,网络的输入为飞行器的状态,输出为每个可能动作的预期奖励值;
S313、实现双重深度Q网络的学习过程,其中所述行动评估网络定期更新其参数,所述目标网络的参数更新相对行动评估网络较慢,用于提供学习目标;
S314、在双重深度Q网络中使用以下更新规则:
其中,Q更新(s,a)是更新后的Q值,Q(s,a)是当前状态s下采取动作a的原始Q值,α是学习率,R是即时奖励,γ是折扣因子,是目标网络在下一个状态s′下所有可能动作的最大Q值。
可选的,所述S35具体包括:
S351、利用从双重深度Q网络获得的最优PID参数设置,配置飞行器的PID控制器,包括设置比例系数、积分系数和微分系数的具体数值;
S352、实施自动调整机制,所述自动调整机制根据双重深度Q网络的输出动态调整PID参数,实时监测飞行器的性能,并根据性能反馈调整PID参数:
其中,u(t)是控制器输出,Kp、Ki和Kd分别是经过优化的比例、积分和微分系数,e(t)是当前时刻的误差信号,t是时间;
S353、通过连续监测飞行器稳定性、响应时间和能耗的飞行表现,评估PID参数调整的效果,并据此进一步微调PID参数。
可选的,所述S4具体包括:
S41、建立反馈系统,用于收集飞行器在实际飞行中控制系统的响应时间、稳定性指标和能耗的性能数据;
S42、将收集到的实际飞行性能数据与神经网络预测的飞行器动态响应进行比较,评估PID参数调整的实际效果:
其中,E表示平均误差,N为评估样本数量,y实际,i为第i个样本的实际飞行性能数据,y预测,i为相应的神经网络预测数据;
S43、根据实际飞行数据和预测数据之间的差异,调整神经网络和强化学习算法的参数,以细化模型和控制策略;
S44、通过持续的反馈系统循环,所述反馈系统逐步优化神经网络模型和强化学习算法。
本发明的有益效果是:
(1)本发明通过引入神经网络和强化学习算法,能够实时调整PID参数,以适应飞行环境的变化。这种自适应性显著提高了飞行器在面对不同飞行条件时的控制效果,保证了飞行的稳定性和安全性,通过结合先进的机器学习技术,使飞行器能够有效应对复杂和非线性的飞行环境,如突变气流、不同飞行高度带来的空气动力学变化等。同时,神经网络的加入使得系统能够更精准地理解和预测飞行器的动态行为,从而使强化学习算法能够更准确地优化PID参数。增强了控制系统对飞行器行为的精准控制,提高了飞行器的操作性能。
(2)本发明相对传统PID控制器往往需要专家知识和经验来手动调整参数,通过智能算法自动完成这一过程,减少了对专业人员的依赖,降低了运营成本和时间成本。同时,通过优化PID参数,飞行器在响应时间、稳定性和能效方面都有显著提升,增强了飞行器的整体飞行性能。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明提出的一种适用于亚音速飞行器的PPID参数设计方法的流程图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
参考图1,一种适用于亚音速飞行器的PID参数设计方法,包括如下步骤:
S1、利用神经网络结构来学习和模拟亚音速飞行器的动态响应。该神经网络根据飞行器的历史飞行数据进行训练,以准确预测在不同飞行条件下的飞行器动态行为;
本实施方式中,S1具体包括:
S11、选取适合飞行器动态建模的神经网络架构,神经网络架构包括多层感知机或循环神经网络,用于处理时间序列数据;
S12、收集飞行器在不同飞行条件下的数据集,数据集包括飞行速度、高度、姿态、气温和风速,作为神经网络的训练数据;
S13、对收集的数据进行归一化和去噪处理;
S14、使用损失函数训练神经网络:
其中,L(ω)表示以神经网络参数ω为变量的损失函数,N为训练样本数量,yi为第i个样本的真实输出,f(xi;ω)为神经网络对第i个样本输入xi的预测输出。
经过训练后,神经网络能够根据输入的飞行器状态数据预测其未来的动态响应,为PID参数的实时优化提供准确的基础。
S2、通过数据预处理程序实时处理飞行器传感器数据,并生成适合神经网络输入的格式;
本实施方式中,S2具体包括:
S21、通过数据接收模块从飞行器的各种传感器收集原始飞行数据;
S22、通过数据清洗子模块从原始数据中移除噪声和异常值;
S23、将各种传感器的原始数据转换为神经网络能够有效处理的格式,将多维数据进行归一化处理:
其中,x表示原始数据,x′表示归一化后的数据,max(x)和min(x)分别表示数据集中的最大值和最小值。
通过精确和高效地预处理飞行器的传感器数据,为后续的神经网络训练和PID参数调整提供了准确和可靠的输入,从而显著提高整个控制系统的性能和适应性。
S3、应用强化学习算法通过与神经网络模型交互,不断调整PID参数并对飞行器的控制性能进行实时优化;
本实施方式中,S3具体包括:
S31、选择适用于控制系统优化的强化学习算法;
本实施方式中,S31中强化学习算法选用双重深度Q网络:
S311、选用双重深度Q网络,双重深度Q网络使用两个深度神经网络:行动评估网络用于选择最佳动作,目标网络用于评估该动作的预期奖励;
S312、定义双重深度Q网络的行动评估网络和目标网络的结构,包括输入层、多个隐藏层以及输出层,网络的输入为飞行器的状态,输出为每个可能动作的预期奖励值;
S313、实现双重深度Q网络的学习过程,其中行动评估网络定期更新其参数,目标网络的参数更新相对行动评估网络较慢,用于提供学习目标;
S314、在双重深度Q网络中使用以下更新规则:
其中,Q更新(s,a)是更新后的Q值,Q(s,a)是当前状态s下采取动作a的原始Q值,α是学习率,R是即时奖励,γ是折扣因子,是目标网络在下一个状态s′下所有可能动作的最大Q值。
通过双重深度Q网络,创新地提高了强化学习算法在亚音速飞行器PID参数优化中的性能,尤其是在面对高度动态和不确定的飞行环境时的适应性和效,能够有效地平衡探索和利用,提高PID参数优化过程中的决策质量,从而更精准地调整PID参数以适应复杂的飞行环境。
S32、定义强化学习的状态空间、动作空间和奖励函数,状态空间包括飞行器的各种飞行参数和环境条件,动作空间由PID控制器的参数变化构成,奖励函数基于飞行器的性能指标,包括稳定性、响应速度或能耗;
S33、利用神经网络预测的飞行器动态响应,作为强化学习算法的输入,用于评估不同PID参数配置下的性能;
S34、采用以下强化学习目标函数来指导PID参数的优化:
其中,J(θ)表示以PID参数θ为变量的总体性能指标,R(st,at)为在状态st下采取行动at所获得的即时奖励,γ为折扣因子,用于平衡即时奖励与长期收益,T为考虑的时间范围;
S35、实现学习循环,其中,强化学习算法根据飞行器的实际表现和模拟结果不断调整PID参数。
本实施方式中,S35具体包括:
S351、利用从双重深度Q网络获得的最优PID参数设置,配置飞行器的PID控制器,包括设置比例系数、积分系数和微分系数的具体数值;
S352、实施自动调整机制,自动调整机制根据双重深度Q网络的输出动态调整PID参数,实时监测飞行器的性能,并根据性能反馈调整PID参数:
其中,u(t)是控制器输出,Kp、Ki和Kd分别是经过优化的比例、积分和微分系数,e(t)是当前时刻的误差信号,t是时间;
S353、通过连续监测飞行器稳定性、响应时间和能耗的飞行表现,评估PID参数调整的效果,并据此进一步微调PID参数。
S4、设置反馈机制,根据飞行器的实际飞行表现和神经网络的预测结果,动态调整神经网络和强化学习算法的参数,进一步优化PID参数调整策略。
基于步骤S1-步骤S4,自动调整PID控制器的比例(P)、积分(I)和微分(D)参数,以适应飞行器在不同飞行状态下的控制需求,从而提高其适应性和灵活性。特别是在面对突发状况或极端气象条件时,能够有效地调整PID参数,保持飞行器的稳定性和控制性能。
本实施方式中,S4具体包括:
S41、建立反馈系统,用于收集飞行器在实际飞行中控制系统的响应时间、稳定性指标和能耗的性能数据;
S42、将收集到的实际飞行性能数据与神经网络预测的飞行器动态响应进行比较,评估PID参数调整的实际效果:
其中,E表示平均误差,N为评估样本数量,y实际,i为第i个样本的实际飞行性能数据,y预测,i为相应的神经网络预测数据;
S43、根据实际飞行数据和预测数据之间的差异,调整神经网络和强化学习算法的参数,以细化模型和控制策略;
S44、通过持续的反馈系统循环,反馈系统逐步优化神经网络模型和强化学习算法。
实施例1:
本实施例描述了在特定环境下,应用神经网络和强化学习优化的亚音速飞行器PID参数设计方法。本发明的方法被应用于一架商用亚音速飞行器,具体环境为执行跨洋飞行任务,飞行器在复杂的气象条件下(包括高空乱流、突变气流和多变的气压条件)进行长距离航行,在此应用中,商用亚音速飞行器装备了一个先进的飞行控制系统,该系统集成了本发明的PID参数设计方法。系统首先通过神经网络学习飞行器在不同飞行状态和环境条件下的动态响应。这个神经网络基于过去一年内该型号飞行器的飞行数据进行了训练和优化,能够准确预测飞行器的行为反应。在跨洋飞行过程中,系统使用强化学习算法实时优化PID控制器的参数。当飞行器进入不稳定气流区域,该算法根据神经网络的预测和实时传感器数据,自动调整PID参数,以适应当前飞行条件,并完成了全部的飞行,具体如下表格所示:
表1飞行器性能比较数据表
根据上述表1可以看出,在本实施例1中,遭遇突变气流的情况下,使用传统PID控制方法的飞行器平均姿态波动幅度为±4.5度。而采用本发明方法后,波动幅度降至±1.8度,显著提高了飞行稳定性。在快速调整飞行高度以适应突变气压的情况下,传统方法的平均响应时间为6秒,而本发明方法减少至2.5秒,响应更加迅速。在整个跨洋飞行任务中,采用本方法的飞行器相较于使用传统PID控制方法的飞行器,平均燃油消耗降低了约12%,显示出更高的能效。在自动降落阶段,本发明方法实现的飞行路径偏差减少了30%,与预定降落路径的吻合度显著提高。
实施例1中,新的PID参数设计方法在面对复杂气象条件和飞行挑战时表现出色。神经网络提供的准确预测使飞行器能够及时适应环境变化,而强化学习算法的实时参数调整保证了飞行器在各种情况下的控制精度和稳定性。这一方法的成功应用,不仅显著提高了飞行安全性和效率,还降低了运行成本,展示了其在实际航空运营中的巨大潜力和优越性。
本发明通过引入神经网络和强化学习算法,能够实时调整PID参数,以适应飞行环境的变化。这种自适应性显著提高了飞行器在面对不同飞行条件(如极端气象、紧急情况)时的控制效果,保证了飞行的稳定性和安全性,通过结合先进的机器学习技术,使飞行器能够有效应对复杂和非线性的飞行环境,如突变气流、不同飞行高度带来的空气动力学变化等。同时,神经网络的加入使得系统能够更精准地理解和预测飞行器的动态行为,从而使强化学习算法能够更准确地优化PID参数。增强了控制系统对飞行器行为的精准控制,提高了飞行器的操作性能。
本发明相对传统PID控制器往往需要专家知识和经验来手动调整参数,通过智能算法自动完成这一过程,减少了对专业人员的依赖,降低了运营成本和时间成本。同时,通过优化PID参数,飞行器在响应时间、稳定性和能效方面都有显著提升,增强了飞行器的整体飞行性能。
综上所述,本发明通过技术创新,有效地解决了传统PID控制器在自适应性、精度和灵活性方面的不足,显著提升了亚音速飞行器的控制性能和可靠性,为航空控制系统的发展带来了新的突破。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (7)
1.一种适用于亚音速飞行器的PID参数设计方法,其特征在于,包括如下步骤:
S1、利用神经网络结构学习和模拟亚音速飞行器的动态响应,根据飞行器的历史飞行数据进行训练;
S2、通过数据预处理程序实时处理飞行器传感器数据,并生成适合神经网络输入的格式;
S3、应用强化学习算法通过与神经网络模型交互,不断调整PID参数并对飞行器的控制性能进行实时优化;
S4、设置反馈机制,根据飞行器的实际飞行表现和神经网络的预测结果,动态调整神经网络和强化学习算法的参数,进一步优化PID参数调整策略。
2.根据权利要求1所述的一种适用于亚音速飞行器的PID参数设计方法,其特征在于,所述S1具体包括:
S11、选取适合飞行器动态建模的神经网络架构,所述神经网络架构包括多层感知机或循环神经网络,用于处理时间序列数据;
S12、收集飞行器在不同飞行条件下的数据集,所述数据集包括飞行速度、高度、姿态、气温和风速,作为神经网络的训练数据;
S13、对收集的数据进行归一化和去噪处理;
S14、使用损失函数训练神经网络:
其中,L(ψ)表示以神经网络参数ψ为变量的损失函数,N为训练样本数量,yi为第i个样本的真实输出,f(xi;ψ)为神经网络对第i个样本输入xi的预测输出。
3.根据权利要求1所述的一种适用于亚音速飞行器的PID参数设计方法,其特征在于,所述S2具体包括:
S21、通过数据接收模块从飞行器的各种传感器收集原始飞行数据;
S22、通过数据清洗子模块从原始数据中移除噪声和异常值;
S23、将各种传感器的原始数据转换为神经网络能够有效处理的格式,将多维数据进行归一化处理:
其中,x表示原始数据,x′表示归一化后的数据,max(x)和min(x)分别表示数据集中的最大值和最小值。
4.根据权利要求1所述的一种适用于亚音速飞行器的PID参数设计方法,其特征在于,所述S3具体包括:
S31、选择适用于控制系统优化的强化学习算法;
S32、定义强化学习的状态空间、动作空间和奖励函数,所述状态空间包括飞行器的各种飞行参数和环境条件,所述动作空间由PID控制器的参数变化构成,所述奖励函数基于飞行器的性能指标,包括稳定性、响应速度或能耗;
S33、利用神经网络预测的飞行器动态响应,作为强化学习算法的输入,用于评估不同PID参数配置下的性能;
S34、采用以下强化学习目标函数来指导PID参数的优化:
其中,J(θ)表示以PID参数θ为变量的总体性能指标,R(st,at)为在状态st下采取行动at所获得的即时奖励,γ为折扣因子,用于平衡即时奖励与长期收益,T为考虑的时间范围;
S35、实现学习循环,其中,强化学习算法根据飞行器的实际表现和模拟结果不断调整PID参数。
5.根据权利要求4所述的一种适用于亚音速飞行器的PID参数设计方法,其特征在于,所述S31中强化学习算法选用双重深度Q网络:
S311、选用双重深度Q网络,所述双重深度Q网络使用两个深度神经网络:行动评估网络用于选择最佳动作,目标网络用于评估该动作的预期奖励;
S312、定义双重深度Q网络的行动评估网络和目标网络的结构,包括输入层、多个隐藏层以及输出层,网络的输入为飞行器的状态,输出为每个可能动作的预期奖励值;
S313、实现双重深度Q网络的学习过程,其中所述行动评估网络定期更新其参数,所述目标网络的参数更新相对行动评估网络较慢,用于提供学习目标;
S314、在双重深度Q网络中使用以下更新规则:
其中,Q更新(s,a)是更新后的Q值,Q(s,a)是当前状态s下采取动作a的原始Q值,α是学习率,R是即时奖励,γ是折扣因子,是目标网络在下一个状态s′下所有可能动作的最大Q值。
6.根据权利要求4所述的一种适用于亚音速飞行器的PID参数设计方法,其特征在于,所述S35具体包括:
S351、利用从双重深度Q网络获得的最优PID参数设置,配置飞行器的PID控制器,包括设置比例系数、积分系数和微分系数的具体数值;
S352、实施自动调整机制,所述自动调整机制根据双重深度Q网络的输出动态调整PID参数,实时监测飞行器的性能,并根据性能反馈调整PID参数:
其中,u(t)是控制器输出,Kp、Ki和Kd分别是经过优化的比例、积分和微分系数,e(t)是当前时刻的误差信号,t是时间;
S353、通过连续监测飞行器稳定性、响应时间和能耗的飞行表现,评估PID参数调整的效果,并据此进一步微调PID参数。
7.根据权利要求1所述的一种适用于亚音速飞行器的PID参数设计方法,其特征在于,所述S4具体包括:
S41、建立反馈系统,用于收集飞行器在实际飞行中控制系统的响应时间、稳定性指标和能耗的性能数据;
S42、将收集到的实际飞行性能数据与神经网络预测的飞行器动态响应进行比较,评估PID参数调整的实际效果:
其中,E表示平均误差,N为评估样本数量,y实际,i为第i个样本的实际飞行性能数据,y预测,i为相应的神经网络预测数据;
S43、根据实际飞行数据和预测数据之间的差异,调整神经网络和强化学习算法的参数,以细化模型和控制策略;
S44、通过持续的反馈系统循环,所述反馈系统逐步优化神经网络模型和强化学习算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311775251.2A CN117784586A (zh) | 2023-12-22 | 2023-12-22 | 一种适用于亚音速飞行器的pid参数设计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311775251.2A CN117784586A (zh) | 2023-12-22 | 2023-12-22 | 一种适用于亚音速飞行器的pid参数设计方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117784586A true CN117784586A (zh) | 2024-03-29 |
Family
ID=90395667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311775251.2A Pending CN117784586A (zh) | 2023-12-22 | 2023-12-22 | 一种适用于亚音速飞行器的pid参数设计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117784586A (zh) |
-
2023
- 2023-12-22 CN CN202311775251.2A patent/CN117784586A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20050119986A1 (en) | Soft computing optimizer of intelligent control system structures | |
CN110806759B (zh) | 一种基于深度强化学习的飞行器航线跟踪方法 | |
Escobar et al. | Advanced fuzzy-logic-based context-driven control for HVAC management systems in buildings | |
CN109695944B (zh) | 一种基于多模型深度学习的涂装新风空调的控制方法 | |
CN111126605A (zh) | 一种基于强化学习算法的数据中心机房控制方法及装置 | |
US10353351B2 (en) | Machine learning system and motor control system having function of automatically adjusting parameter | |
CN111045326A (zh) | 一种基于递归神经网络的烘丝过程水分预测控制方法及系统 | |
CN102831269A (zh) | 一种流程工业过程工艺参数的确定方法 | |
CN111353256A (zh) | 航空电子设备中的机器学习 | |
CN113325721B (zh) | 一种工业系统无模型自适应控制方法及系统 | |
CN107065897A (zh) | 三自由度直升机显式模型预测控制方法 | |
CN113485443B (zh) | 基于深度学习的无人机控制方法、存储介质及设备 | |
Hadian et al. | Event‐based neural network predictive controller application for a distillation column | |
Sutrisno et al. | Self-organizing quasi-linear ARX RBFN modeling for identification and control of nonlinear systems | |
CN117574776A (zh) | 一种面向任务规划的模型自学习优化方法 | |
CN117784586A (zh) | 一种适用于亚音速飞行器的pid参数设计方法 | |
CN116880191A (zh) | 一种基于时序预测的过程工业生产系统的智能控制方法 | |
CN105511270B (zh) | 一种基于协同进化的pid控制器参数优化方法和系统 | |
CN117111656A (zh) | 一种基于蒸发器的pid温度控制方法及系统 | |
CN112272074A (zh) | 一种基于神经网络的信息传输速率控制方法及系统 | |
CN116449779A (zh) | 基于Actor-Critic结构的汽车车身喷涂用环境数据分析方法 | |
CN111625030A (zh) | 一种温室环境控制方法、装置、设备、系统及存储介质 | |
CN114670856B (zh) | 一种基于bp神经网络的参数自整定纵向控制方法及系统 | |
Arpaia et al. | Model predictive control strategy based on differential discrete particle swarm optimization | |
CN114384931A (zh) | 一种基于策略梯度的无人机多目标最优控制方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |