CN116974204B - 无人机跟踪控制模型训练方法、使用方法及终端设备 - Google Patents
无人机跟踪控制模型训练方法、使用方法及终端设备 Download PDFInfo
- Publication number
- CN116974204B CN116974204B CN202311064634.9A CN202311064634A CN116974204B CN 116974204 B CN116974204 B CN 116974204B CN 202311064634 A CN202311064634 A CN 202311064634A CN 116974204 B CN116974204 B CN 116974204B
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- tracking
- situation information
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000012549 training Methods 0.000 title claims abstract description 32
- 230000009471 action Effects 0.000 claims abstract description 32
- 230000002787 reinforcement Effects 0.000 claims abstract description 11
- 238000004891 communication Methods 0.000 claims abstract description 5
- 238000004590 computer program Methods 0.000 claims abstract 3
- 230000006870 function Effects 0.000 claims description 51
- 239000011159 matrix material Substances 0.000 claims description 26
- 238000005457 optimization Methods 0.000 claims description 14
- 238000012417 linear regression Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 8
- 230000007774 longterm Effects 0.000 claims description 6
- 238000012887 quadratic function Methods 0.000 claims description 6
- 230000001133 acceleration Effects 0.000 claims description 5
- 230000036461 convulsion Effects 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 6
- 230000001276 controlling effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明提供了无人机跟踪控制模型的训练方法、使用方法及终端设备,属于无人机技术领域。解决了无人机在复杂动态环境下易丧失稳定性的技术问题。其技术方案为:训练方法包括以下步骤:步骤一、过自身传感器系统周期性感知双方无人机的态势信息;步骤二、使用深度强化学习算法在离线环境中对无人机进行训练;步骤三、计算出最优的控制输入,并进行实时更新,无人机持续调整自身动作和状态,达到稳定状态;使用方法应用于第一无人机;终端设备包括处理器、存储器、存储在存储器上由处理器执行的计算机程序以及用于处理器和存储器之间的连接通信的数据总线。本发明的有益效果为:本发明建立最优控制模型,提升了无人机作战能力。
Description
技术领域
本发明涉及无人机技术领域,尤其涉及无人机跟踪控制模型的训练方法、使用方法及终端设备。
背景技术
随着现代战场环境复杂多变,随着航空技术、通信技术、计算机技术和传感器技术的飞速发展,无人机的性能和功能不断提升,使其成为一种灵活多样且高效的军事工具。
William R.Esposito&Christodoulos A.Floudas在《Global Optimization inNonlinear Control Systems》文中指出:在非线性控制系统中,全局最优解可能不存在或难以计算,而传统的局部优化方法往往只找到局部最优解。这是因为非线性系统具有复杂的动力学行为和多种可能的运行状态,传统的控制方法可能无法充分考虑这些因素。虽然传统控制算法通常能较好地完成单一目标的优化,但在实际应用中,系统可能需要同时满足多个不同的目标和要求,难以处理多目标优化问题,因此在无人机空战领域效果不明显。
发明内容
本发明的目的在于提供了无人机跟踪控制模型训练方法、使用方法及终端设备,旨在解决现有技术中无人机在复杂动态环境下易丧失稳定性的技术问题。
为了实现上述发明目的,本发明采用技术方案具体为:无人机跟踪控制模型训练方法,包括以下步骤:
步骤S101、通过自身传感器系统周期性感知第一无人机和第二无人机的态势信息,
第一无人机为己方无人机,第二无人机为敌方无人机,获取第一无人机的第一态势信息和采集包含待跟踪的第二无人机的目标环境图像;
进一步地,获取第一无人机的势信息和第二无人机所处的目标环境图像,包括:根据第一无人机自身传感器系统进行周期性感知获得态势信息;其中,所述态势信息包括第一无人机的速度信息、高度态势信息、航向角、横滚角、俯仰角;根据第一无人机的摄像头传感器对所述敌方无人机进行信息采集获得基于视频图像的所述目标环境图像。
进一步地,第一无人机通过自身传感器系统周期性感知自身的态势信息sa,态势信息包括无人机的速度信息v、高度态势信息h、航向角ψ、横滚角φ、俯仰角θ,
具体地,第一无人机中携带有摄像头传感器,通过第一无人机在飞行过程中对待跟踪的第二无人机进行图像信息采集,获得包含有第二无人机的目标环境图像,从而根据目标环境图像获取第二无人机的相关态势信息sc。
步骤S102、使用深度强化学习算法在离线环境中对无人机进行训练。
具体地,采用Q-learning算法,在不同状态下学习无人机采取的动作,以优化长期累积的回报,然后通过函数逼近方法拟合Q值函数,使其逼近一个线性二次函数。
具体地,参照图2,步骤S102具体包括以下步骤:
步骤S1021、定义一个特征向量表示状态和动作的特征,同时增加一些高次项和交叉项,引入非线性关系。
进一步地,使用函数逼近方法拟合Q值函数,定义动作向量sb,其中sb=[throttle,pitch,roll],throttle表示油门控制,pitch表示俯仰角控制,roll表示横滚角控制,定义Q值函数为Q(sa,sb),它估计在状态sa下,采取动作sb的长期累积奖励,为了将Q值函数逼近为一个线性二次函数,需要定义一个特征向量phi(sa,sb)来表示状态和动作的特征,同时增加一些高次项和交叉项,引入非线性关系,即:
步骤S1022、通过与环境交互,收集一系列的样本数据,包括当前状态、采取的动作、奖励和下一个状态,利用这些样本数据,建立一个训练集信息。
具体地,通过与环境交互,收集一系列的样本数据,包括当前状态sa、采取的动作sb、奖励r和下一个状态sa',利用这些样本数据,建立一个训练集D,其中每个样本包含phi(sa,sb)和目标Q值targetQ,即:
D={(phi(sa1,sb1),targetQ1),(phi(sa2,sb2),targetQ2),...}
步骤S1023、使用线性回归来优化权重向量,使得估计的Q值函数逼近目标Q值。
进一步地,使用线性回归来优化权重向量w,使得估计的Q值函数逼近目标Q值,线性回归的优化目标表示为:
其中n为样本数量;
进一步地,通过线性函数逼近方法,将Q值函数表示为Q(sa,sb)=wT*phi(sa,sb),其中w是线性回归的权重向量,重复执行上述步骤S1022至步骤S1023,通过不断收集样本数据、计算目标Q值、线性回归拟合和更新Q值函数,逐渐优化Q值函数的估计。
步骤S103、基于系统模型和目标跟踪信息,计算出最优的控制输入,并进行实时更新,无人机持续调整自身动作和状态,达到稳定状态。
进一步地,通过自身传感器系统周期性感知我方无人机的态势信息sa,敌方态势信息sc,其中,sc为我方无人机通过摄像头传感器获得的基于视频图像的敌方态势信息,根据Minimum jerk算法进行轨迹跟踪,生成追击路径。
参照图3,所述基于系统模型和目标跟踪信息,计算出最优的控制输入,并进行实时更新,无人机持续调整自身动作和状态,达到稳定状态,步骤S103包括以下步骤:
步骤S1031、将无人机的水平位置和速度为状态量,将加速度设为输入量,得到离散时间系统方程;
步骤S1032、将所得到的Q值函数作为LQR控制器的成本函数,视为状态的权重,具体表现为:将Q值函数作为Q矩阵;
步骤S1033、设定权重矩阵R,用于表示控制输入的权重;
步骤S1034、根据LQR的优化目标,用线性规划方法求解最小代价函数,进而得到最优的控制增益矩阵K;
步骤S1035、在实时控制过程中,持续观测无人机的当前状态,计算状态误差,根据控制增益矩阵K和状态误差e计算最优的控制输入u;
步骤S1036、将计算得到的最优控制输入u施加到无人机系统中,以实现控制目标。无人机将根据LQR控制输入调整其动作和状态,持续观测状态并进行控制。
进一步地,将无人机的水平位置和速度为状态量:X=[p v]T,将加速度设为输入量:u=a,则可以得到离散时间系统方程:Xd(k+1)=AXd(k)+Bad(k),其中,A为4*4离散时间状态转移矩阵,B为2*4离散时间输入矩阵,/>
进一步地,根据所述得到的Q值函数作为LQR控制器的成本函数,Q值函数在强化学习中表示了在状态sa采取动作sb时的长期累积奖励,视为状态的权重sa,具体表现为:将Q(sa,sb)作为Q矩阵;设定权重矩阵R,为正定对称的2*2矩阵,用于表示控制输入的权重,R矩阵用于平衡状态误差和控制输入的代价,控制输入的权重根据实际控制需求进行调整,以实现更好的控制性能。
进一步地,LQR的优化目标为:
用线性规划方法求解最小代价函数:
P=Q+ATPA-ATPB(R+BTPB)-1BTPA
得到最优的控制增益矩阵K:
K=R-1*BT*P;
进一步地,根据所述在实时控制过程中,持续观测无人机的当前状态sa,计算状态误差e=satarget-sa,其中satarget是期望的目标状态,根据控制增益矩阵K和状态误差e计算最优的控制输入u:
u=-K*e
将计算得到的最优控制输入u施加到无人机系统中,以实现控制目标,无人机将根据LQR控制输入调整其动作和状态,持续观测状态并进行控制。
为了更好地实现上述发明目的,本发明还提供了一种无人机空战控制模型的使用方法,应用于第一无人机,包括:获取第一无人机的态势信息和待跟踪的敌方无人机的态势信息;利用跟踪算法基于第一无人机的态势信息和第二无人机的态势信息进行计算,得到跟踪路径;根据控制算法控制第一无人机对所述第二无人机执行跟踪,其中,所述控制算法根据无人机空战的控制模型得到,在此不再赘叙。
进一步地,获取第一无人机的态势信息和第二无人机的态势信息,进而将第第一人机的态势信息和第二无人机的态势信息进行信息整合获得整合后的态势信息,进而将整合后的态势信息输入到目标跟踪控制模型,从而获得第一无人机追击第二无人机的路径,从而使得第一无人机对第二无人机执行跟踪控制。
为了更好地实现上述发明目的,本发明还提供了一种无人机空战控制模型的终端设备,根据通过自身传感器系统周期性感知第一无人机和第二无人机的态势信息;使用深度强化学习算法在离线环境中对无人机进行训练;基于系统模型和目标跟踪信息,计算出最优的控制输入,并进行实时更新,无人机持续调整自身动作和状态,达到稳定状态。
为了更好地实现上述发明目的,本发明还提供了一种存储介质,用于计算机可读存储,在所述存储介质中,存储着一个或多个程序;这些程序可以被一个或多个处理器执行,以实现本发明说明书中提供的任一项无人机空战控制模型的训练方法的各个步骤。
所述存储介质的形式多样,可以作为终端设备的内部存储单元,终端设备的硬盘或内存。
进一步地,存储介质也是终端设备的外部存储设备,诸如配备在终端设备上的插接式硬盘、智能存储卡(例如Smart Media Card,SMC)、安全数字卡(例如Secure Digital,SD)卡、闪存卡(例如Flash Card)等。
本发明的终端设备是一种具备存储介质的计算机设备,存储介质包含实现本发明中提供的无人机空战控制模型训练方法的程序。这些程序通过处理器的执行,使得终端设备能够自动地进行计算、决策,以实现智能控制和优化。
与现有技术相比,本发明的有益效果为:
(1)本发明将深度强化学习算法与传统控制算法结合,建立最优控制模型,进而使得无人机更好地应对空战中的高机动性和快速变化的场景,提升了无人机作战能力。
(2)本发明中的实时更新机制使得无人机能够根据实际环境和目标的变化来调整控制策略,保持适应性。这种实时性和适应性使得无人机在动态和不确定的战场环境中表现更为出色。
(3)本发明通过深度强化学习,无人机能够在一定程度上自主学习和决策,减少了人为的干预和手动调整。这使得无人机在高压力和高速环境中依然能够保持高效和准确的控制。
(4)本发明方法能够训练出能够同时满足多个不同目标和要求的控制模型。在空战中,无人机可能需要同时考虑飞行稳定性、目标跟踪精度和攻击策略等多个目标,而本发明的方法能够综合考虑这些目标,实现更好的多目标优化。
(5)本发明方法具有广泛的应用潜力,不仅局限于空战控制,还可以应用于其他领域,如无人机自主导航、自动驾驶等。这种灵活性使得本发明在不同领域都具有实际应用价值。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为本发明提供的一种无人机空战模型的训练方法的流程示意图。
图2为图1中的无人机空战模型训练方法的步骤S102的流程示意图。
图3为图1中的无人机空战模型的训练方法的步骤S103的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。当然,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例1
参见图1至图3,本实施例提供的技术方案为,无人机跟踪控制模型训练方法,包括以下步骤:
步骤S101、通过自身传感器系统周期性感知第一无人机和第二无人机的态势信息,
第一无人机为己方无人机,第二无人机为敌方无人机,获取第一无人机的第一态势信息和采集包含待跟踪的第二无人机的目标环境图像;
具体地,获取第一无人机的势信息和第二无人机所处的目标环境图像,包括:根据第一无人机自身传感器系统进行周期性感知获得态势信息;其中,所述态势信息包括第一无人机的速度信息、高度态势信息、航向角、横滚角、俯仰角;根据第一无人机的摄像头传感器对所述敌方无人机进行信息采集获得基于视频图像的所述目标环境图像。
具体地,第一无人机通过自身传感器系统周期性感知自身的态势信息sa,态势信息包括无人机的速度信息v、高度态势信息h、航向角ψ、横滚角φ、俯仰角θ,
具体地,第一无人机中携带有摄像头传感器,通过第一无人机在飞行过程中对待跟踪的第二无人机进行图像信息采集,获得包含有第二无人机的目标环境图像,从而根据目标环境图像获取第二无人机的相关态势信息sc。
步骤S102、使用深度强化学习算法在离线环境中对无人机进行训练。
具体地,采用Q-learning算法学习无人机在不同状态下采取的最佳动作,以最大化长期累积奖励,通过函数逼近方法拟合Q值函数,使其逼近一个线性二次函数。
具体地,参照图2,步骤S102具体包括以下步骤:
步骤S1021、定义一个特征向量表示状态和动作的特征,同时增加一些高次项和交叉项,引入非线性关系。
具体地,使用函数逼近方法拟合Q值函数,定义动作向量sb,其中sb=[throttle,pitch,roll],throttle表示油门控制,pitch表示俯仰角控制,roll表示横滚角控制,定义Q值函数为Q(sa,sb),它估计在状态sa下,采取动作sb的长期累积奖励,为了将Q值函数逼近为一个线性二次函数,需要定义一个特征向量phi(sa,sb)来表示状态和动作的特征,同时增加一些高次项和交叉项,引入非线性关系,即:
步骤S1022、通过与环境交互,收集一系列的样本数据,包括当前状态、采取的动作、奖励和下一个状态,利用这些样本数据,建立一个训练集信息。
具体地,通过与环境交互,收集一系列的样本数据,包括当前状态sa、采取的动作sb、奖励r和下一个状态sa',利用这些样本数据,建立一个训练集D,其中每个样本包含phi(sa,sb)和目标Q值targetQ,即:
D={(phi(sa1,sb1),targetQ1),(phi(sa2,sb2),targetQ2),...}
步骤S1023、使用线性回归来优化权重向量,使得估计的Q值函数逼近目标Q值。
具体地,使用线性回归来优化权重向量w,使得估计的Q值函数逼近目标Q值,线性回归的优化目标表示为:
其中n为样本数量;
因此,通过线性函数逼近方法,将Q值函数表示为Q(sa,sb)=wT*phi(sa,sb),其中w是线性回归的权重向量,重复执行上述步骤S1022至步骤S1023,通过不断收集样本数据、计算目标Q值、线性回归拟合和更新Q值函数,逐渐优化Q值函数的估计。
步骤S103、基于系统模型和目标跟踪信息,计算出最优的控制输入,并进行实时更新,无人机持续调整自身动作和状态,达到稳定状态。
具体地,通过自身传感器系统周期性感知我方无人机的态势信息sa,敌方态势信息sc,其中,sc为我方无人机通过摄像头传感器获得的基于视频图像的敌方态势信息,根据Minimum jerk算法进行轨迹跟踪,生成追击路径。
参照图3,具体地,所述基于系统模型和目标跟踪信息,计算出最优的控制输入,并进行实时更新,无人机持续调整自身动作和状态,达到稳定状态,步骤S103包括以下步骤:
步骤S1031、将无人机的水平位置和速度为状态量,将加速度设为输入量,得到离散时间系统方程;
步骤S1032、将所得到的Q值函数作为LQR控制器的成本函数,视为状态的权重,具体表现为:将Q值函数作为Q矩阵;
步骤S1033、设定权重矩阵R,用于表示控制输入的权重;
步骤S1034、根据LQR的优化目标,用线性规划方法求解最小代价函数,进而得到最优的控制增益矩阵K;
步骤S1035、在实时控制过程中,持续观测无人机的当前状态,计算状态误差,根据控制增益矩阵K和状态误差e计算最优的控制输入u;
步骤S1036、将计算得到的最优控制输入u施加到无人机系统中,以实现控制目标。无人机将根据LQR控制输入调整其动作和状态,持续观测状态并进行控制。
具体地,将无人机的水平位置和速度为状态量:X=[p v]T,将加速度设为输入量:u=a,则可以得到离散时间系统方程:Xd(k+1)=AXd(k)+Bad(k),其中,
具体地,根据所述得到的Q值函数作为LQR控制器的成本函数,Q值函数在强化学习中表示了在状态sa采取动作sb时的长期累积奖励,视为状态的权重sa,具体表现为:将Q(sa,sb)作为Q矩阵;设定权重矩阵R,用于表示控制输入的权重,R矩阵用于平衡状态误差和控制输入的代价,控制输入的权重根据实际控制需求进行调整,以实现更好的控制性能。
具体地,LQR的优化目标为:
用线性规划方法求解最小代价函数:
P=Q+ATPA-ATPB(R+BTPB)-1BTPA
得到最优的控制增益矩阵K:
K=R-1*BT*P;
具体地,根据所述在实时控制过程中,持续观测无人机的当前状态sa,计算状态误差e=satarget-sa,其中satarget是期望的目标状态,根据控制增益矩阵K和状态误差e计算最优的控制输入u:
u=-K*e
将计算得到的最优控制输入u施加到无人机系统中,以实现控制目标,无人机将根据LQR控制输入调整其动作和状态,持续观测状态并进行控制。
为了更好地实现上述发明目的,本实施例还提供了一种无人机空战控制模型的使用方法,应用于第一无人机,包括:获取第一无人机的态势信息和待跟踪的敌方无人机的态势信息;利用跟踪算法基于第一无人机的态势信息和第二无人机的态势信息进行计算,得到跟踪路径;根据控制算法控制第一无人机对所述第二无人机执行跟踪,其中,所述控制算法根据无人机空战的控制模型得到,在此不再赘叙。
具体地,获取第一无人机的态势信息和第二无人机的态势信息,进而将第第一人机的态势信息和第二无人机的态势信息进行信息整合获得整合后的态势信息,进而将整合后的态势信息输入到目标跟踪控制模型,从而获得第一无人机追击第二无人机的路径,从而使得第一无人机对第二无人机执行跟踪控制。
为了更好地实现上述发明目的,本实施例还提供了一种无人机空战控制模型的终端设备,根据通过自身传感器系统周期性感知第一无人机和第二无人机的态势信息;使用深度强化学习算法在离线环境中对无人机进行训练;基于系统模型和目标跟踪信息,计算出最优的控制输入,并进行实时更新,无人机持续调整自身动作和状态,达到稳定状态。
为了更好地实现上述发明目的,本实施例还提供了一种存储介质,用于计算机可读存储,在所述存储介质中,存储着一个或多个程序;这些程序可以被一个或多个处理器执行,以实现本实施例说明书中提供的任一项无人机空战控制模型的训练方法的各个步骤。
所述存储介质的形式多样,可以作为终端设备的内部存储单元,终端设备的硬盘或内存。
此外,存储介质也是终端设备的外部存储设备,诸如配备在终端设备上的插接式硬盘、智能存储卡(例如Smart Media Card,SMC)、安全数字卡(例如Secure Digital,SD)卡、闪存卡(例如Flash Card)等。
前述公开方法中的全部或部分步骤、系统、装置的功能模块/单元可以采用软件、固件、硬件或其适当的组合来实现。在硬件实施例中,上述功能模块/单元之间的划分并不一定与物理组件的划分相对应。一个物理组件可以拥有多个功能,一个功能或步骤也可以由多个物理组件共同执行。一些物理组件或所有物理组件可以作为软件由处理器(例如中央处理器、数字信号处理器或微处理器)执行,也可以作为硬件,甚至作为集成电路,如专用集成电路。这种软件可以分布在计算机可读介质上,计算机可读介质包括计算机存储介质(非暂时性介质)和通信介质(暂时性介质)。计算机存储介质术语包含在用于存储信息的任何方法或技术中,例如计算机可读指令、数据结构、程序模块或其他数据,包括易失性和非易失性、可移除和不可移除介质。计算机存储介质范围广泛,包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盘、磁带、磁盘存储或其他磁存储装置,以及适用于存储所需信息、可被计算机访问的任何其他介质。此外,通信介质通常包含计算机可读指令、数据结构、程序模块,或者调制数据信号中的其他数据,还可以包括诸如载波或其他传输机制等信息递送介质。
基于上述内容,本实施例的终端设备是一种具备存储介质的计算机设备,存储介质包含实现本实施例中提供的无人机空战控制模型训练方法的程序。这些程序通过处理器的执行,使得终端设备能够自动地进行计算、决策,以实现智能控制和优化。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.无人机跟踪控制模型训练方法,其特征在于,包括以下步骤:
步骤一、通过自身传感器系统周期性感知双方无人机的态势信息;
所述步骤一中,通过自身传感器系统周期性感知第一无人机的态势信息,包括:
第一无人机速度信息、高度态势信息、无人机航向角、横滚角、俯仰角态势信息;
步骤二、使用深度强化学习算法在离线环境中对无人机进行训练;
所述步骤二中,使用深度强化学习算法在离线环境中对无人机进行训练,包括:
采用Q-learning算法,在不同状态下学习无人机采取的动作,以优化长期累积的回报,然后通过函数逼近方法拟合Q值函数,使其逼近一个线性二次函数;
所述步骤二中,述采用Q-learning算法,在不同状态下学习无人机采取的动作,以优化长期累积的回报,然后通过函数逼近方法拟合Q值函数,使其逼近一个线性二次函数,包括:
定义一个特征向量phi(sa,sb)表示状态和动作的特征,增加一些高次项和交叉项,引入非线性关系;
通过与环境交互,收集一系列的样本数据,包括当前状态、采取的动作、奖励和下一个状态,利用这些样本数据,建立一个训练集信息,每个样本包含phi(sa,sb)和目标Q值targetQ;
使用线性回归来优化权重向量,使得估计的Q值函数逼近目标Q值;
步骤三、基于系统模型和目标跟踪信息,计算出最优的控制输入,并进行实时更新,无人机持续调整自身动作和状态,达到稳定状态;
步骤S1031、将无人机的水平位置和速度为状态量,将加速度设为输入量,得到离散时间系统方程;
步骤S1032、将所得到的Q值函数作为LQR控制器的成本函数,视为状态的权重,具体表现为:将Q值函数作为Q矩阵;
步骤S1033、设定权重矩阵R,用于表示控制输入的权重;
步骤S1034、根据LQR的优化目标,用线性规划方法求解最小代价函数,进而得到最优的控制增益矩阵K;
步骤S1035、在实时控制过程中,持续观测无人机的当前状态,计算状态误差,根据控制增益矩阵K和状态误差e计算最优的控制输入u;
步骤S1036、将计算得到的最优控制输入u施加到无人机系统中,以实现控制目标,无人机将根据LQR控制输入调整其动作和状态,持续观测状态并进行控制。
2.根据权利要求1所述的无人机跟踪控制模型训练方法,其特征在于,所述步骤三中,根据所述基于系统模型和目标跟踪信息,计算出最优的控制输入,并进行实时更新,无人机持续调整自身动作和状态,达到稳定状态,包括:
根据所述无人机自身的传感器系统检测敌机状态信息,并进行实时跟踪;
使用LQR控制算法,将Q值函数作为成本函数,计算出最优控制增益矩阵,以实现无人机的最优控制输入。
3.根据权利要求2所述的无人机跟踪控制模型训练方法,其特征在于,所述根据无人机自身的传感器系统检测敌机状态信息,并进行实时跟踪,包括:
通过自身传感器系统周期性感知我方无人机的态势信息;
我方无人机通过摄像头传感器获得的基于视频图像的敌方态势信息;
根据Minimum jerk算法进行轨迹跟踪,生成追击路径。
4.一种无人机跟踪控制模型使用方法,其特征在于,所述无人机跟踪控制模型采用权利要求1所述的训练方法,所述使用方法应用于第一无人机,包括:
获取第一无人机的态势信息和待跟踪的第二无人机的态势信息;
利用跟踪算法基于第一无人机的态势信息和第二无人机的态势信息进行计算,得到跟踪路径;
根据跟踪算法控制第一无人机对所述第二无人机执行跟踪;
据LQR控制算法控制所述第一无人机对所述第二无人机执行跟踪,其中,所述控制算法根据无人机空战的控制模型得到。
5.无人机跟踪控制模型的终端设备,其特征在于,所述终端设备包括处理器、存储器、存储在所述存储器上被所述处理器执行的计算机程序以及用于所述处理器和所述存储器之间的连接通信的数据总线,所述计算机程序被所述处理器执行时,实现权利要求1至3所述的无人机跟踪控制模型训练方法的步骤执行和权利要求4所述的无人机跟踪控制模型使用方法的步骤执行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311064634.9A CN116974204B (zh) | 2023-08-23 | 2023-08-23 | 无人机跟踪控制模型训练方法、使用方法及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311064634.9A CN116974204B (zh) | 2023-08-23 | 2023-08-23 | 无人机跟踪控制模型训练方法、使用方法及终端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116974204A CN116974204A (zh) | 2023-10-31 |
CN116974204B true CN116974204B (zh) | 2024-04-09 |
Family
ID=88481525
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311064634.9A Active CN116974204B (zh) | 2023-08-23 | 2023-08-23 | 无人机跟踪控制模型训练方法、使用方法及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116974204B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112819253A (zh) * | 2021-03-02 | 2021-05-18 | 华东师范大学 | 一种无人机避障和路径规划装置及方法 |
CN114510078A (zh) * | 2022-02-16 | 2022-05-17 | 南通大学 | 一种基于深度强化学习的无人机机动规避决策方法 |
CN114545777A (zh) * | 2022-03-07 | 2022-05-27 | 辽宁石油化工大学 | 基于改进q函数的多智能体一致性强化学习方法及系统 |
CN114967472A (zh) * | 2022-06-17 | 2022-08-30 | 南京航空航天大学 | 一种无人机轨迹跟踪状态补偿深度确定性策略梯度控制方法 |
CN115016496A (zh) * | 2022-06-30 | 2022-09-06 | 重庆大学 | 基于深度强化学习的水面无人艇路径跟踪方法 |
CN116069056A (zh) * | 2022-12-15 | 2023-05-05 | 南通大学 | 一种基于深度强化学习的无人机战场目标跟踪控制方法 |
CN116385909A (zh) * | 2023-04-04 | 2023-07-04 | 昆明理工大学 | 一种基于深度强化学习的无人机目标跟踪方法 |
CN116560384A (zh) * | 2023-03-21 | 2023-08-08 | 清华大学深圳国际研究生院 | 一种基于深度强化学习的变体飞行器鲁棒控制方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107479368B (zh) * | 2017-06-30 | 2021-09-21 | 北京百度网讯科技有限公司 | 一种基于人工智能的训练无人机控制模型的方法及系统 |
-
2023
- 2023-08-23 CN CN202311064634.9A patent/CN116974204B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112819253A (zh) * | 2021-03-02 | 2021-05-18 | 华东师范大学 | 一种无人机避障和路径规划装置及方法 |
CN114510078A (zh) * | 2022-02-16 | 2022-05-17 | 南通大学 | 一种基于深度强化学习的无人机机动规避决策方法 |
CN114545777A (zh) * | 2022-03-07 | 2022-05-27 | 辽宁石油化工大学 | 基于改进q函数的多智能体一致性强化学习方法及系统 |
CN114967472A (zh) * | 2022-06-17 | 2022-08-30 | 南京航空航天大学 | 一种无人机轨迹跟踪状态补偿深度确定性策略梯度控制方法 |
CN115016496A (zh) * | 2022-06-30 | 2022-09-06 | 重庆大学 | 基于深度强化学习的水面无人艇路径跟踪方法 |
CN116069056A (zh) * | 2022-12-15 | 2023-05-05 | 南通大学 | 一种基于深度强化学习的无人机战场目标跟踪控制方法 |
CN116560384A (zh) * | 2023-03-21 | 2023-08-08 | 清华大学深圳国际研究生院 | 一种基于深度强化学习的变体飞行器鲁棒控制方法 |
CN116385909A (zh) * | 2023-04-04 | 2023-07-04 | 昆明理工大学 | 一种基于深度强化学习的无人机目标跟踪方法 |
Non-Patent Citations (8)
Title |
---|
LQG/LTR控制在无人机飞行控制中的实现及仿真;周志久;闫建国;张琼燕;;计算机仿真;20090515(05);54-57 * |
基于AirSim平台的无人机轨迹跟踪仿真;党陈晨;郑凯东;信息技术与信息化;20221231(010);91-94 * |
基于动态事件触发机制的线性系统最优控制;陈浩浩;樊渊;;控制工程;20201020(第10期);166-173 * |
基于强化学习的水下机器人追踪控制策略的研究;李文飚;《中国优秀硕士学位论文全文数据库 信息科技辑》;20230215(第02(2023)期);I140-889 * |
基于机器视觉的无人机协同目标跟踪算法研究;陆渊章,等;《电子器件》;20201231;第43卷(第05期);1096-1099 * |
改进LQR技术的飞翼式无人机控制算法研究;李一波;陈超;张晓林;控制工程;20141231;第21卷(第005期);628-633 * |
李一波 ; 陈超 ; 张晓林.改进LQR技术的飞翼式无人机控制算法研究.控制工程.2014,21(005),628-633. * |
深度学习的目标跟踪算法综述;李玺;查宇飞;张天柱;崔振;左旺孟;侯志强;卢湖川;王菡子;;中国图象图形学报;20191216(第12期);5-28 * |
Also Published As
Publication number | Publication date |
---|---|
CN116974204A (zh) | 2023-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112256056B (zh) | 基于多智能体深度强化学习的无人机控制方法及系统 | |
US10643346B2 (en) | Target tracking method performed by a drone, related computer program, electronic system and drone | |
CN108829123B (zh) | 一种四旋翼飞行器控制方法、系统和装置 | |
US10776948B1 (en) | Method and device for improved localization and mapping | |
CN106950999B (zh) | 一种采用自抗扰控制技术的移动舞台轨迹跟踪控制方法 | |
CN106527462A (zh) | 无人机控制装置 | |
CN109062040B (zh) | 基于系统嵌套优化的预测pid方法 | |
CN109582030A (zh) | 一种调整无人机姿态控制中待整定参数方法及相关装置 | |
CN111830848A (zh) | 一种无人机超机动飞行性能仿真训练系统及方法 | |
CN116974204B (zh) | 无人机跟踪控制模型训练方法、使用方法及终端设备 | |
CN110673619A (zh) | 一种飞行姿态的控制方法、装置、无人机和存储介质 | |
CN114089637A (zh) | 多模态鲁棒自抗扰运动控制方法及系统 | |
CN116774589A (zh) | 鲁棒非线性模型预测控制的视觉伺服目标追踪控制方法 | |
CN116954258A (zh) | 未知扰动下多四旋翼无人机编队的分层控制方法及装置 | |
CN116755323A (zh) | 一种基于深度强化学习的多旋翼无人机pid自整定方法 | |
CN116560401A (zh) | 一种无人机编队中僚机控制指令的确定方法及终端设备 | |
CN115857544A (zh) | 一种无人机集群编队飞行控制方法、装置及设备 | |
CN114371729B (zh) | 一种基于距离优先经验回放的无人机空战机动决策方法 | |
CN111352344B (zh) | 一种动态完全未知系统的数据驱动自适应预估器 | |
CN117130379A (zh) | 一种基于lqr近视距的无人机空战攻击方法 | |
CN114043999B (zh) | 一种车辆的纵向控制方法和装置 | |
Daniali et al. | Fast Nonlinear Model Predictive Control of Quadrotors: Design and Experiments | |
CN111562740A (zh) | 基于利用梯度的多目标强化学习算法的自动控制方法 | |
WO2021237469A1 (zh) | 无人机的飞行控制方法、无人机、电子设备及介质 | |
CN117891280B (zh) | 一种无人机模拟飞行机动飞行控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |