CN116974204B

CN116974204B - 无人机跟踪控制模型训练方法、使用方法及终端设备

Info

Publication number: CN116974204B
Application number: CN202311064634.9A
Authority: CN
Inventors: 陈茂阳; 王广旭; 袁银龙; 程赟; 华亮; 傅怀梁
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2023-08-23
Filing date: 2023-08-23
Publication date: 2024-04-09
Anticipated expiration: 2043-08-23
Also published as: CN116974204A

Abstract

本发明提供了无人机跟踪控制模型的训练方法、使用方法及终端设备，属于无人机技术领域。解决了无人机在复杂动态环境下易丧失稳定性的技术问题。其技术方案为：训练方法包括以下步骤：步骤一、过自身传感器系统周期性感知双方无人机的态势信息；步骤二、使用深度强化学习算法在离线环境中对无人机进行训练；步骤三、计算出最优的控制输入，并进行实时更新，无人机持续调整自身动作和状态，达到稳定状态；使用方法应用于第一无人机；终端设备包括处理器、存储器、存储在存储器上由处理器执行的计算机程序以及用于处理器和存储器之间的连接通信的数据总线。本发明的有益效果为：本发明建立最优控制模型，提升了无人机作战能力。

Description

无人机跟踪控制模型训练方法、使用方法及终端设备

技术领域

本发明涉及无人机技术领域，尤其涉及无人机跟踪控制模型的训练方法、使用方法及终端设备。

背景技术

随着现代战场环境复杂多变，随着航空技术、通信技术、计算机技术和传感器技术的飞速发展，无人机的性能和功能不断提升，使其成为一种灵活多样且高效的军事工具。

William R.Esposito&Christodoulos A.Floudas在《Global Optimization inNonlinear Control Systems》文中指出：在非线性控制系统中，全局最优解可能不存在或难以计算，而传统的局部优化方法往往只找到局部最优解。这是因为非线性系统具有复杂的动力学行为和多种可能的运行状态，传统的控制方法可能无法充分考虑这些因素。虽然传统控制算法通常能较好地完成单一目标的优化，但在实际应用中，系统可能需要同时满足多个不同的目标和要求，难以处理多目标优化问题，因此在无人机空战领域效果不明显。

发明内容

本发明的目的在于提供了无人机跟踪控制模型训练方法、使用方法及终端设备，旨在解决现有技术中无人机在复杂动态环境下易丧失稳定性的技术问题。

为了实现上述发明目的，本发明采用技术方案具体为：无人机跟踪控制模型训练方法，包括以下步骤：

步骤S101、通过自身传感器系统周期性感知第一无人机和第二无人机的态势信息，

第一无人机为己方无人机，第二无人机为敌方无人机，获取第一无人机的第一态势信息和采集包含待跟踪的第二无人机的目标环境图像；

进一步地，获取第一无人机的势信息和第二无人机所处的目标环境图像，包括：根据第一无人机自身传感器系统进行周期性感知获得态势信息；其中，所述态势信息包括第一无人机的速度信息、高度态势信息、航向角、横滚角、俯仰角；根据第一无人机的摄像头传感器对所述敌方无人机进行信息采集获得基于视频图像的所述目标环境图像。

进一步地，第一无人机通过自身传感器系统周期性感知自身的态势信息s_a，态势信息包括无人机的速度信息v、高度态势信息h、航向角ψ、横滚角φ、俯仰角θ，

具体地，第一无人机中携带有摄像头传感器，通过第一无人机在飞行过程中对待跟踪的第二无人机进行图像信息采集，获得包含有第二无人机的目标环境图像，从而根据目标环境图像获取第二无人机的相关态势信息s_c。

步骤S102、使用深度强化学习算法在离线环境中对无人机进行训练。

具体地，采用Q-learning算法，在不同状态下学习无人机采取的动作，以优化长期累积的回报，然后通过函数逼近方法拟合Q值函数，使其逼近一个线性二次函数。

具体地，参照图2，步骤S102具体包括以下步骤：

步骤S1021、定义一个特征向量表示状态和动作的特征，同时增加一些高次项和交叉项，引入非线性关系。

进一步地，使用函数逼近方法拟合Q值函数，定义动作向量s_b，其中s_b＝[throttle,pitch,roll]，throttle表示油门控制，pitch表示俯仰角控制，roll表示横滚角控制，定义Q值函数为Q(s_a,s_b)，它估计在状态s_a下，采取动作s_b的长期累积奖励，为了将Q值函数逼近为一个线性二次函数，需要定义一个特征向量phi(s_a,s_b)来表示状态和动作的特征，同时增加一些高次项和交叉项，引入非线性关系，即：

步骤S1022、通过与环境交互，收集一系列的样本数据，包括当前状态、采取的动作、奖励和下一个状态，利用这些样本数据，建立一个训练集信息。

具体地，通过与环境交互，收集一系列的样本数据，包括当前状态s_a、采取的动作s_b、奖励r和下一个状态s_a'，利用这些样本数据，建立一个训练集D，其中每个样本包含phi(s_a,s_b)和目标Q值targetQ，即：

D＝{(phi(s_a1,s_b1),targetQ₁),(phi(s_a2,s_b2),targetQ₂),...}

步骤S1023、使用线性回归来优化权重向量，使得估计的Q值函数逼近目标Q值。

进一步地，使用线性回归来优化权重向量w，使得估计的Q值函数逼近目标Q值，线性回归的优化目标表示为：

其中n为样本数量；

进一步地，通过线性函数逼近方法，将Q值函数表示为Q(s_a,s_b)＝w^T*phi(s_a,s_b)，其中w是线性回归的权重向量，重复执行上述步骤S1022至步骤S1023，通过不断收集样本数据、计算目标Q值、线性回归拟合和更新Q值函数，逐渐优化Q值函数的估计。

步骤S103、基于系统模型和目标跟踪信息，计算出最优的控制输入，并进行实时更新，无人机持续调整自身动作和状态，达到稳定状态。

进一步地，通过自身传感器系统周期性感知我方无人机的态势信息s_a，敌方态势信息s_c，其中,s_c为我方无人机通过摄像头传感器获得的基于视频图像的敌方态势信息，根据Minimum jerk算法进行轨迹跟踪，生成追击路径。

参照图3，所述基于系统模型和目标跟踪信息，计算出最优的控制输入，并进行实时更新，无人机持续调整自身动作和状态，达到稳定状态，步骤S103包括以下步骤：

步骤S1031、将无人机的水平位置和速度为状态量，将加速度设为输入量，得到离散时间系统方程；

步骤S1032、将所得到的Q值函数作为LQR控制器的成本函数，视为状态的权重，具体表现为：将Q值函数作为Q矩阵；

步骤S1033、设定权重矩阵R，用于表示控制输入的权重；

步骤S1034、根据LQR的优化目标，用线性规划方法求解最小代价函数，进而得到最优的控制增益矩阵K；

步骤S1035、在实时控制过程中，持续观测无人机的当前状态，计算状态误差，根据控制增益矩阵K和状态误差e计算最优的控制输入u；

步骤S1036、将计算得到的最优控制输入u施加到无人机系统中，以实现控制目标。无人机将根据LQR控制输入调整其动作和状态，持续观测状态并进行控制。

进一步地，将无人机的水平位置和速度为状态量：X＝[p v]^T,将加速度设为输入量：u＝a,则可以得到离散时间系统方程:X_d(k+1)＝AX_d(k)+Ba_d(k)，其中，A为4*4离散时间状态转移矩阵，B为2*4离散时间输入矩阵，/>

进一步地，根据所述得到的Q值函数作为LQR控制器的成本函数，Q值函数在强化学习中表示了在状态s_a采取动作s_b时的长期累积奖励，视为状态的权重s_a，具体表现为：将Q(s_a,s_b)作为Q矩阵；设定权重矩阵R，为正定对称的2*2矩阵，用于表示控制输入的权重，R矩阵用于平衡状态误差和控制输入的代价，控制输入的权重根据实际控制需求进行调整，以实现更好的控制性能。

进一步地，LQR的优化目标为：

用线性规划方法求解最小代价函数：

P＝Q+A^TPA-A^TPB(R+B^TPB)^-1B^TPA

得到最优的控制增益矩阵K：

K＝R^-1*B^T*P；

进一步地，根据所述在实时控制过程中，持续观测无人机的当前状态s_a，计算状态误差e＝s_atarget-s_a，其中s_atarget是期望的目标状态，根据控制增益矩阵K和状态误差e计算最优的控制输入u：

u＝-K*e

将计算得到的最优控制输入u施加到无人机系统中，以实现控制目标，无人机将根据LQR控制输入调整其动作和状态，持续观测状态并进行控制。

为了更好地实现上述发明目的，本发明还提供了一种无人机空战控制模型的使用方法，应用于第一无人机，包括：获取第一无人机的态势信息和待跟踪的敌方无人机的态势信息；利用跟踪算法基于第一无人机的态势信息和第二无人机的态势信息进行计算，得到跟踪路径；根据控制算法控制第一无人机对所述第二无人机执行跟踪，其中，所述控制算法根据无人机空战的控制模型得到，在此不再赘叙。

进一步地，获取第一无人机的态势信息和第二无人机的态势信息，进而将第第一人机的态势信息和第二无人机的态势信息进行信息整合获得整合后的态势信息，进而将整合后的态势信息输入到目标跟踪控制模型，从而获得第一无人机追击第二无人机的路径，从而使得第一无人机对第二无人机执行跟踪控制。

为了更好地实现上述发明目的，本发明还提供了一种无人机空战控制模型的终端设备，根据通过自身传感器系统周期性感知第一无人机和第二无人机的态势信息；使用深度强化学习算法在离线环境中对无人机进行训练；基于系统模型和目标跟踪信息，计算出最优的控制输入，并进行实时更新，无人机持续调整自身动作和状态，达到稳定状态。

为了更好地实现上述发明目的，本发明还提供了一种存储介质，用于计算机可读存储，在所述存储介质中，存储着一个或多个程序；这些程序可以被一个或多个处理器执行，以实现本发明说明书中提供的任一项无人机空战控制模型的训练方法的各个步骤。

所述存储介质的形式多样，可以作为终端设备的内部存储单元，终端设备的硬盘或内存。

进一步地，存储介质也是终端设备的外部存储设备，诸如配备在终端设备上的插接式硬盘、智能存储卡(例如Smart Media Card，SMC)、安全数字卡(例如Secure Digital，SD)卡、闪存卡(例如Flash Card)等。

本发明的终端设备是一种具备存储介质的计算机设备，存储介质包含实现本发明中提供的无人机空战控制模型训练方法的程序。这些程序通过处理器的执行，使得终端设备能够自动地进行计算、决策，以实现智能控制和优化。

与现有技术相比，本发明的有益效果为：

(1)本发明将深度强化学习算法与传统控制算法结合，建立最优控制模型，进而使得无人机更好地应对空战中的高机动性和快速变化的场景，提升了无人机作战能力。

(2)本发明中的实时更新机制使得无人机能够根据实际环境和目标的变化来调整控制策略，保持适应性。这种实时性和适应性使得无人机在动态和不确定的战场环境中表现更为出色。

(3)本发明通过深度强化学习，无人机能够在一定程度上自主学习和决策，减少了人为的干预和手动调整。这使得无人机在高压力和高速环境中依然能够保持高效和准确的控制。

(4)本发明方法能够训练出能够同时满足多个不同目标和要求的控制模型。在空战中，无人机可能需要同时考虑飞行稳定性、目标跟踪精度和攻击策略等多个目标，而本发明的方法能够综合考虑这些目标，实现更好的多目标优化。

(5)本发明方法具有广泛的应用潜力，不仅局限于空战控制，还可以应用于其他领域，如无人机自主导航、自动驾驶等。这种灵活性使得本发明在不同领域都具有实际应用价值。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明提供的一种无人机空战模型的训练方法的流程示意图。

图2为图1中的无人机空战模型训练方法的步骤S102的流程示意图。

图3为图1中的无人机空战模型的训练方法的步骤S103的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。当然，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例1

参见图1至图3，本实施例提供的技术方案为，无人机跟踪控制模型训练方法，包括以下步骤：

具体地，获取第一无人机的势信息和第二无人机所处的目标环境图像，包括：根据第一无人机自身传感器系统进行周期性感知获得态势信息；其中，所述态势信息包括第一无人机的速度信息、高度态势信息、航向角、横滚角、俯仰角；根据第一无人机的摄像头传感器对所述敌方无人机进行信息采集获得基于视频图像的所述目标环境图像。

具体地，第一无人机通过自身传感器系统周期性感知自身的态势信息s_a，态势信息包括无人机的速度信息v、高度态势信息h、航向角ψ、横滚角φ、俯仰角θ，

具体地，采用Q-learning算法学习无人机在不同状态下采取的最佳动作，以最大化长期累积奖励，通过函数逼近方法拟合Q值函数，使其逼近一个线性二次函数。

具体地，参照图2，步骤S102具体包括以下步骤：

具体地，使用函数逼近方法拟合Q值函数，定义动作向量s_b，其中s_b＝[throttle,pitch,roll]，throttle表示油门控制，pitch表示俯仰角控制，roll表示横滚角控制，定义Q值函数为Q(s_a,s_b)，它估计在状态s_a下，采取动作s_b的长期累积奖励，为了将Q值函数逼近为一个线性二次函数，需要定义一个特征向量phi(s_a,s_b)来表示状态和动作的特征，同时增加一些高次项和交叉项，引入非线性关系，即：

D＝{(phi(s_a1,s_b1),targetQ₁),(phi(s_a2,s_b2),targetQ₂),...}

具体地，使用线性回归来优化权重向量w，使得估计的Q值函数逼近目标Q值，线性回归的优化目标表示为：

其中n为样本数量；

因此，通过线性函数逼近方法，将Q值函数表示为Q(s_a,s_b)＝w^T*phi(s_a,s_b)，其中w是线性回归的权重向量，重复执行上述步骤S1022至步骤S1023，通过不断收集样本数据、计算目标Q值、线性回归拟合和更新Q值函数，逐渐优化Q值函数的估计。

具体地，通过自身传感器系统周期性感知我方无人机的态势信息s_a，敌方态势信息s_c，其中,s_c为我方无人机通过摄像头传感器获得的基于视频图像的敌方态势信息，根据Minimum jerk算法进行轨迹跟踪，生成追击路径。

参照图3，具体地，所述基于系统模型和目标跟踪信息，计算出最优的控制输入，并进行实时更新，无人机持续调整自身动作和状态，达到稳定状态，步骤S103包括以下步骤：

步骤S1033、设定权重矩阵R，用于表示控制输入的权重；

具体地，将无人机的水平位置和速度为状态量：X＝[p v]^T,将加速度设为输入量：u＝a,则可以得到离散时间系统方程:X_d(k+1)＝AX_d(k)+Ba_d(k)，其中，

具体地，根据所述得到的Q值函数作为LQR控制器的成本函数，Q值函数在强化学习中表示了在状态s_a采取动作s_b时的长期累积奖励，视为状态的权重s_a，具体表现为：将Q(s_a,s_b)作为Q矩阵；设定权重矩阵R，用于表示控制输入的权重，R矩阵用于平衡状态误差和控制输入的代价，控制输入的权重根据实际控制需求进行调整，以实现更好的控制性能。

具体地，LQR的优化目标为：

用线性规划方法求解最小代价函数：

P＝Q+A^TPA-A^TPB(R+B^TPB)^-1B^TPA

得到最优的控制增益矩阵K：

K＝R^-1*B^T*P；

具体地，根据所述在实时控制过程中，持续观测无人机的当前状态s_a，计算状态误差e＝s_atarget-s_a，其中s_atarget是期望的目标状态，根据控制增益矩阵K和状态误差e计算最优的控制输入u：

u＝-K*e

为了更好地实现上述发明目的，本实施例还提供了一种无人机空战控制模型的使用方法，应用于第一无人机，包括：获取第一无人机的态势信息和待跟踪的敌方无人机的态势信息；利用跟踪算法基于第一无人机的态势信息和第二无人机的态势信息进行计算，得到跟踪路径；根据控制算法控制第一无人机对所述第二无人机执行跟踪，其中，所述控制算法根据无人机空战的控制模型得到，在此不再赘叙。

具体地，获取第一无人机的态势信息和第二无人机的态势信息，进而将第第一人机的态势信息和第二无人机的态势信息进行信息整合获得整合后的态势信息，进而将整合后的态势信息输入到目标跟踪控制模型，从而获得第一无人机追击第二无人机的路径，从而使得第一无人机对第二无人机执行跟踪控制。

为了更好地实现上述发明目的，本实施例还提供了一种无人机空战控制模型的终端设备，根据通过自身传感器系统周期性感知第一无人机和第二无人机的态势信息；使用深度强化学习算法在离线环境中对无人机进行训练；基于系统模型和目标跟踪信息，计算出最优的控制输入，并进行实时更新，无人机持续调整自身动作和状态，达到稳定状态。

为了更好地实现上述发明目的，本实施例还提供了一种存储介质，用于计算机可读存储，在所述存储介质中，存储着一个或多个程序；这些程序可以被一个或多个处理器执行，以实现本实施例说明书中提供的任一项无人机空战控制模型的训练方法的各个步骤。

此外，存储介质也是终端设备的外部存储设备，诸如配备在终端设备上的插接式硬盘、智能存储卡(例如Smart Media Card，SMC)、安全数字卡(例如Secure Digital，SD)卡、闪存卡(例如Flash Card)等。

前述公开方法中的全部或部分步骤、系统、装置的功能模块/单元可以采用软件、固件、硬件或其适当的组合来实现。在硬件实施例中，上述功能模块/单元之间的划分并不一定与物理组件的划分相对应。一个物理组件可以拥有多个功能，一个功能或步骤也可以由多个物理组件共同执行。一些物理组件或所有物理组件可以作为软件由处理器(例如中央处理器、数字信号处理器或微处理器)执行，也可以作为硬件，甚至作为集成电路，如专用集成电路。这种软件可以分布在计算机可读介质上，计算机可读介质包括计算机存储介质(非暂时性介质)和通信介质(暂时性介质)。计算机存储介质术语包含在用于存储信息的任何方法或技术中，例如计算机可读指令、数据结构、程序模块或其他数据，包括易失性和非易失性、可移除和不可移除介质。计算机存储介质范围广泛，包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盘、磁带、磁盘存储或其他磁存储装置，以及适用于存储所需信息、可被计算机访问的任何其他介质。此外，通信介质通常包含计算机可读指令、数据结构、程序模块，或者调制数据信号中的其他数据，还可以包括诸如载波或其他传输机制等信息递送介质。

基于上述内容，本实施例的终端设备是一种具备存储介质的计算机设备，存储介质包含实现本实施例中提供的无人机空战控制模型训练方法的程序。这些程序通过处理器的执行，使得终端设备能够自动地进行计算、决策，以实现智能控制和优化。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.无人机跟踪控制模型训练方法，其特征在于，包括以下步骤：

步骤一、通过自身传感器系统周期性感知双方无人机的态势信息；

所述步骤一中，通过自身传感器系统周期性感知第一无人机的态势信息，包括：

第一无人机速度信息、高度态势信息、无人机航向角、横滚角、俯仰角态势信息；

步骤二、使用深度强化学习算法在离线环境中对无人机进行训练；

所述步骤二中，使用深度强化学习算法在离线环境中对无人机进行训练，包括：

采用Q-learning算法，在不同状态下学习无人机采取的动作，以优化长期累积的回报，然后通过函数逼近方法拟合Q值函数，使其逼近一个线性二次函数；

所述步骤二中，述采用Q-learning算法，在不同状态下学习无人机采取的动作，以优化长期累积的回报，然后通过函数逼近方法拟合Q值函数，使其逼近一个线性二次函数，包括：

定义一个特征向量phi(s_a,s_b)表示状态和动作的特征，增加一些高次项和交叉项，引入非线性关系；

通过与环境交互，收集一系列的样本数据，包括当前状态、采取的动作、奖励和下一个状态，利用这些样本数据，建立一个训练集信息，每个样本包含phi(s_a,s_b)和目标Q值targetQ；

使用线性回归来优化权重向量，使得估计的Q值函数逼近目标Q值；

步骤三、基于系统模型和目标跟踪信息，计算出最优的控制输入，并进行实时更新，无人机持续调整自身动作和状态，达到稳定状态；

步骤S1033、设定权重矩阵R，用于表示控制输入的权重；

步骤S1036、将计算得到的最优控制输入u施加到无人机系统中，以实现控制目标，无人机将根据LQR控制输入调整其动作和状态，持续观测状态并进行控制。

2.根据权利要求1所述的无人机跟踪控制模型训练方法，其特征在于，所述步骤三中，根据所述基于系统模型和目标跟踪信息，计算出最优的控制输入，并进行实时更新，无人机持续调整自身动作和状态，达到稳定状态，包括：

根据所述无人机自身的传感器系统检测敌机状态信息，并进行实时跟踪；

使用LQR控制算法，将Q值函数作为成本函数，计算出最优控制增益矩阵，以实现无人机的最优控制输入。

3.根据权利要求2所述的无人机跟踪控制模型训练方法，其特征在于，所述根据无人机自身的传感器系统检测敌机状态信息，并进行实时跟踪，包括：

通过自身传感器系统周期性感知我方无人机的态势信息；

我方无人机通过摄像头传感器获得的基于视频图像的敌方态势信息；

根据Minimum jerk算法进行轨迹跟踪，生成追击路径。

4.一种无人机跟踪控制模型使用方法，其特征在于，所述无人机跟踪控制模型采用权利要求1所述的训练方法，所述使用方法应用于第一无人机，包括：

获取第一无人机的态势信息和待跟踪的第二无人机的态势信息；

利用跟踪算法基于第一无人机的态势信息和第二无人机的态势信息进行计算，得到跟踪路径；

根据跟踪算法控制第一无人机对所述第二无人机执行跟踪；

据LQR控制算法控制所述第一无人机对所述第二无人机执行跟踪，其中，所述控制算法根据无人机空战的控制模型得到。

5.无人机跟踪控制模型的终端设备，其特征在于，所述终端设备包括处理器、存储器、存储在所述存储器上被所述处理器执行的计算机程序以及用于所述处理器和所述存储器之间的连接通信的数据总线，所述计算机程序被所述处理器执行时，实现权利要求1至3所述的无人机跟踪控制模型训练方法的步骤执行和权利要求4所述的无人机跟踪控制模型使用方法的步骤执行。