CN117130379B

CN117130379B - 一种基于lqr近视距的无人机空战攻击方法

Info

Publication number: CN117130379B
Application number: CN202310951344.XA
Authority: CN
Inventors: 陈茂阳; 王广旭; 张家铭; 袁银龙; 程赟; 华亮; 傅怀梁
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2023-07-31
Filing date: 2023-07-31
Publication date: 2024-04-16
Anticipated expiration: 2043-07-31
Also published as: CN117130379A

Abstract

本发明提供了一种基于LQR近视距的无人机空战攻击方法，属于无人机技术领域；解决了无人机在复杂动态环境下易丧失稳定性的技术问题。其技术方案为：包括以下步骤：S1、使用深度强化学习算法在离线环境中对无人机进行训练；S2、基于系统模型和目标跟踪信息，计算出最优的控制输入，根据近视距内的目标信息，选择合适的攻击策略。本发明的有益效果为：本发明能够令无人机更好地应对空战中的高机动性和快速变化的场景，使无人机能够在实时空战中寻找最优或接近最优的战术和决策，有利于提升无人机作战能力。

Description

一种基于LQR近视距的无人机空战攻击方法

技术领域

本发明涉及无人机技术领域，尤其涉及一种基于LQR近视距的无人机空战攻击方法。

背景技术

随着航空技术、通信技术、计算机技术和传感器技术的飞速发展，无人机的性能和功能不断提升，使其成为一种灵活多样且高效的军事工具。近视距空战是空战中最为激烈和危险的阶段，当敌方战机之间的距离较近时，直接进行目视观察和交战的情况。在近视距空战中，飞行员需要依靠自己的目视和机动技能来追击和攻击敌方战机，相比传统的有人飞行器，无人机通常具有更低的制造和运营成本，同时在作战中无需搭载人员，从而降低了飞行员的风险。

郑恩辉教授在《四旋翼无人机的二阶滑模控制》一文中指出：在实际任务中，飞机的稳定性很容易受到突然改变的命令的影响，能够为飞机提供准确和强大控制的飞行控制器设计在飞行过程中至关重要。而一些传统控制算法在复杂的非线性环境中可能难以找到全局最优解，并且在现实世界中，系统和环境的变化可能导致传统控制方法效果下降，虽然传统控制算法通常能较好地完成单一目标的优化，但在实际应用中，系统可能需要同时满足多个不同的目标和要求，难以处理多目标优化问题，因此在无人机空战领域效果不明显。

发明内容

本发明的目的在于提供一种基于LQR近视距的无人机空战攻击方法，首先使用深度强化学习算法在离线环境中对无人机进行训练，再根据无人机自身的传感器系统检测敌机状态信息，并进行实时跟踪，然后基于系统模型和目标跟踪信息，计算出最优的控制输入，最后利用近视距内的目标信息，选择合适的攻击策略。本发明增强无人机战场控制的适应力，提高容错性、作战效能。

本发明是通过如下措施实现的：一种基于LQR近视距的无人机空战攻击方法，包括以下步骤：

步骤一、使用深度强化学习算法在离线环境中对无人机进行训练，实现自适应性和鲁棒性，适应复杂动态环境；

步骤二、基于系统模型和目标跟踪信息，计算出最优的控制输入，根据近视距内的目标信息，选择合适的攻击策略，提高空战效果和智能决策能力。

进一步地，所述步骤一包含如下步骤：

1-1)：用Q-learning算法学习无人机在不同状态下采取的最佳动作，通过自身传感器系统周期性感知我方无人机的态势信息s_a，其中ν为我方无人机的速度信息,h为我方无人机高度态势信息，/>分别为无人机航向角，横滚角，俯仰角态势信息，以最大化长期累积奖励，构建Q值函数；

1-2)：使用函数逼近方法拟合Q值函数。定义动作向量s_b，其中s_b＝[throttle,pitch,roll]，throttle表示油门控制，pitch表示俯仰角控制，roll表示横滚角控制。定义Q值函数为Q(s_a,s_b)，它估计在状态s_a下，采取动作s_b的长期累积奖励，为了将Q值函数逼近为一个线性二次函数，需要定义一个特征向量phi(s_a,s_b)来表示状态和动作的特征，同时增加一些高次项和交叉项，引入非线性关系，即：

此外通过与环境交互，收集一系列的样本数据，包括当前状态s_a、采取的动作s_b、奖励r和下一个状态s_a'。利用这些样本数据，可以建立一个训练集D，其中每个样本包含phi(s_a,s_b)和目标Q值targetQ，即：

D＝{(phi(s_a1,s_b1),targetQ₁),(phi(s_a2,s_b2),targetQ₂),...}，

然后，使用线性回归来优化权重向量w，使得估计的Q值函数逼近目标Q值。线性回归的优化目标可以表示为：

其中n为样本数量。

因此通过线性函数逼近方法，将Q值函数表示为Q(s_a,s_b)＝w^T*phi(s_a,s_b)，其中w是线性回归的权重向量，重复执行上述步骤，通过不断收集样本数据、计算目标Q值、线性回归拟合和更新Q值函数，逐渐优化Q值函数的估计。

1-3)：通过自身传感器系统周期性感知我方无人机的态势信息s_a，敌方态势信息s_c，其中,s_c为我方无人机通过摄像头传感器获得的基于视频图像的敌方态势信息，根据Minimum jerk算法进行轨迹跟踪，生成追击路径。

进一步地，所述步骤三中包含如下步骤：

2-1):将无人机的水平位置和速度为状态量：X＝[p v]^T,将加速度设为输入量：u＝a,则可以得到离散时间系统方程:X_d(k+1)＝AX_d(k)+Ba_d(k)，其中，A为4*4离散时间状态转移矩阵，B为2*4离散时间输入矩阵，/>

2-2):将所得到步骤S1所得到的Q值函数作为LQR控制器的成本函数，Q值函数在强化学习中表示了在状态s_a采取动作s_b时的长期累积奖励，可以视为状态的权重s_a，具体表现为：将Q(s_a,s_b)作为Q矩阵；

2-3):设定权重矩阵R，用于表示控制输入的权重，R矩阵用于平衡状态误差和控制输入的代价，控制输入的权重可以根据实际控制需求进行调整，以实现更好的控制性能；

2-4)：LQR的优化目标为：

用线性规划方法求解最小代价函数:

P＝Q+A^TPA-A^TPB(R+B^TPB)^-1B^TPA

得到最优的控制增益矩阵K：

K＝R^-1*B^T*P；

2-5)在实时控制过程中，持续观测无人机的当前状态s_a，计算状态误差e＝s_atarget-s_a，其中s_atarget是期望的目标状态。然后，根据控制增益矩阵K和状态误差e计算最优的控制输入u：

u＝-K*e

2-6):将计算得到的最优控制输入u施加到无人机系统中，以实现控制目标。无人机将根据LQR控制输入调整其动作和状态，持续观测状态并进行控制。

2-7)：无人机持续调整动作和状态，当实时位置满足近视距，敌方无人机在我方无人机的规划路径上时，采取碰撞形式击落敌方无人机。

与现有技术相比，本发明的有益效果为：

(1)本发明基于LQR传统控制算法引入Q-learning深度强化学习算法，使得控制器能够在离线环境中训练，并实现智能化的控制决策。控制器通过与环境交互学习优化控制策略，使得无人机能够根据实时环境状态和任务需求做出更智能、灵活的决策，适应复杂动态环境。

(2)本发明将Q-learning与LQR相结合，使得控制器能够更好地处理非线性系统，对于复杂的无人机空战问题，传统线性控制算法可能难以有效解决，而通过深度强化学习的非线性逼近，控制器可以更好地适应多样化的控制需求

(3)本发明实现了端到端学习，直接从传感器输入到控制输出，减少了传统控制方法中系统建模和设计控制器的复杂性，简化了控制系统的架构，扩展控制器的应用范围，使其更适用于无人机空战场景。

(4)本发明的方法适用战场目标跟踪控制，通过在离线环境中进行深度强化学习训练，控制器经过充分的模型训练，具备全面的感知和优化能力，提供了更强大的工具和方法，使其在复杂环境中表现更优秀，适用于各种实际控制问题和应用场景，使其能够投入近视距空战并有效应对多变的战场情况。

(5)本发明的方法具有广泛的适用性，不仅适用于无人机空战场景，还可以应用于其他控制问题和应用场景，具备自适应性、鲁棒性和全局优化能力，使得控制器在复杂环境中表现更优秀，提高系统的性能和效率。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明提供的基于LQR近视距的无人机空战攻击方法的整体流程图。

图2为本发明提供的基于LQR近视距的无人机空战攻击方法的态势信息图。

图3为本发明提供的基于LQR近视距的无人机空战攻击方法的离线环境下无人机训练流程图。

图4为本发明提供的基于LQR近视距的无人机空战攻击方法的LQR控制流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。当然，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例1

参见图1至图4，本实施例提供了一种基于深度强化学习的无人机战场目标跟踪控制方法，其中，包括以下步骤：

步骤1、使用深度强化学习算法在离线环境中对无人机进行训练；

步骤2、基于系统模型和目标跟踪信息，计算出最优的控制输入，根据近视距内的目标信息，选择合适的攻击策略。

参见图1至图4，本发明提供其技术方案实施步骤如下：

步骤1：如图2、图3所示，用Q-learning算法学习无人机在不同状态下采取的最佳动作。

1-1)：通过自身传感器系统周期性感知我方无人机的态势信息s_a，其中v为我方无人机的速度信息,h为我方无人机高度态势信息，/>分别为无人机航向角，横滚角，俯仰角态势信息，以最大化长期累积奖励，构建Q值函数；

D＝{(phi(s_a1,s_b1),targetQ₁),(phi(s_a2,s_b2),targetQ₂),...}，

其中n为样本数量。

步骤2：如图4所示，使用LQR控制算法来计算无人机的控制输入，LQR控制器的目标是最小化成本函数，使得系统的状态向目标值稳定并优化性能。在实时控制过程中，根据当前的状态误差，计算最优的控制输入，使得成本函数最小化。具体步骤如下：

2-1):无人机的水平位置和速度为状态量：X＝[p v]^T,将加速度设为输入量：u＝a,则可以

得到离散时间系统方程:X_d(k+1)＝AX_d(k)+Ba_d(k)，其中，

2-4)：LQR的优化目标为：

用线性规划方法求解最小代价函数:

P＝Q+A^TPA-A^TPB(R+B^TPB)^-1B^TPA

得到最优的控制增益矩阵K：

K＝R^-1*B^T*P；

u＝-K*e

本实例将Q-learning算法结合无人机建模，在离线环境中对无人机进行训练，并实时跟踪敌方目标，利用LQR控制算法计算最优控制输入。同时，通过近视距内目标信息，选择合适的攻击策略，解决了复杂系统控制、不确定性和动态环境下的控制、实时优化、端到端学习和智能控制等问题。

实施例2

本实例在模拟空战实验中，使得无人机在复杂空战场景中表现优秀。Q-learning算法使得控制器具备智能决策能力，可以根据实时环境状态调整控制策略，适应非线性系统和动态环境的变化。LQR控制算法通过优化成本函数，使得无人机飞行轨迹更加稳定和准确。此外，根据近视距内目标信息选择攻击策略，使得无人机在空战中更灵活、高效。而传统的PID控制器，由于其线性控制特性，无法适应复杂的非线性系统和动态环境，导致飞行过程中出现较大的控制误差和轨迹不稳定的情况。在高强度的空战中，传统方法可能无法满足精准攻击的要求，导致任务执行效率不高。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于LQR近视距的无人机空战攻击方法，其特征在于，包括以下步骤：

S1、使用深度强化学习算法在离线环境中对无人机进行训练；

S2、基于系统模型和目标跟踪信息，计算出最优的控制输入，根据近视距内的目标信息，选择合适的攻击策略；

所述步骤S1包括如下步骤：

S11：使用深度强化学习算法在离线环境中对无人机进行训练，使用Q-learning算法学习无人机在不同状态下采取的最佳动作；

S12：使用函数逼近方法拟合Q值函数，定义动作向量s_b，其中s_b＝[throttle,pitch,roll]，throttle表示油门控制，pitch表示俯仰角控制，roll表示横滚角控制，定义Q值函数为Q(s_a,s_b)，它估计在状态s_a下，采取动作s_b的长期累积奖励；

S13：通过自身传感器系统周期性感知我方无人机的态势信息s_a，敌方态势信息s_c，其中,s_c为我方无人机通过摄像头传感器获得的基于视频图像的敌方态势信息，根据Minimumjerk算法进行轨迹跟踪，生成追击路径；

所述步骤S2包括如下步骤：

S21:将无人机的水平位置和速度设为状态量：X＝[p v]^T,将加速度设为输入量：u＝a,则得到离散时间系统方程:X_d(k+1)＝AX_d(k)+Ba_d(k)，其中，A为4*4离散时间状态转移矩阵，B为2*4离散时间输入矩阵，/>

S22:将步骤S1所得到的Q值函数作为LQR控制器的成本函数，Q值函数在强化学习中表示了在状态s_a采取动作s_b时的长期累积奖励，视为状态的权重s_a，将Q(s_a,s_b)作为Q矩阵；

S23:设定权重矩阵R，R为2*2矩阵，用于表示控制输入的权重，R矩阵用于平衡状态误差和控制输入的代价，控制输入的权重根据实际控制需求进行调整；

S24:LQR的优化目标为：

用线性规划方法求解最小代价函数:

P＝Q+A^TPA-A^TPB(R+B^TPB)^-1B^TPA

得到最优的控制增益矩阵K：

K＝R^-1*B^T*P；

S25:在实时控制过程中，持续观测无人机的当前状态s_a，计算状态误差e＝s_atarget-s_a，其中s_atarget是期望的目标状态，根据控制增益矩阵K和状态误差e计算最优的控制输入u：

u＝-K*e

S26：将计算得到的最优控制输入u施加到无人机系统中，以实现控制目标，无人机将根据LQR控制输入调整其动作和状态，持续观测状态并进行控制；

S27：无人机持续调整动作和状态，当实时位置满足近视距，敌方无人机在我方无人机的规划路径上时，采取碰撞形式击落敌方无人机。

2.根据权利要求1所述的基于LQR近视距的无人机空战攻击方法，其特征在于，所述步骤S11中，通过自身传感器系统周期性感知我方无人机的态势信息s_a，其中v为我方无人机的速度信息,h为我方无人机高度态势信息，ψ,/>θ分别为无人机航向角，横滚角，俯仰角态势信息，以最大化长期累积奖励，构建Q值函数。

3.根据权利要求1所述的基于LQR近视距的无人机空战攻击方法，其特征在于，所述步骤S12步骤中，为了将Q值函数逼近为一个线性二次函数，需要定义一个特征向量phi(s_a,s_b)来表示状态和动作的特征，同时增加一些高次项和交叉项，引入非线性关系，即：

通过与环境交互，收集一系列的样本数据，包括当前状态s_a、采取的动作s_b、奖励r和下一个状态s_a'，利用这些样本数据，建立一个训练集D，其中每个样本包含phi(s_a,s_b)和目标Q值targetQ，即：

D＝{(phi(s_a1,s_b1),targetQ₁),(phi(s_a2,s_b2),targetQ₂),...}。

4.根据权利要求1所述的基于LQR近视距的无人机空战攻击方法，其特征在于，所述步骤S12中，使用线性回归来优化权重向量w，使得估计的Q值函数逼近目标Q值，线性回归的优化目标表示为：

其中n为样本数量。

5.根据权利要求1所述的基于LQR近视距的无人机空战攻击方法，其特征在于，所述步骤S12中，通过线性函数逼近方法，将Q值函数表示为Q(s_a,s_b)＝w^T*phi(s_a,s_b)，其中w是线性回归的权重向量，重复执行上述步骤S1，通过不断收集样本数据、计算目标Q值、线性回归拟合和更新Q值函数，逐渐优化Q值函数的估计。