CN114995506B

CN114995506B - 用于面向目标跟踪的飞行器控制方法、计算机系统及介质

Info

Publication number: CN114995506B
Application number: CN202210702112.6A
Authority: CN
Inventors: 谭雁英; 叶伟; 赵斌; 周军; 卢晓东
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2022-06-20
Filing date: 2022-06-20
Publication date: 2024-04-26
Anticipated expiration: 2042-06-20
Also published as: CN114995506A

Abstract

本发明公开了一种用于面向目标跟踪的飞行器控制方法、计算机系统及介质。所述方法包括：获取基于部分可观察马尔科夫决策过程POMDP构建的飞行器跟踪目标的POMDP决策模型；采用扩展信息滤波EIF算法，利用当前时刻的观测数据Ω对当前时刻所述目标的状态进行估计；基于标称信念状态优化NBO算法，在有限时域H范围内近似求解所述POMDP决策模型；计算在有限时域H范围内每一时刻k的回报函数，并累加得到有限时域H范围内的累积回报函数；基于求解约束条件，求解有限时域H范围内累积回报函数最优化时的最优动作控制序列，并将最优动作控制序列中的第一项作为当前时刻所述飞行器的动作控制量输出，以按照输出的动作控制量对所述飞行器进行控制。

Description

用于面向目标跟踪的飞行器控制方法、计算机系统及介质

技术领域

本发明属于飞行器运动规划技术领域，具体涉及用于面向目标跟踪的飞行器控制方法、计算机系统及介质。

背景技术

飞行器，尤其是无人机，具有诸多优良特性，使其在军民领域得到了广泛的应用。战场环境下跟踪、攻击目标是无人机的重要作战任务之一。应对复杂多变的战场环境及目标的不确定性等情形下的无人机运动/机动决策是无人机跟踪、攻击目标作战任务的重要组成部分。基于部分可观察马尔科夫决策过程(Partially Observable Markov DecisionProcess，缩写POMDP)的无人机运动/机动决策是根据战场环境和目标的变化情况，规划出目标跟踪过程中满足约束的无人机运动/ 机动动作序列。目前，现有技术存在以下不足：未能既考虑无人机机载传感器性能的约束以对目标进行持续跟踪观测，又同时考虑以有利于目标攻击的方式进行无人机运动/机动决策规划，存在一定的局限性。

发明内容

为了克服现有技术的局限性，将机载传感器探测性能约束及有利于快速进入移动目标的运动轨迹延长线策略同时引入到运动/机动决策策略设计中，提供了一种基于POMDP的面向目标跟踪的飞行器控制方法，以减小目标跟踪过程中目标丢失的可能性，并以有利于攻击的运动/机动方式接近目标。

本发明实施例的第一方面，提供了一种用于面向目标跟踪的飞行器控制方法。包括：

步骤1，获取基于部分可观察马尔科夫决策过程POMDP构建的飞行器跟踪目标的POMDP决策模型，其中，所述POMDP决策模型定义为：

POMDP＝(S，A，T，R，Ω，O)

其中：

S为状态参数，包括所述飞行器的状态s_u和所述目标的状态s_t；其中，任意时刻所述飞行器的状态s_u通过该时刻所述飞行器的位置坐标、偏航角、俯仰角、飞行速度来表示；任意时刻所述目标的状态s_t通过该时刻的所述目标的位置坐标和速度来表示，其中，所述目标的位置坐标和速度是基于所述飞行器上的机载传感器的观测数据进行估计而得到的；

A为所述飞行器的动作控制量，包括加速度控制量和偏航角速度控制量；

T为状态转移函数，包括所述飞行器的状态转移函数和所述目标的状态转移函数；其中，所述飞行器的状态转移函数通过飞行器的运动学方程描述获得；所述目标的状态转移函数通过扩展信息滤波EIF算法获得；

R为回报函数，包括所述飞行器跟踪所述目标的回报函数和所述飞行器的动作控制能耗回报函数；

Ω为所述机载传感器的观测数据，其中，观测数据包括所述飞行器与所述目标之间的斜距和方位角；

O为观测函数，是关于所述飞行器状态和所述目标状态对于距离信息和角度信息的表达式，其中所述距离信息和所述角度信息为通过飞行器姿态解耦将所述观测数据中的斜距和方位角转换为所述目标所在水平面的水平投影距离信息和角度信息；

步骤2，采用扩展信息滤波EIF算法，利用当前时刻的观测数据Ω对当前时刻所述目标的状态进行估计，得到所述目标的滤波状态估计其中，k为时刻；

步骤3，基于标称信念状态优化NBO算法，在有限时域H范围内近似求解所述POMDP决策模型，包括：

基于NBO算法，以所述目标的滤波状态估计近似作为所述POMDP 决策模型中当前时刻的所述目标的状态s_t(k)；

根据所述飞行器的状态转移函数，计算有限时域H范围内所述飞行器的状态序列和控制序列为：

计算在有限时域H范围内所述目标的状态序列为：

步骤4，计算在有限时域H范围内每一时刻的回报函数，并累加得到有限时域H范围内的累积回报函数；

步骤5，基于求解约束条件，求解有限时域H范围内的最优动作控制序列，并将最优动作控制序列中的第一项作为当前时刻所述飞行器的动作控制量输出，以按照输出的动作控制量对所述飞行器进行控制；

其中，所述求解约束条件包括加速度控制量和偏航角速度控制量允许的范围、所述飞行器定高飞行过程中平飞速度允许范围、观测数据的数据范围，所述最优动作控制序列为在有限时域H范围内的累积回报函数最优化时的动作控制序列。

根据本发明的实施例，所述步骤4包括：

1)计算以当前k时刻为起点的有限时域H范围内每一预测时刻k′的回报函数，k′∈{k，k+1，…，k+H-1}；其中，k′时刻的回报函数为：

j(k′)＝R(k′)＝J_track(k′)+J_U(k′)

其中，

J_track(k′)：为所述飞行器跟踪所述目标的回报函数，根据所述目标为固定目标或移动目标而分别采取不同的计算过程：

对于固定目标：

J_track(k′)＝||s_u(k′)-s_t(k′)||₂

对于移动目标：

J_track(k′)＝||s_u(k′)-s_t(k′)||₂+||s_u(k′)-s_t(k′)||_⊥

其中，||s_u(k′)-s_t(k′)||₂表示所述飞行器与所述目标之间在所述目标运动水平面内的投影距离，||s_u(k′)-s_t(k′)||_⊥表示在所述目标运动水平面内所述飞行器投影位置与所述目标运动轨迹之间的侧向垂直距离，使得所述飞行器以有利于攻击的运动/机动接近所述目标；

J_U(k′)：为所述飞行器的动作控制能耗回报函数J_U(k′)：

J_U(k′)＝a^T(k′)Λa(k′)

其中，a(k′)为k′时刻的动作控制，Λ为正定对角矩阵，以调节动作控制的权重；

2)计算有限时域H范围内的累积回报函数；

其中，J_H(k)表示以当前k时刻为起点的在有限时域H范围内的累积回报函数。

根据本发明的实施例，所述步骤2包括：

1)获取并更新所述飞行器的状态s_u和所述机载传感器的观测数据Ω；

2)将所述机载传感器的观测数据中的斜距d(k)和方位角通过飞行器的姿态解耦转换为所述目标所在水平面的水平投影的距离信息r_h(k)和角度信息η_h(k)；

3)设置所述目标的状态方程如下：

s_t(k+1)＝Φs_t(k)+Γw(k)，w(k)～N(0，Q(k))

其中，矩阵Φ和Γ分别表示状态转移矩阵和噪声矩阵，w(k)是零均值的高斯白噪声，w(k)＝[w_x(k)，w_y(k)]^T，Q(k)为过程噪声的协方差矩阵；

4)根据k时刻的观测数据Ω(k)，采用扩展信息滤波EIF算法对所述目标的状态进行估计，包括：

根据所述目标的状态方程、观测函数和转换到所述目标水平面的观测数据 z(k)，得到EIF算法中各个矩阵的对应关系如下：

x(k)＝s_t(k)＝f(x(k-1)，u(k-1))+w(k)＝Φs_t(k)+Γw(k)

①计算目标估计EIF中信息矩阵和信息状态向量的预测：

Y(k|k-1)＝[F(k)Y(k|k-1)F^T(k)+Q(k)]^-1

②计算目标估计EIF中信息矩阵和信息状态向量的更新：

Y(k|k)＝Y(k|k-1)+I(k)

其中，

I(k)＝H^T(k)R^-1(k)H(k)

③计算所述目标的滤波状态估计

5)当所述目标为移动目标时，利用递推最小二乘方法对所述目标的滤波状态估计值进行拟合，获取移动目标的直线运动方程，其中，假设初始时刻曲线拟合参数为零。

根据本发明的实施例，观测函数表达如下：

其中，所述机载传感器的观测数据包括所述飞行器相对所述目标的斜距 d(k)和方位角通过所述飞行器姿态解耦将斜距d(k)和方位角/>转换为所述目标所在水平面的水平投影的距离信息r_h(k)和水平方位角σ_h(k)，再通过/>计算得到水平投影的角度信息η_h(k)；v(k)是所述机载传感器的测量误差，假定服从零均值的正态分布，R(k)为误差协方差矩阵。

根据本发明的实施例，在步骤1中获取所述POMDP决策模型之前，所述方法还包括：构建所述POMDP决策模型。

根据本发明的实施例，所述方法还包括：每隔固定周期执行上述步骤2～步骤5。

本发明实施例的第二方面，提供了一种计算机系统。所述计算机系统包括：一个或多个处理器以及存储器。所述存储器用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得一个或多个处理器执行上述方法。

本发明实施例的第三方面，还提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行上述方法。

本发明实施例的有益效果：基于POMDP的面向目标跟踪的飞行器运动/机动决策规划过程中，将机载传感器探测性能约束和有利于快速进入移动目标的运动轨迹延长线的策略，同时引入到飞行器运动/机动决策的回报函数策略设计中，满足了飞行器对目标持续跟踪观测的要求，并可以以有利于攻击的运动/机动方式快速进入移动目标运动轨迹延长线上，减小了飞行器在目标跟踪过程中目标丢失的可能性，同时以有利于攻击的运动/机动方式接近目标。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述内容以及其他目的、特征和优点将更为清楚，在附图中：

图1是本发明实施例的基于POMDP的无人机跟踪目标的运动/机动决策方法流程示意图。

图2是本发明实施例的基于POMDP面向目标跟踪的无人机运动/机动决策规划结果示意图。

图3是本发明实施例的基于POMDP面向目标跟踪的无人机运动/机动决策规划中无人机动作控制序列示意图。

图4是本发明实施例的方法和未引入传感器方位角量测范围约束时快速进入移动目标的轨迹延长线方法的运动/机动决策规划结果对比示意图。

图5是本发明实施例的方法和未引入传感器方位角量测范围约束时快速进入移动目标轨迹延长线方法的方位角变化结果对比示意图。以及

图6是本发明实施例的适于实现用于面向目标跟踪的飞行器控制的计算机系统的方框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。需要说明的是，下文以无人机为例进行描述仅是示例性的，本发明实施例的方法可以应用于各种类型的飞行器，对此本公开不予限定。

实施例一：

假设无人机搜索到目标，无人机定高飞行，无人机机载传感器与无人机捷联，机载传感器观测数据为无人机相对目标的斜距和方位角，无人机与固定/移动目标之间的相对高度保持不变，主要考虑无人机从发现目标到进入攻击之前的运动 /机动决策规划，结合图1，基于POMDP的面向目标跟踪运动/机动决策规划方法可以包括以下步骤1-1～步骤1-5：

步骤1-1：基于POMDP构建无人机跟踪固定/移动目标运动/机动决策模型。定义一个POMDP决策模型：

POMDP＝(S，A，T，R，Ω，O)

其中：

①S为状态参数，状态参数S包括无人机的状态s_u和目标的状态s_t，在k时刻无人机的状态表示为其中 (x_u(k)，y_u(k)，z_u(k))为无人机的位置坐标，/>为无人机的偏航角，θ_u(k)为无人机的俯仰角，v_u(k)为无人机的飞行速度。在k时刻目标的状态通过机载传感器的观测数据进行估计，目标的状态表示为其中(x_t(k)，y_t(k))为目标的位置坐标，/>为目标沿X轴和Y轴的速度分量。

②A为动作控制量，具体为无人机的动作控制量，包括加速度控制量和偏航角速度控制量，记为

③T为状态转移函数，包括无人机的状态转移函数和目标的状态转移函数。无人机的状态可直接感知，其状态转移函数通过运动学方程描述如下：

目标的状态不可直接感知，目标的状态转移函数通过扩展信息滤波 (Extendedinformation filter，缩写EIF)算法获得。

④R为回报函数，回报函数R包括无人机跟踪目标回报函数J_track(k)和无人机动作控制能耗回报函数J_U(k)，记为：

R(k)＝J_track(k)+J_U(k)

⑤Ω为观测数据集合，观测数据的集合为机载传感器的直接测量量，包括无人机与目标之间的斜距和方位角，记为其中d为无人机与目标之间斜距，/>为无人机与目标之间空间方位角，即无人机纵轴和机载传感器与目标视线之间的夹角(角度顺时针为负，逆时针为正)。

⑥O为观测函数，观测函数表达如下：

其中，机载传感器的观测数据为无人机相对目标的斜距d(k)和方位角通过无人机姿态解耦将斜距d(k)和方位角/>转换为目标所在水平面的水平投影r_h(k)和水平方位角σ_h(k)，再通过/>计算水平角度信息η_h(k)，然后将无人机状态和目标状态关于距离信息r_h(k)和角度信息η_h(k)的表达式作为系统目标的观测函数。v(k)是传感器的测量误差，假定服从零均值的正态分布，R(k)为误差协方差矩阵。

在该实施例中，每隔预设的固定周期执行下述步骤1-2～步骤1-5。

步骤1-2：通过机载传感器的观测数据对目标的状态进行估计，具体说明如下：

1)获取并更新无人机的状态和机载传感器的观测数据。

2)将机载传感器的观测数据中无人机与目标之间的斜距d(k)和方位角通过无人机姿态解耦转换为目标所在水平面的水平投影距离r_h(k)和水平方位角σ_h(k)，进而得到观测函数O(k)中的距离信息r_h(k)和角度信息η_h(k)。

3)目标的状态方程如下：

s_t(k+1)＝Φs_t(k)+Γw(k)，w(k)～N(0，Q(k))

其中，矩阵Φ和Γ分别表示状态转移矩阵和噪声矩阵，假设w(k)是零均值的高斯白噪声，w(k)＝[w_x(k)，w_y(k)]^T，Q(k)为过程噪声的协方差矩阵。

4)系统根据k时刻的观测信息采用扩展信息滤波EIF算法对目标的状态进行估计，具体说明如下：

根据目标的状态方程、观测函数和转换到目标水平面的观测数据z(k)，得到 EIF算法中各个矩阵的对应关系如下：

x(k)＝s_t(k)＝f(x(k-1)，u(k-1))+w(k)＝Φs_t(k)+Fw(k)

①计算目标估计EIF中信息矩阵和信息状态向量的预测：

Y(k|k-1)＝[F(k)Y(k|k-1)F^T(k)+Q(k)]^-1

②计算目标估计EIF中信息矩阵和信息状态向量的更新：

Y(k|k)＝Y(k|k-1)+I(k)

其中，

I(k)＝H^T(k)R^-1(k)H(k)

③计算目标的滤波状态估计

5)当目标为移动目标时，利用递推最小二乘方法对目标的滤波状态估计值进行拟合，获取移动目标的直线运动方程，其中，假设初始时刻曲线拟合参数为零。具体地，通过EIF算法获得离散目标的滤波状态估计值，然后将这些离散的目标滤波状态估计值利用最小二乘方法拟合为移动目标直线运动方程。

步骤1-3：基于标称信念状态优化算法(Nominal Belief-state Optimization，缩写NBO)对POMDP决策模型近似求解，以及计算k时刻在有限时域H范围内的系统的状态预测，具体说明如下：

1)基于NBO算法，将当前时刻的目标估计值近似作为POMDP决策模型中的目标状态s_t(k)。

2)计算有限时域H范围内无人机和目标的预测状态。

根据无人机的状态转移函数，计算无人机在有限时域H范围内预测的状态序列和控制序列为：

目标有限时域H范围内预测的状态序列为：

步骤1-4：计算在以当前k时刻为起点的有限时域H范围内的累积回报函数值，具体说明如下：

1)计算系统以当前k时刻为起点的有限时域H范围内每一预测时刻k′的回报函数值，k′∈{k，k+1，…，k+H-1}，其中，有限时域H范围是指以当前k时刻为起点经过H时刻后的时间范围，即以当前时刻为起点往后推算H的时间范围。

①跟踪目标回报函数J_track(k′)：

对于固定目标：

J_track(k′)＝||s_u(k′)-s_t(k′)||₂

对于移动目标：

J_track(k′)＝||s_u(k′)-s_t(k′)||₂+||s_u(k′)-s_t(k′)||_⊥

其中，||s_u(k′)-s_t(k′)||₂表示无人机与目标之间在目标运动的水平面内的投影距离，||s_u(k′)-s_t(k′)||_⊥表示在目标运动的水平面内无人机的投影位置与目标的运动轨迹之间的侧向垂直距离，使得无人机以有利于攻击的运动/机动方式接近目标。其中，当目标在水平面上运动，其运动高度基本不变；当在坡地平面移动时，目标运动的水平面为当前时刻目标所在高度的水平面。

②无人机动作控制能耗回报函数J_U(k′)：

J_U(k′)＝a^T(k′)Λa(k′)

其中，a(k′)为k′时刻的动作控制，Λ为正定对角矩阵，以调节动作控制的权重。

k′时刻的回报函数值为：

J(k′)＝R(k′)＝J_track(k′)+J_U(k′)

2)计算有限时域H范围的累积回报函数值。

有限时域H内的累积回报函数值为：

其中，J_H(k)表示以当前k时刻为起点的有限时域H范围内的累积回报函数。

步骤1-5：求解当前k时刻无人机在有限时域H内的最优动作控制序列，并将最优动作控制序列中的第一项作为当前k时刻无人机的动作控制量输出，具体说明如下：

1)求解过程中的约束条件。

①动作控制量约束

根据无人机的动力学约束，加速度控制量和偏航角速度控制量允许的范围为：

②无人机定高飞行平飞速度约束

无人机定高飞行过程中平飞速度允许范围如下：

V_min≤V_u(k)≤V_max

③机载传感器探测范围约束

机载传感器探测在探测目标时受物理限制，其探测范围具有一定的约束，无人机与目标之间的斜距d(k)和方位角探测范围约束如下：

无人机与目标之间的相对高度为ΔH，将观测数据中斜距和方位角通过无人机姿态解耦转换到目标所在水平面的水平投影距离r_h(k)和水平方位角σ_h(k)，水平投影距离r_h(k)和水平方位角σ_h(k)范围约束如下：

2)无人机在有限时域H内的最优动作序列求解。

当前k时刻求解无人机最优动作控制序列，满足在有限时域H范围内的累积回报函数最优化，如下式：

其中，为无人机在以k时刻为起点的有限时域H范围内的最优动作序列。

3)将无人机的最优控制动作序列中的第一项a^*(k|k)作为当前时刻无人机的动作控制量输出。

实施例二

某型无人机搜索到目标之后，在持续对目标进行观测的基础上，考虑以有利于攻击的运动/机动方式跟踪目标，结合图1，基于POMDP的无人机跟踪固定/ 移动目标运动/机动决策规划方法实施方式如下：

在典型场景初始化参数如下：假定无人机定高飞行，无人机相对目标的高度为1km。无人机初始位置坐标(1.5km，0km，1km)，初始偏航角为30度，初始速度30m/s；目标为移动目标，移动目标初始位置坐标(10km，5km，0km)，初始偏航角为60度，初始速度7.5m/s。有限预测时域取值H＝6。

步骤2-1：基于POMDP构建无人机跟踪固定/移动目标运动/机动决策模型。定义一个POMDP决策模型：

POMDP＝(S，A，T，R，Ω，O)

其中：

③T为状态转移函数，包括无人机的状态转移函数和目标的状态转移函数。无人机的状态可直接感知，其状态转移函数通过运动学方程进行如下：

目标的状态不可直接感知，目标的状态转移函数通过扩展信息滤波EIF算法获得。

R(k)＝J_track(k)+J_U(k)

⑥O为系统的观测函数，观测函数表达如下：

在该实施例中，每隔预设的固定周期执行下述步骤2-2～步骤2-5，周期T取值为1s。

步骤2-2：通过机载传感器的观测数据对目标的状态进行估计，具体说明如下：

1)获取并更新无人机的状态和机载传感器的观测数据。

3)目标的状态方程如下：

s_t(k+1)＝Φs_t(k)+Γw(k)，w(k)～N(0，Q(k))

其中，矩阵Φ和Γ分别表示状态转移矩阵和噪声矩阵，假设w(k)是零均值的高斯白噪声，w(k)＝[w_x(k)，w_y(k)]^T，Q(k)为过程噪声的协方差矩阵。假设目标CV(匀速直线)运动，则目标运动模型中矩阵Φ和Γ表达式如下：

4)系统根据k时刻的观测信息采用扩展信息滤波EIF算法对目标的状态进行估计，目标的状态估计误差协方差矩阵的初始值设置为P(0|0)＝I_4×4，噪声矩阵设置如下：

x(k)＝s_t(k)＝f(x(k-1)，u(k-1))+w(k)＝Φs_t(k)+Γw(k)

①计算目标估计EIF中信息矩阵和信息状态向量的预测：

Y(k|k-1)＝[F(k)Y(k|k-1)F^T(k)+Q(k)]^-1

/>

②计算目标估计EIF中信息矩阵和信息状态向量的更新：

Y(k|k)＝Y(k|k-1)+I(k)

其中，

I(k)＝H^T(k)R^-1(k)H(k)

③计算目标的滤波状态估计

5)当目标为移动目标时，利用递推最小二乘方法对目标的滤波状态估计值进行拟合，获取移动目标的直线运动方程，其中，假设初始时刻曲线拟合参数为零。

步骤2-3：基于标称信念状态优化NBO算法对POMDP决策模型近似求解，并计算k时刻在有限时域H＝6范围内的系统的状态预测，具体说明如下：

2)计算有限时域H＝6范围内无人机和目标的预测状态。

根据无人机的状态转移函数，计算无人机在有限时域H＝6范围内预测的状态序列和控制序列为：

目标有限时域H＝6范围内预测的状态序列为：

步骤2-4：计算在以k时刻为起点的有限时域H＝6范围内的累积回报函数值，具体说明如下：

1)计算系统在以k时刻为起点的有限时域H＝6范围内每一预测时刻k′的回报函数值，k′∈{k，k+1，…，k+5}。

①跟踪目标回报函数J_track(k′)：

对于固定目标：

J_track(k′)＝||s_u(k′)-s_t(k′)||₂

对于移动目标：

J_track(k′)＝||s_u(k′)-s_t(k′)||₂+||s_u(k′)-s_t(k′)||_⊥

其中，||s_u(k′)-s_t(k′)||₂表示无人机与目标之间在目标运动的水平面内的投影距离，||s_u(k′)-s_t(k′)||_⊥表示在目标运动的水平面内无人机投影位置与目标的运动轨迹之间的侧向垂直距离，使得无人机以有利于攻击的运动/机动方式接近目标。

②无人机动作控制能耗回报函数J_U(k′)：

J_U(k′)＝a^T(k′)Λa(k′)

其中，a(k′)为k′时刻的动作控制，Λ为正定对角矩阵，以调节动作控制的权重，Λ取单位矩阵。

k′时刻的回报函数值为：

J(k′)＝R(k′)＝J_track(k′)+J_U(k′)

2)计算有限时域H＝6范围的累积回报函数值。

有限时域H＝6内的累积回报函数值为：

其中，J_H＝6(k)表示以当前k时刻为起点的有限时域H＝6范围内的累积回报函数。

步骤2-5：求解无人机在以当前k时刻为起点的有限时域H＝6内的最优动作控制序列，并将最优动作控制序列中的第一项作为当前k时刻无人机的动作控制量输出，从而通过输出的该动作控制量控制无人机的动作，具体说明如下：

1)求解过程中的约束条件

①动作控制量约束

②无人机定高飞行平飞速度约束

无人机定高飞行过程中平飞速度允许范围如下：

30≤V_u(t)≤45(m/s)

③机载传感器探测范围约束

机载传感器受物理限制，其探测范围具有一定的约束，无人机与目标之间的斜距d(k)和方位角探测范围约束如下：

无人机与目标之间的相对高度为ΔH＝1km，将观测数据斜距和方位角通过无人机姿态解耦转换到目标所在水平面的水平投影距离r_h(k)和水平方位角σ_h(k)，水平投影距离r_h(k)和水平方位角σ_h(k)范围约束如下：

2)无人机在有限时域H＝6内最优动作序列求解

当前k时刻求解无人机最优动作控制序列，满足在有限时域H＝6范围内的累积回报函数最优化，如下式：

其中，为无人机在以k时刻为起点的有限时域H＝6内的最优动作序列。满足约束条件的情况下，利用Matlab中非线性最优化求解函数fmincon函数求解出无人机的最优控制动作序列/>使得回报函数在有限时域H＝6内最小化。

根据该实施例的方法在无人机跟踪移动目标运动/机动决策规划仿真结果如附图2和附图3所示，使用该实施例的方法与未引入传感器方位角测量范围约束的快速进入移动目标轨迹延长线方法，在无人机运动/机动决策规划过程的仿真结果对比如附图4和附图5所示。

如图6所示，根据本发明实施例的计算机系统600包括处理器601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。处理器601例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))等等。处理器601还可以包括用于缓存用途的板载存储器。处理器601可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 603中，存储有计算机系统600操作所需的各种程序和数据。处理器601、ROM602以及RAM 603通过总线604彼此相连。处理器601通过执行 ROM 602和/或RAM 603中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 602和RAM 603以外的一个或多个存储器中。处理器601也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本发明的实施例，计算机系统600还可以包括输入/输出(I/O)接口605，输入/输出(I/O)接口605也连接至总线604。计算机系统600还可以包括连接至I/O接口605的以下部件中的一项或多项：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分 607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种用于面向目标跟踪的飞行器控制方法，包括：

POMDP＝(S，A，T，R，Ω，O)

其中：

O为观测函数，是关于所述飞行器的状态和所述目标的状态对于距离信息和角度信息的表达式，其中所述距离信息和所述角度信息为通过所述飞行器的姿态解耦将所述观测数据中的斜距和方位角转换为所述目标所在水平面的水平投影距离信息和角度信息；

基于NBO算法，以所述目标的滤波状态估计近似作为所述POMDP决策模型中当前时刻的所述目标的状态s_t(k)；

计算在有限时域H范围内所述目标的状态序列为：

2.根据权利要求1所述的方法，其中，所述步骤4包括：

J(k′)＝R(k′)＝J_track(k′)+J_U(k′)

其中，

对于固定目标：

J_track(k′)＝||s_u(k′)-s_t(k′)||₂

对于移动目标：

J_track(k′)＝||s_u(k′)-s_t(k′)||₂+||s_u(k′)-s_t(k′)||_⊥

J_U(k′)：为所述飞行器的动作控制能耗回报函数J_U(k′)：

J_U(k′)＝a^T(k′)Λa(k′)

2)计算有限时域H范围内的累积回报函数；

3.根据权利要求1所述的方法，其中，所述步骤2包括：

2)将所述机载传感器的观测数据中的斜距d(k)和方位角通过所述飞行器的姿态解耦转换为所述目标所在水平面的水平投影的距离信息r_h(k)和角度信息η_h(k)；

3)设置所述目标的状态方程如下：

s_t(k+1)＝Φs_t(k)+Γw(k)，w(k)～N(0，Q(k))

根据所述目标的状态方程、观测函数和转换到所述目标水平面的观测数据z(k)，得到EIF算法中各个矩阵的对应关系如下：

x(k)＝s_t(k)＝f(x(k-1)，u(k-1))+w(k)＝Φs_t(k)+Γw(k)

①计算目标估计EIF中信息矩阵和信息状态向量的预测：

Y(k|k-1)＝[F(k)Y(k|k-1)F^T(k)+Q(k)]^-1

②计算目标估计EIF中信息矩阵和信息状态向量的更新：

Y(k|k)＝Y(k|k-1)+I(k)

其中，

I(k)＝H^T(k)R^-1(k)H(k)

③计算所述目标的滤波状态估计

4.根据权利要求1所述的方法，其中，观测函数表达如下：

其中，所述机载传感器的观测数据包括所述飞行器相对所述目标的斜距d(k)和方位角通过所述飞行器姿态解耦将斜距d(k)和方位角/>转换为所述目标所在水平面的水平投影的距离信息r_h(k)和水平方位角σ_h(k)，再通过/>计算得到水平投影的角度信息η_h(k)；v(k)是所述机载传感器的测量误差，假定服从零均值的正态分布，R(k)为误差协方差矩阵。

5.根据权利要求1所述的方法，其中，在步骤1中获取所述POMDP决策模型之前，所述方法还包括：构建所述POMDP决策模型。

6.根据权利要求1～5任意一项所述的方法，其中，所述方法还包括：每隔固定周期执行上述步骤2～步骤5。

7.一种计算机系统，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行权利要求1～6中任一项所述的方法。

8.一种计算机可读存储介质，其上存储有计算机程序指令，该计算机程序指令被处理器执行时实现权利要求1～6中任一项所述的方法。