CN114995506B - 用于面向目标跟踪的飞行器控制方法、计算机系统及介质 - Google Patents
用于面向目标跟踪的飞行器控制方法、计算机系统及介质 Download PDFInfo
- Publication number
- CN114995506B CN114995506B CN202210702112.6A CN202210702112A CN114995506B CN 114995506 B CN114995506 B CN 114995506B CN 202210702112 A CN202210702112 A CN 202210702112A CN 114995506 B CN114995506 B CN 114995506B
- Authority
- CN
- China
- Prior art keywords
- target
- aircraft
- state
- time domain
- return function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 230000009471 action Effects 0.000 claims abstract description 46
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 25
- 230000008569 process Effects 0.000 claims abstract description 22
- 230000001186 cumulative effect Effects 0.000 claims abstract description 20
- 238000001914 filtration Methods 0.000 claims abstract description 15
- 230000006870 function Effects 0.000 claims description 92
- 239000011159 matrix material Substances 0.000 claims description 35
- 238000012546 transfer Methods 0.000 claims description 24
- 238000005259 measurement Methods 0.000 claims description 11
- 230000015654 memory Effects 0.000 claims description 7
- 230000001133 acceleration Effects 0.000 claims description 6
- 238000005265 energy consumption Methods 0.000 claims description 6
- 238000013459 approach Methods 0.000 claims description 5
- 230000002349 favourable effect Effects 0.000 claims description 5
- 230000014509 gene expression Effects 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 238000001514 detection method Methods 0.000 description 8
- 230000009286 beneficial effect Effects 0.000 description 7
- 238000005457 optimization Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开了一种用于面向目标跟踪的飞行器控制方法、计算机系统及介质。所述方法包括:获取基于部分可观察马尔科夫决策过程POMDP构建的飞行器跟踪目标的POMDP决策模型;采用扩展信息滤波EIF算法,利用当前时刻的观测数据Ω对当前时刻所述目标的状态进行估计;基于标称信念状态优化NBO算法,在有限时域H范围内近似求解所述POMDP决策模型;计算在有限时域H范围内每一时刻k的回报函数,并累加得到有限时域H范围内的累积回报函数;基于求解约束条件,求解有限时域H范围内累积回报函数最优化时的最优动作控制序列,并将最优动作控制序列中的第一项作为当前时刻所述飞行器的动作控制量输出,以按照输出的动作控制量对所述飞行器进行控制。
Description
技术领域
本发明属于飞行器运动规划技术领域,具体涉及用于面向目标跟踪的飞行器控制方法、计算机系统及介质。
背景技术
飞行器,尤其是无人机,具有诸多优良特性,使其在军民领域得到了广泛的应用。战场环境下跟踪、攻击目标是无人机的重要作战任务之一。应对复杂多变的战场环境及目标的不确定性等情形下的无人机运动/机动决策是无人机跟踪、攻击目标作战任务的重要组成部分。基于部分可观察马尔科夫决策过程(Partially Observable Markov DecisionProcess,缩写POMDP)的无人机运动/机动决策是根据战场环境和目标的变化情况,规划出目标跟踪过程中满足约束的无人机运动/ 机动动作序列。目前,现有技术存在以下不足:未能既考虑无人机机载传感器性能的约束以对目标进行持续跟踪观测,又同时考虑以有利于目标攻击的方式进行无人机运动/机动决策规划,存在一定的局限性。
发明内容
为了克服现有技术的局限性,将机载传感器探测性能约束及有利于快速进入移动目标的运动轨迹延长线策略同时引入到运动/机动决策策略设计中,提供了一种基于POMDP的面向目标跟踪的飞行器控制方法,以减小目标跟踪过程中目标丢失的可能性,并以有利于攻击的运动/机动方式接近目标。
本发明实施例的第一方面,提供了一种用于面向目标跟踪的飞行器控制方法。包括:
步骤1,获取基于部分可观察马尔科夫决策过程POMDP构建的飞行器跟踪目标的POMDP决策模型,其中,所述POMDP决策模型定义为:
POMDP=(S,A,T,R,Ω,O)
其中:
S为状态参数,包括所述飞行器的状态su和所述目标的状态st;其中,任意时刻所述飞行器的状态su通过该时刻所述飞行器的位置坐标、偏航角、俯仰角、飞行速度来表示;任意时刻所述目标的状态st通过该时刻的所述目标的位置坐标和速度来表示,其中,所述目标的位置坐标和速度是基于所述飞行器上的机载传感器的观测数据进行估计而得到的;
A为所述飞行器的动作控制量,包括加速度控制量和偏航角速度控制量;
T为状态转移函数,包括所述飞行器的状态转移函数和所述目标的状态转移函数;其中,所述飞行器的状态转移函数通过飞行器的运动学方程描述获得;所述目标的状态转移函数通过扩展信息滤波EIF算法获得;
R为回报函数,包括所述飞行器跟踪所述目标的回报函数和所述飞行器的动作控制能耗回报函数;
Ω为所述机载传感器的观测数据,其中,观测数据包括所述飞行器与所述目标之间的斜距和方位角;
O为观测函数,是关于所述飞行器状态和所述目标状态对于距离信息和角度信息的表达式,其中所述距离信息和所述角度信息为通过飞行器姿态解耦将所述观测数据中的斜距和方位角转换为所述目标所在水平面的水平投影距离信息和角度信息;
步骤2,采用扩展信息滤波EIF算法,利用当前时刻的观测数据Ω对当前时刻所述目标的状态进行估计,得到所述目标的滤波状态估计其中,k为时刻;
步骤3,基于标称信念状态优化NBO算法,在有限时域H范围内近似求解所述POMDP决策模型,包括:
基于NBO算法,以所述目标的滤波状态估计近似作为所述POMDP 决策模型中当前时刻的所述目标的状态st(k);
根据所述飞行器的状态转移函数,计算有限时域H范围内所述飞行器的状态序列和控制序列为:
计算在有限时域H范围内所述目标的状态序列为:
步骤4,计算在有限时域H范围内每一时刻的回报函数,并累加得到有限时域H范围内的累积回报函数;
步骤5,基于求解约束条件,求解有限时域H范围内的最优动作控制序列,并将最优动作控制序列中的第一项作为当前时刻所述飞行器的动作控制量输出,以按照输出的动作控制量对所述飞行器进行控制;
其中,所述求解约束条件包括加速度控制量和偏航角速度控制量允许的范围、所述飞行器定高飞行过程中平飞速度允许范围、观测数据的数据范围,所述最优动作控制序列为在有限时域H范围内的累积回报函数最优化时的动作控制序列。
根据本发明的实施例,所述步骤4包括:
1)计算以当前k时刻为起点的有限时域H范围内每一预测时刻k′的回报函数,k′∈{k,k+1,…,k+H-1};其中,k′时刻的回报函数为:
j(k′)=R(k′)=Jtrack(k′)+JU(k′)
其中,
Jtrack(k′):为所述飞行器跟踪所述目标的回报函数,根据所述目标为固定目标或移动目标而分别采取不同的计算过程:
对于固定目标:
Jtrack(k′)=||su(k′)-st(k′)||2
对于移动目标:
Jtrack(k′)=||su(k′)-st(k′)||2+||su(k′)-st(k′)||⊥
其中,||su(k′)-st(k′)||2表示所述飞行器与所述目标之间在所述目标运动水平面内的投影距离,||su(k′)-st(k′)||⊥表示在所述目标运动水平面内所述飞行器投影位置与所述目标运动轨迹之间的侧向垂直距离,使得所述飞行器以有利于攻击的运动/机动接近所述目标;
JU(k′):为所述飞行器的动作控制能耗回报函数JU(k′):
JU(k′)=aT(k′)Λa(k′)
其中,a(k′)为k′时刻的动作控制,Λ为正定对角矩阵,以调节动作控制的权重;
2)计算有限时域H范围内的累积回报函数;
其中,JH(k)表示以当前k时刻为起点的在有限时域H范围内的累积回报函数。
根据本发明的实施例,所述步骤2包括:
1)获取并更新所述飞行器的状态su和所述机载传感器的观测数据Ω;
2)将所述机载传感器的观测数据中的斜距d(k)和方位角通过飞行器的姿态解耦转换为所述目标所在水平面的水平投影的距离信息rh(k)和角度信息ηh(k);
3)设置所述目标的状态方程如下:
st(k+1)=Φst(k)+Γw(k),w(k)~N(0,Q(k))
其中,矩阵Φ和Γ分别表示状态转移矩阵和噪声矩阵,w(k)是零均值的高斯白噪声,w(k)=[wx(k),wy(k)]T,Q(k)为过程噪声的协方差矩阵;
4)根据k时刻的观测数据Ω(k),采用扩展信息滤波EIF算法对所述目标的状态进行估计,包括:
根据所述目标的状态方程、观测函数和转换到所述目标水平面的观测数据 z(k),得到EIF算法中各个矩阵的对应关系如下:
x(k)=st(k)=f(x(k-1),u(k-1))+w(k)=Φst(k)+Γw(k)
①计算目标估计EIF中信息矩阵和信息状态向量的预测:
Y(k|k-1)=[F(k)Y(k|k-1)FT(k)+Q(k)]-1
②计算目标估计EIF中信息矩阵和信息状态向量的更新:
Y(k|k)=Y(k|k-1)+I(k)
其中,
I(k)=HT(k)R-1(k)H(k)
③计算所述目标的滤波状态估计
5)当所述目标为移动目标时,利用递推最小二乘方法对所述目标的滤波状态估计值进行拟合,获取移动目标的直线运动方程,其中,假设初始时刻曲线拟合参数为零。
根据本发明的实施例,观测函数表达如下:
其中,所述机载传感器的观测数据包括所述飞行器相对所述目标的斜距 d(k)和方位角通过所述飞行器姿态解耦将斜距d(k)和方位角/>转换为所述目标所在水平面的水平投影的距离信息rh(k)和水平方位角σh(k),再通过/>计算得到水平投影的角度信息ηh(k);v(k)是所述机载传感器的测量误差,假定服从零均值的正态分布,R(k)为误差协方差矩阵。
根据本发明的实施例,在步骤1中获取所述POMDP决策模型之前,所述方法还包括:构建所述POMDP决策模型。
根据本发明的实施例,所述方法还包括:每隔固定周期执行上述步骤2~步骤5。
本发明实施例的第二方面,提供了一种计算机系统。所述计算机系统包括:一个或多个处理器以及存储器。所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得一个或多个处理器执行上述方法。
本发明实施例的第三方面,还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述方法。
本发明实施例的有益效果:基于POMDP的面向目标跟踪的飞行器运动/机动决策规划过程中,将机载传感器探测性能约束和有利于快速进入移动目标的运动轨迹延长线的策略,同时引入到飞行器运动/机动决策的回报函数策略设计中,满足了飞行器对目标持续跟踪观测的要求,并可以以有利于攻击的运动/机动方式快速进入移动目标运动轨迹延长线上,减小了飞行器在目标跟踪过程中目标丢失的可能性,同时以有利于攻击的运动/机动方式接近目标。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
图1是本发明实施例的基于POMDP的无人机跟踪目标的运动/机动决策方法流程示意图。
图2是本发明实施例的基于POMDP面向目标跟踪的无人机运动/机动决策规划结果示意图。
图3是本发明实施例的基于POMDP面向目标跟踪的无人机运动/机动决策规划中无人机动作控制序列示意图。
图4是本发明实施例的方法和未引入传感器方位角量测范围约束时快速进入移动目标的轨迹延长线方法的运动/机动决策规划结果对比示意图。
图5是本发明实施例的方法和未引入传感器方位角量测范围约束时快速进入移动目标轨迹延长线方法的方位角变化结果对比示意图。以及
图6是本发明实施例的适于实现用于面向目标跟踪的飞行器控制的计算机系统的方框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。需要说明的是,下文以无人机为例进行描述仅是示例性的,本发明实施例的方法可以应用于各种类型的飞行器,对此本公开不予限定。
实施例一:
假设无人机搜索到目标,无人机定高飞行,无人机机载传感器与无人机捷联,机载传感器观测数据为无人机相对目标的斜距和方位角,无人机与固定/移动目标之间的相对高度保持不变,主要考虑无人机从发现目标到进入攻击之前的运动 /机动决策规划,结合图1,基于POMDP的面向目标跟踪运动/机动决策规划方法可以包括以下步骤1-1~步骤1-5:
步骤1-1:基于POMDP构建无人机跟踪固定/移动目标运动/机动决策模型。定义一个POMDP决策模型:
POMDP=(S,A,T,R,Ω,O)
其中:
①S为状态参数,状态参数S包括无人机的状态su和目标的状态st,在k时刻无人机的状态表示为其中 (xu(k),yu(k),zu(k))为无人机的位置坐标,/>为无人机的偏航角,θu(k)为无人机的俯仰角,vu(k)为无人机的飞行速度。在k时刻目标的状态通过机载传感器的观测数据进行估计,目标的状态表示为其中(xt(k),yt(k))为目标的位置坐标,/>为目标沿X轴和Y轴的速度分量。
②A为动作控制量,具体为无人机的动作控制量,包括加速度控制量和偏航角速度控制量,记为
③T为状态转移函数,包括无人机的状态转移函数和目标的状态转移函数。无人机的状态可直接感知,其状态转移函数通过运动学方程描述如下:
目标的状态不可直接感知,目标的状态转移函数通过扩展信息滤波 (Extendedinformation filter,缩写EIF)算法获得。
④R为回报函数,回报函数R包括无人机跟踪目标回报函数Jtrack(k)和无人机动作控制能耗回报函数JU(k),记为:
R(k)=Jtrack(k)+JU(k)
⑤Ω为观测数据集合,观测数据的集合为机载传感器的直接测量量,包括无人机与目标之间的斜距和方位角,记为其中d为无人机与目标之间斜距,/>为无人机与目标之间空间方位角,即无人机纵轴和机载传感器与目标视线之间的夹角(角度顺时针为负,逆时针为正)。
⑥O为观测函数,观测函数表达如下:
其中,机载传感器的观测数据为无人机相对目标的斜距d(k)和方位角通过无人机姿态解耦将斜距d(k)和方位角/>转换为目标所在水平面的水平投影rh(k)和水平方位角σh(k),再通过/>计算水平角度信息ηh(k),然后将无人机状态和目标状态关于距离信息rh(k)和角度信息ηh(k)的表达式作为系统目标的观测函数。v(k)是传感器的测量误差,假定服从零均值的正态分布,R(k)为误差协方差矩阵。
在该实施例中,每隔预设的固定周期执行下述步骤1-2~步骤1-5。
步骤1-2:通过机载传感器的观测数据对目标的状态进行估计,具体说明如下:
1)获取并更新无人机的状态和机载传感器的观测数据。
2)将机载传感器的观测数据中无人机与目标之间的斜距d(k)和方位角通过无人机姿态解耦转换为目标所在水平面的水平投影距离rh(k)和水平方位角σh(k),进而得到观测函数O(k)中的距离信息rh(k)和角度信息ηh(k)。
3)目标的状态方程如下:
st(k+1)=Φst(k)+Γw(k),w(k)~N(0,Q(k))
其中,矩阵Φ和Γ分别表示状态转移矩阵和噪声矩阵,假设w(k)是零均值的高斯白噪声,w(k)=[wx(k),wy(k)]T,Q(k)为过程噪声的协方差矩阵。
4)系统根据k时刻的观测信息采用扩展信息滤波EIF算法对目标的状态进行估计,具体说明如下:
根据目标的状态方程、观测函数和转换到目标水平面的观测数据z(k),得到 EIF算法中各个矩阵的对应关系如下:
x(k)=st(k)=f(x(k-1),u(k-1))+w(k)=Φst(k)+Fw(k)
①计算目标估计EIF中信息矩阵和信息状态向量的预测:
Y(k|k-1)=[F(k)Y(k|k-1)FT(k)+Q(k)]-1
②计算目标估计EIF中信息矩阵和信息状态向量的更新:
Y(k|k)=Y(k|k-1)+I(k)
其中,
I(k)=HT(k)R-1(k)H(k)
③计算目标的滤波状态估计
5)当目标为移动目标时,利用递推最小二乘方法对目标的滤波状态估计值进行拟合,获取移动目标的直线运动方程,其中,假设初始时刻曲线拟合参数为零。具体地,通过EIF算法获得离散目标的滤波状态估计值,然后将这些离散的目标滤波状态估计值利用最小二乘方法拟合为移动目标直线运动方程。
步骤1-3:基于标称信念状态优化算法(Nominal Belief-state Optimization,缩写NBO)对POMDP决策模型近似求解,以及计算k时刻在有限时域H范围内的系统的状态预测,具体说明如下:
1)基于NBO算法,将当前时刻的目标估计值近似作为POMDP决策模型中的目标状态st(k)。
2)计算有限时域H范围内无人机和目标的预测状态。
根据无人机的状态转移函数,计算无人机在有限时域H范围内预测的状态序列和控制序列为:
目标有限时域H范围内预测的状态序列为:
步骤1-4:计算在以当前k时刻为起点的有限时域H范围内的累积回报函数值,具体说明如下:
1)计算系统以当前k时刻为起点的有限时域H范围内每一预测时刻k′的回报函数值,k′∈{k,k+1,…,k+H-1},其中,有限时域H范围是指以当前k时刻为起点经过H时刻后的时间范围,即以当前时刻为起点往后推算H的时间范围。
①跟踪目标回报函数Jtrack(k′):
对于固定目标:
Jtrack(k′)=||su(k′)-st(k′)||2
对于移动目标:
Jtrack(k′)=||su(k′)-st(k′)||2+||su(k′)-st(k′)||⊥
其中,||su(k′)-st(k′)||2表示无人机与目标之间在目标运动的水平面内的投影距离,||su(k′)-st(k′)||⊥表示在目标运动的水平面内无人机的投影位置与目标的运动轨迹之间的侧向垂直距离,使得无人机以有利于攻击的运动/机动方式接近目标。其中,当目标在水平面上运动,其运动高度基本不变;当在坡地平面移动时,目标运动的水平面为当前时刻目标所在高度的水平面。
②无人机动作控制能耗回报函数JU(k′):
JU(k′)=aT(k′)Λa(k′)
其中,a(k′)为k′时刻的动作控制,Λ为正定对角矩阵,以调节动作控制的权重。
k′时刻的回报函数值为:
J(k′)=R(k′)=Jtrack(k′)+JU(k′)
2)计算有限时域H范围的累积回报函数值。
有限时域H内的累积回报函数值为:
其中,JH(k)表示以当前k时刻为起点的有限时域H范围内的累积回报函数。
步骤1-5:求解当前k时刻无人机在有限时域H内的最优动作控制序列,并将最优动作控制序列中的第一项作为当前k时刻无人机的动作控制量输出,具体说明如下:
1)求解过程中的约束条件。
①动作控制量约束
根据无人机的动力学约束,加速度控制量和偏航角速度控制量允许的范围为:
②无人机定高飞行平飞速度约束
无人机定高飞行过程中平飞速度允许范围如下:
Vmin≤Vu(k)≤Vmax
③机载传感器探测范围约束
机载传感器探测在探测目标时受物理限制,其探测范围具有一定的约束,无人机与目标之间的斜距d(k)和方位角探测范围约束如下:
无人机与目标之间的相对高度为ΔH,将观测数据中斜距和方位角通过无人机姿态解耦转换到目标所在水平面的水平投影距离rh(k)和水平方位角σh(k),水平投影距离rh(k)和水平方位角σh(k)范围约束如下:
2)无人机在有限时域H内的最优动作序列求解。
当前k时刻求解无人机最优动作控制序列,满足在有限时域H范围内的累积回报函数最优化,如下式:
其中,为无人机在以k时刻为起点的有限时域H范围内的最优动作序列。
3)将无人机的最优控制动作序列中的第一项a*(k|k)作为当前时刻无人机的动作控制量输出。
实施例二
某型无人机搜索到目标之后,在持续对目标进行观测的基础上,考虑以有利于攻击的运动/机动方式跟踪目标,结合图1,基于POMDP的无人机跟踪固定/ 移动目标运动/机动决策规划方法实施方式如下:
在典型场景初始化参数如下:假定无人机定高飞行,无人机相对目标的高度为1km。无人机初始位置坐标(1.5km,0km,1km),初始偏航角为30度,初始速度30m/s;目标为移动目标,移动目标初始位置坐标(10km,5km,0km),初始偏航角为60度,初始速度7.5m/s。有限预测时域取值H=6。
步骤2-1:基于POMDP构建无人机跟踪固定/移动目标运动/机动决策模型。定义一个POMDP决策模型:
POMDP=(S,A,T,R,Ω,O)
其中:
①S为状态参数,状态参数S包括无人机的状态su和目标的状态st,在k时刻无人机的状态表示为其中 (xu(k),yu(k),zu(k))为无人机的位置坐标,/>为无人机的偏航角,θu(k)为无人机的俯仰角,vu(k)为无人机的飞行速度。在k时刻目标的状态通过机载传感器的观测数据进行估计,目标的状态表示为其中(xt(k),yt(k))为目标的位置坐标,/>为目标沿X轴和Y轴的速度分量。
②A为动作控制量,具体为无人机的动作控制量,包括加速度控制量和偏航角速度控制量,记为
③T为状态转移函数,包括无人机的状态转移函数和目标的状态转移函数。无人机的状态可直接感知,其状态转移函数通过运动学方程进行如下:
目标的状态不可直接感知,目标的状态转移函数通过扩展信息滤波EIF算法获得。
④R为回报函数,回报函数R包括无人机跟踪目标回报函数Jtrack(k)和无人机动作控制能耗回报函数JU(k),记为:
R(k)=Jtrack(k)+JU(k)
⑤Ω为观测数据集合,观测数据的集合为机载传感器的直接测量量,包括无人机与目标之间的斜距和方位角,记为其中d为无人机与目标之间斜距,/>为无人机与目标之间空间方位角,即无人机纵轴和机载传感器与目标视线之间的夹角(角度顺时针为负,逆时针为正)。
⑥O为系统的观测函数,观测函数表达如下:
其中,机载传感器的观测数据为无人机相对目标的斜距d(k)和方位角通过无人机姿态解耦将斜距d(k)和方位角/>转换为目标所在水平面的水平投影rh(k)和水平方位角σh(k),再通过/>计算水平角度信息ηh(k),然后将无人机状态和目标状态关于距离信息rh(k)和角度信息ηh(k)的表达式作为系统目标的观测函数。v(k)是传感器的测量误差,假定服从零均值的正态分布,R(k)为误差协方差矩阵。
在该实施例中,每隔预设的固定周期执行下述步骤2-2~步骤2-5,周期T取值为1s。
步骤2-2:通过机载传感器的观测数据对目标的状态进行估计,具体说明如下:
1)获取并更新无人机的状态和机载传感器的观测数据。
2)将机载传感器的观测数据中无人机与目标之间的斜距d(k)和方位角通过无人机姿态解耦转换为目标所在水平面的水平投影距离rh(k)和水平方位角σh(k),进而得到观测函数O(k)中的距离信息rh(k)和角度信息ηh(k)。
3)目标的状态方程如下:
st(k+1)=Φst(k)+Γw(k),w(k)~N(0,Q(k))
其中,矩阵Φ和Γ分别表示状态转移矩阵和噪声矩阵,假设w(k)是零均值的高斯白噪声,w(k)=[wx(k),wy(k)]T,Q(k)为过程噪声的协方差矩阵。假设目标CV(匀速直线)运动,则目标运动模型中矩阵Φ和Γ表达式如下:
4)系统根据k时刻的观测信息采用扩展信息滤波EIF算法对目标的状态进行估计,目标的状态估计误差协方差矩阵的初始值设置为P(0|0)=I4×4,噪声矩阵设置如下:
根据目标的状态方程、观测函数和转换到目标水平面的观测数据z(k),得到 EIF算法中各个矩阵的对应关系如下:
x(k)=st(k)=f(x(k-1),u(k-1))+w(k)=Φst(k)+Γw(k)
①计算目标估计EIF中信息矩阵和信息状态向量的预测:
Y(k|k-1)=[F(k)Y(k|k-1)FT(k)+Q(k)]-1
/>
②计算目标估计EIF中信息矩阵和信息状态向量的更新:
Y(k|k)=Y(k|k-1)+I(k)
其中,
I(k)=HT(k)R-1(k)H(k)
③计算目标的滤波状态估计
5)当目标为移动目标时,利用递推最小二乘方法对目标的滤波状态估计值进行拟合,获取移动目标的直线运动方程,其中,假设初始时刻曲线拟合参数为零。
步骤2-3:基于标称信念状态优化NBO算法对POMDP决策模型近似求解,并计算k时刻在有限时域H=6范围内的系统的状态预测,具体说明如下:
1)基于NBO算法,将当前时刻的目标估计值近似作为POMDP决策模型中的目标状态st(k)。
2)计算有限时域H=6范围内无人机和目标的预测状态。
根据无人机的状态转移函数,计算无人机在有限时域H=6范围内预测的状态序列和控制序列为:
目标有限时域H=6范围内预测的状态序列为:
步骤2-4:计算在以k时刻为起点的有限时域H=6范围内的累积回报函数值,具体说明如下:
1)计算系统在以k时刻为起点的有限时域H=6范围内每一预测时刻k′的回报函数值,k′∈{k,k+1,…,k+5}。
①跟踪目标回报函数Jtrack(k′):
对于固定目标:
Jtrack(k′)=||su(k′)-st(k′)||2
对于移动目标:
Jtrack(k′)=||su(k′)-st(k′)||2+||su(k′)-st(k′)||⊥
其中,||su(k′)-st(k′)||2表示无人机与目标之间在目标运动的水平面内的投影距离,||su(k′)-st(k′)||⊥表示在目标运动的水平面内无人机投影位置与目标的运动轨迹之间的侧向垂直距离,使得无人机以有利于攻击的运动/机动方式接近目标。
②无人机动作控制能耗回报函数JU(k′):
JU(k′)=aT(k′)Λa(k′)
其中,a(k′)为k′时刻的动作控制,Λ为正定对角矩阵,以调节动作控制的权重,Λ取单位矩阵。
k′时刻的回报函数值为:
J(k′)=R(k′)=Jtrack(k′)+JU(k′)
2)计算有限时域H=6范围的累积回报函数值。
有限时域H=6内的累积回报函数值为:
其中,JH=6(k)表示以当前k时刻为起点的有限时域H=6范围内的累积回报函数。
步骤2-5:求解无人机在以当前k时刻为起点的有限时域H=6内的最优动作控制序列,并将最优动作控制序列中的第一项作为当前k时刻无人机的动作控制量输出,从而通过输出的该动作控制量控制无人机的动作,具体说明如下:
1)求解过程中的约束条件
①动作控制量约束
根据无人机的动力学约束,加速度控制量和偏航角速度控制量允许的范围为:
②无人机定高飞行平飞速度约束
无人机定高飞行过程中平飞速度允许范围如下:
30≤Vu(t)≤45(m/s)
③机载传感器探测范围约束
机载传感器受物理限制,其探测范围具有一定的约束,无人机与目标之间的斜距d(k)和方位角探测范围约束如下:
无人机与目标之间的相对高度为ΔH=1km,将观测数据斜距和方位角通过无人机姿态解耦转换到目标所在水平面的水平投影距离rh(k)和水平方位角σh(k),水平投影距离rh(k)和水平方位角σh(k)范围约束如下:
2)无人机在有限时域H=6内最优动作序列求解
当前k时刻求解无人机最优动作控制序列,满足在有限时域H=6范围内的累积回报函数最优化,如下式:
其中,为无人机在以k时刻为起点的有限时域H=6内的最优动作序列。满足约束条件的情况下,利用Matlab中非线性最优化求解函数fmincon函数求解出无人机的最优控制动作序列/>使得回报函数在有限时域H=6内最小化。
3)将无人机的最优控制动作序列中的第一项a*(k|k)作为当前时刻无人机的动作控制量输出。
根据该实施例的方法在无人机跟踪移动目标运动/机动决策规划仿真结果如附图2和附图3所示,使用该实施例的方法与未引入传感器方位角测量范围约束的快速进入移动目标轨迹延长线方法,在无人机运动/机动决策规划过程的仿真结果对比如附图4和附图5所示。
图6是本发明实施例的适于实现用于面向目标跟踪的飞行器控制的计算机系统的方框图。
如图6所示,根据本发明实施例的计算机系统600包括处理器601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。处理器601例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器601还可以包括用于缓存用途的板载存储器。处理器601可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 603中,存储有计算机系统600操作所需的各种程序和数据。处理器601、ROM602以及RAM 603通过总线604彼此相连。处理器601通过执行 ROM 602和/或RAM 603中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 602和RAM 603以外的一个或多个存储器中。处理器601也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本发明的实施例,计算机系统600还可以包括输入/输出(I/O)接口605,输入/输出(I/O)接口605也连接至总线604。计算机系统600还可以包括连接至I/O接口605的以下部件中的一项或多项:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分 607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。
Claims (8)
1.一种用于面向目标跟踪的飞行器控制方法,包括:
步骤1,获取基于部分可观察马尔科夫决策过程POMDP构建的飞行器跟踪目标的POMDP决策模型,其中,所述POMDP决策模型定义为:
POMDP=(S,A,T,R,Ω,O)
其中:
S为状态参数,包括所述飞行器的状态su和所述目标的状态st;其中,任意时刻所述飞行器的状态su通过该时刻所述飞行器的位置坐标、偏航角、俯仰角、飞行速度来表示;任意时刻所述目标的状态st通过该时刻的所述目标的位置坐标和速度来表示,其中,所述目标的位置坐标和速度是基于所述飞行器上的机载传感器的观测数据进行估计而得到的;
A为所述飞行器的动作控制量,包括加速度控制量和偏航角速度控制量;
T为状态转移函数,包括所述飞行器的状态转移函数和所述目标的状态转移函数;其中,所述飞行器的状态转移函数通过飞行器的运动学方程描述获得;所述目标的状态转移函数通过扩展信息滤波EIF算法获得;
R为回报函数,包括所述飞行器跟踪所述目标的回报函数和所述飞行器的动作控制能耗回报函数;
Ω为所述机载传感器的观测数据,其中,观测数据包括所述飞行器与所述目标之间的斜距和方位角;
O为观测函数,是关于所述飞行器的状态和所述目标的状态对于距离信息和角度信息的表达式,其中所述距离信息和所述角度信息为通过所述飞行器的姿态解耦将所述观测数据中的斜距和方位角转换为所述目标所在水平面的水平投影距离信息和角度信息;
步骤2,采用扩展信息滤波EIF算法,利用当前时刻的观测数据Ω对当前时刻所述目标的状态进行估计,得到所述目标的滤波状态估计其中,k为时刻;
步骤3,基于标称信念状态优化NBO算法,在有限时域H范围内近似求解所述POMDP决策模型,包括:
基于NBO算法,以所述目标的滤波状态估计近似作为所述POMDP决策模型中当前时刻的所述目标的状态st(k);
根据所述飞行器的状态转移函数,计算有限时域H范围内所述飞行器的状态序列和控制序列为:
计算在有限时域H范围内所述目标的状态序列为:
步骤4,计算在有限时域H范围内每一时刻的回报函数,并累加得到有限时域H范围内的累积回报函数;
步骤5,基于求解约束条件,求解有限时域H范围内的最优动作控制序列,并将最优动作控制序列中的第一项作为当前时刻所述飞行器的动作控制量输出,以按照输出的动作控制量对所述飞行器进行控制;
其中,所述求解约束条件包括加速度控制量和偏航角速度控制量允许的范围、所述飞行器定高飞行过程中平飞速度允许范围、观测数据的数据范围,所述最优动作控制序列为在有限时域H范围内的累积回报函数最优化时的动作控制序列。
2.根据权利要求1所述的方法,其中,所述步骤4包括:
1)计算以当前k时刻为起点的有限时域H范围内每一预测时刻k′的回报函数,k′∈{k,k+1,…,k+H-1};其中,k′时刻的回报函数为:
J(k′)=R(k′)=Jtrack(k′)+JU(k′)
其中,
Jtrack(k′):为所述飞行器跟踪所述目标的回报函数,根据所述目标为固定目标或移动目标而分别采取不同的计算过程:
对于固定目标:
Jtrack(k′)=||su(k′)-st(k′)||2
对于移动目标:
Jtrack(k′)=||su(k′)-st(k′)||2+||su(k′)-st(k′)||⊥
其中,||su(k′)-st(k′)||2表示所述飞行器与所述目标之间在所述目标运动水平面内的投影距离,||su(k′)-st(k′)||⊥表示在所述目标运动水平面内所述飞行器投影位置与所述目标运动轨迹之间的侧向垂直距离,使得所述飞行器以有利于攻击的运动/机动接近所述目标;
JU(k′):为所述飞行器的动作控制能耗回报函数JU(k′):
JU(k′)=aT(k′)Λa(k′)
其中,a(k′)为k′时刻的动作控制,Λ为正定对角矩阵,以调节动作控制的权重;
2)计算有限时域H范围内的累积回报函数;
其中,JH(k)表示以当前k时刻为起点的有限时域H范围内的累积回报函数。
3.根据权利要求1所述的方法,其中,所述步骤2包括:
1)获取并更新所述飞行器的状态su和所述机载传感器的观测数据Ω;
2)将所述机载传感器的观测数据中的斜距d(k)和方位角通过所述飞行器的姿态解耦转换为所述目标所在水平面的水平投影的距离信息rh(k)和角度信息ηh(k);
3)设置所述目标的状态方程如下:
st(k+1)=Φst(k)+Γw(k),w(k)~N(0,Q(k))
其中,矩阵Φ和Γ分别表示状态转移矩阵和噪声矩阵,w(k)是零均值的高斯白噪声,w(k)=[wx(k),wy(k)]T,Q(k)为过程噪声的协方差矩阵;
4)根据k时刻的观测数据Ω(k),采用扩展信息滤波EIF算法对所述目标的状态进行估计,包括:
根据所述目标的状态方程、观测函数和转换到所述目标水平面的观测数据z(k),得到EIF算法中各个矩阵的对应关系如下:
x(k)=st(k)=f(x(k-1),u(k-1))+w(k)=Φst(k)+Γw(k)
①计算目标估计EIF中信息矩阵和信息状态向量的预测:
Y(k|k-1)=[F(k)Y(k|k-1)FT(k)+Q(k)]-1
②计算目标估计EIF中信息矩阵和信息状态向量的更新:
Y(k|k)=Y(k|k-1)+I(k)
其中,
I(k)=HT(k)R-1(k)H(k)
③计算所述目标的滤波状态估计
5)当所述目标为移动目标时,利用递推最小二乘方法对所述目标的滤波状态估计值进行拟合,获取移动目标的直线运动方程,其中,假设初始时刻曲线拟合参数为零。
4.根据权利要求1所述的方法,其中,观测函数表达如下:
其中,所述机载传感器的观测数据包括所述飞行器相对所述目标的斜距d(k)和方位角通过所述飞行器姿态解耦将斜距d(k)和方位角/>转换为所述目标所在水平面的水平投影的距离信息rh(k)和水平方位角σh(k),再通过/>计算得到水平投影的角度信息ηh(k);v(k)是所述机载传感器的测量误差,假定服从零均值的正态分布,R(k)为误差协方差矩阵。
5.根据权利要求1所述的方法,其中,在步骤1中获取所述POMDP决策模型之前,所述方法还包括:构建所述POMDP决策模型。
6.根据权利要求1~5任意一项所述的方法,其中,所述方法还包括:每隔固定周期执行上述步骤2~步骤5。
7.一种计算机系统,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行权利要求1~6中任一项所述的方法。
8.一种计算机可读存储介质,其上存储有计算机程序指令,该计算机程序指令被处理器执行时实现权利要求1~6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210702112.6A CN114995506B (zh) | 2022-06-20 | 2022-06-20 | 用于面向目标跟踪的飞行器控制方法、计算机系统及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210702112.6A CN114995506B (zh) | 2022-06-20 | 2022-06-20 | 用于面向目标跟踪的飞行器控制方法、计算机系统及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114995506A CN114995506A (zh) | 2022-09-02 |
CN114995506B true CN114995506B (zh) | 2024-04-26 |
Family
ID=83036151
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210702112.6A Active CN114995506B (zh) | 2022-06-20 | 2022-06-20 | 用于面向目标跟踪的飞行器控制方法、计算机系统及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114995506B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108614580A (zh) * | 2018-06-22 | 2018-10-02 | 中国人民解放军国防科技大学 | 一种无人机目标跟踪中的分层避障控制方法 |
CN108919640A (zh) * | 2018-04-20 | 2018-11-30 | 西北工业大学 | 无人机自适应多目标跟踪的实现方法 |
WO2019085621A1 (zh) * | 2017-11-06 | 2019-05-09 | 深圳市道通智能航空技术有限公司 | 目标追踪方法、装置及追踪器 |
WO2021217303A1 (zh) * | 2020-04-26 | 2021-11-04 | 深圳市大疆创新科技有限公司 | 控制无人机的方法、装置和无人机 |
-
2022
- 2022-06-20 CN CN202210702112.6A patent/CN114995506B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019085621A1 (zh) * | 2017-11-06 | 2019-05-09 | 深圳市道通智能航空技术有限公司 | 目标追踪方法、装置及追踪器 |
CN108919640A (zh) * | 2018-04-20 | 2018-11-30 | 西北工业大学 | 无人机自适应多目标跟踪的实现方法 |
CN108614580A (zh) * | 2018-06-22 | 2018-10-02 | 中国人民解放军国防科技大学 | 一种无人机目标跟踪中的分层避障控制方法 |
WO2021217303A1 (zh) * | 2020-04-26 | 2021-11-04 | 深圳市大疆创新科技有限公司 | 控制无人机的方法、装置和无人机 |
Non-Patent Citations (1)
Title |
---|
基于机动目标模型的无人机视场跟踪仿真研究;李文超;袁冬莉;;计算机测量与控制;20110225(第02期);165-167+171 * |
Also Published As
Publication number | Publication date |
---|---|
CN114995506A (zh) | 2022-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102581263B1 (ko) | 위치 추적 방법, 장치, 컴퓨팅 기기 및 컴퓨터 판독 가능한 저장 매체 | |
CN110456823B (zh) | 一种针对无人机计算与存储能力受限的双层路径规划方法 | |
KR102628778B1 (ko) | 위치결정을 위한 방법, 컴퓨팅 기기, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램 | |
CN108733042B (zh) | 自动驾驶车辆的目标跟踪方法及装置 | |
CN113220021A (zh) | 基于虚拟领导者的飞行编队协同自适应跟踪控制方法 | |
CN110825112B (zh) | 基于多无人机的油田动态侵入目标追踪系统与方法 | |
CN116679751A (zh) | 考虑飞行约束的多飞行器协同搜索方法 | |
CN111746537A (zh) | 基于路面平整度的自适应巡航车速控制系统、方法及车辆 | |
CN114995506B (zh) | 用于面向目标跟踪的飞行器控制方法、计算机系统及介质 | |
US20130085643A1 (en) | Sensor positioning | |
CN116301058B (zh) | 一种无人飞行反馈非线性偏航控制方法、系统和设备 | |
CN115981377B (zh) | 一种无人机动态避障方法及系统 | |
CN113110593A (zh) | 基于虚拟结构和估计信息传输的飞行编队协同自适应控制方法 | |
Song et al. | Research on Target Tracking Algorithm Using Millimeter‐Wave Radar on Curved Road | |
CN114115216B (zh) | 车辆编队控制方法、装置、设备及存储介质 | |
CN116560401A (zh) | 一种无人机编队中僚机控制指令的确定方法及终端设备 | |
CN113306573B (zh) | 一种自动驾驶车辆学习型路径跟踪预测控制方法 | |
Oshman et al. | Enhanced air-to-air missile tracking using target orientation observations | |
CN115525054A (zh) | 大型工业园区无人清扫车沿边路径跟踪控制方法及系统 | |
Jiang et al. | Multi-target tracking algorithm of vehicle-mounted millimeter-wave radar based on IMM-JPDA-STUKF | |
CN115082562A (zh) | 一种外参标定方法、装置、设备、服务器及车载计算设备 | |
CN110262536B (zh) | 无动力飞行器的纵向控制飞行能量管理方法及系统 | |
CN117590865B (zh) | 一种固定翼无人机跟踪目标运动预测方法 | |
CN115973162B (zh) | 用于确定车辆行驶轨迹的方法、装置、电子设备和介质 | |
Dong et al. | Robot Global Relocalization Based on Multi-sensor Data Fusion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |