CN117093824B

CN117093824B - 一种空间目标行为监测方法

Info

Publication number: CN117093824B
Application number: CN202311366809.1A
Authority: CN
Inventors: 王硕; 李达; 亢瑞卿; 李小波; 亢志邦; 王一一; 李白璐
Original assignee: Beijing Creatunion Information Technology Group Co Ltd
Current assignee: Beijing Creatunion Information Technology Group Co Ltd
Priority date: 2023-10-20
Filing date: 2023-10-20
Publication date: 2024-01-19
Anticipated expiration: 2043-10-20
Also published as: CN117093824A

Abstract

本发明公开了一种空间目标行为监测方法，涉及目标监测技术领域，本发明通过非线性状态演化函数、外部输入和过程噪声精确预测目标的状态，观测方程描述观测数据与目标状态之间的关系，使用非线性观测函数将目标状态映射到观测数据，同时加入观测噪声的影响，采用卡尔曼滤波算法进行目标追踪，进行状态估计和协方差更新，卡尔曼滤波通过状态方程进行状态估计，并使用观测数据更新状态估计，实现目标追踪，采用深度强化学习代理，建立状态空间、行动空间和奖励函数，再将输出信息融合起来，使用贝叶斯决策理论做出实时决策，监测目标行为是否符合预期以及预测未来行为，提供更准确的目标行为估计和更有针对性的实时决策。

Description

一种空间目标行为监测方法

技术领域

本发明涉及目标监测技术领域，具体为一种空间目标行为监测方法。

背景技术

随着我国航天事业的发展，对空间目标进行探测的需求越来越迫切。较大尺寸空间碎片的撞击会使航天器的轨道或姿态发生变化，甚至直接导致航天器解体，无论从保护空间环境、安全持续地开发和利用空间资源，还是从提高我国空间航天器在轨运行寿命，保障载人航天安全出发等方面，都需要加强对空间目标的探测和防护研究。

空间目标探测实现的基本途径主要有天基探测与地基探测，从测量形式上可以分为天基遥感监测、天基直接监测、航天器表面采样分析等3种主要手段，其中天基遥感监测属于主动式监测方式，而后两种则为被动式的空间目标监测，天基遥感监测设备包括光学望远镜、微波雷达、激光雷达、太赫兹雷达等，其监测平台包括卫星、飞船和空间站，天基直接监测是利用在空间航天器上搭载由一定材料构成的监测仪器，通过这些仪器记录空间目标及星际尘埃的撞击效果，从而收集空间目标信息的监测方法，航天器表面采样分析通过对已返回的长期暴露于空间环境中的航天器表面材料的分析来获取空间目标信息。航天器表面采样分析可直接立足于现有返回式航天器的后期研究以及在轨空间站的观察分析，不需额外增加研究费用，因而是一种经济实用的监测方式。

然而传统的太空空间目标行为监测方法在面对复杂的、高动态的目标行为时性能有限，尤其在面对太空中数量较多的对象进行监测时，传统方法通常采用线性卡尔曼滤波或扩展卡尔曼滤波，无法有效跟踪复杂目标的运动和行为，同时单一的数学模型描述目标行为，无法有效地捕捉不同目标的多样性行为，导致在监测不同类型的目标时性能不稳定，限制了系统的灵活性和适应性，因此亟需一种可针对高动态目标进行实时监测的更灵活的空间目标行为监测方法来解决此类问题。

发明内容

针对现有技术的不足，本发明提供了一种空间目标行为监测方法，解决现有技术中存在的面对复杂的、高动态的目标行为时性能有限，无法有效跟踪复杂目标的运动和行为，单一的数学模型描述目标行为，无法有效地捕捉不同目标的多样性行为的问题。

为实现以上目的，本发明通过以下技术方案予以实现，本发明提供了一种空间目标行为监测方法，包括：

包括：

步骤1.空间监测系统建模，定义监测系统的数学模型，包括目标的状态方程和观测方程，同时部署传感器雷达、卫星、相机用于收集目标观测数据；

步骤2.目标行为追踪，采用卡尔曼滤波算法来进行目标追踪，进行状态估计和协方差更新，采用稳健卡尔曼滤波变种，处理观测噪声和异常值；

步骤3.深度强化学习，加入深度强化学习代理，代理目的具体为：决定何时进行滤波器状态的更新来适应目标行为；

步骤4.确定模型目标行为潜在分布，采用贝叶斯非参数方法建模目标行为的潜在分布，采用非参数模型理解目标行为的特征，包括目标行为的分布和模式；

步骤5.行为追踪、强化学习以及潜在分布信息融合，采用贝叶斯决策理论将卡尔曼滤波的输出、深度强化学习代理的策略和贝叶斯非参数模型的信息进行融合，根据融合结果做出实时决策，包括监测目标行为、预测未来行为；

所述空间监测系统建模步骤中，建立监测系统的数学模型，包括目标的状态方程和观测方程；

所述目标状态方程描述目标的动态行为，具体为：

,

其中x(t+1)就是下一时刻目标的位置，通过非线性状态演化函数f(x(t),t)、外部输入u(t)和过程噪声w(t)之和的计算得出下一时刻目标位置，f(x(t),t)表示非线性状态演化函数，随目标的动态而变化，u(t)表示外部输入用于表示外部控制，w(t)表示过程噪声，用于模拟系统内部的不确定性和随机性；

所述观测方程描述观测数据与目标状态之间关系，具体为：

，

其中z(t)表示观测向量，包含时间节点t上所观测的多个观测数据，数据包括位置、速度、方向，x(t)表示t时刻的目标状态，则表示非线性观测函数，用于将目标状态x(t)映射到观测数据，v(t)表示t时刻的观测噪声；

其中非线性观测函数表示为：

，

其中表示将目标位置x(t)和时间(t)映射到观测数据；

所述目标行为追踪步骤中，目标追踪方式具体为：

卡尔曼滤波通过状态方程进行状态估计，状态方程中，通过状态方程预测目标状态：

，

通过状态方程和协方差传递方程预测协方差P(t+1)：

，

使用观测数据更新状态估计；

首先计算卡尔曼增益K(t+1)：

，

然后更新状态估计x(t+1)：

，

再对协方差P(t+1)进行更新：

，

状态估计中，表示在t+1时刻的目标x的状态估计，F表示状态转移矩阵，B为控制输入矩阵，u(t)是外部输入，w(t)表示过程噪声，P(t+1)即协方差矩阵，表示在t+1时刻状态估计的不确定性，H为观测矩阵，将状态映射到观测空间，R表示观测噪声的协方差矩阵，z(t+1)为t+1时刻的观测数据；

所述深度强化学习代理具体包括：

建立状态空间、行动空间和奖励函数；

状态包括滤波器的状态、目标状态估计的不确定性；

基于深度Q网络DQN训练代理优化滤波策略；

所述深度强化学习步骤中，建立状态空间、行动空间和奖励函数方式具体为：

设状态空间为S，其中每个状态用一个向量来表示，状态包括目标状态估计的不确定性、观测数据、时间信息；

设行动空间为A，A包括代理采取的行动，包括切换不同的滤波器状态、调整滤波参数；

设奖励函数为R(s,a,s')，表示在特定状态s下采取行动a并转移到状态s'时代理获得的奖励，具体为：

，

其中分别为M、N、L对应的权重，M表示目标可见性奖励，N表示信息获取奖励，L表示能源消耗惩罚；

所述深度强化学习步骤中，状态空间S包括滤波器的状态F和目标状态估计的不确定性U，表示为：

S=(F,U)，滤波器状态F包括滤波器的类型、时间常数，以及实际控制状态，目标状态估计的不确定性U包括协方差矩阵度量的目标状态估计不确定性；

采用DQN训练代理，根据状态空间S选择最佳的滤波器状态F；

通过值函数Q(S,A)评估每个状态－行动的价值，其中A表示行动空间；

训练DQN的步骤包括：

a.定义神经网络结构，输入为状态空间S，输出是每个可能行动的估计价值；

b.初始化DQN模型参数；

c.收集经验数据，让代理与环境互动，随机选择行动或依据当前策略选择行动；

d.使用经验回放训练DQN模型，通过最小化均方误差更新值函数；

进一步的设置为，所述空间监测系统建模步骤中，空间监测系统建模部署的多个传感器包括雷达、卫星和相机，用于实时收集目标的观测数据，传感器提供观测向量z(t)，z(t)中观测值包括目标的位置、速度、方向；

本发明还提供一种终端设备，该设备包括：存储器、处理器及存储在存储器上并可在处理器上运行的空间目标行为监测方法的控制程序，所述空间目标行为监测方法的控制程序被所述处理器执行时实现上述空间目标行为监测方法；

本发明还提供一种存储介质，该介质应用于计算机，所述存储介质上存储有空间目标行为监测方法的控制程序，所述空间目标行为监测方法的控制程序被所述处理器执行时实现上述空间目标行为监测方法。

本发明提供了一种空间目标行为监测方法。具备以下有益效果：

本申请所提供的空间目标行为监测方法，通过非线性状态演化函数、外部输入和过程噪声精确预测目标的状态，观测方程描述观测数据与目标状态之间的关系，使用非线性观测函数将目标状态映射到观测数据，同时加入观测噪声的影响，多个传感器，包括雷达、卫星和相机的部署用于实时收集目标的观测数据，所收集数据包括位置、速度和方向信息。

在步骤2中，采用卡尔曼滤波算法进行目标追踪，执行状态估计和协方差更新，卡尔曼滤波通过状态方程进行状态估计，并使用观测数据更新状态估计，实现目标追踪，稳健卡尔曼滤波变种用于处理观测噪声和异常值，确保目标状态估计的稳健性。

步骤3中采用深度强化学习代理，决定何时进行滤波器状态的调整，从而适应目标行为的不断变化，代理建立了状态空间、行动空间和奖励函数，其中状态空间包括滤波器的状态和目标状态估计的不确定性，深度Q网络（DQN）用于训练代理，根据值函数评估每个状态－行动对的价值，通过学习代理能够调整滤波器状态，从而实现优化目标行为的监测策略。

步骤4中采用贝叶斯非参数方法建模目标行为的潜在分布，狄利克雷过程混合模型DPMM用于对目标行为的潜在分布进行建模，便于在不预先确定混合分布的数量的情况下对目标行为进行建模，更好地适应不同的行为模式。

最终，将输出信息融合起来，使用贝叶斯决策理论做出实时决策，监测目标行为是否符合预期以及预测未来行为，通过将卡尔曼滤波的输出、深度强化学习代理的策略和贝叶斯非参数模型的信息进行融合，能够提供更准确的目标行为估计和更有针对性的实时决策。

解决了现有技术中存在的面对复杂的、高动态的目标行为时性能有限，无法有效跟踪复杂目标的运动和行为，单一的数学模型描述目标行为，无法有效地捕捉不同目标的多样性行为的问题。

附图说明

图1为本发明的空间目标行为监测方法流程图；

图2为本发明的空间目标行为监测方法中目标行为追踪流程图。

实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

请参阅图1－图2，本发明提供一种空间目标行为监测方法，包括：

S1.空间监测系统建模，定义监测系统的数学模型，包括目标的状态方程和观测方程，同时部署传感器雷达、卫星、相机用于收集目标观测数据；

空间监测系统建模步骤中，建立监测系统的数学模型，包括目标的状态方程和观测方程；

目标状态方程描述目标的动态行为，具体为：

，

观测方程描述观测数据与目标状态之间关系，具体为：

，

其中非线性观测函数表示为：

，

其中表示将目标位置x(t)和时间(t)映射到观测数据；

空间监测系统建模步骤中，空间监测系统建模部署的多个传感器包括雷达、卫星和相机，用于实时收集目标的观测数据，传感器提供观测向量z(t)，z(t)中观测值包括目标的位置、速度、方向；

S2.目标行为追踪，采用卡尔曼滤波算法来进行目标追踪，执行状态估计和协方差更新，采用稳健卡尔曼滤波变种，处理观测噪声和异常值；

目标行为追踪步骤中，目标追踪方式具体为：

，

通过状态方程和协方差传递方程预测协方差P(t+1)：

，

使用观测数据更新状态估计；

首先计算卡尔曼增益K(t+1)：

，

然后更新状态估计x(t+1)：

，

再对协方差P(t+1)进行更新：

，

S3.深度强化学习，加入深度强化学习代理，代理目的具体为：决定何时进行滤波器状态的更新来适应目标行为；

深度强化学习代理具体包括：

建立状态空间、行动空间和奖励函数；

状态包括滤波器的状态、目标状态估计的不确定性；

基于深度Q网络DQN训练代理优化滤波策略；

深度强化学习步骤中，建立状态空间、行动空间和奖励函数方式具体为：

，

深度强化学习步骤中，状态空间S包括滤波器的状态F和目标状态估计的不确定性U，表示为：

采用DQN训练代理，根据状态空间S选择最佳的滤波器状态F；

训练DQN的步骤包括：

b.初始化DQN模型参数；

深度强化学习步骤中，Q-learning的更新规则具体为：

，

其中就是在状态S下采取行动A的估计价值，/>则表示学习率，用于控制学习的速度，/>表示在状态S下采取行动A后获得的即时奖励，/>表示折扣因子，S'表示是在采取行动A'后转移到的下一个状态；

S4.确定模型目标行为潜在分布，采用贝叶斯非参数方法建模目标行为潜在分布，采用非参数模型理解目标行为的特征，包括目标行为的分布和模式；

确定模型目标行为潜在分布步骤中，使用狄利克雷过程混合模型：

定义DPMM的基础分布和混合分布的形式，具体为：

；

，

其中G表示随机概率分布，表示目标行为的混合分布，DP表示概率过程，则表示DPMM中的集中参数，控制混合分布的复杂性，/>表示混合分布成分，H为DPMM中的基础分布，表示混合分布的参数空间；

基于吉布斯抽样使用观测数据学习DPMM模型的参数；

在后验推断过程中估计DPMM的参数，包括混合分布的数量和参数空间；

S5.行为追踪、强化学习以及潜在分布信息融合，采用贝叶斯决策理论将卡尔曼滤波的输出、深度强化学习代理的策略和贝叶斯非参数模型的信息进行融合，根据融合结果做出实时决策，包括监测目标行为、预测未来行为。

本发明还提供一种终端设备，该设备包括：存储器、处理器及存储在存储器上并可在处理器上运行的空间目标行为监测方法的控制程序，空间目标行为监测方法的控制程序被处理器执行时实现上述空间目标行为监测方法；

本发明还提供一种存储介质，该介质应用于计算机，存储介质上存储有空间目标行为监测方法的控制程序，空间目标行为监测方法的控制程序被处理器执行时实现上述空间目标行为监测方法。

综合以上内容，在本申请中：

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种空间目标行为监测方法，其特征在于，包括：

所述目标状态方程描述目标的动态行为，具体为：

，

所述观测方程描述观测数据与目标状态之间关系，具体为：

，

其中非线性观测函数表示为：

，

其中表示将目标位置x(t)和时间(t)映射到观测数据；

：

通过状态方程和协方差传递方程预测协方差P(t+1)：

：

使用观测数据更新状态估计；

首先计算卡尔曼增益K(t+1)：

，

然后更新状态估计x(t+1)：

，

再对协方差P(t+1)进行更新：

，

所述深度强化学习代理具体包括：

建立状态空间、行动空间和奖励函数；

状态包括滤波器的状态、目标状态估计的不确定性；

基于深度Q网络DQN训练代理优化滤波策略；

，

采用DQN训练代理，根据状态空间S选择最佳的滤波器状态F；

训练DQN的步骤包括：

b.初始化DQN模型参数；

d.使用经验回放训练DQN模型，通过最小化均方误差更新值函数。

2.根据权利要求1所述的一种空间目标行为监测方法，其特征在于，所述空间监测系统建模步骤中，空间监测系统建模部署的多个传感器包括雷达、卫星和相机，用于实时收集目标的观测数据，传感器提供观测向量z(t)，z(t)中观测值包括目标的位置、速度、方向。

3.一种终端设备，其特征在于，该设备包括：存储器、处理器及存储在存储器上并可在处理器上运行的空间目标行为监测方法的控制程序，所述空间目标行为监测方法的控制程序被所述处理器执行时实现如权利要求1-2中任一项所述的空间目标行为监测方法。

4.一种存储介质，其特征在于，该介质应用于计算机，所述存储介质上存储有空间目标行为监测方法的控制程序，所述空间目标行为监测方法的控制程序被处理器执行时实现如权利要求1-2中任一项所述的空间目标行为监测方法。