CN117093824B - 一种空间目标行为监测方法 - Google Patents

一种空间目标行为监测方法 Download PDF

Info

Publication number
CN117093824B
CN117093824B CN202311366809.1A CN202311366809A CN117093824B CN 117093824 B CN117093824 B CN 117093824B CN 202311366809 A CN202311366809 A CN 202311366809A CN 117093824 B CN117093824 B CN 117093824B
Authority
CN
China
Prior art keywords
state
target
space
observation
behavior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311366809.1A
Other languages
English (en)
Other versions
CN117093824A (zh
Inventor
王硕
李达
亢瑞卿
李小波
亢志邦
王一一
李白璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Creatunion Information Technology Group Co Ltd
Original Assignee
Beijing Creatunion Information Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Creatunion Information Technology Group Co Ltd filed Critical Beijing Creatunion Information Technology Group Co Ltd
Priority to CN202311366809.1A priority Critical patent/CN117093824B/zh
Publication of CN117093824A publication Critical patent/CN117093824A/zh
Application granted granted Critical
Publication of CN117093824B publication Critical patent/CN117093824B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/66Radar-tracking systems; Analogous systems
    • G01S13/72Radar-tracking systems; Analogous systems for two-dimensional tracking, e.g. combination of angle and range tracking, track-while-scan radar
    • G01S13/723Radar-tracking systems; Analogous systems for two-dimensional tracking, e.g. combination of angle and range tracking, track-while-scan radar by using numerical data
    • G01S13/726Multiple target tracking
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/86Combinations of radar systems with non-radar systems, e.g. sonar, direction finder
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/86Combinations of radar systems with non-radar systems, e.g. sonar, direction finder
    • G01S13/867Combination of radar systems with cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Algebra (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Operations Research (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种空间目标行为监测方法,涉及目标监测技术领域,本发明通过非线性状态演化函数、外部输入和过程噪声精确预测目标的状态,观测方程描述观测数据与目标状态之间的关系,使用非线性观测函数将目标状态映射到观测数据,同时加入观测噪声的影响,采用卡尔曼滤波算法进行目标追踪,进行状态估计和协方差更新,卡尔曼滤波通过状态方程进行状态估计,并使用观测数据更新状态估计,实现目标追踪,采用深度强化学习代理,建立状态空间、行动空间和奖励函数,再将输出信息融合起来,使用贝叶斯决策理论做出实时决策,监测目标行为是否符合预期以及预测未来行为,提供更准确的目标行为估计和更有针对性的实时决策。

Description

一种空间目标行为监测方法
技术领域
本发明涉及目标监测技术领域,具体为一种空间目标行为监测方法。
背景技术
随着我国航天事业的发展,对空间目标进行探测的需求越来越迫切。较大尺寸空间碎片的撞击会使航天器的轨道或姿态发生变化,甚至直接导致航天器解体,无论从保护空间环境、安全持续地开发和利用空间资源,还是从提高我国空间航天器在轨运行寿命,保障载人航天安全出发等方面,都需要加强对空间目标的探测和防护研究。
空间目标探测实现的基本途径主要有天基探测与地基探测,从测量形式上可以分为天基遥感监测、天基直接监测、航天器表面采样分析等3种主要手段,其中天基遥感监测属于主动式监测方式,而后两种则为被动式的空间目标监测,天基遥感监测设备包括光学望远镜、微波雷达、激光雷达、太赫兹雷达等,其监测平台包括卫星、飞船和空间站,天基直接监测是利用在空间航天器上搭载由一定材料构成的监测仪器,通过这些仪器记录空间目标及星际尘埃的撞击效果,从而收集空间目标信息的监测方法,航天器表面采样分析通过对已返回的长期暴露于空间环境中的航天器表面材料的分析来获取空间目标信息。航天器表面采样分析可直接立足于现有返回式航天器的后期研究以及在轨空间站的观察分析,不需额外增加研究费用,因而是一种经济实用的监测方式。
然而传统的太空空间目标行为监测方法在面对复杂的、高动态的目标行为时性能有限,尤其在面对太空中数量较多的对象进行监测时,传统方法通常采用线性卡尔曼滤波或扩展卡尔曼滤波,无法有效跟踪复杂目标的运动和行为,同时单一的数学模型描述目标行为,无法有效地捕捉不同目标的多样性行为,导致在监测不同类型的目标时性能不稳定,限制了系统的灵活性和适应性,因此亟需一种可针对高动态目标进行实时监测的更灵活的空间目标行为监测方法来解决此类问题。
发明内容
针对现有技术的不足,本发明提供了一种空间目标行为监测方法,解决现有技术中存在的面对复杂的、高动态的目标行为时性能有限,无法有效跟踪复杂目标的运动和行为,单一的数学模型描述目标行为,无法有效地捕捉不同目标的多样性行为的问题。
为实现以上目的,本发明通过以下技术方案予以实现,本发明提供了一种空间目标行为监测方法,包括:
包括:
步骤1.空间监测系统建模,定义监测系统的数学模型,包括目标的状态方程和观测方程,同时部署传感器雷达、卫星、相机用于收集目标观测数据;
步骤2.目标行为追踪,采用卡尔曼滤波算法来进行目标追踪,进行状态估计和协方差更新,采用稳健卡尔曼滤波变种,处理观测噪声和异常值;
步骤3.深度强化学习,加入深度强化学习代理,代理目的具体为:决定何时进行滤波器状态的更新来适应目标行为;
步骤4.确定模型目标行为潜在分布,采用贝叶斯非参数方法建模目标行为的潜在分布,采用非参数模型理解目标行为的特征,包括目标行为的分布和模式;
步骤5.行为追踪、强化学习以及潜在分布信息融合,采用贝叶斯决策理论将卡尔曼滤波的输出、深度强化学习代理的策略和贝叶斯非参数模型的信息进行融合,根据融合结果做出实时决策,包括监测目标行为、预测未来行为;
所述空间监测系统建模步骤中,建立监测系统的数学模型,包括目标的状态方程和观测方程;
所述目标状态方程描述目标的动态行为,具体为:
,
其中x(t+1)就是下一时刻目标的位置,通过非线性状态演化函数f(x(t),t)、外部输入u(t)和过程噪声w(t)之和的计算得出下一时刻目标位置,f(x(t),t)表示非线性状态演化函数,随目标的动态而变化,u(t)表示外部输入用于表示外部控制,w(t)表示过程噪声,用于模拟系统内部的不确定性和随机性;
所述观测方程描述观测数据与目标状态之间关系,具体为:
其中z(t)表示观测向量,包含时间节点t上所观测的多个观测数据,数据包括位置、速度、方向,x(t)表示t时刻的目标状态,则表示非线性观测函数,用于将目标状态x(t)映射到观测数据,v(t)表示t时刻的观测噪声;
其中非线性观测函数表示为:
其中表示将目标位置x(t)和时间(t)映射到观测数据;
所述目标行为追踪步骤中,目标追踪方式具体为:
卡尔曼滤波通过状态方程进行状态估计,状态方程中,通过状态方程预测目标状态
通过状态方程和协方差传递方程预测协方差P(t+1):
使用观测数据更新状态估计;
首先计算卡尔曼增益K(t+1):
然后更新状态估计x(t+1):
再对协方差P(t+1)进行更新:
状态估计中,表示在t+1时刻的目标x的状态估计,F表示状态转移矩阵,B为控制输入矩阵,u(t)是外部输入,w(t)表示过程噪声,P(t+1)即协方差矩阵,表示在t+1时刻状态估计的不确定性,H为观测矩阵,将状态映射到观测空间,R表示观测噪声的协方差矩阵,z(t+1)为t+1时刻的观测数据;
所述深度强化学习代理具体包括:
建立状态空间、行动空间和奖励函数;
状态包括滤波器的状态、目标状态估计的不确定性;
基于深度Q网络DQN训练代理优化滤波策略;
所述深度强化学习步骤中,建立状态空间、行动空间和奖励函数方式具体为:
设状态空间为S,其中每个状态用一个向量来表示,状态包括目标状态估计的不确定性、观测数据、时间信息;
设行动空间为A,A包括代理采取的行动,包括切换不同的滤波器状态、调整滤波参数;
设奖励函数为R(s,a,s'),表示在特定状态s下采取行动a并转移到状态s'时代理获得的奖励,具体为:
其中分别为M、N、L对应的权重,M表示目标可见性奖励,N表示信息获取奖励,L表示能源消耗惩罚;
所述深度强化学习步骤中,状态空间S包括滤波器的状态F和目标状态估计的不确定性U,表示为:
S=(F,U),滤波器状态F包括滤波器的类型、时间常数,以及实际控制状态,目标状态估计的不确定性U包括协方差矩阵度量的目标状态估计不确定性;
采用DQN训练代理,根据状态空间S选择最佳的滤波器状态F;
通过值函数Q(S,A)评估每个状态-行动的价值,其中A表示行动空间;
训练DQN的步骤包括:
a.定义神经网络结构,输入为状态空间S,输出是每个可能行动的估计价值;
b.初始化DQN模型参数;
c.收集经验数据,让代理与环境互动,随机选择行动或依据当前策略选择行动;
d.使用经验回放训练DQN模型,通过最小化均方误差更新值函数;
进一步的设置为,所述空间监测系统建模步骤中,空间监测系统建模部署的多个传感器包括雷达、卫星和相机,用于实时收集目标的观测数据,传感器提供观测向量z(t),z(t)中观测值包括目标的位置、速度、方向;
本发明还提供一种终端设备,该设备包括:存储器、处理器及存储在存储器上并可在处理器上运行的空间目标行为监测方法的控制程序,所述空间目标行为监测方法的控制程序被所述处理器执行时实现上述空间目标行为监测方法;
本发明还提供一种存储介质,该介质应用于计算机,所述存储介质上存储有空间目标行为监测方法的控制程序,所述空间目标行为监测方法的控制程序被所述处理器执行时实现上述空间目标行为监测方法。
本发明提供了一种空间目标行为监测方法。具备以下有益效果:
本申请所提供的空间目标行为监测方法,通过非线性状态演化函数、外部输入和过程噪声精确预测目标的状态,观测方程描述观测数据与目标状态之间的关系,使用非线性观测函数将目标状态映射到观测数据,同时加入观测噪声的影响,多个传感器,包括雷达、卫星和相机的部署用于实时收集目标的观测数据,所收集数据包括位置、速度和方向信息。
在步骤2中,采用卡尔曼滤波算法进行目标追踪,执行状态估计和协方差更新,卡尔曼滤波通过状态方程进行状态估计,并使用观测数据更新状态估计,实现目标追踪,稳健卡尔曼滤波变种用于处理观测噪声和异常值,确保目标状态估计的稳健性。
步骤3中采用深度强化学习代理,决定何时进行滤波器状态的调整,从而适应目标行为的不断变化,代理建立了状态空间、行动空间和奖励函数,其中状态空间包括滤波器的状态和目标状态估计的不确定性,深度Q网络(DQN)用于训练代理,根据值函数评估每个状态-行动对的价值,通过学习代理能够调整滤波器状态,从而实现优化目标行为的监测策略。
步骤4中采用贝叶斯非参数方法建模目标行为的潜在分布,狄利克雷过程混合模型DPMM用于对目标行为的潜在分布进行建模,便于在不预先确定混合分布的数量的情况下对目标行为进行建模,更好地适应不同的行为模式。
最终,将输出信息融合起来,使用贝叶斯决策理论做出实时决策,监测目标行为是否符合预期以及预测未来行为,通过将卡尔曼滤波的输出、深度强化学习代理的策略和贝叶斯非参数模型的信息进行融合,能够提供更准确的目标行为估计和更有针对性的实时决策。
解决了现有技术中存在的面对复杂的、高动态的目标行为时性能有限,无法有效跟踪复杂目标的运动和行为,单一的数学模型描述目标行为,无法有效地捕捉不同目标的多样性行为的问题。
附图说明
图1为本发明的空间目标行为监测方法流程图;
图2为本发明的空间目标行为监测方法中目标行为追踪流程图。
实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
请参阅图1-图2,本发明提供一种空间目标行为监测方法,包括:
S1.空间监测系统建模,定义监测系统的数学模型,包括目标的状态方程和观测方程,同时部署传感器雷达、卫星、相机用于收集目标观测数据;
空间监测系统建模步骤中,建立监测系统的数学模型,包括目标的状态方程和观测方程;
目标状态方程描述目标的动态行为,具体为:
其中x(t+1)就是下一时刻目标的位置,通过非线性状态演化函数f(x(t),t)、外部输入u(t)和过程噪声w(t)之和的计算得出下一时刻目标位置,f(x(t),t)表示非线性状态演化函数,随目标的动态而变化,u(t)表示外部输入用于表示外部控制,w(t)表示过程噪声,用于模拟系统内部的不确定性和随机性;
观测方程描述观测数据与目标状态之间关系,具体为:
其中z(t)表示观测向量,包含时间节点t上所观测的多个观测数据,数据包括位置、速度、方向,x(t)表示t时刻的目标状态,则表示非线性观测函数,用于将目标状态x(t)映射到观测数据,v(t)表示t时刻的观测噪声;
其中非线性观测函数表示为:
其中表示将目标位置x(t)和时间(t)映射到观测数据;
空间监测系统建模步骤中,空间监测系统建模部署的多个传感器包括雷达、卫星和相机,用于实时收集目标的观测数据,传感器提供观测向量z(t),z(t)中观测值包括目标的位置、速度、方向;
S2.目标行为追踪,采用卡尔曼滤波算法来进行目标追踪,执行状态估计和协方差更新,采用稳健卡尔曼滤波变种,处理观测噪声和异常值;
目标行为追踪步骤中,目标追踪方式具体为:
卡尔曼滤波通过状态方程进行状态估计,状态方程中,通过状态方程预测目标状态
通过状态方程和协方差传递方程预测协方差P(t+1):
使用观测数据更新状态估计;
首先计算卡尔曼增益K(t+1):
然后更新状态估计x(t+1):
再对协方差P(t+1)进行更新:
状态估计中,表示在t+1时刻的目标x的状态估计,F表示状态转移矩阵,B为控制输入矩阵,u(t)是外部输入,w(t)表示过程噪声,P(t+1)即协方差矩阵,表示在t+1时刻状态估计的不确定性,H为观测矩阵,将状态映射到观测空间,R表示观测噪声的协方差矩阵,z(t+1)为t+1时刻的观测数据;
S3.深度强化学习,加入深度强化学习代理,代理目的具体为:决定何时进行滤波器状态的更新来适应目标行为;
深度强化学习代理具体包括:
建立状态空间、行动空间和奖励函数;
状态包括滤波器的状态、目标状态估计的不确定性;
基于深度Q网络DQN训练代理优化滤波策略;
深度强化学习步骤中,建立状态空间、行动空间和奖励函数方式具体为:
设状态空间为S,其中每个状态用一个向量来表示,状态包括目标状态估计的不确定性、观测数据、时间信息;
设行动空间为A,A包括代理采取的行动,包括切换不同的滤波器状态、调整滤波参数;
设奖励函数为R(s,a,s'),表示在特定状态s下采取行动a并转移到状态s'时代理获得的奖励,具体为:
其中分别为M、N、L对应的权重,M表示目标可见性奖励,N表示信息获取奖励,L表示能源消耗惩罚;
深度强化学习步骤中,状态空间S包括滤波器的状态F和目标状态估计的不确定性U,表示为:
S=(F,U),滤波器状态F包括滤波器的类型、时间常数,以及实际控制状态,目标状态估计的不确定性U包括协方差矩阵度量的目标状态估计不确定性;
采用DQN训练代理,根据状态空间S选择最佳的滤波器状态F;
通过值函数Q(S,A)评估每个状态-行动的价值,其中A表示行动空间;
训练DQN的步骤包括:
a.定义神经网络结构,输入为状态空间S,输出是每个可能行动的估计价值;
b.初始化DQN模型参数;
c.收集经验数据,让代理与环境互动,随机选择行动或依据当前策略选择行动;
d.使用经验回放训练DQN模型,通过最小化均方误差更新值函数;
深度强化学习步骤中,Q-learning的更新规则具体为:
其中就是在状态S下采取行动A的估计价值,/>则表示学习率,用于控制学习的速度,/>表示在状态S下采取行动A后获得的即时奖励,/>表示折扣因子,S'表示是在采取行动A'后转移到的下一个状态;
S4.确定模型目标行为潜在分布,采用贝叶斯非参数方法建模目标行为潜在分布,采用非参数模型理解目标行为的特征,包括目标行为的分布和模式;
确定模型目标行为潜在分布步骤中,使用狄利克雷过程混合模型:
定义DPMM的基础分布和混合分布的形式,具体为:
其中G表示随机概率分布,表示目标行为的混合分布,DP表示概率过程,则表示DPMM中的集中参数,控制混合分布的复杂性,/>表示混合分布成分,H为DPMM中的基础分布,表示混合分布的参数空间;
基于吉布斯抽样使用观测数据学习DPMM模型的参数;
在后验推断过程中估计DPMM的参数,包括混合分布的数量和参数空间;
S5.行为追踪、强化学习以及潜在分布信息融合,采用贝叶斯决策理论将卡尔曼滤波的输出、深度强化学习代理的策略和贝叶斯非参数模型的信息进行融合,根据融合结果做出实时决策,包括监测目标行为、预测未来行为。
本发明还提供一种终端设备,该设备包括:存储器、处理器及存储在存储器上并可在处理器上运行的空间目标行为监测方法的控制程序,空间目标行为监测方法的控制程序被处理器执行时实现上述空间目标行为监测方法;
本发明还提供一种存储介质,该介质应用于计算机,存储介质上存储有空间目标行为监测方法的控制程序,空间目标行为监测方法的控制程序被处理器执行时实现上述空间目标行为监测方法。
综合以上内容,在本申请中:
本申请所提供的空间目标行为监测方法,通过非线性状态演化函数、外部输入和过程噪声精确预测目标的状态,观测方程描述观测数据与目标状态之间的关系,使用非线性观测函数将目标状态映射到观测数据,同时加入观测噪声的影响,多个传感器,包括雷达、卫星和相机的部署用于实时收集目标的观测数据,所收集数据包括位置、速度和方向信息。
在步骤2中,采用卡尔曼滤波算法进行目标追踪,执行状态估计和协方差更新,卡尔曼滤波通过状态方程进行状态估计,并使用观测数据更新状态估计,实现目标追踪,稳健卡尔曼滤波变种用于处理观测噪声和异常值,确保目标状态估计的稳健性。
步骤3中采用深度强化学习代理,决定何时进行滤波器状态的调整,从而适应目标行为的不断变化,代理建立了状态空间、行动空间和奖励函数,其中状态空间包括滤波器的状态和目标状态估计的不确定性,深度Q网络(DQN)用于训练代理,根据值函数评估每个状态-行动对的价值,通过学习代理能够调整滤波器状态,从而实现优化目标行为的监测策略。
步骤4中采用贝叶斯非参数方法建模目标行为的潜在分布,狄利克雷过程混合模型DPMM用于对目标行为的潜在分布进行建模,便于在不预先确定混合分布的数量的情况下对目标行为进行建模,更好地适应不同的行为模式。
最终,将输出信息融合起来,使用贝叶斯决策理论做出实时决策,监测目标行为是否符合预期以及预测未来行为,通过将卡尔曼滤波的输出、深度强化学习代理的策略和贝叶斯非参数模型的信息进行融合,能够提供更准确的目标行为估计和更有针对性的实时决策。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (4)

1.一种空间目标行为监测方法,其特征在于,包括:
步骤1.空间监测系统建模,定义监测系统的数学模型,包括目标的状态方程和观测方程,同时部署传感器雷达、卫星、相机用于收集目标观测数据;
步骤2.目标行为追踪,采用卡尔曼滤波算法来进行目标追踪,进行状态估计和协方差更新,采用稳健卡尔曼滤波变种,处理观测噪声和异常值;
步骤3.深度强化学习,加入深度强化学习代理,代理目的具体为:决定何时进行滤波器状态的更新来适应目标行为;
步骤4.确定模型目标行为潜在分布,采用贝叶斯非参数方法建模目标行为的潜在分布,采用非参数模型理解目标行为的特征,包括目标行为的分布和模式;
步骤5.行为追踪、强化学习以及潜在分布信息融合,采用贝叶斯决策理论将卡尔曼滤波的输出、深度强化学习代理的策略和贝叶斯非参数模型的信息进行融合,根据融合结果做出实时决策,包括监测目标行为、预测未来行为;
所述空间监测系统建模步骤中,建立监测系统的数学模型,包括目标的状态方程和观测方程;
所述目标状态方程描述目标的动态行为,具体为:
其中x(t+1)就是下一时刻目标的位置,通过非线性状态演化函数f(x(t),t)、外部输入u(t)和过程噪声w(t)之和的计算得出下一时刻目标位置,f(x(t),t)表示非线性状态演化函数,随目标的动态而变化,u(t)表示外部输入用于表示外部控制,w(t)表示过程噪声,用于模拟系统内部的不确定性和随机性;
所述观测方程描述观测数据与目标状态之间关系,具体为:
其中z(t)表示观测向量,包含时间节点t上所观测的多个观测数据,数据包括位置、速度、方向,x(t)表示t时刻的目标状态,则表示非线性观测函数,用于将目标状态x(t)映射到观测数据,v(t)表示t时刻的观测噪声;
其中非线性观测函数表示为:
其中表示将目标位置x(t)和时间(t)映射到观测数据;
卡尔曼滤波通过状态方程进行状态估计,状态方程中,通过状态方程预测目标状态
通过状态方程和协方差传递方程预测协方差P(t+1):
使用观测数据更新状态估计;
首先计算卡尔曼增益K(t+1):
然后更新状态估计x(t+1):
再对协方差P(t+1)进行更新:
状态估计中,表示在t+1时刻的目标x的状态估计,F表示状态转移矩阵,B为控制输入矩阵,u(t)是外部输入,w(t)表示过程噪声,P(t+1)即协方差矩阵,表示在t+1时刻状态估计的不确定性,H为观测矩阵,将状态映射到观测空间,R表示观测噪声的协方差矩阵,z(t+1)为t+1时刻的观测数据;
所述深度强化学习代理具体包括:
建立状态空间、行动空间和奖励函数;
状态包括滤波器的状态、目标状态估计的不确定性;
基于深度Q网络DQN训练代理优化滤波策略;
所述深度强化学习步骤中,建立状态空间、行动空间和奖励函数方式具体为:
设状态空间为S,其中每个状态用一个向量来表示,状态包括目标状态估计的不确定性、观测数据、时间信息;
设行动空间为A,A包括代理采取的行动,包括切换不同的滤波器状态、调整滤波参数;
设奖励函数为R(s,a,s'),表示在特定状态s下采取行动a并转移到状态s'时代理获得的奖励,具体为:
其中分别为M、N、L对应的权重,M表示目标可见性奖励,N表示信息获取奖励,L表示能源消耗惩罚;
所述深度强化学习步骤中,状态空间S包括滤波器的状态F和目标状态估计的不确定性U,表示为:
S=(F,U),滤波器状态F包括滤波器的类型、时间常数,以及实际控制状态,目标状态估计的不确定性U包括协方差矩阵度量的目标状态估计不确定性;
采用DQN训练代理,根据状态空间S选择最佳的滤波器状态F;
通过值函数Q(S,A)评估每个状态-行动的价值,其中A表示行动空间;
训练DQN的步骤包括:
a.定义神经网络结构,输入为状态空间S,输出是每个可能行动的估计价值;
b.初始化DQN模型参数;
c.收集经验数据,让代理与环境互动,随机选择行动或依据当前策略选择行动;
d.使用经验回放训练DQN模型,通过最小化均方误差更新值函数。
2.根据权利要求1所述的一种空间目标行为监测方法,其特征在于,所述空间监测系统建模步骤中,空间监测系统建模部署的多个传感器包括雷达、卫星和相机,用于实时收集目标的观测数据,传感器提供观测向量z(t),z(t)中观测值包括目标的位置、速度、方向。
3.一种终端设备,其特征在于,该设备包括:存储器、处理器及存储在存储器上并可在处理器上运行的空间目标行为监测方法的控制程序,所述空间目标行为监测方法的控制程序被所述处理器执行时实现如权利要求1-2中任一项所述的空间目标行为监测方法。
4.一种存储介质,其特征在于,该介质应用于计算机,所述存储介质上存储有空间目标行为监测方法的控制程序,所述空间目标行为监测方法的控制程序被处理器执行时实现如权利要求1-2中任一项所述的空间目标行为监测方法。
CN202311366809.1A 2023-10-20 2023-10-20 一种空间目标行为监测方法 Active CN117093824B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311366809.1A CN117093824B (zh) 2023-10-20 2023-10-20 一种空间目标行为监测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311366809.1A CN117093824B (zh) 2023-10-20 2023-10-20 一种空间目标行为监测方法

Publications (2)

Publication Number Publication Date
CN117093824A CN117093824A (zh) 2023-11-21
CN117093824B true CN117093824B (zh) 2024-01-19

Family

ID=88781619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311366809.1A Active CN117093824B (zh) 2023-10-20 2023-10-20 一种空间目标行为监测方法

Country Status (1)

Country Link
CN (1) CN117093824B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118135175B (zh) * 2024-02-29 2024-09-03 北京开运平行空间技术有限公司 一种太空资产数据采集装置
CN118329128B (zh) * 2024-06-13 2024-08-27 山东飞宏工程机械有限公司 一种远程智能加工用机电设备运行状态监控方法
CN118327653B (zh) * 2024-06-17 2024-08-16 山东济矿鲁能煤电股份有限公司阳城煤矿 智能化采煤机控制方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11037320B1 (en) * 2016-03-01 2021-06-15 AI Incorporated Method for estimating distance using point measurement and color depth
CN113452349A (zh) * 2021-06-28 2021-09-28 中山大学 一种基于贝叶斯序贯重要性积分的卡尔曼滤波方法
CN115905986A (zh) * 2022-10-26 2023-04-04 东南大学 一种基于联合策略的稳健卡尔曼滤波方法
CN116543016A (zh) * 2023-05-04 2023-08-04 浙江大学 一种基于深度强化学习的目标跟踪状态估计器
CN116562464A (zh) * 2023-07-03 2023-08-08 南京菁翎信息科技有限公司 一种基于深度强化学习的电力系统低碳优化调度方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3800521B1 (en) * 2019-10-01 2023-07-26 Elektrobit Automotive GmbH Deep learning based motion control of a vehicle

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11037320B1 (en) * 2016-03-01 2021-06-15 AI Incorporated Method for estimating distance using point measurement and color depth
CN113452349A (zh) * 2021-06-28 2021-09-28 中山大学 一种基于贝叶斯序贯重要性积分的卡尔曼滤波方法
CN115905986A (zh) * 2022-10-26 2023-04-04 东南大学 一种基于联合策略的稳健卡尔曼滤波方法
CN116543016A (zh) * 2023-05-04 2023-08-04 浙江大学 一种基于深度强化学习的目标跟踪状态估计器
CN116562464A (zh) * 2023-07-03 2023-08-08 南京菁翎信息科技有限公司 一种基于深度强化学习的电力系统低碳优化调度方法

Also Published As

Publication number Publication date
CN117093824A (zh) 2023-11-21

Similar Documents

Publication Publication Date Title
CN117093824B (zh) 一种空间目标行为监测方法
Ko et al. GP-BayesFilters: Bayesian filtering using Gaussian process prediction and observation models
Yang et al. Multi-UAV cooperative search using an opportunistic learning method
JP4746349B2 (ja) ロボット行動選択装置及びロボット行動選択方法
Chen et al. Robot navigation with map-based deep reinforcement learning
US11253997B2 (en) Method for tracking multiple target objects, device, and computer program for implementing the tracking of multiple target objects for the case of moving objects
CN110941272A (zh) 自动驾驶控制方法和设备
Mehndiratta et al. Gaussian process-based learning control of aerial robots for precise visualization of geological outcrops
US20210341904A1 (en) Device and method for controlling a robot
Saravanan et al. IoT enabled indoor autonomous mobile robot using CNN and Q-learning
Wang et al. DDDAMS-based crowd control via UAVs and UGVs
Hewawasam et al. Comparative study on object tracking algorithms for mobile robot navigation in gps-denied environment
Liu et al. Optimal intermittent deployment and sensor selection for environmental sensing with multi-robot teams
Jondhale et al. Self recurrent neural network based target tracking in wireless sensor network using state observer
Omeragić et al. Tracking of moving objects based on extended Kalman filter
CN117268381B (zh) 一种航天器状态的判断方法
Bell et al. Target tracking subject to intermittent measurements using attention deep neural networks
Seo et al. Metaverse: Meta-learning traversability cost map for off-road navigation
Yang et al. Ultrasonic-and IMU-Based High-Precision UAV Localization for the Low-Cost Autonomous Inspection in Oil and Gas Pressure Vessels
Liu et al. Navigation algorithm based on PSO-BP UKF of autonomous underwater vehicle
Li et al. Multi-mode filter target tracking method for mobile robot using multi-agent reinforcement learning
Hu et al. Reinforcement learning for orientation estimation using inertial sensors with performance guarantee
Pouya et al. Performing active search to locate indication of ancient water on mars: An online, probabilistic approach
Bellini et al. Information driven path planning and control for collaborative aerial robotic sensors using artificial potential functions
Lv et al. An improved FastSLAM 2.0 algorithm based on FC&ASD-PSO

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant