CN112991384B - 基于ddpg的发射资源智能认知管理方法 - Google Patents

基于ddpg的发射资源智能认知管理方法 Download PDF

Info

Publication number
CN112991384B
CN112991384B CN202110111918.3A CN202110111918A CN112991384B CN 112991384 B CN112991384 B CN 112991384B CN 202110111918 A CN202110111918 A CN 202110111918A CN 112991384 B CN112991384 B CN 112991384B
Authority
CN
China
Prior art keywords
target
network
ddpg
actor
management method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110111918.3A
Other languages
English (en)
Other versions
CN112991384A (zh
Inventor
纠博
刘宏伟
袁格升
时玉春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202110111918.3A priority Critical patent/CN112991384B/zh
Publication of CN112991384A publication Critical patent/CN112991384A/zh
Application granted granted Critical
Publication of CN112991384B publication Critical patent/CN112991384B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Radar Systems Or Details Thereof (AREA)

Abstract

本发明公开了一种基于DDPG的发射资源智能认知管理方法,包括:构建并训练LSTM预测网络;利用深度强化学习智能体感知环境,以获取目标状态的观测值;将目标状态的观测值输入已训练的LSTM预测网络,得到目标的先验信息表示;将目标的先验信息表示输入Actor‑Critic网络,得到动作向量;根据动作向量生成发射波束并分配功率,以实现发射资源的智能管理。本发明提供的基于DDPG的发射资源智能认知管理方法,简化了优化过程,提高了跟踪精度;且未限制发射波束与目标个数的数量关系,使得资源分配更合理,资源的利用效率更高,应用范围更广泛。

Description

基于DDPG的发射资源智能认知管理方法
技术领域
本发明属于目标跟踪技术领域,具体涉及一种基于DDPG的发射资源智能认知管理方法。
背景技术
目标跟踪技术一直以来是雷达探测研究领域中的热点之一,其在军事侦察、精确制导、火力打击、战场评估以及安防监控等诸多方面均有广泛的应用前景。其中,多机动目标跟踪的主要任务是在有限的雷达资源条件下,对每一个机动目标分配足够的能量达到预期的跟踪精度。在实际应用中,雷达的发射资源,包括所能生成的最大波束个数、以及发射的总功率是有限的。随着应用雷达应用场景的复杂化,对于多机动目标跟踪场景下的资源的合理分配,对跟踪精度有着重大的影响。
目前,常用的多机动目标跟踪场景下的资源分配方法主要有两类,一类是基于模型驱动的方法,其主要是应用优化技术,在满足跟踪误差的要求下,最小化发射总功率;或等效地,在满足发射总功率的要求下,最小化跟踪误差。例如M.L.Hernandez等人在文献“PCRLB for tracking in cluttered environments:measurement sequenceconditioning approach[J],IEEE Trans.Aerosp.Electron.Syst.,vol.42,no.2,pp.680–704,Apr.2006.”中提出了通过在满足发射总功率的要求下,最小化目标状态估计误差的贝叶斯克拉美罗界(Bayesian Cramér-Rao Lower Bound,BCRLB),以最优分配发射功率资源。
另一类是基于数据驱动的方法,其主要应用深度学习技术,利用神经网络来预测目标的状态并分配资源。例如专利文献“基于深度确定性策略梯度DDPG的多机动目标跟踪方法”(专利申请号201911215137.8,申请公开号111027677A)中使用长短期记忆网络(Longshort-term memory,LSTM)从海量的训练数据中学习得到预测模型,用于求得目标状态先验信息的费歇尔信息矩阵(Fisher information matrix,FIM)。在每一个跟踪区间中,LSTM网络的输出被输入至一个深度强化学习的框架中,该框架基于学习到的最优策略来分配发射功率资源。
然而,上述基于模型驱动的方法需要假定目标的运动模型,以计算得到BCRLB。并且,在同时分配波束与发射功率资源的应用下,优化问题往往为复杂的非线性混合整数优化问题,难以求解,这在一定程度上影响了跟踪精度。此外,由于实际应用中,发射波束个数和目标个数的数量关系不确定,而上述基于数据驱动的方法由于设定了发射波束个数与目标数相等,使得资源分配存在不合理的情况,降低了资源利用率,从而限制了其应用范围。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种基于DDPG的发射资源智能认知管理方法。本发明要解决的技术问题通过以下技术方案实现:
一种基于DDPG的发射资源智能认知管理方法,包括:
构建并训练LSTM预测网络;
利用深度强化学习智能体感知环境,以获取目标状态的观测值;
将所述目标状态的观测值输入已训练的LSTM预测网络,得到目标的先验信息表示;
将所述目标的先验信息表示输入Actor-Critic网络,得到动作向量;
根据所述动作向量生成发射波束并分配功率,以实现发射资源的智能管理。
在本发明的一个实施例中,所述构建并训练LSTM预测网络,包括:
构建LSTM预测网络,并生成训练数据集;
构建所述LSTM预测网络的代价函数;
根据所述训练数据集和所述代价函数训练所述LSTM预测网络。
在本发明的一个实施例中,所述LSTM预测网络包括两层结构,其中,每层结构均包括64个神经元。
在本发明的一个实施例中,所述LSTM网络的代价函数为:
Figure BDA0002919421750000031
其中,
Figure BDA0002919421750000032
θR为LSTM预测网络的参数,
Figure BDA0002919421750000033
为第k时刻第q个目标的状态,
Figure BDA0002919421750000034
分别为其在x轴方向的坐标和速度,
Figure BDA0002919421750000035
分别为其在y轴方向的坐标和速度,
Figure BDA0002919421750000036
分别为其RCS的实部和虚部,(·)T为矩阵的转置运算,(·)-1为矩阵的求逆运算,
Figure BDA0002919421750000037
为第k-1时刻对第k时刻目标状态的一步预测,且第k-1时刻对第k时刻目标状态的一步预测服从6维的高斯分布,
Figure BDA0002919421750000038
为一步预测的协方差矩阵。
在本发明的一个实施例中,所述深度强化学习智能体为雷达。
在本发明的一个实施例中,所述目标状态的观测值采用向量表示;其中,第k时刻第q个目标的状态观测值
Figure BDA0002919421750000041
包括当前目标的距离、角度、多普勒频率以及雷达截面积RCS。
在本发明的一个实施例中,所述目标的先验信息表示包括目标状态分量的方差和不同分量的相关系数。
在本发明的一个实施例中,将所述目标的先验信息表示输入Actor-Critic网络,得到动作向量,包括:
建立DDPG的Actor-Critic网络;
设置所述Actor-Critic网络的动作和回报;
将所述目标的先验信息表示输入到所述Actor-Critic网络,并采用DDPG算法进行训练,输出动作向量。
在本发明的一个实施例中,所述Actor-Critic网络包括Actor网络和Critic网络,所述Actor网络包括三个子网络Actor1、Actor2、Actor3,其中,所述Actor1子网络用于输出发射波束的个数,所述Actor2子网络用于输出每个波束的指向;所述Actor3子网络用于输出每个波束的发射功率。
在本发明的一个实施例中,所述设置所述Actor-Critic网络的动作和回报,包括:
设置第k时刻的动作为:
ak=[δk,Xk,Pk];
其中,δk为波束的个数,Xk控制每个波束的指向,Pk=[P1,k,...,Pq,k,...,PQ,k]控制每个波束分配的功率,Q为目标的个数;
设置第k时刻的回报为:
rk=-F(Pk,zk);
其中,zk=[z1,k,...,zq,k,...,zQ,k]为波束选择向量,可由δk和Xk确定得到,且
Figure BDA0002919421750000051
其中,max(·)为取最大值操作,
Figure BDA0002919421750000052
为开平方根操作,Tr(·)为矩阵的求迹运算,
Figure BDA0002919421750000053
为第k时刻第q个目标的先验信息FIM矩阵,(·)-1为矩阵求逆运算,
Figure BDA0002919421750000054
为目标状态观测值
Figure BDA0002919421750000055
相对于一步预测
Figure BDA0002919421750000056
的雅克比矩阵,(·)T为矩阵转置运算,
Figure BDA0002919421750000057
为观测误差的协方差矩阵。
本发明的有益效果:
1、本发明提供的基于DDPG的发射资源智能认知管理方法,使用深度强化学习技术,将同时分配波束与发射功率资源的问题转化成经典的马尔科夫决策问题,简化了优化过程,提高了跟踪精度;且未限制发射波束与目标个数的数量关系,使得该方法在实际应用时,资源分配更合理,资源的利用效率更高,应用范围更广泛;
2、本发明通过将DDPG中Actor-Critic网络中的Actor网络结构改进为三个子网络构成,分别用于输出发射波束的个数、每个波束的指向以及每个波束的发射功率,并将这三个子网络的输出合并成Actor网络输出的动作,可用于实时分配波束与发射功率资源,进一步提升了目标跟踪的精度;
3、本发明使用长短时记忆LSTM网络,从海量数据中学习目标的运动特征,得到目标状态的预测网络模型,其中,LSTM可以很好地解决假定目标运动模型带来的模型失配问题,使得本发明在多机动目标跟踪时有更优的跟踪精度。
以下将结合附图及实施例对本发明做进一步详细说明。
附图说明
图1是本发明实施例提供的一种基于DDPG的发射资源智能认知管理方法示意图;
图2是本发明实施例提供的另一种基于DDPG的发射资源智能认知管理方法的流程示意图;
图3是本发明实施例提供的Actor-Critic网络结构框图;
图4是采用本发明基于DDPG的发射资源智能认知管理方法本发明的方法验证实验中8个目标运动的真实轨迹图;
图5是采用本发明的方法和现有基于模型优化的方法时最差目标的均方根误差RMSE和贝叶斯克拉美罗下界BCRLB随帧数的变化示意图;
图6是采用本发明的方法时8个目标的均方根误差RMSE随帧数的变化曲线图;
图7是采用现有基于模型优化的方法时8个目标的均方根误差RMSE随帧数的变化曲线图;
图8是采用本发明的方法时8个目标的资源分配随帧数的变化图像;
图9是采用现有基于模型优化的方法时8个目标的资源分配随帧数的变化图像。
具体实施方式
下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。
实施例一
请参见图1,图1是本发明实施例提供的一种基于DDPG的发射资源智能认知管理方法示意图,包括以下步骤:
S1:构建并训练LSTM预测网络,具体包括:
11)构建LSTM预测网络,并生成训练数据集。
本实施例通过从海量数据中学习目标的运动特征,以得到目标状态的LSTM预测网络模型,该网络包括两层结构,其中,每层结构均包括64个神经元。
然后,生成训练数据集。目标的运动轨迹由匀速直线运动、匀速左转弯、匀速右转弯三种运动模型组成。在本实施例中,LSTM预测网络的训练数据为对机动目标状态的观测值,标签为目标的真实状态。
12)构建LSTM预测网络的代价函数。
具体地,LSTM网络的代价函数为:
Figure BDA0002919421750000071
其中,
Figure BDA0002919421750000072
θR为LSTM预测网络的参数,
Figure BDA0002919421750000073
为第k时刻第q个目标的状态,
Figure BDA0002919421750000074
分别为其在x轴方向的坐标和速度,
Figure BDA0002919421750000075
分别为其在y轴方向的坐标和速度,
Figure BDA0002919421750000076
分别为其RCS的实部和虚部,(·)T为矩阵的转置运算,(·)-1为矩阵的求逆运算,
Figure BDA0002919421750000077
为第k-1时刻对第k时刻目标状态的一步预测,且第k-1时刻对第k时刻目标状态的一步预测服从6维的高斯分布,
Figure BDA0002919421750000078
为一步预测的协方差矩阵。
13)根据训练数据集和代价函数训练LSTM预测网络。
训练时使用Adam优化器,并应用Dropout来防止过拟合,具体步骤如下:
(1)初始化LSTM网络的权值和偏置参数;
(2)将训练集输入到LSTM网络的输入层,将输入层的权值和偏置计算结果作为隐含层的输入数据;
(3)利用遗忘门函数和输入门函数,隐含层计算输入数据在当前时刻的历史记忆信息;利用输出门函数,隐含层计算输出层的输入数据;
(4)将输出层的权值和偏置计算结果作为目标一步状态的预测值;
(5)利用预测值和标签值计算网络的损失函数值,用批量梯度下降法,循环执行步骤(1)到步骤(4)更新LSTM网络的权值和偏置参数500000次,得到训练好的长短期记忆网络LSTM。
本发明使用长短时记忆LSTM网络,从海量数据中学习目标的运动特征,得到目标状态的预测网络模型,其中,LSTM可以很好地解决假定目标运动模型带来的模型失配问题,使得本发明在多机动目标跟踪时有更优的跟踪精度。
S2:利用深度强化学习智能体感知环境,以获取目标状态的观测值。
请参见图2,图2是本发明实施例提供的另一种基于DDPG的发射资源智能认知管理方法的流程示意图,其中,深度强化学习智能体为雷达。
具体的,雷达实时的对周围环境进行感知,得到环境中各个目标状态的观测值,并采用向量
Figure BDA0002919421750000081
表示第k时刻第q个目标的状态观测值,其包括当前目标的距离、角度、多普勒频率以及雷达截面积RCS。
S3:将目标状态的观测值输入已训练的LSTM预测网络,得到目标的先验信息表示。
在本实施例中,将步骤S2得到的目标状态的观测值输入步骤S1中已经训练好的LSTM预测网络中,输出目标的先验信息表示。
具体地,本实施例采用向量
Figure BDA0002919421750000082
表示第k时刻第q个目标状态的先验信息表示,其包括第k-1时刻对第k时刻、第q个目标状态的一步预测
Figure BDA0002919421750000091
均值及预测协方差矩阵
Figure BDA0002919421750000092
中的核心参数,包括目标状态分量的方差和不同分量的相关系数。
S4:将所述目标的先验信息表示输入Actor-Critic网络,得到动作向量,具体包括:
41)建立DDPG(Depth deterministic policy gradient,深度确定性策略梯度)的Actor-Critic网络。
请参见图3,图3是本发明实施例提供的Actor-Critic网络结构框图,其包括Actor网络和Critic网络,其中,Actor网络包括三个子网络Actor1、Actor2、Actor3,Actor1子网络用于输出发射波束的个数,Actor2子网络用于输出每个波束的指向;Actor3子网络用于输出每个波束的发射功率。最终三个子网络的输出合并为Actor网络输出的动作向量。
具体地,Actor网络首先由Base作为隐藏层,Base由两层组成,每一层都由一个有256个神经元的Dense层与ReLU激活函数组成。Actor1、Actor2、Actor3子网络都由一个Dense层与Softmax输出层组成,其中Actor1的输入为Base的输出,Actor2的输入为Base和Actor1的输出,Actor3的输入为Base、Actor1和Actor2的输出。三个子网络Actor1、Actor2、Actor3的输出合并为网络Actor的输出。Critic网络为全连接神经网络,包含两个隐藏层,每个隐藏层由256个神经单元构成,激活函数为ReLU函数,输出层只有一个线性神经元。
42)设置Actor-Critic网络的动作和回报。
具体地,本实施例设置第k时刻的动作为:
ak=[δk,Xk,Pk];
其中,δk为波束的个数,Xk控制每个波束的指向,Pk=[P1,k,...,Pq,k,...,PQ,k]控制每个波束分配的功率,Q为目标的个数;
设置第k时刻的回报为:
rk=-F(Pk,zk);
其中,zk=[z1,k,...,zq,k,...,zQ,k]为波束选择向量,可由δk和Xk确定得到,且
Figure BDA0002919421750000101
其中,max(·)为取最大值操作,
Figure BDA0002919421750000102
为开平方根操作,Tr(·)为矩阵的求迹运算,
Figure BDA0002919421750000103
为第k时刻第q个目标的先验信息FIM矩阵,(·)-1为矩阵求逆运算,
Figure BDA0002919421750000104
为目标状态观测值
Figure BDA0002919421750000105
相对于一步预测
Figure BDA0002919421750000106
的雅克比矩阵,(·)T为矩阵转置运算,
Figure BDA0002919421750000107
为观测误差的协方差矩阵。
43)将目标的先验信息表示输入到Actor-Critic网络,并采用DDPG算法进行训练,输出动作向量。
具体地,第k时刻的动作向量包括波束选择向量zk=[z1,k,...,zq,k,...,zQ,k]和功率分配向量Pk=[P1,k,...,Pq,k,...,PQ,k],其中zq,k为取值为“0”或“1”的二进制形式:zq,k=1表示第q个目标有波束照射,zq,k=0表示第q个目标没有波束照射;Pq,k表示为第q个目标分配的功率,且zq,k=0时Pq,k=0。
因为深度强化学习网络无法输出二进制形式的zk,所以在训练时zk被分为两部分。其中一部分是标量δk,表示zk中“1”的个数,即物理意义上表示波束的个数。另一部分是向量Xk,其元素个数为δk个,每个元素代表“1”在zk中的位置,即向量Xk给出了下一次照射时被照射到目标的索引值。
最终输出的动作向量。为ak=[δk,Xk,Pk]。
本发明通过将DDPG中Actor-Critic网络中的Actor网络结构改进为三个子网络构成,分别用于输出发射波束的个数、每个波束的指向以及每个波束的发射功率,并将这三个子网络的输出合并成Actor网络输出的动作,可用于实时分配波束与发射功率资源,从而提升了目标跟踪的精度。
S5:根据动作向量生成发射波束并分配功率,以实现发射资源的智能管理。
具体地,由动作向量的δk和Xk,恢复得到波束选择向量zk=[z1,k,...,zq,k,...,zQ,k],由波束选择向量即可确定生成δk个发射波束,并根据Xk中的索引值,确定Q个目标中被照射到的δk个目标。由功率分配向量Pk=[P1,k,...,Pq,k,...,PQ,k],即可确定每个被照射目标所分配的功率。综上,即可将有限的波束资源和发射功率资源智能地分配到被跟踪的机动目标上,实现发射资源的智能管理。
本发明提供的基于DDPG的发射资源智能认知管理方法,使用深度强化学习技术,将同时分配波束与发射功率资源的问题转化成经典的马尔科夫决策问题,简化了优化过程,提高了跟踪精度;且未限制发射波束与目标个数的数量关系,使得该方法在实际应用时,资源分配更合理,资源的利用效率更高,应用范围更广泛。
实施例二
为了进一步说明本发明的有益效果,下面结合仿真实验进行详细的对比说明。
1.仿真实验条件:
本发明仿真实验的硬件测试平台是:处理器为Intel(R)Core(TM)i7-8700,主频为3.2GHz,内存16GB;软件平台为:MATLAB R2020b,64位操作系统。
2.仿真内容及仿真结果分析:
仿真内容:
本次仿真实验是采用本发明提供的基于DDPG的方法和现有技术提供的基于模型的优化方法对多机动目标进行跟踪实验。
其中,基于模型的优化方法采用M.L.Hernandez,A.Farina和B.Ristic发表在IEEETransactions on Aerospace and Electronic Systems期刊的《PCRLB for tracking incluttered environments:measurement sequence conditioning approach》中所提出的最小化最差目标跟踪误差的BCRLB为代价函数优化资源分配模型的方法。
本发明仿真实验的雷达和目标都在直角坐标系下,雷达位于[0km,0km],信号的有效带宽为2MHz,信号时宽为1ms,雷达载频为1GHz。在本发明的仿真实验中,对目标连续观测了50次,相邻两次观测间隔为2s。发射功率的上界和下界分别设置为
Figure BDA0002919421750000121
Figure BDA0002919421750000122
目标在x轴与y轴上初始的位置与速度在[50km,150km]与[-300m/s,300m/s]的范围内随机生成,转弯频率在[0.001Hz,0.008Hz]的范围内随机生成。本发明仿真实验中使用的目标数为8个,初始位置与速度都为(100km,100km)和(200m/s,200m/s),目标的转弯频率为0.0035Hz。目标的运动轨迹由匀速直线运动、匀速左转弯、匀速右转弯三种运动模型组成,LSTM预测网络的训练数据为对机动目标状态的观测值,标签为目标的真实状态。LSTM网络被训练200000个回合,Actor-Critic网络被训练500000个回合。
仿真结果及分析:
请参见图4,图4是采用本发明基于DDPG的发射资源智能认知管理方法本发明的方法验证实验中8个目标运动的真实轨迹图;
其中,图4中的曲线表示这8个目标运动的真实轨迹,x轴表示目标在直角平面的x方向的坐标,单位为米(m),y轴表示目标在直角平面的y方向的坐标,单位为米(m)。以虚线“---”和“○”表示的曲线为第1个目标的运动轨迹,以虚线“---”和“×”表示的曲线为第2个目标的运动轨迹,以点线“…”和“□”表示的曲线为第3个目标的运动轨迹,以点线“…”和“◇”表示的曲线为第4个目标的运动轨迹,以实线“—”和“▽”表示的曲线为第5个目标的运动轨迹,以虚线“---”和“☆”表示的曲线为第6个目标的运动轨迹,以实线“—”和“☆”表示的曲线为第7个目标的运动轨迹,以实线“—”和
Figure BDA0002919421750000135
表示的曲线为第8个目标的运动轨迹。其中目标1和目标4做右转弯运动,目标2、目标5和目标8做左转弯运动,目标3、目标6和目标7做匀速直线运动。
为了验证本发明的仿真实验效果,本发明的仿真实验进行了20次蒙特卡洛实验,利用下述均方根误差RMSE计算公式,分别计算8个机动目标的20次蒙特卡洛实验的均方根误差RMSE,比较本发明所提的基于深度确定性策略梯度DDPG的发射资源智能认知管理方法和现有技术基于优化的多目标跟踪方法对多机动目标跟踪的跟踪精度。
Figure BDA0002919421750000131
其中,RMSEk为k时刻的均方根误差,
Figure BDA0002919421750000132
为开平方根操作,NMC为蒙特卡洛实验总次数,j为第j次蒙特卡洛实验,
Figure BDA0002919421750000133
为多机动目标中的第q个目标在k时刻的真实值,
Figure BDA0002919421750000134
为第j次蒙特卡洛实验中第q个目标在k时刻的预测值,||·||2为取2-范数操作。
请参见图5,图5是采用本发明的方法和现有基于模型优化的方法时最差目标的均方根误差RMSE和贝叶斯克拉美罗下界BCRLB随帧数的变化示意图,其中,以虚线“---”和“◇”表示的曲线为本发明方法最差目标的RMSE,以虚线“---”和“○”表示的曲线为基于优化的方法最差目标的RMSE,以实线“—”和“□”表示的曲线为本发明方法最差目标的BCRLB,以实线“—”和“☆”表示的曲线为基于优化的方法最差目标的BCRLB。由图5可以看出,随着观测个数的增加,最差目标的RMSE逐渐接近最差目标的BCRLB。从第20帧开始,本发明方法的性能优于基于优化方法性能大约10%。这个性能的提升归因于使用了LSTM预测网络,可以得到更准确的目标先验信息。
请参见图6和图7,图6是采用本发明的方法时8个目标的均方根误差RMSE随帧数的变化曲线图,图7是采用现有基于模型优化的方法时8个目标的均方根误差RMSE随帧数的变化曲线图,其中,以虚线“---”和“○”表示的曲线为第1个目标的RMSE随帧数变化曲线,以虚线“---”和“×”表示的曲线为第2个目标的RMSE随帧数变化曲线,以点线“…”和“□”表示的曲线为第3个目标的RMSE随帧数变化曲线,以点线“…”和“◇”表示的曲线为第4个目标的RMSE随帧数变化曲线,以实线“—”和“▽”表示的曲线为第5个目标的RMSE随帧数变化曲线,以虚线“---”和“☆”表示的曲线为第6个目标的RMSE随帧数变化曲线,以实线“—”和“☆”表示的曲线为第7个目标的RMSE随帧数变化曲线,以实线“—”和
Figure BDA0002919421750000141
表示的曲线为第8个目标的RMSE随帧数变化曲线。对比发现,图6中本发明方法相对于图7中基于优化的方法,可让不同目标RMSE随帧数变化曲线更加靠近,这表明本发明方法提出的功率分配方案对功率的利用效率更高。
请参见图8和图9,图8是采用本发明的方法时8个目标的资源分配随帧数的变化图像,图9是采用现有基于模型优化的方法时8个目标的资源分配随帧数的变化图像,其中,纵轴8个目标的索引分别表示这8个目标。从图8和图9,可以看出,因为目标4、目标5、目标6和目标7在远离雷达,所以更多的波束和功率资源更多地被分配在这4个目标中,以取得更优的跟踪性能。实际上,波束与功率资源不仅取决于目标的径向距离,同时与取决于目标的径向速度,尤其是目标离得足够近时。如图8,对比接近雷达的目标1、目标2、目标3和目标8,可见更多的功率被分配到目标1,因为目标1有更大的径向速度,可能导致更大的BCRLB。而在图8中,从第20帧开始,更多的功率与波束资源倾向于被分配到更远的目标,如目标1和目标2。
综上,与现有的基于模型优化的方法相比,本发明的方法能提升雷达发射资源的利用效率。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (8)

1.一种基于DDPG的发射资源智能认知管理方法,其特征在于,包括:
构建并训练LSTM预测网络;
利用深度强化学习智能体感知环境,以获取目标状态的观测值;
将所述目标状态的观测值输入已训练的LSTM预测网络,得到目标的先验信息表示;
将所述目标的先验信息表示输入Actor-Critic网络,得到动作向量,具体包括:
将所述目标的先验信息表示输入Actor-Critic网络,得到动作向量,包括:
建立DDPG的Actor-Critic网络;
设置所述Actor-Critic网络的动作和回报:
设置第k时刻的动作为:
ak=[δk,Xk,Pk];
其中,δk为波束的个数,Xk控制每个波束的指向,Pk=[P1,k,...,Pq,k,...,PQ,k]控制每个波束分配的功率,Q为目标的个数;
设置第k时刻的回报为:
rk=-F(Pk,zk);
其中,zk=[z1,k,...,zq,k,...,zQ,k]为波束选择向量,由δk和Xk确定得到,且
Figure FDA0004097992290000011
其中,max(·)为取最大值操作,
Figure FDA0004097992290000012
为开平方根操作,Tr(·)为矩阵的求迹运算,
Figure FDA0004097992290000013
为第k时刻第q个目标的先验信息FIM矩阵,(·)-1为矩阵求逆运算,
Figure FDA0004097992290000014
为目标状态观测值
Figure FDA0004097992290000015
相对于一步预测
Figure FDA0004097992290000016
的雅克比矩阵,(·)T为矩阵转置运算,
Figure FDA0004097992290000021
为观测误差的协方差矩阵;
将所述目标的先验信息表示输入到所述Actor-Critic网络,并采用DDPG算法进行训练,输出动作向量;
根据所述动作向量生成发射波束并分配功率,以实现发射资源的智能管理。
2.根据权利要求1所述的基于DDPG的发射资源智能认知管理方法,其特征在于,所述构建并训练LSTM预测网络,包括:
构建LSTM预测网络,并生成训练数据集;
构建所述LSTM预测网络的代价函数;
根据所述训练数据集和所述代价函数训练所述LSTM预测网络。
3.根据权利要求1或2所述的基于DDPG的发射资源智能认知管理方法,其特征在于,所述LSTM预测网络包括两层结构,其中,每层结构均包括64个神经元。
4.根据权利要求2所述的基于DDPG的发射资源智能认知管理方法,其特征在于,所述LSTM网络的代价函数为:
Figure FDA0004097992290000022
其中,
Figure FDA0004097992290000023
θR为LSTM预测网络的参数,
Figure FDA0004097992290000024
为第k时刻第q个目标的状态,
Figure FDA0004097992290000025
分别为其在x轴方向的坐标和速度,
Figure FDA0004097992290000026
分别为其在y轴方向的坐标和速度,
Figure FDA0004097992290000027
分别为其RCS的实部和虚部,(·)T为矩阵的转置运算,(·)-1为矩阵的求逆运算,
Figure FDA0004097992290000028
为第k-1时刻对第k时刻目标状态的一步预测,且第k-1时刻对第k时刻目标状态的一步预测服从6维的高斯分布,
Figure FDA0004097992290000031
为一步预测的协方差矩阵。
5.根据权利要求1所述的基于DDPG的发射资源智能认知管理方法,其特征在于,所述深度强化学习智能体为雷达。
6.根据权利要求1所述的基于DDPG的发射资源智能认知管理方法,其特征在于,所述目标状态的观测值采用向量表示;其中,第k时刻第q个目标的状态观测值
Figure FDA0004097992290000032
包括当前目标的距离、角度、多普勒频率以及雷达截面积RCS。
7.根据权利要求1所述的基于DDPG的发射资源智能认知管理方法,其特征在于,所述目标的先验信息表示包括目标状态分量的方差和不同分量的相关系数。
8.根据权利要求1所述的基于DDPG的发射资源智能认知管理方法,其特征在于,所述Actor-Critic网络包括Actor网络和Critic网络,所述Actor网络包括三个子网络Actor1、Actor2、Actor3,其中,所述Actor1子网络用于输出发射波束的个数,所述Actor2子网络用于输出每个波束的指向;所述Actor3子网络用于输出每个波束的发射功率。
CN202110111918.3A 2021-01-27 2021-01-27 基于ddpg的发射资源智能认知管理方法 Active CN112991384B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110111918.3A CN112991384B (zh) 2021-01-27 2021-01-27 基于ddpg的发射资源智能认知管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110111918.3A CN112991384B (zh) 2021-01-27 2021-01-27 基于ddpg的发射资源智能认知管理方法

Publications (2)

Publication Number Publication Date
CN112991384A CN112991384A (zh) 2021-06-18
CN112991384B true CN112991384B (zh) 2023-04-18

Family

ID=76345587

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110111918.3A Active CN112991384B (zh) 2021-01-27 2021-01-27 基于ddpg的发射资源智能认知管理方法

Country Status (1)

Country Link
CN (1) CN112991384B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108562894A (zh) * 2018-04-19 2018-09-21 电子科技大学 雷达波束指向与发射功率的分配方法
CN108924935A (zh) * 2018-07-06 2018-11-30 西北工业大学 一种基于强化学习算法功率域的noma中的功率分配方法
CN109379752A (zh) * 2018-09-10 2019-02-22 中国移动通信集团江苏有限公司 Massive MIMO的优化方法、装置、设备及介质
CN109862610A (zh) * 2019-01-08 2019-06-07 华中科技大学 一种基于深度强化学习ddpg算法的d2d用户资源分配方法
CN110780290A (zh) * 2019-11-01 2020-02-11 西安电子科技大学 基于lstm网络的多机动目标跟踪方法
WO2020062911A1 (en) * 2018-09-26 2020-04-02 Huawei Technologies Co., Ltd. Actor ensemble for continuous control
CN111010294A (zh) * 2019-11-28 2020-04-14 国网甘肃省电力公司电力科学研究院 一种基于深度强化学习的电力通信网路由方法
CN111027677A (zh) * 2019-12-02 2020-04-17 西安电子科技大学 基于深度确定性策略梯度ddpg的多机动目标跟踪方法
CN111263332A (zh) * 2020-03-02 2020-06-09 湖北工业大学 基于深度强化学习的无人机轨迹及功率联合优化方法
CN111260031A (zh) * 2020-01-14 2020-06-09 西北工业大学 一种基于深度强化学习的无人机集群目标防卫方法
CN111726811A (zh) * 2020-05-26 2020-09-29 国网浙江省电力有限公司嘉兴供电公司 一种用于认知无线网络的切片资源分配方法及系统
CN112158189A (zh) * 2020-09-30 2021-01-01 东南大学 基于机器视觉和深度学习的混合动力汽车能量管理方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108562894A (zh) * 2018-04-19 2018-09-21 电子科技大学 雷达波束指向与发射功率的分配方法
CN108924935A (zh) * 2018-07-06 2018-11-30 西北工业大学 一种基于强化学习算法功率域的noma中的功率分配方法
CN109379752A (zh) * 2018-09-10 2019-02-22 中国移动通信集团江苏有限公司 Massive MIMO的优化方法、装置、设备及介质
WO2020062911A1 (en) * 2018-09-26 2020-04-02 Huawei Technologies Co., Ltd. Actor ensemble for continuous control
CN109862610A (zh) * 2019-01-08 2019-06-07 华中科技大学 一种基于深度强化学习ddpg算法的d2d用户资源分配方法
CN110780290A (zh) * 2019-11-01 2020-02-11 西安电子科技大学 基于lstm网络的多机动目标跟踪方法
CN111010294A (zh) * 2019-11-28 2020-04-14 国网甘肃省电力公司电力科学研究院 一种基于深度强化学习的电力通信网路由方法
CN111027677A (zh) * 2019-12-02 2020-04-17 西安电子科技大学 基于深度确定性策略梯度ddpg的多机动目标跟踪方法
CN111260031A (zh) * 2020-01-14 2020-06-09 西北工业大学 一种基于深度强化学习的无人机集群目标防卫方法
CN111263332A (zh) * 2020-03-02 2020-06-09 湖北工业大学 基于深度强化学习的无人机轨迹及功率联合优化方法
CN111726811A (zh) * 2020-05-26 2020-09-29 国网浙江省电力有限公司嘉兴供电公司 一种用于认知无线网络的切片资源分配方法及系统
CN112158189A (zh) * 2020-09-30 2021-01-01 东南大学 基于机器视觉和深度学习的混合动力汽车能量管理方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING;Timothy P. Lillicrap et al;《arXiv》;20190706;1-14 *
Data-Driven Simultaneous Multibeam Power Allocation: When Multiple Targets Tracking Meets Deep Reinforcement Learning;Yuchun Shi et al;《IEEE SYSTEMS JOURNAL》;20200511;3-6 *
基于机会约束的MIMO雷达多波束稳健功率分配算法;严俊坤 等;《电子学报》;20190630;第47卷(第6期);1230-1235 *
无线网络中基于深度强化学习的资源分配研究;常宇 等;《测试技术学报》;20200430;第34卷(第2期);152-158 *

Also Published As

Publication number Publication date
CN112991384A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
Haykin et al. Cognitive radar: Step toward bridging the gap between neuroscience and engineering
Gao et al. Long short-term memory-based deep recurrent neural networks for target tracking
Huang et al. A deep reinforcement learning-based method applied for solving multi-agent defense and attack problems
Ren et al. Solving flow-shop scheduling problem with a reinforcement learning algorithm that generalizes the value function with neural network
Grigorescu et al. Neurotrajectory: A neuroevolutionary approach to local state trajectory learning for autonomous vehicles
CN110442129B (zh) 一种多智能体编队的控制方法和系统
Brooks The role of learning in autonomous robots
CN111027677B (zh) 基于深度确定性策略梯度ddpg的多机动目标跟踪方法
CN110780290B (zh) 基于lstm网络的多机动目标跟踪方法
CN109460065B (zh) 基于势函数的无人机集群队形特征辨识方法及系统
US11574223B2 (en) Method and apparatus for rapid discovery of satellite behavior
CN115470704A (zh) 一种动态多目标优化方法、装置、设备和计算机可读介质
CN116933948A (zh) 基于改进海鸥算法与反向传播神经网络的预测方法和系统
CN114281103B (zh) 一种零交互通信的飞行器集群协同搜索方法
Wu et al. Optimized least-squares support vector machine for predicting aero-optic imaging deviation based on chaotic particle swarm optimization
CN114971283A (zh) 一种面向分布式组网雷达多目标跟踪的资源优化调度方法
Cao et al. Autonomous maneuver decision of UCAV air combat based on double deep Q network algorithm and stochastic game theory
Zhu et al. JMRPE‐Net: Joint modulation recognition and parameter estimation of cognitive radar signals with a deep multitask network
Li et al. Multi-mode filter target tracking method for mobile robot using multi-agent reinforcement learning
CN112991384B (zh) 基于ddpg的发射资源智能认知管理方法
Xu et al. Intelligent train operation based on deep learning from excellent driver manipulation patterns
Wang et al. Multitask policy adversarial learning for human-level control with large state spaces
Li et al. A generalized labelled multi-Bernoulli filter for extended targets with unknown clutter rate and detection profile
CN116340737A (zh) 基于多智能体强化学习的异构集群零通信目标分配方法
Turkmen et al. Genetic tracker with neural network for single and multiple target tracking

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant