CN116482673B - 基于强化学习的分布式雷达检测跟踪一体化波形实现方法 - Google Patents
基于强化学习的分布式雷达检测跟踪一体化波形实现方法 Download PDFInfo
- Publication number
- CN116482673B CN116482673B CN202310474370.8A CN202310474370A CN116482673B CN 116482673 B CN116482673 B CN 116482673B CN 202310474370 A CN202310474370 A CN 202310474370A CN 116482673 B CN116482673 B CN 116482673B
- Authority
- CN
- China
- Prior art keywords
- radar
- waveform
- target
- tracking
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000002787 reinforcement Effects 0.000 title claims abstract description 32
- 238000001914 filtration Methods 0.000 claims abstract description 35
- 230000004927 fusion Effects 0.000 claims abstract description 20
- 230000008569 process Effects 0.000 claims abstract description 7
- 230000002452 interceptive effect Effects 0.000 claims abstract description 5
- 238000012545 processing Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 12
- 239000003795 chemical substances by application Substances 0.000 claims description 11
- 230000006399 behavior Effects 0.000 claims description 7
- 238000013461 design Methods 0.000 abstract description 19
- 230000007547 defect Effects 0.000 abstract description 3
- 238000005259 measurement Methods 0.000 description 17
- 230000001149 cognitive effect Effects 0.000 description 14
- 239000011159 matrix material Substances 0.000 description 8
- 230000003044 adaptive effect Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000002592 echocardiography Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- SLXKOJJOQWFEFD-UHFFFAOYSA-N 6-aminohexanoic acid Chemical compound NCCCCCC(O)=O SLXKOJJOQWFEFD-UHFFFAOYSA-N 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 238000013107 unsupervised machine learning method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S13/00—Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
- G01S13/66—Radar-tracking systems; Analogous systems
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S7/00—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
- G01S7/02—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00
- G01S7/41—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00 using analysis of echo signal for target characterisation; Target signature; Target cross-section
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Radar Systems Or Details Thereof (AREA)
Abstract
本发明公开了一种基于强化学习的分布式雷达检测跟踪一体化波形实现方法,属于智能化雷达波形设计技术领域。本发明包括:雷达波形库的建立,主要有雷达发射波形和波形参数等;各分布式雷达传感器分别收到目标的回波,各雷达传感器独立检测与关联滤波;各个分布式雷达传感器得到目标的状态向量后,应用序贯滤波算法得到目标的状态和误差协方差的融合估计;基于强化学习构建雷达发射波形决策方法,强化学习结合序贯滤波的融合估计,通过强化学习的试错交互学习过程,挑选出下一时刻最优的发射波形和参数照射目标。本发明克服传统雷达无法有效地针对复杂多目标环境的应用,实现了雷达的自我学习,在一定程度上提高了雷达对目标的跟踪性能。
Description
技术领域
本发明属于智能化雷达波形设计技术领域,具体涉及一种基于强化学习的分布式雷达检测跟踪一体化波形实现方法
背景技术
经典的雷达波形设计理论主要有信噪比最大化匹配准则、奈曼-皮尔逊最优检测和基于互信息熵的波形设计方法等。传统的雷达波形设计是建立在单雷达单目标的基础上,并且其天线形式、发射波形、接收处理方式以及杂波模型相对固定,这极大地限制了波形设计在复杂多目标场景中的应用。
为了实现对不同种类、未知数量目标和杂波环境信息的实时探测,学者们提出了跟踪目标与环境变化自适应选择雷达发射波形这一思路,基于知识辅助(Knowledge-Based,KB)的自适应雷达为代表性研究。2002年美国DAPRA[“The MIT Lincoln LaboratoryKASSPER algorithm testbed and baseline algorithm suite,”(Sensor Array andMultichannel Signal Processing Workshop Proceedings,2002,2002,pp.38-42,doi:10.1109/SAM.2002.1190995.)]率先开展了“知识辅助传感器信号处理与专家推理”(KASSPER)项目,以提升地面动目标检测和合成孔径雷达(Synthetic Aperture Radar,SAR)的实时认知能力。同期,加拿大McMaster大学Haykin[“Cognitive radar:a way ofthe future,”(IEEE Signal Processing Magazine,vol.23,no.1,pp.30-40,Jan.2006,doi:10.1109/MSP.2006.1593335.)]首次提出了认知雷达(Cognitive Radar,CR)的概念,发射机利用接收机反馈的环境信息、现有知识和准则,自适应设计发射波形。此后,认知雷达研究掀起热潮。美国学者Guerci[“Cognitive radar:A knowledge-aided fullyadaptive approach,”(2010 IEEE Radar Conference,2010,pp.1365-1370,doi:10.1109/RADAR.2010.5494403.)]首先提出了认知全自适应雷达的理论框架,并结合知识辅助和自适应发射对该框架进行了改进,Metron公司和Bell[“Cognitive Radar Framework forTarget Detection and Tracking,”(IEEE Journal of Selected Topics in SignalProcessing,vol.9,no.8,pp.1427-1439,Dec.2015,doi:10.1109/JSTSP.2015.2465304.)]等人提出了适用于目标探测和跟踪场景的通用认知雷达系统模型,美国俄亥俄州立大学Smith[“Experiments with cognitive radar,”(2015 IEEE 6th InternationalWorkshop on Computation-al Advances in Multi-Sensor Adaptive Processing(CAMSAP),2015,pp.293-296,doi:10.1109/CA-MSAP.2015.7383794.)]等人开发了认知雷达实验平台。这些工作在认知雷达设计理论方法具有开创性和启发性,而实测验证与原型样机尚在研发中。
由于分布式雷达能够提供大空间分集和宽角度观测来提高目标位置分辨率和检测性能,因此,智能化的思想也应用在了分布式雷达体制中。如:2022年电子科技大学的梁菁团队[“Intelligent waveform optimization for target tracking in radar sensornetworks,”(10th International Conference on Communications,Signal Processing,and Systems(CSPS),Changbaishan,China,2021:165–172.)]针对雷达目标跟踪提出了一种基于强化学习的认知雷达波形挑选方法,相对于固定参数方法,极大地提高了机动目标的跟踪精度,2022年美国空军研究实验室Shikhaliev[“Distributed ParametricDetection in the Presence of Subspace Interference,”2022 IEEE RadarConference(RadarConf22),New York City,NY,USA,2022,pp.1-6,doi:10.1109/RadarConf2248738.2022.9764279.]等人设计了一种参数自适应检测器应对分布式雷达系统中受杂波影响的目标检测。然而,这些研究多针对分布式雷达,分别从提高目标检测或目标跟踪性能的角度开展波形设计研究,较少将目标检测、跟踪、特征提取考虑成紧耦合问题,未能从一体化的设计角度探索分布式雷达波形设计问题。
发明内容
本发明提供了一种基于强化学习的分布式雷达检测跟踪一体化波形实现方法,以克服传统雷达无法有效地针对复杂多目标环境的应用,提高雷达对目标的跟踪性能。
本发明采用的技术方案为:
基于强化学习的分布式雷达检测跟踪一体化波形实现方法,该方法包括:
步骤S1,建立雷达波形库,该雷达波形库包括雷达发射波形和波形参数等;
步骤S2,各分布式雷达传感器分别接收目标回波,各分布式雷达传感器分别对目标回波进行独立检测与关联滤波处理;
其中,独立检测与关联滤波处理具体包括:更新雷达传感器不同分辨单元的检测门限、计算检测概率和虚警概率和联合概率,采用联合概率数据互联算法得到目标状态向量;
步骤S3,基于得到的目标状态向量,应用序贯滤波算法进行目标状态和目标误差协方差的融合估计,得到序贯滤波的融合估计结果;
步骤S4,基于序贯滤波的融合估计结果,通过强化学习的试错交互学习过程挑选出下一时刻最优的发射波形和参数以照射目标。从而雷达-目标-雷达的闭环认知控制。
进一步的,步骤S4中,采用的强化学习算法为Q-Learning算法(Q算法);
通过Q-Learning算法挑选出下一时刻最优的发射波形和参数具体包括:
步骤S401,基于k时刻目标q的序贯滤波的序贯滤波的融合估计结果中的联合误差协方差计算雷达跟踪状态的熵态:/>其中,ESq,k表示k时刻跟踪目标q的熵,N表示分布式雷达传感器数量;
步骤S402,比较k-1时刻和k时刻的熵来奖励k时刻发出的波形参数计算k时刻跟踪目标q的实时奖励:rq,k=log(1+|ESq,k-1-ESq,k|)sign(ESq,k-1-ESq,k);
其中,sign(·)表示signum函数,rq,k表示k时刻跟踪目标q的实时奖励,表示k时刻第i个分布式雷达传感器的雷达波形参数矢量,i=1,2,…,N,
基于所有目标的实时奖励迭代计算第k+1时刻的Q值并记录在Q表中:
其中,s表示代理状态,a表示代理行为,α表示学习率,折扣因子γ∈[0,1],Qk(s,a)表示k时刻的Q值,Qk(s′,a′)表示下一个状态的Q值,即α′表示代理的行为空间A中的下一个代理行为,s′表示代理的状态空间S中的下一个代理状态;
步骤S403,根据目标运动模型和序贯滤波的融合估计结果中的估计状态更新k+1时刻的联合误差协方差计算下一时刻的雷达跟踪状态的熵态ESq,k+1;
计算下一时刻的跟踪目标q的实时奖励:rq,k+1=log(1+|ESq,k-ESq,k+1|)sign(ESq,k-ESq,k+1),并基于rq,k+1继续迭代计算下一时刻的Q值并记录在Q表中;
重复迭代计算下一时刻的Q值,直到Q表收敛;
步骤S404,从Q表中选择最大Q值作为最优波形选择策略π*(s),并根据π*(s)所对应的波形参数得到最优发射波形与波形参数。
进一步的,雷达波形参数矢量其中,/>和/>分别表示为第i部雷达发射波形的相位函数,脉冲持续时间和调频斜率。
本发明提供的技术方案至少带来如下有益效果:
本发明避免了传统雷达发射波形、接收处理方式以及杂波模型相对固定,不能有效应对外界复杂杂波环境下的机动目标跟踪,实现了雷达的自我学习,发射针对特定场景下的雷达波形,在一定程度上提高了雷达对目标的跟踪性能。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例提供的一种基于强化学习的分布式雷达检测跟踪一体化波形实现方法的处理流程图;
图2是本发明实施例提供的一种基于强化学习的分布式雷达检测跟踪一体化波形实现方法的应用示意图;其中,PD/PFA/PAP分别表示检测概率、虚警概率和联合概率。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
为了克服传统雷达无法有效地针对复杂多目标环境的应用,本发明实施例提供了一种基于强化学习的分布式雷达检测跟踪一体化波形实现方法,以提升雷达对目标的跟踪性能。
作为一种可能的实现方式,本发明实施例提供的基于强化学习的分布式雷达检测跟踪一体化波形实现方法如图1所示,包括以下步骤:
步骤S1,建立雷达波形库,该雷达波形库包括雷达发射波形和波形参数;
步骤S2,各分布式雷达传感器分别接收目标回波,分别对各分布式雷达传感器接收的目标回波进行独立检测与关联滤波处理;
其中,独立检测与关联滤波处理具体包括:更新雷达传感器不同分辨单元的检测门限、计算检测概率和虚警概率和联合概率,采用联合概率数据互联算法得到目标状态向量;
步骤S3,基于步骤S2得到的目标状态向量,
各个分布式雷达传感器采用序贯滤波算法对步骤S2得到的目标状态向量进行处理,
可得到目标状态和目标误差协方差的融合估计;
步骤S4,基于强化学习构建雷达发射波形决策:强化学习结合序贯滤波的融合估计,通过强化学习的试错交互学习过程,挑选出下一时刻最优的发射波形和参数照射目标,实现雷达-目标-雷达的闭环认知控制。
本发明中,考虑传统雷达的检测波门内各分辨单元的检测门限恒定,首先根据目标雷达回波建立联合检测跟踪的关联滤波方法,通过回波的先验信息自适应检测波门内各分辨单元的检测门限,实现最优的检测跟踪关联滤波,得到更精准的目标状态信息。考虑分布式雷达各雷达独立对目标进行联合检测跟踪关联滤波,结合序贯滤波对各个目标状态向量进行融合,得到融合的目标状态信息。此外,分布式雷达主要分为收发共置分布式雷达与收发分置分布式雷达,相对于收发共置分布式雷达,收发分置雷达将发射和接收设备放置于不同的位置,具有较高的反隐身和探测性能,在目标检测和跟踪方面具有很大的潜力。不论是收发分置还是收发共置雷达都较传统单雷达有更高的空间增益。强化学习作为一种探索和利用之间这种权衡的无监督机器学习方法,可智能的利用已有的经验来获取收益,同时进行探索,使得未来可以获得更好的动作选择空间。因此将强化学习与序贯滤波相结合,基于强化学习的试错学习机制,挑选出下一时刻各雷达的最优发射波形和波形参数,实现雷达-目标-雷达的闭环智能控制。
下面以基于强化学习的分布式雷达目标联合检测跟踪系统的波形设计为例,对本发明实施例提供的基于强化学习的分布式雷达检测跟踪一体化波形实现方法的技术方案做更进一步的详细描述。
如图2所述,本发明实施例的波形实现方法涉及波形参数库的建立、联合检测跟踪关联滤波、序贯滤波和强化学习联合波形参数寻优。其主要思想是在多雷达传感器联合概率数据互联的基础上结合目标反馈信息,实时更新目标和发射波形的参数,达到检测、跟踪的最优平衡。相较单雷达传感器的波形设计,分布式波形设计是基于各雷达传感器的状态与性能,按照系统的约束与需求协同优化各雷达的波形与参数。下面针对收发共置和收发分置两种情况开展分布式雷达一体化波形设计的介绍。
(1)针对收发共置的分布式雷达一体化波形设计:
收发共置分布式雷达目标量测模型可以建模为分布在不同地点的N个单站雷达,采用相互正交的发射信号,不同单站雷达接收机通过匹配滤波可获取对应自身发射信号的回波。
假设目标的离散时间状态特征模型为:
xq,k+1=Fq,kxq,k+wq,k (1)
其中,Fq,k表示目标q的状态转移矩阵和特征转移矩阵,其中的[xq,k,yq,k,zq,k],分别表示目标的位置、速度和加速度。
在k时刻第i部雷达第q个目标相关波门内过门限的有效量测为:
其中,观测个数为mi,q,k个,第i个雷达接收第q个目标的第j个有效量测为:
其中,hi,q,k(·)表示量测函数,vi,q,k为第i个雷达接收目标q的量测在k时刻的误差。
将目标量测的预测分布反馈到雷达发射机中,本具体实施方式以目标假量测在跟踪门内服从均匀分布,正确量测服从正态分布为例,在k时刻第i部雷达计算目标q的量测和预测分布/>分别为:
更新两种假设下的目标观测信号幅度的概率密度函数模型:
其中,表示雷达i跟踪目标q在k时刻第l个分辨单元的回波幅度,ρi,q,k表示雷达i跟踪目标q在k时刻接收目标回波的平均信噪比,/>表示以a为均值,B为协方差矩阵的正态分布在x点处的概率值,/>表示雷达i跟踪目标q在k时刻第l个分辨单元的量测值,/>表示雷达i跟踪目标q的量测误差,Si,q,k表示雷达i跟踪目标q在k时刻的新息协方差。
引入可调参数η,可以化简判决门限为:
由上式可以发现,当越靠近/>值越大,检测门限Ti,q,k越小,检测门限随着各个分辨单元的位置实现了自适应。
可以计算出每部雷达的平均检测概率和平均虚警概率分别为:
其中,nz表示量测值的维数。
以广义调频波为例可以构建雷达波形参数矢量为则分布式雷达网络的波形库可以定义为/>其中/>和/>分别表示为第i部雷达发射波形的相位函数,脉冲持续时间和调频斜率。以量测值为径向距离r、径向速度/>和径向角β为例,高斯线性调频信号为发射波形的情况下,其量测噪声协方差矩阵/>可以为:
公式(8)中,在不影响理解的情况下省略了矩阵中各波形参数的上下标。
由于各雷达在同一时刻的量测噪声之间互不相关,所以在融合中心可以按照雷达传感器的序号1→N依次对融合中心目标q的运动状态估计值进行序贯更新,雷达1<i≤N的量测对于融合中心状态估计值更新为:
其中,为量测函数hi,q,k(·)的雅各比矩阵,/>为雷达1→i跟踪目标q的联合误差协方差矩阵。
融合中心最终的状态估计为:
其中,表示目标状态的融合估计结果,Pq,k|k表示跟踪目标q的联合误差协方差矩阵。
进一步,根据估计状态和目标运动模型更新k+1时刻的误差协方差:
以Q学习(Q-Learning,QL)为代表的强化学习是一种无模型、单步更新的强化学习方法,考虑基于QL方法的波形参数挑选策略来自适应雷达工作环境。在QL中,状态动作对(s,a)的值被定义为期望的累积折扣奖励,Q值可以根据下式更新获得:
其中,s∈S表示agent状态,a∈A表示agent行为,S和A分别表示agent的状态空间和行为空间,α为学习率,γ∈[0,1]是折扣因子,rq,k是k时刻目标q的实时奖励。
经过足够次数迭代使Q表(用于记录每次迭代计算得到的Q值)收敛,选择最大Q值的行为作为最佳发射波形策略π*(s):
波形挑选过程:
首先,基于k时刻目标q序贯滤波的结果计算雷达跟踪状态的熵态,即成本函数:
其中,ESq,k表示k时刻跟踪目标q的熵。
然后,通过比较k-1时刻的熵和k时刻的熵来奖励k时刻发出的波形参数设计的实时奖励函数如下:
rq,k=log(1+|ESq,k-1-ESq,k|)sign(ESq,k-1-ESq,k) (15)
其中,sign(·)是signum函数。当k时刻的熵小于k-1时刻时,波形导致不确定性减小,得到积极奖励,否则,给予负惩罚。因此,可通过公式(15)计算实时奖励rq,k并根据公式(12)更新Q表。
接下来,根据公式(11)单步预测并结合公式(14)和公式(15)计算预测奖励rq,k+1,并根据公式(12)再次更新Q表,重复此步骤,直到Q表收敛。其中,Q表收敛的现象是最近两次迭代的Q值非常接近,或者完全一样,即最近两次迭代的Q值的偏差不超过一个指定的阈值。
最后,选择最大Q值行为作为最优波形选择策略π*(s),并根据最优波形选择策略得到最优发射波形与波形参数
(2)针对收发分置的一体化分布式雷达波形设计:
收发分置分布式雷达与收发共置分布式雷达的主要区别是目标量测函数不同。以量测为传输时延和多普勒频移为例,即:hq,l,m(xq,k)=[τq,l.m,vq,l,m]T,如果目标位置为(xq,k,yq,k,zq,k),分布式雷达发射单元分布在m=1,2,...,NT,接收单元分布在l=1,2,...,NR那么对于第l个接收单元收到由第m个发射单元发射信号的情况,输出时延τq,l,m与多普勒频移vq,l,m分别为
其中,fm为第m个发射单元的发射波形频率,
因此,可以将前述收发共置的分布式雷达波形设计方法拓展到收发分置联合检测跟踪的分布式雷达波形设计,非多径与多径情况与收发共置类似。具体实施方式是,首先,构建雷达波形参数库;然后,根据收发分置分布式雷达的布局建立雷达目标量测模型;其次,设计带反馈信息的联合检测跟踪算法;最后,根据序贯滤波并结合QL学习方法得到最优分布式雷达的发射波形。
本发明实施例提供的基于强化学习的分布式雷达检测跟踪一体化波形实现方法,其具体包括了目标的联合检测跟踪、序贯滤波融合各分布式传感器的滤波结果、强化学习的交互试错机制挑选出各分布式雷达最优的发射波形和波形参数,形成一个闭环认知机制。本发明避免了传统雷达发射波形、接收处理方式以及杂波模型相对固定,不能有效应对外界复杂杂波环境下的机动目标跟踪,实现了雷达的自我学习,发射针对特定场景下的雷达波形,在一定程度上提高了雷达对目标的跟踪性能,为智能化雷达的设计提供了范例。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (3)
1.基于强化学习的分布式雷达检测跟踪一体化波形实现方法,其特征在于,包括下列步骤:
步骤S1,建立雷达波形库,该雷达波形库包括雷达发射波形和波形参数;
步骤S2,各分布式雷达传感器分别接收目标回波,各分布式雷达传感器分别对目标回波进行独立检测与关联滤波处理;
其中,独立检测与关联滤波处理具体包括:更新雷达传感器不同分辨单元的检测门限、计算检测概率和虚警概率和联合概率,采用联合概率数据互联算法得到目标状态向量;
步骤S3,基于得到的目标状态向量,应用序贯滤波算法进行目标状态和目标误差协方差的融合估计,得到序贯滤波的融合估计结果;
步骤S4,基于序贯滤波的融合估计结果,通过强化学习的试错交互学习过程挑选出下一时刻最优的发射波形和参数以照射目标。
2.如权利要求1所述的方法,其特征在于,步骤S4中,采用的强化学习算法为Q-Learning算法;
通过Q-Learning算法挑选出下一时刻最优的发射波形和参数具体包括:
步骤S401,基于k时刻目标q的序贯滤波的序贯滤波的融合估计结果中的联合误差协方差计算雷达跟踪状态的熵态:/>其中,ESq,k表示k时刻跟踪目标q的熵,N表示分布式雷达传感器数量;
步骤S402,比较k-1时刻和k时刻的熵来奖励k时刻发出的波形参数计算k时刻跟踪目标q的实时奖励:rq,k=log(1+|ESq,k-1-ESq,k|)sign(ESq,k-1-ESq,k);
其中,sign(·)表示signum函数,rq,k表示k时刻跟踪目标q的实时奖励,表示k时刻第i个分布式雷达传感器的雷达波形参数矢量,i=1,2,…,N,
基于所有目标的实时奖励迭代计算第k+1时刻的Q值并记录在Q表中:
其中,s表示代理状态,a表示代理行为,α表示学习率,折扣因子γ∈[0,1],Qk(s,a)表示k时刻的Q值,Qk(s′,a′)表示下一个状态的Q值;
步骤S403,根据目标运动模型和序贯滤波的融合估计结果中的估计状态更新k+1时刻的联合误差协方差计算下一时刻的雷达跟踪状态的熵态ESq,k+1;
计算下一时刻的跟踪目标q的实时奖励:rq,k+1=log(1+|ESq,k-ESq,k+1|)sign(ESq,k-ESq,k+1),并基于rq,k+1继续迭代计算下一时刻的Q值并记录在Q表中;
重复迭代计算下一时刻的Q值,直到Q表收敛;
步骤S404,从Q表中选择最大Q值作为最优波形选择策略π*(s),并根据π*(s)所对应的波形参数得到最优发射波形与波形参数。
3.如权利要求2所述的方法,其特征在于,雷达波形参数矢量其中,和/>分别表示为第i个分布式雷达传感器的发射波形的相位函数,脉冲持续时间和调频斜率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310474370.8A CN116482673B (zh) | 2023-04-27 | 2023-04-27 | 基于强化学习的分布式雷达检测跟踪一体化波形实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310474370.8A CN116482673B (zh) | 2023-04-27 | 2023-04-27 | 基于强化学习的分布式雷达检测跟踪一体化波形实现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116482673A CN116482673A (zh) | 2023-07-25 |
CN116482673B true CN116482673B (zh) | 2024-01-05 |
Family
ID=87215393
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310474370.8A Active CN116482673B (zh) | 2023-04-27 | 2023-04-27 | 基于强化学习的分布式雷达检测跟踪一体化波形实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116482673B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103809173A (zh) * | 2014-02-28 | 2014-05-21 | 西安电子科技大学 | 帧恒虚警目标检测跟踪一体化方法 |
CN105093186A (zh) * | 2015-08-27 | 2015-11-25 | 电子科技大学 | 一种基于异构雷达传感网的多目标融合检测方法 |
CN105842687A (zh) * | 2016-03-21 | 2016-08-10 | 西安电子科技大学 | 基于rcs预测信息的检测跟踪一体化方法 |
CN108037487A (zh) * | 2017-11-20 | 2018-05-15 | 南京航空航天大学 | 一种基于射频隐身的分布式mimo雷达发射信号优化设计方法 |
CN108107423A (zh) * | 2017-12-08 | 2018-06-01 | 中国船舶重工集团公司第七二四研究所 | 分布式网络化雷达目标检测跟踪一体化处理方法 |
CN108983226A (zh) * | 2018-07-20 | 2018-12-11 | 北京航空航天大学 | 一种基于天线布阵调制的mimo雷达通信一体化方法 |
CN113110478A (zh) * | 2021-04-27 | 2021-07-13 | 广东工业大学 | 一种多机器人运动规划的方法、系统及存储介质 |
CN113238219A (zh) * | 2021-05-18 | 2021-08-10 | 电子科技大学 | 一种适用于rsn在目标跟踪任务中的波形优化方法 |
CN114679729A (zh) * | 2022-03-31 | 2022-06-28 | 中国电子科技集团公司第二十八研究所 | 一种雷达通信一体化的无人机协同多目标探测方法 |
CN115238439A (zh) * | 2021-12-15 | 2022-10-25 | 中国人民解放军空军工程大学 | 基于马尔可夫决策过程的探测系统博弈波形的设计方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8860602B2 (en) * | 2012-10-09 | 2014-10-14 | Accipiter Radar Technologies Inc. | Device and method for cognitive radar information network |
-
2023
- 2023-04-27 CN CN202310474370.8A patent/CN116482673B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103809173A (zh) * | 2014-02-28 | 2014-05-21 | 西安电子科技大学 | 帧恒虚警目标检测跟踪一体化方法 |
CN105093186A (zh) * | 2015-08-27 | 2015-11-25 | 电子科技大学 | 一种基于异构雷达传感网的多目标融合检测方法 |
CN105842687A (zh) * | 2016-03-21 | 2016-08-10 | 西安电子科技大学 | 基于rcs预测信息的检测跟踪一体化方法 |
CN108037487A (zh) * | 2017-11-20 | 2018-05-15 | 南京航空航天大学 | 一种基于射频隐身的分布式mimo雷达发射信号优化设计方法 |
CN108107423A (zh) * | 2017-12-08 | 2018-06-01 | 中国船舶重工集团公司第七二四研究所 | 分布式网络化雷达目标检测跟踪一体化处理方法 |
CN108983226A (zh) * | 2018-07-20 | 2018-12-11 | 北京航空航天大学 | 一种基于天线布阵调制的mimo雷达通信一体化方法 |
CN113110478A (zh) * | 2021-04-27 | 2021-07-13 | 广东工业大学 | 一种多机器人运动规划的方法、系统及存储介质 |
CN113238219A (zh) * | 2021-05-18 | 2021-08-10 | 电子科技大学 | 一种适用于rsn在目标跟踪任务中的波形优化方法 |
CN115238439A (zh) * | 2021-12-15 | 2022-10-25 | 中国人民解放军空军工程大学 | 基于马尔可夫决策过程的探测系统博弈波形的设计方法 |
CN114679729A (zh) * | 2022-03-31 | 2022-06-28 | 中国电子科技集团公司第二十八研究所 | 一种雷达通信一体化的无人机协同多目标探测方法 |
Non-Patent Citations (4)
Title |
---|
Improved multi-target radar TBD algorithm;Xin Bi et al.;《Journal of Systems Engineering and Electronics》;第第26卷卷(第第6期期);全文 * |
分布式干扰下分布式雷达网目标跟踪技术;贺达超;王国宏;孙殿星;;现代防御技术(第04期);全文 * |
基于强化学习的认知雷达目标跟踪波形挑选方法;朱培坤 等;《雷达学报》;第12卷(第2期);全文 * |
多目标跟踪分布式MIMO雷达收发站联合选择优化算法;鲁彦希;何子述;程子扬;刘爽利;;雷达学报(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116482673A (zh) | 2023-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6710743B2 (en) | System and method for central association and tracking in passive coherent location applications | |
CN112904290B (zh) | 一种雷达智能认知抗干扰策略的生成方法 | |
CN112613532B (zh) | 基于雷达与循环神经网络补全红外融合的动目标跟踪方法 | |
CN113238219B (zh) | 一种适用于rsn在目标跟踪任务中的波形优化方法 | |
CN105093198A (zh) | 一种分布式外辐射源雷达组网探测的航迹融合方法 | |
CN113438596B (zh) | 一种面向北斗与5g融合的毫米波低时延波束赋形方法 | |
CN118068318B (zh) | 基于毫米波雷达和环境传感器的多模态感知方法及系统 | |
CN110187335A (zh) | 针对具有非连续特性目标的粒子滤波检测前跟踪方法 | |
CN110308432A (zh) | 一种基于神经网络的雷达自适应波形选择行为识别方法 | |
Zhu et al. | Cognitive radar target tracking using intelligent waveforms based on reinforcement learning | |
Zhang et al. | Performance analysis of deep reinforcement learning-based intelligent cooperative jamming method confronting multi-functional networked radar | |
CN113126086B (zh) | 一种基于状态预测积累的生命探测雷达弱目标检测方法 | |
CN116299287A (zh) | 幅度信息辅助的认知雷达跟踪波形选择方法及系统 | |
CN108594203A (zh) | 一种分布式雷达多站检测序列规划设计方法 | |
CN116482673B (zh) | 基于强化学习的分布式雷达检测跟踪一体化波形实现方法 | |
Xiang et al. | Target tracking via recursive Bayesian state estimation in cognitive radar networks | |
Ristic et al. | Gaussian mixture multitarget–multisensor Bernoulli tracker for multistatic sonobuoy fields | |
CN116243286A (zh) | 一种双基地声纳运动目标序贯检测方法 | |
Rajpoot et al. | Cognitive radar for target tracking | |
CN116577730A (zh) | 基于变虚警检测的相控阵雷达联合空时资源分配方法 | |
CN114355324A (zh) | 一种航迹生成方法 | |
Du et al. | Joint power and bandwidth allocation algorithm for radio frequency stealth radar | |
CN112946568A (zh) | 辐射源航迹矢量直接估计方法 | |
CN112986975A (zh) | 一种基于距离加权的被动雷达网络中心化检测方法 | |
Butler et al. | Multistatic target classification with adaptive waveforms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |