CN113128121A - 基于强化学习与蒙特卡洛搜索树的mimo雷达布站方法 - Google Patents

基于强化学习与蒙特卡洛搜索树的mimo雷达布站方法 Download PDF

Info

Publication number
CN113128121A
CN113128121A CN202110437632.4A CN202110437632A CN113128121A CN 113128121 A CN113128121 A CN 113128121A CN 202110437632 A CN202110437632 A CN 202110437632A CN 113128121 A CN113128121 A CN 113128121A
Authority
CN
China
Prior art keywords
monte carlo
search tree
node
neural network
carlo search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110437632.4A
Other languages
English (en)
Other versions
CN113128121B (zh
Inventor
余晨
李�昊
杨益川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 29 Research Institute
Original Assignee
CETC 29 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 29 Research Institute filed Critical CETC 29 Research Institute
Priority to CN202110437632.4A priority Critical patent/CN113128121B/zh
Publication of CN113128121A publication Critical patent/CN113128121A/zh
Application granted granted Critical
Publication of CN113128121B publication Critical patent/CN113128121B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Optimization (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Geometry (AREA)
  • Evolutionary Biology (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Radar Systems Or Details Thereof (AREA)

Abstract

本发明公开了基于强化学习与蒙特卡洛搜索树的MIMO雷达布站方法,包括步骤:S1,对雷达天线布站区域进行离散化处理,获得该区域的栅格模型;S2,以布站状态作为输入,利用深度神经网络输出相应参数,辅助蒙特卡洛搜索树进行搜索更新;S3,根据蒙特卡洛树的结果更新神经网络参数,最后通过训练好的神经网络指导雷达布站等;在本发明的实施例中,使用深度神经网络与蒙特卡洛搜索树相结合形成的方法,实现布站策略的自主学习,完成训练学习后能够快速完成布站。在高维空间复杂场景中,能够优化雷达站点资源,满足监视任务指标。

Description

基于强化学习与蒙特卡洛搜索树的MIMO雷达布站方法
技术领域
本发明涉及MIMO雷达布站技术领域,更为具体的,涉及基于强化学习与蒙特卡洛搜索树的MIMO雷达布站方法。
背景技术
多输入多输出(multiple-input multiple-output,MIMO)雷达即采用多个发射天线发送定制波形信号,并采用多个接收天线对回波进行某种联合处理的雷达系统。
MIMO雷达组网布站技术通过优化配置收发天线位置,进而提升系统探测能力,是分布式组网雷达系统的一项关键技术,已成为国内外雷达领域的研究热点。
现有对于MIMO雷达布站方案优化方法,2014年M.Radmard在IEEE Transactionson Aerospace and ElectronicSystems上发表的《Antenna placement and powerallocation optimization in MIMO detection》文章中通过分割天线的布站区域,提出一种连续穷举法(SEE);2009年N.Aziz等在IEEE InternationalConference on Networking,Sensing and Control发表《Awireless sensor network coverage optimizationalgorithmbased on particle swarm optimization and Voronoi diagram》文章中提出一种基于Voronoi图的方法计算计算覆盖率;2013年Y.Yoon等在IEEE Transactions onCybernetics发表的《An efficient genetic algorithm for maximum coveragedeployment inwireless sensor networks》文章中针对传感器部署研究,提出了一种基于遗传算法(GA)的传感器布站算法。
现有的布站算法需要给定布站的站点数量,在给定任务指标条件下需要对不同数量的站点进行布站的算法求解,然后通过比较结果选择相应的站点数量和布站方案。在高维空间中任务场景复杂,雷达站点资源有限,需要算法能够自主决定站点数量和布站方案以满足监视任务指标。
发明内容
本发明的目的在于克服现有技术的不足,提供基于强化学习与蒙特卡洛搜索树的MIMO雷达布站方法,实现布站策略的自主学习,完成训练学习后能够快速完成布站。在高维空间复杂场景中,能够优化雷达站点资源,满足监视任务指标等。
本发明的目的是通过以下方案实现的:
基于强化学习与蒙特卡洛搜索树的MIMO雷达布站方法,包括步骤:
S1,对雷达天线布站区域进行离散化处理,获得该区域的栅格模型;
S2,以布站状态作为输入,利用深度神经网络输出相应参数,辅助蒙特卡洛搜索树进行搜索更新;
S3,根据蒙特卡洛树的结果更新神经网络参数,最后通过训练好的神经网络指导雷达布站。
进一步地,在步骤S1中,能够根据栅格模型,获得当前布站状态s。
进一步地,在步骤S2中,深度神经网络以当前布站状态s作为输入,输出蒙特卡洛搜索树的节点价值和子节点概率(v,P)=fθ(s),其中θ表示深度神经网络参数,v表示蒙特卡洛搜索树节点价值,p表示蒙特卡洛搜索树节点概率;深度神经网络参数更新方式如下:
Figure BDA0003033689440000021
J=(z-v)2-π·logP+α·||θ||2
其中,z表示完成蒙特卡洛搜索树更新后节点所表示布站方式的监视性能函数,π表示蒙特卡洛搜索树更新后的节点搜索概率,α表示折扣因子,损失函数J由三个部分组成,监视性能均方误差(z-v)2、节点概率交叉熵π·logP和正则化项||θ||2。在该实施例中,损失函数中各项的目的是为了使深度神经网络输出的节点价值和节点概率尽量与蒙特卡洛搜索树更新后相似,同时通过正则化项限制深度神经网络的参数规模。
进一步地,在步骤S3中,蒙特卡洛搜索树获得深度神经网络提供的节点值v和子节点概率P后,对蒙特卡洛搜索树进行搜索;当搜索到叶节点,根据监视任务指标F0判断该叶节点的监视性能函数值v(s),如下:
Figure BDA0003033689440000031
其中Mr为随机布站满足监视任务指标的布站数量,m为当前布站数量,所有监视区域的性能指标函数F(s)表示为:
Figure BDA0003033689440000032
其中L表示整个监视区域的栅格数,φl(s)表示第l个栅格监视区域的监视性能指标函数,与信噪比的关系如下:
Figure BDA0003033689440000033
Figure BDA0003033689440000034
其中D0代表满足设计探测性能的探测因子;σi,j是针对第i个发射机和第j个接收机的目标RCS,σi,i是针对第i个发射机的目标RCS;Rti是从第i个发射机到第k个距离分辨单元的的欧几里得距离;Rrj是从第j个接收机到第k个距离分辨单元的欧几里得距离;Rmax是雷达的最大探测距离。
进一步地,在步骤S3中,包括如下步骤:
S31,每次非叶节点模拟布站选择具有最大行动价值Q和上限置信区间U的边
Figure BDA0003033689440000041
动作价值Q为步骤S3的神经网络输出结果,上限置信区间U由所存储的先验概率P和该边的访问计数N按如下公式确定:
Figure BDA0003033689440000042
S32,如果当前状态节点不满足监视任务指标并且没有被扩展过,无法确定下一步怎么布站,则通过深度神经网络(v,P)=fθ(s)来评估状态s,概率P的值存储在叶子节点扩展的边上;根据概率P新增节点作为当前状态节点的子节点;
S33,更新动作价值Q,即等同于在该行动下的子树中的所有评估值v的均值;访问计数递增N(st,at)=N(st,at)+1,并且动作价值更新为平均值,
W(st,at)=W(st,at)+v;
Figure BDA0003033689440000043
S34,一旦蒙特卡洛搜索树搜索完成,返回状态s下的布站概率
Figure BDA0003033689440000044
其中τ是控制温度的参数,控制布站随机性;
S35,重复步骤S31-S34,直到蒙特卡洛搜索树满足设定的迭代次数K;
其中,a为选择需要进行布站的位置,b为当前状态下可选择的所有布站位置,t为第t时刻,C为上限置信区间U权重值,Q(st,a)为当前状态st选择动作a进行布站的价值,U(st,a)为当前状态st选择动作a进行布站上限置信区间,st为当前节点布站区域状态,v为蒙特卡洛搜索树节点价值,W(st,at)为当前状态st选择动作at进行布站后布站区域状态价值的加和,N(st,at)为当前状态st选择动作at进行布站的被访问计数。
进一步地,包括步骤:
S4,经网络损失函数或者训练次数满足要求时,退出训练;否则,返回步骤S2。
本发明的有益效果包括:
在本发明的实施例中,使用深度神经网络与蒙特卡洛搜索树相结合形成的方法,实现布站策略的自主学习,可根据布站区域状态和监视任务指标要求给出所需要的站点数量,并同时提供这些站点在布站区域的布站方案。不再需要对某一种布站优化算法进行不同站点数量的比较,以选择满足监视任务指标要求的最少站点资源。相比启发式算法需要在线进行大量迭代计算求解,本发明完成训练学习后能够快速完成布站。在高维空间复杂场景中,能够优化雷达站点资源,满足监视任务指标。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施实例的一种流程框图。
具体实施方式
本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
实施例1
S1,对雷达天线布站区域进行离散化处理,获得该区域的栅格模型;
S2,以布站状态作为输入,利用深度神经网络输出相应参数,辅助蒙特卡洛搜索树进行搜索更新;
S3,根据蒙特卡洛树的结果更新神经网络参数,最后通过训练好的神经网络指导雷达布站。
实施例2
本发明实施例中,通过对雷达天线布站区域进行离散化处理,获得区域的栅格模型;以布站状态作为输入,利用深度神经网络输出相应参数,辅助蒙特卡洛搜索树进行搜索更新;根据蒙特卡洛树的结果更新神经网络参数,最后通过训练好的神经网络指导雷达布站。具体采用下面的步骤:
1)对雷达布站区域进行离散化处理,获得该区域的栅格模型,从而获得当前布站状态s;
2)深度神经网络以当前布站状态s作为输入,输出蒙特卡洛搜索树(MCTS)的节点值和子节点概率(v,P)=fθ(s),其中θ表示深度神经网络参数,v表示MCTS节点价值,p表示MCTS节点概率。深度神经网络参数更新方式如下:
Figure BDA0003033689440000061
J=(z-v)2-π·logP+α·||θ||2
其中z表示完成MCTS更新后节点所表示布站方式的监视性能函数,π表示MCTS更新后的节点搜索概率,α表示折扣因子。损失函数J由三个部分组成,监视性能均方误差(z-v)2、节点概率交叉熵π·logP和正则化项||θ||2。损失函数中各项的目的是为了使深度神经网络输出的节点价值和节点概率尽量与MCTS更新后相似,同时通过正则化项限制深度神经网络的参数规模。
3)MCTS获得深度神经网络提供的节点值v和子节点概率P后,对MCTS进行搜索。当搜索到叶节点,根据监视任务指标F0判断该叶节点的监视性能函数值v(s),如下式所示:
Figure BDA0003033689440000071
其中Mr为随机布站满足监视任务指标的布站数量,m为当前布站数量。所有监视区域的性能指标函数可以表示为:
Figure BDA0003033689440000072
其中φl(s)表示第l个栅格监视区域的监视性能指标函数,与信噪比的关系如下:
Figure BDA0003033689440000073
Figure BDA0003033689440000074
其中D0代表满足设计探测性能的探测因子;σi,j是针对第i个发射机和第j个接收机的目标RCS,σi,i是针对第i个发射机的目标RCS;Rti是从第i个发射机到第k个距离分辨单元的的欧几里得距离;Rrj是从第j个接收机到第k个距离分辨单元的欧几里得距离;Rmax是雷达的最大探测距离。
MCTS的工作流程如下:
(1)、每次非叶节点模拟布站选择具有最大行动价值Q和上限置信区间U的边
Figure BDA0003033689440000083
动作价值Q为步骤S3的神经网络输出结果,上限置信区间U由所存储的先验概率P和该边的访问计数N确定,如下所示。
Figure BDA0003033689440000081
(2)、如果当前状态节点不满足监视任务指标并且没有被扩展过,不知道下一步怎么布站,通过深度神经网络(v,P)=fθ(s)来评估状态s,概率P的值存储在叶子节点扩展的边上。根据概率P新增节点作为当前状态节点的子节点。
(3)、更新动作价值Q等于在该行动下的子树中的所有评估值v的均值。访问计数递增N(st,at)=N(st,at)+1,并且动作价值更新为平均值,
W(st,at)=W(st,at)+v
Figure BDA0003033689440000082
(4)、一旦MCTS搜索完成,返回状态s下的布站概率π(a|s)=N(s,a)1/τ/∑bN(s,b)1/τ,其中τ是控制温度的参数,控制布站随机性。
(5)、重复步骤(1)-(4),直到MCTS满足设定的迭代次数K。
4)经网络损失函数或者训练次数满足要求时,退出训练;否则,返回步骤2)。
实施例3
本实施实例在实施例的基础上,设置一个矩形布站区域,对前方扇面区域进行监视,设定目标监视区域监视任务指标F0为20dB,通过深度神经网络与MCTS相结合的强化学习进行布站控制。在24kmX24km区域内进行布站,对半径30km-40km,120度的扇型区域进行监视。
首先将雷达布站区域进行离散化处理,获得该区域的栅格模型,作为当前态势s。
随后深度神经网络以当前布站状态s作为输入,输出蒙特卡洛搜索树(MCTS)的节点值和子节点概率(v,P)=fθ(s)。MCTS获得深度神经网络提供的节点值v和子节点概率P后,对MCTS进行搜索、扩展、更新。
然后神经网络将更新之后MCTS参数作为目标值,根据损失函数J进行参数更新。当更新次数或者损失函数满足预设阈值,停止训练。
最后将当前布站态势作为神经网络的输入,输出下一个布站位置概率P,并进行布站,直到目标区域最小SNR超过监视任务指标F0
本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。
上述技术方案只是本发明的一种实施方式,对于本领域内的技术人员而言,在本发明公开了应用方法和原理的基础上,很容易做出各种类型的改进或变形,而不仅限于本发明上述具体实施方式所描述的方法,因此前面描述的方式只是优选的,而并不具有限制性的意义。
除以上实例以外,本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例,各个实施例的特征可以互换或替换,本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
本发明功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,在一台计算机设备(可以是个人计算机,服务器,或者网络设备等)以及相应的软件中执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、或者光盘等各种可以存储程序代码的介质,进行测试或者实际的数据在程序实现中存在于只读存储器(Random Access Memory,RAM)、随机存取存储器(Random Access Memory,RAM)等。

Claims (6)

1.基于强化学习与蒙特卡洛搜索树的MIMO雷达布站方法,其特征在于,包括步骤:
S1,对雷达天线布站区域进行离散化处理,获得该区域的栅格模型;
S2,以布站状态作为输入,利用深度神经网络输出相应参数,辅助蒙特卡洛搜索树进行搜索更新;
S3,根据蒙特卡洛树的结果更新神经网络参数,最后通过训练好的神经网络指导雷达布站。
2.根据权利要求1所述的基于强化学习与蒙特卡洛搜索树的MIMO雷达布站方法,其特征在于,在步骤S1中,能够根据栅格模型,获得当前布站状态s。
3.根据权利要求2所述的基于强化学习与蒙特卡洛搜索树的MIMO雷达布站方法,其特征在于,在步骤S2中,深度神经网络以当前布站状态s作为输入,输出蒙特卡洛搜索树的节点价值和子节点概率(v,P)=fθ(s),其中θ表示深度神经网络参数,v表示蒙特卡洛搜索树节点价值,p表示蒙特卡洛搜索树节点概率;深度神经网络参数更新方式如下:
Figure FDA0003033689430000011
J=(z-v)2-π·log P+α·||θ||2
其中,z表示完成蒙特卡洛搜索树更新后节点所表示布站方式的监视性能函数,π表示蒙特卡洛搜索树更新后的节点搜索概率,α表示折扣因子,损失函数J由三个部分组成,监视性能均方误差(z-v)2、节点概率交叉熵π·log P和正则化项||θ||2
4.根据权利要求3所述的基于强化学习与蒙特卡洛搜索树的MIMO雷达布站方法,其特征在于,在步骤S3中,蒙特卡洛搜索树获得深度神经网络提供的节点值v和子节点概率P后,对蒙特卡洛搜索树进行搜索;当搜索到叶节点,根据监视任务指标F0判断该叶节点的监视性能函数值v(s),如下:
Figure FDA0003033689430000021
其中Mr为随机布站满足监视任务指标的布站数量,m为当前布站数量,所有监视区域的性能指标函数F(s)表示为:
Figure FDA0003033689430000022
其中L表示整个监视区域的栅格数,φl(s)表示第l个栅格监视区域的监视性能指标函数,与信噪比的关系如下:
Figure FDA0003033689430000023
Figure FDA0003033689430000024
其中D0代表满足设计探测性能的探测因子;σi,j是针对第i个发射机和第j个接收机的目标RCS,σi,i是针对第i个发射机的目标RCS;Rti是从第i个发射机到第k个距离分辨单元的的欧几里得距离;Rrj是从第j个接收机到第k个距离分辨单元的欧几里得距离;Rmax是雷达的最大探测距离。
5.根据权利要求4所述的基于强化学习与蒙特卡洛搜索树的MIMO雷达布站方法,其特征在于,在步骤S3中,包括如下步骤:
S31,每次非叶节点模拟布站选择具有最大行动价值Q和上限置信区间U的边
Figure FDA0003033689430000025
动作价值Q为步骤S3的神经网络输出结果,上限置信区间U由所存储的先验概率P和该边的访问计数N按如下公式确定:
Figure FDA0003033689430000031
S32,如果当前状态节点不满足监视任务指标并且没有被扩展过,无法确定下一步怎么布站,则通过深度神经网络(v,P)=fθ(s)来评估状态s,概率P的值存储在叶子节点扩展的边上;根据概率P新增节点作为当前状态节点的子节点;
S33,更新动作价值Q,即等同于在该行动下的子树中的所有评估值v的均值;访问计数递增N(st,at)=N(st,at)+1,并且动作价值更新为平均值,
W(st,at)=W(st,at)+v;
Figure FDA0003033689430000032
S34,一旦蒙特卡洛搜索树搜索完成,返回状态s下的布站概率π(a|s)=N(s,a)1/τ/∑bN(s,b)1/τ,其中τ是控制温度的参数,控制布站随机性;
S35,重复步骤S31-S34,直到蒙特卡洛搜索树满足设定的迭代次数K;
其中,a为选择需要进行布站的位置,b为当前状态下可选择的所有布站位置,t为第t时刻,C为上限置信区间U权重值,Q(st,a)为当前状态st选择动作a进行布站的价值,U(st,a)为当前状态st选择动作a进行布站上限置信区间,st为当前节点布站区域状态,v为蒙特卡洛搜索树节点价值,W(st,at)为当前状态st选择动作at进行布站后布站区域状态价值的加和,N(st,at)为当前状态st选择动作at进行布站的被访问计数。
6.根据权利要求1~5任一所述的基于强化学习与蒙特卡洛搜索树的MIMO雷达布站方法,其特征在于,包括步骤:
S4,经网络损失函数或者训练次数满足要求时,退出训练;否则,返回步骤S2。
CN202110437632.4A 2021-04-22 2021-04-22 基于强化学习与蒙特卡洛搜索树的mimo雷达布站方法 Active CN113128121B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110437632.4A CN113128121B (zh) 2021-04-22 2021-04-22 基于强化学习与蒙特卡洛搜索树的mimo雷达布站方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110437632.4A CN113128121B (zh) 2021-04-22 2021-04-22 基于强化学习与蒙特卡洛搜索树的mimo雷达布站方法

Publications (2)

Publication Number Publication Date
CN113128121A true CN113128121A (zh) 2021-07-16
CN113128121B CN113128121B (zh) 2022-05-31

Family

ID=76779211

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110437632.4A Active CN113128121B (zh) 2021-04-22 2021-04-22 基于强化学习与蒙特卡洛搜索树的mimo雷达布站方法

Country Status (1)

Country Link
CN (1) CN113128121B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113569523A (zh) * 2021-07-29 2021-10-29 电子科技大学 一种基于线序模拟的pcb自动布线方法及系统
CN113704098A (zh) * 2021-08-18 2021-11-26 武汉大学 一种基于蒙特卡洛搜索树种子调度的深度学习模糊测试方法
CN115175202A (zh) * 2022-05-06 2022-10-11 中国科学院沈阳自动化研究所 一种基于强化学习的中继节点部署方法
CN116016226A (zh) * 2022-12-29 2023-04-25 西安电子科技大学 一种基于强化学习的非固定节点数的网络化雷达智能节点遴选方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220409A (zh) * 2017-05-02 2017-09-29 哈尔滨工程大学 一种基于粒子机制免疫人群搜索的组网雷达布站方法
CN110659420A (zh) * 2019-09-25 2020-01-07 广州西思数字科技有限公司 一种基于深度神经网络蒙特卡洛搜索树的个性化配餐方法
WO2020040763A1 (en) * 2018-08-23 2020-02-27 Siemens Aktiengesellschaft Real-time production scheduling with deep reinforcement learning and monte carlo tree search
CN111693975A (zh) * 2020-05-29 2020-09-22 电子科技大学 一种基于深度神经网络的mimo雷达稀疏阵列设计方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220409A (zh) * 2017-05-02 2017-09-29 哈尔滨工程大学 一种基于粒子机制免疫人群搜索的组网雷达布站方法
WO2020040763A1 (en) * 2018-08-23 2020-02-27 Siemens Aktiengesellschaft Real-time production scheduling with deep reinforcement learning and monte carlo tree search
CN110659420A (zh) * 2019-09-25 2020-01-07 广州西思数字科技有限公司 一种基于深度神经网络蒙特卡洛搜索树的个性化配餐方法
CN111693975A (zh) * 2020-05-29 2020-09-22 电子科技大学 一种基于深度神经网络的mimo雷达稀疏阵列设计方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
JIENAN CHEN ET AL: "Intelligent Massive MIMO Antenna Selection Using Monte Carlo Tree Search", 《IEEE TRANSACTIONS ON SIGNAL PROCESSING》, vol. 67, no. 20, 15 October 2019 (2019-10-15), pages 5380 - 5390, XP011747031, DOI: 10.1109/TSP.2019.2940128 *
JIENAN CHEN ET AL: "IPAS:A deep Monte Carlo Tree Search-based intelligent pilot-power allocation scheme for massive MIMO system", 《DIGITAL COMMUNICATIONS AND NETWORKS》, 4 August 2020 (2020-08-04), pages 362 - 372 *
TZ-WEI MO ET AL: "Deep Reinforcement Learning Aided Monte Carlo Tree Search for MIMO Detection", 《ARXIV》, 30 January 2021 (2021-01-30), pages 1 - 11 *
张焱等: "基于微波光电技术多点定位时差接收系统", 《雷达科学与技术》, no. 03, 15 June 2017 (2017-06-15), pages 67 - 70 *
梁家栋等: "多监视区域偏好可控的MIMO雷达优化布站算法", 《现代雷达》, vol. 39, no. 06, 15 June 2017 (2017-06-15), pages 23 - 26 *
逯群峰: "基于智能进化算法的分布式MIMO雷达优化布站技术研究", 《中国硕士学位论文全文数据库 信息科技辑》, no. 12, 15 December 2019 (2019-12-15), pages 136 - 366 *
郑炳楠 等: "先天综合判断观照下的深度增强学习:以AlphaGo Zero为例", 《南京林业大学学报(人文社会科学版)》, vol. 19, no. 1, 28 February 2019 (2019-02-28), pages 60 - 68 *
高龙等: "低空监视雷达网在通用航空监管中的应用", 《制导与引信》, vol. 38, no. 04, 15 December 2017 (2017-12-15), pages 33 - 38 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113569523A (zh) * 2021-07-29 2021-10-29 电子科技大学 一种基于线序模拟的pcb自动布线方法及系统
CN113704098A (zh) * 2021-08-18 2021-11-26 武汉大学 一种基于蒙特卡洛搜索树种子调度的深度学习模糊测试方法
CN113704098B (zh) * 2021-08-18 2023-09-22 武汉大学 一种基于蒙特卡洛搜索树种子调度的深度学习模糊测试方法
CN115175202A (zh) * 2022-05-06 2022-10-11 中国科学院沈阳自动化研究所 一种基于强化学习的中继节点部署方法
CN115175202B (zh) * 2022-05-06 2023-11-07 中国科学院沈阳自动化研究所 一种基于强化学习的中继节点部署方法
CN116016226A (zh) * 2022-12-29 2023-04-25 西安电子科技大学 一种基于强化学习的非固定节点数的网络化雷达智能节点遴选方法

Also Published As

Publication number Publication date
CN113128121B (zh) 2022-05-31

Similar Documents

Publication Publication Date Title
CN113128121B (zh) 基于强化学习与蒙特卡洛搜索树的mimo雷达布站方法
CN103476118B (zh) 一种用于实时监控的wlan室内位置指纹定位方法
Ling et al. Gaussian process planning with Lipschitz continuous reward functions: Towards unifying Bayesian optimization, active learning, and beyond
Bland et al. The ellipsoid method: A survey
Pradhan et al. Connectivity constrained wireless sensor deployment using multiobjective evolutionary algorithms and fuzzy decision making
CN110234085B (zh) 基于对抗迁移网络的室内位置指纹地图生成方法及系统
CN105554873B (zh) 一种基于pso-ga-rbf-hop的无线传感器网络定位算法
CN105954731B (zh) 冲击噪声下基于免疫布谷鸟搜索的双基地mimo雷达测向方法
Yang et al. Deployment of multistatic radar system using multi‐objective particle swarm optimisation
Lie et al. A fingerprint-based coarse-to-fine algorithm for indoor positioning system using Bluetooth Low Energy
Ahmadi et al. RSSI-based localization in wireless sensor networks using Regression Tree
Sweidan et al. Coverage optimization in a terrain-aware wireless sensor network
Xue et al. Deep learning based channel prediction for massive MIMO systems in high-speed railway scenarios
Liu et al. Multi-sensor multi-target tracking using probability hypothesis density filter
CN117241376A (zh) 一种多策略改进bp神经网络的wsn节点定位方法
CN111008705A (zh) 一种搜索方法、装置及设备
Tariq et al. WSN Localization Method Based on Hybrid PSO-GRNN Approach.
CN116400312A (zh) 一种基于迁移强化学习的快速网络化雷达节点遴选方法
Chen et al. DeepMetricFi: Improving Wi-Fi fingerprinting localization by deep metric learning
Kong NLOS identification for UWB positioning based on IDBO and convolutional neural networks
Baccar et al. A new fuzzy location indicator for Interval Type-2 indoor fuzzy localization system
CN109041093A (zh) 一种盲信号源功率位置联合估计方法及系统
Baccar et al. Neuro-fuzzy localization in wireless sensor networks
Du et al. A multi-output two-stage locally regularized model construction method using the extreme learning machine
Bogdandy et al. Analysis of training parameters of feed forward neural networks for WiFi RSSI modeling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant