CN113128121A

CN113128121A - 基于强化学习与蒙特卡洛搜索树的mimo雷达布站方法

Info

Publication number: CN113128121A
Application number: CN202110437632.4A
Authority: CN
Inventors: 余晨; 李�昊; 杨益川
Original assignee: CETC 29 Research Institute
Current assignee: CETC 29 Research Institute
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2021-07-16
Anticipated expiration: 2041-04-22
Also published as: CN113128121B

Abstract

本发明公开了基于强化学习与蒙特卡洛搜索树的MIMO雷达布站方法，包括步骤：S1，对雷达天线布站区域进行离散化处理，获得该区域的栅格模型；S2，以布站状态作为输入，利用深度神经网络输出相应参数，辅助蒙特卡洛搜索树进行搜索更新；S3，根据蒙特卡洛树的结果更新神经网络参数，最后通过训练好的神经网络指导雷达布站等；在本发明的实施例中，使用深度神经网络与蒙特卡洛搜索树相结合形成的方法，实现布站策略的自主学习，完成训练学习后能够快速完成布站。在高维空间复杂场景中，能够优化雷达站点资源，满足监视任务指标。

Description

基于强化学习与蒙特卡洛搜索树的MIMO雷达布站方法

技术领域

本发明涉及MIMO雷达布站技术领域，更为具体的，涉及基于强化学习与蒙特卡洛搜索树的MIMO雷达布站方法。

背景技术

多输入多输出(multiple-input multiple-output,MIMO)雷达即采用多个发射天线发送定制波形信号，并采用多个接收天线对回波进行某种联合处理的雷达系统。

MIMO雷达组网布站技术通过优化配置收发天线位置，进而提升系统探测能力，是分布式组网雷达系统的一项关键技术，已成为国内外雷达领域的研究热点。

现有对于MIMO雷达布站方案优化方法，2014年M.Radmard在IEEE Transactionson Aerospace and ElectronicSystems上发表的《Antenna placement and powerallocation optimization in MIMO detection》文章中通过分割天线的布站区域，提出一种连续穷举法(SEE)；2009年N.Aziz等在IEEE InternationalConference on Networking,Sensing and Control发表《Awireless sensor network coverage optimizationalgorithmbased on particle swarm optimization and Voronoi diagram》文章中提出一种基于Voronoi图的方法计算计算覆盖率；2013年Y.Yoon等在IEEE Transactions onCybernetics发表的《An efficient genetic algorithm for maximum coveragedeployment inwireless sensor networks》文章中针对传感器部署研究，提出了一种基于遗传算法(GA)的传感器布站算法。

现有的布站算法需要给定布站的站点数量，在给定任务指标条件下需要对不同数量的站点进行布站的算法求解，然后通过比较结果选择相应的站点数量和布站方案。在高维空间中任务场景复杂，雷达站点资源有限，需要算法能够自主决定站点数量和布站方案以满足监视任务指标。

发明内容

本发明的目的在于克服现有技术的不足，提供基于强化学习与蒙特卡洛搜索树的MIMO雷达布站方法，实现布站策略的自主学习，完成训练学习后能够快速完成布站。在高维空间复杂场景中，能够优化雷达站点资源，满足监视任务指标等。

本发明的目的是通过以下方案实现的：

基于强化学习与蒙特卡洛搜索树的MIMO雷达布站方法，包括步骤：

S1，对雷达天线布站区域进行离散化处理，获得该区域的栅格模型；

S2，以布站状态作为输入，利用深度神经网络输出相应参数，辅助蒙特卡洛搜索树进行搜索更新；

S3，根据蒙特卡洛树的结果更新神经网络参数，最后通过训练好的神经网络指导雷达布站。

进一步地，在步骤S1中，能够根据栅格模型，获得当前布站状态s。

进一步地，在步骤S2中，深度神经网络以当前布站状态s作为输入，输出蒙特卡洛搜索树的节点价值和子节点概率(v,P)＝f_θ(s)，其中θ表示深度神经网络参数，v表示蒙特卡洛搜索树节点价值，p表示蒙特卡洛搜索树节点概率；深度神经网络参数更新方式如下：

J＝(z-v)²-π·logP+α·||θ||²

其中，z表示完成蒙特卡洛搜索树更新后节点所表示布站方式的监视性能函数，π表示蒙特卡洛搜索树更新后的节点搜索概率，α表示折扣因子，损失函数J由三个部分组成，监视性能均方误差(z-v)²、节点概率交叉熵π·logP和正则化项||θ||²。在该实施例中，损失函数中各项的目的是为了使深度神经网络输出的节点价值和节点概率尽量与蒙特卡洛搜索树更新后相似，同时通过正则化项限制深度神经网络的参数规模。

进一步地，在步骤S3中，蒙特卡洛搜索树获得深度神经网络提供的节点值v和子节点概率P后，对蒙特卡洛搜索树进行搜索；当搜索到叶节点，根据监视任务指标F₀判断该叶节点的监视性能函数值v(s)，如下：

其中M_r为随机布站满足监视任务指标的布站数量，m为当前布站数量，所有监视区域的性能指标函数F(s)表示为：

其中L表示整个监视区域的栅格数，φ_l(s)表示第l个栅格监视区域的监视性能指标函数，与信噪比的关系如下：

其中D₀代表满足设计探测性能的探测因子；σ_i,j是针对第i个发射机和第j个接收机的目标RCS，σ_i,i是针对第i个发射机的目标RCS；R_ti是从第i个发射机到第k个距离分辨单元的的欧几里得距离；R_rj是从第j个接收机到第k个距离分辨单元的欧几里得距离；R_max是雷达的最大探测距离。

进一步地，在步骤S3中，包括如下步骤：

S31，每次非叶节点模拟布站选择具有最大行动价值Q和上限置信区间U的边

动作价值Q为步骤S3的神经网络输出结果，上限置信区间U由所存储的先验概率P和该边的访问计数N按如下公式确定：

S32，如果当前状态节点不满足监视任务指标并且没有被扩展过，无法确定下一步怎么布站，则通过深度神经网络(v,P)＝f_θ(s)来评估状态s，概率P的值存储在叶子节点扩展的边上；根据概率P新增节点作为当前状态节点的子节点；

S33，更新动作价值Q，即等同于在该行动下的子树中的所有评估值v的均值；访问计数递增N(s_t,a_t)＝N(s_t,a_t)+1，并且动作价值更新为平均值，

W(s_t,a_t)＝W(s_t,a_t)+v；

S34，一旦蒙特卡洛搜索树搜索完成，返回状态s下的布站概率

其中τ是控制温度的参数，控制布站随机性；

S35，重复步骤S31-S34，直到蒙特卡洛搜索树满足设定的迭代次数K；

其中，a为选择需要进行布站的位置，b为当前状态下可选择的所有布站位置，t为第t时刻，C为上限置信区间U权重值，Q(s_t,a)为当前状态s_t选择动作a进行布站的价值，U(s_t，a)为当前状态s_t选择动作a进行布站上限置信区间，s_t为当前节点布站区域状态，v为蒙特卡洛搜索树节点价值，W(s_t，a_t)为当前状态s_t选择动作a_t进行布站后布站区域状态价值的加和，N(s_t，a_t)为当前状态s_t选择动作a_t进行布站的被访问计数。

进一步地，包括步骤：

S4，经网络损失函数或者训练次数满足要求时，退出训练；否则，返回步骤S2。

本发明的有益效果包括：

在本发明的实施例中，使用深度神经网络与蒙特卡洛搜索树相结合形成的方法，实现布站策略的自主学习，可根据布站区域状态和监视任务指标要求给出所需要的站点数量，并同时提供这些站点在布站区域的布站方案。不再需要对某一种布站优化算法进行不同站点数量的比较，以选择满足监视任务指标要求的最少站点资源。相比启发式算法需要在线进行大量迭代计算求解，本发明完成训练学习后能够快速完成布站。在高维空间复杂场景中，能够优化雷达站点资源，满足监视任务指标。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施实例的一种流程框图。

具体实施方式

本说明书中所有实施例公开的所有特征，或隐含公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合和/或扩展、替换。

实施例1

实施例2

本发明实施例中，通过对雷达天线布站区域进行离散化处理，获得区域的栅格模型；以布站状态作为输入，利用深度神经网络输出相应参数，辅助蒙特卡洛搜索树进行搜索更新；根据蒙特卡洛树的结果更新神经网络参数，最后通过训练好的神经网络指导雷达布站。具体采用下面的步骤：

1)对雷达布站区域进行离散化处理，获得该区域的栅格模型，从而获得当前布站状态s；

2)深度神经网络以当前布站状态s作为输入，输出蒙特卡洛搜索树(MCTS)的节点值和子节点概率(v,P)＝f_θ(s)，其中θ表示深度神经网络参数，v表示MCTS节点价值，p表示MCTS节点概率。深度神经网络参数更新方式如下：

J＝(z-v)²-π·logP+α·||θ||²

其中z表示完成MCTS更新后节点所表示布站方式的监视性能函数，π表示MCTS更新后的节点搜索概率，α表示折扣因子。损失函数J由三个部分组成，监视性能均方误差(z-v)²、节点概率交叉熵π·logP和正则化项||θ||²。损失函数中各项的目的是为了使深度神经网络输出的节点价值和节点概率尽量与MCTS更新后相似，同时通过正则化项限制深度神经网络的参数规模。

3)MCTS获得深度神经网络提供的节点值v和子节点概率P后，对MCTS进行搜索。当搜索到叶节点，根据监视任务指标F₀判断该叶节点的监视性能函数值v(s)，如下式所示：

其中M_r为随机布站满足监视任务指标的布站数量，m为当前布站数量。所有监视区域的性能指标函数可以表示为：

其中φ_l(s)表示第l个栅格监视区域的监视性能指标函数，与信噪比的关系如下：

MCTS的工作流程如下：

(1)、每次非叶节点模拟布站选择具有最大行动价值Q和上限置信区间U的边

动作价值Q为步骤S3的神经网络输出结果，上限置信区间U由所存储的先验概率P和该边的访问计数N确定，如下所示。

(2)、如果当前状态节点不满足监视任务指标并且没有被扩展过，不知道下一步怎么布站，通过深度神经网络(v,P)＝f_θ(s)来评估状态s，概率P的值存储在叶子节点扩展的边上。根据概率P新增节点作为当前状态节点的子节点。

(3)、更新动作价值Q等于在该行动下的子树中的所有评估值v的均值。访问计数递增N(s_t,a_t)＝N(s_t,a_t)+1，并且动作价值更新为平均值，

W(s_t,a_t)＝W(s_t,a_t)+v

(4)、一旦MCTS搜索完成，返回状态s下的布站概率π(a|s)＝N(s,a)^1/τ/∑_bN(s,b)^1/τ，其中τ是控制温度的参数，控制布站随机性。

(5)、重复步骤(1)-(4)，直到MCTS满足设定的迭代次数K。

4)经网络损失函数或者训练次数满足要求时，退出训练；否则，返回步骤2)。

实施例3

本实施实例在实施例的基础上，设置一个矩形布站区域，对前方扇面区域进行监视，设定目标监视区域监视任务指标F₀为20dB，通过深度神经网络与MCTS相结合的强化学习进行布站控制。在24kmX24km区域内进行布站，对半径30km-40km，120度的扇型区域进行监视。

首先将雷达布站区域进行离散化处理，获得该区域的栅格模型，作为当前态势s。

随后深度神经网络以当前布站状态s作为输入，输出蒙特卡洛搜索树(MCTS)的节点值和子节点概率(v,P)＝f_θ(s)。MCTS获得深度神经网络提供的节点值v和子节点概率P后，对MCTS进行搜索、扩展、更新。

然后神经网络将更新之后MCTS参数作为目标值，根据损失函数J进行参数更新。当更新次数或者损失函数满足预设阈值，停止训练。

最后将当前布站态势作为神经网络的输入，输出下一个布站位置概率P，并进行布站，直到目标区域最小SNR超过监视任务指标F₀。

本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。

上述技术方案只是本发明的一种实施方式，对于本领域内的技术人员而言，在本发明公开了应用方法和原理的基础上，很容易做出各种类型的改进或变形，而不仅限于本发明上述具体实施方式所描述的方法，因此前面描述的方式只是优选的，而并不具有限制性的意义。

除以上实例以外，本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例，各个实施例的特征可以互换或替换，本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

本发明功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，在一台计算机设备(可以是个人计算机，服务器，或者网络设备等)以及相应的软件中执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、或者光盘等各种可以存储程序代码的介质，进行测试或者实际的数据在程序实现中存在于只读存储器(Random Access Memory，RAM)、随机存取存储器(Random Access Memory，RAM)等。

Claims

1.基于强化学习与蒙特卡洛搜索树的MIMO雷达布站方法，其特征在于，包括步骤：

2.根据权利要求1所述的基于强化学习与蒙特卡洛搜索树的MIMO雷达布站方法，其特征在于，在步骤S1中，能够根据栅格模型，获得当前布站状态s。

3.根据权利要求2所述的基于强化学习与蒙特卡洛搜索树的MIMO雷达布站方法，其特征在于，在步骤S2中，深度神经网络以当前布站状态s作为输入，输出蒙特卡洛搜索树的节点价值和子节点概率(v,P)＝f_θ(s)，其中θ表示深度神经网络参数，v表示蒙特卡洛搜索树节点价值，p表示蒙特卡洛搜索树节点概率；深度神经网络参数更新方式如下：

J＝(z-v)²-π·log P+α·||θ||²

其中，z表示完成蒙特卡洛搜索树更新后节点所表示布站方式的监视性能函数，π表示蒙特卡洛搜索树更新后的节点搜索概率，α表示折扣因子，损失函数J由三个部分组成，监视性能均方误差(z-v)²、节点概率交叉熵π·log P和正则化项||θ||²。

4.根据权利要求3所述的基于强化学习与蒙特卡洛搜索树的MIMO雷达布站方法，其特征在于，在步骤S3中，蒙特卡洛搜索树获得深度神经网络提供的节点值v和子节点概率P后，对蒙特卡洛搜索树进行搜索；当搜索到叶节点，根据监视任务指标F₀判断该叶节点的监视性能函数值v(s)，如下：

5.根据权利要求4所述的基于强化学习与蒙特卡洛搜索树的MIMO雷达布站方法，其特征在于，在步骤S3中，包括如下步骤：

W(s_t,a_t)＝W(s_t,a_t)+v；

S34，一旦蒙特卡洛搜索树搜索完成，返回状态s下的布站概率π(a|s)＝N(s,a)^1/τ/∑_bN(s,b)^1/τ，其中τ是控制温度的参数，控制布站随机性；

其中，a为选择需要进行布站的位置，b为当前状态下可选择的所有布站位置，t为第t时刻，C为上限置信区间U权重值，Q(s_t,a)为当前状态s_t选择动作a进行布站的价值，U(s_t,a)为当前状态s_t选择动作a进行布站上限置信区间，s_t为当前节点布站区域状态，v为蒙特卡洛搜索树节点价值，W(s_t,a_t)为当前状态s_t选择动作a_t进行布站后布站区域状态价值的加和，N(s_t,a_t)为当前状态s_t选择动作a_t进行布站的被访问计数。

6.根据权利要求1～5任一所述的基于强化学习与蒙特卡洛搜索树的MIMO雷达布站方法，其特征在于，包括步骤：