CN116016226A

CN116016226A - 一种基于强化学习的非固定节点数的网络化雷达智能节点遴选方法

Info

Publication number: CN116016226A
Application number: CN202211706751.6A
Authority: CN
Inventors: 张向荣; 王远; 朱进; 张超; 陶海红; 郭晶晶; 张天扬; 韩丽; 曹雁军
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2022-12-29
Filing date: 2022-12-29
Publication date: 2023-04-25

Abstract

本发明提供一种基于强化学习的非固定节点数的网络化雷达智能节点遴选方法，用于雷达节点遴选，从总数为N个的雷达节点组中，挑选出M个节点(0<M<N),M为算法找出的满足雷达探测性能的最少节点数，使得评价函数趋近于全局最优，该评价函数反应了雷达的探测性能。该方法是通过采用随机的对状态转变的推演迭代，来建立一棵不对称的搜索树。该搜索树根据不同目标方位、特性情形下，大量不同遴选方案得到的效果，来训练节点参数；在满足约束条件的情形下，得到较好的效果。当达到最大迭代次数时搜索结束，该方法的优点在于节点遴选结果可使得评价函数趋近于全局最优，并且能够找出满足雷达探测性能的最少节点数。

Description

一种基于强化学习的非固定节点数的网络化雷达智能节点遴选方法

技术领域

本发明属于雷达信号处理技术领域，具体涉及一种基于强化学习的非固定节点数的网络化雷达智能节点遴选方法。

背景技术

网络化雷达，采用广域收发节点布置的形式，相比于双/多基雷达的收发集中式，网络化雷达是收发去中心化的分散式。采用去中心的节点布置方式，收发工作体制十分灵活，反辐射与抗干扰能力大大增强。由于收发视角众多，相比于双/多基组网雷达，具备反隐身能力大幅提升的潜力。由于网络化雷达布设范围广节点众多，相比于集中式雷达，每个节点发射功率小，副瓣低，具有良好的反截获能力。

网络化雷达虽然具有上述诸多优点，但也面临网络化丰富节点资源“选择困惑”的挑战，即如何选择最优最少探测资源以达到探测任务要求，减轻后续数据传输与处理的压力。从网络化雷达系统结构分析，以一体化时频空基准和敏捷网络相连的通用宽带射频收/发节点，对单个侦、干、探、通等任务而言是冗余分布的，需要根据具体任务调用对不同节点进行配置和调用，因此，合理而高效地选取出最少最优的节点资源，是十分有必要的。

在过去的几十年中，MIMO阵列的节点选择在雷达应用领域引起了极大的关注。Berenguer and Krishnamurthy提出了一种基于离散随机优化的快速自适应节点选择方法，该方法采用主动随机近似迭代生成解的估计序列。Mendez-Rial通过对接收信号进行压缩空间采样，来对雷达节点进行选择，以降低毫米波MIMO系统的复杂性和功耗。X.Wang，Y.Liu，Keizer和Aboutanios等人，发展了一些列基于确定性理论和基于优化的方法来选择雷达节点子集和重新配置阵列结构，以最大限度地提高输出信噪比，提高对方位角(DoA)的估计。在MIMO雷达中，节点选择主要从目标参数估计的角度进行研究。Godrich提出了一种最优的雷达节点布置方案，以减小对飞机速度估计的克拉美罗下界(CRLB)。之后，他又采用组合优化方法实现多雷达系统定位误差最小化的资源分配。Gorji通过计算MIMO雷达节点组合对目标位置的估计性能(CRLB)，使其估计误差最小化。在MIMO雷达传感器网络中，通过凸优化实现了联合天线子集选择和最优功率分配。

但是，随着时代的发展趋势，现今人工智能正不断兴起并应用于大量工程领域，无论是遗传算法还是模拟退火算法等搜索算法，均未结合人工智能的前沿科技，在雷达领域，也仍没有以雷达节点数极小化为目标将人工智能领域的智能算法和雷达节点遴选相结合。

发明内容

为了克服上述现有技术存在的不足，本发明的目的在于提供一种基于强化学习的非固定节点数的网络化雷达智能节点遴选方法，能够在满足雷达检测性能的前提下，选择全局最优并且节点数最少的节点资源，减少节点冗余，减轻后续数据传输与处理的压力，提高网络化雷达系统的灵活性。

为了实现上述目的，本发明采用的技术方案是：

本发明用于雷达节点遴选，本发明的目的在于遴选出最优并且最少的节点组合以满足目标探测需求，具体为从总数为N个的雷达节点组中，挑选出M个节点(0<M<N),M为算法找出的满足雷达探测性能的最少节点数，使得评价函数趋近于全局最优，该评价函数反应了雷达的探测性能。该方法是通过采用随机的对状态转变的推演迭代，来建立一棵不对称的搜索树。该搜索树根据不同目标方位、特性情形下，大量不同遴选方案得到的效果，来训练节点参数；在满足约束条件的情形下，得到较好的效果。当达到最大迭代次数时搜索结束，该方法的优点在于节点遴选结果可使得评价函数趋近于全局最优，并且能够找出满足雷达探测性能的最少节点数。

具体地，本发明一种基于强化学习的非固定节点数的网络化雷达智能节点遴选方法，包括以下步骤；

步骤1：确定输入参数：

步骤2：构建蒙特卡洛搜索树：

步骤3：在构建好蒙特卡洛搜索树之后，从根节点进行节点选择，依次在蒙特卡洛树中逐层加入新的雷达节点，选择出一个最急迫需要被拓展的节点N；

所述新的雷达节点是还未被选择的雷达节点组合，树节点与雷达节点组合是对应的，把雷达节点加入到给树节点对应的节点组合中。往树节点对应的雷达节点组合加，注意树节点有个成员变量是雷达节点组合。

步骤4：通过步骤3中的选择节点的方式从根节点逐层访问子节点，直至访问到某子节点时，达到终止状态，从根节点至该子节点的雷达节点集合作为一次遴选方案；

终止状态表示节点组合已满足要求，不需要再加入新的雷达节点来继续搜索，其有两种情况，一种是到达叶子节点(包含全部的雷达节点)；另一种情况是，这些雷达节点已满足性能要求。

步骤5：计算确定步骤4得到的遴选方案的性能；

步骤6：对从根节点到终止状态这条路径上选的雷达节点组合逐层拓展，搜索所有选择过的雷达节点，修改节点属性；

步骤7：根据迭代次数num_sims重复步骤3到步骤6，直到训练迭代次数达到当前层数预设次数T时，根据UCB最大准则，选出当前层最好的子节点。

所述步骤1参数具体为：

总数量为N的雷达节点坐标、目标位置、雷达所在平面与Z轴夹角theta_rotate、散射面积target_RCS、信噪比SNR、目标与空间坐标系原点的距离target_R、波尔兹曼常数K、标准室温T0、噪声系数F、雷达损失L、雷达带宽B，迭代次数num_sims。

步骤1中的参数用来计算克拉美罗下界，也就是雷达节点组合的性能。

所述步骤2中蒙特卡洛搜索树的节点属性包括：当前节点的访问次数n，n用于表示训练迭代过程中节点被访问过的次数,初始值为0；当前节点的奖励值r，奖励值越大，说明该节点对应的雷达节点对于本次执行的目标检测任务性能会更好，每个节点的初始奖励值为0；父节点用于反向传播向上遍历整棵树直到根节点；当前节点所包含子节点的Children集合；以及该节点对应的状态state，每个状态对应一个节点组合。所述步骤3具体为：

(3a)如果当前节点到达终止状态，则一次推演结束，得到一组遴选结果，进入步骤5；

(3b)如果当前节点没有到达终止状态，且当前节点的所有子节点均未被访问过(即此时Children集合为空)，则从当前节点尚未访问过的子节点中随机选取一个节点作为未被选择过的雷达节点，进入步骤(3a)；

(3c)如果当前节点没有到达终止状态，且当前节点的子节点部分被访问过(记当前节点状态为A，即部分访问状态)，或者当前节点的子节点都被访问过(记当前节点状态为B，即完全访问状态)，则具体以各占一半的概率选择以下两种方案中的一种执行，用以选择当前节点的子节点：

方案1：以概率p执行本方案，无论节点处于A状态还是B状态，均选出当前节点已被访问过的子节点中UCB值最大的子节点作为新的节点，进入步骤(3a)；

方案2；以概率(1-p)执行本方案，若节点处于A状态(部分访问状态)，则从当前节点尚未访问过的节点中随机生成一个子节点作为新的子节点，进入步骤(3a)；若节点处于B状态(完全访问状态)，选出当前节点子节点中UCB值最大的子节点作为新的节点，进入步骤(3a)；

其中，置信值UCB的计算公式，其表达式为：

其中，n_i为节点i的访问次数，r_i为节点i的奖励值，而F为节点i的父节点已经被访问的总次数。C是可调整超参数(即人为设定的一个常量)。

所述步骤(3c)中，通过以下方式判断当前节点的所有子节点是否完全未被访问或者部分被访问过或者完全被访问，具体为：

若Children集合为空，则表示当前节点的子节点完全未被访问；

若当前节点的Set集合长度与当前节点的Children集合长度，二者的和小于总节点数N，则表示当前节点的子节点部分被访问；

若当前节点的Set集合长度与当前节点的Children集合长度，二者的和为总节点数N，则表示当前节点的子节点完全被访问。

所述步骤5利用评价函数CLRB计算一次遴选方案的性能，并根据评价函数量化设定一个奖励函数r，根据一次遴选方案计算出的评价函数CLRB越小，并且包含的雷达节点数越少则说明满足遴选方案性能越好，奖励函数值也越大；

(5a)评价函数采用克拉美罗下界CLRB，其表达式为：

其中，

分别是坐标X,Y,Z的误差，其是由时间延迟τ_mn、回波信号rcp_n(t)、费雪信息矩阵求得，其计算过程如下：

(1)首先根据值守雷达提供目标大概位置计算时间延迟：

其中，x_q,y_q,z_q是值守雷达探测到的飞机的大概位置，分别是发射节点T_m和接收节点R_n到目标大概位置的距离，x_m,y_m,z_m是发射节点T_m的坐标，x_n,y_n,z_n是接收节点R_n的坐标；

(2)利用时间延迟τ_mn计算多节点的回波信号

其中，

是阵列增益，δ_q是每个散射点的反射率，

P_m(m＝1,2,...,M)是发射节点T_m的发射功率，s_m为波形，a_mn(m＝1,2,..,M,n＝1,2,..,N)为发射或者接收节点的方向矢量，N_n(t)是加性白高斯噪声，f_c是载波频率；

(3)利用回波信号rcp_n(t)，进行空间相干处理，脉冲压缩和测角预测目标位置参数(x,y,z,δ^R,δ^I)；

(4)利用Fisher信息矩阵，计算预测目标位置参数(x,y,z,δ^R,δ^I)的误差，进而求得克拉美罗下界为：

其中，

分别是坐标X,Y,Z的误差；

(5b)奖励函数r的计算公式，其表达式如下：

其中，levels是给定一个目标位置，所有能够观测到目标的雷达节点数，即算法的搜索范围。Len(self.moves)对应的是每次搜索到的雷达节点组合的节点数，通过雷达节点数给出对应的奖励值，雷达节点数越少，奖励值越大，并在最后做一个归一化处理，使算法朝着雷达节点数越来越少的方向搜索，然后通过反向传播来改变对应树节点的累计奖励值，从而改变当前树节点的选择概率。

所述步骤6根据叶子节点的Set集合，Set集合中所有节点的访问次数加1；所有节点的节点奖励值加上步骤4得到的奖励函数的计算结果；一次训练迭代结束。

所述步骤7在每次访问一层之后，即访问完k(0<k<N)层时，从根节点开始逐层按UCB最大为选择标准，选择k个节点,若这几个节点满足性能要求，即是所需的节点遴选最优组合，节点遴选算法到此结束。

本发明的有益效果：

第一，能够选择最优最少节点资源以达到任务要求，减少了发射和接收的数量以及硬件和计算成本，使雷达系统能够有效的分配资源，极大地优化系统参数，提高系统性能。

第二，本发明是一种面向任务的搜索算法，应用范围广泛，通过修改评价函数，并适当调整奖励函数的参数，可以为各种任务选择出满足性能要求的最少最优节点组合，网络化雷达可以根据具体任务调用不同节点，提高雷达系统的灵活性。

附图说明

图1为蒙特卡洛树算法用于节点遴选的流程图。

图2为本发明节点分布的场景图。

图3为不固定节点数的蒙特卡洛树搜索结果。

图4为固定节点数为3，随机搜索5万次的搜索结果。

图5为固定节点数为4，不同搜索方法的结果对比。

图6为固定节点数为4，不同搜索方法的时间性能对比；图6为固定节点数为4，不同搜索方法的时间性能对比。

具体实施方式

下面结合附图对本发明作进一步详细说明。

参照图1，为本发明的一种基于强化学习的非固定节点数的网络化雷达智能节点遴选方法流程图；所述智能化节点遴选技术，包括以下步骤：

步骤1，确定输入参数：

总数量为145的雷达节点坐标、目标位置为(667.65，7631.29，6427.87)、雷达所在平面与Z轴夹角theta_rotate＝-π/4、散射面积target_RCS＝12.5、信噪比SNR＝100、目标与空间坐标系原点的距离target_R＝1e4、波尔兹曼常数K＝1.38e-23、标准室温T0＝290、噪声系数F＝1e0.3、雷达损失L＝1e0.4、雷达带宽B＝1e6，迭代次数num_sims＝1000。

步骤2，构建蒙特卡洛搜索树：

蒙特卡洛搜索树的节点属性包括：当前节点的访问次数n，n用于表示训练迭代过程中节点被访问过的次数,初始值为0；当前节点的奖励值r，奖励值越大，说明该节点对应的雷达节点对于本次执行的目标检测任务性能会更好，每个节点的初始奖励值为0；父节点用于反向传播向上遍历整棵树直到根节点；当前节点所包含子节点的Children集合；以及该节点对应的状态state，每个状态对应一个节点组合。

步骤3，选择(Selection)：在构建好蒙特卡洛树之后，从根节点进行节点选择，依次加入新的雷达节点。根据选择出一个最急迫需要被拓展的节点N，具体决策如下：

(3a)如果当前节点到达终止状态，则一次推演结束，得到一组遴选结果，进入步骤(5)；

(3c)如果当前节点没有到达终止状态，且当前节点的子节点部分被访问过(记当前节点状态为A，即部分访问状态)，或者当前节点的子节点都被访问过(记当前节点状态为B，即完全访问状态)。则具体以各占一半的概率选择以下两种方案中的一种执行，用以选择当前节点的子节点：

选取方案1：以0.5的概率执行本方案，无论节点处于A状态还是B状态，均选出当前节点已被访问过的子节点中UCB值最大的子节点作为新的节点，进入步骤(3a)；

选取方案2；以另外0.5的概率执行本方案，若节点处于A状态(部分访问状态)，则从当前节点尚未访问过的节点中随机生成一个子节点作为新的子节点，进入步骤(3a)；若节点处于B状态(完全访问状态)，选出当前节点子节点中UCB值最大的子节点作为新的节点，进入步骤(3a)；

其中，置信值UCB的计算公式，其表达式为：

特别地，本步骤(3c)中，通过以下方式判断当前节点的所有子节点是否完全未被访问或者部分被访问过或者完全被访问，具体为：

若当前节点的Set集合长度与当前节点的Children集合长度，二者的和为总节点数N，则表示当前节点的子节点完全被访问；

步骤4，扩展(Expansion)：通过步骤3中的选择节点的方式从根节点逐层访问子节点，直至访问到某子节点时，达到终止状态，从根节点至该子节点的雷达节点集合作为一次遴选方案。

步骤5，模拟(Simulation)：计算确定步骤4得到的遴选方案的性能：

利用评价函数CLRB计算一次遴选方案的性能，并根据评价函数量化设定一个奖励函数r。根据一次遴选方案计算出的评价函数CLRB越小，并且包含的雷达节点数越少则说明满足遴选方案性能越好，奖励函数值也越大；

(5a)评价函数采用克拉美罗下界CLRB，其表达式为：

其中，

(1)首先根据值守雷达提供目标大概位置计算时间延迟：

其中，x_q,y_q,z_q是值守雷达探测到的飞机的大概位置，分别是发射节点T_m和接收节点R_n到目标大概位置的距离，x_m,y_m,z_m是发射节点T_m的坐标，x_n,y_n,z_n是接收节点R_n的坐标。

(2)利用时间延迟τ_mn计算多节点的回波信号

其中，

是阵列增益，δ_q是每个散射点的反射率，

P_m(m＝1,2,...,M)是发射节点T_m的发射功率，s_m为波形，a_mn(m＝1,2,..,M,n＝1,2,..,N)为发射或者接收节点的方向矢量，N_n(t)是加性白高斯噪声，f_c是载波频率。

(3)利用回波信号rcp_n(t)，进行空间相干处理，脉冲压缩和测角预测目标位置参数(x,y,z,δ^R,δ^I)。

其中，

分别是坐标X,Y,Z的误差。

(5b)奖励函数r的计算公式，其表达式如下：

其中，levels是给定一个目标位置，所有能够观测到目标的雷达节点数，即算法的搜索范围。Len(self.moves)对应的是每次搜索到的雷达节点组合的节点数，我们通过雷达节点数给出对应的奖励值，雷达节点数越少，奖励值越大，并在最后做一个归一化处理，使算法朝着雷达节点数越来越少的方向搜索。然后通过反向传播来改变对应树节点的累计奖励值，从而改变当前树节点的选择概率。

步骤6，反向传播(Backpropagation)：对此次从根节点至终止状态推演搜索中所有访问过的节点，修改节点属性：

根据叶子节点的Set集合，Set集合中所有节点的访问次数加1；所有节点的节点奖励值加上步骤(4)得到的奖励函数的计算结果；一次训练迭代结束。

步骤7，根据迭代次数num_sims重复步骤3到步骤6，直到训练迭代次数达到当前层数预设次数T＝1000时，根据UCB最大准则，选出当前层最好的子节点。

在每次访问一层之后，即访问完k(0<k<N)层时，从根节点开始逐层按UCB最大为选择标准，选择k个节点,若这几个节点满足性能要求，即是我们所需的节点遴选最优组合，节点遴选算法到此结束。

通过以下仿真实验对本发明效果作进一步验证说明。

(一)仿真条件：

本发明的仿真运行系统为Inter(R)Core(TM)i5-3570 CPU@3.40HGz，64位Windows操作系统，仿真软件采用MATLAB R(2013b)，Pycharm，辅助软件为BIGEMAP，用于获取节点坐标信息。

仿真参数设置如下表所示：

(二)仿真结果分析：

由图3和图4可以看出，本发明使用的蒙特卡洛树能够找到满足要求的最少节点组合,搜索到的节点数均为4。

通过以上分析可以得出，我们使用的节点遴选技术通过修改蒙特卡洛树的奖励函数，将节点的个数作为参数加入到奖励函数中，能很好地找到满足任务要求的最少节点组合，减少了发射和接收的数量以及硬件和计算成本，使雷达系统能够有效的分配资源，极大地优化系统参数，提高系统性能。

由图5和图6可以看出，本项目提出的面向雷达定位任务的智能化节点遴选技术，相对于传统算法(遗传算法、模拟退火)效率更高。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围；这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于强化学习的非固定节点数的网络化雷达智能节点遴选方法，其特征在于，包括以下步骤；

步骤1：确定输入参数；

步骤2：构建蒙特卡洛搜索树；

步骤5：计算确定步骤4得到的遴选方案的性能；

2.根据权利要求1所述的一种基于强化学习的非固定节点数的网络化雷达智能节点遴选方法，其特征在于，所述步骤1参数具体为：

3.根据权利要求1所述的一种基于强化学习的非固定节点数的网络化雷达智能节点遴选方法，其特征在于，所述步骤2中蒙特卡洛搜索树的节点属性包括：当前节点的访问次数n，n用于表示训练迭代过程中节点被访问过的次数,初始值为0；当前节点的奖励值r，奖励值越大，说明该节点对应的雷达节点对于本次执行的目标检测任务性能会更好，每个节点的初始奖励值为0；父节点用于反向传播向上遍历整棵树直到根节点；当前节点所包含子节点的Children集合；以及该节点对应的状态state，每个状态对应一个节点组合。

4.根据权利要求1所述的一种基于强化学习的非固定节点数的网络化雷达智能节点遴选方法，其特征在于，所述步骤3具体为：

(3b)如果当前节点没有到达终止状态，且当前节点的所有子节点均未被访问过，则从当前节点尚未访问过的子节点中随机选取一个节点作为未被选择过的雷达节点，进入步骤(3a)；

其中，置信值UCB的计算公式，其表达式为：

其中，n_i为节点i的访问次数，r_i为节点i的奖励值，而F为节点i的父节点已经被访问的总次数，C是可调整超参数(即人为设定的一个常量)；

5.根据权利要求1所述的一种基于强化学习的非固定节点数的网络化雷达智能节点遴选方法，其特征在于，所述步骤5利用评价函数CLRB计算一次遴选方案的性能，并根据评价函数量化设定一个奖励函数r，根据一次遴选方案计算出的评价函数CLRB越小，并且包含的雷达节点数越少则说明满足遴选方案性能越好，奖励函数值也越大；

(5a)评价函数采用克拉美罗下界CLRB，其表达式为：