CN113597008A

CN113597008A - 基于ddpg的无线定位网络的资源优化方法

Info

Publication number: CN113597008A
Application number: CN202110865555.2A
Authority: CN
Inventors: 杨盼; 向晨路; 张舜卿; 徐树公
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2021-11-02
Anticipated expiration: 2041-07-29
Also published as: CN113597008B

Abstract

一种基于DDPG的无线定位网络的资源优化方法，在离线阶段采用位置推理获得的节点之间的距离以及信道参数作为DDPG网络的状态空间，采用各个节点分配到的带宽和功率作为DDPG网络的动作空间，经收益设置和网络训练后，在在线阶段根据代理节点的当前状态信息通过DDPG网络得到最优的带宽和功率分配方案，实现资源分配。本发明利用代理节点配合协同定位，当无线定位网络的资源有限时，将有限的资源合理的分配给各个节点可以有效的提高室内定位的精度，在保证定位精度的同时能够显著减少在线定位阶段进行资源分配时所要消耗的时间。

Description

基于DDPG的无线定位网络的资源优化方法

技术领域

本发明涉及的是一种无线资源分配领域的技术，具体是一种基于深度确定性策略梯度(DDPG)的无线定位网络的资源优化方法，适用于LTE/NR等其他无线通信系统。

背景技术

现有无线定位网络采用的是非协同定位，它只允许位置已知的锚节点和位置未知的代理节点之间进行通信，使用TOA进行定位时一般需要代理节点至少和三种不同的锚节点进行测距来获得自身位置，要想获得较高的定位精度就要求锚节点部署的密度能足够大，这就不可避免的提高成本。并且当锚节点和代理节点之间的通信距离较大时，容易出现中断通信的问题，不能保证通信的连续性，从而降低定位精度。

现有技术有以均方误差为衡量定位精度的性能指标并采用强化学习实现资源分配，但这类技术在线测试速度慢，且随着目标节点个数增加时所要花费的时间也会相应的增加。

发明内容

本发明针对现有技术存在的上述不足，提出一种基于DDPG的无线定位网络的资源优化方法，在保证定位精度的同时能够显著减少在线定位阶段进行资源分配时所要消耗的时间。同时在传统的非协同定位网络的基础上提出了协同定位网络的资源优化方法，显现出协同定位较非协同定位的优势。

本发明是通过以下技术方案实现的：

本发明涉及一种基于DDPG的无线定位网络的资源优化方法，在离线阶段采用位置推理获得的节点之间的距离以及信道参数作为DDPG网络的状态空间，采用各个节点分配到的带宽和功率作为DDPG网络的动作空间，经收益设置和网络训练后，在在线阶段根据代理节点的当前状态信息通过DDPG网络得到最优的带宽和功率分配方案，实现资源分配。

所述的节点，包括无线定位网络中位置已知的锚节点以及需要定位的代理节点。

所述的DDPG网络包括：在线动作(Actor)网络、目标Actor网络、在线评价(Critic)网络、目标Critic网络，其中：在线Actor网络和目标Actor网络均包括：七个隐藏层，除最后一层隐藏层直接是线性输出，其余每一层隐藏层均采用线性整流函数(ReLU)作为激活函数，从第二个隐藏层开始，后续六个隐藏层分为结构相同的上下两部分：上半部分被训练用于带宽的分配，下半部分被训练用于功率的分配；在线Critic网络和目标Critic网络均包括五个隐藏层，除最后一层隐藏层直接是线性输出，其余每一层隐藏层均采用ReLU作为激活函数。

技术效果

本发明整体解决现有技术在实时定位时获得最优资源分配策略耗时较长的问题；与现有技术相比，本发明在线测试阶段，可以根据代理节点的初始位置估计在1ms左右的时间内得到优化的带宽和功率分配方案。

附图说明

图1为本发明流程图；

图2为实施例Actor网络的网络结构示意图；

图3为实施例Critic网络的网络结构示意图；

图4为实施例非协同定位的实验场景示意图；

图5为实施例协同定位的实验场景示意图；

图6为实施例DDPG训练的收益(非协同)示意图；

图7为实施例DDPG算法以及穷尽算法的性能图(非协同)示意图；

图8为实施例DDPG训练的收益(协同)示意图；

图9为DDPG算法的性能图(协同)示意图。

具体实施方式

如图1所示，为本实施例涉及一种基于DDPG的无线定位网络的资源优化方法，能够在尽可能短的时间内获得最优的分配方案以提高定位精度，具体包括以下步骤：

步骤1、获取测距信息，估计代理节点的位置，具体为：无线定位网络中各个节点根据带宽和功率的分配方案

测量自身和其他节点之间的距离，再利用TOA定位方法来确定代理节点的具体位置，基于初始的分配方案是均匀分配，每个节点分配到的资源相同，各个节点的带宽

功率

其中：i∈{1，2，…，N_a+N_b}，该无线定位网络中包括N_a个代理节点和N_b个锚节点，网络可以使用的总带宽和总功率分别为B_total，P_total。

步骤2、采用节点之间的距离与信道参数作为DDPG网络的状态空间，其中：节点之间的距离信息通过测距操作获得，信道参数通过信道估计获得，具体包括：基于平均分配带宽和功率的方案进行测距获得节点之间的距离信息，按照代理节点与某一锚节点之间的远近对代理节点进行排序，再将这些代理节点和各个节点之间的距离和信道参数作为状态空间，以极大的减小网络训练的开销。

所述的DDPG网络中：协同定位网络中，在线Actor网络以步骤2中大小为(N_a+N_b)*2N_a的规定状态s_t作为输入，输出动作a_t，并获取此刻的收益r_t，同时转变为下一个状态s_t+1，由于本实施例场景中状态之间并没有转换，所以S_t+1＝S_t，然后再将(s_t，a_t，r_t，S_t+1)作为一组训练数据存放到经验池中。而在协同定位网络中，由于代理节点之间无法进行通信，在线Actor网络的状态会减小为N_b*2N_a

从经验池中随机采样N组(s_k，a_k，r_k，s_k+1)训练数据用于训练DDPG中的四个网络，其中1≤k≤N，则目标Actor网络由状态s_k+1输出动作a_k+1、目标Critic网络根据状态s_k+1、目标Actor网络输出的a_k+1得到对应的评估函数Q′(s_k+1，a_k+1|θ^Q′)、在线Critic网络根据状态和动作(s_k，a_k)输出对应的评价函数Q(s_k，a_k|θ^Q)，其中在线Actor网络和在线Critic网络的网络参数分别是根据抽样策略梯度

和损失函数梯度

进行更新的：

其中：θ^Q和θ^μ分别为网络参数。

所述的网络参数通过以下方式进行软更新：θ^Q←τθ^Q+(1-τ)θ^Q，θ^μ←τθ^μ+(1-τ)θ^μ′，其中：τ为在线网络参数的权重。

如图2所示，所述的在线Actor网络和目标Actor网络均包括：七个隐藏层，除最后一层隐藏层直接是线性输出，其余每一层隐藏层均采用线性整流函数(ReLU)作为激活函数，从第二个隐藏层开始，后续六个隐藏层分为结构相同的上下两部分：上半部分被训练用于带宽的分配，下半部分被训练用于功率的分配，每个隐藏层的输出分别进行softmax操作，最终得到归一化的带宽分配和功率分配，在协同定位网络中在线Actor网络输出的动作大小为(N_a+N_b)*2，而在非协同定位网络中在线Actor网络输出的动作大小为N_b*2

如图3所示，所述的Critic网络和Critic目标网络均包括五个隐藏层，除最后一层隐藏层直接是线性输出，其余每一层隐藏层均采用ReLU作为激活函数。

表1网络配置和参数的概述

步骤3、通过对协同定位网络的等价费舍尔信息矩阵(equivalent Fisherinformation matrix，EFIM)求逆取迹，可以得到无线定位网络中代理节点的全局平方定位误差界限(squared position error bound，SPEB)，具体为：

能够使得该SPEB最小的分配方案，即最优的资源分配方案，其中：每个代理节点的SPEB为：

是p_i的估计值，J_e(p_i)是通过测量获得的代理节点p_i的EFIM，具体为：

代理节点i从所有的N_b个锚节点处获得的测距信息为

从代理节点k处获得的测距信息为

其中

为从节点i到节点k的角度值，测距信息密度

ξ_ik为代理节点i和节点k之间测距信道参数，d_ik为代理节点i和节点k之间距离，P_k和B_k分别为节点k分配到的功率和带宽资源，当协同定位网络的全局EFIM中的C_ik＝0便可得到非协同定位网络的EFIM，再对非协同定位网络的EFIM求逆取迹便可得到整个网络的SPEB。

步骤4、设置带宽和功率作为DDPG网络的动作空间，将强化学习的收益设置为：

其中：a和b是常数，speb_now为此刻的资源分配方案对应的SPEB，speb_uniform为均匀分配方案对应的SPEB，P_max则为功率分配方案中最大的功率值。

步骤5、生成网络训练样本并对DDPG网络进行训练：随机采集无线定位网络中

个代理节点的初始位置信息形成训练集，包括：代理节点的集合为

锚节点的位置为p_anchor，采集的第i个节点的初始位置为p_i。例如：当训练具有N_a个代理节点的场景时，从采集自

个节点中随机选择N_a节点组成一个场景，为了使得训练的模型具有泛化性，需要产生多个这样的场景，并且随着N_a个数的增加，训练阶段需要的场景个数也会随之增加，这些场景中N_a个代理节点和所有节点之间的距离以及信道参数即网络训练样本。

表2DDPG网络的训练参数：

步骤6、在线测试阶段，代理节点通过均匀分配的方案获得代理节点和其他节点之间的距离信息，再通过TOA定位方法估算出代理节点的位置信息。根据代理节点的位置信息可以获得步骤2中提到的状态空间，将获得状态空间输入到训练后的DDPG网络，得到最优的资源分配方案。

所述的资源分配方案，进一步用于测距以得到精确位置估计。

本实施例在一个9*9的正方形区域实现场景下设置4个锚节点，它们分别位于[0,0]，[0,9]，[9,9]，[9,0]，代理节点随机的分布在该正方形区域内，如图4、图5所示，它们分别为非协同定位和协同定位的实验场景，在协同定位的场景中代理节点之间是可以进行测距操作的，在非协同定位的场景中是不可以的。在该实验场景中可以用来分配的总带宽B_total以及总功率P_total经过归一化之后都被设为1，再由于硬件的限制，单个节点能够分配到的功率也是有上限的，因此要求单个节点能分配到的功率经过归一化之后应该小于0.4。路径损失系数α被设置为2。本实施例中代理节点和其他各个节点之间的距离、角度以及信道参数均可通过初始的测距以及信道估计获得，在仿真时仅考虑自由空间路径损失的影响，因此将信道参数ζ设为100。

本实施例进一步通过python仿真，在非协同定位的离线阶段，按步骤3进行网络训练，如图6所示，以场景中只存在两个代理节点为例，可以看到收益在稳定的上升；在非协同定位的在线资源分配前，需要知道的是代理节点和锚节点之间的距离、角度以及信道参数信息。在利用python仿真时，由于角度以及信道参数都和距离相关，因此只需要将代理节点和锚节点之间距离信息组成一个长度为4×2向量作为模型的输入，模型的输出则是一个长度为4×2向量，代表着四个锚节点的带宽以及功率的分配方案。本实施例中进一步考虑场景中存在多个代理节点的情况，用于对比。

本方法在非协同场景下得到的结果如图7所示，通过随机生成多个场景输入到网络中可以得到对应场景的分配方案，再将DDPG网络输出的分配方案和平均分配方案的SPEB做对比，得到对应的提升倍数，最后再选取所以场景提升倍数的中位数来表征本方法的性能。如图7所示，本方法能够达到穷尽算法的60％左右的性能。

如图8所示，在协同定位的离线阶段，按照步骤3进行网络训练，以场景中只存在两个代理节点为例，可以看到收益在稳定的上升；在协同定位的在线测试阶段，与非协同定位不同的是，代理节点之间也能够进行测距操作。当代理节点和锚节点之间的信道状况较差时，为进一步的降低总的SPEB，应该考虑将部分的资源分配给代理节点。因此，模型的输入向量除代理节点和锚节点之间距离的信息，还需要加上代理节点之间距离的信息，输入向量的长度变为(4+2)×2。同样模型的输出也要加上对代理节点的分配情况，因此输出的向量长度变为(4+2)×2。

本方法在协同场景下得到的结果如图9所示，通过随机生成多个场景输入到网络中可以得到对应场景的分配方案，再将DDPG网络输出的分配方案和平均分配方案的SPEB做对比，得到对应的提升倍数，最后再选取所有场景提升倍数的中位数来表征本方法的性能。在协同场景下的穷尽算法所需的时间太长，在协同场景下是难以实现的，因此也就不用穷尽算法来和DDPG算法进行性能上的比较，可以看出协同的方法的性能要比非协同的方法的性能要好。

与现有技术相比，本方法在进行网络训练时，只需要按照资源平均分配的方案采集对应点和其他节点的距离以及信道参数信息，再将采集的信息按照设定的收益规则放入网络中训练即可，数据采集非常的方便。不同于利用凸优化算法来获得最优分配的技术，在线测试阶段，本方法只需要将节点的状态信息输入训练好的神经网络，即可立即获得分配方案，进而获得更加精准的位置信息。计算复杂度低，计算速度快，代理节点可以获得实时的定位服务。如表3所示。

表3穷尽算法和DDPG算法求解速度对比(单位：秒)

在实际应用时，本方法只需要提前训练出用于某个特定室内场景的模型，便可以直接依据代理节点的初始位置使用该模型得到最优的资源分配方案，进而提升代理节点的位置准确度。由此可见实现的成本是非常低的，且适用于大多数的室内场景。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于DDPG的无线定位网络的资源优化方法，其特征在于，在离线阶段采用位置推理获得的节点之间的距离以及信道参数作为DDPG网络的状态空间，采用各个节点分配到的带宽和功率作为DDPG网络的动作空间，经收益设置和网络训练后，在在线阶段根据代理节点的当前状态信息通过DDPG网络得到最优的带宽和功率分配方案，实现资源分配；

所述的DDPG网络包括：在线动作(Actor)网络、目标Actor网络、在线评价(Critic)网络、目标Critic网络，其中：在线Actor网络和目标Actor网络均包括：七个隐藏层，除最后一层隐藏层直接是线性输出，其余每一层隐藏层均采用ReLU作为激活函数，从第二个隐藏层开始，后续六个隐藏层分为结构相同的上下两部分：上半部分被训练用于带宽的分配，下半部分被训练用于功率的分配；在线Critic网络和目标Critic网络均包括五个隐藏层，除最后一层隐藏层直接是线性输出，其余每一层隐藏层均采用ReLU作为激活函数。

2.根据权利要求1所述的基于DDPG的无线定位网络的资源优化方法，其特征是，所述的节点之间的距离，通过以下方式得到：无线定位网络中各个节点根据带宽和功率的分配方案

功率

3.根据权利要求1所述的基于DDPG的无线定位网络的资源优化方法，其特征是，所述的DDPG网络的状态空间，采用节点之间的距离与信道参数作为DDPG网络的状态空间，其中：节点之间的距离信息通过测距操作获得，信道参数通过信道估计获得，具体包括：基于平均分配带宽和功率的方案进行测距获得节点之间的距离信息，按照代理节点与某一锚节点之间的远近对代理节点进行排序，再将这些代理节点和锚节点之间的距离和信道参数作为状态空间，以极大的减小网络训练的开销。

4.根据权利要求1所述的基于DDPG的无线定位网络的资源优化方法，其特征是，所述的在线Actor网络以规定状态s_t作为输入，输出动作a_t，并获取此刻的收益r_t，同时转变为下一个状态s_t+1，再将(s_t，a_t，r_t，s_t+1)作为一组训练数据存放到经验池中；

和损失函数梯度

进行更新的：

目标网络参数θ^Q′和θ^μ′是通过软更新的方式分别根据在线网络的网络参数θ^Q和θ^μ来更新的：θ^Q′←τθ^Q+(1-τ)θ^Q′，θ^μ′←τθ^μ+(1-τ)θ^μ。

5.根据权利要求1所述的基于DDPG的无线定位网络的资源优化方法，其特征是，所述的收益设置是指：

其中：a和b是常数，speb_now为此刻的资源分配方案对应的SPEB，speb_uniform为均匀分配方案对应的SPEB，P_max则为功率分配方案中最大的功率值；

通过对协同定位网络的EFIM求逆取迹，得到资源分配方案对应的SPEB，具体为：

其中：每个代理节点的SPEB为：

代理节点i从所有的N_b个锚节点处获得的测距信息

从代理节点k处获得的测距信息

其中

为从节点i到节点k的角度值，测距信息密度

ξ_ik为代理节点i和节点k之间测距信道参数，d_ik为代理节点i和节点k之间距离，P_k和B_k分别为节点k分配到的功率和带宽资源，当协同定位网络的EFIM中的C_ik＝0便可得到非协同定位网络的EFIM，再对非协同定位网络的EFIM求逆取迹便可得到整个网络的SPEB。

6.根据权利要求1或4所述的基于DDPG的无线定位网络的资源优化方法，其特征是，所述的网络训练，随机采集无线定位网络中

锚节点的位置为p_anchor，采集的第i个节点的初始位置为p_i。

7.根据权利要求1所述的基于DDPG的无线定位网络的资源优化方法，其特征是，所述的最优的带宽和功率分配方案是指：代理节点通过均匀分配的方案获得代理节点和其他节点之间的距离信息，再通过TOA定位方法估算出代理节点的位置信息；根据代理节点的位置信息获得状态空间，将获得状态空间输入到训练后的DDPG网络，得到最优的资源分配方案。