一种无线定位网络资源优化调度方法
技术领域
本发明涉及无线通信技术,更具体地,涉及一种无线定位网络资源优化调度方法。
背景技术
设计定位网络的目的往往是最大化定位网络的精度,除了传统的增加定位参考节点投放,定位节点之间传送信号携带的信息量同样影响无线定位网络的精度。由于搭建实际定位网络常受到资金限制以及系统模型简化应用的要求,那么资源受限的系统提升精度的关键点就在于优化功率带宽等资源的分配。
以时钟同步的到达时间(Time of Arrival,TOA)测距技术为基础,非协作式定位网络以及协作式定位网络的定位精度下限:直接位置误差下界(Direct Position ErrorLower Bound,DRLB)和克拉美罗下界(Cramer Rao Lower Bound,CRLB)已被推导出,现阶段已有大量以定位精度下界为性能指标进行无线定位网络资源分配的研究(如参见[1]ShenY,Wymeersch H,Win M Z.Fundamental Limits of Wideband Localization—Part II:Cooperative Networks[J].2010,56(10):4981-5000)。定位网络资源分配领域很多研究都着眼于纯功率因素,部分研究考虑到带宽也是影响无线定位网络定位准确性的要素之一,采取单项资源优化调度的方式,验证了纯带宽优化可以获得比纯功率优化更好的定位精度,这也与CRLB的表达式形式相契合(如参见[2]Garcia N,Haimovich A M,Coulon M,etal.Resource Allocation in MIMO Radar With Multiple Targets for Non-CoherentLocalization[J].IEEE Transactions on Signal Processing,2013,62(10):2656-2666)。
目前基于无线定位网络资源分配的研究都是针对CRLB进行资源优化分配,即从闭合形式的理论下限出发。然而定位网络CRLB常常难以取到,特别是在低信噪比(Signal-Noise Ratio,SNR)情况下,直接以CRLB为性能指标进行资源优化分配会造成较大误差,仅具备一定的理论指导意义。以更具实际意义的定位算法的均方根误差(Root Mean SquareError,RMSE)为性能指标来进行资源优化分配的研究很匮乏。另外,由于均方根误差非闭合形式的特殊性,非参数的优化方式求解也是具有挑战性的。
另外,在对非参数的优化方式求解时,状态动作空间维度会随着目标节点数量增多呈指数增长,而计算机内存通常是有限的,故可能存在无法遍历整体空间的问题,同时也会带来巨大的时间消耗。另外,一旦无线定位网络拓扑发生改变,原训练模型无法应用,重新训练会带来巨大的时间消耗。
因此,为了提升资源受限的无线定位网络精度,延长无线定位节点使用寿命,期望提供一种改进的无线定位网络资源优化调度方法。
发明内容
提供本发明内容以便以简化形式介绍将在以下具体实施方式中进一步的描述一些概念。本发明内容并非旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
本发明公开了一种无线定位网络资源优化调度方法。该方法首先以RMSE为性能指标搭建资源优化分配框架,由于RMSE具有非闭合形式的特殊性,无法应用传统CRLB策略方法求解,因此利用深度强化学习算法来进行求解。另外,由于资源选择动作离散化导致状态数过多,采用聚类算法对状态集进行等级划分。除此以外,由于定位网络环境的变化以及实践过程中测量误差的存在,给出了基于迁移学习的样本迁移方案以加速新环境的DRL模型学习速率,同时迁移神经网络参数以加速神经网络的收敛,从而在保证定位精度的同时有效节约了时间消耗。
根据本发明的一个方面,提供了一种无线定位网络资源优化调度方法,所述方法包括:
确定无线定位网络的拓扑图,其中在所述无线定位网络中固定锚节点集合,确定待定位的目标节点集合,并且均匀选取训练样本节点集合;
以均方根误差RMSE为定位精度度量,基于深度强化学习来训练资源优化调度模型以得到针对所述样本节点集合中的每个样本节点的最优资源分配方案,其中根据所述RMSE最小化来设置奖励以指导所述锚节点集合选择不同等级资源;以及
基于所述目标节点集合所处的网络环境来获取针对所述目标节点集合的资源分配方案。
根据本发明的一个实施例,所述资源优化调度模型是通过选取最小化均方根误差RMSE作为目标函数来构建的,其中,
针对所述目标函数的约束条件为:所述锚节点集合中的每个锚节点具有传输带宽和发射功率的上限;所述锚节点集合中的所有锚节点的总发射功率不能超过阈值;以及所述锚节点集合中的每个锚节点发射信号的频带不能重叠。
根据本发明的进一步实施例,基于深度强化学习来训练资源优化调度模型以得到针对所述样本节点集合中的每个样本节点的最优资源分配方案进一步包括:
定义锚节点集合的动作、状态、奖励三要素,其中根据所述RMSE最小化来设置奖励以指导所述锚节点集合选择不同等级的功率和带宽资源;
针对所述样本节点集合中的每个样本节点,将包括当前状态、当前动作、当前奖励和下一状态的多个四元组存储到记忆池中以供训练;以及
从所述记忆池中随机选取一批四元组进行训练,其中使用神经网络Q(s,a;w)≈Q*(s,a)作为非线性近似器并且进行Q值拟合,直到模型收敛。
根据本发明的进一步实施例,定义锚节点集合的状态进一步包括:
采用聚类方法来对所述锚节点集合的定位精度状态进行等级划分。
根据本发明的进一步实施例,定义锚节点集合的奖励进一步包括:
采用设置权重系数的方式,基于资源利用比和均方误差MSE来设置奖励函数,以用于指导所述锚节点集合选择不同等级的功率和带宽资源。
根据本发明的进一步实施例,基于所述目标节点集合所处的网络环境来获取针对所述目标节点集合的资源分配方案进一步包括:
确定所述目标节点集合所处的网络环境与训练环境是否一致;
若一致,则基于针对所述样本节点集合中的每个样本节点的最优资源分配方案,利用k邻近方法来获取针对所述目标节点集合的资源分配方案;
若不一致,则利用迁移学习来重新获取新拓扑的样本资源分配方案以得到针对所述目标节点集合的资源分配方案。
根据本发明的进一步实施例,利用迁移学习来重新获取新拓扑的样本资源分配方案进一步包括:
将锚节点集合与训练环境进行交互得到的训练样本节点集合迁移到所述目标节点所处的网络环境中;以及
重用训练好的估值网络权重参数来进行学习以得到新拓扑的样本资源分配方案。
根据本发明的另一方面,提供了一种无线定位网络资源优化调度系统,所述系统包括:
网络拓扑确定模块,所述网络拓扑确定模块被配置成确定无线定位网络的拓扑图,其中在所述无线定位网络中固定锚节点集合,确定待定位的目标节点集合,并且均匀选取训练样本节点集合;
资源优化调度模型训练模块,所述资源优化调度模型训练模块被配置成以均方根误差RMSE为定位精度度量,基于深度强化学习来训练资源优化调度模型以得到针对所述样本节点集合中的每个样本节点的最优资源分配方案,其中根据所述RMSE最小化来设置奖励以指导所述锚节点集合选择不同等级资源;以及
资源分配方案获取模块,所述资源分配方案获取模块被配置成基于所述目标节点集合所处的网络环境来获取针对所述目标节点集合的资源分配方案。
根据本发明的一个实施例,所述资源优化调度模型是通过选取最小化均方根误差RMSE作为目标函数来构建的,其中,
针对所述目标函数的约束条件为:所述锚节点集合中的每个锚节点具有传输带宽和发射功率的上限;所述锚节点集合中的所有锚节点的总发射功率不能超过阈值;以及所述锚节点集合中的每个锚节点发射信号的频带不能重叠。
根据本发明的进一步实施例,基于深度强化学习来训练资源优化调度模型以得到针对所述样本节点集合中的每个样本节点的最优资源分配方案进一步包括:
定义锚节点集合的动作、状态、奖励三要素,其中根据所述RMSE最小化来设置奖励以指导所述锚节点集合选择不同等级的功率和带宽资源;
针对所述样本节点集合中的每个样本节点,将包括当前状态、当前动作、当前奖励和下一状态的多个四元组存储到记忆池中以供训练;以及
从所述记忆池中随机选取一批四元组进行训练,其中使用神经网络Q(s,a;w)≈Q*(s,a)作为非线性近似器并且进行Q值拟合,直到模型收敛。
与现有技术中的方案相比,本发明所提供的无线定位网络资源优化调度方法至少具有以下优点:
(1)以RMSE为衡量定位精度的性能指标,联合优化分配功率和带宽资源,基于DRL算法搭建了资源优化分配框架。相较于以CRLB为定位网络性能指标的资源优化框架,在相同场景下有效提升了定位网络精度;
(2)利用深度强化学习改善了基于Q-learning模型进行资源分配所带来的状态动作表格无法遍历的问题;以及
(3)针对锚节点位置存在偏差的实际场景,结合迁移学习的方法进行样本迁移,从而在保证定位精度的同时有效节省了重新训练样本的时间消耗,并且能够适应动态性的定位网络变化。
通过阅读下面的详细描述并参考相关联的附图,这些及其他特点和优点将变得显而易见。应该理解,前面的概括说明和下面的详细描述只是说明性的,不会对所要求保护的各方面形成限制。
附图说明
为了能详细地理解本发明的上述特征所用的方式,可以参照各实施例来对以上简要概述的内容进行更具体的描述,其中一些方面在附图中示出。然而应该注意,附图仅示出了本发明的某些典型方面,故不应被认为限定其范围,因为该描述可以允许有其它等同有效的方面。
图1示出了根据本发明的一个实施例的无线定位网络资源优化调度系统的示例架构图。
图2示出了根据本发明的一个实施例的无线定位网络资源优化调度方法的整体流程图。
图3示出了根据本发明的一个实施例的在获取目标节点集合的资源分配方案时所利用的邻近算法的示意图。
具体实施方式
下面结合附图详细描述本发明,本发明的特点将在以下的具体描述中得到进一步的显现。
图1是根据本发明的一个实施例的无线定位网络资源优化调度系统100的示例架构图。如图1中所示,本发明的无线定位网络资源优化调度系统100包括:网络拓扑确定模块101、资源优化调度模型训练模块102和资源分配方案获取模块103。
网络拓扑确定模块101可被配置成确定需要进行资源分配的无线定位网络拓扑,其中在该无线定位网络拓扑中包括节点位置已知的锚节点集合,先验已知的目标节点集合。在一些情形中,锚节点可基于时钟异步方式向目标节点发射信号,以频分复用方法与目标节点进行测距。进一步地,网络拓扑确定模块101可基于固定锚节点位置的定位网络拓扑图,均匀撒播节点作为训练样本节点集合。进一步地,网络拓扑确定模块101可依据测距设备所读取的锚节点集合与样本节点集合之间的测距值,构建测距链路矩阵,利用非线性最小二乘算法得到样本节点集合中的每个样本节点的位置估计。
资源优化调度模型训练模块102可被配置成选取最小化定位精度误差RMSE作为目标函数,构建资源优化调度模型。针对该目标函数的约束条件为:考虑传感器节点的限制,每个锚节点都有传输带宽和发射功率的上限;为避免对周围无线网络的干扰,所有锚节点的总发射功率不能超过阈值;每个锚节点发射信号的频带不能重叠。进一步地,资源优化调度模型训练模块102可利用深度强化学习(DRL)来实现资源分配算法。具体而言,资源优化调度模型训练模块102可定义锚节点集合的动作、状态、奖励三要素,根据目标函数最小化来设置奖励以指导锚节点集合对于不同等级资源(例如,功率和带宽资源)进行选择,以得到针对样本节点集合中的每个样本节点的最优资源分配策略。
资源分配方案获取模块103可被配置成判断待定位的目标节点集合所处网络环境与样本节点集合的训练环境是否一致。若一致,则可结合例如k-邻近算法来确定针对目标节点集合的资源分配方案。若不一致,则可结合例如迁移学习的方法来重新获取新拓扑的样本资源分配方案,从而避免了重新训练DRL模型带来的时间消耗。
本领域技术人员能够理解,本发明的系统及其各模块既可以以硬件形式实现,也可以以软件形式实现,并且各模块可以任意合适的方式合并或组合。
图2是根据本发明的一个实施例的无线定位网络资源优化调度方法200的整体流程图。方法200主要以均方根误差(RMSE)为目标函数进行深度强化学习(DRL)模型搭建和目标节点资源分配方案的回归获取。
方法200包括两个阶段,分别为训练阶段和回归阶段。在训练阶段期间(步骤S1-S4),可确定定位网络拓扑,获取训练样本,并且建立及求解资源优化调度模型。在回归阶段期间(步骤S5),可根据目标节点环境分别选取不同的回归方案。方法200的具体步骤如下:
步骤S1:确定无线定位网络的拓扑图。在二维定位网络中存在Nb个位置已知的锚节点,Na个先验知识有限的目标节点,其中锚节点集合和目标节点集合分别表示为Nb={1,2,…,Nb},Na={1,2,…,Na}。在一些情形中,锚节点可基于时钟异步的方式向目标节点发射信号,以频分复用的方式与目标节点进行测距。
步骤S2:基于固定锚节点位置的定位网络拓扑图,均匀撒播Ns个节点作为训练样本节点集合,其中该训练样本节点集合被表示为Ns={1,2,…,Ns}。随后,资源优化调度系统可依据测距设备所读取的锚节点集合与样本节点集合之间的测距值,构建测距链路矩阵,利用非线性最小二乘算法得到样本节点集合中的每个样本节点的位置估计。具体计算过程如下:
首先,通过下式1得到样本节点集合中的样本节点k与锚节点集合中的锚节点j之间的距离估计,即:
其中,c为自由空间光速,
为时间估计,d
kj为节点之间的真实距离,w
kj为高斯测距噪声,即
其中测距方差如下式2所示:
其中,P
kj为节点之间的传输功率,β
kj为节点之间的传输带宽,SNR
kj为节点间信号的信噪比,ξ
kj为信道系数,其中
其中N
0为噪声功率密度谱。
随后,依据测距设备所读取的锚节点集合与样本节点集合之间的测距估计值,构建Nb×Ns测距链路矩阵R,如下式3所示:
随后,利用非线性最小二乘算法得到样本节点k的位置估计,如下式4所示:
其中,
为节点k的位置估计,r
k和d
k分别为测距矢量和真实距离矢量,其中
节点k的定位准确性通常采用均方误差MSE来衡量,该指标受CRLB的限制,如下式5所示:
其中,p
k为节点k的真实位置,J
e(p
k)为等效费舍尔信息矩阵(Equal FisherInformation Matrix,EFIM),M(p
k)为p
k的定位误差,其指示节点k的定位准确性,P(p
k)为p
k的克拉美罗下界,
表示J
e(p
k)的逆矩阵,tr{}表示矩阵的迹。
步骤S3:选取最小化定位精度误差RMSE作为目标函数,即依据root(M(pk))来构建资源优化调度模型,以用于优化所有锚节点之间的功率和带宽分配。目标函数如下式6所示:
针对上述目标函数的约束条件如下式7-9所示:
其中,式6中的目标函数是使样本节点的定位误差M(pk)最小化,式7和8中的约束条件表明,由于硬件设计,每个锚节点都具有传输带宽β0和功率P0的上限,式9中给出了总的发射功率约束,式10中保证发射信号的频带不允许重叠。
步骤S4:利用深度强化学习(DRL)来训练资源优化调度模型。具体而言,首先定义DRL框架的状态,动作和奖励三个要素。在一些情形中,在定义DRL框架的定位精度状态时,可结合定位精度区间(ρ,CRLB]使用聚类策略(例如,kmeans聚类)来初步划分状态,其中ρ为系统定义的定位精度阈值。随后,可根据目标函数root(M(pk))最小化来设置奖励以指导锚节点集合对于不同等级资源(例如,功率和带宽资源)进行选择。在一些情形中,可以采用设置权重系数的方式来将多目标问题转化成单目标问题并将其设置为奖励函数,如下式11所示:
R=C0-τmmi+τrδri (11)
其中,i对应于固定拓扑每次对对资源选择的训练,权值δ用于将资源利用比ri和均方误差mi统一到一个量级,τm和τr分别表示MSE和资源利用比所占的权重,C0为常量,起保证奖励值为正数的作用。
利用DRL来训练资源优化调度模型的具体算法流程如下:
(1)首先进行初始化设置,具体包括:定义锚节点位置为pAnchor,第s个样本节点位置表示为ps,s∈Ns;设置信道系数ξsj,j∈Nb,功率、带宽的离散步长分别为ΔP、Δβ;定义锚节点的动作为A(pAnchor,ps),定义训练精度的5个状态为S0-S4,依次为差、较差、一般、较好、很好;设置记忆池(Memory),以随机权重初始化动作价值函数,以0权重初始化目标动作价值函数Q。
(2)在训练过程期间,针对训练库中每个样本节点的每次训练进行如下操作:
1、首先输入初始状态S0;
2、随后从动作集中选择针对所有锚节点的一组资源分配动作,动作策略(如下式12所示)利用贪心算法求解,其中ε为“探索”的概率,取值范围[0,1]:
其中π表示存在1-ε的概率选取当前网络所预测的最大Q值对应的资源分配动作(即在当前状态下选取最优动作),存在ε的概率随机选择资源分配动作;
3、随后根据当前t时刻的资源分配方案,执行所选取的资源分配动作At,并且采用上述奖励函数R(如式11所示)来计算得到回报值Rt,更新下一时刻(即t+1时刻)的状态St+1,将所得到的四元组(St,At,Rt,St+1)存储到记忆池中,重复该步骤以将一批四元组存储到记忆池中以供训练;
4、从记忆池中随机选取一定数量的四元组来训练网络。由于状态的转移是连续的,如果直接按顺序取一批四元组作为训练集,则容易过拟合,因为训练样本间并非是独立的,因此可以从记忆池中随机选取少量四元组来进行训练,以保证训练样本是独立同分布的,并且同时加快了训练速度。在一些情形中,在训练期间可以使用神经网络Q(s,a;w)≈Q*(s,a)作为非线性近似器,随后利用网络预测的Q值来拟合通过Bellman公式(13)计算得到的Q值。
其中α是学习率,γ∈[0,1]是折扣因子,s、a分别为状态动作函数,a′为下一动作,s′为执行完动作a转移到的下一状态,r为状态s下采取动作a得到的环境的奖励值。
(3)循环训练步骤(2),在达到所设置的收敛次数上限时循环结束,输出针对每个训练样本节点的最优资源分配方案。
步骤S5:基于目标节点集合所处的网络环境来获取针对目标节点集合的资源分配方案。在一些情形中,可确定训练样本节点集合所处的网络环境与待定位的目标节点集合所处的网络环境是否一致。如果训练样本节点集合所处的网络环境与待定位的目标节点集合所处的网络环境一致(即待定位的目标节点集合也处于训练环境),则可基于训练好的样本节点资源分配方案来获取针对待定位的目标节点集合的资源分配方案。在一些情形中,可以采用k邻近算法(KNN)来回归获取针对待定位的目标节点集合的资源分配方案。k邻近算法的示意图如图3所示,在图3中,当前节点离已训练节点3、2、1的距离依次递增,例如在k=2的情况下,与当前节点距离最小的k(即,2)个节点为已训练节点2和3,随后可基于针对已训练节点2和3的资源分配方案来回归获取针对待定位的当前节点的资源分配方案。如果训练样本节点集合所处的网络环境与待定位的目标节点集合所处的网络环境不一致,则可利用迁移学习的方法来重新获取新拓扑的样本资源分配方案,以避免重新训练DRL模型。迁移学习对无线定位网络的资源分配而言是一个全新的学习领域。由于锚节点不断地与环境交互并做出决策,这个过程十分耗时,深度神经网络的强大特征表示和函数近似也常常伴随着高成本的计算,由此本文利用迁移学习来加速学习进程。首先,迁移学习将源基站(锚节点)与环境进行交互得到的训练样本迁移到目标基站(锚节点)上,从而减少了训练时间,同时避免了目标基站(锚节点)由于样本不足导致的过拟合问题,其次,通过重用已经训练好的估值网络权重参数,进一步加速算法的收敛性。对比于标准的DQN以随机的搜寻方法开始学习,使用迁移学习可以使学习的起点更接近于目标基站吞吐量最大化的最终解决方案。
以上所已经描述的内容包括所要求保护主题的各方面的示例。当然,出于描绘所要求保护主题的目的而描述每一个可以想到的组件或方法的组合是不可能的,但本领域内的普通技术人员应该认识到,所要求保护主题的许多进一步的组合和排列都是可能的。从而,所公开的主题旨在涵盖落入所附权利要求书的精神和范围内的所有这样的变更、修改和变化。