CN113853019A - 一种无线定位网络资源优化调度方法 - Google Patents

一种无线定位网络资源优化调度方法 Download PDF

Info

Publication number
CN113853019A
CN113853019A CN202110968353.0A CN202110968353A CN113853019A CN 113853019 A CN113853019 A CN 113853019A CN 202110968353 A CN202110968353 A CN 202110968353A CN 113853019 A CN113853019 A CN 113853019A
Authority
CN
China
Prior art keywords
nodes
node
sample
anchor
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110968353.0A
Other languages
English (en)
Inventor
杨程
刘世卫
宫敏
成国强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianyi Shilian Technology Co ltd
Original Assignee
Tianyi Digital Life Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianyi Digital Life Technology Co Ltd filed Critical Tianyi Digital Life Technology Co Ltd
Priority to CN202110968353.0A priority Critical patent/CN113853019A/zh
Publication of CN113853019A publication Critical patent/CN113853019A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/53Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W64/00Locating users or terminals or network equipment for network management purposes, e.g. mobility management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/56Allocation or scheduling criteria for wireless resources based on priority criteria
    • H04W72/563Allocation or scheduling criteria for wireless resources based on priority criteria of the wireless resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提供了一种无线定位网络资源优化调度方法。方法包括:确定无线定位网络的拓扑图,其中在所述无线定位网络中固定锚节点集合,确定待定位的目标节点集合,并且均匀选取训练样本节点集合;以均方根误差RMSE为定位精度度量,基于深度强化学习来训练资源优化调度模型以得到针对所述样本节点集合中的每个样本节点的最优资源分配方案,其中根据所述RMSE最小化来设置奖励以指导所述锚节点集合选择不同等级资源;以及基于所述目标节点集合所处的网络环境来获取针对所述目标节点集合的资源分配方案。

Description

一种无线定位网络资源优化调度方法
技术领域
本发明涉及无线通信技术,更具体地,涉及一种无线定位网络资源优化调度方法。
背景技术
设计定位网络的目的往往是最大化定位网络的精度,除了传统的增加定位参考节点投放,定位节点之间传送信号携带的信息量同样影响无线定位网络的精度。由于搭建实际定位网络常受到资金限制以及系统模型简化应用的要求,那么资源受限的系统提升精度的关键点就在于优化功率带宽等资源的分配。
以时钟同步的到达时间(Time of Arrival,TOA)测距技术为基础,非协作式定位网络以及协作式定位网络的定位精度下限:直接位置误差下界(Direct Position ErrorLower Bound,DRLB)和克拉美罗下界(Cramer Rao Lower Bound,CRLB)已被推导出,现阶段已有大量以定位精度下界为性能指标进行无线定位网络资源分配的研究(如参见[1]ShenY,Wymeersch H,Win M Z.Fundamental Limits of Wideband Localization—Part II:Cooperative Networks[J].2010,56(10):4981-5000)。定位网络资源分配领域很多研究都着眼于纯功率因素,部分研究考虑到带宽也是影响无线定位网络定位准确性的要素之一,采取单项资源优化调度的方式,验证了纯带宽优化可以获得比纯功率优化更好的定位精度,这也与CRLB的表达式形式相契合(如参见[2]Garcia N,Haimovich A M,Coulon M,etal.Resource Allocation in MIMO Radar With Multiple Targets for Non-CoherentLocalization[J].IEEE Transactions on Signal Processing,2013,62(10):2656-2666)。
目前基于无线定位网络资源分配的研究都是针对CRLB进行资源优化分配,即从闭合形式的理论下限出发。然而定位网络CRLB常常难以取到,特别是在低信噪比(Signal-Noise Ratio,SNR)情况下,直接以CRLB为性能指标进行资源优化分配会造成较大误差,仅具备一定的理论指导意义。以更具实际意义的定位算法的均方根误差(Root Mean SquareError,RMSE)为性能指标来进行资源优化分配的研究很匮乏。另外,由于均方根误差非闭合形式的特殊性,非参数的优化方式求解也是具有挑战性的。
另外,在对非参数的优化方式求解时,状态动作空间维度会随着目标节点数量增多呈指数增长,而计算机内存通常是有限的,故可能存在无法遍历整体空间的问题,同时也会带来巨大的时间消耗。另外,一旦无线定位网络拓扑发生改变,原训练模型无法应用,重新训练会带来巨大的时间消耗。
因此,为了提升资源受限的无线定位网络精度,延长无线定位节点使用寿命,期望提供一种改进的无线定位网络资源优化调度方法。
发明内容
提供本发明内容以便以简化形式介绍将在以下具体实施方式中进一步的描述一些概念。本发明内容并非旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
本发明公开了一种无线定位网络资源优化调度方法。该方法首先以RMSE为性能指标搭建资源优化分配框架,由于RMSE具有非闭合形式的特殊性,无法应用传统CRLB策略方法求解,因此利用深度强化学习算法来进行求解。另外,由于资源选择动作离散化导致状态数过多,采用聚类算法对状态集进行等级划分。除此以外,由于定位网络环境的变化以及实践过程中测量误差的存在,给出了基于迁移学习的样本迁移方案以加速新环境的DRL模型学习速率,同时迁移神经网络参数以加速神经网络的收敛,从而在保证定位精度的同时有效节约了时间消耗。
根据本发明的一个方面,提供了一种无线定位网络资源优化调度方法,所述方法包括:
确定无线定位网络的拓扑图,其中在所述无线定位网络中固定锚节点集合,确定待定位的目标节点集合,并且均匀选取训练样本节点集合;
以均方根误差RMSE为定位精度度量,基于深度强化学习来训练资源优化调度模型以得到针对所述样本节点集合中的每个样本节点的最优资源分配方案,其中根据所述RMSE最小化来设置奖励以指导所述锚节点集合选择不同等级资源;以及
基于所述目标节点集合所处的网络环境来获取针对所述目标节点集合的资源分配方案。
根据本发明的一个实施例,所述资源优化调度模型是通过选取最小化均方根误差RMSE作为目标函数来构建的,其中,
针对所述目标函数的约束条件为:所述锚节点集合中的每个锚节点具有传输带宽和发射功率的上限;所述锚节点集合中的所有锚节点的总发射功率不能超过阈值;以及所述锚节点集合中的每个锚节点发射信号的频带不能重叠。
根据本发明的进一步实施例,基于深度强化学习来训练资源优化调度模型以得到针对所述样本节点集合中的每个样本节点的最优资源分配方案进一步包括:
定义锚节点集合的动作、状态、奖励三要素,其中根据所述RMSE最小化来设置奖励以指导所述锚节点集合选择不同等级的功率和带宽资源;
针对所述样本节点集合中的每个样本节点,将包括当前状态、当前动作、当前奖励和下一状态的多个四元组存储到记忆池中以供训练;以及
从所述记忆池中随机选取一批四元组进行训练,其中使用神经网络Q(s,a;w)≈Q*(s,a)作为非线性近似器并且进行Q值拟合,直到模型收敛。
根据本发明的进一步实施例,定义锚节点集合的状态进一步包括:
采用聚类方法来对所述锚节点集合的定位精度状态进行等级划分。
根据本发明的进一步实施例,定义锚节点集合的奖励进一步包括:
采用设置权重系数的方式,基于资源利用比和均方误差MSE来设置奖励函数,以用于指导所述锚节点集合选择不同等级的功率和带宽资源。
根据本发明的进一步实施例,基于所述目标节点集合所处的网络环境来获取针对所述目标节点集合的资源分配方案进一步包括:
确定所述目标节点集合所处的网络环境与训练环境是否一致;
若一致,则基于针对所述样本节点集合中的每个样本节点的最优资源分配方案,利用k邻近方法来获取针对所述目标节点集合的资源分配方案;
若不一致,则利用迁移学习来重新获取新拓扑的样本资源分配方案以得到针对所述目标节点集合的资源分配方案。
根据本发明的进一步实施例,利用迁移学习来重新获取新拓扑的样本资源分配方案进一步包括:
将锚节点集合与训练环境进行交互得到的训练样本节点集合迁移到所述目标节点所处的网络环境中;以及
重用训练好的估值网络权重参数来进行学习以得到新拓扑的样本资源分配方案。
根据本发明的另一方面,提供了一种无线定位网络资源优化调度系统,所述系统包括:
网络拓扑确定模块,所述网络拓扑确定模块被配置成确定无线定位网络的拓扑图,其中在所述无线定位网络中固定锚节点集合,确定待定位的目标节点集合,并且均匀选取训练样本节点集合;
资源优化调度模型训练模块,所述资源优化调度模型训练模块被配置成以均方根误差RMSE为定位精度度量,基于深度强化学习来训练资源优化调度模型以得到针对所述样本节点集合中的每个样本节点的最优资源分配方案,其中根据所述RMSE最小化来设置奖励以指导所述锚节点集合选择不同等级资源;以及
资源分配方案获取模块,所述资源分配方案获取模块被配置成基于所述目标节点集合所处的网络环境来获取针对所述目标节点集合的资源分配方案。
根据本发明的一个实施例,所述资源优化调度模型是通过选取最小化均方根误差RMSE作为目标函数来构建的,其中,
针对所述目标函数的约束条件为:所述锚节点集合中的每个锚节点具有传输带宽和发射功率的上限;所述锚节点集合中的所有锚节点的总发射功率不能超过阈值;以及所述锚节点集合中的每个锚节点发射信号的频带不能重叠。
根据本发明的进一步实施例,基于深度强化学习来训练资源优化调度模型以得到针对所述样本节点集合中的每个样本节点的最优资源分配方案进一步包括:
定义锚节点集合的动作、状态、奖励三要素,其中根据所述RMSE最小化来设置奖励以指导所述锚节点集合选择不同等级的功率和带宽资源;
针对所述样本节点集合中的每个样本节点,将包括当前状态、当前动作、当前奖励和下一状态的多个四元组存储到记忆池中以供训练;以及
从所述记忆池中随机选取一批四元组进行训练,其中使用神经网络Q(s,a;w)≈Q*(s,a)作为非线性近似器并且进行Q值拟合,直到模型收敛。
与现有技术中的方案相比,本发明所提供的无线定位网络资源优化调度方法至少具有以下优点:
(1)以RMSE为衡量定位精度的性能指标,联合优化分配功率和带宽资源,基于DRL算法搭建了资源优化分配框架。相较于以CRLB为定位网络性能指标的资源优化框架,在相同场景下有效提升了定位网络精度;
(2)利用深度强化学习改善了基于Q-learning模型进行资源分配所带来的状态动作表格无法遍历的问题;以及
(3)针对锚节点位置存在偏差的实际场景,结合迁移学习的方法进行样本迁移,从而在保证定位精度的同时有效节省了重新训练样本的时间消耗,并且能够适应动态性的定位网络变化。
通过阅读下面的详细描述并参考相关联的附图,这些及其他特点和优点将变得显而易见。应该理解,前面的概括说明和下面的详细描述只是说明性的,不会对所要求保护的各方面形成限制。
附图说明
为了能详细地理解本发明的上述特征所用的方式,可以参照各实施例来对以上简要概述的内容进行更具体的描述,其中一些方面在附图中示出。然而应该注意,附图仅示出了本发明的某些典型方面,故不应被认为限定其范围,因为该描述可以允许有其它等同有效的方面。
图1示出了根据本发明的一个实施例的无线定位网络资源优化调度系统的示例架构图。
图2示出了根据本发明的一个实施例的无线定位网络资源优化调度方法的整体流程图。
图3示出了根据本发明的一个实施例的在获取目标节点集合的资源分配方案时所利用的邻近算法的示意图。
具体实施方式
下面结合附图详细描述本发明,本发明的特点将在以下的具体描述中得到进一步的显现。
图1是根据本发明的一个实施例的无线定位网络资源优化调度系统100的示例架构图。如图1中所示,本发明的无线定位网络资源优化调度系统100包括:网络拓扑确定模块101、资源优化调度模型训练模块102和资源分配方案获取模块103。
网络拓扑确定模块101可被配置成确定需要进行资源分配的无线定位网络拓扑,其中在该无线定位网络拓扑中包括节点位置已知的锚节点集合,先验已知的目标节点集合。在一些情形中,锚节点可基于时钟异步方式向目标节点发射信号,以频分复用方法与目标节点进行测距。进一步地,网络拓扑确定模块101可基于固定锚节点位置的定位网络拓扑图,均匀撒播节点作为训练样本节点集合。进一步地,网络拓扑确定模块101可依据测距设备所读取的锚节点集合与样本节点集合之间的测距值,构建测距链路矩阵,利用非线性最小二乘算法得到样本节点集合中的每个样本节点的位置估计。
资源优化调度模型训练模块102可被配置成选取最小化定位精度误差RMSE作为目标函数,构建资源优化调度模型。针对该目标函数的约束条件为:考虑传感器节点的限制,每个锚节点都有传输带宽和发射功率的上限;为避免对周围无线网络的干扰,所有锚节点的总发射功率不能超过阈值;每个锚节点发射信号的频带不能重叠。进一步地,资源优化调度模型训练模块102可利用深度强化学习(DRL)来实现资源分配算法。具体而言,资源优化调度模型训练模块102可定义锚节点集合的动作、状态、奖励三要素,根据目标函数最小化来设置奖励以指导锚节点集合对于不同等级资源(例如,功率和带宽资源)进行选择,以得到针对样本节点集合中的每个样本节点的最优资源分配策略。
资源分配方案获取模块103可被配置成判断待定位的目标节点集合所处网络环境与样本节点集合的训练环境是否一致。若一致,则可结合例如k-邻近算法来确定针对目标节点集合的资源分配方案。若不一致,则可结合例如迁移学习的方法来重新获取新拓扑的样本资源分配方案,从而避免了重新训练DRL模型带来的时间消耗。
本领域技术人员能够理解,本发明的系统及其各模块既可以以硬件形式实现,也可以以软件形式实现,并且各模块可以任意合适的方式合并或组合。
图2是根据本发明的一个实施例的无线定位网络资源优化调度方法200的整体流程图。方法200主要以均方根误差(RMSE)为目标函数进行深度强化学习(DRL)模型搭建和目标节点资源分配方案的回归获取。
方法200包括两个阶段,分别为训练阶段和回归阶段。在训练阶段期间(步骤S1-S4),可确定定位网络拓扑,获取训练样本,并且建立及求解资源优化调度模型。在回归阶段期间(步骤S5),可根据目标节点环境分别选取不同的回归方案。方法200的具体步骤如下:
步骤S1:确定无线定位网络的拓扑图。在二维定位网络中存在Nb个位置已知的锚节点,Na个先验知识有限的目标节点,其中锚节点集合和目标节点集合分别表示为Nb={1,2,…,Nb},Na={1,2,…,Na}。在一些情形中,锚节点可基于时钟异步的方式向目标节点发射信号,以频分复用的方式与目标节点进行测距。
步骤S2:基于固定锚节点位置的定位网络拓扑图,均匀撒播Ns个节点作为训练样本节点集合,其中该训练样本节点集合被表示为Ns={1,2,…,Ns}。随后,资源优化调度系统可依据测距设备所读取的锚节点集合与样本节点集合之间的测距值,构建测距链路矩阵,利用非线性最小二乘算法得到样本节点集合中的每个样本节点的位置估计。具体计算过程如下:
首先,通过下式1得到样本节点集合中的样本节点k与锚节点集合中的锚节点j之间的距离估计,即:
Figure BDA0003225032220000071
其中,c为自由空间光速,
Figure BDA0003225032220000072
为时间估计,dkj为节点之间的真实距离,wkj为高斯测距噪声,即
Figure BDA0003225032220000073
其中测距方差如下式2所示:
Figure BDA0003225032220000074
其中,Pkj为节点之间的传输功率,βkj为节点之间的传输带宽,SNRkj为节点间信号的信噪比,ξkj为信道系数,其中
Figure BDA0003225032220000075
其中N0为噪声功率密度谱。
随后,依据测距设备所读取的锚节点集合与样本节点集合之间的测距估计值,构建Nb×Ns测距链路矩阵R,如下式3所示:
Figure BDA0003225032220000076
随后,利用非线性最小二乘算法得到样本节点k的位置估计,如下式4所示:
Figure BDA0003225032220000077
其中,
Figure BDA0003225032220000078
为节点k的位置估计,rk和dk分别为测距矢量和真实距离矢量,其中
Figure BDA0003225032220000079
节点k的定位准确性通常采用均方误差MSE来衡量,该指标受CRLB的限制,如下式5所示:
Figure BDA00032250322200000710
其中,pk为节点k的真实位置,Je(pk)为等效费舍尔信息矩阵(Equal FisherInformation Matrix,EFIM),M(pk)为pk的定位误差,其指示节点k的定位准确性,P(pk)为pk的克拉美罗下界,
Figure BDA0003225032220000081
表示Je(pk)的逆矩阵,tr{}表示矩阵的迹。
步骤S3:选取最小化定位精度误差RMSE作为目标函数,即依据root(M(pk))来构建资源优化调度模型,以用于优化所有锚节点之间的功率和带宽分配。目标函数如下式6所示:
Figure BDA0003225032220000082
针对上述目标函数的约束条件如下式7-9所示:
Figure BDA0003225032220000083
Figure BDA0003225032220000084
Figure BDA0003225032220000085
Figure BDA0003225032220000086
其中,式6中的目标函数是使样本节点的定位误差M(pk)最小化,式7和8中的约束条件表明,由于硬件设计,每个锚节点都具有传输带宽β0和功率P0的上限,式9中给出了总的发射功率约束,式10中保证发射信号的频带不允许重叠。
步骤S4:利用深度强化学习(DRL)来训练资源优化调度模型。具体而言,首先定义DRL框架的状态,动作和奖励三个要素。在一些情形中,在定义DRL框架的定位精度状态时,可结合定位精度区间(ρ,CRLB]使用聚类策略(例如,kmeans聚类)来初步划分状态,其中ρ为系统定义的定位精度阈值。随后,可根据目标函数root(M(pk))最小化来设置奖励以指导锚节点集合对于不同等级资源(例如,功率和带宽资源)进行选择。在一些情形中,可以采用设置权重系数的方式来将多目标问题转化成单目标问题并将其设置为奖励函数,如下式11所示:
R=C0mmirδri (11)
其中,i对应于固定拓扑每次对对资源选择的训练,权值δ用于将资源利用比ri和均方误差mi统一到一个量级,τm和τr分别表示MSE和资源利用比所占的权重,C0为常量,起保证奖励值为正数的作用。
利用DRL来训练资源优化调度模型的具体算法流程如下:
(1)首先进行初始化设置,具体包括:定义锚节点位置为pAnchor,第s个样本节点位置表示为ps,s∈Ns;设置信道系数ξsj,j∈Nb,功率、带宽的离散步长分别为ΔP、Δβ;定义锚节点的动作为A(pAnchor,ps),定义训练精度的5个状态为S0-S4,依次为差、较差、一般、较好、很好;设置记忆池(Memory),以随机权重初始化动作价值函数,以0权重初始化目标动作价值函数Q。
(2)在训练过程期间,针对训练库中每个样本节点的每次训练进行如下操作:
1、首先输入初始状态S0
2、随后从动作集中选择针对所有锚节点的一组资源分配动作,动作策略(如下式12所示)利用贪心算法求解,其中ε为“探索”的概率,取值范围[0,1]:
Figure BDA0003225032220000091
其中π表示存在1-ε的概率选取当前网络所预测的最大Q值对应的资源分配动作(即在当前状态下选取最优动作),存在ε的概率随机选择资源分配动作;
3、随后根据当前t时刻的资源分配方案,执行所选取的资源分配动作At,并且采用上述奖励函数R(如式11所示)来计算得到回报值Rt,更新下一时刻(即t+1时刻)的状态St+1,将所得到的四元组(St,At,Rt,St+1)存储到记忆池中,重复该步骤以将一批四元组存储到记忆池中以供训练;
4、从记忆池中随机选取一定数量的四元组来训练网络。由于状态的转移是连续的,如果直接按顺序取一批四元组作为训练集,则容易过拟合,因为训练样本间并非是独立的,因此可以从记忆池中随机选取少量四元组来进行训练,以保证训练样本是独立同分布的,并且同时加快了训练速度。在一些情形中,在训练期间可以使用神经网络Q(s,a;w)≈Q*(s,a)作为非线性近似器,随后利用网络预测的Q值来拟合通过Bellman公式(13)计算得到的Q值。
Figure BDA0003225032220000092
其中α是学习率,γ∈[0,1]是折扣因子,s、a分别为状态动作函数,a′为下一动作,s′为执行完动作a转移到的下一状态,r为状态s下采取动作a得到的环境的奖励值。
(3)循环训练步骤(2),在达到所设置的收敛次数上限时循环结束,输出针对每个训练样本节点的最优资源分配方案。
步骤S5:基于目标节点集合所处的网络环境来获取针对目标节点集合的资源分配方案。在一些情形中,可确定训练样本节点集合所处的网络环境与待定位的目标节点集合所处的网络环境是否一致。如果训练样本节点集合所处的网络环境与待定位的目标节点集合所处的网络环境一致(即待定位的目标节点集合也处于训练环境),则可基于训练好的样本节点资源分配方案来获取针对待定位的目标节点集合的资源分配方案。在一些情形中,可以采用k邻近算法(KNN)来回归获取针对待定位的目标节点集合的资源分配方案。k邻近算法的示意图如图3所示,在图3中,当前节点离已训练节点3、2、1的距离依次递增,例如在k=2的情况下,与当前节点距离最小的k(即,2)个节点为已训练节点2和3,随后可基于针对已训练节点2和3的资源分配方案来回归获取针对待定位的当前节点的资源分配方案。如果训练样本节点集合所处的网络环境与待定位的目标节点集合所处的网络环境不一致,则可利用迁移学习的方法来重新获取新拓扑的样本资源分配方案,以避免重新训练DRL模型。迁移学习对无线定位网络的资源分配而言是一个全新的学习领域。由于锚节点不断地与环境交互并做出决策,这个过程十分耗时,深度神经网络的强大特征表示和函数近似也常常伴随着高成本的计算,由此本文利用迁移学习来加速学习进程。首先,迁移学习将源基站(锚节点)与环境进行交互得到的训练样本迁移到目标基站(锚节点)上,从而减少了训练时间,同时避免了目标基站(锚节点)由于样本不足导致的过拟合问题,其次,通过重用已经训练好的估值网络权重参数,进一步加速算法的收敛性。对比于标准的DQN以随机的搜寻方法开始学习,使用迁移学习可以使学习的起点更接近于目标基站吞吐量最大化的最终解决方案。
以上所已经描述的内容包括所要求保护主题的各方面的示例。当然,出于描绘所要求保护主题的目的而描述每一个可以想到的组件或方法的组合是不可能的,但本领域内的普通技术人员应该认识到,所要求保护主题的许多进一步的组合和排列都是可能的。从而,所公开的主题旨在涵盖落入所附权利要求书的精神和范围内的所有这样的变更、修改和变化。

Claims (10)

1.一种无线定位网络资源优化调度方法,所述方法包括:
确定无线定位网络的拓扑图,其中在所述无线定位网络中固定锚节点集合,确定待定位的目标节点集合,并且均匀选取训练样本节点集合;
以均方根误差RMSE为定位精度度量,基于深度强化学习来训练资源优化调度模型以得到针对所述样本节点集合中的每个样本节点的最优资源分配方案,其中根据所述RMSE最小化来设置奖励以指导所述锚节点集合选择不同等级资源;以及
基于所述目标节点集合所处的网络环境来获取针对所述目标节点集合的资源分配方案。
2.如权利要求1所述的方法,其特征在于,所述资源优化调度模型是通过选取最小化均方根误差RMSE作为目标函数来构建的,其中,
针对所述目标函数的约束条件为:所述锚节点集合中的每个锚节点具有传输带宽和发射功率的上限;所述锚节点集合中的所有锚节点的总发射功率不能超过阈值;以及所述锚节点集合中的每个锚节点发射信号的频带不能重叠。
3.如权利要求1所述的方法,其特征在于,基于深度强化学习来训练资源优化调度模型以得到针对所述样本节点集合中的每个样本节点的最优资源分配方案进一步包括:
定义锚节点集合的动作、状态、奖励三要素,其中根据所述RMSE最小化来设置奖励以指导所述锚节点集合选择不同等级的功率和带宽资源;
针对所述样本节点集合中的每个样本节点,将包括当前状态、当前动作、当前奖励和下一状态的多个四元组存储到记忆池中以供训练;以及
从所述记忆池中随机选取一批四元组进行训练,其中使用神经网络Q(s,a;w)≈Q*(s,a)作为非线性近似器并且进行Q值拟合,直到模型收敛。
4.如权利要求3所述的方法,其特征在于,定义锚节点集合的状态进一步包括:
采用聚类方法来对所述锚节点集合的定位精度状态进行等级划分。
5.如权利要求3所述的方法,其特征在于,定义锚节点集合的奖励进一步包括:
采用设置权重系数的方式,基于资源利用比和均方误差MSE来设置奖励函数,以用于指导所述锚节点集合选择不同等级的功率和带宽资源。
6.如权利要求1所述的方法,其特征在于,基于所述目标节点集合所处的网络环境来获取针对所述目标节点集合的资源分配方案进一步包括:
确定所述目标节点集合所处的网络环境与训练环境是否一致;
若一致,则基于针对所述样本节点集合中的每个样本节点的最优资源分配方案,利用k邻近方法来获取针对所述目标节点集合的资源分配方案;
若不一致,则利用迁移学习来重新获取新拓扑的样本资源分配方案以得到针对所述目标节点集合的资源分配方案。
7.如权利要求6所述的方法,其特征在于,利用迁移学习来重新获取新拓扑的样本资源分配方案进一步包括:
将锚节点集合与训练环境进行交互得到的训练样本节点集合迁移到所述目标节点所处的网络环境中;以及
重用训练好的估值网络权重参数来进行学习以得到新拓扑的样本资源分配方案。
8.一种无线定位网络资源优化调度系统,所述系统包括:
网络拓扑确定模块,所述网络拓扑确定模块被配置成确定无线定位网络的拓扑图,其中在所述无线定位网络中固定锚节点集合,确定待定位的目标节点集合,并且均匀选取训练样本节点集合;
资源优化调度模型训练模块,所述资源优化调度模型训练模块被配置成以均方根误差RMSE为定位精度度量,基于深度强化学习来训练资源优化调度模型以得到针对所述样本节点集合中的每个样本节点的最优资源分配方案,其中根据所述RMSE最小化来设置奖励以指导所述锚节点集合选择不同等级资源;以及
资源分配方案获取模块,所述资源分配方案获取模块被配置成基于所述目标节点集合所处的网络环境来获取针对所述目标节点集合的资源分配方案。
9.如权利要求8所述的系统,其特征在于,所述资源优化调度模型是通过选取最小化均方根误差RMSE作为目标函数来构建的,其中,
针对所述目标函数的约束条件为:所述锚节点集合中的每个锚节点具有传输带宽和发射功率的上限;所述锚节点集合中的所有锚节点的总发射功率不能超过阈值;以及所述锚节点集合中的每个锚节点发射信号的频带不能重叠。
10.如权利要求8所述的系统,其特征在于,基于深度强化学习来训练资源优化调度模型以得到针对所述样本节点集合中的每个样本节点的最优资源分配方案进一步包括:
定义锚节点集合的动作、状态、奖励三要素,其中根据所述RMSE最小化来设置奖励以指导所述锚节点集合选择不同等级的功率和带宽资源;
针对所述样本节点集合中的每个样本节点,将包括当前状态、当前动作、当前奖励和下一状态的多个四元组存储到记忆池中以供训练;以及
从所述记忆池中随机选取一批四元组进行训练,其中使用神经网络Q(s,a;w)≈Q*(s,a)作为非线性近似器并且进行Q值拟合,直到模型收敛。
CN202110968353.0A 2021-08-23 2021-08-23 一种无线定位网络资源优化调度方法 Pending CN113853019A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110968353.0A CN113853019A (zh) 2021-08-23 2021-08-23 一种无线定位网络资源优化调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110968353.0A CN113853019A (zh) 2021-08-23 2021-08-23 一种无线定位网络资源优化调度方法

Publications (1)

Publication Number Publication Date
CN113853019A true CN113853019A (zh) 2021-12-28

Family

ID=78975935

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110968353.0A Pending CN113853019A (zh) 2021-08-23 2021-08-23 一种无线定位网络资源优化调度方法

Country Status (1)

Country Link
CN (1) CN113853019A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106443647A (zh) * 2016-09-21 2017-02-22 深圳信息职业技术学院 一种基于侦听的测距方法及系统
US20200241921A1 (en) * 2019-01-28 2020-07-30 EMC IP Holding Company LLC Building neural networks for resource allocation for iterative workloads using reinforcement learning
CN113099491A (zh) * 2021-03-12 2021-07-09 哈尔滨工业大学(深圳) 一种无线定位网络资源优化方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106443647A (zh) * 2016-09-21 2017-02-22 深圳信息职业技术学院 一种基于侦听的测距方法及系统
US20200241921A1 (en) * 2019-01-28 2020-07-30 EMC IP Holding Company LLC Building neural networks for resource allocation for iterative workloads using reinforcement learning
CN113099491A (zh) * 2021-03-12 2021-07-09 哈尔滨工业大学(深圳) 一种无线定位网络资源优化方法

Similar Documents

Publication Publication Date Title
CN111629380B (zh) 面向高并发多业务工业5g网络的动态资源分配方法
CN112118601A (zh) 一种减少6g数字孪生边缘计算网络任务卸载延迟的方法
CN111666149A (zh) 基于深度强化学习的超密边缘计算网络移动性管理方法
US20200320397A1 (en) Learning-based service migration in mobile edge computing
CN113099491B (zh) 一种无线定位网络资源优化方法
CN112383922B (zh) 一种基于优先经验重放的深度强化学习频谱共享方法
CN111369042A (zh) 一种基于加权联邦学习的无线业务流量预测方法
CN113537514B (zh) 一种高能效的基于数字孪生的联邦学习框架
CN112105062B (zh) 时敏条件下移动边缘计算网络能耗最小化策略方法
CN110167176B (zh) 一种基于分布式机器学习的无线网络资源分配方法
US20230305187A1 (en) Method and System for Multi-Step Prediction of Future Wind Speed Based on Automatic Reservoir Neural Network
CN116456493A (zh) 一种基于深度强化学习算法的d2d用户资源分配方法及存储介质
CN116390161A (zh) 一种移动边缘计算中基于负载均衡的任务迁移方法
CN101706888A (zh) 一种旅行时间预测的方法
CN113573320A (zh) 边缘网络中基于改进的演员-评论家算法的sfc部署方法
CN115310360A (zh) 基于联邦学习的数字孪生辅助工业物联网可靠性优化方法
CN101982953A (zh) 宽带无线通信信道频域多维参数化模型及建模方法
CN114051252B (zh) 无线接入网中多用户智能发射功率控制方法
Li et al. UAV trajectory optimization for spectrum cartography: A PPO approach
CN113853019A (zh) 一种无线定位网络资源优化调度方法
Peng et al. Hmm-lstm for proactive traffic prediction in 6g wireless networks
CN107426748B (zh) 一种无线网络控制系统中多传感器估计性能方法
CN115941802A (zh) 远程状态估计传感器调度方法、调度器及信息物理系统
CN114337787A (zh) 一种无人机辅助的移动边缘计算系统内容缓存方法
CN115665867B (zh) 一种车联网的频谱管理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20240314

Address after: Unit 1, Building 1, China Telecom Zhejiang Innovation Park, No. 8 Xiqin Street, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province, 311100

Applicant after: Tianyi Shilian Technology Co.,Ltd.

Country or region after: China

Address before: Room 1423, No. 1256 and 1258, Wanrong Road, Jing'an District, Shanghai 200072

Applicant before: Tianyi Digital Life Technology Co.,Ltd.

Country or region before: China

TA01 Transfer of patent application right