CN113597008A - 基于ddpg的无线定位网络的资源优化方法 - Google Patents

基于ddpg的无线定位网络的资源优化方法 Download PDF

Info

Publication number
CN113597008A
CN113597008A CN202110865555.2A CN202110865555A CN113597008A CN 113597008 A CN113597008 A CN 113597008A CN 202110865555 A CN202110865555 A CN 202110865555A CN 113597008 A CN113597008 A CN 113597008A
Authority
CN
China
Prior art keywords
network
node
ddpg
nodes
proxy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110865555.2A
Other languages
English (en)
Other versions
CN113597008B (zh
Inventor
杨盼
向晨路
张舜卿
徐树公
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN202110865555.2A priority Critical patent/CN113597008B/zh
Publication of CN113597008A publication Critical patent/CN113597008A/zh
Application granted granted Critical
Publication of CN113597008B publication Critical patent/CN113597008B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/53Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/021Services related to particular areas, e.g. point of interest [POI] services, venue services or geofences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/023Services making use of location information using mutual or relative location information between multiple location based services [LBS] targets or of distance thresholds
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/33Services specially adapted for particular environments, situations or purposes for indoor environments, e.g. buildings
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0453Resources in frequency domain, e.g. a carrier in FDMA
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0473Wireless resource allocation based on the type of the allocated resource the resource being transmission power
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E40/00Technologies for an efficient electrical power generation, transmission or distribution
    • Y02E40/70Smart grids as climate change mitigation technology in the energy generation sector
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

一种基于DDPG的无线定位网络的资源优化方法,在离线阶段采用位置推理获得的节点之间的距离以及信道参数作为DDPG网络的状态空间,采用各个节点分配到的带宽和功率作为DDPG网络的动作空间,经收益设置和网络训练后,在在线阶段根据代理节点的当前状态信息通过DDPG网络得到最优的带宽和功率分配方案,实现资源分配。本发明利用代理节点配合协同定位,当无线定位网络的资源有限时,将有限的资源合理的分配给各个节点可以有效的提高室内定位的精度,在保证定位精度的同时能够显著减少在线定位阶段进行资源分配时所要消耗的时间。

Description

基于DDPG的无线定位网络的资源优化方法
技术领域
本发明涉及的是一种无线资源分配领域的技术,具体是一种基于深度确定性策略梯度(DDPG)的无线定位网络的资源优化方法,适用于LTE/NR等其他无线通信系统。
背景技术
现有无线定位网络采用的是非协同定位,它只允许位置已知的锚节点和位置未知的代理节点之间进行通信,使用TOA进行定位时一般需要代理节点至少和三种不同的锚节点进行测距来获得自身位置,要想获得较高的定位精度就要求锚节点部署的密度能足够大,这就不可避免的提高成本。并且当锚节点和代理节点之间的通信距离较大时,容易出现中断通信的问题,不能保证通信的连续性,从而降低定位精度。
现有技术有以均方误差为衡量定位精度的性能指标并采用强化学习实现资源分配,但这类技术在线测试速度慢,且随着目标节点个数增加时所要花费的时间也会相应的增加。
发明内容
本发明针对现有技术存在的上述不足,提出一种基于DDPG的无线定位网络的资源优化方法,在保证定位精度的同时能够显著减少在线定位阶段进行资源分配时所要消耗的时间。同时在传统的非协同定位网络的基础上提出了协同定位网络的资源优化方法,显现出协同定位较非协同定位的优势。
本发明是通过以下技术方案实现的:
本发明涉及一种基于DDPG的无线定位网络的资源优化方法,在离线阶段采用位置推理获得的节点之间的距离以及信道参数作为DDPG网络的状态空间,采用各个节点分配到的带宽和功率作为DDPG网络的动作空间,经收益设置和网络训练后,在在线阶段根据代理节点的当前状态信息通过DDPG网络得到最优的带宽和功率分配方案,实现资源分配。
所述的节点,包括无线定位网络中位置已知的锚节点以及需要定位的代理节点。
所述的DDPG网络包括:在线动作(Actor)网络、目标Actor网络、在线评价(Critic)网络、目标Critic网络,其中:在线Actor网络和目标Actor网络均包括:七个隐藏层,除最后一层隐藏层直接是线性输出,其余每一层隐藏层均采用线性整流函数(ReLU)作为激活函数,从第二个隐藏层开始,后续六个隐藏层分为结构相同的上下两部分:上半部分被训练用于带宽的分配,下半部分被训练用于功率的分配;在线Critic网络和目标Critic网络均包括五个隐藏层,除最后一层隐藏层直接是线性输出,其余每一层隐藏层均采用ReLU作为激活函数。
技术效果
本发明整体解决现有技术在实时定位时获得最优资源分配策略耗时较长的问题;与现有技术相比,本发明在线测试阶段,可以根据代理节点的初始位置估计在1ms左右的时间内得到优化的带宽和功率分配方案。
附图说明
图1为本发明流程图;
图2为实施例Actor网络的网络结构示意图;
图3为实施例Critic网络的网络结构示意图;
图4为实施例非协同定位的实验场景示意图;
图5为实施例协同定位的实验场景示意图;
图6为实施例DDPG训练的收益(非协同)示意图;
图7为实施例DDPG算法以及穷尽算法的性能图(非协同)示意图;
图8为实施例DDPG训练的收益(协同)示意图;
图9为DDPG算法的性能图(协同)示意图。
具体实施方式
如图1所示,为本实施例涉及一种基于DDPG的无线定位网络的资源优化方法,能够在尽可能短的时间内获得最优的分配方案以提高定位精度,具体包括以下步骤:
步骤1、获取测距信息,估计代理节点的位置,具体为:无线定位网络中各个节点根据带宽和功率的分配方案
Figure BDA0003187209040000021
测量自身和其他节点之间的距离,再利用TOA定位方法来确定代理节点的具体位置,基于初始的分配方案是均匀分配,每个节点分配到的资源相同,各个节点的带宽
Figure BDA0003187209040000022
功率
Figure BDA0003187209040000023
其中:i∈{1,2,…,Na+Nb},该无线定位网络中包括Na个代理节点和Nb个锚节点,网络可以使用的总带宽和总功率分别为Btotal,Ptotal
步骤2、采用节点之间的距离与信道参数作为DDPG网络的状态空间,其中:节点之间的距离信息通过测距操作获得,信道参数通过信道估计获得,具体包括:基于平均分配带宽和功率的方案进行测距获得节点之间的距离信息,按照代理节点与某一锚节点之间的远近对代理节点进行排序,再将这些代理节点和各个节点之间的距离和信道参数作为状态空间,以极大的减小网络训练的开销。
所述的DDPG网络中:协同定位网络中,在线Actor网络以步骤2中大小为(Na+Nb)*2Na的规定状态st作为输入,输出动作at,并获取此刻的收益rt,同时转变为下一个状态st+1,由于本实施例场景中状态之间并没有转换,所以St+1=St,然后再将(st,at,rt,St+1)作为一组训练数据存放到经验池中。而在协同定位网络中,由于代理节点之间无法进行通信,在线Actor网络的状态会减小为Nb*2Na
从经验池中随机采样N组(sk,ak,rk,sk+1)训练数据用于训练DDPG中的四个网络,其中1≤k≤N,则目标Actor网络由状态sk+1输出动作ak+1、目标Critic网络根据状态sk+1、目标Actor网络输出的ak+1得到对应的评估函数Q′(sk+1,ak+1Q′)、在线Critic网络根据状态和动作(sk,ak)输出对应的评价函数Q(sk,akQ),其中在线Actor网络和在线Critic网络的网络参数分别是根据抽样策略梯度
Figure BDA0003187209040000031
和损失函数梯度
Figure BDA0003187209040000032
进行更新的:
Figure BDA0003187209040000033
Figure BDA0003187209040000034
Figure BDA0003187209040000035
其中:θQ和θμ分别为网络参数。
所述的网络参数通过以下方式进行软更新:θQ←τθQ+(1-τ)θQ,θμ←τθμ+(1-τ)θμ′,其中:τ为在线网络参数的权重。
如图2所示,所述的在线Actor网络和目标Actor网络均包括:七个隐藏层,除最后一层隐藏层直接是线性输出,其余每一层隐藏层均采用线性整流函数(ReLU)作为激活函数,从第二个隐藏层开始,后续六个隐藏层分为结构相同的上下两部分:上半部分被训练用于带宽的分配,下半部分被训练用于功率的分配,每个隐藏层的输出分别进行softmax操作,最终得到归一化的带宽分配和功率分配,在协同定位网络中在线Actor网络输出的动作大小为(Na+Nb)*2,而在非协同定位网络中在线Actor网络输出的动作大小为Nb*2
如图3所示,所述的Critic网络和Critic目标网络均包括五个隐藏层,除最后一层隐藏层直接是线性输出,其余每一层隐藏层均采用ReLU作为激活函数。
表1网络配置和参数的概述
Figure BDA0003187209040000036
Figure BDA0003187209040000041
步骤3、通过对协同定位网络的等价费舍尔信息矩阵(equivalent Fisherinformation matrix,EFIM)求逆取迹,可以得到无线定位网络中代理节点的全局平方定位误差界限(squared position error bound,SPEB),具体为:
Figure BDA0003187209040000042
能够使得该SPEB最小的分配方案,即最优的资源分配方案,其中:每个代理节点的SPEB为:
Figure BDA0003187209040000043
Figure BDA0003187209040000044
Figure BDA0003187209040000045
是pi的估计值,Je(pi)是通过测量获得的代理节点pi的EFIM,具体为:
Figure BDA0003187209040000046
Figure BDA0003187209040000047
代理节点i从所有的Nb个锚节点处获得的测距信息为
Figure BDA0003187209040000048
从代理节点k处获得的测距信息为
Figure BDA0003187209040000049
其中
Figure BDA00031872090400000410
为从节点i到节点k的角度值,测距信息密度
Figure BDA00031872090400000411
ξik为代理节点i和节点k之间测距信道参数,dik为代理节点i和节点k之间距离,Pk和Bk分别为节点k分配到的功率和带宽资源,当协同定位网络的全局EFIM中的Cik=0便可得到非协同定位网络的EFIM,再对非协同定位网络的EFIM求逆取迹便可得到整个网络的SPEB。
步骤4、设置带宽和功率作为DDPG网络的动作空间,将强化学习的收益设置为:
Figure BDA00031872090400000412
其中:a和b是常数,spebnow为此刻的资源分配方案对应的SPEB,spebuniform为均匀分配方案对应的SPEB,Pmax则为功率分配方案中最大的功率值。
步骤5、生成网络训练样本并对DDPG网络进行训练:随机采集无线定位网络中
Figure BDA00031872090400000413
个代理节点的初始位置信息形成训练集,包括:代理节点的集合为
Figure BDA00031872090400000414
锚节点的位置为panchor,采集的第i个节点的初始位置为pi。例如:当训练具有Na个代理节点的场景时,从采集自
Figure BDA00031872090400000415
个节点中随机选择Na节点组成一个场景,为了使得训练的模型具有泛化性,需要产生多个这样的场景,并且随着Na个数的增加,训练阶段需要的场景个数也会随之增加,这些场景中Na个代理节点和所有节点之间的距离以及信道参数即网络训练样本。
表2DDPG网络的训练参数:
Figure BDA00031872090400000416
Figure BDA0003187209040000051
步骤6、在线测试阶段,代理节点通过均匀分配的方案获得代理节点和其他节点之间的距离信息,再通过TOA定位方法估算出代理节点的位置信息。根据代理节点的位置信息可以获得步骤2中提到的状态空间,将获得状态空间输入到训练后的DDPG网络,得到最优的资源分配方案。
所述的资源分配方案,进一步用于测距以得到精确位置估计。
本实施例在一个9*9的正方形区域实现场景下设置4个锚节点,它们分别位于[0,0],[0,9],[9,9],[9,0],代理节点随机的分布在该正方形区域内,如图4、图5所示,它们分别为非协同定位和协同定位的实验场景,在协同定位的场景中代理节点之间是可以进行测距操作的,在非协同定位的场景中是不可以的。在该实验场景中可以用来分配的总带宽Btotal以及总功率Ptotal经过归一化之后都被设为1,再由于硬件的限制,单个节点能够分配到的功率也是有上限的,因此要求单个节点能分配到的功率经过归一化之后应该小于0.4。路径损失系数α被设置为2。本实施例中代理节点和其他各个节点之间的距离、角度以及信道参数均可通过初始的测距以及信道估计获得,在仿真时仅考虑自由空间路径损失的影响,因此将信道参数ζ设为100。
本实施例进一步通过python仿真,在非协同定位的离线阶段,按步骤3进行网络训练,如图6所示,以场景中只存在两个代理节点为例,可以看到收益在稳定的上升;在非协同定位的在线资源分配前,需要知道的是代理节点和锚节点之间的距离、角度以及信道参数信息。在利用python仿真时,由于角度以及信道参数都和距离相关,因此只需要将代理节点和锚节点之间距离信息组成一个长度为4×2向量作为模型的输入,模型的输出则是一个长度为4×2向量,代表着四个锚节点的带宽以及功率的分配方案。本实施例中进一步考虑场景中存在多个代理节点的情况,用于对比。
本方法在非协同场景下得到的结果如图7所示,通过随机生成多个场景输入到网络中可以得到对应场景的分配方案,再将DDPG网络输出的分配方案和平均分配方案的SPEB做对比,得到对应的提升倍数,最后再选取所以场景提升倍数的中位数来表征本方法的性能。如图7所示,本方法能够达到穷尽算法的60%左右的性能。
如图8所示,在协同定位的离线阶段,按照步骤3进行网络训练,以场景中只存在两个代理节点为例,可以看到收益在稳定的上升;在协同定位的在线测试阶段,与非协同定位不同的是,代理节点之间也能够进行测距操作。当代理节点和锚节点之间的信道状况较差时,为进一步的降低总的SPEB,应该考虑将部分的资源分配给代理节点。因此,模型的输入向量除代理节点和锚节点之间距离的信息,还需要加上代理节点之间距离的信息,输入向量的长度变为(4+2)×2。同样模型的输出也要加上对代理节点的分配情况,因此输出的向量长度变为(4+2)×2。
本方法在协同场景下得到的结果如图9所示,通过随机生成多个场景输入到网络中可以得到对应场景的分配方案,再将DDPG网络输出的分配方案和平均分配方案的SPEB做对比,得到对应的提升倍数,最后再选取所有场景提升倍数的中位数来表征本方法的性能。在协同场景下的穷尽算法所需的时间太长,在协同场景下是难以实现的,因此也就不用穷尽算法来和DDPG算法进行性能上的比较,可以看出协同的方法的性能要比非协同的方法的性能要好。
与现有技术相比,本方法在进行网络训练时,只需要按照资源平均分配的方案采集对应点和其他节点的距离以及信道参数信息,再将采集的信息按照设定的收益规则放入网络中训练即可,数据采集非常的方便。不同于利用凸优化算法来获得最优分配的技术,在线测试阶段,本方法只需要将节点的状态信息输入训练好的神经网络,即可立即获得分配方案,进而获得更加精准的位置信息。计算复杂度低,计算速度快,代理节点可以获得实时的定位服务。如表3所示。
表3穷尽算法和DDPG算法求解速度对比(单位:秒)
Figure BDA0003187209040000061
在实际应用时,本方法只需要提前训练出用于某个特定室内场景的模型,便可以直接依据代理节点的初始位置使用该模型得到最优的资源分配方案,进而提升代理节点的位置准确度。由此可见实现的成本是非常低的,且适用于大多数的室内场景。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

Claims (7)

1.一种基于DDPG的无线定位网络的资源优化方法,其特征在于,在离线阶段采用位置推理获得的节点之间的距离以及信道参数作为DDPG网络的状态空间,采用各个节点分配到的带宽和功率作为DDPG网络的动作空间,经收益设置和网络训练后,在在线阶段根据代理节点的当前状态信息通过DDPG网络得到最优的带宽和功率分配方案,实现资源分配;
所述的DDPG网络包括:在线动作(Actor)网络、目标Actor网络、在线评价(Critic)网络、目标Critic网络,其中:在线Actor网络和目标Actor网络均包括:七个隐藏层,除最后一层隐藏层直接是线性输出,其余每一层隐藏层均采用ReLU作为激活函数,从第二个隐藏层开始,后续六个隐藏层分为结构相同的上下两部分:上半部分被训练用于带宽的分配,下半部分被训练用于功率的分配;在线Critic网络和目标Critic网络均包括五个隐藏层,除最后一层隐藏层直接是线性输出,其余每一层隐藏层均采用ReLU作为激活函数。
2.根据权利要求1所述的基于DDPG的无线定位网络的资源优化方法,其特征是,所述的节点之间的距离,通过以下方式得到:无线定位网络中各个节点根据带宽和功率的分配方案
Figure FDA0003187209030000011
测量自身和其他节点之间的距离,再利用TOA定位方法来确定代理节点的具体位置,基于初始的分配方案是均匀分配,每个节点分配到的资源相同,各个节点的带宽
Figure FDA0003187209030000012
功率
Figure FDA0003187209030000013
其中:i∈{1,2,…,Na+Nb},该无线定位网络中包括Na个代理节点和Nb个锚节点,网络可以使用的总带宽和总功率分别为Btotal,Ptotal
3.根据权利要求1所述的基于DDPG的无线定位网络的资源优化方法,其特征是,所述的DDPG网络的状态空间,采用节点之间的距离与信道参数作为DDPG网络的状态空间,其中:节点之间的距离信息通过测距操作获得,信道参数通过信道估计获得,具体包括:基于平均分配带宽和功率的方案进行测距获得节点之间的距离信息,按照代理节点与某一锚节点之间的远近对代理节点进行排序,再将这些代理节点和锚节点之间的距离和信道参数作为状态空间,以极大的减小网络训练的开销。
4.根据权利要求1所述的基于DDPG的无线定位网络的资源优化方法,其特征是,所述的在线Actor网络以规定状态st作为输入,输出动作at,并获取此刻的收益rt,同时转变为下一个状态st+1,再将(st,at,rt,st+1)作为一组训练数据存放到经验池中;
从经验池中随机采样N组(sk,ak,rk,sk+1)训练数据用于训练DDPG中的四个网络,其中1≤k≤N,则目标Actor网络由状态sk+1输出动作ak+1、目标Critic网络根据状态sk+1、目标Actor网络输出的ak+1得到对应的评估函数Q′(sk+1,ak+1Q′)、在线Critic网络根据状态和动作(sk,ak)输出对应的评价函数Q(sk,akQ),其中在线Actor网络和在线Critic网络的网络参数分别是根据抽样策略梯度
Figure FDA0003187209030000021
和损失函数梯度
Figure FDA0003187209030000022
进行更新的:
Figure FDA0003187209030000023
Figure FDA0003187209030000024
目标网络参数θQ′和θμ′是通过软更新的方式分别根据在线网络的网络参数θQ和θμ来更新的:θQ′←τθQ+(1-τ)θQ′,θμ′←τθμ+(1-τ)θμ
5.根据权利要求1所述的基于DDPG的无线定位网络的资源优化方法,其特征是,所述的收益设置是指:
Figure FDA0003187209030000025
其中:a和b是常数,spebnow为此刻的资源分配方案对应的SPEB,spebuniform为均匀分配方案对应的SPEB,Pmax则为功率分配方案中最大的功率值;
通过对协同定位网络的EFIM求逆取迹,得到资源分配方案对应的SPEB,具体为:
Figure FDA0003187209030000026
其中:每个代理节点的SPEB为:
Figure FDA0003187209030000027
Figure FDA0003187209030000028
Figure FDA0003187209030000029
是pi的估计值,Je(pi)是通过测量获得的代理节点pi的EFIM,具体为:
Figure FDA00031872090300000210
Figure FDA00031872090300000211
代理节点i从所有的Nb个锚节点处获得的测距信息
Figure FDA00031872090300000212
从代理节点k处获得的测距信息
Figure FDA00031872090300000213
Figure FDA00031872090300000214
其中
Figure FDA00031872090300000215
Figure FDA00031872090300000216
为从节点i到节点k的角度值,测距信息密度
Figure FDA00031872090300000217
ξik为代理节点i和节点k之间测距信道参数,dik为代理节点i和节点k之间距离,Pk和Bk分别为节点k分配到的功率和带宽资源,当协同定位网络的EFIM中的Cik=0便可得到非协同定位网络的EFIM,再对非协同定位网络的EFIM求逆取迹便可得到整个网络的SPEB。
6.根据权利要求1或4所述的基于DDPG的无线定位网络的资源优化方法,其特征是,所述的网络训练,随机采集无线定位网络中
Figure FDA00031872090300000218
个代理节点的初始位置信息形成训练集,包括:代理节点的集合为
Figure FDA00031872090300000219
锚节点的位置为panchor,采集的第i个节点的初始位置为pi
7.根据权利要求1所述的基于DDPG的无线定位网络的资源优化方法,其特征是,所述的最优的带宽和功率分配方案是指:代理节点通过均匀分配的方案获得代理节点和其他节点之间的距离信息,再通过TOA定位方法估算出代理节点的位置信息;根据代理节点的位置信息获得状态空间,将获得状态空间输入到训练后的DDPG网络,得到最优的资源分配方案。
CN202110865555.2A 2021-07-29 2021-07-29 基于ddpg的无线定位网络的资源优化方法 Active CN113597008B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110865555.2A CN113597008B (zh) 2021-07-29 2021-07-29 基于ddpg的无线定位网络的资源优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110865555.2A CN113597008B (zh) 2021-07-29 2021-07-29 基于ddpg的无线定位网络的资源优化方法

Publications (2)

Publication Number Publication Date
CN113597008A true CN113597008A (zh) 2021-11-02
CN113597008B CN113597008B (zh) 2024-04-12

Family

ID=78251973

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110865555.2A Active CN113597008B (zh) 2021-07-29 2021-07-29 基于ddpg的无线定位网络的资源优化方法

Country Status (1)

Country Link
CN (1) CN113597008B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113573235A (zh) * 2021-08-16 2021-10-29 苏州云享阁智能科技有限公司 一种基于ddpg算法获得最优资源分配以提升定位精度的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109212476A (zh) * 2018-09-18 2019-01-15 广西大学 一种基于ddpg的rfid室内定位算法
CN110087310A (zh) * 2019-05-14 2019-08-02 南京邮电大学 一种干扰环境下无线定位网络资源分配方法
CN113099491A (zh) * 2021-03-12 2021-07-09 哈尔滨工业大学(深圳) 一种无线定位网络资源优化方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109212476A (zh) * 2018-09-18 2019-01-15 广西大学 一种基于ddpg的rfid室内定位算法
CN110087310A (zh) * 2019-05-14 2019-08-02 南京邮电大学 一种干扰环境下无线定位网络资源分配方法
CN113099491A (zh) * 2021-03-12 2021-07-09 哈尔滨工业大学(深圳) 一种无线定位网络资源优化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郑冰原;孙彦赞;吴雅婷;王涛;: "基于深度强化学习的超密集网络资源分配", 电子测量技术, no. 09, 8 May 2020 (2020-05-08) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113573235A (zh) * 2021-08-16 2021-10-29 苏州云享阁智能科技有限公司 一种基于ddpg算法获得最优资源分配以提升定位精度的方法

Also Published As

Publication number Publication date
CN113597008B (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
WO2020176379A1 (en) Multi-agent reinforcement learning for order-dispatching via order-vehicle distribution matching
KR20190103681A (ko) 기계학습을 이용한 무선 백홀망 자원할당방법 및 자원할당 장치
JP2021083091A (ja) マルチエージェント強化学習を介してセルラーネットワークにおいてユーザ機器を関連付けるための方法
CN106897942B (zh) 一种配电网分布式并行状态估计方法及装置
Tao et al. Profit-oriented task allocation for mobile crowdsensing with worker dynamics: Cooperative offline solution and predictive online solution
CN116628448B (zh) 扩展目标中基于深度强化学习的传感器管理方法
CN114116047A (zh) 一种基于强化学习的车载计算密集型应用的v2i卸载方法
CN113642809A (zh) 一种用电量预测方法、装置、计算机设备和存储介质
Sliwa et al. Data-driven network simulation for performance analysis of anticipatory vehicular communication systems
CN113597008B (zh) 基于ddpg的无线定位网络的资源优化方法
CN111491312A (zh) 无线资源预测分配、获取、训练神经网络的方法及设备
CN116456480A (zh) 通信资源受限下基于深度强化学习的多智能体协同决策方法
CN113887748B (zh) 在线联邦学习任务分配方法、装置、联邦学习方法及系统
CN115913712A (zh) 基于多用户多接入点的任务卸载隐私保护系统及方法
Tang et al. The data and science behind grabshare carpooling
Deng et al. Joint air-to-ground scheduling in UAV-aided vehicular communication: A DRL approach with partial observations
CN113114399B (zh) 基于生成对抗网络的三维频谱态势补全方法和装置
CN114051252A (zh) 无线接入网中多用户智能发射功率控制方法
Rikic et al. Cellular network bandwidth prediction in consumer applications
CN116340737A (zh) 基于多智能体强化学习的异构集群零通信目标分配方法
CN114996659B (zh) 一种具有持续学习能力的车辆轨迹预测方法及系统
CN116249202A (zh) 一种物联网设备的联合定位与计算支持方法
Gao et al. Task migration based on deep reinforcement learning in mobile crowdsourcing
Mitchell et al. Persistent multi-robot mapping in an uncertain environment
Jiang et al. Adaptive dynamic programming for multi-driver order dispatching at large-scale

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant