CN113163451A - 一种基于深度强化学习的d2d通信网络切片分配方法 - Google Patents

一种基于深度强化学习的d2d通信网络切片分配方法 Download PDF

Info

Publication number
CN113163451A
CN113163451A CN202110444019.5A CN202110444019A CN113163451A CN 113163451 A CN113163451 A CN 113163451A CN 202110444019 A CN202110444019 A CN 202110444019A CN 113163451 A CN113163451 A CN 113163451A
Authority
CN
China
Prior art keywords
slice
neural network
state
action
resource allocation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110444019.5A
Other languages
English (en)
Other versions
CN113163451B (zh
Inventor
刘元杰
伍沛然
夏明华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202110444019.5A priority Critical patent/CN113163451B/zh
Publication of CN113163451A publication Critical patent/CN113163451A/zh
Application granted granted Critical
Publication of CN113163451B publication Critical patent/CN113163451B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/16Central resource management; Negotiation of resources or communication parameters, e.g. negotiating bandwidth or QoS [Quality of Service]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/53Allocation or scheduling criteria for wireless resources based on regulatory allocation policies

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种基于深度强化学习的D2D通信网络切片分配方法,包括以下步骤:S1:将通信业务根据业务类型进行分类,建立多业务切片和D2D切片资源分配模型;S2:根据Dueling DDQN算法构建切片资源分配的强化学习模型;S3:为Dueling DDQN算法中的智能体定义业务切片的当前状态s、下一时刻状态s′,当前动作a,以及由状态和动作构建系统的奖励r;S4:利用经验回放进行Dueling DDQN的学习,最后得到切片资源分配的最优解。本发明通过对多业务切片和D2D切片进行资源分配,并对应到不同uRLLC切片、mMTC切片、eMBB切片、D2D切片,结合网络切片技术和Dueling DDQN强化学习算法,构建基于深度强化学习的资源分配模型,提高切片资源分配的效率,满足各类业务的通信要求,并使体验质量最优。

Description

一种基于深度强化学习的D2D通信网络切片分配方法
技术领域
本发明涉及移动互联网通信技术领域,更具体地,涉及一种基于深度强化学习的D2D通信网络切片分配方法。
背景技术
互联网的普及,深刻地影响了人们的生产、生活和学习方式,网络已经成为支撑现代社会发展和技术进步的重要基础设施之一。5G时代的来临,为无线通信带来了众多优异的性能。5G将极大提升通信的传输速率支持海量的设备连接,提供超高可靠性、超低时延的卓越性能。5G无线网络支持不同垂直行业的多样化业务场景,如自动驾驶、智能家居、增强现实等,这些业务场景有着不同的通信需求。同样地,多设备的网络接入,为稀缺的频谱资源使用带来了困境。D2D通信利用相邻设备之间的直接链路进行通信,而无需基站的参与,减轻基站的负担。D2D提供了以设备为中心的新视野,将流量从传统的以网络为中心的实体卸载到D2D网络中,增加了系统的网络容量,提高系统的频谱利用率。
为了满足多样化服务和异构网络下的严格通信要求,网络切片技术是一个有效的解决方案。网络切片能够在同一物理网络基础设施上实现多个隔离且独立的虚拟逻辑网络,为通信业务创建定制化的虚拟网络,从而实现业务差异化并保证每种业务的服务等级协议。由于可以按需创建切片,并根据需求对切片进行修改或废止,因此,网络切片提供了动态的无线资源和网络管理的灵活性和适应性。
为了解决动态的需求感知资源分配问题,强化学习是有效的解决方案。强化学习是机器学习的一个分支,强化学习智能体通过观察环境状态转换和获取反馈(奖励)来学习如何在环境中执行最佳操作。基于DQN的深度强化学习在于环境的交互过程中,会过高地估计动作的Q值,估计的误差会随着动作的执行而传递并增加,最终导致智能体无法得到最优的策略。DuelingDDQN强化学习基于竞争的架构,解决了动作值的过估计问题。在复杂的通信场景下,如何利用基于强化学习算法来进行资源分配的决策,以此为多业务通信以及D2D通信提供优异的性能,是值得研究的问题。
公开日为2020年09月18日,公开号为CN111683381A的中国专利公开了一种基于深度强化学习(DQN)的端到端网络切片资源分配算法,从端到端的角度联合考虑接入侧和核心侧影响对资源进行动态合理分配。为训练得到合理的DQN网络,求解DQN中环境的反馈,将端到端系统接入率最优化问题解耦为接入侧和核心侧两部分,然后分别设计动态背包算法以及最大接入的链路映射算法求得最大端到端接入。该专利同样具有DQN的深度强化学习的问题,估计的误差会随着动作的执行而传递并增加,最终导致智能体无法得到最优的策略。
发明内容
本发明提供一种基于深度强化学习的D2D通信网络切片分配方法,有效地保证系统中各业务满足性能要求,为多业务以及D2D通信进行无线资源的分配,从而提供系统通信性能。
为解决上述技术问题,本发明的技术方案如下:
一种基于深度强化学习的D2D通信网络切片分配方法,包括以下步骤:
S1:将通信业务根据业务类型进行分类,建立多业务切片和D2D切片资源分配模型;
S2:根据Dueling DDQN算法构建切片资源分配的强化学习模型;
S3:为Dueling DDQN算法中的智能体定义业务切片的当前状态s、下一时刻状态s′,当前动作a,以及由状态和动作构建系统的奖励r;
S4:利用经验回放进行Dueling DDQN的学习,最后得到切片资源分配的最优解。
优选地,步骤S1中所述将通信业务根据业务类型进行分类,具体分为控制类、数据采集类、媒体类和D2D通信。
优选地,步骤S1中建立多业务切片和D2D切片资源分配模型具体为:
所述控制类通信对应于uRLLC切片,数据采集类通信对应于mMTC切片,媒体类对应于eMBB切片,D2D通信则通过复用uRLLC、mMTC、eMBB切片中的资源形成D2D通信切片;
定义各切片的效用,根据各切片的效用定义系统的效用,以系统最大效用为目标,定义系统的优化目标和约束条件,构建所述的多业务切片和D2D切片资源分配模型。
优选地,所述定义各切片的效用,根据各切片的效用定义系统的效用,以系统最大效用为目标,定义系统的优化目标和约束条件,具体为:
切片的效用由一段时间内,切片中的所用用户成功传输的数据包数量和生成的数据包的数量和比例获得,用公式表示为:
Figure BDA0003036088810000031
式中,QoEn表示数据包成功传输的比例,即切片的效用;
Figure BDA0003036088810000032
是切片所服务的所有用户的集合,而
Figure BDA0003036088810000033
表示用户un所产生的数据包的集合,
Figure BDA0003036088810000034
表示对于数据包
Figure BDA0003036088810000035
用户un是否成功传输,即如果用户un进行数据包的传输时,能够满足业务的速率要求
Figure BDA0003036088810000036
以及时延要求
Figure BDA0003036088810000037
那么
Figure BDA0003036088810000038
否则
Figure BDA0003036088810000039
rn为最低的速率要求,
Figure BDA00030360888100000310
为用户的数据速率,ln为最大的时延要求,
Figure BDA00030360888100000311
为用户的时延;
所述系统的效用表示为各切片的效用的加权和,系统的优化模型用公式表示为:
Figure BDA00030360888100000312
Figure BDA00030360888100000313
Figure BDA00030360888100000314
Figure BDA00030360888100000315
其中,βn是表示切片业务优先级的权重,约束条件C1是系统总体带宽的限制,
Figure BDA00030360888100000316
则表明D2D通信复用上行资源进行传输,C2表明在一定的时间间隔内,切片业务数据包产生的总数量为TQn,C3则表示用户的数据包传输是否成功的限制。
优选地,所述用户的数据速率
Figure BDA00030360888100000317
由分配给用户的频谱资源
Figure BDA00030360888100000318
以及无线信道的信干噪比,而信干噪比由用户与基站之间的无线信道的信道增益,接收基站的接收增益、用户的发射功率、其他干扰用户到基站之间的无线信道的信道增益,其他干扰用户的发射功率决定,数据速率用公式表示为:
Figure BDA0003036088810000041
其中,信干噪比
Figure BDA0003036088810000042
为:
Figure BDA0003036088810000043
Figure BDA0003036088810000044
是用户的发射功率,
Figure BDA0003036088810000045
是用户到基站之间的信道增益,
Figure BDA0003036088810000046
是用户受到的干扰,σ2表示噪声;
用户数据包的时延包括数据包的等待时间lwa和数据包的传输时间ltr
Figure BDA0003036088810000047
优选地,步骤S2中根据Dueling DDQN算法构建切片资源分配的强化学习模型,具体为:
将基站中的切片资源分配控制器定义为强化学习智能体,并创建训练Q神经网络和目标Q神经网络两个网络,所述训练Q神经网络在每一个训练时刻都进行网络权重的更新,而所述目标Q神经网络则按照预设的频率复制所述训练Q神经网络的权重来进行更新,所述训练Q神经网络与所述目标Q神经网络具有一样的结构;
训练Q神经网络和目标Q神经网络的输入是系统的状态,输出分为两个支路,一个支路输出一个标量,表示状态值函数;另一个支路输出动作的优势函数。
优选地,所述创建训练Q神经网络和目标Q神经网络两个网络,具体为:
创建四层全连接的线性神经网络,其中输入层的神经元个数为四个,对应于四种不同的切片的状态;第一中间层的神经元数量设置为512,并采用ReLU函数作为激活函数;第二中间层的神经元数量设置为512,采用ReLU函数作为激活函数;输出层分为两个支路,上层支路使用1个神经元,采用ReLU作为激活函数,输出状态值函数,下层支路使用108个神经元,采用ReLU作为激活函数,输出动作的优势函数。
优选地,步骤S3中所述定义业务切片的当前状态s、下一时刻状态s′,当前动作a,以及由状态和动作构建系统的奖励r,具体为:
所述智能体观察系统环境,获取所需的状态值;
定义智能体观察的状态为切片用户缓存中未传输的数据包数量总和,表示为s=(su,se,sm,sd),其中su,se,sm,sd分别表示uRLLC切片、eMBB切片、mMTC切片以及D2D切片的未传输的数据包数量;
定义智能体的动作为切片无线资源的分配,表示为a=(w1,w2,w3,w4),其中w1,w2,w3,w4分别表示uRLLC切片、eMBB切片、mMTC切片以及D2D切片分配获得的系统资源比例,并且满足w1+w2+w3=1;
定义智能体的奖励为进行业务传输后系统所获得的效用,即
Figure BDA0003036088810000051
定义智能体观察的下一时刻状态为智能体在当前状态s,执行某一动作a后,智能体到达的状态s′。
优选地,步骤S4中所述利用经验回放进行Dueling DDQN的学习,最后得到切片资源分配的最优解,具体为:
为智能体创建一个用于训练的经验回放池,在每一个迭代过程中,将当前时刻状态s,当前时刻动作a,下一时刻状态s′,当前时刻奖励r′组成一个元组(s,a,r′,s′)放在经验回放池中,用于智能体的学习训练;
经验回放以及智能体学习的过程如下:
首先,在学习开始时,智能体不断将经验存到经验回放池中;然后,神经网络训练的过程中,从缓存中取出一个mini-batch,即一个批量的经验数据;训练Q神经网络和目标Q神经网络根据经验数据进行学习,最后得到最优的切片资源分配方案。
优选地,智能体学习具体为:
智能体,目标是找到最优的资源分配策略π*,策略是智能体的状态空间到动作空间的映射,最优策略π*表征了智能体在特定的状态下应该执行什么动作来获取最大的长期的系统奖励,长期系统奖励是一段时间T内系统的折扣奖励总和,折扣因子0<γ<1:
R=r01r12r23r3+…+γT-1rT-1
ri为第i次学习的智能体奖励,0<i<T-1;
在策略π下,系统的动作值函数为:
Figure BDA0003036088810000052
系统收敛到最优策略的时候,最优的策略就是在状态s下,使Q值最大化的动作:
Figure BDA0003036088810000053
采用基于竞争的架构来构建Q神经网络,具体地,Q神经网络的输出层分为两个支路,一个支路输出当前时刻的状态值V(s),另一个支路输出所有的动作优势值A(s,a),它们与Q值之间的关系如下:
Q(s,a)=V(s)+A(s,a)
在Q神经网络中输入状态s,那么得到动作值函数表示为:
Figure BDA0003036088810000061
其中θ是Q神经网络的权重参数;
切片分配具体有以下过程得出:
初始化训练Q神经网络
Figure BDA0003036088810000062
和目标Q神经网络
Figure BDA0003036088810000063
权重
Figure BDA0003036088810000064
初始化经验回放池B容量为N,时刻t=0,目标Q神经网络的更新周期Ttr
初始化mini-batch的大小为size;
当切片资源控制器未获得最优的策略,切片资源控制器观察环境,获取各个切片未发送的数据包数量,即状态st,执行∈-greedy策略,以概率∈t随机选择一个切片资源分配动作at;否则选择动作at=argmaxa Q(st,a;θB);
切片资源控制器执行资源分配动作at,获得经过裁剪后的奖励rt,并观察下一时刻状态st+1
将经验(st,at,rt+1,st+1)存放到B中,若B容量满则覆盖之前的经验;
随机从经验回放池B中取出size个经验,组成mini-batch(si,ai,ri+1,si+1),得到
Figure BDA0003036088810000065
计算
Figure BDA0003036088810000066
计算损失函数
Figure BDA0003036088810000067
利用Adam优化器更新训练Q神经网络的权值θA,如果mod(t,Ttr)==0,则更新目标Q神经网络
Figure BDA0003036088810000068
更新t=t+1,直到t达到最大值前,重复上述步骤,得到切片分配。
与现有技术相比,本发明技术方案的有益效果是:
本发明通过对多业务切片和D2D切片进行资源分配,并对应到不同uRLLC切片、mMTC切片、eMBB切片、D2D切片,结合网络切片技术和Dueling DDQN强化学习算法,构建基于深度强化学习的资源分配模型,提高切片资源分配的效率,满足各类业务的通信要求,并使体验质量最优。
附图说明
图1为本发明的方法流程示意图。
图2为是实施例中的网络切片资源分配模型示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本实施例提供一种基于深度强化学习的D2D通信网络切片分配方法,如图1所示,包括以下步骤:
S1:将通信业务根据业务类型进行分类,建立多业务切片和D2D切片资源分配模型;
S2:根据Dueling DDQN算法构建切片资源分配的强化学习模型;
S3:为Dueling DDQN算法中的智能体定义业务切片的当前状态s、下一时刻状态s′,当前动作a,以及由状态和动作构建系统的奖励r;
S4:利用经验回放进行Dueling DDQN的学习,最后得到切片资源分配的最优解。
步骤S1中所述将通信业务根据业务类型进行分类,具体分为控制类、数据采集类、媒体类和D2D通信。
步骤S1中建立多业务切片和D2D切片资源分配模型具体为:
所述控制类通信对应于uRLLC切片,数据采集类通信对应于mMTC切片,媒体类对应于eMBB切片,D2D通信则通过复用uRLLC、mMTC、eMBB切片中的资源形成D2D通信切片;四种切片的集合表示为x={x1,x2,x3,x4},这些切片共享聚合的系统无线频谱资源,
Figure BDA0003036088810000071
表示系统中的所有用户的集合,
Figure BDA0003036088810000072
Figure BDA0003036088810000073
表示分类到切片xn的用户的集合。对于用户
Figure BDA0003036088810000074
他们的业务服从特定的流量模型,即用户数据包的生成服从特定的分布。
表1给出典型业务和D2D通信的通信要求,系统为各个切片分配无线频谱资源,首先,建立多业务切片和D2D切片资源分配模型,并定义系统的优化目标和约束条件,然后建立基于DuelingDDQN的切片资源分配的强化学习模型。进一步地,采用一种基于DuelingDDQN的深度强化学习资源分配算法——RC-D3QN算法,并将基站的资源分配控制器作为智能体,通过定义状态、动作、奖励,利用经验回放进行智能体的训练,最终收敛,分配结果满足各个切片的通信要求,并得到资源分配的最优解。
Figure BDA0003036088810000081
定义各切片的效用,根据各切片的效用定义系统的效用,以系统最大效用为目标,定义系统的优化目标和约束条件,构建所述的多业务切片和D2D切片资源分配模型。
所述定义各切片的效用,根据各切片的效用定义系统的效用,以系统最大效用为目标,定义系统的优化目标和约束条件,具体为:
切片的效用由一段时间内,切片中的所用用户成功传输的数据包数量和生成的数据包的数量和比例获得,用公式表示为:
Figure BDA0003036088810000082
式中,QoEn表示数据包成功传输的比例,即切片的效用;
Figure BDA0003036088810000083
是切片所服务的所有用户的集合,而
Figure BDA0003036088810000084
表示用户un所产生的数据包的集合,
Figure BDA0003036088810000085
表示对于数据包
Figure BDA0003036088810000086
用户un是否成功传输,即如果用户un进行数据包的传输时,能够满足业务的速率要求
Figure BDA0003036088810000087
以及时延要求
Figure BDA0003036088810000088
那么
Figure BDA0003036088810000089
否则
Figure BDA00030360888100000810
rn为最低的速率要求,
Figure BDA00030360888100000811
为用户的数据速率,ln为最大的时延要求,
Figure BDA00030360888100000812
为用户的时延;
所述系统的效用表示为各切片的效用的加权和,系统的优化模型用公式表示为:
Figure BDA0003036088810000091
Figure BDA0003036088810000092
Figure BDA0003036088810000093
Figure BDA0003036088810000094
其中,βn是表示切片业务优先级的权重,约束条件C1是系统总体带宽的限制,
Figure BDA0003036088810000095
则表明D2D通信复用上行资源进行传输,C2表明在一定的时间间隔内,切片业务数据包产生的总数量为TQn,C3则表示用户的数据包传输是否成功的限制。
所述用户的数据速率
Figure BDA0003036088810000096
由分配给用户的频谱资源
Figure BDA0003036088810000097
以及无线信道的信干噪比,而信干噪比由用户与基站之间的无线信道的信道增益,接收基站的接收增益、用户的发射功率、其他干扰用户到基站之间的无线信道的信道增益,其他干扰用户的发射功率决定,数据速率用公式表示为:
Figure BDA0003036088810000098
其中,信干噪比
Figure BDA0003036088810000099
为:
Figure BDA00030360888100000910
Figure BDA00030360888100000911
是用户的发射功率,
Figure BDA00030360888100000912
是用户到基站之间的信道增益,
Figure BDA00030360888100000913
是用户受到的干扰,σ2表示噪声;
用户数据包的时延包括数据包的等待时间lwa和数据包的传输时间ltr
Figure BDA00030360888100000914
步骤S2中根据Dueling DDQN算法构建切片资源分配的强化学习模型,具体为:
将基站中的切片资源分配控制器定义为强化学习智能体,并创建训练Q神经网络和目标Q神经网络两个网络,所述训练Q神经网络在每一个训练时刻都进行网络权重的更新,而所述目标Q神经网络则按照预设的频率复制所述训练Q神经网络的权重来进行更新,所述训练Q神经网络与所述目标Q神经网络具有一样的结构;
训练Q神经网络和目标Q神经网络的输入是系统的状态,输出分为两个支路,一个支路输出一个标量,表示状态值函数;另一个支路输出动作的优势函数。
所述创建训练Q神经网络和目标Q神经网络两个网络,具体为:
创建四层全连接的线性神经网络,其中输入层的神经元个数为四个,对应于四种不同的切片的状态;第一中间层的神经元数量设置为512,并采用ReLU函数作为激活函数;第二中间层的神经元数量设置为512,采用ReLU函数作为激活函数;输出层分为两个支路,上层支路使用1个神经元,采用ReLU作为激活函数,输出状态值函数,下层支路使用108个神经元,采用ReLU作为激活函数,输出动作的优势函数。
步骤S3中所述定义业务切片的当前状态s、下一时刻状态s′,当前动作a,以及由状态和动作构建系统的奖励r,具体为:
所述智能体观察系统环境,获取所需的状态值;
定义智能体观察的状态为切片用户缓存中未传输的数据包数量总和,表示为s=(su,se,sm,sd),其中su,se,sm,sd分别表示uRLLC切片、eMBB切片、mMTC切片以及D2D切片的未传输的数据包数量;
定义智能体的动作为切片无线资源的分配,表示为a=(w1,w2,w3,w4),其中w1,w2,w3,w4分别表示uRLLC切片、eMBB切片、mMTC切片以及D2D切片分配获得的系统资源比例,并且满足w1+w2+w3=1;
定义智能体的奖励为进行业务传输后系统所获得的效用,即
Figure BDA0003036088810000101
定义智能体观察的下一时刻状态为智能体在当前状态s,执行某一动作a后,智能体到达的状态s′。
步骤S4中所述利用经验回放进行Dueling DDQN的学习,最后得到切片资源分配的最优解,如图2所示,具体为:
提出RC-D3QN算法对智能体进行训练。为了提高智能体资源分配的效率和速度,提出了奖励函数的设置机制。为了适应动态环境的变化,RC-D3QN方法采用reward clipping的思想将奖励剪裁到区间r∈{0,1}中。具体地,奖励剪裁的思想是:根据系统环境先验知识设置一个系统效用阈值Threshold,如果系统的效用低于该阈值,则r=0;如果切片资源的分配方案使得系统的效用大于阈值Threshold,则r=1。
为智能体创建一个用于训练的经验回放池,在每一个迭代过程中,将当前时刻状态s,当前时刻动作a,下一时刻状态s′,当前时刻奖励r′组成一个元组(s,a,r′,s′)放在经验回放池中,用于智能体的学习训练;
经验回放以及智能体学习的过程如下:
首先,在学习开始时,智能体不断将经验存到经验回放池中;然后,神经网络训练的过程中,从缓存中取出一个mini-batch,即一个批量的经验数据;训练Q神经网络和目标Q神经网络根据经验数据进行学习,最后得到最优的切片资源分配方案。
智能体学习具体为:
智能体,目标是找到最优的资源分配策略π*,策略是智能体的状态空间到动作空间的映射,最优策略π*表征了智能体在特定的状态下应该执行什么动作来获取最大的长期的系统奖励,长期系统奖励是一段时间T内系统的折扣奖励总和,折扣因子0<γ<1:
R=r01r12r23r3+…+γT-1rT-1
ri为第i次学习的智能体奖励,0<i<T-1;
在策略π下,系统的动作值函数为:
Figure BDA0003036088810000111
系统收敛到最优策略的时候,最优的策略就是在状态s下,使Q值最大化的动作:
Figure BDA0003036088810000112
采用基于竞争的架构来构建Q神经网络,具体地,Q神经网络的输出层分为两个支路,一个支路输出当前时刻的状态值V(s),另一个支路输出所有的动作优势值A(s,a),它们与Q值之间的关系如下:
Q(s,a)=V(s)+A(s,a)
在Q神经网络中输入状态s,那么得到动作值函数表示为:
Figure BDA0003036088810000121
其中θ是Q神经网络的权重参数;
切片分配具体有以下过程得出:
初始化训练Q神经网络
Figure BDA0003036088810000122
和目标Q神经网络
Figure BDA0003036088810000123
权重
Figure BDA0003036088810000124
初始化经验回放池S容量为N,时刻t=0,目标Q神经网络的更新周期Ttr
初始化mini-batch的大小为size;
当切片资源控制器未获得最优的策略,切片资源控制器观察环境,获取各个切片未发送的数据包数量,即状态st,执行∈-greedy策略,以概率∈t随机选择一个切片资源分配动作at;否则选择动作at=argmaxa Q(st,a;θB);
切片资源控制器执行资源分配动作at,获得经过裁剪后的奖励rt,并观察下一时刻状态st+1
将经验(st,at,rt+1,st+1)存放到B中,若B容量满则覆盖之前的经验;
随机从经验回放池B中取出size个经验,组成mini-batch(si,ai,ri+1,si+1),得到
Figure BDA0003036088810000125
计算
Figure BDA0003036088810000126
计算损失函数
Figure BDA0003036088810000127
利用Adam优化器更新训练Q神经网络的权值θA,如果mod(t,Ttr)==0,则更新目标Q神经网络
Figure BDA0003036088810000128
更新t=t+1,直到t达到最大值前,重复上述步骤,得到切片分配。
本发明实施例通过对多业务切片和D2D切片进行资源分配,结合网络切片技术和Dueling DDQN强化学习算法,并利用奖励剪裁机制提高智能体的收敛速率,提高切片资源分配的效率。此外,利用∈-greedy机制保证智能体获得全局得最优奖励。
本发明提供了一种基于深度强化学习的D2D通信切片分配方法,通过对多类业务和D2D通信分类,并对应到不同uRLLC切片、mMTC切片、eMBB切片、D2D切片。然后构建基于深度强化学习的资源分配模型,采用RC-D3QN算法对不同的切片进行资源的分配,满足各类业务的通信要求,并使体验质量最优。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于深度强化学习的D2D通信网络切片分配方法,其特征在于,包括以下步骤:
S1:将通信业务根据业务类型进行分类,建立多业务切片和D2D切片资源分配模型;
S2:根据Dueling DDQN算法构建切片资源分配的强化学习模型;
S3:为Dueling DDQN算法中的智能体定义业务切片的当前状态s、下一时刻状态s′,当前动作a,以及由状态和动作构建系统的奖励r;
S4:利用经验回放进行Dueling DDQN的学习,最后得到切片资源分配的最优解。
2.根据权利要求1所述的基于深度强化学习的D2D通信网络切片分配方法,其特征在于,步骤S1中所述将通信业务根据业务类型进行分类,具体分为控制类、数据采集类、媒体类和D2D通信。
3.根据权利要求2所述的基于深度强化学习的D2D通信网络切片分配方法,其特征在于,步骤S1中建立多业务切片和D2D切片资源分配模型具体为:
所述控制类通信对应于uRLLC切片,数据采集类通信对应于mMTC切片,媒体类对应于eMBB切片,D2D通信则通过复用uRLLC、mMTC、eMBB切片中的资源形成D2D通信切片;
定义各切片的效用,根据各切片的效用定义系统的效用,以系统最大效用为目标,定义系统的优化目标和约束条件,构建所述的多业务切片和D2D切片资源分配模型。
4.根据权利要求3所述的基于深度强化学习的D2D通信网络切片分配方法,其特征在于,所述定义各切片的效用,根据各切片的效用定义系统的效用,以系统最大效用为目标,定义系统的优化目标和约束条件,具体为:
切片的效用由一段时间内,切片中的所用用户成功传输的数据包数量和生成的数据包的数量和比例获得,用公式表示为:
Figure FDA0003036088800000011
式中,QoEn表示数据包成功传输的比例,即切片的效用;
Figure FDA0003036088800000012
是切片所服务的所有用户的集合,而
Figure FDA0003036088800000021
表示用户un所产生的数据包的集合,
Figure FDA0003036088800000022
表示对于数据包
Figure FDA0003036088800000023
用户un是否成功传输,即如果用户un进行数据包的传输时,能够满足业务的速率要求
Figure FDA0003036088800000024
以及时延要求
Figure FDA0003036088800000025
那么
Figure FDA0003036088800000026
否则
Figure FDA0003036088800000027
rn为最低的速率要求,
Figure FDA0003036088800000028
为用户的数据速率,ln为最大的时延要求,
Figure FDA0003036088800000029
为用户的时延;
所述系统的效用表示为各切片的效用的加权和,系统的优化模型用公式表示为:
Figure FDA00030360888000000210
Figure FDA00030360888000000211
Figure FDA00030360888000000212
其中,βn是表示切片业务优先级的权重,约束条件C1是系统总体带宽的限制,
Figure FDA00030360888000000213
则表明D2D通信复用上行资源进行传输,C2表明在一定的时间间隔内,切片业务数据包产生的总数量为TQn,C3则表示用户的数据包传输是否成功的限制。
5.根据权利要求4所述的基于深度强化学习的D2D通信网络切片分配方法,其特征在于,所述用户的数据速率
Figure FDA00030360888000000214
由分配给用户的频谱资源
Figure FDA00030360888000000215
以及无线信道的信干噪比,而信干噪比由用户与基站之间的无线信道的信道增益,接收基站的接收增益、用户的发射功率、其他干扰用户到基站之间的无线信道的信道增益,其他干扰用户的发射功率决定,数据速率用公式表示为:
Figure FDA00030360888000000216
其中,信干噪比
Figure FDA00030360888000000217
为:
Figure FDA00030360888000000218
Figure FDA00030360888000000219
是用户的发射功率,
Figure FDA00030360888000000220
是用户到基站之间的信道增益,
Figure FDA00030360888000000221
是用户受到的干扰,σ2表示噪声;
用户数据包的时延包括数据包的等待时间lwa和数据包的传输时间ltr
Figure FDA0003036088800000031
6.根据权利要求5所述的基于深度强化学习的D2D通信网络切片分配方法,其特征在于,步骤S2中根据Dueling DDQN算法构建切片资源分配的强化学习模型,具体为:
将基站中的切片资源分配控制器定义为强化学习智能体,并创建训练Q神经网络和目标Q神经网络两个网络,所述训练Q神经网络在每一个训练时刻都进行网络权重的更新,而所述目标Q神经网络则按照预设的频率复制所述训练Q神经网络的权重来进行更新,所述训练Q神经网络与所述目标Q神经网络具有一样的结构;
训练Q神经网络和目标Q神经网络的输入是系统的状态,输出分为两个支路,一个支路输出一个标量,表示状态值函数;另一个支路输出动作的优势函数。
7.根据权利要求6所述的基于深度强化学习的D2D通信网络切片分配方法,其特征在于,所述创建训练Q神经网络和目标Q神经网络两个网络,具体为:
创建四层全连接的线性神经网络,其中输入层的神经元个数为四个,对应于四种不同的切片的状态;第一中间层的神经元数量设置为512,并采用ReLU函数作为激活函数;第二中间层的神经元数量设置为512,采用ReLU函数作为激活函数;输出层分为两个支路,上层支路使用1个神经元,采用ReLU作为激活函数,输出状态值函数,下层支路使用108个神经元,采用ReLU作为激活函数,输出动作的优势函数。
8.根据权利要求7所述的基于深度强化学习的D2D通信网络切片分配方法,其特征在于,步骤S3中所述定义业务切片的当前状态s、下一时刻状态s′,当前动作a,以及由状态和动作构建系统的奖励r,具体为:
所述智能体观察系统环境,获取所需的状态值;
定义智能体观察的状态为切片用户缓存中未传输的数据包数量总和,表示为s=(su,se,sm,sd),其中su,se,sm,sd分别表示uRLLC切片、eMBB切片、mMTC切片以及D2D切片的未传输的数据包数量;
定义智能体的动作为切片无线资源的分配,表示为a=(w1,w2,w3,w4),其中w1,w2,w3,w4分别表示uRLLC切片、eMBB切片、mMTC切片以及D2D切片分配获得的系统资源比例,并且满足w1+w2+w3=1;
定义智能体的奖励为进行业务传输后系统所获得的效用,即
Figure FDA0003036088800000041
定义智能体观察的下一时刻状态为智能体在当前状态s,执行某一动作a后,智能体到达的状态s′。
9.根据权利要求8所述的基于深度强化学习的D2D通信网络切片分配方法,其特征在于,步骤S4中所述利用经验回放进行Dueling DDQN的学习,最后得到切片资源分配的最优解,具体为:
为智能体创建一个用于训练的经验回放池,在每一个迭代过程中,将当前时刻状态s,当前时刻动作a,下一时刻状态s′,当前时刻奖励r′组成一个元组(s,a,r′,s′)放在经验回放池中,用于智能体的学习训练;
经验回放以及智能体学习的过程如下:
首先,在学习开始时,智能体不断将经验存到经验回放池中;然后,神经网络训练的过程中,从缓存中取出一个mini-batch,即一个批量的经验数据;训练Q神经网络和目标Q神经网络根据经验数据进行学习,最后得到最优的切片资源分配方案。
10.根据权利要求9所述的基于深度强化学习的D2D通信网络切片分配方法,其特征在于,智能体学习具体为:
智能体,目标是找到最优的资源分配策略π*,策略是智能体的状态空间到动作空间的映射,最优策略π*表征了智能体在特定的状态下应该执行什么动作来获取最大的长期的系统奖励,长期系统奖励是一段时间T内系统的折扣奖励总和,折扣因子0<γ<1:
R=r01r12r23r3+…+γT-1rT-1
ri为第i次学习的智能体奖励,0<i<T-1;
在策略π下,系统的动作值函数为:
Figure FDA0003036088800000042
系统收敛到最优策略的时候,最优的策略就是在状态s下,使Q值最大化的动作:
Figure FDA0003036088800000043
采用基于竞争的架构来构建Q神经网络,具体地,Q神经网络的输出层分为两个支路,一个支路输出当前时刻的状态值V(s),另一个支路输出所有的动作优势值A(s,a),它们与Q值之间的关系如下:
Q(s,a)=V(s)+A(s,a)
在Q神经网络中输入状态s,那么得到动作值函数表示为:
Figure FDA0003036088800000051
其中θ是Q神经网络的权重参数;
切片分配具体有以下过程得出:
初始化训练Q神经网络
Figure FDA0003036088800000052
和目标Q神经网络
Figure FDA0003036088800000053
权重
Figure FDA0003036088800000054
初始化经验回放池B容量为N,时刻t=0,目标Q神经网络的更新周期Ttr
初始化mini-batch的大小为size;
当切片资源控制器未获得最优的策略,切片资源控制器观察环境,获取各个切片未发送的数据包数量,即状态st,执行∈-greedy策略,以概率∈t随机选择一个切片资源分配动作at;否则选择动作at=argmaxaQ(st,a;θB);
切片资源控制器执行资源分配动作at,获得经过裁剪后的奖励rt,并观察下一时刻状态st+1
将经验(st,at,rt+1,st+1)存放到B中,若B容量满则覆盖之前的经验;
随机从经验回放池B中取出size个经验,组成mini-batch(si,ai,ri+1,si+1),得到
Figure FDA0003036088800000055
计算
Figure FDA0003036088800000056
计算损失函数
Figure FDA0003036088800000057
利用Adam优化器更新训练Q神经网络的权值θA,如果mod(t,Ttr)==0,则更新目标Q神经网络
Figure FDA0003036088800000058
更新t=t+1,直到t达到最大值前,重复上述步骤,得到切片分配。
CN202110444019.5A 2021-04-23 2021-04-23 一种基于深度强化学习的d2d通信网络切片分配方法 Active CN113163451B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110444019.5A CN113163451B (zh) 2021-04-23 2021-04-23 一种基于深度强化学习的d2d通信网络切片分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110444019.5A CN113163451B (zh) 2021-04-23 2021-04-23 一种基于深度强化学习的d2d通信网络切片分配方法

Publications (2)

Publication Number Publication Date
CN113163451A true CN113163451A (zh) 2021-07-23
CN113163451B CN113163451B (zh) 2022-08-02

Family

ID=76870003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110444019.5A Active CN113163451B (zh) 2021-04-23 2021-04-23 一种基于深度强化学习的d2d通信网络切片分配方法

Country Status (1)

Country Link
CN (1) CN113163451B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537383A (zh) * 2021-07-29 2021-10-22 周口师范学院 基于深度迁移强化学习无线网络异常流量检测方法
CN113727306A (zh) * 2021-08-16 2021-11-30 南京大学 一种基于深度强化学习的解耦c-v2x网络切片方法
CN113891401A (zh) * 2021-11-12 2022-01-04 中国电子科技集团公司第七研究所 一种基于深度强化学习的异构网络切片调度方法
CN113938415A (zh) * 2021-09-09 2022-01-14 华中科技大学 一种基于链路状态估计的网络路由转发方法及系统
CN113965945A (zh) * 2021-09-28 2022-01-21 北京工业大学 端到端网络切片的切换方法及系统
CN114500561A (zh) * 2022-02-17 2022-05-13 中国电力科学研究院有限公司 电力物联网网络资源分配决策方法、系统、设备及介质
CN114520772A (zh) * 2022-01-19 2022-05-20 广州杰赛科技股份有限公司 一种5g切片资源调度方法
CN114666220A (zh) * 2022-03-23 2022-06-24 中国电信股份有限公司 网络切片的资源配置方法及装置、存储介质、电子设备
CN114928549A (zh) * 2022-04-20 2022-08-19 清华大学 基于强化学习的非授权频段的通信资源分配方法及装置
CN116095720A (zh) * 2023-03-09 2023-05-09 南京邮电大学 基于深度强化学习的网络业务接入和切片资源配置方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200241921A1 (en) * 2019-01-28 2020-07-30 EMC IP Holding Company LLC Building neural networks for resource allocation for iterative workloads using reinforcement learning
CN111726811A (zh) * 2020-05-26 2020-09-29 国网浙江省电力有限公司嘉兴供电公司 一种用于认知无线网络的切片资源分配方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200241921A1 (en) * 2019-01-28 2020-07-30 EMC IP Holding Company LLC Building neural networks for resource allocation for iterative workloads using reinforcement learning
CN111726811A (zh) * 2020-05-26 2020-09-29 国网浙江省电力有限公司嘉兴供电公司 一种用于认知无线网络的切片资源分配方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GUOLIN SUN,ET AL.: "Autonomous Resource Slicing for Virtualized Vehicular Networks With D2D Communications Based on Deep Reinforcement Learning", 《IEEE SYSTEMS JOURNAL》 *
管婉青等: "基于DRL的6G多租户网络切片智能资源分配算法", 《北京邮电大学学报》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537383B (zh) * 2021-07-29 2023-04-07 周口师范学院 基于深度迁移强化学习无线网络异常流量检测方法
CN113537383A (zh) * 2021-07-29 2021-10-22 周口师范学院 基于深度迁移强化学习无线网络异常流量检测方法
CN113727306B (zh) * 2021-08-16 2023-04-07 南京大学 一种基于深度强化学习的解耦c-v2x网络切片方法
CN113727306A (zh) * 2021-08-16 2021-11-30 南京大学 一种基于深度强化学习的解耦c-v2x网络切片方法
CN113938415A (zh) * 2021-09-09 2022-01-14 华中科技大学 一种基于链路状态估计的网络路由转发方法及系统
CN113965945A (zh) * 2021-09-28 2022-01-21 北京工业大学 端到端网络切片的切换方法及系统
CN113891401A (zh) * 2021-11-12 2022-01-04 中国电子科技集团公司第七研究所 一种基于深度强化学习的异构网络切片调度方法
CN114520772A (zh) * 2022-01-19 2022-05-20 广州杰赛科技股份有限公司 一种5g切片资源调度方法
CN114520772B (zh) * 2022-01-19 2023-11-14 广州杰赛科技股份有限公司 一种5g切片资源调度方法
CN114500561A (zh) * 2022-02-17 2022-05-13 中国电力科学研究院有限公司 电力物联网网络资源分配决策方法、系统、设备及介质
CN114500561B (zh) * 2022-02-17 2024-02-20 中国电力科学研究院有限公司 电力物联网网络资源分配决策方法、系统、设备及介质
CN114666220A (zh) * 2022-03-23 2022-06-24 中国电信股份有限公司 网络切片的资源配置方法及装置、存储介质、电子设备
CN114928549A (zh) * 2022-04-20 2022-08-19 清华大学 基于强化学习的非授权频段的通信资源分配方法及装置
CN116095720A (zh) * 2023-03-09 2023-05-09 南京邮电大学 基于深度强化学习的网络业务接入和切片资源配置方法

Also Published As

Publication number Publication date
CN113163451B (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
CN113163451B (zh) 一种基于深度强化学习的d2d通信网络切片分配方法
CN109729528B (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
CN108737057B (zh) 基于深度学习的多载波认知noma资源分配方法
CN111010294A (zh) 一种基于深度强化学习的电力通信网路由方法
CN112601284B (zh) 基于多智能体深度强化学习的下行多小区ofdma资源分配方法
Zhang et al. Team learning-based resource allocation for open radio access network (O-RAN)
CN106454920B (zh) 一种lte与d2d混合网络中基于时延保证的资源分配优化算法
CN109982434B (zh) 无线资源调度一体智能化控制系统及方法、无线通信系统
Wang et al. Joint resource allocation and power control for D2D communication with deep reinforcement learning in MCC
WO2023179010A1 (zh) 一种noma-mec系统中的用户分组和资源分配方法及装置
CN111182511B (zh) 一种mMTC场景中基于AGA的NOMA资源分配方法
CN114827191B (zh) 一种车路协同系统中融合noma的动态任务卸载方法
CN112566261A (zh) 一种基于深度强化学习的上行noma资源分配方法
CN111726845A (zh) 多用户异构网络系统中的基站切换选择和功率分配方法
CN113395723B (zh) 基于强化学习的5g nr下行调度时延优化系统
CN114189870A (zh) 基于多智能体深度强化学习的多小区多业务资源分配方法
CN114867030A (zh) 双时间尺度智能无线接入网切片方法
CN116582860A (zh) 一种基于信息年龄约束的链路资源分配方法
CN116347635A (zh) 一种基于NOMA和多智能体强化学习的NB-IoT无线资源分配方法
CN115134779A (zh) 一种基于信息年龄感知的车联网资源分配方法
CN113453358B (zh) 一种无线携能d2d网络的联合资源分配方法
CN114423028A (zh) 基于多智能体深度强化学习的CoMP-NOMA协作成簇与功率分配方法
CN114885422A (zh) 一种超密集网络中基于混合接入方式的动态边缘计算卸载方法
CN112887314B (zh) 一种时延感知的云雾协作视频分发方法
CN112887999A (zh) 一种基于分布式a-c的智能接入控制与资源分配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant