CN113163451B - 一种基于深度强化学习的d2d通信网络切片分配方法 - Google Patents
一种基于深度强化学习的d2d通信网络切片分配方法 Download PDFInfo
- Publication number
- CN113163451B CN113163451B CN202110444019.5A CN202110444019A CN113163451B CN 113163451 B CN113163451 B CN 113163451B CN 202110444019 A CN202110444019 A CN 202110444019A CN 113163451 B CN113163451 B CN 113163451B
- Authority
- CN
- China
- Prior art keywords
- slice
- neural network
- state
- action
- resource allocation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/16—Central resource management; Negotiation of resources or communication parameters, e.g. negotiating bandwidth or QoS [Quality of Service]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/53—Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提供一种基于深度强化学习的D2D通信网络切片分配方法,包括以下步骤:S1:将通信业务根据业务类型进行分类,建立多业务切片和D2D切片资源分配模型;S2:根据Dueling DDQN算法构建切片资源分配的强化学习模型;S3:为Dueling DDQN算法中的智能体定义业务切片的当前状态s、下一时刻状态s′,当前动作a,以及由状态和动作构建系统的奖励r;S4:利用经验回放进行Dueling DDQN的学习,最后得到切片资源分配的最优解。本发明通过对多业务切片和D2D切片进行资源分配,并对应到不同uRLLC切片、mMTC切片、eMBB切片、D2D切片,结合网络切片技术和Dueling DDQN强化学习算法,构建基于深度强化学习的资源分配模型,提高切片资源分配的效率,满足各类业务的通信要求,并使体验质量最优。
Description
技术领域
本发明涉及移动互联网通信技术领域,更具体地,涉及一种基于深度强化学习的D2D通信网络切片分配方法。
背景技术
互联网的普及,深刻地影响了人们的生产、生活和学习方式,网络已经成为支撑现代社会发展和技术进步的重要基础设施之一。5G时代的来临,为无线通信带来了众多优异的性能。5G将极大提升通信的传输速率支持海量的设备连接,提供超高可靠性、超低时延的卓越性能。5G无线网络支持不同垂直行业的多样化业务场景,如自动驾驶、智能家居、增强现实等,这些业务场景有着不同的通信需求。同样地,多设备的网络接入,为稀缺的频谱资源使用带来了困境。D2D通信利用相邻设备之间的直接链路进行通信,而无需基站的参与,减轻基站的负担。D2D提供了以设备为中心的新视野,将流量从传统的以网络为中心的实体卸载到D2D网络中,增加了系统的网络容量,提高系统的频谱利用率。
为了满足多样化服务和异构网络下的严格通信要求,网络切片技术是一个有效的解决方案。网络切片能够在同一物理网络基础设施上实现多个隔离且独立的虚拟逻辑网络,为通信业务创建定制化的虚拟网络,从而实现业务差异化并保证每种业务的服务等级协议。由于可以按需创建切片,并根据需求对切片进行修改或废止,因此,网络切片提供了动态的无线资源和网络管理的灵活性和适应性。
为了解决动态的需求感知资源分配问题,强化学习是有效的解决方案。强化学习是机器学习的一个分支,强化学习智能体通过观察环境状态转换和获取反馈(奖励)来学习如何在环境中执行最佳操作。基于DQN的深度强化学习在于环境的交互过程中,会过高地估计动作的Q值,估计的误差会随着动作的执行而传递并增加,最终导致智能体无法得到最优的策略。DuelingDDQN强化学习基于竞争的架构,解决了动作值的过估计问题。在复杂的通信场景下,如何利用基于强化学习算法来进行资源分配的决策,以此为多业务通信以及D2D通信提供优异的性能,是值得研究的问题。
公开日为2020年09月18日,公开号为CN111683381A的中国专利公开了一种基于深度强化学习(DQN)的端到端网络切片资源分配算法,从端到端的角度联合考虑接入侧和核心侧影响对资源进行动态合理分配。为训练得到合理的DQN网络,求解DQN中环境的反馈,将端到端系统接入率最优化问题解耦为接入侧和核心侧两部分,然后分别设计动态背包算法以及最大接入的链路映射算法求得最大端到端接入。该专利同样具有DQN的深度强化学习的问题,估计的误差会随着动作的执行而传递并增加,最终导致智能体无法得到最优的策略。
发明内容
本发明提供一种基于深度强化学习的D2D通信网络切片分配方法,有效地保证系统中各业务满足性能要求,为多业务以及D2D通信进行无线资源的分配,从而提供系统通信性能。
为解决上述技术问题,本发明的技术方案如下:
一种基于深度强化学习的D2D通信网络切片分配方法,包括以下步骤:
S1:将通信业务根据业务类型进行分类,建立多业务切片和D2D切片资源分配模型;
S2:根据Dueling DDQN算法构建切片资源分配的强化学习模型;
S3:为Dueling DDQN算法中的智能体定义业务切片的当前状态s、下一时刻状态s′,当前动作a,以及由状态和动作构建系统的奖励r;
S4:利用经验回放进行Dueling DDQN的学习,最后得到切片资源分配的最优解。
优选地,步骤S1中所述将通信业务根据业务类型进行分类,具体分为控制类、数据采集类、媒体类和D2D通信。
优选地,步骤S1中建立多业务切片和D2D切片资源分配模型具体为:
所述控制类通信对应于uRLLC切片,数据采集类通信对应于mMTC切片,媒体类对应于eMBB切片,D2D通信则通过复用uRLLC、mMTC、eMBB切片中的资源形成D2D通信切片;
定义各切片的效用,根据各切片的效用定义系统的效用,以系统最大效用为目标,定义系统的优化目标和约束条件,构建所述的多业务切片和D2D切片资源分配模型。
优选地,所述定义各切片的效用,根据各切片的效用定义系统的效用,以系统最大效用为目标,定义系统的优化目标和约束条件,具体为:
切片的效用由一段时间内,切片中的所用用户成功传输的数据包数量和生成的数据包的数量和比例获得,用公式表示为:
式中,QoEn表示数据包成功传输的比例,即切片的效用;是切片所服务的所有用户的集合,而表示用户un所产生的数据包的集合,表示对于数据包用户un是否成功传输,即如果用户un进行数据包的传输时,能够满足业务的速率要求以及时延要求那么否则rn为最低的速率要求,为用户的数据速率,ln为最大的时延要求,为用户的时延;
所述系统的效用表示为各切片的效用的加权和,系统的优化模型用公式表示为:
其中,βn是表示切片业务优先级的权重,约束条件C1是系统总体带宽的限制,则表明D2D通信复用上行资源进行传输,C2表明在一定的时间间隔内,切片业务数据包产生的总数量为TQn,C3则表示用户的数据包传输是否成功的限制。
优选地,所述用户的数据速率由分配给用户的频谱资源以及无线信道的信干噪比,而信干噪比由用户与基站之间的无线信道的信道增益,接收基站的接收增益、用户的发射功率、其他干扰用户到基站之间的无线信道的信道增益,其他干扰用户的发射功率决定,数据速率用公式表示为:
用户数据包的时延包括数据包的等待时间lwa和数据包的传输时间ltr:
优选地,步骤S2中根据Dueling DDQN算法构建切片资源分配的强化学习模型,具体为:
将基站中的切片资源分配控制器定义为强化学习智能体,并创建训练Q神经网络和目标Q神经网络两个网络,所述训练Q神经网络在每一个训练时刻都进行网络权重的更新,而所述目标Q神经网络则按照预设的频率复制所述训练Q神经网络的权重来进行更新,所述训练Q神经网络与所述目标Q神经网络具有一样的结构;
训练Q神经网络和目标Q神经网络的输入是系统的状态,输出分为两个支路,一个支路输出一个标量,表示状态值函数;另一个支路输出动作的优势函数。
优选地,所述创建训练Q神经网络和目标Q神经网络两个网络,具体为:
创建四层全连接的线性神经网络,其中输入层的神经元个数为四个,对应于四种不同的切片的状态;第一中间层的神经元数量设置为512,并采用ReLU函数作为激活函数;第二中间层的神经元数量设置为512,采用ReLU函数作为激活函数;输出层分为两个支路,上层支路使用1个神经元,采用ReLU作为激活函数,输出状态值函数,下层支路使用108个神经元,采用ReLU作为激活函数,输出动作的优势函数。
优选地,步骤S3中所述定义业务切片的当前状态s、下一时刻状态s′,当前动作a,以及由状态和动作构建系统的奖励r,具体为:
所述智能体观察系统环境,获取所需的状态值;
定义智能体观察的状态为切片用户缓存中未传输的数据包数量总和,表示为s=(su,se,sm,sd),其中su,se,sm,sd分别表示uRLLC切片、eMBB切片、mMTC切片以及D2D切片的未传输的数据包数量;
定义智能体的动作为切片无线资源的分配,表示为a=(w1,w2,w3,w4),其中w1,w2,w3,w4分别表示uRLLC切片、eMBB切片、mMTC切片以及D2D切片分配获得的系统资源比例,并且满足w1+w2+w3=1;
定义智能体观察的下一时刻状态为智能体在当前状态s,执行某一动作a后,智能体到达的状态s′。
优选地,步骤S4中所述利用经验回放进行Dueling DDQN的学习,最后得到切片资源分配的最优解,具体为:
为智能体创建一个用于训练的经验回放池,在每一个迭代过程中,将当前时刻状态s,当前时刻动作a,下一时刻状态s′,当前时刻奖励r′组成一个元组(s,a,r′,s′)放在经验回放池中,用于智能体的学习训练;
经验回放以及智能体学习的过程如下:
首先,在学习开始时,智能体不断将经验存到经验回放池中;然后,神经网络训练的过程中,从缓存中取出一个mini-batch,即一个批量的经验数据;训练Q神经网络和目标Q神经网络根据经验数据进行学习,最后得到最优的切片资源分配方案。
优选地,智能体学习具体为:
智能体,目标是找到最优的资源分配策略π*,策略是智能体的状态空间到动作空间的映射,最优策略π*表征了智能体在特定的状态下应该执行什么动作来获取最大的长期的系统奖励,长期系统奖励是一段时间T内系统的折扣奖励总和,折扣因子0<γ<1:
R=r0+γ1r1+γ2r2+γ3r3+…+γT-1rT-1
ri为第i次学习的智能体奖励,0<i<T-1;
在策略π下,系统的动作值函数为:
系统收敛到最优策略的时候,最优的策略就是在状态s下,使Q值最大化的动作:
采用基于竞争的架构来构建Q神经网络,具体地,Q神经网络的输出层分为两个支路,一个支路输出当前时刻的状态值V(s),另一个支路输出所有的动作优势值A(s,a),它们与Q值之间的关系如下:
Q(s,a)=V(s)+A(s,a)
在Q神经网络中输入状态s,那么得到动作值函数表示为:
其中θ是Q神经网络的权重参数;
切片分配具体有以下过程得出:
初始化经验回放池B容量为N,时刻t=0,目标Q神经网络的更新周期Ttr;
初始化mini-batch的大小为size;
当切片资源控制器未获得最优的策略,切片资源控制器观察环境,获取各个切片未发送的数据包数量,即状态st,执行∈-greedy策略,以概率∈t随机选择一个切片资源分配动作at;否则选择动作at=argmaxa Q(st,a;θB);
切片资源控制器执行资源分配动作at,获得经过裁剪后的奖励rt,并观察下一时刻状态st+1;
将经验(st,at,rt+1,st+1)存放到B中,若B容量满则覆盖之前的经验;
更新t=t+1,直到t达到最大值前,重复上述步骤,得到切片分配。
与现有技术相比,本发明技术方案的有益效果是:
本发明通过对多业务切片和D2D切片进行资源分配,并对应到不同uRLLC切片、mMTC切片、eMBB切片、D2D切片,结合网络切片技术和Dueling DDQN强化学习算法,构建基于深度强化学习的资源分配模型,提高切片资源分配的效率,满足各类业务的通信要求,并使体验质量最优。
附图说明
图1为本发明的方法流程示意图。
图2为是实施例中的网络切片资源分配模型示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本实施例提供一种基于深度强化学习的D2D通信网络切片分配方法,如图1所示,包括以下步骤:
S1:将通信业务根据业务类型进行分类,建立多业务切片和D2D切片资源分配模型;
S2:根据Dueling DDQN算法构建切片资源分配的强化学习模型;
S3:为Dueling DDQN算法中的智能体定义业务切片的当前状态s、下一时刻状态s′,当前动作a,以及由状态和动作构建系统的奖励r;
S4:利用经验回放进行Dueling DDQN的学习,最后得到切片资源分配的最优解。
步骤S1中所述将通信业务根据业务类型进行分类,具体分为控制类、数据采集类、媒体类和D2D通信。
步骤S1中建立多业务切片和D2D切片资源分配模型具体为:
所述控制类通信对应于uRLLC切片,数据采集类通信对应于mMTC切片,媒体类对应于eMBB切片,D2D通信则通过复用uRLLC、mMTC、eMBB切片中的资源形成D2D通信切片;四种切片的集合表示为x={x1,x2,x3,x4},这些切片共享聚合的系统无线频谱资源,表示系统中的所有用户的集合, 表示分类到切片xn的用户的集合。对于用户他们的业务服从特定的流量模型,即用户数据包的生成服从特定的分布。
表1给出典型业务和D2D通信的通信要求,系统为各个切片分配无线频谱资源,首先,建立多业务切片和D2D切片资源分配模型,并定义系统的优化目标和约束条件,然后建立基于DuelingDDQN的切片资源分配的强化学习模型。进一步地,采用一种基于DuelingDDQN的深度强化学习资源分配算法——RC-D3QN算法,并将基站的资源分配控制器作为智能体,通过定义状态、动作、奖励,利用经验回放进行智能体的训练,最终收敛,分配结果满足各个切片的通信要求,并得到资源分配的最优解。
定义各切片的效用,根据各切片的效用定义系统的效用,以系统最大效用为目标,定义系统的优化目标和约束条件,构建所述的多业务切片和D2D切片资源分配模型。
所述定义各切片的效用,根据各切片的效用定义系统的效用,以系统最大效用为目标,定义系统的优化目标和约束条件,具体为:
切片的效用由一段时间内,切片中的所用用户成功传输的数据包数量和生成的数据包的数量和比例获得,用公式表示为:
式中,QoEn表示数据包成功传输的比例,即切片的效用;是切片所服务的所有用户的集合,而表示用户un所产生的数据包的集合,表示对于数据包用户un是否成功传输,即如果用户un进行数据包的传输时,能够满足业务的速率要求以及时延要求那么否则rn为最低的速率要求,为用户的数据速率,ln为最大的时延要求,为用户的时延;
所述系统的效用表示为各切片的效用的加权和,系统的优化模型用公式表示为:
其中,βn是表示切片业务优先级的权重,约束条件C1是系统总体带宽的限制,则表明D2D通信复用上行资源进行传输,C2表明在一定的时间间隔内,切片业务数据包产生的总数量为TQn,C3则表示用户的数据包传输是否成功的限制。
所述用户的数据速率由分配给用户的频谱资源以及无线信道的信干噪比,而信干噪比由用户与基站之间的无线信道的信道增益,接收基站的接收增益、用户的发射功率、其他干扰用户到基站之间的无线信道的信道增益,其他干扰用户的发射功率决定,数据速率用公式表示为:
用户数据包的时延包括数据包的等待时间lwa和数据包的传输时间ltr:
步骤S2中根据Dueling DDQN算法构建切片资源分配的强化学习模型,具体为:
将基站中的切片资源分配控制器定义为强化学习智能体,并创建训练Q神经网络和目标Q神经网络两个网络,所述训练Q神经网络在每一个训练时刻都进行网络权重的更新,而所述目标Q神经网络则按照预设的频率复制所述训练Q神经网络的权重来进行更新,所述训练Q神经网络与所述目标Q神经网络具有一样的结构;
训练Q神经网络和目标Q神经网络的输入是系统的状态,输出分为两个支路,一个支路输出一个标量,表示状态值函数;另一个支路输出动作的优势函数。
所述创建训练Q神经网络和目标Q神经网络两个网络,具体为:
创建四层全连接的线性神经网络,其中输入层的神经元个数为四个,对应于四种不同的切片的状态;第一中间层的神经元数量设置为512,并采用ReLU函数作为激活函数;第二中间层的神经元数量设置为512,采用ReLU函数作为激活函数;输出层分为两个支路,上层支路使用1个神经元,采用ReLU作为激活函数,输出状态值函数,下层支路使用108个神经元,采用ReLU作为激活函数,输出动作的优势函数。
步骤S3中所述定义业务切片的当前状态s、下一时刻状态s′,当前动作a,以及由状态和动作构建系统的奖励r,具体为:
所述智能体观察系统环境,获取所需的状态值;
定义智能体观察的状态为切片用户缓存中未传输的数据包数量总和,表示为s=(su,se,sm,sd),其中su,se,sm,sd分别表示uRLLC切片、eMBB切片、mMTC切片以及D2D切片的未传输的数据包数量;
定义智能体的动作为切片无线资源的分配,表示为a=(w1,w2,w3,w4),其中w1,w2,w3,w4分别表示uRLLC切片、eMBB切片、mMTC切片以及D2D切片分配获得的系统资源比例,并且满足w1+w2+w3=1;
定义智能体观察的下一时刻状态为智能体在当前状态s,执行某一动作a后,智能体到达的状态s′。
步骤S4中所述利用经验回放进行Dueling DDQN的学习,最后得到切片资源分配的最优解,如图2所示,具体为:
提出RC-D3QN算法对智能体进行训练。为了提高智能体资源分配的效率和速度,提出了奖励函数的设置机制。为了适应动态环境的变化,RC-D3QN方法采用reward clipping的思想将奖励剪裁到区间r∈{0,1}中。具体地,奖励剪裁的思想是:根据系统环境先验知识设置一个系统效用阈值Threshold,如果系统的效用低于该阈值,则r=0;如果切片资源的分配方案使得系统的效用大于阈值Threshold,则r=1。
为智能体创建一个用于训练的经验回放池,在每一个迭代过程中,将当前时刻状态s,当前时刻动作a,下一时刻状态s′,当前时刻奖励r′组成一个元组(s,a,r′,s′)放在经验回放池中,用于智能体的学习训练;
经验回放以及智能体学习的过程如下:
首先,在学习开始时,智能体不断将经验存到经验回放池中;然后,神经网络训练的过程中,从缓存中取出一个mini-batch,即一个批量的经验数据;训练Q神经网络和目标Q神经网络根据经验数据进行学习,最后得到最优的切片资源分配方案。
智能体学习具体为:
智能体,目标是找到最优的资源分配策略π*,策略是智能体的状态空间到动作空间的映射,最优策略π*表征了智能体在特定的状态下应该执行什么动作来获取最大的长期的系统奖励,长期系统奖励是一段时间T内系统的折扣奖励总和,折扣因子0<γ<1:
R=r0+γ1r1+γ2r2+γ3r3+…+γT-1rT-1
ri为第i次学习的智能体奖励,0<i<T-1;
在策略π下,系统的动作值函数为:
系统收敛到最优策略的时候,最优的策略就是在状态s下,使Q值最大化的动作:
采用基于竞争的架构来构建Q神经网络,具体地,Q神经网络的输出层分为两个支路,一个支路输出当前时刻的状态值V(s),另一个支路输出所有的动作优势值A(s,a),它们与Q值之间的关系如下:
Q(s,a)=V(s)+A(s,a)
在Q神经网络中输入状态s,那么得到动作值函数表示为:
其中θ是Q神经网络的权重参数;
切片分配具体有以下过程得出:
初始化经验回放池S容量为N,时刻t=0,目标Q神经网络的更新周期Ttr;
初始化mini-batch的大小为size;
当切片资源控制器未获得最优的策略,切片资源控制器观察环境,获取各个切片未发送的数据包数量,即状态st,执行∈-greedy策略,以概率∈t随机选择一个切片资源分配动作at;否则选择动作at=argmaxa Q(st,a;θB);
切片资源控制器执行资源分配动作at,获得经过裁剪后的奖励rt,并观察下一时刻状态st+1;
将经验(st,at,rt+1,st+1)存放到B中,若B容量满则覆盖之前的经验;
更新t=t+1,直到t达到最大值前,重复上述步骤,得到切片分配。
本发明实施例通过对多业务切片和D2D切片进行资源分配,结合网络切片技术和Dueling DDQN强化学习算法,并利用奖励剪裁机制提高智能体的收敛速率,提高切片资源分配的效率。此外,利用∈-greedy机制保证智能体获得全局得最优奖励。
本发明提供了一种基于深度强化学习的D2D通信切片分配方法,通过对多类业务和D2D通信分类,并对应到不同uRLLC切片、mMTC切片、eMBB切片、D2D切片。然后构建基于深度强化学习的资源分配模型,采用RC-D3QN算法对不同的切片进行资源的分配,满足各类业务的通信要求,并使体验质量最优。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (7)
1.一种基于深度强化学习的D2D通信网络切片分配方法,其特征在于,包括以下步骤:
S1:将通信业务根据业务类型进行分类,建立多业务切片和D2D切片资源分配模型;
S2:根据Dueling DDQN算法构建切片资源分配的强化学习模型;
S3:为Dueling DDQN算法中的智能体定义业务切片的当前状态s、下一时刻状态s′,当前动作a,以及由状态和动作构建系统的奖励r;
S4:利用经验回放进行Dueling DDQN的学习,最后得到切片资源分配的最优解;
步骤S1中所述将通信业务根据业务类型进行分类,具体分为控制类、数据采集类、媒体类和D2D通信;
步骤S1中建立多业务切片和D2D切片资源分配模型具体为:
所述控制类通信对应于uRLLC切片,数据采集类通信对应于mMTC切片,媒体类对应于eMBB切片,D2D通信则通过复用uRLLC、mMTC、eMBB切片中的资源形成D2D通信切片;
定义各切片的效用,根据各切片的效用定义系统的效用,以系统最大效用为目标,定义系统的优化目标和约束条件,构建所述的多业务切片和D2D切片资源分配模型;
所述定义各切片的效用,根据各切片的效用定义系统的效用,以系统最大效用为目标,定义系统的优化目标和约束条件,具体为:
切片的效用由一段时间内,切片中的所用用户成功传输的数据包数量和生成的数据包的数量和比例获得,用公式表示为:
式中,QoEn表示数据包成功传输的比例,即切片的效用;是切片所服务的所有用户的集合,而表示用户un所产生的数据包的集合,表示对于数据包用户un是否成功传输,即如果用户un进行数据包的传输时,能够满足业务的速率要求以及时延要求那么否则rn为最低的速率要求,为用户的数据速率,ln为最大的时延要求,为用户的时延;
所述系统的效用表示为各切片的效用的加权和,系统的优化模型用公式表示为:
3.根据权利要求2所述的基于深度强化学习的D2D通信网络切片分配方法,其特征在于,步骤S2中根据Dueling DDQN算法构建切片资源分配的强化学习模型,具体为:
将基站中的切片资源分配控制器定义为强化学习智能体,并创建训练Q神经网络和目标Q神经网络两个网络,所述训练Q神经网络在每一个训练时刻都进行网络权重的更新,而所述目标Q神经网络则按照预设的频率复制所述训练Q神经网络的权重来进行更新,所述训练Q神经网络与所述目标Q神经网络具有一样的结构;
训练Q神经网络和目标Q神经网络的输入是系统的状态,输出分为两个支路,一个支路输出一个标量,表示状态值函数;另一个支路输出动作的优势函数。
4.根据权利要求3所述的基于深度强化学习的D2D通信网络切片分配方法,其特征在于,所述创建训练Q神经网络和目标Q神经网络两个网络,具体为:
创建四层全连接的线性神经网络,其中输入层的神经元个数为四个,对应于四种不同的切片的状态;第一中间层的神经元数量设置为512,并采用ReLU函数作为激活函数;第二中间层的神经元数量设置为512,采用ReLU函数作为激活函数;输出层分为两个支路,上层支路使用1个神经元,采用ReLU作为激活函数,输出状态值函数,下层支路使用108个神经元,采用ReLU作为激活函数,输出动作的优势函数。
5.根据权利要求4所述的基于深度强化学习的D2D通信网络切片分配方法,其特征在于,步骤S3中所述定义业务切片的当前状态s、下一时刻状态s′,当前动作a,以及由状态和动作构建系统的奖励r,具体为:
所述智能体观察系统环境,获取所需的状态值;
定义智能体观察的状态为切片用户缓存中未传输的数据包数量总和,表示为s=(su,se,sm,sd),其中su,se,sm,sd分别表示uRLLC切片、eMBB切片、mMTC切片以及D2D切片的未传输的数据包数量;
定义智能体的动作为切片无线资源的分配,表示为a=(w1,w2,w3,w4),其中w1,w2,w3,w4分别表示uRLLC切片、eMBB切片、mMTC切片以及D2D切片分配获得的系统资源比例,并且满足w1+w2+w3=1;
定义智能体观察的下一时刻状态为智能体在当前状态s,执行某一动作a后,智能体到达的状态s′。
6.根据权利要求5所述的基于深度强化学习的D2D通信网络切片分配方法,其特征在于,步骤S4中所述利用经验回放进行Dueling DDQN的学习,最后得到切片资源分配的最优解,具体为:
为智能体创建一个用于训练的经验回放池,在每一个迭代过程中,将当前时刻状态s,当前时刻动作a,下一时刻状态s′,当前时刻奖励r′组成一个元组(s,a,r′,s′)放在经验回放池中,用于智能体的学习训练;
经验回放以及智能体学习的过程如下:
首先,在学习开始时,智能体不断将经验存到经验回放池中;然后,神经网络训练的过程中,从缓存中取出一个mini-batch,即一个批量的经验数据;训练Q神经网络和目标Q神经网络根据经验数据进行学习,最后得到最优的切片资源分配方案。
7.根据权利要求6所述的基于深度强化学习的D2D通信网络切片分配方法,其特征在于,智能体学习具体为:
智能体,目标是找到最优的资源分配策略π*,策略是智能体的状态空间到动作空间的映射,最优策略π*表征了智能体在特定的状态下应该执行什么动作来获取最大的长期的系统奖励,长期系统奖励是一段时间T内系统的折扣奖励总和,折扣因子0<γ<1:
R=r0+γ1r1+γ2r2+γ3r3+…+γT-1rT-1
ri为第i次学习的智能体奖励,0<i<T-1;
在策略π下,系统的动作值函数为:
系统收敛到最优策略的时候,最优的策略就是在状态s下,使Q值最大化的动作:
采用基于竞争的架构来构建Q神经网络,具体地,Q神经网络的输出层分为两个支路,一个支路输出当前时刻的状态值V(s),另一个支路输出所有的动作优势值A(s,a),它们与Q值之间的关系如下:
Q(s,a)=V(s)+A(s,a)
在Q神经网络中输入状态s,那么得到动作值函数表示为:
其中θ是Q神经网络的权重参数;
切片分配具体有以下过程得出:
初始化经验回放池B容量为N,时刻t=0,目标Q神经网络的更新周期Ttr;
初始化mini-batch的大小为size;
切片资源控制器执行资源分配动作at,获得经过裁剪后的奖励rt,并观察下一时刻状态st+1;
将经验(st,at,rt+1,st+1)存放到B中,若B容量满则覆盖之前的经验;
更新t=t+1,直到t达到最大值前,重复上述步骤,得到切片分配。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110444019.5A CN113163451B (zh) | 2021-04-23 | 2021-04-23 | 一种基于深度强化学习的d2d通信网络切片分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110444019.5A CN113163451B (zh) | 2021-04-23 | 2021-04-23 | 一种基于深度强化学习的d2d通信网络切片分配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113163451A CN113163451A (zh) | 2021-07-23 |
CN113163451B true CN113163451B (zh) | 2022-08-02 |
Family
ID=76870003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110444019.5A Active CN113163451B (zh) | 2021-04-23 | 2021-04-23 | 一种基于深度强化学习的d2d通信网络切片分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113163451B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113537383B (zh) * | 2021-07-29 | 2023-04-07 | 周口师范学院 | 基于深度迁移强化学习无线网络异常流量检测方法 |
CN113727306B (zh) * | 2021-08-16 | 2023-04-07 | 南京大学 | 一种基于深度强化学习的解耦c-v2x网络切片方法 |
CN113938415B (zh) * | 2021-09-09 | 2022-08-02 | 华中科技大学 | 一种基于链路状态估计的网络路由转发方法及系统 |
CN113965945A (zh) * | 2021-09-28 | 2022-01-21 | 北京工业大学 | 端到端网络切片的切换方法及系统 |
CN113891401A (zh) * | 2021-11-12 | 2022-01-04 | 中国电子科技集团公司第七研究所 | 一种基于深度强化学习的异构网络切片调度方法 |
CN114520772B (zh) * | 2022-01-19 | 2023-11-14 | 广州杰赛科技股份有限公司 | 一种5g切片资源调度方法 |
CN114500561B (zh) * | 2022-02-17 | 2024-02-20 | 中国电力科学研究院有限公司 | 电力物联网网络资源分配决策方法、系统、设备及介质 |
CN114666220A (zh) * | 2022-03-23 | 2022-06-24 | 中国电信股份有限公司 | 网络切片的资源配置方法及装置、存储介质、电子设备 |
CN114928549A (zh) * | 2022-04-20 | 2022-08-19 | 清华大学 | 基于强化学习的非授权频段的通信资源分配方法及装置 |
CN114867030A (zh) * | 2022-06-09 | 2022-08-05 | 东南大学 | 双时间尺度智能无线接入网切片方法 |
CN116095720B (zh) * | 2023-03-09 | 2023-07-07 | 南京邮电大学 | 基于深度强化学习的网络业务接入和切片资源配置方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111726811A (zh) * | 2020-05-26 | 2020-09-29 | 国网浙江省电力有限公司嘉兴供电公司 | 一种用于认知无线网络的切片资源分配方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11461145B2 (en) * | 2019-01-28 | 2022-10-04 | EMC IP Holding Company LLC | Building neural networks for resource allocation for iterative workloads using reinforcement learning |
-
2021
- 2021-04-23 CN CN202110444019.5A patent/CN113163451B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111726811A (zh) * | 2020-05-26 | 2020-09-29 | 国网浙江省电力有限公司嘉兴供电公司 | 一种用于认知无线网络的切片资源分配方法及系统 |
Non-Patent Citations (2)
Title |
---|
Autonomous Resource Slicing for Virtualized Vehicular Networks With D2D Communications Based on Deep Reinforcement Learning;Guolin Sun,et al.;《IEEE Systems Journal》;20200417;第14卷(第4期);全文 * |
基于DRL的6G多租户网络切片智能资源分配算法;管婉青等;《北京邮电大学学报》;20201211;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113163451A (zh) | 2021-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113163451B (zh) | 一种基于深度强化学习的d2d通信网络切片分配方法 | |
CN108737057B (zh) | 基于深度学习的多载波认知noma资源分配方法 | |
CN111010294A (zh) | 一种基于深度强化学习的电力通信网路由方法 | |
Zhang et al. | Team learning-based resource allocation for open radio access network (O-RAN) | |
CN109982434B (zh) | 无线资源调度一体智能化控制系统及方法、无线通信系统 | |
CN106454920B (zh) | 一种lte与d2d混合网络中基于时延保证的资源分配优化算法 | |
Wang et al. | Joint resource allocation and power control for D2D communication with deep reinforcement learning in MCC | |
WO2023179010A1 (zh) | 一种noma-mec系统中的用户分组和资源分配方法及装置 | |
CN113453358B (zh) | 一种无线携能d2d网络的联合资源分配方法 | |
CN112601284A (zh) | 基于多智能体深度强化学习的下行多小区ofdma资源分配方法 | |
CN114885426B (zh) | 一种基于联邦学习和深度q网络的5g车联网资源分配方法 | |
CN114827191B (zh) | 一种车路协同系统中融合noma的动态任务卸载方法 | |
CN111726845A (zh) | 多用户异构网络系统中的基站切换选择和功率分配方法 | |
CN112566261A (zh) | 一种基于深度强化学习的上行noma资源分配方法 | |
CN113395723B (zh) | 基于强化学习的5g nr下行调度时延优化系统 | |
CN114189870A (zh) | 基于多智能体深度强化学习的多小区多业务资源分配方法 | |
CN114867030A (zh) | 双时间尺度智能无线接入网切片方法 | |
CN116582860A (zh) | 一种基于信息年龄约束的链路资源分配方法 | |
CN111182511A (zh) | 一种mMTC场景中基于AGA的NOMA资源分配方法 | |
CN115134779A (zh) | 一种基于信息年龄感知的车联网资源分配方法 | |
CN116347635A (zh) | 一种基于NOMA和多智能体强化学习的NB-IoT无线资源分配方法 | |
CN112887999A (zh) | 一种基于分布式a-c的智能接入控制与资源分配方法 | |
CN114423028A (zh) | 基于多智能体深度强化学习的CoMP-NOMA协作成簇与功率分配方法 | |
CN113382414B (zh) | 基于网络切片的非正交多址接入系统资源分配方法及装置 | |
CN112887314B (zh) | 一种时延感知的云雾协作视频分发方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |