CN113630807A - 一种物联网单中继的缓存和通信资源智能调度方法 - Google Patents
一种物联网单中继的缓存和通信资源智能调度方法 Download PDFInfo
- Publication number
- CN113630807A CN113630807A CN202110824751.5A CN202110824751A CN113630807A CN 113630807 A CN113630807 A CN 113630807A CN 202110824751 A CN202110824751 A CN 202110824751A CN 113630807 A CN113630807 A CN 113630807A
- Authority
- CN
- China
- Prior art keywords
- state
- channel
- cache
- user
- buffer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000004891 communication Methods 0.000 title claims abstract description 12
- 230000005540 biological transmission Effects 0.000 claims abstract description 57
- 230000007704 transition Effects 0.000 claims abstract description 27
- 230000008569 process Effects 0.000 claims abstract description 11
- 230000002787 reinforcement Effects 0.000 claims abstract description 11
- 230000007246 mechanism Effects 0.000 claims abstract description 7
- 230000009471 action Effects 0.000 claims description 55
- 230000006870 function Effects 0.000 claims description 15
- 238000012937 correction Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 230000003068 static effect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 4
- 238000005065 mining Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/0278—Traffic management, e.g. flow control or congestion control using buffer status reports
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B17/00—Monitoring; Testing
- H04B17/30—Monitoring; Testing of propagation channels
- H04B17/309—Measuring or estimating channel quality parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B17/00—Monitoring; Testing
- H04B17/30—Monitoring; Testing of propagation channels
- H04B17/391—Modelling the propagation channel
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/54—Allocation or scheduling criteria for wireless resources based on quality criteria
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/56—Allocation or scheduling criteria for wireless resources based on priority criteria
- H04W72/566—Allocation or scheduling criteria for wireless resources based on priority criteria of the information or information source or recipient
- H04W72/569—Allocation or scheduling criteria for wireless resources based on priority criteria of the information or information source or recipient of the traffic information
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- Electromagnetism (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种物联网单中继的缓存和通信资源智能调度方法,首先针对传统的静态缓存分配方式效率低的问题,采用了排队论M/M/1/N/∞模型进行建模分析,进行缓存建模和信道建模;然后计算系统状态转移概率、信道传输功率和系统效用值;接下来将数据传输调度问题建模为马尔可夫决策过程;最终基于深度强化学习算法获得最优传输机制;本发明能够根据用户需求在更好的信道上选择合适的调制模式,提高系统的整体效用。
Description
技术领域
本发明属于物联网技术领域,具体涉及一种物联网缓存和通信资源智能调度方法。
背景技术
物联网是一种很有前景的技术,可以为大规模互联设备提供广域覆盖和高吞吐量。在这种情况下,中继对于帮助实现无处不在的信息交换非常重要。然而,在物联网单中继系统中,由于缓存空间有限和信道频谱稀缺,对缓存和信道的联合调度是一个巨大的挑战。目前解决这一问题的联合调度算法很少,其中缓存效率和信道选择方案值得进一步发展,以提高系统的实用性。
首先,从缓存效率的角度,一些文献致力于研究高效的缓存分配方法。在假设无限缓存的情况下,去研究自适应传输机制,以提高整体系统的吞吐量和减少包丢率。在以往的研究中,一个中继为一个或多个用户提供无限的缓存。但现实中,缓存资源总是有限的。当前已有的方法通过对缓存的均匀分配,每个用户各自独占一块固定的缓存资源,研究了有限缓存对吞吐量和丢包率的影响。
其次在传输信道和调制模式的选择方面,以往研究多采用先到先服务(FCFS)机制或考虑公平性。实际上传输需求的优先级也很重要,并且优先级被确定后并不是固定不变的。优先级的高低会随着用户的数据分组传输的数量需求和传输信道的信噪比质量而动态的变化。
发明内容
为了克服现有技术的不足,本发明提供了一种物联网单中继的缓存和通信资源智能调度方法,首先针对传统的静态缓存分配方式效率低的问题,采用了排队论M/M/1/N/∞模型进行建模分析,进行缓存建模和信道建模;然后计算系统状态转移概率、信道传输功率和系统效用值;接下来将数据传输调度问题建模为马尔可夫决策过程;最终基于深度强化学习算法获得最优传输机制;本发明能够根据用户需求在更好的信道上选择合适的调制模式,提高系统的整体效用。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:假设多个用户通过一个中继向接收器发送数据分组,缓存的大小为N;用户的数据包均服从泊松分布,且有相同的到达率;当数据分组到达中继时,如果缓存有剩余空间则存储,并在选定的信道上传输,否则如果缓存没有剩余空间数据分组将被丢弃;
步骤2:建模分析;
步骤2-1:缓存建模;
采用排队论模型M/M/1/N/∞,假设每个用户u同分布相互独立,数据分组到达缓存的数量服从泊松分布,单位时间Ti到达速率为λ,密度函数为:
假设用户u的数据包在单位时间Ti被发送,发送率为μ,单位时间的缓存的业务量λ/μ;
当数据分组到达缓存的速率等于离开缓存的速率时,整个缓存处于一个平衡的状态:
λ(1-PN)=μ(1-P0)
其中PN为缓存刚好占满的概率,P0为缓存刚好为空的概率;
则缓存的平衡状态概率:
其中,pn-1为缓存占用为n-1时概率,pn+1为缓存占用为n+1时概率,pn为缓存占用为n时概率,pN-1为缓存占用为N-1时概率;
得出缓存占用为空的概率:
p0=[1-(λ-μ)]/[1-(λ/μ)N+1]
缓存占用为n时概率:
pn=(λ/μ)np0
当n=N时,满缓存则达到了最大占用率,若再有包到达则会丢失,因此丢失的概率为:
pN=(λ/μ)Np0
假设在第i帧,单个用户缓存占用ni,u,用户u在第i帧到达的包的数量为ri,u,在第i+1帧实际缓存占用大小:
其中ai,u为用户u在第i帧发送的数据包的数量,此时刻所有信道为用户u发送的数据分组总量为:
其中ac,u,m为用户u在信道c上以传输模式m发送的数据分组数,m为传输模式,c为信道序号,C为信道总数;
其中,n表示某一用户当前状态缓存占用,n′表示某一用户下一状态缓存占用,nu表示用户u当前状态缓存占用,n′u表示用户u下一状态缓存占用;
步骤2-2:信道建模;
单位时间Ti为一个时隙,在一个Ti中信道的状态不改变,信道的状态转换发生在两个相邻的状态之间;信道状态被建模为一个有限马尔可夫链;ρ为信噪比服从瑞利分布的随机值,ρ>0;F为信道状态的数量,信道状态空间为 ρSNR={ρ1,ρ2,…,ρF-1};ρSNR表示峰值信噪比;
因此信道状态的概率分布:
在信道状态转移概率:
pF(fi,fi+1)=N(ρi+1)Ti/pF(fi),i∈{1,2,3,...,N-2}
pF(fi,fi-1)=N(ρi)Ti/pF(fi),i∈{1,2,3,...,N-1}
则整个系统的信道状态转移概率:
步骤2-3:系统状态转移;
系统状态是缓冲区状态和通道状态的结合Si=Ni*Fi;缓存状态表示U个用户状态乘积,信道状态表示C个信道状态乘积;
因此系统的状态转换概率:
步骤2-4:信道传输功率;
采用AM方法调整传输功率和速率;传输m∈{0,1,2,…,M},M为可选模式的总数;0和1分别对应无传输和BPSK传输,m≥2对应2m-QAM传输;给定传输速率、功率和信道状态,估计误码率(BER);p(fi,m)是传输功率,WN0是噪声功率;
如果m=1,误码率:
如果m>1,误码率::
pBER(fi,m)≤0.2exp(-1.6p(fi,m)/WN0(2m-1))
步骤2-5:系统效用值;
假设代码速率为V,那么系统的吞吐量是V*j,收益等量化表示为V*j=ac,u,m;系统状态si={ni,fi},ai={ac,u,m}为传输的数据包数量,收益就是传输的包的数量;
则收益函数为:
B(si,ai)=au,c,m
au,c,m=max(nu)
开销函数为:
其中,exp(θ×ni)为缓存压力值,pc(si,ai)为信道c最小传输功率;
则系统效用值:
U(si,ai)=B(si,ai)/C(si,ai)
步骤3:基于深度强化学习算法获得最优传输机制;
系统包含两个状态对象:缓存状态和信道状态;系统的运行是一个状态转换的过程;系统的下一个状态是通过在当前状态下选择并执行某个动作而获得的;下一个单位时间系统的状态只与当前状态和动作有关,因此,将数据传输调度问题建模为马尔可夫决策过程,包括以下几部分;
步骤3-1:状态集;
系统的状态分两部分,一部分是缓存的状态Ni,一部分是信道的状态Fi,系统状态Si={Ni,Fi};
步骤3-2:动作集;
当发生状态转换时,中继必须根据当前状态选择动作,动作集ai∈A={au,c,m},u∈{1,2,...,U},c∈{1,2,...,C},m∈{0,1,2,...,M},ai=au,c,m表示在第i帧开始,中继选择信道c,传输模式m,为用户u发送au,c,m个数据包;
步骤3-3:传输需求优先级;
假设在当前第i帧的系统状态下,选择数据包数量最多的用户,信道状态最好的信道传输数据分组;
步骤3-4:深度强化学习算法;
步骤3-4-1:深度Q学习算法;
根据当前状态si,计算出所有动作ai的Q值,然后取最大Q值对应的动作执行,设置一个修正值Index,选择到许久未被执行的动作,a表示所有可能执行的动作;
修正值:
其中,Cp为常数,Ta(i)为动作a在第i帧后被选中的次数;
动作a在第i帧后被选中的方差值:
在确定动作后,中继器执行动作ai,计算效用值U,并根据公式更新Q值函数:
其中学习率α为变化值α=1/(1+Ta(i)),0<α≤1;
步骤3-4-2:SAE模型;
SAE是由若干个自编码器组成,在开始得到时序输入的特征,将其作为输入信息来开始训练一个自编码器,进而得到新的特征表达,然后重复此过程,不断得到新的特征表达,而随着AE数量的不断增加,得到了栈式自编码器,即SAE;把Q值函数进行SAE模型训练,获得最优的缓存和通信资源智能调度模型。
本发明的有益效果如下:
1、本发明针对用户之间统一预分配缓存造成存储效率低的问题,采用排队论的方法,考虑数据包的动态分配来高效利用缓存资源,降低丢包率。
2、本发明针对缓存和通信资源智能调度的问题,引入了用户数据分组的传输需求优先级和信道质量优先级并结合深度强化学习的联合调度算法,获得持续高的系统效用值,同时降低了功率耗费。
附图说明
图1是本发明的物联网单中继系统图。
图2是本发明的方案流程图。
图3是本发明的SAE网络结构图。
图4是本发明的平均效用值对比图。
图5是本发明的平均功率对比图。
图6是本发明的平均丢包数对比图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明针对缓存效率低和传输信道、需求优先级不同的问题,提出一种物联网单中继系统的缓存和通信资源智能调度方法。该方法基于排队论和深度强化学习算法,使系统的整体平均效用值提高,平均丢包数降低。
一种物联网单中继的缓存和通信资源智能调度方法,包括如下步骤:
步骤1:本发明的物联网单中继系统图如图1所示。在该系统中,多个用户通过一个中继向接收器发送数据分组。缓存的大小限制为N。用户的数据包均服从泊松分布,且有相同的到达率。分组到达中继时,如果缓存有剩余空间则存储,然后在选定的信道上以最佳调制模式传输。否则将被丢弃。
步骤2:建模分析;
步骤2-1:缓存建模;
采用排队论模型M/M/1/N/∞,假设每个用户u同分布相互独立,数据分组到达缓存的数量服从泊松分布,单位时间Ti到达速率为λ,密度函数为:
假设用户u的数据包在单位时间Ti被发送,发送率为μ,单位时间的缓存的业务量λ/μ;缓存的状态:n=0,1,2,3,…,N;
当数据分组到达缓存的速率等于离开缓存的速率时,整个缓存处于一个平衡的状态:
λ(1-PN)=μ(1-P0)
其中PN为缓存刚好占满的概率,P0为缓存刚好为空的概率;
则缓存的平衡状态概率:
其中,pn-1为缓存占用为n-1时概率,pn+1为缓存占用为n+1时概率,pn为缓存占用为n时概率,pN-1为缓存占用为N-1时概率;
得出缓存占用为空的概率:
p0=[1-(λ-μ)]/[1-(λ/μ)N+1]
缓存占用为n时概率:
pn=(λ/μ)np0
当n=N时,满缓存则达到了最大占用率,若再有包到达则会丢失,因此丢失的概率为:
pN=(λ/μ)Np0
假设在第i帧,单个用户缓存占用ni,u,用户u在第i帧到达的包的数量为ri,u,在第i+1帧实际缓存占用大小:
其中ai,u为用户u在第i帧发送的数据包的数量,此时刻所有信道为用户u发送的数据分组总量为:
步骤2-2:信道建模;
单位时间Ti为一个时隙,在一个Ti中信道的状态不改变,信道的状态转换发生在两个相邻的状态之间;信道状态被建模为一个有限马尔可夫链;ρ为信噪比服从瑞利分布的随机值,ρ>0;F为信道状态的数量,信道状态空间为 ρSNR={ρ1,ρ2,…,ρF-1};
因此信道状态的概率分布:
在信道状态转移概率:
pF(fi,fi+1)=N(ρi+1)Ti/pF(fi),i∈{1,2,3,...,N-2}
pF(fi,fi-1)=N(ρi)Ti/pF(fi),i∈{1,2,3,...,N-1}
则整个系统的信道状态转移概率:
步骤2-3:系统状态转移;
系统状态是缓冲区状态和通道状态的结合Si=Ni*Fi;缓存状态表示U个用户状态乘积,信道状态表示C个信道状态乘积;
因此系统的状态转换概率:
步骤2-4:信道传输功率;
采用AM方法调整传输功率和速率;传输m∈{0,1,2,…,M},M为可选模式的总数;0和1分别对应无传输和BPSK传输,m≥2对应2m-QAM传输;给定传输速率、功率和信道状态,估计误码率(BER);p(fi,m)是传输功率,WN0是噪声功率;
如果m=1,误码率:
如果m>1,误码率::
pBER(fi,m)≤0.2exp(-1.6p(fi,m)/WN0(2m-1))
步骤2-5:系统效用值;
系统效用值是最终的目的,假设代码速率为V,那么系统的吞吐量是V*j,在第i帧传输的数据包越多,系统越优;因此收益可以简单的等量化表示为V*j=ac,u,m;系统状态si={ni,fi},ai={ac,u,m}为传输的数据包数量,收益就是传输的包的数量;
则收益函数为:
B(si,ai)=au,c,m
au,c,m=max(nu)
开销函数为:
其中,exp(θ×ni)为缓存压力值,pc(si,ai)为信道c最小传输功率;
则系统效用值:
U(si,ai)=B(si,ai)/C(si,ai)
步骤3:基于深度强化学习算法获得最优传输机制;
系统包含两个状态对象:缓存状态和信道状态;系统的运行是一个状态转换的过程;系统的下一个状态是通过在当前状态下选择并执行某个动作而获得的;下一个单位时间系统的状态只与当前状态和动作有关,因此,将数据传输调度问题建模为马尔可夫决策过程,包括以下几部分;
步骤3-1:状态集;
系统的状态分两部分,一部分是缓存的状态Ni,一部分是信道的状态Fi,系统状态Si={Ni,Fi};
步骤3-2:动作集;
当发生状态转换时,中继必须根据当前状态选择动作,动作集ai∈A={au,c,m},u∈{1,2,...,U},c∈{1,2,...,C},m∈{0,1,2,...,M},ai=au,c,m表示在第i帧开始,中继选择信道c,传输模式m,为用户u发送au,c,m个数据包;
步骤3-3:传输需求优先级;
假设在当前第i帧的系统状态下,选择数据包数量最多的用户,信道状态最好的信道传输数据分组;此种情形下数据多的用户在此刻数据传输需求也是最大的,可以选择SNR信噪比更优的信道,更好的传输模式m,符合现实条件和要求;
步骤3-4:深度强化学习算法;
步骤3-4-1:深度Q学习算法;
基于排队论的缓冲动态分配方法与深度Q学习动作选择算法相结合,称为动态深度Q学习算法(QL-Dynamic)。根据优先级选择用户和信道,确定动作后执行,然后计算Q值,称为动态需求优先级深度Q学习算法(QL-DAP)。
根据当前状态si,计算出所有动作ai的Q值,然后取最大Q值对应的动作执行,设置一个修正值Index,可以很快的选择到许久未被执行的动作,表示动作探索和挖掘的公平性,a表示所有可能执行的动作;
修正值:
其中,Cp为常数,Ta(i)为动作a在第i帧后被选中的次数;
动作a在第i帧后被选中的方差值:
一方面,基于修正值的动作选择方法考虑当前动作的系统效用值并进一步考虑影响较大的行为,体现了系统的动作挖掘特征。另一方面,在进行不断的迭代过程中,如果某一动作没有被选择或者被选择的数量非常小,那么就会在下一个迭代中偏向于选择这个动作,这体现了探索的特征。在确定动作后,中继器执行动作ai,计算效用值U,并根据公式更新Q值函数:
其中学习率α为变化值α=1/(1+Ta(i)),0<α≤1;
步骤3-4-2:SAE模型;
SAE是由若干个自编码器组成,在开始得到时序输入的特征,将其作为输入信息来开始训练一个自编码器,进而得到新的特征表达,然后重复此过程,不断得到新的特征表达,而随着AE数量的不断增加,得到了栈式自编码器,即SAE;把Q值函数进行SAE模型训练,获得最优的缓存和通信资源智能调度模型。
具体实施例:
1、建立中继缓存模型。采用排队论模型M/M/1/N/∞,收取所有的用户的数据分组,按照动态分配来存储数据。
2、建立传输信道模型。信道状态可以被建模为一个有限马尔可夫链,Ti为一个时隙(帧),在一个Ti中信道的状态不改变,信道的状态转换发生在两个相邻的状态之间。
3、根据用户数据分组传输需求和信道信噪属性划分优先级,建立系统整体的状态集和动作集,建立Q-table表。
4、使用深度强化学习算法(Deep Q-learning)获取状态对应的动作的Q值,并根据获取的Q值不断进行动作的迭代,把最大的Q值存入Q-table表。
5、把获得的最优的Q-table表,以状态动作对应,调整SAE模型的输入输出要求,进行训练,得到状态动作映射的智能调度模型。在与环境交互的过程中,中继会查询状态动作表来获得最优的动作。
Claims (1)
1.一种物联网单中继的缓存和通信资源智能调度方法,其特征在于,包括以下步骤:
步骤1:假设多个用户通过一个中继向接收器发送数据分组,缓存的大小为N;用户的数据包均服从泊松分布,且有相同的到达率;当数据分组到达中继时,如果缓存有剩余空间则存储,并在选定的信道上传输,否则如果缓存没有剩余空间数据分组将被丢弃;
步骤2:建模分析;
步骤2-1:缓存建模;
采用排队论模型M/M/1/N/∞,假设每个用户u同分布相互独立,数据分组到达缓存的数量服从泊松分布,单位时间Ti到达速率为λ,密度函数为:
假设用户u的数据包在单位时间Ti被发送,发送率为μ,单位时间的缓存的业务量λ/μ;
当数据分组到达缓存的速率等于离开缓存的速率时,整个缓存处于一个平衡的状态:
λ(1-PN)=μ(1-P0)
其中PN为缓存刚好占满的概率,P0为缓存刚好为空的概率;
则缓存的平衡状态概率:
其中,pn-1为缓存占用为n-1时概率,pn+1为缓存占用为n+1时概率,pn为缓存占用为n时概率,pN-1为缓存占用为N-1时概率;
得出缓存占用为空的概率:
p0=[1-(λ-μ)]/[1-(λ/μ)N+1]
缓存占用为n时概率:
pn=(λ/μ)np0
当n=N时,满缓存则达到了最大占用率,若再有包到达则会丢失,因此丢失的概率为:
pN=(λ/μ)Np0
假设在第i帧,单个用户缓存占用ni,u,用户u在第i帧到达的包的数量为ri,u,在第i+1帧实际缓存占用大小:
其中ai,u为用户u在第i帧发送的数据包的数量,此时刻所有信道为用户u发送的数据分组总量为:
其中ac,u,m为用户u在信道c上以传输模式m发送的数据分组数,m为传输模式,c为信道序号,C为信道总数;
其中,n表示某一用户当前状态缓存占用,n′表示某一用户下一状态缓存占用,nu表示用户u当前状态缓存占用,n′u表示用户u下一状态缓存占用;
步骤2-2:信道建模;
单位时间Ti为一个时隙,在一个Ti中信道的状态不改变,信道的状态转换发生在两个相邻的状态之间;信道状态被建模为一个有限马尔可夫链;ρ为信噪比服从瑞利分布的随机值,ρ>0;F为信道状态的数量,信道状态空间为 ρSNR={ρ1,ρ2,...,ρF-1};μSNR表示峰值信噪比;
因此信道状态的概率分布:
在信道状态转移概率:
pF(fi,fi+1)=N(ρi+1)Ti/pF(fi),i∈{1,2,3,...,N-2}
pF(fi,fi-1)=N(ρi)Ti/pF(fi),i∈{1,2,3,...,N-1}
则整个系统的信道状态转移概率:
步骤2-3:系统状态转移;
系统状态是缓冲区状态和通道状态的结合Si=Ni*Fi;缓存状态表示U个用户状态乘积,信道状态表示C个信道状态乘积;
因此系统的状态转换概率:
步骤2-4:信道传输功率;
采用AM方法调整传输功率和速率;传输m∈{0,1,2,...,M},M为可选模式的总数;0和1分别对应无传输和BPSK传输,m≥2对应2m-QAM传输;给定传输速率、功率和信道状态,估计误码率(BER);p(fi,m)是传输功率,WN0是噪声功率;
如果m=1,误码率:
如果m>1,误码率::
pBER(fi,m)≤0.2exp(-1.6p(fi,m)/WN0(2m-1))
步骤2-5:系统效用值;
假设代码速率为V,那么系统的吞吐量是V*j,收益等量化表示为V*j=ac,u,m;系统状态si={ni,fi},ai={ac,u,m}为传输的数据包数量,收益就是传输的包的数量;
则收益函数为:
B(si,ai)=au,c,m
au,c,m=max(nu)
开销函数为:
其中,exp(θ×ni)为缓存压力值,pc(si,ai)为信道c最小传输功率;
则系统效用值:
U(si,ai)=B(si,ai)/C(si,ai)
步骤3:基于深度强化学习算法获得最优传输机制;
系统包含两个状态对象:缓存状态和信道状态;系统的运行是一个状态转换的过程;系统的下一个状态是通过在当前状态下选择并执行某个动作而获得的;下一个单位时间系统的状态只与当前状态和动作有关,因此,将数据传输调度问题建模为马尔可夫决策过程,包括以下几部分;
步骤3-1:状态集;
系统的状态分两部分,一部分是缓存的状态灿,一部分是信道的状态Fi,系统状态Si={Ni,Fi};
步骤3-2:动作集;
当发生状态转换时,中继必须根据当前状态选择动作,动作集ai∈A={au,c,m},u∈{1,2,...,U},c∈{1,2,...,C},m∈{0,1,2,...,M},ai=au,c,m表示在第i帧开始,中继选择信道c,传输模式m,为用户u发送au,c,m个数据包;
步骤3-3:传输需求优先级;
假设在当前第i帧的系统状态下,选择数据包数量最多的用户,信道状态最好的信道传输数据分组;
步骤3-4:深度强化学习算法;
步骤3-4-1:深度Q学习算法;
根据当前状态si,计算出所有动作ai的Q值,然后取最大Q值对应的动作执行,设置一个修正值Index,选择到许久未被执行的动作,a表示所有可能执行的动作;
修正值:
其中,Cp为常数,Ta(i)为动作a在第i帧后被选中的次数;
动作a在第i帧后被选中的方差值:
在确定动作后,中继器执行动作ai,计算效用值U,并根据公式更新Q值函数:
其中学习率α为变化值α=1/(1+Ta(i)),0<α≤1;
步骤3-4-2:SAE模型;
SAE是由若干个自编码器组成,在开始得到时序输入的特征,将其作为输入信息来开始训练一个自编码器,进而得到新的特征表达,然后重复此过程,不断得到新的特征表达,而随着AE数量的不断增加,得到了栈式自编码器,即SAE;把Q值函数进行SAE模型训练,获得最优的缓存和通信资源智能调度模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110824751.5A CN113630807B (zh) | 2021-07-21 | 2021-07-21 | 一种物联网单中继的缓存和通信资源智能调度方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110824751.5A CN113630807B (zh) | 2021-07-21 | 2021-07-21 | 一种物联网单中继的缓存和通信资源智能调度方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113630807A true CN113630807A (zh) | 2021-11-09 |
CN113630807B CN113630807B (zh) | 2024-02-27 |
Family
ID=78380460
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110824751.5A Active CN113630807B (zh) | 2021-07-21 | 2021-07-21 | 一种物联网单中继的缓存和通信资源智能调度方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113630807B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106304165A (zh) * | 2016-08-12 | 2017-01-04 | 辛建芳 | 基于排队理论的d2d蜂窝异构网络的性能分析方法 |
CN108366432A (zh) * | 2018-01-03 | 2018-08-03 | 上海交通大学 | 全双工缓存中继系统多用户调度方法及系统 |
CN109195207A (zh) * | 2018-07-19 | 2019-01-11 | 浙江工业大学 | 一种基于深度强化学习的集能型无线中继网络吞吐量最大化方法 |
CN111148177A (zh) * | 2019-12-16 | 2020-05-12 | 浙江工业大学 | 一种基于双缓存队列的能量捕获网络中继选择方法 |
-
2021
- 2021-07-21 CN CN202110824751.5A patent/CN113630807B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106304165A (zh) * | 2016-08-12 | 2017-01-04 | 辛建芳 | 基于排队理论的d2d蜂窝异构网络的性能分析方法 |
CN108366432A (zh) * | 2018-01-03 | 2018-08-03 | 上海交通大学 | 全双工缓存中继系统多用户调度方法及系统 |
CN109195207A (zh) * | 2018-07-19 | 2019-01-11 | 浙江工业大学 | 一种基于深度强化学习的集能型无线中继网络吞吐量最大化方法 |
CN111148177A (zh) * | 2019-12-16 | 2020-05-12 | 浙江工业大学 | 一种基于双缓存队列的能量捕获网络中继选择方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113630807B (zh) | 2024-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102355670B (zh) | 一种多信道无线mesh网络信道分配方法 | |
CN109587519B (zh) | 基于q学习的异构网络多径视频传输控制系统及方法 | |
CN102316594B (zh) | 认知无线网络中跨层资源分配和分组调度的方法 | |
CN100581074C (zh) | 一种正交频分复用系统的实时业务资源分配方法 | |
CN109831808B (zh) | 一种基于机器学习的混合供电c-ran的资源分配方法 | |
CN111556572A (zh) | 一种基于强化学习的频谱资源和计算资源联合分配方法 | |
CN109041193A (zh) | 一种基于noma的网络切片动态联合用户关联和功率分配方法 | |
CN109120552B (zh) | 一种aos中面向qos的带宽和功率多目标跨层优化方法 | |
CN101790204A (zh) | 协作通信系统中兼顾信道条件和业务状态的中继选择方法 | |
CN110049507B (zh) | 无线内容分发网络中基于鞅理论的最优缓冲资源分配方法 | |
CN113691391B (zh) | 基于q学习的节点数量可变水声网络介质访问控制方法 | |
CN115622595B (zh) | 一种实现自适应大规模urllc的高能效组网方法 | |
CN103781166B (zh) | 异构无线网络协作通信系统中的移动终端功率分配方法 | |
CN114867030A (zh) | 双时间尺度智能无线接入网切片方法 | |
CN114501667A (zh) | 一种考虑业务优先级的多信道接入建模及分布式实现方法 | |
CN114928611B (zh) | 一种基于IEEE802.11p协议的车联网节能计算卸载优化方法 | |
CN101400137B (zh) | 一种用户设备的调度方法及装置 | |
CN113795050A (zh) | 一种基于Sum tree采样的深度双Q网络动态功率控制方法 | |
CN113630807A (zh) | 一种物联网单中继的缓存和通信资源智能调度方法 | |
CN115442914B (zh) | 基于传输时隙电力业务差异化的WiFi6接入资源优化方法 | |
CN108712755B (zh) | 基于深度强化学习的非正交接入上行传输时间优化方法 | |
Xie et al. | Multi-armed bandit based task offloading by probabilistic V2X communication in vehicle edge cloud system | |
CN106301501B (zh) | 一种联合编码调制的即时数据传输优化方法 | |
CN114867123A (zh) | 一种基于强化学习的5g物联网系统多用户调度方法与系统 | |
CN108738048B (zh) | 一种基于遗传算法的最大化公平性基站主动存储方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |