CN113573284B - 大规模机器类通信基于机器学习的随机接入退避方法 - Google Patents

大规模机器类通信基于机器学习的随机接入退避方法 Download PDF

Info

Publication number
CN113573284B
CN113573284B CN202110685469.3A CN202110685469A CN113573284B CN 113573284 B CN113573284 B CN 113573284B CN 202110685469 A CN202110685469 A CN 202110685469A CN 113573284 B CN113573284 B CN 113573284B
Authority
CN
China
Prior art keywords
network
function
parameters
mtcd
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110685469.3A
Other languages
English (en)
Other versions
CN113573284A (zh
Inventor
钱志鸿
谢明桐
王雪
丛玉良
刘桂岐
张继真
李华亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202110685469.3A priority Critical patent/CN113573284B/zh
Publication of CN113573284A publication Critical patent/CN113573284A/zh
Application granted granted Critical
Publication of CN113573284B publication Critical patent/CN113573284B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/70Services for machine-to-machine communication [M2M] or machine type communication [MTC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W74/00Wireless channel access
    • H04W74/08Non-scheduled access, e.g. ALOHA
    • H04W74/0833Random access procedures, e.g. with 4-step access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明属于物联网通信技术领域,公开了大规模机器类通信基于机器学习的随机接入退避方法,包括S1:动态划分虚拟小小区,对MTCD业务分类;S2:针对退避接入问题建立马尔可夫决策过程;S3:获取MTCD服务质量参数,构建奖励函数;S4:构建评价网络Critic和策略网络Actor;S5:利用策略网络Actor生成退避接入决策;S6:最小化TD误差,更新评价网络Critic神经网络参数,并将TD误差传递给策略网络Actor;S7:获取TD误差作为优势函数更新策略网络Actor的神经网络参数,调整策略以改进回报;S8:进行N次循环迭代,训练更新网络参数;S9:为MTCD选择最优的退避接入时隙;本发明解决了现有技术MTCD随机接入网络所造成的网络拥塞问题,适用于MTCD随机接入网络。

Description

大规模机器类通信基于机器学习的随机接入退避方法
技术领域
本发明涉及物联网通信技术领域,具体为一种大规模机器类通信基于机器学习的随机接入退避方法。
背景技术
物联网技术作为面向未来的重要技术之一,其发展十分迅速,随着接入网络的设备爆发式增长,相关业务也与日俱增。随着通信技术的发展和生活中业务需求的提高,物联网大连接的时代已然到来,社会进入了5G时代。随着5G的发展,衍生了网络功能虚拟化(NFV)、虚拟现实技术(VR)等新思想和新技术,其中,网络功能虚拟化指的是通过使用x86等通用性硬件以及虚拟化技术来承载很多功能的软件处理,从而降低网络昂贵的设备成本;通过软硬件解耦及功能抽象,使网络设备功能不再依赖于专用硬件,资源可以充分灵活共享,实现新业务的快速开发和部署,并基于实际业务需求进行自动部署、弹性伸缩、故障隔离和自愈等。
为满足新时代网络需求,第三代合作伙伴计划(3GPP)提出了第五代移动通信技术(5G)的三大应用服务场景:增强移动宽带(eMBB)、超高可靠低时延通信(uRLLC)和大规模机器类通信(mMTC),其中,eMBB主要面向移动互联网流量爆炸式增长,为移动互联网用户提供更加极致的应用体验,主要是追求人与人之间的通信体验;uRLLC主要面向工业控制、远程医疗、自动驾驶等对时延和可靠性具有极高要求的垂直行业应用需求,主要体现物与物之间的通信需求;mMTC主要面向智慧城市、智能家居、环境监测等以传感和数据采集为目标的应用需求,主要是人与物之间的信息交互。eMBB和uRLLC服务主要依靠新无线电(NR)接入技术处理,而mMTC服务主要依靠在地理覆盖范围方面已经成熟的长期演进技术(LTE)蜂窝网络提供支持。
mMTC服务具有数据包小、传输频率低、业务特性多样、传输规模大等区别于传统通信的特点,在mMTC应用场景下,大规模机器类通信设备(MTCD)在同时进行随机接入过程中,网络拥塞情况是限制系统性能的主要原因,因此,在保证机器类通信(MTC)的各种业务完美实现的同时,解决大规模MTCD接入网络所造成的网络拥塞,是本领域技术人员亟需解决的一个难题。
发明内容
本发明意在提供一种大规模机器类通信基于机器学习的随机接入退避方法,以解决现有技术大规模机器类通信设备(MTCD)随机接入网络所造成的网络拥塞的问题。
为了实现上述目的,本发明提供如下技术方案:
大规模机器类通信基于机器学习的随机接入退避方法,包括以下步骤:
S1:结合5G虚拟化思想,以地理位置或应用需求等各种依据动态划分虚拟小小区,虚拟小小区内的MTCD竞争同一个前导码,并根据业务特性的不同对MTCD进行类别的划分;
S2:MTCD的随机接入过程设置为接入请求队列和数据队列的双队列模型,将数据队列的状态转移过程建模成一个马尔可夫决策过程(MDP);
S3:利用层次分析法计算各类MTCD服务质量(QoS)参数的权重,并据此构造加权的服务质量关键绩效指标(KPI)函数作为整体的奖励函数;
S4:采用误差反向传播(BP)的神经网络构建近似拟合状态值函数的评价网络Critic和近似拟合策略函数的策略网络Actor,并初始化两种网络参数;
S5:策略网络Actor根据当前MTCD的QoS状态和前导码占用状态生成退避接入决策,然后通过奖励函数求得一个回报值,同时得到MTCD前导码的下一个状态;
S6:采用梯度下降方法更新评价网络Critic的神经网络参数,根据系统状态近似拟合状态值函数,以最小化时序差分(TD)误差为优化目标,更新神经网络权重参数,并将TD误差传递给策略网络Actor以指导其改进策略;
S7:采用带权重的梯度下降方法更新策略网络Actor的神经网络参数,将评价网络Critic传递的TD误差作为优势函数,根据训练结果更新策略网络Actor参数,调整策略以改进回报;
S8:进行N次循环迭代,每次循环迭代从初始时刻开始,得到初始化网络状态,直至终止时刻,其中,在每个决策时刻进行S5-S7的操作步骤,训练更新网络参数;
S9:根据训练好的策略网络确定最优退避接入策略,为MTCD选择最优的退避接入时隙。
进一步地,在S1中,将MTCD的业务划分为四大类:
第一类是对数据准确性十分敏感且有硬时延要求的业务,包括异常数据警报、车辆跟踪和资产跟踪;
第二类是有一定的容错率和延迟容忍,但对抖动敏感且有数据链路速率要求的业务,针对视频,包括远程监控、异常视频监控报告;
第三类是对数据准确性要求极高但有延迟容忍的业务,包括智能计量、网络指令和移动POS;
第四类是要求数据准确但容忍时延的周期性报告业务,包括环境监控、物流跟踪。
进一步地,在S2中,MTCD接入过程建模为马尔可夫决策过程的方法为:
先将MTCD的随机接入过程设置为接入请求队列和数据队列的双队列模型,在MTCD竞争同一个前导码发生随机接入碰撞后,再把符合马尔可夫链的无后效性的数据队列状态转移过程建模成一个四元组(S,A,P,R)构成的马尔可夫决策过程。
进一步地,在S3中,计算各类MTCD服务质量QoS参数的权重的方法为:
采用层次分析法将决策方案分为三个层次:目标层、准则层、方案层,准则层的指标选取为影响QoS的四个状态参数,四个状态参数包括时延(D)、丢包率(E)、数据链路速率(B)和抖动(J);
首先,根据不同状态参数在退避接入决策中的重要程度,分别构四种业务类型的判断矩阵A=(aij)4×4,aij的值利用Saaty 1-9标度法确定,体现同一层次下参数i相比较于参数j对目标层的重要程度,由参数两两进行比较获得,判断矩阵是正互反矩阵,满足aijaji=1,且aii=1(i,j=1,2,3,4);
然后利用几何平均法,求取四个QoS指标参数的权重因子:
Figure BDA0003124443630000041
其中,n为QoS参数的数量(n=4);
最后,对判断矩阵A进行一致性检验,计算一致性比例CR:
Figure BDA0003124443630000042
其中,λmax为判断矩阵的最大特征值,RI表示平均一致性指标,当CR<0.1时,判决矩阵一致性为可以接受,否则需要重新构造并对其修正直到满足一致性检验。
进一步地,在S3中,在S3中,构造奖励函数的方法为:
构造加权的服务质量关键绩效指标(KPI)函数作为整体的奖励函数:
r(s,a)=ωBrB(s,a)+ωDrD(s,a)+ωErE(s,a)+ωJrJ(s,a)
其中,ω是各QoS指标参数的权重因子,且满足0≤ω≤1;rB(s,a)、rD(s,a)、rE(s,a)、rJ(s,a)分别为数据链路速率(B)、时延(D)、丢包率(E)、抖动(J)的奖励函数;
参数值越大的参数为效益型参数,数据链路速率(B)的定义其奖励函数为:
Figure BDA0003124443630000043
其中,LB和UB分别为MTCD可提供的最小和最大数据链路速率,Ba为在状态s下采取动作a后系统的能增加的数据链路速率值;
参数值越小的参数为成本型参数,时延(D)、丢包率(E)、抖动(J)的相关参数的奖励函数定义为:
Figure BDA0003124443630000051
其中,Lx和Ux分别为MTCD退避接入时对于参数x(x=D,E,J)可以接受的最小和最大值,xa为在状态s下采取动作a后系统所能得到的参数x的值。
进一步地,在S4中,近似拟合状态值函数的评价网络Critic和近似拟合策略函数的策略网络Actor均由输入层、隐藏层和输出层构成,输入层和输出层的激活函数均为线性函数,隐藏层的激活函数为relu函数,其中策略网络Actor利用softmax策略函数输出行为概率。
进一步地,在S5中,策略网络Actor生成退避接入决策的方法为:
策略网络Actor的策略函数为用于离散空间softmax函数,用描述状态和行为的特征
Figure BDA0003124443630000052
与参数θ的线性组合来权衡一个行为发生的几率,根据包含MTCD的QoS参数指标和前导码占用情况信息的当前状态s,选择行为以生成退避接入决策,最后通过奖励函数计算出一个回报值,同时得到下一个状态的信息。
进一步地,在S6中,更新评价网络Critic神经网络参数的方法为:
评价网络Critic通过神经网络估计状态值函数,计算TD误差得到估计值和真实值的偏差,为精确估计状态值函数,设置优化目标为最小化TD误差,选择梯度下降法训练神经网络,构建常规的均方差损失函数更新网络权重参数,同时将TD误差作为评价,传递给策略网络Actor以指导其更新。
进一步地,在S7中,更新策略网络Actor参数的方法为:
利用评价网络Critic输出的TD偏差作为优势函数来构造策略网络Actor的策略梯度,采用自适应学习率优化的自适应矩估计Adam梯度下降算法(Adaptive momentestimation)训练神经网络,结合整体QoS使得网络参数向着最大化累积回报期望的方向更新。
与现有技术相比,本发明的有益效果是:
1、根据实际应用场景,对不同业务进行分类,针对个性化服务质量需求,利用层次分析法构建目标函数,能够满足海量机器类通信终端的差异化QoS需求;
2、利用结合值函数迭代和策略迭代的深度强化学习算法求解MDP模型,与环境交互自适应地训练,学习如何得到最优接入退避策略,做出退避决策,有效地在满足个性化QoS需求同时,提升终端接入成功率和系统资源利用率,降低平均接入时延和平均碰撞概率。
附图说明
图1为本发明大规模机器类通信基于机器学习的随机接入退避方法的流程框图;
图2为本发明大规模机器类通信基于机器学习的随机接入退避方法S3中确定QoS参数权重的层次分析结构模型图;
图3为本发明大规模机器类通信基于机器学习的随机接入退避方法S4-S7中Actor-Critic算法框图;
图4为本发明大规模机器类通信基于机器学习的随机接入退避方法的系统模型图。
具体实施方式
下面结合附图和实施方式对本发明作进一步的详细说明:
如图1至图4所示,大规模机器类通信基于机器学习的随机接入退避方法,包括以下步骤:
S1:结合5G虚拟化思想,以地理位置或应用需求等各种依据动态划分虚拟小小区,虚拟小小区内的MTCD竞争同一个前导码,参照3GPP协议和国内外文献,结合生活场景,根据业务特性的不同,将MTCD的业务主要划分成四大类:
第一类是对数据准确性十分敏感且有硬时延要求的业务,包括异常数据警报、车辆跟踪和资产跟踪等;
第二类是有一定的容错率和延迟容忍、但对抖动敏感且有数据链路速率要求的业务,主要针对视频应用,包括远程监控、异常视频监控报告等,这类业务在数据链路速率方面有最低保证比特率的要求,对抖动比较敏感,抖动是重要的指标,但是在丢包率和时延方面具有一定的容错率和延迟容忍;
第三类是对数据准确性要求极高但有延迟容忍的业务,包括智能计量、网络指令和移动POS等,这类业务一般通过请求-响应的方式传输,数据量也相对较大,虽然强调数据准确性,但是对时延没有严格的要求,可以容忍延迟;
第四类是要求数据准确但容忍时延的周期性报告业务,包括环境监控、物流跟踪等,这类业务的特性是频繁地传输上行数据,且数据量较小,不要求实时传输,但是要保证数据的准确性;
S2:对问题进行系统建模,将MTCD的随机接入过程设置为接入请求队列和数据队列的双队列模型,因为某时刻访问请求只有一个,所以接入请求队列最多只有一个,在随机接入碰撞后,设备在数据队列进入退避状态,设备的下一状态只与当前状态和选择的退避窗口有关,符合马尔可夫链的无后效性,因此数据队列的状态转移过程可以建模成一个由四元组(S,A,P,R)构成的马尔可夫决策过程。
S是状态空间,s∈S表示当前agent观察到的状态,定义系统状态由各MTCD的QoS参数q和各退避时隙前导码占用状态l两部分组成,各MTCD间可以通过基站交互信息,设备i的状态可以表示为
Figure BDA0003124443630000071
A是动作空间,a∈A表示智能体agent采取的动作,定义动作为设备所选择的退避时隙,a∈{1,2,…,slot},即共有slot个时隙可以选择;
R:S×A→R表示奖励函数,是agent在当前状态采取动作后获得的即时奖励,可以体现优化目标,本发明奖励函数定义为服务质量关键绩效指标(KPI)函数;
Figure BDA0003124443630000081
表示状态转移概率集合;
在MDP模型中,定义状态值函数表示当前状态下采取策略π:s→a获得的长期回报:
Figure BDA0003124443630000082
其中,γ为折扣因子,满足0≤γ≤1,反映未来奖励对于长期回报的重要程度。因此希望得到的退避接入策略就可以表示为:
Figure BDA0003124443630000083
S3:构造加权的服务质量关键绩效指标(KPI)函数作为整体的奖励函数,结合步骤S1中已经划分的四类业务,利用层次分析法计算各类MTCD服务质量QoS参数的权重:
首先,建立好层次结构模型,采用层次分析法将决策方案分为三个层次:目标层、准则层、方案层。准则层的指标选取为影响QoS的四个状态参数,所述服务质量状态参数包括时延(D)、丢包率(E)、数据链路速率(B)和抖动(J);
其次,根据不同状态参数在退避接入决策中的重要程度,分别构四种业务类型的判断矩阵A=(aij)4×4,aij的值通过Saaty 1-9标度法确定,取值如表1所示,体现同一层次下参数i相比较于参数j对目标层的重要程度,由参数两两进行比较获得,对比时采用相对尺度,以尽可能减少性质不同因素相互比较的困难,以提高准确度;判断矩阵是正互反矩阵,满足aijaji=1,且aii=1(i,j=1,2,3,4);
表1 Saaty 1-9标度法
Figure BDA0003124443630000084
表1中,在相同到绝对强每两个等级之间可依次使用2,4,6,8将其量化。
第一类业务的判断矩阵:
Figure BDA0003124443630000091
第二类业务的判断矩阵:
Figure BDA0003124443630000092
第三类业务的判断矩阵:
Figure BDA0003124443630000093
第四类业务的判断矩阵:
Figure BDA0003124443630000094
然后利用几何平均法,求取四个QoS指标参数的权重因子
Figure BDA0003124443630000095
其中,n为QoS参数的数量(n=4);根据QoS指标参数的数量n,通过查找表2获得对应的平均随机一致性指标RI;
表2平均随机一致性指标对应表
n 1 2 3 4 5 6 7 8 9
RI 0 0 0.52 0.89 1.12 1.26 1.36 1.41 1.46
最后,计算一致性比例CR:
Figure BDA0003124443630000101
其中,λmax为判断矩阵的最大特征值。当CR<0.1时,认为判决矩阵的一致性是可以接受的,否则需要重新构造并对其修正,直到满足一致性检验。最终得到四类业务终端的QoS参数权重系数和一致性比例如表3所示;
表3四类业务终端QoS参数的权值及一致性比例CR
Figure BDA0003124443630000102
构造加权的服务质量关键绩效指标(KPI)函数作为整体的奖励函数:
r(s,a)=ωBrB(s,a)+ωDrD(s,a)+ωErE(s,a)+ωJrJ(s,a)
其中,ω是各QoS指标参数的权重因子,且满足0≤ω≤1,已在表3中求出;rB(s,a)、rD(s,a)、rE(s,a)、rJ(s,a)分别为数据链路速率(B)、时延(D)、丢包率(E)、抖动(J)的奖励函数;
参数值越大的参数为效益型参数,数据链路速率(B)的定义其奖励函数为:
Figure BDA0003124443630000103
其中,LB和UB分别为MTCD可提供的最小和最大数据链路速率,Ba为在状态s下采取动作a后系统的能增加的数据链路速率值;
参数值越小的参数为成本型参数,时延(D)、丢包率(E)、抖动(J)的相关参数的奖励函数定义为:
Figure BDA0003124443630000111
其中,Lx和Ux分别为MTCD退避接入时对于参数x(x=D,E,J)可以接受的最小和最大值,xa为在状态s下采取动作a后系统所能得到的参数x的值。
S4:采用误差反向传播的BP神经网络构建近似拟合状态值函数的评价网络Critic和近似拟合策略函数的策略网络Actor,并初始化网络参数;
近似拟合状态值函数的评价网络Critic和近似拟合策略函数的策略网络Actor均由输入层、隐藏层和输出层构成,输入层和输出层的激活函数均为线性函数,隐藏层的激活函数为relu函数;
本发明基于机器学习的随机接入退避方法的总体目标是作为agent的MTCD在状态s下得到最优退避接入策略,考虑总体QoS选择动作,最大化累积回报的期望,策略网络Actor的作用就是生成当前的执行策略并根据Critic反馈的评价不断改进;评价网络Critic的作用是越加精确地估计状态值函数,并根据此评价策略的执行结果,指导策略网络Actor的优化;
S5:根据当前MTCD的QoS状态和前导码占用状态,策略网络Actor利用softmax策略函数输出行为概率,生成退避接入决策,然后通过奖励函数求得一个回报值,同时得到MTCD和前导码的下一个状态st+1
S6:评价网络Critic根据系统状态利用神经网络来近似拟合状态值函数,这样就可以通过网络参数的迭代更新来更新值函数。评价网络Critic引入时序差分(TD)误差作为优化目标:
δt=V(st)-Vξ(st)
其中,V(st)=Rt+1+γVξ(st+1)。为了精确估计值函数,构建常规的均方差损失函数,采用梯度下降方法训练网络,最小化TD误差,以此来更新神经网络权重参数:
ξnew=ξoldcδtξVξ(st)
其中,αc为Critic网络的学习速率。然后将TD误差传递给策略网络Actor以指导其改进策略;
S7:策略网络Actor将策略的调整转化为网络参数的更新,将评价网络Critic输出的TD误差作为优势函数来构造策略梯度,采用自适应学习率优化的自适应矩估计Adam梯度下降算法(Adaptive moment estimation)训练神经网络,结合整体QoS使得网络参数向着最大化MDP长期回报的方向更新Actor的网络参数:
θnew=θoldaθlogπθ(at|stt
其中,αa为Actor学习速率,为便于改进,应设置其小于Critic网络的学习速率;
S8:进行N次循环迭代,每次循环迭代从初始时刻开始,得到初始化网络状态,直至终止时刻;在每个决策时刻进行S5-S7的操作步骤,训练更新网络参数;
S9:根据训练好的策略网络确定最优退避接入策略πθ,为MTCD选择最优的退避接入时隙。
以上所述的仅是本发明的实施例,方案中公知的具体技术方案或特性等常识在此未作过多描述。应当指出,对于本领域的技术人员来说,在不脱离本发明技术方案的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims (9)

1.大规模机器类通信基于机器学习的随机接入退避方法,其特征在于,包括以下步骤:
S1:结合5G虚拟化思想,以地理位置或应用需求动态划分虚拟小小区,虚拟小小区内的MTCD竞争同一个前导码,并根据业务特性的不同对MTCD进行类别的划分;
S2:MTCD的随机接入过程设置为接入请求队列和数据队列的双队列模型,将数据队列的状态转移过程建模成一个马尔可夫决策过程(MDP);
S3:利用层次分析法计算各类MTCD服务质量(QoS)参数的权重,并据此构造加权的服务质量关键绩效指标(KPI)函数作为整体的奖励函数;
S4:采用误差反向传播(BP)的神经网络构建近似拟合状态值函数的评价网络Critic和近似拟合策略函数的策略网络Actor,并初始化两种网络参数;
S5:策略网络Actor根据当前MTCD的QoS状态和前导码占用状态生成退避接入决策,然后通过奖励函数求得一个回报值,同时得到MTCD前导码的下一个状态;
S6:采用梯度下降方法更新评价网络Critic的神经网络参数,根据系统状态近似拟合状态值函数,以最小化时序差分(TD)误差为优化目标,更新神经网络权重参数,并将TD误差传递给策略网络Actor以指导其改进策略;
S7:采用带权重的梯度下降方法更新策略网络Actor的神经网络参数,将评价网络Critic传递的TD误差作为优势函数,根据训练结果更新策略网络Actor参数,调整策略以改进回报;
S8:进行N次循环迭代,每次循环迭代从初始时刻开始,得到初始化网络状态,直至终止时刻,其中,在每个决策时刻进行S5-S7的操作步骤,训练更新网络参数;
S9:根据训练好的策略网络确定最优退避接入策略,为MTCD选择最优的退避接入时隙。
2.根据权利要求1所述的大规模机器类通信基于机器学习的随机接入退避方法,其特征在于,在S1中,将MTCD的业务划分为四大类:
第一类是对数据准确性十分敏感且有硬时延要求的业务,包括异常数据警报、车辆跟踪和资产跟踪;
第二类是有容错率和延迟容忍,但对抖动敏感且有数据链路速率要求的业务,针对视频,包括远程监控、异常视频监控报告;
第三类是对数据准确性要求极高但有延迟容忍的业务,包括智能计量、网络指令和移动POS;
第四类是要求数据准确但容忍时延的周期性报告业务,包括环境监控、物流跟踪。
3.根据权利要求1所述的大规模机器类通信基于机器学习的随机接入退避方法,其特征在于:在S2中,MTCD接入过程建模为马尔可夫决策过程的方法为:
先将MTCD的随机接入过程设置为接入请求队列和数据队列的双队列模型,在MTCD竞争同一个前导码发生随机接入碰撞后,再把符合马尔可夫链的无后效性的数据队列状态转移过程建模成一个四元组(S,A,P,R)构成的马尔可夫决策过程。
4.根据权利要求1所述的大规模机器类通信基于机器学习的随机接入退避方法,其特征在于:在S3中,计算各类MTCD服务质量QoS参数的权重的方法为:
采用层次分析法将决策方案分为三个层次:目标层、准则层、方案层,准则层的指标选取为影响QoS的四个状态参数,四个状态参数包括时延(D)、丢包率(E)、数据链路速率(B)和抖动(J);
首先,根据不同状态参数在退避接入决策中的重要程度,分别构造四种业务类型的判断矩阵A=(aij)4×4,aij的值利用Saaty1-9标度法确定,体现同一层次下参数i相比较于参数j对目标层的重要程度,由参数两两进行比较获得,判断矩阵是正互反矩阵,满足aijaji=1,且aii=1(i,j=1,2,3,4);
然后利用几何平均法,求取四个QoS指标参数的权重因子:
Figure FDA0004159309590000031
其中,n为QoS参数的数量(n=4);
最后,对判断矩阵A进行一致性检验,计算一致性比例CR:
Figure FDA0004159309590000032
其中,λmax为判断矩阵的最大特征值,RI表示平均一致性指标,当CR<0.1时,判决矩阵一致性为可以接受,否则需要重新构造并对其修正直到满足一致性检验。
5.根据权利要求1所述的大规模机器类通信基于机器学习的随机接入退避方法,其特征在于:在S3中,构造奖励函数的方法为:
构造加权的服务质量关键绩效指标(KPI)函数作为整体的奖励函数:
r(s,a)=ωBrB(s,a)+ωDrD(s,a)+ωErE(s,a)+ωJrJ(s,a)
其中,ω是各QoS指标参数的权重因子,且满足0≤ω≤1;rB(s,a)、rD(s,a)、rE(s,a)、rJ(s,a)分别为数据链路速率(B)、时延(D)、丢包率(E)、抖动(J)的奖励函数;
数据链路速率(B)的奖励函数为:
Figure FDA0004159309590000033
其中,LB和UB分别为MTCD可提供的最小和最大数据链路速率,Ba为在状态s下采取动作a后系统的能增加的数据链路速率值;
丢包率(E)、时延(D)、抖动(J)的相关参数的奖励函数定义为:
Figure FDA0004159309590000034
其中,Lx和Ux分别为MTCD退避接入时对于参数x(x=D,E,J)可以接受的最小和最大值,xa为在状态s下采取动作a后系统所能得到的参数x的值。
6.根据权利要求1所述的大规模机器类通信基于机器学习的随机接入退避方法,其特征在于:在S4中,近似拟合状态值函数的评价网络Critic和近似拟合策略函数的策略网络Actor均由输入层、隐藏层和输出层构成,输入层和输出层的激活函数均为线性函数,隐藏层的激活函数为relu函数,其中策略网络Actor利用softmax策略函数输出行为概率。
7.根据权利要求1所述的大规模机器类通信基于机器学习的随机接入退避方法,其特征在于:在S5中,策略网络Actor生成退避接入决策的方法为:
策略网络Actor的策略函数为离散空间softmax函数,用描述状态和行为的特征
Figure FDA0004159309590000041
与参数θ的线性组合来权衡一个行为发生的几率,根据包含MTCD的QoS参数指标和前导码占用情况信息的当前状态s,选择行为以生成退避接入决策,最后通过奖励函数计算出一个回报值,同时得到下一个状态的信息。
8.根据权利要求1所述的大规模机器类通信基于机器学习的随机接入退避方法,其特征在于:在S6中,更新评价网络Critic神经网络参数的方法为:
评价网络Critic通过神经网络估计状态值函数,计算TD误差得到估计值和真实值的偏差,为精确估计状态值函数,设置优化目标为最小化TD误差,选择梯度下降法训练神经网络,构建常规的均方差损失函数更新网络权重参数,同时将TD误差作为评价,传递给策略网络Actor以指导其更新。
9.根据权利要求1所述的大规模机器类通信基于机器学习的随机接入退避方法,其特征在于:在S7中,更新策略网络Actor参数的方法为:
利用评价网络Critic输出的TD偏差作为优势函数来构造策略网络Actor的策略梯度,采用自适应学习率优化的自适应矩估计Adam梯度下降算法(Adaptive momentestimation)训练神经网络,结合整体QoS使得网络参数向着最大化累积回报期望的方向更新。
CN202110685469.3A 2021-06-21 2021-06-21 大规模机器类通信基于机器学习的随机接入退避方法 Active CN113573284B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110685469.3A CN113573284B (zh) 2021-06-21 2021-06-21 大规模机器类通信基于机器学习的随机接入退避方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110685469.3A CN113573284B (zh) 2021-06-21 2021-06-21 大规模机器类通信基于机器学习的随机接入退避方法

Publications (2)

Publication Number Publication Date
CN113573284A CN113573284A (zh) 2021-10-29
CN113573284B true CN113573284B (zh) 2023-05-12

Family

ID=78162444

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110685469.3A Active CN113573284B (zh) 2021-06-21 2021-06-21 大规模机器类通信基于机器学习的随机接入退避方法

Country Status (1)

Country Link
CN (1) CN113573284B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113766669B (zh) * 2021-11-10 2021-12-31 香港中文大学(深圳) 一种基于深度学习网络的大规模随机接入方法
CN114884593A (zh) * 2022-03-04 2022-08-09 中国科学院微电子研究所 一种星型拓扑网络抗干扰媒体接入方法、装置和电子设备
CN117062280B (zh) * 2023-08-17 2024-03-08 北京美中爱瑞肿瘤医院有限责任公司 一种神经外科自助式手术灯自动跟随系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006119281A2 (en) * 2005-05-03 2006-11-09 Packethop, Inc. Discovery and authentication scheme for wireless mesh networks
WO2011136558A2 (ko) * 2010-04-28 2011-11-03 엘지전자 주식회사 무선 통신 시스템에서 랜덤접속 절차를 수행하는 방법 및 장치
WO2020019474A1 (zh) * 2018-07-25 2020-01-30 西安交通大学 大规模m2m网络中基于最优功率退避的非正交随机接入方法
CN111405602A (zh) * 2020-04-02 2020-07-10 吉林大学 一种低冲突概率的无线网络邻居发现方法
CN111666149A (zh) * 2020-05-06 2020-09-15 西北工业大学 基于深度强化学习的超密边缘计算网络移动性管理方法
CN112311622A (zh) * 2020-10-20 2021-02-02 北京电信技术发展产业协会 5g终端的无线资源管理的一致性测试方法和系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10397958B2 (en) * 2017-03-17 2019-08-27 Asustek Computer Inc. Method and apparatus for backoff mechanism applied for random access procedure in a wireless communication system
CN108901058A (zh) * 2018-07-06 2018-11-27 北方工业大学 一种物联网节点接入通道优化选择方法
CN110225535B (zh) * 2019-06-04 2021-07-20 吉林大学 基于深度确定性策略梯度的异构无线网络垂直切换方法
CN110691422B (zh) * 2019-10-06 2021-07-13 湖北工业大学 一种基于深度强化学习的多信道智能接入方法
CN111867139B (zh) * 2020-07-06 2022-03-01 上海交通大学 基于q学习的深度神经网络自适应退避策略实现方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006119281A2 (en) * 2005-05-03 2006-11-09 Packethop, Inc. Discovery and authentication scheme for wireless mesh networks
WO2011136558A2 (ko) * 2010-04-28 2011-11-03 엘지전자 주식회사 무선 통신 시스템에서 랜덤접속 절차를 수행하는 방법 및 장치
WO2020019474A1 (zh) * 2018-07-25 2020-01-30 西安交通大学 大规模m2m网络中基于最优功率退避的非正交随机接入方法
CN111405602A (zh) * 2020-04-02 2020-07-10 吉林大学 一种低冲突概率的无线网络邻居发现方法
CN111666149A (zh) * 2020-05-06 2020-09-15 西北工业大学 基于深度强化学习的超密边缘计算网络移动性管理方法
CN112311622A (zh) * 2020-10-20 2021-02-02 北京电信技术发展产业协会 5g终端的无线资源管理的一致性测试方法和系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
An overview of anti-collision protocols for radio frequency identification devices;Qian Zhihong;China Communications;第11卷(第11期);全文 *
基于MDP的群组时延约束的IEEE 802.15.4随机接入控制算法;黄玉兰;刘健;刘子川;迟学芬;;北京邮电大学学报(04);全文 *
基于竞争估计的无线传感器网络改进退避算法;王雪瑞;周岩;;西安文理学院学报(自然科学版)(04);全文 *
基于马尔可夫决策模型的异构无线网络切换选择算法;梁潇;钱志鸿;田洪亮;王雪;;物理学报(23);全文 *

Also Published As

Publication number Publication date
CN113573284A (zh) 2021-10-29

Similar Documents

Publication Publication Date Title
CN113573284B (zh) 大规模机器类通信基于机器学习的随机接入退避方法
CN111369042B (zh) 一种基于加权联邦学习的无线业务流量预测方法
CN112913274B (zh) 用于自组织网络的优化的过程
CN112118601A (zh) 一种减少6g数字孪生边缘计算网络任务卸载延迟的方法
CN111629380B (zh) 面向高并发多业务工业5g网络的动态资源分配方法
CN111866954A (zh) 一种基于联邦学习的用户选择和资源分配方法
CN114599056A (zh) 移动通信系统管控方法、网络管控体、系统及存储介质
Saxena et al. Reinforcement learning for efficient and tuning-free link adaptation
TW202123095A (zh) 基於深度強化學習之無線通訊網路波束選擇方法
CN109991591B (zh) 基于深度学习的定位方法、装置、计算机设备及存储介质
Bartoli et al. CQI prediction through recurrent neural network for UAV control information exchange under URLLC regime
CN114301935A (zh) 一种基于声誉的物联网边云协同联邦学习节点选择方法
Zhang et al. An Efficient Cooperative Spectrum Sensing for Cognitive Wireless Sensor Networks
US20230259744A1 (en) Grouping nodes in a system
Baldvinsson et al. IL-GAN: rare sample generation via incremental learning in GANs
CN113543160A (zh) 5g切片资源配置方法、装置、计算设备及计算机存储介质
Peng et al. Hmm-lstm for proactive traffic prediction in 6g wireless networks
CN115577797A (zh) 一种基于本地噪声感知的联邦学习优化方法及系统
CN114268348A (zh) 一种基于深度强化学习的无蜂窝大规模mimo功率分配方法
Ferreira et al. 5G-RCOLAB: A system level simulator for 5G and beyond in rural areas
Khoshkbari et al. Bayesian reinforcement learning for link-level throughput maximization
CN110163249B (zh) 基于用户参数特征的基站分类识别方法及系统
Nagao et al. A Study on Path Loss Modeling using ResNet and Pre-Training with Free Space Path Loss
Zhu et al. Prediction of cellular network channel utilization based on graph convolutional networks
CN113938978B (zh) 一种基于强化学习的异构无线传感器寻路方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant