CN113573284B

CN113573284B - 大规模机器类通信基于机器学习的随机接入退避方法

Info

Publication number: CN113573284B
Application number: CN202110685469.3A
Authority: CN
Inventors: 钱志鸿; 谢明桐; 王雪; 丛玉良; 刘桂岐; 张继真; 李华亮
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2021-06-21
Filing date: 2021-06-21
Publication date: 2023-05-12
Anticipated expiration: 2041-06-21
Also published as: CN113573284A

Abstract

本发明属于物联网通信技术领域，公开了大规模机器类通信基于机器学习的随机接入退避方法，包括S1：动态划分虚拟小小区，对MTCD业务分类；S2：针对退避接入问题建立马尔可夫决策过程；S3：获取MTCD服务质量参数，构建奖励函数；S4：构建评价网络Critic和策略网络Actor；S5：利用策略网络Actor生成退避接入决策；S6：最小化TD误差，更新评价网络Critic神经网络参数，并将TD误差传递给策略网络Actor；S7：获取TD误差作为优势函数更新策略网络Actor的神经网络参数，调整策略以改进回报；S8：进行N次循环迭代，训练更新网络参数；S9：为MTCD选择最优的退避接入时隙；本发明解决了现有技术MTCD随机接入网络所造成的网络拥塞问题，适用于MTCD随机接入网络。

Description

大规模机器类通信基于机器学习的随机接入退避方法

技术领域

本发明涉及物联网通信技术领域，具体为一种大规模机器类通信基于机器学习的随机接入退避方法。

背景技术

物联网技术作为面向未来的重要技术之一，其发展十分迅速，随着接入网络的设备爆发式增长，相关业务也与日俱增。随着通信技术的发展和生活中业务需求的提高，物联网大连接的时代已然到来，社会进入了5G时代。随着5G的发展，衍生了网络功能虚拟化(NFV)、虚拟现实技术(VR)等新思想和新技术，其中，网络功能虚拟化指的是通过使用x86等通用性硬件以及虚拟化技术来承载很多功能的软件处理，从而降低网络昂贵的设备成本；通过软硬件解耦及功能抽象，使网络设备功能不再依赖于专用硬件，资源可以充分灵活共享，实现新业务的快速开发和部署，并基于实际业务需求进行自动部署、弹性伸缩、故障隔离和自愈等。

为满足新时代网络需求，第三代合作伙伴计划(3GPP)提出了第五代移动通信技术(5G)的三大应用服务场景：增强移动宽带(eMBB)、超高可靠低时延通信(uRLLC)和大规模机器类通信(mMTC)，其中，eMBB主要面向移动互联网流量爆炸式增长，为移动互联网用户提供更加极致的应用体验，主要是追求人与人之间的通信体验；uRLLC主要面向工业控制、远程医疗、自动驾驶等对时延和可靠性具有极高要求的垂直行业应用需求，主要体现物与物之间的通信需求；mMTC主要面向智慧城市、智能家居、环境监测等以传感和数据采集为目标的应用需求，主要是人与物之间的信息交互。eMBB和uRLLC服务主要依靠新无线电(NR)接入技术处理，而mMTC服务主要依靠在地理覆盖范围方面已经成熟的长期演进技术(LTE)蜂窝网络提供支持。

mMTC服务具有数据包小、传输频率低、业务特性多样、传输规模大等区别于传统通信的特点，在mMTC应用场景下，大规模机器类通信设备(MTCD)在同时进行随机接入过程中，网络拥塞情况是限制系统性能的主要原因，因此，在保证机器类通信(MTC)的各种业务完美实现的同时，解决大规模MTCD接入网络所造成的网络拥塞，是本领域技术人员亟需解决的一个难题。

发明内容

本发明意在提供一种大规模机器类通信基于机器学习的随机接入退避方法，以解决现有技术大规模机器类通信设备(MTCD)随机接入网络所造成的网络拥塞的问题。

为了实现上述目的，本发明提供如下技术方案：

大规模机器类通信基于机器学习的随机接入退避方法，包括以下步骤：

S1：结合5G虚拟化思想，以地理位置或应用需求等各种依据动态划分虚拟小小区，虚拟小小区内的MTCD竞争同一个前导码，并根据业务特性的不同对MTCD进行类别的划分；

S2：MTCD的随机接入过程设置为接入请求队列和数据队列的双队列模型，将数据队列的状态转移过程建模成一个马尔可夫决策过程(MDP)；

S3：利用层次分析法计算各类MTCD服务质量(QoS)参数的权重，并据此构造加权的服务质量关键绩效指标(KPI)函数作为整体的奖励函数；

S4：采用误差反向传播(BP)的神经网络构建近似拟合状态值函数的评价网络Critic和近似拟合策略函数的策略网络Actor，并初始化两种网络参数；

S5：策略网络Actor根据当前MTCD的QoS状态和前导码占用状态生成退避接入决策，然后通过奖励函数求得一个回报值，同时得到MTCD前导码的下一个状态；

S6：采用梯度下降方法更新评价网络Critic的神经网络参数，根据系统状态近似拟合状态值函数，以最小化时序差分(TD)误差为优化目标，更新神经网络权重参数，并将TD误差传递给策略网络Actor以指导其改进策略；

S7：采用带权重的梯度下降方法更新策略网络Actor的神经网络参数，将评价网络Critic传递的TD误差作为优势函数，根据训练结果更新策略网络Actor参数，调整策略以改进回报；

S8：进行N次循环迭代，每次循环迭代从初始时刻开始，得到初始化网络状态，直至终止时刻，其中，在每个决策时刻进行S5-S7的操作步骤，训练更新网络参数；

S9：根据训练好的策略网络确定最优退避接入策略，为MTCD选择最优的退避接入时隙。

进一步地，在S1中，将MTCD的业务划分为四大类：

第一类是对数据准确性十分敏感且有硬时延要求的业务，包括异常数据警报、车辆跟踪和资产跟踪；

第二类是有一定的容错率和延迟容忍，但对抖动敏感且有数据链路速率要求的业务，针对视频，包括远程监控、异常视频监控报告；

第三类是对数据准确性要求极高但有延迟容忍的业务，包括智能计量、网络指令和移动POS；

第四类是要求数据准确但容忍时延的周期性报告业务，包括环境监控、物流跟踪。

进一步地，在S2中，MTCD接入过程建模为马尔可夫决策过程的方法为：

先将MTCD的随机接入过程设置为接入请求队列和数据队列的双队列模型，在MTCD竞争同一个前导码发生随机接入碰撞后，再把符合马尔可夫链的无后效性的数据队列状态转移过程建模成一个四元组(S,A,P,R)构成的马尔可夫决策过程。

进一步地，在S3中，计算各类MTCD服务质量QoS参数的权重的方法为：

采用层次分析法将决策方案分为三个层次：目标层、准则层、方案层，准则层的指标选取为影响QoS的四个状态参数，四个状态参数包括时延(D)、丢包率(E)、数据链路速率(B)和抖动(J)；

首先，根据不同状态参数在退避接入决策中的重要程度，分别构四种业务类型的判断矩阵A＝(a_ij)_4×4，a_ij的值利用Saaty 1-9标度法确定，体现同一层次下参数i相比较于参数j对目标层的重要程度，由参数两两进行比较获得，判断矩阵是正互反矩阵，满足a_ija_ji＝1，且a_ii＝1(i,j＝1,2,3,4)；

然后利用几何平均法，求取四个QoS指标参数的权重因子：

其中，n为QoS参数的数量(n＝4)；

最后，对判断矩阵A进行一致性检验，计算一致性比例CR：

其中，λ_max为判断矩阵的最大特征值，RI表示平均一致性指标，当CR＜0.1时，判决矩阵一致性为可以接受，否则需要重新构造并对其修正直到满足一致性检验。

进一步地，在S3中，在S3中，构造奖励函数的方法为：

构造加权的服务质量关键绩效指标(KPI)函数作为整体的奖励函数：

r(s,a)＝ω_Br_B(s,a)+ω_Dr_D(s,a)+ω_Er_E(s,a)+ω_Jr_J(s,a)

其中，ω是各QoS指标参数的权重因子，且满足0≤ω≤1；r_B(s,a)、r_D(s,a)、r_E(s,a)、r_J(s,a)分别为数据链路速率(B)、时延(D)、丢包率(E)、抖动(J)的奖励函数；

参数值越大的参数为效益型参数，数据链路速率(B)的定义其奖励函数为：

其中，L_B和U_B分别为MTCD可提供的最小和最大数据链路速率，B_a为在状态s下采取动作a后系统的能增加的数据链路速率值；

参数值越小的参数为成本型参数，时延(D)、丢包率(E)、抖动(J)的相关参数的奖励函数定义为：

其中，L_x和U_x分别为MTCD退避接入时对于参数x(x＝D,E,J)可以接受的最小和最大值，x_a为在状态s下采取动作a后系统所能得到的参数x的值。

进一步地，在S4中，近似拟合状态值函数的评价网络Critic和近似拟合策略函数的策略网络Actor均由输入层、隐藏层和输出层构成，输入层和输出层的激活函数均为线性函数，隐藏层的激活函数为relu函数，其中策略网络Actor利用softmax策略函数输出行为概率。

进一步地，在S5中，策略网络Actor生成退避接入决策的方法为：

策略网络Actor的策略函数为用于离散空间softmax函数，用描述状态和行为的特征

与参数θ的线性组合来权衡一个行为发生的几率，根据包含MTCD的QoS参数指标和前导码占用情况信息的当前状态s，选择行为以生成退避接入决策，最后通过奖励函数计算出一个回报值，同时得到下一个状态的信息。

进一步地，在S6中，更新评价网络Critic神经网络参数的方法为：

评价网络Critic通过神经网络估计状态值函数，计算TD误差得到估计值和真实值的偏差，为精确估计状态值函数，设置优化目标为最小化TD误差，选择梯度下降法训练神经网络，构建常规的均方差损失函数更新网络权重参数，同时将TD误差作为评价，传递给策略网络Actor以指导其更新。

进一步地，在S7中，更新策略网络Actor参数的方法为：

利用评价网络Critic输出的TD偏差作为优势函数来构造策略网络Actor的策略梯度，采用自适应学习率优化的自适应矩估计Adam梯度下降算法(Adaptive momentestimation)训练神经网络，结合整体QoS使得网络参数向着最大化累积回报期望的方向更新。

与现有技术相比，本发明的有益效果是：

1、根据实际应用场景，对不同业务进行分类，针对个性化服务质量需求，利用层次分析法构建目标函数，能够满足海量机器类通信终端的差异化QoS需求；

2、利用结合值函数迭代和策略迭代的深度强化学习算法求解MDP模型，与环境交互自适应地训练，学习如何得到最优接入退避策略，做出退避决策，有效地在满足个性化QoS需求同时，提升终端接入成功率和系统资源利用率，降低平均接入时延和平均碰撞概率。

附图说明

图1为本发明大规模机器类通信基于机器学习的随机接入退避方法的流程框图；

图2为本发明大规模机器类通信基于机器学习的随机接入退避方法S3中确定QoS参数权重的层次分析结构模型图；

图3为本发明大规模机器类通信基于机器学习的随机接入退避方法S4-S7中Actor-Critic算法框图；

图4为本发明大规模机器类通信基于机器学习的随机接入退避方法的系统模型图。

具体实施方式

下面结合附图和实施方式对本发明作进一步的详细说明：

如图1至图4所示，大规模机器类通信基于机器学习的随机接入退避方法，包括以下步骤：

S1：结合5G虚拟化思想，以地理位置或应用需求等各种依据动态划分虚拟小小区，虚拟小小区内的MTCD竞争同一个前导码，参照3GPP协议和国内外文献，结合生活场景，根据业务特性的不同，将MTCD的业务主要划分成四大类：

第一类是对数据准确性十分敏感且有硬时延要求的业务，包括异常数据警报、车辆跟踪和资产跟踪等；

第二类是有一定的容错率和延迟容忍、但对抖动敏感且有数据链路速率要求的业务，主要针对视频应用，包括远程监控、异常视频监控报告等，这类业务在数据链路速率方面有最低保证比特率的要求，对抖动比较敏感，抖动是重要的指标，但是在丢包率和时延方面具有一定的容错率和延迟容忍；

第三类是对数据准确性要求极高但有延迟容忍的业务，包括智能计量、网络指令和移动POS等，这类业务一般通过请求-响应的方式传输，数据量也相对较大，虽然强调数据准确性，但是对时延没有严格的要求，可以容忍延迟；

第四类是要求数据准确但容忍时延的周期性报告业务，包括环境监控、物流跟踪等，这类业务的特性是频繁地传输上行数据，且数据量较小，不要求实时传输，但是要保证数据的准确性；

S2：对问题进行系统建模，将MTCD的随机接入过程设置为接入请求队列和数据队列的双队列模型，因为某时刻访问请求只有一个，所以接入请求队列最多只有一个，在随机接入碰撞后，设备在数据队列进入退避状态，设备的下一状态只与当前状态和选择的退避窗口有关，符合马尔可夫链的无后效性，因此数据队列的状态转移过程可以建模成一个由四元组(S,A,P,R)构成的马尔可夫决策过程。

S是状态空间，s∈S表示当前agent观察到的状态，定义系统状态由各MTCD的QoS参数q和各退避时隙前导码占用状态l两部分组成，各MTCD间可以通过基站交互信息，设备i的状态可以表示为

A是动作空间，a∈A表示智能体agent采取的动作，定义动作为设备所选择的退避时隙，a∈{1,2,…,slot}，即共有slot个时隙可以选择；

R:S×A→R表示奖励函数，是agent在当前状态采取动作后获得的即时奖励，可以体现优化目标，本发明奖励函数定义为服务质量关键绩效指标(KPI)函数；

表示状态转移概率集合；

在MDP模型中，定义状态值函数表示当前状态下采取策略π:s→a获得的长期回报：

其中，γ为折扣因子，满足0≤γ≤1，反映未来奖励对于长期回报的重要程度。因此希望得到的退避接入策略就可以表示为：

S3：构造加权的服务质量关键绩效指标(KPI)函数作为整体的奖励函数，结合步骤S1中已经划分的四类业务，利用层次分析法计算各类MTCD服务质量QoS参数的权重：

首先，建立好层次结构模型，采用层次分析法将决策方案分为三个层次：目标层、准则层、方案层。准则层的指标选取为影响QoS的四个状态参数，所述服务质量状态参数包括时延(D)、丢包率(E)、数据链路速率(B)和抖动(J)；

其次，根据不同状态参数在退避接入决策中的重要程度，分别构四种业务类型的判断矩阵A＝(a_ij)_4×4，a_ij的值通过Saaty 1-9标度法确定，取值如表1所示，体现同一层次下参数i相比较于参数j对目标层的重要程度，由参数两两进行比较获得，对比时采用相对尺度，以尽可能减少性质不同因素相互比较的困难，以提高准确度；判断矩阵是正互反矩阵，满足a_ija_ji＝1，且a_ii＝1(i,j＝1,2,3,4)；

表1 Saaty 1-9标度法

表1中，在相同到绝对强每两个等级之间可依次使用2，4，6，8将其量化。

第一类业务的判断矩阵：

第二类业务的判断矩阵：

第三类业务的判断矩阵：

第四类业务的判断矩阵：

然后利用几何平均法，求取四个QoS指标参数的权重因子

其中，n为QoS参数的数量(n＝4)；根据QoS指标参数的数量n，通过查找表2获得对应的平均随机一致性指标RI；

表2平均随机一致性指标对应表

n	1	2	3	4	5	6	7	8	9
										RI	0	0	0.52	0.89	1.12	1.26	1.36	1.41	1.46

最后，计算一致性比例CR:

其中，λ_max为判断矩阵的最大特征值。当CR＜0.1时，认为判决矩阵的一致性是可以接受的，否则需要重新构造并对其修正，直到满足一致性检验。最终得到四类业务终端的QoS参数权重系数和一致性比例如表3所示；

表3四类业务终端QoS参数的权值及一致性比例CR

r(s,a)＝ω_Br_B(s,a)+ω_Dr_D(s,a)+ω_Er_E(s,a)+ω_Jr_J(s,a)

其中，ω是各QoS指标参数的权重因子，且满足0≤ω≤1，已在表3中求出；r_B(s,a)、r_D(s,a)、r_E(s,a)、r_J(s,a)分别为数据链路速率(B)、时延(D)、丢包率(E)、抖动(J)的奖励函数；

S4：采用误差反向传播的BP神经网络构建近似拟合状态值函数的评价网络Critic和近似拟合策略函数的策略网络Actor，并初始化网络参数；

近似拟合状态值函数的评价网络Critic和近似拟合策略函数的策略网络Actor均由输入层、隐藏层和输出层构成，输入层和输出层的激活函数均为线性函数，隐藏层的激活函数为relu函数；

本发明基于机器学习的随机接入退避方法的总体目标是作为agent的MTCD在状态s下得到最优退避接入策略，考虑总体QoS选择动作，最大化累积回报的期望，策略网络Actor的作用就是生成当前的执行策略并根据Critic反馈的评价不断改进；评价网络Critic的作用是越加精确地估计状态值函数，并根据此评价策略的执行结果，指导策略网络Actor的优化；

S5：根据当前MTCD的QoS状态和前导码占用状态，策略网络Actor利用softmax策略函数输出行为概率，生成退避接入决策，然后通过奖励函数求得一个回报值，同时得到MTCD和前导码的下一个状态s_t+1；

S6：评价网络Critic根据系统状态利用神经网络来近似拟合状态值函数，这样就可以通过网络参数的迭代更新来更新值函数。评价网络Critic引入时序差分(TD)误差作为优化目标：

δ_t＝V(s_t)-V_ξ(s_t)

其中，V(s_t)＝R_t+1+γV_ξ(s_t+1)。为了精确估计值函数，构建常规的均方差损失函数，采用梯度下降方法训练网络，最小化TD误差，以此来更新神经网络权重参数：

ξ_new＝ξ_old+α_cδ_t▽_ξV_ξ(s_t)

其中，α_c为Critic网络的学习速率。然后将TD误差传递给策略网络Actor以指导其改进策略；

S7：策略网络Actor将策略的调整转化为网络参数的更新，将评价网络Critic输出的TD误差作为优势函数来构造策略梯度，采用自适应学习率优化的自适应矩估计Adam梯度下降算法(Adaptive moment estimation)训练神经网络，结合整体QoS使得网络参数向着最大化MDP长期回报的方向更新Actor的网络参数：

θ_new＝θ_old+α_a▽_θlogπ_θ(a_t|s_t)δ_t

其中，α_a为Actor学习速率，为便于改进，应设置其小于Critic网络的学习速率；

S8：进行N次循环迭代，每次循环迭代从初始时刻开始，得到初始化网络状态，直至终止时刻；在每个决策时刻进行S5-S7的操作步骤，训练更新网络参数；

S9：根据训练好的策略网络确定最优退避接入策略π_θ，为MTCD选择最优的退避接入时隙。

以上所述的仅是本发明的实施例，方案中公知的具体技术方案或特性等常识在此未作过多描述。应当指出，对于本领域的技术人员来说，在不脱离本发明技术方案的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.大规模机器类通信基于机器学习的随机接入退避方法，其特征在于，包括以下步骤：

S1：结合5G虚拟化思想，以地理位置或应用需求动态划分虚拟小小区，虚拟小小区内的MTCD竞争同一个前导码，并根据业务特性的不同对MTCD进行类别的划分；

2.根据权利要求1所述的大规模机器类通信基于机器学习的随机接入退避方法，其特征在于，在S1中，将MTCD的业务划分为四大类：

第二类是有容错率和延迟容忍，但对抖动敏感且有数据链路速率要求的业务，针对视频，包括远程监控、异常视频监控报告；

3.根据权利要求1所述的大规模机器类通信基于机器学习的随机接入退避方法，其特征在于：在S2中，MTCD接入过程建模为马尔可夫决策过程的方法为：

4.根据权利要求1所述的大规模机器类通信基于机器学习的随机接入退避方法，其特征在于：在S3中，计算各类MTCD服务质量QoS参数的权重的方法为：

首先，根据不同状态参数在退避接入决策中的重要程度，分别构造四种业务类型的判断矩阵A＝(a_ij)_4×4，a_ij的值利用Saaty1-9标度法确定，体现同一层次下参数i相比较于参数j对目标层的重要程度，由参数两两进行比较获得，判断矩阵是正互反矩阵，满足a_ija_ji＝1，且a_ii＝1(i,j＝1,2,3,4)；

然后利用几何平均法，求取四个QoS指标参数的权重因子：

其中，n为QoS参数的数量(n＝4)；

最后，对判断矩阵A进行一致性检验，计算一致性比例CR：

5.根据权利要求1所述的大规模机器类通信基于机器学习的随机接入退避方法，其特征在于：在S3中，构造奖励函数的方法为：

r(s,a)＝ω_Br_B(s,a)+ω_Dr_D(s,a)+ω_Er_E(s,a)+ω_Jr_J(s,a)

数据链路速率(B)的奖励函数为：

丢包率(E)、时延(D)、抖动(J)的相关参数的奖励函数定义为：

6.根据权利要求1所述的大规模机器类通信基于机器学习的随机接入退避方法，其特征在于：在S4中，近似拟合状态值函数的评价网络Critic和近似拟合策略函数的策略网络Actor均由输入层、隐藏层和输出层构成，输入层和输出层的激活函数均为线性函数，隐藏层的激活函数为relu函数，其中策略网络Actor利用softmax策略函数输出行为概率。

7.根据权利要求1所述的大规模机器类通信基于机器学习的随机接入退避方法，其特征在于：在S5中，策略网络Actor生成退避接入决策的方法为：

策略网络Actor的策略函数为离散空间softmax函数，用描述状态和行为的特征

8.根据权利要求1所述的大规模机器类通信基于机器学习的随机接入退避方法，其特征在于：在S6中，更新评价网络Critic神经网络参数的方法为：

9.根据权利要求1所述的大规模机器类通信基于机器学习的随机接入退避方法，其特征在于：在S7中，更新策略网络Actor参数的方法为：