CN116582855B

CN116582855B - 一种基于深度强化学习的5g-tsn融合网络切片管理方法及系统

Info

Publication number: CN116582855B
Application number: CN202310463235.3A
Authority: CN
Inventors: 管婉青; 张海君; 李琳佩; 孙春蕾
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2023-04-26
Filing date: 2023-04-26
Publication date: 2023-10-20
Anticipated expiration: 2043-04-26
Also published as: CN116582855A

Abstract

本发明公开了一种基于深度强化学习的5G‑TSN(Time‑Sensitive Networking，时间敏感网络)融合网络切片管理方法及系统，适用于5G‑TSN融合部署场景下，所述方法包括：针对不同类型业务的资源需求特点，创建匹配业务类型的专属切片；基于所创建的匹配业务类型的各专属切片，针对各类型切片的资源请求，以优化无线侧基站的时频资源使用效益为目标，采用预设的深度强化学习算法，基于基站侧的可用时频资源数，对各类型的切片请求进行准入控制及切片资源的分配；采用本发明的技术方案，可以在保证服务质量需求的情况下，进行多类型切片的资源管理，实现基站无线资源效益的最大化。

Description

一种基于深度强化学习的5G-TSN融合网络切片管理方法及系统

技术领域

本发明涉及无线通信技术领域，特别涉及一种基于深度强化学习的5G-TSN融合网络切片管理方法及系统。

背景技术

当前工业互联网正朝着数字化、网络化、智能化的方向发展，远程协同控制、数字孪生运维、智慧园区运营等新兴工业互联网业务对网络的安全性、可靠性具有更高的要求，而传统面向消费互联网的5G系统难以满足工业业务的确定性要求。TSN作为工业互联网实现低时延、高可靠和确定性传输的关键技术之一，涵盖时间同步、流量整形、数据调度、网络配置等方面的TSN标准已基本成熟。业界针对垂直行业应用积极开展5G和TSN的融合创新和协同部署研究，本发明关注的5G-TSN融合部署场景是指包括终端、无线、承载和核心网在内的整个5G系统作为TSN节点之间的逻辑网桥存在，同时具有TSN网络确定性传输和5G网络移动性的特点。

传统移动业务与工业自动化业务特征差异较大，5G-TSN融合部署场景下实现多类型差异化业务共网高质量传输需要高效的资源管理方法。5G系统中网络切片技术提供了一种资源按需分配的解决方案，通过创建多个专用的、虚拟化的、相互隔离的逻辑网络来为不同类型用户提供端到端服务。5G中已经对网络切片调度方法进行了深入的研究，包括应用最优化理论的集中式资源分配、应用博弈论的分布式资源调度以及应用机器学习的快速资源分配决策等。其中，机器学习的方法以其在求解复杂问题上的优势，被产业界和科研机构积极应用在资源管理领域中。相比于核心网切片，由于无线信道的时变性，接入网切片的资源管理面临着更多的挑战。同时，5G-TSN融合部署场景中资源协同管控面临的最大挑战是无线侧空口的不确定性，工业业务流的确定性传输将受到时延抖动的影响。因此，在5G无线侧研究业务需求导向的接入网切片资源管控对确定性业务和移动大带宽业务共网高质量传输至关重要。

以工业互联网为例，5G-TSN融合部署场景需要承载的业务流种类主要包括三类，零星突发流量(Sporadic Burst Traffic,SBT)、周期性时延敏感流量(Periodic Time-sensitive Traffic，PTT)、非时延敏感流量(Non-Deterministic Traffic，NDT)。SBT相关的应用包括紧急终止和错误预警，这些应用通常是由特定的、偶发的事件和错误触发的，需要在特定的时延内完成数据传输。PTT的特点是周期性地传输数据，这些数据的传输同样也需要在特定时延内完成，相关的应用包括运动控制和协同控制。NDT相关的应用主要是对时延保障无需求的软件更新和用户交互，增强移动宽带(enhanced Mobile Broadband,eMBB)类业务的数据流也归类为NDT。

目前，针对5G-TSN融合部署场景，还没有有效的切片管理方法。

发明内容

本发明提供了一种基于深度强化学习的5G-TSN融合网络切片管理方法及系统，以解决现有技术所存在的上述技术问题，实现基站无线资源效益最大化。

为解决上述技术问题，本发明提供了如下技术方案：

一方面，本发明提供了一种基于深度强化学习的5G-TSN融合网络切片管理方法，适用于5G-TSN(Time-Sensitive Networking，时间敏感网络)融合部署场景下，所述基于深度强化学习的5G-TSN融合网络切片管理方法包括：

针对不同类型业务的资源需求特点，创建匹配业务类型的专属切片；

基于所创建的匹配业务类型的各专属切片，针对各类型切片的资源请求，以优化无线侧基站的时频资源使用效益为目标，采用预设的深度强化学习算法，基于基站侧的可用时频资源数，对各类型的切片请求进行准入控制及切片资源的分配，在保证切片的服务质量需求的情况下，实现基站无线资源效益最大化。

进一步地，所述不同类型业务包括5G eMBB(enhanced Mobile Broadband，增强移动宽带)业务和TSN(Time-critical Services，时延敏感类)业务；其中，TSN业务包括周期性TSN业务和突发性TSN业务；其中，周期性TSN业务的数据流按照一定周期产生，突发性TSN业务的数据流没有确定的抵达时间。

进一步地，所述创建匹配业务类型的专属切片，包括：

创建周期性TSN切片、eMBB切片以及突发性TSN切片；其中，针对周期性TSN切片，需要依据周期性TSN业务的数据到达周期为其预留资源；剩余资源按照eMBB用户的速率需求分配给eMBB切片，突发性TSN切片通过抢占分配给eMBB切片的资源完成数据传输，来满足其确定性时延的要求。

进一步地，所述采用预设的深度强化学习算法，基于基站侧的可用时频资源数，对各类型的切片请求进行准入控制及切片资源的分配，包括：

利用马尔科夫过程表示切片请求的准入决策过程；其中，/>为状态空间，/>为动作空间，/>为状态转移概率，/>为状态转移得到的即时收益；采用结合深度学习和强化学习的DQL算法，结合深度神经网络和强化学习训练最优决策，优化多类型切片的资源使用，实现切片请求准入控制及切片资源分配。

进一步地，所述基于所创建的匹配业务类型的各专属切片，针对各类型切片的资源请求，以优化无线侧基站的时频资源使用效益为目标，采用预设的深度强化学习算法，基于基站侧的可用时频资源数，对各类型的切片请求进行准入控制及切片资源的分配，在保证切片的服务质量需求的情况下，实现基站无线资源效益最大化，包括：

获取接入网侧基站的可用时频资源资源块数及无线接入设备的业务请求参数；其中，业务请求参数包括业务类型，传输数据量，传输时延和传输速率；

针对业务请求参数创建切片请求，计算满足切片请求需要的时域资源和频域资源；

初始化深度Q学习的经验回放池、当前Q网络的值函数和目标Q网络的值函数；

初始化多种类型切片请求的准入状态s，s＝{n_eMBB,n_P-TSN,n_S-TSN}，即准入n_eMBB个eMBB切片，n_P-TSN个周期性TSN切片，n_S-TSN个突发性TSN切片；

基于接入网侧基站单位时频资源的资源块的平均传输速率、周期性TSN切片的数据量大小和传输时延，计算其所需的资源块个数，依据周期性TSN业务的数据到达周期为n_P-TSN个周期性TSN切片预留所需的资源；

基于基站单位时频资源的资源块的平均传输速率和eMBB切片的传输速率要求，计算其所需资源块数，在剩余资源中为n_eMBB个eMBB切片分配所需资源；

基于基站单位时频资源资源块的平均传输速率、突发性TSN切片的数据量大小和传输时延，计算其所需mini-slots和频域资源块个数，突发性TSN切片通过抢占分配给eMBB切片的资源，完成数据传输，来满足其确定性时延的要求；

计算状态s下，准入n_eMBB个eMBB类型切片，n_P-TSN个周期性TSN切片，n_S-TSN个突发性TSN切片获得的收益r，r＝αU_eMBB+βU_P-TSN+δU_S-TSN-C_S-TSN，其中，U_eMBB、U_P-TSN和U_S-TSN分别表示接受eMBB切片、周期性TSN切片和突发性TSN切片请求带来的资源效益，C_S-TSN则表示资源抢占对eMBB用户带来的速率损失；α、β、δ分别表示U_eMBB、U_P-TSN和U_S-TSN对应的权重系数，与切片的优先级成正比；

针对新到来的切片请求，基于Q函数采用ξ-贪婪策略选择动作a_t；其中，a_t＝0表示拒绝当前切片请求，a_t＝1表示接受当前切片请求；

执行动作a_t，获得奖励r_t，状态更新至s′，将(s,a_t,r_t,s′)存储到经验回放池中；其中，s′表示更新后的状态，a_t表示t时刻的动作，r_t表示t时刻的收益；

从经验回放池中随机抽取一定量的样本，并依据抽取的样本计算目标利用均值方差损失函数通过梯度反向传播来更新当前Q网络的参数；

每隔预设时间步，将当前Q网络的参数拷贝至目标Q网络；

迭代优化直至奖励达到收敛，输出学习后的动作，完成对所到达切片请求的准入控制，在保证服务质量需求的情况下，实现基站无线资源效益最大化。

进一步地，U_eMBB、U_P-TSN和U_S-TSN由效用函数和业务优先级决定；其中，突发性TSN切片具有较高的优先级，满足突发性TSN切片产生的效益最大；周期性TSN切片优先级次之，eMBB切片优先级最低；C_S-TSN与抢占的资源数量成正比。

进一步地，三种类型切片请求的到达具有随机性，动作a_t决定了切片请求准入问题中的切片请求接受率以及最终产生的资源效益总量；切片管理器作为代理通过观察获取当前状态s，实施动作a_t，完成状态转移，并获得相应收益r，也即奖励，如此循环往复，通过与环境交互学习到一个使长期折扣累积收益最大的最优决策，考虑到实际环境的不确定性及状态转移概率的未知性，定义Q-函数来寻找最优策略，依据得到的奖励不断更新Q-函数，最终收敛到最优。

另一方面，本发明还提供了一种基于深度强化学习的5G-TSN融合网络切片管理系统，适用于5G-TSN(Time-Sensitive Networking，时间敏感网络)融合部署场景下，所述基于深度强化学习的5G-TSN融合网络切片管理系统包括：

不同类型业务专属切片创建模块，用于针对不同类型业务的资源需求特点，创建匹配业务类型的专属切片；

切片请求准入控制及资源分配模块，用于基于所述不同类型业务专属切片创建模块所创建的匹配业务类型的各专属切片，针对各类型切片的资源请求，以优化无线侧基站的时频资源使用效益为目标，采用预设的深度强化学习算法，基于基站侧的可用时频资源数，对各类型的切片请求进行准入控制及切片资源的分配，在保证切片的服务质量需求的情况下，实现基站无线资源效益最大化。

再一方面，本发明还提供了一种电子设备，其包括处理器和存储器；其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行以实现上述方法。

又一方面，本发明还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现上述方法。

本发明提供的技术方案带来的有益效果至少包括：

本发明针对不同类型业务的资源需求特点，创建匹配业务类型的专属切片；基于所创建的匹配业务类型的各专属切片，针对各类型切片的资源请求，以优化无线侧基站的时频资源使用效益为目标，采用预设的深度强化学习算法，基于基站侧的可用时频资源数，对各类型的切片请求进行准入控制及切片资源的分配，从而在保证服务质量需求的情况下，实现了基站无线资源效益最大化。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明第一实施例提供的基于深度强化学习的5G-TSN融合网络切片管理方法的执行流程示意图；

图2是本发明第二实施例提供的5G-TSN融合部署场景下，三种类型网络切片共享基站资源的模型示意图；

图3是本发明第二实施例提供的三种类型切片资源分配示意图；

图4是本发明第二实施例提供的切片管理算法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

第一实施例

本实施例提供了一种基于深度强化学习的5G-TSN融合网络切片管理方法，适用于5G-TSN(Time-Sensitive Networking，时间敏感网络)融合部署场景下，该方法的执行流程如图1所示，包括以下步骤：

S1，针对不同类型业务的资源需求特点，创建匹配业务类型的专属切片；

具体地，本实施例针对5G eMBB(enhanced Mobile Broadband，增强移动宽带)业务和时延敏感类业务(Time-critical Services)即TSN业务的资源需求特点，创建匹配业务类型的专有切片。其中，TSN业务包括周期性业务和突发性业务两类，周期性TSN业务的数据流按照一定周期产生而突发性TSN业务的数据流没有确定的抵达时间。为了承载上述两类TSN业务和5G eMBB业务在同一个基站的稳定传输，本实施例基于周期性TSN业务的周期和传输时延需求，预留资源分配给周期性TSN切片，剩余资源按照eMBB用户的速率需求分配给eMBB切片，突发性TSN业务通过抢占分配给eMBB用户的资源完成数据传输。

S2，基于所创建的匹配业务类型的各专属切片，针对各类型切片的资源请求，以优化无线侧基站的时频资源使用效益为目标，采用深度强化学习算法，基于基站侧的可用时频资源数，对各类型的切片请求进行准入控制及切片资源的分配，在保证切片的服务质量需求的情况下，实现基站无线资源效益最大化。

具体地，由于在状态空间和动作空间庞大且维数较高时，使用传统强化学习算法容易导致不稳定甚至是不收敛。因此，为了实现满足业务需求的同时最大化无线接入网资源的使用效益，本实施例设计了一种基于深度Q学习(Deep Q-Learning，DQL)的5G-TSN切片管理方法，对上述三种类型的切片请求进行准入控制。其实现原理为：利用马尔科夫过程表示切片请求的准入决策过程；其中，/>为状态空间，/>为动作空间，/>为状态转移概率，/>为状态转移得到的即时收益；采用结合深度学习和强化学习的DQL算法，结合深度神经网络和强化学习训练最优决策，优化多类型切片的资源使用，实现切片请求准入控制及切片资源分配。具体地，在本实施例中，上述S2的实现过程如下：

S21，获取接入网侧基站的可用时频资源RB(Resource Block，资源块)数以及无线接入设备的业务请求各项参数；其中，业务请求各项参数包括：业务类型，传输数据量，传输时延以及传输速率等；

S22，针对业务请求的各项参数创建切片请求，计算满足切片请求需要的时域资源和频域资源；其中，5G eMBB业务请求需要分配时域资源和频域资源来满足eMBB用户的传输速率需求，对于业务传输时延不敏感的eMBB用户支持TSN业务对其资源的抢占。TSN业务分为周期性TSN业务和突发性TSN业务两种，其中周期性TSN业务按照固定的周期进行数据传输，需要依据其周期为该业务预留资源，在传输时延期限内完成数据传输，突发性TSN业务的数据到达时间具有随机性，业务数据量较小且该业务对时延具有较高的敏感性，需要抢占分配给eMBB用户的时频资源来满足其确定性时延的要求；

S23，初始化深度Q学习的经验回放池、当前Q网络的值函数和目标Q网络的值函数；

S24，初始化多种类型切片请求的准入状态s，s＝{n_eMBB,n_P-TSN,n_S-TSN}，即准入n_eMBB个eMBB切片，n_P-TSN个周期性TSN切片，n_S-TSN个突发性TSN切片；

S25，基于接入网侧基站单位时频资源RB的平均传输速率、周期性TSN切片的数据量大小和传输时延，计算其所需RB个数，依据周期性TSN业务的数据到达周期为n_P-TSN个周期性TSN切片预留所需的RBs；

其中，基站单位时频资源RB的平均传输速率与无线信道的实时状态有关，通过收集时频资源RBs的数据传输速率历史数据计算得出，反映了时域上一个时隙slot，频域上一个RB即12个子载波的数据传输能力。

S26，基于基站单位时频资源RB的平均传输速率和eMBB切片的传输速率要求，计算其所需RB数，在剩余资源中为n_eMBB个eMBB切片分配所需RBs；

S27，基于基站单位时频资源RB的平均传输速率、突发性TSN切片的数据量大小和传输时延，计算其所需mini-slots和频域RB数，突发性TSN切片通过抢占分配给eMBB切片的RBs，完成数据传输，来满足其确定性时延的要求；

S28，计算状态s下，准入n_eMBB个eMBB类型切片，n_P-TSN个周期性TSN切片，n_S-TSN个突发性TSN切片获得的收益r，r＝αU_eMBB+βU_P-TSN+δU_S-TSN-C_S-TSN，其中，U_eMBB、U_P-TSN和U_S-TSN分别表示接受eMBB切片、周期性TSN切片和突发性TSN切片请求带来的资源效益，C_S-TSN表示资源抢占对eMBB用户带来的速率损失；α、β、δ分别表示U_eMBB、U_P-TSN和U_S-TSN的权重系数，与切片的优先级成正比；

其中，需要说明的是，基站的无线资源是有限的，满足切片资源请求的同时最大化可用时频资源的效益是5G-TSN融合网络切片管理问题的目标，接受不同类型切片请求创造的资源效益不同，三种类型切片的效益分别为U_eMBB、U_P-TSN和U_S-TSN，由效用函数和业务优先级决定。突发性TSN切片具有时延敏感特性，具有较高的传输优先级，满足该类型切片产生的效益最大。周期性TSN切片同样具有时延敏感特性，优先级次之，eMBB切片无时延要求，优先级最低。C_S-TSN作为资源抢占带来的速率损失，与抢占的资源数量成正比。

S29，针对新到来的切片请求，基于Q函数采用ξ-贪婪策略选择动作a_t；其中，a_t＝0表示拒绝当前切片请求，a_t＝1表示接受当前切片请求；

其中，需要说明的是，三种类型切片请求的到达具有随机性，动作a_t决定了切片准入问题中的切片请求接受率以及最终产生的资源效益总量。切片管理器作为代理通过观察获取当前状态s，实施动作a_t，完成状态转移并获得相应奖励r，如此循环往复，通过与环境交互学习到一个使长期折扣累积收益最大的最优决策，考虑到实际环境的不确定性及状态转移概率的未知性，定义Q-函数来寻找最优策略，依据得到的奖励不断更新Q-函数，最终收敛到最优。

S210，执行动作a_t，获得奖励r_t，状态更新至s′，将(s,a_t,r_t,s′)存储到经验回放池中；其中，s′表示更新后的状态，a_t表示t时刻动作，r_t表示t时刻的收益；

S211，从经验回放池中随机抽取小批量的样本，并依据抽取的样本计算目标y_i ^DQN，利用均值方差损失函数通过梯度反向传播来更新当前Q网络的参数；

S212，每隔C时间步，将当前Q网络的参数拷贝至目标Q网络；

S213，迭代优化直至奖励达到收敛，输出学习后的动作，完成对所到达切片请求的准入控制，在保证服务质量需求的情况下，实现基站无线资源效益最大化。

综上，本实施例提供了一种基于深度强化学习的5G-TSN融合网络切片管理方法，该方法专注于5G-TSN融合场景下的接入网切片资源管理，针对上述三种类型的业务流创建专属切片，以优化无线侧基站的时频资源使用效益为目标，利用深度强化学习技术实现融合网络的接入网切片管理，对eMBB业务、周期性TSN业务、突发性TSN业务的切片请求进行准入控制，为多类型切片请求定制化资源使用，进行多类型切片的资源管理，并兼顾切片的服务质量需求和切片带来的收益。最终实现了5G基站的无线资源使用效益的有效优化。

第二实施例

本实施例结合图2至图4，对本发明的基于深度强化学习的5G-TSN融合网络切片管理方法进行更详细的说明。对此，本实施例针对三种业务的差异化资源需求，给出三种类型切片的资源分配方法，并且基于深度Q学习算法实现切片请求准入，实现基站无线资源效益最大化。

本实施例考虑面向工业互联网的5G-TSN融合部署场景，三种典型业务分别是控制类业务、信息采集类业务、移动应用类业务。控制类业务即突发性TSN业务，可以在任何时间点生成，要求具有给定负载的数据包在延迟截止日期之前成功传输，对应的数据流类型为SBT类型。信息采集类业务即周期性TSN业务，除了给定的有效载荷和延迟截止日期外，还具有周期性传输的特征，对应的数据流类型为PTT类型。移动应用类业务即eMBB业务，对时延没有要求，仅仅需要满足数据传输速率的要求，对应的数据流类型为NDT类型。

具体地，如图2所示，TSN控制面的关键元素包括中心网络配置实体(CentralizedNetwork Configuration，CNC)和中心用户实体(Centralized User Configuration，CUC)。CNC拥有完整的网络拓扑和所有数据流相关信息，负责进行TSN特性配置，以及进行帧抢占和时间流量整形等相关操作。CUC负责发现终端，检索终端能力，为终端配置TSN特性。针对5G系统作为TSN逻辑网桥的融合场景，转换器嵌入到5G系统的用户侧以及控制平面,实现5G与TSN间的交互。在用户侧的UPF网元上部署NW-TT转换器，在用户设备上部署DS-TT转换器，负责进行QoS映射，执行流过滤和监管并支持保持和转发功能。5G系统控制面上的AF网元与CNC互通信息，CNC实体将从CUC实体接收到的流规范和5G-TSN桥的配置信息发送给AF，AF将反馈信息反馈给CNC并报告流的QoS。

为满足上述三种类型业务的传输需求，针对突发性TSN业务、周期性TSN业务和非时延敏感类业务这三种典型类型的业务流，位于基站的切片管理器针对业务需求特点分别创建三种类型的切片，也即：PTT切片、NDT切片和SBT切片，针对切片的资源需求对时频资源进行划分，将有限的时频资源分配给不同类型的切片，具有相同QoS需求的用户共享同一切片的资源。从而利用有限的资源承载更多的切片请求。无线侧数据信道可调度的最小物理资源单位为资源块(Resource blocks，RB)，切片需要的时频资源不仅仅是满足带宽或速率需求所需的RB数量，也包括满足切片时延需求必须分配的RBs的相对位置。切片资源分配通常发生在分配窗口期开始时，每个分配窗口期T_w由若干个时隙slot组成，在每个分配窗口期内分配给切片的RBs量和RBs的相对位置是保持不变的。

基于上述，针对上述三种类型业务资源需求的差异性，本实施例的资源分配方法主要包括三个方面：

1)首先，依据PTT业务流的数据包生成周期，为PTT切片预留资源；

2)之后，将为PTT切片预留资源后所剩余的资源分配给NDT切片，以满足NDT业务流的传输速率需求；

3)最后，SBT切片通过抢占分配给NDT切片的资源来满足时延需求，NDT切片包括支持抢占和不支持抢占两种类型，抢占只能发生在支持抢占的NDT切片上。

上述三种类型切片的资源占用情况如图3所示，考虑到SBT业务流需要传输的数据量较小，本实施例采用5G NR中的mini-slot技术实现极低延迟，允许资源调度从任何OFDM符号开始，持续通信所需的尽可能多的OFDM符号。

各类型切片请求的所需资源的计算方式如下：

定义集合S_n表示一系列的NDT切片请求，对于任意一个属于该集合的切片s_i，Z_i表示需要分配给切片s_i的RBs数量，以满足M个用户需求。

其中，R_i是切片s_i的目标传输速率，是每分配一个RB，用户u将经历的有效传输速率或吞吐量。/>与用户经历的信干噪比(Signal to Interference plus Noise Ratio，SINR)和误码率(Block Error Rate，BLER)有关。NDT切片的需求是在分配窗口期T_w内为其分配Z_i个RBs，即

其中，O_i,t表示在时隙t内分配给切片s_i的RBs个数。

定义集合S_p表示一系列的PTT切片请求，对于任意一个属于该集合的切片s_i，用户的数据传输周期为需要在D_i内传输b_i个比特的数据，因此切片需要的传输速率是R_i＝b_i/D_i，需要分配给切片s_i的RBs数量为

因此，PTT切片的需求是在传输周期内预留出Z_i个RBs。为了保障时延需求，这Z_i个RBs的所在时隙需要满足的条件是

其中，t₀表示数据第一次传输的时间，t_z表示数据包z+1产生的时间。上述约束条件保障了所分配的Z_i个RBs能够使数据在时延D_i的约束范围内传输。

定义集合S_s表示一系列的SBT切片请求，对于任意一个属于该集合的切片s_i，b_i个比特的数据需要在时延D_i内以可靠性为P_r的成功率进行传输。由于SBT类型业务流的数据产生时间是随机的，在用户数为M个时，假设每个用户产生的数据包遵循到达时间为指数的泊松分布，λ是平均每秒产生的数据包数，则数据包平均到达时间为1/λ，在时间间隔为T_slot内产生数据包的概率是数据包丢失的概率为

其中，可靠性保障为P_r≥1-P_m，满足可靠性需求所需的最小RBs数为k，服务这M个用户所需要的RBs个数为

SBT切片请求的数据需要在时延D_i内得到满足，因此这Z_i个RBs的所在时隙需要满足的条件是

针对上述三种类型切片的资源请求，切片管理器需要基于基站侧的可用RBs数进行切片请求的准入以及切片资源的分配。具体地，在接收到切片请求之后，切片管理器需要判断是否要为该切片请求分配资源。为了最大化基站的资源效益，利用有限的资源来部署更多的切片，本实施例设计了基于深度Q学习的切片请求准入方法，定义马尔科夫过程表示切片管理器的切片准入决策过程，/>为状态空间，/>为动作空间，/>为状态转移概率，/>为状态转移得到的即时收益，结合深度神经网络和强化学习训练最优决策，优化多类型切片的资源使用。该方法的流程如图4所示。具体如下：

状态空间定义为s_t表示时刻t的状态，n_PTT表示接受的PTT切片的个数，n_P-NDT表示可抢占的NDT切片的个数，n_N-NDT表示不可抢占的NDT切片的个数，n_SBT表示SBT切片的个数。

动作空间定义为a_t表示时刻t的动作，a_t＝0表示拒绝切片请求，a_t＝1表示接受该切片请求。

准入切片获得的收益r与部署不同类型切片的效用函数U有关，r的计算公式如下：

其中，α，β，β′，δ与切片的优先级成正比，C表示SBT切片的资源抢占对可抢占NDT切片的用户带来的速率损失。

Q学习算法中代理通过观察获取当前状态s，实施动作a，完成状态转移并获得相应奖励，如此循环往复，通过与环境交互学习到一个使长期折扣累积收益最大的最优决策。定义Q-函数来寻找最优策略，依据得到的奖励不断更新Q-函数，最终收敛到最优，迭代更新的过程表示为：

其中，α_r∈(0,1]为学习速率，αr越大保留之前训练的效果就越少。折扣因子γ∈(0,1]综合考虑了当前的决策奖励和后续的延时奖励。

Q table用来记录每个状态下的动作值，状态空间或动作空间较大时就需要较大的存储空间，传统Q学习无法用于状态空间和动作空间庞大且维数较高的情况。深度Q学习利用深度神经网络来代替Q table来计算Q值Q(s,a；θ_i)，在使用神经网络来表示Q-函数时，由于Q值的微小更新可能会显著影响策略，引起性能不稳定，影响数据的分布以及Q值与目标值之间的相关性，DQL使用了经验回放机制来删除观察序列中的相关性，利用目标Q网络定期更新当前Q网络，以降低目标值与Q估计值之间的相关性。

在经验回放机制中，经验e_t＝(s_t,a_t,r_t,s_t+1)被存储在经验池D_t＝{e₁,e₂,...,e_t}中，在学习过程中，从经验池中随机抽取小批量样本(s_t,a_t,r_t,s_t+1)～U(D)8输入到神经网络中进行训练。DQL算法通过不断迭代优化损失函数L_i(θ_i)来更新神经网络，

其中，用来计算i次迭代的目标Q值。相较于当前Q网络Q(s,a；θ_i)的迭代更新，目标Q网络/>不需要迭代更新，而是每隔一段时间进行延迟更新。当前Q网络的参数θ_i利用均值方差损失函数通过梯度反向传播来更新：

第三实施例

本实施例提供了一种基于深度强化学习的5G-TSN融合网络切片管理系统，适用于5G-TSN(Time-Sensitive Networking，时间敏感网络)融合部署场景下，所述基于深度强化学习的5G-TSN融合网络切片管理系统包括：

本实施例的基于深度强化学习的5G-TSN融合网络切片管理系统与上述第一实施例的基于深度强化学习的5G-TSN融合网络切片管理方法相对应；其中，本实施例的基于深度强化学习的5G-TSN融合网络切片管理系统中的各功能模块所实现的功能与上述第一实施例的基于深度强化学习的5G-TSN融合网络切片管理方法中的各流程步骤一一对应；故，在此不再赘述。

第四实施例

本实施例提供一种电子设备，其包括处理器和存储器；其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行，以实现第一实施例的方法。

该电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)和一个或一个以上的存储器，其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行上述方法。

第五实施例

本实施例提供一种计算机可读存储介质，该存储介质中存储有至少一条指令，所述指令由处理器加载并执行，以实现上述第一实施例的方法。其中，该计算机可读存储介质可以是ROM、随机存取存储器、CD-ROM、磁带、软盘和光数据存储设备等。其内存储的指令可由终端中的处理器加载并执行上述方法。

此外，需要说明的是，本发明可提供为方法、装置或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

最后需要说明的是，以上所述是本发明优选实施方式，应当指出，尽管已描述了本发明优选实施例，但对于本技术领域的技术人员来说，一旦得知了本发明的基本创造性概念，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

Claims

1.一种基于深度强化学习的5G-TSN融合网络切片管理方法，适用于5G-TSN(Time-Sensitive Networking，时间敏感网络)融合部署场景下，其特征在于，所述基于深度强化学习的5G-TSN融合网络切片管理方法包括：

基于所创建的匹配业务类型的各专属切片，针对各类型切片的资源请求，以优化无线侧基站的时频资源使用效益为目标，采用预设的深度强化学习算法，基于基站侧的可用时频资源数，对各类型的切片请求进行准入控制及切片资源的分配，在保证切片的服务质量需求的情况下，实现基站无线资源效益最大化；

所述不同类型业务包括5G eMBB(enhanced Mobile Broadband，增强移动宽带)业务和TSN(Time-critical Services，时延敏感类)业务；其中，TSN业务包括周期性TSN业务和突发性TSN业务；其中，周期性TSN业务的数据流按照一定周期产生，突发性TSN业务的数据流没有确定的抵达时间；

所述创建匹配业务类型的专属切片，包括：

创建周期性TSN切片、eMBB切片以及突发性TSN切片；其中，针对周期性TSN切片，需要依据周期性TSN业务的数据到达周期为其预留资源；剩余资源按照eMBB用户的速率需求分配给eMBB切片，突发性TSN切片通过抢占分配给eMBB切片的资源完成数据传输，来满足其确定性时延的要求；

所述采用预设的深度强化学习算法，基于基站侧的可用时频资源数，对各类型的切片请求进行准入控制及切片资源的分配，包括：

利用马尔科夫过程表示切片请求的准入决策过程；其中，/>为状态空间，为动作空间，/>为状态转移概率，/>为状态转移得到的即时收益；采用结合深度学习和强化学习的DQL算法，结合深度神经网络和强化学习训练最优决策，优化多类型切片的资源使用，实现切片请求准入控制及切片资源分配；

所述基于所创建的匹配业务类型的各专属切片，针对各类型切片的资源请求，以优化无线侧基站的时频资源使用效益为目标，采用预设的深度强化学习算法，基于基站侧的可用时频资源数，对各类型的切片请求进行准入控制及切片资源的分配，在保证切片的服务质量需求的情况下，实现基站无线资源效益最大化，包括：

每隔预设时间步，将当前Q网络的参数拷贝至目标Q网络；

2.如权利要求1所述的基于深度强化学习的5G-TSN融合网络切片管理方法，其特征在于，U_eMBB、U_P-TSN和U_S-TSN由效用函数和业务优先级决定；其中，突发性TSN切片具有较高的优先级，满足突发性TSN切片产生的效益最大；周期性TSN切片优先级次之，eMBB切片优先级最低；C_S-TSN与抢占的资源数量成正比。

3.如权利要求1所述的基于深度强化学习的5G-TSN融合网络切片管理方法，其特征在于，三种类型切片请求的到达具有随机性，动作a_t决定了切片请求准入问题中的切片请求接受率以及最终产生的资源效益总量；切片管理器作为代理通过观察获取当前状态s，实施动作a_t，完成状态转移，并获得相应收益r，也即奖励，如此循环往复，通过与环境交互学习到一个使长期折扣累积收益最大的最优决策，考虑到实际环境的不确定性及状态转移概率的未知性，定义Q-函数来寻找最优策略，依据得到的奖励不断更新Q-函数，最终收敛到最优。

4.一种基于深度强化学习的5G-TSN融合网络切片管理系统，适用于5G-TSN(Time-Sensitive Networking，时间敏感网络)融合部署场景下，其特征在于，所述基于深度强化学习的5G-TSN融合网络切片管理系统包括：

切片请求准入控制及资源分配模块，用于基于所述不同类型业务专属切片创建模块所创建的匹配业务类型的各专属切片，针对各类型切片的资源请求，以优化无线侧基站的时频资源使用效益为目标，采用预设的深度强化学习算法，基于基站侧的可用时频资源数，对各类型的切片请求进行准入控制及切片资源的分配，在保证切片的服务质量需求的情况下，实现基站无线资源效益最大化；

所述创建匹配业务类型的专属切片，包括：

每隔预设时间步，将当前Q网络的参数拷贝至目标Q网络；