CN115811799A - 一种基于ddpg的5g-tsn联合资源调度装置及方法 - Google Patents

一种基于ddpg的5g-tsn联合资源调度装置及方法 Download PDF

Info

Publication number
CN115811799A
CN115811799A CN202310058426.1A CN202310058426A CN115811799A CN 115811799 A CN115811799 A CN 115811799A CN 202310058426 A CN202310058426 A CN 202310058426A CN 115811799 A CN115811799 A CN 115811799A
Authority
CN
China
Prior art keywords
queue
information
tsn
base station
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310058426.1A
Other languages
English (en)
Other versions
CN115811799B (zh
Inventor
孙雷
朱渊
王健全
李卫
李莎
张洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN202310058426.1A priority Critical patent/CN115811799B/zh
Publication of CN115811799A publication Critical patent/CN115811799A/zh
Application granted granted Critical
Publication of CN115811799B publication Critical patent/CN115811799B/zh
Priority to US18/395,771 priority patent/US12041602B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/16Central resource management; Negotiation of resources or communication parameters, e.g. negotiating bandwidth or QoS [Quality of Service]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0446Resources in time domain, e.g. slots or frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/54Allocation or scheduling criteria for wireless resources based on quality criteria
    • H04W72/542Allocation or scheduling criteria for wireless resources based on quality criteria using measured or perceived quality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/54Allocation or scheduling criteria for wireless resources based on quality criteria
    • H04W72/543Allocation or scheduling criteria for wireless resources based on quality criteria based on requested quality, e.g. QoS
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/12Wireless traffic scheduling
    • H04W72/1263Mapping of traffic onto schedule, e.g. scheduled allocation or multiplexing of flows
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于DDPG的5G‑TSN联合资源调度装置及方法,该装置包括:状态信息采集模块,调度决策模块和配置模块;其中,状态信息采集模块用于采集底层网络信息,并对采集的底层网络信息进行处理,得到状态信息;其中,底层网络信息包括信道信息、TSN域的门控列表信息和基站中的队列信息;调度决策模块使用基于DDPG的强化学习模型,根据状态信息,得到决策结果;其中,决策结果包括是否为当前队列分配资源和当前队列实际分配的资源数目;配置模块用于将决策结果转换为基站能理解的指令,对基站进行配置。本发明可以保障时间敏感业务的时延要求,同时一定程度上提高其他业务的吞吐量。

Description

一种基于DDPG的5G-TSN联合资源调度装置及方法
技术领域
本发明涉及通信技术领域,特别涉及一种基于DDPG(Deep Deterministic PolicyGradient,深度确定性策略梯度算法)的5G-TSN(Time Sensitive Networking,时间敏感网络)联合资源调度装置及方法。
背景技术
时间敏感网络(TSN, Time Sensitive Networking)是由IEEE802.1 TSN任务组制定的一系列IEEE802以太网标准。在工业互联网应用领域,由于工业现场网络传输的低时延要求和高可靠性要求,使得时间敏感网络成为该领域的研究热点之一。时间敏感网络具有确定时延保障和多业务承载能力,可用于实时确定性的、一定范围内的、低时延的工业通信,具有时间同步、延时保证等确保实时性的功能,也具有低抖动和极低数据包丢失率的功能,从而使得以太网能适用于高可靠性和低时延要求的时间敏感型应用场景。
5G R16定义了5G-TSN协同架构,5G整个网络包括终端、无线、承载和核心网,在TSN网络中作为一个透明的网桥。如图1所示为3GPP标准定义的5G-TSN网络架构模型。
为了与TSN网络进行适配,5GS(5G System)一方面新增了网元功能。控制面新增了TSN应用功能实体(TSN-AF),使得5GS与TSN网络可以进行信息交互,同时TSN-AF与5G核心网中策略控制功能(PCF, Policy Control Function)、会话管理功能(SMF, SessionManagement Function)等实体的交互,实现TSN业务流关键参数在5G时钟下的修正与传递,实现Qos(Quality of Service)保障;在用户面新增加了TSN转换器作为网关,包括设备侧的TSN转换器(DS-TT, Device Side TSN Translator)和网络侧的TSN转换器(NW-TT,Network side TSN Translator)。它们同时支持IEEE802.1AS、802.1AB等协议,可以减少TSN协议转换对5G新空口造成过多影响。通过这两个网关,5G网络相关信息可以经过DS-TT和NW-TT提供TSN入口和出口端口传输到TSN网络,另外关于进行Qos业务保障需要的5G Qos配置信息也经由这两个网关传输到5G网桥。传输数据到达网关处队列后,根据网关处设置的周期性门控列表(GCL,Gate Control List),进行队列中缓存数据的传输。
另一方面,5G系统对原有的核心网元进行了功能增强,增强PCF策略控制功能实现对TSN业务的策略决策和下发/通知;增强接入及移动性管理功能(AMF, Access andManagement Function)、SMF、统一数据管理(UDM, Unified Data Manager)功能、UPF等网元实现对TSN业务的PDU会话的管理,以及与DS-TT间的TSN参数和策略互通;增强UPF实现NW-TT与TSN业务网络间的TSN时钟同步,使得5G网络与TSN网络具备跨域业务参数交互(时间信息、优先级信息、包大小及间隔、流方向等)、端口及队列管理、QoS映射等功能。
目前,现有技术主要存在以下问题:
一方面,3GPP提出的5G-TSN架构,只定义了功能实体与网络架构。但实际上,5G-TSN会承载多业务的传输,除了时间敏感性业务外,还有5G业务,如视频流。当其同时到达基站时,如何对其调度是没有解决的。另一方面,在5G-TSN架构中,对于空口资源的调度不仅仅需要考虑无线信道状态、基站队列,还要考虑NW-TT与DS-TT的门控,结合门控配置情况,对空口资源进行分配是一种更优策略。因为,当NW-DS-TT的门控是关的,即使基站对该时间敏感性业务进行调度,该业务也会在DS-TT进行等待。
发明内容
本发明提供了一种基于DDPG的5G-TSN联合资源调度装置及方法,以解决多业务在5G-TSN协同传输架构上进行跨网传输的资源调度问题。
为解决上述技术问题,本发明提供了如下技术方案:
一方面,本发明提供了一种基于DDPG的5G-TSN联合资源调度装置,适用于5G-TSN的网络设备,所述装置包括:状态信息采集模块,调度决策模块和配置模块,所述状态信息采集模块和配置模块均与所述调度决策模块相连;
所述状态信息采集模块用于采集底层网络信息,并对采集的底层网络信息进行处理,得到状态信息,并将状态信息传输至所述调度决策模块;其中,所述底层网络信息包括信道信息、TSN域的门控列表信息和基站中的队列信息;
所述调度决策模块使用基于DDPG的强化学习模型,根据所述状态信息采集模块输出的状态信息,得到决策结果,并将决策结果传输至所述配置模块;其中,所述决策结果包括是否为当前队列分配资源和当前队列实际分配的资源数目;
所述配置模块用于将决策结果转换为基站能理解的指令,对基站进行配置。
进一步地,所述状态信息采集模块具体用于:
采集底层网络信息,包括:DW-TT的门控状态
Figure SMS_1
、基站各用户队列的长度
Figure SMS_2
、队头的等待时延
Figure SMS_3
和5G系统中信道质量
Figure SMS_4
对采集的底层网络信息进行处理,得到状态信息,包括:
根据信道质量映射一个资源块能够承载的比特数目:
Figure SMS_5
其中,
Figure SMS_6
是接收当前队列
Figure SMS_7
的信道质量,
Figure SMS_8
表示一个资源块能够承载的比特数目,
Figure SMS_9
是映射函数;
根据信道信息和队列信息计算每一个队列需要的资源数目:
Figure SMS_10
其中,
Figure SMS_11
表示队列
Figure SMS_12
的数据包大小,
Figure SMS_13
为队列
Figure SMS_14
的队长,
Figure SMS_15
表示队列
Figure SMS_16
需要的资源数目;
对每一种业务设置截止时间,根据截止时间对时延进行归一化:
Figure SMS_17
其中,
Figure SMS_18
表示归一化后的等待时延,
Figure SMS_19
表示业务的截止时间,
Figure SMS_20
表示业务在基站队列的等待时间;
将得到的状态信息传输至所述调度决策模块;其中,所述状态信息包括各队列需要的资源数目、各队列长度、归一化后的等待时延以及门控状态。
进一步地,队列
Figure SMS_21
实际分配的资源数目由下式得到:
Figure SMS_22
其中,
Figure SMS_23
表示队列
Figure SMS_24
实际分配的资源数目,
Figure SMS_25
表示总资源数目,
Figure SMS_26
表示队列
Figure SMS_27
是否分配到资源,
Figure SMS_28
是基站中待调度的队列数目。
进一步地,当数据为视频流时,强化学习模型使用的奖励函数
Figure SMS_29
,为:
Figure SMS_30
对于时间敏感流,强化学习模型使用的奖励函数
Figure SMS_31
,为:
Figure SMS_32
其中,
Figure SMS_33
表示业务的截止时间,
Figure SMS_34
表示业务在基站队列的等待时间,△表示一个预设的正数;
Figure SMS_35
表示当前视频流所获得的平均吞吐量,
Figure SMS_36
表示视频流业务需要满足的最低平均吞吐量,
Figure SMS_37
是两个参数,分别用于调控门控开启或关闭下不同等待时间的业务奖励值,
Figure SMS_38
表示势函数。
另一方面,本发明还提供了一种基于DDPG的5G-TSN联合资源调度方法,适用于5G-TSN的网络设备,所述5G-TSN联合资源调度方法包括:
采集底层网络信息,并对采集的底层网络信息进行处理,得到状态信息;其中,底层网络信息包括信道信息、TSN域的门控列表信息和基站中的队列信息;
使用基于DDPG的强化学习模型,根据所述状态信息,得到决策结果;其中,所述决策结果包括是否为当前队列分配资源和当前队列实际分配的资源数目;
将决策结果转换为基站能理解的指令,对基站进行配置。
进一步地,所述采集底层网络信息,并对采集的底层网络信息进行处理,得到状态信息,包括:
采集底层网络信息,包括:DW-TT的门控状态
Figure SMS_39
、基站各用户队列的长度
Figure SMS_40
、队头的等待时延
Figure SMS_41
和5G系统中信道质量
Figure SMS_42
对采集的底层网络信息进行处理,得到状态信息,包括:
根据信道质量映射一个资源块能够承载的比特数目:
Figure SMS_43
其中,
Figure SMS_44
是接收当前队列
Figure SMS_45
的信道质量,
Figure SMS_46
表示一个资源块能够承载的比特数目,
Figure SMS_47
是映射函数;
根据信道信息和队列信息计算每一个队列需要的资源数目:
Figure SMS_48
其中,
Figure SMS_49
表示队列
Figure SMS_50
的数据包大小,
Figure SMS_51
为队列
Figure SMS_52
的队长,
Figure SMS_53
表示队列
Figure SMS_54
需要的资源数目;
对每一种业务设置截止时间,根据截止时间对时延进行归一化:
Figure SMS_55
其中,
Figure SMS_56
表示归一化后的等待时延,
Figure SMS_57
表示业务的截止时间,
Figure SMS_58
表示业务在基站队列的等待时间;
最终得到状态信息;其中,所述状态信息包括各队列需要的资源数目、各队列长度、归一化后的等待时延以及门控状态。
进一步地,队列
Figure SMS_59
实际分配的资源数目由下式得到:
Figure SMS_60
其中,
Figure SMS_61
表示队列
Figure SMS_62
实际分配的资源数目,
Figure SMS_63
表示总资源数目,
Figure SMS_64
表示队列
Figure SMS_65
是否分配到资源,
Figure SMS_66
是基站中待调度的队列数目。
进一步地,当数据为视频流时,强化学习模型使用的奖励函数
Figure SMS_67
,为:
Figure SMS_68
对于时间敏感流,强化学习模型使用的奖励函数
Figure SMS_69
,为:
Figure SMS_70
其中,
Figure SMS_71
表示业务的截止时间,
Figure SMS_72
表示业务在基站队列的等待时间,△表示一个预设的正数;
Figure SMS_73
表示当前视频流所获得的平均吞吐量,
Figure SMS_74
表示视频流业务需要满足的最低平均吞吐量,
Figure SMS_75
是两个参数,分别用于调控门控开启或关闭下不同等待时间的业务奖励值,
Figure SMS_76
表示势函数。
再一方面,本发明还提供了一种电子设备,其包括处理器和存储器;其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现上述方法。
又一方面,本发明还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现上述方法。
本发明提供的技术方案带来的有益效果至少包括:
本发明针对5G-TSN架构下,对基站空口处多业务流调度这一问题提出了一种基于强化学习的多业务的空口调度策略。实现了DS-TT门控状态与基站调度的联动,保障了时间敏感业务的时延要求,并提高了其他业务传输吞吐量。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是3GPP定义的5G TSN网络架构示意图;
图2是本发明实施例提供的基于DDPG的下行链路资源调度网络模块示意图;
图3是本发明实施例提供的DDPG算法示意图;
图4是本发明实施例提供的信道质量与资源承载量的关系示意图;
图5是本发明实施例提供的
Figure SMS_77
与等待时间的关系示意图;
图6是本发明实施例提供的DS-TT门控状态设置示意图;
图7是本发明实施例提供的算法训练过程示意图;其中,(a)为算法输出动作对应的平均奖励值随着算法训练的变化示意图,(b)为执行算法输出的动作得到的时间敏感业务的端到端时延随着算法训练的变化示意图;
图8是三种算法对比示意图;其中,(a)为在比例公平(PF)、最早截止时间优先(EDF)和基于DDPG算法下,随着用户数目的增多,时间敏感业务的平均时延的变化示意图,(b)为在PF、EDF和基于DDPG算法下,随着用户数目的增多,系统吞吐量的变化示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
第一实施例
在数据进行5G-TSN跨网传输时,需要经过端口网关DS-TT,待传输数据暂时缓存在端口网关队列内。基站在调度时不仅要考虑时间敏感业务的时延要求、信道传输质量等信息,同时要考虑不影响其他业务传输的吞吐量,还需要考虑DS-TT处门控列表GCL的门控状态。基于此,本实施例提供了一种在考虑DS-TT状态下,基于强化学习DDPG的5G-TSN联合资源调度机制,该调度机制可以保障时间敏感业务的时延要求,同时一定程度上提高其他业务的吞吐量。
基于上述,本实施例设计了基于DDPG的下行链路资源调度控制模块(SCNM)。SCNM包括状态采集模块,调度决策模块和配置管理模块,其连接方式如图2所示,SCNM与5G-TSN的网络设备相连,状态采集模块和配置管理模块分别与调度决策模块相连,调度决策模块用于根据收集的状态信息做出决策,并将决策结果发送给配置管理模块,对基站统一配置。各模块具体的功能说明如下:
状态信息采集模块:用于底层网络信息的采集,包括:信道信息、TSN域的门控列表信息、基站中的队列信息等。
调度决策模块:调度决策模块使用DDPG算法确定决策,该算法模块由Critic网络和Actor网络组成,输入是状态,输出是动作,即决策,如图3所示。调度决策模块分为线下训练和线上执行过程。训练过程Critic网络和Actor网络均参与,执行过程,只有actor网络参与。
配置管理模块:基于调度决策模块得到的全局优化结果,将决策结果转换为基站能理解的消息命令,对基站进行统一配置。
进一步地,本实施例的SCNM实现决策的具体流程如下:
S1,TSN的DW-TT和5G基站、UE向SCNM上传状态信息S,包括:DW-TT的门控状态
Figure SMS_78
、基站各用户队列的长度
Figure SMS_79
、队头的等待时延
Figure SMS_80
和5G系统中信道质量
Figure SMS_81
S2,状态采集模块将上述信息进行处理并发送给调度决策模块。处理过程:
S21,根据信道质量映射一个资源块能够承载的比特数目:
Figure SMS_82
其中,
Figure SMS_83
是接收当前队列
Figure SMS_84
的信道质量,
Figure SMS_85
表示一个资源块能够承载的比特数目,
Figure SMS_86
是映射函数,如图4所示。
S22,根据信道信息和队列信息计算每一个队列需要的资源数目:
Figure SMS_87
其中,
Figure SMS_88
表示队列
Figure SMS_89
的数据包大小,
Figure SMS_90
为队列
Figure SMS_91
的队长,
Figure SMS_92
表示队列
Figure SMS_93
需要的资源数目;
S23,对每一种业务设置截止时间,根据截止时间对时延进行归一化:
Figure SMS_94
其中,
Figure SMS_95
表示归一化后的等待时延,
Figure SMS_96
表示业务的截止时间,
Figure SMS_97
表示业务在基站队列的等待时间;
S24,得到处理后的状态信息
Figure SMS_98
S3,调度决策模块根据状态采集模块处理后的信息进行决策。决策流程分为线下训练流程和线上执行流程,现具体说明如下:
1、调度决策模块线下训练流程:
1)数据集产生过程:
a)调度决策模块接收传来的
Figure SMS_100
时刻的状态信息
Figure SMS_102
,并根据初始化的网络参数输出决策
Figure SMS_103
,网络输出的决策
Figure SMS_101
只有0与1两个值,即
Figure SMS_104
,其中,
Figure SMS_105
是基站中待调度的队列数目。0表示该队列不分配资源,1表示分配资源。队列
Figure SMS_106
实际分配的资源数目
Figure SMS_99
由下式得到:
Figure SMS_107
其中,
Figure SMS_108
表示总资源数目,
Figure SMS_109
表示队列
Figure SMS_110
是否分配到资源。
b)在执行动作
Figure SMS_111
和分配资源数目
Figure SMS_112
后,下式为初始的奖励函数
Figure SMS_113
Figure SMS_114
上述函数是各业务的截止时间减去业务在基站队列的等待时间加上一个较小的正数的倒数。这一函数的目的是为了让各业务在尽可能离截止时间近的时候发送。既保障时延满足截止时间的要求,又给时间敏感业务外的其他业务空余了大量的传输时间。此外,对于非时间敏感性业务会有吞吐量约束,当非时间敏感业务的吞吐量不满足下式时,会导致奖励函数为0,因此算法输出的动作会尽量保证吞吐量满足约束,此时存在大于0的奖励值,而不是接近截止时间——此时奖励极有可能是0。
Figure SMS_115
其中,
Figure SMS_116
Figure SMS_117
是5G的调度时隙间隔
因此对于视频流的奖励函数
Figure SMS_118
,相应变为,
Figure SMS_119
进一步的,对于时间敏感流,需要考虑DS-TT的门控状态,因此,构造势函数
Figure SMS_120
来体现不同的等待时延时,门控的状态的重要程度。势函数中的参数
Figure SMS_121
如图5所示,对于时间敏感业务的奖励值首先与DS-TT的门控有关,当门控为开时,此时调度时间敏感业务获得的奖励值,此外,当离截止时间越远时,奖励值较小反之越大,因此构造奖励函数
Figure SMS_122
,如下式
Figure SMS_123
其中,
Figure SMS_124
表示业务的截止时间,
Figure SMS_125
表示业务在基站队列的等待时间,△表示一个预设的正数;
Figure SMS_126
表示当前视频流所获得的平均吞吐量,
Figure SMS_127
表示视频流业务需要满足的最低平均吞吐量,
Figure SMS_128
是两个参数,分别用于调控门控开启或关闭下不同等待时间的业务奖励值,
Figure SMS_129
表示势函数。
综上,
Figure SMS_130
c)当执行动作后,环境会进入到下一个状态
Figure SMS_131
,因此,会得到一组训练集
Figure SMS_132
,重复此过程,会得到多组数据集。
2)基于DDPG算法的调度决策模块训练过程:
DDPG结构如图3所示,包括critic网络和actor网络。Actor网络作用是根据环境的状态输出动作,critic网络是对actor输出的动作打分。DDPG在训练时,会对critic和actor均进行训练。训练actor的目的是使actor输出的动作更“迎合”critic,能够让critic打高分,训练critic的目的是使critic对动作打分更接近实际值。训练过程如下:
a)输入一组状态转移集
Figure SMS_133
b)Critic网络根据
Figure SMS_134
时刻的状态
Figure SMS_135
对做出的动作
Figure SMS_136
打分,得分记为
Figure SMS_137
c)Actor网络根据t+1时刻的状态
Figure SMS_138
输出动作
Figure SMS_139
,然后,critic网络对
Figure SMS_140
打分,得分记为
Figure SMS_141
d)根据Bellman公式,求误差:
Figure SMS_142
e)使用梯度下降法更新critic网络:
Figure SMS_143
f)使用梯度上升法更新actor网络:
Figure SMS_144
2、调度决策模块线上预测流程:
线下DDPG模型训练收敛后保存模型参数。调度决策模块在线上执行的时候,导入保存的模型,然后,使用actor模块输出动作后,调度决策模块将所做出决策结果发送给配置管理模块。
S4,配置管理模块将收到的决策转化为网络交换设备能理解的消息命令,并发送给基站。
下面,采用仿真的方式对本实施例调度策略的有效性进行说明。
对数据源模型、无线信道模型和门控状态进行设置:
数据包产生服从0-1分布,其中概率p是0.5,产生的数据包服从1-3的均匀分布。
无线信道的衰减服从瑞利分布,另外,用户和基站的增加或减少的概率服从概率是0.5的0-1分布。
门控的状态如图6所示.
基于此流程进行仿真,仿真结果如下。
图7中的(a)表明,随着DDPG模型的不断训练,所有用户每期的平均奖励逐渐增加,经过约230个训练片段后,奖励的波动减小,最终收敛在1.6 ~ 1.8之间。图7中的(b)展示了基于DDPG模型的资源调度决策的时间敏感流的时延要求。根据设计的奖励函数,如果时间敏感流的5G系统时延超过EMLR,则相关的奖励为负,这使得Agent避免指向这些负奖励的动作。另一方面,如果5G系统延迟更接近但不超过时间敏感流的EMLR,则可以获得更多奖励。这就是为什么时敏流的5G系统延迟在训练开始时很低,在接近80集之前不断增加,并逐渐收敛到4ms的原因。
由图8的(a)可以看出,EDF对时敏流的性能最好,因为视频的EMLR比TSN的时敏流的EMLR要大得多,因此时敏流的延迟更接近截止日期,所以时敏流的调度优先级最高。然而,PF算法更关心的是实现的数据速率,而不是延迟的保证。因此,带PF的5G系统时延随着终端数的增加而增大,当终端数达到16时,5G系统时延甚至超过EMLR 6ms。基于DDPG的资源调度算法具有比PF更好的时延保证性能,随着终端数量的增加,使用DDPG的5G系统时延几乎保持在4ms左右,高于EDF,但仍能满足时敏流的EMLR。
与时间敏感流不同,视频流更关心吞吐量。多流量共存场景下的系统吞吐量性能如图8中的(b)所示。EDF倾向于调度时间敏感的流,这意味着更少的可用资源用于视频流。因此使用EDF的吞吐量随着终端数量的增加而下降。然而,无论是DDPG还是pf调度算法,吞吐量都随着终端数量的增加而增加。由于设计了奖励函数,基于ddpg的调度算法为视频流提供了更多的调度机会,对时间敏感的流的时延要求较低,因此,基于ddpg的调度算法性能最好,吞吐量比PF提高了近0.05%。
由上可知,本实施例提出的基于DDPG的下行链路资源调度控制策略满足了强实时性业务的时延要求,同时提高了系统的吞吐量。
综上,本实施例针对5G-TSN架构下,对基站空口处多业务流调度这一问题提出了一种基于强化学习的业务调度模块(SCNM模块)。实现了DS-TT门控状态与基站调度的联动,提出一种基于强化学习的多业务的空口调度策略,保障了时间敏感业务的时延要求,提高了其他业务传输吞吐量。
第二实施例
本实施例提供一种电子设备,其包括处理器和存储器;其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行,以实现第一实施例的策略。
该电子设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)和一个或一个以上的存储器,其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行上述策略。
第三实施例
本实施例提供一种计算机可读存储介质,该存储介质中存储有至少一条指令,所述指令由处理器加载并执行,以实现上述策略。其中,该计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。其内存储的指令可由终端中的处理器加载并执行上述策略。
此外,需要说明的是,本发明可提供为方法、装置或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
最后需要说明的是,以上所述是本发明优选实施方式,应当指出,尽管已描述了本发明优选实施例,但对于本技术领域的技术人员来说,一旦得知了本发明的基本创造性概念,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

Claims (8)

1.一种基于DDPG的5G-TSN联合资源调度装置,适用于5G-TSN的网络设备,其特征在于,所述装置包括:状态信息采集模块,调度决策模块和配置模块,所述状态信息采集模块和配置模块均与所述调度决策模块相连;其中,
所述状态信息采集模块用于采集底层网络信息,并对采集的底层网络信息进行处理,得到状态信息,并将状态信息传输至所述调度决策模块;其中,所述底层网络信息包括信道信息、TSN域的门控列表信息和基站中的队列信息;
所述调度决策模块使用基于DDPG的强化学习模型,根据所述状态信息采集模块输出的状态信息,得到决策结果,并将决策结果传输至所述配置模块;其中,所述决策结果包括是否为当前队列分配资源和当前队列实际分配的资源数目;
所述配置模块用于将决策结果转换为基站能理解的指令,对基站进行配置。
2.如权利要求1所述的基于DDPG的5G-TSN联合资源调度装置,其特征在于,所述状态信息采集模块具体用于:
采集底层网络信息,包括:DW-TT的门控状态
Figure QLYQS_1
、基站各用户队列的长度
Figure QLYQS_2
、队头的等待时延
Figure QLYQS_3
和5G系统中信道质量
Figure QLYQS_4
对采集的底层网络信息进行处理,得到状态信息,包括:
根据信道质量映射一个资源块能够承载的比特数目:
Figure QLYQS_5
其中,
Figure QLYQS_6
是接收当前队列
Figure QLYQS_7
的信道质量,
Figure QLYQS_8
表示一个资源块能够承载的比特数目,
Figure QLYQS_9
是映射函数;
根据信道信息和队列信息计算每一个队列需要的资源数目:
Figure QLYQS_10
其中,
Figure QLYQS_11
表示队列
Figure QLYQS_12
的数据包大小,
Figure QLYQS_13
为队列
Figure QLYQS_14
的队长,
Figure QLYQS_15
表示队列
Figure QLYQS_16
需要的资源数目;
对每一种业务设置截止时间,根据截止时间对时延进行归一化:
Figure QLYQS_17
其中,
Figure QLYQS_18
表示归一化后的等待时延,
Figure QLYQS_19
表示业务的截止时间,
Figure QLYQS_20
表示业务在基站队列的等待时间;
将得到的状态信息传输至所述调度决策模块;其中,所述状态信息包括各队列需要的资源数目、各队列长度、归一化后的等待时延以及门控状态。
3.如权利要求2所述的基于DDPG的5G-TSN联合资源调度装置,其特征在于,队列
Figure QLYQS_21
实际分配的资源数目由下式得到:
Figure QLYQS_22
其中,
Figure QLYQS_23
表示队列
Figure QLYQS_24
实际分配的资源数目,
Figure QLYQS_25
表示总资源数目,
Figure QLYQS_26
表示队列
Figure QLYQS_27
是否分配到资源,
Figure QLYQS_28
是基站中待调度的队列数目。
4.如权利要求2所述的基于DDPG的5G-TSN联合资源调度装置,其特征在于,当数据为视频流时,强化学习模型使用的奖励函数
Figure QLYQS_29
,为:
Figure QLYQS_30
对于时间敏感流,强化学习模型使用的奖励函数
Figure QLYQS_31
,为:
Figure QLYQS_32
其中,
Figure QLYQS_33
表示业务的截止时间,
Figure QLYQS_34
表示业务在基站队列的等待时间,△表示一个预设的正数;
Figure QLYQS_35
表示当前视频流所获得的平均吞吐量,
Figure QLYQS_36
表示视频流业务需要满足的最低平均吞吐量,
Figure QLYQS_37
是两个参数,分别用于调控门控开启或关闭下不同等待时间的业务奖励值,
Figure QLYQS_38
表示势函数。
5.一种基于DDPG的5G-TSN联合资源调度方法,适用于5G-TSN的网络设备,其特征在于,所述基于DDPG的5G-TSN联合资源调度方法包括:
采集底层网络信息,并对采集的底层网络信息进行处理,得到状态信息;其中,底层网络信息包括信道信息、TSN域的门控列表信息和基站中的队列信息;
使用基于DDPG的强化学习模型,根据所述状态信息,得到决策结果;其中,所述决策结果包括是否为当前队列分配资源和当前队列实际分配的资源数目;
将决策结果转换为基站能理解的指令,对基站进行配置。
6.如权利要求5所述的基于DDPG的5G-TSN联合资源调度方法,其特征在于,所述采集底层网络信息,并对采集的底层网络信息进行处理,得到状态信息,包括:
采集底层网络信息,包括:DW-TT的门控状态
Figure QLYQS_39
、基站各用户队列的长度
Figure QLYQS_40
、队头的等待时延
Figure QLYQS_41
和5G系统中信道质量
Figure QLYQS_42
对采集的底层网络信息进行处理,得到状态信息,包括:
根据信道质量映射一个资源块能够承载的比特数目:
Figure QLYQS_43
其中,
Figure QLYQS_44
是接收当前队列
Figure QLYQS_45
的信道质量,
Figure QLYQS_46
表示一个资源块能够承载的比特数目,
Figure QLYQS_47
是映射函数;
根据信道信息和队列信息计算每一个队列需要的资源数目:
Figure QLYQS_48
其中,
Figure QLYQS_49
表示队列
Figure QLYQS_50
的数据包大小,
Figure QLYQS_51
为队列
Figure QLYQS_52
的队长,
Figure QLYQS_53
表示队列
Figure QLYQS_54
需要的资源数目;
对每一种业务设置截止时间,根据截止时间对时延进行归一化:
Figure QLYQS_55
其中,
Figure QLYQS_56
表示归一化后的等待时延,
Figure QLYQS_57
表示业务的截止时间,
Figure QLYQS_58
表示业务在基站队列的等待时间;
最终得到状态信息;其中,所述状态信息包括各队列需要的资源数目、各队列长度、归一化后的等待时延以及门控状态。
7.如权利要求6所述的基于DDPG的5G-TSN联合资源调度方法,其特征在于,队列
Figure QLYQS_59
实际分配的资源数目由下式得到:
Figure QLYQS_60
其中,
Figure QLYQS_61
表示队列
Figure QLYQS_62
实际分配的资源数目,
Figure QLYQS_63
表示总资源数目,
Figure QLYQS_64
表示队列
Figure QLYQS_65
是否分配到资源,
Figure QLYQS_66
是基站中待调度的队列数目。
8.如权利要求6所述的基于DDPG的5G-TSN联合资源调度方法,其特征在于,当数据为视频流时,强化学习模型使用的奖励函数
Figure QLYQS_67
,为:
Figure QLYQS_68
对于时间敏感流,强化学习模型使用的奖励函数
Figure QLYQS_69
,为:
Figure QLYQS_70
其中,
Figure QLYQS_71
表示业务的截止时间,
Figure QLYQS_72
表示业务在基站队列的等待时间,△表示一个预设的正数;
Figure QLYQS_73
表示当前视频流所获得的平均吞吐量,
Figure QLYQS_74
表示视频流业务需要满足的最低平均吞吐量,
Figure QLYQS_75
是两个参数,分别用于调控门控开启或关闭下不同等待时间的业务奖励值,
Figure QLYQS_76
表示势函数。
CN202310058426.1A 2023-01-20 2023-01-20 一种基于ddpg的5g-tsn联合资源调度装置及方法 Active CN115811799B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202310058426.1A CN115811799B (zh) 2023-01-20 2023-01-20 一种基于ddpg的5g-tsn联合资源调度装置及方法
US18/395,771 US12041602B1 (en) 2023-01-20 2023-12-26 5G-TSN resource joint scheduling apparatus and method based on DDPG

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310058426.1A CN115811799B (zh) 2023-01-20 2023-01-20 一种基于ddpg的5g-tsn联合资源调度装置及方法

Publications (2)

Publication Number Publication Date
CN115811799A true CN115811799A (zh) 2023-03-17
CN115811799B CN115811799B (zh) 2023-04-21

Family

ID=85487431

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310058426.1A Active CN115811799B (zh) 2023-01-20 2023-01-20 一种基于ddpg的5g-tsn联合资源调度装置及方法

Country Status (2)

Country Link
US (1) US12041602B1 (zh)
CN (1) CN115811799B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115996403A (zh) * 2023-03-22 2023-04-21 北京邮电大学 5g工业时延敏感业务资源调度方法、装置、电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110493826A (zh) * 2019-08-28 2019-11-22 重庆邮电大学 一种基于深度强化学习的异构云无线接入网资源分配方法
CN113543210A (zh) * 2021-06-28 2021-10-22 北京科技大学 一种5G-TSN跨域QoS与资源映射方法、设备和计算机可读存储介质
CN113630893A (zh) * 2021-06-28 2021-11-09 北京科技大学 基于无线信道信息的5g与tsn联合调度方法
CN114079977A (zh) * 2021-11-17 2022-02-22 重庆大学 一种5g和tsn融合网络流调度框架与资源分配方法
CN114189481A (zh) * 2021-11-25 2022-03-15 北京邮电大学 一种基于深度强化学习的tsn流调度方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112567714B (zh) * 2018-08-14 2022-07-26 华为技术有限公司 基于时间感知服务质量的通信方法及设备
JP7212151B2 (ja) * 2018-09-21 2023-01-24 テレフオンアクチーボラゲット エルエム エリクソン(パブル) 無線アクセスネットワークにおけるリソースをスケジュールするための方法および装置
US20220046462A1 (en) * 2019-02-14 2022-02-10 Telefonaktiebolaget Lm Ericsson (Publ) 5G SYSTEM SUPPORT FOR VIRTUAL TSN BRIDGE MANAGEMENT, QoS MAPPING AND TSN Qbv SCHEDULING
CN110730470B (zh) 2019-10-24 2020-10-27 北京大学 一种融合多接入技术的移动通信设备
WO2021213660A1 (en) * 2020-04-23 2021-10-28 Telefonaktiebolaget Lm Ericsson (Publ) Technique for determining radio device residence time and scheduling
US11564123B2 (en) * 2020-09-30 2023-01-24 Kabushiki Kaisha Toshiba Virtual time-sensitive networking bridge over a 5G wireless system
EP4262314A4 (en) 2021-01-07 2024-01-10 Huawei Technologies Co., Ltd. COMMUNICATION METHOD AND DEVICE
US11818646B2 (en) * 2021-11-15 2023-11-14 Kabushiki Kaisha Toshiba System-level schedule generation for integrated TSN and 5G deployments
US20230156769A1 (en) 2023-01-12 2023-05-18 Mark Eisen Dynamic qos-based co-design of wireless edge-enabled autonomous systems with machine learning

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110493826A (zh) * 2019-08-28 2019-11-22 重庆邮电大学 一种基于深度强化学习的异构云无线接入网资源分配方法
CN113543210A (zh) * 2021-06-28 2021-10-22 北京科技大学 一种5G-TSN跨域QoS与资源映射方法、设备和计算机可读存储介质
CN113630893A (zh) * 2021-06-28 2021-11-09 北京科技大学 基于无线信道信息的5g与tsn联合调度方法
WO2023273385A1 (zh) * 2021-06-28 2023-01-05 北京科技大学 基于无线信道信息的5g与tsn联合调度方法
CN114079977A (zh) * 2021-11-17 2022-02-22 重庆大学 一种5g和tsn融合网络流调度框架与资源分配方法
CN114189481A (zh) * 2021-11-25 2022-03-15 北京邮电大学 一种基于深度强化学习的tsn流调度方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
ANA LARRAÑAGA等: "Analysis of 5G-TSN Integration to Support Industry 4.0" *
LIU YANG等: "Joint Routing and Scheduling Optimization in Time-Sensitive Networks Using Graph-Convolutional-Network-Based Deep Reinforcement Learning" *
YAJING ZHANG等: "QoS-Aware Mapping and Scheduling for Virtual Network Functions in Industrial 5G-TSN Network" *
吴思远等: "5G-TSN 协同网络架构与关键传输流程研究" *
孙雷等: "基于无线信道信息的5G 与TSN 联合调度机制研究" *
邢燕霞等: "基于分层强化学习框架的6G 确定性网络技术研究" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115996403A (zh) * 2023-03-22 2023-04-21 北京邮电大学 5g工业时延敏感业务资源调度方法、装置、电子设备

Also Published As

Publication number Publication date
US20240251399A1 (en) 2024-07-25
CN115811799B (zh) 2023-04-21
US12041602B1 (en) 2024-07-16

Similar Documents

Publication Publication Date Title
CN101827027B (zh) 一种基于层间协作的家庭网络QoS保障方法
CN112737979B (zh) 一种时间敏感网络尽力而为流调度方法
CN113630893B (zh) 基于无线信道信息的5g与tsn联合调度方法
WO2016082603A1 (zh) 一种调度器及调度器的动态复用方法
EP3395023B1 (en) Dynamically optimized queue in data routing
US12041602B1 (en) 5G-TSN resource joint scheduling apparatus and method based on DDPG
CN113452618A (zh) 一种基于拥塞控制的m/m/1排队模型调度方法
Deng et al. A low-delay AVB flow scheduling method occupying the guard band in Time-Sensitive Networking
CN113783785A (zh) Ecn水线值的配置方法、装置及网络设备
CN114257554A (zh) 一种提高tsn网络be流带宽利用率的调度方法
Lin et al. Performance evaluation for scheduling algorithms in WiMAX network
CN115604193B (zh) 一种热轧控制系统中确定性资源调度方法及系统
Kahlon An embedded fuzzy expert system for adaptive WFQ scheduling of IEEE 802.16 networks
JP4973452B2 (ja) WiMAXスケジューラーの待ち時間カウントを使用した無効データ除去
Priscoli et al. A control-engineering approach to integrated congestion control and scheduling in wireless local area networks
Li et al. Rpq: Resilient-priority queue scheduling for delay-sensitive applications
Antoniou et al. An efficient deadline-credit-based transport scheme for prerecorded semisoft continuous media applications
Peng et al. Adaptive scheduling strategy for WiMAX real-time communication
CN115696465B (zh) 一种基于终端侧网关队列缓存的5g-tsn资源管理方法及装置
CN118804071A (zh) 基于5G和TSN融合的QoS映射方法、装置、设备、介质及产品
Kahlon et al. Analysis of a queue length aware and latency guaranteed fuzzy-based adaptive resource allocator for WiMAX networks
CN117579577B (zh) 基于时间敏感网络的数据帧转发方法、装置及计算机设备
WO2005022851A1 (en) Call admission control system and method for interpreting signaling messages and controlling traffic load in internet protocol differentiated services networks
Wang et al. A priority-based weighted fair queueing algorithm in wireless sensor network
JP2002124985A (ja) 送信装置、通信システムおよび送信方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant