CN113992524B - 网络切片优化处理方法及系统 - Google Patents
网络切片优化处理方法及系统 Download PDFInfo
- Publication number
- CN113992524B CN113992524B CN202111143979.4A CN202111143979A CN113992524B CN 113992524 B CN113992524 B CN 113992524B CN 202111143979 A CN202111143979 A CN 202111143979A CN 113992524 B CN113992524 B CN 113992524B
- Authority
- CN
- China
- Prior art keywords
- model
- task scheduling
- lower layer
- slice
- upper layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005457 optimization Methods 0.000 title claims abstract description 114
- 238000003672 processing method Methods 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 claims abstract description 227
- 230000008569 process Effects 0.000 claims abstract description 205
- 238000013468 resource allocation Methods 0.000 claims abstract description 91
- 230000002787 reinforcement Effects 0.000 claims abstract description 83
- 230000007704 transition Effects 0.000 claims description 19
- 230000003993 interaction Effects 0.000 claims description 14
- 230000001186 cumulative effect Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 3
- 238000005065 mining Methods 0.000 abstract 1
- 230000001483 mobilizing effect Effects 0.000 abstract 1
- 239000003795 chemical substances by application Substances 0.000 description 70
- 230000009471 action Effects 0.000 description 12
- HJZKOAYDRQLPME-UHFFFAOYSA-N oxidronic acid Chemical compound OP(=O)(O)C(O)P(O)(O)=O HJZKOAYDRQLPME-UHFFFAOYSA-N 0.000 description 11
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/70—Admission control; Resource allocation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种网络切片优化处理方法及系统,所述方法包括:构建异构马尔可夫决策过程模型,并构建分层深度强化学习架构;基于异构马尔可夫决策过程模型和分层深度强化学习架构构建联合优化决策模型;其中,所述联合优化决策模型包括上层子模型和下层子模型,所述上层子模型用于执行切片间资源分配过程,所述下层子模型用于执行切片内任务调度过程;将实时获取到的网络资源信息和业务请求数据输入至所述联合优化决策模型,得到所述联合优化决策模型输出的网络切片最优策略解。本发明能够对网络切片的资源分配和任务调度进行联合优化,从而能够挖掘系统潜在的服务能力,充分调动系统的可用资源以降低用户网络延迟,提高用户体验。
Description
技术领域
本发明涉及网络优化技术领域,尤其涉及一种网络切片优化处理方法及系统。
背景技术
车联网场景下存在大量的不可预知的新生业务,根据服务级别协议(SLA,ServiceLevel Agreement)定制化网络切片为用户提供服务在网络自动化和服务灵活性方面存在局限,难以及时满足新业务需求,因此需要为车联网中网络切片动态、高效地分配资源,为多样的新生业务提供服务。
目前,对于切片间资源分配和切片内任务调度分别存在广泛的研究。然而,每一个网络切片的可用资源会影响它内部的任务调度,而切片内的任务调度过程反过来影响切片整体的资源利用率,切片资源分配和任务调度两者联系紧密、相互耦合。现有研究将网络切片的资源分配和任务调度两者作为两个单独的问题分别进行优化,难以挖掘系统潜在的服务能力,无法充分调动系统的可用资源以降低用户网络延迟。
发明内容
本发明提供一种网络切片优化处理方法、系统、电子设备及存储介质,用以解决上述技术问题,从而能够挖掘系统潜在的服务能力,充分调动系统的可用资源以降低用户网络延迟,提高用户体验。
本发明提供一种网络切片优化处理方法,包括:
构建异构马尔可夫决策过程模型;其中,所述异构马尔可夫决策过程模型包括上层马尔可夫决策过程模型和下层马尔可夫决策过程模型,所述上层马尔可夫决策过程模型用于表示大时间尺度状态转移过程,所述下层马尔可夫决策过程模型用于表示小时间尺度状态转移过程,所述上层马尔可夫决策过程模型与所述下层马尔可夫决策过程模型通过下层马尔可夫决策过程在预设时间段内的累计奖励值作为强化信号进行联系;
构建分层深度强化学习架构;其中,所述分层深度强化学习架构包括上层深度强化学习模型和下层深度强化学习模型,所述上层深度强化学习模型用于进行上层智能体与上层环境的交互过程,所述下层深度强化学习模型用于进行下层智能体与下层环境的交互过程,所述分层深度强化学习架构中的所有智能体均独立进行决策,所述下层智能体在预设时间段内获得的奖励总和返回至当前时间段对应的上层智能体;
基于所述异构马尔可夫决策过程模型和所述分层深度强化学习架构构建联合优化决策模型;其中,所述联合优化决策模型包括上层子模型和下层子模型,所述上层子模型用于执行切片间资源分配过程,所述下层子模型用于执行切片内任务调度过程。
根据本发明的网络切片优化处理方法,所述基于所述异构马尔可夫决策过程模型和所述分层深度强化学习架构构建联合优化决策模型的步骤中,具体包括:
基于所述异构马尔可夫决策过程模型和所述分层深度强化学习架构构建联合优化决策模型,并根据所述分层深度强化学习架构将所述联合优化决策模型中的智能体划分为资源分配智能体和任务调度智能体;其中,所述资源分配智能体用于通过所述上层子模型执行切片间资源分配过程,所述任务调度智能体用于通过所述下层子模型执行切片内任务调度过程。
根据本发明的网络切片优化处理方法,所述任务调度智能体用于通过所述下层子模型执行切片内任务调度过程的步骤中,具体包括:
在所述资源分配智能体通过所述上层子模型执行切片间资源分配过程的相邻两个时间步之间,所述任务调度智能体用于通过所述下层子模型执行切片内任务调度过程。
根据本发明的网络切片优化处理方法,所述任务调度智能体包括第一任务调度智能体和第二任务调度智能体;其中,所述第一任务调度智能体用于通过所述下层子模型执行第一切片内任务调度过程,所述第二任务调度智能体用于通过所述下层子模型执行第二切片内任务调度过程。
根据本发明的网络切片优化处理方法,所述第一切片内任务调度过程与所述第二切片内任务调度过程为并行执行。
根据本发明的网络切片优化处理方法,所述第一切片内任务调度过程为基于eMBB业务的切片内任务调度过程,所述第二切片内任务调度过程为基于URLLC业务的切片内任务调度过程。
根据本发明的网络切片优化处理方法,所述资源分配智能体在每一时步的奖励值等于这一时步期间所有任务调度智能体获得的累计奖励值。
本发明还提供一种网络切片优化处理系统,包括:
第一建模模块,用于构建异构马尔可夫决策过程模型;其中,所述异构马尔可夫决策过程模型包括上层马尔可夫决策过程模型和下层马尔可夫决策过程模型,所述上层马尔可夫决策过程模型用于表示大时间尺度状态转移过程,所述下层马尔可夫决策过程模型用于表示小时间尺度状态转移过程,所述上层马尔可夫决策过程模型与所述下层马尔可夫决策过程模型通过下层马尔可夫决策过程在预设时间段内的累计奖励值作为强化信号进行联系;
第二建模模块,用于构建分层深度强化学习架构;其中,所述分层深度强化学习架构包括上层深度强化学习模型和下层深度强化学习模型,所述上层深度强化学习模型用于进行上层智能体与上层环境的交互过程,所述下层深度强化学习模型用于进行下层智能体与下层环境的交互过程,所述分层深度强化学习架构中的所有智能体均独立进行决策,所述下层智能体在预设时间段内获得的奖励总和返回至当前时间段对应的上层智能体;
模型构建模块,用于基于所述异构马尔可夫决策过程模型和所述分层深度强化学习架构构建联合优化决策模型;其中,所述联合优化决策模型包括上层子模型和下层子模型,所述上层子模型用于执行切片间资源分配过程,所述下层子模型用于执行切片内任务调度过程;
策略输出模块,用于将实时获取到的网络资源信息和业务请求数据输入至所述联合优化决策模型,得到所述联合优化决策模型输出的网络切片最优策略解。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述网络切片优化处理方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述网络切片优化处理方法的步骤。
本发明提供的网络切片优化处理方法、系统、电子设备及存储介质,通过将切片间资源分配和切片内任务调度分别建模为异构马尔可夫决策过程模型中的子模型,使得联合切片资源分配和任务调度的二维决策被解耦,原始联合优化问题的解空间和复杂度大大减小,从而能够挖掘系统潜在的服务能力,充分调动系统的可用资源以降低用户网络延迟,提高用户体验。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的网络切片优化处理方法的流程示意图;
图2是本发明一实施例提供的异构马尔可夫决策过程模型的结构示意图;
图3是本发明一实施例提供的HMDP的动态贝叶斯网络模型的结构示意图;
图4是本发明一实施例提供的分层深度强化学习架构的结构示意图;
图5是本发明一实施例提供的网络切片优化处理系统的结构示意图;
图6是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,目前联合切片资源分配和任务调度领域尚无既有研究,而对于切片间资源分配和切片内任务调度分别存在广泛的研究。
一方面,对于切片间的资源分配,是通过对物理底层的通信、计算、缓存等资源进行编排、优化和配置,设计满足业务需求的网络切片,其通常考虑资源分配的公平性、节约网络切片定制成本、提高资源利用率和用户服务质量(QoS,Quality of Service)等因素。从网络切片资源分配的架构出发,如在基础设施供应商(InPs,InfrastructureProviders)、移动虚拟网络运营商(MVNOs)和用户(UEs,User Equipments)形成的分级架构InPs-MVNOs-UEs中,InPs拥有基站全部的物理资源,这些资源被抽象为多个相互隔离的网络切片并分配给MVNOs,每个MVNO根据特定的需求将资源分配给其的用户UE,相关研究考虑其不同网络实体间的等级差异、两级资源分配的时间尺度差异,利用Stackelberg博弈建模、组合拍卖或优化理论等方法对切片资源分配过程进行分析和求解。另外,由于用户业务生成的不可预知性和资源请求的不确定性,相关研究利用深度强化学习(DRL,DeepReinforcement Learning),将业务对资源的请求和资源分配分别建模为环境状态和动作,以实现在随机业务到达和动态资源请求下,执行实时高效的资源分配策略。
另一方面,对于切片内的任务调度,如增强型移动宽带(eMBB,Enhanced MobileBroadband)和超可靠低时延通信(URLLC,ultra Reliable Low Latency Communications)等作为车联网场景中的典型业务被重点考虑,由于不同业务间的差异化特性和需求,现有研究在设计任务调度方法的过程中将吞吐量、时延、可靠性、能耗、系统容量等作为优化目标,将计算、存储、带宽等有限资源作为约束条件,拟定相应的优化问题并利用如Lyapunov等优化方法求解,或采用深度强化学习方法来处理实时的任务调度请求。另外,排队模型、状态转移仿真等解析模型也用于对任务调度策略有效性的分析。
在车联网网络切片场景中,联合切片资源分配和任务调度的异构马尔可夫决策过程(HMDP,Heterogeneous Markov Decision Process)模型和分层深度强化学习解决方案是具有较高存在意义的。
首先,大多数现有研究将网络切片的资源分配和任务调度两者作为两个单独的问题。然而,每一个网络切片的可用资源会影响它内部的任务调度,而切片内的任务调度过程反过来影响切片整体的资源利用率,切片资源分配和任务调度两者联系紧密、相互耦合。对切片资源分配和任务调度的联合优化能够挖掘系统潜在的服务能力,充分调动系统的可用资源并降低用户延迟,提高用户体验。
其次,在车联网网络切片场景中,联合切片资源分配和任务调度面临二维决策的挑战。一方面,网络切片的资源分配和任务调度存在明显的时间尺度差异:系统资源以粗粒度的方式在网络切片间进行资源划分,并不需要每时隙进行,是一种大时间尺度的决策;而在随机的业务到达下,为保障用户体验,任务调度被实时执行,是一种小时间尺度决策,如何对时间尺度不同的切片资源分配和任务调度进行联合优化存在困难;另一方面,切片间资源分配和切片内任务调度的决策动作分别受到系统资源的划分粒度和服务队列中被调度的任务数影响,利用单一的优化框架等方法求解并不实际;由于其联合优化问题存在巨大的解空间和复杂度,利用强化学习方法也会面临收敛速度慢甚至无法收敛的窘境,无法得到一个令人满意的联合资源分配和任务调度策略。
针对上述技术问题,本发明提供了一种网络切片优化处理方法,通过将切片间资源分配和切片内任务调度分别建模为异构马尔可夫决策过程模型中的子模型,使得联合切片资源分配和任务调度的二维决策被解耦,原始联合优化问题的解空间和复杂度大大减小,从而能够挖掘系统潜在的服务能力,充分调动系统的可用资源以降低用户网络延迟,提高用户体验。
如图1所示,本发明实施例提供一种网络切片优化处理方法,包括:
S1、构建异构马尔可夫决策过程模型;其中,所述异构马尔可夫决策过程模型包括上层马尔可夫决策过程模型和下层马尔可夫决策过程模型,所述上层马尔可夫决策过程模型用于表示大时间尺度状态转移过程,所述下层马尔可夫决策过程模型用于表示小时间尺度状态转移过程,所述上层马尔可夫决策过程模型与所述下层马尔可夫决策过程模型通过下层马尔可夫决策过程在预设时间段内的累计奖励值作为强化信号进行联系;
S2、构建分层深度强化学习架构;其中,所述分层深度强化学习架构包括上层深度强化学习模型和下层深度强化学习模型,所述上层深度强化学习模型用于进行上层智能体与上层环境的交互过程,所述下层深度强化学习模型用于进行下层智能体与下层环境的交互过程,所述分层深度强化学习架构中的所有智能体均独立进行决策,所述下层智能体在预设时间段内获得的奖励总和返回至当前时间段对应的上层智能体。
S3、基于所述异构马尔可夫决策过程模型和所述分层深度强化学习架构构建联合优化决策模型;其中,所述联合优化决策模型包括上层子模型和下层子模型,所述上层子模型用于执行切片间资源分配过程,所述下层子模型用于执行切片内任务调度过程。
需要说明的是,在本发明实施例中,步骤S3为基于异构马尔可夫决策过程模型和分层深度强化学习架构构建联合优化决策模型,并根据实际业务场景绑定模型与参数之间的映射关系,具体地,将系统的资源状态、服务队列中业务对资源的请求和业务的属性建模为环境状态,将网络切片资源分配的比例系数和服务队列中的被调度的任务序号建模为动作,以实现在随机的业务到达和动态资源请求下,执行实时高效的联合资源分配和任务调度策略。本发明实施例的联合优化决策模型包括上层子模型和下层子模型,在优化过程中,上层子模型用于执行切片间资源分配过程,下层子模型用于执行切片内任务调度过程。
S4、将实时获取到的网络资源信息和业务请求数据输入至所述联合优化决策模型,得到所述联合优化决策模型输出的网络切片最优策略解。
在本发明实施例中,利用构建好的联合优化决策模型根据实时获取到的网络资源信息和业务请求数据对切片资源分配过程进行分析和求解,最后得到模型输出的网络切片最优策略解。
需要说明的是,面向车联网网络切片场景中的资源分配和任务调度,考虑两者的联合优化问题,本发明提出了面向其的异构马尔可夫决策过程模型。通过将切片间资源分配和切片内任务调度分别建模为HMDP中的子MDP,联合切片资源分配和任务调度的二维决策被解耦,原始联合优化问题的解空间和复杂度大大减小。
在本发明实施例中,进一步地,步骤S3具体包括:基于所述异构马尔可夫决策过程模型和所述分层深度强化学习架构构建联合优化决策模型,并根据所述分层深度强化学习架构将所述联合优化决策模型中的智能体划分为资源分配智能体和任务调度智能体;其中,所述资源分配智能体用于通过所述上层子模型执行切片间资源分配过程,所述任务调度智能体用于通过所述下层子模型执行切片内任务调度过程。
在本发明实施例中,进一步地,所述任务调度智能体用于通过所述下层子模型执行切片内任务调度过程的步骤中,具体包括:
在所述资源分配智能体通过所述上层子模型执行切片间资源分配过程的相邻两个时间步之间,所述任务调度智能体用于通过所述下层子模型执行切片内任务调度过程。
在本发明实施例中,进一步地,所述资源分配智能体在每一时步的奖励值等于这一时步期间所有任务调度智能体获得的累计奖励值。
需要说明的是,网络切片的资源分配和任务调度存在明显的时间尺度差异:系统资源以粗粒度的方式在网络切片间进行资源划分,并不需要每时隙进行,是一种大时间尺度的决策;而在随机的业务到达下,为保障用户体验,任务调度被实时执行,是一种小时间尺度决策。针对这种特性,本发明实施例实现了对HMDP模型进行嵌套层次性设计,即在切片资源分配子MDP的每两个状态转移步之间执行一段时间的任务调度决策,满足了原始优化问题中切片资源分配和任务调度的时间尺度差异性。另外,切片资源分配子MDP每时步的奖励由该时间段内全部的任务调度子MDP的累计奖励值组成,这种HDMP不同跨层之间的奖励信号传递设计进一步保障了联合优化。通过分析,在所提出的异构马尔可夫决策过程模型中,多个连接的子MDP仍然保留完整的马尔可夫性。
在本发明实施例中,进一步地,所述任务调度智能体包括第一任务调度智能体和第二任务调度智能体;其中,所述第一任务调度智能体用于通过所述下层子模型执行第一切片内任务调度过程,所述第二任务调度智能体用于通过所述下层子模型执行第二切片内任务调度过程。进一步地,所述第一切片内任务调度过程与所述第二切片内任务调度过程为并行执行。进一步地,所述第一切片内任务调度过程为基于eMBB业务的切片内任务调度过程,所述第二切片内任务调度过程为基于URLLC业务的切片内任务调度过程。
需要说明的是,本发明实施例中,在下层子模型的任务调度智能体可以包括至少两个,分别执行不同业务类型的任务调度过程,且能够实现多个任务调度过程并行执行。本发明实施例应用了车联网中eMBB和URLLC两种典型业务的任务调度。在本发明实施例的分层DRL架构中,对应HMDP下层的是eMBB切片和URLLC切片任务调度过程,每一个切片均部署一个独立的策略网络进行任务调度决策,以确保不同类型业务的切片隔离性;对应HMDP上层的是切片资源分配过程,即额外部署一个策略网络进行资源分配决策。所有的策略网络均利用策略梯度方法来更新参数,而每一个策略网络更新参数所用的情节数据被详细说明,在下面实施例中给出了相应的完整情节的参数更新过程。
基于上述各实施例提供的网络切片优化处理方法,以下对本发明方案具体实现过程进行说明:
一、异构马尔可夫决策过程模型:
如图2所示,HMDP被设计为上下两层的分层模型,每层子模型拥有单独的子MDP,上层子模型对应大时间尺度的切片资源分配MDP,记为其中第l时步的状态、动作和奖励分别记为/> 下层子模型对应小时间尺度的任务调度MDP,考虑eMBB和URLLC两种典型业务的车联网任务调度,分别记为/>和/>在切片资源分配/>的两个时间步l和l+1之间,执行持续TM时间的eMBB和URLLC的并行任务调度过程。以/>的任务调度过程为例,状态转移表示为/>同样的任务调度过程也发生在URLLC切片内部。
资源分配智能体在TM时间内获得的奖励为表示为时间步lTM到(l+1)TM-1的全部任务调度累计奖励。
需要说明的是,在t=lTM时步,切片资源分配的状态为/>执行为切片划分资源的动作/>后,进入临时状态/>该临时状态表示为/>和/>的上一状态,实际并不存在。经过时间步lTM后,/>进入下一个资源分配状态/>对于切片资源分配MDP的/>而言,状态/>与/>之间的一系列任务调度状态转移/>可以视为环境中的随机因素;而对于任务调度/>状态/>和状态/>之间的随机任务到达过程和资源分配动作/>也可以视为环境中的随机因素,/>同理。
为了进一步阐述HMDP中不同层之间的联系,构造了与HMDP模型相对应的动态贝叶斯网络模型(DBN,Dynamic Bayesian Network),来阐述切片资源分配MDP和任务调度MDP之间的关系和马尔可夫性。
如图3所示,以上层MDP模型的的第l+1步为例,状态/>对动作/>造成影响,状态/>动作/>和随机任务到达对下层MDP的状态(即/>和/>此时t=lTM)造成影响,下层MDP的/>和/>在接下来的TM个时间步内,状态对动作造成影响,而状态和动作共同影响奖励。与普通MDP的特性一致,当前状态只与上一个状态有关,而与更之前的状态无关,任务调度的状态转移受到上一个状态,动作和随机任务到达过程的影响。在TM个时间步以后,下层MDP中/>和/>的片段完成,而片段中末尾的状态(即/>和/>此时t=(l+1)TM-1)组成了上层MDP的/>的状态/>自然地,下层MDP整个片段中的累计奖励构成了上层MDP此时的奖励/>
如果单独考虑两层中的子MDP,则下层MDP可以视为影响上层MDP状态转移(即到)中的随机因素;而每隔TM时间步,下层MDP的状态转移(即/>到/>到)受到任务到达过程和上层MDP中的动作/>的随机因素影响,因此,切片资源分配和任务调度的子MDP之间的联系均没有破坏其的马尔可夫性。
二、分层深度强化学习架构:
为了解决基于HMDP的切片资源分配和任务调度联合优化问题,如图4所示,提出了一个基于分层深度强化学习架构的解决方案。其中包含三个独立的决策智能体与环境的交互过程,即“切片资源分配智能体--车联网资源池环境”、“eMBB任务调度智能体--eMBB切片任务调度环境”和“URLLC任务调度智能体--URLLC切片任务调度环境”,切片资源分配和任务调度决策智能体对应三个独立的策略网络,分别记为和/>决策智能体/>将RSU的资源划分给两个切片,而决策智能体/>和/>分别处于eMBB切片和URLLC切片中执行任务调度。
三个决策智能体分别输入各自当前的状态并输出决策动作,随后任务调度决策智能体获得相应的奖励rt SE和rt SU,而在时间步TM后,切片资源分配决策智能体获得相应的奖励rl R,三个策略网络的参数分别表示为和/>它们均使用策略梯度方法进行更新,下面进行具体说明。
为了扩展策略网络的训练样本数量,每个情节被重复训练E次,因此,将上层MDP的的第e个训练轨迹表示为/>其中/>根据带基线的蒙特卡洛强化算法,策略网络/>的参数θR更新表示为:
其中基线
根据HMDP的定义,每一个上层子模型MDP的的完整情节中都包含L个/>的片段,如果将每一个片段都考虑作为下层MDP的一个完整情节,那么第l个片段可以表示为其中e表示上层MDP的/>的轨迹序号,/>参数更新表示为:
其中同理可以得到策略网络/>的参数θSU更新。
与现有技术相比,本发明实施例的优势在于建立了车联网网络切片联合资源分配和任务调度的异构马尔科夫决策过程模型,并构建了分层深度强化学习架构,基于异构马尔可夫决策过程模型和分层深度强化学习架构构建了联合优化决策模型。
首先,考虑了面向车联网网络切片场景下的切片资源分配和任务调度联合优化问题,提出异构马尔可夫决策过程模型,原始优化问题的二维决策被解耦,不仅满足二维动作时间尺度差异,也解决了联合优化问题中存在的解空间庞大、复杂度高的困难,同时保证了不同子MDP片段原有的马尔科夫性。
其次,提出了分层深度强化学习架构,给出了基于其的智能联合切片资源分配和任务调度解决方案,对其中每个决策智能体与环境的交互过程进行了设计,根据HMDP模型定义,为分层深度强化学习架构中的不同策略网络构造了具体的训练轨迹,利用策略梯度方法,并给出了所有策略网络的参数更新方案,保证其可实施性。
综合而言,本发明实施例建立了车联网网络切片场景中面向切片资源分配和任务调度联合优化的异构马尔可夫决策过程模型,设计了相应的分层深度强化学习架构,基于异构马尔可夫决策过程模型和分层深度强化学习架构构建了联合优化决策模型,为联合切片资源分配和任务调度提供了智能解决方案。
下面对本发明提供的网络切片优化处理系统进行描述,下文描述的网络切片优化处理系统与上文描述的网络切片优化处理方法可相互对应参照。
请参见图5,本发明实施例提供了一种网络切片优化处理系统,包括:
第一建模模块1,用于构建异构马尔可夫决策过程模型;其中,所述异构马尔可夫决策过程模型包括上层马尔可夫决策过程模型和下层马尔可夫决策过程模型,所述上层马尔可夫决策过程模型用于表示大时间尺度状态转移过程,所述下层马尔可夫决策过程模型用于表示小时间尺度状态转移过程,所述上层马尔可夫决策过程模型与所述下层马尔可夫决策过程模型通过下层马尔可夫决策过程在预设时间段内的累计奖励值作为强化信号进行联系;
第二建模模块2,用于构建分层深度强化学习架构;其中,所述分层深度强化学习架构包括上层深度强化学习模型和下层深度强化学习模型,所述上层深度强化学习模型用于进行上层智能体与上层环境的交互过程,所述下层深度强化学习模型用于进行下层智能体与下层环境的交互过程,所述分层深度强化学习架构中的所有智能体均独立进行决策,所述下层智能体在预设时间段内获得的奖励总和返回至当前时间段对应的上层智能体;
模型构建模块3,用于基于所述异构马尔可夫决策过程模型和所述分层深度强化学习架构构建联合优化决策模型;其中,所述联合优化决策模型包括上层子模型和下层子模型,所述上层子模型用于执行切片间资源分配过程,所述下层子模型用于执行切片内任务调度过程;
策略输出模块4,用于将实时获取到的网络资源信息和业务请求数据输入至所述联合优化决策模型,得到所述联合优化决策模型输出的网络切片最优策略解。
在本发明实施例中,进一步地,所述模型构建模块3具体用于:基于异构马尔可夫决策过程模型和分层深度强化学习架构构建联合优化决策模型,并根据预设的分层深度强化学习架构将所述联合优化决策模型中的智能体划分为资源分配智能体和任务调度智能体;其中,所述资源分配智能体用于通过所述上层子模型执行切片间资源分配过程,所述任务调度智能体用于通过所述下层子模型执行切片内任务调度过程。
在本发明实施例中,进一步地,所述任务调度智能体用于通过所述下层子模型执行切片内任务调度过程,具体包括:在所述资源分配智能体通过所述上层子模型执行切片间资源分配过程的相邻两个时间步之间,所述任务调度智能体用于通过所述下层子模型执行切片内任务调度过程。
在本发明实施例中,进一步地,所述任务调度智能体包括第一任务调度智能体和第二任务调度智能体;其中,所述第一任务调度智能体用于通过所述下层子模型执行第一切片内任务调度过程,所述第二任务调度智能体用于通过所述下层子模型执行第二切片内任务调度过程。
在本发明实施例中,进一步地,所述第一切片内任务调度过程与所述第二切片内任务调度过程为并行执行。
在本发明实施例中,进一步地,所述第一切片内任务调度过程为基于eMBB业务的切片内任务调度过程,所述第二切片内任务调度过程为基于URLLC业务的切片内任务调度过程。
在本发明实施例中,进一步地,所述资源分配智能体在每一时步的奖励值等于这一时步期间所有任务调度智能体获得的累计奖励值。
本案实施例的网络切片优化处理系统的工作原理与上述实施例的网络切片优化处理方法是相应的,此处不再一一赘述。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行所述的网络切片优化处理方法,该方法包括:构建异构马尔可夫决策过程模型;构建分层深度强化学习架构;基于所述异构马尔可夫决策过程模型和所述分层深度强化学习架构构建联合优化决策模型;其中,所述联合优化决策模型包括上层子模型和下层子模型,所述上层子模型用于执行切片间资源分配过程,所述下层子模型用于执行切片内任务调度过程;将实时获取到的网络资源信息和业务请求数据输入至所述联合优化决策模型,得到所述联合优化决策模型输出的网络切片最优策略解。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各实施例所提供的网络切片优化处理方法,该方法包括:构建异构马尔可夫决策过程模型;构建分层深度强化学习架构;基于所述异构马尔可夫决策过程模型和所述分层深度强化学习架构构建联合优化决策模型;其中,所述联合优化决策模型包括上层子模型和下层子模型,所述上层子模型用于执行切片间资源分配过程,所述下层子模型用于执行切片内任务调度过程;将实时获取到的网络资源信息和业务请求数据输入至所述联合优化决策模型,得到所述联合优化决策模型输出的网络切片最优策略解。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的网络切片优化处理方法,该方法包括:构建异构马尔可夫决策过程模型;构建分层深度强化学习架构;基于所述异构马尔可夫决策过程模型和所述分层深度强化学习架构构建联合优化决策模型;其中,所述联合优化决策模型包括上层子模型和下层子模型,所述上层子模型用于执行切片间资源分配过程,所述下层子模型用于执行切片内任务调度过程;将实时获取到的网络资源信息和业务请求数据输入至所述联合优化决策模型,得到所述联合优化决策模型输出的网络切片最优策略解。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种网络切片优化处理方法,其特征在于,包括:
构建异构马尔可夫决策过程模型;其中,所述异构马尔可夫决策过程模型包括上层马尔可夫决策过程模型和下层马尔可夫决策过程模型,所述上层马尔可夫决策过程模型用于表示大时间尺度状态转移过程,所述下层马尔可夫决策过程模型用于表示小时间尺度状态转移过程,所述上层马尔可夫决策过程模型与所述下层马尔可夫决策过程模型通过下层马尔可夫决策过程在预设时间段内的累计奖励值作为强化信号进行联系;
构建分层深度强化学习架构;其中,所述分层深度强化学习架构包括上层深度强化学习模型和下层深度强化学习模型,所述上层深度强化学习模型用于进行上层智能体与上层环境的交互过程,所述下层深度强化学习模型用于进行下层智能体与下层环境的交互过程,所述分层深度强化学习架构中的所有智能体均独立进行决策,所述下层智能体在预设时间段内获得的奖励总和返回至当前时间段对应的上层智能体;
基于所述异构马尔可夫决策过程模型和所述分层深度强化学习架构构建联合优化决策模型;其中,所述联合优化决策模型包括上层子模型和下层子模型,所述上层子模型用于执行切片间资源分配过程,所述下层子模型用于执行切片内任务调度过程;
将实时获取到的网络资源信息和业务请求数据输入至所述联合优化决策模型,得到所述联合优化决策模型输出的网络切片最优策略解。
2.根据权利要求1所述的网络切片优化处理方法,其特征在于,所述基于所述异构马尔可夫决策过程模型和所述分层深度强化学习架构构建联合优化决策模型的步骤中,具体包括:
基于所述异构马尔可夫决策过程模型和所述分层深度强化学习架构构建联合优化决策模型,并根据所述分层深度强化学习架构将所述联合优化决策模型中的智能体划分为资源分配智能体和任务调度智能体;其中,所述资源分配智能体用于通过所述上层子模型执行切片间资源分配过程,所述任务调度智能体用于通过所述下层子模型执行切片内任务调度过程。
3.根据权利要求2所述的网络切片优化处理方法,其特征在于,所述任务调度智能体用于通过所述下层子模型执行切片内任务调度过程的步骤中,具体包括:
在所述资源分配智能体通过所述上层子模型执行切片间资源分配过程的相邻两个时间步之间,所述任务调度智能体用于通过所述下层子模型执行切片内任务调度过程。
4.根据权利要求3所述的网络切片优化处理方法,其特征在于,所述任务调度智能体包括第一任务调度智能体和第二任务调度智能体;其中,所述第一任务调度智能体用于通过所述下层子模型执行第一切片内任务调度过程,所述第二任务调度智能体用于通过所述下层子模型执行第二切片内任务调度过程。
5.根据权利要求4所述的网络切片优化处理方法,其特征在于,所述第一切片内任务调度过程与所述第二切片内任务调度过程为并行执行。
6.根据权利要求4所述的网络切片优化处理方法,其特征在于,所述第一切片内任务调度过程为基于eMBB业务的切片内任务调度过程,所述第二切片内任务调度过程为基于URLLC业务的切片内任务调度过程。
7.根据权利要求3-6任一项所述的网络切片优化处理方法,其特征在于,所述资源分配智能体在每一时步的奖励值等于这一时步期间所有任务调度智能体获得的累计奖励值。
8.一种网络切片优化处理系统,其特征在于,包括:
第一建模模块,用于构建异构马尔可夫决策过程模型;其中,所述异构马尔可夫决策过程模型包括上层马尔可夫决策过程模型和下层马尔可夫决策过程模型,所述上层马尔可夫决策过程模型用于表示大时间尺度状态转移过程,所述下层马尔可夫决策过程模型用于表示小时间尺度状态转移过程,所述上层马尔可夫决策过程模型与所述下层马尔可夫决策过程模型通过下层马尔可夫决策过程在预设时间段内的累计奖励值作为强化信号进行联系;
第二建模模块,用于构建分层深度强化学习架构;其中,所述分层深度强化学习架构包括上层深度强化学习模型和下层深度强化学习模型,所述上层深度强化学习模型用于进行上层智能体与上层环境的交互过程,所述下层深度强化学习模型用于进行下层智能体与下层环境的交互过程,所述分层深度强化学习架构中的所有智能体均独立进行决策,所述下层智能体在预设时间段内获得的奖励总和返回至当前时间段对应的上层智能体;
模型构建模块,用于基于所述异构马尔可夫决策过程模型和所述分层深度强化学习架构构建联合优化决策模型;其中,所述联合优化决策模型包括上层子模型和下层子模型,所述上层子模型用于执行切片间资源分配过程,所述下层子模型用于执行切片内任务调度过程;
策略输出模块,用于将实时获取到的网络资源信息和业务请求数据输入至所述联合优化决策模型,得到所述联合优化决策模型输出的网络切片最优策略解。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述网络切片优化处理方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述网络切片优化处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111143979.4A CN113992524B (zh) | 2021-09-28 | 2021-09-28 | 网络切片优化处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111143979.4A CN113992524B (zh) | 2021-09-28 | 2021-09-28 | 网络切片优化处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113992524A CN113992524A (zh) | 2022-01-28 |
CN113992524B true CN113992524B (zh) | 2024-04-09 |
Family
ID=79737063
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111143979.4A Active CN113992524B (zh) | 2021-09-28 | 2021-09-28 | 网络切片优化处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113992524B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114666220A (zh) * | 2022-03-23 | 2022-06-24 | 中国电信股份有限公司 | 网络切片的资源配置方法及装置、存储介质、电子设备 |
CN114785693B (zh) * | 2022-06-24 | 2022-09-30 | 中国科学技术大学 | 基于分层强化学习的虚拟网络功能迁移方法及装置 |
CN115208892B (zh) * | 2022-07-19 | 2023-10-24 | 河海大学 | 基于动态资源需求的车路协同在线任务调度方法及系统 |
WO2024151189A1 (en) * | 2023-01-09 | 2024-07-18 | Telefonaktiebolaget Lm Ericsson (Publ) | Systems and methods for joint inter- and intra-slice orchestration using reinforcement learning |
CN118509823A (zh) * | 2024-07-19 | 2024-08-16 | 山东科技大学 | 基于策略梯度算法和博弈的分布式多维网络资源切片方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109120462A (zh) * | 2018-09-30 | 2019-01-01 | 南昌航空大学 | 机会网络链路的预测方法、装置及可读存储介质 |
CN111860649A (zh) * | 2020-07-21 | 2020-10-30 | 赵佳 | 基于多智能体强化学习的动作集合输出方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180082210A1 (en) * | 2016-09-18 | 2018-03-22 | Newvoicemedia, Ltd. | System and method for optimizing communications using reinforcement learning |
CN110580196B (zh) * | 2019-09-12 | 2021-04-06 | 北京邮电大学 | 一种实现并行任务调度的多任务强化学习方法 |
-
2021
- 2021-09-28 CN CN202111143979.4A patent/CN113992524B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109120462A (zh) * | 2018-09-30 | 2019-01-01 | 南昌航空大学 | 机会网络链路的预测方法、装置及可读存储介质 |
CN111860649A (zh) * | 2020-07-21 | 2020-10-30 | 赵佳 | 基于多智能体强化学习的动作集合输出方法及系统 |
Non-Patent Citations (2)
Title |
---|
Heterogeneous Markov Decision Process Model for Joint Resource Allocation and Task Scheduling in Network Slicing Enabled Internet of Vehicles;Wenjun Wu等;IEEE Wireless Communications Letters;全文 * |
融合MEC的星地协同网络:架构、关键技术与挑战;唐琴琴等;通信学报;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113992524A (zh) | 2022-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113992524B (zh) | 网络切片优化处理方法及系统 | |
Chen et al. | Deep reinforcement learning for computation offloading in mobile edge computing environment | |
Zhang et al. | A new task offloading algorithm in edge computing | |
CN113435472A (zh) | 车载算力网络用户需求预测方法、系统、设备、介质 | |
CN113692021B (zh) | 一种基于亲密度的5g网络切片智能资源分配方法 | |
CN109286664A (zh) | 一种基于拉格朗日的计算迁移终端能耗优化方法 | |
CN113098714A (zh) | 一种基于深度强化学习的低时延网络切片的方法 | |
Xu et al. | Joint task offloading and resource optimization in noma-based vehicular edge computing: A game-theoretic drl approach | |
Wu et al. | Toward native artificial intelligence in 6G networks: System design, architectures, and paradigms | |
Liu et al. | A policy gradient based offloading scheme with dependency guarantees for vehicular networks | |
Huang et al. | Enabling low latency edge intelligence based on multi-exit dnns in the wild | |
Ren et al. | Vehicular network edge intelligent management: A deep deterministic policy gradient approach for service offloading decision | |
Xie et al. | D2D computation offloading optimization for precedence-constrained tasks in information-centric IoT | |
Gao et al. | Com-DDPG: A multiagent reinforcement learning-based offloading strategy for mobile edge computing | |
Hu et al. | Dynamic task offloading in MEC-enabled IoT networks: A hybrid DDPG-D3QN approach | |
Wu et al. | Deep reinforcement learning-based video quality selection and radio bearer control for mobile edge computing supported short video applications | |
Tang et al. | Collaborative cloud-edge-end task offloading with task dependency based on deep reinforcement learning | |
Chen et al. | An intelligent task offloading algorithm (iTOA) for UAV network | |
Fu et al. | Distributed reinforcement learning-based memory allocation for edge-PLCs in industrial IoT | |
CN113014649B (zh) | 一种基于深度学习的云物联负载均衡方法、装置及设备 | |
Wang et al. | Resource allocation based on Radio Intelligence Controller for Open RAN towards 6G | |
Huang et al. | Learning-aided fine grained offloading for real-time applications in edge-cloud computing | |
Ren et al. | End-to-end network SLA quality assurance for C-RAN: a closed-loop management method based on digital twin network | |
Liu et al. | 5G/B5G Network Slice Management via Staged Reinforcement Learning | |
CN117369964A (zh) | 边缘计算系统的任务处理方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |