CN113708982B - 一种基于群体学习的服务功能链部署方法及系统 - Google Patents

一种基于群体学习的服务功能链部署方法及系统 Download PDF

Info

Publication number
CN113708982B
CN113708982B CN202111262798.3A CN202111262798A CN113708982B CN 113708982 B CN113708982 B CN 113708982B CN 202111262798 A CN202111262798 A CN 202111262798A CN 113708982 B CN113708982 B CN 113708982B
Authority
CN
China
Prior art keywords
sub
function
service function
model
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111262798.3A
Other languages
English (en)
Other versions
CN113708982A (zh
Inventor
黄浩军
雷洁翎
田佳霖
刘威
李昭熹
乔进业
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202111262798.3A priority Critical patent/CN113708982B/zh
Publication of CN113708982A publication Critical patent/CN113708982A/zh
Application granted granted Critical
Publication of CN113708982B publication Critical patent/CN113708982B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于群体学习的服务功能链部署方法及系统,属于通信领域,方法包括:将物理功能区域划分为多个子功能区域,将服务功能链划分为多个子服务功能链,子功能区域与子服务功能链一一对应;各子功能区域分别利用其本地数据集,对其局部部署模型进行深度强化学习训练;随机选择一子功能区域对训练后的局部部署模型进行基于群体学习的参数聚合,得到聚合模型,各子功能区域将其局部部署模型更新为聚合模型;重复执行深度强化学习训练、基于群体学习的参数聚合和更新操作,直至全局损失函数收敛,得到最终部署模型,并根据最终部署模型将各子服务功能链部署到对应的子功能区域。本发明能提高网络服务性能和网络安全性。

Description

一种基于群体学习的服务功能链部署方法及系统
技术领域
本发明属于通信领域,更具体地,涉及一种基于群体学习的服务功能链部署方法及系统。
背景技术
层出不穷的网络技术不断改变着人类的生活与工作方式,各种网络服务需要部署一系列专有硬件来实现,但网络设备部署固化,且需要定制化管理和维护,导致网络运营商资本支出与运营成本过高,服务增量不增收。网络功能虚拟化(Network FunctionsVirtualization,NFV)技术实现了传统网络功能与硬件解耦合,以软件形式将服务功能部署在在标准服务器上、交换机与存储等设备上,并可根据应用需求动态部署网络,而无需购置新的专用硬件设备,降低了网络服务成本。NFV将各种虚拟网络功能(VirtualizationNetwork Functions,VNF)按序组成服务功能链(Service Function Chain,SFC),以对外提供各种服务,增强了网络的灵活性与可扩展性。
联邦学习由于无需底层隐私数据交换便可进行模型更新与迭代,能够学习到全局近似最优化的策略,近年来被应用于指导网络服务功能链的部署。在整个服务功能链部署过程中,联邦学习需要一个中心服务器来进行节点之间的模型聚合与共享。每个节点模型的参数均由中心服务器进行协调与传递,导致整个模型聚合权力集中于中心服务器。此外,中心服务器易受外界因素影响而无法正常运行,导致各节点的模型训练、参数传递及模型更新等任务无法正常进行,智能体不能有效学习到优化的服务功能链部署模型。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种基于群体学习的服务功能链部署方法及系统,其目的在于解决现有服务功能链部署时,由于数据计算、参数更新等过程依赖中心化设备,导致权力较为集中、安全性得不到保证的问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于群体学习的服务功能链部署方法,包括:S1,将物理功能区域划分为多个子功能区域,将服务功能链划分为多个子服务功能链,所述子功能区域与所述子服务功能链一一对应,每一所述子功能区域中设置有用于部署对应子服务功能链的初始局部部署模型;S2,各所述子功能区域分别利用其本地数据集,对其局部部署模型进行深度强化学习训练;S3,随机选择一子功能区域对训练后的局部部署模型进行基于群体学习的参数聚合,得到聚合模型,各子功能区域将其局部部署模型更新为所述聚合模型;S4,重复执行所述S2-S3直至全局损失函数收敛,得到最终部署模型,并根据所述最终部署模型将各所述子服务功能链部署到对应的子功能区域。
更进一步地,所述S2中子功能区域
Figure 355716DEST_PATH_IMAGE001
中的深度强化学习训练包括:S21,设置深度强化学习算法的DQN模型参数,初始化经验回放池,随机初始化主网络,并将所述主网络的模型参数
Figure 876696DEST_PATH_IMAGE002
复制给目标网络;S22,初始化所述DQN模型参数中的状态集
Figure 281133DEST_PATH_IMAGE003
,令
Figure 802244DEST_PATH_IMAGE004
,得到当前状态
Figure 770069DEST_PATH_IMAGE005
及其特征向量
Figure 630708DEST_PATH_IMAGE006
;S23,确定所述DQN模型参数中的可选动作集
Figure 392997DEST_PATH_IMAGE007
,从所述可选动作集
Figure 994880DEST_PATH_IMAGE007
中选取动作
Figure 189232DEST_PATH_IMAGE008
,执行所述动作
Figure 560170DEST_PATH_IMAGE008
得到奖励值
Figure 493360DEST_PATH_IMAGE009
,到达下一状态
Figure 192326DEST_PATH_IMAGE010
,得到其特征向量
Figure 315002DEST_PATH_IMAGE011
;S24,将
Figure 461819DEST_PATH_IMAGE012
放入所述经验回放池,令
Figure 785484DEST_PATH_IMAGE013
Figure 830800DEST_PATH_IMAGE014
,重复执行所述S23-S24,直至存满所述经验回放池;S25,从所述经验回放池中随机抽取一组
Figure 881802DEST_PATH_IMAGE012
,用于计算主网络的Q值和目标Q网络的Q值,以计算损失函数,并更新主网络的模型参数
Figure 227333DEST_PATH_IMAGE002
;S26,重复执行所述S25,并每隔
Figure 253057DEST_PATH_IMAGE015
步将所述目标Q网络的模型参数
Figure 175883DEST_PATH_IMAGE016
更新为所述主网络的模型参数
Figure 640362DEST_PATH_IMAGE002
,直至达到预设迭代次数或局部损失函数收敛,
Figure 715766DEST_PATH_IMAGE015
为大于1的设定次数;所述S4中重复执行所述S22-S26以及S3直至全局损失函数收敛。
更进一步地,所述S25中目标Q网络的Q值为:
Figure 240288DEST_PATH_IMAGE017
Figure 447147DEST_PATH_IMAGE018
其中,
Figure 590684DEST_PATH_IMAGE019
Figure 379648DEST_PATH_IMAGE020
时刻子功能区域
Figure 465285DEST_PATH_IMAGE001
中目标Q网络的Q估计值,
Figure 910173DEST_PATH_IMAGE021
Figure 716455DEST_PATH_IMAGE022
时刻子功能区域
Figure 750138DEST_PATH_IMAGE001
中目标Q网络的Q计算值,
Figure 616463DEST_PATH_IMAGE023
为折扣因子,
Figure 548647DEST_PATH_IMAGE024
为第一加权参数,
Figure 17675DEST_PATH_IMAGE025
为第二加权参数,
Figure 46811DEST_PATH_IMAGE026
Figure 224982DEST_PATH_IMAGE027
分别为子功能区域
Figure 706779DEST_PATH_IMAGE001
中部署第
Figure 41814DEST_PATH_IMAGE028
个虚拟网络功能所需的总资源、部署成本,
Figure 800823DEST_PATH_IMAGE029
Figure 8950DEST_PATH_IMAGE022
时刻子功能区域
Figure 102677DEST_PATH_IMAGE001
的动作,
Figure 54453DEST_PATH_IMAGE016
为子功能区域
Figure 730285DEST_PATH_IMAGE001
中目标Q网络的权重。
更进一步地,所述S25中主网络的模型参数
Figure 499526DEST_PATH_IMAGE002
更新为:
Figure 690336DEST_PATH_IMAGE030
Figure 321169DEST_PATH_IMAGE031
所述局部损失函数为:
Figure 835196DEST_PATH_IMAGE032
其中,
Figure 650705DEST_PATH_IMAGE002
为子功能区域
Figure 204177DEST_PATH_IMAGE001
中主网络的权重,
Figure 763335DEST_PATH_IMAGE033
为子功能区域
Figure 397447DEST_PATH_IMAGE001
中经过一轮训练后主网络的权重变化量,
Figure 993645DEST_PATH_IMAGE034
为超参数学习率,
Figure 159047DEST_PATH_IMAGE036
Figure 380949DEST_PATH_IMAGE020
时刻子功能区域
Figure 885880DEST_PATH_IMAGE001
中目标Q网络的Q估计值,
Figure 512034DEST_PATH_IMAGE016
为子功能区域
Figure 554945DEST_PATH_IMAGE001
中目标Q网络的权重,
Figure 455905DEST_PATH_IMAGE038
Figure 549763DEST_PATH_IMAGE020
时刻子功能区域
Figure 2610DEST_PATH_IMAGE001
中主网络的Q估计值,
Figure 877025DEST_PATH_IMAGE039
为求导运算,
Figure 253779DEST_PATH_IMAGE040
为子功能区域
Figure 920253DEST_PATH_IMAGE001
的局部损失函数。
更进一步地,所述S3中参数聚合包括:随机选择一子功能区域作为优化领导者,其他各所述子功能区域通过对等网络将其训练后的局部部署模型传输至所述优化领导者,所述优化领导者进行基于群体学习的参数聚合,得到聚合模型:
Figure 153788DEST_PATH_IMAGE041
其中,
Figure 453183DEST_PATH_IMAGE042
为所述聚合模型的模型参数,
Figure 820579DEST_PATH_IMAGE043
为子服务功能链
Figure 951346DEST_PATH_IMAGE001
的长度,
Figure 496728DEST_PATH_IMAGE044
Figure 532686DEST_PATH_IMAGE045
为所述子服务功能链的总数量,
Figure 313560DEST_PATH_IMAGE046
为所述服务功能链的总长度,
Figure 439779DEST_PATH_IMAGE047
为子服务功能链
Figure 280696DEST_PATH_IMAGE001
对应局部部署模型的模型参数,
Figure 139888DEST_PATH_IMAGE048
为网络权重参数。
更进一步地,所述全局损失函数为:
Figure 599819DEST_PATH_IMAGE049
其中,
Figure 705178DEST_PATH_IMAGE050
为所述全局损失函数,
Figure 638368DEST_PATH_IMAGE043
为子服务功能链
Figure 71755DEST_PATH_IMAGE001
的长度,
Figure 460011DEST_PATH_IMAGE044
Figure 606827DEST_PATH_IMAGE045
为所述子服务功能链的总数量,
Figure 664913DEST_PATH_IMAGE046
为所述服务功能链的总长度,
Figure 975808DEST_PATH_IMAGE051
为子服务功能链
Figure 26810DEST_PATH_IMAGE001
对应局部部署模型的损失函数。
更进一步地,所述S1中将服务功能链划分为多个子服务功能链包括:根据各所述子功能区域的资源在剩余总资源中的占比,将所述服务功能链划分为多个具有相应长度占比的子服务功能链:
Figure 778865DEST_PATH_IMAGE052
Figure 398065DEST_PATH_IMAGE053
其中,
Figure 55312DEST_PATH_IMAGE043
为子服务功能链
Figure 785370DEST_PATH_IMAGE001
的长度,
Figure 595195DEST_PATH_IMAGE044
Figure 385296DEST_PATH_IMAGE045
为所述子服务功能链的总数量,
Figure 326576DEST_PATH_IMAGE046
为所述服务功能链的总长度,
Figure 470113DEST_PATH_IMAGE054
为子功能区域
Figure 524656DEST_PATH_IMAGE001
所含资源在剩余总资源中的占比,
Figure 407030DEST_PATH_IMAGE055
为子功能区域
Figure 789601DEST_PATH_IMAGE001
所含资源。
更进一步地,所述子功能区域所含资源包括带宽资源、计算资源和缓存资源。
按照本发明的另一个方面,提供了一种基于群体学习的服务功能链部署系统,包括:划分模块,用于将物理功能区域划分为多个子功能区域,将服务功能链划分为多个子服务功能链,所述子功能区域与所述子服务功能链一一对应,每一所述子功能区域中设置有用于部署对应子服务功能链的初始局部部署模型;深度强化学习训练模块,用于使各所述子功能区域分别利用其本地数据集,对其局部部署模型进行深度强化学习训练;群体学习聚合模块,用于随机选择一子功能区域对训练后的局部部署模型进行基于群体学习的参数聚合,得到聚合模型,各所述子功能区域将其局部部署模型更新为所述聚合模型;部署模块,用于重复执行所述深度强化学习训练模块和群体学习聚合模块,直至全局损失函数收敛,得到最终部署模型,并根据所述最终部署模型将各所述子服务功能链部署到对应的子功能区域。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:将服务功能链按比例划分给各子功能区域进行智能化部署,利用群体学习和深度强化学习得到最佳部署模型,通过多区域分布式迭代学习实现服务功能链的最优部署,无需中心化设备,解决了现有服务功能链部署时依赖中心化设备导致权力较为集中、安全性得不到保证的问题;各功能区域的网络特性数据保存在本地,区域与区域之间无需交换原始数据,减少了不必要的数据流量交换,同时提高了网络安全性。
附图说明
图1为本发明实施例提供的基于群体学习的服务功能链部署方法的流程图。
图2为本发明实施例提供的服务功能链分区对应部署的映射模型图。
图3为本发明实施例提供的基于群体学习的参数聚合和更新流程图。
图4为本发明实施例提供的基于群体学习的服务功能链部署系统的框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
图1为本发明实施例提供的基于群体学习的服务功能链部署方法的流程图。参阅图1,结合图2-图3,对本实施例中基于群体学习的服务功能链部署方法进行详细说明,方法包括操作S1-操作S4。
参阅图2,当用户发出服务请求时,服务提供商将生成由
Figure 595883DEST_PATH_IMAGE056
个VNF组成的端到端服务功能链。基础设施层中的服务器提供多种类型的网络资源,包括计算资源、缓存资源和带宽资源等。根据网络规模、节点密度、潜在客户的位置和服务功能链SFC的需求将整个资源池划分为
Figure 895147DEST_PATH_IMAGE057
个子功能区域,
Figure 761471DEST_PATH_IMAGE058
;按照每个子功能区域所含资源在剩余总资源中的占比将服务功能链也分为
Figure 693655DEST_PATH_IMAGE059
部分。根据不同VNF的需求,虚拟化层将VNF映射到对应子功能区域中的不同服务器上。本实施例中,各子功能区域间合作部署整个服务功能链,有效利用了各子功能区域的资源,提高了服务功能链总服务性能。
操作S1,将物理功能区域划分为多个子功能区域,将服务功能链划分为多个子服务功能链,子功能区域与子服务功能链一一对应,每一子功能区域中设置有用于部署对应子服务功能链的初始局部部署模型。
具体地,根据网络规模、节点密度、潜在客户的位置和SFC需求将物理功能区域划分为
Figure 428262DEST_PATH_IMAGE057
个子功能区域。子功能区域物理网络表示为
Figure 191819DEST_PATH_IMAGE060
Figure 901149DEST_PATH_IMAGE061
为网络中所含节点集合,
Figure 773159DEST_PATH_IMAGE062
为网络中链接集合,
Figure 921243DEST_PATH_IMAGE063
Figure 680252DEST_PATH_IMAGE064
分别表示两个节点,
Figure 75330DEST_PATH_IMAGE066
表示连接节点
Figure 778844DEST_PATH_IMAGE063
和节点
Figure 605985DEST_PATH_IMAGE064
的物理链路。
定义每个子功能区域所含资源量分别为
Figure 531085DEST_PATH_IMAGE067
Figure 910114DEST_PATH_IMAGE068
Figure 976290DEST_PATH_IMAGE069
、…、
Figure 731756DEST_PATH_IMAGE070
。子功能区域
Figure 511362DEST_PATH_IMAGE071
所含的总资源
Figure 202238DEST_PATH_IMAGE072
包含虚拟带宽资源
Figure 880344DEST_PATH_IMAGE073
、虚拟计算资源
Figure 298556DEST_PATH_IMAGE074
和虚拟缓存资源
Figure 683401DEST_PATH_IMAGE075
Figure 404232DEST_PATH_IMAGE076
对于子功能区域
Figure 756585DEST_PATH_IMAGE071
而言,其占剩余总资源的比例
Figure 729220DEST_PATH_IMAGE077
为:
Figure 30888DEST_PATH_IMAGE078
根据本发明的实施例,操作S1中根据各子功能区域的资源在剩余总资源中的占比,将服务功能链划分为多个具有相应长度占比的子服务功能链,每部分长度分别为
Figure 109572DEST_PATH_IMAGE079
Figure 903215DEST_PATH_IMAGE080
Figure 273017DEST_PATH_IMAGE081
、…、
Figure 616142DEST_PATH_IMAGE082
。考虑到服务功能链长度应为整数,所以对结果进行向下取整:
Figure 819722DEST_PATH_IMAGE083
其中,
Figure 881087DEST_PATH_IMAGE084
为子服务功能链
Figure 585738DEST_PATH_IMAGE085
的长度,
Figure 737365DEST_PATH_IMAGE086
Figure 157851DEST_PATH_IMAGE087
为子服务功能链的总数量,
Figure 785141DEST_PATH_IMAGE088
为服务功能链的总长度。对于服务功能链和子服务功能链而言,其长度为其包含的VNF的总数,一个VNF的长度为1,含有
Figure 372112DEST_PATH_IMAGE088
个VNF的服务功能链总长度为
Figure 34037DEST_PATH_IMAGE088
需要说明的是,本实施例中提供了一种优选的按资源占比对子服务功能链的长度进行分配的方式,这种划分方式可以保证取整后各子服务功能链的长度总和等于
Figure 625424DEST_PATH_IMAGE089
;对于其他按资源占比对子服务功能链的长度进行分配的实现方式,只要能够保证分配后各子服务功能链的长度总和等于
Figure 615377DEST_PATH_IMAGE088
,也适用于本发明实施例。
操作S2,各子功能区域分别利用其本地数据集,对其局部部署模型进行深度强化学习训练。
以子功能区域
Figure 130672DEST_PATH_IMAGE085
为例说明各子功能区域中进行的深度强化学习训练,其他子功能区域中的训练过程相同,此处不再赘述。根据本发明的实施例,操作S2包括子操作S21-子操作S26。
在子操作S21中,设置深度强化学习算法的DQN模型参数,初始化经验回放池,随机初始化主网络,并将主网络的模型参数
Figure 568475DEST_PATH_IMAGE090
复制给目标网络。
对于子功能区域
Figure 284759DEST_PATH_IMAGE085
,定义
Figure 621062DEST_PATH_IMAGE091
时刻状态为集合
Figure 126999DEST_PATH_IMAGE092
Figure 373303DEST_PATH_IMAGE093
表示已映射的VNF的状态集合,其特征向量为
Figure 119542DEST_PATH_IMAGE094
。定义特征向量
Figure 67776DEST_PATH_IMAGE095
Figure 128136DEST_PATH_IMAGE096
表示部署第
Figure 88001DEST_PATH_IMAGE097
个VNF时子功能区域
Figure 395355DEST_PATH_IMAGE085
剩余的带宽资源,
Figure 643934DEST_PATH_IMAGE098
表示部署第
Figure 570301DEST_PATH_IMAGE097
个VNF时子功能区域
Figure 509307DEST_PATH_IMAGE085
剩余的计算资源,
Figure 128507DEST_PATH_IMAGE099
表示部署第
Figure 802065DEST_PATH_IMAGE097
个VNF时子功能区域
Figure 187916DEST_PATH_IMAGE085
剩余的缓存资源。定义
Figure 387953DEST_PATH_IMAGE100
时刻动作集为
Figure 787842DEST_PATH_IMAGE101
,其中
Figure 807751DEST_PATH_IMAGE102
为VNF到物理网络节点的映射动作,
Figure 466134DEST_PATH_IMAGE103
为资源分配动作。
假设在子功能区域
Figure 192781DEST_PATH_IMAGE085
中部署第
Figure 888205DEST_PATH_IMAGE097
个虚拟网络功能所需总资源和总成本分别为
Figure 520043DEST_PATH_IMAGE104
Figure 591905DEST_PATH_IMAGE105
,则
Figure 173059DEST_PATH_IMAGE091
时刻奖励计算如下:
Figure 429597DEST_PATH_IMAGE106
其中,
Figure 424097DEST_PATH_IMAGE107
为第一加权参数,
Figure 909436DEST_PATH_IMAGE108
为第二加权参数,
Figure 938572DEST_PATH_IMAGE109
初始化经验回放池的容量
Figure 897170DEST_PATH_IMAGE110
,利用随机权值初始化Q网络。Q值计算公式与Q-learning算法类似,但Q-learning的目标计算值和预测值是同一个Q,会产生目标Q随着神经网络的更新而更新的问题,容易导致训练参数不收敛。本实施例中,利用DQN算法计算Q值,DQN在Q-learning基础上引入一个和原有主网络结构相同的目标Q网络,二者的权重初始化相同,即令
Figure 519912DEST_PATH_IMAGE111
,表示主网络的权重,
Figure 933576DEST_PATH_IMAGE112
表示目标Q网络的权重。主网络和目标Q网络的区别在于主网络每次迭代会更新,目标Q网络每隔一段时间才会更新,在一定程度上降低了数据波动对模型参数的影响。
在子操作S22中,初始化所述DQN模型参数中的状态集
Figure 676273DEST_PATH_IMAGE113
,令
Figure 884400DEST_PATH_IMAGE114
,得到当前状态
Figure 525597DEST_PATH_IMAGE115
及其特征向量
Figure 867586DEST_PATH_IMAGE116
在子操作S23中,确定所述DQN模型参数中的可选动作集
Figure 605735DEST_PATH_IMAGE117
,从所述可选动作集
Figure 860130DEST_PATH_IMAGE117
中选取动作
Figure 316519DEST_PATH_IMAGE118
,执行所述动作
Figure 16794DEST_PATH_IMAGE119
得到奖励值
Figure 484816DEST_PATH_IMAGE120
,到达下一状态
Figure 300325DEST_PATH_IMAGE121
,得到其特征向量
Figure 103065DEST_PATH_IMAGE122
具体地,确定可选动作集
Figure 334326DEST_PATH_IMAGE117
,使用贪婪策略以
Figure 47067DEST_PATH_IMAGE123
的概率随机选择一个动作
Figure 892532DEST_PATH_IMAGE118
,以
Figure 323514DEST_PATH_IMAGE124
概率将
Figure 92886DEST_PATH_IMAGE116
输入主网络,选择具有最大Q值的动作
Figure DEST_PATH_IMAGE126A
Figure 456872DEST_PATH_IMAGE127
为贪婪策略常用参数,可自定义。
在子操作S24中,将
Figure 535555DEST_PATH_IMAGE128
放入经验回放池,令
Figure 188253DEST_PATH_IMAGE129
Figure 699000DEST_PATH_IMAGE130
,重复执行子操作S23-子操作S24,直至存满经验回放池。
在子操作S25中,从经验回放池中随机抽取一组
Figure 386333DEST_PATH_IMAGE131
,用于计算主网络Q值和目标Q网络Q值,以计算损失函数,并更新主网络的模型参数
Figure 839180DEST_PATH_IMAGE090
经验回放池通过混合过去和现在的经验信息,训练时通过随机抽取一定容量的样本数据避免了数据间的相关性。当经验回放池中已有足够数量的向量后,可从经验回放池中随机抽取一批向量。
以其中一组向量
Figure 651279DEST_PATH_IMAGE128
为例,
Figure 90350DEST_PATH_IMAGE132
Figure 491244DEST_PATH_IMAGE119
用于求解主神经网络的Q估计值
Figure 990359DEST_PATH_IMAGE133
Figure 289753DEST_PATH_IMAGE134
表示主神经网络的权重。将
Figure 657150DEST_PATH_IMAGE135
输入目标Q网络,再加上
Figure 53496DEST_PATH_IMAGE120
得到目标Q网络的计算值:
Figure 598878DEST_PATH_IMAGE137
其中,
Figure 447885DEST_PATH_IMAGE138
Figure 415710DEST_PATH_IMAGE091
时刻子功能区域
Figure 541929DEST_PATH_IMAGE085
中目标Q网络的Q估计值,
Figure 382846DEST_PATH_IMAGE140
Figure 843783DEST_PATH_IMAGE141
时刻子功能区域
Figure 100452DEST_PATH_IMAGE085
中目标Q网络的Q计算值,
Figure 471391DEST_PATH_IMAGE142
为折扣因子,
Figure 342264DEST_PATH_IMAGE143
Figure 431442DEST_PATH_IMAGE144
时刻子功能区域
Figure 226223DEST_PATH_IMAGE085
的动作,
Figure 841881DEST_PATH_IMAGE145
为子功能区域
Figure 24601DEST_PATH_IMAGE085
中目标Q网络的权重。
计算局部损失函数:
Figure 210862DEST_PATH_IMAGE146
其中,
Figure 137230DEST_PATH_IMAGE147
Figure 341815DEST_PATH_IMAGE091
时刻子功能区域
Figure 695436DEST_PATH_IMAGE085
中主网络的Q估计值,
Figure 368994DEST_PATH_IMAGE148
为求导运算,
Figure 20424DEST_PATH_IMAGE149
为子功能区域
Figure 220462DEST_PATH_IMAGE085
的局部损失函数。
使用梯度下降法更新模型参数
Figure 620350DEST_PATH_IMAGE134
Figure 640259DEST_PATH_IMAGE150
Figure 298642DEST_PATH_IMAGE151
其中,
Figure 353186DEST_PATH_IMAGE134
为子功能区域
Figure 720713DEST_PATH_IMAGE085
中主网络的权重,
Figure 352552DEST_PATH_IMAGE152
为子功能区域
Figure 424413DEST_PATH_IMAGE153
中经过一轮训练后主网络的权重变化量,
Figure 208829DEST_PATH_IMAGE154
为超参数学习率,
Figure 340733DEST_PATH_IMAGE155
通常取10-3或10-4数量级,
Figure 256605DEST_PATH_IMAGE154
过高通常会导致收敛效果不佳。
在子操作S26中,重复执行所述S25,并每隔
Figure 7524DEST_PATH_IMAGE156
步将目标Q网络的模型参数
Figure 771080DEST_PATH_IMAGE112
更新为主网络模型参数
Figure 932940DEST_PATH_IMAGE134
,直至达到预设迭代次数或局部损失函数收敛,
Figure 414737DEST_PATH_IMAGE156
为大于1的设定次数。
通过主网络得到子功能区域
Figure 703767DEST_PATH_IMAGE085
对应的子服务功能链中每个虚拟网络功能的最优部署策略。上述深度强化学习过程将在
Figure 587410DEST_PATH_IMAGE157
个子功能区域同时进行,每个子功能区域将学习到一个局部的部署模型。
操作S3,随机选择一子功能区域对训练后的局部部署模型进行基于群体学习的参数聚合,得到聚合模型,各子功能区域将其局部部署模型更新为聚合模型。
在每一轮迭代学习过程中,各个子功能区域所学习到的局部部署模型,需要与其他子功能区域进行模型参数聚合。为了提高模型的精确性,同时保护网络数据隐私安全,本实施例中引入群体学习的分布式策略来对模型进行聚合。相比于传统联邦学习,群体学习取消了中心服务器,分配给各个功能区域相等的权利。群体学习在各个子功能区域进行模型训练,所有子功能区域之间通过基于区块链的对等网络进行通信。一旦各个区域完成一轮模型训练,将各自所学习到的模型发送给从各子功能区域中随机选择的领导者来进行模型聚合。
参阅图3,操作S3中参数聚合包括:从子功能区域中随机选取一优化领导者(例如图3中的子功能区域2),各子功能区域通过对等网络将其训练后的局部部署模型传输至优化领导者,优化领导者进行基于群体学习的参数聚合,得到聚合模型:
Figure 982488DEST_PATH_IMAGE158
其中,
Figure 826947DEST_PATH_IMAGE159
为聚合模型的模型参数,
Figure 778723DEST_PATH_IMAGE160
为子服务功能链
Figure 641505DEST_PATH_IMAGE153
对应局部部署模型的模型参数,
Figure 286113DEST_PATH_IMAGE161
为网络权重参数。
优化领导者完成参数聚合后,再通过基于区块链的对等网络将聚合模型传递给其他各子功能区域,各子功能区域将其局部部署模型更新为该聚合模型。
操作S4,重复执行S2-S3直至全局损失函数收敛,得到最终部署模型,并根据最终部署模型将各子服务功能链部署到对应的子功能区域。
重复上述操作S2-操作S3,直到所有子功能区域模型中损失函数满足预先设定的范围,即每个功能区域模型均收敛,则停止训练并进行服务功能链部署。全局损失函数为:
Figure DEST_PATH_IMAGE162
其中,
Figure 149027DEST_PATH_IMAGE163
为全局损失函数,
Figure DEST_PATH_IMAGE164
为子服务功能链
Figure 232389DEST_PATH_IMAGE153
对应局部部署模型的损失函数。
上述操作中各子功能区域会根据每轮次选出的优化领导者将所有子功能区域模型参数进行聚合优化后的模型参数进行训练,即从第二轮次迭代开始每轮次开始时各子功能区域模型参数将保持一致。第一次需根据各子功能区域资源情况对各节点参数进行各自初始化,从第二轮次迭代开始直至训练停止,每轮可得到
Figure 90624DEST_PATH_IMAGE157
个子功能区域目的节点与源节点之间数据包、流量的最优转发顺序。将第一个子功能区域的目的节点连接第二个子功能区域的源节点,第二个子功能区域的目的节点连接第三个子功能区域的源节点,直到第
Figure 499609DEST_PATH_IMAGE165
个子功能区域的目的节点连接第
Figure DEST_PATH_IMAGE166
个子功能区域的源节点,完成子功能区域之间的连接,再根据基于深度强化学习的局部部署模型得到每个子功能区域到底层物理网络的映射关系,即完成了对服务功能链的部署。
图4为本发明实施例提供的基于群体学习的服务功能链部署系统的框图。参阅图4,该基于群体学习的服务功能链部署系统400包括划分模块410、深度强化学习训练模块420、群体学习聚合模块430以及部署模块440。
划分模块410例如执行操作S1,用于将物理功能区域划分为多个子功能区域,将服务功能链划分为多个子服务功能链,子功能区域与子服务功能链一一对应,每一子功能区域中设置有用于部署对应子服务功能链的初始局部部署模型。
深度强化学习训练模块420例如执行操作S2,用于使各子功能区域分别利用其本地数据集,对其局部部署模型进行深度强化学习训练。
群体学习聚合模块430例如执行操作S3,用于随机选择一子功能区域对训练后的局部部署模型进行基于群体学习的参数聚合,得到聚合模型,各子功能区域将其局部部署模型更新为聚合模型。
部署模块440例如执行操作S4,用于重复执行深度强化学习训练模块420和群体学习聚合模块430,直至全局损失函数收敛,得到最终部署模型,并根据最终部署模型将各子服务功能链部署到对应的子功能区域。
基于群体学习的服务功能链部署系统400用于执行上述图1-图3所示实施例中的基于群体学习的服务功能链部署方法。本实施例未尽之细节,请参阅前述图1-图3所示实施例中的基于群体学习的服务功能链部署方法,此处不再赘述。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于群体学习的服务功能链部署方法,其特征在于,包括:
S1,将物理功能区域划分为多个子功能区域,将服务功能链划分为多个子服务功能链,所述子功能区域与所述子服务功能链一一对应,每一所述子功能区域中设置有用于部署对应子服务功能链的初始局部部署模型;
S2,各所述子功能区域分别利用其本地数据集,对其局部部署模型进行深度强化学习训练;
S3,随机选择一子功能区域对训练后的局部部署模型进行基于群体学习的参数聚合,得到聚合模型,各所述子功能区域将其局部部署模型更新为所述聚合模型;
S4,重复执行所述S2-S3直至全局损失函数收敛,得到最终部署模型,并根据所述最终部署模型将各所述子服务功能链部署到对应的子功能区域;
所述S3中参数聚合包括:随机选择一子功能区域作为优化领导者,其他各所述子功能区域通过对等网络将其训练后的局部部署模型传输至所述优化领导者,所述优化领导者进行基于群体学习的参数聚合,得到聚合模型:
Figure FDA0003401587700000011
其中,
Figure FDA0003401587700000012
为所述聚合模型的模型参数,Si为子服务功能链i的长度,i=1,2,…,k,k为所述子服务功能链的总数量,S为所述服务功能链的总长度,fi(ω)为子服务功能链i对应局部部署模型的模型参数,ω为网络权重参数。
2.如权利要求1所述的基于群体学习的服务功能链部署方法,其特征在于,所述S2中子功能区域i中的深度强化学习训练包括:
S21,设置深度强化学习算法的DQN模型参数,初始化经验回放池,随机初始化主网络,并将所述主网络的模型参数ωi复制给目标网络;
S22,初始化所述DQN模型参数中的状态集
Figure FDA0003401587700000021
令t=1,得到当前状态
Figure FDA0003401587700000022
及其特征向量
Figure FDA0003401587700000023
S23,确定所述DQN模型参数中的可选动作集
Figure FDA0003401587700000024
从所述可选动作集
Figure FDA0003401587700000025
中选取动作
Figure FDA0003401587700000026
执行所述动作
Figure FDA0003401587700000027
得到奖励值
Figure FDA0003401587700000028
到达下一状态
Figure FDA0003401587700000029
得到其特征向量
Figure FDA00034015877000000210
S24,将
Figure FDA00034015877000000211
放入所述经验回放池,令
Figure FDA00034015877000000212
Figure FDA00034015877000000213
重复执行所述S23-S24,直至存满所述经验回放池;
S25,从所述经验回放池中随机抽取一组
Figure FDA00034015877000000214
用于计算主网络的Q值和目标Q网络的Q值,以计算损失函数,并更新主网络的模型参数ωi
S26,重复执行所述S25,并每隔C步将所述目标Q网络的模型参数
Figure FDA00034015877000000222
更新为所述主网络的模型参数ωi,直至达到预设迭代次数或局部损失函数收敛,C为大于1的设定次数;
所述S4中重复执行所述S22-S26以及S3直至全局损失函数收敛。
3.如权利要求2所述的基于群体学习的服务功能链部署方法,其特征在于,所述S25中目标Q网络的Q值为:
Figure FDA00034015877000000215
Figure FDA00034015877000000216
其中,
Figure FDA00034015877000000217
为t时刻子功能区域i中目标Q网络的Q估计值,
Figure FDA00034015877000000218
为t+1时刻子功能区域i中目标Q网络的Q计算值,γ为折扣因子,η1为第一加权参数,η2为第二加权参数,
Figure FDA00034015877000000219
分别为子功能区域i中部署第j个虚拟网络功能所需的总资源、部署成本,
Figure FDA00034015877000000220
为t+1时刻子功能区域i的动作,
Figure FDA00034015877000000221
为子功能区域i中目标Q网络的权重。
4.如权利要求2或3所述的基于群体学习的服务功能链部署方法,其特征在于,所述S25中主网络的模型参数ωi更新为:
ωi←ωi+Δωi
Figure FDA0003401587700000031
所述局部损失函数为:
Figure FDA0003401587700000032
其中,ωi为子功能区域i中主网络的权重,Δωi为子功能区域i中经过一轮训练后主网络的权重变化量,α为超参数学习率,
Figure FDA0003401587700000033
为t时刻子功能区域i中目标Q网络的Q估计值,
Figure FDA0003401587700000039
为子功能区域i中目标Q网络的权重,
Figure FDA0003401587700000034
为t时刻子功能区域i中主网络的Q估计值,
Figure FDA0003401587700000035
为求导运算,Lossi为子功能区域i的局部损失函数。
5.如权利要求1所述的基于群体学习的服务功能链部署方法,其特征在于,所述全局损失函数为:
Figure FDA0003401587700000036
其中,
Figure FDA0003401587700000037
为所述全局损失函数,Si为子服务功能链i的长度,i=1,2,…,k,k为所述子服务功能链的总数量,S为所述服务功能链的总长度,Lossi为子服务功能链i对应局部部署模型的损失函数。
6.如权利要求1所述的基于群体学习的服务功能链部署方法,其特征在于,所述S1中将服务功能链划分为多个子服务功能链包括:根据各所述子功能区域的资源在剩余总资源中的占比,将所述服务功能链划分为多个具有相应长度占比的子服务功能链:
Figure FDA00034015877000000310
Figure FDA0003401587700000038
其中,Si为子服务功能链i的长度,i=1,2,…,k,k为所述子服务功能链的总数量,S为所述服务功能链的总长度,εi为子功能区域i所含资源在剩余总资源中的占比,Ri为子功能区域i所含资源。
7.如权利要求6所述的基于群体学习的服务功能链部署方法,其特征在于,所述子功能区域所含资源包括带宽资源、计算资源和缓存资源。
8.一种基于群体学习的服务功能链部署系统,其特征在于,包括:
划分模块,用于将物理功能区域划分为多个子功能区域,将服务功能链划分为多个子服务功能链,所述子功能区域与所述子服务功能链一一对应,每一所述子功能区域中设置有用于部署对应子服务功能链的初始局部部署模型;
深度强化学习训练模块,用于使各所述子功能区域分别利用其本地数据集,对其局部部署模型进行深度强化学习训练;
群体学习聚合模块,用于随机选择一子功能区域对训练后的局部部署模型进行基于群体学习的参数聚合,得到聚合模型,各所述子功能区域将其局部部署模型更新为所述聚合模型;
部署模块,用于重复执行所述深度强化学习训练模块和群体学习聚合模块,直至全局损失函数收敛,得到最终部署模型,并根据所述最终部署模型将各所述子服务功能链部署到对应的子功能区域;
所述群体学习聚合模块中参数聚合包括:随机选择一子功能区域作为优化领导者,其他各所述子功能区域通过对等网络将其训练后的局部部署模型传输至所述优化领导者,所述优化领导者进行基于群体学习的参数聚合,得到聚合模型:
Figure FDA0003401587700000041
其中,
Figure FDA0003401587700000042
为所述聚合模型的模型参数,Si为子服务功能链i的长度,i=1,2,…,k,k为所述子服务功能链的总数量,S为所述服务功能链的总长度,fi(ω)为子服务功能链i对应局部部署模型的模型参数,ω为网络权重参数。
CN202111262798.3A 2021-10-28 2021-10-28 一种基于群体学习的服务功能链部署方法及系统 Active CN113708982B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111262798.3A CN113708982B (zh) 2021-10-28 2021-10-28 一种基于群体学习的服务功能链部署方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111262798.3A CN113708982B (zh) 2021-10-28 2021-10-28 一种基于群体学习的服务功能链部署方法及系统

Publications (2)

Publication Number Publication Date
CN113708982A CN113708982A (zh) 2021-11-26
CN113708982B true CN113708982B (zh) 2022-01-18

Family

ID=78647395

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111262798.3A Active CN113708982B (zh) 2021-10-28 2021-10-28 一种基于群体学习的服务功能链部署方法及系统

Country Status (1)

Country Link
CN (1) CN113708982B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114726743A (zh) * 2022-03-04 2022-07-08 重庆邮电大学 一种基于联邦强化学习的服务功能链部署方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112887145A (zh) * 2021-01-27 2021-06-01 重庆邮电大学 一种基于分布式的网络切片故障检测方法
WO2021152329A1 (en) * 2020-01-30 2021-08-05 Vision Semantics Limited De-centralised learning for re-identification
CN113271221A (zh) * 2021-04-28 2021-08-17 北京邮电大学 网络能力开放方法、系统及电子设备

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10541880B2 (en) * 2017-12-12 2020-01-21 Nokia Technologies Oy Control of data reporting for a data analytics service using an active learning framework
WO2021179196A1 (zh) * 2020-03-11 2021-09-16 Oppo广东移动通信有限公司 一种基于联邦学习的模型训练方法、电子设备及存储介质
CN112087329B (zh) * 2020-08-27 2022-06-07 重庆大学 一种网络服务功能链部署方法
CN112800461B (zh) * 2021-01-28 2023-06-27 深圳供电局有限公司 一种基于联邦学习框架的电力计量系统网络入侵检测方法
CN113095513A (zh) * 2021-04-25 2021-07-09 中山大学 双层公平联邦学习方法、装置和存储介质
CN113163366B (zh) * 2021-04-25 2022-04-15 武汉理工大学 车联网中基于联邦学习的隐私保护模型聚合系统及方法
CN113379066B (zh) * 2021-06-10 2022-07-08 重庆邮电大学 一种基于雾计算的联邦学习方法
CN113379039B (zh) * 2021-07-02 2022-05-17 支付宝(杭州)信息技术有限公司 一种模型训练的方法、系统及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021152329A1 (en) * 2020-01-30 2021-08-05 Vision Semantics Limited De-centralised learning for re-identification
CN112887145A (zh) * 2021-01-27 2021-06-01 重庆邮电大学 一种基于分布式的网络切片故障检测方法
CN113271221A (zh) * 2021-04-28 2021-08-17 北京邮电大学 网络能力开放方法、系统及电子设备

Also Published As

Publication number Publication date
CN113708982A (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
Yao et al. A novel reinforcement learning algorithm for virtual network embedding
CN111756812B (zh) 一种能耗感知的边云协同动态卸载调度方法
CN109981438B (zh) 一种面向sdn和nfv协同部署框架的卫星网络负载均衡方法
CN108566659B (zh) 一种基于可靠性的5g网络切片在线映射方法
CN110460465B (zh) 面向移动边缘计算的服务功能链部署方法
CN111416774B (zh) 网络拥塞控制方法、装置、计算机设备及存储介质
CN111400001A (zh) 一种面向边缘计算环境的在线计算任务卸载调度方法
CN114050961B (zh) 一种大规模网络仿真系统及资源动态调度分配方法
Guan et al. An intelligent wireless channel allocation in HAPS 5G communication system based on reinforcement learning
CN113346938A (zh) 一种面向空天地一体化网络的边缘计算资源融合管理方法
Zhu et al. Load-balanced virtual network embedding based on deep reinforcement learning for 6G regional satellite networks
Guo et al. Service coordination in the space-air-ground integrated network
CN117041330B (zh) 一种基于强化学习的边缘微服务细粒度部署方法及系统
CN116541106B (zh) 计算任务卸载方法、计算设备及存储介质
CN112073237B (zh) 一种云边架构中大规模目标网络构建方法
CN110247795A (zh) 一种基于意图的云网资源服务链编排方法及系统
CN113708982B (zh) 一种基于群体学习的服务功能链部署方法及系统
Bouzidi et al. Dynamic clustering of software defined network switches and controller placement using deep reinforcement learning
CN111585811A (zh) 一种基于多智能体深度强化学习的虚拟光网络映射方法
CN116893861A (zh) 基于空地协同边缘计算的多智能体协作依赖任务卸载方法
CN111539534A (zh) 一种基于强化学习的通用分布式图处理方法及系统
Ebrahim et al. Privacy-aware load balancing in fog networks: A reinforcement learning approach
Mobasheri et al. Toward developing fog decision making on the transmission rate of various IoT devices based on reinforcement learning
CN116684291A (zh) 一种适用通用化平台的服务功能链映射资源智能分配方法
CN115225512B (zh) 基于节点负载预测的多域服务链主动重构机制

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant