CN114866494B - 强化学习智能体训练方法、模态带宽资源调度方法及装置 - Google Patents

强化学习智能体训练方法、模态带宽资源调度方法及装置 Download PDF

Info

Publication number
CN114866494B
CN114866494B CN202210782477.4A CN202210782477A CN114866494B CN 114866494 B CN114866494 B CN 114866494B CN 202210782477 A CN202210782477 A CN 202210782477A CN 114866494 B CN114866494 B CN 114866494B
Authority
CN
China
Prior art keywords
network
action
reinforcement learning
modal
execution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210782477.4A
Other languages
English (en)
Other versions
CN114866494A (zh
Inventor
沈丛麒
张慧峰
姚少峰
徐琪
邹涛
张汝云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202210782477.4A priority Critical patent/CN114866494B/zh
Publication of CN114866494A publication Critical patent/CN114866494A/zh
Application granted granted Critical
Publication of CN114866494B publication Critical patent/CN114866494B/zh
Priority to PCT/CN2022/130998 priority patent/WO2024007499A1/zh
Priority to US18/359,862 priority patent/US20240015079A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/70Admission control; Resource allocation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/12Avoiding congestion; Recovering from congestion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/50Overload detection or protection within a single switching element

Abstract

本发明公开了强化学习智能体训练方法、模态带宽资源调度方法及装置,其中强化学习智能体训练方法在多模态网络下,利用强化学习智能体与网络环境不断交互,获取最新全局网络特征并输出更新后的动作。通过调节模态所占用的带宽,设定奖励值为智能体确定优化目标,实现模态的调度,保障多模态网络资源合理使用。训练后的强化学习智能体应用于模态带宽资源调度方法中,能自适应于不同特征的网络中,可用于多模态网络的智慧管控,具有良好的适应性及调度性能。

Description

强化学习智能体训练方法、模态带宽资源调度方法及装置
技术领域
本发明属于网络管控技术领域,尤其涉及强化学习智能体训练方法、模态带宽资源调度方法及装置。
背景技术
在多模态网络中,同时运行着多种网络技术体制,每一种技术体制即为一种网络模态。各网络模态共享网络资源,如不加以管控,则会导致各网络模态直接竞争网络资源,如带宽等,这会直接影响部分关键模态的通信传输质量。因此,对网络中的各个模态进行合理管控是保障多模态网络稳定运行的必要前提之一。
对于上述需要,目前主流技术是控制交换机端口的带宽被使用的比例,限制出口流量大小以避免网络过载。
在实现本发明过程中,本发明人发现现有技术至少存在如下问题:
使用这类静态的策略(如限制带宽使用比例不超过某个最大值)将无法适应网络模态动态变化的情况。而实际网络中,很有可能因业务变化而导致个别模态流量变大,此时原来的静态策略则不再适用。
发明内容
本申请实施例的目的是提供强化学习智能体训练方法、模态带宽资源调度方法及装置,以解决相关技术中存在的多模态网络中的模态资源无法智慧管控的技术问题。
根据本申请实施例的第一方面,提供一种多模态网络中的模态带宽资源调度方法,包括:
S11:构建全局网络特征状态、动作及训练所述强化学习智能体所需的深度神经网络模型,其中所述深度神经网络模型包括执行新网络、执行旧网络及动作评价网络:
S12:设置一轮训练的最大步数;
S13:在每一步中,获取全局网络特征状态,将所述全局网络特征状态输入所述执行新网络,控制SDN交换机执行所述执行新网络输出的动作,获取所述SDN交换机执行所述动作后网络的状态和奖励值,将所述动作、奖励值和执行所述动作前后的两个时间段内分别的状态存入经验池;
S14:根据所述经验池中所有的奖励值和执行动作前的状态,更新所述动作评价网络的网络参数;
S15:将所述执行新网络的网络参数赋值给所述执行旧网络,并根据所述经验池中所有的动作和执行动作前的状态,更新所述执行新网络的网络参数;
S16:重复步骤S13-S15,直至多模态网络中各个模态占用的带宽均在保证通信传输质量的同时不让网络出口端过载。
进一步地,所述全局网络特征状态包括各个模态的报文数量、各个模态的平均报文大小、每条流的平均时延、每条流中的数据包数量、每条流的大小、每条流中的平均数据包大小。
进一步地,所述动作为在对应的全局网络特征状态下选择的动作向量的均值与噪声的和。
进一步地,根据所述经验池中所有的奖励值和执行动作前的状态,更新所述动作评价网络的网络参数,包括:
将所述经验池中所有的执行动作前的状态输入所述动作评价网络中,得到对应的期望价值;
根据所述期望价值和对应的奖励值以及预先设定的衰减折扣,计算每个行动作前的状态的折扣奖励;
计算所述折扣奖励与所述期望价值的差值,并根据所有差值计算均方差,将得到的均方差作为第一损失值,以更新所述动作评价网络的网络参数。
进一步地,根据所述经验池中所有的动作和执行动作前的状态,更新所述执行新网络的网络参数,包括:
将所述经验池中所有的执行动作前的状态分别输入所述执行旧网络和执行新网络,得到执行动作旧分布和执行动作新分布;
计算所述经验池中每个动作在对应的所述执行动作旧分布和执行动作新分布中分别出现的第一概率和第二概率;
计算所述第二概率与所述第一概率的比值;
将所有的所述比值乘以对应的所述差值并求平均之后的值作为第二损失值,以更新所述执行新网络的网络参数。
根据本申请实施例的第二方面,提供一种多模态网络中的模态带宽资源调度装置,包括:
构建模块,用于构建全局网络特征状态、动作及训练所述强化学习智能体所需的深度神经网络模型,其中所述深度神经网络模型包括执行新网络、执行旧网络及动作评价网络:
设置模块,用于设置一轮训练的最大步数;
执行模块,用于在每一步中,获取全局网络特征状态,将所述全局网络特征状态输入所述执行新网络,控制SDN交换机执行所述执行新网络输出的动作,获取所述SDN交换机执行所述动作后网络的状态和奖励值,将所述动作、奖励值和执行所述动作前后的两个时间段内分别的状态存入经验池;
第一更新模块,用于根据所述经验池中所有的奖励值和执行动作前的状态,更新所述动作评价网络的网络参数;
第二更新模块,用于将所述执行新网络的网络参数赋值给所述执行旧网络,并根据所述经验池中所有的动作和执行动作前的状态,更新所述执行新网络的网络参数;
重复模块,用于重复执行模块到第二更新模块中的过程,直至多模态网络中各个模态占用的带宽均在保证通信传输质量的同时不让网络出口端过载。
根据本申请实施例的第三方面,提供多模态网络中的模态带宽资源调度方法,包括:
将根据第一方面所述的多模态网络中的强化学习智能体训练方法训练后的强化学习智能体应用于多模态网络中;
根据所述强化学习智能体输出的调度策略,调度各个模态占用的资源。
根据本申请实施例的第三方面,提供一种多模态网络中的模态带宽资源调度装置,包括:
应用模块,用于将根据第一方面所述的多模态网络中的强化学习智能体训练方法训练后的强化学习智能体应用于多模态网络中;
调度模块,用于根据所述强化学习智能体输出的调度策略,调度各个模态占用的资源。
根据本申请实施例的第五方面,提供一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如多模态网络中的强化学习智能体训练方法或多模态网络中的模态带宽资源调度方法。
根据本申请实施例的第六方面,提供一种计算机可读存储介质,该指令被处理器执行时实现如多模态网络中的强化学习智能体训练方法或多模态网络中的模态带宽资源调度方法的步骤。
本申请的实施例提供的技术方案可以包括以下有益效果:
由上述实施例可知,本申请利用强化学习算法思想,构建适应于多模态网络的全局网络特征状态、执行动作、奖励函数,让强化学习智能体不断与网络进行交互,根据网络状态及奖励值的变化输出最优执行动作,从而让多模态网络资源的分配符合预期,保障网络运行性能,对于推动多模态网络的智慧管控具有较强的现实意义。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是根据一示例性实施例示出的一种多模态网络中的强化学习智能体训练方法的流程图。
图2是根据一示例性实施例示出的步骤S14的流程图。
图3是根据一示例性实施例示出的“根据所述经验池中所有的动作和执行动作前的状态,更新所述执行新网络的网络参数”的流程图。
图4是根据一示例性实施例示出的一种多模态网络中的强化学习智能体训练装置的框图。
图5是根据一示例性实施例示出的一种多模态网络中的模态带宽资源调度方法的流程图。
图6是根据一示例性实施例示出的一种多模态网络中的模态带宽资源调度装置的框图。
图7是根据一示例性实施例示出的一种电子设备的示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
实施例1:
图1是根据一示例性实施例示出的一种多模态网络中的强化学习智能体训练方法的流程图,如图1所示,该方法应用于强化学习智能体,可以包括以下步骤:
步骤S11:构建全局网络特征状态、动作及训练所述强化学习智能体所需的深度神经网络模型,其中所述深度神经网络模型包括执行新网络、执行旧网络及动作评价网络:
步骤S12:设置一轮训练的最大步数;
步骤S13:在每一步中,获取全局网络特征状态,将所述全局网络特征状态输入所述执行新网络,控制SDN交换机执行所述执行新网络输出的动作,获取所述SDN交换机执行所述动作后网络的状态和奖励值,将所述动作、奖励值和执行所述动作前后的两个时间段内分别的状态存入经验池;
步骤S14:根据所述经验池中所有的奖励值和执行动作前的状态,更新所述动作评价网络的网络参数;
步骤S15:将所述执行新网络的网络参数赋值给所述执行旧网络,并根据所述经验池中所有的动作和执行动作前的状态,更新所述执行新网络的网络参数;
步骤S16:重复步骤S13-S15,直至多模态网络中各个模态占用的带宽均在保证通信传输质量的同时不让网络出口端过载。
由上述实施例可知,本申请利用强化学习算法思想,构建适应于多模态网络的全局网络特征状态、执行动作、奖励函数,让强化学习智能体不断与网络进行交互,根据网络状态及奖励值的变化输出最优执行动作,从而让多模态网络资源的分配符合预期,保障网络运行性能,对于推动多模态网络的智慧管控具有较强的现实意义。
在步骤S11的具体实施中,构建全局网络特征状态、动作及训练所述强化学习智能体所需的深度神经网络模型,其中所述深度神经网络模型包括执行新网络、执行旧网络及动作评价网络:
具体地,所述全局网络特征状态包括各个模态的报文数量、各个模态的平均报文 大小、每条流的平均时延、每条流中的数据包数量、每条流的大小、每条流中的平均数据包 大小。这些特征构成当前时间间隔
Figure 427014DEST_PATH_IMAGE001
秒的全局网络状态。用
Figure 32570DEST_PATH_IMAGE002
表示第t
Figure 281148DEST_PATH_IMAGE001
秒内全局网络 特征。
具体地,所述动作为在对应的全局网络特征状态下选择的动作向量的均值与噪声 的和。用
Figure 410778DEST_PATH_IMAGE003
表示第t
Figure 428413DEST_PATH_IMAGE004
秒的动作。所述动作用于调整流的带宽,进而调度各模态所占用的 资源,保障网络通信质量符合预期目标。所述动作的物理含义为每个模态每条流到达出口 区域的比例。用P表示网络中运行的模态数量,由于一种模态对应一种网络技术体制,因此 假设网络中运行的模态数量固定不变。用
Figure 234564DEST_PATH_IMAGE005
表示每个模态中流数量的最大值,则输出的动 作空间维度为
Figure 970439DEST_PATH_IMAGE006
。用
Figure 638180DEST_PATH_IMAGE007
表示在第t
Figure 775901DEST_PATH_IMAGE001
秒内基于第p个模态的流数量,满足
Figure 985909DEST_PATH_IMAGE008
。因此,在第t
Figure 209080DEST_PATH_IMAGE001
秒内,仅有
Figure 414933DEST_PATH_IMAGE009
个元素有对应流,因此取值为0.1-1, 而其他元素由于没有实际流,取值为0。
在具体实施中,为方便实现,可对执行新网络、执行旧网络及动作评价网络采用相同架构,例如可以采用深度神经网络、卷积神经网络、循环神经网络等架构。网络构建完成后随机初始化参数。
在步骤S12的具体实施中,设置一轮训练的最大步数;
具体地,设置每一轮训练的最大步数T,实际实施中T的取值与网络中的模态数量等因素相关,需要在训练过程中多次尝试选择较为优选的值。例如,假设网络中模态数量为8,经过多次尝试得到T为120时较为优选。
在步骤S13的具体实施中,在每一步中,获取全局网络特征状态,将所述全局网络特征状态输入所述执行新网络,控制SDN交换机执行所述执行新网络输出的动作,获取所述SDN交换机执行所述动作后网络的状态和奖励值,将所述动作、奖励值和执行所述动作前后的两个时间段内分别的状态存入经验池;
具体地,在每一步中,所述强化学习智能体通过控制器按采样间隔
Figure 407160DEST_PATH_IMAGE010
秒,获取
Figure 555113DEST_PATH_IMAGE010
秒时间段内全局网络特征。将当前网络状态
Figure 265580DEST_PATH_IMAGE002
输入执行新网络,输出基于当前参数
Figure 9545DEST_PATH_IMAGE011
的所 述执行动作的均值
Figure 121858DEST_PATH_IMAGE012
和方差N,输出的所述执行动作表示为
Figure 191445DEST_PATH_IMAGE013
其中,
Figure 874361DEST_PATH_IMAGE014
表示的是强化学习智能体在某一个状态
Figure 687597DEST_PATH_IMAGE002
下,选择的动作向量的 均值,
Figure 388836DEST_PATH_IMAGE015
表示的是执行新网络的参数,N表示的是噪声,是随着时间衰退的正态函数。
SDN控制器根据所述执行动作中所设定的比例,为每条流设定带宽,转化为SDN交换机可识别的指令,下发配置,SDN交换机接收配置并按所配置的带宽转发各个模态的流,如果某条流需要占用的带宽超过了所配置的带宽,则会被随机丢弃部分以满足所分配的带宽。
强化学习智能体获取因执行动作后网络的新状态
Figure 894904DEST_PATH_IMAGE016
和奖励值
Figure 563652DEST_PATH_IMAGE017
,将
Figure 914999DEST_PATH_IMAGE018
存入经验池当中。
对于一轮训练,强化学习智能体会进行T次步骤S13的过程,在这个过程中网络参 数不更新,其中奖励值
Figure 470745DEST_PATH_IMAGE017
为强化学习智能体计算奖励函数的值。所述奖励函数定义如下
Figure 147714DEST_PATH_IMAGE019
其中
Figure 796433DEST_PATH_IMAGE020
是第p个模态的权重系数,数值由人为根据网络运行质量目标确定
Figure 685892DEST_PATH_IMAGE021
Figure 627303DEST_PATH_IMAGE022
是在第t
Figure 475173DEST_PATH_IMAGE001
秒内第p个模态中第i个流的流速,可从全局网络 特征状态中获得。
Figure 852934DEST_PATH_IMAGE023
是在第t
Figure 811663DEST_PATH_IMAGE001
秒内第p个模态中第i个流的到达该服务器的比例, 可从所述执行动作中获得。
Figure 342001DEST_PATH_IMAGE024
是出口区域正常运行时能够承载的流量上限。
上述奖励函数的设置可以根据网络中的不同模态的通信传输情况分配合适的带宽同时避免各模态抢占网络资源而导致网络过载。在带宽资源分配方面,我们用各模态到达服务器的流数目的比例表征该模态的传输情况。如果该模态传输发生拥塞,即便其权重系数不高或整体网络暂无拥塞,该奖励函数也将推动后续动作执行时为这个模态分配更大的带宽。如果网络中的多个模态都发生了拥塞,则权重系数更高的模态会获得更大的带宽,这也符合实际需要,即优先保障更加重要的通信业务。在避免网络过载方面,我们用惩罚值-1向上一步的动作做出负反馈,减小分配的带宽以避免网络过载。因此,上述奖励函数的设置能够保障网络正常运行,同时依据网络中各模态的传输情况动态调整带宽资源分配。
在步骤S14的具体实施中,根据所述经验池中所有的奖励值和执行动作前的状态,更新所述动作评价网络的网络参数;
具体地,如图2所示,此步骤中可以包括以下子步骤:
步骤S21:将所述经验池中所有的执行动作前的状态输入所述动作评价网络中,得到对应的期望价值;
具体地,在经验池中的样本,将样本中的
Figure 95194DEST_PATH_IMAGE002
输入动作评价网络得到对应的期望价 值
Figure 727294DEST_PATH_IMAGE025
Figure 224135DEST_PATH_IMAGE026
。该期望价值表示了对t时刻的网络状态的评价,即当前状态对达到奖 励函数所设目标的瞬时价值。
步骤S22:根据所述期望价值和对应的奖励值以及预先设定的衰减折扣,计算每个行动作前的状态的折扣奖励;
具体地,计算每个
Figure 874559DEST_PATH_IMAGE002
的折扣奖励
Figure 533073DEST_PATH_IMAGE027
Figure 151005DEST_PATH_IMAGE028
,其中
Figure 451537DEST_PATH_IMAGE029
为衰减折扣,由人为取值。由于每一轮的训练需要经历T步,我们需要知 道当前网络状态对于后续网络状态变化从而达到奖励函数所设目标的长期价值。
步骤S23:计算所述折扣奖励与所述期望价值的差值,并根据所有差值计算均方差,将得到的均方差作为第一损失值,以更新所述动作评价网络的网络参数;
具体地,根据样本分布计算
Figure 222047DEST_PATH_IMAGE030
Figure 51462DEST_PATH_IMAGE028
,计算标准差作为第一损失值 用于更新动作评价网络参数。该差值表征了瞬时价值与长期价值之间的差距。该差距用于 调整后续动作评价网络的参数,优化输出的执行动作。该差距越小,则表示动作网络越靠近 最优。
在步骤S15的具体实施中,将所述执行新网络的网络参数赋值给所述执行旧网络,并根据所述经验池中所有的动作和执行动作前的状态,更新所述执行新网络的网络参数;
具体地,我们需要不断比较新旧执行网络的参数不同,并更新执行网络的参数以不断优化输出的动作,最终让执行新网络的参数达到最优,以输出最优的动作。
具体地,如图3所示,“根据所述经验池中所有的动作和执行动作前的状态,更新所述执行新网络的网络参数”可以包括以下子步骤:
步骤S31:将所述经验池中所有的执行动作前的状态分别输入所述执行旧网络和执行新网络,得到执行动作旧分布和执行动作新分布;
具体地,将所述经验池中存储的样本中的
Figure 173002DEST_PATH_IMAGE002
输入执行旧网络和执行新网络,分别 得到动作正态分布执行动作旧分布和执行动作新分布。执行新旧网络也都是基于相同神经 网络架构构建的网络,两者架构相同,仅有参数不同。因为我们设定这个两个神经网络的输 入为网络状态样本
Figure 493869DEST_PATH_IMAGE002
,输出为目前最优执行动作的均值
Figure 853306DEST_PATH_IMAGE014
和方差N;同时我们不失 一般性地假设动作地概率分布为正太分布,因此,可以基于两个执行网络的输出确定得到 动作的旧概率分布和新概率分布。
步骤S32:计算所述经验池中每个动作在对应的所述执行动作旧分布和执行动作新分布中分别出现的第一概率和第二概率;
具体地,计算存储的每个所述动作
Figure 119202DEST_PATH_IMAGE031
Figure 462459DEST_PATH_IMAGE028
在对应分布中的第一概率
Figure 354060DEST_PATH_IMAGE032
和第二概率
Figure 833583DEST_PATH_IMAGE033
。这两个概率分别表征了样本池所存储的动作的新旧执行网络 中被选中执行的概率。
步骤S33:计算所述第二概率与所述第一概率的比值;
具体地,计算
Figure 270381DEST_PATH_IMAGE034
Figure 835354DEST_PATH_IMAGE028
。该比值表征了新旧执行网络之间 的参数差异。如果新旧网络之间参数一致说明执行网络已更新至最优。因为我们希望执行 网络的参数能不断更新优化,因此,计算其比值将用于更新网络参数。
步骤S34:将所有的所述比值乘以对应的所述差值并求平均之后的值作为第二损失值,以更新所述执行新网络的网络参数;
具体地,对于
Figure 281379DEST_PATH_IMAGE035
Figure 366141DEST_PATH_IMAGE036
乘以
Figure 973840DEST_PATH_IMAGE030
并求均值作为第二损失值用来更 新执行新网络参数。
Figure 26109DEST_PATH_IMAGE036
表征了动作网络的更新方向,
Figure 744667DEST_PATH_IMAGE030
表征了评价网络的参数 更新方向。因为输出执行动作的优选,需要结合网络状态的变化,因此选择两者乘积,以更 新执行新网络的参数,使其学习到最新的网络状态,以在下一步输出适合网络状态的动作。
在步骤S16的具体实施中,重复步骤S13-S15,直至多模态网络中各个模态占用的带宽均在保证通信传输质量的同时不让网络出口端过载;
具体地,S13-S15的过程为一轮训练的过程,继续开启下一轮训练,直到各个模态合理占用带宽,在保证通信传输质量的同时不让网络出口端过载。经过充分的训练后,所述强化学习智能体已经完全学习到了不同网络环境下的最优策略,即能达到所设定的预期目标的所述执行动作。
与前述的多模态网络中的强化学习智能体训练方法的实施例相对应,本申请还提供了多模态网络中的强化学习智能体训练装置的实施例。
图4是根据一示例性实施例示出的一种多模态网络中的强化学习智能体训练装置的框图。参照图4,该装置应用于强化学习智能体,可以包括:
构建模块21,用于构建全局网络特征状态、动作及训练所述强化学习智能体所需的深度神经网络模型,其中所述深度神经网络模型包括执行新网络、执行旧网络及动作评价网络:
设置模块22,用于设置一轮训练的最大步数;
执行模块23,用于在每一步中,获取全局网络特征状态,将所述全局网络特征状态输入所述执行新网络,控制SDN交换机执行所述执行新网络输出的动作,获取所述SDN交换机执行所述动作后网络的状态和奖励值,将所述动作、奖励值和执行所述动作前后的两个时间段内分别的状态存入经验池;
第一更新模块24,用于根据所述经验池中所有的奖励值和执行动作前的状态,更新所述动作评价网络的网络参数;
第二更新模块25,用于将所述执行新网络的网络参数赋值给所述执行旧网络,并根据所述经验池中所有的动作和执行动作前的状态,更新所述执行新网络的网络参数;
重复模块26,用于重复执行模块到第二更新模块中的过程,直至多模态网络中各个模态占用的带宽均在保证通信传输质量的同时不让网络出口端过载。
实施例2:
图5是根据一示例性实施例示出的一种多模态网络中的模态带宽资源调度方法的流程图,如图5所示,该方法可以包括以下步骤:
步骤S41:将根据实施例1所述的多模态网络中的强化学习智能体训练方法训练后的强化学习智能体应用于多模态网络中;
步骤S42:根据所述强化学习智能体输出的调度策略,调度各个模态占用的资源。
由上述实施例可知,本申请将训练后的强化学习智能体应用于模态带宽资源调度方法中,能自适应于不同特征的网络中,可用于多模态网络的智慧管控,具有良好的适应性及调度性能。
具体地,上述多模态网络中的强化学习智能体训练方法在实施例1中已有详细描述,而将强化学习智能体应用于多模态网络和根据强化学习智能体输出的调度策略进行调度均为本领域的常规技术手段,此处不作赘述。
与前述的多模态网络中的模态带宽资源调度方法的实施例相对应,本申请还提供了多模态网络中的模态带宽资源调度装置的实施例。
图6是根据一示例性实施例示出的一种多模态网络中的模态带宽资源调度装置的框图。参照图6,该装置可以包括:
应用模块31,用于将根据实施例1所述的多模态网络中的强化学习智能体训练方法训练后的强化学习智能体应用于多模态网络中;
调度模块32,用于根据所述强化学习智能体输出的调度策略,调度各个模态占用的资源。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
实施例3:
相应地,本申请还提供一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的多模态网络中的强化学习智能体训练方法或多模态网络中的模态带宽资源调度方法。如图7所示,为本发明实施例提供的一种多模态网络中的强化学习智能体训练方法或多模态网络中的模态带宽资源调度方法所在任意具备数据处理能力的设备的一种硬件结构图,除了图7所示的处理器、内存以及网络接口之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
实施例4:
相应地,本申请还提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如上述的多模态网络中的强化学习智能体训练方法或多模态网络中的模态带宽资源调度方法。所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是风力发电机的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(SmartMedia Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
本领域技术人员在考虑说明书及实践这里公开的内容后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。

Claims (10)

1.一种多模态网络中的强化学习智能体训练方法,其特征在于,应用于强化学习智能体,包括:
S11:构建全局网络特征状态、动作及训练所述强化学习智能体所需的深度神经网络模型,其中所述深度神经网络模型包括执行新网络、执行旧网络及动作评价网络:
S12:设置一轮训练的最大步数;
S13:在每一步中,获取全局网络特征状态,将所述全局网络特征状态输入所述执行新网络,控制SDN交换机执行所述执行新网络输出的动作,获取所述SDN交换机执行所述动作后网络的状态和奖励值,将所述动作、奖励值和执行所述动作前后的两个时间段内分别的状态存入经验池;
S14:根据所述经验池中所有的奖励值和执行动作前的状态,更新所述动作评价网络的网络参数;
S15:将所述执行新网络的网络参数赋值给所述执行旧网络,并根据所述经验池中所有的动作和执行动作前的状态,更新所述执行新网络的网络参数;
S16:重复步骤S13-S15,直至多模态网络中各个模态占用的带宽均在保证通信传输质量的同时不让网络出口端过载。
2.根据权利要求1所述的方法,其特征在于,所述全局网络特征状态包括各个模态的报文数量、各个模态的平均报文大小、每条流的平均时延、每条流中的数据包数量、每条流的大小、每条流中的平均数据包大小。
3.根据权利要求1所述的方法,其特征在于,所述动作为在对应的全局网络特征状态下选择的动作向量的均值与噪声的和。
4.根据权利要求1所述的方法,其特征在于,根据所述经验池中所有的奖励值和执行动作前的状态,更新所述动作评价网络的网络参数,包括:
将所述经验池中所有的执行动作前的状态输入所述动作评价网络中,得到对应的期望价值;
根据所述期望价值和对应的奖励值以及预先设定的衰减折扣,计算每个行动作前的状态的折扣奖励;
计算所述折扣奖励与所述期望价值的差值,并根据所有差值计算均方差,将得到的均方差作为第一损失值,以更新所述动作评价网络的网络参数。
5.根据权利要求4所述的方法,其特征在于,根据所述经验池中所有的动作和执行动作前的状态,更新所述执行新网络的网络参数,包括:
将所述经验池中所有的执行动作前的状态分别输入所述执行旧网络和执行新网络,得到执行动作旧分布和执行动作新分布;
计算所述经验池中每个动作在对应的所述执行动作旧分布和执行动作新分布中分别出现的第一概率和第二概率;
计算所述第二概率与所述第一概率的比值;
将所有的所述比值乘以对应的所述差值并求平均之后的值作为第二损失值,以更新所述执行新网络的网络参数。
6.一种多模态网络中的强化学习智能体训练装置,其特征在于,应用于强化学习智能体,包括:
构建模块,用于构建全局网络特征状态、动作及训练所述强化学习智能体所需的深度神经网络模型,其中所述深度神经网络模型包括执行新网络、执行旧网络及动作评价网络:
设置模块,用于设置一轮训练的最大步数;
执行模块,用于在每一步中,获取全局网络特征状态,将所述全局网络特征状态输入所述执行新网络,控制SDN交换机执行所述执行新网络输出的动作,获取所述SDN交换机执行所述动作后网络的状态和奖励值,将所述动作、奖励值和执行所述动作前后的两个时间段内分别的状态存入经验池;
第一更新模块,用于根据所述经验池中所有的奖励值和执行动作前的状态,更新所述动作评价网络的网络参数;
第二更新模块,用于将所述执行新网络的网络参数赋值给所述执行旧网络,并根据所述经验池中所有的动作和执行动作前的状态,更新所述执行新网络的网络参数;
重复模块,用于重复执行模块到第二更新模块中的过程,直至多模态网络中各个模态占用的带宽均在保证通信传输质量的同时不让网络出口端过载。
7.一种多模态网络中的模态带宽资源调度方法,其特征在于,包括:
将根据权利要求1-5中任一项所述的多模态网络中的强化学习智能体训练方法训练后的强化学习智能体应用于多模态网络中;
根据所述强化学习智能体输出的调度策略,调度各个模态占用的资源。
8.一种多模态网络中的模态带宽资源调度装置,其特征在于,包括:
应用模块,用于将根据权利要求1-5中任一项所述的多模态网络中的强化学习智能体训练方法训练后的强化学习智能体应用于多模态网络中;
调度模块,用于根据所述强化学习智能体输出的调度策略,调度各个模态占用的资源。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5任一项所述的多模态网络中的强化学习智能体训练方法或权利要求7所述的多模态网络中的模态带宽资源调度方法。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如权利要求1-5任一项所述的多模态网络中的强化学习智能体训练方法或权利要求7所述的多模态网络中的模态带宽资源调度方法的步骤。
CN202210782477.4A 2022-07-05 2022-07-05 强化学习智能体训练方法、模态带宽资源调度方法及装置 Active CN114866494B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202210782477.4A CN114866494B (zh) 2022-07-05 2022-07-05 强化学习智能体训练方法、模态带宽资源调度方法及装置
PCT/CN2022/130998 WO2024007499A1 (zh) 2022-07-05 2022-11-10 强化学习智能体训练方法、模态带宽资源调度方法及装置
US18/359,862 US20240015079A1 (en) 2022-07-05 2023-07-26 Reinforcement learning agent training method, modal bandwidth resource scheduling method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210782477.4A CN114866494B (zh) 2022-07-05 2022-07-05 强化学习智能体训练方法、模态带宽资源调度方法及装置

Publications (2)

Publication Number Publication Date
CN114866494A CN114866494A (zh) 2022-08-05
CN114866494B true CN114866494B (zh) 2022-09-20

Family

ID=82626124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210782477.4A Active CN114866494B (zh) 2022-07-05 2022-07-05 强化学习智能体训练方法、模态带宽资源调度方法及装置

Country Status (2)

Country Link
CN (1) CN114866494B (zh)
WO (1) WO2024007499A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114866494B (zh) * 2022-07-05 2022-09-20 之江实验室 强化学习智能体训练方法、模态带宽资源调度方法及装置
CN116994693B (zh) * 2023-09-27 2024-03-01 之江实验室 一种基于稳定性控制的医保统筹智能体的建模方法与系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108683614A (zh) * 2018-05-15 2018-10-19 国网江苏省电力有限公司苏州供电分公司 基于门限残差网络的虚拟现实设备集群带宽分配装置
CN111988225A (zh) * 2020-08-19 2020-11-24 西安电子科技大学 基于强化学习和迁移学习的多路径路由方法
CN113254197A (zh) * 2021-04-30 2021-08-13 西安电子科技大学 一种基于深度强化学习的网络资源调度方法及系统
CN113328938A (zh) * 2021-05-25 2021-08-31 电子科技大学 一种基于深度强化学习的网络自主智能管控方法
CN113963200A (zh) * 2021-10-18 2022-01-21 郑州大学 模态数据融合处理方法、装置、设备及存储介质
WO2022083029A1 (zh) * 2020-10-19 2022-04-28 深圳大学 一种基于深度强化学习的决策方法
CN114626499A (zh) * 2022-05-11 2022-06-14 之江实验室 用稀疏化注意力辅助决策的嵌入式多智能体强化学习方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220210200A1 (en) * 2015-10-28 2022-06-30 Qomplx, Inc. Ai-driven defensive cybersecurity strategy analysis and recommendation system
US20200162535A1 (en) * 2018-11-19 2020-05-21 Zhan Ma Methods and Apparatus for Learning Based Adaptive Real-time Streaming
CN112465151A (zh) * 2020-12-17 2021-03-09 电子科技大学长三角研究院(衢州) 一种基于深度强化学习的多智能体联邦协作方法
CN113595923A (zh) * 2021-08-11 2021-11-02 国网信息通信产业集团有限公司 一种网络拥塞控制方法及装置
CN114866494B (zh) * 2022-07-05 2022-09-20 之江实验室 强化学习智能体训练方法、模态带宽资源调度方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108683614A (zh) * 2018-05-15 2018-10-19 国网江苏省电力有限公司苏州供电分公司 基于门限残差网络的虚拟现实设备集群带宽分配装置
CN111988225A (zh) * 2020-08-19 2020-11-24 西安电子科技大学 基于强化学习和迁移学习的多路径路由方法
WO2022083029A1 (zh) * 2020-10-19 2022-04-28 深圳大学 一种基于深度强化学习的决策方法
CN113254197A (zh) * 2021-04-30 2021-08-13 西安电子科技大学 一种基于深度强化学习的网络资源调度方法及系统
CN113328938A (zh) * 2021-05-25 2021-08-31 电子科技大学 一种基于深度强化学习的网络自主智能管控方法
CN113963200A (zh) * 2021-10-18 2022-01-21 郑州大学 模态数据融合处理方法、装置、设备及存储介质
CN114626499A (zh) * 2022-05-11 2022-06-14 之江实验室 用稀疏化注意力辅助决策的嵌入式多智能体强化学习方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于值函数和策略梯度的深度强化学习综述;刘建伟等;《计算机学报》;20181022(第06期);全文 *

Also Published As

Publication number Publication date
WO2024007499A1 (zh) 2024-01-11
CN114866494A (zh) 2022-08-05

Similar Documents

Publication Publication Date Title
CN114866494B (zh) 强化学习智能体训练方法、模态带宽资源调度方法及装置
US10397829B2 (en) System apparatus and methods for cognitive cloud offloading in a multi-rat enabled wireless device
Van Le et al. A deep reinforcement learning based offloading scheme in ad-hoc mobile clouds
CN111953758B (zh) 一种边缘网络计算卸载和任务迁移方法及装置
CN108958916B (zh) 一种移动边缘环境下工作流卸载优化方法
CN114340016B (zh) 一种电网边缘计算卸载分配方法及系统
US20230153124A1 (en) Edge network computing system with deep reinforcement learning based task scheduling
CN113254192B (zh) 资源分配方法、资源分配装置、电子设备及存储介质
CN116069512B (zh) 一种基于强化学习的Serverless高效资源分配方法及系统
Gu et al. Deep reinforcement learning based VNF management in geo-distributed edge computing
EP4024212B1 (en) Method for scheduling inference workloads on edge network resources
CN115190033B (zh) 一种基于强化学习的云边融合网络任务卸载方法
CN114205353B (zh) 一种基于混合动作空间强化学习算法的计算卸载方法
Mostafavi et al. A stochastic approximation approach for foresighted task scheduling in cloud computing
CN113573363A (zh) 基于深度强化学习的mec计算卸载与资源分配方法
CN113867843A (zh) 一种基于深度强化学习的移动边缘计算任务卸载方法
Hu et al. Dynamic task offloading in MEC-enabled IoT networks: A hybrid DDPG-D3QN approach
CN107872405A (zh) 分布式带宽分配和调节
CN117082008B (zh) 虚拟弹性网络数据传输调度方法、计算机装置及存储介质
CN116302578B (zh) 一种QoS约束的流应用延迟确保方法及系统
CN117130769A (zh) 一种调频方法、频率调节神经网络的训练方法及电子设备
CN114172558B (zh) 一种车辆网络中基于边缘计算和无人机集群协同的任务卸载方法
Li et al. Profit driven service provisioning in edge computing via deep reinforcement learning
CN110971451A (zh) Nfv资源分配方法
CN113783726B (zh) 一种面向sla的边云系统的资源自适应定制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant