CN111756634A - 一种基于强化学习的舰载网络性能自优化方法 - Google Patents

一种基于强化学习的舰载网络性能自优化方法 Download PDF

Info

Publication number
CN111756634A
CN111756634A CN202010681817.5A CN202010681817A CN111756634A CN 111756634 A CN111756634 A CN 111756634A CN 202010681817 A CN202010681817 A CN 202010681817A CN 111756634 A CN111756634 A CN 111756634A
Authority
CN
China
Prior art keywords
network
flow
state
reinforcement learning
elephant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010681817.5A
Other languages
English (en)
Other versions
CN111756634B (zh
Inventor
罗威
江昊
吴静
朱博
肖鹏博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Ship Development and Design Centre
Original Assignee
China Ship Development and Design Centre
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Ship Development and Design Centre filed Critical China Ship Development and Design Centre
Priority to CN202010681817.5A priority Critical patent/CN111756634B/zh
Publication of CN111756634A publication Critical patent/CN111756634A/zh
Application granted granted Critical
Publication of CN111756634B publication Critical patent/CN111756634B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/02Topology update or discovery
    • H04L45/08Learning-based routing, e.g. using neural networks or artificial intelligence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • H04L43/0829Packet loss
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0852Delays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • H04L43/0882Utilisation of link capacity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/30Routing of multiclass traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/12Avoiding congestion; Recovering from congestion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于强化学习的舰载网络性能自优化方法,该方法包括以下步骤:1)实时对数据流量的网络状态进行监控并收集网络状态,获取大象流到来时的当前网络状态;2)识别数据流量的业务类型;3)对流表项Action字段进行统计得到大象流的业务流源/目的地址,确定调度路径集合;4)将大象流的网络状态、流量的业务类型和调度路径集合作为输入,训练深度强化学习模型;4)通过深度神经网络的计算输出全局最优路径解;5)当全局最佳路径确定后,生成新的大象流的转发路由,实现大象流的重路由。本发明根据网络当前状态和业务流量信息为大象流计算出全局最佳路径,完成对大象流的重路由,能有效提高网络资源的利用率。

Description

一种基于强化学习的舰载网络性能自优化方法
技术领域
本发明涉及网络技术,尤其涉及一种基于强化学习的舰载网络性能自优化方法。
背景技术
舰船网络中,业务种类繁多,如动力监控系统,电力监控系统,损管监控系统,全舰装备保障管理系统,驾控系统等。传统网络架构中,链路利用率低下,网络难以进行有效的监管和控制,主要由于核心的网络层协议缺乏扩展,并与响应的硬件设备紧密耦合,导致网络在QoS整合,边缘用户随时接入和网络深度管理与运维方面上暴露的大量问题。网络中发生拥塞、分组丢包等现象的一个主要原因是因为,这些网络大流量没有得到很好的调度而在链路上发生了碰撞,长时间的占用了其他要经过此链路的流量的带宽资源。对于这种大量、持续传递数据的过程,人们将其形象的称之为大象流。与大象流相对的是老鼠流的概念,老鼠流是指通过网络链路进行少量、短时间的数据传递过程,其中大象流需要高带宽而老鼠流需要低延迟,这两种类型的数据流可能会产生冲突。
软件定义网络技术可以获得端到端网络流的可见性并能对流量进行有效的分析,因此能够识别大象流和老鼠流,但是只利用SDN控制器监测流量会严重增加控制器的工作量。近年来研究人员提出了多种大象流监测方法,主要包括:基于主机的检测方法、采样检测方法、聚合统计消息检测、基于分类器的检测。其中,基于主机的检测方法在终端主机上对流量进行查看,能够以较低的开销获得较高的检测效率,但是在主机上检测大象流不利于大象流的调度,从而影响整个网络的性能。采样检测方法通过使用分组采样来区分大象流和老鼠流,但是需要发送更多控制消息来通知所有相关设备,增加了系统开销。聚合统计消息检测方法通过对每个数据流的源和目标IP地址映射到二维空间,然后使用聚合请求的方式来获取统计数据,直到大象流在相对较小的区域内被隔离,能够降低带宽消耗,但是在大象流集中在某一区域内需要划分区域,增加了检测复杂度。基于分类器的检测方法在交换机和控制器上运行两个分类器来检测大象流,能够提高大象流的检测精度,但同时影响了检测效率。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于强化学习的舰载网络性能自优化方法,实现舰船网络内的大象流的监测和重路由。
本发明解决其技术问题所采用的技术方案是:一种基于强化学习的舰载网络性能自优化方法,包括以下步骤:
1)实时对数据流量的网络状态进行监控并收集网络状态,获取大象流到来时的当前网络状态;所述网络状态包括链路时延、分组丢失率、链路带宽利用率;
2)通过对流表分组头域中的ToS字段进行分析,识别数据流量的业务类型;所述业务类型包括会话类业务、流媒体业务、交互类业务和数据类业务;
3)对流表项Action字段进行统计得到大象流的源地址和目的地址,确定调度路径集合;所述路径集合决定了业务流量在网络中的所有可行路径范围。
4)将大象流的网络状态、流量的业务类型和调度路径集合作为输入,训练深度强化学习模型,获得调度路径的最优选择;
4.1)将大象流的网络状态、流量的业务类型和调度路径集合(源地址与目的地址)信息按照深度强化学习网络需要的输入格式进行整理,存入经验记忆池中;
强化学习系统由4个部分构成:状态s,动作a,状态转移概率P和奖励值r,策略π:S→A表示状态空间到动作空间的映射;工作流程为,t时刻智能体感知环境状态为st,根据策略π执行动作at,环境以一定概率P转移到下个状态st+1,并且同时获得环境对此动作的反馈奖励值rt,通过调整策略π使累积的奖励值最大;
参数状态s由网络链路可用带宽和业务流源/目的地址以及业务类型共同确定,网络所有链路可用带宽组成的矩阵反映出当前网络资源的消耗状态,是用来形容和评价网络状态的一个指标,以此来区分和识别不同时刻的网络状态。
动作空间a由业务流量的所有可行路径组成,当网络拓扑和业务流源/目的地址确定时,确定网络中可行的路径集合,at表示利用奖励函数计算得到最大奖励值所对应的执行动作,即大象流可选的路径集合路中的最优解。
奖励值rt要考虑到链路时延D、可用带宽B、分组丢失率L和带宽利用率U这几个因素,由于各因素之间有正负相关性,分别附上α、β、ω、λ4个不同的权重因子,奖励值的计算公式为:rt=(βB-αD-ωL-λU)×100%;
所述权重因子根据业务类型对网络各个性能参数要求进行选取;
流量调度过程以强化学习模型的形式记录存储下来,每次的流量调度经验以(st,at,st+1,rt)的格式存储在经验记忆池中,等待抽样训练;
4.2)在强化学习中,通过给大量带有标签的数据训练神经网络,实现输入状态s,由神经网络输出积累回报Q值或者直接输出最佳动作;在训练网络时从经验记忆池中抽取训练样本进行学习,过程如下:
当大量标签数据存储在经验记忆池中后,开始训练神经网络。深度神经网络是替代近似值函数的,用奖励值来进行训练,迭代更新神经网络参数;
定义一个损失函数,L(θ)=E[(TargetQ-Q(s,a;θ))2],θ为网络神经网络参数,通过使用随机梯度下降(SGD)方法更新网络参数,当损失函数收敛以后,深度强化学习模型完成训练;
4)输入网络当前状态和流量源/目的地址以及业务类型,通过深度神经网络的计算输出全局最优路径解;
5)当全局最佳路径确定后,生成新的大象流的转发路由,实现大象流的重路由。
按上述方案,所述步骤1)中获取大象流到来时的当前网络状态是利用sFLow技术实施收集网络状态,在边缘交换机检测进入网络的大象流。
按上述方案,所述步骤4.1)中累积的奖励值通过下式计算:
Figure BDA0002586125230000051
其中,折扣因子γ∈[0,1],t值越大代表更加未来的状态。在整个式子中,将来的奖励所占的权重要依次递减,越是未来的奖励,权重越小,因此也表明相邻状态的奖励更重要;
按上述方案,所述步骤4.1)中权重因子根据业务类型对网络各个性能参数要求进行设置,具体如下:
会话类业务:α>λ>β>ω;
流媒体业务:α>λ>ω>β;
交互类业务:ω>α>β>λ;
数据类业务:ω>β>λ>α。
按上述方案,所述网络状态由流量调度前的设定时间的平均值描述,即t时刻前设定时间的样本的平均值。
按上述方案,所述流量调度后的网络状态和回报奖励值以流量调度期间的平均值描述。
按上述方案,所述步骤4.1)中从经验记忆池中抽取训练样本进行学习为采用二次采样方式从经验记忆池中抽取训练样本进行学习,先根据经验记忆池中历史数据序列的累积回报分布,以设定的大概率选择累积回报大的历史数据序列,然后对选出来的序列,利用TD-error分布来选择训练的样本。
按上述方案,所述步骤4)中实时评估流量调度的效果,当效果低于设定阈值,重新训练深度强化学习网络,具体如下:
对比各项评估指标,所述评估指标包括交付成功率、平均端到端时延、网络平均对分带宽和网络链路利用率,若发现流量调度的评估指标低于设定的阈值,或者网络流量产生了新的特征,样本空间出现了新的样本时,重新打开深度强化学习网络的训练功能,使神经网络开始学习新的特征,神经网络会重新收敛。
实时评估流量调度的效果,当效果低于设定阈值,重新训练深度强化学习网络。
按上述方案,所述步骤5)中实现大象流的重路由,具体如下:当全局最佳路径确定后,控制器会生成新的大象流的转发路由,由拓扑管理模块生成流表项的更新信息,通过OpenFlow协议将流表项需要修改的信息发送到大象流将要经过的交换机;交换机收到控制器指令后,根据更新的流表项将流量转发到新的出端口,实现大象流的重路由。
本发明产生的有益效果是:
通过根据流表的头域信息对流量进行业务分类,采用DQN算法对大象流路径选择问题进行建模,根据历史数据的经验记忆池中抽样学习,算法收敛后,控制器可根据网络当前状态和业务流量信息为大象流计算出全局最佳路径,向交换机发送流表项的更新消息,完成对大象流的重路由,提高网络资源的利用率,避免拥塞和丢包等现象。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的方法流程图;
图2是本发明实施例的深度神经网络训练流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,一种基于强化学习的舰载网络性能自优化方法,包括以下步骤:
1)实时对数据流量的网络状态进行监控并收集网络状态,获取大象流到来时的当前网络状态;所述网络状态包括链路时延、分组丢失率、链路带宽利用率;
采用sFlow工具实时对网络状态进行监控,通过sFlow数据库进行读取大象流到来时的当前网络状态信息;
2)通过对流表分组头域中的ToS字段进行分析,识别数据流量的业务类型;所述业务类型包括会话类业务、流媒体业务、交互类业务和数据类业务;
对大象流进行调度需要针对不同网络业务的流量采用不同的调度策略,所以将流量类型分为会话类业务、流媒体业务、交互类业务、数据类业务。
3)对流表项Action字段进行统计得到大象流的源地址和目的地址,确定调度路径集合;所述路径集合决定了业务流量在网络中的所有可行路径范围。
4)将大象流的网络状态、流量的业务类型和调度路径集合作为输入,训练深度强化学习模型,获得调度路径的最优选择;
4.1)将大象流的网络状态、流量的业务类型和调度路径集合(源地址与目的地址)信息按照深度强化学习网络需要的输入格式进行整理,存入经验记忆池中;
强化学习系统由4个部分构成:状态s,动作a,状态转移概率P和奖励值r,策略π:S→A表示状态空间到动作空间的映射;工作流程为,t时刻智能体感知环境状态为st,根据策略π执行动作at,环境以一定概率P转移到下个状态st+1,并且同时获得环境对此动作的反馈奖励值rt,通过调整策略π使累积的奖励值最大,其表达式为:
Figure BDA0002586125230000091
其中,折扣因子γ∈[0,1],t值越大代表更加未来的状态。在整个式子中,将来的奖励所占的权重要依次递减,越是未来的奖励,权重越小,因此也表明相邻状态的奖赏更重要;
参数状态s由网络链路可用带宽和业务流源/目的地址以及业务类型共同确定,网络所有链路可用带宽组成的矩阵反映出当前网络资源的消耗状态,是用来形容和评价网络状态的一个指标,以此来区分和识别不同时刻的网络状态。
动作空间a由业务流量的所有可行路径组成,当网络拓扑和业务流源/目的地址确定时,确定网络中可行的路径集合,at表示利用奖励函数计算得到最大奖励值所对应的执行动作,即大象流可选的路径集合路中的最优解。
奖励值rt要考虑到链路时延D、可用带宽B、分组丢失率L和带宽利用率U这几个因素,由于各因素之间有正负相关性,分别附上α、β、ω、λ4个不同的权重因子,奖励值的计算公式为:rt=(βB-αD-ωL-λU)×100%;
权重因子根据业务类型对网络各个性能参数要求进行设置,具体如下:
会话类业务:α>λ>β>ω;
流媒体业务:α>λ>ω>β;
交互类业务:ω>α>β>λ;
数据类业务:ω>β>λ>α。
流量调度过程以强化学习模型的形式记录存储下来,每次的流量调度经验以(st,at,st+1,rt)的格式存储在经验记忆池中,等待抽样训练;
4.2)在强化学习中,通过给大量带有标签的数据训练神经网络,实现输入状态s,由神经网络输出积累回报Q值或者直接输出最佳动作;深度神经网络是替代近似值函数的,用奖励值来进行训练,迭代更新神经网络参数。流程如图2所示。
在训练网络时从经验记忆池中抽取训练样本进行学习,过程如下:
当大量标签数据存储在经验记忆池中后,开始训练神经网络。深度神经网络是替代近似值函数的,用奖励值来进行训练,迭代更新神经网络参数;
定义一个损失函数,L(θ)=E[(TargetQ-Q(s,a;θ))2],θ为网络神经网络参数,通过使用随机梯度下降(SGD)方法更新网络参数,当损失函数收敛以后,深度强化学习模型完成训练;
采用经验回放的方法,使强化学习和深度学习的结合成为可能。在强化学习的结构中,用深度神经网络来代替价值函数,解决了模型状态空间维度高,样本空间大的问题。然后通过在经验回放中随机均匀采样,打破了训练样本之间的相关性;同时,采用过去的多个样本做平均,也平滑了训练样本分布,减缓了样本分布变化的问题。在经验回放中,将多个episode过程中,智能体每一步动作产生的经验(st,at,st+1,rt),存入一个经验记忆池中,在算法的参数更新循环里,对记忆池里的样本进行随机采样或批量随机采样,通过固定算法对模型进行参数更新。
本方法中,深度强化学习的参数状态s由网络链路可用带宽和业务流源/目的地址以及业务类型共同确定,动作a由大象流可选的路径集合构成,回馈r由流量业务类型以及多种网络性能参数决定。当控制器完成一次大象流的调度时,就会在经验记忆池中存入一条经验。最后训练网络时,从经验记忆池进行经验抽取。
上述过程中,网络状态由流量调度前的设定时间的平均值描述,即t时刻前设定时间的样本的平均值,比如两个样本;流量调度后的网络状态和回报奖励值以流量调度期间的平均值描述。因为流量调度后的网络状态和回报奖励值会反映这次选择的动作是否合理,是否将网络引入到下一个较好的状态,因此只取瞬时值将会损失大量网络信息。
4)输入网络当前状态和流量源/目的地址以及业务类型,通过深度神经网络的计算输出全局最优路径解;
当损失函数收敛以后,这个深度强化学习模型便可放在控制器中用来做流量调度决策了,通过输入网络当前状态和流量源/目的地址以及业务类型,便可以通过深度神经网络的计算输出全局最优路径解。
5)当全局最佳路径确定后,生成新的大象流的转发路由,实现大象流的重路由。
具体如下:当全局最佳路径确定后,控制器会生成新的大象流的转发路由,由拓扑管理模块生成流表项的更新信息,通过OpenFlow协议将流表项需要修改的信息发送到大象流将要经过的交换机;交换机收到控制器指令后,根据更新的流表项将流量转发到新的出端口,实现大象流的重路由。
通过控制器向需要修改的交换机发送“OFPFC_MODIFY”信息,直接对原有的流表项进行修改,将流表项中的匹配动作Action字段改成将数据包从新的端口发送。交换机收到控制器的“OFPFC_MODIFY”消息后,开始在流表中查找匹配的流表项,成功匹配后按照“OFPFC_MODIFY”指令更新流表项,如果匹配失败,则交换机会向流表中增加一条流表项,包含指定Action和匹配字段。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (10)

1.一种基于强化学习的舰载网络性能自优化方法,其特征在于,包括以下步骤:
1)实时对数据流量的网络状态进行监控并收集网络状态,获取大象流到来时的当前网络状态;所述网络状态包括链路时延、分组丢失率、链路带宽利用率;
2)通过对流表分组头域中的ToS字段进行分析,识别数据流量的业务类型;所述业务类型包括会话类业务、流媒体业务、交互类业务和数据类业务;
3)对流表项Action字段进行统计得到大象流的源地址和目的地址,确定调度路径集合;所述调度路径集合决定了业务流量在网络中的所有可行路径范围;
4)将大象流的网络状态、流量的业务类型和调度路径集合作为输入,训练深度强化学习模型,获得调度路径的深度强化学习模型;
4.1)将大象流的网络状态、流量的业务类型和调度路径集合信息按照深度强化学习网络需要的输入格式进行整理,存入经验记忆池中;
4.2)在强化学习中,通过给大量带有标签的数据训练神经网络,实现输入状态s,由神经网络输出积累回报Q值或者直接输出最佳动作;在训练网络时从经验记忆池中抽取训练样本进行学习,过程如下:
当大量标签数据存储在经验记忆池中后,开始训练神经网络。深度神经网络是替代近似值函数的,用奖励值来进行训练,迭代更新神经网络参数;
定义一个损失函数,L(θ)=E[(TargetQ-Q(s,a;θ))2],θ为网络神经网络参数,通过使用随机梯度下降(SGD)方法更新网络参数,当损失函数收敛以后,深度强化学习模型完成训练;
5)输入网络当前状态和流量源/目的地址以及业务类型,通过深度神经网络的计算输出全局最优路径解;
6)当全局最佳路径确定后,生成新的大象流的转发路由,实现大象流的重路由。
2.根据权利要求1所述的基于强化学习的舰载网络性能自优化方法,其特征在于,所述步骤1)中获取大象流到来时的当前网络状态是利用sFLow技术实施收集网络状态,在边缘交换机检测进入网络的大象流。
3.根据权利要求1所述的基于强化学习的舰载网络性能自优化方法,其特征在于,所述步骤4.1)中强化学习网络需要的输入由4个部分构成:状态s,动作a,状态转移概率P和奖励值r,策略π:S→A表示状态空间到动作空间的映射;工作流程为,t时刻智能体感知环境状态为st,根据策略π执行动作at,环境以一定概率P转移到下个状态st+1,并且同时获得环境对此动作的反馈奖励值rt,通过调整策略π使累积的奖励值最大;
参数状态s由网络链路可用带宽和业务流源/目的地址以及业务类型共同确定,网络所有链路可用带宽组成的矩阵反映出当前网络资源的消耗状态,是用来形容和评价网络状态的一个指标,以此来区分和识别不同时刻的网络状态;
动作空间a由业务流量的所有可行路径组成,当网络拓扑和业务流源/目的地址确定时,确定网络中可行的路径集合,at表示利用奖励函数计算得到最大奖励值所对应的执行动作,即大象流可选的路径集合路中的最优解;
奖励值rt要考虑到链路时延D、可用带宽B、分组丢失率L和带宽利用率U这几个因素,由于各因素之间有正负相关性,分别附上α、β、ω、λ4个不同的权重因子,奖励值的计算公式为:rt=(βB-αD-ωL-λU)×100%;
所述权重因子根据业务类型对网络各个性能参数要求进行选取;
流量调度过程以强化学习模型的形式记录存储下来,每次的流量调度经验以(st,at,st+1,rt)的格式存储在经验记忆池中,等待抽样训练。
4.根据权利要求3所述的基于强化学习的舰载网络性能自优化方法,其特征在于,所述步骤4.1)中累积的奖励值通过下式计算:
Figure FDA0002586125220000031
其中,折扣因子γ∈[0,1],t值越大代表更加未来的状态,在整个式子中,将来的奖励所占的权重要依次递减,越是未来的奖励,权重越小,表明相邻状态的奖励更重要。
5.根据权利要求1所述的基于强化学习的舰载网络性能自优化方法,其特征在于,所述步骤4.1)中权重因子根据业务类型对网络各个性能参数要求进行设置,具体如下:
会话类业务:α>λ>β>ω;
流媒体业务:α>λ>ω>β;
交互类业务:ω>α>β>λ;
数据类业务:ω>β>λ>α。
6.根据权利要求1所述的基于强化学习的舰载网络性能自优化方法,其特征在于,所述网络状态由流量调度前的设定时间的平均值描述,即t时刻前设定时间的样本的平均值。
7.根据权利要求1所述的基于强化学习的舰载网络性能自优化方法,其特征在于,所述流量调度后的网络状态和回报奖励值以流量调度期间的平均值描述。
8.根据权利要求1所述的基于强化学习的舰载网络性能自优化方法,其特征在于,所述步骤4.1)中从经验记忆池中抽取训练样本进行学习为采用二次采样方式从经验记忆池中抽取训练样本进行学习,先根据经验记忆池中历史数据序列的累积回报分布,以设定的大概率选择累积回报大的历史数据序列,然后对选出来的序列,利用TD-error分布来选择训练的样本。
9.根据权利要求1所述的基于强化学习的舰载网络性能自优化方法,其特征在于,所述步骤4)中实时评估流量调度的效果,当效果低于设定阈值,重新训练深度强化学习网络,具体如下:
对比各项评估指标,所述评估指标包括交付成功率、平均端到端时延、网络平均对分带宽和网络链路利用率,若发现流量调度的评估指标低于设定的阈值,或者网络流量产生了新的特征,样本空间出现了新的样本时,重新打开深度强化学习网络的训练功能,使神经网络开始学习新的特征,神经网络会重新收敛。
10.根据权利要求1所述的基于强化学习的舰载网络性能自优化方法,其特征在于,所述步骤5)中实现大象流的重路由,具体如下:当全局最佳路径确定后,控制器会生成新的大象流的转发路由,由拓扑管理模块生成流表项的更新信息,通过OpenFlow协议将流表项需要修改的信息发送到大象流将要经过的交换机;交换机收到控制器指令后,根据更新的流表项将流量转发到新的出端口,实现大象流的重路由。
CN202010681817.5A 2020-07-15 2020-07-15 一种基于强化学习的舰载网络性能自优化方法 Active CN111756634B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010681817.5A CN111756634B (zh) 2020-07-15 2020-07-15 一种基于强化学习的舰载网络性能自优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010681817.5A CN111756634B (zh) 2020-07-15 2020-07-15 一种基于强化学习的舰载网络性能自优化方法

Publications (2)

Publication Number Publication Date
CN111756634A true CN111756634A (zh) 2020-10-09
CN111756634B CN111756634B (zh) 2022-10-14

Family

ID=72710283

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010681817.5A Active CN111756634B (zh) 2020-07-15 2020-07-15 一种基于强化学习的舰载网络性能自优化方法

Country Status (1)

Country Link
CN (1) CN111756634B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112163720A (zh) * 2020-10-22 2021-01-01 哈尔滨工程大学 基于车联网的多智能体无人驾驶电动汽车换电调度方法
CN112600759A (zh) * 2020-12-10 2021-04-02 东北大学 基于深度强化学习在Overlay网络下多路径流量调度方法及系统
CN112822109A (zh) * 2020-12-31 2021-05-18 上海缔安科技股份有限公司 一种基于强化学习的SDN核心网QoS路由优化算法
CN113079044A (zh) * 2021-03-26 2021-07-06 武汉大学 一种基于强化学习的丢包控制方法和计算机设备
CN113094159A (zh) * 2021-03-22 2021-07-09 西安交通大学 一种数据中心作业调度方法、系统、存储介质及计算设备
CN113133038A (zh) * 2021-04-16 2021-07-16 广东电网有限责任公司清远供电局 电力物联网链路备份方法、装置、设备及存储介质
CN113361132A (zh) * 2021-06-28 2021-09-07 浩鲸云计算科技股份有限公司 一种基于深度q学习对决网络的风冷数据中心节能方法
CN113518039A (zh) * 2021-03-03 2021-10-19 山东大学 Sdn架构下基于深度强化学习的资源优化方法及系统
CN114039929A (zh) * 2021-11-08 2022-02-11 深圳市高德信通信股份有限公司 一种业务流量调度的方法和装置
CN114050928A (zh) * 2021-11-10 2022-02-15 湖南大学 一种基于机器学习的sdn流表溢出攻击检测与缓解方法
CN114979014A (zh) * 2022-06-30 2022-08-30 国网北京市电力公司 数据转发路径规划方法、装置以及电子设备
CN115037689A (zh) * 2022-06-06 2022-09-09 西安明赋云计算有限公司 一种网络流量智能调度的方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190123974A1 (en) * 2016-06-23 2019-04-25 Huawei Technologies Co., Ltd. Method for generating routing control action in software-defined network and related device
CN109768940A (zh) * 2018-12-12 2019-05-17 北京邮电大学 多业务sdn网络的流量分配方法及装置
CN110138674A (zh) * 2019-04-29 2019-08-16 广州大学 可编程数据平面流调度方法、系统、介质及网络设备
US20190386913A1 (en) * 2018-06-13 2019-12-19 Futurewei Technologies, Inc. Multipath Selection System and Method for Datacenter-Centric Metro Networks

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190123974A1 (en) * 2016-06-23 2019-04-25 Huawei Technologies Co., Ltd. Method for generating routing control action in software-defined network and related device
US20190386913A1 (en) * 2018-06-13 2019-12-19 Futurewei Technologies, Inc. Multipath Selection System and Method for Datacenter-Centric Metro Networks
CN109768940A (zh) * 2018-12-12 2019-05-17 北京邮电大学 多业务sdn网络的流量分配方法及装置
CN110138674A (zh) * 2019-04-29 2019-08-16 广州大学 可编程数据平面流调度方法、系统、介质及网络设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
倪虹升等: "升级优化高效率的数据中心", 《电脑编程技巧与维护》 *
吴博等: "《 可编程数据平面的业务相关路由方法》", 《计算机工程与应用》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112163720A (zh) * 2020-10-22 2021-01-01 哈尔滨工程大学 基于车联网的多智能体无人驾驶电动汽车换电调度方法
CN112600759A (zh) * 2020-12-10 2021-04-02 东北大学 基于深度强化学习在Overlay网络下多路径流量调度方法及系统
CN112600759B (zh) * 2020-12-10 2022-06-03 东北大学 基于深度强化学习在Overlay网络下多路径流量调度方法及系统
CN112822109A (zh) * 2020-12-31 2021-05-18 上海缔安科技股份有限公司 一种基于强化学习的SDN核心网QoS路由优化算法
CN113518039B (zh) * 2021-03-03 2023-03-24 山东大学 Sdn架构下基于深度强化学习的资源优化方法及系统
CN113518039A (zh) * 2021-03-03 2021-10-19 山东大学 Sdn架构下基于深度强化学习的资源优化方法及系统
CN113094159A (zh) * 2021-03-22 2021-07-09 西安交通大学 一种数据中心作业调度方法、系统、存储介质及计算设备
CN113094159B (zh) * 2021-03-22 2024-04-05 西安交通大学 一种数据中心作业调度方法、系统、存储介质及计算设备
CN113079044A (zh) * 2021-03-26 2021-07-06 武汉大学 一种基于强化学习的丢包控制方法和计算机设备
CN113133038A (zh) * 2021-04-16 2021-07-16 广东电网有限责任公司清远供电局 电力物联网链路备份方法、装置、设备及存储介质
CN113361132A (zh) * 2021-06-28 2021-09-07 浩鲸云计算科技股份有限公司 一种基于深度q学习对决网络的风冷数据中心节能方法
CN114039929A (zh) * 2021-11-08 2022-02-11 深圳市高德信通信股份有限公司 一种业务流量调度的方法和装置
CN114050928B (zh) * 2021-11-10 2023-02-03 湖南大学 一种基于机器学习的sdn流表溢出攻击检测与缓解方法
CN114050928A (zh) * 2021-11-10 2022-02-15 湖南大学 一种基于机器学习的sdn流表溢出攻击检测与缓解方法
CN115037689A (zh) * 2022-06-06 2022-09-09 西安明赋云计算有限公司 一种网络流量智能调度的方法及系统
CN114979014A (zh) * 2022-06-30 2022-08-30 国网北京市电力公司 数据转发路径规划方法、装置以及电子设备

Also Published As

Publication number Publication date
CN111756634B (zh) 2022-10-14

Similar Documents

Publication Publication Date Title
CN111756634B (zh) 一种基于强化学习的舰载网络性能自优化方法
Cherif et al. On using extreme gradient boosting (XGBoost) machine learning algorithm for home network traffic classification
CN108259367B (zh) 一种基于软件定义网络的服务感知的流策略定制方法
CN102315974B (zh) 基于层次化特征分析的tcp、udp流量在线识别方法和装置
CN105871832A (zh) 一种基于协议属性的网络应用加密流量识别方法及其装置
CN101841440B (zh) 基于支持向量机与深层包检测的对等网络流量识别方法
CN110290077B (zh) 一种基于实时业务配置的工业sdn资源分配方法
CN104102700A (zh) 一种面向因特网不平衡应用流的分类方法
CN111371644B (zh) 基于gru的多域sdn网络流量态势预测方法及系统
CN104468567B (zh) 一种网络多媒体业务流识别和映射的系统及方法
CN116743635B (zh) 一种网络预测与调控方法及网络调控系统
CN109471847B (zh) 一种i/o拥塞控制方法及控制系统
CN112532409A (zh) 网络参数配置方法、装置、计算机设备以及存储介质
CN115277574B (zh) 一种sdn架构下数据中心网络负载均衡方法
CN109194498A (zh) 一种基于lstm的网络流量预测方法
CN112949739A (zh) 一种基于智能流量分类的信息传输调度方法及系统
CN113518039B (zh) Sdn架构下基于深度强化学习的资源优化方法及系统
CN105791151A (zh) 一种动态流量控制方法,及装置
Xu et al. DarkTE: towards dark traffic engineering in data center networks with ensemble learning
CN115378876A (zh) 一种sdn环境下数据中心网络负载均衡方法
CN111813556A (zh) 云计算环境下的虚拟集群的弹性伸缩方法
CN116455824A (zh) 基于强化学习的网络流量负载均衡方法
CN113676357B (zh) 面向电力物联网中边缘数据处理的决策方法及其应用
Ahmed et al. Predicting high delays in mobile broadband networks
CN110781950B (zh) 一种报文处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant