CN111756634A

CN111756634A - 一种基于强化学习的舰载网络性能自优化方法

Info

Publication number: CN111756634A
Application number: CN202010681817.5A
Authority: CN
Inventors: 罗威; 江昊; 吴静; 朱博; 肖鹏博
Original assignee: China Ship Development and Design Centre
Current assignee: China Ship Development and Design Centre
Priority date: 2020-07-15
Filing date: 2020-07-15
Publication date: 2020-10-09
Anticipated expiration: 2040-07-15
Also published as: CN111756634B

Abstract

本发明公开了一种基于强化学习的舰载网络性能自优化方法，该方法包括以下步骤：1)实时对数据流量的网络状态进行监控并收集网络状态，获取大象流到来时的当前网络状态；2)识别数据流量的业务类型；3)对流表项Action字段进行统计得到大象流的业务流源/目的地址，确定调度路径集合；4)将大象流的网络状态、流量的业务类型和调度路径集合作为输入，训练深度强化学习模型；4)通过深度神经网络的计算输出全局最优路径解；5)当全局最佳路径确定后，生成新的大象流的转发路由，实现大象流的重路由。本发明根据网络当前状态和业务流量信息为大象流计算出全局最佳路径，完成对大象流的重路由，能有效提高网络资源的利用率。

Description

一种基于强化学习的舰载网络性能自优化方法

技术领域

本发明涉及网络技术，尤其涉及一种基于强化学习的舰载网络性能自优化方法。

背景技术

舰船网络中，业务种类繁多，如动力监控系统，电力监控系统，损管监控系统，全舰装备保障管理系统，驾控系统等。传统网络架构中，链路利用率低下，网络难以进行有效的监管和控制，主要由于核心的网络层协议缺乏扩展，并与响应的硬件设备紧密耦合，导致网络在QoS整合，边缘用户随时接入和网络深度管理与运维方面上暴露的大量问题。网络中发生拥塞、分组丢包等现象的一个主要原因是因为，这些网络大流量没有得到很好的调度而在链路上发生了碰撞，长时间的占用了其他要经过此链路的流量的带宽资源。对于这种大量、持续传递数据的过程，人们将其形象的称之为大象流。与大象流相对的是老鼠流的概念，老鼠流是指通过网络链路进行少量、短时间的数据传递过程，其中大象流需要高带宽而老鼠流需要低延迟，这两种类型的数据流可能会产生冲突。

软件定义网络技术可以获得端到端网络流的可见性并能对流量进行有效的分析，因此能够识别大象流和老鼠流，但是只利用SDN控制器监测流量会严重增加控制器的工作量。近年来研究人员提出了多种大象流监测方法，主要包括：基于主机的检测方法、采样检测方法、聚合统计消息检测、基于分类器的检测。其中，基于主机的检测方法在终端主机上对流量进行查看，能够以较低的开销获得较高的检测效率，但是在主机上检测大象流不利于大象流的调度，从而影响整个网络的性能。采样检测方法通过使用分组采样来区分大象流和老鼠流，但是需要发送更多控制消息来通知所有相关设备，增加了系统开销。聚合统计消息检测方法通过对每个数据流的源和目标IP地址映射到二维空间，然后使用聚合请求的方式来获取统计数据，直到大象流在相对较小的区域内被隔离，能够降低带宽消耗，但是在大象流集中在某一区域内需要划分区域，增加了检测复杂度。基于分类器的检测方法在交换机和控制器上运行两个分类器来检测大象流，能够提高大象流的检测精度，但同时影响了检测效率。

发明内容

本发明要解决的技术问题在于针对现有技术中的缺陷，提供一种基于强化学习的舰载网络性能自优化方法，实现舰船网络内的大象流的监测和重路由。

本发明解决其技术问题所采用的技术方案是：一种基于强化学习的舰载网络性能自优化方法，包括以下步骤：

1)实时对数据流量的网络状态进行监控并收集网络状态，获取大象流到来时的当前网络状态；所述网络状态包括链路时延、分组丢失率、链路带宽利用率；

2)通过对流表分组头域中的ToS字段进行分析，识别数据流量的业务类型；所述业务类型包括会话类业务、流媒体业务、交互类业务和数据类业务；

3)对流表项Action字段进行统计得到大象流的源地址和目的地址，确定调度路径集合；所述路径集合决定了业务流量在网络中的所有可行路径范围。

4)将大象流的网络状态、流量的业务类型和调度路径集合作为输入，训练深度强化学习模型，获得调度路径的最优选择；

4.1)将大象流的网络状态、流量的业务类型和调度路径集合(源地址与目的地址)信息按照深度强化学习网络需要的输入格式进行整理，存入经验记忆池中；

强化学习系统由4个部分构成：状态s，动作a，状态转移概率P和奖励值r，策略π：S→A表示状态空间到动作空间的映射；工作流程为，t时刻智能体感知环境状态为s_t，根据策略π执行动作a_t，环境以一定概率P转移到下个状态s_t+1，并且同时获得环境对此动作的反馈奖励值r_t，通过调整策略π使累积的奖励值最大；

参数状态s由网络链路可用带宽和业务流源/目的地址以及业务类型共同确定，网络所有链路可用带宽组成的矩阵反映出当前网络资源的消耗状态，是用来形容和评价网络状态的一个指标，以此来区分和识别不同时刻的网络状态。

动作空间a由业务流量的所有可行路径组成，当网络拓扑和业务流源/目的地址确定时，确定网络中可行的路径集合，a_t表示利用奖励函数计算得到最大奖励值所对应的执行动作，即大象流可选的路径集合路中的最优解。

奖励值r_t要考虑到链路时延D、可用带宽B、分组丢失率L和带宽利用率U这几个因素，由于各因素之间有正负相关性，分别附上α、β、ω、λ4个不同的权重因子，奖励值的计算公式为：r_t＝(βB-αD-ωL-λU)×100％；

所述权重因子根据业务类型对网络各个性能参数要求进行选取；

流量调度过程以强化学习模型的形式记录存储下来，每次的流量调度经验以(s_t,a_t,s_t+1,r_t)的格式存储在经验记忆池中，等待抽样训练；

4.2)在强化学习中，通过给大量带有标签的数据训练神经网络，实现输入状态s，由神经网络输出积累回报Q值或者直接输出最佳动作；在训练网络时从经验记忆池中抽取训练样本进行学习，过程如下：

当大量标签数据存储在经验记忆池中后，开始训练神经网络。深度神经网络是替代近似值函数的，用奖励值来进行训练，迭代更新神经网络参数；

定义一个损失函数，L(θ)＝E[(TargetQ-Q(s,a；θ))²]，θ为网络神经网络参数，通过使用随机梯度下降(SGD)方法更新网络参数，当损失函数收敛以后，深度强化学习模型完成训练；

4)输入网络当前状态和流量源/目的地址以及业务类型，通过深度神经网络的计算输出全局最优路径解；

5)当全局最佳路径确定后，生成新的大象流的转发路由，实现大象流的重路由。

按上述方案，所述步骤1)中获取大象流到来时的当前网络状态是利用sFLow技术实施收集网络状态，在边缘交换机检测进入网络的大象流。

按上述方案，所述步骤4.1)中累积的奖励值通过下式计算：

其中，折扣因子γ∈[0,1]，t值越大代表更加未来的状态。在整个式子中，将来的奖励所占的权重要依次递减，越是未来的奖励，权重越小，因此也表明相邻状态的奖励更重要；

按上述方案，所述步骤4.1)中权重因子根据业务类型对网络各个性能参数要求进行设置，具体如下：

会话类业务：α＞λ＞β＞ω；

流媒体业务：α＞λ＞ω＞β；

交互类业务：ω＞α＞β＞λ；

数据类业务：ω＞β＞λ＞α。

按上述方案，所述网络状态由流量调度前的设定时间的平均值描述，即t时刻前设定时间的样本的平均值。

按上述方案，所述流量调度后的网络状态和回报奖励值以流量调度期间的平均值描述。

按上述方案，所述步骤4.1)中从经验记忆池中抽取训练样本进行学习为采用二次采样方式从经验记忆池中抽取训练样本进行学习，先根据经验记忆池中历史数据序列的累积回报分布，以设定的大概率选择累积回报大的历史数据序列，然后对选出来的序列，利用TD-error分布来选择训练的样本。

按上述方案，所述步骤4)中实时评估流量调度的效果，当效果低于设定阈值，重新训练深度强化学习网络，具体如下：

对比各项评估指标，所述评估指标包括交付成功率、平均端到端时延、网络平均对分带宽和网络链路利用率，若发现流量调度的评估指标低于设定的阈值，或者网络流量产生了新的特征，样本空间出现了新的样本时，重新打开深度强化学习网络的训练功能，使神经网络开始学习新的特征，神经网络会重新收敛。

实时评估流量调度的效果，当效果低于设定阈值，重新训练深度强化学习网络。

按上述方案，所述步骤5)中实现大象流的重路由，具体如下：当全局最佳路径确定后，控制器会生成新的大象流的转发路由，由拓扑管理模块生成流表项的更新信息，通过OpenFlow协议将流表项需要修改的信息发送到大象流将要经过的交换机；交换机收到控制器指令后，根据更新的流表项将流量转发到新的出端口，实现大象流的重路由。

本发明产生的有益效果是：

通过根据流表的头域信息对流量进行业务分类，采用DQN算法对大象流路径选择问题进行建模，根据历史数据的经验记忆池中抽样学习，算法收敛后，控制器可根据网络当前状态和业务流量信息为大象流计算出全局最佳路径，向交换机发送流表项的更新消息，完成对大象流的重路由，提高网络资源的利用率，避免拥塞和丢包等现象。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例的方法流程图；

图2是本发明实施例的深度神经网络训练流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，一种基于强化学习的舰载网络性能自优化方法，包括以下步骤：

采用sFlow工具实时对网络状态进行监控，通过sFlow数据库进行读取大象流到来时的当前网络状态信息；

对大象流进行调度需要针对不同网络业务的流量采用不同的调度策略，所以将流量类型分为会话类业务、流媒体业务、交互类业务、数据类业务。

强化学习系统由4个部分构成：状态s，动作a，状态转移概率P和奖励值r，策略π：S→A表示状态空间到动作空间的映射；工作流程为，t时刻智能体感知环境状态为s_t，根据策略π执行动作a_t，环境以一定概率P转移到下个状态s_t+1，并且同时获得环境对此动作的反馈奖励值r_t，通过调整策略π使累积的奖励值最大，其表达式为：

其中，折扣因子γ∈[0,1]，t值越大代表更加未来的状态。在整个式子中，将来的奖励所占的权重要依次递减，越是未来的奖励，权重越小，因此也表明相邻状态的奖赏更重要；

权重因子根据业务类型对网络各个性能参数要求进行设置，具体如下：

会话类业务：α＞λ＞β＞ω；

流媒体业务：α＞λ＞ω＞β；

交互类业务：ω＞α＞β＞λ；

数据类业务：ω＞β＞λ＞α。

4.2)在强化学习中，通过给大量带有标签的数据训练神经网络，实现输入状态s，由神经网络输出积累回报Q值或者直接输出最佳动作；深度神经网络是替代近似值函数的，用奖励值来进行训练，迭代更新神经网络参数。流程如图2所示。

在训练网络时从经验记忆池中抽取训练样本进行学习，过程如下：

采用经验回放的方法，使强化学习和深度学习的结合成为可能。在强化学习的结构中，用深度神经网络来代替价值函数，解决了模型状态空间维度高，样本空间大的问题。然后通过在经验回放中随机均匀采样，打破了训练样本之间的相关性；同时，采用过去的多个样本做平均，也平滑了训练样本分布，减缓了样本分布变化的问题。在经验回放中，将多个episode过程中，智能体每一步动作产生的经验(s_t，a_t，s_t+1，r_t)，存入一个经验记忆池中，在算法的参数更新循环里，对记忆池里的样本进行随机采样或批量随机采样，通过固定算法对模型进行参数更新。

本方法中，深度强化学习的参数状态s由网络链路可用带宽和业务流源/目的地址以及业务类型共同确定，动作a由大象流可选的路径集合构成，回馈r由流量业务类型以及多种网络性能参数决定。当控制器完成一次大象流的调度时，就会在经验记忆池中存入一条经验。最后训练网络时，从经验记忆池进行经验抽取。

上述过程中，网络状态由流量调度前的设定时间的平均值描述，即t时刻前设定时间的样本的平均值，比如两个样本；流量调度后的网络状态和回报奖励值以流量调度期间的平均值描述。因为流量调度后的网络状态和回报奖励值会反映这次选择的动作是否合理，是否将网络引入到下一个较好的状态，因此只取瞬时值将会损失大量网络信息。

当损失函数收敛以后，这个深度强化学习模型便可放在控制器中用来做流量调度决策了，通过输入网络当前状态和流量源/目的地址以及业务类型，便可以通过深度神经网络的计算输出全局最优路径解。

具体如下：当全局最佳路径确定后，控制器会生成新的大象流的转发路由，由拓扑管理模块生成流表项的更新信息，通过OpenFlow协议将流表项需要修改的信息发送到大象流将要经过的交换机；交换机收到控制器指令后，根据更新的流表项将流量转发到新的出端口，实现大象流的重路由。

通过控制器向需要修改的交换机发送“OFPFC_MODIFY”信息，直接对原有的流表项进行修改，将流表项中的匹配动作Action字段改成将数据包从新的端口发送。交换机收到控制器的“OFPFC_MODIFY”消息后，开始在流表中查找匹配的流表项，成功匹配后按照“OFPFC_MODIFY”指令更新流表项，如果匹配失败，则交换机会向流表中增加一条流表项，包含指定Action和匹配字段。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于强化学习的舰载网络性能自优化方法，其特征在于，包括以下步骤：

3)对流表项Action字段进行统计得到大象流的源地址和目的地址，确定调度路径集合；所述调度路径集合决定了业务流量在网络中的所有可行路径范围；

4)将大象流的网络状态、流量的业务类型和调度路径集合作为输入，训练深度强化学习模型，获得调度路径的深度强化学习模型；

4.1)将大象流的网络状态、流量的业务类型和调度路径集合信息按照深度强化学习网络需要的输入格式进行整理，存入经验记忆池中；

5)输入网络当前状态和流量源/目的地址以及业务类型，通过深度神经网络的计算输出全局最优路径解；

6)当全局最佳路径确定后，生成新的大象流的转发路由，实现大象流的重路由。

2.根据权利要求1所述的基于强化学习的舰载网络性能自优化方法，其特征在于，所述步骤1)中获取大象流到来时的当前网络状态是利用sFLow技术实施收集网络状态，在边缘交换机检测进入网络的大象流。

3.根据权利要求1所述的基于强化学习的舰载网络性能自优化方法，其特征在于，所述步骤4.1)中强化学习网络需要的输入由4个部分构成：状态s，动作a，状态转移概率P和奖励值r，策略π：S→A表示状态空间到动作空间的映射；工作流程为，t时刻智能体感知环境状态为s_t，根据策略π执行动作a_t，环境以一定概率P转移到下个状态s_t+1，并且同时获得环境对此动作的反馈奖励值r_t，通过调整策略π使累积的奖励值最大；

参数状态s由网络链路可用带宽和业务流源/目的地址以及业务类型共同确定，网络所有链路可用带宽组成的矩阵反映出当前网络资源的消耗状态，是用来形容和评价网络状态的一个指标，以此来区分和识别不同时刻的网络状态；

动作空间a由业务流量的所有可行路径组成，当网络拓扑和业务流源/目的地址确定时，确定网络中可行的路径集合，a_t表示利用奖励函数计算得到最大奖励值所对应的执行动作，即大象流可选的路径集合路中的最优解；

流量调度过程以强化学习模型的形式记录存储下来，每次的流量调度经验以(s_t,a_t,s_t+1,r_t)的格式存储在经验记忆池中，等待抽样训练。

4.根据权利要求3所述的基于强化学习的舰载网络性能自优化方法，其特征在于，所述步骤4.1)中累积的奖励值通过下式计算：

其中，折扣因子γ∈[0,1]，t值越大代表更加未来的状态，在整个式子中，将来的奖励所占的权重要依次递减，越是未来的奖励，权重越小，表明相邻状态的奖励更重要。

5.根据权利要求1所述的基于强化学习的舰载网络性能自优化方法，其特征在于，所述步骤4.1)中权重因子根据业务类型对网络各个性能参数要求进行设置，具体如下：

会话类业务：α＞λ＞β＞ω；

流媒体业务：α＞λ＞ω＞β；

交互类业务：ω＞α＞β＞λ；

数据类业务：ω＞β＞λ＞α。

6.根据权利要求1所述的基于强化学习的舰载网络性能自优化方法，其特征在于，所述网络状态由流量调度前的设定时间的平均值描述，即t时刻前设定时间的样本的平均值。

7.根据权利要求1所述的基于强化学习的舰载网络性能自优化方法，其特征在于，所述流量调度后的网络状态和回报奖励值以流量调度期间的平均值描述。

8.根据权利要求1所述的基于强化学习的舰载网络性能自优化方法，其特征在于，所述步骤4.1)中从经验记忆池中抽取训练样本进行学习为采用二次采样方式从经验记忆池中抽取训练样本进行学习，先根据经验记忆池中历史数据序列的累积回报分布，以设定的大概率选择累积回报大的历史数据序列，然后对选出来的序列，利用TD-error分布来选择训练的样本。

9.根据权利要求1所述的基于强化学习的舰载网络性能自优化方法，其特征在于，所述步骤4)中实时评估流量调度的效果，当效果低于设定阈值，重新训练深度强化学习网络，具体如下：

10.根据权利要求1所述的基于强化学习的舰载网络性能自优化方法，其特征在于，所述步骤5)中实现大象流的重路由，具体如下：当全局最佳路径确定后，控制器会生成新的大象流的转发路由，由拓扑管理模块生成流表项的更新信息，通过OpenFlow协议将流表项需要修改的信息发送到大象流将要经过的交换机；交换机收到控制器指令后，根据更新的流表项将流量转发到新的出端口，实现大象流的重路由。