CN109218441B

CN109218441B - 一种基于预测和区域划分的p2p网络动态负载均衡方法

Info

Publication number: CN109218441B
Application number: CN201811215367.XA
Authority: CN
Inventors: 叶麟; 余翔湛; 张宏莉; 刘飞扬; 赵俊达; 刘立坤; 顾旭; 张元禛; 葛蒙蒙
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2018-10-18
Filing date: 2018-10-18
Publication date: 2021-05-11
Anticipated expiration: 2038-10-18
Also published as: CN109218441A

Abstract

一种基于预测和区域划分的P2P网络动态负载均衡方法属于网络文件传输领域；包括获取节点资源利用率；判断节点资源利用率是否超过高负载区阈值，若是，执行步骤e，若否，执行步骤c；根据节点当前文件访问情况预测接下来的访问量；判断文件是否成为热点文件，若是，执行步骤e，若否，执行步骤a；向周围节点广播获取周围节点负载信息；判断是否处在高负载区域，若是，执行高负载区域负载均衡模块，若否，执行低负载区域负载均衡模块；服务器建立热点文件副本，进行步骤a；本发明能够很好地实现实际系统网络的负载均衡。

Description

一种基于预测和区域划分的P2P网络动态负载均衡方法

技术领域

本发明属于网络文件传输领域，尤其涉及一种基于预测和区域划分的P2P网络动态负载均衡方法。

背景技术

如今，高速发展的互联网已经成为生活中不可或缺的一部分，通过P2P网络的文件分发数据量也在不断增大，大规模的文件分发对P2P网络的整体的负载均衡带来了较大的影响，所以，对于P2P网络来说，负载均衡是一个需要解决的问题。

现有的结构化P2P网络的负载均衡策略虽然也有涉及热点预测的，但其对于负载迁移节点的选择不具有很强的明确性，且对节点的性能兼顾不全面，且多是通过模式网络测试性能。

对于已有的按照节点负载区域情况进行负载均衡的算法，多是采用实际节点与虚拟节点相结合的策略，没有兼顾实际情况可能发生的情况，在实际运行中，很少有多个虚拟节点运行在同一个实际节点上的情况。

发明内容

本发明克服了上述现有技术的不足，提供一种基于预测和区域划分的P2P网络动态负载均衡方法，本发明运行在实际运行的文件分发系统之上，兼顾热点文件预测和节点区域负载划分，能够很好地实现实际系统网络的负载均衡。

本发明的技术方案：

一种基于预测和区域划分的P2P网络动态负载均衡方法，包括以下步骤：

步骤a、获取节点资源利用率；

步骤b、判断节点资源利用率是否超过高负载区阈值，若是，执行步骤e，若否，执行步骤c；

步骤c、根据节点当前文件访问情况预测接下来的访问量；

步骤d、判断文件是否成为热点文件，若是，执行步骤e，若否，执行步骤a；

步骤e、向周围节点广播获取周围节点负载信息；

步骤f、判断是否处在高负载区域，若是，执行高负载区域负载均衡模块，若否，执行低负载区域负载均衡模块；

步骤g、服务器建立热点文件副本，进行步骤a。

进一步地，当所述节点资源利用率超过高负载区阈值时，采用局部负载均衡信息收集方法，包括下列步骤：

步骤b1、当节点根据预测模型预测到产生热点文件或者节点负载值高于高负载区阈值时，节点向周围节点分发广播信息，查询周围节点负载情况；

步骤b2、当节点接收到周围负载请求信息后，立即读取自身系统的负载情况，如果节点利用率高于高负载区阈值，则跳转至步骤b3；如果节点利用率低于高负载区阈值，则将节点信息、路由跳数反馈给负载信息请求节点，并在传输信息包中包含一个本节点发送信息包的时间戳；

步骤b3、如果所述接收节点为路由跳数的最后一跳接收节点，则丢弃所述信息包；否则，将路由跳数信息TTL-K信息减一，然后继续向周围节点广播。

进一步地，所述根据节点当前文件访问情况预测接下来的访问量的方法包括以下步骤：

步骤c1、节点统计分析单位区段时间内每个文件的访问次数，获得时间序列x₁,x₂,…,x_n；

步骤c2、如果节点文件访问次数大于阈值

则计算节点计算文件访问次数对应的下个时间段内的访问值x_t+T；

步骤c3、如果节点预测访问值x_t+T大于热点文件阈值Ψ，则进行步骤c4；否则跳至步骤c1；

步骤c4、节点请求周围节点负载信息，跳至步骤c1。

进一步地，所述服务器建立热点文件副本通过下列公式计算最佳副本建立节点，所述公式包括：

如上式所示，μ₁、μ₂、μ₃为三个用户可调参数，用于匹调节不同指标所占的运算比例，μ₁、μ₂、μ₃满足

且

ts表示链路延迟，k表示链路路由跳数，

表示节点利用率，上式应用于近距离节点的迁移选择策略；

且

ts表示链路延迟，k表示链路路由跳数，

表示节点利用率，应用于远距离节点的迁移选择策略。

进一步地，所述执行高负载区域负载均衡模块的方法包括下列步骤：

步骤f11、高负载区中的中心节点向周围发送TTL-K消息，请求周围节点信息，其中K初始值设置为1；

步骤f12、当节点接收到请求消息后，检查本节点的资源利用率是否超过高负载区阈值，如果节点负载超过了高负载区阈值，则把所述节点的负载迁移优先级列表转发给信息请求节点；否则不做处理；将路由跳数K减1，如果K小于1，则丢弃所述节点的负载迁移优先级列表，否则转发所述请求；

步骤f13、将TTL-K中的K＝K+1，若K值大于之前的TTL-K中初始化K值，则终止本算法，否则跳转到步骤f12；

步骤f14、高负载区中心节点接收到反馈消息后，建立负载中心节点迁移优先级列表，将优先迁移列表和节点当前的热点文件信息发送给二级服务器；

步骤f15、二级服务器取出这些节点，向这些节点发送请求，获取这些节点的负载信息以及链路时延ts，使用公式9计算这些节点的迁移性能E，计算获得迁移性能E最好的n个节点，向这些节点备份分发高负载节点中的热点文件。

进一步地，所述执行低负载区域负载均衡模块的方法包括下列步骤：

步骤f21、取出链表中前N个节点，将这些节点信息发送个二级服务器；

步骤f22、二级服务器向取出这些节点中的前n个节点，向这些节点发送请求，获取这些节点的负载信息以及链路延时ts，使用公式8计算这些节点的迁移性能W；

步骤f23、选取计算结果中迁移性能W最好节点即W最小值，并读取下一个链表节点，计算所述节点的迁移性能W，如果新计算节点的迁移性能W劣于之前最优节点，即新计算节点迁移性能W大于之前最优节点，则执行步骤f24，否则，执行步骤f23；

步骤f24、二级服务器向所述节点备份分发高负载节点中的热点文件，同时所述节点向高负载节点请求热点文件。

本发明相对于现有技术具有以下有益效果：

本发明公开了一种基于预测和区域划分的P2P网络动态负载均衡方法，本发明对于负载迁移节点的选择具有很强的明确性，且对节点的性能兼顾非常全面，在实际运行中，有多个虚拟节点运行在同一个实际节点上的情况；提升了P2P网络在分发文件时的整体分发效率；降低了分发过程中整个系统高负载节点的比例；降低了文件分发时间轴中段的服务请求响应时间；同时能够使高负载节点的负载率在负载均衡下较无负载均衡有一个峰值下降。

本发明运行在实际运行的文件分发系统之上，兼顾热点文件预测和节点区域负载划分，能够很好地实现实际系统网络的负载均衡,对P2P网络分发中、大规模文件时提供明显的增益，P2P网络高负载节点比例降低，提供更快的服务响应，减少了分发时间。

附图说明

图1是本发明流程图；

图2是节点过载率对比图；

图3是资源平均相应时间图；

图4是高负载节点负载波动图。

具体实施方式

以下将结合附图对本发明进行详细说明。

具体实施方式一

一种基于预测和区域划分的P2P网络动态负载均衡方法，如图1所示，包括以下步骤：

步骤a、获取节点资源利用率；

步骤c、根据节点当前文件访问情况预测接下来的访问量；

步骤e、向周围节点广播获取周围节点负载信息

步骤g、服务器建立热点文件副本，进行步骤a。

如图1所示，本发明将热点文件预测与节点所在区域划分结合起来，共同实现系统的负载均衡。本发明的热点文件预测使用的是三次指数平滑模型，通过节点接收到文件访问时间序列预测接下来的文件访问量，根据预测访问量判断文件是否会成为热点文件。当节点当前负载超过阈值或者会预测产生热点文件时，会向周围节点广播信息，判断节点所在的区域为高负载区域还是低负载区域，根据所在区域的不同使用不同的节点选择策略。当选择完成负载迁移节点时，由二级服务器向该节点传输热点文件，建立负载迁移节点。

指数平滑模型是一种基于连续时间数据，用于预测中短期发展趋势的一种预测模型。其中，依据参数的运算次数，又可分为单次指数平滑，二次指数平滑和三次指数平滑。单指数平滑的参数经过一次运算产生，适合简单平稳的时间序列，因为函数简单平稳，故经常在趋势明显时使用。二次指数平滑相较于一次指数平滑复杂，但曲线还是具有斜率，适合有一定趋势的曲线预测。三次指数平滑运算最复杂，曲线也最复杂，是一条曲线，适合描述周期性和波动性的事物。而结构化P2P网络的传输请求具有波动性，所以选用三指数平滑法作为本发明的热点文件预测函数。

三指数平滑模型如下：

设时间序列为：x₁,x₂,…,x_n，三指数平滑公式如下：

在公式1中，x_t为时间点t观测到的数值；α为平滑系数，α的取值范围为(0,1)；

为时间t时刻的i次平滑值，

为时间t-1时刻的i次平滑值。

用于预测未来T个时间点之后的值x_t+T的计算公式为：

x_t+T＝A_T+B_TT+C_TT² (公式2)

在公式2中，含有三个参数A_T，B_T，C_T，是三个时间参数，它们的值采用如下公式计算：

上面介绍了参数的求值，还需要确定函数的初值和平滑系数α的取值。函数初值可采用如下公式：

当数据量较少时，n通常取3，随着时间的持续，初值的影响会越来越小。平滑系数α的取值决定了预测的准确性，α越小曲线波动越小，α越大，曲线波动越大，可以采用预测值与标准值方差的形式来调整平滑系数α的取值。预测值与标准值的方差公式如下：

如上公式所示，方差越小，预测越准确。

定义1(预测阈值)采用三次指数平滑模型分析预测值，预测值使用

表示。

定义2(高负载预测阈值)预测高负载的请求文件的区分值，用Ψ表示，超过该区分值表示该文件为造成高负载的文件，也称热点文件。

定义3(高负载区与低负载区)指定以某一节点为中心的K跳路由距离的区域中至多有N节点负载低于节点高负载阈值时该区域为高负载区，该中心节点为高负载区中心节点。为了区分高负载区与低负载区的负载均衡阈值，将高负载区的阈值称为高负载区阈值，将低负载区的阈值称为低负载区阈值，显然高负载区阈值应当小于低负载区阈值。

具体实施方式二

在将三次指数平滑算法与结构化P2P网络相结合，对热点文件进行预测时，需要在每一个节点都进行各自的文件热度运算。节点周期性的记录当前区间内文件的请求访问情况，记录后交给算法进行分析。当前请求结果高于阈值

时，计算热点文件预测值x_t+T，如果预测值x_t+T大于热点文件阈值Ψ(高负载区阈值与低负载区阈值不同，这里统一用Ψ表示)，这一节点请求周围节点负载信息。

在具体实施方式一的基础上，当所述节点资源利用率超过高负载区阈值时，采用局部负载均衡信息收集方法，包括下列步骤：

步骤b3、如果所述接收节点为路由跳数的最后一跳接收节点，则丢弃该广播包；否则，将路由跳数信息TTL-K信息减一，然后继续向周围节点广播。

基于三次指数平滑算法的热点文件预测算法是一种带有预测性质的行为，预测过程分散在每一个终端节点，每个节点运算的时间复杂度为O(lg m)，空间复杂度为O(m)，m为收到的请求文件数量，计算量较小。与负载超过阈值时才进行负载调度的算法相比，本方法能够更早的解决问题，从而缓解问题，减少出现高负载的情况，提高了系统的可靠性。

具体实施方式三

在节点进入高负载状态，即节点利用率高于高负载区阈值时，高负载节点向周围网络广播K跳路由信息，请求周围节点的负载情况，计算节点是否在高负载区域之中。当周围节点接收到负载请求信息时，节点检测本身节点的节点利用率，若节点为低负载状态，即节点利用率小于高负载区阈值时，节点向状态请求者返回节点的基本信息，并返回一个时间戳用以计算链路时延，同时，将路由跳数K减一，向其周围节点广播请求；若节点处于高负载状态，则只在处理路由跳数后转发消息，不回复消息。

在具体实施方式二的基础上，所述根据节点当前文件访问情况预测接下来的访问量的方法包括以下步骤：

步骤c2、如果节点文件访问次数大于阈值

步骤c4、节点请求周围节点负载信息，跳至步骤c1。

在节点广播请求消息后，等待所有反馈，即可获得路由跳数为K的区域范围内节点利用率小于高负载区域阈值的节点负载利用率和两节点之间的链路延迟ts等信息。

具体实施方式四

在具体实施方式三的基础上，所述服务器建立热点文件副本通过下列公式计算最佳副本建立节点，所述公式包括：

且

ts表示链路延迟，k表示链路路由跳数，

表示节点利用率，上式应用于近距离节点的迁移选择策略；运算值W越小，表示节点副本建立结果越优秀；

且

ts表示链路延迟，k表示链路路由跳数，

表示节点利用率，应用于远距离节点的迁移选择策略；运算值E越小，表示在节点建立副本的效果越好。

一个节点最大可以接收到N＝m(m^k-1)/(m-1)个节点的反馈，同时文献还指出该过程的时间复杂度为O(lg N)，空间复杂度O(N)。经过测试发现，在将路由跳数设置为3时，将收到回复数设置为4时，测试效果较为理想。

具体实施方式五

当节点通过反馈消息判断自身位于高负载区，即返回的消息数小于4时，执行高负载区敷在迁移策略。面对高负载区域，应当将节点负载尽量迁移至较远的节点，以降低区域高负载节点的数量，降低区域的网络拥塞程度；同时，尽量将节点迁移至较远的节点，也可以降低节点之间互相迁移负载的可能性。迁移过程由负载中心节点将迁移节点发送至二级服务器，由二级服务器选择负载迁移节点，在负载迁移节点建立热点文件副本，使得负载迁移由高负载区的负载中心向外迁移，使得区域由高负载区域转变为低负载区域。

在具体实施方式五的基础上，所述执行高负载区域负载均衡模块的方法包括下列步骤：

步骤f12、当节点接收到请求消息后，检查本节点的资源利用率是否超过高负载区阈值，如果节点负载超过了高负载区阈值，则把该节点的负载迁移优先级列表转发给信息请求节点；否则不做处理。将路由跳数K减1，如果K小于1，则丢弃该包，否则转发该请求；

步骤f13、将TTL-K中的K＝K+1，若K值大于之前的TTL-K中初始化K值，则终止该算法，否则跳转到步骤f12；

步骤f15、二级服务器取出这些节点，向这些节点发送请求，获取这些节点的负载信息以及链路时延ts，使用公式2计算这些节点的迁移性能E，计算获得迁移性能E最好的n个节点，向这些节点备份分发高负载节点中的热点文件。

上述算法中，K通常取3，将迁移控制在较小范围内，避免广播范围过大会造成计算过于复杂和交互过多的问题。对于所有节点，高负载区负载迁移节点选择算法的时间复杂度为O(N)，空间复杂度为O(N)，其中N为收到的反馈的数量。本发明中n通常设置为拥有热点文件数目与高负载节点数目和的一半。

具体实施方式六

当节点负载超过高负载区阈值或者预测产生热点文件时，向周围节点请求到了周围节点的负载信息。这时，如果节点的节点利用率没有到达低负载区阈值，则不作处理；否则执行低负载区敷在迁移策略。有文献指出，想要实现P2P网络的完全负载均衡，这是一个NP完全问题。

当节点出现高负载或者预测到将有热点文件产生时，该节点从存储链表中取出W值最小的N个节点并读取该物理节点信息、负载信息，将这些节点信息发送给二级服务器，二级服务器根据这些节点信息，获取前n个节点的信息，向这些节点发送请求，获取这些节点的负载信息、链路延迟等相关信息，计算这些节点的迁移性能W。取出链表中的下一个节点，计算取出节点的迁移性能W，比较取出节点与之前最优节点的迁移性能W，直到新取出节点的迁移性能W低于之前最优节点的迁移性能W或者全部节点都已经读取完成，向最优节点分发高负载节点中的热点文件。

在具体实施方式五的基础上，所述执行低负载区域负载均衡模块的方法包括下列步骤：

步骤f22、二级服务器向取出这些节点中的前n个节点，向这些节点发送请求，获取这些节点的负载信息以及链路延时ts，使用公式1计算这些节点的迁移性能W；

步骤f23、选取计算结果中迁移性能W最好节点即W最小值，并读取下一个链表节点，计算该节点的迁移性能W，如果新计算节点的迁移性能W劣于之前最优节点，即新计算节点迁移性能W大于之前最优节点，则执行步骤f24，否则，执行步骤f23；

步骤f24、二级服务器向该节点备份分发高负载节点中的热点文件，同时该节点向高负载节点请求热点文件。

经过分析可以得出，对于终端节点，低负载区负载迁移节点选择算法的时间复杂度为O(1)，空间复杂度为O(N)，其中N为终端节点收集的周围节点负载信息；对于服务器节点，低负载区负载迁移节点选择算法的时间复杂度为O(N)，空间复杂度为O(N)，其中N为接收到终端节点反馈的迁移备选节点的数量。上述算法中节点抽取常数通常为4，可以满足迭代速度与效益效果之间的平衡。在节点周围建立新的副本节点，使二级节点与高负载节点同时向该节点迁移副本文件，使得该节点能够快速的建立新的副本节点，同时有利用了节点所在区域网络拥塞程度不高的优势，实现了副本的快速建立，之后副本节点与原节点同时提供服务，负载可以实现快速分担，从而完成系统的负载均衡。

具体实施方式七

在具体实施方式一至六的基础上，本实施例采用以下几个性能指标来衡量本发明的性能：

1、节点过载率：描述整个网络中的过载节点的比例，公式如下：

OverloadRate＝N_{overload_node}÷N_total (公式10)

在上述公式中，N_{overload_node}为负载超过阈值的节点数量，N_total为所有在线节点的数量。

2、资源平均响应时间：单一节点从请求资源到接收完成资源所用的时间。公式如下：

上述公式中，N_total为所有请求节点的数目，t(i)_{distribute_end}为单一节点接收完成的时刻，t(i)_{distribute_start}为单一节点开始接收的时刻。这里主要测试的是对热点文件请求的平均响应时间，这一指标反映了节点负载迁移的整体效率。

3、高负载节点负载波动：节点在高负载情况下，负载波动情况。该指标反映了负载迁移策略对单一节点的调节效率。

本实施例通过程序连续分发5个200MB文件，分析不使用负载均衡算法和使用负载均衡的情况下，节点的过载情况。节点过载率如图2所示。

图2展示了节点过载率随时间的变化情况。从图中可以看出，对于开启了负载均衡模块的程序，在系统运行开始后不久，热点文件预测模块就预测到了热点文件的产生。之后，系统调用负载均衡策略，此时过载节点应该是处于非高负载区中的，迁移策略在节点周围建立副本策略，区域中的过载节点降低，之后一直处于小幅波动状态。而对于没有开启负载均衡模块的程序，在程序运行后，由于对个别文件的请求增加，导致过载节点数目不断增加，系统节点过载率不断提升，在部分节点接收完成后，节点过载率开始下降。当有新的文件请求到来时，系统节点过载率又开始波动性得上涨，然后周期性的波动。

由节点过载率的变化可以看出，本发明可以将系统中的过载节点数量维持在一个较低的稳定水平，使整个系统处于一个负载较为均衡的稳定状态中。

在测试资源平均响应时间时，设置了只有三个节点唯一拥有请求的资源，其它节点均向这些节点请求资源，观察系统的平均资源响应时间。

如图3所示，可看出有无负载均衡模块在开始阶段和结束阶段的资源平均响应时间基本一致。这是由于开始时，热点文件预测还没有触发，没有触发负载迁移策略。之后，伴随着请求数量的上升，响应时间开始上涨。对于没有负载迁移策略的版本，由于请求数的急剧增加，服务节点开始过载，对一些请求拒绝响应，导致大量丢包，响应时间开始急速上涨，直到达到顶峰，部分节点请求完成，请求数量开始下降，最终降低至初始水平。对于负载均衡模块的程序，因为预测到了热点文件的产生，服务器迅速在高负载区外建立副本节点。因此，具有负载均衡模块的系统请求峰值时的平均响应时间比没有负载均衡的系统低很多。最终，在大量请求过后，两个系统的平均响应时间又恢复了低值，且平均响应时间相差无几。通过数据可以看出，本发明对于系统整体效率有较大的提升，在大量请求到来时，可以将系统维持在一个响应较为迅速的状态。

在测试高负载节点负载波动时，这次同样设置了三个节点拥有请求的资源，其它节点均向这些节点请求资源，观察其中一个节点的负波动情况。

如图4所示，为可以看到高负载节点负载波动情况随时间的变化。在节点刚开始运行时，节点接收到的请求数大致相同，负载也对应相差无几。在40s时，负载均衡模块预测到了热点文件的产生，之后迅速建立副本文件，在之后的请求高峰中，由于副本文件的分担了部分请求压力，节点的负载维持在一个比较稳定的状态，之后随着请求的减少，节点的负载进一步降低，直至不再有请求时的低负载状态。而对于没有负载均衡的系统，服务节点的负载不断上涨，一度上涨到90％，之后，部分节点接收完成，服务节点的负载开始缓慢下降，一直到200秒时，不再接收到请求，进入低负载状态。通过数据可以分析得出，本发明有较好的热点文件预测能力，能够快速的执行负载迁移策略，调节单一节点的负载情况。

Claims

1.一种基于预测和区域划分的P2P网络动态负载均衡方法，其特征在于：定义高负载预测阈值是指预测高负载的请求文件的区分值，用Ψ表示；高负载区指以某一节点为中心的K跳路由距离的区域中至多有N节点负载低于节点高负载阈值时该区域为高负载区，该中心节点为高负载区中心节点，将高负载区的阈值称为高负载区阈值，指定以某一节点为中心的K跳路由距离的区域中至少有N个节点负载低于节点低负载阈值时该区域为低负载区，将低负载区的阈值称为低负载区阈值；通过高负载区和低负载区分别建立高负载区域负载均衡模块和低负载区域负载均衡模块；

该方法的具体步骤如下：

步骤a、获取节点资源利用率；

步骤c、根据节点当前文件访问情况预测接下来的访问量；

步骤e、向周围节点广播获取周围节点负载信息；

步骤g、服务器建立热点文件副本，进行步骤a；

所述执行高负载区域负载均衡模块的方法包括下列步骤：

步骤f11、高负载区域中的中心节点向周围发送TTL-K消息，请求周围节点信息，其中K初始值设置为1；

步骤f14、高负载区中心节点接收到反馈消息后，建立负载中心节点迁移优先级列表，将迁移优先级列表和节点当前的热点文件信息发送给二级服务器；

步骤f15、二级服务器取出这些节点，向这些节点发送请求，获取这些节点的负载信息以及链路时延ts，使用公式9计算这些节点的迁移性能E，计算获得迁移性能E最好的n个节点，向这些节点备份分发高负载节点中的热点文件；

所述执行低负载区域负载均衡模块的方法包括下列步骤：

步骤f21、取出链表中前N个节点，将这些节点信息发送给二级服务器；

2.根据权利要求1所述一种基于预测和区域划分的P2P网络动态负载均衡方法，其特征在于，当所述节点资源利用率超过高负载区阈值时，采用局部负载均衡信息收集方法，包括下列步骤：