CN110022378B

CN110022378B - 基于状态的vpn服务器智能分配方法

Info

Publication number: CN110022378B
Application number: CN201910321807.8A
Authority: CN
Inventors: 冯杰; 李嘉伟; 周谊成
Original assignee: Suzhou Paiyou Network Technology Co ltd
Current assignee: Suzhou Paiyou Network Technology Co ltd
Priority date: 2019-04-22
Filing date: 2019-04-22
Publication date: 2021-09-10
Anticipated expiration: 2039-04-22
Also published as: CN110022378A

Abstract

本发明公开了一种基于状态的VPN服务器智能分配方法，包括：对VPN服务器集群状态进行采样，并获取服务器的性能影响因素，并构建历史模型；实时采样服务器的性能；根据构建的历史模型得到待加入用户的预测值，并将该预测值与实时采样的性能联立得到预测性能，将预测性能最优的服务器进行分配。采用机器学习的方法，根据服务器各项实时及历史性能指标，以下载速度为指标，全面提升目标服务器集群中VPN服务器资源利用率。为每个新使用用户动态分配最优线路，提升服务器资源利用率，减少服务器资源限制浪费，提升用户使用过程中的下载速度。

Description

基于状态的VPN服务器智能分配方法

技术领域

本发明涉及VPN服务器分配技术领域，具体地涉及一种基于状态的VPN服务器智能分配方法。

背景技术

虚拟专用网络(VPN)的功能是：在公用网络上建立专用网络，进行加密通讯。在企业网络中有广泛应用。VPN网关通过对数据包的加密和数据包目标地址的转换实现远程访问。VPN有多种分类方式，主要是按协议进行分类。VPN可通过服务器、硬件、软件等多种方式实现。

现有VPN服务器分配技术主要有以下两种：

1、分配服务器策略单一，目标公司、机构内部多台服务器中往往采用固定的方式进行平均分配，没有考虑到状态，造成部分资源闲置。

2、分配服务器往往都已预先设定，不能根据服务器状态实时动态调整用户所分配使用的服务器。

中国专利文献CN 106911772 A公开了一种服务器分配方法，包括，获取能够处理任务项的至少两个服务器的备用处理资源；估计待处理的任务项在运行时所使用的服务器的需求处理资源；以及基于所述至少两个服务器的备用处理资源和所述需求处理资源来选择用于运行所述任务项的目标服务器。通过比较备用处理资源和需求处理资源选择服务器，虽然可以提升服务器资源利用率，但是没有考虑服务器的性能。本发明因此而来。

发明内容

针对上述技术问题，本发明提出了一种基于状态的VPN服务器智能分配方法，采用机器学习的方法，根据服务器各项实时及历史性能指标，以下载速度为指标，全面提升目标服务器集群中VPN服务器资源利用率。为每个新使用用户动态分配最优线路，提升服务器资源利用率，减少服务器资源限制浪费，提升用户使用过程中的下载速度。

本发明的技术方案是：

一种基于状态的VPN服务器智能分配方法，包括以下步骤：

S01：对VPN服务器集群性能进行采样，并获取服务器的性能影响因素，构建历史模型；

S02：实时采样服务器的性能；

S03：根据构建的历史模型得到待加入用户的预测值，并将该预测值与实时采样的性能联立得到预测性能，将预测性能最优的服务器进行分配。

优选的技术方案中，所述服务器性能为下载速度。

优选的技术方案中，所述步骤S01构建历史模型包括：

S11：对采样的性能和性能影响因素进行聚类分析；

S12：采用随机森林方法构建历史模型。

优选的技术方案中，所述性能影响因素采用在测试点t前5分钟内三次采样的均值作为结果，即，对于t时刻影响因素

最终为建模使用的影响因素X_i为：

优选的技术方案中，所述步骤S11包括：

S131：采用K-平均算法进行聚类分析，取样性能最大与最小值之间随机15个点作为初始中心点，并循环迭代寻找最佳分类中心点；

S132：以差值为距离评判标准，即，第S轮每个观测值V_k所处类别

为：

其中，

为各类别的中值，下一轮次分类中值点为：

其中，

为对应观测值v所处类别；

多次迭代后，各中心点趋于稳定，聚类完成；

S133：对多个性能影响因素也采用上述方法进行聚类分析。

优选的技术方案中，所述步骤S12包括：在历史数据库中随机选择1/20的数据尽心单独决策树构建；建模过程中，结合本方案观测值和经典随机森林方法确定各阶段信息增益gain：

其中，info_Δ(α)及info(α)为单轮次迭代前后的信息熵，

为各特征值决定分裂信息；

通过如上信息增益模型，得出各数据子集的决策树模型；

通过非数据子集的其他库内数据随机取样对各决策树进行效果筛选，生成最优决策树模型。

优选的技术方案中，所述步骤S03中所述预测值与实时采样的性能联立得到预测性能为预测值与实时采样的性能进行加权平均得到预测性能。

优选的技术方案中，所述步骤S03中的实时采样的性能包括采样多个时段的性能，将该多个时段的性能进行加权平均作为实时采样的性能。

本发明还公开了一种基于状态的VPN服务器智能分配装置，包括：

历史模型构建模块，对VPN服务器集群性能进行采样，并获取服务器的性能影响因素，构建历史模型；

采样模块，实时采样服务器的性能；

分配策略模块，根据构建的历史模型得到待加入用户的预测值，并将该预测值与实时采样的性能联立得到预测性能，将预测性能最优的服务器进行分配。

优选的技术方案中，所述历史模型构建模块构建历史模型包括：

S11：对采样的性能和性能影响因素进行聚类分析；

S12：采用随机森林方法构建历史模型。

与现有技术相比，本发明的优点是：

本发明基于服务器状态及历史经验模型，联立实时状态进行服务器智能分配。本发明提升了传统服务器分配过程中容易出现的分配不均、部分服务器压力过载等问题，起到了均衡服务器资源、均衡链路速度的作用。

附图说明

下面结合附图及实施例对本发明作进一步描述：

图1为本发明基于状态的VPN服务器智能分配方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

实施例：

下面结合附图，对本发明的较佳实施例作进一步说明。

如图1所示，一种基于状态的VPN服务器智能分配方法，包括以下步骤：

S01：对VPN服务器集群状态进行采样，并获取服务器的性能影响因素，并构建历史模型；

S02：实时采样服务器的性能；

这里服务器性能为下载速度，当然也可以为其他衡量指标。本实施例以下载速度为例进行说明。

网络数据传输过程中，VPN目标服务器集群中各台服务器各时段负载状况不一，为了实现传输速度的提升，往往需要对同一目标地域、公司、机构的VPN服务器集群状态进行实时分析，并根据分析结果对新连接用户所分配的服务器进行动态决策，寻找最优服务器分配给新用户，以优化整体VPN服务器集群网络传输速度。

然而，在实际操作过程中，VPN服务器集群传输速度受许多因素影响，因此需要使用机器学习的方法，根据历史经验和实时各参数状态对服务器分配策略进行动态调整、调优。具体做法可分为以下几步：

1)自动化网络传输效果衡量机制设定：

1.1对单一地方、公司、机构内的VPN集群服务器的各台服务器分别分配一台对应的网络状态监测服务器；

1.2各台监测服务器同时请求对应的VPN服务器对同一文件的下载请求，为保证效果测量的颗粒性，采用10MB以上，100MB以下，2分钟内可以完成传输的文件作为下载样本进行同步下载；

1.3采用最终平均下载速度为对目标服务器的网络环境描述。

1.4为模拟真实环境，衡量环节位于正在为客户使用的服务器集群中进行。

2)VPN服务器集群影响因子(因素)设定：

影响因子提取过程中，需要兼顾属性的易观测行，因此初期提取因子如下：

目标服务器CPU主频、占用率、内核数、内核占用率、带宽、内存占用率、分配用户数量、前序流量大小、时间等因素。

3)历史数据采样及聚类分析

对每个目标服务器集群数据采样采取每小时一次，每天24次采样，数据采样服务器为架设在同一网络环境的数台服务器，其对被采样服务器进行一对一随机网络同质数据下载请求，取被采样服务器i在t时测试结果的平均下载速度记为S_it。

同时，各采样服务器通过各VPN服务器监控接口获取采样前瞬间各VPN被采样服务器的CPU、带宽等影响因素信息，并记录在历史数据库中以备调用。为避免CPU占用率突发变化，本方案中采用在测试点前5分钟内三次采样的均值作为采样依据，即，对于t时刻影响因子的值(以下简称特性值)

最终保存为建模使用的特性值X_i为：

其中，对脏数据处理方面：由于被采样VPN服务器实例不能保证100％的上线率，对于测试开始前瞬间关闭的VPN服务器，由于现实中用户也无法被分配至该服务器，因此不计入测量范围。对于测试过程中出现网络问题，导致数据包在一小时内尚不能传输成功的个例，采取一小时内的平均传输速率记录。

采样后，为便于接下来步骤的建模，需要对测速结果进行分类并标注分类标签。本方法采用K-平均(KMeans)算法进行聚类分析。取样速度最大与最小值之间随机15个点作为初始中心点，并循环迭代寻找最佳分类中心点，由于本方法中聚类值为一维数据，因此以差值为距离评判标准，即，第S轮每个观测值V_k所处类别

为：

其中，

为各类别的中值。而下一轮次分类中值点为：

其中，

为对应观测值v所处类别。

多次迭代后，各中心点趋于稳定，聚类完成。

同时，针对各多余10个可能性值的影响因子变量，也采用上述方法对影响因子进行聚类分析。

4)利用随机森林算法进行方案分析

本案例使用带有交叉检验特性的随机森林方法对观测数据进行建模。随机森林能有效避免数据建模过程中的过拟合问题，适用于VPN服务器分配中的实际情况。

本过程中在历史数据库中随机选择1/20的数据进行单独决策树构建。建模过程中，结合本方案观测值和经典随机森林方法中的C4.5算法确定各阶段信息增益：

其中，g为信息增益，info_Δ(α)及info(α)为单轮次迭代前后的信息熵，

为各特征值决定分裂信息。

通过如上信息增益模型，得出各数据子集的决策树模型。随后通过非数据子集的其他库内数据随机取样对各决策树进行效果筛选，生成最优决策树模型。

5)联立实时状况

在VPN服务器集群实际运作过程中，需要依据事实探测状态与上述模型共同作用，挑选新用户分配的服务器设备，具体过程如下：

设现实过程中服务器A上个三个观测时段(t₁,t₂,t₃)实际观测速度值为(S_t1,S_t2,S_t3),本方案选用实际效能与历史观测预测值1：3的影响因子进行加权速度预测计算，即，新用户加入时A服务器速度预测S为：

其中，Exp为历史模型预测值，η观测值加权，加权满足：

根据各服务器速度预测，分配给新用户速度最优之服务器，从而完成基于状态的服务器分配过程。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。