CN105577432A

CN105577432A - 一种基于关联分析的网络丢包概率预测方法

Info

Publication number: CN105577432A
Application number: CN201510934315.8A
Authority: CN
Inventors: 葛愿; 王炎
Original assignee: Anhui Polytechnic University
Current assignee: Anhui Polytechnic University
Priority date: 2015-12-14
Filing date: 2015-12-14
Publication date: 2016-05-11

Abstract

一种基于关联分析的网络丢包概率预测方法，本发明涉及网络控制系统和数据挖掘领域，根据异常日志和历史测量数据，对数据进行整合计算；分别计算它们的变化率，并根据数据包将以上参数的变化率与数据包丢失的概率进行一一映射；按相关系数的绝对值大小将自变量逐一引入回归方程；循环执行上述步骤，直到生成的回归方程中不能添加新的因变量，也不能删除方程中的因变量为止。利用网络环境预测网络故障的发生，根据网络中可观测的参量预测数据包丢失概率，并根据数据包丢失的概率均衡负载，保证网络数据传输的可靠性，又能节约有限的网络资源，尽可能的避免网络故障的产生。

Description

一种基于关联分析的网络丢包概率预测方法

技术领域

本发明涉及网络控制系统和数据挖掘领域，具体涉及一种基于关联分析的网络丢包概率预测方法。

背景技术

近年来，随着科学技术的进步与发展，计算机网络在生产生活中发挥的作用越来越大。而网络设备与环境的复杂化给网络带来了很多不稳定的因素，其最大的影响是网络中流量的急剧增加。

为了保证重要信息的传输，为了保证网络的可靠性和有效性，要求我们必须对网络中可能发生的故障做出提前判断，从而根据网络环境均衡各个负载，保证信息的传递和网络的畅通。在网络中，数据被分割成一系列的数据包进行传输。大部分的数据包会通过网络媒介到达终端，但少数数据包会因为节点冲突、网络拥塞等因素发生丢失，从而造成到达终端的数据不完备，网络发生故障。因此，预测数据包丢失概率，均衡网络中的各个负载，从而保证信息传递的有效性和可靠性，是当前网络控制中亟待解决的问题。

网络发生故障、数据包丢失等都是因为网络环境的拥堵造成的，用网络环境预测网络故障的发生，具有可靠性。表征网络环境的参量有链路的吞吐量、数据传输速率和带宽利用率等，而数据包的大小也是影响当前网络环境的决定性因素之一。根据网络中可观测的参量预测数据包丢失概率，并根据数据包丢失的概率均衡负载，既能保证网络数据传输的可靠性，又能节约有限的网络资源，对网络控制系统十分重要。

发明内容

本发明的目的在于针对现有技术的缺陷和不足，提供一种设计合理的基于关联分析的网络丢包概率预测方法，利用网络环境预测网络故障的发生，根据网络中可观测的参量预测数据包丢失概率，并根据数据包丢失的概率均衡负载，保证网络数据传输的可靠性，又能节约有限的网络资源，尽可能的避免网络故障的产生。

为实现上述目的，本发明采用的技术方案是：它的操作步骤如下：

步骤1：根据网络传输协议对网络控制系统的历史测量数据及异常日志进行分类；

步骤2：在同一个传输协议分类下，根据异常日志和历史测量数据，对数据进行整合计算，包括数据包大小、数据包传输速率、每次传输的带宽利用率及丢包前接收端的时延，根据公式

r = \frac{Σ_{i = 1}^{n} (x_{i} - \overset{&OverBar;}{x}) (y_{i} - \overset{&OverBar;}{y})}{\sqrt{Σ_{i = 1}^{n} {(x_{i} - \overset{&OverBar;}{x})}^{2} {(y_{i} - \overset{&OverBar;}{y})}^{2}}}, (i = 1, 2, ..., n)

计算每一个自变量相对于因变量的相关系数，并取相关系数的绝对值进行排序；

步骤3：将以上四组数据进行整合，分别计算它们的变化率，并根据数据包将以上参数的变化率与数据包丢失的概率进行一一映射；

步骤4：取数据包大小的变化率、数据包传输速率的变化率、带宽利用率、带宽利用率变化率及数据包接收端的时延变化率为自变量，丢包概率为因变量。相关系数绝对值最大的自变量与因变量构造一元回归方程，检验所得方程的显著性。若所得方程可信，则转入步骤4；若所得方程不可信，则停止建模，取相关系数绝对值排序中的下一个自变量重复步骤3；

步骤5：按相关系数的绝对值大小将自变量逐一引入回归方程，显著性检验结果表明因变量和自变量之间存在明显的关系时，将变量引入回归方程，对回归方程进行更新，同时重新检验每一个自变量对因变量的回归效果，若回归效果明显，则保留自变量；若回归效果不明显，则将该自变量从回归方程中删除。

步骤6：循环执行上述步骤，直到生成的回归方程中不能添加新的因变量，也不能删除方程中的因变量为止。

所述的步骤1包括如下步骤：

步骤101：将要使用的历史测量数据进行整合，使各个变量一一对应，对于整个测量过程中没有发生变化的常量视为一个不变函数，即每一时刻的值都相同；

步骤102：根据因变量的波形图及各个自变量的波形图，找出因变量和自变量可能存在的参数关系，设因变量为y，自变量为x₁、x₂…x_n，取自变量x₁，计算sinx₁、cosx₁、lnx₁、令x₁₁＝x₁，

x_{12} = x_{1}^{2}, x_{13} = x_{1}^{3},

x₁₅＝sinx₁，x₁₆＝cosx₁，x₁₇＝lnx₁，依次类推，计算每一个自变量在不同函数下的值，待计算时直接使用。

所述的步骤3包括如下步骤：

步骤301：取相关系数绝对值最大的自变量进行回归分析，利用步骤102中计算的不同值，使用最小二乘法进行求解，以自变量x₁，取回归方程

y＝ω₀+ω₁x₁₁+ω₂x₁₂+ω₃x₁₃+ω₄x₁₄+ω₅x₁₅+ω₆x₁₆+ω₇x₁₇+ω₈x₁₈+u₁，u₁为残差，即实际值和拟合值的差；

步骤302：将上述方程写成矩阵的形式，即Y＝XW+U，其中

Y = [\begin{matrix} y_{1} \\ y_{2} \\ . \\ . \\ . \\ y_{n} \end{matrix}],

W = [\begin{matrix} ω_{0} \\ ω_{1} \\ . \\ . \\ . \\ ω_{8} \end{matrix}], U = [\begin{matrix} u_{1} \\ u_{2} \\ . \\ . \\ . \\ u_{n} \end{matrix}];

步骤303：根据公式

W = [\begin{matrix} ω_{0} \\ ω_{1} \\ . \\ . \\ . \\ ω_{8} \end{matrix}] {(X^{T} X)}^{- 1} X^{T} Y

计算回归方程的系数。

所述的步骤4包括如下步骤：

步骤401：根据公式计算标准差，其中n为样本数，m为自变量的个数；

步骤402：根据公式计算F值进行对回归方程的F检验，其中m为自变量的个数，根据选择的显著性水平a，查F检验表，得a显著水平下，当自由度v＝n-m-1时的F检验值F_a。若F≥F_a，则检验通过，模型有效，继续执行以下步骤；反之舍弃当前的自变量，选择新的自变量进行回归分析；

步骤403：根据公式计算各回归系数的标准差，其中c_ii为矩阵(X^TX)^-1中主对角线的上的第i项；

步骤404：根据公式对每一个回归系数ω_i进行t检验，根据设定的显著性水平a查t分布表，得到自由度为v＝n-m-1时的t检验值若计算结果则检验通过，保留当前自变量，反之则说明当前自变量x_ij对y的影响不明显，予以删除。

本发明中用户通过接口输入待挖掘的数据，数据挖掘系统对数据进行分析，找出数据之间可能存在的关系。之后数据挖掘系统通过知识库中的算法对数据进行挖掘计算，得到数据间存在的关系，并进入数据库。根据一定的原则和原数据对得到的关系进行验证和修正，最终得到稳定可信的数据关系。

采用上述结构后，本发明有益效果为：本发明所述的一种基于关联分析的网络丢包概率预测方法，利用网络环境预测网络故障的发生，根据网络中可观测的参量预测数据包丢失概率，并根据数据包丢失的概率均衡负载，保证网络数据传输的可靠性，又能节约有限的网络资源，尽可能的避免网络故障的产生。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的结构示意图。

图2是本发明中数据挖掘的流程图。

具体实施方式

下面结合附图，对本发明作进一步的说明。

参看图1和图2所示，本具体实施方式采用的技术方案是：它的操作步骤如下：

r = \frac{Σ_{i = 1}^{n} (x_{i} - \overset{&OverBar;}{x}) (y_{i} - \overset{&OverBar;}{y})}{\sqrt{Σ_{i = 1}^{n} {(x_{i} - \overset{&OverBar;}{x})}^{2} {(y_{i} - \overset{&OverBar;}{y})}^{2}}}, (i = 1, 2, ..., n)

所述的步骤1包括如下步骤：

x_{12} = x_{1}^{2}, x_{13} = x_{1}^{3},

所述的步骤3包括如下步骤：

步骤302：将上述方程写成矩阵的形式，即Y＝XW+U，其中

Y = [\begin{matrix} y_{1} \\ y_{2} \\ . \\ . \\ . \\ y_{n} \end{matrix}],

W = [\begin{matrix} ω_{0} \\ ω_{1} \\ . \\ . \\ . \\ ω_{8} \end{matrix}], U = [\begin{matrix} u_{1} \\ u_{2} \\ . \\ . \\ . \\ u_{n} \end{matrix}];

步骤303：根据公式

W = [\begin{matrix} ω_{0} \\ ω_{1} \\ . \\ . \\ . \\ ω_{8} \end{matrix}] {(X^{T} X)}^{- 1} X^{T} Y

计算回归方程的系数。

所述的步骤4包括如下步骤：

本具体实施方式中用户通过接口输入待挖掘的数据，数据挖掘系统对数据进行分析，找出数据之间可能存在的关系。之后数据挖掘系统通过知识库中的算法对数据进行挖掘计算，得到数据间存在的关系，并进入数据库。根据一定的原则和原数据对得到的关系进行验证和修正，最终得到稳定可信的数据关系。

采用上述结构后，本具体实施方式有益效果为：本发明所述的一种基于关联分析的网络丢包概率预测方法，利用网络环境预测网络故障的发生，根据网络中可观测的参量预测数据包丢失概率，并根据数据包丢失的概率均衡负载，保证网络数据传输的可靠性，又能节约有限的网络资源，尽可能的避免网络故障的产生。

以上所述，仅用以说明本发明的技术方案而非限制，本领域普通技术人员对本发明的技术方案所做的其它修改或者等同替换，只要不脱离本发明技术方案的精神和范围，均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于关联分析的网络丢包概率预测方法，其特征在于：它的操作步骤如下：

步骤(1)：根据网络传输协议对网络控制系统的历史测量数据及异常日志进行分类；

步骤(2)：在同一个传输协议分类下，根据异常日志和历史测量数据，对数据进行整合计算，包括数据包大小、数据包传输速率、每次传输的带宽利用率及丢包前接收端的时延，根据公式

r = \frac{Σ_{i = 1}^{n} (x_{i} - \overset{&OverBar;}{x}) (y_{i} - \overset{&OverBar;}{y})}{\sqrt{Σ_{i = 1}^{n} {(x_{i} - \overset{&OverBar;}{x})}^{2} {(y_{i} - \overset{&OverBar;}{y})}^{2}}} (i = 1, 2, ..., n)

步骤(3)：将以上四组数据进行整合，分别计算它们的变化率，并根据数据包将以上参数的变化率与数据包丢失的概率进行一一映射；

步骤(4)：取数据包大小的变化率、数据包传输速率的变化率、带宽利用率、带宽利用率变化率及数据包接收端的时延变化率为自变量，丢包概率为因变量,相关系数绝对值最大的自变量与因变量构造一元回归方程，检验所得方程的显著性,若所得方程可信，则转入步骤(4)；若所得方程不可信，则停止建模，取相关系数绝对值排序中的下一个自变量重复步骤(3)；

步骤(5)：按相关系数的绝对值大小将自变量逐一引入回归方程，显著性检验结果表明因变量和自变量之间存在明显的关系时，将变量引入回归方程，对回归方程进行更新，同时重新检验每一个自变量对因变量的回归效果，若回归效果明显，则保留自变量；若回归效果不明显，则将该自变量从回归方程中删除；

步骤(6)：循环执行上述步骤，直到生成的回归方程中不能添加新的因变量，也不能删除方程中的因变量为止。

2.根据权利要求1所述的一种基于关联分析的网络丢包概率预测方法，其特征在于：所述的步骤(1)包括如下步骤：

步骤(101)：将要使用的历史测量数据进行整合，使各个变量一一对应，对于整个测量过程中没有发生变化的常量视为一个不变函数，即每一时刻的值都相同；

步骤(102)：根据因变量的波形图及各个自变量的波形图，找出因变量和自变量可能存在的参数关系，设因变量为y，自变量为x₁、x₂…x_n，取自变量x₁，计算sinx₁、cosx₁、lnx₁、令x₁₁＝x₁， x₁₅＝sinx₁，x₁₆＝cosx₁，x₁₇＝lnx₁，依次类推，计算每一个自变量在不同函数下的值，待计算时直接使用。

3.根据权利要求2所述的一种基于关联分析的网络丢包概率预测方法，其特征在于：所述的步骤(3)包括如下步骤：

步骤(301)：取相关系数绝对值最大的自变量进行回归分析，利用步骤(102)中计算的不同值，使用最小二乘法进行求解，以自变量x₁，取回归方程

\begin{matrix} y = ω_{0} + ω_{1} x_{11} + ω_{2} x_{12} + ω_{3} x_{13} + ω_{4} x_{14} + ω_{5} x_{15} + ω_{6} x_{16} + ω_{7} x_{17} + \\ ω_{8} x_{18} + u_{1} \end{matrix},

u₁为残差，即实际值和拟合值的差；

步骤(302)：将上述方程写成矩阵的形式，即Y＝XW+U，其中

Y = [\begin{matrix} y_{1} \\ y_{2} \\ \cdot \\ \cdot \\ \cdot \\ y_{n} \end{matrix}],

步骤(303)：根据公式

W = [\begin{matrix} ω_{0} \\ ω_{1} \\ \cdot \\ \cdot \\ \cdot \\ ω_{g} \end{matrix}] = {(X^{T} X)}^{- 1} X^{T} Y

计算回归方程的系数。

4.根据权利要求1所述的一种基于关联分析的网络丢包概率预测方法，其特征在于：所述的步骤(4)包括如下步骤：

步骤(401)：根据公式计算标准差，其中n为样本数，m为自变量的个数；

步骤(402)：根据公式计算F值进行对回归方程的F检验，其中m为自变量的个数，根据选择的显著性水平a，查F检验表，得a显著水平下，当自由度v＝n-m-1时的F检验值F_a。若F≥F_a，则检验通过，模型有效，继续执行以下步骤；反之舍弃当前的自变量，选择新的自变量进行回归分析；

步骤(403)：根据公式计算各回归系数的标准差，其中c_ii为矩阵(X^TX)^-1中主对角线的上的第i项；

步骤(404)：根据公式对每一个回归系数ω_i进行t检验，根据设定的显著性水平a查t分布表，得到自由度为v＝n-m-1时的t检验值若计算结果则检验通过，保留当前自变量，反之则说明当前自变量x_ij对y的影响不明显，予以删除。

5.根据权利要求1所述的一种基于关联分析的网络丢包概率预测方法，其特征在于：用户通过接口输入待挖掘的数据，数据挖掘系统对数据进行分析，找出数据之间可能存在的关系,之后数据挖掘系统通过知识库中的算法对数据进行挖掘计算，得到数据间存在的关系，并进入数据库。根据一定的原则和原数据对得到的关系进行验证和修正，最终得到稳定可信的数据关系。