CN102456109A

CN102456109A - 一种用于木马事件预测的最小二乘支持向量机的训练方法及预测方法

Info

Publication number: CN102456109A
Application number: CN201110217921XA
Authority: CN
Inventors: 夏榕泽; 贾焰; 韩伟红; 杨树强; 周斌; 郑黎明; 徐镜湖; 张建锋; 刘斐; 刘�东; 李远征; 王雯霞
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2011-08-01
Filing date: 2011-08-01
Publication date: 2012-05-16

Abstract

本发明提供了用于木马事件预测的最小二乘支持向量机的训练方法和预测方法。其中利用改进的遗传算法优化最小二乘支持向量机的参数，利用训练好的最小二乘支持向量机来进行预测。改进的遗传算法能够快速收敛，且更接近全局最优值，而且优化后的最小二乘支持向量机能够在提升预测准确度的同时保持较好的性能，可应用于大规模网络中的木马事件发生数量的预测。

Description

一种用于木马事件预测的最小二乘支持向量机的训练方法及预测方法

技术领域

本发明属于计算机网络信息安全领域，尤其涉及计算机网络安全中木马事件的预测方法。

背景技术

当前，随着信息技术的高速发展，互联网的网络规模，网络信息量以及网络应用等都在不断增长。互联网在涉及到人们生活的各方面领域，如政治，商业，金融，文教，通信等，发挥着越来越重要的作用。但是互联网在带给人们极大便利的同时，也面临着越来越多的网络安全事件。

网络安全事件预测技术是在充分收集当前网络流量状况、获取网络历史安全事件发生情况的基础之上进行预测的一门技术。由于木马攻击在大规模网络下的安全事件中占很大比例，通过对未来时刻网络中木马事件发生数量进行预测，一方面可以方便网络管理人员对整个网络的大体情况有一个初步的判断，并根据判断的情况制定与之相符的网络安全策略，另一方面可以提前预判将要发生的网络灾害或者攻击，并且在灾害和攻击发生之前及时采取应对措施，把问题消灭在萌芽状态。

现有的木马事件预测方法有如下几种：

线性回归方法：以经典的自回归滑动平均模型为代表，这类方法认为未来木马事件发生数量是受以前数量和噪声的直接影响，因此预测值即是历史数据和噪声数据的加权求和，表达式如下：

其中p为自回归模型阶数，q为滑动平均模型阶数，x_t是预测值，x_i是第i次的观测值，

(i＝1，2，…，p)，θ_j(j＝1，2，…，q)分别为自回归参数和滑动平均参数。其特点是模型简单，容易实现，但是其一方面需要用户正确的配置模型的参数，这需要用户具备相应的领域经验，限制了算法的使用，另一方面对该方法对预测函数的逼近不够准确，所以预测效果不够好。

基于规则发现的方法：如时序规则发现，这类方法是通过根据频繁项集在时间上的先后顺序，推出它们的时序关联规则，并根据这个规则对后面将要发生的时间进行预测。这种方法由于不能对预测这种复杂非线性问题建立一个结构清晰的模型，所以预测效果不够好。

发明内容

因此，本发明的目的在于克服上述现有技术的缺陷，以最小二乘支持向量机作为预测模型，提出了一种木马事件预测方法，在提升预测模型准确度的同时保持较好的性能。

本发明的目的是通过以下技术方案实现的：

一方面，本发明提供了一种用于木马事件预测的最小二乘支持向量机的训练方法，包括以下步骤：

步骤1)将木马事件序列{r₁，r₂，……，r_l}中的每个值与前面的m个相隔为τ的值相关，即r_1+mτ＝F(r₁，r_1+τ，……，r_1+(m-1)τ)，其中，l为样本总数，m和τ是小于l的正整数；

步骤2)将样本数据划分为多个训练数据对(x_i，y_i)，i＝1，2，……，n，其中输入向量x_i∈R^m，R^m是输入向量的维数，输出向量y_i∈R，R是输出向量的维数，n＝l-1-(m-1)τ；

步骤3)构造最小二乘支持向量机为：

其中K(x_i，x)为核函数，应满足K(x_i，x)＝exp{-||x_i-x||/2σ²}，σ为核宽度；

步骤4)基于样本数据采用遗传算法来确定所述最小二乘向量机的参数α_i和b的最优值；

根据本发明实施例的训练方法，其中m的取值范围为[1，10]，τ的取值范围为[1，3]。

根据本发明实施例的训练方法，其中步骤4)包括以下步骤：

步骤4-1)将训练数据对的输入向量代入最小二乘支持向量机来计算预测结果；

步骤4-2)根据预测结果与训练数据对的输出向量来计算误差；

步骤4-3)如果误差大于预测精度，则使用遗传算法来优化参数α_i和b；

步骤4-4)将经优化的参数代入到最小二乘支持向量机，接收下一个训练数据对并转到步骤4-1)，重复执行步骤4-1)至4-4)直至误差小于或等于预测精度为止。

根据本发明实施例的训练方法，其中预测精度为0.05。

根据本发明实施例的训练方法，步骤4-3)包括以下步骤：

步骤4-3-1)对参数α_i、b采用进行编码，染色体基因位上的每一个基因都代表一个参数值，[α₁，α₂，…，α_n，b]；

步骤4-3-2)设置适应度函数为：F_fit＝1/(Err+1)，其中，

其中，n为训练数据对的总数，x(i)为期望值，为预测值，max和min为n个期望值中的最大值和最小值；所述期望值为训练数据对的输出向量；

步骤4-3-3)个体适应度大的s个个体直接进入下一代种群Child，剩余的(N-s)个个体集合记作临时种群Temp；

步骤4-3-4)将临时种群Temp中的个体两两随机配对进行交叉，产生的新个体与父类个体作适应度比较，保留较大者，操作完成后得到的种群Pre1，其中交叉概率Pc应用满足：

其中g为当前进化代数，f_MAX为Temp中个体适应度最大的值，

为Temp中个体的平均适应度，

为一对交叉个体中适应度较大值；

步骤4-3-5)对临时种群Temp中的个体进行变异操作，产生的新个体与父类个体作适应度比较，保留较大者，操作完成后得到种群记为Pre2，其中变异概率Pm应满足：

其中f为选中进行变异操作的个体的适应度；

步骤4-3-6)将Pre1与Pre2混合，对于为发生变异的个体，只保留一个。混合后取适应度大的N-s个个体进入下一代种群Child；

步骤4-3-7)如果进化代数≥100，则终止，否则把Child作为初始种群，重复执行步骤4-3-3)、4-3-4)、4-3-5)、4-3-6)、4-3-7)；

根据本发明实施例的训练方法，其中，对参数α_i、b采用实数编码的方式，其初始值随机生成，取值范围为[0，1]。

根据本发明实施例的训练方法，在步骤4-3-3)中s不超过占个体总数量的10％。

又一方面，本发明还提供了一种木马事件预测方法，利用根据上面所述的训练方法训练好的最小二乘支持向量机对木马事件的发生数量进行预测，以对某类木马事件发生数量的统计数据的序列为所述最小二乘支持向量机的输入，所述最小二乘支持向量机的输出为网络中将要发生的该类木马事件的数量。

与现有技术相比，本发明的优点在于：

构造用于进行木马事件的预测的最小二乘支持向量机，利用改进的遗传算法优化最小二乘支持向量机的参数，利用训练好的最小二乘支持向量机来进行预测。改进的遗传算法能够快速收敛，且更接近全局最优值，而且优化后的最小二乘支持向量机能够在提升预测准确度的同时保持较好的性能，可应用于大规模网络中的木马事件发生数量的预测。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1为根据本发明一个实施例的用于木马事件预测的最小二乘支持向量机的训练方法的流程图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了更好地理解本发明，先对遗传算法进行简单的介绍。遗传算法的原理如下：将“优胜劣汰，适者生存”的生物进化原理引入优化参数形成的编码串联群体中，按所选择的适应度函数并通过遗传中的复制、交叉及变异对个体进行筛选，使适应度高的个体被保留下来，组成新的群体，新的群体既继承了上一代的信息，又优于上一代。这样周而复始，群体中个体适应度不断提高，直到满足一定的条件。遗传算法的算法简单，可并行处理，并能得到全局最优解。遗传操作把所有个体的信息都通过染色体编码来表示。它的具体操作分为以下几个步骤：复制：从一个旧种群中选择生命力强的个体复制产生新种群。具有高适应度的个体更有可能在下一代中产生一个或多个子孙。交叉：通过两个个体的染色体交换组合，来产生新的优良品种。变异：它以很小的概率随机地改变染色体某一位的值。

最小二乘支持向量机的原理如下：针对线性不可分问题，通过支持向量机的方法，把低维空间的数据映射到高维空间，从而找到一个超平面，使得这个线性不可分问题变为线性可分。这个超平面的表达式为W^TX+b＝0。其中W是超平面的法向量，表示超平面的方向，b决定了超平面的位置。X则是待分类的点。寻找这个超平面即是支持向量机的核心问题。利用最小二乘的方法来解决支持向量机问题，即称为最小二乘支持向量机。

图1所示的是用于木马事件预测的最小二乘支持向量机的训练方法的一个实施例的流程图。该方法构造用于进行木马事件发生数量的预测的最小二乘支持向量机，并使用改进的遗传算法对最小二乘支持向量机参数进行优化，确保该最小二乘支持向量机具有最优参数，提高预测准确率。如图1所示，最小二乘支持向量机预测模块在收到训练数据之后直接用它来进行训练预测，如果不满足终止条件的话，则采用遗传优化模块对最小二乘支持向量机的参数α_i和b进行优化，利用采用优化后的参数的对最小二乘支持向量机来进行预测，如此重复，直至预测结果满足要求为止。这里的终止条件指的是预测结果与实际结果的误差不能超过预测精度，例如，预测精度为0.05，预测精度是可以根据用户需求设定的。更具体地，该方法主要包括以下的步骤：(1)将样本数据分为多个训练数据对；(2)构造支持最小二乘支持向量机；(3)将训练数据对的输入向量代入所构造的最小二乘支持向量机进行训练预测；(4)判断预测结果和该训练数据对的输出向量的误差是否超过预测精度；(5)如果超过预测精度，则使用遗传算法来优化参数，将经优化的参数代入到上述向量机，接收下一个训练数据对，转到(3)，重复执行(3)(4)(5)直至满足预测精度为止。

在训练和预测之前还要取得历史时间中木马事件发生的数量。对网络安全事件发生次数以不同时间粒度聚集将呈现不同的数据特征：聚集粒度过小，其发生数量将变得难以预测；聚集粒度过大，数据变化将变得平缓，但失去了预测的意义。聚集操作是根据数据的相似性，把集合中的元素划分成一组。这里聚集操作是指把样本数据按照时间粒度进行分类，例如可以分别以分钟、小时、天时间粒度为标准来对数据进行划分。最终得到的数据是在每个时间粒度上的数据值。聚集粒度的确定应根据具体的应用环境来确定，既要使得序列的量纲基本在同一水平，也要使预测结果能真正发挥参考作用。在本实施例中，以1小时为单位对网络中木马事件发生数量进行聚集统计，得到木马事件序列，这个序列中的元素是木马事件发生的数量。

为了构造最小二乘支持向量机的训练数据，将经过聚集的木马事件序列表示为：{r₁，r₂，……，r_l}，l为样本总数。若每个值与前面的m个相隔为τ的值相关。即r_1+mτ＝F(r₁，r_1+τ，……，r_1+(m-1)τ)，这里F仅仅表示r_1+mτ与前面m个相隔τ的值的一种相关关系。可将原始序列嵌入到m维欧氏空间，m称为嵌入维数。经过相空间重构，样本数据被划分为多个训练数据对(x_i，y_i)，i＝1，2，……，n，其中x_i∈R^m为输入向量，R表示木马事件序列，其中的元素是木马事件，R^m表示一个元素个数为m的木马事件序列，y_i∈R为期望的输出值，R是指前面提到的木马事件序列，x是输入向量，y是输出向量，n＝l-1-(m-1)τ。其中，m和τ是正整数，m的取值范围为[1，10]，τ的取值范围为[1，3]，这里采用已有的确认方法对其进行计算，这里不再赘述。在本实施例中，l＝100，τ＝1，m＝5。例如，木马事件序列为101，102，103，104，91，92，93，94，100，110......，那么，所构造的其中一个训练数据对为((101，102，103，104，91)，92)，其中，该序列中第6(1+5*1)个元素92与前5个元素(101，102，103，104，91)相关，这样(101，102，103，104，91)为输入向量，而92为期望的输出值。可以构造100-1-(5-1)*1＝95个训练数据对。

该最小二乘支持向量机预测模块采用的线性函数是找到一个输入空间到高维特征空间的一个非线性映射，将非线性映射问题转换到特征空间的线性问题，通过下式来拟合样本集：其中

是R^m到H的非线性映射，ω为高维空间中的权值向量，b是偏置量。

最小二乘支持向量机通过求目标函数极小值的方法来确定回归函数，在下式的约束下求的极小值。其中ε是回归误差。γ＞0是惩罚因子，表示的是对经验误差的惩罚值，γ值越大，对经验误差的惩罚越大，模型的预测精度高。引入拉格朗日乘子将原问题转换为无约束问题，即有：

式中α_i＞0，i＝1，2，……，n为拉格朗日乘子，对该式各变量求偏导，并令其等于0，有下式：

求解该方程组得到非线性回归模型为：

其中x_i，x均为输入向量，K(x_i，x)为核函数，通过训练确定参数α_i和b，n为待训练的数据对的总数。在本实施例中，n＝95，x_i是第1组到第95组向量中对应的α_i不为0的向量(这里向量也就是子序列)，x为将要用于预测的向量。核函数取径向基函数作为核函数，表达式为K(x_i，x)＝exp{-||x_i-x||/2σ²}。初始参数值随机生成，取值范围为[0，1]。该向量机的输入就是待预测数据。这里待预测数据以木马事件序列的方式输入，这个序列中的元素是木马事件发生的数量。向量机取得该输入之后，经过处理会得到一个值，这个值即是预测的结果(也可以称为预测值)。将这个预测结果和已知的期望输出结果(也可以称为期望值、实测值、实测数据、实际数据等)进行比较，如果在精度范围之内的话则满足条件，该向量机满足精度要求，否则还需要对向量机进行训练。例如对于输入序列{15，20，25，30，35，40，45}其中子序列分别为x₁＝{15，20，25，30，35}，x₂＝{20，25，30，35，40}，x₃＝{25，30，35，40，45}，与三个向量对应的参数α₁＝0，α₂＝1，α3＝1，则这时对子向量x₁计算其预测值则利用公式f(x₁)＝α₂K(x₂，x₁)+α₃K(x₃，x₁)+b。对于子序列{15，20，25，30，35}来判断预测精度，这时值{40}即是期望输出的值，这里如果输出结果为{35}则精度达不到要求，需要继续训练向量机。这里举例是针对这一个序列来说，对于整个处理过程，要用到后面的误差函数来判断整个向量机的精度。

接着，利用遗传算法优化上面所构造的最小二乘支持向量机的参数，通过采用优化后参数的向量机来进行预测，如果能够达到精度的要求，则停止训练，如果不能达到精度的要求，则继续训练。

在一个实施例中，可以使用本领域普通技术人员所熟知的遗传算法来优化上述向量机。遗传算法具有良好的搜索特性，可用于各类搜索问题，但存在可能过早收敛于局部值的缺陷。

在又一个实施例中，采用改进的遗传算法来为上述的向量机优化参数。主要对所采用的遗传算法作了以下改进：

交叉与变异并行进行，避免变异使交叉所产生的优良个体发生退化。现有技术常用方法是先进行交叉操作，然后进行变异操作，但这样会使得交叉操作产生的优良个体通过变异操作发生退化。

交叉与变异针对特定种群中所有个体进行，提高了算法的搜索能力，且只保留适应度大的个体，确保进化方向，加速收敛速度。而现有技术常用方法是针对所有个体进行交叉变异操作，这样会使得进化收敛速度变慢。

采用自适应交叉与变异算子，概率值除随进化代数增加而减小外，在同代种群中，个体适应度小的个体产生进化的可能性要大，在保持收敛速度的同时避免产生早熟现象。而现有技术常用方法是采用固定的概率值，并不随着进化代数的变化而变化。这可能导致算法收敛到局部最优解，而无法搜索到全局最优解。

在本实施例中，所述的改进的遗传算法的具体步骤如下：确定问题变量取值范围、编码方式，设置初始交叉概率Pc₀与变异概率Pm₀，种群规模N，适应度函数和算法终止条件，最大进化代数为100。并随机生成初始种群；这里对参数α_i、b统一进行编码，采用实数编码的方式，染色体基因位上的每一个基因都代表一个参数值，示例如下：[α₁，α₂，…，α_n，b]，其中初始参数值随机生成，取值范围为[0，1]。应指出这里是对整个染色体群体进行遗传操作，其中进行的选择，交叉和变异操作是针对整个要优化的参数α_i和b。因此，最后得到的结果也是整个参数集，而不是单独对某一个参数进行遗传操作。

个体适应度大的s个个体直接进入下一代种群Child。剩余的(N-s)个个体集合记作Temp；这里s一般选取占总数量5％的个体，取值范围一般不超过10％，在这个范围中选取最佳个体可以达到较好的效果。适应度函数值大，说明误差小。则该组参数能够达到的预测效果好。其使用的样本数据就是初始采集的样本数据。父代群体是相对于子代群体来说的，例如：第一代子群体的父代群体则是一组参数(这里一组参数指的是要优化的参数[α₁，α₂，…，α_n，b])，对于种群规模为N的父代群体，则其中有N组参数。子代群体则是经过交叉和变异而得到的。

将Temp两两随机配对进行交叉，交叉概率Pc按式(1)确定，产生的新个体与父类个体作适应度比较，保留较大者。操作完成后种群记为Pre1。式(1)中g为当前进化代数，f_MAX为Temp中个体适应度最大的值，为Temp中个体的平均适应度，

为一对交叉个体中适应度较大值；

对临时种群Temp中的个体进行变异操作，变异概率Pm按(2)式确定。产生的新个体与父类个体作适应度比较，保留较大者。操作完成后的种群记为Pre2。(2)式中f为选中进行变异操作的个体的适应度；

将Pre1与Pre2混合，对于为发生变异的个体，只保留一个。混合后取适应度大的N-s个个体进入下一代种群Child；

如果进化代数达到了100代，则终止，否则把Child作为初始种群，继续进行下一次的进化。开始下一次进化即是把Child作为父代种群，重新选择，交叉和变异操作。用来计算适应度函数的数据是样本数据。

在本实施例的遗传算法中适应度是根据适应度函数来计算的，适应度函数用来表征遗传算法中对象对环境的适应程度，如果适应度函数的值越大，表明该个体对环境的适应能力越好，越应该选用该个体来进行遗传操作。适应度函数是判断个体优劣的指标。在遗传算法中，适应度函数值越大，说明个体越好。在本实施例中利用误差函数来构造上述的改进的遗传算法的适应度函数，选用的适应度函数为：F_fit＝1/(Err+1)，其中

Err = Σ_{i = 1}^{n} {[x (i) - \hat{x} (i)]}^{2} / [n * {(\max - \min)}^{2}]

其中，x(i)为期望输出值，为预测值，n为进行比较的数据个数，在本实施例中这些数据就是上文所构造的训练数据对，共有95个，max和min为n个实测数据(即上文提到的样本数据中的期望输出值)中的最大值和最小值。预测值

是通过采用最小二乘支持向量机计算得到的，因此也可以把Err称为误差函数，其可以衡量预测准确度，即预测结果与实测数据的误差大小。这样，遗传算法的适应度评价操作实际上就是通过向量机预测值并与实际值(即期望输出值)的对比来判断训练结果的好坏。

在本实施例的遗传算法中，在计算适应度值的时候使用这个误差函数。例如对于某一个个体，由于该个体中所包含的值是参数序列[α₁，α₂，…，α_n，b]，因此利用这组参数值代入到向量机中，用向量机来计算对于每组数据计算出的预测值，而实际值，也就是前文提到的期望输出值为x(i)。通过这样计算得到Err值，再把Err值代入到适应度函数式F_fit＝1/(Err+1)中，即得到适应度值。例如：对于序列{1，2，3，4，5，……，100}，遗传算法经过遗传操作得到向量机参数之后，依次输入子序列{1，2，3，4，5}，{2，3，4，5，6}，{3，4，5，6，7}，……，{95，96，97，98，99}，对这些子序列分别能得到预测值{5.5}，{6.5}，{7.5}，……，{99.5}，但是此时的期望输出值是{6}，{7}，{8}，……，{100}，此时便把这些子序列中的值分别代入到误差函数中去，最后能得到一个误差函数值，再通过这个误差函数值来计算适应度值。计算得到

max＝100，min＝6，n*(max-min)²＝839420，则Err＝0.0028％，于是可以计算出适应度值F_fit＝0.99。在遗传算法中可以对每个个体计算出一个这样的适应度值，再通过适应度值之间的比较可以判断出个体的优劣。适应度值大的个体较优，适应度值较小的个体较差。

在又一个实施例中，还提供了利用通过上述训练方法训练好的最小二乘支持向量机来对网络中发生的木马事件数量进行预测的方法。以对某类木马事件发生数量的统计数据的序列作为训练好的最小二乘支持向量机的输入，所述最小二乘支持向量机的输出为网络中将要发生的该类木马事件的数量。

应指出，虽然上文所述的实施例中以木马事件为例来讨论了训练用于木马事件预测的最小二乘支持向量机的方法及利用训练好的最小二乘支持向量机来进行预测的方法，但本领域普通技术人员应理解本申请所讨论的训练和预测方法还可以用于对其他的网络安全事件发生频率的预测。

为了更好地说明本发明的效果，发明人还进行了如下的实验：

将优化后的最小二乘支持向量机应用于网络安全事件发生频率的预测，使用部署在国家骨干网上的某大型入侵检测设备捕获的某类网络安全事件数据进行实验，具体实验结果和分析如下：种群大小设置为20，各代直接进入下一代最优个体数为2个，达到最大进化代数为100代。设定交叉概率为0.85，变异概率为0.1。经过训练后的最小二乘支持向量机的预测误差为Err＝0.68％，自回归滑动平均模型的预测误差为Err＝2.67％。可见通过采用上述实施例中的遗传算法对最小二乘支持向量机参数进行优化，确保模型具有最优参数，提高预测准确率

在本发明的实施例中用最小二乘支持向量机预测木马事件的发生数量，使用一种改进的遗传算法来优化最小二乘支持向量机的参数，实验表明改进的遗传算法能够快速收敛，且更接近全局最优值，对任意时段的木马事件发生数量的数据，该遗传算法都可以自动搜索到预测模型的最优参数，从而达到较好的性能指标，满足预期的需求。而且优化后的最小二乘支持向量机能够在提升预测准确度的同时保持较好的性能，可应用于大规模网络中的木马事件发生数量预测。

虽然本发明已经通过优选实施例进行了描述，然而本发明并非局限于这里所描述的实施例，在不脱离本发明范围的情况下还包括所作出的各种改变以及变化。