CN102938042A

CN102938042A - 网页篡改检测方法及装置

Info

Publication number: CN102938042A
Application number: CN2012104249739A
Authority: CN
Inventors: 张鸿勋; 卢梁; 柯强
Original assignee: NSFOCUS Information Technology Co Ltd; Beijing NSFocus Information Security Technology Co Ltd
Current assignee: NSFOCUS Information Technology Co Ltd; Beijing NSFocus Information Security Technology Co Ltd
Priority date: 2012-10-30
Filing date: 2012-10-30
Publication date: 2013-02-20

Abstract

本发明提供一种网页篡改检测方法及装置。该方法包括：根据每一种类网页篡改的属性获取每个时间检测点i的网页篡改检测值Vi以构造网页篡改检测算法可读取的训练样本集Strain，以ω_f(l)为概率抽取样本集D_f对训练样本集Strain进行训练，更新训练样本权重以得到强学习机H；若不满足下列条件1及条件2，则以ω_f(n)为概率抽取样本集D_f对训练样本集Strain进行迭代训练，重复更新训练样本权重以得到强学习机H；否则，输出强学习机H，利用强学习机完成网页篡改的检测。其中，条件1为网页篡改检测算法达到最大迭代次数k，条件2为样本集D_f不再变化。本发明提供的网页篡改检测方法，通过网页篡改检测算法得到的网页篡改检测模型，从而提高网页篡改检测的准确度。

Description

网页篡改检测方法及装置

技术领域

本发明实施例涉及网络安全技术，尤其涉及一种网页篡改检测方法及装置。

背景技术

随着Internet技术的飞速发展，网络安全的重要性及其对社会的影响越来越大，网络安全问题也越来越突出，其中，网页篡改是网络安全中常发生的事件之一。以政府网站为例，网页篡改(尤其是含有政治攻击色彩的篡改)会对政府形象造成严重损害。另外，一些电子政务、电子商务项目在招标中，已明确说明要防止网页篡改。因此，防范网页、主页篡改的问题已逐渐得到各方面的重视。

目前，通过网页篡改检测引擎监检测网页篡改事件，当篡改事件发生时，网页篡改检测引擎实时发出警报。一般来说，网页篡改检测引擎为各种篡改事件分别设置检测流程，当被检测的事件过不了某个检测流程时，即判断该事件为篡改事件；或者，预先给每一检测流程设置加权值，将被检测事件通过每一检测流程分别得到的分数与预先设置的各个加权值相乘后求和得到一个总分数，将这个总分数和设置的阀值做比较，若果超过范围就是篡改，否则，则不是篡改事件。

然而，在实现本发明实施例的过程中，发明人发现，过不了某一个检测流程并不都意味着该事件就为篡改事件，且网页篡改检测引擎中每一检测流程的预设加权值不能动态的变化，而各种网页篡改事件是随机发生的。因此，网页篡改检测引擎的误报率、漏报率参差不齐，有的甚至非常严重，存在检测准确率低的问题。

发明内容

本发明实施例提供一种网页篡改检测方法，通过网页篡改检测算法的网页篡改检测模型，从而提高网页篡改检测的准确度。

第一个方面，本发明实施例提供一种网页篡改检测方法，包括：

步骤1：根据每一种类网页篡改的属性获取每个时间检测点i的网页篡改检测值Vi以构造网页篡改检测算法可读取的训练样本集Strain；

步骤2：利用所述网页篡改检测算法以ω_f(l)为概率抽取样本集D_f对所述训练样本集Strain进行训练，更新训练样本权重以得到强学习机H，其中，ω_f(l)为平均概率分布；

步骤3：若不满足下列条件1及条件2，则以ω_f(n)为概率抽取样本集D_f对所述训练样本集Strain进行迭代训练，重复更新训练样本权重以得到强学习机H，其中，ω_f(n)为正态分布概率；否则，执行步骤4；

条件1：所述网页篡改检测算法达到最大迭代次数k；

条件2：所述样本集D_f不再变化；

步骤4：输出强学习机H，利用所述强学习机完成网页篡改的检测。

在第一种可能的实现方式中，上述步骤2包括以下步骤：

步骤2.1：设定所述网页篡改检测算法最大迭代次数k，并设定所述网页篡改检测算法所调用的弱学习算法；

步骤2.2:从所述训练样本集Strain中以ω_f(l)为概率抽取所述样本集D_f，并由弱学习算法训练，得到弱学习机h_f，其中，所述概率ω_f(l)为平均分布概率，且

ω_{f} (l) = \frac{ω_{f} (i)}{Σ_{i} ω_{f} (i)};

步骤2.3：根据所述概率ω_f(l)计算所述弱学习机h_f的训练误差ε_f；

步骤2.4:根据所述训练误差，计算所述弱学习机h_f的权重α_f；

步骤2.5:根据所述弱学习机h_f的权重α_f，计算得到更新训练样本的权重。

在第二种可能的实现方式中，上述步骤3中以ω_f(n)为概率抽取所述样本集D_f对所述训练样本集Strain进行迭代训练，重复更新训练样本权重以得到强学习机H，具体包括以下步骤：

步骤3.1：从所述训练样本集Strain中以ω_f(n)为概率抽取所述样本集D_f，并由弱学习算法训练，得到弱学习机h_f，所述概率ω_f(n)为正态分布概率，

ω_{f} (n) = \frac{1}{\sqrt{{2 πσ}^{2}}} e^{- \frac{{(x - μ)}^{2}}{{2 σ}^{2}}},

其中，σ＝1，μ＝0；

步骤3.2：根据所述概率ω_f(n)计算所述弱学习机h_f的训练误差ε_f；

步骤3.3：根据所述训练误差，计算所述弱学习机h_f的权重α_f；

步骤3.4：根据所述弱学习机h_f的权重α_f，计算得到更新训练样本的权重，更新后的训练样本的权重为：

结合第一种可能的实现方式，在第三种可能的实现方式中，

所述训练误差ε_f的计算公式为：

式中，ε_f为训练误差，f∈[1,...，k]；

ω_f（l）为平均分布抽取概率；

所述权重α的计算公式为：

α_{f} = \frac{1}{2} 1 n [\frac{1 - ϵ_{f}}{ϵ_{f}}];

式中，α_f为弱学习机h_f的权重。

结合第二种可能的实现方式，在第四种可能的实现方式中，

所述训练误差ε_f的计算公式为

式中，ε_f为训练误差，f∈[1,...，k]；

ω_f（n）为正态分布抽取概率；

所述权重α的计算公式为：

α_{f} = {(\frac{1}{2} 1 n [\frac{1 - ϵ_{f}}{ϵ_{f}}])}^{2};

式中，α_f为弱学习机h_f的权重。

结合第一种至第四种任一种可能的实现方式，在第五种可能的实现方式中，所述强学习机H的计算公式为：

H = sign [Σ_{l = 1}^{k} α_{l} h_{l} (x)];

式中，H为强学习机；

sign为符号函数；

α_l为弱学习机h_f的权重。

结合第一种至第四种任一种可能的实现方式，在第六种可能的实现方式中，所述步骤1包括以下步骤：

步骤1.1：分析每一种类网页篡改的属性x1，x2，L，Xn，进而构造层次化的网页篡改判断指标体系T；

步骤1.2：统计所述每一种网页篡改的检测结果Ri，按照时间检测点i的顺序，依次输入到所述网页篡改判断指标体系T中，得到每一所述时间检测点i的网页篡改检测值Vi。

步骤1.3：根据所述每一时间检测点i的所述网页篡改检测值Vi，构造所述网页篡改检测算法可读取的训练样本集Strain。

第二个方面，本发明实施例提供一种网页篡改检测装置，包括：

构造模块，用于根据每一种类网页篡改的属性获取每个时间检测点i的网页篡改检测值Vi以构造网页篡改检测算法可读取的训练样本集Strain；

第一训练模块，用于利用所述网页篡改检测算法以ω_f(l)为概率抽取样本集D_f对所述训练样本集Strain进行训练，更新训练样本权重以得到强学习机H，其中，ω_f(l)为平均概率分布；

第二训练模块，用于若不满足下列条件1及条件2，则以ω_f(n)为概率抽取样本集D_f对所述训练样本集Strain进行迭代训练，重复更新训练样本权重以得到强学习机H，其中，ω_f(n)为正态分布概率，否则，输出强学习机；

条件1：所述网页篡改检测算法达到最大迭代次数k；

条件2：所述样本集D_f不再变化；

检测模块，用于输出强学习机H，利用所述强学习机完成网页篡改的检测。

在第二个方面的第一种可能的实现方式中，所述第一训练模块，具体用于设定所述网页篡改检测算法最大迭代次数k，并设定所述网页篡改检测算法所调用的弱学习算法；

从所述训练样本集Strain中以ω_f(l)为概率抽取所述样本集D_f，并由弱学习算法训练，得到弱学习机h_f，其中，所述概率ω_f(l)为平均分布概率，且

ω_{f} (l) = \frac{ω_{f} (i)}{Σ_{i} ω_{f} (i)};

根据所述概率ω_f(l)计算所述弱学习机h_f的训练误差ε_f；

根据所述训练误差，计算所述弱学习机h_f的权重α_f；

根据所述弱学习机h_f的权重α_f，计算得到更新训练样本的权重。

在第二个方面的第二种可能的实现方式中，所述第二训练模块，具体用于从所述训练样本集Strain中以ω_f(n)为概率抽取所述样本集D_f，并由弱学习算法训练，得到弱学习机h_f，所述概率ω_f(n)为正态分布概率，

ω_{f} (n) = \frac{1}{\sqrt{{2 πσ}^{2}}} e^{- \frac{{(x - μ)}^{2}}{{2 σ}^{2}}},

其中，σ＝1，μ＝0；

根据所述概率ω_f(n)计算所述弱学习机h_f的训练误差ε_f；

根据所述训练误差，计算所述弱学习机h_f的权重α_f；

根据所述弱学习机h_f的权重α_f，计算得到更新训练样本的权重，更新后的训练样本的权重为：

结合第二个方面及第二个方面的第一种可能的实现方式及第二种可能的实现方式，在第三种可能的实现方式中，所述构造模块，具体用于分析每一种类网页篡改的属性x1，x2，L，Xn，进而构造层次化的网页篡改判断指标体系T；

统计所述每一种网页篡改的检测结果Ri，按照时间检测点i的顺序，依次输入到所述网页篡改判断指标体系T中，得到每一所述时间检测点i的网页篡改检测值Vi。

根据所述每一时间检测点i的所述网页篡改检测值Vi，构造所述网页篡改检测算法可读取的训练样本集Strain。

本发明提供的网页篡改检测方法及装置，通过网页篡改检测算法的迭代训练，将每一弱学习机反复训练成强学习机，训练样本的权重也不断的动态变化，形成基于网页篡改检测算法的网页篡改检测模型，从而实现对网页篡改事件的检测。本发明提供的网页篡改检测方法，在篡改网页事件检测的精度上相对于传统网页篡改检测引擎的检测方法，有较高的检测精度和检测速度，提高了网页篡改检测系统的实用性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明网页篡改检测方法实施例的流程图；

图2是本发明网页篡改检测算法训练弱学习机的过程示意图；

图3是本发明网页篡改检测装置实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明网页篡改检测方法实施例的流程图，如图所示，本实施例的方法可以包括如下步骤：

步骤1：根据每一种类网页篡改的属性获取每个时间检测点i的网页篡改检测值Vi以构造网页篡改检测算法可读取的训练样本集Strain。

网页篡改检测是对网页篡改事件的的检测，网页篡改检测系统可以通过收集网络及计算机系统内所有关键节点的信息，检测网页或是系统中是否存在非法篡改的迹象，分析各种网络安全设备（如防火墙、IDS、IPS等）的日志，从而得到这些设备实时记录的每个检测时间点各种网页篡改事件对网络安全的威胁程度。因此，可以根据每一种类网页篡改的属性获取每个时间监测点i的网页篡改检测值Vi以构造网页篡改检测算法可读取的训练样本集Strain。具体的，该构造训练样本集Strain的过程可以包括：

步骤1.1：分析每一种类网页篡改的属性x1，x2，L，Xn，进而构造层次化的网页篡改判断指标体系T。

一般来说，可以采用灰色聚类分析（Grey Cluster Analysis，以下简称GCA）方法构造整体指标的白化函数，根据白话函数确定灰色聚类系数，根据灰色聚类系数确定灰色聚类归属进而分析出每一种网页篡改的属性x1，x2，L，Xn。另外，也可以通过核主成分分析算法分析每一种类网页篡改的属性x1，x2，L，Xn。根据分析出的每一种类网页篡改的属性构造层次化的网页篡改判断指标体系T。

统计各个时间检测点i的网页篡改的检测结果Ri，将Ri与网页篡改判断指标体系T的权重矩阵ω做乘法，ω＝[ω₁,ω₂,L,ω_n]^T是n×1矩阵，从而得到每一种类的网页篡改检测值Vi。

步骤1.3：根据每一时间检测点i的网页篡改检测值Vi，构造网页篡改检测算法可读取的训练样本集Strain。

根据上述步骤1.2中得出的每一类的网页篡改检测值Vi，使用滑动窗口的方法将各个离散时间检测点i的网页篡改检测值Vi构造成网页篡改检测算法可读的训练样本集Strain。

步骤2：利用网页篡改检测算法以ω_f(l)为概率抽取样本集D_f对训练样本集Strain进行迭代训练，更新训练样本权重以得到强学习机H。

步骤3：重复训练样本权重以得到强学习机。

判断步骤2中更新训练样本权重的结果是否满足条件1：网页篡改检测算法达到最大迭代次数k；条件2：样本集D_f不再变化；若不满足上述条件1及条件2，则以ω_f(n)为概率抽取样本集D_f对训练样本集Strain进行迭代训练，重复更新训练样本权重以得到强学习机H，否则，执行步骤4。

骤4：输出强学习机H，利用强学习机完成网页篡改的检测。

强学习机H的计算公式为：

H = sign [Σ_{l = 1}^{k} α_{l} h_{l} (x)];

式中，H为强学习机；

sign为符号函数；

α_l为弱学习机h_f的权重。

该步骤中，利用强学习机对未来的网页篡改的正误进行人工判断，并设定强学机械H的生命周期，生命周期结束则重新根据每一种类网页篡改的属性获取每个时间检测点i的网页篡改检测值Vi以构造网页篡改检测算法可读取的训练样本集Strain

经过上述四个步骤的训练学习之后，形成基于学习网页篡改检测算法的网页篡改检测模型，从而实现对网页篡改检测事件的实时检测。

本发明实施例提供的网页篡改检测算法，利用某个不稳定的弱学习机生成一个弱学习机组合，其中每个弱学习机均作为基分类器存在，每个基分类器的训练均依赖于之前基分类器的分类结果，即将之前的基分类器的误差用于调整当前基分类器的样本概率分布，强学习机通过单个基分类器的加权组合而成，可以明显提高不稳定学习机的准确率，对于单学习机性能的提升明显。由于网页篡改检测算法每一训练都可以得到一个基分类器，而每个基分类器都是在上一次基分类器的计算结果上改进。因此，从迭代训练角度来看，网页篡改检测算法的训练就是一个不断优化的过程，即分类器从不稳定到稳定的过程。经研究发现，网页篡改检测算法只需要调整最大训练次数k一个参数，并且网页篡改检测算法不会导致过学习现象出现。

上述实施例中，先以平均分布概率ω_f(l)抽取样本集D_f，不满足条件的时候以正态分布概率ω_f(n)抽取样本集D_f继续进行迭代训练，将每一个弱学习机反复训练成强的学习机，训练过程中每一弱学习机的权重也不断的动态变化。

图2是本发明网页篡改检测算法训练弱学习机的过程示意图，本发明实施例中，步骤2及步骤3的详细过程均可参照该过程。

具体的，步骤2包括以下步骤：

步骤2.1：设定网页篡改检测算法最大迭代次数k，并设定网页篡改检测算法所调用的弱学习算法。

网页篡改检测算法所调用的弱学习算法，例如可以是核心向量回归机（Core vector regression machine，以下简称CVR）。

步骤2.2：从训练样本集Strain中以ω_f(l)为概率抽取样本集D_f，并由弱学习算法训练，得到弱学习机h_f，其中，所述概率ω_f(l)为平均分布概率，且

ω_{f} (l) = \frac{ω_{f} (i)}{Σ_{i} ω_{f} (i)} .

本步骤中，以ω_f(l)为概率从原始的训练样本集Strain中抽取样本集D_f，并由弱学习算法训练，得到弱学习机h_ff∈[1,...，k]；

步骤2.3：计算弱学习机h_f的训练误差ε_f。

ϵ_{f} = Σ_{l = 1}^{q} ω_{f} (l);

式中，ε_f为训练误差，f∈[1,...，k]，ω_f(l)为平均分布概率，q为训练样本集中样本的总个数。

步骤2.4:计算弱学习机h_f的权重α_f。

α_{f} = \frac{1}{2} 1 n [\frac{1 - ϵ_{f}}{ϵ_{f}}];

式中，α_f为弱学习机h_f的权重。

步骤2.5:更新训练样本的权重。

ω_{f + 1} = \frac{ω_{f} (l) e^{- α_{f} V_{i} h_{g} (x_{l})}}{M_{f}};

式中，ω_f+1为更新训练样本的权重，ω_f(l)为训练样本的权重，^h _g ^(x _l ⁾为弱学习机根据输入量x_l得到的计算值；

V_i是网页篡改检测值；

M_f是归一化系数，须保证

步骤2.5中，若满足上述两个条件之一，则执行步骤4；否则，则以ωf(n)为概率抽取样本集D_f对训练样本集Strain进行迭代训练，重复更新训练样本权重以得到强学习机H。

具体的，以ω_f(n)为概率抽取样本集D_f对训练样本集Strain进行迭代训练，重复更新训练样本权重以得到强学习机H，具体包括以下步骤：

步骤3.1：从训练样本集Strain中以ω_f(n)为概率抽取样本集D_f，并由弱学习算法训练，得到弱学习机h_f，所述概率ω_f(n)为正态分布概率，

ω_{f} (n) = \frac{1}{\sqrt{{2 πσ}^{2}}} e^{- \frac{{(x - μ)}^{2}}{{2 σ}^{2}}},

其中，σ＝1，μ＝0。

步骤3.2：计算弱学习机h_f的训练误差ε_f。

ϵ_{f} = Σ_{l = 1}^{q} ω_{f} (n);

式中，ε_f为训练误差，f∈[1,...，k]，ω_f(n)为正态分布概率，q为训练样本集中样本的总个数。

步骤3.3：计算弱学习机h_f的权重α_f。

α_{f} = {(\frac{1}{2} 1 n [\frac{1 - ϵ_{f}}{ϵ_{f}}])}^{2};

式中，α_f为弱学习机h_f的权重。

步骤3.4：更新训练样本的权重，更新后的训练样本的权重为：

ω_{f + 1} (i) = ω_{f} (i) \times e^{- αf} .

需要说明的是，步骤3.1~步骤3.4仅代表循环过程中的一个具体的流程，在实际的训练过程中，若网页篡改检测算法未达到最大迭代次数k且样本集D_f还处于变化的状态，则需重复执行步骤3.1~3.4，即以ω_f(n)为概率抽取样本集D_f对训练样本集Strain进行迭代训练，重复更新训练样本权重以得到强学习机H。

图3是本发明网页篡改检测装置实施例的结构示意图。如图3所示，本实施例的装置可以包括：构造模块10、第一训练模块11、第二训练模块12以及检测模块13。

构造模块10，用于根据每一种类网页篡改的属性获取每个时间检测点i的网页篡改检测值Vi以构造网页篡改检测算法可读取的训练样本集Strain；

第一训练模块11，用于利用网页篡改检测算法以ω_f(l)为概率抽取样本集D_f对训练样本集Strain进行迭代训练，更新训练样本权重以得到强学习机H，其中，ω_f(l)为平均概率分布；

第二训练模块12，用于若不满足下列条件1及条件2，则以ω_f(n)为概率抽取样本集D_f对训练样本集Strain进行迭代训练，重复更新训练样本权重以得到强学习机H，其中，ω_f(n)为正态分布概率，否则，输出强学习机；

条件1：网页篡改检测算法达到最大迭代次数k；

条件2：样本集D_f不再变化；

检测模块13，用于输出强学习机H，利用强学习机完成网页篡改的检测。

本实施例的装置，可以用于执行图1所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

进一步的，上述实施例中，第一训练模块11，具体用于设定网页篡改检测算法最大迭代次数k，并设定网页篡改检测算法所调用的弱学习算法；

从训练样本集Strain中以ω_f(l)为概率抽取样本集D_f，并由弱学习算法训练，得到弱学习机h_f，其中，概率ω_f(l)为平均分布概率，且

根据概率ω_f(l)计算弱学习机h_f的训练误差ε_f；

根据训练误差，计算弱学习机h_f的权重α_f；

根据弱学习机h_f的权重α_f，计算得到更新训练样本的权重。

进一步的，上述实施例中，第二训练模块12，具体用于从训练样本集Strain中以ω_f(n)为概率抽取样本集D_f，并由弱学习算法训练，得到弱学习机h_f，概率ω_f(n)为正态分布概率，

其中，σ＝1，μ＝0；

根据概率ω_f(n)计算弱学习机h_f的训练误差ε_f；

根据训练误差，计算弱学习机h_f的权重α_f；

根据弱学习机h_f的权重α_f，计算得到更新训练样本的权重，更新后的训练样本的权重为：

ω_{f + 1} (i) = ω_{f} (i) \times e^{- αf} .

进一步的，上述实施例中，构造模块10，具体用于分析每一种类网页篡改的属性x1，x2，L，Xn，进而构造层次化的网页篡改判断指标体系T；

统计每一种网页篡改的检测结果Ri，按照时间检测点i的顺序，依次输入到网页篡改判断指标体系T中，得到每一时间检测点i的网页篡改检测值Vi。

根据每一时间检测点i的网页篡改检测值Vi，构造网页篡改检测算法可读取的训练样本集Strain。

本发明提供的网页篡改检测方法及装置，通过网页篡改检测算法的迭代训练，将每一弱学习机反复训练成强学习机，训练样本的权重也不断的动态变化，形成基于网页篡改检测算法的网页篡改检测模型，从而实现对网页篡改事件的检测。本发明在篡改网页事件检测的精度上相对于传统网页篡改检测引擎的检测方法，有较高的检测精度和检测速度，提高了网页篡改检测系统的实用性。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种网页篡改检测方法，其特征在于，包括：

条件1：所述网页篡改检测算法达到最大迭代次数k；

条件2：所述样本集D_f不再变化；

步骤4：输出强学习机H，利用所述强学习机H完成网页篡改的检测。

2.根据权利要求1所述的方法，其特征在于，所述步骤2包括以下步骤：

ω_{f} (l) = \frac{ω_{f} (i)}{Σ_{i} ω_{f} (i)};

3.根据权利要求1所述的方法，其特征在于，所述步骤3中以ω_f(n)为概率抽取所述样本集D_f对所述训练样本集Strain进行迭代训练，重复更新训练样本权重以得到强学习机H，具体包括以下步骤：

ω_{f} (n) = \frac{1}{\sqrt{{2 πσ}^{2}}} e^{- \frac{{(x - μ)}^{2}}{{2 σ}^{2}}},

其中，σ=1，μ=0；

4.根据权利要求2所述的方法，其特征在于，

所述训练误差ε_f的计算公式为：

式中，ε_f为训练误差，f∈[1,...，k]；

ω_f（l）为平均分布抽取概率；

所述权重α的计算公式为：

α_{f} = \frac{1}{2} 1 n [\frac{1 - ϵ_{f}}{ϵ_{f}}];

式中，α_f为弱学习机h_f的权重。

5.根据权利要求3所述的方法，其特征在于，

所述训练误差ε_f的计算公式为

式中，ε_f为训练误差，f∈[1,...，k]；

ω_f（n）为正态分布抽取概率；

所述权重α的计算公式为：

α_{f} = {(\frac{1}{2} 1 n [\frac{1 - ϵ_{f}}{ϵ_{f}}])}^{2};

式中，α_f为弱学习机h_f的权重。

6.根据权利要求1~5任一所述的方法，其特在于，所述强学习机H的计算公式为：

H = sign [Σ_{l = 1}^{k} α_{l} h_{l} (x)];

式中，H为强学习机；

sign为符号函数；

α_l为弱学习机h_f的权重。

7.根据权利要求1~5任一所述的方法，其特征在于，所述步骤1包括以下步骤：

8.一种网页篡改检测装置，其特征在于，包括：

第二训练模块，用于若不满足下列条件1及条件2，则以ω_f(n)为概率抽取样本集D_f对所述训练样本集Strain进行迭代训练，重复更新训练样本权重以得到强学习机H，其中，ω_f(n)为正态分布概率，否则，输出强学习机H；

条件1：所述网页篡改检测算法达到最大迭代次数k；

条件2：所述样本集D_f不再变化；

检测模块，用于输出强学习机H，利用所述强学习机H完成网页篡改的检测。

9.根据权利要求8所述的装置，其特征在于，

所述第一训练模块，具体用于设定所述网页篡改检测算法最大迭代次数k，并设定所述网页篡改检测算法所调用的弱学习算法；

ω_{f} (l) = \frac{ω_{f} (i)}{Σ_{i} ω_{f} (i)};

根据所述概率ω_f(l)计算所述弱学习机h_f的训练误差ε_f；

根据所述训练误差，计算所述弱学习机h_f的权重α_f；

10.根据权利要求8所述的装置，其特征在于，

所述第二训练模块，具体用于从所述训练样本集Strain中以ω_f(n)为概率抽取所述样本集D_f，并由弱学习算法训练，得到弱学习机h_f，所述概率ω_f(n)为正态分布概率，

其中，σ＝1，μ＝0；

根据所述概率ω_f(n)计算所述弱学习机h_f的训练误差ε_f；

根据所述训练误差，计算所述弱学习机h_f的权重α_f；

ω_{f + 1} (i) = ω_{f} (i) \times e^{- αf} .

11.根据权利要求8~10任一所述的装置，其特征在于，所述构造模块，具体用于分析每一种类网页篡改的属性x1，x2，L，Xn，进而构造层次化的网页篡改判断指标体系T；