CN107943916A

CN107943916A - 一种基于在线分类的网页异常检测方法

Info

Publication number: CN107943916A
Application number: CN201711160063.3A
Authority: CN
Inventors: 程凡; 章霞; 张闯
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2017-11-20
Filing date: 2017-11-20
Publication date: 2018-04-20
Anticipated expiration: 2037-11-20
Also published as: CN107943916B

Abstract

本发明公开了一种基于在线分类的网页异常检测方法，包括：1：输入网页训练数据；步骤2：对所述的网页训练样本数据进行预处理；步骤3：训练在线网页分类模型；异常网页检测分类包括：步骤4：输入待检测网页样本数据；步骤5：对所述待检测网页样本数据进行预处理；步骤6：通过在线网页分类模型对所待检测网页样本数据进行分类，检测是否为异常网页。本发明能快速有效从海量、不平衡网页数据中检测出异常网页，提高网络安全和互联网用户体验。

Description

一种基于在线分类的网页异常检测方法

技术领域

本发明涉及统计学习分类技术领域，尤其涉及一种基于在线分类的网页异常检测方法。

背景技术

近年来，随着互联网的普及，每天新增的网页以指数级增长，它已经成为人们获取信息的重要手段，随之而来的异常网页也逐渐成为网络信息安全的主要威胁之一。利用在线分类算法的优势，有效进行异常网页检测，尤其是在对新出现的网页样本能够进行及时异常检测和识别，是当前Web安全检测领域研究的主要内容，也是提高用户体验面临的重要问题。

在海量的网页中，异常网页的数量少之又少，因此如何准确识别出这些少量的异常网页显得极为重要。传统网页分类算法，如决策树分类算法和朴素贝叶斯算法，没有考虑到网页样本数据分布不平衡的问题，其性能有较大的局限性。对于此类在众多数据中识别少量信息的案例，机器学习中不平衡数据处理算法能使之得以有效解决。

传统分类学习方法，例如SVM和Adaboost算法，在实际实现中需要将所有训练数据调入内存处理，庞大的数据量和有限的应用环境成为传统分类学习方法的主要制约因素，不能满足互联网时代海量网页数据的需求。

发明内容

本发明为克服现有技术的不足之处，提出一种基于在线分类的网页异常检测方法，以期能在海量、不平衡的网页数据中迅速检测出异常网页，从而提高网络安全和互联网用户体验。

为了达到上述目的，本发明采用的技术方案为：

本发明一种基于在线分类的网页异常检测方法的特点是按如下步骤进行：

步骤一：在线网页分类模型训练：

步骤1.1：采集T个网页的源代码数据作为T个网页样本，并提取T个网页样本中关于异常网页的属性特征，得到T个网页样本的样本数据，其中，第t个网页样本的样本数据，记为(x_t,y_t)，并有：表示第t个网页样本的属性特征，表示第t个网页样本中第i个关于异常网页的属性特征，y_t表示第t个网页样本的标签，若y_t＝1，表示所述第t个网页样本为正常网页，若y_t＝0，表示所述第t个网页样本为异常网页，i＝1,2,…,d，t＝1,2,…,T；

步骤1.2：对所述第t个网页样本的属性特征x_t进行标准化处理，得到第t个网页样本的特征向量并与所述第t个网页样本的标签y_t构成样本空间(x′_t,y_t)，从而得到T个网页样本的样本空间，记为

步骤1.3：定义当前迭代次数为n，最大迭代次数为N；并初始化n＝1；

步骤1.4：利用式(1)定义在线网页分类模型第n次迭代的损失函数L(w_n)：

式(1)中，λ为常量；w_n为第n次迭代的模型权值向量；x′_n为第n次迭代时输入的第n个网页样本的特征向量；y_n表示第n次迭代时输入的第n个网页样本的标签；表示从1到n-1个网页样本中所取出的第k个网页样本的标签y_k与第n个网页样本的标签y_n不同；|{k∈[n-1]:y_ky_n＝-1}|表示在n-1个网页样本中统计与第n个网页样本的标签y_n不同的标签个数；

步骤1.5：利用式(2)得到第n次迭代的梯度g_n：

g_n＝λw+x′_n-c_n+(x′_n-c_n)(x′_n-c_n)^Tw+S_nw (2)

式(2)中，c_n为第n次迭代时第1到n个网页样本中正常或异常网页样本特征向量的均值向量，并有：

式(3)中，x′_j表示第n次迭代时第j个正常网页样本或异常网页样本的特征向量；表示第n次迭代时正常网页的样本总数；为第n次迭代时第1到n个网页样本中正常网页样本特征向量的均值向量；表示第n次迭代时异常网页的样本总数；为第n次迭代时第1到n个网页样本中异常网页样本特征向量的均值向量；当n＝0时，c_n，为d维的零向量；

式(2)中，S_n为第n次迭代时第1到n个网页样本中正常或异常网页样本特征向量的协方差矩阵，并有：

式(4)中，当n＝0时，S_n为d×d维零矩阵；

步骤1.6：利用式(5)对第n次迭代的梯度g_n进行修正，得到第n次迭代的自适应梯度

式(5)中，γ₁，γ₂为常量，常取0.1；v_n表示第n次迭代的d×d维的二次梯度信息，并由式(6)获得：

式(6)中，当n＝0时，v_n为d×d维零矩阵；

步骤1.7：利用式(7)得到第n次迭代的权值向量w_n：

式(7)中，α为常量；当n＝0时，w_n为d维零向量；

步骤1.8：令n+1赋值给n，并判断n＞N是否成立，若成立，则表示获得最优分类模型w_N，并执行步骤二，否则，返回步骤1.5执行；

步骤二：网页异常检测：

步骤2.1：输入待检测的网页源代码数据作为待测样本并提取关于异常网页的属性特征，记为x＝(μ₁,μ₂,…,μ_i,…,μ_d)，其中，μ_i表示待测样本中第i个关于异常网页的属性特征；

步骤2.2：对所述待测样本的属性特征x进行标准化处理，得到待测样本的特征向量x′＝(μ′₁,μ′₂,…,μ′_i,…,μ′_d)；

步骤2.3：利用式(8)得到所述待测样本的决策函数值f(x′)：

f(x′)＝x′(w_N)^T (8)

步骤2.4：若f(x′)＞0，则表示所述待测样本为正常网页，若f(x′)≤0，则表示所述待测样本为异常网页。

与已有技术相比，本发明的有益效果体现在：

1、本发明不同于传统异常网页分类算法，提出一种基于在线分类的网页异常检测方法，通过从网页提取能有效分辨异常网页的属性特征，利用收敛更快速的在线分类方法训练网页分类模型，从而能够在海量、不平衡的网页数据中高效准确检测出异常网页，提高了用户体验。

2、本发明在训练网页异常预测模型参数过程中，采取直接优化AUC(Area UnderCurve)指标来定义损失函数，能够很好的度量不平衡数据处理的整体性能，从而克服了传统分类算法不能有效解决正常网页和异常网页比例极度不平衡问题，使训练出了分类模型优于传统分类模型，从而提高了异常网页检测性能和准确率。

3、本发明在训练样本数据过程中，采用在线训练的方式，每次训练只采用样本集中的一个网页样本数据，通过保存网页样本特征向量的均值和协方差矩阵来计算单个样本梯度信息，有效避免了传统学习面临的数据量和应用环境限制的问题。

4、本发明在梯度更新的过程中使用了自适应梯度更新，该梯度尽可能提取出历史梯度信息，分析历史梯度间的关联，保证了构建出的梯度方向更加科学合理。同时该梯度包含了当前特征的每一维自适应的“相对较好”的步长，避免了手动调试步长的过程，使模型参数训练过程更加迅速，提高了模型训练收敛速度。

附图说明

图1是本发明方法的流程图。

具体实施方式

本实施例中，一种基于在线分类的网页异常检测方法，包括在线网页分类模型训练步骤和网页异常检测步骤，具体的说，如图1所示，是按如下步骤进行：

步骤一：在线网页分类模型训练：

步骤1.1：采集T个网页的源代码数据作为T个网页样本，并利用正则表达式提取T个网页样本中关于异常网页的属性特征，得到T个网页样本的样本数据，常见属性特征如Document.write()出现次数、Exe出现次数、Usescape出现次数、超长字符串、iframe/frame框架等，通过分析异常网页相较于正常网页常表现为上述属性特征的异常；其中，第t个网页样本的样本数据，记为(x_t,y_t)，并有：表示第t个网页样本的属性特征，表示第t个网页样本中第i个关于异常网页的属性特征，y_t表示第t个网页样本的标签，若y_t＝1，表示所述第t个网页样本为正常网页，若y_t＝0，表示所述第t个网页样本为异常网页，将异常网页检测问题建模为正常网页和异常网页的二分类问题，i＝1,2,…,d，t＝1,2,…,T；

步骤1.2：对所述第t个网页样本的属性特征x_t进行标准化处理，将属性特征转换为分类器处理的数据格式，并对数据做适当的归一化，减小模型训练的计算复杂度，得到第t个网页样本的特征向量并与所述第t个网页样本的标签y_t构成样本空间(x′_t,y_t)，从而得到T个网页样本的样本空间，记为

步骤1.3：定义当前迭代次数为n，最大迭代次数为N；并初始化n＝1；通过N次迭代，每次迭代从样本空间取一个网页样本进行模型训练，得到最优模型w_N；

步骤1.4：利用式(1)定义在线网页分类模型第n次迭代的损失函数L(w_n)，目标损失函数以AUC为直接优化目标，通过梯度方法得到最优模型w_N，以解决海量网页中异常网页很少的不平衡分类问题：

式(1)中，λ为常量；w_n为第n次迭代的模型权值向量；x_n′为第n次迭代时输入的第n个网页样本的特征向量；y_n表示第n次迭代时输入的第n个网页样本的标签；表示从1到n-1个网页样本中所取出的第k个网页样本的标签y_k与第n个网页样本的标签y_n不同；|{k∈[n-1]:y_ky_n＝-1}|表示在n-1个网页样本中统计与第n个网页样本的标签y_n不同的标签个数；

步骤1.5：利用式(2)得到第n次迭代的梯度g_n，对式(1)求导得到梯度g_n，以梯度下降方法迭代寻找最优分类模型，同时通过保存网页样本特征向量的均值c_n和协方差矩阵S_n来计算单个样本梯度信息，达到在线训练的目的。

g_n＝λw+x′_n-c_n+(x′_n-c_n)(x′_n-c_n)^Tw+S_nw (2)

式(4)中，当n＝0时，S_n为d×d维零矩阵；

步骤1.6：利用式(5)对第n次迭代的梯度g_n进行修正，得到第n次迭代的自适应梯度该梯度相对于其他优化算法的梯度，在对预测模型w_N的优化方面更加突出，从而能够更快的收敛速度得到异常网页检测所需的分类模型w_N：

式(5)中，γ₁，γ₂为常量，常取0.1，v_n表示第n次迭代的d×d维的二次梯度信息，并由式(6)获得，通过动量法保存当前梯度平方信息和历史梯度信息v_n-1，尽可能提取出历史梯度的相关信息，分析历史梯度间的关联，保证构建出的梯度更加科学合理

式(6)中，β为常量，当n＝0时，v_n为d×d维零矩阵；

步骤1.7：利用式(7)得到第n次迭代的权值向量w_n：

式(7)中，α为常量，当n＝0时，w_n为d维零向量；

步骤二：网页异常检测，利用步骤一得到的最优异常网页分类模型以及相应的待测网页属性特征进行异常网页检测：

步骤2.1：输入待检测的网页源代码数据作为待测样本并提取关于异常网页的属性特征，如Document.write()出现次数、Exe出现次数、Usescape出现次数、超长字符串、iframe/frame框架等，记为x＝(μ₁,μ₂,…,μ_i,…,μ_d)，其中，μ_i表示待测样本中第i个关于异常网页的属性特征；

步骤2.3：利用式(8)得到所述待测样本的决策函数值f(x′)：

f(x′)＝x′(w_N)^T (8)

通过仿真数据集的例子来说明本发明的具体实施方法和验证本发明方法的效果。

1)、准备标准数据集

本发明使用svmguide3数据集作为标准数据集验证在线分类检测异常网页的有效性，svmguide3集是广泛应用于不平衡分类的基准数据集。在svmguide3数据集中，包含1243条数据即对应采集到的1243个网页样本数据，使用全部样本来验证本发明对于异常网页的性能。对于这1243个训练样本，把他们划分为训练样本和测试样本数据。通过五折交叉验证选取出最佳的模型参数。

2)、评价指标

采用AUC作为本实例的评价指标，用来评测在不平衡等数据上本发明对于异常网页检测的性能。AUC值越高，表示分类效果越好。

3)、在标准数据集上进行实验

为了验证本发明所提方法的有效性，将本发明的在线分类算法(AOAUC)与此前经典的OPAUC算法和SOLAM算法在svmguide3数据集上进行建模和预测，并将三者的预测结果进行比较。实验结果如表1所示。

表1对比实验结果

从表1可以看出在不平衡数据集svmguide3中，本发明的AOAUC分类算法相较于其他两者，获得的更好的分类精度，且时间取得更优的效果，继而体现出本发明的有效性。在互联网信息日益庞大的今天，互联网安全日益重要，准确高效的检测出异常网页数据是Web安全领域的重要研究问题。基于此，本发明能快速有效从海量、不平衡网页数据中检测出异常网页，提高网络安全和互联网用户体验。

Claims

1.一种基于在线分类的网页异常检测方法，其特征是按如下步骤进行：

步骤一：在线网页分类模型训练：

<mrow> <mi>L</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mi>&lambda;</mi> <mn>2</mn> </mfrac> <mo>|</mo> <mo>|</mo> <msub> <mi>w</mi> <mi>n</mi> </msub> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>+</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <msub> <mi>I</mi> <mrow> <mo>&lsqb;</mo> <msub> <mi>y</mi> <mi>k</mi> </msub> <mo>&NotEqual;</mo> <msub> <mi>y</mi> <mi>n</mi> </msub> <mo>&rsqb;</mo> </mrow> </msub> <msup> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>y</mi> <mi>n</mi> </msub> <msup> <mrow> <mo>(</mo> <mrow> <msubsup> <mi>x</mi> <mi>n</mi> <mo>&prime;</mo> </msubsup> <mo>-</mo> <msubsup> <mi>x</mi> <mi>k</mi> <mo>&prime;</mo> </msubsup> </mrow> <mo>)</mo> </mrow> <mi>T</mi> </msup> <msub> <mi>w</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> <mrow> <mn>2</mn> <mrow> <mo>|</mo> <mrow> <mo>{</mo> <mi>k</mi> <mo>&Element;</mo> <mo>&lsqb;</mo> <mi>n</mi> <mo>-</mo> <mn>1</mn> <mo>&rsqb;</mo> <mo>:</mo> <msub> <mi>y</mi> <mi>k</mi> </msub> <msub> <mi>y</mi> <mi>n</mi> </msub> <mo>=</mo> <mo>-</mo> <mn>1</mn> <mo>}</mo> </mrow> <mo>|</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

步骤1.5：利用式(2)得到第n次迭代的梯度g_n：

g_n＝λw+x′_n-c_n+(x′_n-c_n)(x′_n-c_n)^Tw+S_nw (2)

式(4)中，当n＝0时，S_n为d×d维零矩阵；

<mrow> <msub> <mover> <mi>g</mi> <mo>^</mo> </mover> <mi>n</mi> </msub> <mo>=</mo> <mfrac> <msub> <mi>g</mi> <mi>n</mi> </msub> <mrow> <msub> <mi>v</mi> <mi>n</mi> </msub> <mo>+</mo> <mfrac> <msub> <mi>&gamma;</mi> <mn>2</mn> </msub> <mi>n</mi> </mfrac> <msup> <mi>e</mi> <mrow> <mo>-</mo> <msub> <mi>&gamma;</mi> <mn>1</mn> </msub> <msub> <mi>nv</mi> <mrow> <mi>n</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> </mrow> </msup> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

式(6)中，当n＝0时，v_n为d×d维零矩阵；

步骤1.7：利用式(7)得到第n次迭代的权值向量w_n：

<mrow> <msub> <mi>w</mi> <mi>n</mi> </msub> <mo>=</mo> <msub> <mi>w</mi> <mrow> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>-</mo> <mfrac> <mi>&alpha;</mi> <mi>n</mi> </mfrac> <msub> <mover> <mi>g</mi> <mo>^</mo> </mover> <mi>n</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>

式(7)中，α为常量；当n＝0时，w_n为d维零向量；

步骤二：网页异常检测：

步骤2.3：利用式(8)得到所述待测样本的决策函数值f(x′)：

f(x′)＝x′(w_N)^T (8)