CN102523202A

CN102523202A - 钓鱼网页的深度学习智能检测方法

Info

Publication number: CN102523202A
Application number: CN2011103939592A
Authority: CN
Inventors: 李元诚; 沈尚方
Original assignee: North China Electric Power University
Current assignee: North China Electric Power University
Priority date: 2011-12-01
Filing date: 2011-12-01
Publication date: 2012-06-27
Anticipated expiration: 2031-12-01
Also published as: CN102523202B

Abstract

本发明公开了属于网络信息安全技术领域的钓鱼网页的深度学习智能检测方法。包括以下步骤：1)对网页文档模型进行分析，生成网页文档特征向量F；2)将待测网页转化为图像，并采用谱聚类方法对所得图像进行分割；3)提取网页图像特征，从而获得网页内容特征向量N；4)使用流形学习Isomap算法对网页内容特征向量N降维得到特征空间V_new；5)用DBN分类器对特征空间V_new进行训练和测试，根据DBN分类器结果判别待检测的网页是否为钓鱼网页。本发明的有益效果为：检测的特征参数覆盖更加全面，相比文本特征提取方法，DBN深度信任网络算法具有较高的检测精度和较快的检测速度，提高了钓鱼式攻击检测率。

Description

钓鱼网页的深度学习智能检测方法

技术领域

本发明属于网络信息安全技术领域，尤其涉及钓鱼网页的深度学习智能检测方法。

背景技术

近年来网络“钓鱼”攻击频频出现，严重地影响了电子商务的发展，也给公众造成了很大的危害。国内常见的“钓鱼”式攻击(Phishing)，如仿冒各大银行等金融机构和大型交易门户的钓鱼网站，危害非常严重。当前针对钓鱼网页的检测技术一般是单独基于文档模型或网页图像的检测方法。由于HTML语言的灵活性和网页元素的动态性，仿冒者能做出看上去一样但结构完全不同的网页，因而单独基于文档模型的钓鱼网页检测方法存有很大缺陷；同样，目前基于图像的网页相似检测方法主要是根据人的视觉原理，对网页的视觉相似度进行判定，虽然难度较大，攻击发起者对被仿冒的网页的模仿也可以做到以假乱真的程度。综上所述，以往钓鱼网页检测方法中存在的检测识别特征不全面、智能检测精度不足等缺点。

发明内容

本发明针对上述缺陷公开了钓鱼网页的深度学习智能检测方法，该方法用于解决目前单纯基于文档型或图像型钓鱼网页检测技术对图片网页处理的不足，以及钓鱼网页检测精度不高的问题。

钓鱼网页的深度学习智能检测方法，包括以下步骤：

1)对网页文档模型进行分析，生成网页文档特征向量F；

2)将待测网页转化为图像，并采用谱聚类方法对所得图像进行分割；

3)提取网页图像特征，从而获得网页内容特征向量N；

4)使用流形学习Isomap算法对网页内容特征向量N降维得到特征空间V_new；

5)用DBN分类器对特征空间V_new进行训练和测试，根据DBN分类器结果判别待检测的网页是否为钓鱼网页。

所述步骤2)具体包括以下步骤：

21)将待测网页保存为网页图像；

22)将网页图像由RGB空间变换为HSI空间；

23)采用谱聚类方法，确定网页图像的聚类数目k；

24)生成k个子图。

所述步骤3)具体包括以下步骤：

31)提取分割后的各个子图的特征向量V_i；

32)提取分割后的各个子图间的位置关系特征向量C；

33)将以上特征组合成网页图像特征向量A，并与网页文档特征向量F一起合成为网页内容特征向量N。

所述步骤4)具体包括以下步骤：

41)选择邻域参数，构造邻域图；

42)在步骤41)所选择的邻域参数K下，求出产生的子邻域图个数以及每个子邻域图是由哪些数据点组成；

43)求出子邻域图数据集间最短的γ条欧式距离分别对应的数据点；

44)对WM_i，WM_j中相互连接的数据点对应的邻域集合进行修正

45)求出数据点间的最短路径；

46)构建m维的低维嵌入，获得降维后的特征空间V_new。

所述步骤5)具体包括以下步骤：

51)从网页内容特征空间V_new中，给出部分有标签的训练样本；

52)使用网页图像特征空间V_new中给出的有标签的训练样本，对DBN进行训练；

53)对DBN实施修正训练，进行参数微调，得到DBN分类器；

54)用得到的DBN分类器对特征空间V_new中的无标签样本进行测试，输出钓鱼网页检测结果。

本发明的有益效果为：使用本发明提供的方法进行钓鱼网页检测，综合网页文档和图像特征，检测的特征参数覆盖更加全面。在检测方法方面，相比文本特征提取方法，DBN深度信任网络算法具有较高的检测精度和较快的检测速度，提高了钓鱼式攻击检测率。

附图说明

图1是钓鱼网页的深度学习智能检测方法流程图。

具体实施方式

下面结合附图，对优选实施例作详细说明。应该强调的是，下述说明仅仅是示例性的，而不是为了限制本发明的范围及其应用。

如图1所示为本发明所提供的钓鱼网页的智能检测方法的检测过程示意图。该方法包括如下步骤：

1)对网页文档模型进行分析，生成网页文档特征向量F；

3)提取网页图像特征，从而获得网页内容特征向量N；

步骤1)具体包括下列步骤：

11)对网页文档模型进行分析：从Web页面的文档对象模型(DOM模型)和HTTP协议方面进行特征分析；

12)对网页文档特征进行提取：

根据HTTP协议和文档对象模型(DOM模型)，基于相关性，提取以下五种类别钓鱼网页敏感身份信息特征：Web页面URL地址、链接对象、表单元素、SSL证书和域名DNS信息。使用特征函数F_i(i＝1，2，3，4，5)来分别表示上述五种类别钓鱼网页敏感身份信息特征，每个特征函数的输出为实数值，表示Web网页中对应的敏感身份信息特征的状态，定义F＝{F₁，F₂，F₃，F₄，F₅}为生成的网页文档特征向量。

其中特征函数F₁(Web页面URL地址)的具体定义如下：

式(1)中，R₁是在本域内请求URL数，R_a是网页请求URL的总数。

特征函数F₂的具体定义如下：

F_{2} = \{\begin{matrix} (L_{null} + L_{real}) / L_{all} & L_{null} + L_{real} &GreaterEqual; L_{local} > 0 \\ 0 & L_{all} = 0 \\ - L_{local} / L_{all} & L_{local} > L_{null} + L_{real} > 0 \end{matrix} - - - (2)

其中，L_all代表Web页面中链接对象的总数，L_null代表Web页面中空链接个数，L_real代表Web页面中指向合法真实站点链接个数，L_local代表Web页面中指向本域的链接个数。

特征函数F₃的具体定义如下：

特征函数F₄的具体定义如下：

特征函数F₅为DNS域名记录特征函数。F₅的具体定义如下：

对于大部分的合法DNS域名注册信息，Google Whitelist都有记载，而钓鱼网页中通常包含有不同域名的欺骗URL，因此可以在whistelist中查寻当前URL的域名，或其域名子串是否存有一致的结果。

最终得到网页文档特征向量F＝<F₁，F₂，F₃，F₄，F₅>。

步骤2)包括以下步骤：

21)将待测网页保存为网页图像：把打开的待测网页保存为图像，图像的分辨率为1024×768，并通过图像处理软件获取图像每个像素的RGB值。

22)将网页图像由RGB空间变换为HSI空间，以便于图像分割和分析，RGB空间到HSI空间的转化公式如下：

I = \frac{1}{\sqrt{3}} (R + G + B) - - - (6)

S = 1 - \frac{3 \min (R, G, B)}{R + G + B} - - - (7)

H = \{\begin{matrix} θ & G &GreaterEqual; B \\ 2 πθ & G \leq B \end{matrix} - - - (8)

θ = \cos^{- 1} [\frac{\frac{1}{2} [(R - G) + (R - B)]}{\sqrt{{(R - G)}^{2} + (R - B) (G - B)}}] - - - (9)

式(6)-式(9)中，H表示色度(通过角度表示)，S表示饱和度，I表示亮度；R、G和B为每个像素的RGB值。

23)确定网页图像的聚类数目k。

使用谱聚类方法对网页图像进行分割：设图像原始数据集{x₁，x₂，...，x_n}是待聚类的数据集，其中，x₁-x_n代表图像中的第1-n个像素点，即所有像素点(本实施例中设定图像像素点的个数为n)。计算网页图像数据集{x₁，x₂，...，x_n}的相似矩阵A，由相似矩阵A得到拉普拉斯矩阵L及其特征向量，根据拉普拉斯矩阵L得到n个特征值(λ₁、λ₂...λ_n，λ₁≥λ₂≥...≥λ_n)和相应的特征向量(l₁、l₂...l_n)，按照特征值的大小顺序将相应的特征向量排列构成矩阵Y(将每个特征向量作为矩阵Y的一列)。

引入自适应确定聚类数目k的方法，期望以最佳的划分组数确保误差最小。初始化k＝2，并令m＝k，取矩阵Y的前m个列向量构成矩阵Y’，归一化矩阵Y’为矩阵Y”。在m维空间里，每个坐标轴的正负方向分别标记一个聚类。把矩阵Y”的行向量标记为距离最近的坐标轴所标记的聚类，得到新聚类数(小于或等于2m)。比较新聚类数和m的值，如果二者不相等，则令新聚类数赋值给m，继续执行以上过程；如果二者相等，则此时所得到的k就是确定的最佳聚类数。

24)生成k个子图：将步骤23)中得到的矩阵Y”的各行视为k维空间的点，用k-means算法聚类成k个子图。标记步骤23)中的图像原始数据集{x₁，x₂，...，x_n}，当且仅当矩阵Y”的第i行标记为聚类j时，把第i像素点x_i标记为聚类j。

步骤3)具体包括下列步骤：

31)提取分割后的各个子图的特征向量V_i。

提取第i子图的边界形状特征向量S_i＝(w_i，h_i，c_i)，w_i表示第i子图的宽度，h_i表示第i子图的长度，c_i表示第i子图的周长；

将第i子图由HSI空间还原为RGB空间，再由RGB空间转化为灰度空间，提取灰度直方图的特征向量G_i；

提取第i子图色彩直方图特征向量H_i；

利用第i子图的边界形状特征向量S_i、第i子图的灰度直方图特征向量G_i、第i子图的色彩直方图特征向量H_i，构成第i子图的特征向量V_i＝<S_i，H_i，G_i>，其中，i为1-k；k为子图的个数。

32)提取分割后的各个子图间的位置关系特征向量C。

计算各个子图HSI空间颜色的质心；

由每个子图颜色的质心在整个网页图像中的位置生成位置关系特征向量C；

33)将第i子图的特征向量V_i和各个子图间的位置关系特征向量C组合成网页图像特征向量A，具体是A＝<V₁，V₂...V_k，C>，k为子图的个数。

将网页图像特征向量A与网页文档特征向量F组合为网页内容特征向量N，N＝<V₁，V₂，...，V_k，C，F₁，F₂，...，F₅>。

本发明同时提取网页的文档特征和图像特征用于检测，可以最大限度的减少对钓鱼网页的漏判误判，提高检测效果。

步骤4)具体包括下列步骤：

41)设网页内容特征向量N＝<V₁，V₂，...，V_k，C，F₁，F₂，...，F₅>＝{x₁，x₂，...，x_n}，其中x_i∈Rⁿ。对于输入空间中的样本点x_i和x_j，其欧式距离为d_x(i，j)，将x_i点与所有的点进行比较，当点x_j是x_i的k-邻域(两点之间的距离小于固定的半径K，其中K是预先给定的值)，就认为它们是相邻的，从而得到x_i对应的邻域点集合NE(x_i)。将x_i与其所有相邻的点x_j连接起来，边长为d_x(i，j)，从而得到子邻域图，从而得到网页内容特征向量空间对应的邻域图。

以SG₁，SG₂...SG_L表示所产生的子邻域图，其中L表示所生成的邻域图个数，NSG_i表示构成第i子邻域图SG_i的数据集，|NSG_i|为构成第i子邻域图的数据元素个数，显然

Σ_{i = 1}^{L} | {NSG}_{i} | = N \underset{1 \leq i \leq L}{\cup} {NSG}_{i} = {x_{1}, x_{2}, . . ., x_{n}}, - - - (10)

NSG_i∩NSG_j＝φ(1≤i≤L，1≤j≤L且i≠j)(11)

43)求出子邻域图数据集间最短的γ条欧式距离分别对应的数据点。

用γ表示所要求得的最短欧式距离条数，亦即两两子邻域图间所要连接的数据点最大个数。设两子邻域图间所要连接的数据点的集合分别为WM_i，WM_j，则求得WM_i，WM_j的公式表述为：

{WM}_{i}, {WM}_{j} = \underset{w_{i}, w_{j}}{\arg} \min_{\underset{i < j}{1 \leq i, j \leq L}} (dist ({NSG}_{i}, {NSG}_{j})) - - - (12)

式(12)中，

{WM}_{i} &SubsetEqual; {NSG}_{i}, {WM}_{j} &SubsetEqual; {NSG}_{j},

|WM_i|≤γ，|WM_j|≤γ，WM_i，WM_j分别表示NSG_i与NSG_j间最短的γ条欧式距离所对应的两端数据点所形成的集合，|WM_i|，|WM_j|分别表示相应的数据集合元素个数。

44)对WM_i，WM_j中相互连接的数据点对应的邻域集合进行修正。

设X_t∈WM_i则X_t对应的邻域点集合NE(X_t)被更新为NE(X_t)∪WM_i，同理，对X_p∈WM_j的邻域集合更新为NE(X_p)∪WM_j。

45)求出数据点间的最短路径。

步骤44)结束后形成了整个数据集上的单个邻域图，求一个以欧式距离加权的无向邻域图中，数据点间的最短路径可以使用经典的Floyd算法或Dijkstra算法。

46)构建m维的低维嵌入，获得降维后的特征空间V_new。

以步骤45)中所得到的点对点之间的最短路径作为经典的MDS算法的输入，得到m维的低维嵌入{v₁，v₂，...，v_m}，其中v_i∈R^m(一般m＜＜n)，特征空间V_new＝{v₁，v₂，...，v_m}即为DBN将要分类识别的样本，从而实现了将网页内容特征向量B转化为m维特征空间V_new。

步骤5)具体包括以下步骤：

51)从网页图像特征空间V_new中，给出部分有标签的训练样本。

情况已知的网页称为有标签的样本；而情况未知的网页称为无标签的样本；无论有标签的样本或无标签的样本，当使用这些样本进行训练或测试时，即称为训练或测试样本。在本例中将已知的钓鱼网页标记为1，合法正当的网页标记为-1。网页特征空间V_new＝{v₁，v₂，...，v_m}，其中v_i是第i子图的特征向量。首先给出有标签的部分训练样本点(v₁，y₁)，...，(v_l，y_l)，v_i∈Rⁿ，y_i∈Y，Y＝{-1，+1}。由于我们只对给定的网页判断，所以定义Y＝{-1，+1}，当已知网页不是钓鱼网页时，定义网页钓鱼标志参数y＝1，当已知网页是假冒网页时，定义网页钓鱼标志参数y＝-1。

52)使用网页图像特征空间V_new中给出的有标签的训练样本，对DBN进行训练。

DBN(Deep Belief Network，深度信任网络)由很多层RBM(Restricted Boltzmann Machines)组成，RBM是一种神经网络。除了最高两层(形成一个联想记忆)以外，DBN层与层之间使用加权连接。

在DBN中的每层RBM被限制为一个单一的可见单元层t和一个单一的隐藏单元层h(共两层)。其中，由可见单元层t接收随机的二进制数据，并由隐藏单元层h送出随机的二进制数据，二层之间的条件分布满足：每一个可见层i的状态t_i被设置为1的概率为σ(c_i+∑_jw_jih_j)，每一个隐藏层j的状态h_j被设置为1的概率为σ(c_i+∑_jw_jih_j)，，即式(13)和式(14)：

P(t_i＝1|h)＝σ(b_i+∑_jw_jih_j)＝1/[1+exp(b_i+∑_jw_jih_j)] (13)

P(h_j＝1|t)＝σ(c_j+∑_iw_jit_i)＝1/[1+exp(c_j+∑_iw_jit_i)] (14)

RBM包含三个参数：W，b，c，其中W为可见单元层t和隐藏单元层h之间的权重，b，c分别为为可见单元层t和隐藏单元层h的偏差值，因而对DBN分类器训练过程转化为对RBM参数的求解：

ΔW_ji＝η(<t_ih_j>_data-<t_ih_j>_{confabulation})(15)

Δb_i＝η(<t_i>_data-<t_i>_{confabulation})(16)

Δc_j＝η(<h_j>_data-<h_j>_{confabulation})(17)

在式(15)、式(16)和式(17)中，t_i为第i层可见层，h_j为第j层隐藏层，W_ji为DBN中第i层与第j层RBM之间的权重，b_i为第i层RBM中的可见单元层的偏差值，c_j为第j层RBM中的隐藏单元层的偏差值；ΔW_ji、Δb_i、Δc_j分别为训练过程中产生的W_ji、b_i、c_j的更新值；<t_ih_j>_data表示第i层RBM中可见层和第j层RBM中隐藏层之间传递的数据、<t_ih_j>_{confabulation}表示第i层RBM中可见层和第j层RBM中隐藏层之间产生的数据、<t_i>_data、<h_j>_data分别表示第i层RBM中可见层、第j层RBM中隐藏层传递的数据；<vi>confabulation、<hj>confabulation分别表示第i层RBM中可见层、第j层RBM中隐藏层产生的数据。

53)对DBN实施修正训练，进行参数微调，得到分类器。

将RBM训练方法应用于除最高层外的每一层，其中第一层(最底层)的输入为训练样本，其余较高一层的输入来自于前一层隐藏单元的输出。通过使用B-P网络中的均方差方法，微调确定DBN中的参数：权值W和偏差b，从而得到DBN分类器。

使用DBN分类器对待测网页进行检测判断，其方法实质是二值分类间题。经过分类学习之后，DBN分类器就会产生一个分类决策函数判断钓鱼网页(y＝1)和合法网页(y＝-1)。对特征空间V_new中的无标签样本进行分类判断时，对照输出结果，如果DBN分类器对其中任一网页测试样本分类输出为1，就认为该网页为钓鱼网页；如果输出为-1，则认为该网页为正常网页。

根据使用Isomap方法降维后得到的特征空间，本发明引入DBN(Deep Belief Network，深度信任网络)深度学习方法对特征数据进行训练，根据DBN分类器分类的结果判别待检测的网页是否为钓鱼网页。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.钓鱼网页的深度学习智能检测方法，其特征在于，分为以下步骤：

1)对网页文档模型进行分析，生成网页文档特征向量F；

3)提取网页图像特征，从而获得网页内容特征向量N；

2.根据权利要求1所述的钓鱼网页的深度学习智能检测方法，其特征在于，所述步骤2)具体分为以下步骤：

21)将待测网页保存为网页图像；

22)将网页图像由RGB空间变换为HSI空间；

23)采用谱聚类方法，确定网页图像的聚类数目k；

24)生成k个子图。

3.根据权利要求1所述的钓鱼网页的深度学习智能检测方法，其特征在于，所述步骤3)具体分为以下步骤：

31)提取分割后的各个子图的特征向量V_i；

32)提取分割后的各个子图间的位置关系特征向量C；

4.根据权利要求1所述的钓鱼网页的深度学习智能检测方法，其特征在于，所述步骤4)具体分为以下步骤：

41)选择邻域参数，构造邻域图；

44)对WM_i，WM_j中相互连接的数据点对应的邻域集合进行修正

45)求出数据点间的最短路径；

46)构建m维的低维嵌入，获得降维后的特征空间V_new。

5.根据权利要求1所述的钓鱼网页的深度学习智能检测方法，其特征在于，所述步骤5)具体分为以下步骤：

53)对DBN实施修正训练，进行参数微调，得到DBN分类器；