CN102932348A

CN102932348A - 一种钓鱼网站的实时检测方法及系统

Info

Publication number: CN102932348A
Application number: CN2012104243446A
Authority: CN
Inventors: 倪彤光; 顾晓清; 丁辉
Original assignee: Changzhou University
Current assignee: Changzhou University
Priority date: 2012-10-30
Filing date: 2012-10-30
Publication date: 2013-02-13

Abstract

本发明涉及一种钓鱼网站的实时检测方法及系统。所述方法包括如下步骤：获取当前网站的URL地址；利用白名单和黑名单对网站的URL地址进行检测；对于不在白/黑名单内的网站URL提取其URL特征，并进行预处理；采用贝叶斯方法对预处理后的URL特征进行检测，判断其是否为钓鱼网站，若不能明确确定，则将其定为可疑网站；对可疑网站进行web页面内容的提取，并进行预处理；采用最小二乘支持向量机方法对预处理后的页面特征进行检测，判断其是否为钓鱼网站。所述系统由系统服务器端和系统客户端组成，系统服务器端包括白名单和黑名单模块等，系统客户端包括URL指纹列表等。本发明方法和系统相对于现有技术来说提高了检测率和准确率。

Description

一种钓鱼网站的实时检测方法及系统

技术领域

本发明是属于互联网技术和网络安全技术领域，尤其涉及一种钓鱼网站的实时检测方法及系统。

背景技术

近年来，互联网在中国得到了蓬勃的发展，但越来越严重的安全问题日益引起了人们的注意，其中，钓鱼网站是网络欺诈的代表。钓鱼网站是一种在线身份伪造的欺诈方式，它往往伪装成正规网站，使用社会工程学和技术伪装等手段骗取用户的信任，窃取用户的个人身份数据和金融账号等敏感信息。钓鱼网站的检测已成为网络安全领域最热门的话题之一。

目前，相关的研究有：Justin MK、Basnet SM等提出采用对统一资源定位符（UniformResource Locator，简称URL）在线识别的检测方法，通过已知特征等先验知识进行学习，对URL进行分类检测，但是这类方法的误判率和漏判率较高。PanYing等提出通过对Web页面的异常特征分析识别来进行钓鱼网站的检测，但其速度和效率都不高。PhishTank通过用户举报和人工审核的方式，建立了可信度高的钓鱼网站的URL的黑名单，但无法检测不在黑名单内的钓鱼网站，且更新黑名单需要人工核对，有一定的滞后性。一些互联网厂商推出了一系列浏览器辅助工具，例如：eBay提供了相应的浏览器插件；Google推出了可以鉴别欺诈性网页的通用插件，但是这些辅助插件对各种钓鱼网站的检测效果也不尽人意。

发明内容

基于现有技术中的问题，本发明的目的是提供一种钓鱼网站的实时检测方法及系统。首先对用户提交的网站URL进行白/黑名单的检测，若该URL在白/黑名单内，可快速识别该网站是否为钓鱼网站。对不在白/黑名单内的网站URL，则提取该URL的特征，并采用贝叶斯方法对其进行检测，检测该网站是否为钓鱼网站，对贝叶斯方法无法确定的可疑网站，再提取该网站的页面特征，采用最小二乘支持向量机方法对其进行检测，确定该网站是否为钓鱼网站。

为了达到上述目的，本发明提供了一种钓鱼网站的实时检测方法，其包括如下步骤：

步骤1获取当前网站的URL地址；

步骤2利用白名单和黑名单对网站的URL地址进行检测；

步骤3对于不在白/黑名单内的网站URL提取其URL特征，并进行预处理；

步骤4采用贝叶斯方法对预处理后的URL特征进行检测，判断其是否为钓鱼网站，若不能明确确定，则将其定为可疑网站；

步骤5对可疑网站进行web页面内容的提取，并进行预处理；

步骤6采用最小二乘支持向量机方法对预处理后的页面特征进行检测，判断其是否为钓鱼网站。

所述步骤2中的白名单里保存的是审核过的可信网站的URL信息；黑名单里保存的是审核过的钓鱼网站的URL信息。网站的URL地址首先进入白名单比对，若属于白名单则直接放行；否则，进入黑名单比对，若属于黑名单，则判断当前网站是钓鱼网站；若不属于黑名单，则进入步骤3。

所述步骤3中的URL特征包括：URL中是否含有IP地址；URL中是否含有“@”等异常字符；URL中二级域名的检测；URL端口；URL的长度。预处理是指对提取的特征属性进行离散化处理。

所述步骤4中的贝叶斯方法的计算公式是：

p (Ci | X) = \frac{p (Ci) \times p (X | Ci)}{p (X)} (1 \leq i \leq 2),

X是网站URL的特征属性，设C1为可信网站，C2是钓鱼网站。当

时，该网站被判定为可信网站；当时，该网站被判定为钓鱼网站；当

时，需进一步明确该网站属于哪个类，暂被判定为可疑网站，则进入步骤5。

所述步骤5中的提取网站页面的特征，包括：标题标签中提取的关键字；Meta标签中提取的关键字；页面中包含的链接URL地址；图片的链接URL地址；页面所有可见字符串集合；Script脚本中的字符串。预处理是指对提取的特征值进行归一化处理。

所述步骤6中的最小二乘支持向量机的决策模型形式如下：

f (x) = {&Sum;}_{i = 1}^{n} α_{i} K (x, x_{i}) + b

其中，K(x,x_i)为RBF核函数，形式为

x_i,x为步骤5中得到的可疑网站页面样本的特征向量。α和b可由求解下列方程组得出：

[\begin{matrix} 0 & 1 & . . . & 1 \\ 1 & K (x_{1}, x_{1}) + 1 / γ & . . . & K (x_{1}, x_{n}) \\ . & . & . & . \\ . & . & . & . \\ . & . & . & . \\ 1 & K (x_{n}, x_{1}) & . . . & K (x_{n}, x_{n}) + 1 / γ \end{matrix}] [\begin{matrix} b \\ α_{1} \\ . \\ . \\ . \\ α_{n} \end{matrix}] = [\begin{matrix} 0 \\ y_{1} \\ . \\ . \\ . \\ y_{n} \end{matrix}]

其中，x_i和y_i（i=1,…,n）分别表示已知类标签的网站页面样本的特征向量和分类标签。如果最终分类决策函数f(x)=1，判定该网站是可信网站；f(x)=-1，判定该网站是钓鱼网站。

为了达到上述目的，本发明提供了一种钓鱼网站的实时检测系统，用于帮助用户验证网站的真伪，有效识别钓鱼网站，包括：安装在服务器端的系统服务器端和安装在用户端的系统客户端，其中，

所述系统服务器端包括：

白名单和黑名单模块，所述白名单模块用来保存可信网站的URL；所述黑名单模块用来保存钓鱼网站的URL；

页面特征模块，用于保存所述白名单和黑名单模块中可信网站和钓鱼网站的web页面特征；

数据预处理模块，用于提取所述白名单和黑名单模块中的网站URL特征，进行离散处理，得到特征属性，形成可信URL矩阵和钓鱼URL矩阵。此外，还提取所述页面特征模块中的web页面特征，进行归一化处理，得到特征向量，形成可信页面数据集和钓鱼页面数据集；

特征提取模块，用于根据待检测网站的URL地址进行URL特征提取和web页面特征提取；

贝叶斯模块，用于根据所述数据预处理模块中的可信URL矩阵和钓鱼URL矩阵训练得到贝叶斯分类器，并根据所述特征提取模块中得到的待检测网站的URL特征进行钓鱼网站的判断。

支持向量机模块，用于根据所述数据预处理模块中的可信页面数据集和钓鱼页面数据集训练得到最小二乘支持向量机分类器，并根据所述特征提取模块中得到的待检测网站的web页面特征进行钓鱼网站的判断。

通信模块1，用于接收所述系统客户端传输来的URL地址和向所述系统客户端传输网站性质的判定结果。

所述系统客户端包括：

URL指纹列表，用于保存加密后的所述系统服务器上白/黑名单中的数据，URL指纹可以通过使用MD5或SHA1哈希算法获得；

URL提取模块，用于实时采集用户在待检测网站的URL地址信息；

通信模块2，用于向所述系统服务器端传输URL地址和接收所述系统客户端传输来的当前网站性质的判定结果；

报警模块，用于根据所述URL指纹列表和所述通信模块2的返回结果对当前访问网站的性质进行判断，若是可信网站，则允许用户继续访问当前访问网站。若是钓鱼网站，则向用户报警，让用户选择是否继续访问，如果用户选择是，则允许用户继续访问；如果用户选择否，则关闭当前访问的网站。

作为优化方案，所述特征提取模块包括：

URL处理模块，用于根据所述URL提取模块提取的URL地址对网站的URL特征进行提取；

页面处理模块，用于根据URL提取模块提取的网站URL地址进行网站的web页面特征的提取。

作为又一优化方案，所述贝叶斯模块包括：

贝叶斯训练模块，根据所述数据预处理模块中的可信URL矩阵和钓鱼URL矩阵进行训练，得到可信URL和钓鱼URL的先验概率并得到贝叶斯分类器；

贝叶斯分类模块，根据所述贝叶斯训练模块中得到的贝叶斯分类器，从所述URL处理模块接收URL特征属性，计算其分别在可信URL和钓鱼URL下的概率，判断其是否为钓鱼网站，若能明确判断，则把结果保存在所述数据预处理模块中并把判断结果发送至所述通信模块1；若无法明确确定，则将其定为可疑网站，并通过所述页面处理模块提取该网站的web页面特征。

作为再一优化方案，所述支持向量机模块包括：

支持向量机训练模块，根据所述数据预处理模块中的可信页面数据集和钓鱼页面数据集进行训练，以确定最小二乘支持向量机的决策函数的形式，最后通过训练得到一个用于对web页面特征判断的最小二乘支持向量机分类器；

支持向量机分类模块，根据所述支持向量机训练模块中得到的最小二乘支持向量机分类器模型，从所述页面处理模块接收待检测网站的web页面特征，判断其是否是钓鱼网站，然后将结果保存在所述数据预处理模块中，并传递给所述通信模块1。

进一步的，若待检测网站的URL地址在所述URL指纹列表的白名单中时，所述报警模块就直接放行，允许用户继续访问；若当前访问网站的URL地址在所述黑名单中时，所述报警模块就阻断当前的访问并进行报警，让用户选择是否继续访问，如果用户选择是，则允许用户继续访问；如果用户选择否，则关闭当前访问的网站；若当前访问网站的URL地址不属于白名单和黑名单，则采集待检测网站的URL地址，经由所述通信模块2提交至所述系统服务器端。

进一步的，所述白名单和黑名单模块中最初可根据PhishTank数据库创建，PhishTank数据库可以从因特网上下载得到；其后可根据所述数据预处理模块保存的对网站判断的结果实时自动更新。白名单不存在失效期；黑名单存在失效期，一段时间内该网站不再是钓鱼网站的话可自动从黑名单中去除，操作员亦可根据实际情况维护黑名单。

进一步的，所述贝叶斯训练模块和所述支持向量机训练模块需根据所述数据预处理模块的保存的对网站判断的结果定期重新训练，可提高贝叶斯分类器和最小二乘支持向量机分类器的准确性。

进一步的，所述URL指纹列表需要定期向所述系统服务器端提交更新要求，所述服务器端则向所述系统客户端返回更新后的URL指纹列表。

与现有技术，本发明的有益效果是：1）采用多种特征表达方式，既包括网站URL特征，又包括Web页面特征，最大限度地表现钓鱼网站的特征；2）网站的URL特征提取相对简单，利用贝叶斯方法速度快的特点对网站的URL特征进行检测，满足了快速分类的要求，提高了检测的效率；3）利用SVM方法准确率较高的特点进一步对网站的页面特征进行检测，满足了精度高的要求，提高了检测的准确率。4）贝叶斯方法和SVM方法相结合，使得本发明方法具有较好的自适应性和较高的智能化水平。

附图说明

图1是本发明一种钓鱼网站的实时检测方法实施例一的流程图；

图2是本发明一种钓鱼网站的实时检测方法实施例二的流程图；

图3是本发明一种钓鱼网站的实时检测方法实施例三的流程图；

图4是本发明一种钓鱼网站的实时检测系统的结构示意图；

图5是本发明钓鱼网站的实时检测系统中特征处理模块结构示意图；

图6是本发明钓鱼网站的实时检测系统中贝叶斯模块结构示意图；

图7是本发明钓鱼网站的实时检测系统中最小二乘支持向量机模块结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的描述。

图1是本发明一种钓鱼网站的实时检测方法实施例一的流程图。具体地，如图1所示，本实施例检测的方法可包括如下步骤：

步骤101获取当前网站的URL地址；

步骤102利用白名单和黑名单对网站的URL地址进行检测。

白名单里保存的是审核过的可信网站的URL信息；黑名单里保存的是审核过的钓鱼网站的URL信息。当前网站的URL地址首先与白名单进行比对，若属于白名单则直接放行；否则，与黑名单进行比对，若属于黑名单，就阻断当前的访问，并提示让用户选择是否继续访问，如果用户选择是，则允许用户继续访问；如果用户选择否，则关闭当前访问的网站。

图2是本发明一种钓鱼网站的实时检测方法实施例二的流程图。在上述图1所示实施例技术方案的基础上，本实施例中通过贝叶斯方法对网站的URL特征进行检测，对待检测网站是否为钓鱼网站进行判断，具体地，如图2所示，本实施例包括以下步骤：

步骤201获取当前网站的URL地址；

步骤202利用白名单和黑名单对网站的URL地址进行检测，若该URL不在白名单和黑名单内，则进入步骤203；

步骤203提取该网站的URL特征，并进行预处理；

若经过白名单和黑名单的比对后，网站URL地址既不属于白名单也不属于黑名单，则提取网站的URL特征。提取网站的URL特征有：1）URL中是否含有IP地址。2）URL中是否含有“@”等异常字符。3）URL中n（n≥2）级域名的检测。部分钓鱼网站通过多级域名的使用来迷惑用户。4）URL端口。有些钓鱼网站使用了非80端口。因此，从URL中所获取的网站端口号也是作为识别钓鱼网站的一个重要依据。5）URL的长度。一般可信网站的URL的长度小于23，这里的长度是指URL地址中包含字符的个数。预处理是指对提取的特征属性离散化处理，对于特征3和5连续型属性，按照划分等宽区间的方法进行离散化，利用公式(max(A_i)-min(A_i))/m，其中max(A_i)表示连续属性A_i的最大值，min(A_i)表示连续属性A_i的最小值，m表示类别属性取值的个数。

步骤204采用贝叶斯方法对待检查网站的URL特征进行检测，判断其是否为钓鱼网站。

使用贝叶斯方法计算网站URL的特征值X属于C1和C2（设C1为可信网站，C2是钓鱼网站）的概率p(C1|X)和p(C2|X)。p(C1|X)的计算公式是：

其中，p(X)对于所有类都为常数，p(C1)是C1的训练样本数在所有训练样本数中所占的比例，p(X_i|C1)是在属性A_i上具有值X_i的训练样本数在所有C1训练样本数中所占的比例。p(C2|X)的计算方法与p(C1|X)相同。当

时，该网站被判定为可信网站；当

时，该网站被判定为钓鱼网站；当

时，不能明确该网站属于哪个类，需进一步进行检测，暂时被判定为可疑网站。其中，α和β的值根据实际环境预先设定，α和β的值可以相同也可以不同。

可以看出，本发明实施例中，通过提取不在根据白名单和黑名单内的URL地址的特征，使用贝叶斯方法进行检测，并可将检测结果通知相关处理系统或相关人员，具有较高的检测效率和检测结果，同时贝叶斯方法还具有较快的响应时间，可实时地检测出钓鱼网站。

图3是本发明一种钓鱼网站的实时检测方法实施例三的流程图。在上述图2所示实施例技术方案的基础上，本实施例中可通过最小二乘支持向量机方法对网站的web页面的特征进行处理，对待检测网站是否为钓鱼网站进行判断，具体地，如图3所示，本实施例包括以下步骤：

步骤301获取当前网站的URL地址；

步骤302利用白名单和黑名单对网站的URL地址进行检测，若该URL不在白名单和黑名单内，则进入步骤303；

步骤303提取网站的URL特征，并进行预处理；

步骤304采用贝叶斯方法对待检查网站的URL进行检测，若无法确定，则将其定为可疑网站，进入步骤305；

步骤305提取该网站的web页面特征，并进行预处理；

若当前网站被贝叶斯方法划分成可疑网站，则进行页面特征的提取，提取的页面的特征有：1）标题标签中提取的关键字。2）Meta标签中提取的关键字。3）页面中包含的链接URL地址。4）图片的链接URL地址。5）页面所有可见字符串集合。6）Script脚本中的字符串。预处理是指对提取的web页面特征进行归一化处理，使用的公式是X′=(X-min(X))/(max(X)－min(X))，其中X为归一化前的特征值，X'表示归一化后的特征值，min(X)表示数据变量的最小值，max(X)表示数据变量的最大值。

步骤306采用最小二乘支持向量机方法对预处理后的页面特征进行检测，判断其是否为钓鱼网站。

使用的最小二乘支持向量机的决策模型形式如下：

其中，K(x,x_i)为RBF核函数，形式为

x_i,x为步骤5中得到的可疑网站页面样本的特征向量。α和b由求解下式方程组得出：

[\begin{matrix} 0 & 1 & . . . & 1 \\ 1 & K (x_{1}, x_{1}) + 1 / γ & . . . & K (x_{1}, x_{n}) \\ . & . & . & . \\ . & . & . & . \\ . & . & . & . \\ 1 & K (x_{n}, x_{1}) & . . . & K (x_{n}, x_{n}) + 1 / γ \end{matrix}] [\begin{matrix} b \\ α_{1} \\ . \\ . \\ . \\ α_{n} \end{matrix}] = [\begin{matrix} 0 \\ y_{1} \\ . \\ . \\ . \\ y_{n} \end{matrix}]

其中，x_i和y_i（i=1,…,n）分别表示已知类标签的网站页面样本的特征向量和分类标签。如果最终分类决策函数f(x)=1，判定该网站是可信网站；如果f(x)=-1，判定该网站是钓鱼网站。

可以看出，本发明实施例中，通过提取可疑网站的页面特征，并使用最小二乘支持向量机方法进行检测，可精确地检测出其是否为钓鱼网站，并可将检测结果通知相关处理系统或相关人员。最小二乘支持向量机方法将钓鱼网站的检测转化成二元分类问题，具有较高的准确性和快捷性。

本发明还提供了一种钓鱼网站的实时检测系统。图4是本发明一种钓鱼网站的实时检测系统的结构示意图，具体地，如图4所示，本发明系统包括：安装在服务器端的系统服务器端和安装在用户端的系统客户端。

其中，系统服务器端包括白名单和黑名单模块、页面特征模块、数据预处理模块、特征提取模块、贝叶斯模块、支持向量机模块和通信模块1。

白名单和黑名单模块的白名单模块用来保存已审核的可信网站的URL，黑名单模块用来保存已审核的钓鱼网站的URL。白名单和黑名单最初可根据PhishTank数据库创建，PhishTank数据库可从因特网上下载得到，并根据数据预处理模块的保存结果添加审核过的网站的URL。白名单和黑名单模块实行自动实时更新的策略，白名单不存在失效期；黑名单存在失效期，一段时间内该网站不再是钓鱼网站的话可自动从黑名单中去除，操作员亦可根据实际情况维护黑名单。

页面特征模块，用于保存白名单和黑名单模块中可信网站和钓鱼网站的web页面特征；

数据预处理模块，用于提取白名单和黑名单模块中的网站URL特征，进行离散化处理，得到特征属性，形成可信URL矩阵和钓鱼URL矩阵。此外，还提取页面特征模块中的web页面特征，进行归一化处理，得到特征向量，形成可信页面数据集和钓鱼页面数据集；

特征处理模块，用于根据待检测网站的URL地址进行URL特征提取和web页面特征提取；

贝叶斯模块，用于根据数据预处理模块中的可信URL矩阵和钓鱼URL矩阵训练得到贝叶斯分类器，并对特征处理模块中得到的待检测网站的URL特征进行钓鱼网站的判断；

支持向量机模块，用于根据数据预处理模块中的可信页面数据集和钓鱼页面数据集训练得到最小二乘支持向量机分类器，并对特征处理模块中得到的待检测网站的web页面特征进行钓鱼网站的判断；

通信模块1，用于接收系统客户端传输来的URL地址和向系统客户端发送待检测网站的性质的判定结果。

如图5所示，特征提取模块包括：

URL处理模块，用于根据URL提取模块提取的URL地址对网站的URL特征进行提取；

如图6所示，贝叶斯模块包括：

贝叶斯训练模块，根据数据预处理模块中的可信URL矩阵和钓鱼URL矩阵进行训练，得到可信URL和钓鱼URL的先验概率并得到贝叶斯分类器；并根据数据预处理模块的保存的对网站判断的结果定期重新训练，可提高贝叶斯分类器的准确性；

贝叶斯分类模块，用于根据URL特征进行贝叶斯方法的实现，根据得到的贝叶斯分类器，计算其分别在可信URL和钓鱼URL下的概率并判断网站的性质。若判定为可信网站或钓鱼网站，并将检测结果传递给通信模块1，同时把URL特征和检测结果保存至数据预处理模块；若无法明确确定是否为钓鱼网站，则判定为可疑网站，此时页面处理模块提取该网站的web页面特征，并提交至支持向量机分类模块。

如图7所示，支持向量机模块包括：

支持向量机训练模块，根据数据预处理模块中的可信页面数据集和钓鱼页面数据集进行训练，为训练集中的每条数据都给出其类别信息，以确定最小二乘支持向量机的决策函数的形式，最后通过训练得到一个用于对页面特征判断的最小二乘支持向量机分类器；并根据数据预处理模块的保存的对网站判断的结果定期重新训练，可提高最小二乘支持向量机分类器的准确性；

支持向量机分类模块，根据最小二乘支持向量机分类器确定的模型，对待检测网站的web页面特征进行决策判断，判断其是否是钓鱼网站，并把web页面特征和检测结果保存在数据预处理模块中，同时将检测结果传递给通信模块1。

其中，系统客户端包括URL指纹列表、URL提取模块、通信模块2和报警模块。

URL指纹列表，用于保存加密后的所述系统服务器上黑/白名单中的数据。URL指纹可以使用MD5或SHA1哈希算法获得，URL指纹列表需要定期向系统服务器端提交更新要求；若待检测网站的URL地址在白名单中，就直接放行，允许用户继续访问该网站；若待检测网站的URL地址在黑名单中，报警模块就阻断当前的访问并进行报警，让用户选择是否继续访问，如果用户选择是，则允许用户继续访问；如果用户选择否，则关闭当前访问的网站；若待检测网站的URL地址不属于白名单和黑名单，则需采集该网站的URL地址。

URL提取模块，用于实时采集用户在待检测网站的URL地址信息。

通信模块2，用于向系统客户端传递待检测网站的URL地址；接收从系统客户端传输来的待检测网站的性质的检测结果，并把检测结果返回至报警模块。

报警模块，用于根据URL指纹列表和通信模块2的返回结果对待检测网站的性质，分别采取不同的策略：若是可信网站，则允许用户继续访问当前访问网站，若是钓鱼网站，则向用户报警，让用户选择是否继续访问，如果用户选择是，则允许用户继续访问；如果用户选择否，则关闭当前访问的网站。

本发明实施例中系统的系统客户端或系统服务器端的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器、磁盘或光盘等。

以上所述的仅是本发明的优选实施方式，本发明不限于以上实施例。可以理解，本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其他改进和变化，均应认为包含在本发明的保护范围之内。

Claims

1.一种钓鱼网站的实时检测方法，其包括如下步骤：

步骤1获取当前网站的URL地址；

步骤2利用白名单和黑名单对网站的URL地址进行检测；

步骤5对可疑网站进行web页面内容的提取，并进行预处理；

2.根据权利要求1所述的钓鱼网站的实时检测方法，其特征在于：所述步骤2中的白名单里保存的是审核过的可信网站的URL信息；黑名单里保存的是审核过的钓鱼网站的URL信息；网站的URL地址首先进入白名单比对，若属于白名单则直接放行；否则，进入黑名单比对，若属于黑名单，则判断当前网站是钓鱼网站；若不属于黑名单，则进入步骤3；

所述步骤3中的URL特征包括：URL中是否含有IP地址；URL中是否含有异常字符；URL中二级域名的检测；URL端口；URL的长度，预处理是指对提取的特征属性进行离散化处理；

所述步骤4中的贝叶斯方法的计算公式是：

p (Ci | X) = \frac{p (Ci) \times p (X | Ci)}{p (X)} (1 \leq i \leq 2),

X是网站URL的特征属性，设C1为可信网站，C2是钓鱼网站；当时，该网站被判定为可信网站；当

时，该网站被判定为钓鱼网站；当

时，需进一步明确该网站属于哪个类，暂被判定为可疑网站，则进入步骤5；

所述步骤5中的提取网站页面的特征，包括：标题标签中提取的关键字；Meta标签中提取的关键字；页面中包含的链接URL地址；图片的链接URL地址；页面所有可见字符串集合；Script脚本中的字符串；预处理是指对提取的特征值进行归一化处理；

所述步骤6中的最小二乘支持向量机的决策模型形式如下：

f (x) = {&Sum;}_{i = 1}^{n} α_{i} K (x, x_{i}) + b

其中，K(x,x_i)为RBF核函数，形式为

x_i,x为步骤5中得到的可疑网站页面样本的特征向量；α和b可由求解下列方程组得出：

[\begin{matrix} 0 & 1 & . . . & 1 \\ 1 & K (x_{1}, x_{1}) + 1 / γ & . . . & K (x_{1}, x_{n}) \\ . & . & . & . \\ . & . & . & . \\ . & . & . & . \\ 1 & K (x_{n}, x_{1}) & . . . & K (x_{n}, x_{n}) + 1 / γ \end{matrix}] [\begin{matrix} b \\ α_{1} \\ . \\ . \\ . \\ α_{n} \end{matrix}] = [\begin{matrix} 0 \\ y_{1} \\ . \\ . \\ . \\ y_{n} \end{matrix}]

其中，x_i和y_i（i=1,…,n）分别表示已知类标签的网站页面样本的特征向量和分类标签；如果最终分类决策函数f(x)=1，判定该网站是可信网站；f(x)=-1，判定该网站是钓鱼网站。

3.一种钓鱼网站的实时检测系统，包括：安装在服务器端的系统服务器端和安装在用户端的系统客户端，其中，

所述系统服务器端包括：

数据预处理模块，用于提取所述白名单和黑名单模块中的网站URL特征，进行离散处理，得到特征属性，形成可信URL矩阵和钓鱼URL矩阵；此外，还提取所述页面特征模块中的web页面特征，进行归一化处理，得到特征向量，形成可信页面数据集和钓鱼页面数据集；

贝叶斯模块，用于根据所述数据预处理模块中的可信URL矩阵和钓鱼URL矩阵训练得到贝叶斯分类器，并根据所述特征提取模块中得到的待检测网站的URL特征进行钓鱼网站的判断；

支持向量机模块，用于根据所述数据预处理模块中的可信页面数据集和钓鱼页面数据集训练得到最小二乘支持向量机分类器，并根据所述特征提取模块中得到的待检测网站的web页面特征进行钓鱼网站的判断；

通信模块1，用于接收所述系统客户端传输来的URL地址和向所述系统客户端传输网站性质的判定结果；

所述系统客户端包括：

URL指纹列表，用于保存加密后的所述系统服务器上白/黑名单中的数据；

报警模块，用于根据所述URL指纹列表和所述通信模块2的返回结果对当前访问网站的性质进行判断，若是可信网站，则允许用户继续访问当前访问网站；若是钓鱼网站，则向用户报警，让用户选择是否继续访问，如果用户选择是，则允许用户继续访问；如果用户选择否，则关闭当前访问的网站。

4.根据权利要求3所述的实时检测系统，其特征在于，所述特征提取模块包括：

5.根据权利要求3所述的实时检测系统，其特征在于，所述贝叶斯模块包括：

6.根据权利要求3所述的实时检测系统，其特征在于，所述支持向量机模块包括：