CN109840413A

CN109840413A - 一种钓鱼网站检测方法及装置

Info

Publication number: CN109840413A
Application number: CN201711214232.7A
Authority: CN
Inventors: 张海泳; 胡鸥
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Zhejiang Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Zhejiang Co Ltd
Priority date: 2017-11-28
Filing date: 2017-11-28
Publication date: 2019-06-04
Anticipated expiration: 2037-11-28
Also published as: CN109840413B

Abstract

本发明实施例提供一种钓鱼网站检测方法及装置。所述方法包括：获取网页样本数据，网页样本数据包括正类样本集和负类样本集；根据正类样本集和负类样本集的马氏距离筛选网页样本数据，确定训练集中的训练样本以及每个训练样本的权重；根据粒子群优化算法PSO对SVM的参数进行优化；使用adaboost算法迭代训练SVM，确定每次迭代产生的弱分类器以及弱分类器的系数，并更新训练集中每个训练样本的权重；根据各弱分类器及其对应的系数，确定强分类器；根据强分类器对待测网页进行分类，根据分类结果判断所述待测网页是否为钓鱼网站。本发明实施例解决了因困难样本造成的分类器退化问题和数据不平衡问题，提高了钓鱼网页检测的正确率。

Description

一种钓鱼网站检测方法及装置

技术领域

本发明实施例涉及机器学习技术领域，具体涉及一种钓鱼网站检测方法及装置。

背景技术

目前妄图偷取用户隐私信息的不法分子越来越活跃，恶意钓鱼网站引起诈骗案例层出不穷，这种电信网络新型违法犯罪行为，已成为影响社会稳定和群众安全感的突出犯罪问题，恶意虚假钓鱼攻击已成为全世界共同面临的网络安全问题，是全球互联网行业急需解决的问题。

现有的钓鱼网站检测方法主要有黑名单过滤技术、启发式特征检测技术及基于模式识别的检测技术。其中，基于模式识别的检测技术主要是利用有监督的机器学习方法，通过对大量的钓鱼行为提取相关或无关特征向量形成判别模型，利用判别模型对钓鱼网站进行检测。目前对钓鱼网站的检测方法主要有支持向量机(Support Vector Machine，SVM)算法，对训练样本进行学习，确定分类器，根据分类器输出确定待测网站是否为钓鱼网站。然而，SVM经常会遇到类别不平衡数据集，为保证稳定的学习性能，目前常见的处理方法为将SVM与迭代算法相结合，每一次迭代产生一个弱分类器，最后将这些弱分类器加权得到最终的强分类器，在每次迭代过程中，更新样本权重，对于错分的小类样本和大类样本分别增加不同的权重，小类样本增加的权重更大，从而使下一个分类器对这些错分的小类样本更加敏感。然而这种权重处理方式减轻了对当前分类器分类错误的大类样本的关注程度，牺牲大类样本的识别精度来提高对小类样本的识别效果，这会导致最后集成的分类器对大类样本分类的性能有所下降，并且当样本中存在分类很困难的样本或噪声时，由于样本权重过大而造成分类器退化问题，导致检测结果正确率降低。

发明内容

针对现有技术中的缺陷，本发明实施例提供了一种钓鱼网站检测方法及装置。

第一方面，本发明实施例提供一种钓鱼网站检测方法，包括：

步骤S11、获取网页样本数据，所述网页样本数据包括正类样本集和负类样本集；

步骤S12、根据所述正类样本集和所述负类样本集的马氏距离筛选所述网页样本数据，确定训练集中的训练样本以及每个所述训练样本的权重；

步骤S13、根据粒子群优化算法PSO对支持向量机SVM的参数进行优化；

步骤S14、使用adaboost算法根据所述训练集迭代训练优化后的支持向量机SVM，确定每次迭代产生的弱分类器以及所述弱分类器的系数，并更新所述训练集中每个训练样本的权重；

步骤S15、根据各弱分类器及其对应的系数，确定强分类器；

步骤S16、根据所述强分类器对待测网页进行分类，根据分类结果判断所述待测网页是否为钓鱼网站。

第二方面，本发明实施例提供一种钓鱼网站检测装置，包括：

获取模块，用于获取网页样本数据，所述网页样本数据包括正类样本集和负类样本集；

筛选模块，用于根据所述正类样本集和所述负类样本集的马氏距离筛选所述网页样本数据，确定训练集中的训练样本以及每个所述训练样本的权重；

优化模块，用于根据粒子群优化算法PSO对支持向量机SVM的参数进行优化；

迭代模块，用于使用adaboost算法根据所述训练集迭代训练优化后的支持向量机SVM，确定每次迭代产生的弱分类器以及所述弱分类器的系数，并更新所述训练集中每个训练样本的权重；

确定分类器模块，用于根据各弱分类器及其对应的系数，确定强分类器；

检测模块，用于根据所述强分类器对待测网页进行分类，根据分类结果判断所述待测网页是否为钓鱼网站。

第三方面，本发明实施例提供一种电子设备，包括：

存储器和处理器，所述处理器和所述存储器通过总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如下方法：获取网页样本数据，所述网页样本数据包括正类样本集和负类样本集；根据所述正类样本集和所述负类样本集的马氏距离筛选所述网页样本数据，确定训练集中的训练样本以及每个所述训练样本的权重；根据粒子群优化算法PSO对支持向量机SVM的参数进行优化；使用adaboost算法根据所述训练集迭代训练优化后的支持向量机SVM，确定每次迭代产生的弱分类器以及所述弱分类器的系数，并更新所述训练集中每个训练样本的权重；根据各弱分类器及其对应的系数，确定强分类器；根据所述强分类器对待测网页进行分类，根据分类结果判断所述待测网页是否为钓鱼网站。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如下方法：获取网页样本数据，所述网页样本数据包括正类样本集和负类样本集；根据所述正类样本集和所述负类样本集的马氏距离筛选所述网页样本数据，确定训练集中的训练样本以及每个所述训练样本的权重；根据粒子群优化算法PSO对支持向量机SVM的参数进行优化；使用adaboost算法根据所述训练集迭代训练优化后的支持向量机SVM，确定每次迭代产生的弱分类器以及所述弱分类器的系数，并更新所述训练集中每个训练样本的权重；根据各弱分类器及其对应的系数，确定强分类器；根据所述强分类器对待测网页进行分类，根据分类结果判断所述待测网页是否为钓鱼网站。

本发明实施例提供的钓鱼网站检测方法，根据马氏距离确定训练集，对样本数据进行了筛选，解决了因困难样本造成的分类器退化问题，根据粒子群优化算法优化支持向量机SVM，使用adaboost算法与SVM算法相结合训练强分类器，解决了数据不平衡问题，使用强分类器进行网页进行分类，提高了钓鱼网页检测的正确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的钓鱼网站检测方法流程示意图；

图2为本发明实施例提供的钓鱼网站检测方法中粒子群优化算法流程示意图；

图3为本发明实施例提供的钓鱼网站检测方法中adaboost算法流程示意图；

图4为本发明实施例提供的钓鱼网站检测方法中更新权重算法流程示意图；

图5为本发明又一实施例提供的钓鱼网站检测方法流程示意图；

图6为本发明实施例提供的钓鱼网站检测方法与SVM钓鱼检测方法和adaboost-SVM钓鱼检测方法相比漏判率与误判率对比图；

图7为本发明实施例提供的钓鱼网站检测方法与SVM钓鱼检测方法和adaboost-SVM钓鱼检测方法相比预测正确率对比图；

图8为本发明实施例提供的钓鱼网站检测装置的结构示意图；

图9为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的钓鱼网站检测方法流程示意图，如图1所示，该方法包括：

具体地，将已知的正常网页作为正类样本，将已知的钓鱼网页作为负类样本，对已知网页进行特征提取后获得网页样本数据，特征提取的方法有很多种，例如提取网页URL特征、网页DOM树特征或者网页内容特征等，然后将每个网页样本用一个特征向量表示，并赋予每个网页样本一个标签y_i，包括正类和负类两种，y_i＝+1表示正类样本，y_i＝-1表示负类样本。由于钓鱼网站的存活时间短，需要及时捕获钓鱼网站进行训练，因此获取一段时间内的网页样本数据进行训练，也可以实时获取一定数量的网页样本数据之后进行训练，这些网页样本数据中的正类样本构成正类样本集，负类样本构成负类样本集。

获取网页样本数据之后，网页样本数据中可能存在分类很困难的样本，例如，某个负类样本与正类样本集的距离较近，直接对网页样本数据进行训练会造成分类器退化问题，因此在训练前，需要对网页样本数据进行处理，根据正类样本集和负类样本集的马氏距离筛选网页样本数据，将筛选后的网页样本数据作为训练样本x_i，并确定每个训练样本的初始权重，每个训练样本及其对应的权重构成了训练集。此时，训练集可以表示为(x_i，y_i)，其中x_i为第i个训练样本，y_i表示该样本的标签，y_i＝+1表示为正样本，y_i＝-1表示为负样本。马氏距离是一种计算两个样本集的相似度的方法，与欧氏距离不同的是它考虑到各种特性之间的联系，并且是尺度无关的，即独立于测量尺度。

具体地，确定训练集之后，选取支持向量机SVM作为分类器进行训练，SVM算法主要是构造一个最优超平面，该超平面能够划分训练样本中的正类样本和负类样本。在非线性情况下，分类超平面为其中ω为超平面的斜率，b为超平面的截距，为非线性函数，用于将非线性的训练样本x_i映射到高维线性空间。这样最优分类面问题可描述为：

其中，c为惩罚因子，ξ为线性不可分问题的松弛变量，m为训练样本的个数，y_i为训练样本x_i的标签。进而可得到公式(3)的对偶形式：

其中，α为拉格朗日乘子，且

于是，最优化问题转换为求解公式(5)的最大化问题。使用核函数对公式(5)进行变形后可得：

其中，K为核函数，在本发明实施例中，选取核函数为径向基核函数，且：

K(x_i,x_j)＝exp(-γ|x_i-x_j|²) 公式(7)

其中，γ为核函数参数。

这样，SVM分类问题转换为预测函数：

最终，某个样本的预测结果由符号函数sgn(f(x))确定。

这样，就需要对惩罚因子c和核函数参数γ进行优化。在本发明实施例中，选取粒子群优化算法PSO优化惩罚因子c和核函数参数γ。

具体地，PSO算法将待优化参数的解作为解空间中的粒子，设置每个粒子的飞行速度，不断迭代以找到最好粒子，该粒子即为全局最优解，用该粒子替代待优化参数，就得到优化参数后的SVM分类器。

具体地，在实际应用中，经常遇到不平衡训练集，例如训练集中负类样本有80个，而正类样本只有20个，正负样本比例为1：4，此时需要引用adaboost算法进行处理。在adaboost算法中，为每个样本赋予一个权重，表明该样本被某个分类器选入训练集的概率。如果某个样本已经被正确分类，那么在构造下一个分类器时，降低该样本的权重，使其被选中的概率降低，相反，没有被正确分类的样本，该样本的权重就会提高，这样每次迭代都会产生一个弱分类器C_k，并计算出该弱分类器的系数β_k，并更新训练集中每个训练样本的权重，当下一次迭代时，根据更新后的样本权重选择训练样本，并产生新的弱分类器和弱分类器系数。

步骤S15、根据各弱分类器及其对应的系数，确定强分类器；

具体地，当迭代终止时，使用各弱分类器加权平均确定强分类器：

其中，k_max为最大迭代次数。这样，最后的分类结果由符号函数sgn(g(x))确定。

具体地，训练出强分类器之后，将待测网页输入到强分类器中，就可得到分类结果，其中强分类器输出为正则表示待测网页为正常网页，强分类器输出为负则表示待测网页为钓鱼网站。

在上述实施例的基础上，进一步地，所述步骤S12包括：

根据公式(1)计算所述负类样本集中每个网页样本数据到所述正类样本集的马氏距离：

d²(S_i,G)＝(S_i-μ)'∑^-1(S_i-μ) 公式(1)

其中，d表示马氏距离，S_i为负类样本集中的网页样本数据，G为正类样本集，且G的均值向量为μ，协方差矩阵为Σ，(S_i-μ)'为(S_i-μ)的转置矩阵；

根据所述马氏距离更新所述负类样本集，使更新后的负类样本集中每个网页样本数据到所述正类样本集的马氏距离大于预设距离阈值；

将所述负类样本集中的网页样本数据和所述正类样本集中的网页样本数据组成训练集中的训练样本；

根据公式(2)确定所述训练集中每个所述训练样本的权重：

D₁(i)＝1/m 公式(2)

其中，D₁(i)表示第i个训练样本的第一次训练的权重，m为所述训练集中训练样本的个数。

具体地，正类样本集中每个网页样本数据为一个特征向量，可以先计算出正类样本集的均值向量μ和协方差矩阵Σ，然后根据公式d²(S_i,G)＝(S_i-μ)'∑^-1(S_i-μ)计算负类样本集中每个网页样本S_i到正类样本集G的马氏距离，其中正类样本集是指标签为+1的网页样本数据集合，负类样本集是指标签为-1的网页样本数据集合。这样就可以算出负类样本集中每个网页样本数据到正类样本集的马氏距离，如果马氏距离较小，则表明该网页样本数据靠近正类样本集，对此类网页样本数据分类较困难，直接使用该网页样本数据作为训练集进行训练，将导致分类器退化，因此，在本发明实施例中，设置距离阈值T_m，将马氏距离d小于距离阈值T_m的负类网页样本数据予以剔除，只保留马氏距离d大于距离阈值T_m的负类网页样本数据，将这些负类网页样本数据集作为训练集中的负类样本集，与原有的正类样本集一起作为训练集，训练集中每个网页样本数据为训练样本。经马氏距离筛选后，训练集中不包括分类困难的样本。这样就可以得到m个训练样本，由于使用adaboost算法与SVM算法相结合的方法，每次迭代训练时，训练集中的训练样本权重不同，使用D_r(i)表示第r次迭代训练时的训练样本i的权重。在初始迭代训练时，设置训练集中所有训练样本的权重相同，即D₁(i)＝1/m，D₁(i)表示第i个训练样本的第一次训练的权重，m为所述训练集中训练样本的个数。

确定第一次训练时各训练样本的权重之后，使用该训练集训练优化参数后的SVM，确定第一个弱分类器，之后更新D_r(i)，以此循环迭代，得到最终的强分类器。

本发明实施例提供的钓鱼网站检测方法，根据马氏距离确定训练集，使训练集中训练样本的马氏距离大于预设阈值，对样本数据进行了筛选，解决了因困难样本造成的分类器退化问题，根据粒子群优化算法优化支持向量机SVM，使用adaboost算法与SVM算法相结合训练强分类器，解决了数据不平衡问题，使用强分类器进行网页进行分类，提高了钓鱼网页检测的正确率。

在上述各实施例的基础上，进一步地，图2为本发明实施例提供的钓鱼网站检测方法中粒子群优化算法流程示意图，如图2所示，所述步骤S13包括：

步骤S31、初始化粒子并形成粒子群体，随机生成每个粒子的初始速度和当前位置，将每个粒子的个体极值P_i设置为当前位置，将群体极值P_g设置为所述粒子群体中最好粒子的当前位置；

具体地，首先选取经过马氏距离筛选后的训练集，然后初始化粒子并形成粒子群体，每个粒子在解空间的位置为(c，γ)，代表一组参数解，根据随机函数随机生成每个粒子的初始速度v和当前位置Q，将每个粒子的个体极值P_i设置为当前位置，将群体极值P_g设置为粒子群体中最好粒子的当前位置，其中最好粒子是指当前群体中，该粒子对应的参数解优于其他例子对应的参数解。

步骤S32、根据所述训练集训练支持向量机SVM，并根据适应度函数计算每个粒子的适应度值；

具体地，使用经过马氏距离筛选后的训练集训练支持向量机SVM，SVM中的参数为粒子的当前位置Q_i，这样，每个粒子对应的SVM不同，得到训练样本的预测值不同，使用SVM适应度函数f_MAPE计算每个粒子的适应度值，其中：其中，y_i表示训练样本i的标签，表示训练样本i的预测结果，m表示训练集中训练样本的个数。根据公式(10)可以计算出每个粒子的适应度值。

步骤S33、根据所述适应度值更新每个粒子的个体极值和群体极值；

具体地，根据粒子的适应度值更新P_i和P_g。若某粒子当前适应度值优于该粒子历史最优适应度值，则将当前位置作为该粒子的个体极值P_i；若粒子群体中，某个粒子个体极值优于所有粒子当前个体极值，且优于历史群体极值，则将该粒子当前个体极值作为当前群体极值P_g。

步骤S34、判断是否达到算法终止条件，若是则将所述群体极值对应的粒子作为最优解，若否，则执行步骤S35；

具体地，判断当前是否到达算法终止条件，算法的终止条件是达到最大迭代次数或群体极值在一定迭代次数内停滞不再变化。若达到终止条件，则将群体极值对应的粒子的当前位置作为最优解，也就是在解空间得到了待优化参数的最优值，若没有达到算法终止条件，则执行步骤S35。

步骤S35、更新粒子速度和位置，并执行步骤S32。

具体地，根据公式(11)和公式(12)更新粒子的速度v和位置Q：

Q_i+1＝Q_i+v_i+1 公式(12)

其中，为速度权重，表示当前速度v_i对下一次速度v_i+1的影响权重，c₁和c₂是非负常数；r₁和r₂是[0，1]的随机数，Q_i为粒子当前位置，Q_i+1为粒子下一个位置。

更新粒子位置后，根据更新后的位置Q_i+1继续对SVM进行训练，直至迭代终止，确定最优解。将最优解对应的参数值代入SVM中，就可以对训练集进行训练，确定分类器。

本发明实施例提供的钓鱼网站检测方法，根据马氏距离确定训练集，解决了因困难样本造成的分类器退化问题，根据粒子群优化算法优化支持向量机SVM，在优化过程中，使用已经筛选过的训练集进行训练，使训练得到的参数更加精确，使用adaboost算法与SVM算法相结合训练强分类器，解决了数据不平衡问题，使用强分类器进行网页进行分类，提高了钓鱼网页检测的正确率。

在上述各实施例的基础上，进一步地，图3为本发明实施例提供的钓鱼网站检测方法中adaboost算法流程示意图，如图3所示，所述步骤S14包括：

步骤S41、根据所述训练集训练优化后的支持向量机SVM，确定弱分类器；

具体地，经过马氏距离筛选并确定每个训练样本x_i的初始权重D_k(i)，根据该训练集训练已经参数优化后的支持向量机SVM，得到弱分类器C_k；

步骤S42、计算所述弱分类器的误差率，根据所述误差率确定所述弱分类器的系数；

具体地，根据公式(13)计算弱分类器C_k的误差率ε_k：

其中，m为样本集中训练样本个数，D_k(i)表示第i各样本第k次迭代的权重，ε_k为弱分类器C_k的误差率，表示训练样本的预测结果与标签值不同。之后根据公式(14)计算弱分类器C_k的系数：

其中，β_k表示弱分类器C_k的系数。

步骤S43、根据所述弱分类器的系数更新所述训练集中每个训练样本的权重；

具体地，根据公式(15)更新训练集中每个训练样本的权重：

其中，D_k+1(i)表示第i个训练样本第k+1次训练时的权重，β_k表示弱分类器C_k的系数，y_i为第i个训练样本的标签，为第i个训练样本的预测结果，Z_k为规范化因子，使

步骤S44、判断是否满足预设迭代终止条件，若是，则结束迭代，否则执行步骤S41。

具体地，判断是否满足预设迭代终止条件，其中预设迭代终止条件为达到最大迭代次数，或者弱分类器的误差率小于某个阈值。若达到迭代终止条件，则将每次迭代产生的弱分类器加权得到最终的强分类器。

本发明实施例提供的钓鱼网站检测方法，根据马氏距离确定训练集，解决了因困难样本造成的分类器退化问题，根据粒子群优化算法优化支持向量机SVM，使训练得到的参数更加精确，使用adaboost算法与SVM算法相结合训练强分类器，解决了数据不平衡问题，使用强分类器进行网页进行分类，提高了钓鱼网页检测的正确率。

在上述各实施例的基础上，进一步地，图4为本发明实施例提供的钓鱼网站检测方法中更新权重算法流程示意图，如图4所示，所述步骤S43包括：

步骤S51、根据所述弱分类器确定所述训练集中每个训练样本的预测结果，所述预测结果包括正类和负类两种；

具体地，得到弱分类器C_k之后，将训练集中的训练样本输入到弱分类器C_k中，得到每个样本的预测结果表示训练样本i的预测结果为正类，表示训练样本i的预测结果为负类。

步骤S52、判断所述预测结果是否为负类，若是，则执行步骤S53，否则执行步骤S54；

具体地，判断每个训练样本的预测结果是否为负类，对于预测结果为负类的训练样本，即还需要做进一步处理，以进一步防止因困难样本造成的学习期退化问题。

步骤S53、判断所述训练样本的权重是否大于预设权重阈值，若是则将所述预测结果更改为正类，并执行步骤S54；

具体地，对于预测结果为负类的训练样本，判断其权重D_k是否大于预设权重阈值φ，如果大于阈值，则将该训练样本的预测结果更改为正类。若要求分类器在尽可能少的训练次数内达到对正类样本较高的分类识别率，同时又要权衡负类样本的错分率，不至于让负类样本错分率不可接受。需要同时考虑正负样本的权重，同时兼顾正负样本的错分率，保证最终的强分类器错分率能够趋于0。因此设置权重阈值φ，其中φ的确定过程为：

首先根据公式(16)确定训练集中正类样本的权重分布T_p以及负类样本的权重分布T_n：

其中，y_i为训练样本x_i的标签，D_k为第k次迭代时训练样本x_i的权重。

然后根据公式(17)计算训练集中预测结果为正类的训练样本的权重分布T_p∧以及预测结果为负类的训练样本的权重分布T_n∧：

其中，为样本x_i的预测结果，D_k为第k次迭代时样本x_i的权重。

之后，根据公式(18)计算参考阈值φ_p和φ_n：

其中，max表示最大值。

这样，对于第k次迭代，其对应的阈值φ为：

当预测为负类的训练样本的权重大于阈值时，将该训练样本的预测结果更改为正类，即，若且D(i)>φ，则令根据弱分类器中样本权重和训练样本的关系，提出了弱分类器中选取阈值的策略，使最终的强分类器错误率趋于0。

步骤S54、根据所述分类器的系数和每个训练样本的预测结果，更新所述训练样本的权重。

具体地，根据公式(15)更新每个训练样本的权重，然后开始下一次的SVM训练。

本发明实施例提供的钓鱼网站检测方法，根据马氏距离确定训练集，解决了因困难样本造成的分类器退化问题，根据粒子群优化算法优化支持向量机SVM，使训练得到的参数更加精确，使用adaboost算法与SVM算法相结合训练强分类器，在训练过程中，设置了权重阈值，并更改预测结果，使最终的强分类器错误率趋于0，解决了数据不平衡问题，使用强分类器进行网页进行分类，提高了钓鱼网页检测的正确率。

在上述各实施例的基础上，进一步地，图5为本发明又一实施例提供的钓鱼网站检测方法流程示意图，如图5所示，该方法包括：

步骤S15、根据各弱分类器及其对应的系数，确定强分类器；

步骤S17、当新增网页样本数据时，使用所述新增网页样本数据替换所述训练集中权重最小的n个训练样本，其中n为新增网页样本数据的个数；

具体地，为解决在线分类问题，引入新增网页样本数据，当新增网页样式数据达到n个时，n小于m，使用新增网页样本数据替换训练集中最后一次迭代的权重最小的n的训练样本，得到新的训练集S'：

S'＝[(x′₁,y′₁),...,(x'_n,y'_n),(x_n+1,y_n+1),...,(x_m,y_m)]

其中，(x'_n,y'_n)表示新增网页样本数据，(x_m,y_m)表示原有的训练样本。

步骤S18、根据所述训练集中负类样本集与正类样本集的马氏距离，筛选所述训练集中的训练样本，确定更新后的训练集，并确定所述训练集中每个训练样本的权重，执行步骤S13。

具体地，根据新的训练集中的负类样本集与正类样本集的马氏距离筛选训练集中的训练样本，确定更新后的训练集，使更新后的训练集不包括分类困难的样本，然后计算每个训练样本的初始权重，之后使用该训练集对SVM参数进行优化，并使用adaboost算法迭代产生多个弱分类器，最后加权得到强分类器，解决了分类器不能在线使用问题。

为了检测本发明实施例的效果，在实验中，把钓鱼网页和正常网页分别作为正类样本和负类样本，训练集中的训练样本和测试集中的训练样本均为实时数据，钓鱼网页样本从钓鱼网站特征库中提供的黑名单中获取。分别对SVM算法、adaboost-SVM算法以及本发明采用的基于马氏距离的adaboost-SVM算法进行比较，计算分类的准确率。

选取训练样本数量分别为1000，2000，3000，4000，5000，6000，7000，8000，9000和10000十组数据，然后在随机抽取数据集中6000个训练样本作为检测集，并且在SVM、adaboost-SVM中核函数的参数γ取为14，实验3次取其平均值。表1为SVM算法、adaboost-SVM算法和基于马氏距离的adaboost-SVM算法性能对比表，其中：

漏判率＝标签为负类且预测结果为正类的训练样本格式/训练样本总数；

误判率＝标签为正类且预测结果为负类的训练样本格式/训练样本总数；

预测准确率＝标签与预测结果相同的训练样本格式/训练样本总数。

表1SVM算法、adaboost-SVM算法和基于马氏距离的adaboost-SVM算法性能对比表

将表1导入到Excel表中，可得到比较直观的对比图：图6和图7，其中图6为本发明实施例提供的钓鱼网站检测方法与SVM钓鱼检测方法和adaboost-SVM钓鱼检测方法相比漏判率与误判率对比图，图7为本发明实施例提供的钓鱼网站检测方法与SVM钓鱼检测方法和adaboost-SVM钓鱼检测方法相比预测正确率对比图，由表1、图6和图7可以直观地看出，adaboost-SVM与SVM两者的分类精度几乎持平，而本发明实施例采用的基于马氏距离的adaboost-SVM算法则明显的提高了不平衡数据集分类样本的准确度，与此同时也提高了对钓鱼网站数据集整体分类性能，使得关于钓鱼网站分类器的泛化性能进一步增强。

本发明实施例提供的钓鱼网站检测方法，根据马氏距离确定训练集，解决了因困难样本造成的分类器退化问题，根据粒子群优化算法优化支持向量机SVM，使训练得到的参数更加精确，使用adaboost算法与SVM算法相结合训练强分类器，解决了数据不平衡问题，并能够进行增量学习，具备在线学习能力，使用强分类器进行网页进行分类，提高了钓鱼网页检测的正确率。

图8为本发明实施例提供的钓鱼网站检测装置的结构示意图，如图8所示，该装置包括：获取模块81、筛选模块82、优化模块83、迭代模块84、确定分类器模块85和检测模块86，其中：

获取模块81用于获取网页样本数据，所述网页样本数据包括正类样本集和负类样本集；筛选模块82用于根据所述正类样本集和所述负类样本集的马氏距离筛选所述网页样本数据，确定训练集中的训练样本以及每个所述训练样本的权重；优化模块83用于根据粒子群优化算法PSO对支持向量机SVM的参数进行优化；迭代模块84用于使用adaboost算法根据所述训练集迭代训练优化后的支持向量机SVM，确定每次迭代产生的弱分类器以及所述弱分类器的系数，并更新所述训练集中每个训练样本的权重；确定分类器模块85用于根据各弱分类器及其对应的系数，确定强分类器；检测模块86用于根据所述强分类器对待测网页进行分类，根据分类结果判断所述待测网页是否为钓鱼网站。

具体地，获取模块81获取一段时间内的网页样本数据进行训练，获取模块81也可以实时获取一定数量的网页样本数据之后进行训练，这些网页样本数据中的正类样本构成正类样本集，负类样本构成负类样本集。

获取网页样本数据之后，网页样本数据中可能存在分类很困难的样本，筛选模块82根据正类样本集和负类样本集的马氏距离筛选网页样本数据，将筛选后的网页样本数据作为训练样本x_i，并确定每个训练样本的初始权重，每个训练样本及其对应的权重构成了训练集。此时，训练集可以表示为(x_i，y_i)，其中x_i为第i个训练样本，y_i表示该样本的标签，y_i＝+1表示为正样本，y_i＝-1表示为负样本。马氏距离是一种计算两个样本集的相似度的方法，与欧氏距离不同的是它考虑到各种特性之间的联系，并且是尺度无关的，即独立于测量尺度。确定训练集之后，选取支持向量机SVM作为分类器进行训练，SVM算法主要是构造一个最优超平面，划分训练样本中的正类样本和负类样本。SVM参数为惩罚因子c和核函数参数γ。优化模块83选取粒子群优化算法PSO优化惩罚因子c和核函数参数γ。将待优化参数的解作为解空间中的粒子，设置每个粒子的飞行速度，不断迭代以找到最好粒子，该粒子即为全局最优解，用该粒子替代待优化参数，就得到优化参数后的SVM分类器。迭代模块84使用adaboost算法根据所述训练集迭代训练优化后的支持向量机SVM，确定每次迭代产生的弱分类器以及所述弱分类器的系数，并更新所述训练集中每个训练样本的权重；确定分类器模块85根据各弱分类器及其对应的系数，确定强分类器；检测模块86根据强分类器对待测网页进行分类，根据分类结果判断待测网页是否为钓鱼网站。其中强分类器输出为正则表示待测网页为正常网页，强分类器输出为负则表示待测网页为钓鱼网站。本发明实施例提供的装置，用于实现上述方法，其功能具体参照上述方法实施例，此处不再赘述。

本发明实施例提供的钓鱼网站检测装置，根据马氏距离确定训练集，对样本数据进行了筛选，解决了因困难样本造成的分类器退化问题，根据粒子群优化算法优化支持向量机SVM，使用adaboost算法与SVM算法相结合训练强分类器，解决了数据不平衡问题，使用强分类器进行网页进行分类，提高了钓鱼网页检测的正确率。

在上述实施例的基础上，进一步地，所述筛选模块包括：

计算单元，用于根据公式(1)计算所述负类样本集中每个网页样本数据到所述正类样本集的马氏距离：

d²(S_i,G)＝(S_i-μ)'∑^-1(S_i-μ) 公式(1)

筛选单元，用于根据所述马氏距离更新所述负类样本集，使更新后的负类样本集中每个网页样本数据到所述正类样本集的马氏距离大于预设距离阈值；

重组单元，用于将所述负类样本集中的网页样本数据和所述正类样本集中的网页样本数据组成训练集中的训练样本；

确定权重单元，用于根据公式(2)确定所述训练集中每个所述训练样本的权重：

D₁(i)＝1/m 公式(2)

具体地，正类样本集中每个网页样本数据为一个特征向量，计算单元计算出正类样本集的均值向量μ和协方差矩阵Σ，然后根据公式d²(S_i,G)＝(S_i-μ)'∑^-1(S_i-μ)计算负类样本集中每个网页样本S_i到正类样本集G的马氏距离，其中正类样本集是指标签为+1的网页样本数据集合，负类样本集是指标签为-1的网页样本数据集合。这样就可以算出负类样本集中每个网页样本数据到正类样本集的马氏距离，如果马氏距离较小，则表明该网页样本数据靠近正类样本集，对此类网页样本数据分类较困难，直接使用该网页样本数据作为训练集进行训练，将导致分类器退化，因此，在本发明实施例中，设置距离阈值T_m，筛选单元将马氏距离d小于距离阈值T_m的负类网页样本数据予以剔除，只保留马氏距离d大于距离阈值T_m的负类网页样本数据，重组单元将这些负类网页样本数据集作为训练集中的负类样本集，与原有的正类样本集一起作为训练集，训练集中每个网页样本数据为训练样本。经马氏距离筛选后，训练集中不包括分类困难的样本。这样就可以得到m个训练样本，由于使用adaboost算法与SVM算法相结合的方法，每次迭代训练时，训练集中的训练样本权重不同，确定权重单元使用D_r(i)表示第r次迭代训练时的训练样本i的权重。在初始迭代训练时，设置训练集中所有训练样本的权重相同，即D₁(i)＝1/m，D₁(i)表示第i个训练样本的第一次训练的权重，m为所述训练集中训练样本的个数。本发明实施例提供的装置，用于实现上述方法，其功能具体参照上述方法实施例，此处不再赘述。

图9为本发明实施例提供的电子设备的结构示意图，如图9所示，所述设备包括：处理器(processor)901、存储器(memory)902和总线903；

其中，处理器901和存储器902通过所述总线903完成相互间的通信；

处理器901用于调用存储器902中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：获取网页样本数据，所述网页样本数据包括正类样本集和负类样本集；根据所述正类样本集和所述负类样本集的马氏距离筛选所述网页样本数据，确定训练集中的训练样本以及每个所述训练样本的权重；根据粒子群优化算法PSO对支持向量机SVM的参数进行优化；使用adaboost算法根据所述训练集迭代训练优化后的支持向量机SVM，确定每次迭代产生的弱分类器以及所述弱分类器的系数，并更新所述训练集中每个训练样本的权重；根据各弱分类器及其对应的系数，确定强分类器；根据所述强分类器对待测网页进行分类，根据分类结果判断所述待测网页是否为钓鱼网站。

本发明实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：获取网页样本数据，所述网页样本数据包括正类样本集和负类样本集；根据所述正类样本集和所述负类样本集的马氏距离筛选所述网页样本数据，确定训练集中的训练样本以及每个所述训练样本的权重；根据粒子群优化算法PSO对支持向量机SVM的参数进行优化；使用adaboost算法根据所述训练集迭代训练优化后的支持向量机SVM，确定每次迭代产生的弱分类器以及所述弱分类器的系数，并更新所述训练集中每个训练样本的权重；根据各弱分类器及其对应的系数，确定强分类器；根据所述强分类器对待测网页进行分类，根据分类结果判断所述待测网页是否为钓鱼网站。

本发明实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：获取网页样本数据，所述网页样本数据包括正类样本集和负类样本集；根据所述正类样本集和所述负类样本集的马氏距离筛选所述网页样本数据，确定训练集中的训练样本以及每个所述训练样本的权重；根据粒子群优化算法PSO对支持向量机SVM的参数进行优化；使用adaboost算法根据所述训练集迭代训练优化后的支持向量机SVM，确定每次迭代产生的弱分类器以及所述弱分类器的系数，并更新所述训练集中每个训练样本的权重；根据各弱分类器及其对应的系数，确定强分类器；根据所述强分类器对待测网页进行分类，根据分类结果判断所述待测网页是否为钓鱼网站。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置等实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上各实施例仅用以说明本发明的实施例的技术方案，而非对其限制；尽管参照前述各实施例对本发明的实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。

Claims

1.一种钓鱼网站检测方法，其特征在于，包括：

步骤S15、根据各弱分类器及其对应的系数，确定强分类器；

2.根据权利要求1所述的方法，其特征在于，所述步骤S12包括：

d²(S_i,G)＝(S_i-μ)'∑^-1(S_i-μ) 公式(1)

根据公式(2)确定所述训练集中每个所述训练样本的权重：

D₁(i)＝1/m 公式(2)

3.根据权利要求1所述的方法，其特征在于，所述步骤S13包括：

步骤S35、更新粒子速度和位置，并执行步骤S32。

4.根据权利要求1所述的方法，其特征在于，所述步骤S14包括：

5.根据权利要求4所述的方法，其特征在于，所述步骤S43包括：

6.根据权利要求1-5任一所述的方法，其特征在于，所述方法还包括：

7.一种钓鱼网站检测装置，其特征在于，包括：

8.根据权利要求1所述的装置，其特征在于，所述筛选模块包括：

d²(S_i,G)＝(S_i-μ)'∑^-1(S_i-μ) 公式(1)

D₁(i)＝1/m 公式(2)

9.一种电子设备，其特征在于，包括：

存储器和处理器，所述处理器和所述存储器通过总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至6任一所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一所述的方法。