CN111967503B

CN111967503B - 多类型异常网页分类模型的构建方法、异常网页检测方法

Info

Publication number: CN111967503B
Application number: CN202010721898.7A
Authority: CN
Inventors: 陆毛毛; 权义宁; 苗启广; 宋建锋; 戚玉涛; 谢琨; 孙鹏岗
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-07-24
Filing date: 2020-07-24
Publication date: 2023-10-13
Anticipated expiration: 2040-07-24
Also published as: CN111967503A

Abstract

本发明公开了一种多类型异常网页分类模型的构建方法、异常网页检测方法，其中，多类型异常网页分类模型的构建包括：将不同类型的异常网页分类，并根据不同类型的网页的攻击意图和手段选择相应的属性，并通过SVM‑RFE选取最合适的最优属性，并将每个属性在朴素贝叶斯上的精确度为特征有效度，并将其引入SVM中，设计出一种具有特征有效度的支持向量机，将选取的特征在含有特征有效度支持向量机中训练得到多类型异常网页分类模型。其中，异常网页检测方法包括；将提交的URL提取异常特征，并进行标准化处理，然后调用本发明的多类型异常网页分类模型进行检测。

Description

多类型异常网页分类模型的构建方法、异常网页检测方法

技术领域

本发明属于统计学习分类技术领域，特别是一种多类型异常检测的方法。

背景技术

无论是国家政府机构，还是企业、学校和事业单位，都需要一个网站来宣传、介绍自己，为自己发布信息。随着信息时代的发展，购物、吃饭和打车等人们日常生活需求都可以通过网络来完成，这不仅便捷了人们的生活，也节省了大量的人力和财力。然而，当正常网站为人们提供信息、娱乐和便捷的同时，也让不法分子看到了商机，异常网站也越来越泛滥和多样化。普通网名很难识别异常网页与正常网页的区别，自动化的识别异常网页变得尤为重要。

传统网页分类算法，如决策树分类算法和朴素贝叶斯算法，没有考虑到网页样本数据包含不同属性特征的问题，其性能有较大的局限性。同时，传统分类学习方法，例如SVM算法，在实际实现中未考虑到分类精度的问题。

发明内容

针对现有技术存在的问题，本发明的目的在于提供一种多类型异常网页分类模型的构建方法、异常网页检测方法，能够实现对多种类型的异常网页进行高效的检测分类。

为此，本发明采取的技术解决方案为：

一种多类型异常网页分类模型的构建方法，包括以下步骤：

步骤1：将异常网页按照异常网页的攻击手段或攻击目标分为攻击型恶意网页、诱导型欺诈网页和垃圾网页；

步骤2：通过攻击型恶意网页、诱导型欺诈网页和垃圾网页的m个URL共提取出T个属性；同时，通过正常网页的m个URL也提取出与异常网页属性名称相同的T个属性；m、T均为自然数；

步骤3：对异常网页的T个属性分别进行属性向量化，得到异常网页的m个属性向量；对正常网页的T个属性分别进行属性向量化，得到正常网页的m个属性向量；其中，异常网页和正常网页的每个属性向量均包含T个属性；

步骤4：对异常网页的所有属性向量分别添加标签1，得到m个异常网页特征向量；同时对正常网页的所有属性向量分别添加标签0，得到m个正常网页特征向量；

步骤5：将m个异常网页特征向量与m个正常网页特征向量合并，组成特征向量集合，该特征向量集合中的每个特征向量均包含属性向量和标签；

步骤6：根据SVM-RFE算法对T个属性进行排序，得到前t(t≤T)个属性作为最优属性，剩余属性为淘汰属性，将特征向量集合中的每个特征向量中包含的淘汰属性去除，得到新的特征向量集合；

步骤7：将步骤6得到的新的特征向量集合分为训练集和测试集，使用朴素贝叶斯计算前t个属性在训练集下的精度，分别为λ₁,λ₂,...,λ_t；

步骤8：构建含有特征有效度的SVM模型并进行训练，得到多类型异常网页分类模型，该多类型异常网页分类模型的输出结果为1或0；

其中，含有特征有效度的SVM模型的目标函数为：

式中：其中a_i是第i个特征向量对应的拉格朗日乘子，a_j是第j个特征向量对应的拉格朗日乘子，i≠j且i,j≤m；

(x_i,y_i)表示第i个特征向量在超平面内的坐标，x_i为第i个特征向量的属性向量，y_i为第i个特征向量的标签；

k(x_i ^TP,x_j ^TP)表示核函数；

C表示惩罚因子，为大于0的实数；

P表示特征有效度矩阵，

具体的，步骤2中提取出攻击型恶意网页、诱导型欺诈网页和垃圾网页的共m个URL包括：提取出攻击型恶意网页URLm₁个、诱导型欺诈网页URLm₂个、垃圾网页的URLm₃个，其中，m₁+m₂+m₃＝m且m₁≈m₂≈m₃。

本发明还提供一种多类型异常网页检测方法，包括以下步骤：

步骤一、采用上述方法构建多类型异常网页分类模型：

步骤二、将多类型异常网页分类模型持久化到文本Text中；

步骤三、输入待检测网页的URL，按照上述方法得到待检测网页的属性向量；

步骤四、将步骤三得到的待检测网页的属性向量输入到步骤二得到的Text中进行检测，若输出结果为1，则判定为异常网页，若输出结果为0，则判定为正常网页。

本发明取得的技术效果在于：

本发明主要关键点是多类型异常网页特征提取方法和含有特征有效度的SVM分类算法。其中，多类型异常网页特征提取方法是综合了攻击型恶意网页特征提取、诱导型欺诈网页特征提取和垃圾网页特征提取的一种综合特征提取方法，该方法根据异常网页存在的目的及其攻击手段来对异常网页进行分析和特征提取，较少遗漏。同时，本发明将每个特征使用朴素贝叶斯分类在样本上的精确度作为特征有效度引入样本的分类中，得到一种含有特征有效度的支持向量机，能够实现对多种类型的异常网页高效、高精度的检测分类。

附图说明

图1是本发明方法的流程图。

图2是本发明使用朴素贝叶斯求解得到的精度值。

具体实施方式

本申请中，将异常网页按照其攻击目标或攻击手段分类为攻击型恶意网页、诱导型欺诈网页和垃圾网页。其中，将会导致用户的计算机下载恶意程序、性能下降以及计算机操作系统受到损坏甚至直接导致计算机硬件损坏等危害的攻击目标的网页定义为攻击型恶意网页，将通过伪装、诱惑等攻击手段获取用户信任，然后诱导用户输入自己的隐私信息甚至直接转账的恶意网页定义为诱导型欺诈网页，将通过各种方式散布在各大网站的广告页面、评论页面、邮件链接和和短信链接中，毫无营养，或推送广告，或携带病毒，或通过非法途径赚取流量和广告费用的攻击手段的异常网页定义为垃圾网页。

SVM的任务是找到一个超平面，这个超平面在理论上是在正样本和负样本的正中间，也就是使正样本和负样本的距离最大化，所以使用支持向量机的关键就是如何找到最合适的超平面。本发明将每个特征使用朴素贝叶斯分类在样本上的精确度作为特征有效度引入样本的分类中，得到一种含有特征有效度的支持向量机(F-SVM)。

本申请中的属性是指：从网页中提取到的和异常网页相关的特征，属性名称相同指的是相同的特征。

本申请步骤2中，由于一个网页仅对应唯一的一个URL，因此从m个URL中共提取出T个属性，指的是从m个网页的m个URL中一共提取出T个，T个属性名称都不同，m与T无绝对大小关系，对于其中单个网页而言，有可能没有提取出合适的表征异常网页的属性，也有可能从另外单个网页中提取出多个属性，例如，共有三个异常网页，m＝3，从其中一个网页中提取出4个属性，另一个网页中提取出1个，另一个中提取出0个，则T＝5，最后这三个网页归一化后均使用这T＝5个属性表示。

实施例1：

本实施例提供一种多类型异常网页分类模型，按照如下方法构建，包括以下步骤：

步骤1.1：将异常网页分类为攻击型恶意网页、诱导型欺诈网页和垃圾网页。其中，将会导致用户的计算机下载恶意程序、性能下降以及计算机操作系统受到损坏甚至直接导致计算机硬件损坏等危害的攻击网页定义为攻击型恶意网页，将通过伪装、诱惑等手段获取用户信任，然后诱导用户输入自己的隐私信息甚至直接转账的恶意网页定义为诱导型欺诈网页，将通过各种方式散布在各大网站的广告页面、评论页面、邮件链接和和短信链接中，毫无营养，或推送广告，或携带病毒，或通过非法途径赚取流量和广告费用的异常网页定义为垃圾网页；

步骤1.2：采集m个异常网页的URL，包含m₁个攻击型恶意网页URL、m₂个诱导型欺诈网页和m₃个垃圾网页URL，m₁、m₂和m₃满足条件m₁≈m₂≈m₃，采集n个正常网页URL，m和n的关系是m≈n；

步骤2：通过攻击型恶意网页、诱导型欺诈网页和垃圾网页的m个URL共提取出T个属性；同时，通过正常网页的n个URL也提取出与异常网页属性对应的T个属性；m、T均为自然数，m、T无大小关系；

步骤2.1：利用静态和动态两种方式从攻击型恶意网页中的动态脚本和URL中提取了脚本攻击特征，从诱导型欺诈网页的标签和URL等元素中提取了伪装网页相关特征，从垃圾网页中提取了非本站域名、图片等垃圾网页的典型特征，根据异常网页具有逃避检查和缩小成本的特点，提取了重定向和隐藏等综合特征；共计提取与恶意网页相关的特征共T个。

步骤2.2：根据步骤1.3的方法提取采集m个异常网页数据集和n个正常网页的T个与异常网页相关的特征。

将步骤2.2得到的m+n个数据集的T个属性分别向量化，对数值缺失的属性使用该属性最常出现的值代替，对于属性数值中出现过度分散的数值采取归一化的方法将数值集中在0和1之间，得到m个异常网页的属性向量和n个正常网页的属性向量。

将步骤4获得的所有网页特征向量随机打乱合并得到I个特征向量，其中，I＝m+n，设网页的属性向量为x_i，代表第i个网页的属性向量，设网页的标签为y_i，则第i个网页特征向量表示为(x_i,y_i)；

步骤6：根据SVM-RFE算法对T个属性进行排序，得到前t(t≤T)个属性作为最优属性，剩余为淘汰属性，将特征向量集合中的每个特征向量中包含的淘汰属性去除，得到新的特征向量集合；

使用SVM-RFE算法(支持向量机循环递归特征消除)对网页特征进行排序，排名前t(t≤T)个属性为最优属性，计算最优属性在SVM上的精度，剩余作为淘汰属性，根据算法淘汰的属性将步骤5获得的I个特征向量对应的淘汰属性去除，得到新的I个特征向量，其中第i个特征向量记为：F_i＝(x_i,y_i)，其中

步骤7：将步骤6得到的新的特征向量集合分为训练集和测试集，使用朴素贝叶斯计算步骤6得到的前t个最优属性在训练集下的精度，分别为λ₁,λ₂,...,λ_t；

步骤7.1：将步骤6得到的I个特征向量按照7:3的比例分为训练集F₁和测试集F₂；

步骤7.2：计算前t个最优属性使用朴素贝叶斯在训练集I下的精度，精度表示分类正确的数量占总体数量的比例。该精度在一定程度上体现了该特征对分类精度的贡献，其精度分别为λ₁,λ₂,...,λ_t；

步骤8：构建含有特征有效度的SVM模型并进行训练，得到多类型异常网页分类模型，该多类型异常网页分类模型的输出结果为1或0。

支持向量机致力于寻找正样本和负样本之间的最大间距，对于多数样本都具有良好的性能，但支持向量机隐含的条件是各个维度的特征在样本分类中发挥作用是相同的，这样就忽略了不同特征对分类精度的影响。本发明设计一种含有特征有效度的支持向量机作为分类算法来训练多类型异常网页检测方法，将步骤7.2得到的精度λ₁,λ₂,...,λ_t作为特征有效度引入支持向量机中，一般支持向量机的求解公式为：

其中a_i和a_j是拉格朗日乘子，(x_i,y_i)表示点在超平面内的坐标，分别为属性向量及标签。由于本文以下获取到的12个URL不是线性可分的，故需要引入核函数将样本映射到高维空间中，设核函数为K(x,y)，核函数的定义如式(2)所示：

其中，和/>是将x和y映射到高维空间中的映射函数，将核函数代入得到带有核函数的支持向量机表达式：

计算高维特征十分复杂，可以使用来代替核函数，此时含有核函数支持向量机表示为：

定义特征有效度举证P为：

最终得到目标函数如下所示：

其中a_i和a_j是拉格朗日乘子，(x_i,y_i)表示点在超平面内的坐标，k(x_i ^TP,x_j ^TP)表示核函数、P表示特征有效度矩阵，C表示惩罚因子，为大于0的实数，根据适用条件核函数选用径向基核函数。

为了求找到含有特征有效度的SVM的最佳径向基核函数参数γ以及惩罚因子C的组合，本文使用了遗传算法求解算法。在遗传算法的开始，算法随机生成了种群规模为W的初始种群，在种群中的每个个体都存在于基因串类型的数据结构中，其中，W通常在20到100之间，然后种群会经历最大值为W的迭代过程。然后计算种群中每一个个体的适应度，这里将训练集的准确性确定为适合度函数，该适应度代表每个个体的表现。设置进化迭代的最大数量为Z，进化迭代的当前数量为z，在z≤Z时，每迭代一次，z增加1。算法过程中的复制规则是从当前种群中选择最佳适应度的个体传递到下一代种群中，而其他个体通过交叉和变异操作传递到下一代种群中，交叉操作是随机转换种群中所有个体的染色体以生成新的个体，新产生的个体是继承了上一代优良基因的个体。这个过程的最后一步是变异操作，即通过基因突变来产生一个新的变异个体，最终遗传算法的输出就是最优的径向基核函数参数γ以及惩罚因子C的组合。

使用练集F₁输入到上述得到的含有特征有效度的SVM进行训练，并使用测试集F₂对训练的模型进行测试得到最优的多类型异常网页检测模型。

实施例2：

本实施例提供一种网页异常检测方法，按照以下步骤实施：

步骤一、采用实施例1所述方法构建多类型异常网页分类模型：

步骤二、将多类型异常网页分类模型持久化到文本Text中；

步骤三、输入待检测网页的URL，按照实施例1所述方法得到待检测网页的属性向量；

其中，输入待检测的网页URL作为待测样本，根据步骤1的方法提取异常网页的相关属性特征并得到属性向量x，记为x＝(μ₁,μ₂,...,μ_t)，其中，μ_i表示待测样本中第i个关于异常网页的属性；

其中，使用步骤一给出的持久化模型文本Text对x'进行预测分类，若输出结果为1，则判定为异常网页，若输出结果为0，则判定为正常网页。

实施例3：

本实施例提供一种多类型异常网页检测方法，包括在线网页分类模型训练步骤和网页异常检测步骤两个大步骤，具体的说，如图1所示，是按如下步骤进行：

步骤一：多类型异常网页分类模型构建及训练：

步骤1：将会导致用户的计算机下载恶意程序、性能下降以及计算机操作系统受到损坏甚至直接导致计算机硬件损坏等危害的攻击网页分类为攻击型恶意网页，将通过伪装、诱惑等手段获取用户信任，然后诱导用户输入自己的隐私信息甚至直接转账的恶意网页分类为诱导型欺诈网页，将通过各种方式散布在各大网站的广告页面、评论页面、邮件链接和和短信链接中，毫无营养，或推送广告，或携带病毒，或通过非法途径赚取流量和广告费用的异常网页分类为垃圾网页；分别下载获取攻击型恶意网页URL1048条、诱导型欺诈网页1386条、垃圾网页1156条，正常网页数据集3500条。其中恶意网页从malwaredomainlist中下载，欺诈网页使用PhishTank数据集、垃圾网页使用WEBSPAM-UK2007数据集，正常网页数据集使用Alexa综合排名前5000的网页，将搜集到的数据集进行实测访问，留下真实可访问的数据；

步骤2：根据异常网页的攻击目的和手段提取如下属性：利用静态和动态两种方式从攻击型恶意网页中的动态脚本和URL中提取了URL路径中是否含有script、是否使用了危险函数、HTML标签中函数JavaScript的个数、HTML标签中函数URL的个数、JavaScript函数中最长单词的大小、JavaScript中阿拉伯数字个数、网页cookie设置、URL长度和是否自动下载可执行文件共10个与恶意网页相关的属性；从诱导型欺诈网页的标签和URL等元素中提取了主域名包含点的个数、域名中特殊符号的个数、非二级域名位置是否包含著名域名、是IP还是域名、顶级域名是否常见共5个与欺诈网页相关的属性；从垃圾网页中提取了是否包含第三方域名或者ip、多媒体内容的数量共2个垃圾网页的典型特征，根据异常网页具有逃避检查和缩小成本的特点提取了网站是否隐藏、网页是否被重定向、网页是否存在内嵌危险和网页影响力等综合属性。综上，共计获取21个异常网页属性；

根据步骤1.3找出的21个属性，分别求出步骤1.2所得的数据集中这些属性的值；

步骤3：将2.2所获得的所有结果转化成数字形成属性向量，其中是否问题使用0和1来表示，将得到的所有向量中缺失的部分使用该特征最常出现的值代替，将其范围过广的数值归一化；

步骤4：将步骤2.2获得的m个异常网页的属性向量添加标签1，得到的3590个异常网页的特征向量；将步骤2.2获得的n个正常网页的属性向量添加标签0，得到的3500个正常网页的特征向量；m＝n。

步骤5：将步骤4获得的所有网页属性随机打乱合并得到7090个特征向量，若某个网页特征向量表示为(μ₁,μ₂,...,μ₂₁,y)，其中μ_i(i≤21)表示第i个属性的值，例如，通过重定向计算出网页的状态码返回为301，则赋值μ₁₉＝1，这个网页是异常网页，则y＝1；

步骤6：使用SVM-RFE算法对T＝21个特征排序，画出属性数量和精确度的关系如图2所示。因此，挑选前t＝12个作为异常网页的属性集合比较合适，故作为最优属性。将被淘汰的后9个作为淘汰属性，从特征向量在步骤5所获得的的7090个特征向量中删除。

步骤7：将步骤6得到的I个特征向量按照7:3的比例分为训练集F₁和测试集F₂；计算12个最优属性使用朴素贝叶斯在训练集I下的准确度，该准确度在一定程度上体现了该特征对分类精度的贡献，其精度分别为λ₁,λ₂,...,λ₁₂，如下表1所示；

步骤8：构建含有特征有效度的SVM模型并进行训练，训练时的输入是训练集和不同的测试集，输出是使得测试集整体最优的SVM模型。得到多类型异常网页分类模型，该多类型异常网页分类模型的输出结果为1或0；

支持向量机致力于寻找正样本和负样本之间的最大间距，对于多数样本都具有良好的性能，但支持向量机隐含的条件是各个维度的特征在样本分类中发挥作用是相同的，这样就忽略了不同特征对分类精度的影响。本发明设计一种含有特征有效度的支持向量机作为分类算法来训练多类型异常网页检测方法，将步骤1.11得到的精度λ₁,λ₂,...,λ₁₂作为特征有效度引入支持向量机中，定义特征有效度矩阵P为：

最终得到目标函数如下所示：

其中a_i和a_j是拉格朗日乘子；(x_i,y_i)表示点在超平面内的坐标；k(x_i ^TP,x_j ^TP)表示核函数；

C表示惩罚因子；P表示特征有效度矩阵，

为了求找到含有特征有效度的SVM的最佳径向基核函数参数γ以及惩罚因子C的组合，本文使用了遗传算法求解算法。在遗传算法的开始，算法随机生成了种群规模为N＝30的初始种群，在种群中的每个个体都存在于基因串类型的数据结构中，然后种群会经历最大值为30的迭代过程。然后计算种群中每一个个体的适应度，这里将训练集的准确性确定为适合度函数，该适应度代表每个个体的表现。设置进化迭代的最大数量为50，进化迭代的当前数量为t，在t≤50时，每迭代一次，t增加1。算法过程中的复制规则是从当前种群中选择最佳适应度的个体传递到下一代种群中，而其他个体通过交叉和变异操作传递到下一代种群中，交叉操作是随机转换种群中所有个体的染色体以生成新的个体，新产生的个体是继承了上一代优良基因的个体。这个过程的最后一步是变异操作，即通过基因突变来产生一个新的变异个体，最终遗传算法的输出就是最优的径向基核函数参数以及惩罚因子的组合。最终输出γ＝0.1,C＝50。

使用训练集F₁输入到上述步骤中的含有特征有效度的SVM进行训练，并使用测试集F₂对训练的模型进行测试得到最优的多类型异常网页检测模型，并将其持久化到文本Text。

步骤二：网页异常检测：

输入http://www.nuptialimages.com/作为待测样本，根据步骤一的方法提取异常网页的相关属性特征并得到属性向量x，得到属性向量为x＝(1,3,1,1,0,1,0.64,0.11,1,2,0,0)，代表12个属性的值；将得到的属性向量x输入到作为预测函数的输入，得到输出结果为1，表明该URL所表示的网址被预测为异常网页。

评价指标

TP表示True Positive，即将样本标签为异常网页的样本预测成为样本标签为异常网页的样例数；Fn表示False Negative，即将样本标签为异常网页的样本预测为样本标签为正常网页的样例数；FP表示False Positive，即将样本标签为正常网页的样本预测成为样本标签为异常网页的样例数；TN表示True Negative，即将样本标签为正常网页的样本预测成为样本标签为正常网页的样例数；由基本的混淆矩阵得到如下的4个评价指标。

表1对比实现结果

算法	ACC(％)	TPR(％)	REC(％)	FPR(％)
					朴素贝叶斯	88.4	86.1	87.0	10.6
SVM	89.5	88.0	87.5	10.1
					F-SVM	91.2	90.5	89.3	8.8

从表1可以看出在上述的数据集中，本发明的多类型异常网页检测方法获得的很好的分类精度，继而体现出本发明的有效性。在互联网信息日益庞大的今天，互联网安全日益重要，准确高效的检测出异常网页数据是Web安全领域的重要研究问题。基于此，本发明能快速有效从海量、多类型网页数据中检测出异常网页，提高网络安全和互联网用户体验。

Claims

1.一种多类型异常网页分类模型的构建方法，其特征在于，包括以下步骤：

步骤2：分别从m₁个攻击型恶意网页中提取出m₁个URL、从m₂个诱导型欺诈网页中提取出m₂个URL个、从m₃个垃圾网页中提取出m₃个URL，其中，m₁+m₂+m₃＝m且m₁≈m₂≈m₃，从m个URL中共提取出T个属性；同时，提取正常网页的m个URL，从正常网页的m个URL中也提取出与异常网页属性名称相同的T个属性；m、T均为自然数；一个网页对应一个唯一的URL；

步骤3：对异常网页的T个属性分别进行属性向量化后使得每个异常网页都用一个属性向量表示，因此得到异常网页的m个属性向量；对正常网页的T个属性分别进行属性向量化，得到正常网页的m个属性向量；其中，异常网页和正常网页的每个属性向量均包含T个属性；

步骤6：根据SVM-RFE算法对T个属性进行排序，得到前t(t≤T)个属性作为最优属性，后T-t个属性作为淘汰属性，将特征向量集合中的每个特征向量中包含的淘汰属性去除，得到新的特征向量集合；

步骤7：使用朴素贝叶斯计算步骤6得到的前t个最优属性在训练集下的精度，分别为λ₁,λ₂,...,λ_t；其中，训练集来源于：步骤6得到的新的特征向量集合分为训练集和测试集；

步骤8：构建含有特征有效度的SVM模型并进行训练，以训练集作为输入，得到多类型异常网页分类模型，该多类型异常网页分类模型的输出结果为1或0；

其中，含有特征有效度的SVM模型的目标函数为：

式中：其中a_i是训练集中第i个特征向量对应的拉格朗日乘子，a_j是训练集中第j个特征向量对应的拉格朗日乘子，i≠j且i,j≤m；x_i为训练集中第i个特征向量的属性向量，y_i为训练集中第i个特征向量的标签；(x_i,y_i)表示第i个特征向量在超平面内的坐标；k(x_i ^TP,x_j ^TP)表示核函数，P表示特征有效度矩阵，C表示惩罚因子，为大于0的实数。

2.一种多类型异常网页检测方法，其特征在于，包括以下步骤：

步骤一、采用权利要求1所述方法构建多类型异常网页分类模型：

步骤二、将多类型异常网页分类模型持久化到文本Text中；

步骤三、输入待检测网页的URL，按照权利要求1所述方法得到待检测网页的属性向量；