CN111967503B - 多类型异常网页分类模型的构建方法、异常网页检测方法 - Google Patents
多类型异常网页分类模型的构建方法、异常网页检测方法 Download PDFInfo
- Publication number
- CN111967503B CN111967503B CN202010721898.7A CN202010721898A CN111967503B CN 111967503 B CN111967503 B CN 111967503B CN 202010721898 A CN202010721898 A CN 202010721898A CN 111967503 B CN111967503 B CN 111967503B
- Authority
- CN
- China
- Prior art keywords
- webpage
- abnormal
- attribute
- attributes
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 111
- 238000013145 classification model Methods 0.000 title claims abstract description 26
- 238000001514 detection method Methods 0.000 title claims abstract description 20
- 238000010276 construction Methods 0.000 title description 4
- 238000000034 method Methods 0.000 claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 32
- 239000013598 vector Substances 0.000 claims description 95
- 238000004422 calculation algorithm Methods 0.000 claims description 21
- 238000012360 testing method Methods 0.000 claims description 11
- 230000008030 elimination Effects 0.000 claims description 8
- 238000003379 elimination reaction Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000002085 persistent effect Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000012706 support-vector machine Methods 0.000 abstract description 17
- 230000006870 function Effects 0.000 description 28
- 230000006378 damage Effects 0.000 description 8
- 230000002068 genetic effect Effects 0.000 description 8
- 238000007635 classification algorithm Methods 0.000 description 5
- 230000035772 mutation Effects 0.000 description 4
- 238000013515 script Methods 0.000 description 4
- 241000700605 Viruses Species 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 235000016709 nutrition Nutrition 0.000 description 3
- 230000035764 nutrition Effects 0.000 description 3
- 206010064571 Gene mutation Diseases 0.000 description 2
- 210000000349 chromosome Anatomy 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 230000010076 replication Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 235000014510 cooky Nutrition 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Genetics & Genomics (AREA)
- Biomedical Technology (AREA)
- Physiology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种多类型异常网页分类模型的构建方法、异常网页检测方法,其中,多类型异常网页分类模型的构建包括:将不同类型的异常网页分类,并根据不同类型的网页的攻击意图和手段选择相应的属性,并通过SVM‑RFE选取最合适的最优属性,并将每个属性在朴素贝叶斯上的精确度为特征有效度,并将其引入SVM中,设计出一种具有特征有效度的支持向量机,将选取的特征在含有特征有效度支持向量机中训练得到多类型异常网页分类模型。其中,异常网页检测方法包括;将提交的URL提取异常特征,并进行标准化处理,然后调用本发明的多类型异常网页分类模型进行检测。
Description
技术领域
本发明属于统计学习分类技术领域,特别是一种多类型异常检测的方法。
背景技术
无论是国家政府机构,还是企业、学校和事业单位,都需要一个网站来宣传、介绍自己,为自己发布信息。随着信息时代的发展,购物、吃饭和打车等人们日常生活需求都可以通过网络来完成,这不仅便捷了人们的生活,也节省了大量的人力和财力。然而,当正常网站为人们提供信息、娱乐和便捷的同时,也让不法分子看到了商机,异常网站也越来越泛滥和多样化。普通网名很难识别异常网页与正常网页的区别,自动化的识别异常网页变得尤为重要。
传统网页分类算法,如决策树分类算法和朴素贝叶斯算法,没有考虑到网页样本数据包含不同属性特征的问题,其性能有较大的局限性。同时,传统分类学习方法,例如SVM算法,在实际实现中未考虑到分类精度的问题。
发明内容
针对现有技术存在的问题,本发明的目的在于提供一种多类型异常网页分类模型的构建方法、异常网页检测方法,能够实现对多种类型的异常网页进行高效的检测分类。
为此,本发明采取的技术解决方案为:
一种多类型异常网页分类模型的构建方法,包括以下步骤:
步骤1:将异常网页按照异常网页的攻击手段或攻击目标分为攻击型恶意网页、诱导型欺诈网页和垃圾网页;
步骤2:通过攻击型恶意网页、诱导型欺诈网页和垃圾网页的m个URL共提取出T个属性;同时,通过正常网页的m个URL也提取出与异常网页属性名称相同的T个属性;m、T均为自然数;
步骤3:对异常网页的T个属性分别进行属性向量化,得到异常网页的m个属性向量;对正常网页的T个属性分别进行属性向量化,得到正常网页的m个属性向量;其中,异常网页和正常网页的每个属性向量均包含T个属性;
步骤4:对异常网页的所有属性向量分别添加标签1,得到m个异常网页特征向量;同时对正常网页的所有属性向量分别添加标签0,得到m个正常网页特征向量;
步骤5:将m个异常网页特征向量与m个正常网页特征向量合并,组成特征向量集合,该特征向量集合中的每个特征向量均包含属性向量和标签;
步骤6:根据SVM-RFE算法对T个属性进行排序,得到前t(t≤T)个属性作为最优属性,剩余属性为淘汰属性,将特征向量集合中的每个特征向量中包含的淘汰属性去除,得到新的特征向量集合;
步骤7:将步骤6得到的新的特征向量集合分为训练集和测试集,使用朴素贝叶斯计算前t个属性在训练集下的精度,分别为λ1,λ2,...,λt;
步骤8:构建含有特征有效度的SVM模型并进行训练,得到多类型异常网页分类模型,该多类型异常网页分类模型的输出结果为1或0;
其中,含有特征有效度的SVM模型的目标函数为:
式中:其中ai是第i个特征向量对应的拉格朗日乘子,aj是第j个特征向量对应的拉格朗日乘子,i≠j且i,j≤m;
(xi,yi)表示第i个特征向量在超平面内的坐标,xi为第i个特征向量的属性向量,yi为第i个特征向量的标签;
k(xi TP,xj TP)表示核函数;
C表示惩罚因子,为大于0的实数;
P表示特征有效度矩阵,
具体的,步骤2中提取出攻击型恶意网页、诱导型欺诈网页和垃圾网页的共m个URL包括:提取出攻击型恶意网页URLm1个、诱导型欺诈网页URLm2个、垃圾网页的URLm3个,其中,m1+m2+m3=m且m1≈m2≈m3。
本发明还提供一种多类型异常网页检测方法,包括以下步骤:
步骤一、采用上述方法构建多类型异常网页分类模型:
步骤二、将多类型异常网页分类模型持久化到文本Text中;
步骤三、输入待检测网页的URL,按照上述方法得到待检测网页的属性向量;
步骤四、将步骤三得到的待检测网页的属性向量输入到步骤二得到的Text中进行检测,若输出结果为1,则判定为异常网页,若输出结果为0,则判定为正常网页。
本发明取得的技术效果在于:
本发明主要关键点是多类型异常网页特征提取方法和含有特征有效度的SVM分类算法。其中,多类型异常网页特征提取方法是综合了攻击型恶意网页特征提取、诱导型欺诈网页特征提取和垃圾网页特征提取的一种综合特征提取方法,该方法根据异常网页存在的目的及其攻击手段来对异常网页进行分析和特征提取,较少遗漏。同时,本发明将每个特征使用朴素贝叶斯分类在样本上的精确度作为特征有效度引入样本的分类中,得到一种含有特征有效度的支持向量机,能够实现对多种类型的异常网页高效、高精度的检测分类。
附图说明
图1是本发明方法的流程图。
图2是本发明使用朴素贝叶斯求解得到的精度值。
具体实施方式
本申请中,将异常网页按照其攻击目标或攻击手段分类为攻击型恶意网页、诱导型欺诈网页和垃圾网页。其中,将会导致用户的计算机下载恶意程序、性能下降以及计算机操作系统受到损坏甚至直接导致计算机硬件损坏等危害的攻击目标的网页定义为攻击型恶意网页,将通过伪装、诱惑等攻击手段获取用户信任,然后诱导用户输入自己的隐私信息甚至直接转账的恶意网页定义为诱导型欺诈网页,将通过各种方式散布在各大网站的广告页面、评论页面、邮件链接和和短信链接中,毫无营养,或推送广告,或携带病毒,或通过非法途径赚取流量和广告费用的攻击手段的异常网页定义为垃圾网页。
SVM的任务是找到一个超平面,这个超平面在理论上是在正样本和负样本的正中间,也就是使正样本和负样本的距离最大化,所以使用支持向量机的关键就是如何找到最合适的超平面。本发明将每个特征使用朴素贝叶斯分类在样本上的精确度作为特征有效度引入样本的分类中,得到一种含有特征有效度的支持向量机(F-SVM)。
本申请中的属性是指:从网页中提取到的和异常网页相关的特征,属性名称相同指的是相同的特征。
本申请步骤2中,由于一个网页仅对应唯一的一个URL,因此从m个URL中共提取出T个属性,指的是从m个网页的m个URL中一共提取出T个,T个属性名称都不同,m与T无绝对大小关系,对于其中单个网页而言,有可能没有提取出合适的表征异常网页的属性,也有可能从另外单个网页中提取出多个属性,例如,共有三个异常网页,m=3,从其中一个网页中提取出4个属性,另一个网页中提取出1个,另一个中提取出0个,则T=5,最后这三个网页归一化后均使用这T=5个属性表示。
实施例1:
本实施例提供一种多类型异常网页分类模型,按照如下方法构建,包括以下步骤:
步骤1:将异常网页按照异常网页的攻击手段或攻击目标分为攻击型恶意网页、诱导型欺诈网页和垃圾网页;
步骤1.1:将异常网页分类为攻击型恶意网页、诱导型欺诈网页和垃圾网页。其中,将会导致用户的计算机下载恶意程序、性能下降以及计算机操作系统受到损坏甚至直接导致计算机硬件损坏等危害的攻击网页定义为攻击型恶意网页,将通过伪装、诱惑等手段获取用户信任,然后诱导用户输入自己的隐私信息甚至直接转账的恶意网页定义为诱导型欺诈网页,将通过各种方式散布在各大网站的广告页面、评论页面、邮件链接和和短信链接中,毫无营养,或推送广告,或携带病毒,或通过非法途径赚取流量和广告费用的异常网页定义为垃圾网页;
步骤1.2:采集m个异常网页的URL,包含m1个攻击型恶意网页URL、m2个诱导型欺诈网页和m3个垃圾网页URL,m1、m2和m3满足条件m1≈m2≈m3,采集n个正常网页URL,m和n的关系是m≈n;
步骤2:通过攻击型恶意网页、诱导型欺诈网页和垃圾网页的m个URL共提取出T个属性;同时,通过正常网页的n个URL也提取出与异常网页属性对应的T个属性;m、T均为自然数,m、T无大小关系;
步骤2.1:利用静态和动态两种方式从攻击型恶意网页中的动态脚本和URL中提取了脚本攻击特征,从诱导型欺诈网页的标签和URL等元素中提取了伪装网页相关特征,从垃圾网页中提取了非本站域名、图片等垃圾网页的典型特征,根据异常网页具有逃避检查和缩小成本的特点,提取了重定向和隐藏等综合特征;共计提取与恶意网页相关的特征共T个。
步骤2.2:根据步骤1.3的方法提取采集m个异常网页数据集和n个正常网页的T个与异常网页相关的特征。
步骤3:对异常网页的T个属性分别进行属性向量化,得到异常网页的m个属性向量;对正常网页的T个属性分别进行属性向量化,得到正常网页的m个属性向量;其中,异常网页和正常网页的每个属性向量均包含T个属性;
将步骤2.2得到的m+n个数据集的T个属性分别向量化,对数值缺失的属性使用该属性最常出现的值代替,对于属性数值中出现过度分散的数值采取归一化的方法将数值集中在0和1之间,得到m个异常网页的属性向量和n个正常网页的属性向量。
步骤4:对异常网页的所有属性向量分别添加标签1,得到m个异常网页特征向量;同时对正常网页的所有属性向量分别添加标签0,得到m个正常网页特征向量;
步骤5:将m个异常网页特征向量与m个正常网页特征向量合并,组成特征向量集合,该特征向量集合中的每个特征向量均包含属性向量和标签;
将步骤4获得的所有网页特征向量随机打乱合并得到I个特征向量,其中,I=m+n,设网页的属性向量为xi,代表第i个网页的属性向量,设网页的标签为yi,则第i个网页特征向量表示为(xi,yi);
步骤6:根据SVM-RFE算法对T个属性进行排序,得到前t(t≤T)个属性作为最优属性,剩余为淘汰属性,将特征向量集合中的每个特征向量中包含的淘汰属性去除,得到新的特征向量集合;
使用SVM-RFE算法(支持向量机循环递归特征消除)对网页特征进行排序,排名前t(t≤T)个属性为最优属性,计算最优属性在SVM上的精度,剩余作为淘汰属性,根据算法淘汰的属性将步骤5获得的I个特征向量对应的淘汰属性去除,得到新的I个特征向量,其中第i个特征向量记为:Fi=(xi,yi),其中
步骤7:将步骤6得到的新的特征向量集合分为训练集和测试集,使用朴素贝叶斯计算步骤6得到的前t个最优属性在训练集下的精度,分别为λ1,λ2,...,λt;
步骤7.1:将步骤6得到的I个特征向量按照7:3的比例分为训练集F1和测试集F2;
步骤7.2:计算前t个最优属性使用朴素贝叶斯在训练集I下的精度,精度表示分类正确的数量占总体数量的比例。该精度在一定程度上体现了该特征对分类精度的贡献,其精度分别为λ1,λ2,...,λt;
步骤8:构建含有特征有效度的SVM模型并进行训练,得到多类型异常网页分类模型,该多类型异常网页分类模型的输出结果为1或0。
支持向量机致力于寻找正样本和负样本之间的最大间距,对于多数样本都具有良好的性能,但支持向量机隐含的条件是各个维度的特征在样本分类中发挥作用是相同的,这样就忽略了不同特征对分类精度的影响。本发明设计一种含有特征有效度的支持向量机作为分类算法来训练多类型异常网页检测方法,将步骤7.2得到的精度λ1,λ2,...,λt作为特征有效度引入支持向量机中,一般支持向量机的求解公式为:
其中ai和aj是拉格朗日乘子,(xi,yi)表示点在超平面内的坐标,分别为属性向量及标签。由于本文以下获取到的12个URL不是线性可分的,故需要引入核函数将样本映射到高维空间中,设核函数为K(x,y),核函数的定义如式(2)所示:
其中,和/>是将x和y映射到高维空间中的映射函数,将核函数代入得到带有核函数的支持向量机表达式:
计算高维特征十分复杂,可以使用来代替核函数,此时含有核函数支持向量机表示为:
定义特征有效度举证P为:
最终得到目标函数如下所示:
其中ai和aj是拉格朗日乘子,(xi,yi)表示点在超平面内的坐标,k(xi TP,xj TP)表示核函数、P表示特征有效度矩阵,C表示惩罚因子,为大于0的实数,根据适用条件核函数选用径向基核函数。
为了求找到含有特征有效度的SVM的最佳径向基核函数参数γ以及惩罚因子C的组合,本文使用了遗传算法求解算法。在遗传算法的开始,算法随机生成了种群规模为W的初始种群,在种群中的每个个体都存在于基因串类型的数据结构中,其中,W通常在20到100之间,然后种群会经历最大值为W的迭代过程。然后计算种群中每一个个体的适应度,这里将训练集的准确性确定为适合度函数,该适应度代表每个个体的表现。设置进化迭代的最大数量为Z,进化迭代的当前数量为z,在z≤Z时,每迭代一次,z增加1。算法过程中的复制规则是从当前种群中选择最佳适应度的个体传递到下一代种群中,而其他个体通过交叉和变异操作传递到下一代种群中,交叉操作是随机转换种群中所有个体的染色体以生成新的个体,新产生的个体是继承了上一代优良基因的个体。这个过程的最后一步是变异操作,即通过基因突变来产生一个新的变异个体,最终遗传算法的输出就是最优的径向基核函数参数γ以及惩罚因子C的组合。
使用练集F1输入到上述得到的含有特征有效度的SVM进行训练,并使用测试集F2对训练的模型进行测试得到最优的多类型异常网页检测模型。
实施例2:
本实施例提供一种网页异常检测方法,按照以下步骤实施:
步骤一、采用实施例1所述方法构建多类型异常网页分类模型:
步骤二、将多类型异常网页分类模型持久化到文本Text中;
步骤三、输入待检测网页的URL,按照实施例1所述方法得到待检测网页的属性向量;
其中,输入待检测的网页URL作为待测样本,根据步骤1的方法提取异常网页的相关属性特征并得到属性向量x,记为x=(μ1,μ2,...,μt),其中,μi表示待测样本中第i个关于异常网页的属性;
步骤四、将步骤三得到的待检测网页的属性向量输入到步骤二得到的Text中进行检测,若输出结果为1,则判定为异常网页,若输出结果为0,则判定为正常网页。
其中,使用步骤一给出的持久化模型文本Text对x'进行预测分类,若输出结果为1,则判定为异常网页,若输出结果为0,则判定为正常网页。
实施例3:
本实施例提供一种多类型异常网页检测方法,包括在线网页分类模型训练步骤和网页异常检测步骤两个大步骤,具体的说,如图1所示,是按如下步骤进行:
步骤一:多类型异常网页分类模型构建及训练:
步骤1:将会导致用户的计算机下载恶意程序、性能下降以及计算机操作系统受到损坏甚至直接导致计算机硬件损坏等危害的攻击网页分类为攻击型恶意网页,将通过伪装、诱惑等手段获取用户信任,然后诱导用户输入自己的隐私信息甚至直接转账的恶意网页分类为诱导型欺诈网页,将通过各种方式散布在各大网站的广告页面、评论页面、邮件链接和和短信链接中,毫无营养,或推送广告,或携带病毒,或通过非法途径赚取流量和广告费用的异常网页分类为垃圾网页;分别下载获取攻击型恶意网页URL1048条、诱导型欺诈网页1386条、垃圾网页1156条,正常网页数据集3500条。其中恶意网页从malwaredomainlist中下载,欺诈网页使用PhishTank数据集、垃圾网页使用WEBSPAM-UK2007数据集,正常网页数据集使用Alexa综合排名前5000的网页,将搜集到的数据集进行实测访问,留下真实可访问的数据;
步骤2:根据异常网页的攻击目的和手段提取如下属性:利用静态和动态两种方式从攻击型恶意网页中的动态脚本和URL中提取了URL路径中是否含有script、是否使用了危险函数、HTML标签中函数JavaScript的个数、HTML标签中函数URL的个数、JavaScript函数中最长单词的大小、JavaScript中阿拉伯数字个数、网页cookie设置、URL长度和是否自动下载可执行文件共10个与恶意网页相关的属性;从诱导型欺诈网页的标签和URL等元素中提取了主域名包含点的个数、域名中特殊符号的个数、非二级域名位置是否包含著名域名、是IP还是域名、顶级域名是否常见共5个与欺诈网页相关的属性;从垃圾网页中提取了是否包含第三方域名或者ip、多媒体内容的数量共2个垃圾网页的典型特征,根据异常网页具有逃避检查和缩小成本的特点提取了网站是否隐藏、网页是否被重定向、网页是否存在内嵌危险和网页影响力等综合属性。综上,共计获取21个异常网页属性;
根据步骤1.3找出的21个属性,分别求出步骤1.2所得的数据集中这些属性的值;
步骤3:将2.2所获得的所有结果转化成数字形成属性向量,其中是否问题使用0和1来表示,将得到的所有向量中缺失的部分使用该特征最常出现的值代替,将其范围过广的数值归一化;
步骤4:将步骤2.2获得的m个异常网页的属性向量添加标签1,得到的3590个异常网页的特征向量;将步骤2.2获得的n个正常网页的属性向量添加标签0,得到的3500个正常网页的特征向量;m=n。
步骤5:将步骤4获得的所有网页属性随机打乱合并得到7090个特征向量,若某个网页特征向量表示为(μ1,μ2,...,μ21,y),其中μi(i≤21)表示第i个属性的值,例如,通过重定向计算出网页的状态码返回为301,则赋值μ19=1,这个网页是异常网页,则y=1;
步骤6:使用SVM-RFE算法对T=21个特征排序,画出属性数量和精确度的关系如图2所示。因此,挑选前t=12个作为异常网页的属性集合比较合适,故作为最优属性。将被淘汰的后9个作为淘汰属性,从特征向量在步骤5所获得的的7090个特征向量中删除。
步骤7:将步骤6得到的I个特征向量按照7:3的比例分为训练集F1和测试集F2;计算12个最优属性使用朴素贝叶斯在训练集I下的准确度,该准确度在一定程度上体现了该特征对分类精度的贡献,其精度分别为λ1,λ2,...,λ12,如下表1所示;
步骤8:构建含有特征有效度的SVM模型并进行训练,训练时的输入是训练集和不同的测试集,输出是使得测试集整体最优的SVM模型。得到多类型异常网页分类模型,该多类型异常网页分类模型的输出结果为1或0;
支持向量机致力于寻找正样本和负样本之间的最大间距,对于多数样本都具有良好的性能,但支持向量机隐含的条件是各个维度的特征在样本分类中发挥作用是相同的,这样就忽略了不同特征对分类精度的影响。本发明设计一种含有特征有效度的支持向量机作为分类算法来训练多类型异常网页检测方法,将步骤1.11得到的精度λ1,λ2,...,λ12作为特征有效度引入支持向量机中,定义特征有效度矩阵P为:
最终得到目标函数如下所示:
其中ai和aj是拉格朗日乘子;(xi,yi)表示点在超平面内的坐标;k(xi TP,xj TP)表示核函数;
C表示惩罚因子;P表示特征有效度矩阵,
为了求找到含有特征有效度的SVM的最佳径向基核函数参数γ以及惩罚因子C的组合,本文使用了遗传算法求解算法。在遗传算法的开始,算法随机生成了种群规模为N=30的初始种群,在种群中的每个个体都存在于基因串类型的数据结构中,然后种群会经历最大值为30的迭代过程。然后计算种群中每一个个体的适应度,这里将训练集的准确性确定为适合度函数,该适应度代表每个个体的表现。设置进化迭代的最大数量为50,进化迭代的当前数量为t,在t≤50时,每迭代一次,t增加1。算法过程中的复制规则是从当前种群中选择最佳适应度的个体传递到下一代种群中,而其他个体通过交叉和变异操作传递到下一代种群中,交叉操作是随机转换种群中所有个体的染色体以生成新的个体,新产生的个体是继承了上一代优良基因的个体。这个过程的最后一步是变异操作,即通过基因突变来产生一个新的变异个体,最终遗传算法的输出就是最优的径向基核函数参数以及惩罚因子的组合。最终输出γ=0.1,C=50。
使用训练集F1输入到上述步骤中的含有特征有效度的SVM进行训练,并使用测试集F2对训练的模型进行测试得到最优的多类型异常网页检测模型,并将其持久化到文本Text。
步骤二:网页异常检测:
输入http://www.nuptialimages.com/作为待测样本,根据步骤一的方法提取异常网页的相关属性特征并得到属性向量x,得到属性向量为x=(1,3,1,1,0,1,0.64,0.11,1,2,0,0),代表12个属性的值;将得到的属性向量x输入到作为预测函数的输入,得到输出结果为1,表明该URL所表示的网址被预测为异常网页。
评价指标
TP表示True Positive,即将样本标签为异常网页的样本预测成为样本标签为异常网页的样例数;Fn表示False Negative,即将样本标签为异常网页的样本预测为样本标签为正常网页的样例数;FP表示False Positive,即将样本标签为正常网页的样本预测成为样本标签为异常网页的样例数;TN表示True Negative,即将样本标签为正常网页的样本预测成为样本标签为正常网页的样例数;由基本的混淆矩阵得到如下的4个评价指标。
表1对比实现结果
算法 | ACC(%) | TPR(%) | REC(%) | FPR(%) |
朴素贝叶斯 | 88.4 | 86.1 | 87.0 | 10.6 |
SVM | 89.5 | 88.0 | 87.5 | 10.1 |
F-SVM | 91.2 | 90.5 | 89.3 | 8.8 |
从表1可以看出在上述的数据集中,本发明的多类型异常网页检测方法获得的很好的分类精度,继而体现出本发明的有效性。在互联网信息日益庞大的今天,互联网安全日益重要,准确高效的检测出异常网页数据是Web安全领域的重要研究问题。基于此,本发明能快速有效从海量、多类型网页数据中检测出异常网页,提高网络安全和互联网用户体验。
Claims (2)
1.一种多类型异常网页分类模型的构建方法,其特征在于,包括以下步骤:
步骤1:将异常网页按照异常网页的攻击手段或攻击目标分为攻击型恶意网页、诱导型欺诈网页和垃圾网页;
步骤2:分别从m1个攻击型恶意网页中提取出m1个URL、从m2个诱导型欺诈网页中提取出m2个URL个、从m3个垃圾网页中提取出m3个URL,其中,m1+m2+m3=m且m1≈m2≈m3,从m个URL中共提取出T个属性;同时,提取正常网页的m个URL,从正常网页的m个URL中也提取出与异常网页属性名称相同的T个属性;m、T均为自然数;一个网页对应一个唯一的URL;
步骤3:对异常网页的T个属性分别进行属性向量化后使得每个异常网页都用一个属性向量表示,因此得到异常网页的m个属性向量;对正常网页的T个属性分别进行属性向量化,得到正常网页的m个属性向量;其中,异常网页和正常网页的每个属性向量均包含T个属性;
步骤4:对异常网页的所有属性向量分别添加标签1,得到m个异常网页特征向量;同时对正常网页的所有属性向量分别添加标签0,得到m个正常网页特征向量;
步骤5:将m个异常网页特征向量与m个正常网页特征向量合并,组成特征向量集合,该特征向量集合中的每个特征向量均包含属性向量和标签;
步骤6:根据SVM-RFE算法对T个属性进行排序,得到前t(t≤T)个属性作为最优属性,后T-t个属性作为淘汰属性,将特征向量集合中的每个特征向量中包含的淘汰属性去除,得到新的特征向量集合;
步骤7:使用朴素贝叶斯计算步骤6得到的前t个最优属性在训练集下的精度,分别为λ1,λ2,...,λt;其中,训练集来源于:步骤6得到的新的特征向量集合分为训练集和测试集;
步骤8:构建含有特征有效度的SVM模型并进行训练,以训练集作为输入,得到多类型异常网页分类模型,该多类型异常网页分类模型的输出结果为1或0;
其中,含有特征有效度的SVM模型的目标函数为:
式中:其中ai是训练集中第i个特征向量对应的拉格朗日乘子,aj是训练集中第j个特征向量对应的拉格朗日乘子,i≠j且i,j≤m;xi为训练集中第i个特征向量的属性向量,yi为训练集中第i个特征向量的标签;(xi,yi)表示第i个特征向量在超平面内的坐标;k(xi TP,xj TP)表示核函数,P表示特征有效度矩阵,C表示惩罚因子,为大于0的实数。
2.一种多类型异常网页检测方法,其特征在于,包括以下步骤:
步骤一、采用权利要求1所述方法构建多类型异常网页分类模型:
步骤二、将多类型异常网页分类模型持久化到文本Text中;
步骤三、输入待检测网页的URL,按照权利要求1所述方法得到待检测网页的属性向量;
步骤四、将步骤三得到的待检测网页的属性向量输入到步骤二得到的Text中进行检测,若输出结果为1,则判定为异常网页,若输出结果为0,则判定为正常网页。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010721898.7A CN111967503B (zh) | 2020-07-24 | 2020-07-24 | 多类型异常网页分类模型的构建方法、异常网页检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010721898.7A CN111967503B (zh) | 2020-07-24 | 2020-07-24 | 多类型异常网页分类模型的构建方法、异常网页检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111967503A CN111967503A (zh) | 2020-11-20 |
CN111967503B true CN111967503B (zh) | 2023-10-13 |
Family
ID=73362625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010721898.7A Active CN111967503B (zh) | 2020-07-24 | 2020-07-24 | 多类型异常网页分类模型的构建方法、异常网页检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111967503B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113806660B (zh) * | 2021-09-17 | 2024-04-26 | 北京百度网讯科技有限公司 | 数据评估方法、训练方法、装置、电子设备以及存储介质 |
CN114282130A (zh) * | 2021-12-03 | 2022-04-05 | 重庆邮电大学 | 一种基于选择变异飞蛾火焰优化算法的欺诈网址识别方法 |
CN114218516B (zh) * | 2021-12-27 | 2023-03-10 | 北京百度网讯科技有限公司 | 网页处理方法、装置、电子设备以及存储介质 |
CN115496555B (zh) * | 2022-09-23 | 2023-10-13 | 西窗科技(苏州)有限公司 | 一种智能化跨境电商网站安全质量评估方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106445994A (zh) * | 2016-07-13 | 2017-02-22 | 广州精点计算机科技有限公司 | 一种基于混合算法的网页分类方法和装置 |
WO2017124884A1 (zh) * | 2016-01-22 | 2017-07-27 | 中国互联网络信息中心 | 一种针对新增域名自动检测网络钓鱼的方法与系统 |
CN107943916A (zh) * | 2017-11-20 | 2018-04-20 | 安徽大学 | 一种基于在线分类的网页异常检测方法 |
CN110070141A (zh) * | 2019-04-28 | 2019-07-30 | 上海海事大学 | 一种网络入侵检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8521667B2 (en) * | 2010-12-15 | 2013-08-27 | Microsoft Corporation | Detection and categorization of malicious URLs |
-
2020
- 2020-07-24 CN CN202010721898.7A patent/CN111967503B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017124884A1 (zh) * | 2016-01-22 | 2017-07-27 | 中国互联网络信息中心 | 一种针对新增域名自动检测网络钓鱼的方法与系统 |
CN106445994A (zh) * | 2016-07-13 | 2017-02-22 | 广州精点计算机科技有限公司 | 一种基于混合算法的网页分类方法和装置 |
CN107943916A (zh) * | 2017-11-20 | 2018-04-20 | 安徽大学 | 一种基于在线分类的网页异常检测方法 |
CN110070141A (zh) * | 2019-04-28 | 2019-07-30 | 上海海事大学 | 一种网络入侵检测方法 |
Non-Patent Citations (3)
Title |
---|
冯庆 ; 连一峰 ; 张颖君 ; .基于集成学习的钓鱼网页深度检测系统.计算机系统应用.2016,(第10期),全文. * |
张峰 ; 胡向东 ; 林家富 ; 郭智慧 ; 付俊 ; 刘可 ; .基于SVM的金融类钓鱼网页检测方法.重庆邮电大学学报(自然科学版).2017,(第06期),全文. * |
王正琦 ; 冯晓兵 ; 张驰 ; .基于两层分类器的恶意网页快速检测系统研究.网络与信息安全学报.2017,(第08期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111967503A (zh) | 2020-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111967503B (zh) | 多类型异常网页分类模型的构建方法、异常网页检测方法 | |
Zhu et al. | OFS-NN: an effective phishing websites detection model based on optimal feature selection and neural network | |
Rao et al. | Detection of phishing websites using an efficient feature-based machine learning framework | |
Rao et al. | Jail-Phish: An improved search engine based phishing detection system | |
Wang et al. | PDRCNN: Precise phishing detection with recurrent convolutional neural networks | |
Aljofey et al. | An effective detection approach for phishing websites using URL and HTML features | |
Li et al. | LSTM based phishing detection for big email data | |
Egele et al. | Removing web spam links from search engine results | |
EP3454230B1 (en) | Access classification device, access classification method, and access classification program | |
CN101853277A (zh) | 一种基于分类和关联分析的漏洞数据挖掘方法 | |
Nowroozi et al. | An adversarial attack analysis on malicious advertisement URL detection framework | |
Zhang et al. | Cross-site scripting (XSS) detection integrating evidences in multiple stages | |
Thiyagarajan et al. | Improved real‐time permission based malware detection and clustering approach using model independent pruning | |
Gabryel et al. | Application of the bag-of-words algorithm in classification the quality of sales leads | |
Zhang et al. | A real-time automatic detection of phishing URLs | |
Kasim | Automatic detection of phishing pages with event-based request processing, deep-hybrid feature extraction and light gradient boosted machine model | |
Sahu et al. | Kernel K-means clustering for phishing website and malware categorization | |
Liu et al. | Detecting web spam based on novel features from web page source code | |
Yu et al. | An explainable method of phishing emails generation and its application in machine learning | |
Al-Tamimi et al. | Employing cluster-based class decomposition approach to detect phishing websites using machine learning classifiers | |
Pandey et al. | Text and data mining to detect phishing websites and spam emails | |
Brintha et al. | Exploring Malicious Webpages Using Machine Learning Concept | |
Zulfikar et al. | Comparison performance of decision tree classification model for spam filtering with or without the recursive feature elimination (rfe) approach | |
CN114036514A (zh) | 恶意代码同源分析方法、设备及计算机可读存储介质 | |
Waheed et al. | Lexicon and learn-based sentiment analysis for web spam detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |