CN107943916A - 一种基于在线分类的网页异常检测方法 - Google Patents
一种基于在线分类的网页异常检测方法 Download PDFInfo
- Publication number
- CN107943916A CN107943916A CN201711160063.3A CN201711160063A CN107943916A CN 107943916 A CN107943916 A CN 107943916A CN 201711160063 A CN201711160063 A CN 201711160063A CN 107943916 A CN107943916 A CN 107943916A
- Authority
- CN
- China
- Prior art keywords
- webpage
- mrow
- sample
- msub
- formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 20
- 230000002159 abnormal effect Effects 0.000 claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000013145 classification model Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 43
- 238000005070 sampling Methods 0.000 claims description 13
- 230000005856 abnormality Effects 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000000034 method Methods 0.000 abstract description 17
- 238000007781 pre-processing Methods 0.000 abstract 2
- 238000004422 calculation algorithm Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000009781 safety test method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于在线分类的网页异常检测方法,包括:1:输入网页训练数据;步骤2:对所述的网页训练样本数据进行预处理;步骤3:训练在线网页分类模型;异常网页检测分类包括:步骤4:输入待检测网页样本数据;步骤5:对所述待检测网页样本数据进行预处理;步骤6:通过在线网页分类模型对所待检测网页样本数据进行分类,检测是否为异常网页。本发明能快速有效从海量、不平衡网页数据中检测出异常网页,提高网络安全和互联网用户体验。
Description
技术领域
本发明涉及统计学习分类技术领域,尤其涉及一种基于在线分类的网页异常检测方法。
背景技术
近年来,随着互联网的普及,每天新增的网页以指数级增长,它已经成为人们获取信息的重要手段,随之而来的异常网页也逐渐成为网络信息安全的主要威胁之一。利用在线分类算法的优势,有效进行异常网页检测,尤其是在对新出现的网页样本能够进行及时异常检测和识别,是当前Web安全检测领域研究的主要内容,也是提高用户体验面临的重要问题。
在海量的网页中,异常网页的数量少之又少,因此如何准确识别出这些少量的异常网页显得极为重要。传统网页分类算法,如决策树分类算法和朴素贝叶斯算法,没有考虑到网页样本数据分布不平衡的问题,其性能有较大的局限性。对于此类在众多数据中识别少量信息的案例,机器学习中不平衡数据处理算法能使之得以有效解决。
传统分类学习方法,例如SVM和Adaboost算法,在实际实现中需要将所有训练数据调入内存处理,庞大的数据量和有限的应用环境成为传统分类学习方法的主要制约因素,不能满足互联网时代海量网页数据的需求。
发明内容
本发明为克服现有技术的不足之处,提出一种基于在线分类的网页异常检测方法,以期能在海量、不平衡的网页数据中迅速检测出异常网页,从而提高网络安全和互联网用户体验。
为了达到上述目的,本发明采用的技术方案为:
本发明一种基于在线分类的网页异常检测方法的特点是按如下步骤进行:
步骤一:在线网页分类模型训练:
步骤1.1:采集T个网页的源代码数据作为T个网页样本,并提取T个网页样本中关于异常网页的属性特征,得到T个网页样本的样本数据,其中,第t个网页样本的样本数据,记为(xt,yt),并有:表示第t个网页样本的属性特征,表示第t个网页样本中第i个关于异常网页的属性特征,yt表示第t个网页样本的标签,若yt=1,表示所述第t个网页样本为正常网页,若yt=0,表示所述第t个网页样本为异常网页,i=1,2,…,d,t=1,2,…,T;
步骤1.2:对所述第t个网页样本的属性特征xt进行标准化处理,得到第t个网页样本的特征向量并与所述第t个网页样本的标签yt构成样本空间(x′t,yt),从而得到T个网页样本的样本空间,记为
步骤1.3:定义当前迭代次数为n,最大迭代次数为N;并初始化n=1;
步骤1.4:利用式(1)定义在线网页分类模型第n次迭代的损失函数L(wn):
式(1)中,λ为常量;wn为第n次迭代的模型权值向量;x′n为第n次迭代时输入的第n个网页样本的特征向量;yn表示第n次迭代时输入的第n个网页样本的标签;表示从1到n-1个网页样本中所取出的第k个网页样本的标签yk与第n个网页样本的标签yn不同;|{k∈[n-1]:ykyn=-1}|表示在n-1个网页样本中统计与第n个网页样本的标签yn不同的标签个数;
步骤1.5:利用式(2)得到第n次迭代的梯度gn:
gn=λw+x′n-cn+(x′n-cn)(x′n-cn)Tw+Snw (2)
式(2)中,cn为第n次迭代时第1到n个网页样本中正常或异常网页样本特征向量的均值向量,并有:
式(3)中,x′j表示第n次迭代时第j个正常网页样本或异常网页样本的特征向量;表示第n次迭代时正常网页的样本总数;为第n次迭代时第1到n个网页样本中正常网页样本特征向量的均值向量;表示第n次迭代时异常网页的样本总数;为第n次迭代时第1到n个网页样本中异常网页样本特征向量的均值向量;当n=0时,cn,为d维的零向量;
式(2)中,Sn为第n次迭代时第1到n个网页样本中正常或异常网页样本特征向量的协方差矩阵,并有:
式(4)中,当n=0时,Sn为d×d维零矩阵;
步骤1.6:利用式(5)对第n次迭代的梯度gn进行修正,得到第n次迭代的自适应梯度
式(5)中,γ1,γ2为常量,常取0.1;vn表示第n次迭代的d×d维的二次梯度信息,并由式(6)获得:
式(6)中,当n=0时,vn为d×d维零矩阵;
步骤1.7:利用式(7)得到第n次迭代的权值向量wn:
式(7)中,α为常量;当n=0时,wn为d维零向量;
步骤1.8:令n+1赋值给n,并判断n>N是否成立,若成立,则表示获得最优分类模型wN,并执行步骤二,否则,返回步骤1.5执行;
步骤二:网页异常检测:
步骤2.1:输入待检测的网页源代码数据作为待测样本并提取关于异常网页的属性特征,记为x=(μ1,μ2,…,μi,…,μd),其中,μi表示待测样本中第i个关于异常网页的属性特征;
步骤2.2:对所述待测样本的属性特征x进行标准化处理,得到待测样本的特征向量x′=(μ′1,μ′2,…,μ′i,…,μ′d);
步骤2.3:利用式(8)得到所述待测样本的决策函数值f(x′):
f(x′)=x′(wN)T (8)
步骤2.4:若f(x′)>0,则表示所述待测样本为正常网页,若f(x′)≤0,则表示所述待测样本为异常网页。
与已有技术相比,本发明的有益效果体现在:
1、本发明不同于传统异常网页分类算法,提出一种基于在线分类的网页异常检测方法,通过从网页提取能有效分辨异常网页的属性特征,利用收敛更快速的在线分类方法训练网页分类模型,从而能够在海量、不平衡的网页数据中高效准确检测出异常网页,提高了用户体验。
2、本发明在训练网页异常预测模型参数过程中,采取直接优化AUC(Area UnderCurve)指标来定义损失函数,能够很好的度量不平衡数据处理的整体性能,从而克服了传统分类算法不能有效解决正常网页和异常网页比例极度不平衡问题,使训练出了分类模型优于传统分类模型,从而提高了异常网页检测性能和准确率。
3、本发明在训练样本数据过程中,采用在线训练的方式,每次训练只采用样本集中的一个网页样本数据,通过保存网页样本特征向量的均值和协方差矩阵来计算单个样本梯度信息,有效避免了传统学习面临的数据量和应用环境限制的问题。
4、本发明在梯度更新的过程中使用了自适应梯度更新,该梯度尽可能提取出历史梯度信息,分析历史梯度间的关联,保证了构建出的梯度方向更加科学合理。同时该梯度包含了当前特征的每一维自适应的“相对较好”的步长,避免了手动调试步长的过程,使模型参数训练过程更加迅速,提高了模型训练收敛速度。
附图说明
图1是本发明方法的流程图。
具体实施方式
本实施例中,一种基于在线分类的网页异常检测方法,包括在线网页分类模型训练步骤和网页异常检测步骤,具体的说,如图1所示,是按如下步骤进行:
步骤一:在线网页分类模型训练:
步骤1.1:采集T个网页的源代码数据作为T个网页样本,并利用正则表达式提取T个网页样本中关于异常网页的属性特征,得到T个网页样本的样本数据,常见属性特征如Document.write()出现次数、Exe出现次数、Usescape出现次数、超长字符串、iframe/frame框架等,通过分析异常网页相较于正常网页常表现为上述属性特征的异常;其中,第t个网页样本的样本数据,记为(xt,yt),并有:表示第t个网页样本的属性特征,表示第t个网页样本中第i个关于异常网页的属性特征,yt表示第t个网页样本的标签,若yt=1,表示所述第t个网页样本为正常网页,若yt=0,表示所述第t个网页样本为异常网页,将异常网页检测问题建模为正常网页和异常网页的二分类问题,i=1,2,…,d,t=1,2,…,T;
步骤1.2:对所述第t个网页样本的属性特征xt进行标准化处理,将属性特征转换为分类器处理的数据格式,并对数据做适当的归一化,减小模型训练的计算复杂度,得到第t个网页样本的特征向量并与所述第t个网页样本的标签yt构成样本空间(x′t,yt),从而得到T个网页样本的样本空间,记为
步骤1.3:定义当前迭代次数为n,最大迭代次数为N;并初始化n=1;通过N次迭代,每次迭代从样本空间取一个网页样本进行模型训练,得到最优模型wN;
步骤1.4:利用式(1)定义在线网页分类模型第n次迭代的损失函数L(wn),目标损失函数以AUC为直接优化目标,通过梯度方法得到最优模型wN,以解决海量网页中异常网页很少的不平衡分类问题:
式(1)中,λ为常量;wn为第n次迭代的模型权值向量;xn′为第n次迭代时输入的第n个网页样本的特征向量;yn表示第n次迭代时输入的第n个网页样本的标签;表示从1到n-1个网页样本中所取出的第k个网页样本的标签yk与第n个网页样本的标签yn不同;|{k∈[n-1]:ykyn=-1}|表示在n-1个网页样本中统计与第n个网页样本的标签yn不同的标签个数;
步骤1.5:利用式(2)得到第n次迭代的梯度gn,对式(1)求导得到梯度gn,以梯度下降方法迭代寻找最优分类模型,同时通过保存网页样本特征向量的均值cn和协方差矩阵Sn来计算单个样本梯度信息,达到在线训练的目的。
gn=λw+x′n-cn+(x′n-cn)(x′n-cn)Tw+Snw (2)
式(2)中,cn为第n次迭代时第1到n个网页样本中正常或异常网页样本特征向量的均值向量,并有:
式(3)中,x′j表示第n次迭代时第j个正常网页样本或异常网页样本的特征向量;表示第n次迭代时正常网页的样本总数;为第n次迭代时第1到n个网页样本中正常网页样本特征向量的均值向量;表示第n次迭代时异常网页的样本总数;为第n次迭代时第1到n个网页样本中异常网页样本特征向量的均值向量;当n=0时,cn,为d维的零向量;
式(2)中,Sn为第n次迭代时第1到n个网页样本中正常或异常网页样本特征向量的协方差矩阵,并有:
式(4)中,当n=0时,Sn为d×d维零矩阵;
步骤1.6:利用式(5)对第n次迭代的梯度gn进行修正,得到第n次迭代的自适应梯度该梯度相对于其他优化算法的梯度,在对预测模型wN的优化方面更加突出,从而能够更快的收敛速度得到异常网页检测所需的分类模型wN:
式(5)中,γ1,γ2为常量,常取0.1,vn表示第n次迭代的d×d维的二次梯度信息,并由式(6)获得,通过动量法保存当前梯度平方信息和历史梯度信息vn-1,尽可能提取出历史梯度的相关信息,分析历史梯度间的关联,保证构建出的梯度更加科学合理
式(6)中,β为常量,当n=0时,vn为d×d维零矩阵;
步骤1.7:利用式(7)得到第n次迭代的权值向量wn:
式(7)中,α为常量,当n=0时,wn为d维零向量;
步骤1.8:令n+1赋值给n,并判断n>N是否成立,若成立,则表示获得最优分类模型wN,并执行步骤二,否则,返回步骤1.5执行;
步骤二:网页异常检测,利用步骤一得到的最优异常网页分类模型以及相应的待测网页属性特征进行异常网页检测:
步骤2.1:输入待检测的网页源代码数据作为待测样本并提取关于异常网页的属性特征,如Document.write()出现次数、Exe出现次数、Usescape出现次数、超长字符串、iframe/frame框架等,记为x=(μ1,μ2,…,μi,…,μd),其中,μi表示待测样本中第i个关于异常网页的属性特征;
步骤2.2:对所述待测样本的属性特征x进行标准化处理,得到待测样本的特征向量x′=(μ′1,μ′2,…,μ′i,…,μ′d);
步骤2.3:利用式(8)得到所述待测样本的决策函数值f(x′):
f(x′)=x′(wN)T (8)
步骤2.4:若f(x′)>0,则表示所述待测样本为正常网页,若f(x′)≤0,则表示所述待测样本为异常网页。
通过仿真数据集的例子来说明本发明的具体实施方法和验证本发明方法的效果。
1)、准备标准数据集
本发明使用svmguide3数据集作为标准数据集验证在线分类检测异常网页的有效性,svmguide3集是广泛应用于不平衡分类的基准数据集。在svmguide3数据集中,包含1243条数据即对应采集到的1243个网页样本数据,使用全部样本来验证本发明对于异常网页的性能。对于这1243个训练样本,把他们划分为训练样本和测试样本数据。通过五折交叉验证选取出最佳的模型参数。
2)、评价指标
采用AUC作为本实例的评价指标,用来评测在不平衡等数据上本发明对于异常网页检测的性能。AUC值越高,表示分类效果越好。
3)、在标准数据集上进行实验
为了验证本发明所提方法的有效性,将本发明的在线分类算法(AOAUC)与此前经典的OPAUC算法和SOLAM算法在svmguide3数据集上进行建模和预测,并将三者的预测结果进行比较。实验结果如表1所示。
表1对比实验结果
从表1可以看出在不平衡数据集svmguide3中,本发明的AOAUC分类算法相较于其他两者,获得的更好的分类精度,且时间取得更优的效果,继而体现出本发明的有效性。在互联网信息日益庞大的今天,互联网安全日益重要,准确高效的检测出异常网页数据是Web安全领域的重要研究问题。基于此,本发明能快速有效从海量、不平衡网页数据中检测出异常网页,提高网络安全和互联网用户体验。
Claims (1)
1.一种基于在线分类的网页异常检测方法,其特征是按如下步骤进行:
步骤一:在线网页分类模型训练:
步骤1.1:采集T个网页的源代码数据作为T个网页样本,并提取T个网页样本中关于异常网页的属性特征,得到T个网页样本的样本数据,其中,第t个网页样本的样本数据,记为(xt,yt),并有:表示第t个网页样本的属性特征,表示第t个网页样本中第i个关于异常网页的属性特征,yt表示第t个网页样本的标签,若yt=1,表示所述第t个网页样本为正常网页,若yt=0,表示所述第t个网页样本为异常网页,i=1,2,…,d,t=1,2,…,T;
步骤1.2:对所述第t个网页样本的属性特征xt进行标准化处理,得到第t个网页样本的特征向量并与所述第t个网页样本的标签yt构成样本空间(x′t,yt),从而得到T个网页样本的样本空间,记为
步骤1.3:定义当前迭代次数为n,最大迭代次数为N;并初始化n=1;
步骤1.4:利用式(1)定义在线网页分类模型第n次迭代的损失函数L(wn):
<mrow>
<mi>L</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>w</mi>
<mi>n</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mi>&lambda;</mi>
<mn>2</mn>
</mfrac>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>w</mi>
<mi>n</mi>
</msub>
<mo>|</mo>
<msubsup>
<mo>|</mo>
<mn>2</mn>
<mn>2</mn>
</msubsup>
<mo>+</mo>
<mfrac>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mrow>
<mi>n</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</munderover>
<msub>
<mi>I</mi>
<mrow>
<mo>&lsqb;</mo>
<msub>
<mi>y</mi>
<mi>k</mi>
</msub>
<mo>&NotEqual;</mo>
<msub>
<mi>y</mi>
<mi>n</mi>
</msub>
<mo>&rsqb;</mo>
</mrow>
</msub>
<msup>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<msub>
<mi>y</mi>
<mi>n</mi>
</msub>
<msup>
<mrow>
<mo>(</mo>
<mrow>
<msubsup>
<mi>x</mi>
<mi>n</mi>
<mo>&prime;</mo>
</msubsup>
<mo>-</mo>
<msubsup>
<mi>x</mi>
<mi>k</mi>
<mo>&prime;</mo>
</msubsup>
</mrow>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<msub>
<mi>w</mi>
<mi>n</mi>
</msub>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
</mrow>
<mrow>
<mn>2</mn>
<mrow>
<mo>|</mo>
<mrow>
<mo>{</mo>
<mi>k</mi>
<mo>&Element;</mo>
<mo>&lsqb;</mo>
<mi>n</mi>
<mo>-</mo>
<mn>1</mn>
<mo>&rsqb;</mo>
<mo>:</mo>
<msub>
<mi>y</mi>
<mi>k</mi>
</msub>
<msub>
<mi>y</mi>
<mi>n</mi>
</msub>
<mo>=</mo>
<mo>-</mo>
<mn>1</mn>
<mo>}</mo>
</mrow>
<mo>|</mo>
</mrow>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
式(1)中,λ为常量;wn为第n次迭代的模型权值向量;x′n为第n次迭代时输入的第n个网页样本的特征向量;yn表示第n次迭代时输入的第n个网页样本的标签;表示从1到n-1个网页样本中所取出的第k个网页样本的标签yk与第n个网页样本的标签yn不同;|{k∈[n-1]:ykyn=-1}|表示在n-1个网页样本中统计与第n个网页样本的标签yn不同的标签个数;
步骤1.5:利用式(2)得到第n次迭代的梯度gn:
gn=λw+x′n-cn+(x′n-cn)(x′n-cn)Tw+Snw (2)
式(2)中,cn为第n次迭代时第1到n个网页样本中正常或异常网页样本特征向量的均值向量,并有:
式(3)中,x′j表示第n次迭代时第j个正常网页样本或异常网页样本的特征向量;表示第n次迭代时正常网页的样本总数;为第n次迭代时第1到n个网页样本中正常网页样本特征向量的均值向量;表示第n次迭代时异常网页的样本总数;为第n次迭代时第1到n个网页样本中异常网页样本特征向量的均值向量;当n=0时,cn,为d维的零向量;
式(2)中,Sn为第n次迭代时第1到n个网页样本中正常或异常网页样本特征向量的协方差矩阵,并有:
式(4)中,当n=0时,Sn为d×d维零矩阵;
步骤1.6:利用式(5)对第n次迭代的梯度gn进行修正,得到第n次迭代的自适应梯度
<mrow>
<msub>
<mover>
<mi>g</mi>
<mo>^</mo>
</mover>
<mi>n</mi>
</msub>
<mo>=</mo>
<mfrac>
<msub>
<mi>g</mi>
<mi>n</mi>
</msub>
<mrow>
<msub>
<mi>v</mi>
<mi>n</mi>
</msub>
<mo>+</mo>
<mfrac>
<msub>
<mi>&gamma;</mi>
<mn>2</mn>
</msub>
<mi>n</mi>
</mfrac>
<msup>
<mi>e</mi>
<mrow>
<mo>-</mo>
<msub>
<mi>&gamma;</mi>
<mn>1</mn>
</msub>
<msub>
<mi>nv</mi>
<mrow>
<mi>n</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
</msub>
</mrow>
</msup>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>5</mn>
<mo>)</mo>
</mrow>
</mrow>
式(5)中,γ1,γ2为常量,常取0.1;vn表示第n次迭代的d×d维的二次梯度信息,并由式(6)获得:
<mrow>
<msub>
<mi>v</mi>
<mi>n</mi>
</msub>
<mo>=</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<mfrac>
<mn>1</mn>
<mi>n</mi>
</mfrac>
<mo>)</mo>
</mrow>
<msub>
<mi>v</mi>
<mrow>
<mi>n</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>+</mo>
<mfrac>
<mn>1</mn>
<mi>n</mi>
</mfrac>
<msubsup>
<mi>g</mi>
<mi>n</mi>
<mn>2</mn>
</msubsup>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>6</mn>
<mo>)</mo>
</mrow>
</mrow>
式(6)中,当n=0时,vn为d×d维零矩阵;
步骤1.7:利用式(7)得到第n次迭代的权值向量wn:
<mrow>
<msub>
<mi>w</mi>
<mi>n</mi>
</msub>
<mo>=</mo>
<msub>
<mi>w</mi>
<mrow>
<mi>n</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>-</mo>
<mfrac>
<mi>&alpha;</mi>
<mi>n</mi>
</mfrac>
<msub>
<mover>
<mi>g</mi>
<mo>^</mo>
</mover>
<mi>n</mi>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>7</mn>
<mo>)</mo>
</mrow>
</mrow>
式(7)中,α为常量;当n=0时,wn为d维零向量;
步骤1.8:令n+1赋值给n,并判断n>N是否成立,若成立,则表示获得最优分类模型wN,并执行步骤二,否则,返回步骤1.5执行;
步骤二:网页异常检测:
步骤2.1:输入待检测的网页源代码数据作为待测样本并提取关于异常网页的属性特征,记为x=(μ1,μ2,…,μi,…,μd),其中,μi表示待测样本中第i个关于异常网页的属性特征;
步骤2.2:对所述待测样本的属性特征x进行标准化处理,得到待测样本的特征向量x′=(μ′1,μ′2,…,μ′i,…,μ′d);
步骤2.3:利用式(8)得到所述待测样本的决策函数值f(x′):
f(x′)=x′(wN)T (8)
步骤2.4:若f(x′)>0,则表示所述待测样本为正常网页,若f(x′)≤0,则表示所述待测样本为异常网页。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711160063.3A CN107943916B (zh) | 2017-11-20 | 2017-11-20 | 一种基于在线分类的网页异常检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711160063.3A CN107943916B (zh) | 2017-11-20 | 2017-11-20 | 一种基于在线分类的网页异常检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107943916A true CN107943916A (zh) | 2018-04-20 |
CN107943916B CN107943916B (zh) | 2020-02-14 |
Family
ID=61930398
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711160063.3A Active CN107943916B (zh) | 2017-11-20 | 2017-11-20 | 一种基于在线分类的网页异常检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107943916B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110139315A (zh) * | 2019-04-26 | 2019-08-16 | 东南大学 | 一种基于自我学习的无线网络故障检测方法 |
CN111967503A (zh) * | 2020-07-24 | 2020-11-20 | 西安电子科技大学 | 多类型异常网页分类模型的构建方法、异常网页检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090157578A1 (en) * | 2007-12-13 | 2009-06-18 | Sundararajan Sellamanickam | System and method for generating a classifier model |
CN102509123A (zh) * | 2011-12-01 | 2012-06-20 | 中国科学院自动化研究所 | 一种基于复杂网络的脑功能磁共振图像分类方法 |
CN102855491A (zh) * | 2012-07-26 | 2013-01-02 | 中国科学院自动化研究所 | 一种基于网络中心性的脑功能磁共振图像分类方法 |
CN103020653A (zh) * | 2012-12-07 | 2013-04-03 | 中国科学院自动化研究所 | 基于网络分析的结构和功能磁共振图像联合分类方法 |
CN107103071A (zh) * | 2017-04-21 | 2017-08-29 | 安徽大学 | 一种基于直接优化pauc算法的新闻信息分类方法 |
-
2017
- 2017-11-20 CN CN201711160063.3A patent/CN107943916B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090157578A1 (en) * | 2007-12-13 | 2009-06-18 | Sundararajan Sellamanickam | System and method for generating a classifier model |
CN102509123A (zh) * | 2011-12-01 | 2012-06-20 | 中国科学院自动化研究所 | 一种基于复杂网络的脑功能磁共振图像分类方法 |
CN102855491A (zh) * | 2012-07-26 | 2013-01-02 | 中国科学院自动化研究所 | 一种基于网络中心性的脑功能磁共振图像分类方法 |
CN103020653A (zh) * | 2012-12-07 | 2013-04-03 | 中国科学院自动化研究所 | 基于网络分析的结构和功能磁共振图像联合分类方法 |
CN107103071A (zh) * | 2017-04-21 | 2017-08-29 | 安徽大学 | 一种基于直接优化pauc算法的新闻信息分类方法 |
Non-Patent Citations (5)
Title |
---|
WEI GAO 等: "One-Pass AUC Optimization", 《PROCEEDINGS OF THE 30 TH INTERNATIONAL CONFERENCE ON MACHINE LEARNING》 * |
YI DING 等: "Adaptive Subgradient Methods for Online AUC Maximization", 《ARXIV:1602.00351V1》 * |
YI DING 等: "An Adaptive Gradient Method for Online AUC Maximization", 《PROCEEDINGS OF THE TWENTY-NINTH AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》 * |
李秋洁 等: "基于数据重平衡的AUC优化Boosting算法", 《自动化学报》 * |
汪云云 等: "基于AUC的分类器评价和设计综述", 《模式识别与人工智能》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110139315A (zh) * | 2019-04-26 | 2019-08-16 | 东南大学 | 一种基于自我学习的无线网络故障检测方法 |
CN110139315B (zh) * | 2019-04-26 | 2021-09-28 | 东南大学 | 一种基于自我学习的无线网络故障检测方法 |
CN111967503A (zh) * | 2020-07-24 | 2020-11-20 | 西安电子科技大学 | 多类型异常网页分类模型的构建方法、异常网页检测方法 |
CN111967503B (zh) * | 2020-07-24 | 2023-10-13 | 西安电子科技大学 | 多类型异常网页分类模型的构建方法、异常网页检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107943916B (zh) | 2020-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Megdad et al. | Fraudulent financial transactions detection using machine learning | |
CN103487832B (zh) | 一种三维地震信号中的有监督波形分类方法 | |
CN109214191A (zh) | 一种利用深度学习预测软件安全漏洞的方法 | |
CN106201871A (zh) | 基于代价敏感半监督的软件缺陷预测方法 | |
CN109598124A (zh) | 一种webshell检测方法以及装置 | |
CN108062477A (zh) | 基于侧信道分析的硬件木马检测方法 | |
CN107944274A (zh) | 一种基于宽度学习的Android平台恶意应用离线检测方法 | |
CN109492625A (zh) | 一种基于宽度学习的人脸识别考勤方法 | |
CN110381079A (zh) | 结合gru和svdd进行网络日志异常检测方法 | |
CN110019163A (zh) | 对象特征的预测、推荐的方法、系统、设备和存储介质 | |
CN110084609B (zh) | 一种基于表征学习的交易欺诈行为深度检测方法 | |
CN105893876A (zh) | 芯片硬件木马检测方法和系统 | |
Singh et al. | Melford: Using neural networks to find spreadsheet errors | |
CN106778878A (zh) | 一种人物关系分类方法及装置 | |
CN107545038A (zh) | 一种文本分类方法与设备 | |
CN102324007A (zh) | 基于数据挖掘的异常检测方法 | |
CN114036531A (zh) | 一种基于多尺度代码度量的软件安全漏洞检测方法 | |
CN108564569B (zh) | 一种基于多核分类学习的混凝土裂缝检测方法及装置 | |
CN107943916A (zh) | 一种基于在线分类的网页异常检测方法 | |
Cenikj et al. | Dynamorep: trajectory-based population dynamics for classification of black-box optimization problems | |
CN106095811A (zh) | 一种基于最优编码的监督离散哈希的图像检索方法 | |
Wang et al. | Temperature forecast based on SVM optimized by PSO algorithm | |
CN105718914A (zh) | 一种人脸编码及识别方法 | |
CN108900538A (zh) | 一种工控信号检测方法和装置 | |
CN103150501A (zh) | 一种基于改进否定选择的入侵检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |