CN102938042A - 网页篡改检测方法及装置 - Google Patents

网页篡改检测方法及装置 Download PDF

Info

Publication number
CN102938042A
CN102938042A CN2012104249739A CN201210424973A CN102938042A CN 102938042 A CN102938042 A CN 102938042A CN 2012104249739 A CN2012104249739 A CN 2012104249739A CN 201210424973 A CN201210424973 A CN 201210424973A CN 102938042 A CN102938042 A CN 102938042A
Authority
CN
China
Prior art keywords
training
learning machine
webpage tamper
probability
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012104249739A
Other languages
English (en)
Inventor
张鸿勋
卢梁
柯强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NSFOCUS Information Technology Co Ltd
Beijing NSFocus Information Security Technology Co Ltd
Original Assignee
NSFOCUS Information Technology Co Ltd
Beijing NSFocus Information Security Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NSFOCUS Information Technology Co Ltd, Beijing NSFocus Information Security Technology Co Ltd filed Critical NSFOCUS Information Technology Co Ltd
Priority to CN2012104249739A priority Critical patent/CN102938042A/zh
Publication of CN102938042A publication Critical patent/CN102938042A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种网页篡改检测方法及装置。该方法包括:根据每一种类网页篡改的属性获取每个时间检测点i的网页篡改检测值Vi以构造网页篡改检测算法可读取的训练样本集Strain,以ωf(l)为概率抽取样本集Df对训练样本集Strain进行训练,更新训练样本权重以得到强学习机H;若不满足下列条件1及条件2,则以ωf(n)为概率抽取样本集Df对训练样本集Strain进行迭代训练,重复更新训练样本权重以得到强学习机H;否则,输出强学习机H,利用强学习机完成网页篡改的检测。其中,条件1为网页篡改检测算法达到最大迭代次数k,条件2为样本集Df不再变化。本发明提供的网页篡改检测方法,通过网页篡改检测算法得到的网页篡改检测模型,从而提高网页篡改检测的准确度。

Description

网页篡改检测方法及装置
技术领域
本发明实施例涉及网络安全技术,尤其涉及一种网页篡改检测方法及装置。
背景技术
随着Internet技术的飞速发展,网络安全的重要性及其对社会的影响越来越大,网络安全问题也越来越突出,其中,网页篡改是网络安全中常发生的事件之一。以政府网站为例,网页篡改(尤其是含有政治攻击色彩的篡改)会对政府形象造成严重损害。另外,一些电子政务、电子商务项目在招标中,已明确说明要防止网页篡改。因此,防范网页、主页篡改的问题已逐渐得到各方面的重视。
目前,通过网页篡改检测引擎监检测网页篡改事件,当篡改事件发生时,网页篡改检测引擎实时发出警报。一般来说,网页篡改检测引擎为各种篡改事件分别设置检测流程,当被检测的事件过不了某个检测流程时,即判断该事件为篡改事件;或者,预先给每一检测流程设置加权值,将被检测事件通过每一检测流程分别得到的分数与预先设置的各个加权值相乘后求和得到一个总分数,将这个总分数和设置的阀值做比较,若果超过范围就是篡改,否则,则不是篡改事件。
然而,在实现本发明实施例的过程中,发明人发现,过不了某一个检测流程并不都意味着该事件就为篡改事件,且网页篡改检测引擎中每一检测流程的预设加权值不能动态的变化,而各种网页篡改事件是随机发生的。因此,网页篡改检测引擎的误报率、漏报率参差不齐,有的甚至非常严重,存在检测准确率低的问题。
发明内容
本发明实施例提供一种网页篡改检测方法,通过网页篡改检测算法的网页篡改检测模型,从而提高网页篡改检测的准确度。
第一个方面,本发明实施例提供一种网页篡改检测方法,包括:
步骤1:根据每一种类网页篡改的属性获取每个时间检测点i的网页篡改检测值Vi以构造网页篡改检测算法可读取的训练样本集Strain;
步骤2:利用所述网页篡改检测算法以ωf(l)为概率抽取样本集Df对所述训练样本集Strain进行训练,更新训练样本权重以得到强学习机H,其中,ωf(l)为平均概率分布;
步骤3:若不满足下列条件1及条件2,则以ωf(n)为概率抽取样本集Df对所述训练样本集Strain进行迭代训练,重复更新训练样本权重以得到强学习机H,其中,ωf(n)为正态分布概率;否则,执行步骤4;
条件1:所述网页篡改检测算法达到最大迭代次数k;
条件2:所述样本集Df不再变化;
步骤4:输出强学习机H,利用所述强学习机完成网页篡改的检测。
在第一种可能的实现方式中,上述步骤2包括以下步骤:
步骤2.1:设定所述网页篡改检测算法最大迭代次数k,并设定所述网页篡改检测算法所调用的弱学习算法;
步骤2.2:从所述训练样本集Strain中以ωf(l)为概率抽取所述样本集Df,并由弱学习算法训练,得到弱学习机hf,其中,所述概率ωf(l)为平均分布概率,且 ω f ( l ) = ω f ( i ) Σ i ω f ( i ) ;
步骤2.3:根据所述概率ωf(l)计算所述弱学习机hf的训练误差εf
步骤2.4:根据所述训练误差,计算所述弱学习机hf的权重αf
步骤2.5:根据所述弱学习机hf的权重αf,计算得到更新训练样本的权重。
在第二种可能的实现方式中,上述步骤3中以ωf(n)为概率抽取所述样本集Df对所述训练样本集Strain进行迭代训练,重复更新训练样本权重以得到强学习机H,具体包括以下步骤:
步骤3.1:从所述训练样本集Strain中以ωf(n)为概率抽取所述样本集Df,并由弱学习算法训练,得到弱学习机hf,所述概率ωf(n)为正态分布概率,
ω f ( n ) = 1 2 πσ 2 e - ( x - μ ) 2 2 σ 2 , 其中,σ=1,μ=0;
步骤3.2:根据所述概率ωf(n)计算所述弱学习机hf的训练误差εf
步骤3.3:根据所述训练误差,计算所述弱学习机hf的权重αf
步骤3.4:根据所述弱学习机hf的权重αf,计算得到更新训练样本的权重,更新后的训练样本的权重为:
Figure BDA00002331836600032
结合第一种可能的实现方式,在第三种可能的实现方式中,
所述训练误差εf的计算公式为:
式中,εf为训练误差,f∈[1,...,k];
ωf(l)为平均分布抽取概率;
所述权重α的计算公式为:
α f = 1 2 1 n [ 1 - ϵ f ϵ f ] ;
式中,αf为弱学习机hf的权重。
结合第二种可能的实现方式,在第四种可能的实现方式中,
所述训练误差εf的计算公式为
Figure BDA00002331836600035
式中,εf为训练误差,f∈[1,...,k];
ωf(n)为正态分布抽取概率;
所述权重α的计算公式为:
α f = ( 1 2 1 n [ 1 - ϵ f ϵ f ] ) 2 ;
式中,αf为弱学习机hf的权重。
结合第一种至第四种任一种可能的实现方式,在第五种可能的实现方式中,所述强学习机H的计算公式为:
H = sign [ Σ l = 1 k α l h l ( x ) ] ;
式中,H为强学习机;
sign为符号函数;
αl为弱学习机hf的权重。
结合第一种至第四种任一种可能的实现方式,在第六种可能的实现方式中,所述步骤1包括以下步骤:
步骤1.1:分析每一种类网页篡改的属性x1,x2,L,Xn,进而构造层次化的网页篡改判断指标体系T;
步骤1.2:统计所述每一种网页篡改的检测结果Ri,按照时间检测点i的顺序,依次输入到所述网页篡改判断指标体系T中,得到每一所述时间检测点i的网页篡改检测值Vi。
步骤1.3:根据所述每一时间检测点i的所述网页篡改检测值Vi,构造所述网页篡改检测算法可读取的训练样本集Strain。
第二个方面,本发明实施例提供一种网页篡改检测装置,包括:
构造模块,用于根据每一种类网页篡改的属性获取每个时间检测点i的网页篡改检测值Vi以构造网页篡改检测算法可读取的训练样本集Strain;
第一训练模块,用于利用所述网页篡改检测算法以ωf(l)为概率抽取样本集Df对所述训练样本集Strain进行训练,更新训练样本权重以得到强学习机H,其中,ωf(l)为平均概率分布;
第二训练模块,用于若不满足下列条件1及条件2,则以ωf(n)为概率抽取样本集Df对所述训练样本集Strain进行迭代训练,重复更新训练样本权重以得到强学习机H,其中,ωf(n)为正态分布概率,否则,输出强学习机;
条件1:所述网页篡改检测算法达到最大迭代次数k;
条件2:所述样本集Df不再变化;
检测模块,用于输出强学习机H,利用所述强学习机完成网页篡改的检测。
在第二个方面的第一种可能的实现方式中,所述第一训练模块,具体用于设定所述网页篡改检测算法最大迭代次数k,并设定所述网页篡改检测算法所调用的弱学习算法;
从所述训练样本集Strain中以ωf(l)为概率抽取所述样本集Df,并由弱学习算法训练,得到弱学习机hf,其中,所述概率ωf(l)为平均分布概率,且
ω f ( l ) = ω f ( i ) Σ i ω f ( i ) ;
根据所述概率ωf(l)计算所述弱学习机hf的训练误差εf
根据所述训练误差,计算所述弱学习机hf的权重αf
根据所述弱学习机hf的权重αf,计算得到更新训练样本的权重。
在第二个方面的第二种可能的实现方式中,所述第二训练模块,具体用于从所述训练样本集Strain中以ωf(n)为概率抽取所述样本集Df,并由弱学习算法训练,得到弱学习机hf,所述概率ωf(n)为正态分布概率,
ω f ( n ) = 1 2 πσ 2 e - ( x - μ ) 2 2 σ 2 , 其中,σ=1,μ=0;
根据所述概率ωf(n)计算所述弱学习机hf的训练误差εf
根据所述训练误差,计算所述弱学习机hf的权重αf
根据所述弱学习机hf的权重αf,计算得到更新训练样本的权重,更新后的训练样本的权重为:
Figure BDA00002331836600052
结合第二个方面及第二个方面的第一种可能的实现方式及第二种可能的实现方式,在第三种可能的实现方式中,所述构造模块,具体用于分析每一种类网页篡改的属性x1,x2,L,Xn,进而构造层次化的网页篡改判断指标体系T;
统计所述每一种网页篡改的检测结果Ri,按照时间检测点i的顺序,依次输入到所述网页篡改判断指标体系T中,得到每一所述时间检测点i的网页篡改检测值Vi。
根据所述每一时间检测点i的所述网页篡改检测值Vi,构造所述网页篡改检测算法可读取的训练样本集Strain。
本发明提供的网页篡改检测方法及装置,通过网页篡改检测算法的迭代训练,将每一弱学习机反复训练成强学习机,训练样本的权重也不断的动态变化,形成基于网页篡改检测算法的网页篡改检测模型,从而实现对网页篡改事件的检测。本发明提供的网页篡改检测方法,在篡改网页事件检测的精度上相对于传统网页篡改检测引擎的检测方法,有较高的检测精度和检测速度,提高了网页篡改检测系统的实用性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明网页篡改检测方法实施例的流程图;
图2是本发明网页篡改检测算法训练弱学习机的过程示意图;
图3是本发明网页篡改检测装置实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明网页篡改检测方法实施例的流程图,如图所示,本实施例的方法可以包括如下步骤:
步骤1:根据每一种类网页篡改的属性获取每个时间检测点i的网页篡改检测值Vi以构造网页篡改检测算法可读取的训练样本集Strain。
网页篡改检测是对网页篡改事件的的检测,网页篡改检测系统可以通过收集网络及计算机系统内所有关键节点的信息,检测网页或是系统中是否存在非法篡改的迹象,分析各种网络安全设备(如防火墙、IDS、IPS等)的日志,从而得到这些设备实时记录的每个检测时间点各种网页篡改事件对网络安全的威胁程度。因此,可以根据每一种类网页篡改的属性获取每个时间监测点i的网页篡改检测值Vi以构造网页篡改检测算法可读取的训练样本集Strain。具体的,该构造训练样本集Strain的过程可以包括:
步骤1.1:分析每一种类网页篡改的属性x1,x2,L,Xn,进而构造层次化的网页篡改判断指标体系T。
一般来说,可以采用灰色聚类分析(Grey Cluster Analysis,以下简称GCA)方法构造整体指标的白化函数,根据白话函数确定灰色聚类系数,根据灰色聚类系数确定灰色聚类归属进而分析出每一种网页篡改的属性x1,x2,L,Xn。另外,也可以通过核主成分分析算法分析每一种类网页篡改的属性x1,x2,L,Xn。根据分析出的每一种类网页篡改的属性构造层次化的网页篡改判断指标体系T。
步骤1.2:统计所述每一种网页篡改的检测结果Ri,按照时间检测点i的顺序,依次输入到所述网页篡改判断指标体系T中,得到每一所述时间检测点i的网页篡改检测值Vi。
统计各个时间检测点i的网页篡改的检测结果Ri,将Ri与网页篡改判断指标体系T的权重矩阵ω做乘法,ω=[ω12,L,ωn]T是n×1矩阵,从而得到每一种类的网页篡改检测值Vi。
步骤1.3:根据每一时间检测点i的网页篡改检测值Vi,构造网页篡改检测算法可读取的训练样本集Strain。
根据上述步骤1.2中得出的每一类的网页篡改检测值Vi,使用滑动窗口的方法将各个离散时间检测点i的网页篡改检测值Vi构造成网页篡改检测算法可读的训练样本集Strain。
步骤2:利用网页篡改检测算法以ωf(l)为概率抽取样本集Df对训练样本集Strain进行迭代训练,更新训练样本权重以得到强学习机H。
步骤3:重复训练样本权重以得到强学习机。
判断步骤2中更新训练样本权重的结果是否满足条件1:网页篡改检测算法达到最大迭代次数k;条件2:样本集Df不再变化;若不满足上述条件1及条件2,则以ωf(n)为概率抽取样本集Df对训练样本集Strain进行迭代训练,重复更新训练样本权重以得到强学习机H,否则,执行步骤4。
骤4:输出强学习机H,利用强学习机完成网页篡改的检测。
强学习机H的计算公式为:
H = sign [ Σ l = 1 k α l h l ( x ) ] ;
式中,H为强学习机;
sign为符号函数;
αl为弱学习机hf的权重。
该步骤中,利用强学习机对未来的网页篡改的正误进行人工判断,并设定强学机械H的生命周期,生命周期结束则重新根据每一种类网页篡改的属性获取每个时间检测点i的网页篡改检测值Vi以构造网页篡改检测算法可读取的训练样本集Strain
经过上述四个步骤的训练学习之后,形成基于学习网页篡改检测算法的网页篡改检测模型,从而实现对网页篡改检测事件的实时检测。
本发明实施例提供的网页篡改检测算法,利用某个不稳定的弱学习机生成一个弱学习机组合,其中每个弱学习机均作为基分类器存在,每个基分类器的训练均依赖于之前基分类器的分类结果,即将之前的基分类器的误差用于调整当前基分类器的样本概率分布,强学习机通过单个基分类器的加权组合而成,可以明显提高不稳定学习机的准确率,对于单学习机性能的提升明显。由于网页篡改检测算法每一训练都可以得到一个基分类器,而每个基分类器都是在上一次基分类器的计算结果上改进。因此,从迭代训练角度来看,网页篡改检测算法的训练就是一个不断优化的过程,即分类器从不稳定到稳定的过程。经研究发现,网页篡改检测算法只需要调整最大训练次数k一个参数,并且网页篡改检测算法不会导致过学习现象出现。
上述实施例中,先以平均分布概率ωf(l)抽取样本集Df,不满足条件的时候以正态分布概率ωf(n)抽取样本集Df继续进行迭代训练,将每一个弱学习机反复训练成强的学习机,训练过程中每一弱学习机的权重也不断的动态变化。
图2是本发明网页篡改检测算法训练弱学习机的过程示意图,本发明实施例中,步骤2及步骤3的详细过程均可参照该过程。
具体的,步骤2包括以下步骤:
步骤2.1:设定网页篡改检测算法最大迭代次数k,并设定网页篡改检测算法所调用的弱学习算法。
网页篡改检测算法所调用的弱学习算法,例如可以是核心向量回归机(Core vector regression machine,以下简称CVR)。
步骤2.2:从训练样本集Strain中以ωf(l)为概率抽取样本集Df,并由弱学习算法训练,得到弱学习机hf,其中,所述概率ωf(l)为平均分布概率,且 ω f ( l ) = ω f ( i ) Σ i ω f ( i ) .
本步骤中,以ωf(l)为概率从原始的训练样本集Strain中抽取样本集Df,并由弱学习算法训练,得到弱学习机hff∈[1,...,k];
步骤2.3:计算弱学习机hf的训练误差εf
ϵ f = Σ l = 1 q ω f ( l ) ;
式中,εf为训练误差,f∈[1,...,k],ωf(l)为平均分布概率,q为训练样本集中样本的总个数。
步骤2.4:计算弱学习机hf的权重αf
α f = 1 2 1 n [ 1 - ϵ f ϵ f ] ;
式中,αf为弱学习机hf的权重。
步骤2.5:更新训练样本的权重。
ω f + 1 = ω f ( l ) e - α f V i h g ( x l ) M f ;
式中,ωf+1为更新训练样本的权重,ωf(l)为训练样本的权重,h g (x l )为弱学习机根据输入量xl得到的计算值;
Vi是网页篡改检测值;
Mf是归一化系数,须保证
Figure BDA00002331836600093
步骤2.5中,若满足上述两个条件之一,则执行步骤4;否则,则以ωf(n)为概率抽取样本集Df对训练样本集Strain进行迭代训练,重复更新训练样本权重以得到强学习机H。
具体的,以ωf(n)为概率抽取样本集Df对训练样本集Strain进行迭代训练,重复更新训练样本权重以得到强学习机H,具体包括以下步骤:
步骤3.1:从训练样本集Strain中以ωf(n)为概率抽取样本集Df,并由弱学习算法训练,得到弱学习机hf,所述概率ωf(n)为正态分布概率,
ω f ( n ) = 1 2 πσ 2 e - ( x - μ ) 2 2 σ 2 , 其中,σ=1,μ=0。
步骤3.2:计算弱学习机hf的训练误差εf
ϵ f = Σ l = 1 q ω f ( n ) ;
式中,εf为训练误差,f∈[1,...,k],ωf(n)为正态分布概率,q为训练样本集中样本的总个数。
步骤3.3:计算弱学习机hf的权重αf
α f = ( 1 2 1 n [ 1 - ϵ f ϵ f ] ) 2 ;
式中,αf为弱学习机hf的权重。
步骤3.4:更新训练样本的权重,更新后的训练样本的权重为:
ω f + 1 ( i ) = ω f ( i ) × e - αf .
需要说明的是,步骤3.1~步骤3.4仅代表循环过程中的一个具体的流程,在实际的训练过程中,若网页篡改检测算法未达到最大迭代次数k且样本集Df还处于变化的状态,则需重复执行步骤3.1~3.4,即以ωf(n)为概率抽取样本集Df对训练样本集Strain进行迭代训练,重复更新训练样本权重以得到强学习机H。
图3是本发明网页篡改检测装置实施例的结构示意图。如图3所示,本实施例的装置可以包括:构造模块10、第一训练模块11、第二训练模块12以及检测模块13。
构造模块10,用于根据每一种类网页篡改的属性获取每个时间检测点i的网页篡改检测值Vi以构造网页篡改检测算法可读取的训练样本集Strain;
第一训练模块11,用于利用网页篡改检测算法以ωf(l)为概率抽取样本集Df对训练样本集Strain进行迭代训练,更新训练样本权重以得到强学习机H,其中,ωf(l)为平均概率分布;
第二训练模块12,用于若不满足下列条件1及条件2,则以ωf(n)为概率抽取样本集Df对训练样本集Strain进行迭代训练,重复更新训练样本权重以得到强学习机H,其中,ωf(n)为正态分布概率,否则,输出强学习机;
条件1:网页篡改检测算法达到最大迭代次数k;
条件2:样本集Df不再变化;
检测模块13,用于输出强学习机H,利用强学习机完成网页篡改的检测。
本实施例的装置,可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
进一步的,上述实施例中,第一训练模块11,具体用于设定网页篡改检测算法最大迭代次数k,并设定网页篡改检测算法所调用的弱学习算法;
从训练样本集Strain中以ωf(l)为概率抽取样本集Df,并由弱学习算法训练,得到弱学习机hf,其中,概率ωf(l)为平均分布概率,且
Figure BDA00002331836600101
根据概率ωf(l)计算弱学习机hf的训练误差εf
根据训练误差,计算弱学习机hf的权重αf
根据弱学习机hf的权重αf,计算得到更新训练样本的权重。
进一步的,上述实施例中,第二训练模块12,具体用于从训练样本集Strain中以ωf(n)为概率抽取样本集Df,并由弱学习算法训练,得到弱学习机hf,概率ωf(n)为正态分布概率,
Figure BDA00002331836600102
其中,σ=1,μ=0;
根据概率ωf(n)计算弱学习机hf的训练误差εf
根据训练误差,计算弱学习机hf的权重αf
根据弱学习机hf的权重αf,计算得到更新训练样本的权重,更新后的训练样本的权重为: ω f + 1 ( i ) = ω f ( i ) × e - αf .
进一步的,上述实施例中,构造模块10,具体用于分析每一种类网页篡改的属性x1,x2,L,Xn,进而构造层次化的网页篡改判断指标体系T;
统计每一种网页篡改的检测结果Ri,按照时间检测点i的顺序,依次输入到网页篡改判断指标体系T中,得到每一时间检测点i的网页篡改检测值Vi。
根据每一时间检测点i的网页篡改检测值Vi,构造网页篡改检测算法可读取的训练样本集Strain。
本发明提供的网页篡改检测方法及装置,通过网页篡改检测算法的迭代训练,将每一弱学习机反复训练成强学习机,训练样本的权重也不断的动态变化,形成基于网页篡改检测算法的网页篡改检测模型,从而实现对网页篡改事件的检测。本发明在篡改网页事件检测的精度上相对于传统网页篡改检测引擎的检测方法,有较高的检测精度和检测速度,提高了网页篡改检测系统的实用性。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (11)

1.一种网页篡改检测方法,其特征在于,包括:
步骤1:根据每一种类网页篡改的属性获取每个时间检测点i的网页篡改检测值Vi以构造网页篡改检测算法可读取的训练样本集Strain;
步骤2:利用所述网页篡改检测算法以ωf(l)为概率抽取样本集Df对所述训练样本集Strain进行训练,更新训练样本权重以得到强学习机H,其中,ωf(l)为平均概率分布;
步骤3:若不满足下列条件1及条件2,则以ωf(n)为概率抽取样本集Df对所述训练样本集Strain进行迭代训练,重复更新训练样本权重以得到强学习机H,其中,ωf(n)为正态分布概率;否则,执行步骤4;
条件1:所述网页篡改检测算法达到最大迭代次数k;
条件2:所述样本集Df不再变化;
步骤4:输出强学习机H,利用所述强学习机H完成网页篡改的检测。
2.根据权利要求1所述的方法,其特征在于,所述步骤2包括以下步骤:
步骤2.1:设定所述网页篡改检测算法最大迭代次数k,并设定所述网页篡改检测算法所调用的弱学习算法;
步骤2.2:从所述训练样本集Strain中以ωf(l)为概率抽取所述样本集Df,并由弱学习算法训练,得到弱学习机hf,其中,所述概率ωf(l)为平均分布概率,且 ω f ( l ) = ω f ( i ) Σ i ω f ( i ) ;
步骤2.3:根据所述概率ωf(l)计算所述弱学习机hf的训练误差εf
步骤2.4:根据所述训练误差,计算所述弱学习机hf的权重αf
步骤2.5:根据所述弱学习机hf的权重αf,计算得到更新训练样本的权重。
3.根据权利要求1所述的方法,其特征在于,所述步骤3中以ωf(n)为概率抽取所述样本集Df对所述训练样本集Strain进行迭代训练,重复更新训练样本权重以得到强学习机H,具体包括以下步骤:
步骤3.1:从所述训练样本集Strain中以ωf(n)为概率抽取所述样本集Df,并由弱学习算法训练,得到弱学习机hf,所述概率ωf(n)为正态分布概率,
ω f ( n ) = 1 2 πσ 2 e - ( x - μ ) 2 2 σ 2 , 其中,σ=1,μ=0;
步骤3.2:根据所述概率ωf(n)计算所述弱学习机hf的训练误差εf
步骤3.3:根据所述训练误差,计算所述弱学习机hf的权重αf
步骤3.4:根据所述弱学习机hf的权重αf,计算得到更新训练样本的权重,更新后的训练样本的权重为:
Figure FDA00002331836500022
4.根据权利要求2所述的方法,其特征在于,
所述训练误差εf的计算公式为:
Figure FDA00002331836500023
式中,εf为训练误差,f∈[1,...,k];
ωf(l)为平均分布抽取概率;
所述权重α的计算公式为:
α f = 1 2 1 n [ 1 - ϵ f ϵ f ] ;
式中,αf为弱学习机hf的权重。
5.根据权利要求3所述的方法,其特征在于,
所述训练误差εf的计算公式为
Figure FDA00002331836500025
式中,εf为训练误差,f∈[1,...,k];
ωf(n)为正态分布抽取概率;
所述权重α的计算公式为:
α f = ( 1 2 1 n [ 1 - ϵ f ϵ f ] ) 2 ;
式中,αf为弱学习机hf的权重。
6.根据权利要求1~5任一所述的方法,其特在于,所述强学习机H的计算公式为:
H = sign [ Σ l = 1 k α l h l ( x ) ] ;
式中,H为强学习机;
sign为符号函数;
αl为弱学习机hf的权重。
7.根据权利要求1~5任一所述的方法,其特征在于,所述步骤1包括以下步骤:
步骤1.1:分析每一种类网页篡改的属性x1,x2,L,Xn,进而构造层次化的网页篡改判断指标体系T;
步骤1.2:统计所述每一种网页篡改的检测结果Ri,按照时间检测点i的顺序,依次输入到所述网页篡改判断指标体系T中,得到每一所述时间检测点i的网页篡改检测值Vi。
步骤1.3:根据所述每一时间检测点i的所述网页篡改检测值Vi,构造所述网页篡改检测算法可读取的训练样本集Strain。
8.一种网页篡改检测装置,其特征在于,包括:
构造模块,用于根据每一种类网页篡改的属性获取每个时间检测点i的网页篡改检测值Vi以构造网页篡改检测算法可读取的训练样本集Strain;
第一训练模块,用于利用所述网页篡改检测算法以ωf(l)为概率抽取样本集Df对所述训练样本集Strain进行训练,更新训练样本权重以得到强学习机H,其中,ωf(l)为平均概率分布;
第二训练模块,用于若不满足下列条件1及条件2,则以ωf(n)为概率抽取样本集Df对所述训练样本集Strain进行迭代训练,重复更新训练样本权重以得到强学习机H,其中,ωf(n)为正态分布概率,否则,输出强学习机H;
条件1:所述网页篡改检测算法达到最大迭代次数k;
条件2:所述样本集Df不再变化;
检测模块,用于输出强学习机H,利用所述强学习机H完成网页篡改的检测。
9.根据权利要求8所述的装置,其特征在于,
所述第一训练模块,具体用于设定所述网页篡改检测算法最大迭代次数k,并设定所述网页篡改检测算法所调用的弱学习算法;
从所述训练样本集Strain中以ωf(l)为概率抽取所述样本集Df,并由弱学习算法训练,得到弱学习机hf,其中,所述概率ωf(l)为平均分布概率,且
ω f ( l ) = ω f ( i ) Σ i ω f ( i ) ;
根据所述概率ωf(l)计算所述弱学习机hf的训练误差εf
根据所述训练误差,计算所述弱学习机hf的权重αf
根据所述弱学习机hf的权重αf,计算得到更新训练样本的权重。
10.根据权利要求8所述的装置,其特征在于,
所述第二训练模块,具体用于从所述训练样本集Strain中以ωf(n)为概率抽取所述样本集Df,并由弱学习算法训练,得到弱学习机hf,所述概率ωf(n)为正态分布概率,
Figure FDA00002331836500041
其中,σ=1,μ=0;
根据所述概率ωf(n)计算所述弱学习机hf的训练误差εf
根据所述训练误差,计算所述弱学习机hf的权重αf
根据所述弱学习机hf的权重αf,计算得到更新训练样本的权重,更新后的训练样本的权重为: ω f + 1 ( i ) = ω f ( i ) × e - αf .
11.根据权利要求8~10任一所述的装置,其特征在于,所述构造模块,具体用于分析每一种类网页篡改的属性x1,x2,L,Xn,进而构造层次化的网页篡改判断指标体系T;
统计所述每一种网页篡改的检测结果Ri,按照时间检测点i的顺序,依次输入到所述网页篡改判断指标体系T中,得到每一所述时间检测点i的网页篡改检测值Vi。
根据所述每一时间检测点i的所述网页篡改检测值Vi,构造所述网页篡改检测算法可读取的训练样本集Strain。
CN2012104249739A 2012-10-30 2012-10-30 网页篡改检测方法及装置 Pending CN102938042A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012104249739A CN102938042A (zh) 2012-10-30 2012-10-30 网页篡改检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012104249739A CN102938042A (zh) 2012-10-30 2012-10-30 网页篡改检测方法及装置

Publications (1)

Publication Number Publication Date
CN102938042A true CN102938042A (zh) 2013-02-20

Family

ID=47696938

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012104249739A Pending CN102938042A (zh) 2012-10-30 2012-10-30 网页篡改检测方法及装置

Country Status (1)

Country Link
CN (1) CN102938042A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301355A (zh) * 2017-06-20 2017-10-27 深信服科技股份有限公司 一种网页篡改监测方法及装置
CN111079042A (zh) * 2019-12-03 2020-04-28 杭州安恒信息技术股份有限公司 一种基于文本主题的网页暗链检测方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102169533A (zh) * 2011-05-11 2011-08-31 华南理工大学 一种商用网页恶意篡改检测方法
CN102263790A (zh) * 2011-07-18 2011-11-30 华北电力大学 一种基于集成学习的入侵检测方法
US8150979B1 (en) * 2007-06-04 2012-04-03 Google Inc. Supporting multiple landing pages

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8150979B1 (en) * 2007-06-04 2012-04-03 Google Inc. Supporting multiple landing pages
CN102169533A (zh) * 2011-05-11 2011-08-31 华南理工大学 一种商用网页恶意篡改检测方法
CN102263790A (zh) * 2011-07-18 2011-11-30 华北电力大学 一种基于集成学习的入侵检测方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301355A (zh) * 2017-06-20 2017-10-27 深信服科技股份有限公司 一种网页篡改监测方法及装置
CN107301355B (zh) * 2017-06-20 2021-07-02 深信服科技股份有限公司 一种网页篡改监测方法及装置
CN111079042A (zh) * 2019-12-03 2020-04-28 杭州安恒信息技术股份有限公司 一种基于文本主题的网页暗链检测方法和装置
CN111079042B (zh) * 2019-12-03 2023-08-15 杭州安恒信息技术股份有限公司 一种基于文本主题的网页暗链检测方法和装置

Similar Documents

Publication Publication Date Title
CN110674938B (zh) 基于协同多任务训练的对抗攻击防御方法
Wang et al. Prioritizing test inputs for deep neural networks via mutation analysis
CN101582813B (zh) 基于分布式迁移网络学习的入侵检测系统及其方法
CN103870751B (zh) 入侵检测方法及系统
CN102291392B (zh) 一种基于Bagging算法的复合式入侵检测方法
CN101739337B (zh) 一种基于聚类的软件漏洞序列特征的分析方法
CN106170002B (zh) 一种中文仿冒域名检测方法及系统
CN102014031A (zh) 一种网络流量异常检测方法及系统
CN104077396A (zh) 一种钓鱼网站检测方法及装置
CN105072214A (zh) 基于域名特征的c&c域名识别方法
CN103530540A (zh) 基于人机交互行为特征的用户身份属性检测方法
CN104765874A (zh) 用于检测点击作弊的方法及装置
CN103577755A (zh) 一种基于支持向量机的恶意脚本静态检测方法
CN107579821B (zh) 密码字典生成方法及计算机可读存储介质
CN102829967A (zh) 一种基于回归模型系数变化的时域故障识别方法
CN104008420A (zh) 一种基于自动编码机的分布式离群点检测方法及系统
CN105337987A (zh) 一种网络用户身份认证方法及系统
CN104715190B (zh) 一种基于深度学习的程序执行路径的监控方法及系统
CN114707571B (zh) 基于增强隔离森林的信用数据异常检测方法
CN110263539A (zh) 一种基于并行集成学习的安卓恶意应用检测方法及系统
CN105389486A (zh) 一种基于鼠标行为的认证方法
CN110826056A (zh) 一种基于注意力卷积自编码器的推荐系统攻击检测方法
CN109921938A (zh) 一种云计算环境下故障检测方法
CN114036531A (zh) 一种基于多尺度代码度量的软件安全漏洞检测方法
CN109088744A (zh) 电力通信网络异常入侵检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20130220