CN102169533A - 一种商用网页恶意篡改检测方法 - Google Patents

一种商用网页恶意篡改检测方法 Download PDF

Info

Publication number
CN102169533A
CN102169533A CN2011101209985A CN201110120998A CN102169533A CN 102169533 A CN102169533 A CN 102169533A CN 2011101209985 A CN2011101209985 A CN 2011101209985A CN 201110120998 A CN201110120998 A CN 201110120998A CN 102169533 A CN102169533 A CN 102169533A
Authority
CN
China
Prior art keywords
webpage
image
commercial
malice
tampering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011101209985A
Other languages
English (en)
Inventor
郭礼华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN2011101209985A priority Critical patent/CN102169533A/zh
Publication of CN102169533A publication Critical patent/CN102169533A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明提供一种商用网页恶意篡改检测方法,包括篡改学习和篡改检测两部分,篡改学习的步骤为:下载商用网页的图像组成正样本,下载非商用网页图像组成负样本,然后提取并级联图像的颜色直方图和灰度梯度直方图特征,得到总矢量特征,再利用支持向量机分类器对总矢量特征进行训练;篡改检测步骤为:按照与篡改学习相同的步骤,下载商用网页的图像,并提取图像的颜色直方图和灰度梯度直方图特征,利用系统训练已训练的支持向量机分类器进行图像属性的判决,完成网页的有效性判决。本发明能克服传统网页篡改检测只能静态检测的缺点,检测过程区分合理篡改和恶意篡改,完成动态网页监控,此方法框架结构简单,扩展性强。

Description

一种商用网页恶意篡改检测方法
技术领域
本发明涉及模式识别与人工智能技术领域,具体涉及一种商用网页恶意篡改检测方法。
背景技术
二十一世纪是电子商务的世纪,现代的人们已经普遍进行网上购物,网上物品交易等电子商务。很多的商用为了抢占市场,相继建立属于自己的门户网站,在门户网站内,将销售的商品进行图文并茂的介绍,以供消费者进行选购。对于商用而言,其最关心的是电子商务的安全性(如网页信息的安全性);对于网络监管者来说,也希望能够根据商用的销售产品的性质来判断商用门口网站的有效性,以杜绝那些非法者利用商用门户网站进行一些违法交易行为。基于此背景,目前迫切需要一种技术来实现商用网页篡改的检测。以往也有一些防黑客和篡改检测的发明专利,如申请号为CN200620078677.8的专利申请文件介绍了一种基于物理隔绝的计算机防黑客和病毒攻击及窃取数据装置,此专利在计算机内增加一个备份硬盘和单刀单掷开关,实现系统硬盘和备份硬盘的切换,从而达到对计算机防黑客和病毒攻击及窃取数据的目的。申请号为CN200910062858.X的专利申请文件介绍了一种HTML网页篡改检测与定位方法,此发明通过网页嵌入数字水印,判断数字水印的有效性就能判断网页的有效性,这种方法对于网页发生了所有改变都能够有效检测。但是检测效率却不高,不能区分篡改的性质。因为现实中商用网站中的网页数据是动态的,商用会在网站上不停更新新产品,发表新信息,这种修改可以定义为合理的篡改,而对于黑客的恶意攻击,置换相应内容的篡改,则为恶意篡改。
发明内容
本发明的目的在于提供一种商用网页恶意篡改检测方法,利用此方法能提高智能检测网页的有效性。
本发明主要侧重于分析商用网页的恶意篡改,并且不同于以往的篡改检测方法,从模式识别的角度出发,理解商用门户网站中所提供的商品图像信息,以智能的角度分析当前商用中图像所属的范畴,从而判断网页是否篡改过。
本发明采用的技术方案为:首先截取网页中的图像,再提取图像中的颜色直方图和灰度边界梯度特征,然后利用支持向量机分类器训练和识别,最终完成图像属性的判决,也就是完成网页的有效性判决。
本发明具体包括篡改学习和篡改检测两阶段,其中篡改学习阶段的具体步骤为:
(1)训练样本集的收集:分析当前商用网页的网页文件,下载网页文件中后缀为“JPG”、“BMP”、“GIF”、“TIF”和“PNG”的超链接,根据链接下载相应的图像,下载后的图像作为训练正样本;同时,下载一些非当前商用网页的图像作为训练负样本,正负样本组成训练样本集,完成当前商务网站训练集的生成;
(2)训练样本集的特征提取:将所有训练样本图像转换成HSI三个通道,然后分别在H、S和I通道上统计颜色分布的颜色直方图特征,接着将所有训练样本图像转换成灰度图像,用canny算子算出灰度图像的边界和梯度,统计图像上所有边界处的梯度方向并投影到直方图上,此直方图就是图像灰度梯度直方图。最后将颜色直方图特征和图像灰度梯度直方图进行级联组成总特征矢量;
(3)训练样本集的图像特征在支持向量机分类器的训练:将步骤(2)得到的总特征矢量送入二类支持向量机分类器中,得到已训练好的支持向量机分类器,即得到了支持向量机分类器最佳分类面。
其中支持向量机分类器采用核方法,选用径向基核函数。
篡改检测阶段:检测服务器定时更新下载当前商用网页的图像,然后按照篡改学习阶段的特征提取方法,得到当前商用网页上所有图像的颜色直方图特征和灰度梯度直方图特征,将提取到的特征送入已经训练好的支持向量机分类器中,进行当前网页的属性判决,观察支持向量机分类器的识别结果;如果当前网页上的图像属于正样本,则网页安全;否则表明当前网页经过恶意篡改,给出报警信号。
篡改检测的属性检测采用模式识别的方式,并结合支持向量机分类器进行分类识别。
与已有的网页篡改算法相比,本发明具有以下优点:
(1)本发明对网页的检测并不局限于静态的HTML网页,对于动态和静态网页都可以进行篡改检测;
(2)本发明能区分篡改的属性,只针对恶意篡改进行检测和报警;
(3)本发明利用模式识别技术,从图像理解的角度分析网页恶意篡改,这种研究思路还可以扩展到利用文本理解或者多种媒体的综合理解分析网页恶意篡改,系统扩展性好。
附图说明
图1为本发明网页恶意篡改检测方法中的篡改学习流程图;
图2为本发明网页恶意篡改检测方法中的篡改检测流程图。
具体实施方式
下面结合附图对本发明做进一步的说明,实施本发明所用的识别设备采用IBM服务器,各类处理程序采用C语言编写,本发明的检测方法包括篡改学习和篡改检测两部分,流程图分别如图1和图2所示。
篡改学习部分,如图1所示:IBM服务器从当前商用和非商用网站上分析网页上链接信息,截取网页文件中后缀为“JPG”、“BMP”、“GIF”、“TIF”和“PNG”的链接,根据链接下载相应的图像,然后将商用图像组成训练样本的正样本集,非商用网页图像组成训练样本的负样本集,正负样本组成训练样本集。
将训练样本集中的所有图像转换成HSI(Hue,Saturation and Intensity)三个通道,在每个通道上统计直方图分布,并将直方图分布特征进行级联得到样本的颜色直方图特征;然后将图像转换成灰度图像,Canny算子计算灰度图像中的边界,并在边界处计算梯度的方向,统计所有边界处的梯度方向直方图,得到灰度梯度直方图特征;将颜色直方图特征和灰度梯度直方图特征值进行级联就可以得到样本的总特征矢量。
将得到的训练样本集的图像颜色直方图和灰度梯度直方图特征送入二类支持向量机分类器进行训练,得到已训练好的支持向量机分类器,及最佳分类面。
然后进行篡改检测,流程如图2所示:IBM服务器定时从商用网页上下载图像,下载方法和篡改学习阶段中的训练样本集的图像下载方法一样;然后提取当前网页图像的颜色直方图特征和灰度梯度直方图特征,颜色直方图特征和灰度梯度直方图特征的提取方法和篡改学习阶段的颜色直方图特征和灰度梯度直方图特征的提取方法一样。
将商用当前网页图像的颜色直方图特征和灰度梯度直方图特征送入已训练的支持向量机分类器中,利用最佳分界面进行当前网页图像的属性检测,得到商用当前网页图像的分类结果。如果当前图像的判决结果是正样本,表明当前商用网页没有恶意篡改,如果当前网页图像判决结果是负样本,表明当前商用网页已进行恶意篡改,给出篡改报警。

Claims (5)

1.一种商用网页恶意篡改检测方法,其特征在于:包括篡改学习和篡改检测两部分;所述篡改学习的具体步骤为:
(1)训练样本集的收集:根据当前商用网页的链接,下载链接中的商用网页图像,组成训练样本的正样本集;,再下载非当前商用网页的图像,组成训练样本的负样本集,正负样本组成训练样本集;
(2)训练样本集的特征提取:提取训练样本集的图像颜色直方图特征和灰度梯度直方图特征,将所提取的两个特征进行级联得到样本的总特征矢量;
(3)训练样本集的训练:将总特征矢量送入支持向量机分类器进行训练,得到已训练的支持向量机分类器,即得到了支持向量机分类器最佳分类面;
所述篡改检测的具体步骤为:
按照篡改学习的步骤(1)和(2)所述的方法,从当前商用网页下载图像,并提取图像的颜色直方图特征和灰度梯度直方图特征;然后将提取的特征送入已训练的支持向量机分类器中,根据最佳分类面对当前商用网页图像进行属性检测;如果当前图像的属性是正样本,表明当前商用网页没有恶意篡改;如果当前网页图像属性是负样本,表明当前商用网页已进行恶意篡改,给出篡改报警。
2.根据权利要求1所述的一种商用网页恶意篡改检测方法,其特征在于:所述步骤(2)颜色直方图特征在图像的HSI颜色通道上统计完成。
3.根据权利要求2所述的一种商用网页恶意篡改检测方法,其特征在于:所述步骤(2)灰度梯度直方图特征提取过程为:将图像转换成灰度图像,Canny算子计算灰度图像中的边界和梯度,统计图像上所有边界处的梯度方向并投影到直方图上,得到灰度梯度直方图特征。
4.根据权利要求3所述的一种商用网页恶意篡改检测方法,其特征在于:所述篡改检测的属性检测采用模式识别的方式,并结合支持向量机分类器完成属性检测。
5.根据权利要求4所述的一种商用网页恶意篡改检测方法,其特征在于:所述支持向量机分类器为二类支持向量机分类器,并采用径向基核函数。
CN2011101209985A 2011-05-11 2011-05-11 一种商用网页恶意篡改检测方法 Pending CN102169533A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011101209985A CN102169533A (zh) 2011-05-11 2011-05-11 一种商用网页恶意篡改检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011101209985A CN102169533A (zh) 2011-05-11 2011-05-11 一种商用网页恶意篡改检测方法

Publications (1)

Publication Number Publication Date
CN102169533A true CN102169533A (zh) 2011-08-31

Family

ID=44490691

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011101209985A Pending CN102169533A (zh) 2011-05-11 2011-05-11 一种商用网页恶意篡改检测方法

Country Status (1)

Country Link
CN (1) CN102169533A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102346830A (zh) * 2011-09-23 2012-02-08 重庆大学 基于梯度直方图的病毒检测方法
CN102938042A (zh) * 2012-10-30 2013-02-20 北京神州绿盟信息安全科技股份有限公司 网页篡改检测方法及装置
CN104899606A (zh) * 2015-06-17 2015-09-09 中国科学院自动化研究所 一种基于局部学习的信息隐藏检测方法
WO2016045215A1 (zh) * 2014-09-28 2016-03-31 深圳市汇顶科技股份有限公司 指纹图像质量的判断方法和装置
CN105653959A (zh) * 2015-12-31 2016-06-08 深圳市安之天信息技术有限公司 一种基于功能图片识别仿冒网站的方法及系统
CN106446687A (zh) * 2016-10-14 2017-02-22 北京奇虎科技有限公司 恶意样本的检测方法及装置
CN106446118A (zh) * 2016-09-19 2017-02-22 中国南方电网有限责任公司信息中心 一种页面变更模版自动生成方法
CN107437038A (zh) * 2017-08-07 2017-12-05 深信服科技股份有限公司 一种网页篡改的检测方法及装置
CN107636665A (zh) * 2015-05-17 2018-01-26 比特梵德知识产权管理有限公司 用于计算机安全应用程序的级联分类器
CN108319986A (zh) * 2018-02-08 2018-07-24 深圳市华云中盛科技有限公司 基于prnu的图像来源的鉴定方法及其系统
CN108510007A (zh) * 2018-04-08 2018-09-07 北京知道创宇信息技术有限公司 一种网页篡改检测方法、装置、电子设备及存储介质
CN108804498A (zh) * 2018-04-03 2018-11-13 微梦创科网络科技(中国)有限公司 一种基于网页对比的网页篡改监控方法及系统
CN112598648A (zh) * 2020-12-24 2021-04-02 重庆邮电大学 一种基于图像梯度方向的图像接缝裁剪篡改检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020067857A1 (en) * 2000-12-04 2002-06-06 Hartmann Alexander J. System and method for classification of images and videos
CN101145902A (zh) * 2007-08-17 2008-03-19 东南大学 基于图像处理的钓鱼网页检测方法
CN101877066A (zh) * 2010-05-21 2010-11-03 电子科技大学 一种反图像型垃圾邮件的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020067857A1 (en) * 2000-12-04 2002-06-06 Hartmann Alexander J. System and method for classification of images and videos
CN101145902A (zh) * 2007-08-17 2008-03-19 东南大学 基于图像处理的钓鱼网页检测方法
CN101877066A (zh) * 2010-05-21 2010-11-03 电子科技大学 一种反图像型垃圾邮件的方法及装置

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102346830A (zh) * 2011-09-23 2012-02-08 重庆大学 基于梯度直方图的病毒检测方法
CN102938042A (zh) * 2012-10-30 2013-02-20 北京神州绿盟信息安全科技股份有限公司 网页篡改检测方法及装置
WO2016045215A1 (zh) * 2014-09-28 2016-03-31 深圳市汇顶科技股份有限公司 指纹图像质量的判断方法和装置
CN107636665A (zh) * 2015-05-17 2018-01-26 比特梵德知识产权管理有限公司 用于计算机安全应用程序的级联分类器
CN104899606A (zh) * 2015-06-17 2015-09-09 中国科学院自动化研究所 一种基于局部学习的信息隐藏检测方法
CN104899606B (zh) * 2015-06-17 2018-06-19 中国科学院自动化研究所 一种基于局部学习的信息隐藏检测方法
CN105653959A (zh) * 2015-12-31 2016-06-08 深圳市安之天信息技术有限公司 一种基于功能图片识别仿冒网站的方法及系统
CN106446118A (zh) * 2016-09-19 2017-02-22 中国南方电网有限责任公司信息中心 一种页面变更模版自动生成方法
CN106446687A (zh) * 2016-10-14 2017-02-22 北京奇虎科技有限公司 恶意样本的检测方法及装置
CN106446687B (zh) * 2016-10-14 2020-11-03 北京奇虎科技有限公司 恶意样本的检测方法及装置
CN107437038A (zh) * 2017-08-07 2017-12-05 深信服科技股份有限公司 一种网页篡改的检测方法及装置
CN107437038B (zh) * 2017-08-07 2021-07-06 深信服科技股份有限公司 一种网页篡改的检测方法及装置
CN108319986A (zh) * 2018-02-08 2018-07-24 深圳市华云中盛科技有限公司 基于prnu的图像来源的鉴定方法及其系统
CN108804498A (zh) * 2018-04-03 2018-11-13 微梦创科网络科技(中国)有限公司 一种基于网页对比的网页篡改监控方法及系统
CN108510007A (zh) * 2018-04-08 2018-09-07 北京知道创宇信息技术有限公司 一种网页篡改检测方法、装置、电子设备及存储介质
CN112598648A (zh) * 2020-12-24 2021-04-02 重庆邮电大学 一种基于图像梯度方向的图像接缝裁剪篡改检测方法

Similar Documents

Publication Publication Date Title
CN102169533A (zh) 一种商用网页恶意篡改检测方法
Wang et al. Tire defect detection using fully convolutional network
CN103745226B (zh) 一种电力设施作业现场人员着装安全检测方法
CN105092598B (zh) 一种基于连通域的大幅面pcb板缺陷快速识别方法及系统
CN107808358B (zh) 图像水印自动检测方法
CN102779249B (zh) 恶意程序检测方法及扫描引擎
CN104598933B (zh) 一种基于多特征融合的图像翻拍检测方法
CN106610969A (zh) 基于多模态信息的视频内容审查系统及方法
CN103793717A (zh) 判断图像主体显著性及训练其分类器的方法和系统
CN105825233B (zh) 一种基于在线学习随机蕨分类器的行人检测方法
CN108520278A (zh) 一种基于随机森林的路面裂缝检测方法及其评价方法
CN108875727B (zh) 图文标识的检测方法及装置、存储介质、处理器
CN101251896B (zh) 一种基于多分类器的物体检测系统及方法
Li et al. Fast and effective text detection
CN103632159A (zh) 训练分类器、图像中文字区域检测的方法及系统
CN103020645A (zh) 一种垃圾图片识别方法和系统
CN108596244A (zh) 一种基于光谱角度密度峰值的高光谱图像标签噪声检测方法
Boonsim Racing bib number localization on complex backgrounds
CN105469099A (zh) 基于稀疏表示分类的路面裂缝检测和识别方法
CN104537392A (zh) 一种基于判别性语义部件学习的对象检测方法
CN105141968A (zh) 一种视频同源copy-move篡改检测方法及系统
Sun et al. A novel text detection and localization method based on corner response
Li et al. A multiple frame integration and mathematical morphology based technique for video text extraction
Singh et al. An efficient hybrid scheme for key frame extraction and text localization in video
Patel et al. Text segmentation from images

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20110831