CN102624713B - 网站篡改识别的方法及装置 - Google Patents

网站篡改识别的方法及装置 Download PDF

Info

Publication number
CN102624713B
CN102624713B CN201210049129.2A CN201210049129A CN102624713B CN 102624713 B CN102624713 B CN 102624713B CN 201210049129 A CN201210049129 A CN 201210049129A CN 102624713 B CN102624713 B CN 102624713B
Authority
CN
China
Prior art keywords
frame structure
website
structure information
tampered
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210049129.2A
Other languages
English (en)
Other versions
CN102624713A (zh
Inventor
李艳坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Network Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Network Technology Shenzhen Co Ltd filed Critical Sangfor Network Technology Shenzhen Co Ltd
Priority to CN201210049129.2A priority Critical patent/CN102624713B/zh
Publication of CN102624713A publication Critical patent/CN102624713A/zh
Application granted granted Critical
Publication of CN102624713B publication Critical patent/CN102624713B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明揭示了一种网站篡改识别的方法及装置。该方法可包括步骤:获取网站页面的框架结构信息;将获取的框架结构信息与服务器镜像框架结构信息进行比较;根据比较结果进行识别处理。本发明可根据Web服务器响应数据包中提取的页面框架结构信息,以及保存的服务器镜像的框架结构信息,进行相似度比对,判断网站页面是否被篡改,如此可提升篡改识别的效果。

Description

网站篡改识别的方法及装置
技术领域
本发明涉及到网站防篡改技术,特别涉及到一种网站篡改识别的方法及装置。
背景技术
国家互联网应急中心(CNCERT/CC)近期公布数据称:2011年9月,境内被篡改的网站数量为2227个,根据网站的类型统计,被篡改的数量最多的是商业类网站,对网民的财产安全造成重大威胁。
目前一般的篡改识别方案很多,可靠的主要有两种,一种是核心内嵌技术,另一种是基于网关网桥静态篡改识别技术。
核心内嵌技术中,篡改检测部件运行于WEB服务器内部。被防护的网站发布的时候,篡改检测部件会计算出每一个页面唯一的加密水印。每次网页被浏览时候,对网页的当前水印和发布水印进行比对,实时对网站进行防护。此种技术缺点:需要在Web服务器内部运行篡改检测部件,增加了管理员的操作,同时对每一个流出的网站都进行水印计算和比对,占用巨大的资源,给Web服务器造成很大负担。
基于网关网桥静态篡改识别技术通常是对整个网页进行缓存,并且对缓存内容进行Hash计算获得其哈希值。当页面被浏览时候,计算出页面的哈希值和发布的哈希值比对,对Web服务器进行保护。但是对于动态网站,网页变化频率很大,动态网站网页哈希值也经常变化,依靠Hash值比较并不可靠,会加大误判,识别效果不理想。
发明内容
本发明的主要目的为提供一种网站篡改识别的方法,提升了网站篡改识别的效果。
本发明提出一种网站篡改识别的方法,包括步骤:
获取网站页面的框架结构信息;
将获取的框架结构信息与服务器镜像框架结构信息进行比较;
根据比较结果进行识别处理。
优选地,所述获取网站页面的框架结构信息的步骤具体包括:
抓取服务器响应客户端数据包,提取符合框架信息库的网页信息并保存。
优选地,所述将获取的框架结构信息与服务器镜像框架结构信息进行比较的步骤具体包括:
根据获取的框架结构信息与服务器镜像框架结构信息,进行相似度计算,获取相似度数值。
优选地,所述根据比较结果进行识别处理的步骤具体包括:
将所述相似度数值与预设阈值比较,判断网站页面是否被篡改;
当网站网页被篡改时,对网站网页进行重定向并告警;
当网站网页未被篡改时,放行数据。
优选地,所述服务器镜像框架结构信息通过网络爬虫方式获得。
本发明还提出一种网站篡改识别的装置,包括:
框架结构提取单元,用于获取网站页面的框架结构信息;
相似度比较单元,用于将获取的框架结构信息与服务器镜像框架结构信息进行比较;
识别处理单元,用于根据比较结果进行识别处理。
优选地,所述框架结构提取单元具体用于:
抓取服务器响应客户端数据包,提取符合框架信息库的网页信息并保存。
优选地,所述相似度比较单元具体用于:
根据获取的框架结构信息与服务器镜像框架结构信息,进行相似度计算,获取相似度数值。
优选地,所述识别处理单元具体包括:
比较判断模块,用于将所述相似度数值与预设阈值比较,判断网站页面是否被篡改;
重定向及告警模块,用于当网站网页被篡改时,对网站网页进行重定向并告警;
放行模块,用于当网站网页未被篡改时,放行数据。
优选地,所述服务器镜像框架结构信息通过网络爬虫方式获得。
本发明可根据Web服务器响应数据包中提取的页面框架结构信息,以及保存的服务器镜像的框架结构信息,进行相似度比对,判断网站页面是否被篡改,如此可提升篡改识别的效果。
附图说明
图1是本发明网站篡改识别的方法一实施例中的步骤流程示意图;
图2是本发明网站篡改识别的方法一实施例中的识别处理步骤流程示意图;
图3是本发明网站篡改识别的装置一实施例中的结构示意图;
图4是本发明网站篡改识别的装置一实施例中的识别处理单元结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,提出本发明一种网站篡改识别的方法的一实施例。该方法可包括:
步骤S10、获取网站页面的框架结构信息;
步骤S11、将获取的框架结构信息与服务器镜像框架结构信息进行比较;
步骤S12、根据比较结果进行识别处理。
本实施例的网站防篡改系统(WebsiteTamper-PreventingSystem,WTPS)架设到Web服务器和客户端之间,该网站防篡改系统可以配置成网关、网桥模式等。
上述框架结构信息的获取,可通过上述网站防篡改系统抓取服务器响应客户端每一个数据包,提取符合框架信息库的网页信息并保存。该框架结构信息库提取页面信息标准是网站页面(比如动态页面)变化频度较小。
然后,该网站防篡改系统可根据获取的框架结构信息与服务器镜像框架结构信息,进行相似度计算,获取相似度数值。该服务器镜像框架结构信息通过网络爬虫等方式获得。该相似度计算采用的算法可包括Shingle算法、Simhash算法和Bloomfilter算法等。
参照图2,上述步骤S12可具体包括:
步骤S121、将所述相似度数值与预设阈值比较,判断网站页面是否被篡改;当网站网页被篡改时,进行步骤S122;当网站网页未被篡改时,进行步骤S123;
步骤S122、对网站网页进行重定向并告警;
步骤S123、放行数据。
上述预设阈值可根据具体情况设定,可设定上述相似度数值低于该预设阈值即可判定网站页面被篡改。当判定网站网页被篡改时,对网站网页进行重定向并告警;当判定网站网页未被篡改时,说明该网站页面可安全访问,可放行数据。
上述网站篡改识别的方法,针对现有的识别技术性能、识别效果不佳的情况,提出了基于网关网桥动态/静态网页篡改识别方式。可将网站防篡改系统架设在客户端和Web服务器之间。Web服务器的响应数据包经过网站防篡改系统传递到客户端,对Web服务器响应数据包的页面框架结构信息进行提取,同时根据保存的服务器镜像提取相应的框架结构信息(已备份),对两份框架结构信息进行相似度比对,判断网站页面是否被篡改,如此可提升篡改识别的性能以及效果。由于相似度识别针对的是网页框架,因此可支持静态网站或动态网站等任何类型的Web页面篡改的识别,并具有良好的识别效果。
参照图3,提出本发明一种网站篡改识别的装置20的一实施例。该装置20可包括:框架结构提取单元21、相似度比较单元22以及识别处理单元23;该框架结构提取单元21,用于获取网站页面的框架结构信息;该相似度比较单元22,用于将获取的框架结构信息与服务器镜像框架结构信息进行比较;该识别处理单元23,用于根据比较结果进行识别处理。
上述框架结构提取单元21具体用于:抓取服务器响应客户端的每一个数据包,提取符合框架信息库的网页信息并保存。该框架结构信息库提取页面信息标准是网站页面(比如动态页面)变化频度较小。
上述相似度比较单元22具体用于:根据获取的框架结构信息与服务器镜像框架结构信息,进行相似度计算,获取相似度数值。该服务器镜像框架结构信息通过网络爬虫等方式获得。该相似度计算采用的算法可包括Shingle算法、Simhash算法和Bloomfilter算法等。
参照图4,上述识别处理单元23具体包括:比较判断模块231、重定向及告警模块232以及放行模块233;该比较判断模块231,用于将所述相似度数值与预设阈值比较,判断网站页面是否被篡改;该重定向及告警模块232,用于当网站网页被篡改时,对网站网页进行重定向并告警;该放行模块233,用于当网站网页未被篡改时,放行数据。
上述预设阈值可根据具体情况设定,可设定上述相似度数值低于该预设阈值即可判定网站页面被篡改。当判定网站网页被篡改时,对网站网页进行重定向并告警;当判定网站网页未被篡改时,说明该网站页面可安全访问,可放行数据。
上述网站篡改识别的装置20,针对现有的识别技术性能、识别效果不佳的情况,提出了基于网关网桥动态/静态网页篡改识别方式。可将该网站篡改识别的装置20架设在客户端和Web服务器之间。Web服务器的响应数据包经过网站篡改识别的装置20传递到客户端,对Web服务器响应数据包的页面框架结构信息进行提取,同时根据保存的服务器镜像提取相应的框架结构信息(已备份),对两份框架结构信息进行相似度比对,判断网站页面是否被篡改,如此可提升篡改识别的性能以及效果。由于相似度识别针对的是网页框架,因此可支持静态网站或动态网站等任何类型的Web页面篡改的识别,并具有良好的识别效果。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (4)

1.一种网站篡改识别的方法,其特征在于,包括步骤:
获取网站页面的框架结构信息;
将获取的框架结构信息与服务器镜像框架结构信息进行比较;
根据比较结果进行识别处理;
所述获取网站页面的框架结构信息的步骤具体包括:
抓取服务器响应客户端数据包,提取符合框架信息库的网页信息并保存;
所述将获取的框架结构信息与服务器镜像框架结构信息进行比较的步骤具体包括:
根据获取的框架结构信息与服务器镜像框架结构信息,进行相似度计算,获取相似度数值;
所述根据比较结果进行识别处理的步骤具体包括:
将所述相似度数值与预设阈值比较,判断网站页面是否被篡改;
当网站网页被篡改时,对网站网页进行重定向并告警;
当网站网页未被篡改时,放行数据。
2.根据权利要求1所述的网站篡改识别的方法,其特征在于,所述服务器镜像框架结构信息通过网络爬虫方式获得。
3.一种网站篡改识别的装置,其特征在于,包括:
框架结构提取单元,用于获取网站页面的框架结构信息;
相似度比较单元,用于将获取的框架结构信息与服务器镜像框架结构信息进行比较;
识别处理单元,用于根据比较结果进行识别处理;所述框架结构提取单元具体用于:
抓取服务器响应客户端数据包,提取符合框架信息库的网页信息并保存;
所述相似度比较单元具体用于:
根据获取的框架结构信息与服务器镜像框架结构信息,进行相似度计算,获取相似度数值;
所述识别处理单元具体包括:
比较判断模块,用于将所述相似度数值与预设阈值比较,判断网站页面是否被篡改;
重定向及告警模块,用于当网站网页被篡改时,对网站网页进行重定向并告警;
放行模块,用于当网站网页未被篡改时,放行数据。
4.根据权利要求3所述的网站篡改识别的装置,其特征在于,所述服务器镜像框架结构信息通过网络爬虫方式获得。
CN201210049129.2A 2012-02-29 2012-02-29 网站篡改识别的方法及装置 Active CN102624713B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210049129.2A CN102624713B (zh) 2012-02-29 2012-02-29 网站篡改识别的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210049129.2A CN102624713B (zh) 2012-02-29 2012-02-29 网站篡改识别的方法及装置

Publications (2)

Publication Number Publication Date
CN102624713A CN102624713A (zh) 2012-08-01
CN102624713B true CN102624713B (zh) 2016-01-06

Family

ID=46564398

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210049129.2A Active CN102624713B (zh) 2012-02-29 2012-02-29 网站篡改识别的方法及装置

Country Status (1)

Country Link
CN (1) CN102624713B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103812673A (zh) * 2012-11-07 2014-05-21 江苏仕德伟网络科技股份有限公司 一种网站多ip变更自动识别的方法
CN103577526B (zh) * 2013-08-01 2017-06-06 星云融创(北京)科技有限公司 一种验证页面是否被修改的方法、系统及浏览器
CN104008131B (zh) * 2014-04-30 2018-07-13 广州市动景计算机科技有限公司 一种网页数据处理方法及装置
CN107204960B (zh) * 2016-03-16 2020-11-24 阿里巴巴集团控股有限公司 网页识别方法及装置、服务器
CN105975395A (zh) * 2016-05-30 2016-09-28 深圳市华傲数据技术有限公司 网站状态侦察方法及装置
CN107301355B (zh) * 2017-06-20 2021-07-02 深信服科技股份有限公司 一种网页篡改监测方法及装置
CN107566354B (zh) * 2017-08-22 2020-04-03 北京小米移动软件有限公司 网页内容检测方法、装置及存储介质
CN107835191A (zh) * 2017-11-29 2018-03-23 中科信息安全共性技术国家工程研究中心有限公司 一种检测网页恶意篡改的方法和装置
CN108171082B (zh) * 2017-12-06 2021-04-30 新华三信息安全技术有限公司 一种网页探测方法及装置
CN108021692B (zh) * 2017-12-18 2022-03-11 北京天融信网络安全技术有限公司 一种监控网页的方法、服务器及计算机可读存储介质
CN113348655B (zh) * 2019-04-11 2023-01-06 深圳市欢太科技有限公司 浏览器反劫持方法、装置、电子设备及存储介质
CN110708292A (zh) * 2019-09-11 2020-01-17 光通天下网络科技股份有限公司 Ip处理方法、装置、介质、电子设备
CN111159517A (zh) * 2019-12-12 2020-05-15 深信服科技股份有限公司 一种信息处理方法、设备、系统和计算机存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129528A (zh) * 2010-01-19 2011-07-20 北京启明星辰信息技术股份有限公司 一种web网页篡改识别方法及系统
CN102176722A (zh) * 2011-03-16 2011-09-07 中国科学院软件研究所 基于前置网关的页面防篡改方法和系统
CN102316081A (zh) * 2010-06-30 2012-01-11 北京启明星辰信息技术股份有限公司 一种相似网页的识别方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101626368A (zh) * 2008-07-11 2010-01-13 中联绿盟信息技术(北京)有限公司 一种防止网页被篡改的设备、方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129528A (zh) * 2010-01-19 2011-07-20 北京启明星辰信息技术股份有限公司 一种web网页篡改识别方法及系统
CN102316081A (zh) * 2010-06-30 2012-01-11 北京启明星辰信息技术股份有限公司 一种相似网页的识别方法及装置
CN102176722A (zh) * 2011-03-16 2011-09-07 中国科学院软件研究所 基于前置网关的页面防篡改方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于快照轮询和文本检测的批量网页防篡改系统;阮宏伟 等;《广西大学学报(自然科学版)》;20111031;第36卷(第z1期);第142-147页 *
网页防篡改系统的研究与设计方案;姚滢;《计算机安全》;20100630(第6期);第53-55页 *

Also Published As

Publication number Publication date
CN102624713A (zh) 2012-08-01

Similar Documents

Publication Publication Date Title
CN102624713B (zh) 网站篡改识别的方法及装置
US11727114B2 (en) Systems and methods for remote detection of software through browser webinjects
US9935967B2 (en) Method and device for detecting malicious URL
CN102129528B (zh) 一种web网页篡改识别方法及系统
CN103179095B (zh) 一种检测钓鱼网站的方法及客户端装置
Blum et al. Lexical feature based phishing URL detection using online learning
CN101901221B (zh) 一种跨站脚本攻击的检测方法和装置
CN102110198B (zh) 一种网页防伪的方法
CN103001817B (zh) 一种实时检测网页跨域请求的方法和装置
CN104954372A (zh) 一种钓鱼网站的取证与验证方法及系统
CN107368718B (zh) 一种用户浏览行为认证方法及系统
CN102769632A (zh) 钓鱼网站分级检测和提示的方法及系统
WO2015096528A1 (zh) 网络购物环境安全性检测方法及装置
CN102467633A (zh) 一种安全浏览网页的方法及其系统
CN110035075A (zh) 钓鱼网站的检测方法、装置、计算机设备及存储介质
US20150026813A1 (en) Method and system for detecting network link
CN101539936A (zh) 一种假冒网站检测方法及设备
CN107818132A (zh) 一种基于机器学习的网页代理发现方法
CN103226688A (zh) 一种二维码防篡改和防伪造的认证方法
CN105989149A (zh) 一种用户设备指纹的提取和识别方法及系统
CN110474889A (zh) 一种基于网站图标的钓鱼网站识别方法及装置
CN102891861A (zh) 一种基于客户端的钓鱼网站检测方法及其装置
CN109495471B (zh) 一种对web攻击结果判定方法、装置、设备及可读存储介质
CN102902686A (zh) 一种网页检测的方法及系统
CN101901307B (zh) 一种检测数据库是否遭到跨站脚本攻击的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200616

Address after: Nanshan District Xueyuan Road in Shenzhen city of Guangdong province 518000 No. 1001 Nanshan Chi Park building A1 layer

Patentee after: SANGFOR TECHNOLOGIES Inc.

Address before: 518000 Nanshan Science and Technology Pioneering service center, No. 1 Qilin Road, Guangdong, Shenzhen 418, 419,

Patentee before: Shenxin network technology (Shenzhen) Co.,Ltd.

TR01 Transfer of patent right