CN109597972B - 一种基于网页框架的网页动态变化和篡改检测方法 - Google Patents

一种基于网页框架的网页动态变化和篡改检测方法 Download PDF

Info

Publication number
CN109597972B
CN109597972B CN201811504819.6A CN201811504819A CN109597972B CN 109597972 B CN109597972 B CN 109597972B CN 201811504819 A CN201811504819 A CN 201811504819A CN 109597972 B CN109597972 B CN 109597972B
Authority
CN
China
Prior art keywords
webpage
nodes
simhash
dom tree
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811504819.6A
Other languages
English (en)
Other versions
CN109597972A (zh
Inventor
张志群
朱建武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanchang Channao Technology Co ltd
Original Assignee
Hangzhou Quanwei Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Quanwei Technology Co ltd filed Critical Hangzhou Quanwei Technology Co ltd
Priority to CN201811504819.6A priority Critical patent/CN109597972B/zh
Publication of CN109597972A publication Critical patent/CN109597972A/zh
Application granted granted Critical
Publication of CN109597972B publication Critical patent/CN109597972B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Information Transfer Between Computers (AREA)
  • Storage Device Security (AREA)

Abstract

本发明公开了一种基于网页框架的网页动态变化和篡改检测方法,涉及网页动态检测领域。包括以下步骤:获取网页的实时信息;分析网页的DOM树并提取DOM树中各节点的内容;忽略DOM树中的文本节点,并将除文本节点之外的其他节点的内容进行拼接后进行simhash计算,计算结果记为simhash1,同时计算所述其他节点的标签数量,记为c1;经时间t后,重复步骤S1至S3,获得simhash计算结果,记为simhash2;重新获得其他节点的标签数量,记为c2;计算前后两次simhash计算结果的距离以及前后两次标签数量的差值;对S5得到的距离和差值进行求和;将求和结果与阈值进行对比,若求和结果大于阈值,则判定网页发生变化。本发明既实现了网页的动态检测,又可避免因部分文字内容变化而引起的误报。

Description

一种基于网页框架的网页动态变化和篡改检测方法
技术领域
本发明涉及网页动态检测领域,尤其涉及一种基于网页框架的网页动态变化和篡改检测方法。
背景技术
随着网络的发展,黑客攻击和WEB安全事件越来越多,针对WEB攻击逐渐成为主流攻击方式。黑客获取到WEB权限后,经常会篡改网站网页,进行网页挂马,流量劫持,插入SEO暗链等。
传统的网页变化检测是通过simhash或者网页文件整体hash来检测网页是否变化,如果网页作者只是修改了网页内部分文字,传统的网页变化检测方法检测出来的结果依旧是网页发生了变化,造成误报,从而不能精确有效的检测网页变化和篡改。
发明内容
本发明的目的在于提供一种基于网页框架的网页动态变化和篡改检测方法,可避免因部分文字内容变化而引起的误报。
为实现上述目的,本发明提供如下技术方案:
一种基于网页框架的网页动态变化和篡改检测方法,其特征在于,包括以下步骤:
S1:获取网页的实时信息;
S2:分析网页的DOM树并提取DOM树中各节点的内容;
S3:忽略DOM树中的文本节点,并将除文本节点之外的其他节点的内容进行拼接后进行simhash计算,计算结果记为simhash1,同时计算所述其他节点的标签数量,记为c1;
S4:经时间t后,重复步骤S1至S3,重新获得simhash计算结果,记为simhash2;重新获得其他节点的标签数量,记为c2;
S5:计算前后两次simhash计算结果的距离以及前后两次标签数量的差值;
S6:对S5得到的距离和差值进行求和;
S7:将求和结果与阈值进行对比,若求和结果大于阈值,则判定网页发生变化;否则网页未发生变化。
进一步的,所述文本节点为<title>节点和<p>节点。
进一步的,所述时间t为3小时。
进一步的,所述阈值为10。
与现有技术相比,本发明的有益效果是:本发明在simhash计算的时候忽略了DOM树中的文本节点,再对两次simhash计算结果的距离以及两次标签数量的差值进行求和,将求和结果与预先设定的阈值进行比较,从而判定网页是否发生变化。本发明既保证了网页动态的检测,又能很好地避免了因部分文字内容变动而引起误报的情况。
附图说明
图1为本发明的流程图;
图2为本发明的一实施例的DOM树结构示意图。
具体实施方式
下面对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种基于网页框架的网页动态变化和篡改检测方法,包括以下步骤:
S1:获取网页的实时信息;
S2:分析网页的DOM树并提取DOM树中各节点的内容;
如下实施例,一网页的HTML文档如下所示:
Figure BDA0001899172020000031
文中的粗体为文本内容,对应节点为文本节点,该网页的DOM树结构如图2所示。
S3:忽略DOM树中的文本节点,即本实施例中的<title>节点、<p>节点和<p>节点的子节点<span>节点,并将除文本节点之外的其他节点的内容进行拼接后进行simhash计算,计算结果记为simhash1,同时计算所述其他节点的标签数量,记为c1;
于本实施例中:
simhash1=simhash(meta+link+img)
=simhash(meta
name="viewport"content="width=device-width,initial-scale=1"
link href="style.css"rel="stylesheet"img src="photo.jpg")
=970159690355502009
其中标签数量c1为4。
S4:经3小时后,重复步骤S1至S3,重新获得simhash计算结果,记为simhash2;重新获得其他节点的标签数量,记为c2;
如在该时间t内,网页结构发生了变化,例如加入了一个iframe,具体的
iframe=”'<iframe src="http://www.test.com"></iframe>”'
则simhash2=simhash(meta
name="viewport"content="width=device-width,initial-scale=1"
link href="style.css"rel="stylesheet"img
src="photo.jpg"iframe src="http://www.test.com")
=681366335231081465
其标签数量c2为5。
S5:计算前后两次simhash计算结果的汉明距离以及前后两次标签数量的差值;
Δsimhash=d(simhash1,simhash2)=13,Δc=|c1-c2|=1。
S6:对S5得到的距离和差值进行求和;
∑=Δsimhash+Δc=13+1=14。
S7:将求和结果与阈值进行对比,若求和结果大于阈值,则判定网页发生变化;否则网页未发生变化。并返回步骤S4进行下一次判断,值得一提的是,回到步骤S4的同时,上一次判断的simhash2变成下一次判断的simhash1,上一次判断的c2变成下一次判断的c1,以此实现持续性的网页动态检测。
于本实施例中,求和结果∑=14,大于阈值10,则判断网页发生变化,实现了网页变化的检测。
与另一实施例中,若网页发生变化仅为将原有<title>节点中的文本my title修改为your title,本方法计算出的Δsimhash和Δc均为0,则判定网页未发生变化,与传统的检测方法相比,避免了仅因文本变化而发生误报的情况。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

Claims (3)

1.一种基于网页框架的网页动态变化和篡改检测方法,其特征在于,包括以下步骤:
S1:获取网页的实时信息;
S2:分析网页的DOM树并提取DOM树中各节点的内容;
S3:忽略DOM树中的文本节点,并将除文本节点之外的其他节点的内容进行拼接后进行simhash计算,计算结果记为simhash1,同时计算所述其他节点的标签数量,记为c1;
S4:经时间t后,重复步骤S1至S3,重新获得simhash计算结果,记为simhash2;重新获得其他节点的标签数量,记为c2;
S5:计算前后两次simhash计算结果的距离以及前后两次标签数量的差值;
S6:对S5得到的距离和差值进行求和;
S7:将求和结果与阈值进行对比,若求和结果大于阈值,则判定网页发生变化;否则网页未发生变化;
所述阈值为10。
2.根据权利要求1所述的基于网页框架的网页动态变化和篡改检测方法,其特征在于,所述文本节点为<title>节点和<p>节点。
3.根据权利要求1所述的基于网页框架的网页动态变化和篡改检测方法,其特征在于,所述时间t为3小时。
CN201811504819.6A 2018-12-10 2018-12-10 一种基于网页框架的网页动态变化和篡改检测方法 Active CN109597972B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811504819.6A CN109597972B (zh) 2018-12-10 2018-12-10 一种基于网页框架的网页动态变化和篡改检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811504819.6A CN109597972B (zh) 2018-12-10 2018-12-10 一种基于网页框架的网页动态变化和篡改检测方法

Publications (2)

Publication Number Publication Date
CN109597972A CN109597972A (zh) 2019-04-09
CN109597972B true CN109597972B (zh) 2023-05-30

Family

ID=65962344

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811504819.6A Active CN109597972B (zh) 2018-12-10 2018-12-10 一种基于网页框架的网页动态变化和篡改检测方法

Country Status (1)

Country Link
CN (1) CN109597972B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134901B (zh) * 2019-04-30 2023-06-16 哈尔滨英赛克信息技术有限公司 一种基于流量分析的多链路网页篡改判定方法
CN110572378B (zh) * 2019-08-22 2021-11-23 上海易点时空网络有限公司 基于标记跟踪的防web劫持的方法及终端、服务器
CN110572376B (zh) * 2019-08-22 2021-11-23 上海易点时空网络有限公司 基于标记跟踪的防网络劫持的方法及终端、服务器
CN111143744B (zh) * 2019-12-26 2023-10-13 杭州安恒信息技术股份有限公司 一种web资产检测的方法、装置、设备及可读存储介质
CN111967063B (zh) * 2020-09-02 2021-04-09 开普云信息科技股份有限公司 一种基于多维度分析的数据篡改监测和识别方法、装置、电子设备及其存储介质
CN112733140B (zh) * 2020-12-28 2023-12-22 上海观安信息技术股份有限公司 一种针对模型倾斜攻击的检测方法及系统
CN115099200B (zh) * 2022-08-29 2022-11-01 南京中孚信息技术有限公司 防篡改的文本处理方法、装置和计算机设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942335B (zh) * 2014-05-07 2017-04-26 武汉大学 一种针对网页结构变化的不间断爬虫系统构建方法
CN106960058B (zh) * 2017-04-05 2021-01-12 金电联行(北京)信息技术有限公司 一种网页结构变更检测方法及系统
CN107612908B (zh) * 2017-09-15 2020-06-05 杭州安恒信息技术股份有限公司 网页篡改监测方法及装置

Also Published As

Publication number Publication date
CN109597972A (zh) 2019-04-09

Similar Documents

Publication Publication Date Title
CN109597972B (zh) 一种基于网页框架的网页动态变化和篡改检测方法
CN103810425B (zh) 恶意网址的检测方法及装置
US9218482B2 (en) Method and device for detecting phishing web page
CN107204960B (zh) 网页识别方法及装置、服务器
CN108021692B (zh) 一种监控网页的方法、服务器及计算机可读存储介质
CN107437026B (zh) 一种基于广告网络拓扑的恶意网页广告检测方法
CN111835777B (zh) 一种异常流量检测方法、装置、设备及介质
CN105677661A (zh) 一种检测社交媒体重复数据的方法
US20110258528A1 (en) Method and system for removing chrome from a web page
CN106446123A (zh) 一种网页中验证码元素识别方法
CN107784107B (zh) 基于逃逸行为分析的暗链检测方法及装置
CN106294621B (zh) 一种基于复杂网络结点相似性的计算事件相似性的方法和系统
CN107145591A (zh) 一种基于标题的网页有效元数据内容提取方法
CN107239520B (zh) 一种通用论坛正文提取方法
CN108363711B (zh) 一种网页中的暗链的检测方法和装置
CN111125704B (zh) 一种网页挂马识别方法及系统
CN104572874B (zh) 一种网页信息的抽取方法及装置
CN106897287B (zh) 网页发布时间抽取方法和用于网页发布时间抽取的装置
WO2015074455A1 (zh) 一种计算关联网页URL模式pattern的方法和装置
CN108595453B (zh) Url标识映射获取方法及装置
CN111131236A (zh) 一种web指纹检测装置、方法、设备及介质
CN107766384A (zh) 一种确定页面发布时间的方法和装置
JPWO2018056299A1 (ja) 情報収集システム、情報収集方法、及び、プログラム
JP6749865B2 (ja) 情報収集装置、および、情報収集方法
Barua et al. Removing noise content from online news articles

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240422

Address after: Room 218-006, Jiangxi Caichuang Industrial Park, No. 32 Mopanshan North Road, Wanli, Nanchang City, Jiangxi Province, 330000

Patentee after: NANCHANG CHANNAO TECHNOLOGY CO.,LTD.

Country or region after: China

Address before: 310000 building a, 12 / F, building D, Paradise Software Park, 3 xidoumen Road, Xihu District, Hangzhou City, Zhejiang Province

Patentee before: HANGZHOU QUANWEI TECHNOLOGY CO.,LTD.

Country or region before: China