CN107301355B - 一种网页篡改监测方法及装置 - Google Patents

一种网页篡改监测方法及装置 Download PDF

Info

Publication number
CN107301355B
CN107301355B CN201710469842.5A CN201710469842A CN107301355B CN 107301355 B CN107301355 B CN 107301355B CN 201710469842 A CN201710469842 A CN 201710469842A CN 107301355 B CN107301355 B CN 107301355B
Authority
CN
China
Prior art keywords
webpage
target webpage
area block
determining
change
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710469842.5A
Other languages
English (en)
Other versions
CN107301355A (zh
Inventor
华海亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Technologies Co Ltd filed Critical Sangfor Technologies Co Ltd
Priority to CN201710469842.5A priority Critical patent/CN107301355B/zh
Publication of CN107301355A publication Critical patent/CN107301355A/zh
Application granted granted Critical
Publication of CN107301355B publication Critical patent/CN107301355B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网页篡改监测方法,应用于部署于云端、独立于网站服务器的监测服务器,该网页篡改监测方法可以包括以下步骤:在达到设定的目标网页对应的监测间隔时,爬取目标网页,目标网页为待监测网站中任意一个待监测的网页;将目标网页与预先获得的目标网页对应的基准网页进行比较,确定异常区域块;根据异常区域块的变化内容,确定目标网页是否被篡改。应用本发明实施例所提供的技术方案,实现了对网页篡改的有效监测,而且监测服务器独立于网站服务器,可以避免给网站服务器带来额外的系统开销,保证网站服务器的稳定运行。本发明还公开了一种网页篡改监测装置,具有相应技术效果。

Description

一种网页篡改监测方法及装置
技术领域
本发明涉及互联网技术领域,特别是涉及一种网页篡改监测方法及装置。
背景技术
随着互联网技术的快速发展,政府、学校、企业等多倾向于将传统业务迁移到互联网上,以方便访问者访问。但与此同时,也带来了许多安全问题。如黑客利用系统、业务等存在的漏洞控制网站服务器,在正常的网页中植入黑链接谋求私利,或者直接修改网站主页宣示自己的政治主张,使政府、企业的形象受损。基于此,对网站网页的篡改监测受到了越来越多的关注。
目前篡改监测方法主要有以下四种:
定时循环扫描方法:按照用户设定的间隔,定期对网站目录进行扫描对比,确认网站内容是否被改动;
事件触发方法:对网站目录进行实时监控,当网站目录变化时自动发出变化通知;
核心内嵌方法:访问者在请求网页时,在将页面内容返回给访问者之前先判断网页是否被篡改;
文件过滤驱动方法:修改系统底层文件系统,在驱动层对页面的改动进行阻截。
上述四种方法均需要在用户的网站服务器上安装监测软件,其中,核心内嵌方法还需要修改现有的网站服务器软件,文件过滤驱动方法还需要修改网站服务器操作系统内核。容易给网站服务器带来额外的系统开销,甚至会导致网站服务器发生宕机使得访问者无法正常访问,影响网站服务器的稳定性。
发明内容
本发明的目的是提供一种网页篡改监测方法及装置,以对网页篡改进行有效监测,避免给网站服务器带来额外的系统开销,保证网站服务器的稳定运行。
为解决上述技术问题,本发明提供如下技术方案:
一种网页篡改监测方法,应用于部署于云端、独立于网站服务器的监测服务器,所述网页篡改监测方法包括:
在达到设定的目标网页对应的监测间隔时,爬取所述目标网页,所述目标网页为待监测网站中任意一个待监测的网页;
将所述目标网页与预先获得的所述目标网页对应的基准网页进行比较,确定异常区域块;
根据所述异常区域块的变化内容,确定所述目标网页是否被篡改。
在本发明的一种具体实施方式中,所述将所述目标网页与预先获得的所述目标网页对应的基准网页进行比较,确定异常区域块,包括:
将所述目标网页与预先获得的所述目标网页对应的基准网页进行比较,确定存在变化的变化区域块集合;
根据预先建立的所述目标网页对应的监测模型,在所述变化区域块集合中确定异常区域块。
在本发明的一种具体实施方式中,所述根据预先建立的所述目标网页对应的监测模型,在所述变化区域块集合中确定异常区域块,包括:
针对所述变化区域块集合中每个变化区域块,根据预先建立的所述目标网页对应的监测模型,确定该变化区域块的正常变化规律;
如果该变化区域块的实际变化规律与该变化区域块的正常变化规律不同,则确定该变化区域块为异常区域块。
在本发明的一种具体实施方式中,在所述确定存在变化的变化区域块集合之后,还包括:
如果所述变化区域块集合包含构成所述目标网页的所有基础区域块,则直接确定所述目标网页被篡改。
在本发明的一种具体实施方式中,所述根据所述异常区域块的变化内容,确定所述目标网页是否被篡改,包括:
针对每个异常区域块,如果该异常区域块的变化内容为文字,且预设的非法文字库中存在与该异常区域块的变化内容匹配的非法文字,则确定所述目标网页被篡改;
如果该异常区域块的变化内容为图片,且识别到该图片为非法图片,则确定所述目标网页被篡改。
在本发明的一种具体实施方式中,在不存在所述目标网页对应的基准网页时,还包括:
根据构成所述目标网页的每个基础区域块显示的内容,确定所述目标网页是否被篡改。
在本发明的一种具体实施方式中,在确定所述目标网页未被篡改之后,还包括:
将所述目标网页确定为下一监测间隔所述目标网页对应的基准网页。
在本发明的一种具体实施方式中,在确定所述目标网页被篡改之后,还包括:
根据确定的篡改内容,生成篡改报告,并将所述篡改报告推送给用户。
在本发明的一种具体实施方式中,还包括:
根据所述目标网页中除所述篡改内容外的其他变化内容,生成确认报告,并将所述确认报告发送给所述用户;
根据所述用户对所述篡改报告和所述确认报告的反馈,确定是否存在误判漏判内容;
如果是,则根据所述误判漏判内容,训练所述监测模型。
一种网页篡改监测装置,应用于部署于云端、独立于网站服务器的监测服务器,所述网页篡改监测装置包括:
目标网页爬取模块,用于在达到设定的目标网页对应的监测间隔时,爬取所述目标网页,所述目标网页为待监测网站中任意一个待监测的网页;
异常区域块确定模块,用于将所述目标网页与预先获得的所述目标网页对应的基准网页进行比较,确定异常区域块;
篡改确定模块,用于根据所述异常区域块的变化内容,确定所述目标网页是否被篡改。
在本发明的一种具体实施方式中,所述异常区域块确定模块,包括:
变化区域块集合确定子模块,用于将所述目标网页与预先获得的所述目标网页对应的基准网页进行比较,确定存在变化的变化区域块集合;
异常区域块确定子模块,用于根据预先建立的所述目标网页对应的监测模型,在所述变化区域块集合中确定异常区域块。
在本发明的一种具体实施方式中,所述异常区域块确定子模块,具体用于:
针对所述变化区域块集合中每个变化区域块,根据预先建立的所述目标网页对应的监测模型,确定该变化区域块的正常变化规律;
如果该变化区域块的实际变化规律与该变化区域块的正常变化规律不同,则确定该变化区域块为异常区域块。
应用本发明实施例所提供的技术方案,部署于云端、独立于网站服务器的监测服务器在达到设定的目标网页对应的监测间隔时,爬取目标网页,将目标网页与预先获得的目标网页对应的基准网页进行比较,可以确定异常区域块,根据异常区域块的变化内容,可以确定目标网页是否被篡改,实现了对网页篡改的有效监测,而且监测服务器独立于网站服务器,可以避免给网站服务器带来额外的系统开销,保证网站服务器的稳定运行。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中网页篡改监测方法的一种实施流程图;
图2为本发明实施例中网页篡改监测方法的另一种实施流程图;
图3为本发明实施例中一种网页篡改监测装置的结构示意图。
具体实施方式
本发明的核心是提供一种网页篡改监测方法,该方法可以应用于部署于云端、独立于网站服务器的监测服务器,监测服务器独立于用户的网站服务器,网站服务器感受不到监测服务器的存在,对用户而言是零部署、零运维,以访问者的视角监测网页是否被篡改。这样可以对网页篡改进行有效监测,避免给网站服务器带来额外的系统开销,保证网站服务器的稳定运行。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1所示,为本发明实施例所提供的一种网页篡改监测方法的实施流程图,该方法可以包括以下步骤:
S110:在达到设定的目标网页对应的监测间隔时,爬取目标网页。
目标网页为待监测网站中任意一个待监测的网页。
在实际应用中,可以根据用户需求,将用户指定的网站作为待监测网站,对待监测网站中的网页进行篡改监测。具体的,可以将待监测网站中的每一个网页确定为待监测的网页,或者,可以将待监测网站中的部分网页确定为待监测的网页。实际上,为了能够快速引起网站访问者的注意,黑客一般只会篡改网站首页或者部分重要的二级页面,所以,可以将网站首页和部分重要的二级网页确定为待监测的网页。
目标网页为待监测网站中任意一个待监测的网页。对待监测网站的每一个待监测的网页均可通过执行本发明实施例所提供的技术方案进行篡改监测,确定任意一个待监测的网页被篡改时,均可确定待监测网站被篡改。
在本发明实施例中,可以针对待监测网站的网页实施分级监测,针对不同级别的网页预先设定不同的监测间隔,当然,各待监测的网页对应的监测间隔还可以相同。在达到设定的目标网页对应的监测间隔时,可以爬取目标网页。爬取到的目标网页的内容与访问者能够看到的网页内容一致。在实际应用中,可以通过现有技术的网络爬虫、正则表达式等方法爬取目标网页,本发明实施例对此不做限制。
S120:将目标网页与预先获得的目标网页对应的基准网页进行比较,确定异常区域块。
在本发明实施例中,可以预先获得目标网页对应的基准网页。基准网页可以由用户提供,或者可以在当前监测间隔的上一监测间隔,确定目标网页未被篡改时,将目标网页确定为当前监测间隔目标网页对应的基准网页。
一个网页可以分成多个基础区域块,不同基础区域块展示的内容不同,比如展示内容为时间、天气预报、访问统计、访问排名、论坛博客等。将目标网页与预先获得的目标网页对应的基准网页进行比较,可以确定各基础区域块的内容是否存在变化。如果存在变化,则可以确定出存在的一个或多个变化区域块,进而可以从变化区域块中确定异常区域块。如果不存在变化,则可以直接确定目标网页未被篡改,进而可以直接将目标网页确定为下一监测间隔目标网页对应的基准网页。
S130:根据异常区域块的变化内容,确定目标网页是否被篡改。
在步骤S120,将目标网页与预先获得的目标网页对应的基准网页进行比较,确定出异常区域块,异常区域块可以有一个或多个。根据异常区域块的变化内容,可以确定目标网页是否被篡改。
具体的,针对每个异常区域块,如果该异常区域块的变化内容为文字,且预设的非法文字库中存在与该异常区域块的变化内容匹配的非法文字,则确定目标网页被篡改;
如果该异常区域块的变化内容为图片,且识别到该图片为非法图片,则确定目标网页被篡改。
通过上述操作对每个异常区域块的变化内容进行识别,只要存在一个异常区域块中的文字为非法文字,或者图片为非法图片,则可以确定目标网页被篡改。
在本发明实施例中,可以预设非法文字库,非法文字库中可以包含设定的非法文字,如语义为涉黄、涉毒、特定广告等的非法文字。对某个异常区域块而言,如果该异常区域块的变化内容为文字,则可以将该异常区域块的变化内容与预设的非法文字库中的非法文字进行匹配,如果非法文字库中存在匹配的非法文字,则可以确定目标网页被篡改。同样,如果该异常区域块的变化内容为图片,则对该图片进行识别,确定该图片是否为非法图片,如色情图片等,如果是,则可以确定目标网页被篡改。如果该异常区域块的变化内容既包括文字又包括图片,则可以分别执行上述操作进行非法性识别。
应用本发明实施例所提供的方法,部署于云端、独立于网站服务器的监测服务器在达到设定的目标网页对应的监测间隔时,爬取目标网页,将目标网页与预先获得的目标网页对应的基准网页进行比较,可以确定异常区域块,根据异常区域块的变化内容,可以确定目标网页是否被篡改,实现了对网页篡改的有效监测,而且监测服务器独立于网站服务器,可以避免给网站服务器带来额外的系统开销,保证网站服务器的稳定运行。
如图2所示,在本发明的一个实施例中,步骤S120可以包括以下步骤:
S121:将目标网页与预先获得的目标网页对应的基准网页进行比较,确定存在变化的变化区域块集合;
S122:根据预先建立的目标网页对应的监测模型,在变化区域块集合中确定异常区域块。
为便于描述,将上述两个步骤结合起来进行说明。
对一个网页而言,该网页具有一定的网页特性,如采用的框架,构成该网页的各基础区域块的变化频率、变化时间等变化规律。在本发明实施例中,通过对目标网页的网页特性进行学习,可以建立目标网页对应的监测模型。
将目标网页与预先获得的目标网页对应的基准网页进行比较,具体的,可以将目标网页的各个基础区域块的内容与基准网页中相应位置基础区域块的内容进行比较。如果存在变化,则可以确定存在变化的变化区域块集合。变化区域块集合中可以包含一个或多个变化区域块。
根据预先建立的目标网页对应的监测模型,可以对变化区域块集合中各变化区域块进行识别,确定异常区域块。
在本发明的一种具体实施方式中,可以针对变化区域块集合中每个变化区域块,根据预先建立的目标网页对应的监测模型,确定该变化区域块的正常变化规律,如果该变化区域块的实际变化规律与该变化区域块的正常变化规律不同,则确定该变化区域块为异常区域块。
变化区域块集合中包含一个或多个变化区域块,针对每个变化区域块,可以根据目标网页对应的监测模型,确定该变化区域块的正常变化规律,如该变化区域块的变化频率、变化时间等。如果该变化区域块的实际变化规律与该变化区域块的正常变化规律相同,则可以确定该变化区域块的变化内容为正常变化,如果不同,则可以确定该变化区域块为异常区域块。
在本发明的一种具体实施方式中,在确定存在变化的变化区域块集合之后,如果变化区域块集合包含构成目标网页的所有基础区域块,则直接确定目标网页被篡改。
可以理解的是,一个网页其采用的框架发生变化的可能性较小。如果确定存在变化的变化区域块集合包含构成目标网页的所有基础区域块,则表明目标网页已被整体替换。在这种情况下,可以直接确定目标网页被篡改。
在本发明的一个实施例中,在不存在目标网页对应的基准网页时,可以根据构成目标网页的每个基础区域块显示的内容,确定目标网页是否被篡改。
具体的,针对构成目标网页的每个基础区域块,如果该基础区域块显示的内容包含黑链接、暗链接、非法文字或者非法图片等,则可以直接确定目标网页被篡改。如果任意一个基础区域块均不包含上述非法内容,则可以确定目标网页未被篡改。
在本发明的一种具体实施方式中,在确定目标网页未被篡改之后,可以将目标网页确定为下一监测间隔目标网页对应的基准网页,以便在达到下一监测间隔时,将爬取到的目标网页与该基准网页进行比较,进而确定目标网页是否被篡改,为下一监测间隔的篡改监测提供比较基础。
在本发明一个实施例中,在确定目标网页被篡改之后,可以根据确定的篡改内容,生成篡改报告,并将篡改报告推送给用户。
在确定目标网页被篡改之后,可以将篡改内容进行截图取证等操作,根据确定的篡改内容,生成篡改报告,并将篡改报告推送给用户,用户根据该篡改报告,可以及时获知当前目标网页存在篡改问题,可以及时做出响应和相应处理。
在本发明的一个实施例中,该方法还可以包括以下步骤:
第一个步骤:根据目标网页中除篡改内容外的其他变化内容,生成确认报告,并将确认报告发送给用户;
第二个步骤:根据用户对篡改报告和确认报告的反馈,确定是否存在误判漏判内容,如果是,则执行第三个步骤;
第三个步骤:根据误判漏判内容,训练监测模型。
为便于描述,将上述三个步骤结合起来进行说明。
目标网页中除确定的篡改内容外,可能还存在其他变化内容,如时间、天气预报、网站统计、统计排名、论坛微博等网页自动变化、更新内容,通过对比更新内容包含的超链接、上下文时间戳等信息确定的旧内容位置变化引起的网页变化等,这些变化内容可以视为正常改动内容。
但为避免漏判情况发生,根据其他变化内容,可以生成确认报告,将确认报告发送给用户。用户接收到篡改报告和确认报告后,可以对篡改报告内容和确认报告内容进行人工审核确认,确定其中是否存在误判、漏判,并向监测服务器反馈误判漏判内容。监测服务器可以根据误判漏判内容,训练监测模型,以使得后续基于监测模块确定的异常区域块更加准确。
在本发明实施例中,监测服务器独立于网站服务器,对于用户业务需部署多台网站服务器,特别是对于第三方托管方而言,不需要在一台台网站服务器上部署监测软件,避免给网站运维带来额外的工作。
另外,现有技术中需在网站服务器上部署监测软件的方法只能保证服务器上的文件不被修改或者修改后被及时发现、恢复,如果攻击者通过DNS劫持或者代理劫持,则不需要修改原文件依然能够达到篡改目的,存在绕过问题。而本发明实施例中监测服务器以访问者的视角监测网页是否被篡改,可以有效避免绕过。
相应于上面的方法实施例,本发明实施例还提供了一种网页篡改监测装置,应用于部署于云端、独立于网站服务器的监测服务器,下文描述的一种网页篡改监测装置与上文描述的一种网页篡改监测方法可相互对应参照。
参见图3所示,该装置可以包括以下模块:
目标网页爬取模块210,用于在达到设定的目标网页对应的监测间隔时,爬取目标网页,目标网页为待监测网站中任意一个待监测的网页;
异常区域块确定模块220,用于将目标网页与预先获得的目标网页对应的基准网页进行比较,确定异常区域块;
篡改确定模块230,用于根据异常区域块的变化内容,确定目标网页是否被篡改。
应用本发明实施例所提供的装置,部署于云端、独立于网站服务器的监测服务器在达到设定的目标网页对应的监测间隔时,爬取目标网页,将目标网页与预先获得的目标网页对应的基准网页进行比较,可以确定异常区域块,根据异常区域块的变化内容,可以确定目标网页是否被篡改,实现了对网页篡改的有效监测,而且监测服务器独立于网站服务器,可以避免给网站服务器带来额外的系统开销,保证网站服务器的稳定运行。
在本发明的一种具体实施方式中,异常区域块确定模块220,包括:
变化区域块集合确定子模块,用于将目标网页与预先获得的目标网页对应的基准网页进行比较,确定存在变化的变化区域块集合;
异常区域块确定子模块,用于根据预先建立的目标网页对应的监测模型,在变化区域块集合中确定异常区域块。
在本发明的一种具体实施方式中,异常区域块确定子模块,具体用于:
针对变化区域块集合中每个变化区域块,根据预先建立的目标网页对应的监测模型,确定该变化区域块的正常变化规律;
如果该变化区域块的实际变化规律与该变化区域块的正常变化规律不同,则确定该变化区域块为异常区域块。
在本发明的一种具体实施方式中,篡改确定模块230,还用于:
在确定存在变化的变化区域块集合之后,如果变化区域块集合包含构成目标网页的所有基础区域块,则直接确定目标网页被篡改。
在本发明的一种具体实施方式中,篡改确定模块230,具体用于:
针对每个异常区域块,如果该异常区域块的变化内容为文字,且预设的非法文字库中存在与该异常区域块的变化内容匹配的非法文字,则确定目标网页被篡改;
如果该异常区域块的变化内容为图片,且识别到该图片为非法图片,则确定目标网页被篡改。
在本发明的一种具体实施方式中,篡改确定模块230,还用于:
在不存在目标网页对应的基准网页时,根据构成目标网页的每个基础区域块显示的内容,确定目标网页是否被篡改。
在本发明的一种具体实施方式中,还包括基准网页确定模块,用于:
在确定目标网页未被篡改之后,将目标网页确定为下一监测间隔目标网页对应的基准网页。
在本发明的一种具体实施方式中,还包括篡改报告推送模块,用于:
在确定目标网页被篡改之后,根据确定的篡改内容,生成篡改报告,并将篡改报告推送给用户。
在本发明的一种具体实施方式中,还包括训练模块,用于:
根据目标网页中除篡改内容外的其他变化内容,生成确认报告,并将确认报告发送给用户;
根据用户对篡改报告和确认报告的反馈,确定是否存在误判漏判内容;
如果是,则根据误判漏判内容,训练监测模型。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (9)

1.一种网页篡改监测方法,其特征在于,应用于部署于云端、独立于网站服务器的监测服务器,所述网页篡改监测方法包括:
在达到设定的目标网页对应的监测间隔时,爬取所述目标网页,所述目标网页为待监测网站中任意一个待监测的网页;
将所述目标网页与预先获得的所述目标网页对应的基准网页进行比较,确定异常区域块;
根据所述异常区域块的变化内容,确定所述目标网页是否被篡改;
在确定所述目标网页未被篡改之后,将所述目标网页确定为下一监测间隔所述目标网页对应的基准网页;
其中,所述将所述目标网页与预先获得的所述目标网页对应的基准网页进行比较,确定异常区域块,包括:
将所述目标网页与预先获得的所述目标网页对应的基准网页进行比较,确定存在变化的变化区域块集合;
根据预先建立的所述目标网页对应的监测模型,在所述变化区域块集合中确定异常区域块;所述监测模型为通过对所述目标网页的网页特性进行学习建立的,所述目标网页的网页特性包括采用的框架、构成所述目标网页的各基础区域块的变化规律。
2.根据权利要求1所述的网页篡改监测方法,其特征在于,所述根据预先建立的所述目标网页对应的监测模型,在所述变化区域块集合中确定异常区域块,包括:
针对所述变化区域块集合中每个变化区域块,根据预先建立的所述目标网页对应的监测模型,确定该变化区域块的正常变化规律;
如果该变化区域块的实际变化规律与该变化区域块的正常变化规律不同,则确定该变化区域块为异常区域块。
3.根据权利要求1所述的网页篡改监测方法,其特征在于,在所述确定存在变化的变化区域块集合之后,还包括:
如果所述变化区域块集合包含构成所述目标网页的所有基础区域块,则直接确定所述目标网页被篡改。
4.根据权利要求1所述的网页篡改监测方法,其特征在于,所述根据所述异常区域块的变化内容,确定所述目标网页是否被篡改,包括:
针对每个异常区域块,如果该异常区域块的变化内容为文字,且预设的非法文字库中存在与该异常区域块的变化内容匹配的非法文字,则确定所述目标网页被篡改;
如果该异常区域块的变化内容为图片,且识别到该图片为非法图片,则确定所述目标网页被篡改。
5.根据权利要求1所述的网页篡改监测方法,其特征在于,在不存在所述目标网页对应的基准网页时,还包括:
根据构成所述目标网页的每个基础区域块显示的内容,确定所述目标网页是否被篡改。
6.根据权利要求1至5任一项所述的网页篡改监测方法,其特征在于,在确定所述目标网页被篡改之后,还包括:
根据确定的篡改内容,生成篡改报告,并将所述篡改报告推送给用户。
7.根据权利要求6所述的网页篡改监测方法,其特征在于,还包括:
根据所述目标网页中除所述篡改内容外的其他变化内容,生成确认报告,并将所述确认报告发送给所述用户;
根据所述用户对所述篡改报告和所述确认报告的反馈,确定是否存在误判漏判内容;
如果是,则根据所述误判漏判内容,训练所述监测模型。
8.一种网页篡改监测装置,其特征在于,应用于部署于云端、独立于网站服务器的监测服务器,所述网页篡改监测装置包括:
目标网页爬取模块,用于在达到设定的目标网页对应的监测间隔时,爬取所述目标网页,所述目标网页为待监测网站中任意一个待监测的网页;
异常区域块确定模块,用于将所述目标网页与预先获得的所述目标网页对应的基准网页进行比较,确定异常区域块;
篡改确定模块,用于根据所述异常区域块的变化内容,确定所述目标网页是否被篡改;
基准网页确定模块,用于在确定所述目标网页未被篡改之后,将所述目标网页确定为下一监测间隔所述目标网页对应的基准网页;
其中,所述异常区域块确定模块,包括:
变化区域块集合确定子模块,用于将所述目标网页与预先获得的所述目标网页对应的基准网页进行比较,确定存在变化的变化区域块集合;
异常区域块确定子模块,用于根据预先建立的所述目标网页对应的监测模型,在所述变化区域块集合中确定异常区域块;所述监测模型为通过对所述目标网页的网页特性进行学习建立的,所述目标网页的网页特性包括采用的框架、构成所述目标网页的各基础区域块的变化规律。
9.根据权利要求8所述的网页篡改监测装置,其特征在于,所述异常区域块确定子模块,具体用于:
针对所述变化区域块集合中每个变化区域块,根据预先建立的所述目标网页对应的监测模型,确定该变化区域块的正常变化规律;
如果该变化区域块的实际变化规律与该变化区域块的正常变化规律不同,则确定该变化区域块为异常区域块。
CN201710469842.5A 2017-06-20 2017-06-20 一种网页篡改监测方法及装置 Active CN107301355B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710469842.5A CN107301355B (zh) 2017-06-20 2017-06-20 一种网页篡改监测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710469842.5A CN107301355B (zh) 2017-06-20 2017-06-20 一种网页篡改监测方法及装置

Publications (2)

Publication Number Publication Date
CN107301355A CN107301355A (zh) 2017-10-27
CN107301355B true CN107301355B (zh) 2021-07-02

Family

ID=60136358

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710469842.5A Active CN107301355B (zh) 2017-06-20 2017-06-20 一种网页篡改监测方法及装置

Country Status (1)

Country Link
CN (1) CN107301355B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108319866A (zh) * 2018-01-31 2018-07-24 上海携程商务有限公司 分布式的js文件篡改监控方法、系统、设备及存储介质
CN108427881A (zh) * 2018-03-16 2018-08-21 北京知道创宇信息技术有限公司 网页篡改监控方法、装置、监控设备及可读存储介质
CN108563963A (zh) * 2018-04-16 2018-09-21 深信服科技股份有限公司 网页篡改检测方法、装置、设备及计算机可读存储介质
CN109815744A (zh) * 2018-12-18 2019-05-28 中国科学院计算机网络信息中心 网页篡改的检测方法、装置及存储介质
CN110908857B (zh) * 2019-09-29 2024-01-12 京东科技控股股份有限公司 界面数据的监控方法、装置、终端设备及存储介质
CN111159775A (zh) * 2019-12-11 2020-05-15 中移(杭州)信息技术有限公司 网页篡改检测方法、系统、装置及计算机可读存储介质
CN111193617B (zh) * 2019-12-17 2022-10-18 中移(杭州)信息技术有限公司 网页篡改识别方法、装置、电子设备及存储介质
CN111199040B (zh) * 2019-12-18 2023-09-12 中国平安人寿保险股份有限公司 页面篡改检测方法、装置、终端及存储介质
CN111212055A (zh) * 2019-12-30 2020-05-29 上海安洵信息技术有限公司 非侵入式网站远程检测系统及检测方法
CN113806732B (zh) * 2020-06-16 2023-11-03 深信服科技股份有限公司 一种网页篡改检测方法、装置、设备及存储介质
CN111818019B (zh) * 2020-06-19 2023-04-18 五八有限公司 网络劫持数据或网络劫持的确定方法、装置、设备及介质
CN111783159A (zh) * 2020-07-07 2020-10-16 杭州安恒信息技术股份有限公司 网页篡改的验证方法、装置、计算机设备和存储介质
CN111898013B (zh) * 2020-07-27 2024-03-19 绿盟科技集团股份有限公司 一种网站监测的方法及装置
CN112650684B (zh) * 2020-12-29 2023-03-24 杭州趣链科技有限公司 网页取证的验证方法、装置、设备及存储介质
CN113360508A (zh) * 2021-04-28 2021-09-07 浙江宏恩网络科技有限公司 产品质控管理方法、装置、存储介质和电子设备
CN113407885B (zh) * 2021-06-23 2024-04-12 中移(杭州)信息技术有限公司 XPath数据篡改告警方法、装置、设备及可读存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129528A (zh) * 2010-01-19 2011-07-20 北京启明星辰信息技术股份有限公司 一种web网页篡改识别方法及系统
CN102624713A (zh) * 2012-02-29 2012-08-01 深信服网络科技(深圳)有限公司 网站篡改识别的方法及装置
CN102779245A (zh) * 2011-05-12 2012-11-14 李朝荣 基于图像处理技术的网页异常检测方法
CN102938042A (zh) * 2012-10-30 2013-02-20 北京神州绿盟信息安全科技股份有限公司 网页篡改检测方法及装置
CN102938041A (zh) * 2012-10-30 2013-02-20 北京神州绿盟信息安全科技股份有限公司 一种页面篡改的综合检测方法及系统
CN103605926A (zh) * 2013-11-29 2014-02-26 北京奇虎科技有限公司 一种网页篡改的检测方法及装置
CN104156665A (zh) * 2014-07-22 2014-11-19 杭州安恒信息技术有限公司 一种网页篡改监测的方法
CN104484604A (zh) * 2014-12-31 2015-04-01 北京神州绿盟信息安全科技股份有限公司 一种网页篡改识别方法、扫描器、装置及系统
CN105208002A (zh) * 2015-08-24 2015-12-30 成都秋雷科技有限责任公司 钓鱼网站拦截方法
CN106446118A (zh) * 2016-09-19 2017-02-22 中国南方电网有限责任公司信息中心 一种页面变更模版自动生成方法
CN106599242A (zh) * 2016-12-20 2017-04-26 福建六壬网安股份有限公司 一种基于相似度计算的网页变更监测方法和系统
CN106685936A (zh) * 2016-12-14 2017-05-17 深圳市深信服电子科技有限公司 网页篡改的检测方法及装置
CN106778357A (zh) * 2016-12-23 2017-05-31 北京神州绿盟信息安全科技股份有限公司 一种网页篡改的检测方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4881718B2 (ja) * 2006-12-27 2012-02-22 Kddi株式会社 ウェブページの改竄検知装置、プログラム、および記録媒体
JP5106643B2 (ja) * 2011-01-05 2012-12-26 株式会社東芝 Webページ改竄検知装置及びプログラム
CN102436564A (zh) * 2011-12-30 2012-05-02 奇智软件(北京)有限公司 一种识别被篡改网页的方法及装置
CN102571791B (zh) * 2011-12-31 2015-03-25 奇智软件(北京)有限公司 一种分析网页内容是否被篡改的方法及系统

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129528A (zh) * 2010-01-19 2011-07-20 北京启明星辰信息技术股份有限公司 一种web网页篡改识别方法及系统
CN102779245A (zh) * 2011-05-12 2012-11-14 李朝荣 基于图像处理技术的网页异常检测方法
CN102624713A (zh) * 2012-02-29 2012-08-01 深信服网络科技(深圳)有限公司 网站篡改识别的方法及装置
CN102938042A (zh) * 2012-10-30 2013-02-20 北京神州绿盟信息安全科技股份有限公司 网页篡改检测方法及装置
CN102938041A (zh) * 2012-10-30 2013-02-20 北京神州绿盟信息安全科技股份有限公司 一种页面篡改的综合检测方法及系统
CN103605926A (zh) * 2013-11-29 2014-02-26 北京奇虎科技有限公司 一种网页篡改的检测方法及装置
CN104156665A (zh) * 2014-07-22 2014-11-19 杭州安恒信息技术有限公司 一种网页篡改监测的方法
CN104484604A (zh) * 2014-12-31 2015-04-01 北京神州绿盟信息安全科技股份有限公司 一种网页篡改识别方法、扫描器、装置及系统
CN105208002A (zh) * 2015-08-24 2015-12-30 成都秋雷科技有限责任公司 钓鱼网站拦截方法
CN106446118A (zh) * 2016-09-19 2017-02-22 中国南方电网有限责任公司信息中心 一种页面变更模版自动生成方法
CN106685936A (zh) * 2016-12-14 2017-05-17 深圳市深信服电子科技有限公司 网页篡改的检测方法及装置
CN106599242A (zh) * 2016-12-20 2017-04-26 福建六壬网安股份有限公司 一种基于相似度计算的网页变更监测方法和系统
CN106778357A (zh) * 2016-12-23 2017-05-31 北京神州绿盟信息安全科技股份有限公司 一种网页篡改的检测方法及装置

Also Published As

Publication number Publication date
CN107301355A (zh) 2017-10-27

Similar Documents

Publication Publication Date Title
CN107301355B (zh) 一种网页篡改监测方法及装置
US11134094B2 (en) Detection of potential security threats in machine data based on pattern detection
CN110413908B (zh) 基于网站内容对统一资源定位符进行分类的方法和装置
US10069857B2 (en) Performing rule-based actions based on accessed domain name registrations
US10757132B1 (en) System and method for evaluating and optimizing training effectiveness
US9621566B2 (en) System and method for detecting phishing webpages
US20140380477A1 (en) Methods and devices for identifying tampered webpage and inentifying hijacked web address
US20150067848A1 (en) Detecting automated site scans
WO2012101623A1 (en) Web element spoofing prevention system and method
US20180150639A1 (en) Security vulnerability detection
CN102436564A (zh) 一种识别被篡改网页的方法及装置
CN104486140A (zh) 一种检测网页被劫持的装置及其检测方法
CN110782374A (zh) 基于区块链的电子取证方法及系统
CN102594934A (zh) 一种识别被劫持网址的方法及装置
Kaur et al. Browser fingerprinting as user tracking technology
CN103647767A (zh) 一种网站信息的展示方法和装置
CN103973635A (zh) 页面访问控制方法和相关装置及系统
CN114244564A (zh) 攻击防御方法、装置、设备及可读存储介质
CN110611611B (zh) 一种用于家庭网关的web安全访问方法
CN114448645A (zh) 网页访问的处理方法、装置、存储介质、程序产品
Demir et al. A Large-Scale Study of Cookie Banner Interaction Tools and their Impact on Users' Privacy
CN116451071A (zh) 样本标注方法、设备及可读存储介质
Ro et al. Detection Method for Distributed Web‐Crawlers: A Long‐Tail Threshold Model
CN115499192A (zh) web蜜罐仿真方法、装置、计算机设备及可读存储介质
US9906514B1 (en) Resisting anonymous scraping

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A web page tampering monitoring method and device

Effective date of registration: 20231212

Granted publication date: 20210702

Pledgee: Shenzhen Branch of China Merchants Bank Co.,Ltd.

Pledgor: SANGFOR TECHNOLOGIES Inc.

Registration number: Y2023980070863

PE01 Entry into force of the registration of the contract for pledge of patent right