CN103279475B - 一种web应用系统内容变更的检测方法及系统 - Google Patents

一种web应用系统内容变更的检测方法及系统 Download PDF

Info

Publication number
CN103279475B
CN103279475B CN201310124832.XA CN201310124832A CN103279475B CN 103279475 B CN103279475 B CN 103279475B CN 201310124832 A CN201310124832 A CN 201310124832A CN 103279475 B CN103279475 B CN 103279475B
Authority
CN
China
Prior art keywords
content
detection
page
pages
change
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310124832.XA
Other languages
English (en)
Other versions
CN103279475A (zh
Inventor
陈军
王甜
邹洪
崔磊
朱奕
艾解清
吴阳
吴一阳
卜夏锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Center of Guangdong Power Grid Co Ltd
Original Assignee
Information Center of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Center of Guangdong Power Grid Co Ltd filed Critical Information Center of Guangdong Power Grid Co Ltd
Priority to CN201310124832.XA priority Critical patent/CN103279475B/zh
Publication of CN103279475A publication Critical patent/CN103279475A/zh
Application granted granted Critical
Publication of CN103279475B publication Critical patent/CN103279475B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Storage Device Security (AREA)

Abstract

本发明提供了一种WEB应用系统内容变更的检测方法及系统,该方法及系统通过将抓取到的网站网页内容以页面文件为单元存储在检测页面积累库中,并记录该网站被检测的次数;利用保存的检测次数和抓取到的页面文件是否存在来判断该网站是否为新网站和该网页是否为新网页;判断该网页文件中所包含的存储元素与历史保存的该网页文件中所包含的存储元素是否相同,如果检测为发生变更则输出检测结果。本发明提供的方法及系统,对WEB应用系统内容进行了全方位的检测,从页面特征库码、页面内容元素和页面动态或者静态内容精细化定位页面内容变更的具体原因,从而取得网页检测的准确度,为WEB应用系统内容变更的检测提供了方便。

Description

一种WEB应用系统内容变更的检测方法及系统
技术领域
本发明涉及网络安全领域,特别涉及一种WEB应用系统内容变更的检测方法及系统。
背景技术
网页内容变更主要判断是否是新增页面或是否页面内容变化,通过相关技术检测页面被篡改,篡改页面定位具体的问题,并做出预警响应。在现有技术中主要使用外挂轮询技术、核心内嵌技术、时间触发技术等技术对网页内容变更进行检测,此三种技术在对网页内容检测上,比如:访问被篡改网页、保护动态内容、服务器负载、带宽占用和断线时保护等方面各有利弊。
但是不管是外挂轮询技术、核心内嵌技术还是时间触发技术,都无法分辨页面是新增加的还是被篡改的,对页面内容检测的深入挖掘和分析不够,无法精确识别页面变更的具体原因,检测手段不够全面,只从某些方面做检测,存在技术死角,并且上述三种技术都没有记录被检测页面的属性、特征码、页面元素和页面分解内容等,不能定位和追溯页面变更的源头,深入分析变更的根本所在。
因此现有技术还有待进一步的改进。
发明内容
本发明的目的是,针对上述现有技术存在的缺陷提供了一种WEB应用系统内容变更的检测方法及系统,目的在于:对网站页面内容变更进行定时检测,及时获取页面内容变更的信息,实现对网站网页内容的及时维护。
本发明的技术方案如下:
一种WEB应用系统内容变更的检测方法,其中,包括以下方法步骤:
A、每隔一预定的时间对网站网页内容进行检测,抓取检测网站的首页内容及与首页链接的第一层和第二层的内容;将抓取到的内容以页面文件为单元存储在检测页面积累库中,并记录该网站被检测的次数;
B、依次判断该网页文件中所包含的存储元素与上一次保存的该网页文件中所包含的存储元素是否发生变更,如果全部相同,则退出检测,如果检测为发生变更则将检测结果保存入检测页面积累库,并汇总检测数据;
C、输出页面变更所在的页面地址,并将页面地址与变更页面进行链接,并对页面变更内容进行标注处理并显示。
所述网站页面变更的检测方法,其中,所述步骤A中还包括:
步骤A1、判断所检测的网站是否为第一次检测,若为第一次被检测,则记录为新增页面内容;
步骤A2、若非第一次检测,则检测抓取到的页面文件是否已经存在所述检测页面积累库中,若不存在,则判断为新增文件。
所述网站页面变更的检测方法,其中,所述步骤A中的页面文件所包含的存储元素包括:原始页面、页面文件属性、页面特征码、页面内容元素和页面内容。
所述网站页面变更的检测方法,其中,所述检测页面积累库中包括:页面文件属性库、页面特征码库、页面内容元素库和内容篡改库。
所述网站页面变更的检测方法,其中,上述步骤B中对抓取到的页面文件进行页面内容变更检测具体包括以下步骤:
B1.如果该网页文件的页面文件属性与页面文件属性库中上一次保存该网页文件的页面文件属性不同,则找出保存时间与本次检测时间最接近的版本,读取页面内容变更是否确认,若已经确认,则该页面内容未变更,若未确认则进入下一步检测;
B2.如果该网页文件的页面特征码与页面特征码库中上一次保存的该网页文件的页面特征码不同,则找出保存时间与本次检测时间最接近的版本,读取页面内容变更是否确认,若已经确认,则该页面内容未变更,退出检测,若未确认则进入下一步检测;
B3.如果该网页文件的页面内容元素与页面内容元素库中上一次保存的该网页文件的页面内容元素不同,则找出保存时间与本次检测时间最接近的版本,读取页面内容变更是否确认,若已经确认,则该页面内容未变更,退出检测,若未确认则进入下一步检测;
B4.如果该网页文件的页面内容与上次保存的该网页文件的页面内容与前页面与上次页面内容不同,则将更改内容保存到内容篡改库,汇总上述步骤中检测到的数据,并输出页面变更原因;如果相同,则退出检测。
一种WEB应用系统内容变更的检测方法,其中,包括以下功能模块:
页面内容获取模块,每隔一预定的时间对网站网页内容进行检测,并抓取检测网站的首页内容及与首页链接的第一层和第二层的内容;并将抓取到的内容以页面文件为单元存储在检测页面积累库中,并记录该网站被检测的次数;
网页文件内容变更检测模块,依次检测该网页文件中所包含的存储元素与上一次保存的该网页文件中所包含的存储元素是否发生变更,如果全部相同,则退出检测,如果检测为发生变更则将检测结果保存入检测页面积累库,并汇总检测数据;
检测结果输出模块,输出页面变更所在的页面地址,并将页面地址与变更页面进行链接,并对页面变更内容进行标注处理并显示。
所述WEB应用系统内容变更的检测系统,其中,所述系统还包括:
网站检测模块,用于判断所检测的网站是否为第一次检测,如果是第一次检测,则判断其为新增网页;
网页检测模块,如果为非第一次被检测,则判断其是否该页面文件在检测页面积累库中是否存在,如果不存在则判定为新增文件。
所述WEB应用系统内容变更的检测系统,其中,页面内容获取模块中的页面文件所包含的存储元素包括:原始页面、页面文件属性、页面特征码、页面内容元素和页面内容。
所述WEB应用系统内容变更的检测系统,其中,所述检测页面积累库中包括:页面文件属性库、页面特征码库、页面内容元素库和内容篡改库。
所述WEB应用系统内容变更的检测系统,其中,所述网页文件内容变更检测模块中包括以下模块:
网页文件属性检测模块,用于对该网页文件的页面文件属性与页面文件属性库中历史保存的网页文件属性内容比对,判断出其是否发生变更;
页面特征码检测模块,用于对该网页文件的页面特征码与页面特征码库中历史保存的页面特征码进行对比,判断出其是否发生变更;
页面内容元素检测模块,用于对该于对该网页文件的页面内容元素与页面内容元素库中历史保存的网页内容元素比对,判断出其是否发生变更;
页面内容检测模块,用于对该网页的页面内容与上次保存的页面内容进行比对,如果发生变更,则将变更内容保存到内容篡改库,汇总上述步骤中检测到的数据。
本发明的有益效果为:本发明提供了一种WEB应用系统内容变更的检测方法及系统,该方法通过自动抓取网站内容信息,并将抓取内容保存在检测页面积累库中和记录该网站被检测的次数,利用检测页面积累库中保存的历史记录与本次获取的网页内容信息进行分析对比,从而判断出网页是否发生变更,并且将检测结果输出显示,实现了网站页面的多重检测,支持多方位多级内容检测,完善了检测完整度,便于提高检测的精确度和性能。
附图说明
图1为本发明一种WEB应用系统内容变更的检测方法方法流程图。
图2为本发明一种WEB应用系统内容变更的检测方法中对页面内容变更检测的具体步骤流程图。
图3为本发明一种WEB应用系统内容变更的检测方法最佳实施例的示意图。
图4为本发明一种WEB应用系统内容变更的检测系统结构原理图。
图5为本发明中网页文件内容变更检测模块中的结构原理图。
具体实施方式
本发明提供了一种WEB应用系统内容变更的检测方法及系统,为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。
如图1所示,本发明提供了一种WEB应用系统内容变更的检测方法,,在本实施例中,所述WEB应用系统所指为网站,该方法包括以下步骤:
一种WEB应用系统内容变更的检测方法,其中,包括以下方法步骤:
S1、每隔一预定的时间对网站网页内容进行检测,抓取检测网站的首页内容及与首页链接的第一层和第二层的内容;将抓取到的内容以页面文件为单元存储在检测页面积累库中,并记录该网站被检测的次数。
首先设置在网站上抓取网站内容的规则,在现有技术中通常使用网络爬虫是通过网页的链接地址来寻找网页,直到把这个网站所有的网页都抓取完为止,在具体的应用实施过程中,为了更快的获取网站内容,可以通过预先设置的信息获取规则来省略掉一些不需要进行内容获取的网页,来减少抓取内容的工作量。在本方法中使用的网站网页内容获取规则设定为:每30分钟获取一次,获取的网站深度涉及到待检测网站的首页、首页上链接的第一层和第二层,可以想到的是,网页内容抓取周期可以根据需要设置为更长或者更短一点的时间,根据检测的实际需要网站检测的深度可以仅仅为首页或者该网站的全部网页。
使用预设的网站网页内容获取规则来对待检测的网站进行网页内容的抓取,将抓取到的内容以页面文件为单元保存在检测页面积累库中,所述检测页面积累库中保存全部检测网站时抓取到的页面文件,便于以后再次对该网站网页进行检测时使用,并且记录该网站被检测的次数,以备下一步检测使用。
本步骤中获取的页面内容以原始格式临时存于硬盘,页面内容包括js脚本、html脚本、a链接、图片链接、文字内容等信息。
S2、依次判断该网页文件中所包含的存储元素与上一次保存的该网页文件中所包含的存储元素是否发生变更,如果全部相同,则退出检测,如果检测为发生变更则将检测结果保存入检测页面积累库,并汇总检测数据;在检测页面积累库中保存有该网页文件的历史信息,此历史信息包括曾经检测该页面所抓取到的网页文件相关的存储元素,在本步骤中,依次将在检测页面积累库中历史保存的该网页文件与本次获取的存储元素进行比对,判断其是否发生变更,如果该网页文件中所包含的存储元素与历史保存的该网页文件中所包含的存储元素相比较未发生变更,则说明该网页文件未发生改变,如果发生变更,则说明该网页已经变更,保存该此检测结果如检测页面积累库,并汇总检测数据。
所述网页文件包含的存储元素包括:原始页面、页面文件属性、页面特征码、页面内容元素和页面内容。在所述网站页面变更的检测系统,其中,所述检测页面积累库中包括:页面文件属性库、页面特征码库、页面内容元素库和内容篡改库,用于对网页文件中所包含的存储元素及下面步骤中检测的结果进行对应保存。
S3、输出页面变更所在的页面地址,并将页面地址与变更页面进行链接,并对页面变更内容进行标注处理并显示。
输出上述步骤S2中检测出的页面发生变更的页面地址及页面,并将页面地址与变更页面进行链接显示,对页面变更内容进行标注突出显示。利用在步骤S1中以原始格式临时存于硬盘的页面内容信息,可以快速追踪到页面变更的源头,从而为分析页面变更的原因提供方便。
在上述所述步骤S1中还包括:判断所检测的网站是否为第一次检测,若为第一次被检测,则记录为新增页面内容;若非第一次检测,则检测抓取到的页面文件是否已经存在所述检测页面积累库中,若不存在,则判断为新增文件。
可以想到的是,从记录网站被检测的次数可以获知该网站被检测的次数,如果被检测的网站为首次检测,则对于所述检测页面积累库中该网站的检测次数为0次,因此可以判断出该网站为新增网站,此次检测结束。如果该网站的检测次数不是0次,则在检测页面积累库中保存有该网站网页历史抓取到的网页文件,将本次抓取到的网页文件与历史保存的该网站的网页文件进行比对,判断此网站的该网页文件是否存在,如果不存在,则说明该网页为新增网页,本次检测结束,如果存在,则需要进行进一步的检测。
具体的,如图2所示,在上述步骤S2中对抓取到的页面文件进行页面内容变更检测具体包括以下步骤:
S21.对该网页文件的页面文件属性与页面文件属性库中上一次保存该网页文件的页面文件属性相比对,如果不同,则进入下一步检测;如果相同则比对页面文件属性库中的该页面文件的页面文件属性的历史版本,若所有的历史版本相同,则判断页面未变更,否则找出保存时间与本次检测时间最接近的版本,读取页面内容变更是否确认,若已经确认,则该页面内容未变更,退出检测,若未确认则进入下一步检测。
在检测页面积累库中的页面文件属性库中包含有每次检测得到的页面文件中的页面文件属性,在本步骤中将该网页文件的页面文件属性与上一次检测后保存的该网页文件属性相比对,判断其是否相同,如果不同,则需要进行下一步检测,如果相同,则将本次的网页文件属性与全部的历史版本相比对,判断是否相同,如果相同则说明本网页文件未发生变更;若历史版本的网页文件属性存在与本次不同的版本则找出最为接近本次检测时间的网页文件属性版本,读取与其相对于的页面内容变更信息是否已经确认,如果已经确认,则说明为历史页面内容变更,并已经确认,因此判定本次页面内容未变更,退出检测,但如果上次页面内容变更未确认,则需要进行下一步的检测。
S22.对该网页文件的页面特征码与页面特征码库中上一次保存的该网页文件的页面特征码进行比对,如果不同,则进入下一步检测;如果相同,则比对页面特征码库中的该页面文件的页面特征码的历史版本,若所有的历史版本相同,则判断页面未变更,否则找出保存时间与本次检测时间最接近的版本,读取页面内容变更是否确认,若已经确认,则该页面内容未变更,退出检测,若未确认则进入下一步检测。
因为在页面特征码库中保存有每次检测页面保存下来的页面特征码,因此在本步骤中将该网页文件的页面特征码与上一次检测后保存的该网页特征码相比对,判断其是否相同,如果不同,则需要进行下一步检测,如果相同,则将本次的网页特征码与全部的历史版本相比对,判断是否相同,如果相同则说明本网页文件未发生变更;若历史版本的网页特征码存在与本次不同的版本则找出最为接近本次检测时间的网页特征码版本,读取与其相对于的页面内容变更信息是否已经确认,如果已经确认,则说明为历史页面内容变更,并已经确认,因此判定本次页面内容未变更,退出检测,但如果上次页面内容变更未确认,则需要进行下一步的检测。
S23.对该网页文件的页面内容元素与页面内容元素库中上一次保存的该网页文件的页面内容元素进行比对,如果不同,则进入下一步检测;如果相同,则比对页面内容元素库中的该页面文件的页面内容元素的历史版本,若所有的历史版本相同,则判断页面未变更,否则找出保存时间与本次检测时间最接近的版本,读取页面内容变更是否确认,若已经确认,则该页面内容未变更,退出检测,若未确认则进入下一步检测。
因为在页面内容元素库中保存有每次检测页面保存下来的页面内容元素,因此在本步骤中将该网页文件的页面内容元素与上一次检测后保存的该网页页面内容元素相比对,判断其是否相同,如果不同,则需要进行下一步检测,如果相同,则将本次的网页内容元素与全部的历史版本相比对,判断是否相同,如果相同则说明本网页文件未发生变更;若历史版本的网页特征码存在与本次不同的版本则找出最为接近本次检测时间的网页特征码版本,读取与其相对于的页面内容变更信息是否已经确认,如果已经确认,则说明为历史页面内容变更,并已经确认,因此判定本次页面内容未变更,退出检测,但如果上次页面内容变更未确认,则需要进行下一步的检测。
上述页面内容元素具体的是指构建页面框架的html元素集合,包括html、body、head、font、table、tr、td等。
S24.对该网页文件的页面内容与上次保存的该网页文件的页面内容进行比对,如果当前页面与上次页面内容不同,则将更改内容保存到内容篡改库,汇总上述步骤中检测到的数据,并输出页面变更原因,检测结束;如果相同,则退出检测。
将本次获取的页面内容与上次保存的该网页文件的页面内容进行比对,判断是否发生变化,如果发生变化则将更改内容保存到内容篡改库中,并汇总上述步骤中检测的数据,并根据检测的数据分析页面变更的原因,检测结束。
优选的,在步骤S2中支持对已经检测过的页面做人工二次确认,并将确认后的结果保存在页面积累库中。
如图3所述为本发明一种WEB应用系统内容变更的检测方法最佳实施例的示意图。如图所示,首先开始本次检测,在步骤H1中对待检测的网站页面进行内容抓取,并将抓取的内容保存在检测页面积累库中。具体的可以使用网络爬虫的方法也可以预定网页页面内容抓取的规则来设定多久抓取一次内容,抓取网页内容的深度来提高本次抓取的速度,通过记录网站检测的次数来判断此网站是否为新网站或者通过保存在检测页面积累库中是否存在该页面文件来判断其是否为新增页面。如果非此两种情况则进行步骤H2中对网页内容变更分析的检测。
在步骤H2中,由在检测页面积累库中存储有该页面文件的历史存储元素:在页面文件属性库中存储有所有检测获取的页面文件属性,在页面特征码库中存储有所有检测获取的页面特征码,在页面内容元素库中存储有历史检测得到的全部页面内容元素,及在内容篡改库中保存有所有页面内容被篡改的信息,使用其中保存的历史存储元素对该此获取的页面内容文件中所包含的存储元素进行分别对比,判断存储元素是否发生变更,如果发生变更,则说明本页面文件发生变更。
最后在步骤H3中汇总检测结果,将变更页面和变更的内容进行输出显示。
本发明提供了一种WEB应用系统内容变更的检测方法,该方法通过使用获取网站网页内容,并将其保存在检测页面积累库中,并将此次保存的页面文件所包含的存储元素与所述检测页面积累库中该页面文件的存储元素进行比对,从而判断出其是否发生变更。本发明的方法对从网页获取的页面信息进行层层:对比页面属性、特征码、页面内容元素和页面内容,支持了全方位的分步多级内容检测,完善了内容检测完整度,提高检测的准确度,提高检测的性能、效率以及对软硬件环境的要求,并能追溯页面内容变更的源头,从而为网站页面变更提供了更加快速准确的检测方法。
本发明还提供了一种WEB应用系统内容变更的检测系统,如图4所示,该系统包括以下功能模块:
页面内容获取模块10,每隔一预定的时间对网站网页内容进行检测,并抓取检测网站的首页内容及与首页链接的第一层和第二层的内容;并将抓取到的内容以页面文件为单元存储在检测页面积累库中,并记录该网站被检测的次数;该模块的功能与上述步骤S1相同。
网页文件内容变更检测模块20,依次判断该网页文件中所包含的存储元素与上一次保存的该网页文件中所包含的存储元素是否发生变更,如果全部相同,则退出检测,如果检测为发生变更则将检测结果保存入检测页面积累库,并汇总检测数据;该模块的功能与上述步骤S2相同。
检测结果输出模块30,输出页面变更所在的页面地址,并将页面地址与变更页面进行链接,并对页面变更内容进行标注处理并显示,该模块的功能与上述步骤S3相同。
所述WEB应用系统内容变更的检测系统,其中,所述页面内容获取模块10的所保存的页面文件所包含的存储元素包括:原始页面、页面文件属性、页面特征码、页面内容元素和页面内容。
所述检测页面积累库中包括:页面文件属性库、页面特征码库、页面内容元素库和内容篡改库。
优选在,在所述WEB应用系统内容变更的检测系统中,还包括:
网站检测模块,用于判断所检测的网站是否为第一次检测,如果是第一次检测,则判断其为新增网页。
网页检测模块,如果为非第一次被检测,则判断其是否该页面文件在检测页面积累库中是否存在,如果不存在则判定为新增文件。
所述网站页面变更的检测系统,其中,如图5所示,所述网页文件内容变更检测模块20中包括以下模块:
网页文件属性检测模块201,用于对该网页文件的页面文件属性与页面文件属性库中历史保存的网页文件属性内容比对,判断出其是否发生变更;此模块功能与上述方法步骤中步骤S21相同。
页面特征码检测模块202,用于对该网页文件的页面特征码与页面特征码库中历史保存的页面特征码进行对比,判断出其是否发生变更;此模块功能与上述方法步骤中步骤S22相同。
页面内容元素检测模块203,用于对该于对该网页文件的页面内容元素与页面内容元素库中历史保存的网页内容元素比对,判断出其是否发生变更;此模块功能与上述方法步骤中步骤S23相同。
页面内容检测模块204,用于对该网页的页面内容与上次保存的页面内容进行比对,如果发上更改,则将更改内容保存到内容篡改库,汇总上述步骤中检测到的数据。此模块功能与上述方法步骤中步骤S24相同。
所述WEB应用系统内容变更的检测系统,其中,在网页文件内容变更检测模块中支持对已经检测过的页面做人工二次确认,并将确认后的结果保存在检测页面积累库中。
本发明提供了一种WEB应用系统内容变更的检测方法及系统,该方法及系统通过将抓取到的网站网页内容以页面文件为单元存储在检测页面积累库中,并记录该网站被检测的次数;判断所检测的网站是否为第一次检测,判断抓取到的页面文件是否已经存在所述检测页面积累库中,来判断该网站是否为新网站和该网页是否为新网页,如果是,则退出检测;否则利用检测页面积累库中历史保存的该网页文件对抓取到的页面文件进行页面内容变更检测,如果该网页文件中所包含的存储元素与历史保存的该网页文件中所包含的存储元素相同,则检测为未发生变更,退出检测,如果检测为发生变更则将检测结果保存入检测页面积累库,并汇总检测数据;输出页面变更所在的页面地址,并将页面地址与变更页面进行链接,并对页面变更内容进行标注处理并显示。
本发明提供的方法及系统,对网站网页内容进行了全方位的检测,建立完善的页面内容检测的框架,兼容了已有的外挂轮询技术、核心嵌入技术和事件触发技术,从页面特征库码、页面内容元素和页面动态或者静态内容精细化定位页面内容变更的具体原因,从而不进行可以取得网页检测的准确度也可以快速的追溯页面内容变更的源头,为网站页面变更检测技术提供了方便。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种WEB应用系统内容变更的检测方法,其特征在于,包括以下方法步骤:
A、每隔一预定的时间对网站网页内容进行检测,并抓取检测网站的首页内容及与首页链接的第一层和第二层的内容;并将抓取到的内容以页面文件为单元存储在检测页面积累库中,并记录该网站被检测的次数;
B、依次判断该网页文件中所包含的存储元素与上一次保存的该网页文件中所包含的存储元素是否发生变更,如果全部相同,则退出检测,如果检测为发生变更则将检测结果保存入检测页面积累库,并汇总检测数据;
C、输出页面变更所在的页面地址,并将页面地址与变更页面进行链接,并对页面变更内容进行标注处理并显示;
所述检测页面积累库中包括:页面文件属性库、页面特征码库、页面内容元素库和内容篡改库;
上述步骤B中对抓取到的页面文件进行页面内容变更检测具体包括以下步骤:
B1.如果该网页文件的页面文件属性与页面文件属性库中上一次保存该网页文件的页面文件属性不同,则找出保存时间与本次检测时间最接近的版本,读取页面内容变更是否确认,若已经确认,则该页面内容未变更,若未确认则进入下一步检测;
B2.如果该网页文件的页面特征码与页面特征码库中上一次保存的该网页文件的页面特征码不同,则找出保存时间与本次检测时间最接近的版本,读取页面内容变更是否确认,若已经确认,则该页面内容未变更,退出检测,若未确认则进入下一步检测;
B3.如果该网页文件的页面内容元素与页面内容元素库中上一次保存的该网页文件的页面内容元素不同,则找出保存时间与本次检测时间最接近的版本,读取页面内容变更是否确认,若已经确认,则该页面内容未变更,退出检测,若未确认则进入下一步检测;
B4.如果该网页文件的页面内容与上次保存的该网页文件的页面内容与前页面与上次页面内容不同,则将更改内容保存到内容篡改库,汇总上述步骤中检测到的数据,并输出页面变更原因;如果相同,则退出检测。
2.根据权利要求1所述WEB应用系统内容变更的检测方法,其特征在于,所述步骤A中还包括:
步骤A1、判断所检测的网站是否为第一次检测,若为第一次被检测,则记录为新增页面内容;
步骤A2、若非第一次检测,则检测抓取到的页面文件是否已经存在所述检测页面积累库中,若不存在,则判断为新增文件。
3.根据权利要求1所述WEB应用系统内容变更的检测方法,其特征在于,所述步骤A中的页面文件所包含的存储元素包括:原始页面、页面文件属性、页面特征码、页面内容元素和页面内容。
4.一种WEB应用系统内容变更的检测系统,其特征在于,包括以下功能模块:
页面内容获取模块,每隔一预定的时间对网站网页内容进行检测,并抓取检测网站的首页内容及与首页链接的第一层和第二层的内容;并将抓取到的内容以页面文件为单元存储在检测页面积累库中,并记录该网站被检测的次数;
网页文件内容变更检测模块,依次检测该网页文件中所包含的存储元素与上一次保存的该网页文件中所包含的存储元素是否发生变更,如果全部相同,则退出检测,如果检测为发生变更则将检测结果保存入检测页面积累库,并汇总检测数据;
检测结果输出模块,输出页面变更所在的页面地址,并将页面地址与变更页面进行链接,并对页面变更内容进行标注处理并显示;
所述检测页面积累库中包括:页面文件属性库、页面特征码库、页面内容元素库和内容篡改库;
所述网页文件内容变更检测模块中包括以下模块:
网页文件属性检测模块,用于对该网页文件的页面文件属性与页面文件属性库中历史保存的网页文件属性内容比对,判断出其是否发生变更;
页面特征码检测模块,用于对该网页文件的页面特征码与页面特征码库中历史保存的页面特征码进行对比,判断出其是否发生变更;
页面内容元素检测模块,用于对该于对该网页文件的页面内容元素与页面内容元素库中历史保存的网页内容元素比对,判断出其是否发生变更;
页面内容检测模块,用于对该网页的页面内容与上次保存的页面内容进行比对,如果发生变更,则将变更内容保存到内容篡改库,汇总检测数据。
5.根据权利要求4所述WEB应用系统内容变更的检测系统,其特征在于,所述系统还包括:
网站检测模块,用于判断所检测的网站是否为第一次检测,如果是第一次检测,则判断其为新增网页;
网页检测模块,如果为非第一次被检测,则判断其是否该页面文件在检测页面积累库中是否存在,如果不存在则判定为新增文件。
6.根据权利要求4所述WEB应用系统内容变更的检测系统,其特征在于,页面内容获取模块中的页面文件所包含的存储元素包括:原始页面、页面文件属性、页面特征码、页面内容元素和页面内容。
CN201310124832.XA 2013-04-11 2013-04-11 一种web应用系统内容变更的检测方法及系统 Active CN103279475B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310124832.XA CN103279475B (zh) 2013-04-11 2013-04-11 一种web应用系统内容变更的检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310124832.XA CN103279475B (zh) 2013-04-11 2013-04-11 一种web应用系统内容变更的检测方法及系统

Publications (2)

Publication Number Publication Date
CN103279475A CN103279475A (zh) 2013-09-04
CN103279475B true CN103279475B (zh) 2016-08-03

Family

ID=49061995

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310124832.XA Active CN103279475B (zh) 2013-04-11 2013-04-11 一种web应用系统内容变更的检测方法及系统

Country Status (1)

Country Link
CN (1) CN103279475B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105099796B (zh) * 2014-04-22 2018-07-20 深圳市志友企业发展促进中心 一种多媒体内容更改检测方法、装置及资源传播系统
CN106484601B (zh) * 2015-08-24 2020-08-25 腾讯科技(深圳)有限公司 客户端的用户数据分析方法及系统
CN106446118A (zh) * 2016-09-19 2017-02-22 中国南方电网有限责任公司信息中心 一种页面变更模版自动生成方法
CN108075918B (zh) * 2016-11-15 2021-11-02 平安科技(深圳)有限公司 互联网业务变更检测方法及系统
CN106599242B (zh) * 2016-12-20 2019-03-26 福建六壬网安股份有限公司 一种基于相似度计算的网页变更监测方法和系统
CN108255925B (zh) * 2017-11-10 2021-12-10 平安普惠企业管理有限公司 一种数据表结构变更情况的显示方法及其终端
CN108763324A (zh) * 2018-05-03 2018-11-06 苏州朗动网络科技有限公司 企业数据的识别方法、装置、存储介质和计算机设备
CN108920589B (zh) * 2018-06-26 2021-08-10 百度在线网络技术(北京)有限公司 浏览劫持识别方法、装置、服务器及存储介质
CN108810025A (zh) * 2018-07-19 2018-11-13 平安科技(深圳)有限公司 一种暗网的安全性评估方法、服务器及计算机可读介质
CN110007842A (zh) * 2019-04-18 2019-07-12 北京冠群信息技术股份有限公司 网页内容选取方法及装置
CN111581672A (zh) * 2020-05-14 2020-08-25 杭州安恒信息技术股份有限公司 网页篡改检测的方法、系统、计算机设备和可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102457500A (zh) * 2010-10-22 2012-05-16 北京神州绿盟信息安全科技股份有限公司 一种网站扫描设备和方法
CN102546618A (zh) * 2011-12-29 2012-07-04 北京神州绿盟信息安全科技股份有限公司 钓鱼网站检测方法、装置及系统、网络站点

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102457500A (zh) * 2010-10-22 2012-05-16 北京神州绿盟信息安全科技股份有限公司 一种网站扫描设备和方法
CN102546618A (zh) * 2011-12-29 2012-07-04 北京神州绿盟信息安全科技股份有限公司 钓鱼网站检测方法、装置及系统、网络站点

Also Published As

Publication number Publication date
CN103279475A (zh) 2013-09-04

Similar Documents

Publication Publication Date Title
CN103279475B (zh) 一种web应用系统内容变更的检测方法及系统
CN100589418C (zh) 告警相关性规则的生成方法及生成系统
CN109766719B (zh) 一种敏感信息检测方法、装置及电子设备
CN107885642A (zh) 基于机器学习的业务监控方法及系统
CN102541937A (zh) 一种网页信息探测方法及系统
CN102946319A (zh) 网络用户行为信息分析系统及其分析方法
CN107870849B (zh) 测试日志的处理方法和装置
CN107016298B (zh) 一种网页篡改监测方法及装置
CN103279476B (zh) 一种web应用系统敏感文字的检测方法及系统
CN106997316B (zh) 内存异常增长的检测系统及方法
CN102624713A (zh) 网站篡改识别的方法及装置
CN106027528B (zh) 一种web水平权限自动化识别的方法及装置
CN104298586A (zh) 一种基于系统日志的Web系统异常分析方法和装置
CN103428249B (zh) 一种http请求包的收集及处理方法、系统和服务器
CN105224888A (zh) 一种基于安全预警技术的磁盘阵列数据保护系统
CN107577944A (zh) 基于代码语法分析器的网站恶意代码检测方法及装置
CN109408383B (zh) 一种Java内存泄漏分析方法及装置
CN103368970B (zh) 一种针对网络目标的自动化安全检测方法
CN102779172B (zh) 一种网页中非正文文本的识别系统及方法
CN103929339B (zh) 一种web数据采集方法和系统
CN107526833B (zh) 一种url管理方法、系统
CN103823852A (zh) 数据库服务器日志的处理方法和装置
CN107317708A (zh) 一种法院业务应用系统的监测方法及装置
CN104615728B (zh) 一种网页正文提取方法及装置
CN110750416A (zh) 一种故障信息自动化处理的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant