CN108804498A - 一种基于网页对比的网页篡改监控方法及系统 - Google Patents

一种基于网页对比的网页篡改监控方法及系统 Download PDF

Info

Publication number
CN108804498A
CN108804498A CN201810287818.4A CN201810287818A CN108804498A CN 108804498 A CN108804498 A CN 108804498A CN 201810287818 A CN201810287818 A CN 201810287818A CN 108804498 A CN108804498 A CN 108804498A
Authority
CN
China
Prior art keywords
network address
webpage
sectional drawing
address
data information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810287818.4A
Other languages
English (en)
Inventor
杜康华
任文越
王崇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weimeng Chuangke Network Technology China Co Ltd
Original Assignee
Weimeng Chuangke Network Technology China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weimeng Chuangke Network Technology China Co Ltd filed Critical Weimeng Chuangke Network Technology China Co Ltd
Priority to CN201810287818.4A priority Critical patent/CN108804498A/zh
Publication of CN108804498A publication Critical patent/CN108804498A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施例提供一种基于网页对比的网页篡改监控方法及系统,包括:获取各待监控的网址链接;针对每一待监控的网址链接,分别执行如下网页篡改监控操作:对所述网址链接对应的网址进行一次爬虫操作,得到所述网址的当前数据信息;根据所述网址的历史数据信息和当前数据信息,判断对应的网页是否发生篡改;当确定对应的网页发生篡改时,则发出报警信息;否则,更新所述网址的历史数据信息,并返回继续对所述网址链接执行网页篡改监控操作。本发明通过爬虫操作可及时的获取到网址的数据信息,然后对比历史数据信息与当前数据信息,可判断网页是否发生篡改,从而能够及时、准确的得到监控结果;同时,保存的数据量小,处理速度快。

Description

一种基于网页对比的网页篡改监控方法及系统
技术领域
本发明涉及信息安全技术领域,特别是涉及一种基于网页对比的网页篡改监控方法及系统。
背景技术
网络的高速发展为各大公司平台带来了大量的用户,同时,互联网广告技术也逐渐的走向成熟,通过网络将广告信息传递给用户的高科技广告运作方式,其充分利用了网络的高效和传播广泛的优势,目前已成为互联网公司最重要的盈利方式。
由于各大平台进行广告投放需要进行广告审核来保证广告内容的合法性,部分的广告商通过短链接篡改的形式在广告审核时提供合法的访问链接,在审核通过后修改302跳转地址将审核通过合法的广告网址替换为非法的广告从而达到非法推广的目的,这一行为一方面给广告平台的声誉造成很大的负面影响,一方面会对广告消费者造成诈骗,所以,对于这种投放出去的短链接进行监控是很有必要的。
目前常用的监控网页是对重要的需要监控的网站后台做镜像,网站自身对比镜像与当前的页面来发现差异,然而,做网站镜像的空间大,处理速度慢、且成本较大,在监控网站数量众多的情况下每个网站都做镜像并不符合实际。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
监控网页的处理速度慢,使得监控不及时,且监控范围小。
发明内容
本发明实施例提供一种基于网页对比的网页篡改监控方法及系统,可及时对网页进行监控,处理速度快。
一方面,本发明实施例提供了一种基于网页对比的网页篡改监控方法,包括:
获取各待监控的网址链接;
针对每一待监控的网址链接,分别执行如下网页篡改监控操作:
对所述网址链接对应的网址进行一次爬虫操作,得到所述网址的当前数据信息;
根据所述网址的历史数据信息和当前数据信息,判断对应的网页是否发生篡改;
当确定对应的网页发生篡改时,则发出报警信息;否则,更新所述网址的历史数据信息,并返回继续对所述网址链接执行网页篡改监控操作。
可选的,所述数据信息包括对应待监控的网址链接的网址的截图、网址跳转的次数、网址跳转的最终地址及网址的名称。
可选的,所述根据所述网址的历史数据信息和当前数据信息,判断对应的网页是否发生篡改,具体包括:
根据所述网址的历史数据信息和当前数据信息,分别对网址的名称、网址跳转的次数、网址跳转的最终地址、网址的截图进行校验,得到名称校验结果、次数校验结果、地址校验结果及截图校验结果;
根据所述名称校验结果、次数校验结果、地址校验结果及截图校验结果及各校验结果分别对应的权值,确定总校验值;
将总校验值与预设的篡改阈值进行比较,确定对应的网页是否发生篡改:
如果总校验值大于或等于篡改阈值,则确定对应的网页发生篡改;否则,确定对应的网页没有发生篡改。
可选的,所述根据所述网址的历史数据信息和当前数据信息,分别对网址的名称、网址跳转的次数、网址跳转的最终地址、网址的截图进行校验,得到名称校验结果、次数校验结果、地址校验结果及截图校验结果,具体包括:
根据以下公式,对网址的名称进行字符串校验,确定名称校验结果:
其中,i表示待监控的网址链接的序号,n表示待监控的网址链接的数量,Nsrc(i)表示网址的历史名称字符串,Ncapture(i)表示网址的当前名称字符串,D1(i)表示名称校验结果;
根据以下公式,对网址跳转的次数进行校验,确定次数校验结果:
其中,|Tsrc(i)|表示网址的历史跳转次数,|Tcapture(i)|表示网址的当前跳转次数,D2(i)表示次数校验结果;
根据以下公式,对网址跳转的最终地址进行校验,得到地址校验结果:
其中,表示网址跳转的历史最终地址,表示网址跳转的当前最终地址,D3(i)表示地址校验结果;
根据以下步骤,对网址的截图进行校验,得到截图校验结果:
分别将网址的历史截图和当前截图压缩成(k+1)*k大小的图片:
其中,0<k<n-1,resize(·)表示图像压缩函数,Isrc(i)表示压缩前的网址的历史截图,表示压缩后的网址的历史截图,Icapture(i)表示压缩前的网址的当前截图,表示压缩后的网址的当前截图;
根据以下公式对压缩后的历史截图进行差异计算,得到历史差异矩阵
根据以下公式对压缩后的当前截图进行差异计算,得到当前差异矩阵
根据历史差异矩阵及当前差异矩阵确定差异矩阵Idif
统计差异矩阵Idif中非0的个数d;
将非0个数d与预设的个数阈值进行比较,确定截图校验结果D4(i):
另一方面,本发明实施例提供了一种基于网页对比的网页篡改监控系统,包括:
获取子系统,用于获取各待监控的网址链接;
网页篡改监控子系统,用于针对每一待监控的网址链接,分别执行网页篡改监控操作;所述网页篡改监控子系统具体包括:
爬虫操作单元,用于对所述网址链接对应的网址进行一次爬虫操作,得到所述网址的当前数据信息;
判断单元,用于根据所述网址的历史数据信息和当前数据信息,判断对应的网页是否发生篡改;
报警单元,与所述判断单元连接,用于当所述判断单元的判断结果为对应的网页发生篡改时,则发出报警信息;
更新单元,分别与所述判断单元及爬虫操作单元连接,用于当所述判断单元的判断结果为对应的网页未发生篡改时,更新所述网址的历史数据信息;
控制单元,分别与所述判断单元和爬虫操作单元连接,用于当所述判断单元的判断结果为对应的网页未发生篡改时,返回重新触发所述爬虫操作单元,继续对所述网址链接执行网页篡改监控操作。
可选的,所述数据信息包括对应待监控的网址链接的网址的截图、网址跳转的次数、网址跳转的最终地址及网址的名称。
可选的,所述判断单元包括:
校验模块,用于根据所述网址的历史数据信息和当前数据信息,分别对网址的名称、网址跳转的次数、网址跳转的最终地址、网址的截图进行校验,得到名称校验结果、次数校验结果、地址校验结果及截图校验结果;
计算模块,用于根据所述名称校验结果、次数校验结果、地址校验结果及截图校验结果及各校验结果分别对应的权值,确定总校验值;
比较模块,用于将总校验值与预设的篡改阈值进行比较,确定对应的网页是否发生篡改:
如果总校验值大于或等于篡改阈值,则确定对应的网页发生篡改;否则,确定对应的网页没有发生篡改。
可选的,所述校验模块包括:
名称校验子模块,用于根据以下公式,对网址的名称进行字符串校验,确定名称校验结果:
其中,i表示待监控的网址链接的序号,n表示待监控的网址链接的数量,Nsrc(i)表示网址的历史名称字符串,Ncapture(i)表示网址的当前名称字符串,D1(i)表示名称校验结果;
次数校验子模块,用于根据以下公式,对网址跳转的次数进行校验,确定次数校验结果:
其中,|Tsrc(i)|表示网址的历史跳转次数,|Tcapture(i)|表示网址的当前跳转次数,D2(i)表示次数校验结果;
地址校验子模块,用于根据以下公式,对网址跳转的最终地址进行校验,得到地址校验结果:
其中,表示网址跳转的历史最终地址,表示网址跳转的当前最终地址,D3(i)表示地址校验结果;
截图校验子模块,用于根据以下步骤,对网址的截图进行校验,得到截图校验结果:
分别将网址的历史截图和当前截图压缩成(k+1)*k大小的图片:
其中,0<k<n-1,resize(·)表示图像压缩函数,Isrc(i)表示压缩前的网址的历史截图,表示压缩后的网址的历史截图,Icapture(i)表示压缩前的网址的当前截图,表示压缩后的网址的当前截图;
根据以下公式对压缩后的历史截图进行差异计算,得到历史差异矩阵
根据以下公式对压缩后的当前截图进行差异计算,得到当前差异矩阵
根据历史差异矩阵及当前差异矩阵确定差异矩阵Idif
统计差异矩阵Idif中非0的个数d;
将非0个数d与预设的个数阈值进行比较,确定截图校验结果D4(i):
另一方面,本发明实施例提供了一种基于网页对比的网页篡改监控系统,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取各待监控的网址链接;
针对每一待监控的网址链接,分别执行如下网页篡改监控操作:
对所述网址链接对应的网址进行一次爬虫操作,得到所述网址的当前数据信息;
根据所述网址的历史数据信息和当前数据信息,判断对应的网页是否发生篡改;
当确定对应的网页发生篡改时,则发出报警信息;否则,更新所述网址的历史数据信息,并返回继续对所述网址链接执行网页篡改监控操作。
另一方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取各待监控的网址链接;
针对每一待监控的网址链接,分别执行如下网页篡改监控操作:
对所述网址链接对应的网址进行一次爬虫操作,得到所述网址的当前数据信息;
根据所述网址的历史数据信息和当前数据信息,判断对应的网页是否发生篡改;
当确定对应的网页发生篡改时,则发出报警信息;否则,更新所述网址的历史数据信息,并返回继续对所述网址链接执行网页篡改监控操作。
上述技术方案具有如下有益效果:
本发明通过爬虫操作可及时的获取到网址的数据信息,然后对比历史数据信息与当前数据信息,可判断网页是否发生篡改,从而能够及时、准确的得到监控结果;同时,保存的数据量小,处理速度快。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明基于网页对比的网页篡改监控方法的流程图;
图2为本发明基于网页对比的网页篡改监控系统的模块结构示意图。
符号说明:
获取子系统—1,网页篡改监控子系统—2,爬虫操作单元—21,判断单元—22,报警单元—23,更新单元—24,控制单元—25。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种基于网页对比的网页篡改监控方法,通过爬虫操作可及时的获取到网址的数据信息,然后对比历史数据信息与当前数据信息,可判断网页是否发生篡改,从而能够及时、准确的得到监控结果;同时,保存的数据量小,处理速度快。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明基于网页对比的网页篡改监控方法包括:
步骤100:获取各待监控的网址链接。
针对每一待监控的网址链接,分别执行如下网页篡改监控操作:
步骤200:对所述网址链接对应的网址进行一次爬虫操作,得到所述网址的当前数据信息。
步骤300:根据所述网址的历史数据信息和当前数据信息,判断对应的网页是否发生篡改;当确定对应的网页发生篡改时,执行步骤400,否则,执行步骤500。
步骤400:发出报警信息。
步骤500:更新所述网址的历史数据信息,并返回步骤200继续对所述网址链接执行网页篡改监控操作。
在步骤200中,所述数据信息包括对应待监控的网址链接的网址的截图、网址跳转的次数、网址跳转的最终地址及网址的名称。可将各数据信息与对应的网址链接存储在数据库中,作为镜像数据进行备份。
具体地,将待监控的网址链接存储进入数据库,记为A{1,2.........n},同时,利用phantomJS(phantomJS表示为一个无界面的、可脚本编程的浏览器引擎)工具对网址进行一次爬虫操作,分别获取到网址的截图Isrc{1,2.........n},网址跳转的次数Tsrc{1,2,...,n}、网址跳转的最终地址m>0,网址的名称Nsrc{1,2......n},n>0等信息,将这些数据信息(即历史数据信息)与对应的网址链接存储到数据库中,作为镜像数据进行备份。
当采集对应待监控的网址链接的网址的当前数据信息时,考虑到监控的实时性以及监控网址的数量会偏大,优选采用多机多线程部署,确保所有的网址进行一次爬虫操作消耗时间尽可能的少。对每个网址利用phantomjs工具获取到实时的网址的数据信息记为网址的截图Icapture{1,2.........n},网址跳转的次数Tcapture{1,2,...,n}、网址跳转的最终地址m>0,网址的名称Ncapture{1,2......n},n>0,作为当前数据信息。
在步骤300中,所述根据所述网址的历史数据信息和当前数据信息,判断对应的网页是否发生篡改,具体包括:
步骤301:根据所述网址的历史数据信息和当前数据信息,分别对网址的名称、网址跳转的次数、网址跳转的最终地址、网址的截图进行校验,得到名称校验结果、次数校验结果、地址校验结果及截图校验结果;
步骤302:根据所述名称校验结果、次数校验结果、地址校验结果及截图校验结果及各校验结果分别对应的权值,确定总校验值;
步骤303:将总校验值与预设的篡改阈值进行比较,确定对应的网页是否发生篡改:
如果总校验值大于或等于篡改阈值,则确定对应的网页发生篡改;否则,确定对应的网页没有发生篡改。
其中,在步骤301中,所述根据所述网址的历史数据信息和当前数据信息,分别对网址的名称、网址跳转的次数、网址跳转的最终地址、网址的截图进行校验,得到名称校验结果、次数校验结果、地址校验结果及截图校验结果,具体包括:
步骤301a:根据公式(1),对网址的名称进行字符串校验,确定名称校验结果:
其中,i表示待监控的网址链接的序号,n表示待监控的网址链接的数量,Nsrc(i)表示网址的历史名称字符串,Ncapture(i)表示网址的当前名称字符串,D1(i)表示名称校验结果。
当网址名称的字符串之间相互之间存在包含关系时,则确定网址名称未发生篡改,D1(i)取值为0,否则取值为1。
步骤301b:根据以下公式,对网址跳转的次数进行校验,确定次数校验结果:
其中,|Tsrc(i)|表示网址的历史跳转次数,|Tcapture(i)|表示网址的当前跳转次数,D2(i)表示次数校验结果。
当跳转次数相同时,D2(i)取值为0,否则为1。
步骤301c:根据以下公式,对网址跳转的最终地址进行校验,得到地址校验结果:
其中,表示网址跳转的历史最终地址,表示网址跳转的当前最终地址,D3(i)表示地址校验结果。
当网址跳转的当前最终地址与历史最终地址的字符串之间相互之间存在包含关系,则确定未发生篡改,D3(i)取值为0,否则取值为1。
步骤301d:根据以下步骤,对网址的截图进行校验,得到截图校验结果:
分别将网址的历史截图和当前截图压缩成(k+1)*k大小的图片:
其中,0<k<n-1,在本实施例中,k取值为8。resize(·)表示图像压缩函数,Isrc(i)表示压缩前的网址的历史截图,表示压缩后的网址的历史截图,Icapture(i)表示压缩前的网址的当前截图,表示压缩后的网址的当前截图;
根据公式(5)对压缩后的历史截图进行差异计算,得到历史差异矩阵
根据公式(6)对压缩后的当前截图进行差异计算,得到当前差异矩阵
根据历史差异矩阵及当前差异矩阵确定差异矩阵Idif
统计差异矩阵Idif中非0的个数d;
将非0个数d与预设的个数阈值进行比较,确定截图校验结果D4(i):
在本实施例中,d取值为5。
由于在爬取网页的过程中,存在网页内容没变,网站名称有改动等问题,对于以上计算出的差异值需要给定一定的权重信息来评价篡改的可能性,网站名称变化有时可能是爬虫抓取的时间不同造成差异,综合考虑不同篡改点进行判定是十分有必要的,分别给予不同的篡改点不同的权值来计算总的发生篡改的可能性。
则,在步骤303中,总校验值为:
其中,λ1(i),λ2(i),λ3(i),λ4(i)分别为D1(i),D2(i),D3(i),D4(i)的权值,且λ1(i)+λ2(i)+λ3(i)+λ4(i)=1。
在本实施例中,λ1(i)=0.3,λ2(i)=0.2,λ3(i)=0.1,λ4(i)=0.4。
在步骤303:设定的篡改阈值α=0.5,如果大于或等于篡改阈值,则确定网页发生了篡改操作,反之,则没有。
在步骤400中,当确定对应的网页发生篡改时,则发出报警信息,通知相应的人员进行此次篡改的人工审核以及后续处理。
本发明基于网页对比的网页篡改监控方法不同于传统的镜像备份的方式,而是通过网络爬虫抓取到网址的数据信息,通过较少的存储成本备份网站信息,大大降低了监控成本从而可以实行较大数据规模的网址监控,其次,实时备份,实时抓取,实时对比,多维度考察分析网页可能发生篡改的点,根据不同的篡改点设定对应的权值,最后综合计算篡改值来判断是否有篡改,比传统的镜像备份能更实时的发现篡改行为,将网页篡改造成的影响范围控制在最小。
此外,本发明还提供一种基于网页对比的网页篡改监控系统。如图2所示,本发明基于网页对比的网页篡改监控系统包括获取子系统1及网页篡改监控子系统2。
所述获取子系统1用于获取各待监控的网址链接。所述网页篡改监控子系统2用于针对每一待监控的网址链接,分别执行网页篡改监控操作;所述网页篡改监控子系统2具体包括爬虫操作单元21、判断单元22、报警单元23、更新单元24及控制单元25。
所述爬虫操作单元21用于对所述网址链接对应的网址进行一次爬虫操作,得到所述网址的当前数据信息。
所述判断单元22用于根据所述网址的历史数据信息和当前数据信息,判断对应的网页是否发生篡改。
所述报警单元23与所述判断单元22连接,所述报警单元23用于当所述判断单元22的判断结果为对应的网页发生篡改时,则发出报警信息。
所述更新单元24分别与所述判断单元22及爬虫操作单元21连接,所述更新单元24用于当所述判断单元22的判断结果为对应的网页未发生篡改时,更新所述网址的历史数据信息。
所述控制单元25分别与所述判断单元22和爬虫操作单元21连接,所述控制单元25用于当所述判断单元22的判断结果为对应的网页未发生篡改时,返回重新触发所述爬虫操作单元21,继续对所述网址链接执行网页篡改监控操作。
其中,所述数据信息包括对应待监控的网址链接的网址的截图、网址跳转的次数、网址跳转的最终地址及网址的名称。
其中,所述判断单元22包括校验模块、计算模块及比较模块。
所述校验模块,于根据所述网址的历史数据信息和当前数据信息,分别对网址的名称、网址跳转的次数、网址跳转的最终地址、网址的截图进行校验,得到名称校验结果、次数校验结果、地址校验结果及截图校验结果。
所述计算模块用于根据所述名称校验结果、次数校验结果、地址校验结果及截图校验结果及各校验结果分别对应的权值,确定总校验值。
所述比较模块用于将总校验值与预设的篡改阈值进行比较,确定对应的网页是否发生篡改:如果总校验值大于或等于篡改阈值,则确定对应的网页发生篡改;否则,确定对应的网页没有发生篡改。
进一步地,所述校验模块包括名称校验子模块、次数校验子模块、地址校验子模块及截图校验子模块。
所述名称校验子模块用于根据公式(1),对网址的名称进行字符串校验,确定名称校验结果:
其中,i表示待监控的网址链接的序号,n表示待监控的网址链接的数量,Nsrc(i)表示网址的历史名称字符串,Ncapture(i)表示网址的当前名称字符串,D1(i)表示名称校验结果。
所述次数校验子模块用于根据公式(2),对网址跳转的次数进行校验,确定次数校验结果:
其中,|Tsrc(i)|表示网址的历史跳转次数,|Tcapture(i)|表示网址的当前跳转次数,D2(i)表示次数校验结果。
所述地址校验子模块用于根据公式(3),对网址跳转的最终地址进行校验,得到地址校验结果:
其中,表示网址跳转的历史最终地址,表示网址跳转的当前最终地址,D3(i)表示地址校验结果。
所述截图校验子模块用于根据以下步骤,对网址的截图进行校验,得到截图校验结果:
分别将网址的历史截图和当前截图压缩成(k+1)*k大小的图片:
其中,0<k<n-1,resize(·)表示图像压缩函数,Isrc(i)表示压缩前的网址的历史截图,表示压缩后的网址的历史截图,Icapture(i)表示压缩前的网址的当前截图,表示压缩后的网址的当前截图;
根据公式(5)对压缩后的历史截图进行差异计算,得到历史差异矩阵
根据公式(6)对压缩后的当前截图进行差异计算,得到当前差异矩阵Ic C apture(i,j);
根据历史差异矩阵及当前差异矩阵确定差异矩阵Idif
统计差异矩阵Idif中非0的个数d;
将非0个数d与预设的个数阈值进行比较,确定截图校验结果D4(i):
此外,本发明还提供一种基于网页对比的网页篡改监控系统,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取各待监控的网址链接;
针对每一待监控的网址链接,分别执行如下网页篡改监控操作:
对所述网址链接对应的网址进行一次爬虫操作,得到所述网址的当前数据信息;
根据所述网址的历史数据信息和当前数据信息,判断对应的网页是否发生篡改;
当确定对应的网页发生篡改时,则发出报警信息;否则,更新所述网址的历史数据信息,并返回继续对所述网址链接执行网页篡改监控操作。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取各待监控的网址链接;
针对每一待监控的网址链接,分别执行如下网页篡改监控操作:
对所述网址链接对应的网址进行一次爬虫操作,得到所述网址的当前数据信息;
根据所述网址的历史数据信息和当前数据信息,判断对应的网页是否发生篡改;
当确定对应的网页发生篡改时,则发出报警信息;否则,更新所述网址的历史数据信息,并返回继续对所述网址链接执行网页篡改监控操作。
相对于现有技术,本发明基于网页对比的网页篡改监控系统、计算机可读存储介质与上述基于网页对比的网页篡改监控方法的有益效果相同,在此不再赘述。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
为使本领域内的任何技术人员能够实现或者使用本发明,上面对所公开实施例进行了描述。对于本领域技术人员来说;这些实施例的各种修改方式都是显而易见的,并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此,本公开并不限于本文给出的实施例,而是与本申请公开的原理和新颖性特征的最广范围相一致。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于网页对比的网页篡改监控方法,其特征在于,包括:
获取各待监控的网址链接;
针对每一待监控的网址链接,分别执行如下网页篡改监控操作:
对所述网址链接对应的网址进行一次爬虫操作,得到所述网址的当前数据信息;
根据所述网址的历史数据信息和当前数据信息,判断对应的网页是否发生篡改;
当确定对应的网页发生篡改时,则发出报警信息;否则,更新所述网址的历史数据信息,并返回继续对所述网址链接执行网页篡改监控操作。
2.根据权利要求1所述的基于网页对比的网页篡改监控方法,其特征在于,所述数据信息包括对应待监控的网址链接的网址的截图、网址跳转的次数、网址跳转的最终地址及网址的名称。
3.根据权利要求2所述的基于网页对比的网页篡改监控方法,其特征在于,所述根据所述网址的历史数据信息和当前数据信息,判断对应的网页是否发生篡改,具体包括:
根据所述网址的历史数据信息和当前数据信息,分别对网址的名称、网址跳转的次数、网址跳转的最终地址、网址的截图进行校验,得到名称校验结果、次数校验结果、地址校验结果及截图校验结果;
根据所述名称校验结果、次数校验结果、地址校验结果及截图校验结果及各校验结果分别对应的权值,确定总校验值;
将总校验值与预设的篡改阈值进行比较,确定对应的网页是否发生篡改:
如果总校验值大于或等于篡改阈值,则确定对应的网页发生篡改;否则,确定对应的网页没有发生篡改。
4.根据权利要求3所述的基于网页对比的网页篡改监控方法,其特征在于,所述根据所述网址的历史数据信息和当前数据信息,分别对网址的名称、网址跳转的次数、网址跳转的最终地址、网址的截图进行校验,得到名称校验结果、次数校验结果、地址校验结果及截图校验结果,具体包括:
根据以下公式,对网址的名称进行字符串校验,确定名称校验结果:
其中,i表示待监控的网址链接的序号,n表示待监控的网址链接的数量,Nsrc(i)表示网址的历史名称字符串,Ncapture(i)表示网址的当前名称字符串,D1(i)表示名称校验结果;
根据以下公式,对网址跳转的次数进行校验,确定次数校验结果:
其中,|Tsrc(i)|表示网址的历史跳转次数,|Tcapture(i)|表示网址的当前跳转次数,D2(i)表示次数校验结果;
根据以下公式,对网址跳转的最终地址进行校验,得到地址校验结果:
其中,表示网址跳转的历史最终地址,表示网址跳转的当前最终地址,D3(i)表示地址校验结果;
根据以下步骤,对网址的截图进行校验,得到截图校验结果:
分别将网址的历史截图和当前截图压缩成(k+1)*k大小的图片:
其中,0<k<n-1,resize(·)表示图像压缩函数,Isrc(i)表示压缩前的网址的历史截图,表示压缩后的网址的历史截图,Icapture(i)表示压缩前的网址的当前截图,表示压缩后的网址的当前截图;
根据以下公式对压缩后的历史截图进行差异计算,得到历史差异矩阵
根据以下公式对压缩后的当前截图进行差异计算,得到当前差异矩阵
根据历史差异矩阵及当前差异矩阵确定差异矩阵Idif
统计差异矩阵Idif中非0的个数d;
将非0个数d与预设的个数阈值进行比较,确定截图校验结果D4(i):
5.一种基于网页对比的网页篡改监控系统,其特征在于,包括:
获取子系统,用于获取各待监控的网址链接;
网页篡改监控子系统,用于针对每一待监控的网址链接,分别执行网页篡改监控操作;所述网页篡改监控子系统具体包括:
爬虫操作单元,用于对所述网址链接对应的网址进行一次爬虫操作,得到所述网址的当前数据信息;
判断单元,用于根据所述网址的历史数据信息和当前数据信息,判断对应的网页是否发生篡改;
报警单元,与所述判断单元连接,用于当所述判断单元的判断结果为对应的网页发生篡改时,则发出报警信息;
更新单元,分别与所述判断单元及爬虫操作单元连接,用于当所述判断单元的判断结果为对应的网页未发生篡改时,更新所述网址的历史数据信息;
控制单元,分别与所述判断单元和爬虫操作单元连接,用于当所述判断单元的判断结果为对应的网页未发生篡改时,返回重新触发所述爬虫操作单元,继续对所述网址链接执行网页篡改监控操作。
6.根据权利要求5所述的基于网页对比的网页篡改监控系统,其特征在于,所述数据信息包括对应待监控的网址链接的网址的截图、网址跳转的次数、网址跳转的最终地址及网址的名称。
7.根据权利要求6所述的基于网页对比的网页篡改监控系统,其特征在于,所述判断单元包括:
校验模块,用于根据所述网址的历史数据信息和当前数据信息,分别对网址的名称、网址跳转的次数、网址跳转的最终地址、网址的截图进行校验,得到名称校验结果、次数校验结果、地址校验结果及截图校验结果;
计算模块,用于根据所述名称校验结果、次数校验结果、地址校验结果及截图校验结果及各校验结果分别对应的权值,确定总校验值;
比较模块,用于将总校验值与预设的篡改阈值进行比较,确定对应的网页是否发生篡改:
如果总校验值大于或等于篡改阈值,则确定对应的网页发生篡改;否则,确定对应的网页没有发生篡改。
8.根据权利要求7所述的基于网页对比的网页篡改监控方法,其特征在于,所述校验模块包括:
名称校验子模块,用于根据以下公式,对网址的名称进行字符串校验,确定名称校验结果:
其中,i表示待监控的网址链接的序号,n表示待监控的网址链接的数量,Nsrc(i)表示网址的历史名称字符串,Ncapture(i)表示网址的当前名称字符串,D1(i)表示名称校验结果;
次数校验子模块,用于根据以下公式,对网址跳转的次数进行校验,确定次数校验结果:
其中,|Tsrc(i)|表示网址的历史跳转次数,|Tcapture(i)|表示网址的当前跳转次数,D2(i)表示次数校验结果;
地址校验子模块,用于根据以下公式,对网址跳转的最终地址进行校验,得到地址校验结果:
其中,表示网址跳转的历史最终地址,表示网址跳转的当前最终地址,D3(i)表示地址校验结果;
截图校验子模块,用于根据以下步骤,对网址的截图进行校验,得到截图校验结果:
分别将网址的历史截图和当前截图压缩成(k+1)*k大小的图片:
其中,0<k<n-1,resize(·)表示图像压缩函数,Isrc(i)表示压缩前的网址的历史截图,表示压缩后的网址的历史截图,Icapture(i)表示压缩前的网址的当前截图,表示压缩后的网址的当前截图;
根据以下公式对压缩后的历史截图进行差异计算,得到历史差异矩阵
根据以下公式对压缩后的当前截图进行差异计算,得到当前差异矩阵
根据历史差异矩阵及当前差异矩阵确定差异矩阵Idif
统计差异矩阵Idif中非0的个数d;
将非0个数d与预设的个数阈值进行比较,确定截图校验结果D4(i):
9.一种基于网页对比的网页篡改监控系统,其特征在于,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取各待监控的网址链接;
针对每一待监控的网址链接,分别执行如下网页篡改监控操作:
对所述网址链接对应的网址进行一次爬虫操作,得到所述网址的当前数据信息;
根据所述网址的历史数据信息和当前数据信息,判断对应的网页是否发生篡改;
当确定对应的网页发生篡改时,则发出报警信息;否则,更新所述网址的历史数据信息,并返回继续对所述网址链接执行网页篡改监控操作。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取各待监控的网址链接;
针对每一待监控的网址链接,分别执行如下网页篡改监控操作:
对所述网址链接对应的网址进行一次爬虫操作,得到所述网址的当前数据信息;
根据所述网址的历史数据信息和当前数据信息,判断对应的网页是否发生篡改;
当确定对应的网页发生篡改时,则发出报警信息;否则,更新所述网址的历史数据信息,并返回继续对所述网址链接执行网页篡改监控操作。
CN201810287818.4A 2018-04-03 2018-04-03 一种基于网页对比的网页篡改监控方法及系统 Pending CN108804498A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810287818.4A CN108804498A (zh) 2018-04-03 2018-04-03 一种基于网页对比的网页篡改监控方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810287818.4A CN108804498A (zh) 2018-04-03 2018-04-03 一种基于网页对比的网页篡改监控方法及系统

Publications (1)

Publication Number Publication Date
CN108804498A true CN108804498A (zh) 2018-11-13

Family

ID=64095322

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810287818.4A Pending CN108804498A (zh) 2018-04-03 2018-04-03 一种基于网页对比的网页篡改监控方法及系统

Country Status (1)

Country Link
CN (1) CN108804498A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740094A (zh) * 2018-12-27 2019-05-10 上海掌门科技有限公司 页面监测方法、设备和计算机存储介质
CN110795676A (zh) * 2019-10-31 2020-02-14 北京知道创宇信息技术股份有限公司 网站监控方法、装置、电子设备及存储介质
CN111199040A (zh) * 2019-12-18 2020-05-26 中国平安人寿保险股份有限公司 页面篡改检测方法、装置、终端及存储介质
CN111818019A (zh) * 2020-06-19 2020-10-23 五八有限公司 网络劫持数据或网络劫持的确定方法、装置、设备及介质
CN112507389A (zh) * 2020-10-28 2021-03-16 西安四叶草信息技术有限公司 网页数据处理方法及装置
CN112650684A (zh) * 2020-12-29 2021-04-13 杭州趣链科技有限公司 网页取证的验证方法、装置、设备及存储介质
CN113316153A (zh) * 2020-04-02 2021-08-27 阿里巴巴集团控股有限公司 一种短信息检验方法、装置和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102169533A (zh) * 2011-05-11 2011-08-31 华南理工大学 一种商用网页恶意篡改检测方法
CN103685297A (zh) * 2013-12-24 2014-03-26 朱筱华 网页监控防篡改报警系统
US20170053105A1 (en) * 2015-08-18 2017-02-23 International Business Machines Corporation Increased security using dynamic watermarking
CN106878265A (zh) * 2016-12-21 2017-06-20 重庆华龙艾迪信息技术有限公司 一种数据处理方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102169533A (zh) * 2011-05-11 2011-08-31 华南理工大学 一种商用网页恶意篡改检测方法
CN103685297A (zh) * 2013-12-24 2014-03-26 朱筱华 网页监控防篡改报警系统
US20170053105A1 (en) * 2015-08-18 2017-02-23 International Business Machines Corporation Increased security using dynamic watermarking
CN106878265A (zh) * 2016-12-21 2017-06-20 重庆华龙艾迪信息技术有限公司 一种数据处理方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵笑声: "《Oracle 数据库应用从入门到精通》", 31 January 2016 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740094A (zh) * 2018-12-27 2019-05-10 上海掌门科技有限公司 页面监测方法、设备和计算机存储介质
CN110795676A (zh) * 2019-10-31 2020-02-14 北京知道创宇信息技术股份有限公司 网站监控方法、装置、电子设备及存储介质
CN111199040A (zh) * 2019-12-18 2020-05-26 中国平安人寿保险股份有限公司 页面篡改检测方法、装置、终端及存储介质
CN111199040B (zh) * 2019-12-18 2023-09-12 中国平安人寿保险股份有限公司 页面篡改检测方法、装置、终端及存储介质
CN113316153A (zh) * 2020-04-02 2021-08-27 阿里巴巴集团控股有限公司 一种短信息检验方法、装置和系统
CN113316153B (zh) * 2020-04-02 2024-03-26 阿里巴巴集团控股有限公司 一种短信息检验方法、装置和系统
CN111818019A (zh) * 2020-06-19 2020-10-23 五八有限公司 网络劫持数据或网络劫持的确定方法、装置、设备及介质
CN112507389A (zh) * 2020-10-28 2021-03-16 西安四叶草信息技术有限公司 网页数据处理方法及装置
CN112650684A (zh) * 2020-12-29 2021-04-13 杭州趣链科技有限公司 网页取证的验证方法、装置、设备及存储介质
CN112650684B (zh) * 2020-12-29 2023-03-24 杭州趣链科技有限公司 网页取证的验证方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN108804498A (zh) 一种基于网页对比的网页篡改监控方法及系统
US20210294904A1 (en) Generation of an asset evaluation regarding a system aspect of a system
Aven The concept of antifragility and its implications for the practice of risk analysis
US20210089438A1 (en) Customizing computer performance tests
US20190171524A1 (en) Isolating the introduction of software defects in a dispersed storage network
US9390437B2 (en) Method and system for monitoring advertisement displays
US11669420B2 (en) Monitoring performance of computing systems
CN104935464B (zh) 一种网站系统的故障预警方法和装置
CN109831665B (zh) 一种视频质检方法、系统及终端设备
US9823997B2 (en) Production resiliency testing system
CN107239397A (zh) 一种web自动化测试方法及电子设备
CN102970282B (zh) 网站安全检测系统
CN107924360A (zh) 计算系统中的诊断框架
CN113271322B (zh) 异常流量的检测方法和装置、电子设备和存储介质
CN106650433A (zh) 一种异常行为检测方法及系统
CN110222513B (zh) 一种线上活动的异常监测方法、装置及存储介质
CN111382020A (zh) 交易流量监控方法及系统
CN111966915A (zh) 信息巡检方法、计算机设备及存储介质
CN107566392A (zh) 一种报错型sql注入的检测方法和代理服务器
CN107392328A (zh) 灭火器信息维护方法及系统
EP3816782B1 (en) Data reconstruction method, apparatus and storage medium
CN109190376A (zh) 一种网页木马检测方法、系统及电子设备和存储介质
CN107749838A (zh) 一种检测网络劫持的方法及装置
CN107846622A (zh) 一种检测字幕清晰度的方法及装置
CN111752849B (zh) 针对应用程序的验证方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181113

RJ01 Rejection of invention patent application after publication