CN110120898B - 远程网页资源变更监测及有害性检测识别方法 - Google Patents
远程网页资源变更监测及有害性检测识别方法 Download PDFInfo
- Publication number
- CN110120898B CN110120898B CN201910329981.7A CN201910329981A CN110120898B CN 110120898 B CN110120898 B CN 110120898B CN 201910329981 A CN201910329981 A CN 201910329981A CN 110120898 B CN110120898 B CN 110120898B
- Authority
- CN
- China
- Prior art keywords
- resource
- webpage
- monitored
- resources
- message header
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/56—Provisioning of proxy services
- H04L67/568—Storing data temporarily at an intermediate stage, e.g. caching
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Environmental & Geological Engineering (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明远程网页资源变更监测及有害性检测识别方法包括以下步骤:原始资源的收集和整理:获取网页所有图片资源的uri地址,并从http响应报文头中提取服务器返回的该资源的etag、Last‑Modified存储在本监测系统中;网络资源的变更监测,轮流扫描步骤1中获取的资源,并从数据库中查询该资源的etag值和Last‑Modified报文头值,并分别赋值给请求报文头中的If‑None‑Match和If‑Modified‑Since这两个key,随后发起http请求;变更资源的有害性检测,识别被修改过的图片资源,是否恶意,如果恶意就告警,非恶意,那么修改本地存储的etag和Last‑Modified报文头值,本发明利用http协议的服务器的缓存技术,使得对图片篡改的识别不再需要直接下载图片比对,这样就能解决网络资源和计算资源。
Description
技术领域
本发明提供一种合理的网页资源的监测处理步骤,提高网页资源的变更监测效率,从而在大批量篡改网页的监测中能够发挥比较好的效果。具体为提供一种远程网页资源变更监测及有害性检测识别方法。
背景技术
网站由于直面用户,因此,也是黑客攻击的首要目标。因此如何在网站遭受到攻击的第一时间进行预警,是在事后处置的关键步骤。使用远程监测技术对网络资源进行监测能够最大限度的降低客户对安全系统的感知,同时这种集中化的处理方式能够很大限度的优化资源的调度和处理能力。
因此,需要对现有技术进行改进。
发明内容
本发明要解决的技术问题是提供一种高效的远程网页资源变更监测及有害性检测识别方法。
为解决上述技术问题,本发明提供一种远程网页资源变更监测及有害性检测识别方法,包括以下步骤:
1.1)、资源收集开始;执行步骤1.2);
1.2)、输入资源链接打开待监测的网页;得到响应报文头和响应报文体,根据响应报文体获得原始资源的摘要;执行步骤1.3);
1.3)、渲染待监测的网页的页面,获取待监测的网页的所有图片资源;执行步骤1.4);
1.4)、判断响应报文头是否存在etag或者Last-modified报文头,如无,执行步骤1.5);如有,执行步骤1.6);
1.5)、持久化资源链接和原始资源的摘要,执行步骤1.7);
1.6)、持久化资源链接、etag和last-modified报文头值;执行步骤1.7);
1.7)、资源收集结束,执行步骤2.1;
2.1)、变更监测开始;
2.2)、再次查询资源链接,登陆待监测的网页;得到新的响应报文头和响应报文体;
2.3)、判断新的响应报文头是否存在etag或者Last-Modified报文头,如无,执行步骤2.4);如有,该etag或者Last-Modified报文头值作为新的etag或者Last-Modified报文头值,执行步骤2.6);
2.4)、根据新的响应报文体计算待监测资源的摘要;执行步骤2.5);
2.5)、判断待监测资源的摘要是否等于步骤1.2)中原始资源的摘要;如果不等于,执行步骤2.8);如果等于,结束;
2.6)、设置请求头信息中的If-Modified-Since=Last-Modified和If-None-Match=etag;并通过请求头信息对资源链接发送请求,得到Http响应码;执行步骤2.7);
2.7)、判断Http响应码是否为304;如果Http响应码不是304,执行步骤2.8);如果Http响应码是304,结束;
2.8)、进入步骤3.1);
3.1)、有害检测开始;执行步骤3.2);
3.2)、获取步骤1.3)得到的图片资源中的文本内容;执行步骤3.3);
3.3)、判断文本内容是否命中有害特征规则;如命中,执行步骤3.4);如未命中,执行步骤3.5);
3.4)、告警,执行步骤3.6);
3.5)、使用新的etag和Last-Modified报文头值替换原有的etag和Last-Modified报文头值;执行步骤3.6);
3.6)、结束。
作为对本发明远程网页资源变更监测及有害性检测识别方法的改进:步骤1.3)中渲染待监测的网页的页面,获取待监测的网页的所有图片资源,包括:
如果待监测的网页没有动态生成的资源内容,通过http请求访问待监测的网页,然后根据获取的页面内容,解析出待监测的网页引入的所有图片资源;
如果待监测的网页有动态生成的资源内容,使用动态渲染技术进行渲染。
作为对本发明远程网页资源变更监测及有害性检测识别方法的进一步改进:
步骤1.3)中的动态渲染技术为使用selenium模拟浏览器渲染或者解析待监测的网页中的js、css文件去渲染。
作为对本发明远程网页资源变更监测及有害性检测识别方法的进一步改进:
在步骤3.3)中命中有害特征规则包括:
3.31)设定有害关键字分词匹配语,
3.32)根据有害关键字分词匹配语识别文本内容识别是否有害。
作为对本发明远程网页资源变更监测及有害性检测识别方法的进一步改进:
步骤1.2)和步骤2.4)中计算资源的摘要为使用安全哈希算法获得。
本发明远程网页资源变更监测及有害性检测识别方法的技术优势为:
本发明利用http协议的服务器的缓存技术,使得对图片篡改的识别不再需要直接下载图片比对,这样就能解决网络资源和计算资源。
经过测试分析,使用etag和Last-Modified报文头标识,在网络资源没有发生变更的情况下,Web服务器直接返回缓存信息,可以将访问速度提升约10倍左右;且变更监测过程没有资源的摘要计算和比对过程,能够节约机器的计算资源。
所以,在提升了资源的单次访问速度的情况下,能够加大资源的监测频次,能够更加快速的发现资源的变更。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细说明。
图1为本发明远程网页资源变更监测及有害性检测识别方法的步骤1的流程示意图;
图2为本发明远程网页资源变更监测及有害性检测识别方法的步骤2的流程示意图;
图3为本发明远程网页资源变更监测及有害性检测识别方法的步骤3的流程示意图。
具体实施方式
下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不仅限于此。
实施例1、远程网页资源变更监测及有害性检测识别方法,如图1-3所述,包括但不限定于使用web服务器的etag和Last-Modified加速图片的的变更监测和有害性检测,其他诸如js、css的监测和检测均可采用这个方法。也不限于http和https的请求,以下以http为例。包括以下步骤:
1)、原始资源的收集和整理;
获取网页所有图片资源的uri地址,并从http响应报文头中提取服务器返回的该资源的etag、Last-Modified存储在本监测系统中,进入步骤二,如图1所示,包括以下步骤;
1.1)、资源收集开始;
1.2)、输入资源链接打开待监测的网页,作为待检测的原始网页;
对图片资源发起http请求(输入资源链接打开待监测的网页)之后,服务器会返回响应报文头和响应报文体;响应报文头中包含摘要,可能包含etag、Last-modified值,而响应报文体则包含该资源的真实数据;根据响应报文体获得原始资源的摘要(例如使用安全哈希算法,可以使用MD5或者sha1来计算hash即可);响应报文体的资源的内容摘要使用常见的散列算法获得,如MD5或者sha1,不限定哪一种摘要算法。
1.3)、然后渲染待监测的网页的页面,获取待监测的网页的所有图片资源;
渲染待监测的网页的页面分为两种情况:
如果网页没有动态生成的资源内容,则不需要渲染,只需要直接通过http请求访问待监测的网页,然后根据获取的页面内容,解析出网页引入的所有图片资源。
如果网页有动态生成的资源内容,那么需要使用动态渲染技术进行渲染。可以使用现有的selenium模拟浏览器渲染也可以自己解析页面中的js、css文件去渲染。
1.4)、判断响应报文头是否存在etag或者Last-modified报文头,如无,执行步骤1.5);如有,执行步骤1.6);
1.5)、持久化资源链接和原始资源的摘要(图片资源的摘要值),执行步骤1.7);
1.6)、持久化资源链接、etag和last-modified报文头值;执行步骤1.7);
1.7)、资源收集结束。
2)、网络资源的变更监测,轮流扫描步骤1中获取的资源,并从数据库中查询该资源的etag值和Last-Modified报文头值,并分别赋值给请求报文头中的If-None-Match和If-Modified-Since这两个key,随后发起http请求,如果得到304的http响应码,那么这个资源没有被修改过。如果http响应码是200,那么这个资源已经被修改过了进入步骤3(http响应码:404,资源被删除了;403,资源被禁止访问;500,服务器出错了;在本发明中这里不做这方面考虑。仅考虑为http响应码为304和200两种情况);如图2所示,包括以下步骤:
2.1)、变更监测开始;
2.2)、再次查询资源链接,登陆待监测的网页;服务器会返回新的响应报文头和响应报文体;
2.3)、判断新的响应报文头是否存在etag或者Last-Modified报文头值,如无,执行步骤2.4);如有,该etag或者Last-Modified报文头值作为新的etag或者Last-Modified报文头值,执行步骤2.6);
2.4)、请求待监测资源,根据新的响应报文体计算待监测资源的摘要(例如使用安全哈希算法,可以使用MD5或者sha1来计算hash即可);执行步骤2.5);
2.5)、判断待监测资源的摘要是否等于步骤1.2)中原始资源的摘要;如果不等于,执行步骤2.8);如果等于,结束;
2.6)、设置请求头信息中的If-Modified-Since=Last-Modified和If-None-Match=etag;并通过请求头信息对资源链接发送请求,得到Http响应码;执行步骤2.7);
2.7)、判断Http响应码是否为304;如果Http响应码不是304(即为Http响应码为200),执行步骤2.8);如果是Http响应码是304,那么这个资源没有被修改过,结束。
2.8)、进入步骤3;
3)、变更资源的有害性检测
识别步骤2中发现的被修改过的图片资源,是否恶意,如果恶意就告警,非恶意,那么修改本地存储的etag和Last-Modified报文头值,如图3所示,包括以下步骤:
3.1)、有害检测开始;执行步骤3.2);
3.2)、获取步骤1.3)得到的图片资源中的文本内容;执行步骤3.3);
3.3)、判断文本内容是否命中有害特征规则;如命中,执行步骤3.4);如未命中,执行步骤3.5);
命中有害特征规则包括步骤:1、有害关键字分词匹配语;2、根据害关键字分词匹配语文本内容识别是否有害;
3.4)、告警,执行步骤3.6);
3.5)、修改资源的etag、Last-Modified和摘要值,即为如果步骤2.3)得到新的etag和Last-Modified报文头值,则使用新的etag和Last-Modified报文头值替换原有的etag和Last-Modified报文头值。执行步骤3.6);
3.6)、有害性检测结束。
Http报文头:http通信协议的协议头信息,分为请求报文头和响应报文头。
etag:http响应报文头中的一个字段,是一个可以与Web资源关联的记号(token)。
Last-Modified:http响应报文头中的一个字段,标识网络资源上次变更的时间。
If-None-Match:http请求报文头中的一个字段,对于http GET来说,当且仅当服务器上没有任何资源的ETag属性值与这个首部中列出的相匹配的时候,web服务器端会才返回所请求的资源,响应码为200,否则返回304。
If-Modified-Since:http请求报文头中的一个字段,对于http GET来说,客户端会通过If-Modified-Since头将先前web服务器端发过来的Last-Modified最后修改时间戳发送回去,这是为了让服务器端进行验证,通过这个时间戳判断客户端的页面是否是最新的,如果不是最新的,则返回200及新的内容,如果是最新的,则返回304告诉客户端其本地cache的页面是最新的。
最后,还需要注意的是,以上列举的仅是本发明的若干个具体实施例。显然,本发明不限于以上实施例,还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。
Claims (5)
1.远程网页资源变更监测及有害性检测识别方法,其特征在于:包括以下步骤:
1.1)、资源收集开始;执行步骤1.2);
1.2)、输入资源链接打开待监测的网页;得到响应报文头和响应报文体,根据响应报文体获得原始资源的摘要;执行步骤1.3);
1.3)、渲染待监测的网页的页面,获取待监测的网页的所有图片资源;执行步骤1.4);
1.4)、判断响应报文头是否存在etag或者Last-modified报文头,如无,执行步骤1.5);如有,执行步骤1.6);
1.5)、持久化资源链接和原始资源的摘要,执行步骤1.7);
1.6)、持久化资源链接、etag和last-modified报文头值;执行步骤1.7);
1.7)、资源收集结束,执行步骤2.1;
2.1)、变更监测开始;
2.2)、再次查询资源链接,登陆待监测的网页;得到新的响应报文头和响应报文体;
2.3)、判断新的响应报文头是否存在etag或者Last-Modified报文头,如无,执行步骤2.4);如有,执行步骤2.6);
2.4)、根据新的响应报文体计算待监测资源的摘要;执行步骤2.5);
2.5)、判断待监测资源的摘要是否等于步骤1.2)中原始资源的摘要;如果不等于,执行步骤2.8);如果等于,结束;
2.6)、设置请求头信息中的If-Modified-Since=Last-Modified和If-None-Match=etag;并通过请求头信息对资源链接发送请求,得到Http响应码;执行步骤2.7);
2.7)、判断Http响应码是否为304;如果Http响应码不是304,执行步骤2.8);如果Http响应码是304,结束;
2.8)、进入步骤3.1);
3.1)、有害检测开始;执行步骤3.2);
3.2)、获取步骤1.3)得到的图片资源中的文本内容;执行步骤3.3);
3.3)、判断文本内容是否命中有害特征规则;如命中,执行步骤3.4);如未命中,执行步骤3.5);
3.4)、告警,执行步骤3.6);
3.5)、使用新的etag和Last-Modified报文头值替换原有的etag和Last-Modified报文头值;执行步骤3.6);
3.6)、结束。
2.根据权利要求1所述的远程网页资源变更监测及有害性检测识别方法,其特征在于:步骤1.3)中渲染待监测的网页的页面,获取待监测的网页的所有图片资源,包括:
如果待监测的网页没有动态生成的资源内容,通过http请求访问待监测的网页,然后根据获取的页面内容,解析出待监测的网页引入的所有图片资源;
如果待监测的网页有动态生成的资源内容,使用动态渲染技术进行渲染。
3.根据权利要求2所述的远程网页资源变更监测及有害性检测识别方法,其特征在于:
步骤1.3)中的动态渲染技术为使用selenium模拟浏览器渲染或者解析待监测的网页中的js、css文件去渲染。
4.根据权利要求3所述的远程网页资源变更监测及有害性检测识别方法,其特征在于:
在步骤3.3)中命中有害特征规则包括:
3.31)设定有害关键字分词匹配语,
3.32)根据有害关键字分词匹配语识别文本内容识别是否有害。
5.根据权利要求4所述的远程网页资源变更监测及有害性检测识别方法,其特征在于:
步骤1.2)和步骤2.4)中计算资源的摘要为使用安全哈希算法获得。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910329981.7A CN110120898B (zh) | 2019-04-23 | 2019-04-23 | 远程网页资源变更监测及有害性检测识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910329981.7A CN110120898B (zh) | 2019-04-23 | 2019-04-23 | 远程网页资源变更监测及有害性检测识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110120898A CN110120898A (zh) | 2019-08-13 |
CN110120898B true CN110120898B (zh) | 2021-03-23 |
Family
ID=67521302
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910329981.7A Active CN110120898B (zh) | 2019-04-23 | 2019-04-23 | 远程网页资源变更监测及有害性检测识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110120898B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897618A (zh) * | 2015-12-21 | 2017-06-27 | 珠海市君天电子科技有限公司 | 一种网页访问方法及装置 |
CN108600035A (zh) * | 2018-07-21 | 2018-09-28 | 杭州安恒信息技术股份有限公司 | 一种非侵入式web应用监控与日志查询方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10523689B2 (en) * | 2007-06-12 | 2019-12-31 | Icontrol Networks, Inc. | Communication protocols over internet protocol (IP) networks |
CN102457500B (zh) * | 2010-10-22 | 2015-01-07 | 北京神州绿盟信息安全科技股份有限公司 | 一种网站扫描设备和方法 |
CN103166931A (zh) * | 2011-12-15 | 2013-06-19 | 华为技术有限公司 | 一种安全传输数据方法,装置和系统 |
CN104253791B (zh) * | 2013-06-27 | 2017-12-15 | 华为终端(东莞)有限公司 | 一种网页应用程序的安全访问方法、服务器和客户端 |
CN104156665B (zh) * | 2014-07-22 | 2017-02-01 | 杭州安恒信息技术有限公司 | 一种网页篡改监测的方法 |
CN104486140B (zh) * | 2014-11-28 | 2017-12-19 | 华北电力大学 | 一种检测网页被劫持的装置及其检测方法 |
CN109409362A (zh) * | 2018-10-11 | 2019-03-01 | 杭州安恒信息技术股份有限公司 | 基于tesseract引擎的图片敏感词检测和定位方法和装置 |
CN109274698A (zh) * | 2018-11-26 | 2019-01-25 | 杭州安恒信息技术股份有限公司 | 一种http访问行为的识别方法及装置 |
-
2019
- 2019-04-23 CN CN201910329981.7A patent/CN110120898B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897618A (zh) * | 2015-12-21 | 2017-06-27 | 珠海市君天电子科技有限公司 | 一种网页访问方法及装置 |
CN108600035A (zh) * | 2018-07-21 | 2018-09-28 | 杭州安恒信息技术股份有限公司 | 一种非侵入式web应用监控与日志查询方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110120898A (zh) | 2019-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6530786B2 (ja) | Webページの悪意のある要素を検出するシステム及び方法 | |
US9614862B2 (en) | System and method for webpage analysis | |
WO2019134334A1 (zh) | 网络异常数据检测方法、装置、计算机设备和存储介质 | |
JP4358188B2 (ja) | インターネット検索エンジンにおける無効クリック検出装置 | |
CN111563216B (zh) | 本地数据缓存方法、装置及相关设备 | |
CN112468520B (zh) | 一种数据检测方法、装置、设备及可读存储介质 | |
CN109768992B (zh) | 网页恶意扫描处理方法及装置、终端设备、可读存储介质 | |
US9147067B2 (en) | Security method and apparatus | |
WO2012089005A1 (zh) | 钓鱼网页检测方法及设备 | |
US6915344B1 (en) | Server stress-testing response verification | |
CN105184159A (zh) | 网页篡改的识别方法和装置 | |
CN112989348B (zh) | 攻击检测方法、模型训练方法、装置、服务器及存储介质 | |
CN111756724A (zh) | 钓鱼网站的检测方法、装置、设备、计算机可读存储介质 | |
EP2537090A1 (en) | Preventing unauthorized font linking | |
WO2018077035A1 (zh) | 恶意资源地址检测方法和装置、存储介质 | |
CN112532624B (zh) | 一种黑链检测方法、装置、电子设备及可读存储介质 | |
CN114650176A (zh) | 钓鱼网站的检测方法、装置、计算机设备及存储介质 | |
CN107786529B (zh) | 网站的检测方法、装置及系统 | |
CN109495471B (zh) | 一种对web攻击结果判定方法、装置、设备及可读存储介质 | |
CN111556042B (zh) | 恶意url的检测方法、装置、计算机设备和存储介质 | |
CN115801455B (zh) | 一种基于网站指纹的仿冒网站检测方法及装置 | |
CN116304458B (zh) | 一种web页面实时通知更新方法、装置、设备及介质 | |
CN110120898B (zh) | 远程网页资源变更监测及有害性检测识别方法 | |
CN116800518A (zh) | 一种网络防护策略的调整方法及装置 | |
CN107995167B (zh) | 一种设备识别方法及服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |