CN110120898B

CN110120898B - 远程网页资源变更监测及有害性检测识别方法

Info

Publication number: CN110120898B
Application number: CN201910329981.7A
Authority: CN
Inventors: 娄宇; 范渊
Original assignee: Hangzhou Dbappsecurity Technology Co Ltd
Current assignee: Hangzhou Dbappsecurity Technology Co Ltd
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2021-03-23
Anticipated expiration: 2039-04-23
Also published as: CN110120898A

Abstract

本发明远程网页资源变更监测及有害性检测识别方法包括以下步骤：原始资源的收集和整理：获取网页所有图片资源的uri地址，并从http响应报文头中提取服务器返回的该资源的etag、Last‑Modified存储在本监测系统中；网络资源的变更监测，轮流扫描步骤1中获取的资源，并从数据库中查询该资源的etag值和Last‑Modified报文头值，并分别赋值给请求报文头中的If‑None‑Match和If‑Modified‑Since这两个key，随后发起http请求；变更资源的有害性检测，识别被修改过的图片资源，是否恶意，如果恶意就告警，非恶意，那么修改本地存储的etag和Last‑Modified报文头值，本发明利用http协议的服务器的缓存技术，使得对图片篡改的识别不再需要直接下载图片比对，这样就能解决网络资源和计算资源。

Description

远程网页资源变更监测及有害性检测识别方法

技术领域

本发明提供一种合理的网页资源的监测处理步骤，提高网页资源的变更监测效率，从而在大批量篡改网页的监测中能够发挥比较好的效果。具体为提供一种远程网页资源变更监测及有害性检测识别方法。

背景技术

网站由于直面用户，因此，也是黑客攻击的首要目标。因此如何在网站遭受到攻击的第一时间进行预警，是在事后处置的关键步骤。使用远程监测技术对网络资源进行监测能够最大限度的降低客户对安全系统的感知，同时这种集中化的处理方式能够很大限度的优化资源的调度和处理能力。

因此，需要对现有技术进行改进。

发明内容

本发明要解决的技术问题是提供一种高效的远程网页资源变更监测及有害性检测识别方法。

为解决上述技术问题，本发明提供一种远程网页资源变更监测及有害性检测识别方法，包括以下步骤：

1.1)、资源收集开始；执行步骤1.2)；

1.2)、输入资源链接打开待监测的网页；得到响应报文头和响应报文体，根据响应报文体获得原始资源的摘要；执行步骤1.3)；

1.3)、渲染待监测的网页的页面，获取待监测的网页的所有图片资源；执行步骤1.4)；

1.4)、判断响应报文头是否存在etag或者Last-modified报文头，如无，执行步骤1.5)；如有，执行步骤1.6)；

1.5)、持久化资源链接和原始资源的摘要，执行步骤1.7)；

1.6)、持久化资源链接、etag和last-modified报文头值；执行步骤1.7)；

1.7)、资源收集结束，执行步骤2.1；

2.1)、变更监测开始；

2.2)、再次查询资源链接，登陆待监测的网页；得到新的响应报文头和响应报文体；

2.3)、判断新的响应报文头是否存在etag或者Last-Modified报文头，如无，执行步骤2.4)；如有，该etag或者Last-Modified报文头值作为新的etag或者Last-Modified报文头值，执行步骤2.6)；

2.4)、根据新的响应报文体计算待监测资源的摘要；执行步骤2.5)；

2.5)、判断待监测资源的摘要是否等于步骤1.2)中原始资源的摘要；如果不等于，执行步骤2.8)；如果等于，结束；

2.6)、设置请求头信息中的If-Modified-Since＝Last-Modified和If-None-Match＝etag；并通过请求头信息对资源链接发送请求，得到Http响应码；执行步骤2.7)；

2.7)、判断Http响应码是否为304；如果Http响应码不是304，执行步骤2.8)；如果Http响应码是304，结束；

2.8)、进入步骤3.1)；

3.1)、有害检测开始；执行步骤3.2)；

3.2)、获取步骤1.3)得到的图片资源中的文本内容；执行步骤3.3)；

3.3)、判断文本内容是否命中有害特征规则；如命中，执行步骤3.4)；如未命中，执行步骤3.5)；

3.4)、告警，执行步骤3.6)；

3.5)、使用新的etag和Last-Modified报文头值替换原有的etag和Last-Modified报文头值；执行步骤3.6)；

3.6)、结束。

作为对本发明远程网页资源变更监测及有害性检测识别方法的改进：步骤1.3)中渲染待监测的网页的页面，获取待监测的网页的所有图片资源，包括：

如果待监测的网页没有动态生成的资源内容，通过http请求访问待监测的网页，然后根据获取的页面内容，解析出待监测的网页引入的所有图片资源；

如果待监测的网页有动态生成的资源内容，使用动态渲染技术进行渲染。

作为对本发明远程网页资源变更监测及有害性检测识别方法的进一步改进：

步骤1.3)中的动态渲染技术为使用selenium模拟浏览器渲染或者解析待监测的网页中的js、css文件去渲染。

在步骤3.3)中命中有害特征规则包括：

3.31)设定有害关键字分词匹配语，

3.32)根据有害关键字分词匹配语识别文本内容识别是否有害。

步骤1.2)和步骤2.4)中计算资源的摘要为使用安全哈希算法获得。

本发明远程网页资源变更监测及有害性检测识别方法的技术优势为：

本发明利用http协议的服务器的缓存技术，使得对图片篡改的识别不再需要直接下载图片比对，这样就能解决网络资源和计算资源。

经过测试分析，使用etag和Last-Modified报文头标识，在网络资源没有发生变更的情况下，Web服务器直接返回缓存信息，可以将访问速度提升约10倍左右；且变更监测过程没有资源的摘要计算和比对过程，能够节约机器的计算资源。

所以，在提升了资源的单次访问速度的情况下，能够加大资源的监测频次，能够更加快速的发现资源的变更。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细说明。

图1为本发明远程网页资源变更监测及有害性检测识别方法的步骤1的流程示意图；

图2为本发明远程网页资源变更监测及有害性检测识别方法的步骤2的流程示意图；

图3为本发明远程网页资源变更监测及有害性检测识别方法的步骤3的流程示意图。

具体实施方式

下面结合具体实施例对本发明进行进一步描述，但本发明的保护范围并不仅限于此。

实施例1、远程网页资源变更监测及有害性检测识别方法，如图1-3所述，包括但不限定于使用web服务器的etag和Last-Modified加速图片的的变更监测和有害性检测，其他诸如js、css的监测和检测均可采用这个方法。也不限于http和https的请求，以下以http为例。包括以下步骤：

1)、原始资源的收集和整理；

获取网页所有图片资源的uri地址，并从http响应报文头中提取服务器返回的该资源的etag、Last-Modified存储在本监测系统中，进入步骤二，如图1所示，包括以下步骤；

1.1)、资源收集开始；

1.2)、输入资源链接打开待监测的网页，作为待检测的原始网页；

对图片资源发起http请求(输入资源链接打开待监测的网页)之后，服务器会返回响应报文头和响应报文体；响应报文头中包含摘要，可能包含etag、Last-modified值，而响应报文体则包含该资源的真实数据；根据响应报文体获得原始资源的摘要(例如使用安全哈希算法，可以使用MD5或者sha1来计算hash即可)；响应报文体的资源的内容摘要使用常见的散列算法获得，如MD5或者sha1，不限定哪一种摘要算法。

1.3)、然后渲染待监测的网页的页面，获取待监测的网页的所有图片资源；

渲染待监测的网页的页面分为两种情况：

如果网页没有动态生成的资源内容，则不需要渲染，只需要直接通过http请求访问待监测的网页，然后根据获取的页面内容，解析出网页引入的所有图片资源。

如果网页有动态生成的资源内容，那么需要使用动态渲染技术进行渲染。可以使用现有的selenium模拟浏览器渲染也可以自己解析页面中的js、css文件去渲染。

1.5)、持久化资源链接和原始资源的摘要(图片资源的摘要值)，执行步骤1.7)；

1.7)、资源收集结束。

2)、网络资源的变更监测，轮流扫描步骤1中获取的资源，并从数据库中查询该资源的etag值和Last-Modified报文头值，并分别赋值给请求报文头中的If-None-Match和If-Modified-Since这两个key，随后发起http请求，如果得到304的http响应码，那么这个资源没有被修改过。如果http响应码是200，那么这个资源已经被修改过了进入步骤3(http响应码：404，资源被删除了；403，资源被禁止访问；500，服务器出错了；在本发明中这里不做这方面考虑。仅考虑为http响应码为304和200两种情况)；如图2所示，包括以下步骤：

2.1)、变更监测开始；

2.2)、再次查询资源链接，登陆待监测的网页；服务器会返回新的响应报文头和响应报文体；

2.3)、判断新的响应报文头是否存在etag或者Last-Modified报文头值，如无，执行步骤2.4)；如有，该etag或者Last-Modified报文头值作为新的etag或者Last-Modified报文头值，执行步骤2.6)；

2.4)、请求待监测资源，根据新的响应报文体计算待监测资源的摘要(例如使用安全哈希算法，可以使用MD5或者sha1来计算hash即可)；执行步骤2.5)；

2.7)、判断Http响应码是否为304；如果Http响应码不是304(即为Http响应码为200)，执行步骤2.8)；如果是Http响应码是304，那么这个资源没有被修改过，结束。

2.8)、进入步骤3；

3)、变更资源的有害性检测

识别步骤2中发现的被修改过的图片资源，是否恶意，如果恶意就告警，非恶意，那么修改本地存储的etag和Last-Modified报文头值，如图3所示，包括以下步骤：

3.1)、有害检测开始；执行步骤3.2)；

命中有害特征规则包括步骤：1、有害关键字分词匹配语；2、根据害关键字分词匹配语文本内容识别是否有害；

3.4)、告警，执行步骤3.6)；

3.5)、修改资源的etag、Last-Modified和摘要值，即为如果步骤2.3)得到新的etag和Last-Modified报文头值，则使用新的etag和Last-Modified报文头值替换原有的etag和Last-Modified报文头值。执行步骤3.6)；

3.6)、有害性检测结束。

Http报文头：http通信协议的协议头信息，分为请求报文头和响应报文头。

etag：http响应报文头中的一个字段，是一个可以与Web资源关联的记号(token)。

Last-Modified：http响应报文头中的一个字段，标识网络资源上次变更的时间。

If-None-Match：http请求报文头中的一个字段，对于http GET来说，当且仅当服务器上没有任何资源的ETag属性值与这个首部中列出的相匹配的时候，web服务器端会才返回所请求的资源，响应码为200，否则返回304。

If-Modified-Since：http请求报文头中的一个字段，对于http GET来说，客户端会通过If-Modified-Since头将先前web服务器端发过来的Last-Modified最后修改时间戳发送回去，这是为了让服务器端进行验证，通过这个时间戳判断客户端的页面是否是最新的，如果不是最新的，则返回200及新的内容，如果是最新的，则返回304告诉客户端其本地cache的页面是最新的。

最后，还需要注意的是，以上列举的仅是本发明的若干个具体实施例。显然，本发明不限于以上实施例，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。

Claims

1.远程网页资源变更监测及有害性检测识别方法，其特征在于：包括以下步骤：

1.1)、资源收集开始；执行步骤1.2)；

1.5)、持久化资源链接和原始资源的摘要，执行步骤1.7)；

1.7)、资源收集结束，执行步骤2.1；

2.1)、变更监测开始；

2.3)、判断新的响应报文头是否存在etag或者Last-Modified报文头，如无，执行步骤2.4)；如有，执行步骤2.6)；

2.8)、进入步骤3.1)；

3.1)、有害检测开始；执行步骤3.2)；

3.4)、告警，执行步骤3.6)；

3.6)、结束。

2.根据权利要求1所述的远程网页资源变更监测及有害性检测识别方法，其特征在于：步骤1.3)中渲染待监测的网页的页面，获取待监测的网页的所有图片资源，包括：

3.根据权利要求2所述的远程网页资源变更监测及有害性检测识别方法，其特征在于：

4.根据权利要求3所述的远程网页资源变更监测及有害性检测识别方法，其特征在于：

在步骤3.3)中命中有害特征规则包括：

3.31)设定有害关键字分词匹配语，

5.根据权利要求4所述的远程网页资源变更监测及有害性检测识别方法，其特征在于：