CN101510195A

CN101510195A - 基于爬虫技术的网站安全防护与测试诊断系统构造方法

Info

Publication number: CN101510195A
Application number: CNA2008100082701A
Authority: CN
Inventors: 刘峰; 宋洁
Original assignee: Individual
Current assignee: Individual
Priority date: 2008-02-15
Filing date: 2008-02-15
Publication date: 2009-08-19

Abstract

基于爬虫技术的网站文档管理、安全防护与测试诊断系统构造方法，可以自动化地为网站建立文件和URL链接的管理档案，以此作为基本依据，可以审计网页是否被黑，链接关系是否被篡改，发现网站错误链接，可以自动化全面测试网站所包含的URL响应时间，发现非法链接，发现网页中的“敏感词语”，可作为网站测试、诊断、评估和安全防护的工具。

Description

基于爬虫技术的网站安全防护与测试诊断系统构造方法

技术领域

本发明涉及网站的文档管理、安全防护与测试的自动化技术。

背景技术

爬虫Spider是现代Internet上普遍使用的技术，但主要用于内容检索，实际上爬虫技术也可以用在网站文档管理自动化、网站信息安全防护和网站测试诊断这三个方面。目前，还没有看见将爬虫技术应用于这三个方面的系统和方法。

第一、爬虫技术应用于网站文档管理自动化。互联网站内容由一系列的静态和动态文件，通过超文本链接构成系统。随着网站系统的不断修改，文件会越来越多，链接结构也在不断变化，如何知道最后的系统结构、链接关系和文件清单？虽然，通过人工的系统设计文档，可以保存记录，但由于很多网站开始建设时就缺少规范化的设计和规划，再加上人员变动和内容变化，系统到底有多少文件？那些是已经废弃无效的？哪些是有用的？都存放在什么路径下？这些重要的技术资料很难动态地准确掌握。因此，需要有一种方法，来实现自动化地跟踪、记录网内的文件、链接的变化情况。本发明的爬虫，不搜索内容，而是专门来自动化地获取网站文档信息和网页之间的链接关系，建立网站文档资料档案，从而实现网站文档管理自动化。

第二、爬虫技术应用于网站安全防护。经常看到“网站被黑”消息，甚至政府网站被篡改成“黄色”内容、连接到“黄色网站”，这样的后果是非常严重的。目前，虽然防火墙和反病毒软件对服务器有一定的保护能力，但由于防护机理的缘故，防火墙、和反病毒软件对于“网站被黑”的保护能力还是有限的。防火墙主要是基于通信IP地址、端口、协议的管理；反病毒软件主要是基于对可执行文件、注册表、内存进程监测的保护。网页被黑的主要问题是网页内容被篡改，或者是增加了额外“链接”，目前还没有专门针对“网站被黑”的防护方法。本发明通过爬虫实现网站文档管理自动化，在为网站上的网页建立了档案的同时，保存了文档的原始信息，包括：URL(全球资源定位)、Server(服务器)、Content-type(内容类型)、Last-modified(最后修改时间)、Content-length(内容长度)和上级链接URL(哪些网页链接到本URL)，任何试图修改网页内容或篡改链的行为，通过与网页档案信息比较，都会被发现。另外，本发明通过爬虫对网站上存在的“敏感词语”进行匹配，也可以发现可能的“泄密”或“网站被黑”进行排查。

第三、爬虫技术应用于测试与诊断。网站有多少“空链接”？都处在什么位置？每个URL访问请求速度是多少？虽然这些可以通过手工操作进行测试，但当网站规模较大时，显然，手工测试已经很难完成。而且，人工目测的准确性和完备性也不能得到保障。因此，需要有一种方法，来测试URL请求质量和“空链接”情况。本发明在爬虫对网站上的网页进行遍历的过程中，自动化地完成测试与诊断，为网站技术管理和内容管理提供帮助。

本发明的目的，就是采用一系列的技术手段，自动化地实现上述功能和进行自动化报警的系统与方法。

发明内容

本发明将采用爬虫技术，提供一套自动化的方法来解决：网站文档管理自动化、网站内容安全防护自动化和网站测试与诊断，当发现问题时，自动化地向有关人员发送手机短信和E-MAIL进行报警。

本发明通过下面技术方案实现：

系统主要由“初始化测试诊断”、“日常测试诊断”和“标记报警”三个执行部分和三个数据表“网站URL链接表”、“URL测试表”和“敏感词语表”所组成。

第一、三个执行部分为：

1、初始化测试诊断，通过爬虫技术，自动化地建立“网站URL链接表”，来跟踪和保存网站文档信息；

2、日常测试诊断，通过爬虫技术，在规定时间内，定时遍历测试网站的网页，与原始档案“网站URL链接表”进行比较，发现异常进行提示和报警。

3、标记报警，标记错误信息，同时，采用手机短信和E-MAIL两种形式进行自动化报警。

第二、三个数据表为：

1、网站URL链接表，是网站文件和链接原始档案，内容为：URL(全球资源定位)、Server(服务器)、Content-type(内容类型)、Last-modified(文档最后修改时间)、Content-length(文档长度)、上级链接URL(哪些网页链接到本URL)；

2、URL测试表，内容为：包含“网站URL链接表”所有内容，增加“URL存在否”、“链接状态”、“URL信息正确否”、“域名匹配否”、“敏感词语存在否”、“上级链接正确否”和“测试响应时间”这7审计结果内容。

3、敏感词语表，内容为：敏感词语文本。

第三、具体步骤为：

基于爬虫技术的网站安全防护与诊断系统构造方法，步骤如下：

(1)初始化测试诊断：建立一个爬虫程序，从请求网站域名开始，得到首页的html内容，分析链接标记，找出所有链接，再查找下一级连接，直至遍历网站的所有链接，得到网站链接的所有URL，保存到“网站URL链接表”中。在爬行过程中，通过http响应头Head中信息，获得该URL的：URL(全球资源定位)、Server(服务器)、Content-type(内容类型)、Last-modified(文档最后修改时间)、Content-length(文档长度)，作为每个URL的基本信息保留在“网站URL链接表”中。

(2)日常测试诊断：设置一个规定时间，如：12小时、24小时、48小时等。同上述的步骤(1)，建立一个爬虫程序，定时遍历网站的所有网页。

(3)异常URL报警：在(2)中，爬虫每爬到一个URL，在(1)中已经建立的“网站URL链接表”中寻找这个URL，如果没有，说明是本来没有的URL，甚至可能是黑客所为，传递报警类型并进行标注报警。

(4)错误链接报警：在(2)中，每爬到一个URL，请求这个URL，从返回响应http头的第一行“状态行”中判断状态码，如果是4xxx开头的，说明是客户端错误；如果是5xxx开头的，说明是服务器端错误，传递报警类型并进行标注报警。

(5)记录测试响应时间：在(2)中，每爬到一个URL，请求这个URL，在请求开始时记录一个时间，响应结束、接受完所有响应http请求后，再记录一个时间，用结束时间减去开始时间，得到响应时间，在“URL测试表”中添写“测试响应时间”。

(6)URL基本信息识别：在(2)中，每爬到一个URL，在“网站URL链接表”寻找这个URL，比较URL(全球资源定位)、Server(服务器)、Content-type(内容类型)、Last-modified(文档最后修改时间)、Content-length(文档长度)、信息，如果不符合，说明该URL被篡改，传递报警类型并进行标注报警。

(7)外站域名报警：在(2)中，每爬到一个URL，判断该URL主域名是否为本网站的域名，如果不是，则为链接到外站，传递报警类型并进标注行报警。

(8)上级链接审计：与“网站URL链接表”比较，判断URL的上一级链接，是否正确。如果不正确，说明链接关系被篡改，传递报警类型并进行标注报警。

(9)敏感词语过滤：在(2)中，每爬到一个URL，逐字节匹配HTML内容，看是否与“敏感词语表”中记录文本相匹配，如果与某条“敏感词语”相匹配，修改HTML该敏感处的显示字体、颜色，在磁盘上盘存HTML文件，进行标注报警。

其中的标记报警方法步骤如下：

(1)标记：根据传递报警类型，在“URL测试表”中，分别标注“URL存在否”、“链接状态”、“URL信息正确否”、“域名匹配否”、“敏感词语存在否”、“上级链接正确否”和“测试响应时间”这7审计结果内容。

(2)短信报警：根据所设定的短信报警规则和报警性质，向指定的短信网关和指定的手机号码发送短信，提示报警信息。

(3)E-MAIL报警：根据所设定的E-MAIL报警规则和报警性质，向指定的E-MAIL信箱发送报警邮件，提示报警信息。

本发明的有益效果

Internet发展和应用非常迅速，但在技术体系和各种应用基础工具上还很不完备，还有相当大的发展空间。爬虫Spider是现代Internet上普遍使用的技术，但目前主要用于内容搜索，本发明将爬虫技术应用到网站文档管理自动化、网站信息安全防护和网站测试诊断方面，提供了一种自动化系统构造的方法，其简单易行，有着广泛的适用性与极大的应用价值。主要表现为：

第一、网站文档自动化管理：网站各种文档繁多、变化频繁，靠手工登记显然远远不能满足需要，自动化的文档管理是网站运维管理不可缺少的技术手段，本发明提供了有效的自动化网站文档管理方法。

第二、网页防黑审计方法：网页被“黑”、“挂马”是网站的最大危害之一，网页通常有太多的“漏洞”可以被“黑掉”或植入“木马”。虽然可以通过防火墙、杀毒等等技术来进行一定程度的预防，但还是难彻底根除，究其实质，都是通过对网页内容进行篡改或增加“外链”所实现的。本发明对网站所有网页建立了档案，当发现网页关键档案信息被改变，或网页间连接关系被篡改时，可以迅速判断网页被“黑”或“挂马”，及时进行报警。

第三、敏感词语发现：为了防止“泄密”和不良内容发布，本发明提供了一种“敏感词语”发现方法，可以找到“敏感词语”出现网页和具体位置。

第四、网站测试诊断：自动化地测试和诊断无效链接、网页请求响应效果。

第五、自动报警：网页被“黑”可能是非常严重的问题，如果被篡改成“黄色”或者是政治性较强的内容，回产生严重影响。被发明采用自动手机短信和E-MAIL进行提示，以便即使采取措施，可增强防范措施。

附图说明

图1是“初始化测试诊断”方法流程图；

图2是“日常测试诊断”方法流程图；

图3是“标注报警”方法流程图；

具体实施方式

基于爬虫技术的网站文档管理、安全防护与测试诊断系统构造方法，包括如下步骤：

(1)初始化测试诊断

图1为“初始化测试诊断”流程图。首先在101单元输入网站的域名，102单元通过域名向网站发出http请求，得到网站首页的URL和html，通过http响应Head信息，得到首页的URL(全球资源定位)、Server(服务器)、Content-type(内容类型)、Last-modified(文档最后修改时间)、Content-length(文档长度)信息，保存到“网站URL链接表”中。103单元分析html中的链接标记，建立爬虫，采用“深度优先”或“广度优先”等任何方法，开始遍历网站所有链接的URL，将每个URL上级URL以及http响应head中的URL(全球资源定位)、Server(服务器)、Content-type(内容类型)、Last-modified(文档最后修改时间)、Content-length(文档长度)，保存到104单元“网站URL链接表”中。

(2)日常测试诊断

设定测试诊断周期(如：12小时、242小时、48小时等)。

(3)遍历网站链接URL

图2为日常测试诊断爬虫遍历URL处理流程。单元爬虫程序从首页开始，遍历网站中所有链接URL，在爬行过程中，每爬行到一个URL，保存到104单元“URL测试表”中，并进行以下测试和检验：

URL合法性判断：

201单元在步骤(1)已经建立的“网站URL链接表”104单元中查找这个URL，看是否存在？如果不存在，传递标记类型到202单元，执行标记报警；

判断链接错误：

204单元提交链接URL的http请求，判断http响应head第一行“状态行”中判断状态码，如果状态码为4xx或5xx为错误，传递标记类型到202单元，执行标记报警；

记录测试响应时间：

212单元根据发出http请求到接收到响应时间，计算出测试响应时间，保存到“URL测试表”203单元中；

URL基本信息判别：

205单元从http请求响应中，取http返回head部分的URL(全球资源定位)、Server(服务器)、Content-type(内容类型)、Last-modified(文档最后修改时间)、Content-length(文档长度)，与单元104“网站URL链接表”中相同URL的信息比较，看是否有错误，如果不匹配，传递标记类型到202单元，执行标记报警；

域名审计：

206单元判断给URL的主域名是否为本站域名，如果不是，传递标记类型到202单元，执行标记报警；

上级链接检查：

207单元检查URL的链接上级，与“网站URL链接表”中信息进行比较，如果不是，传递标记类型到202单元，执行标记报警；

敏感词语匹配：

209单元逐个字节匹配http响应Body内容，看是否与208单元中某个“敏感词语”匹配，如果匹配，210单元将匹配的词语用区别颜色加下划线进行标记，并保存给URL的html文件到磁盘上，传递标记类型到202单元，执行标记报警；

显示URL测试表：

爬虫遍历全部网站网页后，211单元显示“URL测试表”内容，当用户鼠标双击“敏感词语存在否”为“是”的记录时，用浏览器显示缓存在磁盘上的html文件。

(4)标记报警

图3是“标注报警”方法流程图，具体执行步骤如下：

标记：

根据传递过来的“标记类型”，在“URL测试表”中，分别标注“URL存在否”、“链接状态”、“URL正确否”、“域名匹配否”、“敏感词语存在否”、“上级链接正确否”和“测试响应时间”这7审计结果内容。

短信报警：

根据所设定的短信报警规则和报警性质，向指定的短信网关和指定的手机号码发送短信，提示报警信息。

E-MAIL报警：

根据所设定的E-MAIL报警规则和报警性质，向指定的E-MAIL信箱发送报警邮件，提示报警信息。

Claims

1、基于爬虫技术的网站文档管理、安全防护与测试诊断系统构造方法，其特征在于：系统由“初始化测试诊断”、“日常测试诊断”和“标记报警”三个执行部分和三个数据表“网站URL链接表”、“URL测试表”和“敏感词语表”所组成。

初始化测试诊断，通过爬虫技术，自动化地建立“网站URL链接表”，来跟踪和保存网站文件和链接信息；

日常测试诊断，通过爬虫技术，在规定时间内，定时遍历测试网站的网页，与原始档案“网站URL链接表”进行比较，发现异常进行提示和报警。

标记报警，标记错误信息，同时，采用手机短信和E-MAIL两种形式进行自动化报警。

网站URL链接表，是网站文件和链接原始档案，内容为：URL(全球资源定位)、Server(服务器)、Content-type(内容类型)、Last-modified(最后修改时间)、Content-length(内容长度)、上级链接URL(哪些网页链接到本URL)：

URL测试表，是测试诊断数据表，内容为：包含“网站URL链接表”所有内容，增加“URL存在否”、“链接状态”、“URL指纹正确否”、“域名匹配否”、“敏感词语存在否”、“上级链接正确否”和“测试响应时间”这7审计结果内容。

敏感词语表，包含敏感词语文本。

2、基于爬虫技术的网站文档管理、安全防护与测试诊断系统构造方法，其特征在，于实现网站文档管理方法为：通过爬虫对网站上的网页进行遍历，获得网站文档的基础信息，包括：URL(全球资源定位)、Server(服务器)、Content-type(内容类型)、Last-modified(文档最后修改时间)、Content-length(文档长度)、上级链接URL(哪些网页链接到本URL)，作为网页档案，保存到“网站URL链接表”，实现网站文档管理自动化。

3、基于爬虫技术的网站文档管理、安全防护与测试诊断系统构造方法，其特征在于，实现网页被黑的防护方法为：通过设置定时装置，让爬虫定时对网站上的网页进行遍历，每次爬行得到URL(全球资源定位)、Server(服务器)、Content-type(内容类型)、Last-modified(文档最后修改时间)、Content-length(文档长度)、上级链接URL(哪些网页链接到本URL)，与权利2中所产生的“网站URL链接表”进行比较，如果发现有某项发生改变，可判定网页内容被篡改或增加了额外链接，来防止网站被黑。

4、基于爬虫技术的网站文档管理、安全防护与测试诊断系统构造方法，其特征在于，实现网站测试与诊断的自动化方法为：由权利3所述的定时爬虫在爬行过程中，对网页响应时间和链接关系进行测试和诊断，进而实现链接响应和错误连接测试诊断的自动化。

5、基于爬虫技术的网站安全防护与诊断系统构造方法，其特征在于，流程如下：

(1)初始化测试诊断；

(2)日常测试诊断；

(3)标记报警；

6、如权利要求5中所述的基于爬虫技术的网站安全防护与诊断系统构造方法，其特征在于，所述的“初始化测试诊断”方法是：建立一个爬虫程序，从请求网站域名开始，得到首页的html内容，分析链接标记，找出所有链接，再查找下一级连接，直至遍历网站的所有链接，得到网站链接的所有URL，保存到“网站URL链接表”中。在爬行过程中，通过http响应头Head中信息，获得该URL的：URL(全球资源定位)、Server(服务器)、Content-type(内容类型)、Last-modified(文档最后修改时间)、Content-length(文档长度)信息，作为每个URL的基本存档信息，保留在“网站URL链接表”中，同时记录上一级链接，来保存链接关系。

7、如权利要求5中所述的基于爬虫技术的网站安全防护与诊断系统构造方法，其特征在于，所述的“日常测试诊断”包括以下内容为：“异常URL报警”、“错误链接报警”、“记录测试响应时间”、“URL基本信息判别”、“外站链接报警”、“上级链接审计”和“敏感词语过滤”。

8、如权利要求5中所述的基于爬虫技术的网站安全防护与诊断系统构造方法，其特征在于，所述的“日常测试诊断”方法包括：设置一个规定时间，如：12小时、24小时、48小时等。建立一个爬虫程序，从网站首页开始，得到首页的HTML内容，分析链接标记，找出所有链接，再查找下一级连接，直至遍历网站的所有链接，得到网站所有链接的URL。在爬行过程中，通过http响应头Head中信息，获得该URL的Server(服务器)、Content-type(内容类型)、Last-modified(文档最后修改时间)、Content-length(文档长度)信息。

9、如权利要求7中所述的基于爬虫技术的网站安全防护与诊断系统构造方法内容中的“异常URL报警”方法，其特征在于：在爬虫爬行过程中，每爬到一个URL，在“网站URL链接表”寻找这个URL，如果没有，进行报警，说明是本来没有的URL，甚至是黑客所为。

10、如权利要求7中所述的基于爬虫技术的网站安全防护与诊断系统构造方法内容中的“外站链接报警”方法，其特征在于：在爬虫爬行过程中，每爬到一个URL，判断该URL主域名是否为本网站的域名，如果不是，则为链接到外站，进行报警。

11、如权利要求7中所述的基于爬虫技术的网站安全防护与诊断系统构造方法内容中的“URL基本信息判别”方法，其特征在于：在爬虫爬行过程中，每爬到一个URL，在“网站URL链接表”寻找这个URL，比较Server(服务器)、Content-type(内容类型)、Last-modified(文档最后修改时间)、Content-length(文档长度)信息，如果不符合，说明该URL被篡改，进行报警。

12、如权利要求7中所述的基于爬虫技术的网站安全防护与诊断系统构造方法内容中的“敏感词语过滤”方法，其特征在于：在爬虫爬行过程中，每爬到一个URL，逐字节匹配HTML内容，看是否与“敏感词语表”中记录文本想符合，如果与某条“敏感词语”相符合，将修改HTML该敏感处的显示字体、颜色，在屏幕上显示该HTML，并进行报警。

13、如权利要求7中所述的基于爬虫技术的网站安全防护与诊断系统构造方法内容中的“错误链接报警”方法，其特征在于：在爬虫爬行过程中，每爬到一个URL，请求这个URL，从返回响应http头的第一行“状态行”中判断状态码，如果是4xxx开头的，说明是客户端错误；如果是5xxx开头的，说明是服务器端错误，进行报警。

14、如权利要求7中所述的基于爬虫技术的网站安全防护与诊断系统构造方法内容中的“记录测试响应时间”测试方法，其特征在于：在爬虫爬行过程中，每爬到一个URL，请求这个URL，在请求开始时记录一个时间，响应结束、接受完所有响应http请求后，再记录一个时间，用结束时间减去开始时间，得到响应时间。

15、如权利要求7中所述的基于爬虫技术的网站安全防护与诊断系统构造方法内容中的“上级链接审计”测试方法，其特征在于：在爬虫爬行过程中，每爬到一个URL，判断URL的上一级链接，是否正确。如果不正确，说明链接关系被篡改，进行标注报警

16、如权利要求1中所述的基于爬虫技术的网站安全防护与诊断系统构造方法中包括“标记报警”，其特征在于：标记报警方法如下：根据传递报警类型，在“URL测试表”中，分别标注“URL存在否”、“链接状态”、“URL基本信息正确否”、“域名匹配否”、“敏感词语存在否”、“上级链接正确否”和“测试响应时间”这7审计结果内容，根据审计结果内容予以如下方式的短信或E-mail报警。

(1)短信报警：根据所设定的短信报警规则和报警性质，向指定的短信网关和指定的手机号码发送短信，提示报警信息。

(2)E-MAIL报警：根据所设定的E-MAIL报警规则和报警性质，向指定的E-MAIL信箱发送报警邮件，提示报警信息。