CN107133310A

CN107133310A - 僵尸网站的检测方法

Info

Publication number: CN107133310A
Application number: CN201710298791.4A
Authority: CN
Inventors: 周银行; 杨东; 董郑江; 胡淦; 陈焕; 郑中华
Original assignee: Anhui Boyue Information Polytron Technologies Inc
Current assignee: Anhui Boyue Information Polytron Technologies Inc
Priority date: 2017-04-28
Filing date: 2017-04-28
Publication date: 2017-09-05

Abstract

本发明公开了一种僵尸网站的检测方法。该检测方法包括网络信息收集和索引、网站可用性检测、网站信息更新检测和网站综合打分及僵尸网站判定等4个步骤。本发明通过采集相应网站信息，进行信息抽取和索引后，使用既定的网站评价指标(网站可用性、网站信息更新频率等)对网站是否僵尸网站进行检测，实现了对网站是否僵尸网站的有效判别。

Description

僵尸网站的检测方法

技术领域

本发明涉及计算机技术领域，尤其涉及一种僵尸网站的检测方法。

背景技术

伴随着互联网的发展，网站数量急剧增多。截至2016年12月，中国域名总数为4228万个，其中“.CN”域名总数为2061万个，占中国域名总数比例为48.7％，“.中国”域名总数为47.4万个。中国网站总数为482万个，年增长14.1％，其中“.CN”下网站数为259万个，网页数量2360亿，年增长11.2％。

在互联网信息时代，政府、企业包括个人都热衷建立自己的网站，但后续缺乏相应的管理维护，信息长期不更新，导致大部分的网站都处于睡眠状态，没有生机和活力且不被搜索引擎收录，最终成为我们熟知的僵尸网站。

早起的僵尸网站主要指政府网站，从1998年以来，我国各级政府开始陆续建设政府网站，十几年下来，这些网站确实起到不少积极作用。然而，由于某些网站工作人员的不负责任或不作为，有时，当民众点开“便民服务”栏目，结果不是显示“内容正在建设”，就是“无法打开该页面”，或者是“千篇一律的神回复”——你的问题正在研究，请耐心等，然而等待近半年，还是同样的回答；有的甚至是答非所问。这样，大大损害了政府形象，降低政府网站的公信力，也损伤国人参政、议政的热情。

对于企业或者个人网站，因长期的缺乏维护管理，成为黑客攻击的对象，变为僵尸网络的病虫载体，严重影响了互联网网络安全，同时也增加了各个地方互联网管理办公室对本行政领域内的网站管理的难度。

如何从众多的网站中有效的识别出僵尸网站，是对僵尸网站有效管理的前提。目前对僵尸网站的识别主要还是基于人工的方式进行，以属地执法机构来说，主要依赖人工对备案的属地网站进行逐个筛选，或借助简单的技术对网站进行检测，查看该网站是否正常返回信息来进行初步判断。这些方式或多或少可解决部分问题，但均存在一定的不足：

1)单存的人工方式识别，势必造成识别效率低下，人工成本高企等问题；

2)简单进行网站访问，查看返回信息的方式在网络带宽异常，或者网站维护期间等情况下也会造成相应的误判；

3)人工对单一网站无法做到每一个栏目都关注到，导致部分网站僵尸栏目一直存在于网络上的问题。

发明内容

本发明要解决的技术问题是提供一种僵尸网站的检测方法。

为了解决上述技术问题，本发明采用的技术方案是，僵尸网站的检测方法，包括以下步骤：

(1)网络信息收集和索引

使用网络信息采集雷达采集网站发布的互联网信息，且互联网信息为html格式，运用网页预处理算法对正文中的标题、发表时间、正文进行数据提取，重点对发表时间进行多种校验，保证提取的时间的正确性；而后将提取后的数据发送到索引模块，索引模块在对上述字段进行分词处理后，建立倒排索引，实现文本的检索；

(2)网站可用性检测

基于上述采集引擎，实现对网站可用性的检测，主要是对网站在检测时间段内是否可访问、网站页面链接是否可访问、网站页面链接的响应时间三方面内容进行监测，综合不可访问次数比例进行打分，该分数作为后续僵尸网站检测时的网站可用性权重；

(3)网站信息更新检测

基于所采集的数据，考虑每一个网站的栏目设置、及信息来源各个栏目数量等指标，在给定的时间段内按照预先设定的评判标准对网站的更新频率进行加权计算，对每个网站的信息更新指数进行打分，该分数作为后续僵尸网站检测时的网站信息更新频率权重；

(4)网站综合打分及僵尸网站判定

根据用户设定的统计时间间隔，计算出每个时间段各个网站的可用性、网站信息更新情况；然后对每个时间段内的网站按照预先设定的标准进行加权打分；根据计算的网站综合打分对网站是否是僵尸网站进行检测，利用设定好的网站指标对网站进行判别。

作为优选，在步骤(1)中，所述网页预处理算法包括以下步骤：

对网页中的内容进行预处理时，会创建一个预处理对象，预处理对象调用本地自然语言解析脚本对网页中的正文进行信息预处理，特别地对网页中的时间文本进行处理。

作为进一步优选，本地自然语言解析脚本包含了对自然语言的噪音的过滤、信息的归约以及变换。

本发明的有益效果是：

通过采集相应网站信息，进行信息抽取和索引后，使用既定的网站评价指标(网站可用性、网站信息更新频率等)对网站是否僵尸网站进行检测，实现了对网站是否僵尸网站的有效判别。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是本发明实施例的网页信息采集和索引结构图。

图2是本发明实施例的网站可用性检测结构图。

图3是本发明实施例的索引倒排表结构。

具体实施方式

一、网页信息采集和索引

如图1所示，该采集过程具体步骤如下：

1、规划好要检测的网站，并将网站入口加入到检测队列中去。

2、选取一个网站入口进行下载，抽取相关正文URL后，将其放入到待下载队列中。

3、从待下载队列中选取一个URL进行下载，完成后识别出相关的网页编码，并按照预先设定的模板进行标题、发文时间、作者、正文、点击数、回复数、是否转载等关键字段的抽取。

4、将抽取后的标题、正文文本、时间、作者、点击数、回复数、是否转载字段直接发送到索引模块。同时将站点名、站点host、发文时间、板块字段信息发送到站点统计分析模块。

索引过程具体步骤如下：

5、接收到采集模块发送信息后，分词组件对标题和正文文本进行分词处理，把文档分词一个一个单独的词元，并去掉标点符号和停用词。

6、语言处理组件对词元进行处理，对于英语单词，变成小写；单词变成词根形式。

7、索引组件对处理后的词建立词典，对词典按字母顺序进行排序，并按照词-＞文档列表的结构建立倒排表。倒排表结构如图3所示(图中数字为文档编号)。

二、网站可用性检测

如图2所示，该过程需完成对预规划的站点进行扫描，具体过程如下：

8、从规划的检测网站队列中选取相关网站入口进行检测，使用代理IP机制，通过HTTP监控，采用固定频率模拟用户请求被检测的网站，实时获取站点的响应状态和请求详情，精准探测出待检测网站的各种异常，对于异常响应输送给统计模块进行相关后续统计分析。

9、对检测的网站入口是可用的，加入下载队列，抽取相关URL，放入扫描队列中，采用步骤8中的方法判断页面中链接可用性。

10、而后将该网站的扫描结果传给站点检测分析模块，对网站可用性进行判断。

统计模块对网站可用性检测模块发来的相关信息进行统计，主要分如下几个方面：

1)待检测网站在HTTP监控扫描周期(一个周期为七天，每天的每个整点访问一次，累计24次)中，在间隔访问中无法访问的次数达到或超过3次得100分、24次中有8次访问超过15秒响应得100分，其他情况(无法访问次数小于3次或者24次中小于8次访问超过15秒响应)每次累加5分处理；

2)在页面链接URL可用性上进行检测，首页上的链接(包括图片、附件、外部链接等)无法访问或访问超过15秒的个数占总页面链接数超过10％得100分，其他页面(非首页)的链接(包括图片、附件、外部链接等)无法访问或访问超过15秒的个数占总页面链接数超过10％得50分、超过20％得100分，其他情况每次累计0.5分处理。

三、网站信息更新检测

统计模块基于对待检测网站采集的数据，考虑每一个网站的栏目设置、及信息来源各个栏目数量等指标，在给定的时间段内按照预先设定的评判标准对对网站的更新频率进行加权计算，对每个网站的信息更新指数进行打分。主要有以下两个方面：

1)统计待检测站点超过30天没有更新信息的所有板块数量(n)，规划的待检测站点的所有板块数量(N)，若得100分；未超过30％，每有一个超过30天未更新信息的板块，则累加分。

2)统计待检测站点在30天内未更新信息的所有板块数量(n)，规划的待检测站点的所有板块数量(N)，若得100分；未超过50％，每有一个30天内未更新信息的板块，则累加分。

四、网站综合打分及僵尸网站判定

综合二、三步骤计算得到到网站可用性打分及网站信息更新指数打分，将得分相加得到网站综合打分。综合打分超过80分即可判定为僵尸网站。

以上所述的本发明实施方式，并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明的权利要求保护范围之内。

Claims

1.僵尸网站的检测方法，包括以下步骤：

(1)网络信息收集和索引

使用网络信息采集雷达采集网站发布的互联网信息，所述的互联网信息为htm1格式，运用网页预处理算法对正文中的标题、发表时间、正文进行数据提取，重点对发表时间进行多种校验，保证提取的时间的正确性；而后将提取后的数据发送到索引模块，索引模块在对上述字段进行分词处理后，建立倒排索引，实现文本的检索；

(2)网站可用性检测

(3)网站信息更新检测

(4)网站综合打分及僵尸网站判定

2.根据权利要求1所述的检测方法，其特征在于：在步骤(1)中，所述网页预处理算法包括以下步骤：

3.根据权利要求2所述的检测方法，其特征在于：所述本地自然语言解析脚本包含了对自然语言的噪音的过滤、信息的归约以及变换。