CN106354800A

CN106354800A - 一种基于多维度特征的不良网站检测方法

Info

Publication number: CN106354800A
Application number: CN201610739289.8A
Authority: CN
Inventors: 李晓东; 田双柱; 陈勇; 延志伟
Original assignee: China Internet Network Information Center
Current assignee: China Internet Network Information Center
Priority date: 2016-08-26
Filing date: 2016-08-26
Publication date: 2017-01-25

Abstract

本发明公开了一种基于多维度特征的不良网站检测方法。本方法为：1)对网站训练集中每一网站，获取该网站的多维度特征数据；该多维度特征数据包括网站在注册层面的特征数据、解析层面的特征数据和内容特征数据；其中，该网站训练集包括一不良网站训练集和一健康网站训练集；2)基于步骤1)得到的多维度特征数据进行模型训练，得到一检测模型；3)对于一待识别网站，该检测模型根据该网站的多维度特征数据，判断该网站是否为不良网站。本发明可以更广泛的应用于不良网站的检测，在检测不良网站时更加精准，同时减少漏检、错检情况。

Description

一种基于多维度特征的不良网站检测方法

技术领域

本发明涉及一种基于多维度特征的不良网站检测方法，属于计算机网络技术领域。

背景技术

针对涉黄、涉赌、涉暴等不良网站，发现方式主要有人工举报和技术检测两种。但是前者由于人工操作的限制，只能发现很少数量的不良网站，而后者是主要的处理方法。目前国内外针对不良网站的过滤方法主要包括四种：基于因特网内容分级平台(PICS)过滤、关键词过滤、数据库过滤以及基于内容理解的过滤。其中，PICS过滤指的是，网络评估系统按照色情、暴力、赌博等指标将网站进行分类、分级，从而进行网站过滤。但是，基于实际情况的限制，一些网站通过各种手段，贴上与实际内容并不相符的分级标签，导致这种过滤方式实际并不能起到良好效果。基于关键词的过滤是指建立不良关键词的词库，然后根据基于规则的或者机器学习的方式，检索网站关键词判断网站性质。这种方式检索速度快，但是不良网站可以通过将网络关键词改为健康网站关键词的方式来应对搜索引擎，从而逃避搜索。数据库过滤则是通过网站的ip地址、URL、代理商等信息，建立黑、白名单的方式进行不良网站过滤。这种过滤方式准确率高，但是存在滞后性，对于伪造IP地址，更换URL等手段不能很好的处理。而基于网站内容的过滤方法，主要是根据网页文本内容、图片内容，进行数据处理，然后训练模型，通过新模型来判断网站性质的方法。这种方法准确率高，能够达到较好的效果，是目前最主流的过滤方法。但是不良网站通过技术手段对搜索引擎隐藏内容会导致这种方法失效，漏检不良网站。

发明内容

针对现有技术中存在的技术问题，本发明目的在于提供一种基于多维度特征的不良网站检测方法。本发明结合基于内容理解的过滤方法，提出并分析了解析和注册等方面的特征，进行网站检测。

本发明的技术方案为：

一种基于多维度特征的不良网站检测方法，其步骤为：

1)对网站训练集中每一网站，获取该网站的多维度特征数据；该多维度特征数据包括网站在注册层面的特征数据、解析层面的特征数据和内容特征数据；其中，该网站训练集包括一不良网站训练集和一健康网站训练集；

2)基于步骤1)得到的多维度特征数据进行模型训练，得到一检测模型；

3)对于一待识别网站，该检测模型根据该网站的多维度特征数据，判断该网站是否为不良网站。

该解析层面的特征数据包括：权威解析服务器；该注册层面的特征数据包括：网站的注册年份以及IP接入地址；该内容特征数据为网站的title特征词列表。

该解析层面的特征数据还包括：网站日解析次数；该注册层面的特征数据还包括：网站的存活时间。

通过whois命令查询网站的whois信息，然后从whois信息里面提取网站的注册商、注册年份、网站到期年份以及权威解析服务器；通过dig命令查询网站对应的IP地址，获取网站IP对应的物理接入地址；从日志解析数据中爬取网站的title信息，提取网站title信息的高频词，得到title特征词列表。

将每个网站对应的特征数据处理成“注册时间，注册商，解析服务器，IP接入地址，24小时解析量，日解析总量，title特征词列表”的数据格式，特征之间采用逗号隔开。

选择随机森林算法对步骤1)得到的多维度特征数据进行训练，得到该检测模型。

通过检测.cn下的网站，然后基于内容的检测模型过滤出疑似不良网站，并对这些网站截图，筛选并标注出不良网站，得到不良网站训练集；爬取DMOZ网站上面列出的健康网站的URL，得到健康网站训练集。

选取一新的网站集合，然后利用该检测模型对该网站集合中每一网站的所述多维度特征数据进行预测，如果出现新的预测结果，则将其加入该检测模型，然后进行步骤3)。

本发明主要内容包括：

1)研究并提出网站内容以外的有效特征集；

2)将新的特征集应用于检测模型，增强基于网站内容的检测方法；

3)训练更有效的检测模型，更精准的检测不良网站，净化网络环境。

在中国互联网络信息中心的网络监管工作中，经常要处理大量的不良网站数据。这些不良网站主要是涉及色情、赌博、暴力等内容，而且其中部分不良网站也会采取更换URL、规避使用常规关键词等手段避免检测。为了对国内网站进行更好的管理，我们统计了不良网站在注册、解析、运维等多个层面的数据，并针对各个层面进行了总结、分析。研究发现，相对于健康网站，不良网站在注册、解析等层面的数据都有不同之处。将这些不同的数据进行提取，我们得出了此次研究的特征集。

相对于健康网站希望将网站越做越好，长期经营的建站目的，不良网站限于国内严格的监管环境，以短期内大量吸引网络流量为目的，并会定期更换URL，以逃避监管。所以不良网站注册年限往往比较新。基于此分析，对注册年限进行了统计分析。

如图1所示，我们可以看到，健康网站注册年限呈现一个比较均匀的趋势。相对于健康网站，90％以上不良网站的注册年份为2015年，部分在2014年和2013年，呈现出注册年限普遍比较近的现象。基于以上分析，提出了两个注册方面的特征。注册年份和网站从注册到续费截止时间存在的年份。

经过长期监管的数据分析，不良网站的注册商相对于一般健康网站的广泛性，大部分不良网站的注册商也更加固定，对数据集网站的注册商进行统计分析。

图2中A～U代表训练集的主要注册商(具体商家名称不便公布)，OTHER则代表其他一些注册商。图中可以看到，90％以上的不良网站集中在A、B、C三家服务商进行注册。而相对于不良网站的注册集中化，一般健康网站的注册商明显更为广泛，分布更加均匀。

用户浏览网站时，需要权威服务器对用户查询进行解析。统计训练集网站的解析数据，并对权威服务器进行数据统计分析见图3。

图3中a～n代表解析网站域名的权威服务器名称，从图中可以看出，不良网站的解析服务器以a、b、c、d为主。这几大服务器为训练集中90％以上的不良网站提供解析服务。而健康网站可以看到虽然也有部分解析商提供大量网站的解析，但是解析商分布明显更加发散。此外，统计数据中还有部分数据没有在图表中显现出来。other项，15个不良网站由其他服务商解析，而健康网站有将近500个，占总数约30％由其他服务商解析。更进一步体现了健康网站域名解析的分散性，而不良网站会相对聚簇。

此次训练用的解析日志数据为.cn权威服务器一天的数据，处理解析数据，保留A类(从域名信息到ip地址的解析查询)查询信息，然后对训练数据集进行数据统计。分别提取了训练集网站的24小时的解析量，以及当天的解析总量。并按照解析总量对网站数据进行了分类统计。

根据提取日期当天的解析数据量，对训练集数据进行分类统计。从图4可以看出不良网站的日访问量相对健康网站偏低(解析日志为某个周三的数据)。而且，大部分不良网站的解析次数在单日100次以内。相对于不良网站，健康网站解析次数更多，单日100次以内的网站数量大概占20％左右。由此可见，虽然不良网站会通过各种不良手段来吸引网络流量，但是限于国内严格的网络监管环境，不良网站的访问量还是普遍偏低的。

此外，不良网站相对于健康网站还有很多其他明显特征。相对于国内对网络监管比较严格的大环境，大部分不良网站的实际接入地址一般会选择外国。针对网站ip的物理接入地址，进行了数据统计。

通过图5可以观察到，超过90％的不良网站的接入地位为美国(US)或香港(HK)，而少部分(不到1％)在中国大陆(CN)、法国(FR)等地。而健康网站则大部分在中国大陆接入，一部分在美国、香港接入，非常少的一部分在日本等国家接入(图中由于部分数据量非常小，所以柱形图并不明显)。可以得出，接入IP地址这一特征也有很大价值。此外，对于国外接入的网站应该进行更加严格的监管。

在以上分析的基础上，本文提出了注册年份、解析商、IP接入地址等独有特征。不良网站在这些特征上与健康网站均有不同表现。对于不良网站更改URL，避免不良关键词使用，隐藏不良图片等做法，并不会影响这些特征数据。

基于以上提出的特征，结合目前基于网站内容的不良网站过滤方法，将注册、解析层面的特征(包括“注册年份、解析商、IP接入地址”等特征)与网页内容特征相结合，并用最主流的机器学习算法进行建模，最终完成训练，得到了新的检测模型。用实验数据验证，新模型对不良网站的检测达到了良好的精准性。

与现有技术相比，本发明的积极效果为：

目前不良网站的过滤主要是以网站的内容为特征进行过滤，所以当网站内容对搜索爬虫隐藏时，基于内容的过滤便会失效。对于这种状况，1)本发明提取了网站集在注册、解析层面的特征，与将网站内容作为特征的过滤方法不同，不会完全依赖于搜索爬虫获取到的网页内容，可以更广泛的应用于不良网站的检测。2)对新特征进行了分析、计算，这些特征有非常高的区分度，是有效的训练特征。3)并不完全依赖新特征，而是将这些特征与网页内容特征联合使用，这样确保训练出来的模型在检测不良网站时更加精准，同时减少漏检、错检情况。4)采用了目前最广为流行的机器学习算法进行模型训练，并将训练的各个模型进行比较，最终选取了表现最出色的模型，更进一步提升了检测模型的精准性。

附图说明

图1为注册年份统计图；

图2为注册商数据统计图；

图3为域名解析服务器数据统计图；

图4为网站单日解析量统计图；

图5为网站接入物理地址分布统计图；

图6为本发明方法流程图。

具体实施方式

下面结合附图对本发明的具体实施方法进行进一步详细描述。

一般基于内容的不良网站检测方法，首先提取大量网站的内容特征，然后进行建模训练，最终得出不良网站检测模型，通过模型对新的网站数据进行检测，判断新数据是不是不良网站。

与此方法不同，本发明提出的基于多维度特征的不良网站检测方法不仅仅基于网站内容，还需要其他各层面的特征数据。如图6所示，其具体过程如下：

1)网站训练集获取。检测.cn下的大量网站，通过实验室基于内容的检测模型过滤出疑似不良网站，同时对这些网站截图。人工筛查疑似不良网站截图，标注出不良网站，确定不良网站的训练集。编写网络爬虫，爬取DMOZ网站(www.chinadmoz.org)上面列出的健康网站的URL，并以此作为健康网站的训练集。

2)特征集获取。对于网站训练集合中的每一网站，需要获取该网站在注册、解析层面的特征数据。通过whois命令查询网站的whois信息；编写脚本，提取whois信息里面网站的注册商、注册年份、网站到期年份以及权威解析服务器这些特征数据；通过dig命令查询网站对应的IP地址；编写脚本，查询出网站IP对应的物理接入地；从中国互联网络信息中心获取.CN权威服务器的日志解析数据；通过脚本，爬取网站的title信息；将获得的网站的title信息进行切词，去停用词，取高频词，得到title的特征词列表。

3)数据处理。将每个网站对应的数据处理成“注册时间，注册商，解析服务器，IP地址接入，24个小时解析量，日解析总量，title特征词列表”的数据格式，特征之间逗号隔开，并将所有数据放在一起，保存为“.csv”格式。

4)模型建立。用weka打开.csv格式的数据文件，另存为.arff的文件，这样weka便可以进行之后的处理。用weka打开.arff的文件，选择分类，分类方式选择随机森林算法，进行训练，得到检测模型。

5)新数据预测。对于新的网站集合，通过2)、3)步骤得到新数据集数据的.arff文件，用weka打开文件，并用4)获得的检测模型预测新数据，即可得到预测结果。

在以上的执行过程中，对于5)得出的新结果，可以加入到检测模型中，进一步加强模型训练的准确性。而对于要检测的新网站，则通过5)进行检测。

结果表明，运用多特征建立的随机森林模型可以精准的检测出不良网站。这其中既包括一般不良网站，也包括通过更改URL，隐藏关键词等手段躲避搜索的更加隐蔽的不良网站。证明了方法的有效性。

本发明建立了新的不良网站检测模型。使用的算法是目前网络的主流算法，与现有技术最大的不同之处在于，本次研究提出了新的、有效的不良网站的建模特征。这些特征主要包括：

1)解析层面：权威解析商、网站日解析次数；

2)注册层面：网站的注册年份，网站的存活时间(自网站注册到网站购买日期结束)，网站的注册商。

3)IP接入国别。

此外，提出了将以上特征和网页内容特征相结合训练模型，进行不良网站检测的方法。由于模型中添加了这些注册、解析层面的独有特征，使得不良网站通过更换URL，隐藏不良关键词等做法无法再起作用；而又因为建模同时还使用了基于网站内容的特征，所以同样保证了对一般不良网站的精准过滤。所以基于以上分析，本次研究最终实现了对不良网站更精准、更全面的过滤。

Claims

1.一种基于多维度特征的不良网站检测方法，其步骤为：

2.如权利要求1所述的方法，其特征在于，该解析层面的特征数据包括：权威解析服务器；该注册层面的特征数据包括：网站的注册年份以及IP接入地址；该内容特征数据为网站的title特征词列表。

3.如权利要求2所述的方法，其特征在于，该解析层面的特征数据还包括：网站日解析次数；该注册层面的特征数据还包括：网站的存活时间。

4.如权利要求3所述的方法，其特征在于，通过whois命令查询网站的whois信息，然后从whois信息里面提取网站的注册商、注册年份、网站到期年份以及权威解析服务器；通过dig命令查询网站对应的IP地址，获取网站IP对应的物理接入地址；从日志解析数据中爬取网站的title信息，提取网站title信息的高频词，得到title特征词列表。

5.如权利要求4所述的方法，其特征在于，将每个网站对应的特征数据处理成“注册时间，注册商，解析服务器，IP接入地址，24小时解析量，日解析总量，title特征词列表”的数据格式，特征之间采用逗号隔开。

6.如权利要求1～5任一所述的方法，其特征在于，选择随机森林算法对步骤1)得到的多维度特征数据进行训练，得到该检测模型。

7.如权利要求1～5任一所述的方法，其特征在于，通过检测.cn下的网站，然后基于内容的检测模型过滤出疑似不良网站，并对这些网站截图，筛选并标注出不良网站，得到不良网站训练集；爬取DMOZ网站上面列出的健康网站的URL，得到健康网站训练集。

8.如权利要求1～5任一所述的方法，其特征在于，选取一新的网站集合，然后利用该检测模型对该网站集合中每一网站的所述多维度特征数据进行预测，如果出现新的预测结果，则将其加入该检测模型，然后进行步骤3)。