CN107743128A

CN107743128A - 一种基于首页关联域名和同服务ip的非法网站挖掘方法

Info

Publication number: CN107743128A
Application number: CN201711044754.7A
Authority: CN
Inventors: 张兆心; 吴晓宝; 许海燕; 程亚楠; 陆柯羽
Original assignee: Harbin Institute of Technology Weihai
Current assignee: Harbin Institute of Technology Weihai
Priority date: 2017-10-31
Filing date: 2017-10-31
Publication date: 2018-02-27

Abstract

本发明提供一种基于首页关联域名和同服务IP的非法网站挖掘方法，其解决了现有非法网站挖掘方法的挖掘范围小、效率低和准确性差的技术问题。包括关联域名搜索，步骤如下：步骤1，准备一份非法域名集作为黑名单、一份合法域名集作为白名单，黑名单中的每个域名均作为种子域名，起始黑名单中的域名作为第一批种子域名，存储在数据库中；步骤2，从数据库中逐个取出种子域名展开广度优先搜索；步骤3，当前访问域名的层次达到最大限制层次数或当前域名无关联域名可搜索时，停止本次种子域名的关联域名搜索，继续该批次的下一个种子域名的关联域名搜索。本发明可广泛应用于信息技术领域。

Description

一种基于首页关联域名和同服务IP的非法网站挖掘方法

技术领域

本发明涉及一种非法网站挖掘方法，特别是涉及一种基于首页关联域名和同服务IP的非法网站挖掘方法。

背景技术

互联网的不断发展以及网络业务的迅速增长，对个人生活方式的影响进一步深化。伴随着互联网速度激增的同时，互联网安全形式也越来越受到人们重视。

目前，网站的安全性尤为突出，网络诈骗、赌博、淫秽色情等非法网站屡禁不止，给国家安全、社会稳定和人民财产安全带来重大影响。非法网站的检测和挖掘技术是防御网络攻击的核心技术，利用这些技术尽快的发现非法域名，及时对其进行管控，缩短其在网络中的流通时间，从而降低其所造成的威胁。

传统的非法域名挖掘技术，是从一堆未知的域名里面发现非法域名，挖掘范围小，挖掘效率低，准确性差。

发明内容

本发明针对现有非法网站挖掘方法的挖掘范围小、效率低和准确性差的技术问题，提供一种挖掘范围大、效率高和准确性好的基于首页关联域名和同服务IP的非法网站挖掘方法。

为此，本发明的技术方案是，包括关联域名搜索，步骤如下：

步骤1，准备一份非法域名集作为黑名单、一份合法域名集作为白名单，黑名单中的每个域名均作为种子域名，起始黑名单中的域名作为第一批种子域名，存储在数据库中；

步骤2，从数据库中逐个取出种子域名展开广度优先搜索；

步骤3，当前访问域名的层次达到最大限制层次数或当前域名无关联域名可搜索时，停止本次种子域名的关联域名搜索，继续该批次的下一个种子域名的关联域名搜索；

步骤4，当前批次的种子域名集全部搜索完毕时，继续下一批次的种子域名搜索，直到当前批次的所有种子都搜索完毕，且无下一批次的种子域名加入黑名单为止，算法结束。

优选地，步骤2中，广度优先搜索的步骤为：

(1)以种子域名为根结点，关联域名作为种子域名的子结点，以树形方式逐层向下进行搜索；

(2)搜索过程中获取的新域名集进行分类：非法域名、合法域名和未知域名，并添加到黑名单、白名单和灰名单中。

优选地，步骤(2)中，分类步骤是：

a.当域名被恶意性检测模块检测出具有恶意性时，则该域名就归为非法域名，不再继续向下搜索；若该域名不在黑名单中，则将该域名添加到黑名单中，作为下一批次的种子域名；若在黑名单中，则转入基于同服务IP的域名搜索；

b.当域名出现在白名单中或其顶级后缀是具有政府、教育性质的顶级域名后缀时，将该域名归为合法域名且不再继续向下搜索；

c.当该域名既不能检测出恶意性又无法确定为合法域名时，则将该域名归为未知域名，添加到灰名单中，并对该未知域名进行二次恶意性检测。

优选地，步骤c中，二次恶意性检测为对该未知域名的关联域名集进行恶意性域名检测：

1)当该未知域名的关联域名集中未检测出具有恶意性的域名时，则不再继续向下搜索，并将该未知域名从灰名单中剔除；

2)当该未知域名的关联域名集中检测出具有恶意性的域名时，统计存在恶意性的域名数量，并计算占关联域名总数量的比重，若数量为3以上，或比重为20％以上时，则将该域名归为非法域名，从灰名单移到黑名单中，并转入基于同服务IP的域名搜索。

优选地，基于同服务IP的域名搜索，包括以下步骤：

S11.获取该域名的A记录IP列表，从IP列表中逐个取出IP，反查出指向IP的域名列表，去重后得到新的一批域名集合；

S12.对该域名集中域名进行分类：非法域名、合法域名和未知域名，并添加到黑名单、白名单和灰名单中。

优选地，步骤S12中，分类步骤是：

S121.将非法域名添加到黑名单，并转入同子网IP的非法域名搜索；

S122.将合法域名添加到白名单，不再继续向下搜索；

S123.将未知域名添加到灰名单，并转入关联域名搜索。

优选地，同子网IP的非法域名搜索，包括以下步骤：

S21.当同服务IP的非法域名搜集到一定数量时，则对其进行一次DNS解析，得到域名与IP的映射表；

S22.分析映射表，得到非法域名集中出现的子网，枚举出子网下所有没有访问过的IP，通过IP获取未访问域名集；

S23.对域名集中的域名进行分类：非法域名、合法域名和未知域名，并添加到黑名单、白名单和灰名单中。

优选地，步骤S23中，分类步骤是：

S231.将非法域名添加到黑名单，并转入同子网IP的非法域名搜索；

S232.将合法域名添加到白名单，不再继续向下搜索；

S233.将未知域名添加到灰名单，并转入关联域名搜索。

本发明的有益效果是，可以高效地、准确地挖掘非法网站；通过对已知的非法域名进行关联域名搜索，获取到一批新的非法域名；再由同服务IP反查，获取更多的非法域名，继续对这些新的非法域名进行关联域名搜索，不断重复上述过程，挖掘出更多的非法网站。基于同服务IP的非法网站搜索可以极大地加快基于关联域名的非法网站搜索速度和提高基于关联域名的非法网站搜索的准确性、扩充搜索范围；而后者又可以为前者提供较为精确的搜索源，两者结合可高效地、准确地、大规模地挖掘非法网站。

附图说明

图1是基于网站关联域名和同服务IP的非法网站挖掘的模块连接示意图；

图2是基于网站关联域名的非法网站挖掘方法的流程图；

图3是基于同服务IP的非法网站挖掘方法的流程图。

图中符号说明：

1.控制模块；2.交互处理模块；3.信息提取模块；4.信息处理模块；5.恶意判定模块；6.基于同服务IP的域名搜索模块；7.事后处理模块；8.信息存储模块。

具体实施方式

下面结合实施例对本发明做进一步描述。

如图1所示，一种基于首页关联域名和同服务IP的非法网站挖掘装置，包括控制模块1、交互处理模块2、信息提取模块3、信息处理模块4、恶意判定模块5、基于同服务IP的域名搜索模块6、事后处理模块7和信息存储模块8。

控制模块1，包括处理队列和记录队列，用于实现关联域名搜索、同服务IP的域名搜索的结合，提高挖掘效率和搜索的准确性。通过处理队列和记录队列控制整个程序的搜索方向及程序中断后的接续处理，衔接基于关联域名的非法网站搜索和基于同服务IP的非法网站搜索。

处理队列是广度优先搜索算法的结点储存队列，单个种子域名进行BFS的处理队列；当进行同服务IP搜索时，所得到的灰名单都进入处理队列，标记为0层，标志着不进行下层搜索且为基于同服务IP搜索所得域名。

处理队列对同服务IP获取的非法域名设置标记，做本层的恶意性检测，不继续向下搜索。以树形方式逐层搜索过程中，发现白名单类域名时不再向下搜索；发现黑名单类域名时，设置关联域名搜索的段点，转入基于同服务IP的域名搜索；发现灰名单类域名时，根据其直接关联域名反向判定其恶意性，若判定未恶意，不再继续向下搜索；否则，根据记录队列中的段点，转入关联域名搜索，继续向下进行关联域名搜索。

当单个种子搜索完毕时，清空记录队列，开始记录下一个种子域名搜索结点。当一批种子域名搜索完毕时，使用第三方恶意网站检测接口对当前黑名单中作为新的非法域名集进行检测，将检测出的合法域名从黑名单中剔除，其他域名作为下一批种子域名，进行关联域名搜索。

记录队列是处理队列的一个副本，具有层次、种子信息，存储在数据库中，不会随着程序的断开而丢失；当程序因不知名异常断开时，手动处理该异常后，通过读取记录队列可以继续上一次记录末搜索，防止因异常中断而导致出现信息丢失的现象，提高了程序的健壮性；

记录队列也是一个过渡队列，相当于黑名单与BFS的一个桥梁，每当黑名单中的种子进行完BFS后，记录队列就会被清空，等待记录下一个种子的搜索记录。保证了单个种子关联域名搜索的顺利进行，使得程序中断后可以接力，不丢失有效信息。

交互处理模块2，为了获取完整的网站关联域名集，本实施例所采用的爬虫技术对传统爬虫无法爬取的JS动态加载页面和自定义框架结构的页面都具有相应的处理：为了提高爬虫的爬取效率，设置了响应超时、禁止了页面图片的加载、页面加载超时等操作。对于响应或解析出现的异常，均设置了对应的标志位，交给事后处理模块7进行后续处理。

信息提取模块3，通过访问域名对应的网站，将网站首页DIV布局解析成DOM树，提取出页面链接信息、页面关键信息和去除所有标签后的文本信息，而链接信息是指<a>标签下的HREF属性值及文本信息、<IMG>标签下的SRC属性值；页面关键信息是指<title>标签的文本信息、含keywords、description属性的<meta>标签下的content属性值；文本信息是指<body>标签下剔除所有标签的内容。

信息处理模块4，从链接信息及文本信息中正则匹配出域名，提取除当前访问的域名外所有出现在当前页面的域名，即当前域名的关联域名；处理关键信息和文本信息的编码问题，并将文字信息作分词处理得到关键词集。

恶意判定模块5，根据恶意关键词及第三方恶意网站检测接口检测域名恶意性：

先由第三方恶意网站检测接口检测信息处理模块4传入的首页关联域名集，筛选出正常域名和恶意域名。

对于检测出安全性未知的域名集合，通过下一步恶意关键词匹配来进一步判定其恶意性。

对于恶意关键词匹配，首先需要获取起始黑名单中非法网站的首页信息，提取出一组恶意关键词作为基础词库，并对恶意关键词设置词频信息、等级信息；

随着搜索的进行不断更新恶意关键词的词频信息，每隔一个时间段，根据词频更新恶意关键词的等级信息，并根据其恶意性程度作适当的调整和剔除处理；

恶意关键词匹配分为两部分：对<head>信息进行检测和对<body>信息进行检测。

由于<head>信息简短且具有一定概括性，对于<head>信息检测的规则是当网站首页中出现词库中最高等级的词时，表示该网站为非法网站。当<head>信息检测出恶意性时，不再继续检测；否则，继续<body>信息的检测。

由于<body>信息比较冗长且对于某些新闻、两性类的网站具有与非法网站中的类似的关键词，因此，对于<body>信息的检测规则如下：

1.以最低的一个等级作为基本单元，高等级比之前一个等级的词多一个单元数，以此类推。以最高等级单元数的两倍为基准，对当前网站首页中<body>信息进行检测，当其累计单元数达到基准时，该网站视为非法网站；

2.对新的非法网站的关键信息和文本信息作结巴分词，除去虚词等无关次，将分词权重最大的前五个分词加入到恶意关键词新库中，并添加词频；

3.每当新的一批非法网站访问时，就将恶意关键词新库中词频最高的五个恶意词录入到基础库中，以扩充基础关键词。

基于同服务IP的域名搜索模块6，每当确定当前访问的域名为恶意域名时，就转到基于同服务IP的域名搜索。并根据该恶意域名获取到同服务IP的一批域名列表，把恶意的加入到黑名单，疑似恶意的转到关联域名搜索。每当访问完一批恶意种子时，对该批访问结果做一次分析，得到其非法网站集中出现的子网，根据分析结果对子网下没有访问过的IP进行基于同服务IP的域名搜索。

事后处理模块7：

1.对于超时异常，延长超时时间，重新请求；

2.对于HTTP状态码以4为开头请求错误的，疑似请求过于频繁IP被查封，通过从代理IP列表中更换代理IP来进行再次请求；

3.对于解析异常，疑似是一些下载网站，无页面内容，直接从处理列表中剔除，不再做处理。

信息存储模块8，一方面，由于网络或其他可能出现的原因致使程序中断无法避免，因此需要将未访问域名队列中的域名实时地备份到数据库当中；另一方面，基于关键词匹配的恶意检测过程需要基础恶意词库，信息存储模块会存储基础恶意词库以便进行恶意性检测，并不断搜集已访问的恶意网站的关键词扩充基础恶意词库。

如图2所示，本实施例还提供一种基于首页关联域名和同服务IP的非法网站挖掘方法，以实现从小部分已知的非法网站中高效地、自动化地挖掘出大量的非法网站，具体步骤如下：

步骤1，准备一份域名的黑名单(非法域名集)、一份域名的白名单(合法域名集)，黑名单中的每个域名均作为种子域名，起始黑名单中的域名作为第一批种子域名，存储在数据库中。

步骤2，从数据库中逐个取出种子域名展开广度优先搜索(BFS)，具体步骤为：

(1)以种子域名为根结点(起始结点)，关联域名(除当前访问域名外所有在该网站首页上出现的域名集合)作为其子结点，以树形方式逐层向下进行搜索；

(2)搜索过程中获取的新域名集划分为三类：非法域名、合法域名和未知域名，并按情况添加到各名单中，具体为：

a.当域名被恶意性检测模块检测出具有恶意性时，则该域名就归为非法域名，不再继续向下搜索；若该域名不在黑名单中，则将该域名添加到黑名单中，作为下一批次的种子域名；若在黑名单中，则转入基于同服务IP的域名搜索模块进行同服务IP的域名搜索；

b.当域名出现在白名单中或其顶级后缀是类似于gov.cn、edu.cn等具有政府、教育性质的顶级域名后缀时，将该域名归为合法域名且不再继续向下搜索；

c.当该域名既不能检测出恶意性又无法确定为合法域名时，则将该域名归为未知域名，添加到灰名单中。根据域名直接关联的域名集反向判定未知域名的恶意性即未知域名的二次恶意性检测，具体为：

1).当其关联域名集中未检测出具有恶意性的域名时，则不再继续向下搜索，并将该域名从灰名单中剔除；

2).当其关联域名集中检测出具有恶意性的域名时，统计存在恶意性的域名数量，并计算占关联域名总数量的比重，若数量超过某个界值(3)或比重超过某个界点(20％)时，则将该域名归为非法域名，从灰名单移到黑名单中，并转入基于同服务IP的域名搜索模块进行同服务IP的域名搜索；

步骤3，当前访问域名的层次达到最大限制层次数n或当前域名无关联域名可搜索时，停止本次种子域名的关联域名搜索，继续该批次的下一个种子域名的关联域名搜索；

如图3所示，步骤2中的基于同服务IP的域名搜索，包括以下步骤：

S11.获取该域名的A记录IP列表，从IP列表中逐个取出IP，反查出指向该IP的域名列表，去重后得到新的一批域名集合；

S12.对该域名集中域名进行分类：非法域名、合法域名和未知域名；并按情况添加到各名单中，具体为：

S121.将非法域名添加到黑名单，并转入同子网IP的非法域名搜索，即步骤S2；

S122.将合法域名添加到白名单中，不再继续向下搜索；

S123.将未知域名添加到灰名单，并转入关联域名搜索，即步骤1；

步骤S12中，同子网IP的非法域名搜索，步骤包括：

S22.分析映射表，得到非法域名集中出现的子网，枚举出子网下所有没有访问过的IP，通过这些IP获取未访问域名集；

S23.对该域名集中域名进行分类：非法域名、合法域名和未知域名，并按情况添加到各名单中，具体为：

S232.将合法域名添加到白名单中，不再继续向下搜索；

S233.将未知域名添加到灰名单，并转入关联域名搜索，即步骤1。

本发明所提供的非法网站挖掘方法可以高效地、准确地挖掘非法网站；通过对已知的非法域名进行关联域名搜索，获取到一批新的非法域名；再由同服务IP反查，获取更多的非法域名，继续对这些新的非法域名进行关联域名搜索，不断重复上述过程，挖掘出更多的非法网站。基于同服务IP的非法网站搜索可以极大地加快基于关联域名的非法网站搜索速度和提高基于关联域名的非法网站搜索的准确性、扩充搜索范围；而后者又可以为前者提供较为精确的搜索源，两者结合可高效地、准确地、大规模地挖掘非法网站。

惟以上所述者，仅为本发明的具体实施例而已，当不能以此限定本发明实施的范围，故其等同组件的置换，或依本发明专利保护范围所作的等同变化与修改，皆应仍属本发明权利要求书涵盖之范畴。

Claims

1.一种基于首页关联域名和同服务IP的非法网站挖掘方法，其特征是，包括关联域名搜索，步骤如下：

步骤2，从所述数据库中逐个取出所述种子域名展开广度优先搜索；

2.根据权利要求1所述的基于首页关联域名和同服务IP的非法网站挖掘方法，其特征在于，所述步骤2中，所述广度优先搜索的步骤为：

(1)以所述种子域名为根结点，关联域名作为所述种子域名的子结点，以树形方式逐层向下进行搜索；

3.根据权利要求2所述的基于首页关联域名和同服务IP的非法网站挖掘方法，其特征在于，所述步骤(2)中，所述分类步骤是：

a.当域名被恶意性检测模块检测出具有恶意性时，则该域名就归为所述非法域名，不再继续向下搜索；若该域名不在所述黑名单中，则将该域名添加到所述黑名单中，作为下一批次的种子域名；若在所述黑名单中，则转入基于同服务IP的域名搜索；

b.当域名出现在所述白名单中或其顶级后缀是具有政府、教育性质的顶级域名后缀时，将该域名归为所述合法域名且不再继续向下搜索；

c.当该域名既不能检测出恶意性又无法确定为合法域名时，则将该域名归为所述未知域名，添加到所述灰名单中，并对该未知域名进行二次恶意性检测。

4.根据权利要求3所述的基于首页关联域名和同服务IP的非法网站挖掘方法，其特征在于，所述步骤c中，所述二次恶意性检测为对该未知域名的关联域名集进行恶意性域名检测：

1)当该未知域名的关联域名集中未检测出具有恶意性的域名时，则不再继续向下搜索，并将该未知域名从所述灰名单中剔除；

2)当该未知域名的关联域名集中检测出具有恶意性的域名时，统计存在恶意性的域名数量，并计算占关联域名总数量的比重，若数量为3以上，或比重为20％以上时，则将该域名归为所述非法域名，从所述灰名单移到所述黑名单中，并转入基于同服务IP的域名搜索。

5.根据权利要求3或4所述的基于首页关联域名和同服务IP的非法网站挖掘方法，其特征在于，所述基于同服务IP的域名搜索，包括以下步骤：

S11.获取该域名的A记录IP列表，从所述IP列表中逐个取出IP，反查出指向所述IP的域名列表，去重后得到新的一批域名集合；

S12.对该域名集中域名进行分类：非法域名、合法域名和未知域名；并添加到所述黑名单、白名单和灰名单中。

6.根据权利要求5所述的基于首页关联域名和同服务IP的非法网站挖掘方法，其特征在于，所述步骤S12中，所述分类步骤是：

S121.将非法域名添加到所述黑名单，并转入同子网IP的非法域名搜索；

S122.将合法域名添加到所述白名单，不再继续向下搜索；

S123.将未知域名添加到所述灰名单，并转入关联域名搜索。

7.根据权利要求6所述的基于首页关联域名和同服务IP的非法网站挖掘方法，其特征在于，所述同子网IP的非法域名搜索，包括以下步骤：

S22.分析所述映射表，得到非法域名集中出现的子网，枚举出所述子网下所有没有访问过的IP，通过所述IP获取未访问域名集；

S23.对所述域名集中的域名进行分类：非法域名、合法域名和未知域名，并添加到所述黑名单、白名单和灰名单中。

8.根据权利要求7所述的基于首页关联域名和同服务IP的非法网站挖掘方法，其特征在于，所述步骤S23中，所述分类步骤是：

S232.将合法域名添加到白名单，不再继续向下搜索；

S233.将未知域名添加到灰名单，并转入关联域名搜索。