CN108804576A

CN108804576A - 一种基于链接分析的域名层级结构探测方法

Info

Publication number: CN108804576A
Application number: CN201810504726.7A
Authority: CN
Inventors: 李瑞轩; 文坤梅; 龚晶; 李玉华; 辜希武; 彭城易; 许武奎
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2018-05-22
Filing date: 2018-05-22
Publication date: 2018-11-13
Anticipated expiration: 2038-05-22
Also published as: CN108804576B

Abstract

本发明公开了一种基于链接分析的域名层级结构探测方法，包括：对初始URL进行数据爬取并跟踪链接进行深度分布式爬取，得到待分析机构的域名集合与域名链接关系；利用待分析机构的域名集合与域名链接关系构建链接网络有向图，利用链接网络有向图进行聚类计算，得到聚类结果，计算链接有向图中每个节点的重要度；利用聚类结果和链接有向图中每个节点的重要度对链接网络有向图进行有向图边加权，得到加权有向图；在加权有向图上使用基于最短路的算法计算节点从属关系，得到待分析机构的域名从属关系树形结构。本发明具有较高的数据爬取效率和域名采集覆盖率；本发明在保证结构提取高效性的同时，也极大提高了域名从属关系探测的准确率。

Description

一种基于链接分析的域名层级结构探测方法

技术领域

本发明属于互联网应用技术领域，更具体地，涉及一种基于链接分析的域名层级结构探测方法。

背景技术

随着互联网的快速发展，越来越多的机构在互联网上搭建自己的门户网站，机构的Web站点的规模以及其子机构域名的数量也都在爆炸式的增长。尽管其为人们的日常生活提供了必要的支持与便利，但却难以对其Web站点或域名关系有直观的了解，难以发现域名组织模式与规律。因此，需要一个能够对机构的域名站点进行针对性分析的方法，发现各子机构的域名列表，并对其域名所属机构的从属关系进行探测分析，提供探测机构直观全面的展示。

由于Web站点具有海量性规模、链接关系复杂等特点，对机构的web结构进行针对性分析不是一件容事，大量学者已经对分布式数据获取优化和Web结构提取做了大量的研究。Sawroop Kaur Bal(Bal S K，Geetha G.Smart distributed web crawler[C]：International Conference on Information Communication and EmbeddedSystems.IEEE，2016：1-5.)发明一种主从式的分布式爬虫，使用动态分配策略将请求分配给从节点，实现负载均衡，由于优质页面通常不会存在于较深的页面，因此其通常将爬取深度设置为5，其设计使用B树数据结构来存放爬取的数据也有效的提高了数据增删改查的效率；Do Le QuoC(Quoc D L，Fetzer C，Felber P，et al.UniCrawl：A PracticalGeographically Distributed Web Crawler[J].2015：389-396.)则发明了一种名为Unicrawl的与地理位置相关的分布式爬虫，它是基于Nutch框架实现的，并结合MapReduce进行分布式计算，其任务分发时考虑实际地理位置的影响，减少了通信消耗与传统的爬虫相比，性能提高了93.6％，速度提高1.75倍。在Web结构提取方面，Satuluri等人(V.Satuluri，S.Parthasarathy，Symmetrizations for clustering directedgraphs.in：EDBT′11：Proceedings of the 14th International Conference onExtending Database Technology，2011.343-354.)提出一种将指向信息转化为无向图的边权的方法，实现节点聚类的工作。在国内，任仲晟等人提出一种基于页面标签的Web结构提取技术，该算法有较快的提取速度，但准确度相对较低；苏亚博(苏亚博.基于链接分析的Web站点结构提取算法[J].现代计算机，2016(8)：54-55.)提出一种改进自PageRank算法的基于链接导向的Web站点结构提取算法。该算法需要一个预先定义好的待爬取Web页面的集合，采用此方法对Web站点区分域名乃至链接层次，然而其不能很好的反映各域名间的从属关系和层次树结构。

综上所述，当前研究对发现域名所属机构间的关联关系，探测其从属关系还缺乏相关的方法。目前主要是解决组织机构级别的站点域名间关联复杂，不能直观反映其从属关系的问题。从实际的角度看，已有的解决方案只是分析得出了站点间的链接关系，并没有进一步分析其内在关联关系和组织结构。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于链接分析的域名层级结构探测方法，由此解决现有技术不能很好的反映各域名间的从属关系和层次树结构，导致层级提取中父子关系不确定和域名所属机构分配出错的技术问题。

为实现上述目的，本发明提供了一种基于链接分析的域名层级结构探测方法，包括：

(1)对初始URL进行数据爬取并跟踪链接进行深度分布式爬取，得到待分析机构的域名集合与域名链接关系；

(2)利用待分析机构的域名集合与域名链接关系构建链接网络有向图，利用链接网络有向图进行聚类计算，得到聚类结果，计算链接有向图中每个节点的重要度；

(3)利用聚类结果和链接有向图中每个节点的重要度对链接网络有向图进行有向图边加权，得到加权有向图；

(4)在加权有向图上使用基于最短路的算法计算节点从属关系，得到待分析机构的域名从属关系树形结构。

进一步地，步骤(1)包括：

(1-1)构建域名队列和跟随队列，分别用于保存待爬取的域名数据和当前域名的链接数据，将初始URL加入至域名队列中；

(1-2)从跟随队列提取待爬取URL并将跟随队列的待爬取深度减一，若跟随队列为空则从域名队列提取待爬取域名并初始化其爬取深度值；

(1-3)从待爬取URL的Web页面爬取链接数据，并存储至MongoDB分布式数据库；

(1-4)从链接数据中爬取到新域名和当前域名的新链接，对于新域名和当前域名的新链接进行过滤去重后，将未爬取过且待爬取深度大于0的域名和链接分别加入域名队列和跟随队列；

(1-5)从跟随队列中抓取链接进行跟踪，若跟随队列中所有待爬取深度都为0则停止跟踪，否则进入步骤(1-1)。

进一步地，步骤(2)包括：

(2-1)利用待分析机构的域名集合与域名链接关系构建链接网络有向图，计算链接网络有向图的邻接矩阵；

(2-2)计算链接网络有向图中每个节点的出度数和每个节点链接到其他任意节点的概率值，得到随机图模型有向边概率矩阵，使用随机图模型有向边概率矩阵，构建双向边趋向矩阵；

(2-3)使用链接网络有向图的邻接矩阵与其转置矩阵相乘，得到双向边邻接矩阵，并将双向边邻接矩阵减去双向边趋向矩阵得到相似度矩阵；

(2-4)使用相似度矩阵的行和对角矩阵减去其本身，得到拉普拉斯矩阵；

(2-5)计算拉普拉斯矩阵的特征值和特征向量，将相邻特征值之差的最大值所在的下标作为目标聚类的个数；

(2-6)使用k-means对特征向量转置后的行向量进行聚类，得到聚类结果，将聚类结果映射至链接网络有向图的节点的聚类中，计算链接有向图中每个节点的重要度。

进一步地，计算链接有向图中每个节点的重要度的具体实现方式为：

去除链接网络有向图的有向链接的方向，构建域名链接网络无向图，计算域名链接网络无向图中每个节点对其相邻节点的重要度贡献比例，初始化域名链接网络无向图中每个节点的重要度，对于域名链接网络无向图中每个节点，用其相邻节点的重要度贡献比例乘以相邻节点的重要度然后求和得到每个节点的新一轮重要度；当域名链接网络无向图中每个节点的新一轮重要度的变化值之和小于阈值时，得到链接有向图中每个节点的重要度。

进一步地，步骤(3)包括：

(3-1)使用聚类结果对链接网络有向图进行有向图边加权，若节点i向节点j存在一条有向边且在同一聚类中，则对这条边赋予第一权值S₁，若节点i向节点j存在一条有向边但不在同一聚类中，则对这条边赋予第二权值S₂，δ_ij表示节点i和节点j是否在同一聚类，即δ_ij∈{0，1}，当δ_ij为0，表示节点i和节点j不在同一聚类，当δ_ij为1，表示节点i和节点j在同一聚类，则聚类相关边权CW_ij＝δ_ijS₁+(1-δ_ij)S₂，其中0＜S₁＜0.01，0.1＜S₂＜1；

(3-2)使用链接有向图中每个节点的重要度对链接网络有向图进行有向图边加权，若节点i向节点j存在一条有向链接，则此边的重要度相关边权为节点i的重要度DR_i与节点j的重要度DR_j之间的差值的四次方，即重要度相关边权RW_ij＝(DR_i-DR_j)⁴；

(3-3)使用聚类相关边权和重要度相关边权对有向边综合加权，得到加权有向图中节点i至节点j的边权W_ij＝P₁RW_ij+P₂CW_ij，其中，且有0＜P₁＜0.1，0.5＜P₂＜1。

进一步地，步骤(4)包括：

(4-1)遍历链接有向图中所有节点，重要度最大的节点为根级域名节点；

(4-2)使用根级域名节点作为源点，使用Dijkstra算法计算链接有向图的单源最短路径，得到从根级域名节点出发至其他所有节点的最短路径；

(4-3)遍历链接有向图中的所有有向边链接，删除其中有向边的起点最短路径与有向边的终点最短路径之差不等于边权的有向边，得到有向无环图；

(4-4)在有向无环图上采用记忆化深度优先搜索，得到每个节点所处的最低深度，将每个节点所处的最低深度对应的上一级节点作为该节点的父级节点，进而得到域名从属关系树形结构。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明仅考虑域名间的链接关系，而无需对Web站点的文档信息进行分析，有效的加快了数据爬取和分析的速度；此外，本发明综合考虑域名链接网络的聚类信息和节点重要度信息对层级从属关系探测的影响，多方位对链接有向图进行结构分析，可以有效的避免层级提取中父子关系不确定和域名所属机构分配出错的问题。本发明在保证结构提取高效性的同时，也极大提高了域名从属关系探测的准确率。

(2)本发明实现了定制化的爬虫设计，对于抓取大型网络空间中的机构站点域名数据有较高的效率和较全的覆盖率；且采用分布式的爬虫框架有较好的稳定性与容错能力。

(3)本发明方法能有效的解决传统聚类算法不能识别聚类间单向链接的问题，因此可以有效识别放置众多虚假链接的域名站点。结合了重要度分析的算法，可以有效的识别节点的父子从属偏序关系而不至于颠倒顺序。

附图说明

图1为本发明实施例提供的整体架构图；

图2为本发明实施例提供的处理流程图；

图3为本发明实施例提供的数据爬取的细化流程图；

图4为本发明实施例提供的聚类计算的细化流程图；

图5为本发明实施例提供的重要度计算的细化流程图；

图6为本发明实施例提供的有向图边加权的细化流程图；

图7为本发明实施例提供的层级探测的细化流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

以下首先就本发明的技术术语进行解释和说明：

链接分析：链接分析是指源于对Web结构中超链接的多维分析，主要应用场景主要包括网络信息检索、网络计量学、数据挖掘、Web结构建模等方面；

Redis：是一个具有高性能、高可靠性、负载均衡的key-value数据库框架。其主要特性包括：支持多种类型的数据模型、支持数据持久化、主从同步机制完善；

MongoDB：是一个使用C++编写的开源、跨平台、面向文档的NoSQL数据库。不同于传统数据库，它具有高可用、可扩展和表结构自由的特点。MongoDB的文档概念等同于关系型数据库的表，但其没有预先定义好的表结构，可以随时随意对数据结构进行修改。此外，由于略去了传统数据库对数据处理时的ACK操作，MongoDB大大提高了存储的性能，而且MongoDB也支持分布式的数据存储，在数据的负载均衡、容灾和故障转移等方面都做了相应工作；

Scrapy：是一个使用Python语言开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据；Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试；

Scrapy-Redis：是一个第三方的基于Redis的分布式Scrapy爬虫框架，通过它可以快速实现简单的分布式爬虫程序，其主要提供的功能包括：任务调度、URL去重、数据持久化、分布式队列等；

谱聚类：谱聚类是一类从图论基础演化而来，以带权图的最小切割为优化目标来聚类的算法，是一类无监督聚类。谱聚类首先对空间上的点用带权的边链接，而边权则对应了用户定义的节点相似度，通过对所有数据点形成的图进行切图，让不同子图间边权和尽可能低，而子图内部的边权和尽可能的高，从而达到聚类的目的。

PageRank：是通过计算页面链接的数量和质量来确定网站重要性的粗略估计。算法创立之初的目的是应用在Google的搜索引擎中，对网站进行排名。但随着国内外学者的深入研究，PageRank算法被广泛应用于其他方面，例如学术论文的重要性排名，学术论文的作者的重要性排排序，网络爬虫，关键词与句子的抽取，随后又出现了基于PageRank的Twitter用户的影响力排名，基于PageRank的微博用户影响力算法的研究，和一些其他在PageRank算法基础上进行改进的研究。

图1显示了基于链接分析的域名层级结构探测方法的整体架构，其中带圆角的虚线矩形分别代表本方法的爬虫探测模块和层级分析模块，而层级分析又分为具体的四个步骤：有向图聚类、节点重要度度量、有向图边加权和最短路层级探测。可以看出，本方法首先对用户输入的初始URL输入到爬虫模块进行数据爬取，爬虫框架主要采用Scrapy-Redis分布式框架设计实现，采用分布式MongoDB数据库进行数据存储；其次，通过聚类和节点重要度计算对链接网络进行初步结构信息提取，使用自定义公式对有向边进行综合加权，最后完成层级结构提取提供上层Web应用进行可视化展示。

如图2所示，一种基于链接分析的域名层级结构探测方法，包括：

如图3所示，步骤(1)包括：

(1-1)使用基于Python语言的Redis Queue技术分别构建域名队列和跟随队列，分别用于保存待爬取的域名数据和当前域名的链接数据，将初始URL加入至域名队列中；

(1-2)从跟随队列提取待爬取URL并将跟随队列的待爬取深度减一，若跟随队列为空则从域名队列提取待爬取域名并初始化其爬取深度值；由于价值高的页面往往不会存在于过深的链接中，因此不失一般性，此初始爬取深度通常设置为3，使用此URL或域名封装爬取请求Request；

(1-3)使用Scrapy-Redis框架的Spider从待爬取URL的Web页面爬取链接数据，并将其中相对链接转化为绝对地址链接，链接数据在Scrapy-Redis框架的Pipeline组件进行处理并存储至MongoDB分布式数据库；

(1-4)从链接数据中爬取到新域名和当前域名的新链接，对于新域名和当前域名的新链接使用Python Bloom Filters进行过滤去重后，将未爬取过且待爬取深度大于0的域名和链接分别加入域名队列和跟随队列；

如图4所示，步骤(2)包括：

(2-1)利用待分析机构的域名集合与域名链接关系构建链接网络有向图，计算链接网络有向图的邻接矩阵X_ij，X_ij∈{0，1}，矩阵中的第i行第j列赋值为1表示节点i和j之间存在一条有向边，赋值为0表示节点i和j之间不存在有向边；

(2-2)计算链接网络有向图中每个节点的出度数和每个节点链接到其他任意节点的概率值，得到随机图模型有向边概率矩阵，使用随机图模型有向边概率矩阵，构建双向边趋向矩阵；具体的，首先计算链接网络有向图中每个节点的出度数，使用出度数除以链接网络有向图的节点个数减一得到从该节点出发与其它任意节点存在有向边的趋向概率，即计算整个链接网络有向图中任意两个节点间的存在有向边的概率值，得到随机图模型有向边概率矩阵；使用此矩阵与其自身的转置相乘得到双向趋向性矩阵，即任意两节点间存在双向边的概率构成的矩阵，即P^(u)(X_ij，X_ji)＝P^(u)(X_ij)P^(u)(X_ji)；

(2-3)使用链接网络有向图的邻接矩阵与其转置矩阵相乘，得到双向边邻接矩阵P^(w)(X_ij，X_ji)∈{0，1}，并将双向边邻接矩阵减去双向边趋向矩阵得到相似度矩阵；即节点i和j的相似度θ_ij：＝P^(w)(X_ij，X_ji)-P^(u)(X_ij，X_ji)＝P^(w)(X_ij，X_ji)-P^(u)(X_ij)P^(u)(X_ji)，则其度量了节点i和j在链接网络有向图中相对比随机图模型更有可能出现双向边链接的概率值；

(2-4)使用相似度矩阵的行和对角矩阵，即D_ii＝∑_jθi_j且D_ij＝0，i！＝j，减去其本身，得到拉普拉斯矩阵，即L_ij＝D_ij-θ_ij；

(2-5)计算拉普拉斯矩阵的特征值λ和特征向量f，将相邻特征值之差的最大值所在的下标作为目标聚类的个数；即k：＝argmax_2＜k＜n(λ_k-λ_k-1)；

如图5所示，计算链接有向图中每个节点的重要度的具体实现方式为：

去除链接网络有向图的有向链接的方向，构建域名链接网络无向图，并去除重复的边；计算域名链接网络无向图中每个节点对其相邻节点的重要度贡献比例，即其中Edge(v)表示节点v的度数，而R(u，v)衡量了节点u分配给节点v的重要度占节点u所具有重要度的比例；

初始化域名链接网络无向图中每个节点的重要度为1，对于域名链接网络无向图中每个节点，用其相邻节点的重要度贡献比例乘以相邻节点的重要度然后求和最后加权乘以PageRank算法中的阻尼因子作为该节点的新一轮重要度，即DR(v)：＝(1-d)+d∑_u∈D(v)R(u，v)DR(u)，其中DR(u)表示节点u的重要度，d为阻尼因子；

当域名链接网络无向图中每个节点的新一轮重要度的变化值之和小于阈值时，得到链接有向图中每个节点的重要度。

如图6所示，步骤(3)包括：

(3-1)使用聚类结果对链接网络有向图进行有向图边加权，若节点i向节点j存在一条有向边且在同一聚类中，则对这条边赋予第一权值S₁，若节点i向节点j存在一条有向边但不在同一聚类中，则对这条边赋予第二权值S₂，δ_ij表示节点i和节点j是否在同一聚类，即δ_ij∈{0，1}，当δ_ij为0，表示节点i和节点j不在同一聚类，当δ_ij为1，表示节点i和节点j在同一聚类，则聚类相关边权CW_ij＝δ_ijS₁+(1-δ_ij)S₂其中0＜S₁＜0.01，0.1＜S₂＜1；

如图7所示，步骤(4)包括：

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于链接分析的域名层级结构探测方法，其特征在于，包括：

2.如权利要求1所述的一种基于链接分析的域名层级结构探测方法，其特征在于，所述步骤(1)包括：

3.如权利要求1或2所述的一种基于链接分析的域名层级结构探测方法，其特征在于，所述步骤(2)包括：

4.如权利要求3所述的一种基于链接分析的域名层级结构探测方法，其特征在于，所述计算链接有向图中每个节点的重要度的具体实现方式为：

5.如权利要求1或2所述的一种基于链接分析的域名层级结构探测方法，其特征在于，所述步骤(3)包括：

6.如权利要求5所述的一种基于链接分析的域名层级结构探测方法，其特征在于，所述步骤(4)包括：