CN108804576A - 一种基于链接分析的域名层级结构探测方法 - Google Patents
一种基于链接分析的域名层级结构探测方法 Download PDFInfo
- Publication number
- CN108804576A CN108804576A CN201810504726.7A CN201810504726A CN108804576A CN 108804576 A CN108804576 A CN 108804576A CN 201810504726 A CN201810504726 A CN 201810504726A CN 108804576 A CN108804576 A CN 108804576A
- Authority
- CN
- China
- Prior art keywords
- node
- domain name
- link
- digraph
- importance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于链接分析的域名层级结构探测方法,包括:对初始URL进行数据爬取并跟踪链接进行深度分布式爬取,得到待分析机构的域名集合与域名链接关系;利用待分析机构的域名集合与域名链接关系构建链接网络有向图,利用链接网络有向图进行聚类计算,得到聚类结果,计算链接有向图中每个节点的重要度;利用聚类结果和链接有向图中每个节点的重要度对链接网络有向图进行有向图边加权,得到加权有向图;在加权有向图上使用基于最短路的算法计算节点从属关系,得到待分析机构的域名从属关系树形结构。本发明具有较高的数据爬取效率和域名采集覆盖率;本发明在保证结构提取高效性的同时,也极大提高了域名从属关系探测的准确率。
Description
技术领域
本发明属于互联网应用技术领域,更具体地,涉及一种基于链接分析的域名层级结构探测方法。
背景技术
随着互联网的快速发展,越来越多的机构在互联网上搭建自己的门户网站,机构的Web站点的规模以及其子机构域名的数量也都在爆炸式的增长。尽管其为人们的日常生活提供了必要的支持与便利,但却难以对其Web站点或域名关系有直观的了解,难以发现域名组织模式与规律。因此,需要一个能够对机构的域名站点进行针对性分析的方法,发现各子机构的域名列表,并对其域名所属机构的从属关系进行探测分析,提供探测机构直观全面的展示。
由于Web站点具有海量性规模、链接关系复杂等特点,对机构的web结构进行针对性分析不是一件容事,大量学者已经对分布式数据获取优化和Web结构提取做了大量的研究。Sawroop Kaur Bal(Bal S K,Geetha G.Smart distributed web crawler[C]:International Conference on Information Communication and EmbeddedSystems.IEEE,2016:1-5.)发明一种主从式的分布式爬虫,使用动态分配策略将请求分配给从节点,实现负载均衡,由于优质页面通常不会存在于较深的页面,因此其通常将爬取深度设置为5,其设计使用B树数据结构来存放爬取的数据也有效的提高了数据增删改查的效率;Do Le QuoC(Quoc D L,Fetzer C,Felber P,et al.UniCrawl:A PracticalGeographically Distributed Web Crawler[J].2015:389-396.)则发明了一种名为Unicrawl的与地理位置相关的分布式爬虫,它是基于Nutch框架实现的,并结合MapReduce进行分布式计算,其任务分发时考虑实际地理位置的影响,减少了通信消耗与传统的爬虫相比,性能提高了93.6%,速度提高1.75倍。在Web结构提取方面,Satuluri等人(V.Satuluri,S.Parthasarathy,Symmetrizations for clustering directedgraphs.in:EDBT′11:Proceedings of the 14th International Conference onExtending Database Technology,2011.343-354.)提出一种将指向信息转化为无向图的边权的方法,实现节点聚类的工作。在国内,任仲晟等人提出一种基于页面标签的Web结构提取技术,该算法有较快的提取速度,但准确度相对较低;苏亚博(苏亚博.基于链接分析的Web站点结构提取算法[J].现代计算机,2016(8):54-55.)提出一种改进自PageRank算法的基于链接导向的Web站点结构提取算法。该算法需要一个预先定义好的待爬取Web页面的集合,采用此方法对Web站点区分域名乃至链接层次,然而其不能很好的反映各域名间的从属关系和层次树结构。
综上所述,当前研究对发现域名所属机构间的关联关系,探测其从属关系还缺乏相关的方法。目前主要是解决组织机构级别的站点域名间关联复杂,不能直观反映其从属关系的问题。从实际的角度看,已有的解决方案只是分析得出了站点间的链接关系,并没有进一步分析其内在关联关系和组织结构。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于链接分析的域名层级结构探测方法,由此解决现有技术不能很好的反映各域名间的从属关系和层次树结构,导致层级提取中父子关系不确定和域名所属机构分配出错的技术问题。
为实现上述目的,本发明提供了一种基于链接分析的域名层级结构探测方法,包括:
(1)对初始URL进行数据爬取并跟踪链接进行深度分布式爬取,得到待分析机构的域名集合与域名链接关系;
(2)利用待分析机构的域名集合与域名链接关系构建链接网络有向图,利用链接网络有向图进行聚类计算,得到聚类结果,计算链接有向图中每个节点的重要度;
(3)利用聚类结果和链接有向图中每个节点的重要度对链接网络有向图进行有向图边加权,得到加权有向图;
(4)在加权有向图上使用基于最短路的算法计算节点从属关系,得到待分析机构的域名从属关系树形结构。
进一步地,步骤(1)包括:
(1-1)构建域名队列和跟随队列,分别用于保存待爬取的域名数据和当前域名的链接数据,将初始URL加入至域名队列中;
(1-2)从跟随队列提取待爬取URL并将跟随队列的待爬取深度减一,若跟随队列为空则从域名队列提取待爬取域名并初始化其爬取深度值;
(1-3)从待爬取URL的Web页面爬取链接数据,并存储至MongoDB分布式数据库;
(1-4)从链接数据中爬取到新域名和当前域名的新链接,对于新域名和当前域名的新链接进行过滤去重后,将未爬取过且待爬取深度大于0的域名和链接分别加入域名队列和跟随队列;
(1-5)从跟随队列中抓取链接进行跟踪,若跟随队列中所有待爬取深度都为0则停止跟踪,否则进入步骤(1-1)。
进一步地,步骤(2)包括:
(2-1)利用待分析机构的域名集合与域名链接关系构建链接网络有向图,计算链接网络有向图的邻接矩阵;
(2-2)计算链接网络有向图中每个节点的出度数和每个节点链接到其他任意节点的概率值,得到随机图模型有向边概率矩阵,使用随机图模型有向边概率矩阵,构建双向边趋向矩阵;
(2-3)使用链接网络有向图的邻接矩阵与其转置矩阵相乘,得到双向边邻接矩阵,并将双向边邻接矩阵减去双向边趋向矩阵得到相似度矩阵;
(2-4)使用相似度矩阵的行和对角矩阵减去其本身,得到拉普拉斯矩阵;
(2-5)计算拉普拉斯矩阵的特征值和特征向量,将相邻特征值之差的最大值所在的下标作为目标聚类的个数;
(2-6)使用k-means对特征向量转置后的行向量进行聚类,得到聚类结果,将聚类结果映射至链接网络有向图的节点的聚类中,计算链接有向图中每个节点的重要度。
进一步地,计算链接有向图中每个节点的重要度的具体实现方式为:
去除链接网络有向图的有向链接的方向,构建域名链接网络无向图,计算域名链接网络无向图中每个节点对其相邻节点的重要度贡献比例,初始化域名链接网络无向图中每个节点的重要度,对于域名链接网络无向图中每个节点,用其相邻节点的重要度贡献比例乘以相邻节点的重要度然后求和得到每个节点的新一轮重要度;当域名链接网络无向图中每个节点的新一轮重要度的变化值之和小于阈值时,得到链接有向图中每个节点的重要度。
进一步地,步骤(3)包括:
(3-1)使用聚类结果对链接网络有向图进行有向图边加权,若节点i向节点j存在一条有向边且在同一聚类中,则对这条边赋予第一权值S1,若节点i向节点j存在一条有向边但不在同一聚类中,则对这条边赋予第二权值S2,δij表示节点i和节点j是否在同一聚类,即δij∈{0,1},当δij为0,表示节点i和节点j不在同一聚类,当δij为1,表示节点i和节点j在同一聚类,则聚类相关边权CWij=δijS1+(1-δij)S2,其中0<S1<0.01,0.1<S2<1;
(3-2)使用链接有向图中每个节点的重要度对链接网络有向图进行有向图边加权,若节点i向节点j存在一条有向链接,则此边的重要度相关边权为节点i的重要度DRi与节点j的重要度DRj之间的差值的四次方,即重要度相关边权RWij=(DRi-DRj)4;
(3-3)使用聚类相关边权和重要度相关边权对有向边综合加权,得到加权有向图中节点i至节点j的边权Wij=P1RWij+P2CWij,其中,且有0<P1<0.1,0.5<P2<1。
进一步地,步骤(4)包括:
(4-1)遍历链接有向图中所有节点,重要度最大的节点为根级域名节点;
(4-2)使用根级域名节点作为源点,使用Dijkstra算法计算链接有向图的单源最短路径,得到从根级域名节点出发至其他所有节点的最短路径;
(4-3)遍历链接有向图中的所有有向边链接,删除其中有向边的起点最短路径与有向边的终点最短路径之差不等于边权的有向边,得到有向无环图;
(4-4)在有向无环图上采用记忆化深度优先搜索,得到每个节点所处的最低深度,将每个节点所处的最低深度对应的上一级节点作为该节点的父级节点,进而得到域名从属关系树形结构。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明仅考虑域名间的链接关系,而无需对Web站点的文档信息进行分析,有效的加快了数据爬取和分析的速度;此外,本发明综合考虑域名链接网络的聚类信息和节点重要度信息对层级从属关系探测的影响,多方位对链接有向图进行结构分析,可以有效的避免层级提取中父子关系不确定和域名所属机构分配出错的问题。本发明在保证结构提取高效性的同时,也极大提高了域名从属关系探测的准确率。
(2)本发明实现了定制化的爬虫设计,对于抓取大型网络空间中的机构站点域名数据有较高的效率和较全的覆盖率;且采用分布式的爬虫框架有较好的稳定性与容错能力。
(3)本发明方法能有效的解决传统聚类算法不能识别聚类间单向链接的问题,因此可以有效识别放置众多虚假链接的域名站点。结合了重要度分析的算法,可以有效的识别节点的父子从属偏序关系而不至于颠倒顺序。
附图说明
图1为本发明实施例提供的整体架构图;
图2为本发明实施例提供的处理流程图;
图3为本发明实施例提供的数据爬取的细化流程图;
图4为本发明实施例提供的聚类计算的细化流程图;
图5为本发明实施例提供的重要度计算的细化流程图;
图6为本发明实施例提供的有向图边加权的细化流程图;
图7为本发明实施例提供的层级探测的细化流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
以下首先就本发明的技术术语进行解释和说明:
链接分析:链接分析是指源于对Web结构中超链接的多维分析,主要应用场景主要包括网络信息检索、网络计量学、数据挖掘、Web结构建模等方面;
Redis:是一个具有高性能、高可靠性、负载均衡的key-value数据库框架。其主要特性包括:支持多种类型的数据模型、支持数据持久化、主从同步机制完善;
MongoDB:是一个使用C++编写的开源、跨平台、面向文档的NoSQL数据库。不同于传统数据库,它具有高可用、可扩展和表结构自由的特点。MongoDB的文档概念等同于关系型数据库的表,但其没有预先定义好的表结构,可以随时随意对数据结构进行修改。此外,由于略去了传统数据库对数据处理时的ACK操作,MongoDB大大提高了存储的性能,而且MongoDB也支持分布式的数据存储,在数据的负载均衡、容灾和故障转移等方面都做了相应工作;
Scrapy:是一个使用Python语言开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据;Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试;
Scrapy-Redis:是一个第三方的基于Redis的分布式Scrapy爬虫框架,通过它可以快速实现简单的分布式爬虫程序,其主要提供的功能包括:任务调度、URL去重、数据持久化、分布式队列等;
谱聚类:谱聚类是一类从图论基础演化而来,以带权图的最小切割为优化目标来聚类的算法,是一类无监督聚类。谱聚类首先对空间上的点用带权的边链接,而边权则对应了用户定义的节点相似度,通过对所有数据点形成的图进行切图,让不同子图间边权和尽可能低,而子图内部的边权和尽可能的高,从而达到聚类的目的。
PageRank:是通过计算页面链接的数量和质量来确定网站重要性的粗略估计。算法创立之初的目的是应用在Google的搜索引擎中,对网站进行排名。但随着国内外学者的深入研究,PageRank算法被广泛应用于其他方面,例如学术论文的重要性排名,学术论文的作者的重要性排排序,网络爬虫,关键词与句子的抽取,随后又出现了基于PageRank的Twitter用户的影响力排名,基于PageRank的微博用户影响力算法的研究,和一些其他在PageRank算法基础上进行改进的研究。
图1显示了基于链接分析的域名层级结构探测方法的整体架构,其中带圆角的虚线矩形分别代表本方法的爬虫探测模块和层级分析模块,而层级分析又分为具体的四个步骤:有向图聚类、节点重要度度量、有向图边加权和最短路层级探测。可以看出,本方法首先对用户输入的初始URL输入到爬虫模块进行数据爬取,爬虫框架主要采用Scrapy-Redis分布式框架设计实现,采用分布式MongoDB数据库进行数据存储;其次,通过聚类和节点重要度计算对链接网络进行初步结构信息提取,使用自定义公式对有向边进行综合加权,最后完成层级结构提取提供上层Web应用进行可视化展示。
如图2所示,一种基于链接分析的域名层级结构探测方法,包括:
(1)对初始URL进行数据爬取并跟踪链接进行深度分布式爬取,得到待分析机构的域名集合与域名链接关系;
(2)利用待分析机构的域名集合与域名链接关系构建链接网络有向图,利用链接网络有向图进行聚类计算,得到聚类结果,计算链接有向图中每个节点的重要度;
(3)利用聚类结果和链接有向图中每个节点的重要度对链接网络有向图进行有向图边加权,得到加权有向图;
(4)在加权有向图上使用基于最短路的算法计算节点从属关系,得到待分析机构的域名从属关系树形结构。
如图3所示,步骤(1)包括:
(1-1)使用基于Python语言的Redis Queue技术分别构建域名队列和跟随队列,分别用于保存待爬取的域名数据和当前域名的链接数据,将初始URL加入至域名队列中;
(1-2)从跟随队列提取待爬取URL并将跟随队列的待爬取深度减一,若跟随队列为空则从域名队列提取待爬取域名并初始化其爬取深度值;由于价值高的页面往往不会存在于过深的链接中,因此不失一般性,此初始爬取深度通常设置为3,使用此URL或域名封装爬取请求Request;
(1-3)使用Scrapy-Redis框架的Spider从待爬取URL的Web页面爬取链接数据,并将其中相对链接转化为绝对地址链接,链接数据在Scrapy-Redis框架的Pipeline组件进行处理并存储至MongoDB分布式数据库;
(1-4)从链接数据中爬取到新域名和当前域名的新链接,对于新域名和当前域名的新链接使用Python Bloom Filters进行过滤去重后,将未爬取过且待爬取深度大于0的域名和链接分别加入域名队列和跟随队列;
(1-5)从跟随队列中抓取链接进行跟踪,若跟随队列中所有待爬取深度都为0则停止跟踪,否则进入步骤(1-1)。
如图4所示,步骤(2)包括:
(2-1)利用待分析机构的域名集合与域名链接关系构建链接网络有向图,计算链接网络有向图的邻接矩阵Xij,Xij∈{0,1},矩阵中的第i行第j列赋值为1表示节点i和j之间存在一条有向边,赋值为0表示节点i和j之间不存在有向边;
(2-2)计算链接网络有向图中每个节点的出度数和每个节点链接到其他任意节点的概率值,得到随机图模型有向边概率矩阵,使用随机图模型有向边概率矩阵,构建双向边趋向矩阵;具体的,首先计算链接网络有向图中每个节点的出度数,使用出度数除以链接网络有向图的节点个数减一得到从该节点出发与其它任意节点存在有向边的趋向概率,即计算整个链接网络有向图中任意两个节点间的存在有向边的概率值,得到随机图模型有向边概率矩阵;使用此矩阵与其自身的转置相乘得到双向趋向性矩阵,即任意两节点间存在双向边的概率构成的矩阵,即P(u)(Xij,Xji)=P(u)(Xij)P(u)(Xji);
(2-3)使用链接网络有向图的邻接矩阵与其转置矩阵相乘,得到双向边邻接矩阵P(w)(Xij,Xji)∈{0,1},并将双向边邻接矩阵减去双向边趋向矩阵得到相似度矩阵;即节点i和j的相似度θij:=P(w)(Xij,Xji)-P(u)(Xij,Xji)=P(w)(Xij,Xji)-P(u)(Xij)P(u)(Xji),则其度量了节点i和j在链接网络有向图中相对比随机图模型更有可能出现双向边链接的概率值;
(2-4)使用相似度矩阵的行和对角矩阵,即Dii=∑jθij且Dij=0,i!=j,减去其本身,得到拉普拉斯矩阵,即Lij=Dij-θij;
(2-5)计算拉普拉斯矩阵的特征值λ和特征向量f,将相邻特征值之差的最大值所在的下标作为目标聚类的个数;即k:=argmax2<k<n(λk-λk-1);
(2-6)使用k-means对特征向量转置后的行向量进行聚类,得到聚类结果,将聚类结果映射至链接网络有向图的节点的聚类中,计算链接有向图中每个节点的重要度。
如图5所示,计算链接有向图中每个节点的重要度的具体实现方式为:
去除链接网络有向图的有向链接的方向,构建域名链接网络无向图,并去除重复的边;计算域名链接网络无向图中每个节点对其相邻节点的重要度贡献比例,即其中Edge(v)表示节点v的度数,而R(u,v)衡量了节点u分配给节点v的重要度占节点u所具有重要度的比例;
初始化域名链接网络无向图中每个节点的重要度为1,对于域名链接网络无向图中每个节点,用其相邻节点的重要度贡献比例乘以相邻节点的重要度然后求和最后加权乘以PageRank算法中的阻尼因子作为该节点的新一轮重要度,即DR(v):=(1-d)+d∑u∈D(v)R(u,v)DR(u),其中DR(u)表示节点u的重要度,d为阻尼因子;
当域名链接网络无向图中每个节点的新一轮重要度的变化值之和小于阈值时,得到链接有向图中每个节点的重要度。
如图6所示,步骤(3)包括:
(3-1)使用聚类结果对链接网络有向图进行有向图边加权,若节点i向节点j存在一条有向边且在同一聚类中,则对这条边赋予第一权值S1,若节点i向节点j存在一条有向边但不在同一聚类中,则对这条边赋予第二权值S2,δij表示节点i和节点j是否在同一聚类,即δij∈{0,1},当δij为0,表示节点i和节点j不在同一聚类,当δij为1,表示节点i和节点j在同一聚类,则聚类相关边权CWij=δijS1+(1-δij)S2其中0<S1<0.01,0.1<S2<1;
(3-2)使用链接有向图中每个节点的重要度对链接网络有向图进行有向图边加权,若节点i向节点j存在一条有向链接,则此边的重要度相关边权为节点i的重要度DRi与节点j的重要度DRj之间的差值的四次方,即重要度相关边权RWij=(DRi-DRj)4;
(3-3)使用聚类相关边权和重要度相关边权对有向边综合加权,得到加权有向图中节点i至节点j的边权Wij=P1RWij+P2CWij,其中,且有0<P1<0.1,0.5<P2<1。
如图7所示,步骤(4)包括:
(4-1)遍历链接有向图中所有节点,重要度最大的节点为根级域名节点;
(4-2)使用根级域名节点作为源点,使用Dijkstra算法计算链接有向图的单源最短路径,得到从根级域名节点出发至其他所有节点的最短路径;
(4-3)遍历链接有向图中的所有有向边链接,删除其中有向边的起点最短路径与有向边的终点最短路径之差不等于边权的有向边,得到有向无环图;
(4-4)在有向无环图上采用记忆化深度优先搜索,得到每个节点所处的最低深度,将每个节点所处的最低深度对应的上一级节点作为该节点的父级节点,进而得到域名从属关系树形结构。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于链接分析的域名层级结构探测方法,其特征在于,包括:
(1)对初始URL进行数据爬取并跟踪链接进行深度分布式爬取,得到待分析机构的域名集合与域名链接关系;
(2)利用待分析机构的域名集合与域名链接关系构建链接网络有向图,利用链接网络有向图进行聚类计算,得到聚类结果,计算链接有向图中每个节点的重要度;
(3)利用聚类结果和链接有向图中每个节点的重要度对链接网络有向图进行有向图边加权,得到加权有向图;
(4)在加权有向图上使用基于最短路的算法计算节点从属关系,得到待分析机构的域名从属关系树形结构。
2.如权利要求1所述的一种基于链接分析的域名层级结构探测方法,其特征在于,所述步骤(1)包括:
(1-1)构建域名队列和跟随队列,分别用于保存待爬取的域名数据和当前域名的链接数据,将初始URL加入至域名队列中;
(1-2)从跟随队列提取待爬取URL并将跟随队列的待爬取深度减一,若跟随队列为空则从域名队列提取待爬取域名并初始化其爬取深度值;
(1-3)从待爬取URL的Web页面爬取链接数据,并存储至MongoDB分布式数据库;
(1-4)从链接数据中爬取到新域名和当前域名的新链接,对于新域名和当前域名的新链接进行过滤去重后,将未爬取过且待爬取深度大于0的域名和链接分别加入域名队列和跟随队列;
(1-5)从跟随队列中抓取链接进行跟踪,若跟随队列中所有待爬取深度都为0则停止跟踪,否则进入步骤(1-1)。
3.如权利要求1或2所述的一种基于链接分析的域名层级结构探测方法,其特征在于,所述步骤(2)包括:
(2-1)利用待分析机构的域名集合与域名链接关系构建链接网络有向图,计算链接网络有向图的邻接矩阵;
(2-2)计算链接网络有向图中每个节点的出度数和每个节点链接到其他任意节点的概率值,得到随机图模型有向边概率矩阵,使用随机图模型有向边概率矩阵,构建双向边趋向矩阵;
(2-3)使用链接网络有向图的邻接矩阵与其转置矩阵相乘,得到双向边邻接矩阵,并将双向边邻接矩阵减去双向边趋向矩阵得到相似度矩阵;
(2-4)使用相似度矩阵的行和对角矩阵减去其本身,得到拉普拉斯矩阵;
(2-5)计算拉普拉斯矩阵的特征值和特征向量,将相邻特征值之差的最大值所在的下标作为目标聚类的个数;
(2-6)使用k-means对特征向量转置后的行向量进行聚类,得到聚类结果,将聚类结果映射至链接网络有向图的节点的聚类中,计算链接有向图中每个节点的重要度。
4.如权利要求3所述的一种基于链接分析的域名层级结构探测方法,其特征在于,所述计算链接有向图中每个节点的重要度的具体实现方式为:
去除链接网络有向图的有向链接的方向,构建域名链接网络无向图,计算域名链接网络无向图中每个节点对其相邻节点的重要度贡献比例,初始化域名链接网络无向图中每个节点的重要度,对于域名链接网络无向图中每个节点,用其相邻节点的重要度贡献比例乘以相邻节点的重要度然后求和得到每个节点的新一轮重要度;当域名链接网络无向图中每个节点的新一轮重要度的变化值之和小于阈值时,得到链接有向图中每个节点的重要度。
5.如权利要求1或2所述的一种基于链接分析的域名层级结构探测方法,其特征在于,所述步骤(3)包括:
(3-1)使用聚类结果对链接网络有向图进行有向图边加权,若节点i向节点j存在一条有向边且在同一聚类中,则对这条边赋予第一权值S1,若节点i向节点j存在一条有向边但不在同一聚类中,则对这条边赋予第二权值S2,δij表示节点i和节点j是否在同一聚类,即δij∈{0,1},当δij为0,表示节点i和节点j不在同一聚类,当δij为1,表示节点i和节点j在同一聚类,则聚类相关边权CWij=δijS1+(1-δij)S2,其中0<S1<0.01,0.1<S2<1;
(3-2)使用链接有向图中每个节点的重要度对链接网络有向图进行有向图边加权,若节点i向节点j存在一条有向链接,则此边的重要度相关边权为节点i的重要度DRi与节点j的重要度DRj之间的差值的四次方,即重要度相关边权RWij=(DRi-DRj)4;
(3-3)使用聚类相关边权和重要度相关边权对有向边综合加权,得到加权有向图中节点i至节点j的边权Wij=P1RWij+P2CWij,其中,且有0<P1<0.1,0.5<P2<1。
6.如权利要求5所述的一种基于链接分析的域名层级结构探测方法,其特征在于,所述步骤(4)包括:
(4-1)遍历链接有向图中所有节点,重要度最大的节点为根级域名节点;
(4-2)使用根级域名节点作为源点,使用Dijkstra算法计算链接有向图的单源最短路径,得到从根级域名节点出发至其他所有节点的最短路径;
(4-3)遍历链接有向图中的所有有向边链接,删除其中有向边的起点最短路径与有向边的终点最短路径之差不等于边权的有向边,得到有向无环图;
(4-4)在有向无环图上采用记忆化深度优先搜索,得到每个节点所处的最低深度,将每个节点所处的最低深度对应的上一级节点作为该节点的父级节点,进而得到域名从属关系树形结构。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810504726.7A CN108804576B (zh) | 2018-05-22 | 2018-05-22 | 一种基于链接分析的域名层级结构探测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810504726.7A CN108804576B (zh) | 2018-05-22 | 2018-05-22 | 一种基于链接分析的域名层级结构探测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108804576A true CN108804576A (zh) | 2018-11-13 |
CN108804576B CN108804576B (zh) | 2021-08-20 |
Family
ID=64091643
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810504726.7A Active CN108804576B (zh) | 2018-05-22 | 2018-05-22 | 一种基于链接分析的域名层级结构探测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108804576B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110147268A (zh) * | 2019-04-16 | 2019-08-20 | 清华大学无锡应用技术研究院 | 处理并发事务的方法、装置、并发控制系统及存储介质 |
CN110719344A (zh) * | 2019-10-10 | 2020-01-21 | 北京知道创宇信息技术股份有限公司 | 域名获取方法、装置、电子设备及存储介质 |
CN110727834A (zh) * | 2019-09-30 | 2020-01-24 | 北京百度网讯科技有限公司 | 有向无环图的获取方法、装置、电子设备和存储介质 |
CN111275176A (zh) * | 2020-02-27 | 2020-06-12 | 支付宝(杭州)信息技术有限公司 | 分布式计算方法及分布式计算系统 |
CN112434001A (zh) * | 2020-11-24 | 2021-03-02 | 杭州未名信科科技有限公司 | 支持数据预处理的多数据源可配置MongoDB数据同步系统、电子设备及介质 |
CN112835995A (zh) * | 2021-02-04 | 2021-05-25 | 中国互联网络信息中心 | 一种基于解析关系的域名图嵌入表示分析方法及装置 |
WO2021196446A1 (zh) * | 2020-04-03 | 2021-10-07 | 北京市天元网络技术股份有限公司 | 内容分发网络调度过程分析方法、装置与电子设备 |
CN113645240A (zh) * | 2021-08-11 | 2021-11-12 | 中电积至(海南)信息技术有限公司 | 一种基于图结构的恶意域名群落挖掘方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080162506A1 (en) * | 2007-01-03 | 2008-07-03 | Stephenson Janette W | Device and method for world wide web organization |
CN102938096A (zh) * | 2012-07-30 | 2013-02-20 | 中国电力科学研究院 | 一种动态配置的发电厂注册信息申报系统的实现方法 |
CN105447077A (zh) * | 2015-11-04 | 2016-03-30 | 清华大学 | 基于OpenFlow的查询词抽取方法及系统 |
CN106293971A (zh) * | 2016-08-15 | 2017-01-04 | 张家林 | 一种分布式任务调度的方法和装置 |
CN106776768A (zh) * | 2016-11-23 | 2017-05-31 | 福建六壬网安股份有限公司 | 一种分布式爬虫引擎的url抓取方法及系统 |
-
2018
- 2018-05-22 CN CN201810504726.7A patent/CN108804576B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080162506A1 (en) * | 2007-01-03 | 2008-07-03 | Stephenson Janette W | Device and method for world wide web organization |
CN102938096A (zh) * | 2012-07-30 | 2013-02-20 | 中国电力科学研究院 | 一种动态配置的发电厂注册信息申报系统的实现方法 |
CN105447077A (zh) * | 2015-11-04 | 2016-03-30 | 清华大学 | 基于OpenFlow的查询词抽取方法及系统 |
CN106293971A (zh) * | 2016-08-15 | 2017-01-04 | 张家林 | 一种分布式任务调度的方法和装置 |
CN106776768A (zh) * | 2016-11-23 | 2017-05-31 | 福建六壬网安股份有限公司 | 一种分布式爬虫引擎的url抓取方法及系统 |
Non-Patent Citations (1)
Title |
---|
陈言等: "一种网络爬虫的带缓存非阻塞异步域名解析器模型及其性能分析", 《软件导刊》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110147268B (zh) * | 2019-04-16 | 2020-05-08 | 清华大学无锡应用技术研究院 | 处理并发事务的方法、装置、并发控制系统及存储介质 |
CN110147268A (zh) * | 2019-04-16 | 2019-08-20 | 清华大学无锡应用技术研究院 | 处理并发事务的方法、装置、并发控制系统及存储介质 |
CN110727834A (zh) * | 2019-09-30 | 2020-01-24 | 北京百度网讯科技有限公司 | 有向无环图的获取方法、装置、电子设备和存储介质 |
CN110719344B (zh) * | 2019-10-10 | 2022-02-15 | 北京知道创宇信息技术股份有限公司 | 域名获取方法、装置、电子设备及存储介质 |
CN110719344A (zh) * | 2019-10-10 | 2020-01-21 | 北京知道创宇信息技术股份有限公司 | 域名获取方法、装置、电子设备及存储介质 |
CN111275176A (zh) * | 2020-02-27 | 2020-06-12 | 支付宝(杭州)信息技术有限公司 | 分布式计算方法及分布式计算系统 |
CN111275176B (zh) * | 2020-02-27 | 2023-09-26 | 支付宝(杭州)信息技术有限公司 | 分布式计算方法及分布式计算系统 |
WO2021196446A1 (zh) * | 2020-04-03 | 2021-10-07 | 北京市天元网络技术股份有限公司 | 内容分发网络调度过程分析方法、装置与电子设备 |
CN112434001A (zh) * | 2020-11-24 | 2021-03-02 | 杭州未名信科科技有限公司 | 支持数据预处理的多数据源可配置MongoDB数据同步系统、电子设备及介质 |
CN112434001B (zh) * | 2020-11-24 | 2023-07-04 | 杭州未名信科科技有限公司 | 支持数据预处理的多数据源可配置MongoDB数据同步系统、电子设备及介质 |
CN112835995A (zh) * | 2021-02-04 | 2021-05-25 | 中国互联网络信息中心 | 一种基于解析关系的域名图嵌入表示分析方法及装置 |
CN112835995B (zh) * | 2021-02-04 | 2023-11-07 | 中国互联网络信息中心 | 一种基于解析关系的域名图嵌入表示分析方法及装置 |
CN113645240A (zh) * | 2021-08-11 | 2021-11-12 | 中电积至(海南)信息技术有限公司 | 一种基于图结构的恶意域名群落挖掘方法 |
CN113645240B (zh) * | 2021-08-11 | 2023-05-23 | 积至(海南)信息技术有限公司 | 一种基于图结构的恶意域名群落挖掘方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108804576B (zh) | 2021-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804576A (zh) | 一种基于链接分析的域名层级结构探测方法 | |
US10019442B2 (en) | Method and system for peer detection | |
CN104850601B (zh) | 基于图数据库的警务实时分析应用平台及其构建方法 | |
CN104933164A (zh) | 互联网海量数据中命名实体间关系提取方法及其系统 | |
Paranjape et al. | Improving website hyperlink structure using server logs | |
CN109634924A (zh) | 基于机器学习的文件系统参数自动调优方法及系统 | |
CN103020123B (zh) | 一种搜索不良视频网站的方法 | |
KR102593171B1 (ko) | 정보 처리 방법, 장치, 전자 기기 및 저장 매체 | |
US20180253653A1 (en) | Rich entities for knowledge bases | |
Wang et al. | Research and implementation of the customer-oriented modern hotel management system using fuzzy analytic hiererchical process (FAHP) | |
Zhang et al. | An approach of service discovery based on service goal clustering | |
An et al. | A heuristic approach on metadata recommendation for search engine optimization | |
Cousseau et al. | Linking place records using multi-view encoders | |
Shemshadi et al. | Ecs: A framework for diversified and relevant search in the internet of things | |
Oo | Pattern discovery using association rule mining on clustered data | |
Gothwal et al. | The survey on skyline query processing for data-specific applications | |
Xhafa et al. | Using bi-clustering algorithm for analyzing online users activity in a virtual campus | |
CN110162580A (zh) | 基于分布式预警平台的数据挖掘与深度分析方法及应用 | |
Lee et al. | Design and implementation of a data-driven simulation service system | |
Lee et al. | Fast mining of spatial frequent wordset from social database | |
Yao et al. | LandQ v1: A GIS cluster-based management information system for arable land quality big data | |
Alzua-Sorzabal et al. | Using MWD: A business intelligence system for tourism destination web | |
Gao et al. | Association and Recomendation for Geosciences Data Attributes Based on Semantic Similarity Measurement | |
Song et al. | A unified geolocation framework for web videos | |
Aggarwal et al. | Improving the efficiency of weighted page content rank algorithm using clustering method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |