CN104820674A - 一种网页分类方法及装置 - Google Patents

一种网页分类方法及装置 Download PDF

Info

Publication number
CN104820674A
CN104820674A CN201510155710.6A CN201510155710A CN104820674A CN 104820674 A CN104820674 A CN 104820674A CN 201510155710 A CN201510155710 A CN 201510155710A CN 104820674 A CN104820674 A CN 104820674A
Authority
CN
China
Prior art keywords
domain name
name
domain
list
progression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510155710.6A
Other languages
English (en)
Other versions
CN104820674B (zh
Inventor
张磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING NETENTSEC Inc
Original Assignee
BEIJING NETENTSEC Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING NETENTSEC Inc filed Critical BEIJING NETENTSEC Inc
Priority to CN201510155710.6A priority Critical patent/CN104820674B/zh
Publication of CN104820674A publication Critical patent/CN104820674A/zh
Application granted granted Critical
Publication of CN104820674B publication Critical patent/CN104820674B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网页分类方法,将网页的一级域名加入待分析域名列表,解析所述一级域名的跨域策略文件获得一个或多个第一域名,将获得的第一域名加入所述待分析域名列表,并对所述一级域名进行分类;依次解析获得的第一域名的跨域策略文件获得一个或多个第二域名,将获得的第二域名加入所述待分析域名列表,并对获得的第一域名进行分类,直至对当前的域名进行分类后,确定所述待分析域名列表中域名的级数不小于约定的级数时,依次对所述待分析域名列表中待处理的域名进行跨域策略文件的解析及域名的分类,且对解析得到的域名级数大于所述约定的级数的域名不作处理,得到域名分类关系表。本发明还公开了一种网页分类装置。

Description

一种网页分类方法及装置
技术领域
本发明涉及网络通信技术领域,尤其涉及一种网页分类方法及装置。
背景技术
随着万维网的飞速发展,用户对网页访问控制的要求越来越高,导致对网页分类的需求也在不断提高,然而目前网页域名的分类主要是通过比较各个网站的host字段来实现,常见的应用场景如:用户要求只能访问163网站,其它网站都不能访问;实现方法是通过比较host字段是否包含“.163.com”,如果包括,就可以访问;如果不包括,就无法访问,但是,163网站还包括一些*.126.com和*.netease.com的域名,因此产生了实现效率低、准确性低的问题,同时也不利于域名的维护。
因此,提供一种网页分类方案,能够更准确的对网页进行分类,便于对用户访问页面的高效控制,已成为亟待解决的问题。
发明内容
有鉴于此,本发明实施例期望提供一种网页分类方法及装置,能够更准确的对网页进行分类,便于对用户访问页面的高效控制,提高用户的体验感。
为达到上述目的,本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种网页分类方法,所述方法包括:
将网页的一级域名加入待分析域名列表,解析所述一级域名的跨域策略文件获得一个或多个第一域名,依据获得的第一域名的级数将获得的第一域名加入所述待分析域名列表,并依据预设的分类标准对所述一级域名进行分类;
依据获得的第一域名的级数依次解析获得的第一域名的跨域策略文件获得一个或多个第二域名,依据获得的第二域名的级数将获得的第二域名加入所述待分析域名列表,并依据预设的分类标准对获得的第一域名进行分类,直至依据预设的分类标准对当前的域名进行分类后,确定所述待分析域名列表中域名的级数不小于约定的级数时,依次对所述待分析域名列表中待处理的域名进行跨域策略文件的解析及域名的分类,且对解析得到的域名级数大于所述约定的级数的域名不作处理,得到域名分类关系表。
上述方案中,所述依据获得的第一域名的级数将获得的第一域名加入所述待分析域名列表包括:
判断第一域名的父域名是否在所述待分析域名列表中,如果存在,直接依据所述第一域名的级数将所述第一域名加入所述待分析域名列表;如果不存在,依据所述第一域名的父域名的级数将所述第一域名的父域名加入所述待分析域名列表,然后依据所述第一域名的级数将所述第一域名加入所述待分析域名列表。
上述方案中,所述依据预设的分类标准对当前的域名进行分类包括:
判断当前的域名是否为网页辅助资源域名,如果是,将当前的域名加入网页辅助资源域名列表;否则,判断当前的域名是否为根域名或所述根域名的别名,如果是根域名,将当前的域名加入根域名列表,如果是所述根域名的别名,将当前的域名加入所述根域名的别名列表;如果既非根域名,也非所述根域名的别名,则判断当前的列表中是否存在当前域名的父域名,如果存在,则将当前的域名加入所述父域名的子域名列表;如果不存在,将当前的域名加入平级域名列表。
上述方案中,所述判断当前的域名是否为根域名或所述根域名的别名之前,所述方法还包括:
依据预设的网页内容分类标准对当前的域名对应的网页内容进行分类。
上述方案中,所述得到域名分类关系表之后,所述方法还包括:
依据得到的域名分类关系表以及预设的网页访问控制类型,对用户访问的网页数据执行相应的访问控制。
本发明实施例还提供了一种网页分类装置,所述装置包括:解析模块及分类模块;
所述解析模块,用于将网页的一级域名加入待分析域名列表,解析所述一级域名的跨域策略文件获得一个或多个第一域名,依据获得的第一域名的级数将获得的第一域名加入所述待分析域名列表;以及依据获得的第一域名的级数依次解析获得的第一域名的跨域策略文件获得一个或多个第二域名,依据获得的第二域名的级数将获得的第二域名加入所述待分析域名列表,直至分类模块依据预设的分类标准对当前的域名进行分类后,确定所述待分析域名列表中域名的级数不小于约定的级数时,依次对所述待分析域名列表中待处理的域名进行跨域策略文件的解析,且对解析得到的域名级数大于所述约定的级数的域名不作处理;
所述分类模块;用于依据预设的分类标准对所述一级域名及获得的第一域名进行分类,直至依据预设的分类标准对当前的域名进行分类后,确定所述待分析域名列表中域名的级数不小于约定的级数时,依次对所述待分析域名列表中待处理的域名进行分类,得到域名分类关系表。
上述方案中,所述解析模块,具体用于判断第一域名的父域名是否在所述待分析域名列表中,如果存在,直接依据所述第一域名的级数将所述第一域名加入所述待分析域名列表;如果不存在,依据所述第一域名的父域名的级数将所述第一域名的父域名加入所述待分析域名列表,然后依据所述第一域名的级数将所述第一域名加入所述待分析域名列表。
上述方案中,所述分类模块,具体用于判断当前的域名是否为网页辅助资源域名,如果是,将当前的域名加入网页辅助资源域名列表;否则,判断当前的域名是否为根域名或所述根域名的别名,如果是根域名,将当前的域名加入根域名列表,如果是所述根域名的别名,将当前的域名加入所述根域名的别名列表;如果既非根域名,也非所述根域名的别名,则判断当前的列表中是否存在当前域名的父域名,如果存在,则将当前的域名加入所述父域名的子域名列表;如果不存在,将当前的域名加入平级域名列表。
上述方案中,所述分类模块,还用于依据预设的网页内容分类标准对当前的域名对应的网页内容进行分类。
上述方案中,所述装置还包括控制模块,用于依据得到的域名分类关系表以及预设的网页访问控制类型,对用户访问的网页数据执行相应的访问控制。
本发明实施例所提供的网页分类方法及装置,将网页的一级域名加入待分析域名列表,解析所述一级域名的跨域策略文件获得一个或多个第一域名,依据获得的第一域名的级数将获得的第一域名加入所述待分析域名列表,并依据预设的分类标准对所述一级域名进行分类;依据获得的第一域名的级数依次解析获得的第一域名的跨域策略文件获得一个或多个第二域名,依据获得的第二域名的级数将获得的第二域名加入所述待分析域名列表,并依据预设的分类标准对获得的第一域名进行分类,直至依据预设的分类标准对当前的域名进行分类后,确定所述待分析域名列表中域名的级数不小于约定的级数时,依次对所述待分析域名列表中待处理的域名进行跨域策略文件的解析及域名的分类,且对解析得到的域名级数大于所述约定的级数的域名不作处理,得到域名分类关系表;如此,能够更准确、全面的对网页进行分类,便于对用户访问页面数据的高效控制,提高用户的体验感。
附图说明
图1为本发明实施例一网页分类方法流程示意图;
图2为本发明实施例二网页分类方法流程示意图;
图3为本发明实施例约定级数为三级的域名分类关系表示意图;
图4为本发明实施例网页分类装置组成结构示意图。
具体实施方式
在本发明实施例中,将网页的一级域名加入待分析域名列表,解析所述一级域名的跨域策略文件获得一个或多个第一域名,依据获得的第一域名的级数将获得的第一域名加入所述待分析域名列表,并依据预设的分类标准对所述一级域名进行分类;依据获得的第一域名的级数依次解析获得的第一域名的跨域策略文件获得一个或多个第二域名,依据获得的第二域名的级数将获得的第二域名加入所述待分析域名列表,并依据预设的分类标准对获得的第一域名进行分类,直至依据预设的分类标准对当前的域名进行分类后,确定所述待分析域名列表中域名的级数不小于约定的级数时,依次对所述待分析域名列表中待处理的域名进行跨域策略文件的解析及域名的分类,且对解析得到的域名级数大于所述约定的级数的域名不作处理,得到域名分类关系表。
图1为本发明实施例一网页分类方法流程示意图,如图1所示,本发明实施例网页分类方法包括:
步骤101:将网页的一级域名加入待分析域名列表,解析所述一级域名的跨域策略文件获得一个或多个第一域名,依据获得的第一域名的级数将获得的第一域名加入所述待分析域名列表,并依据预设的分类标准对所述一级域名进行分类;
这里,所述跨域策略文件(crossdomain.xml)是一种XML文档,旨在为Web客户端,如Java、Adobe Flash Player、Adobe Acrobat、Silverlight等授予跨域(跨越不同的域名)处理数据的权限;当一个Web客户端发现一个资源需要从另一个站点请求获得时,需要先查看目标站点的策略文件来决定是否进行跨域请求。
本步骤之前所述方法还包括:获取有效的网页一级域名;具体包括:获取用户访问网页的有效的一级域名或获取需要进行网页分类的网页数据的有效的一级域名;其中,所述网页一级域名为网页根域名或网页根域名的别名,即顶级域名或顶级域名的别名,如www.163.com。
进一步的,所述将网页的一级域名加入待分析域名列表包括:依据所述一级域名的级数将所述一级域名加入待分析域名列表。
进一步的,所述解析所述一级域名的跨域策略文件获得一个或多个第一域名之前,所述方法还包括:确定所述一级域名的跨域策略文件可以访问;如:访问一级域名www.163.com的跨域策略文件即访问www.163.com/crossdomain.xml;当确定所述一级域名的跨域策略文件不可以访问时,结束处理流程;
这里,所述第一域名可以是任意级数的当前所述待分析域名列表中不存在的域名,如二级域名或三级域名等。
进一步的,所述依据获得的第一域名的级数将获得的第一域名加入所述待分析域名列表,包括:
判断第一域名的父域名是否在所述待分析域名列表中,如果存在,直接依据所述第一域名的级数将所述第一域名加入所述待分析域名列表;如果不存在,依据所述第一域名的父域名的级数将所述第一域名的父域名加入所述待分析域名列表,然后依据所述第一域名的级数将所述第一域名加入所述待分析域名列表;如:获得的第一域名之一为swf.news.163.com,其父域名为news.163.com,当将swf.news.163.com加入所述待分析域名列表时发现其父域名不在所述待分析域名列表,则先依据所述news.163.com的级数将其加入所述待分析域名列表,然后再依据swf.news.163.com的级数将其加入所述待分析域名列表。
进一步的,所述依据预设的分类标准对所述一级域名进行分类包括:
判断所述一级域名是否为网页辅助资源域名,如果是,将所述一级域名加入网页辅助资源域名列表;否则,判断所述一级域名是否为根域名或所述根域名的别名,如果是根域名,将所述一级域名加入根域名列表,如果是所述根域名的别名,将所述一级域名加入所述根域名的别名列表;
这里,由于网页辅助资源域名本身是无法访问的,域名系统(DNS,DomainName System)解析网页辅助资源域名无响应或服务器返回4xx之类的响应,因此,所述确定所述一级域名为网页辅助资源域名包括:
判断所述一级域名是否可以访问,如果不可以访问则确定所述一级域名为网页辅助资源域名;如果可以访问,则确定所述一级域名非网页辅助资源域名;
由于网页辅助资源域名大多都是网页根域名的子域名,因此,鉴于其特殊性,将属于网页辅助资源域名的域名归为一类,便于对其进行整体的维护,及对网页辅助资源的共享,需要说明的是,还可对所述网页辅助资源进一步细化,如将其分为网站广告资源、网站脚本资料、网站图片资源等。
进一步的,判断所述一级域名是否为根域名或所述根域名的别名之前,所述方法还包括:
依据预设的网页内容分类标准对所述一级域名对应的网页内容进行分类;具体包括:提取所述一级域名对应的网页内容的关键词,依据所述关键词及预设的关键词与网页内容分类的对应关系对所述一级域名对应的网页内容进行分类;如:www.163.com为门户类网站;
所述一级域名的别名即与所述一级域名等价的域名,如访问163.com时,网页会跳转到www.163.com,认为二者是等价关系,即163.com为www.163.com的别名;访问126.net时,网页会跳转到photo.163.com,这两者也是等价关系,即126.net是photo.163.com的别名。
步骤102:依据获得的第一域名的级数依次解析获得的第一域名的跨域策略文件获得一个或多个第二域名,依据获得的第二域名的级数将获得的第二域名加入所述待分析域名列表,并依据预设的分类标准对获得的第一域名进行分类,直至依据预设的分类标准对当前的域名进行分类后,确定所述待分析域名列表中域名的级数不小于约定的级数时,依次对所述待分析域名列表中待处理的域名进行跨域策略文件的解析及域名的分类,且对解析得到的域名级数大于所述约定的级数的域名不作处理,得到域名分类关系表;
这里,所述解析获得的第一域名的跨域策略文件的过程与解析所述一级域名的跨域策略文件类似,此处不再赘述;
所述约定的级数的值可以依据实际需要进行设定;
所述将获得的第二域名加入所述待分析域名列表的过程与将获得的第一域名加入所述待分析域名列表类似,也就是说,首先要判断解析获得的域名的父域名是否在所述待分析域名列表中,如果存在,直接依据所述解析获得的域名的级数将所述解析获得的域名加入所述待分析域名列表;如果不存在,依据所述解析获得的域名的父域名的级数将所述解析获得的域名的父域名加入所述待分析域名列表,然后依据所述解析获得的域名的级数将所述获得的域名加入所述待分析域名列表;
所述第二域名为任意级数的当前所述待分析域名列表中不存在的域名;如:第一域名为tech.163.com,解析tech.163.com的跨域策略文件得到pp.blog.163.com、swf.ws.126.net、*.163.com、cimg3.163.com、cache.netease.com,而当前所述待分析域名列表中已包含*.163.com、cimg3.163.com、cache.netease.com,因此,解析tech.163.com仅得到两个第二域名,即pp.blog.163.com及swf.ws.126.net。
进一步的,依据获得的第一域名的级数依次解析获得的第一域名的跨域策略文件,每解析完一个第一域名的跨域策略文件获得一个或多个第二域名时,便将获得的第二域名依据级数加入所述待分析域名列表,然后依据预设的分类标准对完成跨域策略文件解析的第一域名进行分类,直至依据预设的分类标准对当前的域名进行分类后,确定所述待分析域名列表中域名的级数不小于约定的级数时,继续对所述待分析域名列表中待处理的域名进行与所述第一域名类似的跨域策略文件的解析及域名的分类,但对所述待处理的域名解析得到的域名级数大于所述约定的级数的域名则不作处理,即不再将解析得到的域名级数大于所述约定的级数的域名加入所述待分析域名列表,如:约定级数为三级,对所述待处理的域名解析获得的三级以上的域名不再将其加入待分析域名列表;
其中,所述待处理的域名,为依据预设的分类标准对当前的域名进行分类后,确定所述待分析域名列表中域名的级数不小于约定的级数时,所述待分析域名列表中未进行跨域策略文件的解析及域名的分类的级数不大于约定级数的域名;
这里,依据预设的分类标准对当前的域名进行分类包括:
判断当前的域名是否为网页辅助资源域名,如果是,将当前的域名加入网页辅助资源域名列表;否则,判断当前的域名是否为根域名或所述根域名的别名,如果是根域名,将当前的域名加入根域名列表,如果是所述根域名的别名,将当前的域名加入所述根域名的别名列表;如果既非根域名,也非所述根域名的别名,则判断当前的列表中是否存在当前域名的父域名,如果存在,则将当前的域名加入所述父域名的子域名列表,否则将当前的域名加入平级域名列表;
其中,所述判断当前的域名是否为根域名或所述根域名的别名之前,所述方法还包括:
依据预设的网页内容分类标准对当前的域名对应的网页内容进行分类;具体包括:提取当前的域名对应的网页内容的关键词,依据所述关键词及预设的关键词与网页内容分类的对应关系对当前的域名对应的网页内容进行分类;如:提取sports.163.com对应的网页内容的关键词包括:NBA、CBA、中超、英超、欧冠等,则依据所述关键词及预设的关键词与网页内容分类的对应关系,可确定sports.163.com为体育类网站。
进一步的,由于网页内容分类主要是在各个业务相同的网站之间建立平行关系,即横向关系,而网页域名分类主要是在一个网站内部建立关系,即纵向关系,因此,本实施例中所述域名分类关系表为一个体现了一级域名及与所述一级域名相关的多个域名的分类关系的多维度的域名关系表。
进一步的,本步骤之后,所述方法还包括:存储所述域名分类关系表。
进一步的,本步骤之后,所述方法还包括:
依据得到的域名分类关系表以及预设的网页访问控制类型,对用户访问的网页数据执行相应的访问控制操作;
这里,所述对用户访问的网页数据执行相应的访问控制包括:对用户访问的网页数据执行允许/禁止访问的操作。
图2为本发明实施例二网页分类方法流程示意图;在本发明实施例中,约定的级数为三级,如图2所示,本发明实施例网页分类方法包括:
步骤201:获取有效的网页一级域名;
本步骤具体包括:获取用户访问网页的有效的一级域名或获取需要进行网页分类的网页数据的有效的一级域名;其中,所述网页一级域名为网页根域名或网页根域名的别名,即顶级域名或顶级域名的别名;
在本实施例中,所述有效的网页一级域名为www.163.com。
步骤202:将所述一级域名加入待分析域名列表,并解析所述一级域名的跨域策略文件获得一个或多个第一域名,依据获得的第一域名的级数将获得的第一域名加入所述待分析域名列表,并依据预设的分类标准对所述一级域名进行分类;
这里,所述解析所述一级域名的跨域策略文件之前,所述方法还包括:
确定所述一级域名的跨域策略文件可以访问,如果不可以访问,则结束本次处理流程;在本实施例中,所述一级域名www.163.com的跨域策略文件为www.163.com/crossdomain.xml;
解析所述一级域名的跨域策略文件即解析www.163.com/crossdomain.xml得到sports.163.com,tech.163.com和swf.news.163.com三个第一域名;
所述依据获得的第一域名的级数将获得的第一域名加入所述待分析域名列表,包括:
判断第一域名的父域名是否在所述待分析域名列表中,如果存在,直接依据所述第一域名的级数将所述第一域名加入所述待分析域名列表;如果不存在,依据所述第一域名的父域名的级数将所述第一域名的父域名加入所述待分析域名列表,然后依据所述第一域名的级数将所述第一域名加入所述待分析域名列表;
在本实施例中,sports.163.com及tech.163.com的父域名为www.163.com,在所述待分析域名列表中,因此,直接依据sports.163.com及tech.163.com将其加入所述待分析域名列表;swf.news.163.com的父域名为news.163.com,不在所述待分析域名列表中,则先依据所述news.163.com的级数将其加入所述待分析域名列表,然后再依据swf.news.163.com的级数将其加入所述待分析域名列表;这里,所述待分析域名列表可以如表一所示:
      
      
表一
所述依据预设的分类标准对所述一级域名进行分类包括:
判断所述一级域名是否为网页辅助资源域名,如果是,将所述一级域名加入网页辅助资源域名列表;如果不是,判断所述一级域名是否为根域名或所述根域名的别名,如果是根域名,将所述一级域名加入根域名列表,如果是所述根域名的别名,将所述一级域名加入所述根域名的别名列表;在本实施例中,所述一级域名www.163.com可以访问,因此不是网页辅助资源域名,进一步确定www.163.com为根域名且非别名,因此,直接将www.163.com加入根域名列表;
这里,判断所述一级域名是否为根域名或所述根域名的别名之前,所述方法还包括:
依据预设的网页内容分类标准对所述一级域名对应的网页内容进行分类;具体包括:提取所述一级域名对应的网页内容的关键词,依据所述关键词及预设的关键词与网页内容分类的对应关系对所述一级域名对应的网页内容进行分类;在本实施例中确定www.163.com为门户类网站。
步骤203:依据获得的第一域名的级数依次解析获得的第一域名的跨域策略文件获得一个或多个第二域名,依据获得的第二域名的级数将获得的第二域名加入所述待分析域名列表,并依据预设的分类标准对获得的第一域名进行分类,直至依据预设的分类标准对当前的域名进行分类后,确定所述待分析域名列表中域名的级数不小于约定的级数时,依次对所述待分析域名列表中待处理的域名进行跨域策略文件的解析及域名的分类,且对解析得到的域名级数大于所述约定的级数的域名不作处理,得到域名分类关系表;
在本实施例中,依据获得的第一域名的级数首先解析所述待分析域名列表中的二级域名的跨域策略文件,解析sports.163.com的跨域策略文件,得到*.163.com、go.sports.163.com、cimg3.163.com、cache.netease.com、ws.126.net五个第二域名,依据获得的第二域名的级数将其加入待分析域名列表;然后对sports.163.com进行分类,确定sports.163.com可以访问,因此不是网页辅助资源域名,进一步确定sports.163.com既非根域名,也非根域名的别名,进一步判断当前的列表中是否存在sports.163.com的父域名,确定存在其父域名www.163.com,因此,将sports.163.com加入www.163.com的子域名列表;此时,确定所述待分析域名列表中域名的级数为三级,不小于约定的级数,因此,依次对所述待分析域名列表中未进行分类的级数不大于约定级数的域名进行跨域策略文件的解析及域名的分类,且对所述未进行分类的级数不大于约定级数的域名解析得到的域名级数大于所述约定的级数的域名不作处理,得到约定级数为三级的域名分类关系表,如图3所示。
步骤204:存储所述域名分类关系表;
进一步的,本步骤之后所述方法还包括:依据得到的域名分类关系表以及预设的网页访问控制类型,对用户访问的网页数据执行相应的访问控制操作;
这里,所述对用户访问的网页数据执行相应的访问控制包括:对用户访问的网页数据执行允许/禁止访问的操作。
图4为本发明实施例网页分类装置组成结构示意图,如图4所示,本发明实施例网页分类装置组成包括:解析模块41及分类模块42;其中,
所述解析模块41,用于将网页的一级域名加入待分析域名列表,解析所述一级域名的跨域策略文件获得一个或多个第一域名,依据获得的第一域名的级数将获得的第一域名加入所述待分析域名列表;以及依据获得的第一域名的级数依次解析获得的第一域名的跨域策略文件获得一个或多个第二域名,依据获得的第二域名的级数将获得的第二域名加入所述待分析域名列表,直至分类模块42依据预设的分类标准对当前的域名进行分类后,确定所述待分析域名列表中域名的级数不小于约定的级数时,依次对所述待分析域名列表中待处理的域名进行跨域策略文件的解析,且对解析得到的域名级数大于所述约定的级数的域名不作处理;
所述分类模块42;用于依据预设的分类标准对所述一级域名及获得的第一域名进行分类,直至依据预设的分类标准对当前的域名进行分类后,确定所述待分析域名列表中域名的级数不小于约定的级数时,依次对所述待分析域名列表中待处理的域名进行分类,得到域名分类关系表。
进一步的,所述解析模块41,还用于获取有效的网页一级域名。
进一步的,所述解析模块41依据获得的第一域名的级数将获得的第一域名加入所述待分析域名列表,包括:
所述解析模块41判断第一域名的父域名是否在所述待分析域名列表中,如果存在,直接依据所述第一域名的级数将所述第一域名加入所述待分析域名列表;如果不存在,依据所述第一域名的父域名的级数将所述第一域名的父域名加入所述待分析域名列表,然后依据所述第一域名的级数将所述第一域名加入所述待分析域名列表。
进一步的,所述分类模块42依据预设的分类标准对当前的域名进行分类包括:
所述分类模块42判断当前的域名是否为网页辅助资源域名,如果是,将当前的域名加入网页辅助资源域名列表;否则,判断当前的域名是否为根域名或所述根域名的别名,如果是根域名,将当前的域名加入根域名列表,如果是所述根域名的别名,将当前的域名加入所述根域名的别名列表;如果既非根域名,也非所述根域名的别名,则判断当前的列表中是否存在当前域名的父域名,如果存在,则将当前的域名加入所述父域名的子域名列表;如果不存在,将当前的域名加入平级域名列表。
进一步的,所述分类模块42,还用于依据预设的网页内容分类标准对当前的域名对应的网页内容进行分类;具体用于提取所述一级域名对应的网页内容的关键词,依据所述关键词及预设的关键词与网页内容分类的对应关系对所述一级域名对应的网页内容进行分类。
进一步的,所述分类模块42,还用于存储所述域名分类关系表。
进一步的,所述装置还包括控制模块43,用于依据得到的域名分类关系表以及预设的网页访问控制类型,对用户访问的网页数据执行相应的访问控制。
在本发明实施例中,所述解析模块41、分类模块42及控制模块43均可由服务器中的中央处理器(CPU,Central Processing Unit)或数字信号处理器(DSP,Digital Signal Processor)、或现场可编程门阵列(FPGA,Field Programmable GateArray)实现。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (10)

1.一种网页分类方法,其特征在于,所述方法包括:
将网页的一级域名加入待分析域名列表,解析所述一级域名的跨域策略文件获得一个或多个第一域名,依据获得的第一域名的级数将获得的第一域名加入所述待分析域名列表,并依据预设的分类标准对所述一级域名进行分类;
依据获得的第一域名的级数依次解析获得的第一域名的跨域策略文件获得一个或多个第二域名,依据获得的第二域名的级数将获得的第二域名加入所述待分析域名列表,并依据预设的分类标准对获得的第一域名进行分类,直至依据预设的分类标准对当前的域名进行分类后,确定所述待分析域名列表中域名的级数不小于约定的级数时,依次对所述待分析域名列表中待处理的域名进行跨域策略文件的解析及域名的分类,且对解析得到的域名级数大于所述约定的级数的域名不作处理,得到域名分类关系表。
2.根据权利要求1所述方法,其特征在于,所述依据获得的第一域名的级数将获得的第一域名加入所述待分析域名列表包括:
判断第一域名的父域名是否在所述待分析域名列表中,如果存在,直接依据所述第一域名的级数将所述第一域名加入所述待分析域名列表;如果不存在,依据所述第一域名的父域名的级数将所述第一域名的父域名加入所述待分析域名列表,然后依据所述第一域名的级数将所述第一域名加入所述待分析域名列表。
3.根据权利要求1或2所述方法,其特征在于,所述依据预设的分类标准对当前的域名进行分类包括:
判断当前的域名是否为网页辅助资源域名,如果是,将当前的域名加入网页辅助资源域名列表;否则,判断当前的域名是否为根域名或所述根域名的别名,如果是根域名,将当前的域名加入根域名列表,如果是所述根域名的别名,将当前的域名加入所述根域名的别名列表;如果既非根域名,也非所述根域名的别名,则判断当前的列表中是否存在当前域名的父域名,如果存在,则将当前的域名加入所述父域名的子域名列表;如果不存在,将当前的域名加入平级域名列表。
4.根据权利要求3所述方法,其特征在于,所述判断当前的域名是否为根域名或所述根域名的别名之前,所述方法还包括:
依据预设的网页内容分类标准对当前的域名对应的网页内容进行分类。
5.根据权利要求1或2所述方法,其特征在于,所述得到域名分类关系表之后,所述方法还包括:
依据得到的域名分类关系表以及预设的网页访问控制类型,对用户访问的网页数据执行相应的访问控制。
6.一种网页分类装置,其特征在于,所述装置包括:解析模块及分类模块;
所述解析模块,用于将网页的一级域名加入待分析域名列表,解析所述一级域名的跨域策略文件获得一个或多个第一域名,依据获得的第一域名的级数将获得的第一域名加入所述待分析域名列表;以及依据获得的第一域名的级数依次解析获得的第一域名的跨域策略文件获得一个或多个第二域名,依据获得的第二域名的级数将获得的第二域名加入所述待分析域名列表,直至分类模块依据预设的分类标准对当前的域名进行分类后,确定所述待分析域名列表中域名的级数不小于约定的级数时,依次对所述待分析域名列表中待处理的域名进行跨域策略文件的解析,且对解析得到的域名级数大于所述约定的级数的域名不作处理;
所述分类模块;用于依据预设的分类标准对所述一级域名及获得的第一域名进行分类,直至依据预设的分类标准对当前的域名进行分类后,确定所述待分析域名列表中域名的级数不小于约定的级数时,依次对所述待分析域名列表中待处理的域名进行分类,得到域名分类关系表。
7.根据权利要求6所述装置,其特征在于,所述解析模块,具体用于判断第一域名的父域名是否在所述待分析域名列表中,如果存在,直接依据所述第一域名的级数将所述第一域名加入所述待分析域名列表;如果不存在,依据所述第一域名的父域名的级数将所述第一域名的父域名加入所述待分析域名列表,然后依据所述第一域名的级数将所述第一域名加入所述待分析域名列表。
8.根据权利要求6或7所述装置,其特征在于,所述分类模块,具体用于判断当前的域名是否为网页辅助资源域名,如果是,将当前的域名加入网页辅助资源域名列表;否则,判断当前的域名是否为根域名或所述根域名的别名,如果是根域名,将当前的域名加入根域名列表,如果是所述根域名的别名,将当前的域名加入所述根域名的别名列表;如果既非根域名,也非所述根域名的别名,则判断当前的列表中是否存在当前域名的父域名,如果存在,则将当前的域名加入所述父域名的子域名列表;如果不存在,将当前的域名加入平级域名列表。
9.根据权利要求8所述装置,其特征在于,所述分类模块,还用于依据预设的网页内容分类标准对当前的域名对应的网页内容进行分类。
10.根据权利要求6或7所述装置,其特征在于,所述装置还包括控制模块,用于依据得到的域名分类关系表以及预设的网页访问控制类型,对用户访问的网页数据执行相应的访问控制。
CN201510155710.6A 2015-04-02 2015-04-02 一种网页分类方法及装置 Active CN104820674B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510155710.6A CN104820674B (zh) 2015-04-02 2015-04-02 一种网页分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510155710.6A CN104820674B (zh) 2015-04-02 2015-04-02 一种网页分类方法及装置

Publications (2)

Publication Number Publication Date
CN104820674A true CN104820674A (zh) 2015-08-05
CN104820674B CN104820674B (zh) 2018-04-27

Family

ID=53730971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510155710.6A Active CN104820674B (zh) 2015-04-02 2015-04-02 一种网页分类方法及装置

Country Status (1)

Country Link
CN (1) CN104820674B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105302564A (zh) * 2015-11-09 2016-02-03 中国人民解放军91655部队 网络办公软件服务控件及实现方法
CN105516390A (zh) * 2015-12-23 2016-04-20 北京奇虎科技有限公司 域名管理的方法和装置
CN107707682A (zh) * 2017-04-19 2018-02-16 贵州白山云科技有限公司 一种bind配置加载优化方法及装置
CN108337259A (zh) * 2018-02-01 2018-07-27 南京邮电大学 一种基于HTTP请求Host信息的可疑网页识别方法
CN109600385A (zh) * 2018-12-28 2019-04-09 北京神州绿盟信息安全科技股份有限公司 一种访问控制方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8495719B2 (en) * 2008-10-02 2013-07-23 International Business Machines Corporation Cross-domain access prevention
US8572675B2 (en) * 2009-04-03 2013-10-29 The Boeing Company System and method for facilitating the provision of web services across different internet security domains
CN103914534A (zh) * 2014-03-31 2014-07-09 辽宁四维科技发展有限公司 基于专家系统url分类知识库的文本内容分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8495719B2 (en) * 2008-10-02 2013-07-23 International Business Machines Corporation Cross-domain access prevention
US8572675B2 (en) * 2009-04-03 2013-10-29 The Boeing Company System and method for facilitating the provision of web services across different internet security domains
CN103914534A (zh) * 2014-03-31 2014-07-09 辽宁四维科技发展有限公司 基于专家系统url分类知识库的文本内容分类方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105302564A (zh) * 2015-11-09 2016-02-03 中国人民解放军91655部队 网络办公软件服务控件及实现方法
CN105302564B (zh) * 2015-11-09 2018-08-31 中国人民解放军91655部队 网络办公软件服务控件及实现方法
CN105516390A (zh) * 2015-12-23 2016-04-20 北京奇虎科技有限公司 域名管理的方法和装置
CN107707682A (zh) * 2017-04-19 2018-02-16 贵州白山云科技有限公司 一种bind配置加载优化方法及装置
CN108337259A (zh) * 2018-02-01 2018-07-27 南京邮电大学 一种基于HTTP请求Host信息的可疑网页识别方法
CN109600385A (zh) * 2018-12-28 2019-04-09 北京神州绿盟信息安全科技股份有限公司 一种访问控制方法及装置
CN109600385B (zh) * 2018-12-28 2021-06-15 绿盟科技集团股份有限公司 一种访问控制方法及装置

Also Published As

Publication number Publication date
CN104820674B (zh) 2018-04-27

Similar Documents

Publication Publication Date Title
CN104820674A (zh) 一种网页分类方法及装置
CN106933871B (zh) 短链接处理方法、装置及短链接服务器
US8645362B1 (en) Using resource load times in ranking search results
US9549038B1 (en) Cacheable resource location selection
US20150199432A1 (en) Optimized web domains classification based on progressive crawling with clustering
US10122722B2 (en) Resource classification using resource requests
US10165039B1 (en) Pre-connecting to a cacheable resource based on page profiles
CN107342913B (zh) 一种cdn节点的探测方法和装置
CN106789849B (zh) Cc攻击识别方法、节点及系统
EP3724805B1 (en) Enhanced online privacy
CN109756584B (zh) 域名解析方法、域名解析装置及计算机可读存储介质
US10075553B1 (en) Systems and methods for automatically rewriting network page code
WO2019085856A1 (zh) 文本资源的推送方法、装置、存储介质及处理器
CN106899689B (zh) 一种信息预下发的方法及服务器
JP2010537324A5 (zh)
Ruohonen et al. Invisible pixels are dead, long live invisible pixels!
US9110943B2 (en) Identifying an image for an entity
CN103020241A (zh) 基于会话的动态页面缓存方法和系统
CN110969469B (zh) 数据的获取方法及装置
US20080086476A1 (en) Method for providing news syndication discovery and competitive awareness
JP6481721B2 (ja) ユーザアクセスログの関連付け方法、装置、システム、プログラム及び記録媒体
WO2016101737A1 (zh) 搜索查询方法和装置
KR100902757B1 (ko) Url기반의 검색결과 제공방법 및 시스템
US20200311171A1 (en) Method, apparatus and computer program for processing url collected in web site
CN113992625A (zh) 域名源站探测方法、系统、计算机及可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant