CN108256104B

CN108256104B - 基于多维特征的互联网网站综合分类方法

Info

Publication number: CN108256104B
Application number: CN201810112942.7A
Authority: CN
Inventors: 张振涛; 崔渊博; 李金宇; 李湃; 蔡琳; 杨满智; 刘长永; 金红
Original assignee: Eversec Beijing Technology Co Ltd
Current assignee: Eversec Beijing Technology Co Ltd
Priority date: 2018-02-05
Filing date: 2018-02-05
Publication date: 2020-05-26
Anticipated expiration: 2038-02-05
Also published as: CN108256104A

Abstract

本发明公开了一种基于多维特征的互联网网站综合分类方法，该方法包括：采集互联网网站域名信息，得到互联网网站的域名特征；基于每个域名信息，采用爬虫获取域名对应的互联网网站标题信息，得到互联网网站的标题信息列表；基于每个域名信息，采用爬虫获取域名对应的互联网网站首页信息，得到互联网网站的首页特征；基于每个域名信息，采用爬虫获取域名对应的互联网网站页面链接信息，得到互联网网站的外部链接特征；综合获取的上述各特征，通过信息关联和机器学习，判别网站所属行业属性并进行对应分类。本发明解决了现有技术中无法对网站进行精确归类的问题。

Description

基于多维特征的互联网网站综合分类方法

技术领域

本发明涉及互联网技术领域，具体地说，是涉及一种基于多维特征的互联网网站综合分类方法。

背景技术

互联网迅猛发展，“互联网+”已经逐渐成为新时代的新业态，设计一套能够真实反应各行业“互联网+”的网站分类的方法成为定量度量各行业“互联网+”的发展情况的一种有效方式。

目前还未见到定量度量全国、各省“互联网+”行业网站分类的文献、技术和产品。

发明内容

本发明的目的是，提供一种基于多维特征的互联网网站综合分类方法，以实现对互联网网站所属类型的准确分类。

本发明采用的技术方案如下：

一种基于多维特征的互联网网站综合分类方法，所述方法包括：

步骤S1、自动采集全国及各省互联网网站域名，获得基期和当期全国及各省互联网网站的域名数量、域名列表、访问量及变化情况；

步骤S2、基于每个域名，采用爬虫获取域名对应的互联网网站标题信息，获得基期和当期全国及各省互联网网站的标题特征；

步骤S3、基于每个域名信息，采用爬虫获取域名对应的互联网网站首页信息，获得基期和当期全国及各省互联网网站的首页特征；

步骤S4、基于每个域名信息，采用爬虫获取域名对应的互联网网站页面链接信息，获得基期和当期全国及各省互联网网站的外部链接特征；

步骤S5、基于每个域名信息，采用爬虫获取域名对应的互联网网站各级网页信息，获得基期和当期全国及各省互联网网站的子级网页信息特征；

步骤S6、基于上述采集的五类信息数据，通过信息关联、机器学习，生成全国互联网网站分类集、各省互联网网网站分类集。

当前一级预判为不可确定，其后一级有预判结果时，后一级的预判特征算法反馈给前一级的预判特征算法。

当通过上述多级判断，且预归类均为同一类别时，判定结束并正式归类。

与现有技术相比，本发明所述的一种基于多维特征的互联网网站综合分类方法，按照优先级顺序，依次通过采集分析域名特征、标题特征、首页特征、链接特征、各级网页特征，共五类特征，能够准确判断出网站所属类型，并进行精确归类。同时，每一级的判断分类结果又反馈给前一个特征集，总体上形成了一个即相对分层、又互相反馈互补的综合网站分类方法。

附图说明

图1为本发明实施例所述的基于多维特征的互联网网站综合分类方法的整体架构图。

图2为本发明实施例所述的基于多维特征的互联网网站综合分类方法的方法流程图。

图3为本发明实施例所述的基于域名信息判断的流程图。

图4为本发明实施例所述的基于网站标题信息判断的流程图。

图5为本发明实施例所述的基于网站首页信息判断流程图。

图6为本发明实施例所述的基于链接信息判断的流程图。

图7为本发明实施例所述的基于子级网页信息判断的流程图。

具体实施方式

以下结合附图对本发明作进一步详细说明，但不作为对本发明的限定。

为使本领域技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明作进一步详细描述。

在介绍本发明实施例的方案之前，先对本发明具体实施方式中所指带的名词进入如下解释：

一、互联网网站：本文中所指的互联网网站是指在IDC机房通过HTTP协议以域名形式进行访问的网站。如百度、新浪等。

二、“互联网+”行业：本文中所指的“互联网+”行业是提供互联网网站服务的各个行业，包括：政府部门、制造业、农业、能源、金融、医疗、教育、旅游、物流、电子商务、交通、房地产。

三、“互联网+”行业网站分类：本文中所指的“互联网+”行业网站分类是指按照本文所提出的方法对互联网网站按照“互联网+”行业的维度进行的类别划分。

四、“互联网+”行业网站数量：本文中所指的“互联网+”行业网站数量是指涉及到政府部门、制造业、农业、能源、金融、医疗、教育、旅游、物流、电子商务、交通、房地产等行业的互联网网站数量。

全国的“互联网+”行业网站由各省的“互联网+”行业网站组成，因此，为计算出全国的“互联网+”行业网站数量，应先计算出各省的“互联网+”行业网站数量。

本发明所提出的基于“互联网+”行业的网站综合分类方法，综合采用“基于域名特征的分类”、“基于标题特征的分类”、“基于首页特征的分类”、“基于链接特征的分类”、“基于各级网页特征的分类”共5类算子实现各层级的分类，同时后续的分类算子结果又可以反馈给前类分类算子，从而总体上形成了一个即相对分层、又互相反馈互补的综合网站分类方法。

“互联网+”行业网站的分类划分由网站的域名特征、标题特征、首页面特征、链接特征、各级页面的特征综合决定，而针对首页、各级页面又分为文本信息特征、图片信息特征、音频信息特征、视频信息特征、总体栏目结构特征等，这些要素是本文中重点考虑的“互联网+”行业网站分类要素。

其中，域名特征是指互联网网站的域名字符串所具有的特征，如域名中含有“.edu”的一般都是教育类网站，而含有“.gov”的一般都是政府类网站。可以基于域名特征的分析，对网站进行行业属性分类。

标题特征是指在访问互联网网站时，页面中“title”标签中的内容，一般首页中的“title”中会含有企业名称等信息，各级网页中的“title”会含有该网页的主要内容描述。可以基于标题的特征进行分析，对网站进行行业属性分类。

首页特征是指首页中的文本信息、图片信息、音频信息、视频信息、结构信息等。通过分析首页面的以上信息中的内容和布局，对网站进行行业属性分类。

链接特征是指首页中链向其它网站的http超链接，一般来说，网站首页中指向外部的链接对应的网站都是与该网站行业相关的网站。通过分析网站首页的链接特征，可以对网站的行业属性进行进一步分类判别。

各级页面特征是指各级页面中的文本信息、图片信息、音频信息、视频信息、结构信息等。通过分析各级页面的以上信息中的内容和布局，对网站进行行业属性分类。由于全国互联网网站多大近千万个，而每个网站大小不一，大的网站的各级页面可以多达上万个、甚至几十万个，因此各子级的页面特征在对互联网网站进行行业属性综合判定时，仅作为辅助分析特征。

参照图2所示，本发明实施例所公开的一种基于多维特征的互联网网站综合分类方法，包括如下步骤：

步骤S1：采集互联网网站域名信息，获得互联网网站的域名特征；

具体来说，获取的域名信息来源包括从全国及各省级的数据采集系统采集的域名信息。配合参照图3所示，首先，通过采集得到的顶级域名特征对网站行业属性进行预判和分类，如能够直接判断则进行预归类，如无法确定则进入下述的步骤S2，其中，所述域名特征包括：互联网网站域名、域名接入IP、域名接入省份、域名接入企业、域名接入机房、域名发现的时间、域名访问量等。

比如，如果顶级域名为“.edu”的，一般来说，是教育类网站可能性很大，预判断为教育类网站，如果是“.gov”的，一般来说，是政府类网站可能性很大，预判断为政府类网站，其它一些类别基于域名不好判断，进入后续分类环节，继续进行判断。

步骤S2：基于每个域名信息，采用爬虫获取域名对应的互联网网站标题信息，获取互联网网站的标题特征；

配合参照图4所示，通过标题特征对网站行业属性进行预判和分类，如能够直接预判断则进行预归类，如无法确定则进入下述步骤S3。

在获取了域名，进入网站首页之后，再获取网站标题信息，对网站标题字串进行识别，并进行分词处理，提取出关键词，然后进行分类判别。所述标题特征包括：互联网网站域名、互联网网站标题、爬取时间等。

一般来说，网站首页的标题往往含有企业或者组织的名称信息，而名称信息往往会含有行业属性信息，例如：“**药业股份有限公司”。基于首页标题的文本特征对网站行业属性进行分类，即以已经存在的行业属性分词特征库结合标题中的企业名称进行类别判断，对于命中特征库中一种类别的，自动预判定为该类网站；对于命中两种以上类别或者都无命中的标题特征，自动进入后续分类环节。

步骤S3：基于每个域名信息，采用爬虫获取域名对应的互联网网站首页信息，获取互联网网站的首页特征；

配合参照图5所示，当通过域名特征和标题信息特征均无法判断出时，则进入本步骤，再通过网站首页特征进行分析。其中，所述首页特征包括：联网网站域名、互联网网站首页LOGO、互联网网站首页企业名称、互联网网站首页框架结构、互联网网站首页内容数据、爬取时间等。

基于首页的数据，进行数据类别的区分，刨除没有意义的音频、视频和图片，留下LOGO图片和文本内容，基于OCR技术对图片内容进行提取，提取出logo中所含的文字部分，然后，和文本内容均进行分词处理，用训练好的深度神经网络进行类别判定。同时，判定后的特征算法又可以作为样本反馈到样本库中，以供深度神经网络下次学习。

步骤S4：基于每个域名信息，采用爬虫获取域名对应的互联网网站页面链接信息，获取互联网网站的外部链接特征，也就是外部链接信息列表；

配合参照图6所示，通过域名特征、标题信息特征以及首页特征三级特征均无法对网站类型进行归类时，则进入到本步骤，再通过网站首页页面的链接特征进行分析。所述链接特征包括：互联网网站域名、链接列表、链接属性、爬取时间。

具体来说，在打开首页链接，进行一级域名提取，然后去重归并，由于首页链接上的很多网站是指向同一个网站，事先去重归并，减少后续的处理量，然后逐一判别其它各个外链域名的网站属性，计算每类网站的权值(外链同类网站的数量)，权值最大的网站类别(外链同类网站数量最多的)作为本网站的预判类别，进行归类。

“物以类聚、人以群分”，一般来说，具有某种属性的网站，往往在外向链接(一般在首页上的链接别的网站的链接信息，有时也叫友情链接)中也会很大概率链接属性相同的网站。如，教育类网站的友情链接中往往链接的也都是教育相关的网站。

当通过上述步骤S1至S4的四级判断后，当预归类均为同一类别时，判定结束，而且，经过四级的判断，也基本能够判别出网站类型进行准确的分类。假设仍然无法准备的判别出，或者判别存在疑问，比如判别在金融行业和电商行业存在分歧，则再进行下述步骤S5。

步骤S5、基于每个域名信息，采用爬虫获取域名对应的互联网网站的各子级网页信息，获取互联网网站的各字级网页信息特征；

其中，所述各子级网页信息特征包括：互联网网站域名、各级网页内容、网页级别、爬取时间。

配合参照图7所示，和首页信息特征判断类似，依然是对各子级网页的页面信息进行解析拆分，分出文本、图片、音频、视频等不同类型，然后将音频、视频及图片丢弃，只提取文本内容，对文本内容进行分词，并进行深度学习，从样本库提取出训练好的样本进行比对和类别判定，是否属于相应类别，如果是，则直接归类，如果不是，可判定并归类为其它类别网站。如果能从二级子网页判定出，无需再进入三级子网页。

获取的下级页面的数量和文件大小依据网络环境和存储能力的不同而不同，一般来说，针对大型网站，如果能够取遍二级页面的50％以上网页，对于最后判定网站类别已经足够用，针对中小型网站，可以考虑获取所有二级页面数据和部分三级页面数据。研判方法与首页研判方法类似，不同之处在于不用判断图片信息，一般来说Logo图片在首页获取就已足够。

步骤S6、基于上述五类数据，通过信息关联机器学习，生成全国互联网网站分类集、各省互联网网网站分类集。其中，本发明实施例中所列举的全国互联网网站综合分类包括但不限于：政府部门、制造业、农业、能源、金融、医疗、教育、旅游、物流、电子商务、交通、房地产共12个行业，该十二个行业类别的类别特征存储于特征库中。

本发明采集的五类数据均有“域名”属性，基于域名属性进行关联，即：域名---〉标题、首页数据、网站链接信息、子级网页数据；关联的目的是从不同纬度刻画一个网站(域名)，也为后续按照不同纬度进行分类能对应到网站上做好数据预处理。

作为本发明一个优选的实施方式，当前一级预判为不可确定，其后一级有预判结果时，后一级的特征算法反馈给前一级的特征算法。

除第一级算子(只是字符串模式匹配)外，其它每一级(包含网站标题、网站首页、链接)判断时，其实都不能完全精确的判断是否属于某一类的，因为基本都是基于内容进行分析的，有一个相似度的问题，一般都有两个门限，一个是判断为是的门限，一个是判断为否的门限，高于第一个门限的就判定为该类，低于第二个门限的判断为不是该类，而中间的则需要后续的特征算子(特征算法)研判结果综合判定，也就是说，每一级都有精确判定为该类的网站，也有不确定的网站，不确定的在后续算子进行研判。如果某个网站经过所有算子研判后(五级判断)都不能归为特征库中的某一类，那么就归为特征数据库外的“其它”。如果某个网站在后续的研判中判定为某类网站，而在它之前的某级判断为不可确定，就需要将该网站的特征反馈给前面的算子，充实它的分词特征库，以便于后续判断更准确。

结果反馈的思想是借鉴机器学习中的反馈神经网络的思想，即后续的判断对前一个环节的判断有修正作用，举例来说，aaa.edu.cn这个域名，按照本文中的规则，先按照域名进行判别，并预分类到教育行业，但事实上很有可能是一个房地产的企业网站，这时候通过后续的判别算子判别的结果就可以反馈回到第一个环节进行修正，并把aaa.edu.cn从第一个环节中预分类到教育行业的库中进行剔除。

本发明所述的网站综合分类方法，按照优先级顺序，依次通过采集分析域名特征、标题特征、首页特征、链接特征、各级网页特征，共五类，五个级别特征，能够准确判断出网站所属类型，并进行精确归类，而后级特征算子与前级特征不一致时还反馈给前一级特征算子，总体上形成了一个即相对分层、又互相反馈互补的综合网站分类方法。

上述说明示出并描述了本发明的若干优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于多维特征的互联网网站综合分类方法，其特征在于，所述方法包括：

采集互联网网站域名信息，获得互联网网站的域名特征；

基于每个域名信息，采用爬虫获取域名对应的互联网网站标题信息，得到互联网网站的标题特征；

基于每个域名信息，采用爬虫获取域名对应的互联网网站首页信息，得到互联网网站的首页特征；

基于每个域名信息，采用爬虫获取域名对应的互联网网站页面外部链接信息，得到互联网网站的外部链接特征；

基于每个域名信息，采用爬虫获取域名对应的互联网网站的各子级网页信息，获取互联网网站的各子级网页信息特征；

将获取的所述域名特征、标题特征、首页特征、外部链接特征、各子级网页信息特征进行综合判断，判别网站所属行业并进行分类；

所述判别并归类的过程如下：

第一级判断：通过顶级域名特征对网站行业属性进行预判和预分类；

第二级判断：通过标题特征对网站行业属性进行预判和预分类；

第三级判断：通过网站首页特征对网站行业属性进行预判和预分类；

第四级判断：通过外部链接特征对网站行业属性进行预判和预分类；

第五级判断：通过子级网页信息特征对网站行业属性进行预判和预分类；

当通过如上多级判断，且预归类均为同一类别时，判定结束并正式归类。

2.如权利要求1所述的互联网网站综合分类方法，其特征在于，当前一级预判为不可确定，其后一级有预判结果时，后一级的预判中的特征算法反馈给前一级。

3.如权利要求1所述的互联网网站综合分类方法，其特征在于，

所述域名特征包括：互联网网站域名、域名接入IP、域名接入省份、域名接入企业、域名接入机房、域名发现的时间、域名访问量；

所述标题特征包括：互联网网站域名、互联网网站标题、爬取时间；

所述首页特征包括：互联网网站域名、互联网网站首页LOGO、互联网网站首页企业名称、互联网网站首页框架结构、互联网网站首页内容数据、爬取时间；

所述外部链接特征包括：互联网网站域名、链接列表、链接属性、爬取时间；

所述各子级网页信息特征包括：互联网网站域名、各级网页内容、网页级别、爬取时间。

4.如权利要求3所述的互联网网站综合分类方法，其特征在于，根据首页特征判断网站行业属性的方法包括：

基于首页显示的数据，进行数据类别划分；

剔除没有意义的音频、视频和图片；

保留logo及文本内容；

基于OCR技术对logo所含的信息进行提取；

将提取后的文字和文本内容进行分词，用训练好的深度神经网络进行类别判断；

根据判断结果进行分类，将该结果作为样本反馈到样本库中。

5.如权利要求3所述的互联网网站综合分类方法，其特征在于，根据外部链接特征判定网站行业属性的方法包括：

根据首页链接，进行一级域名提取；

去重归并；

逐一判断各个外链域名的网站属性；

计算每类网站的权值；

将权值最大的网站类别作为本网站的类别；

根据类别进行对应分类。

6.如权利要求3所述的互联网网站综合分类方法，其特征在于，根据各子级网页信息特征判定网站行业属性的方法包括：

基于某子级页面显示的数据，进行数据类别划分；

剔除没有意义的音频、视频和图片；

保留文本内容；

将文本内容进行分词，用训练好的深度神经网络进行类别判断；

根据判断结果进行归类，将该结果作为样本反馈到样本库中。