CN105117434A

CN105117434A - 一种网页分类方法和系统

Info

Publication number: CN105117434A
Application number: CN201510484991.XA
Authority: CN
Inventors: 林招; 洪婷婷; 杨晓磊; 陈岩
Original assignee: Beijing Pinyou Interactive Information Technology Co Ltd
Current assignee: Beijing Pinyou Interactive Information Technology Co Ltd
Priority date: 2015-08-07
Filing date: 2015-08-07
Publication date: 2015-12-02

Abstract

本发明的目的是提供一种网页分类方法和系统，其中，待分类网页获取装置接收用户输入的域名，基于所述域名得到需要爬取面包屑的网页所对应的地址(url)，面包屑爬取装置基于所述地址爬取所述网页的面包屑，网页分类器基于所爬取的面包屑对所述网页进行分类。与现有技术相比，本发明通过基于域名从网页中提取面包屑，对网页进行分类，有效提升了网页分类的准确率。

Description

一种网页分类方法和系统

技术领域

本发明涉及互联网应用技术领域，尤其涉及一种网页分类方法和系统。

背景技术

随着互联网信息需求的扩大，信息定向投放成为一种趋势。为了更有针对性地投放信息，需要对互联网上的人群进行属性分析或标签界定，而这主要通过判断用户访问的媒体网页类型来进行分析。其中，常见的对媒体网页进行分类的方法主要包括：

1)利用url(统一资源定位)的字符串进行分类，如利用sports.qq.com中的字符串“sports”将该网页分类至体育类目；

2)人工识别，由有经验的人员根据网页内容进行网页分类；

3)网页内容关键字频次识别，主要通过解析url对应的html(超文本标记语言)内容，根据其中的关键字频次进行网页分类。

上述各分类方法中，方法3)通过机器学习等算法予以实现，准确度相对较低；方法2)虽然准确度较高，但是效率低；方法1)虽然效率和质量都不错，但是对于主要由日期或数据表示的url的网页分类却显得无可奈何，而这类网页的流量往往非常大，诸如视频网站、电子商务网站以及博客网站中的网页等。

发明内容

本发明的目的是提供一种网页分类方法和系统，可以有效对媒体网页类型进行分类。

根据本发明的一个方面，提供了一种网页分类方法，该方法包括以下步骤：

接收用户输入的域名，基于所述域名得到需要爬取面包屑的网页所对应的地址(url)；

基于所述地址爬取所述网页的面包屑；

基于所爬取的面包屑对所述网页进行分类。

进一步地，所述基于所述域名得到需要爬取面包屑的网页所对应的地址的步骤具体包括：

基于所述域名，得到包括所述域名在内的至少部分网页地址；

判断所述网页地址对应的网页是否存在历史被爬取面包屑的记录或/和所述网页是否活跃；

基于所述判断，筛选出需要爬取面包屑的网页所对应的地址。

其中，在筛选出需要爬取面包屑的网页所对应的地址的步骤前，还包括：

对面包屑的有效性进行判断，过滤无效面包屑对应的网页地址。

进一步地，所述基于所述地址爬取所述网页的面包屑的步骤包括：

基于面包屑的提取规则和所述地址，多线程地分别同时爬取并记录所述网页的面包屑。

其中，所述基于面包屑的提取规则爬取所述网页的面包屑具体包括：

对所述网页的html代码进行解析；

设定所述面包屑的开始字段和结束字段，获取所述面包屑的完整字段。

进一步地，所述基于所爬取的面包屑对所述网页进行分类的步骤具体包括：

确定面包屑分类关键字/词，基于所述关键字/词筛选出所述域名下包含所述关键字/词的所有面包屑对应的网页地址；

将所述筛选的网页地址所对应的网页归类于所述面包屑分类关键字/词所确定的类别。

进一步地，所述网页分类方法还包括：

基于所爬取的面包屑对网页进行的分类，对访问所述网页的用户进行属性分类。

根据本发明的另一个方面，还提供了一种网页分类系统，包括：

待分类网页获取装置，用于接收用户输入的域名，基于所述域名得到需要爬取面包屑的网页所对应的地址(url)；

面包屑爬取装置，基于所述地址爬取所述网页的面包屑；

网页分类器，基于所爬取的面包屑对所述网页进行分类。

进一步地，所述待分类网页获取装置具体用于：

其中，所述待分类网页获取装置在筛选出需要爬取面包屑的网页所对应的地址前，还用于：

进一步地，所述面包屑爬取装置具体用于：

其中，所述面包屑爬取装置基于面包屑的提取规则爬取所述网页的面包屑中，具体用于：

对所述网页的html代码进行解析；

进一步地，所述网页分类器具体用于：

进一步地，所述网页分类系统还包括：

用户属性分类装置，基于所爬取的面包屑对网页进行的分类，对访问所述网页的用户进行属性分类。

与现有技术相比，本发明具有以下优点：本发明通过识别面包屑中的字段，基于面包屑进行网页分类，提升了网页分类的准确率和效率，并进一步提高了对网络人群的属性进行标记的准确性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出根据本发明一个方面的一种网页分类系统的示意性框图；

图2示出某视频类网页中所展示的面包屑示意图；

图3(a)-图3(b)示出所述待分类网页获取装置的具体工作流程图；

图4示出根据本发明一个优选实施例的基于面包屑对人群进行分类的界面图；

图5示出根据本发明另一个方面的一种网页分类的方法流程图；

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

图1示出根据本发明一个方面的一种网页分类系统的示意性框图。其中，所述系统包括待分类网页获取装置11、面包屑爬取装置12以及网页分类器13。优选地，所述系统还包括用户属性分类装置14。具体地，待分类网页获取装置11接收用户输入的域名，基于所述域名得到需要爬取面包屑的网页所对应的地址(url)；面包屑爬取装置12基于所述地址爬取所述网页的面包屑；网页分类器13基于所爬取的面包屑对所述网页进行分类。进一步地，用户属性分类装置14基于所爬取的面包屑对网页进行的分类，对访问所述网页的用户进行属性分类。

上述各装置之间是持续不断工作的，在此，本领域技术人员应理解“持续”是指上述各装置分别实时地，或者按照设定的或实时调整的工作模式要求，进行工作。

其中，待分类网页获取装置11接收用户输入的域名，基于所述域名得到需要爬取面包屑的网页所对应的地址(url)，而所得到的网页为至少一个或多个，相应的网页地址也为至少一个或多个。具体地，所述域名可以包括任意级别的域名，例如一级域名、二级域名或三级域名等等，在此不作限定，典型地，视频类网址的域名例如为v.youku.com。通常，同一域名下，存在至少一个网页或多个网页对应的地址，仍以域名v.youku.com为例，其下存在的网址包括http://v.youku.com/v_show/idj或http://v.youku.com/v_show/id_xnjq1bjtcw等。

其中，所述面包屑是用于表达内容归属关系的界面元素，面包屑导航一般表现为“主分类>一级分类>二级分类>三级分类>……>最终内容页面”或者“首页>分类页>次级分类页”或者“首页>>分类页>>次级分类页”等形式。请参考图2示出的某视频类网页中所展示的面包屑示意图，如图2所示，该网页展示的面包屑为：电视剧>韩国>剧情/家庭/偶像/言情/时装。当然，不同网站的面包屑格式可以相同或不同，不同网站的面包屑对应的代码也可以相同或不同。

待分类网页获取装置11基于各种通信协议或/和网页规则通过与用户的用户设备进行交互，例如，通过一次或多次调用该用户设备提供的应用程序接口(API)或其他约定的通信方式，或者，通过ASP、JSP或PHP等页面技术，获取用户在搜索框、查询框等接收用户输入的域名，又或者，通过与搜索引擎等第三方设备的交互，接收用户输入的域名，基于所述域名得到需要爬取面包屑的网页所对应的地址(url)。进一步地，待分类网页获取装置11具体用于：

-a基于用户输入的域名，得到包括所述域名在内的至少部分网页地址；具体地，基于所述域名，可以得到部分或全部包含所述域名在内的网页地址。

-b判断所述网页地址对应的网页是否存在历史被爬取面包屑的记录或/和所述网页是否活跃；具体地，所述待分类网页获取装置11判断所述网页地址对应的网页是否存在历史被爬取面包屑的记录以及所述网页中是否存在可爬取的面包屑，如果不存在历史被爬取面包屑的记录且所述网页中存在可爬取的面包屑，则进一步判断所述网页是否活跃；否则，对所述网页不作处理。其中，所述判断网页是否活跃的步骤具体包括：判断所述网页在一定期限内是否被用户访问过，如果是，则判定所述网页为活跃；否则，则判定所述网页为不活跃。而所述期限在此不作限定，例如为30天，根据实际情况进行相应调整。当然，判断网页是否活跃的方式并不局限于期限判断这一种方式，还可以包含任何可用于判断网页是否活跃的方式，在此不作限定。

-c基于所述判断，筛选出需要爬取面包屑的网页所对应的地址。具体地，基于上述判断过程，筛选出活跃的且不存在历史被爬取面包屑的记录的网页所对应的地址。

其中，所述待分类网页获取装置11在筛选出需要爬取面包屑的网页所对应的地址前，还用于：

对面包屑的有效性进行判断，过滤无效面包屑对应的网页地址。在此，对面包屑的有效性判断主要通过对面包屑的长度进行计算，例如，当面包屑的长度大于1时，则将该面包屑判定为有效面包屑，否则，判定为无效面包屑。当然，对面包屑的有效性判断并仅不局限于长度这一标准，还可以包括其他判断方式，在此不作限定。

更详细地，请参考图3(a)-图3(b)，图3示出所述待分类网页获取装置11的具体工作流程图。如图3所示，所述待分类网页获取装置11的工作过程包括两大分步骤，分别标记为p1和p2：

在p1中，包括：

接收用户所输入的待爬取面包屑的网页域名；

将所接收的网页域名与历史活跃的网页网址用域名(domain)进行全外连接(FULLJOIN)；

判断所述历史活跃的网页网址是否不为空，即判断所接收的网页域名是否存在于历史活跃的网页网址中，如果是，则更新所述网页网址的历史访问时间，否则，取出历史活跃的网页网址和被访问的时间；

-e将所述匹配的结果联合(union)，输出最新活跃的网页网址，并与分步骤p2中有效的面包屑连接(join)，输出最新的网址面包屑；

将所述输出的最新活跃的网页网址和所述输出的最新的网址面包屑进行左连接，并取出没有爬过面包屑的网页网址；

-f将所述没有爬过面包屑的网页网址与分步骤p2中输出的最新的不能爬取面包屑的网页网址就左连接，并过滤不能爬取面包屑的网页网址，得到需要爬取面包屑的网页网址。

在步骤p2中，包括：

获取前一段时间爬取到的面包屑，判断所述面包屑的长度是否大于1，如果是，则判定为有效面包屑，并将其与历史有效面包屑联合，进入分步骤p1中的-e；否则，判定为无效面包屑，并将包含所述无效面包屑的网页网址判定为不能打标签的网址，且将其与历史无效面包屑联合，输出最新的不能爬取面包屑的网页网址，进入分步骤p1中的-f。

面包屑爬取装置12基于所述地址爬取所述网页的面包屑。具体地，所述面包屑爬取装置12基于面包屑的提取规则和所述地址，多线程地分别同时爬取并记录所述网页的面包屑。更具体地，所述面包屑爬取装置12基于面包屑的提取规则爬取所述网页的面包屑包括：

i对所述网页的html代码进行解析；具体地，由Curl(一种开源文件传输工具)获取所述网页的页面源码，将所述页面源码中面包屑符号统一格式，例如，将源码中的>号换成>换行，进一步地，判断网页的编码，并进行统一编码，例如统一编码成UTF8(一种网页编码)，如遇到GBK(另一种网页编码)，则将其转码成UTF8，以使所爬取的面包屑里的中文字符可以正常入库。

ii设定所述面包屑的开始字段和结束字段，获取所述面包屑的完整字段。典型地，在解析网页的html代码过程中，碰到面包屑开始字段(Crumb_start字段)，则开始记录面包屑，直到碰到面包屑结束字段(Crumb_end字段)，记录结束，对所述记录的面包屑进行处理，获得完整的面包屑字段。由此，相对于现有技术中专门设定一个爬虫程序解析每个网站具有不同显示和代码的面包屑，从而大量影响程序开发和标记效率而言，本实施例所提供的面包屑爬取装置12可以有效提升面包屑获取的效率。

网页分类器13基于所爬取的面包屑对所述网页进行分类。具体地，所述网页分类器具体用于：

-m确定面包屑分类关键字/词，基于所述关键字/词筛选出所述域名下包含所述关键字/词的所有面包屑对应的网页地址；其中，所述面包屑分类关键字/词由网页分类器13中的相应模块基于网页的分类类型从历史面包屑的字段中所提取，专门用于表示网页的分类类型，在此，对所述面包屑分类关键字/词确定的方式不作限定。

-n将所述筛选的网页地址所对应的网页归类于所述面包屑分类关键字/词所确定的类别。

进一步地，所述网页分类系统还包括：

用户属性分类装置14，基于所爬取的面包屑对网页进行的分类，对访问所述网页的用户进行属性分类。具体地，根据所述面包屑的内容，对访问包含所述面包屑的网页的用户进行属性识别，将该用户分类至相应的属性类别。仍请参考图2，图2所示的面包屑内容为：电视剧>韩国>剧情/家庭/偶像/言情/时装，基于所述面包屑的内容，将访问所述对应网页的用户进行属性标签标记，将其标记为“个人关注/娱乐/影视/日韩”，以对访问网页的用户进行属性识别。由此，提升了网页分类与网络人群分类的关联性以及对网络人群进行分类的准确度。优选地，结合大数据平台(例如hadoop)的特点，将所爬取的面包屑实时或及时导入大数据平台，用于对访问所述网页的用户进行属性识别。进一步，图4示出根据本发明一个优选实施例的基于面包屑对人群进行分类的界面图。如图4所示，针对面包屑关键字“汽车”所得到的在域名“v.youku.com”下的所有网页的面包屑及对应的网页地址，将访问所述网页地址的用户在人群属性库中选择相应的标签进行归类，如选择标签“个人关注/汽车”。

图5示出根据本发明另一个方面的一种网页分类的方法流程图。具体地，在步骤s1中，待分类网页获取装置接收用户输入的域名，基于所述域名得到需要爬取面包屑的网页所对应的地址(url)；在步骤s2中，面包屑爬取装置基于所述地址爬取所述网页的面包屑；在步骤s3中，网页分类器基于所爬取的面包屑对所述网页进行分类。进一步地，所述网页分类方法还包括：用户属性分类装置基于所爬取的面包屑对网页进行的分类，对访问所述网页的用户进行属性分类。

上述各步骤之间是持续不断工作的，在此，本领域技术人员应理解“持续”是指上述各步骤分别实时地，或者按照设定的或实时调整的工作模式要求，进行工作。

其中，在步骤s1中，待分类网页获取装置接收用户输入的域名，基于所述域名得到需要爬取面包屑的网页所对应的地址(url)，而所得到的网页为至少一个或多个，相应的网页地址也为至少一个或多个。具体地，所述域名可以包括任意级别的域名，例如一级域名、二级域名或三级域名等等，在此不作限定，典型地，视频类网址的域名例如为v.youku.com。通常，同一域名下，存在至少一个网页或多个网页对应的地址，仍以域名v.youku.com为例，其下存在的网址包括诸如：http://v.youku.com/v_show/idjc或http://v.youku.com/v_show/id_xnjq1bjtcw等。

其中，所述面包屑是用于表达内容归属关系的界面元素，面包屑导航一般表现为“主分类>一级分类>二级分类>三级分类>……>最终内容页面”或者“首页>分类页>次级分类页”或者“首页>>分类页>>次级分类页”等形式。请参考图2示出的某视频类网页中所展示的面包屑示意图，如图2所示，该网页展示的面包屑为：电视剧>韩国>剧情/家庭/偶像/言情/时装。当然，不同网站的面包屑格式可以相同或不同，不同网站的面包屑对应的代码也可以相同或不同。待分类网页获取装置基于各种通信协议或/和网页规则接收用户输入的域名，基于所述域名得到需要爬取面包屑的网页所对应的地址(url)。进一步地，在步骤s1中，具体包括：

-b判断所述网页地址对应的网页是否存在历史被爬取面包屑的记录或/和所述网页是否活跃；具体地，所述待分类网页获取装置判断所述网页地址对应的网页是否存在历史被爬取面包屑的记录以及所述网页中是否存在可爬取的面包屑，如果不存在历史被爬取面包屑的记录且所述网页中存在可爬取的面包屑，则进一步判断所述网页是否活跃；否则，对所述网页不作处理。其中，所述判断网页是否活跃的步骤具体包括：判断所述网页在一定期限内是否被用户访问过，如果是，则判定所述网页为活跃；否则，则判定所述网页为不活跃。而所述期限在此不作限定，例如为30天，根据实际情况进行相应调整。当然，判断网页是否活跃的方式并不局限于期限判断这一种方式，还可以包含任何可用于判断网页是否活跃的方式，在此不作限定。

其中，在步骤s1中，还包括：对面包屑的有效性进行判断，过滤无效面包屑对应的网页地址。在此，对面包屑的有效性判断主要通过对面包屑的长度进行计算，例如，当面包屑的长度大于1时，则将该面包屑判定为有效面包屑，否则，判定为无效面包屑。当然，对面包屑的有效性判断并仅不局限于长度这一标准，还可以包括其他判断方式，在此不作限定。

在步骤s2中，面包屑爬取装置基于所述地址爬取所述网页的面包屑。具体地，所述面包屑爬取装置基于面包屑的提取规则和所述地址，多线程地分别同时爬取并记录所述网页的面包屑。

更具体地，在步骤s2中，所述面包屑爬取装置基于面包屑的提取规则爬取所述网页的面包屑包括：

i对所述网页的html代码进行解析；具体地，由Curl获取所述网页的页面源码，将所述页面源码中面包屑符号统一格式，例如，将源码中的>号换成>换行，进一步地，判断网页的编码，并进行统一编码，例如统一编码成UTF8(一种网页编码)，如遇到GBK(另一种网页编码)，则将其转码成UTF8，以使所爬取的面包屑里的中文字符可以正常入库。

在步骤s3中，网页分类器基于所爬取的面包屑对所述网页进行分类。具体地，在步骤s3中，包括：

进一步地，所述网页分类方法还包括：

由用户属性分类装置基于所爬取的面包屑对网页进行的分类，对访问所述网页的用户进行属性分类。具体地，根据所述面包屑的内容，对访问包含所述面包屑的网页的用户进行属性识别，将该用户分类至相应的属性类别。仍请参考图2，图2所示的面包屑内容为：电视剧>韩国>剧情/家庭/偶像/言情/时装，基于所述面包屑的内容，将访问所述对应网页的用户进行属性标签标记，将其标记为“个人关注/娱乐/影视/日韩”，以对访问网页的用户进行属性识别。由此，提升了网页分类与网络人群分类的关联性以及对网络人群进行分类的准确度。优选地，结合大数据平台(例如hadoop)的特点，将所爬取的面包屑实时或及时导入大数据平台，用于对访问所述网页的用户进行属性识别。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种网页分类方法，该方法包括以下步骤：

接收用户输入的域名，基于所述域名得到需要爬取面包屑的网页所对应的地址；

基于所述地址爬取所述网页的面包屑；

基于所爬取的面包屑对所述网页进行分类。

2.根据权利要求1所述的网页分类方法，其中，所述基于所述域名得到需要爬取面包屑的网页所对应的地址的步骤具体包括：

基于所述判断，筛选出活跃的且不存在历史被爬取面包屑的记录的网页所对应的地址。

3.根据权利要求2所述的网页分类方法，其中，在筛选出需要爬取面包屑的网页所对应的地址的步骤前，还包括：

4.根据权利要求1所述的网页分类方法，其中，所述基于所述地址爬取所述网页的面包屑的步骤包括：

基于面包屑的提取规则和所述地址，由多线程分别同时爬取并记录所述网页的面包屑。

5.根据权利要求4所述的网页分类方法，其中，所述基于面包屑的提取规则爬取所述网页的面包屑具体包括：

对所述网页的html代码进行解析；

6.根据权利要求1所述的网页分类方法，其中，所述基于所爬取的面包屑对所述网页进行分类的步骤具体包括：

7.根据权利要求1-6任一项所述的网页分类方法，还包括：

8.一种网页分类系统，包括：

待分类网页获取装置，用于接收用户输入的域名，基于所述域名得到需要爬取面包屑的网页所对应的地址；

面包屑爬取装置，基于所述地址爬取所述网页的面包屑；

网页分类器，基于所爬取的面包屑对所述网页进行分类。

9.根据权利要求8所述的网页分类系统，其中，所述待分类网页获取装置具体用于：

10.根据权利要求9所述的网页分类系统，其中，所述待分类网页获取装置在筛选出需要爬取面包屑的网页所对应的地址前，还用于：

11.根据权利要求8所述的网页分类系统，其中，所述面包屑爬取装置具体用于：

12.根据权利要求11所述的网页分类系统，其中，所述面包屑爬取装置基于面包屑的提取规则爬取所述网页的面包屑中，具体用于：

对所述网页的html代码进行解析；

13.根据权利要求8所述的网页分类系统，所述网页分类器具体用于：

14.根据权利要求8-13任一项所述的网页分类系统，还包括：