CN105512143A

CN105512143A - 一种网页分类方法及装置

Info

Publication number: CN105512143A
Application number: CN201410504901.4A
Authority: CN
Inventors: 于波
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2014-09-26
Filing date: 2014-09-26
Publication date: 2016-04-20
Also published as: WO2016045378A1

Abstract

本发明公开了一种网页分类方法及装置。本发明的网页分类方法包括：根据网页样本集合建立特征词分类器，所述网页地址样本合集包括：多个样本网页地址和各所述样本网页地址对应的网页类型；获取预定数量的网页地址，通过所述特征词分类器确定每个所述网页地址所属的所述网页类型；对确定出网页类型的所述网页地址进行去冗余处理得到结构字符串，所述结构字符串为网页地址结构；存储所述网页地址结构及其对应的所述网页类型；在对网页进行分类时，获取待分类网页的网页地址，对该网页地址进行去冗余处理得到对应的网页地址结构，利用该网页地址结构从存储中查找出所述待分类网页所属的网页类型；本发明的方法实现对网页快速高效的分类。

Description

一种网页分类方法及装置

技术领域

本发明涉及互联网通讯技术领域，尤其涉及一种网页分类方法及装置。

背景技术

网页分类是当下互联网应用中的一个热点问题。对网页进行分类，可以以此来对用户访问网页的记录进行分析，从而得出用户的上网偏好，以便进一步给用户提供基于该偏好的互联网服务。

网页分类的结果一般由爬虫系统进行爬取后，保存在数据存储系统中。但由于互联网上的网页数量非常庞大，随着爬取到的网页数目增加，数据的查询和分析会越来越慢。

目前已存在许多网页分类的方法，都需要解析网页正文内容进行分类，而且还需要将网页和类别的对应关系进行记录，导致网页分类的效率低下；另外，由于解析网页正文需要大量的分析和计算，对系统性能有影响。

发明内容

本发明要解决的主要技术问题是，提供一种网页分类方法及装置，能够解决采用目前网页分类方法对进行网页分类的效率低下的问题。

为解决上述技术问题，本发明提供一种网页分类方法,包括如下步骤：

根据网页样本集合建立特征词分类器，所述网页地址样本合集包括：多个样本网页地址和各所述样本网页地址对应的网页类型；

获取预定数量的网页地址，通过所述特征词分类器确定每个所述网页地址所属的所述网页类型；

对确定出网页类型的所述网页地址进行去冗余处理得到结构字符串，所述结构字符串为网页地址结构；

存储所述网页地址结构及其对应的所述网页类型；

在对网页进行分类时，获取待分类网页的网页地址，对该网页地址进行去冗余处理得到对应的网页地址结构，利用该网页地址结构从存储中查找出所述待分类网页所属的网页类型。

进一步地，所述根据网页样本集合建立特征词分类器的步骤包括：

对所述多个样本网页地址对应的网页内容进行分词处理获取多个特征词；

获取每个所述特征词属于各所述网页类型的概率；

根据获取结果形成所述特征词分类器。

进一步地，所述通过所述特征词分类器确定所述网页地址所属的所述网页类型的步骤包括：

从所述网页地址对应的网页内容中提取关键词；

根据所述特征词分类器计算所述关键词属于每个所述网页类型的概率；

根据计算结果确定所述网页地址所属的所述网页类型。

进一步地，所述存储所述网页地址结构及其对应的所述网页类型的步骤包括：

统计每种所述网页地址结构属于各个所述网页类型的次数；

根据统计结果重新确定每种所述网页地址结构所属的网页类型；

存储每种网页地址结构及其对应的网页类型。

进一步地，所述根据统计结果重新确定每种所述网页地址结构所属的网页类型的步骤包括：

根据所述网页地址属于各个所述网页类型的次数计算出该网页地址属于各个所述网页类型的概率；

根据计算出的概率确定该网页地址结构所属的网页类型；

或者

当所述网页地址结构为子目录网页地址结构时，根据该子目录地址结构属于各个所述网页类型的次数计算出该子目录地址结构属于各个所述网页类型的概率；根据计算出的概率确定该子目录地址结构所属的网页类型；

当所述网页地址结构为上层目录网页地址结构并且存在其下的子目录网页地址结构时，根据所述上层目录网页地址下的所述子目录网页地址结构所属的所述网页类型确定所述上层目录网页地址结构所属的所述网页类型。

进一步地，所述存储每种网页地址结构及其对应的网页类型的步骤包括：

以结构树的形式存储每种网页地址结构及其对应的网页类型。

同样为了解决上述的技术问题，本发明还提出了一种网页分类装置，包括：特征词分类器建立模块、获取识别模块、网页地址处理模块、存储模块和网页分类模块；

所述特征词分类器建立模块用于根据网页样本集合建立特征词分类器，所述网页地址样本合集包括：多个样本网页地址和各所述样本网页地址对应的网页类型。

所述获取识别模块用于获取预定数量的网页地址，通过所述特征词分类器确定每个所述网页地址所属的所述网页类型；

所述网页地址处理模块用于对所述获取识别模块确定出网页类型的所述网页地址进行去冗余处理得到结构字符串，所述结构字符串为网页地址结构；

所述存储模块用于存储所述网页地址结构及其对应的所述网页类型；

所述网页分类模块用于在对网页进行分类时，获取待分类网页的网页地址，对该网页地址进行去冗余处理得到对应的网页地址结构，利用该网页地址结构从所述存储模块中查找出所述待分类网页所属的网页类型。

进一步地，所述特征词分类器建立模块用于：

获取每个所述特征词属于各所述网页类型的概率；

根据获取结果形成所述特征词分类器。

进一步地，所述获取识别模块用于：

从所述网页地址对应的网页内容中提取关键词；

根据计算结果确定所述网页地址所属的所述网页类型。

进一步地，所述存储模块包括：统计模块、类型确定模块以及执行存储模块；

所述统计模块用于统计每种所述网页地址结构属于各个所述网页类型的次数；

所述类型确定模块用于根据所述统计模块的统计结果重新确定每种所述网页地址结构所属的网页类型；

所述执行存储模块用于存储每种网页地址结构及其对应的网页类型。

进一步地，所述类型确定模块用于：

根据计算出的概率确定该网页地址结构所属的网页类型；

或者

进一步地，所述执行存储模块用于以结构树的形式存储每种网页地址结构及其对应的网页类型。

本发明的有益效果是：

本发明提供了一种网页分类方法及装置，可以利用网页地址相似性的特性实现对网页快速高效的分类；具体地，本发明的网页分类方法，包括如下步骤：根据网页样本集合建立特征词分类器，所述网页地址样本合集包括：多个样本网页地址和各所述样本网页地址对应的网页类型；获取预定数量的网页地址，通过所述特征词分类器确定每个所述网页地址所属的所述网页类型；对确定出网页类型的所述网页地址进行去冗余处理得到结构字符串，所述结构字符串为网页地址结构；存储所述网页地址结构及其对应的所述网页类型；在对网页进行分类时，获取待分类网页的网页地址，对该网页地址进行去冗余处理得到对应的网页地址结构，利用该网页地址结构从存储中查找出所述待分类网页所属的网页类型；本发明方法可以预先获取并存储网页地址结构与网页类型的对应关系，然后在网页分类时利用待分类网页对应的网页地址结构从预先存储中直接查找出带分类网页所属的网页类型；不需要对待分类网页的网页内容进行解析也不需要记录网页和类别的对应关系供后续查询，与现有技术相比，提高了网页分类的速度和效率，并且减小了网页分类对系统性能的影响，提升了用户体验。

附图说明

图1为本发明实施例一提供的一种网页分类方法的流程示意图；

图2为本发明实施例一提供的一种存储所述网页地址结构及其对应的所述网页类型的流程示意图；

图3为本发明实施例一提供的一种建立URL结构树表的流程示意图；

图4为本发明实施例一提供的一种利用URL结构树表对网页分类的流程示意图；

图5为本发明实施例二提供的一种网页分类装置的结构示意图；

图6为本发明实施例二提供的另一种网页分类装置的结构示意图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。

实施例一：

考虑到采用目前网页分类方法不能够高效快速地对网页进行分类的问题，本实施例提供了一种区别于现有技术的网页分类方法，利用网页地址(URL)结构相似性来实现对网页进行快速分类；如图1所示，本实施例的网页分类方法具体包括如下步骤：

步骤101：根据网页样本集合建立特征词分类器，所述网页地址样本合集包括：多个样本网页地址和各所述样本网页地址对应的网页类型。

在对网页进行分类之前，本实施例方法预先选取一些样本网页地址和样本网页地址对应的网页类型；例如网页地址1-财经，网页地址2-体育，网页地址-视频……；然后可以利用这些样本网页地和网页类型建立特征词分类器，本实施例中特征词分类器用于根据网页地址对应的网页内容来确定网页地址所属的网页类型。

在本实施例中样本集合中预设网页类型作为后续网页类型的基准，后续不管是确定URL结构的网页类型或者待分类网页的类型均限于样本集合中网页类型。所以，在选取样本的时候尽量将所有的类型都考虑进来。

优先地，本步骤中根据网页样本集合建立特征词分类器的过程包括：

获取每个所述特征词属于各所述网页类型的概率；

根据获取结果形成所述特征词分类器。

例如对网址1、网址2对应网页内容进行分词处理获取多个特征词(例如具有代表性的词条)，然后计算每个特征词属于体育、财经、视频、音乐的概率；最后可以根据计算结果生成一张表格即为特征词分类器。

步骤102：获取预定数量的网页地址，通过所述特征词分类器确定每个所述网页地址所属的所述网页类型。

例如爬取模块会利用爬虫的机制，不断的增量爬取URL；本实施例方法可以对通过特征词分类器对爬取的URL进行分类。

本步骤主要是通过网页内容和特征词分类器来确定网页地址的网页类型。具体地，本步骤中所述通过所述特征词分类器确定所述网页地址所属的所述网页类型的过程可以包括：

从所述网页地址对应的网页内容中提取关键词；

根据计算结果确定所述网页地址所属的所述网页类型。

例如对从当前网页内容中提取关键词1、关键词2；将关键词1和2与特征分类器中的特征词进行匹配，匹配成功后得到该关键词1和2属于各网页类型的概率，然后根据概率计算确定当前网页所属的类型，也就得到当前网页的网页地址所属的网页类型。

步骤103：对确定出网页类型的所述网页地址进行去冗余处理得到结构字符串，所述结构字符串为网页地址结构。

本实施例URL结构是指对URL进行去除冗余之后留下来的结构字符串。比如对于下面这个URL：

http://sports.sina.com.cn/nba/2014-06-11/12007202951.shtml

去除后如下：

http://sports.sina.com.cn/nba/.shtml

再去掉协议前缀和最后的文件名，如下：

sports.sina.com.cn/nba/

这一串内容就认为是URL结构。

本步骤是对于每一个识别出网页类型的网页地址URL进行规整，即去冗余处理得到URL结构。

例如在爬取的网址1-5中仅网址1、3通过特征词分类器识别出了网页类型，此时就会对网1、3进行去冗余处理得到URL结构1和URL结构3。

步骤104：存储所述网页地址结构及其对应的所述网页类型。

本步骤是将得到的网页地址结构及其对应的网页类型存储，供后续对网页进行分类时查询。

为了增加后续对网页分类的精确性，在获取多个网页地址结构及其对应的网页类型后，还需要对网页地址结构进行规划和进一步确定网页地址结构所属的类型；优选地，本步骤具体包括，如图2所示：

步骤201：统计每种所述网页地址结构属于各个所述网页类型的次数。

由于在去冗余之后，会存在多个相同的URL结构，本实施例中将多个相同的URL结构归为一类，即一种URL结构，然后统计每种URL结构属于各个网页类型的次数；例如，在爬取如下网页地址并确定网页类型：

http://sports.sina.com.cn/nba/2014-06-11/12007202951.shtml体育

http://sports.sina.com.cn/nba/2014-06-12/12007340295.shtml体育

http://sports.sina.com.cn/nba/2014-06-12/12011202911.shtml体育

http://sports.sina.com.cn/nba/2014-06-12/12001213253.shtml体育

在对上述网页地址去冗余处理后，得到sports.sina.com.cn/nba/这个URL结构，其属于体育网页类型的次数为4。

步骤202：根据统计结果重新确定每种所述网页地址结构所属的网页类型。

本实施例在统计了各网页地址结构出现在各网页类型上的次数后，可以根据统计的结果来计算出每种网页地址结构所属的网页类型例如可以根据属于各网页类型计算概率，选取概率高的网页类型作为该网页地址所属的网页类型。

本实施例可以将各种URL结构及其对应网页类型保存在一个向量空间中，然后在对向量空间的内容进行计算确定每种URL结构对应的网页类型，最后存在数据库中供后续分类查询。

步骤203：存储每种网页地址结构及其对应的网页类型。

步骤105：在对网页进行分类时，获取待分类网页的网页地址，对该网页地址进行去冗余处理得到对应的网页地址结构，利用该网页地址结构从存储中查找出所述待分类网页所属的网页类型。

本实施例中步骤101-104为对网页分类前预先处理的过程，在通过步骤101-104之后即可得到各种网页地址结构及其对应的网页类型；在后续需要对网页进行分类时，可以从事先得到的对应关系中查找出当前待分类网页对应的网页类型，也就是当前待分类网页的网页地址对应的网页类型。

本实施例方法可以预先获取并存储网页地址结构与网页类型的对应关系，然后在网页分类时利用待分类网页对应的网页地址结构从预先存储中直接查找出带分类网页所属的网页类型；不需要对待分类网页的网页内容进行解析也不需要记录网页和类别的对应关系供后续查询，与现有技术相比，提高了网页分类的速度和效率，并且减小了网页分类对系统性能的影响，提升了用户体验。

本实施例方法可以采用一些便于分类查找的形式来存储每种网页地址结构及其对应的网页类型，优先地，本实施例方法以结构树的形式存储每种网页地址结构及其对应的网页类型，即URL结构树表。。

本实施例方法可以将该URL结构及其对应的网页类型保存在内存中的结构树中，后续应用系统在尝试获取某个网页的分类的时候，可以先查询此结构树，以更快的获取该网页对应的分类。

由于本实施例的网页分类方法是基于预先建立的网页地址结构与网页类型之间的对应关系，所以下面以建立URL结构树表为例来详细介绍本实施例的网页分类方法中建立URL结构与网页类型之间的对应关系，如图3所示：

301:通过样本URL集合来建立特征词分类器。

首先，需要准备一个样本URL集合，里面包括一些预先设定的URL和其已知分类。示例如下：

sports.sina.com.cn	体育
		finance.sina.com.cn	财经
www.kankan.com	视频
		mp3.baidu.com	音乐
news.china.com.cn	新闻
		www.weibo.com	社交

表1

通过对这些样本进行分词处理和计算出现频次，得到各个特征词对各个分类的频数，如下：

	体育	财经	视频	音乐	新闻	社交
							sports	30	0	3	0	1	0
finance	0	50	0	0	0	0

kankan	0	0	40	3	0	0
							mp3	0	0	0	43	0	0
weibo	0	0	0	1	1	33
							news	1	1	1	1	38	1

表2

之后可以确定每个特征词出现的时候，属于每个类别的概率。

体育

财经

视频

音乐

新闻

社交

sports

88.2％

0％

8.8％

0％

3％

0％

finance

0％

100％

0％

kankan

0％

93％

7％

0％

mp3

0％

100％

0％

weibo

0％

2.8％

94.4％

news

2.3％

88.5％

2.3％

表3

这样就形成一个特征词分类器。

302、爬取模块爬取URL并通过特征词分类器对URL进行分类。

爬取模块会利用爬虫的机制，不断的增量爬取URL，并对URL的网页内容进行分析，得到该URL最可能的分类。

训练是通过将URL的网页内容进行解析，取出URL的网页内容中每个关键词，比如

http://sports.sina.com.cn/nba/2014-06-11/12007202951.shtml

其网页内容中的关键词就是sportssinacomcnnba这些。

将这些关键词通过特征词分类器进行概率计算，得到该URL可能的分类。比如示例中就可以根据分类器，得到该URL对应的分类是体育分类。

303、将规整后URL结构的分类结果保存在训练向量空间中。

首先，需要在内存中建立一个训练用的向量空间，用来对URL结构进行训练。

URL结构是指对URL进行去除冗余之后留下来的结构字符串。比如对于下面这个URL：

http://sports.sina.com.cn/nba/2014-06-11/12007202951.shtml

其中的数字和-都是无用信息，可以去除。

去除后如下：

http://sports.sina.com.cn/nba/.shtml

再去掉协议前缀和最后的文件名，如下：

sports.sina.com.cn/nba/

这一串内容就认为是URL结构。

对每一个识别出分类的网页的URL进行规整，得到URL结构并保存在训练向量空间中。

比如：

http://sports.sina.com.cn/cba/2014-06-11/12007202951.shtml体育

http://sports.sina.com.cn/cba/2014-06-12/12007340295.shtml体育

http://sports.sina.com.cn/cba/2014-06-12/12011202911.shtml体育

http://sports.sina.com.cn/cba/2014-06-12/12001213253.shtml体育

则对于sports.sina.com.cn/cba/这个URL结构，其对应的向量空间中体育分类的数值上加上4。

304、通过对训练向量空间的内容进行计算，得到URL结构对应的分类结果。

具体地，可以通过计算URL结构属于每个网页分类的概率，然后根据计算的概率来得到该URL结构对应的网页分类。

另外，还可以将URL结构区分了上层目录URL结构和子目录URL结构；当所述网页地址结构为子目录网页地址结构时，根据该子目录地址结构属于各个所述网页类型的次数计算出该子目录地址结构属于各个所述网页类型的概率；根据计算出的概率确定该子目录地址结构所属的网页类型；当所述网页地址结构为上层目录网页地址结构并且存在其下的子目录网页地址结构时，根据所述上层目录网页地址下的所述子目录网页地址结构所属的所述网页类型确定所述上层目录网页地址结构所属的所述网页类型。

假设向量空间如下：

表4

一种方式是，计算URL目录结构出现在每个分类上的概率，当概率高与某个预设阈值后，则认定概率高的分类就是URL结构对应的分类。比如sports.sina.com.cn/nba/，P(x|体育)＝100％，则可以认为该结构分类为体育。

另一种方式是：区别上层目录结构和子目录结构，对于一个子目录结构，可以通过其下面的网页出现在每个分类的次数，来计算概率，概率高于80％的，我们认为该结构就可以认为对应该分类。

而对于上层目录结构，可以通过其下的多个子目录结构来进行判断，即按照贝叶斯计算该目录结构属于每个分类的概率，概率最高的为此目录对应的分类。

比如对于sports.sina.com.cn，假设其子结构有三个，分别为A、B、C，则对应各个分类的概率如下：

P(X|体育)＝P(A|体育)P(B|体育)P(C|体育)

P(X|美食)＝P(A|美食)P(B|美食)P(C|美食)

…………

P(X|游戏)＝P(A|游戏)P(B|游戏)P(C|游戏)

最后对应的分类为计算得到的P最高的那个分类。

305、将URL结构的分类结果存入内存中的结构树表中。

计算出来的每个URL结构对应的分类结果存入结构树表中，例如结构树表内容如下：

当将上述得到的结构树表应用于对网页分类时，其可以包括以下步骤，如图4所示：

401:对某个待分类的网页的URL进行结构规整得到对应的URL结构。

应用系统需要对某个网页进行分类，则首先对该网页的URL进行规整并得到其URL结构。比如一个URL：

http://sports.sina.com.cn/cba/2014-06-12/09527204073.shtml，规整后为：

sports.sina.com.cn/cba/

402:将得到的URL结构在内存的结构树表中进行检索。

将该URL结构在结构树表中进行检索，找到对应的叶子节点。示例中就是用sports.sina.com.cn/cba/进行检索。

403:如果检索到URL结构对应的分类则将该分类作为待分类网页的分类。

如果检索到URL结构对应的分类，则认为此分类为该网页的分类。比如示例中，，首先找到sports.sina.com.cn，然后找其下面的节点，找到cba然后确定其分类是体育。

如果找到sports.sina.com.cn之后就找不到再下级的节点了，则以当前节点的分类作为该网页的分类。

通过以上的方法，应用可以直接在内存中对网页进行分类，而且不需要存储网页和分类的对应关系，节省大量的空间，而且可以高速和高效的获取网页分类结果。

实施例二：

本实施例提供了一种网页分类装置，如图5所示，包括：特征词分类器建立模块、获取识别模块、网页地址处理模块、存储模块和网页分类模块；

本实施例提供的网页分类装置可以预先获取并存储网页地址结构与网页类型的对应关系，然后在网页分类时利用待分类网页对应的网页地址结构从预先存储中直接查找出带分类网页所属的网页类型；不需要对待分类网页的网页内容进行解析也不需要记录网页和类别的对应关系供后续查询，与现有技术相比，提高了网页分类的速度和效率，并且减小了网页分类对系统性能的影响，提升了用户体验。

优先地，在上述网页分类装置基础上，所述特征词分类器建立模块用于：

获取每个所述特征词属于各所述网页类型的概率；

根据获取结果形成所述特征词分类器。

优先地，在上述网页分类装置基础上，所述获取识别模块用于：

从所述网页地址对应的网页内容中提取关键词；

根据计算结果确定所述网页地址所属的所述网页类型。

优先地，在上述网页分类装置基础上，如图6所示，所述存储模块包括：统计模块、类型确定模块以及执行存储模块；

优先地，所述类型确定模块用于：

根据计算出的概率确定该网页地址结构所属的网页类型；

或者

优先地，所述执行存储模块用于以结构树的形式存储每种网页地址结构及其对应的网页类型。

Claims

1.一种网页分类方法，其特征在于，包括如下步骤：

存储所述网页地址结构及其对应的所述网页类型；

2.如权利要求1所述的方法，其特征在于，所述根据网页样本集合建立特征词分类器的步骤包括：

获取每个所述特征词属于各所述网页类型的概率；

根据获取结果形成所述特征词分类器。

3.如权利要求1所述的方法，其特征在于，所述通过所述特征词分类器确定所述网页地址所属的所述网页类型的步骤包括：

从所述网页地址对应的网页内容中提取关键词；

根据计算结果确定所述网页地址所属的所述网页类型。

4.如权利要求1-3任一项所述的方法，其特征在于，所述存储所述网页地址结构及其对应的所述网页类型的步骤包括：

统计每种所述网页地址结构属于各个所述网页类型的次数；

存储每种网页地址结构及其对应的网页类型。

5.如权利要求4所述的方法，其特征在于，所述根据统计结果重新确定每种所述网页地址结构所属的网页类型的步骤包括：

根据计算出的概率确定该网页地址结构所属的网页类型；

或者

6.如权利要求4所述的方法，其特征在于，所述存储每种网页地址结构及其对应的网页类型的步骤包括：

7.一种网页分类装置，其特征在于，包括：特征词分类器建立模块、获取识别模块、网页地址处理模块、存储模块和网页分类模块；

8.如权利要求7所述的装置，其特征在于，所述特征词分类器建立模块用于：

获取每个所述特征词属于各所述网页类型的概率；

根据获取结果形成所述特征词分类器。

9.如权利要求7所述的装置，其特征在于，所述获取识别模块用于：

从所述网页地址对应的网页内容中提取关键词；

根据计算结果确定所述网页地址所属的所述网页类型。

10.如权利要求7-9任一项所述的装置，其特征在于，所述存储模块包括：统计模块、类型确定模块以及执行存储模块；

11.如权利要求10所述的装置，其特征在于，所述类型确定模块用于：

根据计算出的概率确定该网页地址结构所属的网页类型；

或者

当所述网页地址结构为子目录网页地址结构时，根据该子目录地址结构属于各个所述网页类型的次数计算出该子目录地址结构属于各个所述网页类型的概率；根据计算出的概率确定该子目录地址结构所属的网页类型；当所述网页地址结构为上层目录网页地址结构并且存在其下的子目录网页地址结构时，根据所述上层目录网页地址下的所述子目录网页地址结构所属的所述网页类型确定所述上层目录网页地址结构所属的所述网页类型。

12.如权利要求11所述的装置，其特征在于，所述执行存储模块用于以结构树的形式存储每种网页地址结构及其对应的网页类型。