CN100578500C

CN100578500C - 一种网页分类方法及装置

Info

Publication number: CN100578500C
Application number: CN200610167466A
Authority: CN
Inventors: 文勖
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Shenzhen Shiji Guangsu Information Technology Co Ltd
Priority date: 2006-12-20
Filing date: 2006-12-20
Publication date: 2010-01-06
Anticipated expiration: 2026-12-20
Also published as: CN101178714A

Abstract

本发明公开了一种网页分类方法及装置，用以解决现有技术中采用从网页正文中提取分类特征词的方式对网页进行分类时，分类的准确率较低且计算量较大的问题。所述方法包括步骤：从网页对应的锚文本中选取分类锚文本，确定该分类锚文本中包含的分类关键词，从网页的全部内容中查找至少包含一个所述分类关键词的语句，将查找到的语句组合形成特征文本，对所述特征文本进行文本分类处理，将该特征文本的类别确定为所述网页的类别；所述系统包括分类锚文本选取模块、分类关键词确定模块、查找模块和特征文本分类模块。本发明大大提高了分类的准确率和召回率，同时减小了分类处理过程中的计算量。

Description

一种网页分类方法及装置

技术领域

本发明涉及分类技术，尤其涉及一种网页分类方法及装置。

背景技术

随着Internet的普及和飞速发展，网络信息成爆炸性增长，一方面满足了用户对信息的需求，另一方面也产生了一些问题，如何根据网页内容把网页自动分到不同的语义类别，以提高用户的体验，是目前搜索引擎面临解决的一个问题。

现有技术中网页分类方法主要是采用对网页的正文进行文本分类的方式来实现，其主要实现过程为：首先从网页中提取正文，然后对网页的正文进行文本分类处理，得到的分类类别即为该网页的分类类别，下面详细描述对网页正文进行文本分类处理的具体过程，包括步骤：

步骤S10、对网页的正文进行分词处理，去掉其中的停用词，根据预先构建的特征词表从余下的词汇中提取特征词汇；

所述特征词表按照tf-idf方法构建。

步骤S11、查询各个类别的先验概率，以及查询各特征词汇在不同类别的文本中的权值；

词汇的权值用于表征词汇在各个类别的文本中出现的概率，某一词汇在不同类别的文本中的不同权值表示了该词汇出现在不同类别的文本中的概率，例如“电脑”在科技类别的文本中的权值就比在经济类别中的文本的权值大。

步骤S12、按照预先设置的分类算法对网页的正文进行分类，分类的算法有很多种，如贝叶斯分类器，SVM(支持向量机分类器)等，下面以贝叶斯分类器为例，对分类的具体过程进行说明：

按照贝叶斯分类公式

P (C_{j} | V) \infty P (C_{j}) Π_{i = 1}^{n} P (v_{i} | C_{j})

分别计算网页正文的文本属于各个类别的概率，贝叶斯分类公式中P(C_j|V)为文本V属于类别C_j的概率，P(C_j)为类别C_j的先验概率，P(v_i|C_j)为特征词汇i在类别C_j中的权值，P(C_j|V)最大值对应的类别即为网页正文的归属类别。

然而，由于网页是半结构化信息，网页除了含有文本还包括很多的其他信息，例如锚文本、链接关系、垃圾广告等，在上述提取网页正文的过程中，很可能会把广告、导航信息等误提取为正文，从而影响分类的准确率和召回率，并且根据网页正文中的特征词汇确定网页类别的计算量很大，导致时间开销很大，不利于在线分类海量网页。

发明内容

本发明提供一种网页分类方法及装置，用以解决现有技术中采用从网页正文中提取分类特征词的方式对网页进行分类时，分类的准确率较低且计算量较大的问题。

本发明方法包括：

一种网页分类方法，包括步骤：

A、判断网页下载过程中下载网页爬虫的阶段是否记录了所述网页的锚文本信息，若是，从网页对应的锚文本中选取分类锚文本，否则，将该网页的标题字段确定为分类锚文本，确定该分类锚文本中包含的分类关键词；

B、从网页的全部内容中查找至少包含一个所述分类关键词的语句，将查找到的语句组合形成特征文本；

C、对所述特征文本进行文本分类处理，将该特征文本的类别确定为所述网页的类别。

较佳的，若下载网页爬虫阶段记录了所述网页的锚文本信息，则选取其中出现次数最多的锚文本做为该网页的分类锚文本。

较佳的，所述确定分类锚文本中包含的分类关键词的过程为：

对分类锚文本进行分词处理，去掉其中的停用词，余下的词汇即为该分类锚文本的分类关键词。

较佳的，对特征文本进行文本分类处理的过程为：

对特征文本进行分词处理，去掉其中的停用词，按照预先构建的特征词表从余下的词中提取特征词汇；

按照预先设定的分类算法，根据各类别文本的先验概率及特征词汇在各类别文本中的权值确定出所述特征文本的类别。

一种网页分类装置，包括：

判断模块，用于判断网页下载过程中下载网页爬虫的阶段是否记录了所述网页的锚文本信息，若是，触发分类锚文本选取模块从网页对应的锚文本中选取分类锚文本，否则，触发标题字段提取模块提取网页的标题字段；

标题字段提取模块，用于提取网页的标题字段，将其做为该网页的分类锚文本发送给分类关键词确定模块；

分类锚文本选取模块，用于从网页对应的锚文本中选取分类锚文本；

分类关键词确定模块，用于确定分类锚文本中包含的分类关键词；

查找模块，用于从网页的全部内容中查找包含至少一个所述分类关键词的语句，将查找到的语句组合形成特征文本；

特征文本分类模块，用于对所述特征文本进行分类处理，将该特征文本的类别确定为所述网页的类别。

本发明有益效果如下：

本发明技术方案通过从网页对应的锚文本中选取分类锚文本，从网页的全部内容中查找包含至少一个分类锚文本中的分类关键词的语句，将查找到的语句组合形成特征文本，对该特征文本进行文本分类处理，将该特征文本的类别确定为所述网页的类别。与现有技术相比，本发明技术方案省却了从网页内容中提取正文的步骤，简化了分类处理的过程，并且由于网页对应的锚文本通常反映了网页内容的中心思想，因此利用网页对应的锚文本中包含的分类关键词确定出的特征文本能够更加贴切的反映该网页的内容，从而大大提高了分类的准确率和召回率，同时减小了分类处理过程中的计算量。

附图说明

图1为本发明网页分类方法的流程图；

图2为本发明网页分类装置的结构框图。

具体实施方式

本发明技术方案的主要设计构思是针对现有技术中采用从网页正文中提取分类特征词的方式对网页进行分类时，分类的准确率较低且计算量较大的问题，而提出一种实现网页分类的技术方案，该方案通过从网页对应的锚文本中选取分类锚文本，从网页的全部内容中查找包含至少一个分类锚文本中的分类关键词的语句，将查找到的语句组合形成特征文本，对该特征文本进行文本分类处理，将该特征文本的类别确定为所述网页的类别。与现有技术相比，本发明技术方案省却了从网页内容中提取正文的步骤，简化了分类处理的过程，并且由于网页对应的锚文本通常反映了网页内容的中心思想，因此利用网页对应的锚文本中包含的分类关键词确定出的特征文本能够更加贴切的反映该网页的内容，从而大大提高了分类的准确率和召回率，同时减小了分类处理过程中的计算量。

下面将结合各个附图对本发明技术方案的具体实施过程进行进一步详细的阐述。

请参阅图1，该图为本发明网页分类方法的流程图，其主要实现过程为：

步骤S10、判断待分类的网页是否存在对应的锚文本信息，若存在，执行步骤S11，否则，执行步骤S12。

搜索引擎在网页下载过程中下载网页爬虫的阶段是否记录了该网页的锚文本信息。

步骤S11、从该网页对应的锚文本中选取出现次数最多的锚文本做为该网页的分类锚文本，执行步骤S13。

步骤S12、提取该网页的标题字段，将其做为该网页的分类锚文本，执行步骤S13。

步骤S13、确定分类锚文本中包含的分类关键词；

本步骤中分类锚文本中包含的分类关键词的具体过程为：对分类锚文本进行分词处理，去掉其中的停用词，余下的词汇即为该分类锚文本的分类关键词。

步骤S14、从网页的全部内容中查找至少包含一个所述分类关键词的语句，将查找到的语句组合形成特征文本。

步骤S15、对所述特征文本进行文本分类处理，将该特征文本的类别确定为所述网页的类别。

本步骤中，对特征文本进行文本分类处理的具体过程为：

1)对特征文本进行分词处理，去掉其中的停用词，根据预先构建的特征词表从余下的词汇中提取特征词汇；

所述特征词表通过tf-idf方法在训练阶段构建。

2)查询训练阶段得到的各个类别的先验概率，以及查询训练阶段得到的各特征词汇在不同类别的文本中的权值；

其中，

P(C_j)为类别C_j的先验概率，

P(v_i|C_j)为特征词汇i在类别C_j中的权值；

3)按照预先设定的分类算法，根据各类别文本的先验概率及特征词汇在各类别文本中的权值确定出所述特征文本的类别。

分类算法有很多种，如贝叶斯分类器，SVM(支持向量机分类器)等，下面以贝叶斯分类器为例，对分类的具体过程进行说明：

按照贝叶斯分类公式

P (C_{j} | V) \infty P (C_{j}) Π_{i = 1}^{n} P (v_{i} | C_{j})

分别计算特征文本属于各个类别的概率，贝叶斯分类公式中P(C_j|V)为文本V属于类别C_j的概率，P(C_j)为类别C_j的先验概率，P(v_i|C_j)为特征词汇i在类别C_j中的权值，P(C_j|V)最大值对应的类别即为特征文本的归属类别。

相应于本发明上述网页分类方法，本发明进而提出了一种网页分类装置，请参阅图2，该图为本发明网页分类装置的结构框图，其主要包括分类锚文本选取模块20、分类关键词确定模块30、查找模块40和特征文本分类模块50，其中各个模块的主要作用如下：

分类锚文本选取模块20，用于从网页对应的锚文本中选取分类锚文本，通常从该网页对应的锚文本中选取出现次数最多的锚文本做为该网页的分类锚文本。

分类关键词确定模块30，用于确定分类锚文本中包含的分类关键词，其具体实现过程为：对分类锚文本进行分词处理，去掉其中的停用词，余下的词汇即为该分类锚文本的分类关键词。

查找模块40，用于从网页的全部内容中查找包含至少一个所述分类关键词的语句，将查找到的语句组合形成特征文本。

特征文本分类模块50，用于对所述特征文件进行分类处理，该特征文本的类别即为所述网页的类别，其中对特征文本进行文本分类处理的具体过程为：首先对特征文本进行分词处理，去掉其中的停用词，按照预先构建的特征词表从余下的词中提取特征词汇，然后按照预先设定的分类算法，根据各类别文本的先验概率及特征词汇在各类别文本中的权值确定出所述特征文本的类别。

较佳的，所述网页分类装置进一步包括判断模块60和标题字段提取模块70，其中，

判断模块60，用于判断网页下载过程中下载网页爬虫的阶段是否记录了所述网页的锚文本信息，若是，触发分类锚文本选取模块20从网页对应的锚文本中选取分类锚文本，否则，触发标题字段提取模块70提取网页的标题字段；

标题字段提取模块70，用于提取网页的标题字段，将其做为该网页的分类锚文本发送给分类关键词确定模块30。

有关本发明装置中的其他相关技术实现细节请参照本发明上述方法原理中的相应技术实现细节描述，这里不再给以过多赘述。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1、一种网页分类方法，其特征在于，包括步骤：

2、如权利要求1所述的方法，其特征在于，若下载网页爬虫阶段记录了所述网页的锚文本信息，则选取其中出现次数最多的锚文本做为该网页的分类锚文本。

3、如权利要求1所述的方法，其特征在于，所述确定分类锚文本中包含的分类关键词的过程为：

4、如权利要求1所述的方法，其特征在于，对特征文本进行文本分类处理的过程为：

5、一种网页分类装置，其特征在于，包括：