CN103218420A

CN103218420A - 一种网页标题提取方法及装置

Info

Publication number: CN103218420A
Application number: CN2013101108540A
Authority: CN
Inventors: 刘桂林; 王呈祥; 李勋; 李振钊; 赵威; 刘秀磊
Original assignee: BEIJING PYC SOFTWARE Co Ltd
Current assignee: Beijing Chuangshitaike Technology Co ltd
Priority date: 2013-04-01
Filing date: 2013-04-01
Publication date: 2013-07-24
Anticipated expiration: 2033-04-01
Also published as: CN103218420B

Abstract

本发明公开了一种网页标题提取方法及装置。该方法包括：构造训练集，将训练集中的每个网页解析为文本块及其属性值的序列，标注这些文本块的类别，将属性值序列和对应的类别处理成分类器能够识别的第一属性向量；利用训练集训练分类器；将需要处理的网页解析为多个文本块及其属性值的序列，将这些属性值的序列处理成分类器能够识别的第二属性向量；利用分类器根据训练结果将所述第二属性向量分类，鉴别出该第二属性向量是否为标题类别，得到类别为标题的文本块及其属性值序列的集合。本发明能够从没有“title”标签或者该标签内为空或难以总结普适性规则的网页集合提取标题，并且准确性高、扩展性好。

Description

一种网页标题提取方法及装置

技术领域

本发明涉及一种网页信息提取技术，具体地说，是一种网页标题提取方法及装置。

背景技术

网页标题是对一个网页内容的高度概括，如同一篇文章的标题之于文章。对于网页的浏览者来说，网页标题的内容很大度上决定了浏览者是否会浏览一个网页。所以目前的主流搜索引擎如百度和谷歌的算法中网页的标题都有着最高的页面级权重，因此提取网页的标题是十分必要的。

目前来说，对于网页的标题的提取方法有以下几类：1.使用网页的解析技术，提取特定标签里面的内容。例如，HTML有一个名为“title”的标签，该标签的作用就在于指明一个网页的标题。然而，使用此方法获取标题有很明显的缺陷，如果网页的编写者并没有将正确标题写入该域，或者甚至没有“title”这个标签，那么用这种方法是提取不到正确标题的。实际上，出于各种原因，许多网页的编写者并没有按照规范的格式编写网页，导致大量的网页都不能用这种方法提取到正确的标题。2.根据规则的方法提取标题。由于某些系统或子系统的网页排版及格式通常是一定的。例如，对于某个系统的新闻版面，我们曾得到这样的规则，标题的后面紧跟的是这样的文字“发布日期[xxxx-xx-xx]”(每个x是0-9的数字)，于是，我们就能用这样的规则把这个新闻版面的部分网页标题抽取出来。然而，这个方法的缺陷也很明显，即扩展性太差，准确率不高。扩展性差是因为对于新的格式的网页，这个方法不能有效工作；准确率不高是因为这一规则是根据这些网页总结出来的，它可能适用于该系统或子系统大部分的网页，而准确率取决于该规则适用网页所占总网页的比率。

发明内容

本发明要解决的技术问题是提供一种扩展性好、准确率高的网页标题提取方法及装置。

为了解决上述技术问题，本发明提供了一种网页标题提取方法，包括：

构造训练集，将训练集中的每个网页解析为文本块及其属性值的序列，标注这些文本块的类别，将属性值序列和对应的类别处理成分类器能够识别的第一属性向量；

利用训练集训练分类器；

将需要处理的网页解析为多个文本块及属性值的序列，将这些属性值的序列处理成分类器能够识别的第二属性向量；

利用分类器根据训练结果将所述第二属性向量分类，鉴别出该第二属性向量是否为标题类别，得到类别为标题的文本块及其属性值序列的集合。

进一步地，所述利用分类器根据训练结果将所述第二属性向量分类时，采用K近邻分类法、决策树分类法、贝叶斯分类法或支持向量机分类法分类。

进一步地，按照属性向量的种类选择正确率最高的分类器进行分类，具体方法为：

根据定义的属性值序列构造属性树，使每种属性值序列对应于一个叶子节点；

对训练集预测，获得各分类器在各种属性值的正确率，记录在属性树上；

对需要预测的属性值序列在属性树上查找预测准确率最高的分类器，用该分类器对其分类。

进一步地，根据定义的属性值序列构造属性树时，如果某个属性值不是离散的而是连续的，对该属性值进行离散化处理。

进一步地，对所述类别为标题的文本块及其属性值序列的集合中的文本块或属性值序列进行二次鉴别，得出最终的网页标题。

本发明还提供了一种网页标题提取装置，包括：

网页解析模块，用于将用作训练集的网页解析为文本块及其属性值的序列，还用于将待分析处理的网页解析为多个文本块及属性值的序列，并将这些属性值的序列处理成分类器能够识别的第二属性向量；

训练集构造模块，用于标注从作为训练集的网页解析得到的文本块的类别，将属性值序列和对应的类别处理成分类器能够识别的第一属性向量；

分类器构造模块，用于利用所述训练集训练分类器；

分类器，用于根据训练结果将所述第二属性向量分类，鉴别出该第二属性向量是否为标题类别，得到类别为标题的文本块及其属性值序列的集合。(还需要二次鉴别才能将集合中某个序列对应的文本作为标题)

进一步地，所述分类器根据训练结果将所述第二属性向量分类时，采用K近邻分类法、决策树分类法、贝叶斯分类法或支持向量机分类法分类。

进一步地，所述分类器按照属性向量的种类选择正确率最高的分类器进行分类，具体方法为：

进一步地，还包括二次鉴别模块，用于对所述类别为标题的文本块及其属性值序列的集合中的文本块或属性值序列进行二次鉴别，得出最终的网页标题。

本发明能够从没有“title”标签或者该标签内为空的网页提取标题，能够从难以总结普适性规则的网页集合提取标题，并且使用多分类器组合分类的方法提高了分类的准确性，从而提高了标题抽取的准确率，且扩展性好。

附图说明

图1是本发明的网页标题提取方法一实施例的流程图。

图2是本发明的网页标题提取装置一实施例的原理框图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好的理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

如图１所示，本发明的网页标题提取方法，包括以下步骤：

1）制作训练集，将训练集中的每个网页解析为文本块及其属性值的序列，标注这些文本块的类别，将属性值序列和对应的类别处理成分类器能够识别的第一属性向量；2）利用训练集训练分类器；3）将需要处理的网页解析为多个文本块及其属性值的序列，将这些属性值的序列处理成分类器能够识别的第二属性向量；4）利用分类器根据训练结果将所述第二属性向量分类，鉴别出该第二属性向量是否为标题类别，得到类别为标题的文本块及其属性值序列的集合。

分类器是分类方法的实现，即机器学习的程序，分类器的设计目标是通过学习后可以自动将数据分到已知类别。本发明中，学习数据的来源是训练集，需要分类的数据是从需要抽取标题的网页解析处理后得到的多个属性向量。为提高分类的准确性，可以对多种分类方法进行组合使用。分类方法包括K近邻分类法、决策树分类法、贝叶斯分类法或支持向量机分类法等。

K近邻法假设给定一个训练实例的类别，通过多数表决等方式进行预测。例如：定义属性向量含义为<字体大小，字体颜色，是否加粗，是否被H1标签包含>，类别为“标题类”和“非标题类”，在训练集中属性向量值为<12px,黑色，加粗，被H1标签包含>实例类别为“标题类”的比率大于50%，那么在使用分类器分类的时候，遇到相同值的属性向量时预测结果就是“标题类”。

决策树分类法是将模型设计成树形结构，有决策树分类时，从根节点开始，对实例的某一属性进行测试，根据测试结果将实例分配到其子节点，直至到达叶节点，最后将实例分到叶节点的类别中。

朴素贝叶斯法是基于属性条件独立假设的分类方法，对于给定的训练数据集，首先基于属性条件独立假设学习输入/输出的联合概率分布，然后基于此模型，对给定的输入x，利用贝叶斯定理求出后验概率最大的输出y。

支持向量机是一种二类分类模型，其基本模型是定义在属性空间上的间隔最大的线性分类器，支持向量机的学习策略是间隔最大化。

在分类器进行分类时，按照属性向量的种类选择正确率最高的分类器进行分类，具体方法为：

根据定义的属性值序列构造属性树，使每种属性值序列对应于一个叶子节点；如果某个属性值不是离散的而是连续的，对该属性值进行离散化处理；

最后，还可以对所述类别为标题的文本块及其属性值序列的集合中的文本或属性值序列进行二次鉴别，得出最终的网页标题。二次鉴别用来对初次鉴别模块的输出的属性值向量集合使用特定参数（如使用文本在所有文本中的排行、文本和锚文本的相似度等）进行再次鉴别，找出最可能的标题，以进一步提高提取网页标题的准确度。

如图2所示，本发明的网页标题提取装置一实施例包括：

网页解析模块，用于将用作训练集的网页解析为文本块及其属性值的序列，还用于将待分析处理的网页解析为多个文本块及其属性值的序列，并将这些属性值的序列处理成分类器能够识别的第二属性向量；训练集构造模块，用于标注从作为训练集的网页解析得到的文本块的类别，将属性值序列和对应的类别处理成分类器能够识别的第一属性向量；分类器构造模块，用于利用所述训练集训练分类器；分类器，用于根据训练结果将所述第二属性向量分类，鉴别出该第二属性向量是否为标题类别，得到类别为标题的文本及其属性值序列的集合；二次鉴别模块，用于对所述类别为标题的文本块及其属性值序列的集合中的文本块及其属性值序列使用进行二次鉴别，得出最终的网页标题。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种网页标题提取方法，其特征在于，包括：

利用训练集训练分类器；

将需要处理的网页解析为多个文本块及其属性值的序列，将这些属性值的序列处理成分类器能够识别的第二属性向量；

2.根据权利要求1所述的网页标题提取方法，其特征在于，所述利用分类器根据训练结果将所述第二属性向量分类时，采用K近邻分类法、决策树分类法、贝叶斯分类法或支持向量机分类法分类。

3.根据权利要求2所述的网页标题提取方法，其特征在于，按照属性向量的种类选择正确率最高的分类器进行分类，具体方法为：

4.根据权利要求3所述的网页标题提取方法，其特征在于，根据定义的属性值序列构造属性树时，如果某个属性值不是离散的而是连续的，对该属性值进行离散化处理。

5.根据权利要求1所述的网页标题提取方法，其特征在于，对所述类别为标题的文本块及其属性值序列的集合中的文本块或属性值序列进行二次鉴别，得出最终的网页标题。

6.一种网页标题提取装置，其特征在于，包括：

网页解析模块，用于将用作训练集的网页解析为文本块及其属性值的序列，还用于将待分析处理的网页解析为多个文本块及其属性值的序列，并将这些属性值的序列处理成分类器能够识别的第二属性向量；

分类器构造模块，用于利用所述训练集训练分类器；

分类器，用于根据训练结果将所述第二属性向量分类，鉴别出该第二属性向量是否为标题类别，得到类别为标题的文本块及其属性值序列的集合。

7.根据权利要求6所述的网页标题提取装置，其特征在于，所述分类器根据训练结果将所述第二属性向量分类时，采用K近邻分类法、决策树分类法、贝叶斯分类法或支持向量机分类法分类。

8.根据权利要求7所述的网页标题提取装置，其特征在于，所述分类器按照属性向量的种类选择正确率最高的分类器进行分类，具体方法为：

9.根据权利要求8所述的网页标题提取装置，其特征在于，根据定义的属性值序列构造属性树时，如果某个属性值不是离散的而是连续的，对该属性值进行离散化处理。

10.根据权利要求6所述的网页标题提取装置，其特征在于，还包括二次鉴别模块，用于对所述类别为标题的文本块及其属性值序列的集合中的文本块或属性值序列进行二次鉴别，得出最终的网页标题。