CN103218420A - 一种网页标题提取方法及装置 - Google Patents

一种网页标题提取方法及装置 Download PDF

Info

Publication number
CN103218420A
CN103218420A CN2013101108540A CN201310110854A CN103218420A CN 103218420 A CN103218420 A CN 103218420A CN 2013101108540 A CN2013101108540 A CN 2013101108540A CN 201310110854 A CN201310110854 A CN 201310110854A CN 103218420 A CN103218420 A CN 103218420A
Authority
CN
China
Prior art keywords
property value
classification
sorter
attribute
title
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013101108540A
Other languages
English (en)
Other versions
CN103218420B (zh
Inventor
刘桂林
王呈祥
李勋
李振钊
赵威
刘秀磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Genesis Technology Co., Ltd.
Original Assignee
BEIJING PYC SOFTWARE Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING PYC SOFTWARE Co Ltd filed Critical BEIJING PYC SOFTWARE Co Ltd
Priority to CN201310110854.0A priority Critical patent/CN103218420B/zh
Publication of CN103218420A publication Critical patent/CN103218420A/zh
Application granted granted Critical
Publication of CN103218420B publication Critical patent/CN103218420B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网页标题提取方法及装置。该方法包括:构造训练集,将训练集中的每个网页解析为文本块及其属性值的序列,标注这些文本块的类别,将属性值序列和对应的类别处理成分类器能够识别的第一属性向量;利用训练集训练分类器;将需要处理的网页解析为多个文本块及其属性值的序列,将这些属性值的序列处理成分类器能够识别的第二属性向量;利用分类器根据训练结果将所述第二属性向量分类,鉴别出该第二属性向量是否为标题类别,得到类别为标题的文本块及其属性值序列的集合。本发明能够从没有“title”标签或者该标签内为空或难以总结普适性规则的网页集合提取标题,并且准确性高、扩展性好。

Description

一种网页标题提取方法及装置
技术领域
本发明涉及一种网页信息提取技术,具体地说,是一种网页标题提取方法及装置。
背景技术
网页标题是对一个网页内容的高度概括,如同一篇文章的标题之于文章。对于网页的浏览者来说,网页标题的内容很大度上决定了浏览者是否会浏览一个网页。所以目前的主流搜索引擎如百度和谷歌的算法中网页的标题都有着最高的页面级权重,因此提取网页的标题是十分必要的。
目前来说,对于网页的标题的提取方法有以下几类:1.使用网页的解析技术,提取特定标签里面的内容。例如,HTML有一个名为“title”的标签,该标签的作用就在于指明一个网页的标题。然而,使用此方法获取标题有很明显的缺陷,如果网页的编写者并没有将正确标题写入该域,或者甚至没有“title”这个标签,那么用这种方法是提取不到正确标题的。实际上,出于各种原因,许多网页的编写者并没有按照规范的格式编写网页,导致大量的网页都不能用这种方法提取到正确的标题。2.根据规则的方法提取标题。由于某些系统或子系统的网页排版及格式通常是一定的。例如,对于某个系统的新闻版面, 我们曾得到这样的规则,标题的后面紧跟的是这样的文字“发布日期[xxxx-xx-xx]”(每个x是0-9的数字),于是,我们就能用这样的规则把这个新闻版面的部分网页标题抽取出来。然而,这个方法的缺陷也很明显,即扩展性太差,准确率不高。扩展性差是因为对于新的格式的网页,这个方法不能有效工作;准确率不高是因为这一规则是根据这些网页总结出来的,它可能适用于该系统或子系统大部分的网页,而准确率取决于该规则适用网页所占总网页的比率。
发明内容
本发明要解决的技术问题是提供一种扩展性好、准确率高的网页标题提取方法及装置。
为了解决上述技术问题,本发明提供了一种网页标题提取方法,包括:
构造训练集,将训练集中的每个网页解析为文本块及其属性值的序列,标注这些文本块的类别,将属性值序列和对应的类别处理成分类器能够识别的第一属性向量;
利用训练集训练分类器;
将需要处理的网页解析为多个文本块及属性值的序列,将这些属性值的序列处理成分类器能够识别的第二属性向量;
利用分类器根据训练结果将所述第二属性向量分类,鉴别出该第二属性向量是否为标题类别,得到类别为标题的文本块及其属性值序列的集合。
进一步地,所述利用分类器根据训练结果将所述第二属性向量分类时,采用K近邻分类法、决策树分类法、贝叶斯分类法或支持向量机分类法分类。
进一步地,按照属性向量的种类选择正确率最高的分类器进行分类,具体方法为:
根据定义的属性值序列构造属性树,使每种属性值序列对应于一个叶子节点;
对训练集预测,获得各分类器在各种属性值的正确率,记录在属性树上;
对需要预测的属性值序列在属性树上查找预测准确率最高的分类器,用该分类器对其分类。
进一步地,根据定义的属性值序列构造属性树时,如果某个属性值不是离散的而是连续的,对该属性值进行离散化处理。
进一步地,对所述类别为标题的文本块及其属性值序列的集合中的文本块或属性值序列进行二次鉴别,得出最终的网页标题。
本发明还提供了一种网页标题提取装置,包括:
网页解析模块,用于将用作训练集的网页解析为文本块及其属性值的序列,还用于将待分析处理的网页解析为多个文本块及属性值的序列,并将这些属性值的序列处理成分类器能够识别的第二属性向量;
训练集构造模块,用于标注从作为训练集的网页解析得到的文本块的类别,将属性值序列和对应的类别处理成分类器能够识别的第一属性向量;
分类器构造模块,用于利用所述训练集训练分类器;
分类器,用于根据训练结果将所述第二属性向量分类,鉴别出该第二属性向量是否为标题类别,得到类别为标题的文本块及其属性值序列的集合。(还需要二次鉴别才能将集合中某个序列对应的文本作为标题)
进一步地,所述分类器根据训练结果将所述第二属性向量分类时,采用K近邻分类法、决策树分类法、贝叶斯分类法或支持向量机分类法分类。
进一步地,所述分类器按照属性向量的种类选择正确率最高的分类器进行分类,具体方法为:
根据定义的属性值序列构造属性树,使每种属性值序列对应于一个叶子节点;
对训练集预测,获得各分类器在各种属性值的正确率,记录在属性树上;
对需要预测的属性值序列在属性树上查找预测准确率最高的分类器,用该分类器对其分类。
进一步地,根据定义的属性值序列构造属性树时,如果某个属性值不是离散的而是连续的,对该属性值进行离散化处理。
进一步地,还包括二次鉴别模块,用于对所述类别为标题的文本块及其属性值序列的集合中的文本块或属性值序列进行二次鉴别,得出最终的网页标题。
本发明能够从没有“title”标签或者该标签内为空的网页提取标题,能够从难以总结普适性规则的网页集合提取标题,并且使用多分类器组合分类的方法提高了分类的准确性,从而提高了标题抽取的准确率,且扩展性好。
附图说明
图1是本发明的网页标题提取方法一实施例的流程图。
图2是本发明的网页标题提取装置一实施例的原理框图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好的理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
如图1所示,本发明的网页标题提取方法,包括以下步骤:
1)制作训练集,将训练集中的每个网页解析为文本块及其属性值的序列,标注这些文本块的类别,将属性值序列和对应的类别处理成分类器能够识别的第一属性向量;2)利用训练集训练分类器;3)将需要处理的网页解析为多个文本块及其属性值的序列,将这些属性值的序列处理成分类器能够识别的第二属性向量;4)利用分类器根据训练结果将所述第二属性向量分类,鉴别出该第二属性向量是否为标题类别,得到类别为标题的文本块及其属性值序列的集合。
分类器是分类方法的实现,即机器学习的程序,分类器的设计目标是通过学习后可以自动将数据分到已知类别。本发明中,学习数据的来源是训练集,需要分类的数据是从需要抽取标题的网页解析处理后得到的多个属性向量。为提高分类的准确性,可以对多种分类方法进行组合使用。分类方法包括K近邻分类法、决策树分类法、贝叶斯分类法或支持向量机分类法等。
K近邻法假设给定一个训练实例的类别,通过多数表决等方式进行预测。例如:定义属性向量含义为<字体大小,字体颜色,是否加粗,是否被H1标签包含>,类别为“标题类”和“非标题类”,在训练集中属性向量值为<12px,黑色,加粗,被H1标签包含>实例类别为“标题类”的比率大于50%,那么在使用分类器分类的时候,遇到相同值的属性向量时预测结果就是“标题类”。
决策树分类法是将模型设计成树形结构,有决策树分类时,从根节点开始,对实例的某一属性进行测试,根据测试结果将实例分配到其子节点,直至到达叶节点,最后将实例分到叶节点的类别中。
朴素贝叶斯法是基于属性条件独立假设的分类方法,对于给定的训练数据集,首先基于属性条件独立假设学习输入/输出的联合概率分布,然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。
支持向量机是一种二类分类模型,其基本模型是定义在属性空间上的间隔最大的线性分类器,支持向量机的学习策略是间隔最大化。
在分类器进行分类时,按照属性向量的种类选择正确率最高的分类器进行分类,具体方法为:
根据定义的属性值序列构造属性树,使每种属性值序列对应于一个叶子节点;如果某个属性值不是离散的而是连续的,对该属性值进行离散化处理;
对训练集预测,获得各分类器在各种属性值的正确率,记录在属性树上;
对需要预测的属性值序列在属性树上查找预测准确率最高的分类器,用该分类器对其分类。
最后,还可以对所述类别为标题的文本块及其属性值序列的集合中的文本或属性值序列进行二次鉴别,得出最终的网页标题。二次鉴别用来对初次鉴别模块的输出的属性值向量集合使用特定参数(如使用文本在所有文本中的排行、文本和锚文本的相似度等)进行再次鉴别,找出最可能的标题,以进一步提高提取网页标题的准确度。
如图2所示,本发明的网页标题提取装置一实施例包括:
网页解析模块,用于将用作训练集的网页解析为文本块及其属性值的序列,还用于将待分析处理的网页解析为多个文本块及其属性值的序列,并将这些属性值的序列处理成分类器能够识别的第二属性向量;训练集构造模块,用于标注从作为训练集的网页解析得到的文本块的类别,将属性值序列和对应的类别处理成分类器能够识别的第一属性向量;分类器构造模块,用于利用所述训练集训练分类器;分类器,用于根据训练结果将所述第二属性向量分类,鉴别出该第二属性向量是否为标题类别,得到类别为标题的文本及其属性值序列的集合;二次鉴别模块,用于对所述类别为标题的文本块及其属性值序列的集合中的文本块及其属性值序列使用进行二次鉴别,得出最终的网页标题。
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims (10)

1.一种网页标题提取方法,其特征在于,包括:
构造训练集,将训练集中的每个网页解析为文本块及其属性值的序列,标注这些文本块的类别,将属性值序列和对应的类别处理成分类器能够识别的第一属性向量;
利用训练集训练分类器;
将需要处理的网页解析为多个文本块及其属性值的序列,将这些属性值的序列处理成分类器能够识别的第二属性向量;
利用分类器根据训练结果将所述第二属性向量分类,鉴别出该第二属性向量是否为标题类别,得到类别为标题的文本块及其属性值序列的集合。
2.根据权利要求1所述的网页标题提取方法,其特征在于,所述利用分类器根据训练结果将所述第二属性向量分类时,采用K近邻分类法、决策树分类法、贝叶斯分类法或支持向量机分类法分类。
3.根据权利要求2所述的网页标题提取方法,其特征在于,按照属性向量的种类选择正确率最高的分类器进行分类,具体方法为:
根据定义的属性值序列构造属性树,使每种属性值序列对应于一个叶子节点;
对训练集预测,获得各分类器在各种属性值的正确率,记录在属性树上;
对需要预测的属性值序列在属性树上查找预测准确率最高的分类器,用该分类器对其分类。
4.根据权利要求3所述的网页标题提取方法,其特征在于,根据定义的属性值序列构造属性树时,如果某个属性值不是离散的而是连续的,对该属性值进行离散化处理。
5.根据权利要求1所述的网页标题提取方法,其特征在于,对所述类别为标题的文本块及其属性值序列的集合中的文本块或属性值序列进行二次鉴别,得出最终的网页标题。
6.一种网页标题提取装置,其特征在于,包括:
网页解析模块,用于将用作训练集的网页解析为文本块及其属性值的序列,还用于将待分析处理的网页解析为多个文本块及其属性值的序列,并将这些属性值的序列处理成分类器能够识别的第二属性向量;
训练集构造模块,用于标注从作为训练集的网页解析得到的文本块的类别,将属性值序列和对应的类别处理成分类器能够识别的第一属性向量;
分类器构造模块,用于利用所述训练集训练分类器;
分类器,用于根据训练结果将所述第二属性向量分类,鉴别出该第二属性向量是否为标题类别,得到类别为标题的文本块及其属性值序列的集合。
7.根据权利要求6所述的网页标题提取装置,其特征在于,所述分类器根据训练结果将所述第二属性向量分类时,采用K近邻分类法、决策树分类法、贝叶斯分类法或支持向量机分类法分类。
8.根据权利要求7所述的网页标题提取装置,其特征在于,所述分类器按照属性向量的种类选择正确率最高的分类器进行分类,具体方法为:
根据定义的属性值序列构造属性树,使每种属性值序列对应于一个叶子节点;
对训练集预测,获得各分类器在各种属性值的正确率,记录在属性树上;
对需要预测的属性值序列在属性树上查找预测准确率最高的分类器,用该分类器对其分类。
9.根据权利要求8所述的网页标题提取装置,其特征在于,根据定义的属性值序列构造属性树时,如果某个属性值不是离散的而是连续的,对该属性值进行离散化处理。
10.根据权利要求6所述的网页标题提取装置,其特征在于,还包括二次鉴别模块,用于对所述类别为标题的文本块及其属性值序列的集合中的文本块或属性值序列进行二次鉴别,得出最终的网页标题。
CN201310110854.0A 2013-04-01 2013-04-01 一种网页标题提取方法及装置 Active CN103218420B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310110854.0A CN103218420B (zh) 2013-04-01 2013-04-01 一种网页标题提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310110854.0A CN103218420B (zh) 2013-04-01 2013-04-01 一种网页标题提取方法及装置

Publications (2)

Publication Number Publication Date
CN103218420A true CN103218420A (zh) 2013-07-24
CN103218420B CN103218420B (zh) 2016-12-28

Family

ID=48816207

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310110854.0A Active CN103218420B (zh) 2013-04-01 2013-04-01 一种网页标题提取方法及装置

Country Status (1)

Country Link
CN (1) CN103218420B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104537028A (zh) * 2014-12-19 2015-04-22 百度在线网络技术(北京)有限公司 一种网页信息处理方法及装置
CN107506472A (zh) * 2017-09-05 2017-12-22 淮阴工学院 一种学生浏览网页分类方法
CN108509794A (zh) * 2018-03-09 2018-09-07 中山大学 一种基于分类学习算法的恶意网页防御检测方法
CN108829898A (zh) * 2018-06-29 2018-11-16 无码科技(杭州)有限公司 Html内容页发布时间提取方法和系统
CN110555198A (zh) * 2018-05-31 2019-12-10 北京百度网讯科技有限公司 用于生成文章的方法、装置、设备和计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079031A (zh) * 2006-06-15 2007-11-28 腾讯科技(深圳)有限公司 一种网页主题提取系统和方法
CN101226548A (zh) * 2008-01-11 2008-07-23 孟小峰 基于视觉的Web数据抽取系统和方法
US7451395B2 (en) * 2002-12-16 2008-11-11 Palo Alto Research Center Incorporated Systems and methods for interactive topic-based text summarization
CN102193944A (zh) * 2010-03-12 2011-09-21 三星电子(中国)研发中心 网页主题内容抽取方法
CN102768663A (zh) * 2011-05-05 2012-11-07 腾讯科技(深圳)有限公司 一种网页标题的提取方法、装置及信息处理系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7451395B2 (en) * 2002-12-16 2008-11-11 Palo Alto Research Center Incorporated Systems and methods for interactive topic-based text summarization
CN101079031A (zh) * 2006-06-15 2007-11-28 腾讯科技(深圳)有限公司 一种网页主题提取系统和方法
CN101226548A (zh) * 2008-01-11 2008-07-23 孟小峰 基于视觉的Web数据抽取系统和方法
CN102193944A (zh) * 2010-03-12 2011-09-21 三星电子(中国)研发中心 网页主题内容抽取方法
CN102768663A (zh) * 2011-05-05 2012-11-07 腾讯科技(深圳)有限公司 一种网页标题的提取方法、装置及信息处理系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴艳玲: "基于SVM的网页分类器的研究", 《中国优秀硕士论文全文数据库 信息科技辑》 *
季桂树等: "决策树分类算法研究综述", 《科技广场》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104537028A (zh) * 2014-12-19 2015-04-22 百度在线网络技术(北京)有限公司 一种网页信息处理方法及装置
CN104537028B (zh) * 2014-12-19 2018-06-08 百度在线网络技术(北京)有限公司 一种网页信息处理方法及装置
CN107506472A (zh) * 2017-09-05 2017-12-22 淮阴工学院 一种学生浏览网页分类方法
CN107506472B (zh) * 2017-09-05 2020-09-08 淮阴工学院 一种学生浏览网页分类方法
CN108509794A (zh) * 2018-03-09 2018-09-07 中山大学 一种基于分类学习算法的恶意网页防御检测方法
CN110555198A (zh) * 2018-05-31 2019-12-10 北京百度网讯科技有限公司 用于生成文章的方法、装置、设备和计算机可读存储介质
CN110555198B (zh) * 2018-05-31 2023-05-23 北京百度网讯科技有限公司 用于生成文章的方法、装置、设备和计算机可读存储介质
CN108829898A (zh) * 2018-06-29 2018-11-16 无码科技(杭州)有限公司 Html内容页发布时间提取方法和系统
CN108829898B (zh) * 2018-06-29 2020-11-20 无码科技(杭州)有限公司 Html内容页发布时间提取方法和系统

Also Published As

Publication number Publication date
CN103218420B (zh) 2016-12-28

Similar Documents

Publication Publication Date Title
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
CN105868184B (zh) 一种基于循环神经网络的中文人名识别方法
CN107392143B (zh) 一种基于svm文本分类的简历精确解析方法
CN106201465B (zh) 面向开源社区的软件项目个性化推荐方法
US7937338B2 (en) System and method for identifying document structure and associated metainformation
CN107992633A (zh) 基于关键词特征的电子文档自动分类方法及系统
US8788503B1 (en) Content identification
CN104881458B (zh) 一种网页主题的标注方法和装置
CN113033198B (zh) 相似文本推送方法、装置、电子设备及计算机存储介质
CN107577702B (zh) 一种社交媒体中交通信息的辨别方法
CN103218420A (zh) 一种网页标题提取方法及装置
CN103309862A (zh) 一种网页类型识别方法和系统
CN101114281A (zh) 开放式文档同构引擎系统
Klampfl et al. An unsupervised machine learning approach to body text and table of contents extraction from digital scientific articles
CN106339459B (zh) 基于关键词匹配进行中文网页预分类的方法
CN106874397B (zh) 一种面向物联网设备的自动语义标注方法
CN110427488A (zh) 文档的处理方法及装置
CN109710725A (zh) 一种基于文本分类的中文表格列标签恢复方法和系统
CN103778206A (zh) 一种网络服务资源的提供方法
KR20190113680A (ko) 웹 페이지의 테스트 케이스 생성 방법 및 장치
CN104462229A (zh) 一种事件分类方法及装置
CN110110087A (zh) 一种基于二分类器的用于法律文本分类的特征工程方法
CN107357895A (zh) 一种基于词袋模型的文本表示的处理方法
CN109472020B (zh) 一种特征对齐中文分词方法
Mandal et al. Automated detection and segmentation of table of contents page from document images

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: BEIJING CHUANGSHI TAIKE TECHNOLOGY CO., LTD.

Free format text: FORMER OWNER: BEIJING PENGYUCHENG SOFTWARE TECHNOLOGY CO., LTD.

Effective date: 20150113

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150113

Address after: 100088 Beijing City, Haidian District Zhichun Road Jinqiu International Building No. 6 A block 1602

Applicant after: Beijing Genesis Technology Co., Ltd.

Address before: 100088 Beijing City, Haidian District Zhichun Road Jinqiu International Building No. 6 A block 1602

Applicant before: Beijing PYC Software Co., Ltd.

CB02 Change of applicant information

Address after: 100088 Beijing City, Haidian District Zhichun Road No. 6 (Jinqiu International Building) A District 1309, 1310, 1601.

Applicant after: Beijing Transtec Technology Co., Ltd.

Address before: 100088 Beijing City, Haidian District Zhichun Road Jinqiu International Building No. 6 A block 1602

Applicant before: Beijing Genesis Technology Co., Ltd.

COR Change of bibliographic data
C14 Grant of patent or utility model
GR01 Patent grant