CN107463634A - 网页正文抽取方法及装置 - Google Patents

网页正文抽取方法及装置 Download PDF

Info

Publication number
CN107463634A
CN107463634A CN201710581171.1A CN201710581171A CN107463634A CN 107463634 A CN107463634 A CN 107463634A CN 201710581171 A CN201710581171 A CN 201710581171A CN 107463634 A CN107463634 A CN 107463634A
Authority
CN
China
Prior art keywords
text
node
web page
webpage
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710581171.1A
Other languages
English (en)
Inventor
晋彤
李永康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Special Road Mdt Infotech Ltd
Original Assignee
Guangzhou Special Road Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Special Road Mdt Infotech Ltd filed Critical Guangzhou Special Road Mdt Infotech Ltd
Priority to CN201710581171.1A priority Critical patent/CN107463634A/zh
Publication of CN107463634A publication Critical patent/CN107463634A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Abstract

本发明公开了一种网页正文抽取方法,通过下载网页页面,根据所述网页页面获取网页源代码,然后根据所述网页源代码创建DOM树,基于所述DOM树和所述网页页面的页面样式生成视觉树,再基于所述视觉树定位分支结点,采用优选策略在已定位的分支节点中选取正文结点,将已选取的正文结点进行去杂质处理,从而生成所述网页页面的正文,能有效避免现有抽取技术中人工编写和模板的弊端,能有效提取网页内容,兼容性高,杂质去除完整。

Description

网页正文抽取方法及装置
技术领域
本发明涉及计算机领域,尤其涉及一种网页正文抽取方法及装置。
背景技术
在新闻(或者资讯)搜索领域,新闻正文抽取是项必不可少的环节,其正文抽取的质量高低决定了新闻搜索的质量和用户体验。目前新闻正文抽取方法格式各样,主要有基于模板(或包装器)方式抽取。基于模板方式抽取:首先定义模板,然后编写程序解析执行模板得到数据。根据模板生成方式,又可分为:人工模板抽取和自动模板抽取。人工模板抽取。针对抽取的目标站点,人工手工编写模板,模板可以是正则匹配方式,也可以是简单的字符串匹配首位匹配方式。自动模板抽取利用机器学习算法,从目标网站先获取一部分网页数据进行学习训练,获取模板,然后程序利用模板抽取数据。人工编写模板方式的缺点是需要耗费巨大人力资源来撰写模板,并且随着目标网站的变化,维护模板的成本也非常大。无论是人工还是自动产生模板,其假设是网站的数据是通过模板产生,一些大型的网站基本问题不大,也就是不同的入口可能模板不同,但对众多的中小网站而言,其模板化不是很好,利用模板抽取只能抽取大部分的信息,有较多的机会包含垃圾信息。
发明内容
本发明实施例的目的是提供一种网页正文抽取方法及装置,能有效避免现有抽取技术中人工编写和模板的弊端,能有效提取网页内容,兼容性高,杂质去除完整。
为实现上述目的,本发明实施例提供了一种网页正文抽取方法,包括步骤:
下载网页页面,根据所述网页页面获取网页源代码,;
根据所述网页源代码创建DOM树,基于所述DOM树和所述网页页面的页面样式生成视觉树;
基于所述视觉树定位分支结点,采用优选策略在已定位的分支节点中选取正文结点;
将已选取的正文结点进行去杂质处理,从而生成所述网页页面的正文。
与现有技术相比,本发明公开的网页正文抽取方法通过下载网页页面,根据所述网页页面获取网页源代码,然后根据所述网页源代码创建DOM树,基于所述DOM树和所述网页页面的页面样式生成视觉树,再基于所述视觉树定位分支结点,采用优选策略在已定位的分支节点中选取正文结点,将已选取的正文结点进行去杂质处理,从而生成所述网页页面的正文,能有效避免现有抽取技术中人工编写和模板的弊端,能有效提取网页内容,兼容性高,杂质去除完整。
作为上述方案的改进,还包括步骤:
将所述网页页面的正文进行重排段落。
作为上述方案的改进,所述去杂质处理具体为:
去除包括广告、版权信息、分类导航栏的杂质。
作为上述方案的改进,基于所述视觉树定位分支结点具体为:
通过视觉渲染引擎对所述视觉树进行渲染后定位分支结点。
作为上述方案的改进,采用优选策略在已定位的分支节点中选取正文结点具体为:
采用优选策略定位出标题节点;
基于所述标题节点自动抽取结构化信息;其中,所述结构化信息包括时间、作者和来源。
本发明实施例还提供了一种网页正文抽取装置,包括:
网页源代码获取模块,用于下载网页页面,根据所述网页页面获取网页源代码;
视觉树生成模块,用于根据所述网页源代码创建DOM树,基于所述DOM树和所述网页页面的页面样式生成视觉树;
正文结点获取模块,用于基于所述视觉树定位分支结点,采用优选策略在已定位的分支节点中选取正文结点;
正文获取模块,用于将已选取的正文结点进行去杂质处理,从而获得所述网页页面的正文。
与现有技术相比,本发明公开的网页正文抽取装置通过下载网页页面,根据所述网页页面获取网页源代码,然后根据所述网页源代码创建DOM树,基于所述DOM树和所述网页页面的页面样式生成视觉树,再基于所述视觉树定位分支结点,采用优选策略在已定位的分支节点中选取正文结点,将已选取的正文结点进行去杂质处理,从而生成所述网页页面的正文,能有效避免现有抽取技术中人工编写和模板的弊端,能有效提取网页内容,兼容性高,杂质去除完整。
作为上述方案的改进,还包括:
段落重排模块,用于将所述网页页面的正文进行重排段落。
作为上述方案的改进,所述正文获取模块具体用于去除包括广告、版权信息、分类导航栏的杂质。
作为上述方案的改进,所述正文结点获取模块通过视觉渲染引擎对所述视觉树进行渲染后定位分支结点。
作为上述方案的改进,所述正文结点获取模块具体用于采用优选策略定位出标题节点;基于所述标题节点自动抽取结构化信息;其中,所述结构化信息包括时间、作者和来源。
附图说明
图1是是本发明实施例1提供的一种网页正文抽取方法的流程示意图。
图2是是本发明实施例2提供的一种网页正文抽取方法的流程示意图。
图3是是本发明实施例3提供的一种网页正文抽取装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明实施例1提供的一种网页正文抽取方法的流程示意图,包括步骤:
S1、下载网页页面,根据所述网页页面获取网页源代码;
S2、根据所述网页源代码创建DOM树,基于所述DOM树和所述网页页面的页面样式生成视觉树;
S3、基于所述视觉树定位分支结点,采用优选策略在已定位的分支节点中选取正文结点;
优选地,基于所述视觉树定位分支结点具体为:通过视觉渲染引擎对所述视觉树进行渲染后定位分支结点。
S4、将已选取的正文结点进行去杂质处理,从而生成所述网页页面的正文。
其中,所述去杂质处理具体为:去除包括广告、版权信息、分类导航栏的杂质。
具体实施时,通过下载网页页面,根据所述网页页面获取网页源代码,然后根据所述网页源代码创建DOM树,基于所述DOM树和所述网页页面的页面样式生成视觉树,再基于所述视觉树定位分支结点,采用优选策略在已定位的分支节点中选取正文结点,将已选取的正文结点进行去杂质处理,从而生成所述网页页面的正文,能有效避免现有抽取技术中人工编写和模板的弊端,能有效提取网页内容,兼容性高,杂质去除完整。
在一优选实施例中,作为上述方案的改进,采用优选策略在已定位的分支节点中选取正文结点具体为:
采用优选策略定位出标题节点;
基于所述标题节点自动抽取结构化信息;其中,所述结构化信息包括时间、作者和来源。
优选地,如图2所示,在实施例1的基础上包括步骤:
S5、将所述网页页面的正文进行重排段落。
将抽取后的语料素材能按实际视觉效果完整组合排版,能提高可读性。
参见图3,是本发明实施例3提供的一种网页正文抽取装置的结构示意图,包括:
网页源代码获取模块101,用于下载网页页面,根据所述网页页面获取网页源代码;
视觉树生成模块102,用于根据所述网页源代码创建DOM树,基于所述DOM树和所述网页页面的页面样式生成视觉树;
正文结点获取模块103,用于基于所述视觉树定位分支结点,采用优选策略在已定位的分支节点中选取正文结点;
正文获取模块104,用于将已选取的正文结点进行去杂质处理,从而获得所述网页页面的正文。
具体实施时,先通过网页源代码获取模块101下载网页页面,根据所述网页页面获取网页源代码,然后通过视觉树生成模块102根据所述网页源代码创建DOM树,基于所述DOM树和所述网页页面的页面样式生成视觉树,再通过正文结点获取模块103基于所述视觉树定位分支结点,采用优选策略在已定位的分支节点中选取正文结点,接着通过正文获取模块104将已选取的正文结点进行去杂质处理,从而生成所述网页页面的正文,能有效避免现有抽取技术中人工编写和模板的弊端,能有效提取网页内容,兼容性高,杂质去除完整。
优选地,所述网页正文抽取装置100还包括:
段落重排模块,用于将所述网页页面的正文进行重排段落。
优选地,所述正文获取模块具体用于去除包括广告、版权信息、分类导航栏的杂质。
此外,所述正文结点获取模块通过视觉渲染引擎对所述视觉树进行渲染后定位分支结点。
优选地,所述正文结点获取模块具体用于采用优选策略定位出标题节点,并基于所述标题节点自动抽取结构化信息;其中,所述结构化信息包括时间、作者和来源。
综上,本发明公开了一种网页正文抽取方法,通过下载网页页面,根据所述网页页面获取网页源代码,然后根据所述网页源代码创建DOM树,基于所述DOM树和所述网页页面的页面样式生成视觉树,再基于所述视觉树定位分支结点,采用优选策略在已定位的分支节点中选取正文结点,将已选取的正文结点进行去杂质处理,从而生成所述网页页面的正文,能有效避免现有抽取技术中人工编写和模板的弊端,能有效提取网页内容,兼容性高,杂质去除完整。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种网页正文抽取方法,其特征在于,包括步骤:
下载网页页面,根据所述网页页面获取网页源代码,;
根据所述网页源代码创建DOM树,基于所述DOM树和所述网页页面的页面样式生成视觉树;
基于所述视觉树定位分支结点,采用优选策略在已定位的分支节点中选取正文结点;
将已选取的正文结点进行去杂质处理,从而生成所述网页页面的正文。
2.如权利要求1所述的网页正文抽取方法,其特征在于,还包括步骤:
将所述网页页面的正文进行重排段落。
3.如权利要求1所述的网评自动发布方法,其特征在于,所述去杂质处理具体为:
去除包括广告、版权信息、分类导航栏的杂质。
4.如权利要求1所述的网评自动发布方法,其特征在于,基于所述视觉树定位分支结点具体为:
通过视觉渲染引擎对所述视觉树进行渲染后定位分支结点。
5.如权利要求1所述的网评自动发布方法,其特征在于,采用优选策略在已定位的分支节点中选取正文结点具体为:
采用优选策略定位出标题节点;
基于所述标题节点自动抽取结构化信息;其中,所述结构化信息包括时间、作者和来源。
6.一种网页正文抽取装置,其特征在于,包括:
网页源代码获取模块,用于下载网页页面,根据所述网页页面获取网页源代码;
视觉树生成模块,用于根据所述网页源代码创建DOM树,基于所述DOM树和所述网页页面的页面样式生成视觉树;
正文结点获取模块,用于基于所述视觉树定位分支结点,采用优选策略在已定位的分支节点中选取正文结点;
正文获取模块,用于将已选取的正文结点进行去杂质处理,从而获得所述网页页面的正文。
7.如权利要求6所述的网页正文抽取装置,其特征在于,还包括:
段落重排模块,用于将所述网页页面的正文进行重排段落。
8.如权利要求6所述的网页正文抽取装置,其特征在于,所述正文获取模块具体用于去除包括广告、版权信息、分类导航栏的杂质。
9.如权利要求6所述的网页正文抽取装置,其特征在于,所述正文结点获取模块通过视觉渲染引擎对所述视觉树进行渲染后定位分支结点。
10.如权利要求6所述的网页正文抽取装置,其特征在于,所述正文结点获取模块具体用于采用优选策略定位出标题节点;基于所述标题节点自动抽取结构化信息;其中,所述结构化信息包括时间、作者和来源。
CN201710581171.1A 2017-07-17 2017-07-17 网页正文抽取方法及装置 Pending CN107463634A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710581171.1A CN107463634A (zh) 2017-07-17 2017-07-17 网页正文抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710581171.1A CN107463634A (zh) 2017-07-17 2017-07-17 网页正文抽取方法及装置

Publications (1)

Publication Number Publication Date
CN107463634A true CN107463634A (zh) 2017-12-12

Family

ID=60546752

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710581171.1A Pending CN107463634A (zh) 2017-07-17 2017-07-17 网页正文抽取方法及装置

Country Status (1)

Country Link
CN (1) CN107463634A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109388768A (zh) * 2018-08-31 2019-02-26 中国科学院计算技术研究所 一种基于附加分支处理服务的采集方法和系统
CN111125589A (zh) * 2018-10-31 2020-05-08 北大方正集团有限公司 数据采集方法及装置、计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298638A (zh) * 2011-08-31 2011-12-28 北京中搜网络技术股份有限公司 使用网页标签聚类提取新闻网页内容的方法和系统
CN103488743A (zh) * 2013-09-22 2014-01-01 北京奇虎科技有限公司 网页元素抽取方法和网页元素抽取系统
CN106326451A (zh) * 2016-08-26 2017-01-11 武汉大学 一种基于视觉特征提取的网页传感信息块判决方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298638A (zh) * 2011-08-31 2011-12-28 北京中搜网络技术股份有限公司 使用网页标签聚类提取新闻网页内容的方法和系统
CN103488743A (zh) * 2013-09-22 2014-01-01 北京奇虎科技有限公司 网页元素抽取方法和网页元素抽取系统
CN106326451A (zh) * 2016-08-26 2017-01-11 武汉大学 一种基于视觉特征提取的网页传感信息块判决方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张昕: "异构就业数据集成服务的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109388768A (zh) * 2018-08-31 2019-02-26 中国科学院计算技术研究所 一种基于附加分支处理服务的采集方法和系统
CN111125589A (zh) * 2018-10-31 2020-05-08 北大方正集团有限公司 数据采集方法及装置、计算机可读存储介质
CN111125589B (zh) * 2018-10-31 2023-09-05 新方正控股发展有限责任公司 数据采集方法及装置、计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN102184189B (zh) 基于dom节点文本密度的网页核心块确定方法
CN104598577B (zh) 一种网页正文的提取方法
CN102253979B (zh) 基于视觉的web页面萃取方法
CN102541874B (zh) 网页正文内容提取方法及装置
CN102663023B (zh) 一种提取网页内容的实现方法
CN105843965B (zh) 一种基于url主题分类的深层网络爬虫表单填充方法和装置
CN105022803B (zh) 一种提取网页正文内容的方法及系统
Peters et al. Content extraction using diverse feature sets
CN103577171B (zh) 一种显示网页内容的方法和移动终端
CN101702160B (zh) 一种互联网主题信息采集方法及装置
CN110390038A (zh) 基于dom树的页面分块方法、装置、设备及存储介质
CN102298638A (zh) 使用网页标签聚类提取新闻网页内容的方法和系统
CN102200971A (zh) 一种实现网页内容预览的方法和设备
US10860792B2 (en) Detecting compatible layouts for content-based native ads
CN107436931B (zh) 网页正文抽取方法及装置
CN103049536A (zh) 提取网页正文内容的方法和系统
CN104376061B (zh) 一种提取网页正文的方法
CN107463634A (zh) 网页正文抽取方法及装置
CN103853770B (zh) 一种抽取论坛网页中帖子内容的方法及系统
CN105868240A (zh) 一种自适应显示网页的方法及装置
CN102207974A (zh) 一种上下文web页面合并方法
CN108874870A (zh) 一种数据抽取方法、设备及计算机可存储介质
CN105740355A (zh) 基于聚集文本密度的网页正文提取方法及装置
CN107145591A (zh) 一种基于标题的网页有效元数据内容提取方法
CN106528509A (zh) 网页信息提取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171212

RJ01 Rejection of invention patent application after publication