CN102253979B - 基于视觉的web页面萃取方法 - Google Patents
基于视觉的web页面萃取方法 Download PDFInfo
- Publication number
- CN102253979B CN102253979B CN 201110171536 CN201110171536A CN102253979B CN 102253979 B CN102253979 B CN 102253979B CN 201110171536 CN201110171536 CN 201110171536 CN 201110171536 A CN201110171536 A CN 201110171536A CN 102253979 B CN102253979 B CN 102253979B
- Authority
- CN
- China
- Prior art keywords
- web page
- vision
- piece
- object model
- document object
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种基于视觉的web页面萃取方法,包括如下步骤:⑴确认web页面中给定的网页地址已经下载完成,并且经完整展示后生成文档对象模型树;⑵基于文档对象模型树将web页面拆分成在视觉上无法进一步拆分的块元素;⑶从主体块在文档对象模型树中对应的根节点出发,遍历各个视觉块在文档对象模型树中对应的块节点,从而获得web页面中的有价值数据。本方法能够充分使用web页面本身的视觉提示,并结合文档对象模型树进行页面语义分块,显著提高了web页面萃取的效率和质量。
Description
技术领域
本发明涉及一种web页面萃取方法,尤其涉及一种基于视觉分析对web页面进行分解,从中提取有价值数据的web页面内容萃取方法,属于网页信息采集技术领域。
背景技术
目前,随着互联网的高速发展,web网络已经成为世界上最大的信息来源。web网络的发展给人类生活带来了巨大的方便,人们可以跨越时间和空间界限来共享大量信息。但是,整个web网络是由无数的web页面构成的。web页面的海量性、多样性、动态性和半结构化等特性增加了对其内容进行自动处理的难度。如何有效获取这些web页面中的内容为我们所用仍然是大家面临的共同问题。
在专利号为ZL 200410057064.1的中国发明专利中,富士通株式会社提出了一种网页信息块提取装置和方法。在该发明中,首先生成网页的结构信息块树,并对结构信息块进行分类归并和合并,对结果块的语义进行标记,从而根据内容和功能把网页分割为信息块。根据该技术方案,网页处理的粒度从整个页面扩展为页面内的信息块,使网页更容易由机器处理。
在申请号为200910139745.5的中国发明专利申请中,富士通株式会社进一步提出了一种网页内容提取方法和装置,其中该网页内容提取方法包括如下步骤:对网页的图片进行视觉布局分析,以将所述图片分割为至少一个布局块;对每个布局块进行光学字符识别,以生成所述布局块的识别文本;对所述网页进行分析,以建立所述网页的文档对象模型树;利用所述文档对象模型树中的文本节点的真实文本与所述布局块的识别文本之间的对应关系,将所述文档对象模型树中的每个文本节点映射到所述布局块之一中;以及至少利用所述布局块在所述网页中的位置信息来提取所述网页的正文内容。该技术方案开创性地融合了图像布局分析和自然语言处理的相关技术,形成了一个全自动、高效、准确的网页内容提取方案。
另外,在专利号为ZL 200810066432.7的中国发明专利中,腾讯公司也提出了一种互联网网页清洗方法。该方法包括下述步骤:分析输入的网页,对网页标签内容自动纠错,建立文档对象模型树;保留所述文档对象模型树中具有表示内容的HTML的块元素结点,生成与所述文档对象模型树对应的结构块树;在所述结构块树的基础上按照定义的网页类型对输入的网页进行分类;根据输入的网页所属的网页类型,对其进行语义块分析,提取并输出重要块及其文本信息。
发明内容
本发明所要解决的技术问题在于提供一种基于视觉的web页面萃取方法。该方法利用视觉因素对web页面进行分析,可以有效提取web页面中的有价值数据。
为实现上述的发明目的,本发明采用下述的技术方案:
一种基于视觉的web页面萃取方法,其特征在于包括如下步骤:
⑴确认web页面中给定的网页地址已经下载完成,并且经完整展示后生成DOM树;
⑵基于所述DOM树将web页面拆分成在视觉上无法进一步拆分的块元素;
⑶从主体块在所述DOM树中对应的根节点出发,遍历各个视觉块在所述DOM树中对应的块节点,从而获得所述web页面中的有价值数据;所述视觉块是在所述块元素的基础上,经过相似块合并、逻辑块合并之后生成的。
其中,在步骤⑴中,在web页面中的IFame、Frame已经下载完成,所需要的JavaScript、CSS已经下载完成,图片参数已经获得且Ajax已经执行完成的情况下,进入步骤⑵。
所述步骤⑵中,根据所述DOM树中的标签名称决定所述块元素是否进行拆分。
或者,根据边框内容决定所述块元素是否进行拆分。
或者,根据背景色决定所述块元素是否进行拆分。
或者,根据标签内部是否有明确的分割条决定所述块元素是否进行拆分。
所述步骤⑵中,对于标签名称一样、类别相同,字体、字号、字重、颜色都相似的相似块进行合并。
所述步骤⑶中,在有价值数据为标题的情况下,对块节点中包括长度、字号、字重、对齐方式、文本长度在内的各项内容进行分别加权,认定其中权值最大的视觉块为标题块。
所述步骤⑶中,在有价值数据为正文的情况下,首先以所述标题块为基础向下扫描,直到扫描到明确的结束块或者扫描完主体块为止;
其次,推测统计文字信息;
再次,找到符合统计要求的主体字符,以背景与主体块背景一致的字符作为正文的开始,接着遍历所述标题块在所述DOM树中对应节点的兄弟节点,在满足预设条件后认为找到正文的结尾处;
最后,合并正文开始处到结尾处为正文块。
所述预设条件为:①字符覆盖是否达到主体字符的90%以上,②是否有明确的分割线,③是否是分页块;在上述三个条件均为满足的情况下认为满足预设条件。
本发明所提供的web页面萃取方法能够充分使用web页面本身的视觉因素,并结合DOM树进行页面语义分块,不仅有效弥补了现有技术中仅使用DOM树所带来的一些问题,而且显著提高了web页面萃取的效率和质量。
附图说明
下面结合附图和具体实施方式对本发明作进一步的详细说明。
图1为本发明的一个实施例中使用的资讯网页截图;
图2为使用本web页面萃取方法提取网页中标题的操作流程图;
图3为使用本web页面萃取方法提取网页中正文的操作流程图。
具体实施方式
当用户观察web页面的时候,他总是自然而然地将一个语义块作为一个单一对象来看待,而不会关心web页面的内部结构是如何描述的。另一方面,用户在分辨web页面的语义块的时候,通常情况下会使用一些视觉因素来进行帮助,例如背景颜色、字体颜色和大小,字重、边框等等。如果能够充分使用web页面本身的视觉提示,并结合DOM(文档对象模型)树进行页面语义分块,可以有效弥补仅使用DOM树所带来的一些问题。这就是本发明所提供的web页面萃取方法的基本思路,下面对此展开详细的说明。
实施本web页面萃取方法的前提条件是给定的网页地址(url)已经下载完成,并且经完整展示后生成DOM树。这其中具体包括如下内容:
IFame、Frame等已经下载完成
IFame是指web页面中内嵌的框架,Frame是指web页面中的框架。由于待分析的部分内容在Frame里面,因此必须要等待IFame、Frame等下载完成。
这是因为CSS(Cascading Style Sheets,层叠样式表)会严重影响web页面的可视化元素,JavaScript(一种广泛用于客户端web开发的脚本语言,常用来给web页面添加动态功能)会部分影响web页面的数据。
该要求的主要目的是分析图片的长宽等参数。
Ajax全称为Asynchronous JavaScript and XML(异步JavaScript和XML),是一种创建交互式网页应用的网页开发工具。Ajax会影响web页面中部分内容的生成。
在上述步骤完成之后,接下来的工作是生成web页面的视觉块。该视觉块的生成过程遵循如下的逻辑顺序:
DOM树→块元素→相似块合并→逻辑块合并→过滤块操作
DOM是Document Object Model(文档对象模型)的缩写。根据W3C DOM规范,DOM是一种与浏览器、平台、语言无关的接口,使得用户可以访问web页面的其他标准组件。DOM树是指由文档对象模型生成的树状结构。
块元素是指将html格式的web页面拆分成的块状结构。每一个块元素在视觉上无法进一步拆分。块元素的内部属性应该相似的,例如都是文本、链接或者图片等。
生成块元素的拆分原则为:
根据DOM树中的标签名称来决定是否进行拆分
例如Block类型通常进行拆分,Inline类型通常不进行拆分。如果Block类型的标签内部都是文本节点,不含有其他的Block类型,则无需拆分。
例如内部只是列表和文字,没有其他更小的矩形框,不进行拆分;内部还存在更小的局限边框,或者是背景色反差比较大,有明确的分割条,进行进一步拆分。
根据背景色决定是否拆分
例如背景色反差比较大,且面积较大,进行进一步拆分;反之不拆分。
例如如果一个标签内有明确的分割条,或者内部有一条细线,或者有一整条背景色比较深,或者有背景图片、图片看上去是一条线,则遇到这种标签需要继续进行拆分。
生成块元素后,为了进行内容信息分析,需要将相似块进行合并。相似块是指标签的名称一样、类别相同,字体、字号、字重、颜色都非常相似。例如:资讯的正文通常都是由许多<P>标签组成,如果正文的主标签内部有相关新闻列表或者评论的区域,相应的块元素中会有大量相互联系的<P>标签,可以根据各自的特性进行合并。
另外,两个块元素的标签在视觉上可能完全不相同,但是它们之间有信息逻辑关系。这种情况称为逻辑块,例如:
标题块、正文块,逻辑合并就是正文主体块;
图片块、短文本块,逻辑合并就是图片信息块;
为了降低运算的维度,逻辑块生成后需要对没有内容的块及层数过深的块进行裁剪。裁剪的结果称为过滤块。
本发明中所说的视觉块是进行DOM树→块元素→相似块合并→逻辑块合并→过滤块操作等之后生成的HLDOM树,用绘图方式将叶子节点画出来的结果。
对于相似块合并之后的视觉块可以进一步进行基于信息内容的块定义,例如:页眉块、页脚块、正文主体块、相关链接块、作者块、过滤块等。逻辑块是在进行相似块合并后,视觉块开发者根据关注点所在,对合并块进行信息逻辑组合后生成的视觉块。过滤块是属于视觉块的,只是对某个视觉块开发者认为是杂质的就定义为过滤块。例如将视觉块高度小于17个像素的定义为过滤块;将版权声明块定义为过滤块等。
需要说明的是,对于任何web页面块元素而言,相似块是必然存在的。过滤块是视觉块开发者对不需要关注的视觉块的定义,因此并不是必然存在的。
表1显示了在生成视觉块的过程中,影响分块的一些具体因素。
表1
在视觉块生成之后,需要对视觉块进行信息定位,以达到信息萃取的目的。以图1所示的资讯网页截图为例,首先定义什么是有价值数据。在通常情况下,例如图1中的标题、正文、导航等都是常用的有价值数据。
从视觉角度上看,标题具有字体大、字重大,字数少等特点。如图2所示,提取标题的具体步骤为:首先输入主体块(该主体块根据视觉块在整个web页面中占据的位置和面积予以确定)在DOM树中对应的根节点,然后遍历各个视觉块在DOM树中对应的块节点,对块节点的各项内容进行分别加权,例如对可能为标题的内容的长度、字号、字重、对齐方式、文本长度等分别进行加权,认定其中权值最大的视觉块为标题。此处的判断是统计一批(例如10万个)web页中,标题长度、字号、字重、对齐方式、文本长度等维度信息,将其结果作为权重依据。
从视觉角度上看,正文具有与标题关系紧密、字数多、字体小于或等于标题、背景色一致等特点。如图3所示,提取正文的具体步骤为:
首先输入主体块在DOM树中对应的根节点,按照图2所示的步骤遍历标题块在DOM树中对应的父节点。以标题块为基础向下扫描,直到扫描到明确的结束块或者扫描完主体块为止。这里的结束块是一些视觉块的概念集合,范围包括表示前后web页面连接特征的连接块、表示版权声明的版权块以及作者块、评论块、相关信息块等。
然后,推测统计文字信息,例如个数、字体、字重、颜色、背景色等。
接着,以标题为基础,向下扫描过滤掉非主体字体块。在该步骤中,首先要找到符合统计要求的主体字符,以背景与主体块背景一致的字符作为正文的开始,接着遍历标题块在DOM树中对应节点的兄弟节点,直至满足三个条件:1.字符覆盖是否达到主体字符的90%以上;2.是否有明确的分割线(明线分割、图像分割或背景色明显的分割条);3.是否是具有上下文连接特征的分页块。
在以上三个条件都为是的情况下,认为找到正文的结尾处。如果还有任何一个条件不为是,则继续遍历标题块的兄弟节点,直至上述三个条件都满足为止。
在找到正文结尾处之后,合并正文开始处到正文结尾处为正文块。这样,就可以获得web页面的最终萃取结果—有价值数据的结构化信息。
上面对本发明所述的基于视觉的web页面萃取方法进行了详细的说明,但显然本发明的具体实现形式并不局限于此。对于本技术领域的一般技术人员来说,在不背离本发明的精神和权利要求范围的情况下对它进行的各种显而易见的改变都在本发明的保护范围之内。
Claims (10)
1.一种基于视觉的web页面萃取方法,其特征在于包括如下步骤:
⑴确认web页面中给定的网页地址已经下载完成,并且经完整展示后生成文档对象模型树;
⑵基于所述文档对象模型树将web页面拆分成在视觉上无法进一步拆分的块元素;
⑶从主体块在所述文档对象模型树中对应的根节点出发,遍历各个视觉块在所述文档对象模型树中对应的块节点,从而获得所述web页面中的有价值数据;所述视觉块是在所述块元素的基础上,经过相似块合并、逻辑块合并之后生成的。
2.如权利要求1所述的基于视觉的web页面萃取方法,其特征在于:
所述步骤⑴中,在web页面中的IFame、Frame已经下载完成,所需要的JavaScript、CSS已经下载完成,图片参数已经获得且Ajax已经执行完成的情况下,进入所述步骤⑵。
3.如权利要求1所述的基于视觉的web页面萃取方法,其特征在于:
所述步骤⑵中,根据所述文档对象模型树中的标签名称决定所述块元素是否进行拆分。
4.如权利要求1所述的基于视觉的web页面萃取方法,其特征在于:
所述步骤⑵中,根据边框内容决定所述块元素是否进行拆分。
5.如权利要求1所述的基于视觉的web页面萃取方法,其特征在于:
所述步骤⑵中,根据背景色决定所述块元素是否进行拆分。
6.如权利要求1所述的基于视觉的web页面萃取方法,其特征在于:
所述步骤⑵中,根据标签内部是否有明确的分割条决定所述块元素是否进行拆分。
7.如权利要求1所述的基于视觉的web页面萃取方法,其特征在于:
所述步骤⑵中,对于标签名称一样、类别相同,字体、字号、字重、颜色都相似的相似块进行合并。
8.如权利要求1所述的基于视觉的web页面萃取方法,其特征在于:
所述步骤⑶中,在有价值数据为标题的情况下,对块节点中包括长度、字号、字重、对齐方式、文本长度在内的各项内容进行分别加权,认定其中权值最大的视觉块为标题块。
9.如权利要求8所述的基于视觉的web页面萃取方法,其特征在于:
所述步骤⑶中,在有价值数据为正文的情况下,首先以所述标题块为基础向下扫描,直到扫描到明确的结束块或者扫描完主体块为止;
其次,推测统计文字信息;
再次,找到符合统计要求的主体字符,以背景与主体块背景一致的字符作为正文的开始,接着遍历所述标题块在所述文档对象模型树中对应节点的兄弟节点,在满足预设条件后认为找到正文的结尾处;
最后,合并正文开始处到结尾处为正文块。
10.如权利要求9所述的基于视觉的web页面萃取方法,其特征在于:
所述预设条件为:①字符覆盖是否达到主体字符的90%以上,②是否有明确的分割线,③是否是分页块;在上述三个条件均为满足的情况下认为满足预设条件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110171536 CN102253979B (zh) | 2011-06-23 | 2011-06-23 | 基于视觉的web页面萃取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110171536 CN102253979B (zh) | 2011-06-23 | 2011-06-23 | 基于视觉的web页面萃取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102253979A CN102253979A (zh) | 2011-11-23 |
CN102253979B true CN102253979B (zh) | 2013-07-24 |
Family
ID=44981243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201110171536 Active CN102253979B (zh) | 2011-06-23 | 2011-06-23 | 基于视觉的web页面萃取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102253979B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103514234B (zh) * | 2012-06-30 | 2018-10-16 | 北京百度网讯科技有限公司 | 一种页面信息提取方法和装置 |
CN102841920B (zh) * | 2012-06-30 | 2017-05-10 | 北京百度网讯科技有限公司 | 一种页面信息提取方法及装置 |
CN104714791B (zh) * | 2013-12-17 | 2018-05-04 | 北京掌中经纬技术有限公司 | 一种对Web应用进行拆分与重装的方法与装置 |
CN106469036B (zh) * | 2015-08-14 | 2021-02-05 | 腾讯科技(深圳)有限公司 | 信息显示方法及客户端 |
CN105550279A (zh) * | 2015-12-10 | 2016-05-04 | 天津海量信息技术有限公司 | 基于视觉的列表页识别方法 |
CN108228641A (zh) * | 2016-12-21 | 2018-06-29 | 中国移动通信集团辽宁有限公司 | 网页数据分析的方法、设备和系统 |
CN108211419B (zh) * | 2016-12-22 | 2019-06-04 | 中国科学院沈阳自动化研究所 | 基于视觉的自动液-液萃取方法 |
CN106649767B (zh) * | 2016-12-27 | 2020-03-17 | 东软集团股份有限公司 | 一种网页信息抽取方法及装置 |
CN108268436B (zh) * | 2016-12-30 | 2021-08-20 | 珠海金山办公软件有限公司 | 一种幻灯片美化匹配的方法及装置 |
CN110235181B (zh) * | 2017-06-13 | 2023-09-29 | 谷歌有限责任公司 | 用于生成跨浏览器兼容动画的系统和方法 |
CN110020312B (zh) * | 2017-12-11 | 2022-09-06 | 北京京东尚科信息技术有限公司 | 提取网页正文的方法和装置 |
CN109325197B (zh) * | 2018-08-17 | 2022-07-15 | 百度在线网络技术(北京)有限公司 | 用于提取信息的方法和装置 |
CN109325204B (zh) * | 2018-09-13 | 2022-01-07 | 武汉伯远生物科技有限公司 | 网页内容自动提取方法 |
CN110287437B (zh) * | 2019-06-19 | 2021-09-14 | 北京达佳互联信息技术有限公司 | 网页截图方法、装置、存储介质及终端 |
CN110688552A (zh) * | 2019-06-27 | 2020-01-14 | 平安科技(深圳)有限公司 | 网页正文内容获取方法、装置、计算机设备及存储介质 |
CN111831460B (zh) * | 2020-06-30 | 2023-06-16 | 江西科技学院 | 一种文本复制粘贴方法、系统及可读存储介质 |
CN112732955A (zh) * | 2021-03-31 | 2021-04-30 | 国网浙江省电力有限公司 | 标准成本核算中的财务凭证存储记录方法 |
CN113485782B (zh) * | 2021-07-29 | 2024-08-06 | 北京百度网讯科技有限公司 | 页面数据获取方法、装置、电子设备及介质 |
CN113806665A (zh) * | 2021-09-24 | 2021-12-17 | 刘秀萍 | 基于非模式化Web数据模型的网页分块方法 |
CN118172790B (zh) * | 2024-05-11 | 2024-07-26 | 中移(苏州)软件技术有限公司 | 页面识别方法、装置、电子设备及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101251855A (zh) * | 2008-03-27 | 2008-08-27 | 腾讯科技(深圳)有限公司 | 一种互联网网页清洗方法、系统及设备 |
CN101937438A (zh) * | 2009-06-30 | 2011-01-05 | 富士通株式会社 | 网页内容提取方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004068320A2 (en) * | 2003-01-27 | 2004-08-12 | Vincent Wen-Jeng Lue | Method and apparatus for adapting web contents to different display area dimensions |
-
2011
- 2011-06-23 CN CN 201110171536 patent/CN102253979B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101251855A (zh) * | 2008-03-27 | 2008-08-27 | 腾讯科技(深圳)有限公司 | 一种互联网网页清洗方法、系统及设备 |
CN101937438A (zh) * | 2009-06-30 | 2011-01-05 | 富士通株式会社 | 网页内容提取方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN102253979A (zh) | 2011-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102253979B (zh) | 基于视觉的web页面萃取方法 | |
CN104598577B (zh) | 一种网页正文的提取方法 | |
CN102663023B (zh) | 一种提取网页内容的实现方法 | |
CN101515272B (zh) | 提取网页内容的方法和装置 | |
CN103064827A (zh) | 一种网页内容抽取的方法及装置 | |
CN103166981B (zh) | 一种无线网页转码方法及装置 | |
CN101593200A (zh) | 基于关键词频度分析的中文网页分类方法 | |
CN102207974B (zh) | 一种上下文web页面合并方法 | |
CN106503211B (zh) | 面向信息发布类网站的移动版自动生成的方法 | |
CN102306201B (zh) | 一种网页标题分析的方法和系统 | |
CN103927397A (zh) | 一种基于区块树的Web页面链接块的识别方法 | |
CN103049536A (zh) | 提取网页正文内容的方法和系统 | |
CN103440239A (zh) | 一种基于功能区域识别的网页切分方法及装置 | |
CN108733813A (zh) | 面向bbs论坛网页内容的信息提取方法、系统及介质 | |
CN107145591B (zh) | 一种基于标题的网页有效元数据内容提取方法 | |
US20130124684A1 (en) | Visual separator detection in web pages using code analysis | |
CN105740355B (zh) | 基于聚集文本密度的网页正文提取方法及装置 | |
CN103942211A (zh) | 一种正文页的识别方法及装置 | |
CN103455572B (zh) | 获取网页中影视主体的方法及装置 | |
CN103942332B (zh) | 一种Web页面逻辑链接块的识别方法 | |
CN104572874B (zh) | 一种网页信息的抽取方法及装置 | |
Xiang et al. | Effective page segmentation combining pattern analysis and visual separators for browsing on small screens | |
CN106897287B (zh) | 网页发布时间抽取方法和用于网页发布时间抽取的装置 | |
López et al. | Using the DOM tree for content extraction | |
CN111581478A (zh) | 一种特定主体的跨网站通用新闻采集方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C56 | Change in the name or address of the patentee | ||
CP03 | Change of name, title or address |
Address after: 300020 Tianjin Heping District, South Road, No. 11 International Building 23 purchase of Wheat Patentee after: Tianjin mass information technology Limited by Share Ltd Address before: 300384 Tianjin city Nankai District Huayuan Industrial Zone Rong Yuan Road No. 1 North B room 322-323 Patentee before: Tianjin Hylanda Information Technology Co.,Ltd. |