CN105550279A

CN105550279A - 基于视觉的列表页识别方法

Info

Publication number: CN105550279A
Application number: CN201510910416.1A
Authority: CN
Inventors: 王树强; 张作职
Original assignee: TIANJIN HYLANDA INFORMATION TECHNOLOGY CO LTD
Current assignee: TIANJIN HYLANDA INFORMATION TECHNOLOGY CO LTD
Priority date: 2015-12-10
Filing date: 2015-12-10
Publication date: 2016-05-04

Abstract

一种本发明的基于视觉的列表页识别方法，依据视觉规则对页面的Html进行分块、完成Html主体区域的识别，进而判断是否是列表页以获取必要的连接。先找到网页的主体部分，左右边栏和页眉页脚都忽略，然后根据字体，字号，字重，位置等信息，来判断主体部分，如果是以链接为主体则可判断为列表页。本发明通过模仿人在观察Web页面时候的处理方式，提高了列表页收集的速度和准确度，从而便于及时准确地对网站上变化的内容进行收集。

Description

基于视觉的列表页识别方法

技术领域

本发明涉及互联网信息采集的技术领域，具体说是一种基于视觉的列表页识别方法。

背景技术

在舆情监控系统中，在有限资源的情况下，如何及时准确的获取网站内容的变化，基本上是两种思路，第一种思路是搜索引擎的思路，下载整个网站，分析处理网站中的任何一个网页，这种办法虽然数据全面，但是更新效率低，不适合监控类对时效性的要求。第二种思路是针对列表页，只更新列表页，对列表页中发现的新的正文链接进行分析处理。

网站中的网页是如此众多，哪些是正文页，哪些是列表页，需要认为的进行分析，先确定列表页，然后将其加入系统中，进行监测，系统会定时更新，并且发现其中的正文链接，然后进行相应的分析处理。

这种传统的人工收集列表页的方法，很难把网站的全部列表页收集全，经常会遗漏一些客户敏感的列表页，而且比较耗费时间，尤其是需要添加多个网站的列表页的时候，工作量巨大。

发明内容

本发明要解决的技术问题是提供一种基于视觉的列表页识别方法。

本发明为解决公知技术中存在的技术问题所采取的技术方案是:

本发明的基于视觉的列表页识别方法，包括以下步骤：

A、基于浏览器的下载，获取网页的Dom树；

B、进行Html分块，即按照视觉进行分块；

C、Html主体区域的识别，以找到主要的区域；

D、列表页模式识别，通过模式识别判断是否是列表页；

E、分析链接，获取候选链接，找到必要的链接；

F、获取到新链接时，返回执行步骤A。

本发明还可以采用以下技术措施：

步骤A中，基于浏览器核心首先下载整体网页和网页附带的代码文件，然后进行渲染，渲染后使每个Dom树的节点获得相应的浏览器的属性，最后输出整体的Dom树。

下载过程中增加黑名单，禁止下载多媒体文件；禁止下载广告网站、网站外的资源和非重要的代码文件；区分重要资源和非重要资源；增加Http的Cache功能模块。

步骤B中，使用Web页面的视觉提示，结合DOM树进行页面语义分块。

依视觉进行页面分块时考量的维度包括字符、字符的统计属性和Html页面元素的属性；其中字符维度中又包括字体、字号、字重、文字颜色、背景色和对齐方式的考量；字符的统计属性维度中又包括文字的字符数、链接文字的字符数、文字密度和链接密度；Html页面元素的属性维度中又包括边框、Html元素的属性、背景图片、矩形区域的坐标和宽高和Z轴方向上的层次。

步骤C中，Html主体区域识别中所依据的判断维度为：由上至下，离页眉距离近；占页面主体宽度至少60%；占页面的的主体面积；位于网页的明显位置。

步骤D中，列表页的判断维度包括：文本的数量、链接的数量、链接的位置信息、链接文字的数量、链接所在的标签名称、链接和链接的相对位置信息，左对齐和间隔均匀、链接块相对主体区域的位置信息、图片链接块的位置信息、链接的宽度信息、链接所在的风格名称的一致性。

本发明具有的优点和积极效果是:

本发明的基于视觉的列表页识别方法中，依据视觉规则对页面的Html进行分块、完成Html主体区域的识别，进而判断是否是列表页以获取必要的连接。本发明通过模仿人在观察Web页面时候的处理方式，提高了列表页收集的速度和准确度，从而便于及时准确地对网站上变化的内容进行收集。

附图说明

图1是本发明的基于视觉的列表页识别方法的流程图。

具体实施方式

以下通过具体实施例对本发明进行详细说明。

本发明的基于视觉的列表页识别方法，包括以下步骤：

A、基于浏览器的下载，获取网页的Dom树；

B、进行Html分块，即按照视觉进行分块；

C、Html主体区域的识别，以找到主要的区域；

D、列表页模式识别，通过模式识别判断是否是列表页；

E、分析链接，获取候选链接，找到必要的链接；

F、获取到新链接时，返回执行步骤A。

判断标准的依据就是：先找到网页的主体部分，左右边栏和页眉页脚都忽略，然后根据字体，字号，字重，位置等信息，来判断主体部分，如果是以链接为主体则可判断为列表页。

步骤A中，基于IE或Chrome的浏览器核心首先下载整体网页和网页附带的js，css等代码文件，然后进行渲染，渲染后使每个Dom树的节点获得相应的浏览器的属性，最后输出整体的Dom树。

由于传统的下载只需要下载一个html，而现在需要下载非常多的url，主要包括主网页，css，js，图片，ajax等，几十倍于传统下载，所以需要在下载过程中增加黑名单，禁止下载jpg，png，mp3等多媒体文件；禁止下载广告网站、网站外的资源和非重要的js等代码文件；区分重要资源和非重要资源；增加squid等Http的Cache功能模块，增速下载。

在进行Web页面分块的时候，把一个语义块作为一个单一对象来看待，而不管Web页面的内部结构是如何描述的。

页面分块所依视觉考量维度如以下表1所示：

表1页面视觉考量维度

网页的组成一般都分成，页眉页脚，侧边栏，和主体区域，基本上都是3/7拆分，为了分析的准确性，需要识别网页的主体部分。步骤C中，Html主体区域识别中所依据的判断维度为：由上至下，离页眉距离近；占页面主体宽度至少60％；占页面的的主体面积；位于网页的明显位置。

具体识别时，例如：网页中有大段连续的纯文本，或者有较多文本，且发现了标题，则不是列表页；网页中的链接单排纵向排列，左对齐，间隔均匀且数量较多，则是列表页；首链接离主体区域的位置，不能太远，如果链接在li或者tr，dd中则加权；候选的链接，需要在字符数量，位置，高宽等满足相应的条件；如果链接的风格名称相同，则进行加权；对于图片的列表页，要求图片是网格状排布，图片的大小，满足一定的条件，图片的排布要求，图片大小相当，等间距排布且上对齐。

如果整个网站爬行,任务量会比较大，需要对链接的文字，和链接的性质，多个链接的特性进行归纳；如果链接上的文字，包括“更多”“more”“上一页”等字符，则需要进行分析，如果Url上包括“index”“list”“channel”等需要进行分析。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例公开如上，然而，并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当然会利用揭示的技术内容作出些许更动或修饰，成为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均属于本发明技术方案的范围内。

Claims

1.一种基于视觉的列表页识别方法，包括以下步骤：

A、基于浏览器的下载，获取网页的Dom树；

B、进行Html分块，即按照视觉进行分块；

C、Html主体区域的识别，以找到主要的区域；

D、列表页模式识别，通过模式识别判断是否是列表页；

E、分析链接，获取候选链接，找到必要的链接；

F、获取到新链接时，返回执行步骤A。

2.根据权利要求1所述的基于视觉的列表页识别方法，其特征在于：步骤A中，基于浏览器核心首先下载整体网页和网页附带的代码文件，然后进行渲染，渲染后使每个Dom树的节点获得相应的浏览器的属性，最后输出整体的Dom树。

3.根据权利要求2所述的基于视觉的列表页识别方法，其特征在于：下载过程中增加黑名单，禁止下载多媒体文件；禁止下载广告网站、网站外的资源和非重要的代码文件；区分重要资源和非重要资源；增加Http的Cache功能模块。

4.根据权利要求1或3所述的基于视觉的列表页识别方法，其特征在于：步骤B中，使用Web页面的视觉提示，结合DOM树进行页面语义分块。

5.根据权利要求4所述的基于视觉的列表页识别方法，其特征在于：依视觉进行页面分块时考量的维度包括字符、字符的统计属性和Html页面元素的属性；其中字符维度中又包括字体、字号、字重、文字颜色、背景色和对齐方式的考量；字符的统计属性维度中又包括文字的字符数、链接文字的字符数、文字密度和链接密度；Html页面元素的属性维度中又包括边框、Html元素的属性、背景图片、矩形区域的坐标和宽高和Z轴方向上的层次。

6.根据权利要求5所述的基于视觉的列表页识别方法，其特征在于：步骤C中，Html主体区域识别中所依据的判断维度为：由上至下，离页眉距离近；占页面主体宽度至少60%；占页面的的主体面积；位于网页的明显位置。

7.根据权利要求6所述的基于视觉的列表页识别方法，其特征在于：步骤D中，列表页的判断维度包括：文本的数量、链接的数量、链接的位置信息、链接文字的数量、链接所在的标签名称、链接和链接的相对位置信息，左对齐和间隔均匀、链接块相对主体区域的位置信息、图片链接块的位置信息、链接的宽度信息、链接所在的风格名称的一致性。