CN105550279A - 基于视觉的列表页识别方法 - Google Patents

基于视觉的列表页识别方法 Download PDF

Info

Publication number
CN105550279A
CN105550279A CN201510910416.1A CN201510910416A CN105550279A CN 105550279 A CN105550279 A CN 105550279A CN 201510910416 A CN201510910416 A CN 201510910416A CN 105550279 A CN105550279 A CN 105550279A
Authority
CN
China
Prior art keywords
link
page
list page
html
access control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201510910416.1A
Other languages
English (en)
Inventor
王树强
张作职
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TIANJIN HYLANDA INFORMATION TECHNOLOGY CO LTD
Original Assignee
TIANJIN HYLANDA INFORMATION TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TIANJIN HYLANDA INFORMATION TECHNOLOGY CO LTD filed Critical TIANJIN HYLANDA INFORMATION TECHNOLOGY CO LTD
Priority to CN201510910416.1A priority Critical patent/CN105550279A/zh
Publication of CN105550279A publication Critical patent/CN105550279A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

一种本发明的基于视觉的列表页识别方法,依据视觉规则对页面的Html进行分块、完成Html主体区域的识别,进而判断是否是列表页以获取必要的连接。先找到网页的主体部分,左右边栏和页眉页脚都忽略,然后根据字体,字号,字重,位置等信息,来判断主体部分,如果是以链接为主体则可判断为列表页。本发明通过模仿人在观察Web页面时候的处理方式,提高了列表页收集的速度和准确度,从而便于及时准确地对网站上变化的内容进行收集。

Description

基于视觉的列表页识别方法
技术领域
本发明涉及互联网信息采集的技术领域,具体说是一种基于视觉的列表页识别方法。
背景技术
在舆情监控系统中,在有限资源的情况下,如何及时准确的获取网站内容的变化,基本上是两种思路,第一种思路是搜索引擎的思路,下载整个网站,分析处理网站中的任何一个网页,这种办法虽然数据全面,但是更新效率低,不适合监控类对时效性的要求。第二种思路是针对列表页,只更新列表页,对列表页中发现的新的正文链接进行分析处理。
网站中的网页是如此众多,哪些是正文页,哪些是列表页,需要认为的进行分析,先确定列表页,然后将其加入系统中,进行监测,系统会定时更新,并且发现其中的正文链接,然后进行相应的分析处理。
这种传统的人工收集列表页的方法,很难把网站的全部列表页收集全,经常会遗漏一些客户敏感的列表页,而且比较耗费时间,尤其是需要添加多个网站的列表页的时候,工作量巨大。
发明内容
本发明要解决的技术问题是提供一种基于视觉的列表页识别方法。
本发明为解决公知技术中存在的技术问题所采取的技术方案是:
本发明的基于视觉的列表页识别方法,包括以下步骤:
A、基于浏览器的下载,获取网页的Dom树;
B、进行Html分块,即按照视觉进行分块;
C、Html主体区域的识别,以找到主要的区域;
D、列表页模式识别,通过模式识别判断是否是列表页;
E、分析链接,获取候选链接,找到必要的链接;
F、获取到新链接时,返回执行步骤A。
本发明还可以采用以下技术措施:
步骤A中,基于浏览器核心首先下载整体网页和网页附带的代码文件,然后进行渲染,渲染后使每个Dom树的节点获得相应的浏览器的属性,最后输出整体的Dom树。
下载过程中增加黑名单,禁止下载多媒体文件;禁止下载广告网站、网站外的资源和非重要的代码文件;区分重要资源和非重要资源;增加Http的Cache功能模块。
步骤B中,使用Web页面的视觉提示,结合DOM树进行页面语义分块。
依视觉进行页面分块时考量的维度包括字符、字符的统计属性和Html页面元素的属性;其中字符维度中又包括字体、字号、字重、文字颜色、背景色和对齐方式的考量;字符的统计属性维度中又包括文字的字符数、链接文字的字符数、文字密度和链接密度;Html页面元素的属性维度中又包括边框、Html元素的属性、背景图片、矩形区域的坐标和宽高和Z轴方向上的层次。
步骤C中,Html主体区域识别中所依据的判断维度为:由上至下,离页眉距离近;占页面主体宽度至少60%;占页面的的主体面积;位于网页的明显位置。
步骤D中,列表页的判断维度包括:文本的数量、链接的数量、链接的位置信息、链接文字的数量、链接所在的标签名称、链接和链接的相对位置信息,左对齐和间隔均匀、链接块相对主体区域的位置信息、图片链接块的位置信息、链接的宽度信息、链接所在的风格名称的一致性。
本发明具有的优点和积极效果是:
本发明的基于视觉的列表页识别方法中,依据视觉规则对页面的Html进行分块、完成Html主体区域的识别,进而判断是否是列表页以获取必要的连接。本发明通过模仿人在观察Web页面时候的处理方式,提高了列表页收集的速度和准确度,从而便于及时准确地对网站上变化的内容进行收集。
附图说明
图1是本发明的基于视觉的列表页识别方法的流程图。
具体实施方式
以下通过具体实施例对本发明进行详细说明。
本发明的基于视觉的列表页识别方法,包括以下步骤:
A、基于浏览器的下载,获取网页的Dom树;
B、进行Html分块,即按照视觉进行分块;
C、Html主体区域的识别,以找到主要的区域;
D、列表页模式识别,通过模式识别判断是否是列表页;
E、分析链接,获取候选链接,找到必要的链接;
F、获取到新链接时,返回执行步骤A。
判断标准的依据就是:先找到网页的主体部分,左右边栏和页眉页脚都忽略,然后根据字体,字号,字重,位置等信息,来判断主体部分,如果是以链接为主体则可判断为列表页。
步骤A中,基于IE或Chrome的浏览器核心首先下载整体网页和网页附带的js,css等代码文件,然后进行渲染,渲染后使每个Dom树的节点获得相应的浏览器的属性,最后输出整体的Dom树。
由于传统的下载只需要下载一个html,而现在需要下载非常多的url,主要包括主网页,css,js,图片,ajax等,几十倍于传统下载,所以需要在下载过程中增加黑名单,禁止下载jpg,png,mp3等多媒体文件;禁止下载广告网站、网站外的资源和非重要的js等代码文件;区分重要资源和非重要资源;增加squid等Http的Cache功能模块,增速下载。
步骤B中,使用Web页面的视觉提示,结合DOM树进行页面语义分块。
在进行Web页面分块的时候,把一个语义块作为一个单一对象来看待,而不管Web页面的内部结构是如何描述的。
依视觉进行页面分块时考量的维度包括字符、字符的统计属性和Html页面元素的属性;其中字符维度中又包括字体、字号、字重、文字颜色、背景色和对齐方式的考量;字符的统计属性维度中又包括文字的字符数、链接文字的字符数、文字密度和链接密度;Html页面元素的属性维度中又包括边框、Html元素的属性、背景图片、矩形区域的坐标和宽高和Z轴方向上的层次。
页面分块所依视觉考量维度如以下表1所示:
表1页面视觉考量维度
网页的组成一般都分成,页眉页脚,侧边栏,和主体区域,基本上都是3/7拆分,为了分析的准确性,需要识别网页的主体部分。步骤C中,Html主体区域识别中所依据的判断维度为:由上至下,离页眉距离近;占页面主体宽度至少60%;占页面的的主体面积;位于网页的明显位置。
步骤D中,列表页的判断维度包括:文本的数量、链接的数量、链接的位置信息、链接文字的数量、链接所在的标签名称、链接和链接的相对位置信息,左对齐和间隔均匀、链接块相对主体区域的位置信息、图片链接块的位置信息、链接的宽度信息、链接所在的风格名称的一致性。
具体识别时,例如:网页中有大段连续的纯文本,或者有较多文本,且发现了标题,则不是列表页;网页中的链接单排纵向排列,左对齐,间隔均匀且数量较多,则是列表页;首链接离主体区域的位置,不能太远,如果链接在li或者tr,dd中则加权;候选的链接,需要在字符数量,位置,高宽等满足相应的条件;如果链接的风格名称相同,则进行加权;对于图片的列表页,要求图片是网格状排布,图片的大小,满足一定的条件,图片的排布要求,图片大小相当,等间距排布且上对齐。
如果整个网站爬行,任务量会比较大,需要对链接的文字,和链接的性质,多个链接的特性进行归纳;如果链接上的文字,包括“更多”“more”“上一页”等字符,则需要进行分析,如果Url上包括“index”“list”“channel”等需要进行分析。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例公开如上,然而,并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当然会利用揭示的技术内容作出些许更动或修饰,成为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均属于本发明技术方案的范围内。

Claims (7)

1.一种基于视觉的列表页识别方法,包括以下步骤:
A、基于浏览器的下载,获取网页的Dom树;
B、进行Html分块,即按照视觉进行分块;
C、Html主体区域的识别,以找到主要的区域;
D、列表页模式识别,通过模式识别判断是否是列表页;
E、分析链接,获取候选链接,找到必要的链接;
F、获取到新链接时,返回执行步骤A。
2.根据权利要求1所述的基于视觉的列表页识别方法,其特征在于:步骤A中,基于浏览器核心首先下载整体网页和网页附带的代码文件,然后进行渲染,渲染后使每个Dom树的节点获得相应的浏览器的属性,最后输出整体的Dom树。
3.根据权利要求2所述的基于视觉的列表页识别方法,其特征在于:下载过程中增加黑名单,禁止下载多媒体文件;禁止下载广告网站、网站外的资源和非重要的代码文件;区分重要资源和非重要资源;增加Http的Cache功能模块。
4.根据权利要求1或3所述的基于视觉的列表页识别方法,其特征在于:步骤B中,使用Web页面的视觉提示,结合DOM树进行页面语义分块。
5.根据权利要求4所述的基于视觉的列表页识别方法,其特征在于:依视觉进行页面分块时考量的维度包括字符、字符的统计属性和Html页面元素的属性;其中字符维度中又包括字体、字号、字重、文字颜色、背景色和对齐方式的考量;字符的统计属性维度中又包括文字的字符数、链接文字的字符数、文字密度和链接密度;Html页面元素的属性维度中又包括边框、Html元素的属性、背景图片、矩形区域的坐标和宽高和Z轴方向上的层次。
6.根据权利要求5所述的基于视觉的列表页识别方法,其特征在于:步骤C中,Html主体区域识别中所依据的判断维度为:由上至下,离页眉距离近;占页面主体宽度至少60%;占页面的的主体面积;位于网页的明显位置。
7.根据权利要求6所述的基于视觉的列表页识别方法,其特征在于:步骤D中,列表页的判断维度包括:文本的数量、链接的数量、链接的位置信息、链接文字的数量、链接所在的标签名称、链接和链接的相对位置信息,左对齐和间隔均匀、链接块相对主体区域的位置信息、图片链接块的位置信息、链接的宽度信息、链接所在的风格名称的一致性。
CN201510910416.1A 2015-12-10 2015-12-10 基于视觉的列表页识别方法 Withdrawn CN105550279A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510910416.1A CN105550279A (zh) 2015-12-10 2015-12-10 基于视觉的列表页识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510910416.1A CN105550279A (zh) 2015-12-10 2015-12-10 基于视觉的列表页识别方法

Publications (1)

Publication Number Publication Date
CN105550279A true CN105550279A (zh) 2016-05-04

Family

ID=55829468

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510910416.1A Withdrawn CN105550279A (zh) 2015-12-10 2015-12-10 基于视觉的列表页识别方法

Country Status (1)

Country Link
CN (1) CN105550279A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038240A (zh) * 2017-04-20 2017-08-11 金电联行(北京)信息技术有限公司 一种网页列表内容检测方法
CN109766978A (zh) * 2019-01-17 2019-05-17 北京悦时网络科技发展有限公司 一种词码的生成方法、识别方法、装置、存储介质
CN113505288A (zh) * 2021-06-28 2021-10-15 南京大学 一种基于统计和桩定位视觉的快速检测和定位方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102253979A (zh) * 2011-06-23 2011-11-23 天津海量信息技术有限公司 基于视觉的web页面萃取方法
CN102467501A (zh) * 2010-10-29 2012-05-23 北大方正集团有限公司 一种从新闻列表页抽取新闻记录元数据的方法及系统
CN102929948A (zh) * 2012-09-29 2013-02-13 北京奇虎科技有限公司 列表页识别系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102467501A (zh) * 2010-10-29 2012-05-23 北大方正集团有限公司 一种从新闻列表页抽取新闻记录元数据的方法及系统
CN102253979A (zh) * 2011-06-23 2011-11-23 天津海量信息技术有限公司 基于视觉的web页面萃取方法
CN102929948A (zh) * 2012-09-29 2013-02-13 北京奇虎科技有限公司 列表页识别系统及方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038240A (zh) * 2017-04-20 2017-08-11 金电联行(北京)信息技术有限公司 一种网页列表内容检测方法
CN107038240B (zh) * 2017-04-20 2020-07-24 金电联行(北京)信息技术有限公司 一种网页列表内容检测方法
CN109766978A (zh) * 2019-01-17 2019-05-17 北京悦时网络科技发展有限公司 一种词码的生成方法、识别方法、装置、存储介质
CN109766978B (zh) * 2019-01-17 2020-06-16 北京悦时网络科技发展有限公司 一种词码的生成方法、识别方法、装置、存储介质
US11334780B2 (en) 2019-01-17 2022-05-17 Yueshi Network Technology Development Co., Ltd. Method for generating word code, method and device for recognizing codes
CN113505288A (zh) * 2021-06-28 2021-10-15 南京大学 一种基于统计和桩定位视觉的快速检测和定位方法
CN113505288B (zh) * 2021-06-28 2023-08-01 南京大学 一种基于统计和桩定位视觉的快速检测和定位方法

Similar Documents

Publication Publication Date Title
CN103605794B (zh) 一种网站分类方法
CN102541874B (zh) 网页正文内容提取方法及装置
CN103914478B (zh) 网页训练方法及系统、网页预测方法及系统
CN108959383A (zh) 网络舆情的分析方法、装置及计算机可读存储介质
CN109522562B (zh) 一种基于文本图像融合识别的网页知识抽取方法
CN102270206A (zh) 一种有效网页内容的抓取方法及装置
CN104331438B (zh) 对小说网页内容选择性抽取方法和装置
US11907644B2 (en) Detecting compatible layouts for content-based native ads
CN110457579B (zh) 基于模板和分类器协同工作的网页去噪方法及系统
CN103294781A (zh) 一种用于处理页面数据的方法与设备
CN102637172B (zh) 网页分块标注方法与系统
CN103309862A (zh) 一种网页类型识别方法和系统
CN103166981A (zh) 一种无线网页转码方法及装置
CN104217038A (zh) 一种针对财经新闻的知识网络构建方法
CN103440315B (zh) 一种基于主题的Web页面清洗方法
CN108921184A (zh) 一种通用的网页类型判定方法
CN103491116A (zh) 正文相关的结构化数据的处理方法及装置
CN107153716A (zh) 网页内容提取方法和装置
CN106503211A (zh) 面向信息发布类网站的移动版自动生成的方法
CN104572934A (zh) 一种基于dom的网页关键内容抽取方法
CN108804472A (zh) 一种网页内容抽取方法、装置及服务器
CN103942211A (zh) 一种正文页的识别方法及装置
CN105117434A (zh) 一种网页分类方法和系统
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN105550279A (zh) 基于视觉的列表页识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 300020 Tianjin Heping District, South Road, No. 11 International Building 23 purchase of Wheat

Applicant after: Tianjin mass information technology Limited by Share Ltd

Address before: 300020 Tianjin Heping District, South Road, No. 11 International Building 23 purchase of Wheat

Applicant before: Tianjin Hylanda Information Technology Co.,Ltd.

COR Change of bibliographic data
WW01 Invention patent application withdrawn after publication

Application publication date: 20160504

WW01 Invention patent application withdrawn after publication