CN105550279A - 基于视觉的列表页识别方法 - Google Patents
基于视觉的列表页识别方法 Download PDFInfo
- Publication number
- CN105550279A CN105550279A CN201510910416.1A CN201510910416A CN105550279A CN 105550279 A CN105550279 A CN 105550279A CN 201510910416 A CN201510910416 A CN 201510910416A CN 105550279 A CN105550279 A CN 105550279A
- Authority
- CN
- China
- Prior art keywords
- link
- page
- list page
- html
- access control
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
一种本发明的基于视觉的列表页识别方法,依据视觉规则对页面的Html进行分块、完成Html主体区域的识别,进而判断是否是列表页以获取必要的连接。先找到网页的主体部分,左右边栏和页眉页脚都忽略,然后根据字体,字号,字重,位置等信息,来判断主体部分,如果是以链接为主体则可判断为列表页。本发明通过模仿人在观察Web页面时候的处理方式,提高了列表页收集的速度和准确度,从而便于及时准确地对网站上变化的内容进行收集。
Description
技术领域
本发明涉及互联网信息采集的技术领域,具体说是一种基于视觉的列表页识别方法。
背景技术
在舆情监控系统中,在有限资源的情况下,如何及时准确的获取网站内容的变化,基本上是两种思路,第一种思路是搜索引擎的思路,下载整个网站,分析处理网站中的任何一个网页,这种办法虽然数据全面,但是更新效率低,不适合监控类对时效性的要求。第二种思路是针对列表页,只更新列表页,对列表页中发现的新的正文链接进行分析处理。
网站中的网页是如此众多,哪些是正文页,哪些是列表页,需要认为的进行分析,先确定列表页,然后将其加入系统中,进行监测,系统会定时更新,并且发现其中的正文链接,然后进行相应的分析处理。
这种传统的人工收集列表页的方法,很难把网站的全部列表页收集全,经常会遗漏一些客户敏感的列表页,而且比较耗费时间,尤其是需要添加多个网站的列表页的时候,工作量巨大。
发明内容
本发明要解决的技术问题是提供一种基于视觉的列表页识别方法。
本发明为解决公知技术中存在的技术问题所采取的技术方案是:
本发明的基于视觉的列表页识别方法,包括以下步骤:
A、基于浏览器的下载,获取网页的Dom树;
B、进行Html分块,即按照视觉进行分块;
C、Html主体区域的识别,以找到主要的区域;
D、列表页模式识别,通过模式识别判断是否是列表页;
E、分析链接,获取候选链接,找到必要的链接;
F、获取到新链接时,返回执行步骤A。
本发明还可以采用以下技术措施:
步骤A中,基于浏览器核心首先下载整体网页和网页附带的代码文件,然后进行渲染,渲染后使每个Dom树的节点获得相应的浏览器的属性,最后输出整体的Dom树。
下载过程中增加黑名单,禁止下载多媒体文件;禁止下载广告网站、网站外的资源和非重要的代码文件;区分重要资源和非重要资源;增加Http的Cache功能模块。
步骤B中,使用Web页面的视觉提示,结合DOM树进行页面语义分块。
依视觉进行页面分块时考量的维度包括字符、字符的统计属性和Html页面元素的属性;其中字符维度中又包括字体、字号、字重、文字颜色、背景色和对齐方式的考量;字符的统计属性维度中又包括文字的字符数、链接文字的字符数、文字密度和链接密度;Html页面元素的属性维度中又包括边框、Html元素的属性、背景图片、矩形区域的坐标和宽高和Z轴方向上的层次。
步骤C中,Html主体区域识别中所依据的判断维度为:由上至下,离页眉距离近;占页面主体宽度至少60%;占页面的的主体面积;位于网页的明显位置。
步骤D中,列表页的判断维度包括:文本的数量、链接的数量、链接的位置信息、链接文字的数量、链接所在的标签名称、链接和链接的相对位置信息,左对齐和间隔均匀、链接块相对主体区域的位置信息、图片链接块的位置信息、链接的宽度信息、链接所在的风格名称的一致性。
本发明具有的优点和积极效果是:
本发明的基于视觉的列表页识别方法中,依据视觉规则对页面的Html进行分块、完成Html主体区域的识别,进而判断是否是列表页以获取必要的连接。本发明通过模仿人在观察Web页面时候的处理方式,提高了列表页收集的速度和准确度,从而便于及时准确地对网站上变化的内容进行收集。
附图说明
图1是本发明的基于视觉的列表页识别方法的流程图。
具体实施方式
以下通过具体实施例对本发明进行详细说明。
本发明的基于视觉的列表页识别方法,包括以下步骤:
A、基于浏览器的下载,获取网页的Dom树;
B、进行Html分块,即按照视觉进行分块;
C、Html主体区域的识别,以找到主要的区域;
D、列表页模式识别,通过模式识别判断是否是列表页;
E、分析链接,获取候选链接,找到必要的链接;
F、获取到新链接时,返回执行步骤A。
判断标准的依据就是:先找到网页的主体部分,左右边栏和页眉页脚都忽略,然后根据字体,字号,字重,位置等信息,来判断主体部分,如果是以链接为主体则可判断为列表页。
步骤A中,基于IE或Chrome的浏览器核心首先下载整体网页和网页附带的js,css等代码文件,然后进行渲染,渲染后使每个Dom树的节点获得相应的浏览器的属性,最后输出整体的Dom树。
由于传统的下载只需要下载一个html,而现在需要下载非常多的url,主要包括主网页,css,js,图片,ajax等,几十倍于传统下载,所以需要在下载过程中增加黑名单,禁止下载jpg,png,mp3等多媒体文件;禁止下载广告网站、网站外的资源和非重要的js等代码文件;区分重要资源和非重要资源;增加squid等Http的Cache功能模块,增速下载。
步骤B中,使用Web页面的视觉提示,结合DOM树进行页面语义分块。
在进行Web页面分块的时候,把一个语义块作为一个单一对象来看待,而不管Web页面的内部结构是如何描述的。
依视觉进行页面分块时考量的维度包括字符、字符的统计属性和Html页面元素的属性;其中字符维度中又包括字体、字号、字重、文字颜色、背景色和对齐方式的考量;字符的统计属性维度中又包括文字的字符数、链接文字的字符数、文字密度和链接密度;Html页面元素的属性维度中又包括边框、Html元素的属性、背景图片、矩形区域的坐标和宽高和Z轴方向上的层次。
页面分块所依视觉考量维度如以下表1所示:
表1页面视觉考量维度
网页的组成一般都分成,页眉页脚,侧边栏,和主体区域,基本上都是3/7拆分,为了分析的准确性,需要识别网页的主体部分。步骤C中,Html主体区域识别中所依据的判断维度为:由上至下,离页眉距离近;占页面主体宽度至少60%;占页面的的主体面积;位于网页的明显位置。
步骤D中,列表页的判断维度包括:文本的数量、链接的数量、链接的位置信息、链接文字的数量、链接所在的标签名称、链接和链接的相对位置信息,左对齐和间隔均匀、链接块相对主体区域的位置信息、图片链接块的位置信息、链接的宽度信息、链接所在的风格名称的一致性。
具体识别时,例如:网页中有大段连续的纯文本,或者有较多文本,且发现了标题,则不是列表页;网页中的链接单排纵向排列,左对齐,间隔均匀且数量较多,则是列表页;首链接离主体区域的位置,不能太远,如果链接在li或者tr,dd中则加权;候选的链接,需要在字符数量,位置,高宽等满足相应的条件;如果链接的风格名称相同,则进行加权;对于图片的列表页,要求图片是网格状排布,图片的大小,满足一定的条件,图片的排布要求,图片大小相当,等间距排布且上对齐。
如果整个网站爬行,任务量会比较大,需要对链接的文字,和链接的性质,多个链接的特性进行归纳;如果链接上的文字,包括“更多”“more”“上一页”等字符,则需要进行分析,如果Url上包括“index”“list”“channel”等需要进行分析。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例公开如上,然而,并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当然会利用揭示的技术内容作出些许更动或修饰,成为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均属于本发明技术方案的范围内。
Claims (7)
1.一种基于视觉的列表页识别方法,包括以下步骤:
A、基于浏览器的下载,获取网页的Dom树;
B、进行Html分块,即按照视觉进行分块;
C、Html主体区域的识别,以找到主要的区域;
D、列表页模式识别,通过模式识别判断是否是列表页;
E、分析链接,获取候选链接,找到必要的链接;
F、获取到新链接时,返回执行步骤A。
2.根据权利要求1所述的基于视觉的列表页识别方法,其特征在于:步骤A中,基于浏览器核心首先下载整体网页和网页附带的代码文件,然后进行渲染,渲染后使每个Dom树的节点获得相应的浏览器的属性,最后输出整体的Dom树。
3.根据权利要求2所述的基于视觉的列表页识别方法,其特征在于:下载过程中增加黑名单,禁止下载多媒体文件;禁止下载广告网站、网站外的资源和非重要的代码文件;区分重要资源和非重要资源;增加Http的Cache功能模块。
4.根据权利要求1或3所述的基于视觉的列表页识别方法,其特征在于:步骤B中,使用Web页面的视觉提示,结合DOM树进行页面语义分块。
5.根据权利要求4所述的基于视觉的列表页识别方法,其特征在于:依视觉进行页面分块时考量的维度包括字符、字符的统计属性和Html页面元素的属性;其中字符维度中又包括字体、字号、字重、文字颜色、背景色和对齐方式的考量;字符的统计属性维度中又包括文字的字符数、链接文字的字符数、文字密度和链接密度;Html页面元素的属性维度中又包括边框、Html元素的属性、背景图片、矩形区域的坐标和宽高和Z轴方向上的层次。
6.根据权利要求5所述的基于视觉的列表页识别方法,其特征在于:步骤C中,Html主体区域识别中所依据的判断维度为:由上至下,离页眉距离近;占页面主体宽度至少60%;占页面的的主体面积;位于网页的明显位置。
7.根据权利要求6所述的基于视觉的列表页识别方法,其特征在于:步骤D中,列表页的判断维度包括:文本的数量、链接的数量、链接的位置信息、链接文字的数量、链接所在的标签名称、链接和链接的相对位置信息,左对齐和间隔均匀、链接块相对主体区域的位置信息、图片链接块的位置信息、链接的宽度信息、链接所在的风格名称的一致性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510910416.1A CN105550279A (zh) | 2015-12-10 | 2015-12-10 | 基于视觉的列表页识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510910416.1A CN105550279A (zh) | 2015-12-10 | 2015-12-10 | 基于视觉的列表页识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105550279A true CN105550279A (zh) | 2016-05-04 |
Family
ID=55829468
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510910416.1A Withdrawn CN105550279A (zh) | 2015-12-10 | 2015-12-10 | 基于视觉的列表页识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105550279A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107038240A (zh) * | 2017-04-20 | 2017-08-11 | 金电联行(北京)信息技术有限公司 | 一种网页列表内容检测方法 |
CN109766978A (zh) * | 2019-01-17 | 2019-05-17 | 北京悦时网络科技发展有限公司 | 一种词码的生成方法、识别方法、装置、存储介质 |
CN113505288A (zh) * | 2021-06-28 | 2021-10-15 | 南京大学 | 一种基于统计和桩定位视觉的快速检测和定位方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102253979A (zh) * | 2011-06-23 | 2011-11-23 | 天津海量信息技术有限公司 | 基于视觉的web页面萃取方法 |
CN102467501A (zh) * | 2010-10-29 | 2012-05-23 | 北大方正集团有限公司 | 一种从新闻列表页抽取新闻记录元数据的方法及系统 |
CN102929948A (zh) * | 2012-09-29 | 2013-02-13 | 北京奇虎科技有限公司 | 列表页识别系统及方法 |
-
2015
- 2015-12-10 CN CN201510910416.1A patent/CN105550279A/zh not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102467501A (zh) * | 2010-10-29 | 2012-05-23 | 北大方正集团有限公司 | 一种从新闻列表页抽取新闻记录元数据的方法及系统 |
CN102253979A (zh) * | 2011-06-23 | 2011-11-23 | 天津海量信息技术有限公司 | 基于视觉的web页面萃取方法 |
CN102929948A (zh) * | 2012-09-29 | 2013-02-13 | 北京奇虎科技有限公司 | 列表页识别系统及方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107038240A (zh) * | 2017-04-20 | 2017-08-11 | 金电联行(北京)信息技术有限公司 | 一种网页列表内容检测方法 |
CN107038240B (zh) * | 2017-04-20 | 2020-07-24 | 金电联行(北京)信息技术有限公司 | 一种网页列表内容检测方法 |
CN109766978A (zh) * | 2019-01-17 | 2019-05-17 | 北京悦时网络科技发展有限公司 | 一种词码的生成方法、识别方法、装置、存储介质 |
CN109766978B (zh) * | 2019-01-17 | 2020-06-16 | 北京悦时网络科技发展有限公司 | 一种词码的生成方法、识别方法、装置、存储介质 |
US11334780B2 (en) | 2019-01-17 | 2022-05-17 | Yueshi Network Technology Development Co., Ltd. | Method for generating word code, method and device for recognizing codes |
CN113505288A (zh) * | 2021-06-28 | 2021-10-15 | 南京大学 | 一种基于统计和桩定位视觉的快速检测和定位方法 |
CN113505288B (zh) * | 2021-06-28 | 2023-08-01 | 南京大学 | 一种基于统计和桩定位视觉的快速检测和定位方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103605794B (zh) | 一种网站分类方法 | |
CN102541874B (zh) | 网页正文内容提取方法及装置 | |
CN103914478B (zh) | 网页训练方法及系统、网页预测方法及系统 | |
CN108959383A (zh) | 网络舆情的分析方法、装置及计算机可读存储介质 | |
CN109522562B (zh) | 一种基于文本图像融合识别的网页知识抽取方法 | |
CN102270206A (zh) | 一种有效网页内容的抓取方法及装置 | |
CN104331438B (zh) | 对小说网页内容选择性抽取方法和装置 | |
US11907644B2 (en) | Detecting compatible layouts for content-based native ads | |
CN110457579B (zh) | 基于模板和分类器协同工作的网页去噪方法及系统 | |
CN103294781A (zh) | 一种用于处理页面数据的方法与设备 | |
CN102637172B (zh) | 网页分块标注方法与系统 | |
CN103309862A (zh) | 一种网页类型识别方法和系统 | |
CN103166981A (zh) | 一种无线网页转码方法及装置 | |
CN104217038A (zh) | 一种针对财经新闻的知识网络构建方法 | |
CN103440315B (zh) | 一种基于主题的Web页面清洗方法 | |
CN108921184A (zh) | 一种通用的网页类型判定方法 | |
CN103491116A (zh) | 正文相关的结构化数据的处理方法及装置 | |
CN107153716A (zh) | 网页内容提取方法和装置 | |
CN106503211A (zh) | 面向信息发布类网站的移动版自动生成的方法 | |
CN104572934A (zh) | 一种基于dom的网页关键内容抽取方法 | |
CN108804472A (zh) | 一种网页内容抽取方法、装置及服务器 | |
CN103942211A (zh) | 一种正文页的识别方法及装置 | |
CN105117434A (zh) | 一种网页分类方法和系统 | |
CN112818200A (zh) | 基于静态网站的数据爬取及事件分析方法及系统 | |
CN105550279A (zh) | 基于视觉的列表页识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 300020 Tianjin Heping District, South Road, No. 11 International Building 23 purchase of Wheat Applicant after: Tianjin mass information technology Limited by Share Ltd Address before: 300020 Tianjin Heping District, South Road, No. 11 International Building 23 purchase of Wheat Applicant before: Tianjin Hylanda Information Technology Co.,Ltd. |
|
COR | Change of bibliographic data | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20160504 |
|
WW01 | Invention patent application withdrawn after publication |