CN104965849A - 一种基于wvp_dom树相似性的网页不变形噪音过滤方法 - Google Patents

一种基于wvp_dom树相似性的网页不变形噪音过滤方法 Download PDF

Info

Publication number
CN104965849A
CN104965849A CN201510147986.XA CN201510147986A CN104965849A CN 104965849 A CN104965849 A CN 104965849A CN 201510147986 A CN201510147986 A CN 201510147986A CN 104965849 A CN104965849 A CN 104965849A
Authority
CN
China
Prior art keywords
node
webpage
noise
wvp
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510147986.XA
Other languages
English (en)
Other versions
CN104965849B (zh
Inventor
玄世昌
杨武
王巍
苘大鹏
岳国栋
朱宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201510147986.XA priority Critical patent/CN104965849B/zh
Publication of CN104965849A publication Critical patent/CN104965849A/zh
Application granted granted Critical
Publication of CN104965849B publication Critical patent/CN104965849B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明属于网页主题提取领域,主要是一种基于WVP_DOM树相似性的网页不变形噪音过滤方法。本发明包括:对网页进行预处理;利用现有方法在WVP_DOM树中识别噪音信息并标记;遍历WVP_DOM树,具有相同的标签名称的相似结点为兄弟结点;如果结点是噪音结点且无兄弟结点,回溯到父结点,继续查找父结点的相似结点;如果结点是噪音结点且兄弟结点具有相似结构,则将结点删除,不会造成网页变形。本发明提出基于WVP_DOM树相似性的网页不变形噪音过滤方法,针对传统网页去噪方法易导致网页变形的缺点做出改进,通过查找噪音信息相似结构的方式,来解决网页去噪后网页变形这一问题。

Description

一种基于WVP_DOM树相似性的网页不变形噪音过滤方法
技术领域
本发明属于网页主题提取领域,主要是一种基于WVP_DOM树相似性的网页不变形噪音过滤方法。
背景技术
近年来,互联网技术始终保持着快速发展的趋势,使用互联网的人群也呈现爆炸性的增长,目前互联网上已经形成了庞大的数据源并且这些数据源多以网页的形式存在。为快速准确从海量信息源中获取有用的信息,数据挖掘与web信息检索技术扮演越发重要的角色。可是网页往往不仅包含网页主题,还包含很多网页广告链接及相关推荐这类不相关的内容,即噪音信息。这些信息不仅影响用户的阅读体验,而且可能造成网页的主题偏移,使自动化应用在对网页进行分析时造成分析数据有所偏差从而降低了自动化应用处理速率及准确率。因此,研究和实现高效、实用的web网页中广告等噪音信息过滤技术具有相当重要的意义。
目前已经存在对网页中的噪音信息进行过滤的方法,如2010年常红要在《基于标签分析的网页正文提取技术研究》中提出的方法,该方法提出了一种基于区域分块的HTML元素删除法和内嵌式元素提取法,可提取网页正文。这种方法处理后的信息依然保持网页的格式,使网页在浏览器中显示的时候网页中的噪音信息无法显示出来,达到了网页噪音信息净化的目的。但是该方法往往存在一个问题,就是当网页噪音信息过滤时,可能改变了网页布局结构,从而导致网页变形,进而影响用户的阅读体验。图1为该论文的实验效果,上半部分为原网页,下部分为实验后效果,可以看出网页中右侧的噪音信息虽然得到过滤,但是网页中的页码发生了偏移,造成了网页变形。
发明内容
本发明的目的在于提供一种有效的改善网页噪音过滤后网页变形的一种基于WVP_DOM树相似性的网页不变形噪音过滤方法。
本发明的目的是这样实现的:
(1)对网页进行预处理:将HTML网页文档转换成XHTML文档,排除文档中的格式及不规范错误;过滤掉网页中的脚本,注释及样式信息;将清洗后的主体内容构建成文档对象DOM树,标记出每个元素的视觉属性,属性包括垂直偏移,水平偏移,长和高信息,构建成基于视觉属性分析的文档对象WVP_DOM树;
(2)利用现有方法在WVP_DOM树中识别噪音信息并标记;
(3)遍历WVP_DOM树,具有相同的标签名称的相似结点为兄弟结点;
(4)如果结点是噪音结点且无兄弟结点,回溯到父结点,继续查找父结点的相似结点;
(5)如果结点是噪音结点且兄弟结点具有相似结构,则将结点删除,不会造成网页变形;
(6)如果结点是噪音结点并且兄弟结点结构不相似并且所有兄弟结点均为噪音信息结点,则回溯到父结点,继续查找父结点的相似结点;
(7)当步骤(4)(5)(6)均不满足时,若该结点标签为<td>、<tr>标签,则认为具有相似结构,删除结点;否则该结点无相似结点,不删除该结点。
本发明的有益效果在于:
本发明提出基于WVP_DOM树相似性的网页不变形噪音过滤方法,针对传统网页去噪方法易导致网页变形的缺点做出改进,通过查找噪音信息相似结构的方式,来解决网页去噪后网页变形这一问题。从而使网页噪音信息过滤后对用户是无感的。既使噪音信息有效的过滤,又不影响用户的阅读体验。
附图说明
图1为传统网页去噪方法处理网页后造成网页变形。
图2为噪音信息过滤网页不变形方法流程图。
图3为查找WVP_DOM树相似结构说明图。
图4为传统方法网页变形图和本方法结果对比。
具体实施方式
下面结合具体实施例对本发明作更详细的描述:
本发明针对现有的网页噪音过滤方法往往导致网页结构改变,从而导致网页变形,进而影响用户阅读体验的缺点,提出了一种噪音过滤网页不变形方法,该方法首先将网页转化成一棵DOM树的变体,即WVP_DOM树,在WVP_DOM树中识别出网页的噪音信息,接着在树中查找噪音信息的相似结构,在找到相似结构的情况下,将噪音信息删除,否则回溯到其父结点。该方法可以有效的改善网页噪音过滤后网页变形这一缺点。
基于WVP_DOM树相似性的网页不变形噪音过滤方法,包括:
将网页文档转换成基于视觉属性分析的文档对象WVP_DOM,并判断对象中各结点是否是噪音结点;根据噪音结点的相似结构判断是否删除该结点。
WVP_DOM的构建是:
首先将原本不严谨的HTML网页文档转换成XHTML文档,排除文档中的格式及不规范的问题;接着过滤掉网页中的脚本,注释及样式的信息,这些信息对噪音块判断作用不大,还会影响处理速度;最后将清洗后的主体内容构建成一棵变形的文档对象DOM树,并标记出每个元素的视觉属性,属性包括垂直偏移,水平偏移,长和高等信息,从而构建成一棵基于视觉属性分析的文档对象WVP_DOM树。
结点的相似结构是:
WVP_DOM树中,会有很多兄弟结点具有相同的标签名称,我们称这样的结点具有相似结点,两者具有相似结构,通常过滤掉这样的结点不会造成网页变形。
本发明的一种基于WVP_DOM树相似性的网页不变形噪音过滤方法具体包括以下步骤:
①WVP_DOM树构建
②噪音信息识别
③使网页不变形的过滤噪音信息
本发明的一种基于WVP_DOM树相似性的网页不变形噪音过滤实施方法为:
(1)对网页进行预处理。首先将原本不严谨的HTML网页文档转换成XHTML文档,排除文档中的格式及不规范的问题;接着过滤掉网页中的脚本,注释及样式的信息,这些信息对噪音块判断作用不大,还会影响处理速度;最后将清洗后的主体内容构建成一棵变形的文档对象DOM树,并标记出每个元素的视觉属性,属性包括垂直偏移,水平偏移,长和高等信息,从而构建成一棵基于视觉属性分析的文档对象WVP_DOM树。
(2)利用现有方法在WVP_DOM树中识别噪音信息并标记。传统方法直接将噪音结点去除,这样容易改变网页结构,导致网页变形,于是需要将标记出的噪音信息做进一步的处理。
(3)首先遍历WVP_DOM树,其中会有很多兄弟结点具有相同的标签名称,我们称这样的结点具有相似结点,两者具有相似结构,例如在文档中一个元素的元素内容是由五个元素组成,将5个元素分别标记为a元素、b元素、c元素、d元素、e元素,其中b元素及c元素仅是修饰性的作用,我们将其忽略掉。下面所要处理的是剩余的a,d,e元素。在WVP_DOM树中a,d,e元素这三个元素是以兄弟结点的形式存在,若其中a结点与其中一个结点,假如是b结点具有相同标签名,则称a结点与b结点具有相似性,或者b结点是a结点的相似结点。通常过滤掉这样的结点不会造成网页变形。因此对每一个结点做如下判断。
(4)如果结点是噪音结点且无兄弟结点,回溯到父结点,继续查找父结点的相似结点。
(5)如果结点是噪音结点且兄弟结点具有相似结构,则将结点删除,不会造成网页变形。
(6)如果结点是噪音结点并且兄弟结点结构不相似并且所有兄弟结点均为噪音信息结点,则回溯到父结点,继续查找父结点的相似结点。。
(7)当(4)(5)(6)情况均不满足时,若该结点标签为<td>、<tr>标签,则认为具有相似结构,删除结点;否则该结点无相似结点,为保证网页不变形,不删除该结点。
代理系统通过内外网之间的分流服务器将80端口的流量引到代理服务器,从而获得流量。客户端发出请求时,代理系统的网络IO方法被触发,调用连接方法使代理系统与服务器之间建立连接,接着代理系统代替客户端将请求发送给服务器。当服务器对请求做出响应时,网络IO方法再次触发,将数据传输到代理会话方法。如果服务器返回的数据为HTML网页,则调用基于WVP_DOM树相似性的网页不变形噪音过滤方法将噪音信息过滤掉,再将处理后的数据传给客户端,否则代理回话将数据传给客户端。按此流程从而实现对Web网页噪音信息过滤的代理系统。
(1)实验环境
当前环境采用回流模式,在一台服务器上部署WEB代理系统,另一台服务器部署当作客户端。WEB代理系统代理客户端访问外部网络,客户端不能够直接访问外部网络。因此WEB代理系统能够获得服务器响应的网页文档,在发给客户端之前,对文档进行处理,客户端接受到的就是噪音过滤后的网页文档。
(2)实验结果和分析
该实验对搜狐,腾讯,雅虎,新浪,网易,凤凰网,人民网,新华网8个网站进行测试,用四个级别来描述该方法对网页噪音过滤后网页的效果,分别为优级,良级,中级和差级。将噪音信息基本过滤且网页主题内容保留完全的网页记为优级;将噪音信息部分残留但是主题信息保留完好的网页记为良级;噪音信息残留很多但主题保留完整的或者存在少量丢失的标记为中;剩余的网页标记为差级。当用本文提出的基于WVP_DOM树相似性的网页不变形噪音过滤方法对网页进行处理时,网页若判定结果为“优”或“良”的网页为噪音过滤成功,则噪音过滤成功率为94.81%。《基于标签分析的网页正文提取技术研究》提出的方法中存在的网页变形的问题得到了有效的改善,对比图如图4所示,上图中页码部分已经偏移到右侧,而本方法处理后网页未变形。并且经分析结果我们得出以下结论:基于WVP_DOM树相似性的网页不变形噪音过滤方法有效改善传统噪音信息时造成的网页变形的问题。而且通过对比我们可以看出该方法在各门户网站的处理效果基本一致,通用性较好。

Claims (1)

1.一种基于WVP_DOM树相似性的网页不变形噪音过滤方法,其特征在于:
(1)对网页进行预处理:将HTML网页文档转换成XHTML文档,排除文档中的格式及不规范错误;过滤掉网页中的脚本,注释及样式信息;将清洗后的主体内容构建成文档对象DOM树,标记出每个元素的视觉属性,属性包括垂直偏移,水平偏移,长和高信息,构建成基于视觉属性分析的文档对象WVP_DOM树;
(2)利用现有方法在WVP_DOM树中识别噪音信息并标记;
(3)遍历WVP_DOM树,具有相同的标签名称的相似结点为兄弟结点;
(4)如果结点是噪音结点且无兄弟结点,回溯到父结点,继续查找父结点的相似结点;
(5)如果结点是噪音结点且兄弟结点具有相似结构,则将结点删除,不会造成网页变形;
(6)如果结点是噪音结点并且兄弟结点结构不相似并且所有兄弟结点均为噪音信息结点,则回溯到父结点,继续查找父结点的相似结点;
(7)当步骤(4)(5)(6)均不满足时,若该结点标签为<td>、<tr>标签,则认为具有相似结构,删除结点;否则该结点无相似结点,不删除该结点。
CN201510147986.XA 2015-03-31 2015-03-31 一种基于wvp_dom树相似性的网页不变形噪音过滤方法 Active CN104965849B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510147986.XA CN104965849B (zh) 2015-03-31 2015-03-31 一种基于wvp_dom树相似性的网页不变形噪音过滤方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510147986.XA CN104965849B (zh) 2015-03-31 2015-03-31 一种基于wvp_dom树相似性的网页不变形噪音过滤方法

Publications (2)

Publication Number Publication Date
CN104965849A true CN104965849A (zh) 2015-10-07
CN104965849B CN104965849B (zh) 2018-12-07

Family

ID=54219885

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510147986.XA Active CN104965849B (zh) 2015-03-31 2015-03-31 一种基于wvp_dom树相似性的网页不变形噪音过滤方法

Country Status (1)

Country Link
CN (1) CN104965849B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106610998A (zh) * 2015-10-26 2017-05-03 烽火通信科技股份有限公司 一种新型的网页数据基于地区噪音过滤方法
KR102248294B1 (ko) * 2020-11-05 2021-05-04 주식회사 해시스크래퍼 동일 구조의 데이터를 추출하는 방법 및 그를 이용한 장치

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101290624A (zh) * 2008-06-11 2008-10-22 华东师范大学 一种新闻网页元数据自动抽取方法
US7669119B1 (en) * 2005-07-20 2010-02-23 Alexa Internet Correlation-based information extraction from markup language documents
CN101727498A (zh) * 2010-01-15 2010-06-09 西安交通大学 一种基于web结构的网页信息自动提取方法
CN102156737A (zh) * 2011-04-12 2011-08-17 华中师范大学 一种中文网页主题内容的提取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7669119B1 (en) * 2005-07-20 2010-02-23 Alexa Internet Correlation-based information extraction from markup language documents
CN101290624A (zh) * 2008-06-11 2008-10-22 华东师范大学 一种新闻网页元数据自动抽取方法
CN101727498A (zh) * 2010-01-15 2010-06-09 西安交通大学 一种基于web结构的网页信息自动提取方法
CN102156737A (zh) * 2011-04-12 2011-08-17 华中师范大学 一种中文网页主题内容的提取方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
VARADARAJAN K M等: "Affordance based part recognition for grasping and manipulation", 《ICRA WORKSHOP ON AUTONOMOUS GRASPING》 *
常红要: "基于标签分析的网页正文提取技术研究", 《万方数据》 *
徐冉: "网页信息净化方法的研究与实现", 《万方数据》 *
徐超: "基于DOM的网页净化方法研究", 《万方数据》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106610998A (zh) * 2015-10-26 2017-05-03 烽火通信科技股份有限公司 一种新型的网页数据基于地区噪音过滤方法
KR102248294B1 (ko) * 2020-11-05 2021-05-04 주식회사 해시스크래퍼 동일 구조의 데이터를 추출하는 방법 및 그를 이용한 장치
WO2022097891A1 (ko) * 2020-11-05 2022-05-12 주식회사 해시스크래퍼 동일 구조의 데이터를 추출하는 방법 및 그를 이용한 장치

Also Published As

Publication number Publication date
CN104965849B (zh) 2018-12-07

Similar Documents

Publication Publication Date Title
CN105022827B (zh) 一种面向领域主题的Web新闻动态聚合方法
CN105843965B (zh) 一种基于url主题分类的深层网络爬虫表单填充方法和装置
CN103530429B (zh) 一种网页正文抽取的方法
Peters et al. Content extraction using diverse feature sets
CN101727498A (zh) 一种基于web结构的网页信息自动提取方法
CN110390038B (zh) 基于dom树的页面分块方法、装置、设备及存储介质
Zheng et al. Template-independent news extraction based on visual consistency
CN104572934B (zh) 一种基于dom的网页关键内容抽取方法
JP5930496B2 (ja) レイアウトファイルにおける構造化情報の取得方法及び装置
CN103984749A (zh) 一种基于链接分析的聚焦爬虫方法
CN103399693B (zh) 单页面整体刷新后菜单重新定位方法及系统
RU2010141559A (ru) Ранжирование результатов поиска с использованием расстояния редактирования и информации о документе
CN105302876A (zh) 基于正则表达式的url过滤方法
CN104598536B (zh) 一种分布式网络信息结构化处理方法
CN108921184A (zh) 一种通用的网页类型判定方法
CN106055722A (zh) 网页爬虫抓取方法及系统
Chu et al. Automatic data extraction of websites using data path matching and alignment
CN105740355A (zh) 基于聚集文本密度的网页正文提取方法及装置
CN104965849A (zh) 一种基于wvp_dom树相似性的网页不变形噪音过滤方法
CN102236713A (zh) 一种数字电视交互服务页面的信息提取方法及其装置
CN108255895A (zh) 一种使用上下文环境规则的网页数据获取方法
CN105550279A (zh) 基于视觉的列表页识别方法
CN102937958B (zh) 一种基于不完全子树匹配的Web数据记录提取方法
Pakojwar et al. Web data extraction and alignment using tag and value similarity
John et al. Methods for removing noise from web pages: a review

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant