CN1920815A - 基于网页内容的网页清洗方法 - Google Patents

基于网页内容的网页清洗方法 Download PDF

Info

Publication number
CN1920815A
CN1920815A CN 200610026382 CN200610026382A CN1920815A CN 1920815 A CN1920815 A CN 1920815A CN 200610026382 CN200610026382 CN 200610026382 CN 200610026382 A CN200610026382 A CN 200610026382A CN 1920815 A CN1920815 A CN 1920815A
Authority
CN
China
Prior art keywords
webpage
url
cleaned
website
tabulation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200610026382
Other languages
English (en)
Inventor
邱致中
沈超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI TAIKOR MEDIA CO Ltd
Original Assignee
SHANGHAI TAIKOR MEDIA CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI TAIKOR MEDIA CO Ltd filed Critical SHANGHAI TAIKOR MEDIA CO Ltd
Priority to CN 200610026382 priority Critical patent/CN1920815A/zh
Publication of CN1920815A publication Critical patent/CN1920815A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

为解决清洗网页的通用性问题,本发明提供一种基于网页内容的网页清洗方法,该方法不对网页的html标签结构加以假设,而将发明点放在网页的文本内容上,也就是不包括标记的那部分元素体;该方法先从网上下载待清洗的网页,将网页分解为在html中作为超链接出现的url的列表,以及文本型元素体的列表;再从网上找到与待清洗网页具有相似网页结构与内容的网页,对于给定的两张网页,如果某一文本型元素体同时在这两张网页中出现,则将待清洗网页文本型元素体删除,得到清洗后的网页文本内容,达到清洗网页的效果。优点是,与网页结构无关,能够适应于现在越来越多的自定义网页的处理需要,具有很强的通用性。

Description

基于网页内容的网页清洗方法
技术领域
本发明属于智能信息处理领域,涉及一种基于网页内容的网页清洗方法。
背景技术:
web信息作为信息源越来越多地被应用在智能信息处理系统中,尽管如rss等新技术不断出现,html文本依然是主要信息来源;html文件是标准的ASCII文件,它看起来象是加入了许多被称为链接签(tag)的特殊字符串的普遍文本文件。从结构上讲,html文件由元素(element)组成,组成html文件的元素有许多种,用于组织文件的内容和指导文件的输出格式。绝大多数元素是″容器″,即它有起始标记和结尾标记。元素的起始标记叫做起始链接签(starttag),元素结束标记叫做结尾链接签(end tag),在起始链接签和结尾链接签中间的部分是元素体。每一个元素都有名称和可选择的属性,元素的名称和属性都在起始链接签内标明。
由于html网页结构复杂,很难将有用的信息从网页的众多冗余信息(比如导航栏,广告)中提取出来,因而现在还没有成熟、通用的网页清洗技术。而能否对网页信息进行有效的清洗,很大程度决定于对网页的智能信息处理、分类、聚类和文摘等的效果。现在采用较多的清洗网页方法是:
(1).仅去除标签与显式广告。这被浏览器的拦截插件所普遍采用。
(2).为各个网站制定模版或规则。
(3).对于每一类型的网页(比如搜索引擎搜索结果返回网页),利用其html标签的结构进行清洗。
尽管(2)、(3)能对特定网站或特定类型的网页取得比较理想的效果,但缺乏通用性,随着网页越来越强调个性化,强调与用户的交互,网页的html结构变得更加不确定,也更加突现了已有网页清洗方法的局限性。
发明内容
为解决清洗网页的通用性问题,本发明提供一种基于网页内容的网页清洗方法,该方法不对网页的html标签结构加以假设,而将发明点放在网页的文本内容上,也就是不包括标记的那部分元素体;该方法包括网页下载部件,网页选择部件,网页比较部件以及网络适配器;网页下载部件、网页选择部件和网页比较部件按以下顺序工作:
(1)网页下载部件:根据输入的url,从网上下载待清洗的网页,将网页分解为在html中作为超链接出现的url的列表,以及文本型元素体的列表;
(2)网页选择部件:从网上找到与待清洗网页具有相似网页结构与内容的网页,即在待清洗网页的url列表和与待清洗网页有一级超链接关系的网页的url列表中,找到一个与待清洗网页的url最相似的url;
(3)网页比较部件:对于前述给定的两张网页,如果某一文本型元素体同时在这两张网页中出现,则将待清洗网页未被删除的文本型元素体用换行符连接,删除该文本型元素体,得到清洗后的网页文本内容,达到清洗网页目的。
所述网页选择部件中,选择与待清洗网页具有相似网页结构与内容的网页的方法是:
a)url列表中是否还有未检查的url?
b)如果没有,返回与待清先网页url距离最小的url;
c)如果有未检查的url,则从url列表中选择一个未检查的url,URLA,并检查:当前距离=URLA与待清洗网页url的距离;
d)当前距离小于最小距离?若不是,返回(a);
e)当前距离小于最小距离,则最小距离=当前距离,与待清洗网页url距离最小的url=URLA;
f)返回(a)。
概括起来,本发明是输入待清洗网页的url,输出清洗后的网页文本内容;本发明的优点是,与网页结构无关,能够适应于现在越来越多的自定义网页的处理需要,具有很强的通用性。
附图说明
附图1是本发明三个部件之间的关系示意图。
附图2是网页选择部件工作流程图。
具体实施方式
在本实施例中,假定有两个网页A和B,并对A进行清洗:A的HTML是:<html><head>
<title>A的标题</title></head><body>
<p>广告</p>
内容A<br>
<a href=″http://www.abc.com/a/1/B.html″>到B的链接</a></bod></html>B的HTML是:<html><head>
<title>B的标题</title></head><body>
<p>广告</p>
内容B<br></bod></html>
下面以页面A和B为例详细说明清洗步骤:
1.利用网页下载部件通过计算机网络适配器,从英特网上下载待清洗网页,这步中已经将网页的非文本内容清除,比如脚本代码,html标签等。
在本实施例中,我们从页面A得到标题″A的标题″及内容″广告″、″内容A″及到B的url链接″到B的链接″。
2.利用网页下载部件和第1步中得到的url列表,通过计算机网络适配器,从英特网上下载与待清洗网页有一级超链接关系的网页。
在本实施例中,url列表中仅有到B的一个链接。
3.利用网页选择部件,在待清洗网页的url列表和与待清洗网页有一级超链接关系的网页的url列表中,找到一个与待清洗网页的url最相似的url。选择方法在后文中详述。
在本实施例中,选择仅有的到B的链接。
4.利用网页下载部件下载第三步得到的url在本实施例中,我们下载页面B得到标题″B的标题″及内容″广告″、″内容B″。
5.利用网页比较部件,和第1步、第4步得到的结果,处理待清洗的网页,并将待清洗网页未被删除的文本型元素体用换行符连接,得到清洗后的网页文本内容。清洗方法在后文中详述。
在本实施例中,比较页面A和B的内容即″广告内容A″和″广告内容B″,并去掉″广告字样″得到″内容A″,即为页面A清洗后的真实内容。
请参阅附图2网页选择流程图所示,在此流程中,url被认为就是一个字符串,url的相似即是字符串的相似。对一个字符串加一个字符或减一个字符或改变一个字符成为一次变化。通过对一个字符串的若干次变化可以使其成为一个给定的字符串。字符串A与字符串B的距离是字符串A要变成字符串B所需要的最小的变化数。
网页比较流程:已有两个列表,即待清洗网页的文本型元素体列表和由网页选择部件选出的与待清洗网页相似的网页的文本型元素体列表,分别记为c11,c12,...c21,c22,...
1.比较两个元素体是否相同。若
a.存在c1i与c2j相同,且
b.对于任意的k~=i,c1k~=c1i,且
c.对于任意的l~=j,c21~=c2j
则认为c1i与c2j是需要被清除的内容。
反复执行第一步,直到没有两个元素体满足a、b、c三个条件
2.将c11,c12,...剩下的文本型元素体用换行符连接,并返回。

Claims (2)

1、一种基于网页内容的网页清洗方法,其特征在于:该方法包括网页下载部件,网页选择部件,网页比较部件以及网络适配器;网页下载部件、网页选择部件和网页比较部件工作顺序是:
(1)网页下载部件:根据输入的url,从网上下载待清洗的网页,将网页分解为在html中作为超链接出现的url的列表,以及文本型元素体的列表;
(2)网页选择部件:从网上找到与待清洗网页具有相似网页结构与内容的网页,即在待清洗网页的url列表和与待清洗网页有一级超链接关系的网页的url列表中,找到一个与待清洗网页的url最相似的url;
(3)网页比较部件:对于前述给定的两张网页,如果某一文本型元素体同时在这两张网页中出现,将待清洗网页未被删除的文本型元素体用换行符连接,删除该文本型元素体,得到清洗后的网页文本内容,达到清洗网页目的。
2、按权利要求1所述的基于网页内容的网页清洗方法,其特征在于:所述网页选择部件中,选择与待清洗网页具有相似网页结构与内容的网页的方法是:
a)url列表中是否还有未检查的url?
b)如果没有,返回与待清先网页url距离最小的url;
c)如果有未检查的url,则从url列表中选择一个未检查的url,URLA,并检查:当前距离=URLA与待清洗网页url的距离;
d)当前距离小于最小距离?若不是,返回(a);
e)当前距离小于最小距离,则最小距离=当前距离,与待清洗网页url距离最小的url=URLA;
f)返回(a)。
CN 200610026382 2006-05-09 2006-05-09 基于网页内容的网页清洗方法 Pending CN1920815A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200610026382 CN1920815A (zh) 2006-05-09 2006-05-09 基于网页内容的网页清洗方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200610026382 CN1920815A (zh) 2006-05-09 2006-05-09 基于网页内容的网页清洗方法

Publications (1)

Publication Number Publication Date
CN1920815A true CN1920815A (zh) 2007-02-28

Family

ID=37778541

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200610026382 Pending CN1920815A (zh) 2006-05-09 2006-05-09 基于网页内容的网页清洗方法

Country Status (1)

Country Link
CN (1) CN1920815A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101866362A (zh) * 2010-07-01 2010-10-20 优视科技有限公司 移动通讯设备终端的自动定位页面主要内容的方法及系统
CN101639856B (zh) * 2009-09-11 2011-05-11 清华大学 检测互联网信息传播的网页关联评价装置
CN104021126A (zh) * 2013-02-28 2014-09-03 深圳市世纪光速信息技术有限公司 网页内容的过滤方法及服务器
CN111931113A (zh) * 2020-09-16 2020-11-13 深圳壹账通智能科技有限公司 一种数据清洗方法及相关设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101639856B (zh) * 2009-09-11 2011-05-11 清华大学 检测互联网信息传播的网页关联评价装置
CN101866362A (zh) * 2010-07-01 2010-10-20 优视科技有限公司 移动通讯设备终端的自动定位页面主要内容的方法及系统
CN104021126A (zh) * 2013-02-28 2014-09-03 深圳市世纪光速信息技术有限公司 网页内容的过滤方法及服务器
CN104021126B (zh) * 2013-02-28 2020-02-07 深圳市世纪光速信息技术有限公司 网页内容的过滤方法及服务器
CN111931113A (zh) * 2020-09-16 2020-11-13 深圳壹账通智能科技有限公司 一种数据清洗方法及相关设备

Similar Documents

Publication Publication Date Title
CN101650715B (zh) 一种筛选网页上链接的方法和装置
CN108920434B (zh) 一种通用的网页主题内容提取方法和系统
US8868621B2 (en) Data extraction from HTML documents into tables for user comparison
CN101694658A (zh) 基于新闻去重的网页爬虫的构建方法
CN101079056A (zh) 一种搜索方法和系统
CN108052632B (zh) 一种网络信息获取方法、系统及企业信息搜索系统
US10324984B2 (en) System and method for content selection for web page indexing
CN102662969B (zh) 一种基于网页结构语义的互联网信息对象定位方法
CN101036143A (zh) 用于记号空间资料库的多级查询处理系统与方法
JP2006004417A (ja) 情報ファイルの特定のタイプを認識する方法及び装置
JP2009104591A (ja) ウェブ文書クラスタリング方法およびシステム
CN101814083A (zh) 网页自动分类方法和系统
CN100527132C (zh) 分类样本集的优化方法和内容相关广告服务器
CN101916285A (zh) 一种互联网网页内容解析方法及装置
CN1920815A (zh) 基于网页内容的网页清洗方法
CN110457579B (zh) 基于模板和分类器协同工作的网页去噪方法及系统
CN102236654A (zh) 基于内容相关性的Web无效链接过滤方法
CN103544283A (zh) 网站信息合并去重方法
CN105069112A (zh) 一种行业垂直搜索引擎系统
CN108228656B (zh) 基于cart决策树的url分类方法及装置
US11334592B2 (en) Self-orchestrated system for extraction, analysis, and presentation of entity data
CN106649308A (zh) 一种分词词库更新方法及系统
CN101097580A (zh) 一种对网络广告进行排序的方法
Augsten et al. Efficient top-k approximate subtree matching in small memory
CN103617225A (zh) 一种关联网页搜索方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20070228