CN1920815A

CN1920815A - 基于网页内容的网页清洗方法

Info

Publication number: CN1920815A
Application number: CN 200610026382
Authority: CN
Inventors: 邱致中; 沈超
Original assignee: SHANGHAI TAIKOR MEDIA CO Ltd
Current assignee: SHANGHAI TAIKOR MEDIA CO Ltd
Priority date: 2006-05-09
Filing date: 2006-05-09
Publication date: 2007-02-28

Abstract

为解决清洗网页的通用性问题，本发明提供一种基于网页内容的网页清洗方法，该方法不对网页的html标签结构加以假设，而将发明点放在网页的文本内容上，也就是不包括标记的那部分元素体；该方法先从网上下载待清洗的网页，将网页分解为在html中作为超链接出现的url的列表，以及文本型元素体的列表；再从网上找到与待清洗网页具有相似网页结构与内容的网页，对于给定的两张网页，如果某一文本型元素体同时在这两张网页中出现，则将待清洗网页文本型元素体删除，得到清洗后的网页文本内容，达到清洗网页的效果。优点是，与网页结构无关，能够适应于现在越来越多的自定义网页的处理需要，具有很强的通用性。

Description

基于网页内容的网页清洗方法

技术领域

本发明属于智能信息处理领域，涉及一种基于网页内容的网页清洗方法。

背景技术：

web信息作为信息源越来越多地被应用在智能信息处理系统中，尽管如rss等新技术不断出现，html文本依然是主要信息来源；html文件是标准的ASCII文件，它看起来象是加入了许多被称为链接签(tag)的特殊字符串的普遍文本文件。从结构上讲，html文件由元素(element)组成，组成html文件的元素有许多种，用于组织文件的内容和指导文件的输出格式。绝大多数元素是″容器″，即它有起始标记和结尾标记。元素的起始标记叫做起始链接签(starttag)，元素结束标记叫做结尾链接签(end tag)，在起始链接签和结尾链接签中间的部分是元素体。每一个元素都有名称和可选择的属性，元素的名称和属性都在起始链接签内标明。

由于html网页结构复杂，很难将有用的信息从网页的众多冗余信息(比如导航栏，广告)中提取出来，因而现在还没有成熟、通用的网页清洗技术。而能否对网页信息进行有效的清洗，很大程度决定于对网页的智能信息处理、分类、聚类和文摘等的效果。现在采用较多的清洗网页方法是：

(1).仅去除标签与显式广告。这被浏览器的拦截插件所普遍采用。

(2).为各个网站制定模版或规则。

(3).对于每一类型的网页(比如搜索引擎搜索结果返回网页)，利用其html标签的结构进行清洗。

尽管(2)、(3)能对特定网站或特定类型的网页取得比较理想的效果，但缺乏通用性，随着网页越来越强调个性化，强调与用户的交互，网页的html结构变得更加不确定，也更加突现了已有网页清洗方法的局限性。

发明内容

为解决清洗网页的通用性问题，本发明提供一种基于网页内容的网页清洗方法，该方法不对网页的html标签结构加以假设，而将发明点放在网页的文本内容上，也就是不包括标记的那部分元素体；该方法包括网页下载部件，网页选择部件，网页比较部件以及网络适配器；网页下载部件、网页选择部件和网页比较部件按以下顺序工作：

(1)网页下载部件：根据输入的url，从网上下载待清洗的网页，将网页分解为在html中作为超链接出现的url的列表，以及文本型元素体的列表；

(2)网页选择部件：从网上找到与待清洗网页具有相似网页结构与内容的网页，即在待清洗网页的url列表和与待清洗网页有一级超链接关系的网页的url列表中，找到一个与待清洗网页的url最相似的url；

(3)网页比较部件：对于前述给定的两张网页，如果某一文本型元素体同时在这两张网页中出现，则将待清洗网页未被删除的文本型元素体用换行符连接，删除该文本型元素体，得到清洗后的网页文本内容，达到清洗网页目的。

所述网页选择部件中，选择与待清洗网页具有相似网页结构与内容的网页的方法是：

a)url列表中是否还有未检查的url？

b)如果没有，返回与待清先网页url距离最小的url；

c)如果有未检查的url，则从url列表中选择一个未检查的url，URLA，并检查：当前距离＝URLA与待清洗网页url的距离；

d)当前距离小于最小距离？若不是，返回(a)；

e)当前距离小于最小距离，则最小距离＝当前距离，与待清洗网页url距离最小的url＝URLA；

f)返回(a)。

概括起来，本发明是输入待清洗网页的url，输出清洗后的网页文本内容；本发明的优点是，与网页结构无关，能够适应于现在越来越多的自定义网页的处理需要，具有很强的通用性。

附图说明

附图1是本发明三个部件之间的关系示意图。

附图2是网页选择部件工作流程图。

具体实施方式

在本实施例中，假定有两个网页A和B，并对A进行清洗：A的HTML是：<html><head>

广告

内容A

<a href＝″http://www.abc.com/a/1/B.html″>到B的链接</a></bod></html>B的HTML是：<html><head>

广告

内容B </bod></html>

下面以页面A和B为例详细说明清洗步骤：

1.利用网页下载部件通过计算机网络适配器，从英特网上下载待清洗网页，这步中已经将网页的非文本内容清除，比如脚本代码，html标签等。

在本实施例中，我们从页面A得到标题″A的标题″及内容″广告″、″内容A″及到B的url链接″到B的链接″。

2.利用网页下载部件和第1步中得到的url列表，通过计算机网络适配器，从英特网上下载与待清洗网页有一级超链接关系的网页。

在本实施例中，url列表中仅有到B的一个链接。

3.利用网页选择部件，在待清洗网页的url列表和与待清洗网页有一级超链接关系的网页的url列表中，找到一个与待清洗网页的url最相似的url。选择方法在后文中详述。

在本实施例中，选择仅有的到B的链接。

4.利用网页下载部件下载第三步得到的url在本实施例中，我们下载页面B得到标题″B的标题″及内容″广告″、″内容B″。

5.利用网页比较部件，和第1步、第4步得到的结果，处理待清洗的网页，并将待清洗网页未被删除的文本型元素体用换行符连接，得到清洗后的网页文本内容。清洗方法在后文中详述。

在本实施例中，比较页面A和B的内容即″广告内容A″和″广告内容B″，并去掉″广告字样″得到″内容A″，即为页面A清洗后的真实内容。

请参阅附图2网页选择流程图所示，在此流程中，url被认为就是一个字符串，url的相似即是字符串的相似。对一个字符串加一个字符或减一个字符或改变一个字符成为一次变化。通过对一个字符串的若干次变化可以使其成为一个给定的字符串。字符串A与字符串B的距离是字符串A要变成字符串B所需要的最小的变化数。

网页比较流程：已有两个列表，即待清洗网页的文本型元素体列表和由网页选择部件选出的与待清洗网页相似的网页的文本型元素体列表，分别记为c1¹，c1²，...c2¹，c2²，...

1.比较两个元素体是否相同。若

a.存在c1ⁱ与c2^j相同，且

b.对于任意的k～＝i，c1^k～＝c1ⁱ，且

c.对于任意的l～＝j，c2¹～＝c2^j，

则认为c1ⁱ与c2^j是需要被清除的内容。

反复执行第一步，直到没有两个元素体满足a、b、c三个条件

2.将c1¹，c1²，...剩下的文本型元素体用换行符连接，并返回。

Claims

1、一种基于网页内容的网页清洗方法，其特征在于：该方法包括网页下载部件，网页选择部件，网页比较部件以及网络适配器；网页下载部件、网页选择部件和网页比较部件工作顺序是：

(3)网页比较部件：对于前述给定的两张网页，如果某一文本型元素体同时在这两张网页中出现，将待清洗网页未被删除的文本型元素体用换行符连接，删除该文本型元素体，得到清洗后的网页文本内容，达到清洗网页目的。

2、按权利要求1所述的基于网页内容的网页清洗方法，其特征在于：所述网页选择部件中，选择与待清洗网页具有相似网页结构与内容的网页的方法是：

a)url列表中是否还有未检查的url？

b)如果没有，返回与待清先网页url距离最小的url；

d)当前距离小于最小距离？若不是，返回(a)；

f)返回(a)。