CN101872347B

CN101872347B - 判断网页类型的方法和装置

Info

Publication number: CN101872347B
Application number: CN200910133695A
Authority: CN
Inventors: 何楠; 王主龙; 于浩
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2009-04-22
Filing date: 2009-04-22
Publication date: 2012-09-26
Anticipated expiration: 2029-04-22
Also published as: CN101872347A

Abstract

公开了一种判断网页的网页类型的方法和装置。所述方法包括：基于待判断网页的URL，在预先存储的规则列表中进行规则匹配，其中规则列表包括多条用于确定网页类型的规则记录；如果规则匹配成功，则依据成功匹配的规则得到待判断网页的网页类型；如果规则匹配失败，则从待判断网页的URL和/或HTML源代码中提取预定特征，并基于由从提取的预定特征中选择的特征构成的特征向量，使用分类器对待判断网页进行网页类型分类，以得到待判断网页的网页类型。在根据本发明的方案中，能够融合规则识别方案与基于统计学习的识别方案的优点，并且能够实现对包括博客、论坛、新闻等在内的各种网页类型进行判断。

Description

判断网页类型的方法和装置

技术领域

本发明总体上涉及一种包含文本分类的自然语言处理技术，尤其是涉及判断网页类型的方法和/或装置。

背景技术

随着计算机及网络技术的迅猛发展，个人空间的需求、网站创建的简单化等多种因素推动了网站数量的迅速增加。以中国为例，根据中国互联网信息中心(CNNIC)发布的“第22次中国互联网络发展状况统计报告”，截止到2008年6月底，中国域名得总数达到1485万个，年增长率达到61.8％。近年来，网络新闻、博客(Blog)/个人空间、论坛(BBS)等各种网络媒体的用户数量大大增加。在包含基础应用、网络媒体、数字娱乐、电子商务、网络社区等在内的所有网络应用中，浏览网络新闻、拥有博客/个人空间和访问论坛的用户规模分别为20620万、10706万和9822万人，均跻身十大网络应用中，相对2007年12月底都有明显提高。根据CNNIC的定义，网络社区是指以博客/个人空间、论坛等形式存在的网上交流空间。网络社区的形式多种多样，搜索引擎网站开通的贴吧和空间，电子商务网站开通的论坛，即时通信网站背靠巨大的用户规模而开通的个人空间，还有面向各种不同人群定位的专业论坛、博客/个人空间等，都是网络社区发展的形式。随着网络社区用户的不断增多，拥有博客/个人空间的用户数量也节节攀升，据CNNIC统计，截止到2008年6月底，拥有博客/个人空间的用户比例达到42.3％，据此推算博客/个人空间的站点数量在一亿以上。

由于存在着大量的论坛、博客和新闻站点，各种针对它们的搜索引擎也层出不穷，例如，奇虎论坛搜索(http://www.qihoo.com)、有道博客搜索(http://blog.youdao.com)、百度新闻搜索(http://news.baidu.com/)等。国内最大的社区搜索引擎奇酷声称收录了超过110万个社区论坛，覆盖了国内95％以上的社区。百度新闻搜索列出的部分新闻源达到了400多个。这些针对特定网页类型的搜索引擎和一些其他网络应用往往需要对网页的类型做出判断，尤其是对博客页面作为判断。博客在网络社区中的重要性毋庸置疑，据Technorati发布的报告《State of the Blogosphere》(2008)中的统计，认为与传统媒体相比博客给予了更多信息的网民占到总数的43％。目前对网页类型判断的研究也主要集中在博客上。与论坛页面相比，博客页面的格式更加规范，而且大多数的博客都使用少数博客提供商提供的博客平台，如国外的Blogspot、msn，国内的新浪博客、搜狐博客等。

据Pranam Kolari、Tim Finin和Anupam Joshi在2006年发表的论文“SVMs for the Blogosphere：Blog Identification and Splog Detection”中的叙述，根据对随机获取的500000个博客主页的统计，使用率排名前十的博客平台对应的博客主页占到总数的82％。另外，他们提出了一种基于SVM(支持向量机)的博客识别方法，其中使用的特征主要包括网页中的词、网页的统一资源定位符(URL)、网页中的锚文本(anchor text)等，通过组合不同的特征，达到了很好的识别效果。

此外，题为“Identifying a web page as belonging to a blog”的美国专利申请US2007/0294252A1(2007年12月20日公开)中也提出了和Pranam Kolari的方法类似的基于机器学习的博客页面判断方法，不同的是专利提出了判定阈值T，如果网页为博客页面的概率P小于阈值T，则从网页中提取另外的特征来重新判断。

另一种比较有代表性的博客识别方法是由Tomoyuki Nanno等人在2004年发表的论文“Automatic Collection and Monitoring of JapaneseWeblogs”中提出的，这种方法不使用统计机器学习，而是分析HTML(超文本标记语言)页面的特征，将包含符合一定特征的文章条目的页面判别为博客页面。这些条目的特征包括：每个条目在头部需要包含一个日期表示，这些日期有一致的格式，而且按照升序或者降序排列。

虽然上述方法在博客识别中取得了很好的效果，但是它们割裂了基于机器学习的统计识别方法与基于博客提供商提供的博客平台或网页特定特征的规则识别方法，在识别过程中没有将这两种方法组合起来。与统计识别方法相比，规则识别方法一般具有速度快、精度高等优点，但由于网站数量的不断增加，规则识别方法难以覆盖所有的情况，而统计识别方法可以综合多种特征对网页类型做出判断，从原理上讲对任何网页都适用，但速度一般不如规则识别方法快，而且也有误判的可能。而且，在现有的识别过程中使用的特征不够丰富，在特征提取上没有考虑到论坛、新闻等类型的页面的独特之处。因此，仍然需要能够至少部分地解决现有技术中的存在的上述问题、并且能够有效地识别出包括博客、论坛等各类网页的技术。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

本发明的目的是提供一种用于判断网页的网页类型的方法和/或装置，其能够至少部分地解决现有技术存在的上述问题。

为了实现上述目的，根据本发明的一个方面，本发明提供了一种判断网页类型的方法，其包括：基于待判断网页的统一资源定位符(URL)，在预先存储的规则列表中执行规则匹配，其中规则列表包括多条用于确定网页类型的规则记录；如果规则匹配成功，则依据成功匹配的规则得到待判断网页的网页类型；以及如果规则匹配失败，则从待判断网页的URL和/或超文本标记语言(HTML)源代码中提取预定特征，并基于由从提取的预定特征中选择的特征构成的特征向量，使用分类器对待判断网页执行网页类型分类，以得到待判断网页的网页类型。

根据本发明的另一个方面，还提供了一种判断网页类型的装置，其包括：规则存储器，用于存储包括多条用于确定网页类型的规则记录的规则列表；规则匹配器，用于基于待判断网页的统一资源定位符(URL)在规则列表中执行规则匹配，并且在规则匹配成功的情况下依据成功匹配的规则得到待判断网页的网页类型；特征提取器，用于响应于规则匹配器所执行的规则匹配不成功，从待判断网页的URL和/或超文本标记语言(HTML)源代码中提取预定特征；以及分类器，用于基于由从特征提取器所提取的预定特征中选择的特征构成的特征向量，对待判断网页执行网页类型分类，以得到待判断网页的网页类型。

依据本发明的其它方面，还提供了相应的计算机可读存储介质和计算机程序产品。

本发明的一个优点在于，在根据本发明的方案中，综合使用了基于规则匹配来确定网页类型的方案与基于统计学习的网页类型分类方案，先基于待判断网页的URL在预先存储的规则列表中进行规则匹配，以确定网页类型，然后在规则匹配不成功的情况下，才基于从待判断网页的URL和/或HTML源代码中提取的预定特征(URL特征和/或网页特征)，采用分类器进行网页类型分类。这样，能够融合规则识别方案与基于统计学习的识别方案的优点。

本发明的另一个优点在于，在根据本发明的方案中，取决于分类器进行网页类型分类时构建的特征向量，网页类型判断中的网页类型不限于新闻、博客和论坛，而是只要分类器经过了相应的训练，就可以实现对任意类型网页的判断。

通过以下结合附图对本发明的最佳实施例的详细说明，本发明的这些以及其他优点将更加明显。

附图说明

本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分，而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中：

图1是示出了根据本发明实施例的用于判断网页类型的方法的示意性流程图；

图2是详细地示出了根据本发明的实施例、在图1所示的方法的步骤S110中依据待判断网页的URL在规则列表中执行规则匹配的具体过程的示意性流程图；

图3是示出了根据本发明的实施例、在对分类器进行训练的过程中生成或更新规则列表的过程的示意性流程图；

图4是示出了根据本发明的实施例、如何从待判断网页的URL中提取出日期特征的过程的示意性流程图；

图5示出了根据本发明的实施例、依据分类器的网页类型分类结果对规则列表进行更新的过程的示意性流程图；以及

图6是示出了根据本发明实施例的用于判断网页类型的装置的示意性结构框图。

本领域技术人员应当理解，附图中的元件仅仅是为了简单和清楚起见而示出的，而且不一定是按比例绘制的。例如，附图中某些元件的尺寸可能相对于其他元件放大了，以便有助于提高对本发明实施例的理解。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，并且这些决定可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的步骤和/或装置结构，而省略了与本发明关系不大的其他细节。

图1是示出了根据本发明实施例的用于判断网页类型的方法100的示意性流程图。

如图1所示，在步骤S110中，响应于输入待判断网页的统一资源定位符(URL)(也可将其简称为待判断URL)，依据待判断URL，在预先存储的规则列表中执行规则匹配，以确定出待判断网页的网页类型。其中，规则列表中包括多条用于确定网页类型的规则记录。

在此，可以基于从待判断URL中提取的站点信息来执行规则匹配，而且站点信息可以被定义为URL中的、介于开头的“http://”和其后出现的第一个“/”之间的字符串。例如，假设待判断网页的URL为“http://www.cymfony.com/know_center_engagement.asp”，则从中可以提取出的站点信息为“www.cymfony.com”。有关规则匹配的具体处理过程将在下文中参见图2所示的流程图加以详述。

接下来，在步骤S120中，确定规则匹配是否成功，如果规则匹配不成功，则处理进行到步骤S130，否则处理转到步骤S150。

在步骤S130中，从待判断网页的URL和/或HTML源代码中提取预定的特征。有关预定特征及其具体提取过程将在下文中详述。

然后，在步骤S140中，基于由所提取的预定特征中选择的特征构成的特征向量，利用分类器对待判断网页进行网页类型分类，从而确定出待判断网页的类型(例如，博客、论坛、新闻等)。

其中，分类器是事先训练好的，并且是利用训练URL集以及与之对应的网页HTML源代码集和网页类型集、通过计算由从提取出来的预定特征中选择的特征而构成的特征向量来训练的，而且可以使用各种已有的分类模型、例如支持向量机(SVM)模型，最大熵模型(Maximum EntropyModel)和贝叶斯模型(Bayes Model)等来实现。

此外，在从提取的预定特征中选择特征构成特征向量时，可以依据下述中的任意一种或多种算法来进行选择：文档频率算法，信息增益算法，互信息算法，Chi-Square统计算法，或其他特征选择算法。

接下来，在步骤S150中，输出待判断网页的、经规则匹配或者分类器分类而确定的网页类型。

根据本发明的另一个实施例，在执行图1所示的方法100的过程中，在步骤S130中所提取的特征可以包括待判断URL的URL特征和/或待判断网页的网页特征。

其中，URL特征包括字符串特征和/或日期特征。字符串特征包括URL中的由特定分隔符分隔开的各个字符串，它是依据预先设置的特定分隔符从待判断URL中提取出来的。例如，当特定分隔符被设置为“/”、“.”、“？”、“＝”、“&”、“_”等时，URL“http://www.cymfony.com/know_center_engagement.asp”可以被分隔为如下的字符串：http，www，cymfony，com，know，center，engagement，asp。日期特征是URL中由特定分隔符分隔开的字符串的日期匹配等级。日期特征的具体提取过程将在下文中参照图4所示的流程图来加以详述。

网页特征是从待判断网页的HTML源代码中提取出来的，并且例如它可以包括下述中的一个或者多个特征：

(1)Meta Tag Generator的内容，即meta name为generator的HTML标记中的content的值，例如，假设在HTML源代码中出现这样的HTML标记：“<meta name＝″generator″content＝″WordPress 2.6″/>”，则Meta Tag Generator的内容为“WordPress 2.6”；

(2)网页中是否存在RSS Feed或ATOM Feed，其中RSS Feed的一般形式为：<link rel＝″alternate″type＝″application/rss+xml″>，而ATOM Feed的一般形式为：<link rel＝″alternate″type＝″application/atom+xml″>；

(3)网页的正文；

(4)网页中的链接；

(5)网页中的锚文本(anchor Text)；以及

(6)网页中的重复模式的出现次数(也可被简称为出现次数)。

目前，关于(1)～(5)中列出的各种网页特征如何提取的论文或者专利文献很多，而关于(6)中列出的特征“出现次数”，在瞿有利、于浩等人的文章“Web页面信息块的自动分割”(参见《中文信息学报》2004年第18卷第1期)中提出了如何确定最优重复模板，本领域技术人员基于该最优重复模板可以很容易地获得“出现次数”这一特征。因此，为了避免因不重要的细节而模糊了本发明，在此不再对如何提取网页特征的过程进行详述。

图2是详细地示出了根据本发明的实施例、在图1所示方法的步骤S110中依据待判断URL在规则列表中执行规则匹配的具体过程200的示意性流程图。

如图2所示，在步骤S205，从规则列表L中读取第一条记录R，并将其记为当前记录。其中，在规则列表L的每一条记录中，存储有站点信息S、与之相关的网页类型信息T、以及站点信息为S且网页类型信息为T的URL的出现次数信息(即，上文中提到的“网页中的重复模式的出现次数”)。

在步骤S210，将从待判断URL中提取出来的站点信息(将其简称为待判断URL中的站点)记为S′，将待判断网页的网页类型(也可称为待判断URL的网页类型)设为T′，并且创建空的记录列表L′。在步骤S215，将当前记录中的站点记为S，网页类型记为T，出现次数记为N。

然后，在步骤S220中，将待判断URL中的站点S′与当前记录中的站点S进行比较，确定S与S′是否完全相同。如果是，则在步骤S225，将当前记录插入到记录列表L′中，然后处理进行到步骤S230；否则，处理转到步骤S230。

在步骤S230，判断规则列表L中是否存在下一条记录R′，如果是的话，则处理进行到步骤S235，否则处理进行到步骤S240。

在步骤S235，将下一条记录R′设置为当前记录，然后处理返回到步骤S215，并且重复上述步骤S215～S235的处理，直至在步骤S230中确定规则列表中不再存在下一条记录为止，从而完成了待判断URL中的站点与规则列表的所有记录中的站点的比较。

在步骤S240，判断记录列表L′中的记录的数目是否等于1。如果确定记录列表L′中的记录的数目不等于1，则这表明，在规则列表中可能没有找到其中的站点与待判断URL中的站点S′完全匹配的记录(对应于记录列表L′中的记录的数目＝0的情形)，或者在规则列表中可能找到不只一条记录中的站点与待判断URL中的站点S′完全匹配(对应于记录列表L′中的记录的数目≥2的情形)，因此无法准确地根据所存储的规则确定出待判断网页URL的网页类型，为此，在步骤S250可以确定规则匹配过程失败。

如果在步骤S240中确定记录列表L′中的记录的数目为1，这表明在规则列表中只找到一条其中的站点与待判断URL中的站点S′完全匹配的记录，则处理进行到步骤S245，判断在记录列表L′中的唯一记录中的出现次数N是否大于或等于某一预先设定的值M。如果N≥M，则处理进行到步骤S255，确定规则匹配成功，并且将待判断网页的网页类型T′确定为是记录列表L′中的唯一记录中的网页类型T。否则，处理进行到步骤S250，确定规则匹配过程失败。这是因为，如果N＜M，则这表明，虽然在规则列表中找到了其中的站点与待判断URL中的站点S′完全匹配的一条记录，但是该记录中的出现次数太少，这说明这样的记录很可能是由偶然出现的情形导致的，基于这样的记录确定的网页类型的置信度过低，因此也将这样的情形认为是规则匹配不成功。

如上文中所述，在基于待判断URL执行规则匹配时使用了预先存储的规则列表。该规则列表可以是系统开发人员预先设定和存储的，并且/或者可以是在使用训练URL集以及与之对应的网页HTML源代码集和网页类型集、基于由从所提取的预定特征(例如，URL特征和网页特征)中选择的特征构成的特征向量对分类器进行训练的过程中生成或更新的。

下面将结合图3所示的流程图来描述在对分类器进行训练的过程中如何生成或者更新规则列表的过程300。

图3所示，在步骤S305，创建空的规则列表L或者读取已有的规则列表L，然后在步骤S310，读取训练URL集中的第一条URL(也可以将训练URL集中的URL称为训练用URL)，将其记为U，并且读取与该条训练用URL相对应的网页类型并记为T。

在步骤S315，从U中提取站点信息并将其记为S，然后在步骤S320中判断规则列表L是否为空。如果是的话，则在步骤S325，新建一条记录R，其中站点为S，网页类型为T，出现次数为1，并且还将新建的记录R插入到规则列表L中，然后处理进行到步骤S360。

如果步骤S320中确定规则列表L不为空，则在步骤S330，读取规则列表L中的第一条记录，并记其中的站点为S′，网页类型为T′，且出现次数为N′。

接下来，在步骤S335中，判断S与S′、T与T′是否完全相同，如果是，这表明规则列表中已经存储了其中站点为S且网页类型为T的记录，则在步骤S340，将规则列表L中的记录中的出现次数N′加1，即，N′＝N′+1，随后处理进行到步骤S360。

如果步骤S335中的判断结果为否，则在步骤S345，判断规则列表L中是否存在下一条记录R′。如果是的话，则处理进行到步骤S350，记R′中的站点为S′，网页类型为T′，出现次数为N′，然后处理返回到步骤S330，并重复步骤S330至S350的处理。

如果在步骤S345中确定规则列表中不存在下一条记录了，则在步骤S355，新建其中的站点为S、网页类型为T且出现次数为1的记录R，并将新建的记录R插入到规则列表L中，然后处理进行到步骤S360。

接下来，在步骤S360中，确定训练URL集中是否存在下一条训练用URL，如果是的话，则在步骤S365，将下一条训练用URL记为U，其对应的网页类型为T，然后处理返回到步骤S315，并且重复上述步骤S315至S360的处理，直至在步骤S360中确定训练URL集中不再存在下一条训练用URL为止，从而完成了依据训练URL集中的所有URL生成或者更新规则列表的过程，然后，可以在步骤S370中输出所得到的规则列表。

图4是示出了根据本发明的实施例、如何从待判断URL中提取出日期特征的具体过程400的示意性流程图。如上所述，日期特征是URL中由特定分隔符分隔开的字符串的日期匹配等级。

为了便于描述和执行日期匹配，首先分别定义了表示年、月、日的数字表示。其中，表示“年”的数字可以被定义为以下中的任意一个：1980，1981，1982，...，2019，80，81，82，...，99，00，01，...，19；表示“月”的数字可以被定义为以下中的任意一个：1，2，3，4，5，6，7，8，9，01，02，03，04，05，06，07，08，09，10，11，12；而表示“日”的数字可以被定义为以下中的任意一个：01，02，03，04，05，06，07，08，09，1，2，3，...，9，11，...，31。显然，根据实际需要，也可以有其他的定义方式。

然后，可以定义某一字符串m完全匹配年为：m是年。依此类推，还可以定义m完全匹配月或者m完全匹配日。类似地，定义字符串m完全匹配月日为：m是月和日的组合，其中月出现在日前，如0418或923。依此类推，还可以定义m完全匹配年月、m完全匹配年月日等。

另外，还可以定义字符串m包含年为：m中出现年，如：002008。依此类推，还可以定义m包含月和m包含日。类似地，定义字符串m包含月日为：m中连续出现月和日的组合，其中月出现在日前，如5960418或032923。依此类推，还可以定义m包含年月、m包含年月日等。

如图4所示，在步骤S410，对从待判断URL中提取出来的各个字符串执行第一级日期匹配，并且在步骤S420中判断第一级日期匹配是否成功。

在此，假设依据“/”、“.”、“？”、“＝”、“&”、“_”等特定分隔符从待判断URL中提取出来的n个字符串被表示为L₁、L₂、...、L_n，如果字符串满足任意以下条件之一(其中p为自然数，且p或p+1≤n)，则第一级日期匹配成功，否则第一级日期匹配不成功：

a)L_p完全匹配年，且L_p+1完全匹配月日；

b)L_p完全匹配年，L_p+1完全匹配月，且L_p+2完全匹配日；

c)L_p完全匹配年月，且L_p+1完全匹配日；以及

d)L_p完全匹配年月日。

如果在步骤S420中判断第一级日期匹配不成功，则在步骤S430，对所述各个字符串执行第二级日期匹配，并且在步骤S440中判断第二级日期匹配是否成功。

在字符串满足任意以下条件之一时，认为第二级日期匹配成功，否则，第二级日期匹配不成功：

a)L_p完全匹配年；

b)L_p完全匹配年月；

c)L_p完全匹配月日；以及

d)L_p完全匹配月，且L_p+1完全匹配日。

如果在步骤S440中判断第二级日期匹配不成功，则在步骤S450，对所述各个字符串执行第三级日期匹配，并且在步骤S460中判断第三级日期匹配是否成功。

在字符串L_p满足任意以下条件之一时，认为第三级日期匹配成功，否则，第三级日期匹配不成功：

a)L_p包含年；以及

b)L_p包含月日。

如果在步骤S420、S440或者S460中确定相应等级的日期匹配成功，则处理转到步骤S470，输出日期匹配等级(第一级、第二级还是第三级)。如果在步骤S460中确定经过三级的日期匹配后均不匹配，则处理进行到步骤S480，输出日期匹配失败。

此外，根据本发明的另一个实施例，在执行图1所示的方法100的过程中，还可以在步骤S150之前、之后或者与之并行地执行下述步骤：根据分类器对待判断网页的网页类型分类结果，对规则列表进行更新。下面将结合图5所示的流程图对规则列表更新的过程加以描述。

图5是示出了根据本发明的实施例、依据分类器的网页类型分类结果对规则列表进行更新的过程500的示意性流程图。

如图5所示，在步骤S510中，取规则列表L中的第一条记录R，记为当前记录，在步骤S520中，取待判断URL中的站点记为S′，并将经分类器进行分类后输出的网页类型记为T′，并且在步骤S530中，将规则列表L中的当前记录中的站点记为S，网页类型记为T，出现次数记为N。

然后，在步骤S540中，分别将待判断URL的站点S′及分类确定的网页类型T′与当前记录中的站点S和网页类型T进行比较，以判断是否S与S′完全相同且T与T′完全相同。

如果步骤S540中判定S与S′完全相同且T与T′完全相同，则在步骤S550，更新当前记录中的出现次数N＝N+1，然后在步骤S590，结束规则列表的更新过程。

如果步骤S540的判定结果为否，则在步骤S560，判断规则列表L中是否存在下一条记录R′。如果是的话，则在步骤S570中，将R′置为当前记录，并且处理返回到步骤S530，并重复上述步骤S530至S570中的处理，直至在步骤S540中确定在规则列表中找到一条其中的站点S与S′完全相同且网页类型T′与T完全相同的记录为止，或者直至在步骤S560中确定规则列表L中不存在下一条记录了为止。

如果在步骤S560中确定规则列表L中不存在下一条记录，这表明已经对规则列表L中的所有记录中的S和T进行了与S′和T′的比较，则在步骤580中，创建新记录R，其中的站点为S′，网页类型为T′，出现次数为1，并将新创建的记录R插入到规则列表L中，然后在步骤S590，规则列表的更新过程结束。

此外，根据本发明的实施例，还提供了一种用于判断网页类型的装置，其结构示意图如图6所示。图6是示出了根据本发明实施例的用于判断网页类型的装置600的示意性结构框图。

如图6所示，装置600包括规则匹配器610，规则存储器620，特征提取器630和分类器640。其中，特征提取器630又进一步包括URL特征提取单元632和/或网页特征提取单元634。

规则匹配器610用于依据待判断网页的URL(例如，基于从待判断URL中提取出来的站点信息)，在预先存储在规则存储器620中的规则列表中执行规则匹配，以确定出待判断网页的网页类型。其中，规则列表包括多条用于确定网页类型的规则记录。

特征提取器630用于从待判断URL和/或待判断网页的HTML源代码中提取预定的特征，例如URL特征和/或网页特征。可以通过网页下载器(图中未示出)从互联网上下载得到指定URL所对应的网页的HTML源代码，而对于动态页面，还需要运行脚本以得到相应的内容。在特征提取器630中，URL特征提取单元632用于从待判断URL中提取字符串特征和/或日期特征，而网页特征提取单元634用于从待判断网页的HTML源代码中提取待判断网页的网页特征。

分类器640用于基于由特征提取器630所提取出的特征构成的特征向量，对待判断网页进行网页类型分类，从而确定出待判断网页的类型(例如，博客、论坛、新闻等)。如上文中所述，分类器640可以是事先利用训练URL集及其对应的网页集和网页特征集、基于由所述提取的预定特征构成的特征向量训练好的，并且可以采用以下分类模型之一来实现：支持向量机(SVM)模型，最大熵模型，贝叶斯模型等。

可选地，装置600还可以包括规则更新器603，用于根据分类器640对待判断URL的网页分类结果来更新存储在规则存储器620中的规则列表。

鉴于在上文中已经结合图1至图5所示的流程图对装置600的上述各个组成部件的功能及其具体操作过程进行了描述，因此，为了避免不必要的重复，在此就不再对各个组成部件的具体操作过程进行详述了。

通过以上的描述不难看出，与传统的单纯基于统计学习的识别方案或单纯基于规则的识别方案不同，在根据本发明的网页类型判断方法和/或装置中，综合使用了基于规则匹配来确定网页类型的方案与基于统计学习的网页类型分类方案，先基于待判断网页的URL在预先存储的规则列表中进行规则匹配，以确定网页类型，然后在规则匹配不成功的情况下，才基于从待判断网页的URL和/或HTML源代码中提取的预定特征(URL特征和/或网页特征)，采用分类器对待判断网页进行网页类型的分类。这样，能够融合规则识别方案与基于统计学习的识别方案的优点。

而且，在根据本发明的网页类型判断方法和/或装置中，在进行规则匹配时，将从待判断网页的URL中提取出来的站点信息与预先存储的规则记录中的站点信息进行完全匹配，考虑了规则出现歧义的情况，因此可以提高基于规则匹配确定网页类型的准确度。

此外，在根据本发明的网页类型判断方法和/或装置中，在基于所提取的特征进行网页类型分类时，选取了较为丰富的特征，不仅从待判断网页的URL中提取字符串特征，而且还进一步提取了日期特征，另外还从待判断网页的HTML源代码中提取了多种网页特征，并且针对论坛页面提出了重复模式的概念，并将其出现次数作为特征之一，从而使得可以获得更好的网页类型分类结果。

另外，在根据本发明的网页类型判断方法和/或装置中，可以依据通过基于所提取的特征进行网页类型分类而得到的分类结果对规则列表进行更新，从而可以对先前设定或存储的基于待判断网页的URL确定网页类型的规则进行扩充，实现了自反馈，因此，可以有效利用统计分类的结果，提高规则的覆盖面，并进而加快了整个网页类型判断过程。

此外，在根据本发明的网页类型判断方法和/或装置中，规则列表可以在对分类器进行训练的同时被自动地构建或扩充，而不需要人为干预，因此可以减小系统开发人员人工设定规则的负担，并有助于加快整个网页类型判断过程和提高整个系统的准确度。

另外，取决于网页类型分类过程中所使用的特征向量的设置，在根据本发明的方法和/或装置中，所判断的网页类型不限于新闻、博客和论坛，而是只要对分类器进行了相应的训练，可以实现对任意类型网页的判断。

此外，显然，根据本发明的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。

而且，本发明的目的也可以通过下述方式实现：将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备，并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。

此时，只要该系统或者设备具有执行程序的功能，则本发明的实施方式不局限于程序，并且该程序也可以是任意的形式，例如，目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。

上述这些机器可读存储介质包括但不限于：各种存储器和存储单元，半导体设备，磁盘单元例如光、磁和磁光盘，以及其它适于存储信息的介质等。

另外，客户计算机通过连接到因特网上的相应网站，并且将依据本发明的计算机程序代码下载和安装到计算机中然后执行该程序，也可以实现本发明。

最后，还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外，在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上虽然已经结合附图详细描述了本发明的实施例，但是应当明白，上面所描述的实施方式只是用于说明本发明，而并不构成对本发明的限制。对于本领域的技术人员来说，可以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。而且，本申请的范围不仅限于说明书所描述的过程、设备、制造、物质的结构、手段、方法和步骤的具体实施例。本领域内的普通技术人员从本发明的公开内容将容易理解，根据本发明可以使用执行与在此所述的相应实施例基本相同的功能或者获得与其基本相同的结果的、现有和将来要被开发的过程、设备、制造、物质的结构、手段、方法或者步骤。因此，所附的权利要求旨在它们的范围内包括这样的过程、设备、制造、物质的结构、手段、方法或者步骤。

Claims

1.一种用于判断网页的网页类型的方法，包括：

基于待判断网页的统一资源定位符URL，在预先存储的规则列表中执行规则匹配，其中规则列表包括多条用于确定网页类型的规则记录；

如果规则匹配成功，则依据成功匹配的规则得到待判断网页的网页类型；以及

如果规则匹配失败，则从待判断网页的URL和/或超文本标记语言HTML源代码中提取预定特征，并基于由从提取的预定特征中选择的特征构成的特征向量，使用分类器对待判断网页执行网页类型分类，以得到待判断网页的网页类型。

2.根据权利要求1所述的方法，其中，

在所述执行规则匹配的步骤中，基于从待判断网页的URL中提取出的站点信息执行规则匹配，以及

在规则列表中的各条规则记录中存储了站点信息，以及与之对应的网页类型信息和出现次数信息。

3.根据权利要求2所述的方法，其中，站点信息被定义为URL中的介于开头的“http://”和其后出现的第一个“/”之间的字符串。

4.根据权利要求2所述的方法，其中，所述执行规则匹配的步骤进一步包括：

依次将待判断网页的URL中的站点信息与规则列表的各条规则记录中的站点信息执行完全匹配，如果待判断网页的URL中的站点信息与规则记录中的站点信息完全相同，则站点信息匹配成功；以及

判断站点信息匹配成功的次数是否等于1以及成功匹配的规则记录中的出现次数是否大于或等于预先设定的阈值，

其中，如果遍历所有规则记录后站点信息匹配只成功一次，且成功匹配的规则记录中的出现次数大于或等于所述阈值，则规则匹配成功，且将所述待判断网页的网页类型确定为是成功匹配的规则记录中的网页类型，否则规则匹配失败。

5.根据权利要求3所述的方法，其中，所述执行规则匹配的步骤进一步包括：

6.根据权利要求1至5中任意一项所述的方法，其中，所述预定特征包括：从待判断网页的URL中提取出来的URL特征，和/或从待判断网页的HTML源代码中提取出来的网页特征。

7.根据权利要求6所述的方法，其中，所述URL特征包括字符串特征和/或日期特征，其中，字符串特征包括URL中的由特定分隔符分隔开的字符串，日期特征是URL中由特定分隔符分隔开的字符串的日期匹配等级。

8.根据权利要求7所述的方法，其中，特定分隔符至少包括“/”、“.”、“？”、“＝”、“&”或“_”。

9.根据权利要求7所述的方法，其中，在将URL中由特定分隔符分隔开的一系列字符串用L₁、L₂、...、L_n表示的情况下，按照如下方式确定日期匹配等级：

对所述一系列字符串执行第一级日期匹配，判断是否满足任意以下条件之一：(1)L_p完全匹配年，且L_p+1完全匹配月日；(2)L_p完全匹配年，L_p+1完全匹配月，且L_p+2完全匹配日；(3)L_p完全匹配年月，且L_p+1完全匹配日；及(4)L_p完全匹配年月日，如果满足，则第一级日期匹配成功，并确定日期匹配等级为一级，否则第一级日期匹配不成功；

如果第一级日期匹配不成功，则对所述一系列字符串执行第二级日期匹配，判断是否满足任意以下条件之一：(1)L_p完全匹配年；(2)L_p完全匹配年月；(3)L_p完全匹配月日；及(4)L_p完全匹配月，且L_p+1完全匹配日，如果满足，则第二级日期匹配成功，并确定日期匹配等级为二级，否则第二级日期匹配不成功；

如果第二级日期匹配不成功，则对所述一系列字符串执行第三级日期匹配，判断是否满足任意以下条件之一：(1)L_p包含年；及(2)L_p包含月日，如果满足，则第三级日期匹配成功，并确定日期匹配等级为三级，否则第三级日期匹配不成功；以及

如果第三级日期匹配不成功，则确定日期匹配失败，

其中，n和p为自然数，且1≤p≤n。

10.根据权利要求6所述的方法，其中，所述网页特征包括下述中的任意一个或者多个：网页中的Meta Tag Generator的内容，网页中是否存在RSS或ATOM Feed，网页的正文，网页中的链接，网页中的锚文本，和/或网页中的重复模式的出现次数。

11.根据权利要求1到5中任意一项所述的方法，进一步包括：

根据对待判断网页执行网页类型分类的结果对规则列表进行更新。

12.根据权利要求11所述的方法，其中，在待判断网页的URL中的站点信息为S、由分类器对待判断网页执行网页类型分类后确定的网页类型为T的情况下，所述对规则列表进行更新的步骤进一步包括：

遍历规则列表中的所有规则记录，如果有一条规则记录中的站点信息和网页类型信息分别与S和T相同，则将规则列表中的该条规则记录中的出现次数加1；否则，新建记录并将其插入到规则列表中，其中，该新建记录中的站点信息和网页类型信息分别为S和T，且出现次数为1。

13.根据权利要求1到5中任意一项所述的方法，其中，所述分类器是预先训练好的，并且是利用训练URL集以及与之对应的网页HTML源代码集和网页类型集，通过计算由从提取出来的预定特征中选择的特征而构成的特征向量来训练的。

14.根据权利要求13所述的方法，其中，所述分类器采用以下分类模型之一来实现：支持向量机SVM模型，最大熵模型，和贝叶斯模型。

15.根据权利要求13所述的方法，其中，所述规则列表中的规则记录是系统开发人员预先设定的，和/或是事先在对分类器进行训练时利用训练URL集以及与之对应的网页类型集自动生成和/或更新的。

16.根据权利要求1到5中任意一项所述的方法，其中，在从提取的预定特征中选择特征构成特征向量时，依据下述中的任意一种或多种算法来进行选择：文档频率算法，信息增益算法，互信息算法，Chi-Square统计算法，或其他特征选择算法。

17.一种用于判断网页的网页类型的装置，包括：

规则匹配器，用于基于待判断网页的统一资源定位符URL在预先存储的规则列表中执行规则匹配，并且在规则匹配成功的情况下依据成功匹配的规则得到待判断网页的网页类型，其中规则列表包括多条用于确定网页类型的规则记录；

特征提取器，用于响应于规则匹配器所执行的规则匹配不成功，从待判断网页的URL和/或超文本标记语言HTML源代码中提取预定特征；以及

分类器，用于基于由从特征提取器所提取的预定特征中选择的特征构成的特征向量，对待判断网页执行网页类型分类，以得到待判断网页的网页类型。

18.根据权利要求17所述的装置，其中，

规则匹配器基于从待判断网页的URL中提取出的站点信息执行规则匹配，以及

19.根据权利要求18所述的装置，其中，站点信息被定义为URL中的介于开头的“http://”和其后出现的第一个“/”之间的字符串。

20.根据权利要求18所述的装置，其中，规则匹配器依照下述方式执行规则匹配：

21.根据权利要求19所述的装置，其中，规则匹配器依照下述方式执行规则匹配：

22.根据权利要求17至21中任意一项所述的装置，其中，特征提取器进一步包括：

URL特征提取单元，用于从待判断网页的URL中提取出URL特征；和/或

网页特征提取单元，用于从待判断网页的HTML源代码中提取出待判断网页的网页特征。

23.根据权利要求22所述的装置，其中，URL特征提取单元提取URL中的字符串特征和/或日期特征作为所述URL特征，其中字符串特征包括URL中的由特定分隔符分隔开的字符串，日期特征是URL中由特定分隔符分隔开的字符串的日期匹配等级。

24.根据权利要求23所述的装置，其中，特定分隔符至少包括“/”、“.”、“？”、“＝”、“&”或“_”。

25.根据权利要求23所述的装置，其中，在将URL中由特定分隔符分隔开的一系列字符串用L₁、L₂、...、L_n表示的情况下，URL特征提取单元按照如下方式确定日期匹配等级：

如果第三级日期匹配不成功，则确定日期匹配失败，

其中，n和p为自然数，且1≤p≤n。

26.根据权利要求22所述的装置，其中，网页特征提取单元从HTML源代码中提取下述中的任意一个或者多个特征作为网页特征：网页中的Meta Tag Generator的内容，网页中是否存在RSS或ATOM Feed，网页的正文，网页中的链接，网页中的锚文本，和/或网页中的重复模式的出现次数。

27.根据权利要求17到21中任意一项所述的装置，进一步包括：

规则更新器，用于根据分类器对待判断网页执行网页类型分类的结果对存储在规则存储器中的规则列表进行更新。

28.根据权利要求27所述的装置，其中，在待判断网页的URL中的站点信息为S、由分类器对待判断网页执行网页类型分类后确定的网页类型为T的情况下，规则更新器按照下述方式对规则列表进行更新：

29.根据权利要求17到21中任意一项所述的装置，其中，所述分类器是预先训练好的，并且是利用训练URL集以及与之对应的网页HTML源代码集和网页类型集，通过计算由从特征提取器所提取出来的预定特征中选择的特征而构成的特征向量来训练的。

30.根据权利要求29所述的装置，其中，所述分类器采用以下分类模型之一来实现：支持向量机SVM模型，最大熵模型，和贝叶斯模型。

31.根据权利要求29所述的装置，其中，所述规则列表中的规则记录是系统开发人员预先设定的，和/或是事先在对分类器进行训练时利用训练URL集以及与之对应的网页类型集自动生成和/或更新的。

32.根据权利要求17到21中任意一项所述的装置，其中，在从提取的预定特征中选择特征构成特征向量时，依据下述中的任意一种或多种算法来进行选择：文档频率算法，信息增益算法，互信息算法，Chi-Square统计算法，或其他特征选择算法。