CN102646095B

CN102646095B - 一种基于网页分类信息的对象分类方法和系统

Info

Publication number: CN102646095B
Application number: CN201110040468.XA
Authority: CN
Inventors: 谢宣松; 姜珊珊; 孙军; 郑继川; 赵利军
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2011-02-18
Filing date: 2011-02-18
Publication date: 2014-08-06
Anticipated expiration: 2031-02-18
Also published as: CN102646095A

Abstract

本申请提供一种基于网页分类信息的对象分类方法，包括以下步骤：将每个单网页的HTML文档对象模型DOM树转换成特定的包含渲染结果的可扩展标记语言XML树；从每个所述XML树中抽取对象的标识符；从每个所述XML树中抽取单层次链；将来自不同单网页的多个单层次链集成为一棵有向树；以及根据单网页的对象标识符和单层次链，从所述有向树得到此对象的分类信息。本申请采用综合因素来抽取网页中的具有层次的分类信息，这些因素有：节点序列模式匹配和节点位置等的计算方法，这些能够从单网页中得到更精确和有用的分类信息。

Description

一种基于网页分类信息的对象分类方法和系统

技术领域

本申请一般涉及与信息处理和信息抽取相关的技术，更具体地，涉及利用基于因特网上的网页分类信息的对象分类方法和系统。

背景技术

在现有技术中，存在如下一些相关的技术：

1、从网站中抽取层次（Hierarchy extraction from the websites,G06F001700,20091231,NEC(CHINA)CO.,LTD.）

现有的从网站中抽取层次的技术中提供了一种构建对象层次的方法和系统，该方法包括：从一个网站中获取一系列网页，对这些网页进行inter-page（页面间）分析来抽取这些网页的层次；进行intra-page（页面内）分析来标识网页内的语义区块，并且得到所有网页的语义区块层次；然后根据网页的层次，来融合这些语义块的层次，以便于生成相应的分层。

分析：

首先，该技术将一个网页映射成一个对象（inter-）；因为网页的树结构而使对象具有层次结构；然后使用相似的网页（intra-）来改善此对象的层次；该方法基于全页面映射来得到对象的分类信息，与本申请的方法有根本的不同。

2、TaxaMiner:一个自动分类自举的实验框架(An ExperimentationFramework for Automated Taxonomy Bootstrapping,V Kashyap,…ClinicalInformation R&D,Partners HealthCare System)

该现有技术的思路包括：（a）文档簇层次的生成；（b）从这些簇层次中抽取主题分层；（c）对主题层次中的节点进行标注。他们采纳了一系列聚类和自然语言处理相关的技术，以及从实验框架中得到的标识参数；同时提供一种度量来测试主题簇的质量，并且评估不同的参数对质量矩阵带来的影响。

分析：

该方法是从纯文本中得到分类信息，方法和数据源与本申请都明显不同。

3、一个基于分类的从数据密集型网站中自动抽取数据的爬虫(ATaxonomy Based Crawler for Automated Data Extraction from Data-IntensiveWebsites,H.Davulcu,…Department of Computer Science and Engineering,Arizona state Univ.)

这种现有技术采用启发式规则来发现如下结构中的结构化规律：分类块、产品列表以及单产品页面；这些规律被用于将在线目录转换成分类产品数据库，这种转换不需要人为参与以及额外的封装维护负担。

上述现有技术从一个大型的网站首页获取分类信息入口，这些分类信息是一个很大的集合但并不具备精细的层次信息；同时，该文档使用的方式本身也与本申请有明显的不同。

如我们对上述每篇参考文献的分析，我们在权利说明中提到的技术与它们有明显的区别。

此外，本申请采用综合因素来抽取网页中的具有层次的分类信息，这些因素有：节点序列模式匹配和节点位置等的计算方法，这些能够从单网页中得到更精确和有用的分类信息。

基于图的方法来集成多个从不同网页而来的分类信息，并且得到单对象的确切分类信息，用于构建对象库；对异构的网页来说，更具合理性。

现有许多包括分类信息的网页，如产品声明等，这些分类信息是按人类知识来组织的，因此对词典、本体以及对象数据库的构建非常有用。当前的分类信息都是人（专家）来搜集并整理的，这样非常耗时耗力。

正因为现有的网页分类信息包含了人的知识，因此提供了精确发现对象之间关系的可能的途径，如产品之间的关系。但是网页包含了许多噪声，以及不同网页是异构的，即使是对同一种对象来说，不同网站的表现形式也是多样的。如何抽取这些分类信息并集成它们是本发明的目的。

发明内容

本发明的另外方面和优点部分将在后面的描述中阐述，还有部分可从描述中明显地看出，或者可以在本发明的实践中得到。

本发明的应用领域通常包括：构建对象库，并根据分类信息来分类和索引文档。

本发明提供了一种新的通过层次链和对象标识符来自动对网页中对象进行分类的方法。现在这些分类信息被用来分类对象，更进一步，来为对象库构建分类树。

为了达到以上目的，我们采用了一种具有6个步骤的创新的方法来从网页中获取分类信息。

本申请提供一种基于网页分类信息的对象分类方法，包括以下步骤：将每个单网页的HTML文档对象模型DOM树转换成特定的包含渲染结果的可扩展标记语言XML树；从每个所述XML树中抽取对象的标识符；从每个所述XML树中抽取单层次链；将来自不同单网页的多个单层次链集成为一棵有向树；以及根据单网页的对象标识符和单层次链，从所述有向树得到此对象的分类信息，其中所述转换步骤进一步包括：从DOM树中移除与第一列表中枚举的节点相同的节点；删除DOM树中的其他节点属性，只将超链接HREF属性保留到输出的XML树中；如果一个节点没有值，而且只有一个拥有文本值的孩子节点，那么，所述孩子节点的文本值会被看成该节点的值，同时从XML树中移除所述孩子节点；以及通过渲染得到XML树中节点的可视信息，并将节点的可视信息作为节点的属性保留在输出XML树中，其中，第一列表包括根据专家的经验生成的可配置文件中得到的列表名单确定的要删除的节点。

本申请还提供一种基于网页分类信息的对象分类系统，包括：预处理模块，用于通过转换处理将单网页的HTML文档对象模型DOM树转换成特定的包含渲染结果的可扩展标记语言XML树；对象标识符抽取模块，用于每个从所述XML树中抽取对象的标识符；单层次链抽取模块，用于从每个所述XML树中抽取单层次链；多链集成模块，用于将来自不同网页的多个单层次链集成为一棵有向树；和对象分类模块，用于根据单网页的对象标识符和单层次链，从所述有向树得到此对象的分类信息，其中预处理模块中的转换处理进一步包括：从DOM树中移除与第一列表中枚举的节点相同的节点；删除DOM树中的其他节点属性，只将超链接HREF属性保留到输出的XML树中；如果一个节点没有值，而且只有一个拥有文本值的孩子节点，那么，所述孩子节点的文本值会被看成该节点的值，同时从XML树中移除所述孩子节点；以及通过渲染得到XML树中节点的可视信息，并将节点的可视信息作为节点的属性保留在输出XML树中，其中，第一列表包括根据专家的经验生成的可配置文件中得到的列表名单确定的要删除的节点。

附图说明

通过结合附图对本发明的优选实施例进行详细描述，本发明的上述和其他目的、特性和优点将会变得更加清楚，其中相同的标号指定相同结构的单元，并且在其中：

图1示出了对象的一个示例。

图2列举了一个有关对象分类信息以及相对应的网页内容的例子。

图3是根据本发明实施例的对象分类系统的框图。

图4是根据本发明实施例的对象分类系统的示例性PC系统环境的构架示意图。

图5示出了根据本发明实施例的对象分类方法的流程图。

图6示出了节点结构的一个示例。

图7示出了图5的预处理步骤S101的具体实施。

图8示出了图5的抽取对象标识符步骤S102的流程图。

图9示出了根据本发明实施例的图3的系统中的对象标识抽取模块102的示意性实现方框图。

图10示出了图5的抽取单层次链步骤S103的流程图。

图11是根据本发明实施例的节点过滤示意图。

图12表达了根据本发明实施例的模式匹配的过程。

图13示出了根据本发明实施例的图3的系统中的单层次链抽取模块103的示意性实现方框图。

图14示出了根据本发明实施例的节点结构。

图15示出了根据本发明实施例的合并新来的单层次链的过程的流程图。

图16示出了根据本发明实施例的树的形成的示意图。

图17示出了根据本发明实施例的图3的系统中的多链集成模块104的示意性实现方框图。

图18示出了根据本发明实施例查找对象的示例。

图19示出了根据本发明实施例的图3的系统中的对象分类模块105的示意性实现方框图。

具体实施方式

下面将参照示出本发明实施例的附图充分描述本发明。然而，本发明可以以许多不同的形式实现，而不应当认为限于这里所述的实施例。相反，提供这些实施例以便使本公开透彻且完整，并且将向本领域技术人员充分表达本发明的范围。在附图中，为了清楚起见放大了组件。

除非另有定义，这里使用的所有术语（包括技术和科学术语）具有与本发明所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

这里参照支持根据本发明实施例的方法、装置（系统）和计算机程序产品的方框图和流程图描述本发明示例性实施例。应当理解，流程图和/或方框图的每个方框以及流程图和/或方框图的方框组合可以通过计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器，使得通过计算机或其他可编程数据处理装置的处理器执行的指令创建实现流程图和/或方框图方框中指定功能/动作的手段。

这些计算机程序指令也可以存储在计算机可读存储器中，可以引导计算机或其他可编程数据处理装置以特定方式运行，使得存储在计算机可读存储器中的指令产生包括实现流程图和/或方框图方框中指定功能/动作的指令手段的制造物品。

计算机程序指令还可以加载到计算机或其他可编程数据处理装置上，导致在计算机或其他可编程装置上执行一系列操作步骤来产生计算机实现的处理，使得计算机或其他可编程装置上执行的指令提供实现流程图和/或方框图方框中指定功能/动作的步骤。每个方框可以表示代码模块、片断或部分，其包括一个或多个用来实现指定逻辑功能的可执行指令。还应当注意，在其他实现中，方框中标出的功能可能不按图中标出的顺序发生。例如，根据所涉及的功能，连续示出的两个方框可能实际上基本上并发地执行，或者方框有时可能以相反的顺序执行。

本发明的目的是提供一种从单网中抽取对象分类信息的方法和步骤，这些网页主要描述单个对象，如一个产品。但本领域技术人员应该理解，本发明也可以应用于其他目标网页。

对术语“对象”来说，它意味着一个结构化的概念，由标识符、分类以及一些属性组成，对应于现实世界中的对象。例如：一个对象叫做“Apple iPhone416G”。图1示出了对象的一个示例，其包括了分类smartphone、标识符AppleiPhone416G、以及一些属性width、price等。

对于术语“分类”来说，它是一个可控的词汇集合，其结构是层次化的。分类信息由分类单元组成，称之为分类子（单一分类单元），经常表现为层次结构中的某一层，一般可以体现父子之间的关系。在图1中，分类是“smartphone”并且它是分类信息中的一个分类单元。我们可以从适当的网页中得到以下内容，如：

Home＞Reviews＞Smartphones＞Apple smartphones＞AppleiPhone4-16GB-black(AT&T)

在一系列的预处理和正规化后，以上内容中的分类信息可以为：

Smartphone→Apple smartphone→Apple iPhone416G。

因为网页的异构化，达到以下目的是困难的：

在没有领域知识的情况下，从含大量噪声的网页中发现分类信息；

即使是对同一种对象来说，层次信息的表现也是多样化的。

本发明提供一种在没有领域知识的情况下自动抽取分类信息并构建分类树的方法。

在图2中，左边是我们的目标，对象分类信息树，而右边是对应的一段HTML内容，其中包含了此对象（PowerShot SX10IS）的分类信息。我们希望发现这些区块并从中抽取此对象的层次链，并且与从不同页面来的链进行自动而有效的合并。

图3是根据本发明实施例的对象分类系统的框图。该系统包括：预处理模块101、对象标识符抽取模块102、单层次链抽取模块103、多链集成模块104、对象分类模块105、以及抽取提升模块106。所有的这些模块能够形成一个循环来持续的改进并丰富分类信息。

预处理模块101：将单个网页的HTML DOM(Hyper Text Mark-upLanguage Document Object Model超文本标记语言文档对象模型)树转换成包含渲染信息的特殊XML（EXtensible Markup Language可扩展标记语言）树，这颗树是以下模块102和103的输入。

对象标识符抽取模块102：从网页中抽取对象的标识符，该对象的标识符将被用于分类信息查找以及在分类树中的定位；

单链抽取模块103：这是本发明的核心模块，用于发现分类区块并且从特定的XML树中抽取层次链；

多链集成模块104：合并多个层次链并根据一些规则形成分类树；

对象分类模块105：根据对象的标识符以及层次链，从分类树中得到对象的精确分类；

抽取提升模块106：最后得到的分类树可以用来提高从新网页抽取分类信息的精度。

以上所有模块都可由位于计算机中的基于CPU的软件来实现，该软件部署于PC系统中，其硬件结构如图4所示。图4是根据本发明实施例的对象分类系统的示例性PC系统环境的构架示意图。应当注意，在上述系统的实现中，方框中标出的功能可能不按图中标出的顺序发生。例如，根据所涉及的功能，连续示出的两个方框可能实际上基本上并发地执行，或者方框有时可能以相反的顺序执行。

图5示出了根据本发明实施例的对象分类方法的流程图。在图5中包括如下步骤：预处理S101、对象标识符抽取S102、单层次链抽取S103、把多个层次链集成为一棵树S104、得到对象的分类信息S105、以及根据分类树来提高抽取精度S106。对每个步骤来说都有相应的输入输出，如图5所示，灰色方框表示对象分类方法的步骤；而白色方框指代输入或输出的结果。应当注意，在图5方法的实现中，方框中标出的功能可能不按图中标出的顺序发生。例如，根据所涉及的功能，连续示出的两个方框可能实际上基本上并发地执行，或者方框有时可能以相反的顺序执行。

在图5中，每个模块都执行与图3的系统方框中的相对应模块对应的主要步骤，如下：

√预处理模块101：执行步骤“预处理”S101；

√对象标识符抽取模块102：执行步骤“抽取对象标识符”S102；

√单层次链抽取模块103：执行步骤“抽取单层次链”S103；

√多链集成模块104：执行步骤“集成多链成树”S104；

√对象分类模块105：执行步骤“得到对象的分类”S105；

√抽取提升模块106：执行步骤“根据分类树来提升抽取结果”S106；

以上所有步骤都由位于计算机中的基于CPU的软件来实现，其硬件结构如图4所示。

在以下具体实现中，将参照图6-图18分别描述对象分类方法的各个步骤的具体实现。在以下的实现中，仅仅是示例性的，本领域技术人员应该理解，步骤顺序的变动或根据本实现进行的类似修改都在本申请的范围内。

在因特网中，产品描述数据的规模是非常大的，这些描述可能是产品规格声明、广告、产品发布新闻或者用户评论，一个单独的文档一般主要描述一个特定的对象，这个对象由标识符和具有值的属性组成。

自然而然，人们组织和提及这些对象时，使用它的名字或者加上相应的生产商。从人类的角度来看，从网页识别并分类这些对象不是一个大的问题，但是对机器来说，就是另外一回事了。一般来说，我们想知道：

1.是哪一种对象（该对象属于什么分类）；

2.对构建对象库来说，具有层次化结构的分类才好用。

如上所述，如果能够得到某些网页的分类信息，那么它可以被上述两个目标使用。问题在于：网页是带有大量无用信息的半结构化数据，非常难以被机器理解和分析。另一个问题是：对同一对象来说，层次信息的表现形式也是多样的。

对产品信息而言，虽然现存一些分类信息，但是对新出现的产品就无能为力了。当然，如果人工创建这些分类库是相对比较精确的，但绝对是耗时耗力的。

本发明提出一种从网页中自动抽取分类信息并用来分类对象的方法，最后这些信息被用来持续的构建分类库。本方法包括接下来的所有步骤。

首先，我们定义一个概念：节点，它是一棵树中的一个结构单元，由一些成员构成。基本上来说，原始的节点内容来自于HTML DOM树，当然有些内容会被删除，有时则可以被一些计算过的结果所补充。图6示出了节点结构的一个示例。图6的右半部即可看作为一棵简单的树，下文中的特定树的结构与之类似。图6的左半部给出了节点名以及节点的一些属性等。

下文中，将结合图7描述根据本发明实施例的预处理步骤的实现。图7示出了图5的预处理步骤S101的具体实施。

来自网页的DOM树包含大量的无用信息，本发明的目标是对象标识符和分类信息，仅仅是DOM树中的部分文本节点。所以预处理步骤的目的是从复杂的DOM树中得到一棵简化的树，并且新增该树中没有的渲染结果。

基本上，预处理步骤输出的特定XML树的框架结构与输入的DOM树类似。

但是由于以下原因，可能需要进行大量的节点删减：1）为了缩减节点规模；2）许多节点的内容对于XML语法来说是非法的。

删除规则为：例如，可以根据专家的经验生成的可配置文件中得到的列表名单确定删除哪些名称的节点，这些节点名例如可能包括：“SCRIPT”、“INPUT”、“META”等等。但本领域技术人员应该理解，对于不同的具体任务，可以确定不同的列表。

另外，一个冗余信息是HTML中大量的属性集合，对我们的算法来说，绝大部分从DOM树中而来的属性都是无用可以被忽略的，除了“HREF”（hypertext reference超链接）可用以外，因此，只有它在输出XML树中被保留。

另外一种可选的方案是：所有的从DOM树中来的节点都被保留，但是上述要删除的节点的权重被置为0。

对节点的可视信息来说，我们从页面的渲染结果中得到，并作为元素保留到输出树中，如绝对位置和字体等；渲染工作可以由现有的网页浏览器核心来完成，如Gecko、WebKit、Trident、Presto等。此外，也可以采用其他现有或将来出现的技术来进行渲染工作。

为了在一种联合模型中同样对待整棵树中的所有节点，我们按以下方法对输出的XML进行优化调整：

如果一个节点没有值，而且只有一个文本孩子节点，那么，将该文本看成父的值，并且从输出树中移除该文本孩子节点。如图7所示，节点t和s只有一个文本孩子节点，且该节点没有值，因此，移除它们的文本孩子节点，并将该文本看成t和s的值。

预处理步骤的输出是一棵包含特定节点的XML树，它们将是接下来步骤的输入。

下面，将参考图8描述根据本发明实施例的抽取对象标识符步骤的实现。图8示出了图5的抽取对象标识符步骤S102的流程图。应当注意，在以下实现中，方框中标出的功能可能不按图中标出的顺序发生。例如，根据所涉及的功能，连续示出的两个方框可能实际上基本上并发地执行，或者方框有时可能以相反的顺序执行。

以下，针对目标网页是“详细描述网页”，即，假定每个网页只描述一个对象的情况进行举例说明，并且被步骤S101所处理过，其形式变成了一棵树。但本领域技术人员应该理解，本发明也可以应用于其他目标网页。首先，这个对象会被一个文本元素所标识，从树中抽取该标识符的方法由以下步骤组成：

在步骤S801过滤掉不可能的节点：本步骤的输入为XML树中的所有节点，如果某个节点的值过于长，或过于短，这些节点将不会被考虑，长度的阈值可以凭经验设置；另外一个因素是：停用标签集合，如果任何一个节点的名字在此集合中，则被忽略。经过此步骤，候选节点会被生成。

在步骤S802计算可视化分值：对可视信息来说，两种因素被考虑：一个是绝对位置坐标，一个是字体信息。

其中，一种位置计算的方法例如为二维高斯函数，其公式为：

H (u, v) = e^{- D {(u, v)}^{2} / {2 σ}^{2}};

D (u, v) = \sqrt{{(u - u_{0})}^{2} + {(v - v_{0})}^{2}};

其中：

u=PositionX（x轴的位置）,v=PositionY（y轴的位置）,u₀=200,v₀=200,σ=200。

而计算后的H则被看作为位置分值，其中的常量（u₀,v₀,σ）可以根据具体任务调整。

对于计算字体分值，一种规则是：越大越好，例如，字体分值T=aX，其中a为常数X为字体大小，字体分值T与字体大小X之间呈线性变化关系。如果是黑体，则加一个额外的分值。

通过对位置分值和字体分值进行合并，可以得到每个候选节点的可视化分值。其中，该合并可以是线性加权、相乘等的任何一种方式。

在步骤S803计算标签分值以及节点值分值：除了可视化分值之外，还需要计算更多的针对候选节点的其他分值，对标签因素来说，如果该标签属于头标签集合中，“H1”、“H2”、“H3”等，其分值会增加。

对值因素来说，与标题的相似程度会被用上，公式如下：

sim(e_value,e_title)=|{wk|wk∈e_i&wk∈e_t}|/(log(|e_value|)+log(|e_title|))

其中，变量e_value代表该节点的值，变量e_title代表标题，sim(e_value,e_title)是节点值与标题的相似程度，计算其作为节点值分值；|{wk|wk∈e_i&wk∈e_t}|表示既属于节点值又属于标题的词的个数，而(log(|e_value|)+log(|e_title|)表示节点值和标题的总长度。

同时，根据一些特定的正则表达式来验证这些节点值，如符合如下表达式之一，则上述计算的值分值作为该节点的值分值，否则值分值为0，如：

("([0-9]+[A-z]+)+[0-9]*");

("([A-z]+[0-9]+)+[A-z]*");

("([0-9]+[-]{0,1}[A-z]+[-]{0,1})+[0-9]*");

("([A-z]+[-]{0,1}[0-9]+[-]{0,1})+[A-z]*");

经过本步骤后，每个候选节点拥有更多各类的分值了。

在步骤S804合并上述各类分值并得到排名前n个节点：此步骤开始对以上步骤计算得到的各种分值进行合并。此处，可以采用任何合并方法，例如，可采用加权合并，每个分值的权重由经验赋予。在得到综合分值后进行排序，从而得到排在前n的节点。

在步骤S805计算频率值：对前n的节点来计算它们的频率值，其方法为：针对所有可能的在树中的节点，如果其中一个节点的值包括目标节点的值，则增加目标节点计数，即频率值加1。频率值计算的基本原则是：频率值越高，就越重要，为了平滑，可以对频率取对数值；通常我们可以选择频率值排在前3的节点作为标识符候选节点。

在步骤S806移除不必要的部分：在以上步骤得到的几个节点的值中，有些符号和无意义的词，需要移除，剩下的才是最后的标识符。这些符号和无意义的词是通过经验由字典定义在第二列表中，通过查询第二列表来确定需要移除的词。

在步骤S807得到最终对象标识符：最后，分值排名第一的节点整体或该节点值被视为对象标识符。

就我们的经验来看，对于产品对象，其标识符一般由以下部分组成：生产商、基本名、系列名以及其它参数；同时，这些特征也可以用来进行标识符的正规化和抽取。

如图9所示，对象标识抽取模块102包括：过滤单元901，根据第一规则过滤掉不可能的节点；分值计算单元902，根据可视信息计算每个节点的可视化分值903，根据特定的正规表达式与标题相似度计算每个节点的值分值，并且根据标签因素计算每个节点的标签分值；排序单元904，合并可视化分值、值分值、和标签分值，并得到排名前n的节点作为候选节点；频率分计算单元905，计算每个候选节点的频率分值，并选择频率分值排在前3的节点作为标识符候选节点；和对象标识符获得单元906，移除与第二列表中列举的值相同的节点值，得到分值排名第一的节点作为对象标识符。

虽然图9中示出了两个计算单元，但本领域技术人员应该理解，分值计算单元902和频率分计算单元905也可以由一个计算单元实现。

图9中各个单元的具体实现与图8的方法流程类似，因此在此不再赘述。

下面，将参考图10-12描述根据本发明实施例的抽取单层次链步骤的实现。图10示出了图5的抽取单层次链步骤S103的流程图。应当注意，在以下实现中，方框中标出的功能可能不按图中标出的顺序发生。例如，根据所涉及的功能，连续示出的两个方框可能实际上基本上并发地执行，或者方框有时可能以相反的顺序执行。

网页中单层次链是本发明的主要目标之一，我们希望能够从即定的树中抽取它。基本上来说，这条链由不同的层组成，且上层比下层寓意更宽的概念。整体任务包括如图10所示的步骤：

本方法可能的一种实现方案为：

在步骤S1001过滤不可能的节点：本步骤的输入是来自步骤S101的XML树中的所有节点，需要过滤掉一些不必要的节点，过滤规则为：自底而上的深度，叶子节点的数目以及停用词列表，具体信息如下：

深度_bottom-up={下限=1,上限=2}

深度_leaves=0；//这意味着所有的叶子节点均被忽略。

深度_node=max(深度_bottom-up)；//从所有孩子中选择最深的一个作为该节点的深度

数目_leaves={最小=2,最大=9}

所有保留的节点的深度在[1,2]范围内，由于叶子节点的深度为0，所以所有叶子节点都被忽略；而父节点的深度以所有孩子中最深的一个作为该父节点的深度。所有保留的节点的叶子的数目在[2,9]的范围内，叶子数目即所有的孩子中的叶子的数量。

图11是根据本发明实施例的节点过滤示意图。例如，其中由于节点A的深度为3，不在[1,2]范围内，因此节点A将被过滤掉；同样由于节点B的叶子数目为10，不在[2,9]范围内，因此节点B将被过滤掉；而节点C和D因符合上述过滤规则，将被保留为候选节点。

虽然图11中仅示出了两个候选节点C、D，本领域技术人员应该理解，图11仅仅是示范性地，图11中其他符合上述过滤规则的节点也被保留为候选节点。

经过步骤S1001，就可以得到候选节点了。

在步骤S1002节点类型划分：本步骤将所有的候选节点分成4大类：I、II、II和IV，划分规则为（其中节点名等同HTML中的标签名）：

I.该节点有值，且节点名为“A”；

II.该节点有值，且节点名为“TEXT”；

III.该节点有值，且节点名不是上述两种情况；

IV.该节点没有值；

此后，所有的候选节点都具有上述四个类型之一的类型。

在步骤S1003执行模式匹配。图12表达了根据本发明实施例的模式匹配的过程。

对执行步骤S1001和S1002之后得到的候选节点实施如下基于模式的方法：

i.模式匹配的输入是一个目标节点的叶子序列，且每一个叶子都有一种类型，如I、II、II或IV；以该节点类型来代表节点本身，后续模式匹配过程都基于此类型序列。例如，如图12所示，对于目标节点N，其所有叶子节点序列为N₁、N₂、N₃、N₄、N_n-1和N_n。假设该叶子节点序列的类型为I I II II IIIII，则在后续模式匹配过程中用I I II II II III代表节点本身。

ii.将上述孩子序列分成头部、中部和尾部三部分；其中头部和尾部可能有也可能无，取决中部的长短；而中部是一个节点类型不断重复的序列，重复的最小单位是两个节点；例如，如图12所示，中部节点类型不断重复的序列是II II II，那么选择N₃、N₄、N_n-1作为中部，而N₁、N₂和N_n分别为头部和尾部。例如，如果N₁、N₂、N₃、N₄、N_n-1和N_n叶子节点序列的类型为I II III I II，那么选择N₁、N₂、N₃、N₄、N_n-1和N_n为中部，而无头部和尾部。

iii.根据有无头尾部，中部长短以及重复次数多少，对节点序列进行分值计算；例如，如图12所示，头部、中部、尾部的分值分别为Unit_B、Unit_I和Unit_E，根据头部和尾部序列的长度分别得到Unit_B和Unit_I，长度越长分值越大；而根据中部序列的长度以及重复次数得到Unit_E，长度越大分值越大并且将长度分值与重复次数进行加权合并得到最终Unit_E。最终的模式分值PatScore通过对Unit_B、Unit_I和Unit_E进行加权合并而得到。

在此步骤中，还根据叶子孩子的数目多少计算节点的附加分值，规则为：叶子孩子的数目越多，分值越高；而如果IV类型的孩子越多，则分值越低。同时将该附加分值与上述模式分值合并，得到最终模式分值。

本领域技术人员应该理解，该加权合并可以为任何形式的合并，例如线性加权、非线性加权、或相乘等。

经过上述模式匹配后，满足模式分值阈值的节点会被选出并进入下面的步骤。

在步骤S1004计算可视化分值：对于上述步骤而来的节点，开始计算其可视化分值，其中一种实施方案是只考虑两种因素：绝对位置和字体。

i.计算位置分值的一种方案是：二维高斯函数，公式为：

H (u, v) = e^{- D {(u, v)}^{2} / {2 σ}^{2}};

D (u, v) = \sqrt{{(u - u_{0})}^{2} + {(v - v_{0})}^{2}};

其中:u=PositionX（x轴的位置）,v=PositionY（y轴的位置）,u0=200,v0=200,σ=200。

ii.候选节点的所有孩子的同一维位置值必须相同，如果不同，则忽略之；例如，所有位置的X或Y值之一必须相同，如果都不相同，那么该节点的可视化分值为0；否则该节点的可视化分值为位置分值；

iii.候选节点的叶子孩子序可视位置必须是递增的，如果不是，则忽略之；例如，如果叶子孩子序的可视位置不是递增的，那么该节点的可视化分值为0；否则该节点的可视化分值为位置分值；

iv.候选节点的所有叶子孩子的字体必须相同，如果不同，则忽略之。例如，如果该节点的所有叶子孩子的字体不同，那么该节点的可视化分值为0；否则该节点的可视化分值为位置分值。

然后，每一个候选节点都会拥有一个可视化分值了。

在步骤S1005合并上述步骤S1003和S1004得到的各个分值并得到最高分的节点：合并算法的一种实施方案是求它们的加权和，另一种是直接相乘得到结果；得到结果后按其排序，就可以选出最高分的节点了。但本领域技术人员应该理解，也可以采用其他合并算法。

在此步骤中，对象标识符可以被视为一个额外的权重：如果一条链包含标识符，则其为一条分类信息链的概率更大。例如，如果一条链包含标识符，则在节点分值中合并一个标识符分值。

在步骤S1006调整级别：从上述步骤而来的分类链可能会有一些噪声信息，需要移除之，其方案之一为：

i.移除不必要的层：一些符号和无意义词首先被移除，然后重复的层也被合并；这些将要移除的符号和无意义词定义在第三列表中，该第三列表中的值是经验值，用户可以根据实际需要根据经验设置。

ii.添加对象标识符：如果最低层不是对象标识符，则添加一个新层，其值等于对象标识符；例如，对于候选节点，其下层节点构成单层次链节点，如果该单层次链节点的最低层不是对象标识符，那么，在该最低层下添加一个新层，并且该新层的值等于对象标识符。

在步骤S1007得到单层次链：最终，排第一的节点被当作单层次链节点，一般它包括几层，高层比低层寓意更宽的概念。

虽然上述步骤是按照特定顺序描述的，但本领域技术人员应该理解该顺序并非固定的，可以根据需要调整步骤的顺序。例如，在上述步骤中，可以在得到节点分值后先进行排序并根据分值选取候选者，再进行步骤S1006。

如图13所示，单层次链抽取模块103包括：过滤单元1301，根据节点的自底而上深度、节点的孩子数目以及停用词列表来过滤掉不可能的节点；划分单元1302，根据分类规则将所有剩下的候选节点分成I、II、II和IV四大类；模式匹配单元1303，将每个候选节点的所有孩子看成一个节点序列，并基于节点序列类型进行模式匹配以得到每个候选节点的模式分值；计算单元1304，根据节点字体和绝对位置信息来计算每个候选节点的可视化分值；选取单元，对上述步骤得到的模式分值和可视化分值进行合并，并根据结果进行排序，选取分值高的和它的孩子为层次链的候选者；以及单层次链获取单元1305，根据第三列表移除不必要的层次，并且如果层次链最低层不是对象标识符则将所述对象标识符抽取模块得到的对象标识符添加到最低层，从而得到最终的单层次链。

图13中各个单元的具体实现与图10的方法流程类似，因此在此不再赘述。

下面，将参考图14-图16描述根据本发明实施例的将多链集成为一棵树的实现。

在分别得到多条单层次链后，就可以将它们集成为一棵树了，在之前，需要重申一个假设：从单网页抽取而来的单链有正确的父子关系，这意味着，高层在概念上包含低层。

本步骤的输入是含有多个级别的单层次链，即步骤S1007的输出，我们将每一个级别当作一个候选节点。

在开始的时候，分类信息树并不是严格意义上的树，而是一个有向图，该图的根节点是“Object”节点，图中的每个节点都有图14所示的结构。图14示出了根据本发明实施例的节点结构。

在图14所示的结构中，每个节点都有多个上层节点（父节点），同时有多个下层结点（孩子节点），其“名字”意味着该节点的值，而“次数”则是此节点出现在几条链中的次数；每一个节点的名字都是唯一的，在整个图中只出现一次。

在本步骤中，原始的单层链中的关系至始至终都会在图中体现出来，其中一个实施方案为：

1)规则化节点的值：先做取词干操作，判断同意义词可以使用某些词典，尤其是判断一些缩略词以及不同语言的词。

2)寻找相同的节点：如果新加入的节点的名字和图中已有的节点相同，那么这两个节点会合并，其“数目”会递增，该节点的所有孩子节点同时被视为已有节点的后代。

3)寻找相关的节点：如果不相同，则查找相关词，这依赖于一个假设：如果值A包含值B，则B被视为A的上层节点（父节点）；基于此假设，如果新来的节点是已有节点的孩子，那么下层节点的关系就会被建立；相反的，它会被视为已有节点的上层节点，而其父节点为根节点。

4)如果没有找到上述两种关系，并且没有上下层节点关系，那么该链被视为根节点的孩子。

在集成所有的链后，输出的图中保留了所有原始链关系，形成一个有向图。应当注意，在以上实现中，方框中标出的功能可能不按图中标出的顺序发生。例如，根据所涉及的功能，连续示出的两个方框可能实际上基本上并发地执行，或者方框有时可能以相反的顺序执行。

图16示出了根据本发明实施例的树的形成的示意图。

基于上述有向图的分类信息树中的父子关系会按以下规则被建立：

√根据所有上层节点的“次数”来确定最终的父节点，拥有最大频率的节点会被选中。

√将“次数”少于某个阈值的关系边切掉。

图16给出了上述步骤的一个示意。例如，如图16所示，对于节点D存在两个上层节点C和G，因此，由于G的次数为1，小于某个阈值，则删除D与G的关系；同样，C存在两个上层节点E和B，因此，由于E的次数为1，小于某个阈值，则删除C与E的关系。最终形成图16右侧所示的树。

如图17所示，多链集成模块104包括：新树建立单元1701，建立一颗只存在一个根节点的树；相同节点合并单元1002，检查单层次链抽取模块抽取得到的每个单层次链中的每个新来节点是否在树中已经存在，如果已存在，则合并该新来节点到树中对应的节点，并增加该节点的计数，同时将该新来节点的后代视为其下层节点；相关节点合并单元1703，如果树中不存在该新来节点，则检查树中是否存在与新来节点有关系的节点，如果存在有关系的节点，则根据所述关系将新来的节点添加为有关系的节点的上层或下层节点；其他节点合并单元1704，如果不存在相同和有关系的节点，则将此链合并至根节点之下；有向图建立单元1705，当所有单层次链合并完成之后，建立一个有向图；有向树建立单元1706，根据有向图中所有上层节点的计数来确定计数最大的一个为正式父节点，并删除符合该预定条件的关系边，从而得到最终的有向树。

图17中各个单元的具体实现与图15-16的方法流程类似，因此在此不再赘述。

下面，将参考图18描述根据本发明实施例的得到对象的分类的实现。

在所有上述步骤都完成后，一棵分类信息树建立起来了。因为每个链的最低层是对象标识符，因此该树中所有的叶子节点都会是对象标识符。

如果我们想知道一个对象的分类信息，唯一要做的事是：将其标识符与所有的叶子进行比较，如果找到了，则从它而上的所有节点都是该对象的分类信息。

图18示出了根据本发明实施例查找对象的示例。图18展示了一个例子：寻找“G”节点的分类信息。

其中，F是G的分类，A是更大概念上的分类，依次类推，可以得到G的多层次的分类信息。

如图19所示，对象分类模块105包括：对象标识符接收单元，接收一个对象标识符；以及分类信息获取单元，从有向树查找该对象标识符，如果存在，则相应节点的祖先节点为此对象的分类信息。

图19中各个单元的具体实现与参照图18描述的查找对象的方法流程类似，因此在此不再赘述。

根据分类树来提升抽取结果：

经过上述步骤后，生成的分类信息树可以看作为其它网页的分类知识库，因此可以当作先验语义知识来提高抽取精度。另外一种使用途径是：如果一个网页没有规则的分类链，则本分类树可以用来辅助找到正确的分类信息。另一方面，新来的抽取结果又可以丰富分类图并且得到更为合理的分类信息图。

为了达到以上目的，我们采用了一种具有6个步骤的创新的方法来从网页中获取分类信息。根据我们的实际经验，这些结果在实践中足够准确，并且可以当作先验知识来不断提高对新页面的抽取精度。就我们所知，没有发现已有的根据从网页而集成的分类树来对对象自动分类的方法。

虽然结合目前被认为是最实际和最优的实施例描述了本发明，但本领域技术人员应当理解本发明不限于所公开的实施例，相反，本发明旨在覆盖所附权利要求的精神和范畴之内包括的各种各样的修改和等价结构。

Claims

1.一种基于网页分类信息的对象分类方法，包括以下步骤：

a)将每个单网页的HTML文档对象模型DOM树转换成特定的包含渲染结果的可扩展标记语言XML树；

b)从每个所述XML树中抽取对象的标识符；

c)从每个所述XML树中抽取单层次链；

d)将来自不同单网页的多个单层次链集成为一棵有向树；以及

e)根据单网页的对象标识符和单层次链，从所述有向树得到此对象的分类信息，

其中步骤a)进一步包括：

从DOM树中移除与第一列表中枚举的节点相同的节点；

删除DOM树中的其他节点属性，只将超链接HREF属性保留到输出的XML树中；

如果一个节点没有值，而且只有一个拥有文本值的孩子节点，那么，所述孩子节点的文本值会被看成该节点的值，同时从XML树中移除所述孩子节点；以及

通过渲染得到XML树中节点的可视信息，并将节点的可视信息作为节点的属性保留在输出XML树中，

其中，第一列表包括根据专家的经验生成的可配置文件中得到的列表名单确定的要删除的节点。

2.根据权利要求1所述的方法，进一步包括f)：基于所述有向树从更多的网页中得到分类信息，并将之加入到有向树中。

3.根据权利要求1所述的方法，其中步骤b)进一步包括：

根据第一规则过滤掉不可能的节点；

根据可视信息计算每个节点的可视化分值，根据特定的正规表达式与标题相似度计算每个节点的值分值，并且根据标签因素计算每个节点的标签分值；

合并可视化分值、值分值、和标签分值，并得到排名前n的节点作为候选节点；

计算每个候选节点的频率分值，并选择频率分值排在前3的节点作为标识符候选节点；和

移除与第二列表中列举的值相同的节点值，得到分值排名第一的节点作为对象标识符，

其中第二列表包括具有通过经验由字典定义的一些符号和无意义的词的节点值，

其中第一规则包括：

节点的值长度大于第一阈值并小于第二阈值，否则过滤掉该节点，所述第一阈值和第二阈值为经验设置值；

节点的名字如果在停用标签集合中，则过滤掉该节点。

4.根据权利要求3所述的方法，其中可视化分值的计算进一步包括：

通过二维高斯方法计算节点的位置分值；

根据字体信息计算节点的字体分值；

通过合并位置分值和字体分值得到节点的可视化分值。

5.根据权利要求1所述的方法，其中步骤c)进一步包括：

根据节点的自底而上深度、节点的孩子数目以及停用词列表来过滤掉不可能的节点；

根据分类规则将所有剩下的候选节点分成I、II、II和IV四大类；

将每个候选节点的所有孩子看成一个节点序列，并基于节点序列类型进行模式匹配并得到每个候选节点的模式分值；

根据节点字体和绝对位置信息来计算每个候选节点的可视化分值；

对上述步骤得到的模式分值和可视化分值进行合并，并根据结果进行排序，取分值高的和它的孩子为层次链的候选者；以及

根据第三列表移除不必要的层次，并且如果层次链最低层不是对象标识符则将步骤b)得到的对象标识符添加到最低层，从而得到最终的层次链，

其中第三列表包括具有根据实际需要和经验将要去除的一些符号和无意义词的层，

其中分类规则包括：

该节点有值，且节点名为“A”时，将节点分为第I类；

该节点有值，且节点名为“TEXT”时，将节点分为第II类；

该节点有值，且节点名不是上述两种情况时，将节点分为第III类；以及

该节点没有值时，将节点分为第IV类。

6.根据权利要求5所述的方法，其中所述模式匹配进一步包括：

根据节点类型将每个候选节点的孩子节点序列分成头部、中部和尾部三部分，以便中部是一个节点类型不断重复且重复最小单位是两个节点的序列；

根据头尾部长度、中部长度以及节点类型重复次数，对每个候选节点的孩子节点序列计算模式分值；

根据每个候选节点的孩子的数目计算节点的附加分值，并将该附加分值与上述模式分值合并，得到最终模式分值；以及

过滤掉其最终模式分值小于第三阈值的候选节点。

7.根据权利要求5所述的方法，其中可视化分值的计算进一步包括：

通过二维高斯方法来计算候选节点的位置分值；

如果候选节点的所有孩子的同一维位置值相同，那么该节点的可视化分值为位置分值；如果都不相同，那么该节点的可视化分值为0；

如果候选节点的孩子序可视位置是递增的，那么该节点的可视化分值为位置分值；如果孩子序的可视位置不是递增的，那么该节点的可视化分值为0；

如果候选节点的所有孩子的字体相同，那么该节点的可视化分值为位置分值；如果不同，那么该节点的可视化分值为0。

8.根据权利要求1所述的方法，其中步骤d)进一步包括：

d1)建立一颗只存在一个根节点的树；

d2)检查步骤c)抽取得到的每个单层次链中的每个新来节点是否在树中已经存在，如果已存在，则合并该新来节点到树中对应的节点，并增加该节点的计数，同时将该新来节点的后代视为其下层节点；

d3)如果不存在，则检查树中是否存在与新来节点有关系的节点，如果存在有关系的节点，则根据所述关系将新来节点添加为有关系的节点的上层或下层节点；

d4)如果不存在有关系的节点，则将此链合并至根节点之下；

d5)所有层次链合并完成之后得到一个有向图；以及

d6)根据有向图中所有上层节点的计数来确定计数最大的一个为正式父节点，并删除符合预定条件的关系边，从而得到最终的有向树。

9.根据权利要求1所述的方法，其中步骤e)进一步包括：

接收一个对象标识符；以及

从有向树查找该对象标识符，如果存在，则相应节点的祖先节点为此对象的分类信息。

10.根据权利要求3、4-5或6的任何一个所述的方法，其中，所述合并包括：对所述分值求加权和、或对所述分值直接相乘。

11.一种基于网页分类信息的对象分类系统，包括：

预处理模块，用于通过转换处理将单网页的HTML文档对象模型DOM树转换成特定的包含渲染结果的可扩展标记语言XML树；

对象标识符抽取模块，用于每个从所述XML树中抽取对象的标识符；

单层次链抽取模块，用于从每个所述XML树中抽取单层次链；

多链集成模块，用于将来自不同网页的多个单层次链集成为一棵有向树；和

对象分类模块，用于根据单网页的对象标识符和单层次链，从所述有向树得到此对象的分类信息，

其中预处理模块中的转换处理进一步包括：

从DOM树中移除与第一列表中枚举的节点相同的节点；

12.根据权利要求11所述的系统，进一步包括：抽取提升模块，用于基于所述有向树从更多的网页中得到分类信息，并将之加入到有向树中。

13.根据权利要求11所述的系统，其中对象标识符抽取模块进一步包括：

过滤单元，根据第一规则过滤掉不可能的节点；

分值计算单元，根据可视信息计算每个节点的可视化分值，根据特定的正规表达式与标题相似度计算每个节点的值分值，并且根据标签因素计算每个节点的标签分值；

排序单元，合并可视化分值、值分值、和标签分值，并得到排名前n的节点作为候选节点；

频率分计算单元，计算每个候选节点的频率分值，并选择频率分值排在前3的节点作为标识符候选节点；和

对象标识符获得单元，移除与第二列表中列举的值相同的节点值，得到分值排名第一的节点作为对象标识符，

其中第一规则包括：

节点的值长度大于第一阈值并小于第二阈值，否则过滤掉该节点，所述第一阈值和第二阈值为经验设置值；和

节点的名字如果在停用标签集合中，则过滤掉该节点。

14.根据权利要求13所述的系统，其中可视化分值的计算进一步包括：

通过二维高斯方法计算节点的位置分值；

根据字体信息计算节点的字体分值；

通过合并位置分值和字体分值得到节点的可视化分值。

15.根据权利要求11所述的系统，其中对象分类模块进一步包括：

对象标识符接收单元，接收一个对象标识符；以及

分类信息获取单元，从有向树查找该对象标识符，如果存在，则相应节点的祖先节点为此对象的分类信息。

16.根据权利要求13或14所述的系统，其中，所述合并包括：对所述分值求加权和、或对所述分值直接相乘。