CN102253937B

CN102253937B - 获取网页中的感兴趣信息的方法及相关装置

Info

Publication number: CN102253937B
Application number: CN 201010176808
Authority: CN
Inventors: 丁绍顺
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2010-05-18
Filing date: 2010-05-18
Publication date: 2013-03-13
Anticipated expiration: 2030-05-18
Also published as: CN102253937A; HK1160247A1

Abstract

本发明公开了一种获取网页中的感兴趣信息的方法及相关装置，用以解决现有技术中无法从大量根据不同模板生成的网页中，精确有效地提取感兴趣信息的问题。该方法包括：根据DOM树的拓扑结构，对各训练网页进行聚类，获得至少一个DOM树具有相似的拓扑结构的训练网页子集合；对每个训练网页子集合中各个训练网页的DOM树分别进行合并；确定合并后的DOM树中的备选节点；获取信息时，从各训练网页子集合中选择出一个训练网页子集合，并将待获取信息的网页的DOM树中与选择出的训练网页子集合对应的合并后的DOM树中备选节点具有相同路径的节点对应的文本作为获取到的感兴趣信息。

Description

获取网页中的感兴趣信息的方法及相关装置

技术领域

本申请涉及计算机及互联网技术领域，尤其涉及一种获取网页中的感兴趣信息的方法及一种获取网页中的感兴趣信息的装置。

背景技术

随着互联网技术的快速发展，互联网已经成为人们日常获取信息的重要手段。当人们需要从大量网页中获取感兴趣信息时，如果依靠人工逐一阅读每个网页来判断是否存在感兴趣的信息，并在该网页中存在感兴趣的信息时，获取感兴趣的信息并存储，从人力成本和时间成本上来看是不现实的。

为解决上述问题，现有技术提出了基于正则规则的信息获取技术和基于文档对象模型(DOM，Document Object Model)树Xpath路径的信息获取技术。

基于正则规则的信息获取技术的基本工作原理为：首先对包含感兴趣信息的现有网页的HTML编码进行分析，获得用于匹配待获取信息的正则表达式，然后根据获得的正则表达式，对待获取信息的大量网页逐一进行匹配处理，根据匹配结果获得感兴趣的信息。例如根据对现有网页的HTML编码进行分析，确定与感兴趣的地址信息相关的HTML编码片段为″<div><td>地址：</td><td>三里屯</td></div>″，那么对应的正则表达式为″</td><td>(.+？)</td>″，然后依据该正则表达式逐一判断每个待获取信息的网页中是否存在符合该正则表达式的编码片段，若是，将该编码片段中位于正则表达式中符号“(.+？)”对应的位置上的内容，作为获取到的感兴趣的信息。

基于DOM树Xpath路径的信息获取技术的基本工作原理为：对包含感兴趣信息的现有网页的HTML编码进行解析，获得对应的DOM树，继而确定对应的内容为感兴趣信息的节点在该DOM数中的路径(xpath)，将该路径(xpath)作为从大量待获取信息的网页获取感兴趣的信息的匹配模板。例如，在上面的例子中，假定现有网页的HTML代码为″<div><td>地址：</td><td>三里屯</td></div>″，解析获得的对应的DOM树如附图1所示。对应的文本为感兴趣的地址信息的节点所在的路径为″//div/td[2]″(即div根节点的第2个td子节点)。然后依据该路径，逐一判断每个待获取信息的网页对应的DOM树中，是否有路径为″//div/td[2]″的节点，若是，则将该节点对应的文本作为获取到的感兴趣的信息。

可见，上述两种方案都是通过对包含感兴趣信息的现有网页的HTML编码进行分析，获取能够体现感兴趣信息在网页中所处位置的规则，然后根据获取的规则对每个待抽取信息的网页逐一进行匹配处理来获取感兴趣的信息。因此，对于并非与包含感兴趣信息的现有网页基于同一模板生成的待获取信息的网页(即现有网页的DOM树与待获取信息的网页的DOM树拓扑结构不同)，获取感兴趣的信息的效果不佳。虽然目前绝大多数网页都是基于超文本标记语言(HTML，HyperText Markup Language)格式的，但是包含相同或相似文本内容的网页展现方式是千变万化的(即模板可能是不同的)，例如字体、排版方式(纵排、横排)可以不同，其中一个网页中可以比另一网页具有更多的附加广告信息等。上述两种现有技术均无法适应这种网页展现方式的变化，因而无法有效地从大量网页中获取感兴趣信息。

发明内容

本申请实施例提供一种获取网页中的感兴趣信息的方法，用以解决现有技术中无法从大量根据不同模板生成的网页中，精确有效地提取感兴趣信息的问题。

对应地，本申请实施例还提供了一种获取网页中的感兴趣信息的装置。

本申请实施例提供的技术方案如下：

一种获取网页中的感兴趣信息的方法，包括：

根据DOM树的拓扑结构，对训练网页集合中各训练网页进行聚类，获得至少一个DOM树具有相似的拓扑结构的训练网页子集合；

对每个所述训练网页子集合中各个训练网页的DOM树分别进行合并，合并后的DOM树中的每个节点对应的文本集合中包括该训练网页子集合中各个训练网页的DOM树中与该节点位于相同路径的节点对应的文本；并

确定合并后的DOM树中的备选节点，所述备选节点对应的文本集合中不同文本的数量与该文本集合中包含文本总数的比值超过设定阈值；

获取信息时，从各训练网页子集合中选择出一个训练网页子集合，该选择出的训练网页子集合对应的合并后的DOM树与待获取信息的网页的DOM树的拓扑结构最相似，将待获取信息的网页的DOM树中与选择出的训练网页子集合对应的合并后的DOM树中备选节点具有相同路径的节点对应的文本作为获取到的感兴趣信息。

一种获取网页中的感兴趣信息的装置，包括：

聚类处理单元，用于根据DOM树的拓扑结构，对训练网页集合中各训练网页进行聚类，获得至少一个DOM树具有相似的拓扑结构的训练网页子集合；

合并单元，用于对聚类处理单元获得的每个训练网页子集合中各个训练网页的DOM树分别进行合并，合并后的DOM树中的每个节点对应的文本集合中包括该训练网页子集合中各个训练网页的DOM树中与该节点位于相同路径的节点对应的文本；

备选节点确定单元，用于对聚类处理单元获得的每个训练网页子集合，确定合并单元获得的该训练网页子集合的合并后的DOM树中的备选节点，所述备选节点对应的文本集合中不同文本的数量与该文本集合中包含文本总数的比值超过设定阈值；

选择单元，用于获取信息时，从各训练网页子集合中选择出一个训练网页子集合，该选择出的训练网页子集合对应的合并后的DOM树与待获取信息的网页的DOM树的拓扑结构最相似；

获取单元，用于将待获取信息的网页的DOM树中与选择单元选择出的训练网页子集合对应的合并后的DOM树中备选节点具有相同路径的节点对应的文本作为获取到的感兴趣信息。

本申请实施例首先根据训练网页(训练网页是指事先经过人为标定的、包含感兴趣信息的现有网页)集合中各训练网页的DOM树的拓扑结构进行聚类，获得至少一个训练网页子集合，所述每个训练网页子集合中的训练网页都是基于相似、但不一定完全相同的模板生成的，并确定每个训练网页子集合对应的能够体现其中每个训练网页的拓扑结构的合并DOM树中，对应的文本为感兴趣信息的备选节点所在的路径；在从待获取信息的网页中获取信息时，从各训练网页子集合中选择出包含的训练网页的DOM树与待获取信息的网页的DOM树具最相似的拓扑结构的训练网页子集合，并根据选择出的训练网页子集合的备选节点的路径，从待获取信息的网页的DOM树中获取感兴趣信息。通过上述聚类过程概括出大量训练网页的DOM树所共有的拓扑特征，并得到感兴趣信息在待获取信息的网页的DOM树中的大致位置，只要待获取信息的网页的DOM树与训练网页的DOM树具有类似的拓扑结构，即可从待获取信息的网页提取到感兴趣信息，从而克服了现有技术在待获取信息的网页的DOM树与训练网页的DOM树仅有细微差别时，就无法从待获取信息的网页中获取感兴趣信息的问题。

附图说明

图1为现有技术根据网页的HTML代码，解析获得的对应DOM树的结构示意图；

图2为本申请实施例的主要实现原理流程图；

图3a、图3b、图3c和图3d分别为本申请实施例中几个训练网页对应的DOM树的结构示意图；

图4a为本申请实施例对训练网页进行聚类处理的第一种流程图；

图4b为本申请实施例对训练网页进行聚类处理的第二种流程图；

图5a、5b、5c、5d、5e、5f、5g、5h分别为本申请实施例对训练网页进行聚类处理时，确定各网页的DOM树中相同节点的示意图；

图6为本申请实施例基于确定出的各训练网页子集合，确定每个训练网页子集合对应的模板文件的流程图；

图7a为本申请实施例确定每个训练网页子集合对应的合并后的DOM树时网页1对应的基础树的示意图；

图7b为本申请实施例确定每个训练网页子集合对应的合并后的DOM树时，该训练网页子集合中的网页2的DOM树的示意图；

图7c为本申请实施例确定每个训练网页子集合对应的合并后的DOM树的示意图；

图8为本申请实施例从待获取信息的网页中获取感兴趣信息的流程图；

图9a为本申请实施例提供的获取网页中的感兴趣信息的装置应用场景的示意图；

图9b为本申请实施例提供的获取网页中的感兴趣信息的装置的结构示意图；

图10为本申请实施例提供的获取网页中的感兴趣信息的装置中聚类处理单元的结构示意图；

图11为本申请实施例提供的获取网页中的感兴趣信息的装置中选择单元的结构示意图；

图12为本申请实施例提供的获取网页中的感兴趣信息的装置中合并单元的结构示意图；

图13为本申请实施例提供的另一种获取网页中的感兴趣信息的装置的结构示意图。

具体实施方式

由于现有的从网页中获取感兴趣信息的方案均不能较好地适应网页模板的变化，因而影响信息获取效果。针对该问题，本申请实施例提出首先基于网页对应的DOM树拓扑结构的相似性，将先经过人为标定的、包含感兴趣信息的现有网页作为训练网页，对大量训练网页进行聚类处理，获得至少一个训练网页子集合，所述每个训练网页子集合中包含的训练网页对应的DOM树都具有类似的拓扑结构；然后针对每个训练网页子集合，获取对应的合并后的DOM树，该合并后的DOM树的各个节点对应的文本集合中包含每个训练网页对应的DOM树中相同路径位置上节点对应的文本，依据合并后的DOM树中每个节点对应的文本集合包含的相同文本出现的频率，剔除噪声节点(例如广告等无用信息)，确定包含有用信息的备选节点在合并后的DOM树中的路径；确定与待获取信息的网页对应的DOM树在拓扑结构上最为相似的训练网页子集合对应的合并后的DOM树，并根据该DOM树中备选节点的路径，从待获取信息的网页中获取感兴趣的信息。

下面结合各个附图对本申请实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细的阐述。

如图2所示，在本实施例提供的获取网页中的特定信息的方案中，主要包含两个处理阶段：

步骤10，训练阶段：对训练网页集合中各训练网页的DOM树的拓扑结构进行聚类，获得至少一个训练网页子集合，所述每个训练网页子集合中的训练网页的DOM数都具有相似的拓扑结构，并且，

确定每个训练网页子集合对应的模板文件，获取的模板文件用于后续对待获取文本的网页进行模板匹配并从中获取感兴趣的信息，模板文件包含该训练网页子集合各训练网页DOM树的拓扑特征、以及感兴趣信息所在备选节点的路径信息；

步骤20，信息获取阶段：根据训练阶段确定出的各模板文件，从各训练网页子集合中选择出包含的训练网页的DOM树的拓扑特征与待获取信息的网页的DOM树具最相似训练网页子集合，并将待获取信息的网页的DOM树中与模板文件中备选节点具有相同路径的节点的文本作为获取到的感兴趣信息。

下面将依据本申请上述申请原理，详细介绍一个实施例来对本申请方法的主要实现原理进行详细的阐述和说明。

在确定各个模板文件的过程中，为了能够获得更佳的效果，训练网页集合应包含大量训练网页，在本实施例中为简明起见，训练网页集合中有4个网页，分别为网页1、网页2、网页3和网页4，解析获得每个网页的DOM树分别如附图3a、附图3b、附图3c和附图3d所示。

本申请实施例通过以下两步对训练阶段进行详细描述：

第一步，根据DOM树的拓扑结构，对训练网页集合中的训练网页进行聚类处理，确定至少一个DOM树具有相似的拓扑结构的训练网页子集合(即每个确定出的训练网页子集合中的训练网页的DOM树都具有相似的拓扑结构)，拓扑结构的相似性可以用多种预定的判定准则来衡量，例如在本实施例中，根据两个网页分别对应的DOM树中具有相同节点数量的多少来衡量拓扑结构的相似性，根据在两个网页分别对应的DOM树中具有相同节点数量是否超过设定阈值来判定这两个网页是否相似，下面给出了两个基于上述相似性的判定准则进行聚类的具体实例：

实例一

建立一个训练网页子集合，将训练网页集合中任一训练网页加入该训练网页子集合中，对训练网页集合中未加入训练网页子集合的每个剩余训练网页，执行：

按照设定顺序，确定该剩余训练网页的DOM树与已有训练网页子集合中包含的训练网页的DOM树具有相同节点的数量，所述相同节点为在DOM树中的层次位置和包含的子节点的数量均相同的节点，以及

在确定出的相同节点数量超过设定阈值时，将该剩余训练网页加入选择出的训练网页子集合；否则，重复前一步骤，直到设定顺序上的最后一个已有训练网页子集合为止；

在该剩余训练网页的DOM树与所有训练网页子集合中包含的训练网页的DOM树具有相同节点的数量均未超过设定阈值时，建立一个新的训练网页子集合，将该剩余训练网页加入该新的训练网页子集合。

请参照附图4a，具体流程描述如下：

步骤401，建立一个训练网页子集合，将训练网页集合中的任一训练网页加入该训练网页子集合中；

步骤402，判断训练网页集合中是否存在未加入已有训练网页子集合的剩余训练网页，如果是，执行403，如果否转步骤409；

步骤403，读取一剩余训练网页；

步骤404，按照设定顺序读取一训练网页子集合，计算步骤403读取的该剩余训练网页的DOM树与该读取的训练网页子集合中的训练网页的DOM树具有相同节点的数量，所述相同节点是指在DOM树中的路径和所包含的子节点的数量均相同的节点；所述设定顺序可以是任意设定的，只要该顺序能够确保所有的训练网页子集合被读取即可。

步骤405，判断步骤404计算出的相同节点的数量是否超过设定阈值，若是，进入步骤406，否则，进入步骤407；

步骤406，将该剩余训练网页加入该训练网页子集合中，该剩余训练网页的处理结束，转步骤402；

步骤407，判断该训练网页子集合是否为所述设定顺序上的最后一个训练网页子集合，若是，进入步骤408，否则转步骤404；

步骤408，建立一个新的训练网页子集合，将该剩余训练网页加入该新的训练网页子集合，该剩余训练网页的处理结束，转步骤402；

步骤409，结束。

实例二

建立一个训练网页子集合，将训练网页集合中任一训练网页加入该训练网页子集合中，对训练网页集合中未加入已有训练网页子集合的每个剩余训练网页，执行：

确定该剩余训练网页的DOM树与每个已有训练网页子集合中包含的训练网页的DOM树具有相同节点的数量，所述相同节点为在DOM树中的层次位置和包含的子节点的数量均相同的节点，以及

在已有训练网页子集合中选择出包含的训练网页的DOM树与该剩余训练网页的DOM树具有相同节点数量最多的训练网页子集合；以及

在选择出的训练网页子集合包含的训练网页的DOM树与该剩余训练网页的DOM树具有相同节点数量超过设定阈值时，将该剩余训练网页加入选择出的训练网页子集合；否则，建立一个新的训练网页子集合，将该剩余训练网页加入该新的训练网页子集合。

请参照附图4b，具体流程描述如下：

步骤411，建立一个训练网页子集合，将训练网页集合中的任一训练网页加入该训练网页子集合中；

步骤412，判断训练网页集合中是否存在未加入已有训练网页子集合的剩余训练网页，如果是，执行步骤413，如果否转步骤419；

步骤413，读取一剩余训练网页；

步骤414，计算步骤413读取的该剩余训练网页的DOM树分别与每个已有训练网页子集合中包含的训练网页的DOM树具有相同节点的数量，所述相同节点是指在DOM树中的路径和所包含的子节点的数量均相同的节点；

步骤415，根据步骤414计算出的该剩余训练网页的DOM树与每个已有训练网页子集合中的训练网页的DOM树具有相同节点的数量，在已有训练网页子集合中选择包含的训练网页的DOM树与该剩余训练网页的DOM树具有相同节点数量最多的训练网页子集合，进入步骤416；

步骤416，判断步骤415选择出的训练网页子集合包含的训练网页的DOM树与该剩余训练网页的DOM树具有相同节点数量是否超过设定阈值，若是进入步骤417，否则转步骤418；

步骤417，将该剩余训练网页加入步骤415选择出的训练网页子集合，该剩余训练网页的处理结束，转步骤412；

步骤418，建立一个新的训练网页子集合，将该剩余训练网页加入该新的训练网页子集合，该剩余训练网页的处理结束，转步骤412；

步骤419，结束。

当采用实例二的方法选择出了至少两个训练网页子集合(即至少两个训练网页子集合包含的训练网页的DOM树与该其余训练网页的DOM树具有相同节点数量相同、且该数量在所有训练网页子集合包含的训练网页的DOM树与该其余训练网页的DOM树具有相同节点数量中是最多的、并且该数量超过了设定阈值)时，可以将该未归入任一训练网页子集合的其他训练网页归入这两个训练网页子集合其中的任意一个训练网页子集合中。

举例来说，在本实施例中首先以网页1作为第一训练网页子集合的训练网页，当然也可以将网页2、网页3或网页4先作为第一训练网页子集合的训练网页；

然后确定网页2的DOM树与第一训练网页子集合中网页1的DOM数具有相同节点的数量为4个，占网页2的DOM树的总节点数量的67％，如附图5a、附图5b所示，黑色的节点作为网页2与网页1相同的节点，假定进行训练节点聚类时的设定阈值为60％，那么网页2与网页1具有相同节点的数量占网页2总节点数量的比例67％高于设定阈值60％，那么将网页2加入第一训练网页子集合中。

然后，确定网页3的DOM树与第一训练网页子集合中网页1的DOM数具有相同节点的数量为0个，占网页2总节点数量的0％，如附图5c、附图5d所示，白色的节点作为网页2与网页1不相同的节点，那么网页3与网页1具有相同节点的数量占网页3总节点数量的比例0％低于设定阈值60％，那么将网页3加入一个新的训练网页子集合----第二训练网页子集合中。

同理，确定网页4的DOM树与第一训练网页子集合中网页1的DOM数具有相同节点的数量为0个，占网页2总节点数量的0％，如附图5e、附图5f所示，白色的节点作为网页4与网页1不相同的节点，那么网页4与网页1具有相同节点的数量占网页2总节点数量的比例0％低设定阈值60％；此后，确定网页4的DOM树与第二训练网页子集合中网页3的DOM数具有相同节点的数量为4个，占网页4的DOM树的总节点数量的67％，如附图5g、附图5h所示，黑色的节点作为网页4与网页3相同的节点，那么网页4与网页3具有相同节点的数量占网页4总节点数量的比例67％高于设定阈值60％，那么将网页4加入第二训练网页子集合中。

如果训练网页集合中还有更多的训练网页，也逐个进行上述聚类处理，直到所有训练网页都被归入各训练网页子集合为止。

比较实例一和实例二，实例一中的方案在进行聚类时，速度较快，假定有10个训练网页子集合，可能在比较剩余网页和第二个训练网页子集合中的训练网页时，二者DOM树具有相同节点的数量超过设定阈值，那么直接将剩余网页加入第二个训练网页子集合即可，无需再计算剩余网页的DOM树和其余8个训练网页子集合中训练网页的DOM树具有相同节点的数量、以及判断是否超过设定阈值；而实例二的聚类效果较好，能将每个剩余网页都归入拓扑结构最相似的训练网页子集合中，不过聚类处理耗费的时间较实例一中方案耗费的时间长。

第二步：在已确定各个训练网页子集合的基础上，确定各个训练网页子集合对应的模板文件：

请参照附图6所示，针对每个训练网页子集合，执行：

步骤601，根据该训练网页子集合中包含的各个训练网页的文档的对象模型树，确定该训练网页子集合对应的合并后的DOM树，所述合并后的文档对象模型树包含各个训练网页的文档对象模型树中的节点，所述合并后的DOM树中的每个节点对应的文本集合中包括各个训练网页的文档对象模型树中相同路径的节点对应的文本；

以第一训练网页子集合为例，首先将第一训练网页子集合中网页1的DOM树作为基础树，确定网页2的DOM树与基础树的相同节点、以及不同节点。附图7a为第一训练网页子集合的基础树，图7b为网页2的DOM树，与附图5a一样黑色节点为相同节点，白色节点为不同节点，这里分别为各节点进行了标注，使用一个向量来表示每个节点的拓扑信息，其中第一个分量表示该节点在DOM树中的层次，对应图中第一位数字。第二个分量表示该节点在本层次所有节点中的序号，对应图中第二位数字。第三个分量表示该节点所包含的文本，对应图中括号内的文本。对于网页2的DOM树中的每个节点而言：如果在基础树中存在相同节点，在基础树中相同节点的文本集合中加入该节点的文本。例如第一训练网页子集合的合并后的DOM树中节点41的文本集合为(cd，de)；如果在基础树中不存在相同节点，在基础树中与该节点在网页2的DOM树上同样的位置上新加入一个节点，将该节点的文本作为基础树上新加入节点对应的文本集合中的文本，基础树上新加入节点43的文本集合为(fg)。第一训练网页子集合的合并后的DOM树如附图7c所示。

如果第一训练网页子集合中还存在其他训练网页，则重复上述网页2的处理，直到将第一训练网页子集合中所有的训练网页的DOM树中的节点合并到基础树中为止，合并后的基础树作为第一训练网页子集合对应的合并后的DOM树。为了便于描述后续步骤，假定第一训练网页子集合还包含更多的训练网页，那么合并后DOM树中各节点的文本集合如表1所示。

表1 第一训练网页子集合对应的合并后DOM树中各节点的文本集合

节点11	(ab，ab，mn，ab，mn)
		节点21	(bc，ab，bc，mn，hi)
节点31	(cd，cd，cd，cd，cd)
		节点41	(cd，de，ef，hi，ab)
节点42	(df，de，df，df，df)
		节点43	(fg，fg)

步骤602，确定该训练网页子集合对应的合并后的DOM树中备选节点。先分别计算每个节点对应的文本集合中不同文本占该文本集合中文本总数的比例，判断计算出的比例是否超过预定备选节点选择阈值，若是将该节点作为备选节点；否则，将该节点作为噪声节点。备选节点是指对应的文本中包含信息量较多的节点，也是对应的文本为感兴趣信息概率较大的节点。噪声节点与备选节点相比，包含信息量较少，因为如果在不同的测试网页的DOM树中该节点对应的文本都是相同的，那么该文本很可能是网页使用的HTML版本标识、广告等。

以第一训练网页子集合为例，节点11对应的文本集合中有2个不同文本，分别为ab和mn，而节点11对应的文本集合中文本总数为5，从而计算出节点11对应的文本集合中不同文本占该文本集合中文本总数的比例为2/5＝0.4，同理可以确定第一训练网页子集合的合并后的DOM树中每个节点对应的文本集合中不同文本占该文本集合中文本总数的比例，具体如表2所示。

表2第一训练网页子集合的合并后的DOM树中每个节点对应的文本集合中不同文本占该文本集合中文本总数的比例

节点11	0.4
		节点21	0.8
节点31	0.2
		节点41	1
节点42	0.4
		节点43	0.5

如果预定备选节点选择阈值为0.7，那么节点21、节点41为备选节点，其他节点为噪声节点。

步骤603，基于上述步骤601确定出的该训练网页子集合对应的合并后的DOM树、步骤602确定出的备选节点，确定该训练网页子集合的模板文件，所述模板文件中包含合并后的DOM树中备选节点的路径，以及合并后的文档对象模型树的拓扑结构。

例如，第一训练网页子集合的模板文件包含以下内容：

备选节点：

节点21：路径//1/1(根节点的第一个子节点)；

节点41：路径////1///1//1/1(根节点的第一个子节点的第一个子节点的第一个子节点)；

拓扑结构如附图7c所示。

下面介绍根据采用上述方案确定出的模板文件，从待获取信息的网页中获取感兴趣信息的过程，请参照附图8所示：

步骤801，计算待获取信息的网页的DOM树分别与各训练网页子集合对应的模板文件中包含的合并后的DOM树具有相同节点的数量，并根据计算结果，从各模板文件中选择出包含合并后的文档对象模型树与待获取文本的网页的DOM树拓扑结构上最相似的模板文件；

具体选择过程与步骤402类似，在这里不再赘述。

步骤802，根据选择出的模板文件中备选节点的路径信息，将待获取信息的网页的DOM树中与选择出的模板文件中备选节点的路径具有相同路径的节点的文本作为从待获取信息的网页获取到的感兴趣信息。

假定经过选择后，第一训练网页子集合的模板文件包含的DOM树的拓扑结构是与待获取文本的网页的DOM树最相似的，那么根据第一训练网页子集合的模板文件包含的备选节点的信息，按照其中备选节点21的路径，取出待获取文本的网页的DOM树对应位置上的节点对应的文本“mobile：13500000002”，以及按照其中备选节点41的路径，取出待获取文本的网页的DOM树对应位置上的节点对应的文本“户型：三居室”。

较佳地，在步骤802之后，还可以进行：

步骤803，将待获取网页的统一资源定位符(URL，Uniform ResourceLocator)、以及上述对应的从该待获取网页中获取到的感兴趣信息作为一条记录存储到数据库中，以便管理人员查看、或基于数据库中存储的信息进行进一步的分析处理。记录的形式如表3所示：

表3 待获取文本的网页对应在数据库中的记录

http:\\www.jiaodianfangcha.com.cn\mainpage\page1

mobile：13500000002

户型：三居室

较佳地，为了保证将大量待获取网页中获取的感兴趣信息以相类似的格式整齐划一地存储到数据库中，在训练阶段中第二步确定模板文件时，在步骤602中确定出备选节点后，还可以进行如下处理；

对步骤602确定出的每个备选节点对应的文本集合中的每个文本进行分词处理，获得该文本集合中每个文本的前缀，并确定其中数量最多的相同前缀，以及将确定出的前缀作为该备选节点的名称；

实际上，每个节点对应的文本集合中的文本通常是字符串、词组、句子等，在本实施例附图6，表1和表2中只是为了简明起见，仅以简单的字母组合来代替。以房产类网页为例，备选节点21实际上对应的文本集合为(电话：12345678，手机：13500000001，电话：12345678，电话：3557898，电话：87654321)。对其中每个文本进行分词处理后备选节点21对应的文本集合中各文本的前缀为(电话，手机，电话，电话，电话)，那么数量最多的相同前缀为“电话”，将“电话”作为备选节点21的名称。

此后，在步骤603中确定出的模板文件中除了包含合并后的DOM树中备选节点的路径，以及合并后的文档对象模型树的拓扑结构之外还应包括按上述方法确定出的备选节点的名称；

例如，第一训练网页子集合的模板文件包含以下内容：

备选节点：

节点21：路径//1/1(根节点的第一个子节点)、名称(“电话”)；

节点41：路径////1///1//1/1(根节点的第一个子节点的第一个子节点的第一个子节点)、名称(“户型”)；

拓扑结构如附图7a所示。

在根据确定出的模板文件，从待获取文本的网页中获取文本的过程中，对获取到的待获取文本的网页中备选节点的文本进行分词处理确定出文本中的前缀，然后用模板文件中备选节点的名称来替换获取到的文本中的前缀，在数据库中存储的待获取网页对应的记录为如表4所示。

表4 待获取文本的网页对应在数据库中的记录

http:\\www.jiaodianfangcha.com.cn\mainpage\page1

电话：13500000002

户型：三居室

较佳地，为了在获取模板文件时，备选节点的名称为预先设定的名称，可以预先设定若干同义词集合，每个所述每个同义词集合中都有一个指定的词作为标准词，在按照上述方法确定出备选节点的名称后，在每个同义词集合中查找该确定出的备选节点的名称，从而查找到包含该备选节点的名称的同义词集合，将该查找到的同义词集合中的标准词作为最终备选节点的名称；同样在根据确定出的模板文件，从待获取文本的网页中获取文本的过程中，对获取到的待获取文本的网页中备选节点的文本进行分词处理确定出文本中的前缀，然后用模板文件中备选节点的名称来替换获取到的文本中的前缀。

例如同义词集合A＝(地址、住址、所在地)，同义词集合B＝(电话，手机，mobile，tel.)，其中下划线的词为该集合中预先指定的标准词，将同义词集合B中的标准词“tel.”作为步骤603中备选节点21的名称，即在步骤603中确定出的第一训练网页子集合的模板文件包含的备选节点的信息如下：

节点21：路径(1-1)、名称(“tel.”)；

节点41：路径(1-1-1-1)、名称(“户型”)。

在数据库中存储的待获取网页对应的记录为如表5所示。

表5 待获取文本的网页对应在数据库中的记录

http:\\www.jiaodianfangcha.com.cn\mainpage\page1

tel：13500000002

户型：三居室

较佳地，在上述步骤602确定备选节点之前，还可以对步骤601获得的合并后的DOM树中每个节点的文本集合中的各文本进行格式归一化处理，将文本集合中的每个文本分别处理为统一格式的文本。例如处理前文本集合为(123，五六七，捌玖零)，处理后的文本集合为(123，456，890)。

本申请实施例提供的获取网页中的感兴趣信息的方案，首先在训练阶段根据训练网页集合中各训练网页的DOM树的拓扑结构进行聚类，获得至少一个训练网页子集合，所述每个训练网页子集合中的训练网页的DOM数都具有相似的拓扑结构，并确定每个训练子集合对应的合并后的DOM树以及并后的DOM树中的备选节点，感兴趣信息通常在备选节点对应的文本中。这样做的好处在于能够概括出大量训练网页的DOM树所共有的拓扑特征，并得到感兴趣信息在待获取信息的网页的DOM树中的大致位置，克服了现有技术在待获取信息的网页的DOM树与训练网页的DOM树仅有细微差别时，就因不符合预定匹配规则，而无法从待获取信息的网页中获取感兴趣信息的问题。基于此，在获取信息时，从各训练网页子集合中选择出对应的合并后的DOM树与待获取信息的网页的DOM树具最相似的拓扑结构的训练网页子集合，并将待获取信息的网页的DOM树中与选择出的训练网页子集合对应的合并后的DOM树中备选节点具有相同路径的节点对应的文本作为获取到的感兴趣信息。通过上述方案能够从许多按照现有方法无法获取到感兴趣信息的网页中获取感兴趣的信息，举例来说给定100个待获取信息的网页，这100个网页的DOM树的拓扑结构不尽相同，现有技术只能从其中10个网页中获取到感兴趣信息，而采用本申请实施例提供的方法后，可以从其中80个网页中获取到感兴趣信息。

相应地，本申请实施例还提供了一种获取网页中的感兴趣信息的装置，请参照附图9a所示，将从网络中搜集到的大量待获取信息的网页输入给该获取网页中的感兴趣信息的装置，该获取网页中的感兴趣信息的装置可以将从这些网页中获取到的感兴趣信息存储到数据库中供管理员进行后续分析。

如图9b所示，该装置包括聚类处理单元901、合并单元902、备选节点确定单元903、选择单元904和获取单元905，具体如下：

聚类处理单元901，用于根据DOM树的拓扑结构，对训练网页集合中各训练网页进行聚类，获得至少一个DOM树具有相似的拓扑结构的训练网页子集合；

合并单元902，用于对聚类处理单元901获得的每个训练网页子集合中的各个训练网页的DOM树分别进行合并，合并后的DOM树中的每个节点对应的文本集合中包括该训练网页子集合中各个训练网页的DOM树中与该节点位于相同路径的节点对应的文本；

备选节点确定单元903，用于对聚类处理单元901获得的每个训练网页子集合，确定合并单元902获得的该训练网页子集合的合并后的DOM树中的备选节点，所述备选节点对应的文本集合中不同文本的数量与该文本集合中包含文本总数的比值超过设定阈值；

选择单元904，用于获取信息时，从聚类处理单元901获得的各训练网页子集合中选择出一个训练网页子集合，该选择出的训练网页子集合对应的合并后的DOM树在各训练网页子集合对应的合并后的DOM树中与待获取信息的网页的DOM树的拓扑结构最相似；

获取单元905，用于将待获取信息的网页的DOM树中与选择单元904选择出的训练网页子集合对应的合并后的DOM树中备选节点具有相同路径的节点对应的文本作为获取到的感兴趣信息。

较佳地，请参照附图10，附图9中的聚类处理单元901具体包括：训练网页子集合建立子单元101、确定子单元102、选择子单元103和判断子单元104，其中：

训练网页子集合建立子单元101，用于建立一个训练网页子集合，将训练网页集合中任一训练网页加入该训练网页子集合中；

确定子单元102，用于对训练网页集合中未加入已有训练网页子集合的每个剩余训练网页，确定该剩余训练网页的DOM树与每个已有训练网页子集合中包含的训练网页的DOM树具有相同节点的数量，所述相同节点为在DOM树中的层次位置和包含的子节点的数量均相同的节点；

选择子单元103，用于根据确定子单元102确定出的该剩余训练网页的DOM树与每个已有训练网页子集合中包含的训练网页的DOM树具有相同节点的数量，在已有训练网页子集合中选择出包含的训练网页的DOM树与该剩余训练网页的DOM树具有相同节点数量最多的训练网页子集合；

判断子单元104，用于判断选择子单元103选择出的训练网页子集合包含的训练网页的DOM树与该剩余训练网页的DOM树具有相同节点数量是否超过设定阈值，若是，将该剩余训练网页加入选择子单元选择出的训练网页子集合；否则，触发训练网页子集合建立子单元建立一个新的训练网页子集合，将该剩余训练网页加入该新的训练网页子集合。较佳地，请参照附图11，附图9b中的选择单元904具体包括确定子单元111和选择子单元112，其中：

确定子单元111，用于确定该待获取信息的网页的DOM树与每个训练网页子集合中对应的合并后的DOM树具有相同节点的数量，所述相同节点为在DOM树中的层次位置和包含的子节点的数量均相同的节点；

选择子单元112，用于根据确定子单元111的确定结果，选择出对应的合并后的DOM树与该待获取信息的网页的DOM树具有相同节点的数量最多的训练网页子集合。

较佳地，所述确定子单元111和确定子单元102为同一单元，分别被所述聚类处理单元901和选择单元904调用。

较佳地，所述选择子单元103和选择子单元112为同一单元，分别被所述聚类处理单元901和选择单元904调用。

较佳地，请参照附图12，附图9b中的合并单元902具体包括判断子单元121、文本加入子单元122和节点加入子单元123，其中：

判断子单元121，用于以训练网页子集合中任一训练网页的DOM树为基础树，逐一判断该训练网页子集合中每一剩余训练网页的DOM树中的每个节点在基础树中是否存在相同节点；

文本加入子单元122，用于在判断子单元121判断出在基础树中存在相同节点时，将该节点对应的文本加入基础树中相同节点对应的文本集合中；

节点加入子单元123，用于在判断子单元121判断出在基础树中不存在相同节点时，在基础树中新加入一个节点，所述新加入节点在基础树中的位置与该节点在该训练网页的DOM树中的位置相同，所述新加入节点对应的文本与该节点对应的文本相同。

较佳地，如附图9b所述的装置中，还包括备选节点名称确定单元，用于对每个备选节点对应的文本集合中的每个文本进行分词处理，确定该文本集合中每个文本的前缀，并在确定出的每个文本对应的前缀中，确定出数量最多的相同前缀，以及将确定出的前缀作为该备选节点的名称。

对应地，此时获取单元905还用于对待获取信息的网页的DOM树中与选择出的训练网页子集合对应的合并后的DOM树中的备选节点具有相同路径的节点对应的文本进行分词处理，确定该文本中的前缀，以及用所述备选节点的名称替换确定出的该文本中的前缀，以及将替换后的文本作为获取到的感兴趣信息。

较佳地，请参照附图13，附图9b中的装置还包括文本格式处理单元131，用于将合并单元902合并后的DOM树中的各节点对应的文本集合中的每个文本处理为统一格式的文本。

对应地，备选节点确定单元903基于文本格式处理单元131的处理结果来确定备选节点，由于此时文本格式处理单元已将文本处理为统一格式的文本，因此可以提高备选节点确定单元确定备选节点时的准确性，例如原本一个节点的文本集合为{一二三、壹贰叁、123}，按照此前的方案三个文本都不同，该节点会被确定为备选节点，而文本格式处理单元131处理后(假定预定统一格式为阿拉伯数字)，该文本集合转换为{123、123、123}，将不会被确定为备选节点。类似地，文本格式处理单元131还可以去除文本中逗号、分号、空格符等无意义的符号，以便进一步降低将噪声节点确定为备选节点的几率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读取存储介质中，如：ROM/RAM、磁碟、光盘等。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种获取网页中的感兴趣信息的方法，其特征在于，包括：

对每个所述训练网页子集合中各个训练网页的DOM树分别进行合并，合并后的DOM树中的每个节点对应的文本集合中包括该训练网页子集合中各个训练网页的DOM树中与该节点位于相同路径的节点对应的文本；

2.如权利要求1所述的方法，其特征在于，根据训练网页集合中各训练网页的DOM树的拓扑结构对所述各训练网页进行聚类，获得训练网页子集合，具体包括：

3.如权利要求1所述的方法，其特征在于，根据训练网页集合中各训练网页的DOM树的拓扑结构对所述各训练网页进行聚类，获得训练网页子集合，具体包括：

4.如权利要求1至3中任一权利要求所述的方法，其特征在于，从各训练网页子集合中选择出一个训练网页子集合，该选择出的训练网页子集合对应的合并后的DOM树与待获取信息的网页的DOM树的拓扑结构最相似，具体包括：

确定该待获取信息的网页的DOM树与每个训练网页子集合中对应的合并后的DOM树具有相同节点的数量，所述相同节点为在DOM树中的层次位置和包含的子节点的数量均相同的节点；以及

选择出对应的合并后的DOM树与该待获取信息的网页的DOM树具有相同节点的数量最多的训练网页子集合。

5.如权利要求1至3中任一权利要求所述的方法，其特征在于，对每个所述训练网页子集合中各个训练网页的DOM树分别进行合并，具体包括：

以训练网页子集合中任一训练网页的DOM树为基础树，逐一对该训练网页子集合中每一剩余训练网页的DOM树中的每个节点执行：

在基础树中存在相同节点时，将该节点对应的文本加入基础树中相同节点对应的文本集合中；

在基础树中不存在相同节点时，在基础树中新加入一个节点，所述新加入节点在基础树中的位置与该节点在该训练网页的DOM树中的位置相同，所述新加入节点对应的文本与该节点对应的文本相同。

6.如权利要求1至3中任一权利要求所述的方法，其特征在于，确定出每个训练网页子集合的备选节点后，还包括：

对每个备选节点对应的文本集合中的每个文本进行分词处理，确定该文本集合中每个文本的前缀；

在确定出的每个文本对应的前缀中，确定出数量最多的相同前缀；

将确定出的前缀作为该备选节点的名称；

将待获取信息的网页的DOM树中与选择出的训练网页子集合对应的合并后的DOM树中备选节点具有相同路径的节点对应的文本作为获取到的感兴趣信息，具体包括：

对待获取信息的网页的DOM树中与选择出的训练网页子集合对应的合并后的DOM树中的备选节点具有相同路径的节点对应的文本进行分词处理，确定该文本中的前缀；

用所述备选节点的名称替换确定出的该文本中的前缀，以及将替换后的文本作为获取到的感兴趣信息。

7.如权利要求6所述的方法，其特征在于，确定出备选节点的名称后，还包括：

从预先存储的同义词集合中选择出该确定出的备选节点的名称所在的同义词集合，每个所述同义词集合中都有一个预先指定的词作为该同义词集合的标准词；

基于选择出的同义词集合中的标准词更新备选节点的名称。

8.如权利要求7所述的方法，其特征在于，在确定备选节点之前，还包括：

将合并后的DOM树中的各节点对应的文本集合中的每个文本处理为统一格式的文本。

9.如权利要求7或8所述的方法，其特征在于，从待获取信息的网页中获取到感兴趣信息后，还包括：

存储待获取信息的网页的统一资源定位符、以及对应存储从该待获取信息的网页中获取到的感兴趣信息。

10.一种获取网页中的感兴趣信息的装置，其特征在于，包括：

11.如权利要求10所述的装置，其特征在于，所述聚类处理单元具体包括：

训练网页子集合建立子单元，用于建立一个训练网页子集合，将训练网页集合中任一训练网页加入该训练网页子集合中；

确定子单元，用于对训练网页集合中未加入已有训练网页子集合的每个剩余训练网页，确定该剩余训练网页的DOM树与每个已有训练网页子集合中包含的训练网页的DOM树具有相同节点的数量，所述相同节点为在DOM树中的层次位置和包含的子节点的数量均相同的节点；

选择子单元，用于根据确定子单元确定出的该剩余训练网页的DOM树与每个已有训练网页子集合中包含的训练网页的DOM树具有相同节点的数量，在已有训练网页子集合中选择出包含的训练网页的DOM树与该剩余训练网页的DOM树具有相同节点数量最多的训练网页子集合；

判断子单元，用于判断选择子单元选择出的训练网页子集合包含的训练网页的DOM树与该剩余训练网页的DOM树具有相同节点数量是否超过设定阈值，若是，将该剩余训练网页加入选择子单元选择出的训练网页子集合；否则，触发训练网页子集合建立子单元建立一个新的训练网页子集合，将该剩余训练网页加入该新的训练网页子集合。