CN105808644A

CN105808644A - 一种确定正文节点的方法及装置

Info

Publication number: CN105808644A
Application number: CN201610104993.6A
Authority: CN
Inventors: 赵兵旗; 杨培强
Original assignee: Inspur Software Group Co Ltd
Current assignee: Inspur Software Group Co Ltd
Priority date: 2016-02-25
Filing date: 2016-02-25
Publication date: 2016-07-27

Abstract

本发明提供了一种确定正文节点的方法及装置，其中，方法包括：形成至少一个网页模板；获取对应目标网页模板的至少两个目标网页；获取所述至少两个目标网页中每一个网页节点分别对应的节点信息；根据每一个网页节点分别对应的节点信息，计算每一个网页节点分别对应的文字密度比；根据所述目标网页模板及每一个网页节点分别对应的文字密度比，计算每一组相互对应的网页节点分别对应的平均文字密度比，确定平均文字密度比最大的一组网页节点；根据所述平均文字密度比最大的一组网页节点，确定对应所述目标网页模板的每一个网页分别对应的正文节点。通过本发明的技术方案，可准确确定多个网页的正文节点。

Description

一种确定正文节点的方法及装置

技术领域

本发明涉及信息处理技术领域，特别涉及一种确定正文节点的方法及装置。

背景技术

网页作为网络信息的载体，可以包括多个网页节点，其中一个网页节点为正文节点，用于负载对应网络信息的网页正文，其他非正文节点可用于负载广告连接、导航栏以及版权信息等；在针对网页进行信息采集的过程中，首先需要确定网页中用于负载网页正文的正文节点。

目前，确定正文节点的方法，主要是通过对一个网页的多个网页节点分别对应的节点信息进行分析，以获取每一个网页节点分别对应的文字密度比(即当前网页节点对应的节点信息中文字数量与字符总数的比值)，进而将对应文字密度比最高的一个网页节点确定为正文节点。

但是，上述技术方案，基于单个网页的统计特性，不适用于大规模的数据采集场景，当任一网页的正文节点对应的文字内容较少时，其文字密度比可能小于非正文节点的文字密度比，进而导致非正文节点被确定为正文节点，准确性较低。

发明内容

本发明实施例提供了一种确定正文节点的方法及装置，可准确确定多个网页的正文节点。

第一方面，本发明提供了一种确定正文节点的方法，包括：

S1：形成至少一个网页模板；

S2：获取对应目标网页模板的至少两个目标网页；

S3：获取所述至少两个目标网页中每一个网页节点分别对应的节点信息；

S4：根据每一个网页节点分别对应的节点信息，计算每一个网页节点分别对应的文字密度比；

S5：根据所述目标网页模板及每一个网页节点分别对应的文字密度比，计算每一组相互对应的网页节点分别对应的平均文字密度比，确定平均文字密度比最大的一组网页节点；

S6：根据所述平均文字密度比最大的一组网页节点，确定对应所述目标网页模板的每一个网页分别对应的正文节点。

进一步的，

在所述获取所述至少两个目标网页中每一个网页节点分别对应的节点信息之后，进一步包括：

定义每一个节点信息分别对应的唯一标识；

所述根据每一个网页节点分别对应的节点信息，计算每一个网页节点分别对应的文字密度比，包括：

根据每一个节点信息分别对应的唯一标识查询每一个节点信息，并通过如下公式计算每一个网页节点分别对应的文字密度比：

A＝B/C；

其中，A表征当前网页节点对应的文字密度比、B表征当前网页节点对应的节点信息中文字个数、C表征当前网页节点对应的节点信息中字符总数。

进一步的，所述定义每一个节点信息分别对应的唯一标识，包括：

通过如下公式定义每一个节点信息的路径：

dX(n)＝X(P(n))+“/”+n.name+[“+i+”][“+n.attr+”]；

其中，dX(n)表征当前网页节点的路径、X(n)表征当前网页节点、p(n)表征当前网页节点的父亲节点、X(P(n))表征当前网页节点的父亲节点P(n)的路径、n.name表征当前网页节点的名称、i表征当前网页节点X(n)为其父亲节点p(n)的第i个孩子节点、n.attr表征当前网页节点的节点信息；

计算每一个节点信息的路径dX(n)分别对应的特征值，并将特征值定义为对应节点信息的唯一标识。

进一步的，

还包括：预先设置非链接文字下限阈值；

所述计算每一个网页节点分别对应的文字密度比，包括：

分别计算每一个网页节点对应的节点信息中非链接文字个数与文字总数的百分比；

确定至少一个目标网页节点，其中，所述目标网页节点对应的节点信息中非链接文字个数与文字总数的百分比不小于所述非链接文字下限阈值；

计算每一个目标网页节点分别对应的文字密度比。

进一步的，在所述确定对应所述目标网页模板的每一个网页分别对应的正文节点之后，还包括：

根据确定的正文节点抽取对应网页下的网页正文。

第二方面，本发明提供了一种确定正文节点的装置，包括：

构建模块，用于形成至少一个网页模板；

第一获取模块，用于获取对应目标网页模板的至少两个目标网页；

第二获取模块，用于获取所述至少两个目标网页中每一个网页节点分别对应的节点信息；

计算模块，用于根据每一个网页节点分别对应的节点信息，计算每一个网页节点分别对应的文字密度比；根据所述目标网页模板及每一个网页节点分别对应的文字密度比，计算每一组相互对应的网页节点分别对应的平均文字密度比，确定平均文字密度比最大的一组网页节点；

确定模块，用于根据所述平均文字密度比最大的一组网页节点，确定对应所述目标网页模板的每一个网页分别对应的正文节点。

进一步的，还包括：

配置模块，用于定义每一个节点信息分别对应的唯一标识；

所述计算模块，用于根据每一个节点信息分别对应的唯一标识查询每一个节点信息，并通过如下公式计算每一个网页节点分别对应的文字密度比：

A＝B/C；

其中，A表征当前网页节点对应的文字密度比、B表征当前网页节点对应的节点信息中文字个数、C表征当前网页节点对应的节点信息中字符总数。8、根据权利要求7所述的确定正文节点的装置，其特征在于，

所述配置模块，用于通过如下公式定义每一个节点信息的路径：

dX(n)＝X(P(n))+“/”+n.name+[“+i+”][“+n.attr+”]；

以及，用于计算每一个节点信息的路径dX(n)分别对应的特征值，并将特征值定义为对应节点信息的唯一标识。

进一步的，还包括：

设置模块，用于设置非链接文字下限阈值；

所述计算模块，包括：

计算子单元，用于分别计算每一个网页节点对应的节点信息中非链接文字个数与文字总数的百分比；计算每一个目标网页节点分别对应的文字密度比；

确定子单元，用于确定至少一个目标网页节点，其中，所述目标网页节点对应的节点信息中非链接文字个数与文字总数的百分比不小于所述非链接文字下限阈值。

进一步的，还包括：

处理模块，用于根据确定的正文节点抽取对应网页下的网页正文。

本发明实施例提供了一种确定正文节点的方法及装置，通过对具备相同目标网页模板的多个目标网页进行统计分析，而不是只分析单个网页的特性，适用于大规模数据采集任务中确定多个网页分别对应的正文节点；通过计算多个目标网页中，每一组相互对应的网页节点的平均文字密度比，根据平均文字密度最高的一组网页节点，确定每一个对应目标网页模板的网页分别对应的正文节点，可避免具备相同目标网页模板的多个网页中存在任一网页的网页正文较少时，该网页下的非正文节点被错误的确定为正文节点；可见，通过本发明的技术方案，可准确确定多个网页的正文节点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种确定正文节点的方法流程图；

图2是本发明一实施例提供的另一种确定正文节点的方法流程图；

图3是本发明一实施例提供的一种确定正文节点的装置结构图；

图4是本发明一实施例提供的另一种确定正文节点的装置结构图。

具体实施方法

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种确定正文节点的方法，该方法可以包括以下步骤：

S1：形成至少一个网页模板；

S2：获取对应目标网页模板的至少两个目标网页；

本发明一实施例中，通过对具备相同目标网页模板的多个目标网页进行统计分析，而不是只分析单个网页的特性，适用于大规模数据采集任务中确定多个网页分别对应的正文节点；通过计算多个目标网页中，每一组相互对应的网页节点的平均文字密度比，根据平均文字密度最高的一组网页节点，确定每一个对应目标网页模板的网页分别对应的正文节点，可避免具备相同目标网页模板的多个网页中存在任一网页的网页正文较少时，该网页下的非正文节点被错误的确定为正文节点；可见，通过本发明实施例所述的方案，可准确确定多个网页的正文节点。

本发明一实施例中，确定正文节点的方法应用到大规模数据采集场景时，通常需要对具备不同业务功能的任务作分布式部署，举例来说，可以将执行计算功能的任务与执行获取、存储节点信息的任务作分布式部署，即计算任务与获取、存储节点信息的任务分别在不同的计算节点和存储节点中进行，可提高各个任务的处理速度。

可见，计算节点需要遍历存储节点中的每一个节点信息以执行相应的计算任务，同时，存储节点中可能存在完全相同的节点信息；因此，为了区别存储节点中相同的节点信息，使得计算节点启动计算任务后能够遍历存储节点中的每一个节点信息，本发明一个优选实施例中，在所述获取所述至少两个目标网页中每一个网页节点分别对应的节点信息之后，进一步包括：

定义每一个节点信息分别对应的唯一标识；

根据每一个节点信息分别对应的唯一标识查询每一个节点信息，并通过如下公式(1)计算每一个网页节点分别对应的文字密度比：

A＝B/C；(1)

具体地，本发明一个优选实施例中，可通过一下步骤定义每一个节点信息分别对应的唯一标识：

通过如下公式(2)定义每一个节点信息的路径：

dX(n)＝X(P(n))+“/”+n.name+[“+i+”][“+n.attr+”]；(2)

需要说明的是，每一个节点信息的路径dX(n)也可以作为当前节点信息的唯一标识；但是，由上述公式可见，dX(n)中包含了所有父亲节点的所有属性，路径过长，即dX(n)对应一个特别长的字符串，如果将dX(n)作为当前节点的唯一标识，计算任务在遍历每一个节点信息时会浪费大量的带宽；因此，将dX(n)对应的特征值作为对应节点的唯一标识。

本发明一实施例中，特征值可以包括通过消息摘要算法对dX(n)加密后的摘要值。

进一步的，为了实现根据网页正文中非链接文字数量应远高于对应的文字总量等通用特性对网页节点设置硬性过滤条件，本发明一个优选实施例中，还包括：预先设置非链接文字下限阈值；

所述计算每一个网页节点分别对应的文字密度比，包括：

计算每一个目标网页节点分别对应的文字密度比。

本发明一实施例中，非链接文字下限阈值的大小可结合实际业务需求合理设置，一般来说，非链接文字下限阈值应不小于60％。

进一步的，本发明一个优选实施例中，在所述确定对应所述目标网页模板的每一个网页分别对应的正文节点之后，还包括：

根据确定的正文节点抽取对应网页下的网页正文。

如图2所示，本发明实施例提供了一种确定正文节点的方法，以确定目标站点下多个网页的正文节点，并根据正文节点抽取多个网页的网页正文为例，该方法可以包括以下步骤：

步骤201，预先设置非链接文字下限阈值。

本发明一实施例中，可将非链接文字下限阈值设置为60％；当然，非链接文字下限阈值可结合实际业务需求合理设置。

步骤202，获取目标站点的任一网页，分析该网页的数据结构，形成对应该网页的目标网页模板。

步骤203，获取目标站点下对应该目标网页模板的目标网页A1、A2、A3。

步骤204，获取A1、A2、A3下每一个网页节点分别对应的节点信息。

本发明一实施例中，可根据步骤202中形成的目标网页模版获取A1、A2、A3下的每一个网页节点分别对应的节点信息。

本发明实施例下述各步骤中，以A1、A2、A3分别包括如下节点信息为例：A1(a1、b1、c1)，A2(a2、b2、c2)，A3(a3、b3、c3)。

步骤205，定义每一个节点信息的路径。

本发明一实施例中，可通过如下公式(2)定义每一个节点信息的路径：

dX(n)＝X(P(n))+“/”+n.name+[“+i+”][“+n.attr+”]；(2)

其中，dX(n)表征当前网页节点的路径、X(n)表征当前网页节点、p(n)表征当前网页节点的父亲节点、X(P(n))表征当前网页节点的父亲节点P(n)的路径、n.name表征当前网页节点的名称、i表征当前网页节点X(n)为其父亲节点p(n)的第i个孩子节点、n.attr表征当前网页节点的节点信息。

本发明一实施例中，每一个节点信息的路径dX(n)可以包括当前节点信息在目标站点下的绝对路径，相应的，父亲节点可以包括对应当前节点信息的网页节点所在目标网页的网页地址，即P(n)可以是A1、A2、或A3的网页地址。

本发明实施例中，以每一个节点信息对应的网页节点与其父亲节点具备如下对应关系为例：

a1对应的网页节点为A1的第1个孩子节点、b1对应的网页节点为A1的第2个孩子节点、c1对应的网页节点为A1的第3个孩子节点；

a2对应的网页节点为A2的第1个孩子节点、b2对应的网页节点为A2的第2个孩子节点、c2对应的网页节点为A2的第3个孩子节点；

a3对应的网页节点为A3的第1个孩子节点、b3对应的网页节点为A1的第2个孩子节点、c3对应的网页节点为A1的第3个孩子节点。

本发明一实施例中，节点名称即当前节点信息对应的网页节点的标签名称。

步骤206，通过消息摘要算法计算每一个dX(n)的摘要值。

步骤207，将每一个dX(n)的摘要值定义为对应节点信息的唯一标识。

步骤208，根据摘要值查询每一个节点信息，计算每一个网页节点分别对应的节点信息中非链接文字个数与文字总数的百分比。

步骤209，根据预先设置的非链接文字下限阈值确定至少一个目标网页节点，计算每一个目标网页节点分别对应的文字密度比。

这里，即在计算每一个节点信息中非链接文字个数与文字总数的百分比之后，只有在当前节点信息中非链接文字个数与文字总数的百分比不小于预先设置的60％的非链接文字下限阈值时，才继续计算当前节点信息的文字密度比。

本发明一实施例中，可通过如下公式(1)计算每一个目标网页节点分别对应的文字密度比：

A＝B/C；(1)

其中，A表征当前目标网页节点对应的文字密度比、B表征当前目标网页节点对应的节点信息中文字个数、C表征当前目标网页节点对应的节点信息中字符总数。

步骤210，根据目标网页模板及每一个目标网页节点分别对应的文字密度比，计算每一组相互对应的网页节点分别对应的平均文字密度比，确定平均文字密度比最大的一组网页节点。

本发明一实施例中，可通过每一个节点信息分别对应的路径dX(n)来确定每一组相互对应的网页节点，举例来说，当两个节点信息分别对应的dX(n)中i值相同且n.name完全相同时，可确定这两个节点信息分别对应的网页节点为相互对应的一组网页节点。

由上述步骤205可见，节点信息a1、a2、a3分别对应的网页节点为一组相互对应的网页节点，节点信息b1、b2、b3分别对应的网页节点为一组相互对应的网页节点，节点信息c1、c2、c3分别对应的网页节点为一组相互对应的网页节点。

这里以节点信息c1、c2、c3分别对应的一组网页节点的平均文字密度最大为例，即可确定c1、c2、c3分别对应的网页节点为A1、A2、A3的正文节点，相应的，c1、c2、c3分别为A1、A2、A3的网页正文。

步骤211，根据平均文字密度比最大的一组网页节点确定对应所述目标网页模板的每一个网页分别对应的正文节点。

通过上述步骤205和步骤210可见，对应相同网页模板的每一个网页下第三个孩子节点(网页节点)为正文节点，进而确定对应目标网页模板的每一个网页下第三个孩子节点均为正文节点。

步骤212，根据确定的正文节点分别抽取对应网页下的网页正文。

这里，即抽取对应目标网页模板的每一个网页的第三个孩子节点(网页节点)中的节点信息，被抽取的节点信息即对应的网页正文。

需要说明的是，这里对目标站点进行大规模数据采集时，可通过依次加载该站点下的每一个网页，针对与目标网页模板不匹配的全部网页，可再次构建对应的网页模板，通过执行与上述各步骤相似的方法抽取对应网页的网页正文。

如图3所示，本发明实施例提供了一种确定正文节点的装置，包括：

构建模块301，用于形成至少一个网页模板；

第一获取模块302，用于获取对应目标网页模板的至少两个目标网页；

第二获取模块303，用于获取所述至少两个目标网页中每一个网页节点分别对应的节点信息；

计算模块304，用于根据每一个网页节点分别对应的节点信息，计算每一个网页节点分别对应的文字密度比；根据所述目标网页模板及每一个网页节点分别对应的文字密度比，计算每一组相互对应的网页节点分别对应的平均文字密度比，确定平均文字密度比最大的一组网页节点；

确定模块305，用于根据所述平均文字密度比最大的一组网页节点，确定对应所述目标网页模板的每一个网页分别对应的正文节点。

本发明一实施例中，用于确定正文节点的装置下用于执行个任务的模块可作分布式部署，以提高各任务的处理速度，举例来说，可将计算模块与第二获取模块分别部署在不同的计算节点和存储节点中。

进一步的，为了区别相同的节点信息，使得计算任务能够遍历每一个节点信息，实现对每一个节点信息执行相应的计算任务，如图4所示，本发明一个优选实施例中，还包括：

配置模块401，用于定义每一个节点信息分别对应的唯一标识；

所述计算模块304，用于根据每一个节点信息分别对应的唯一标识查询每一个节点信息，并通过如下公式计算每一个网页节点分别对应的文字密度比：

A＝B/C；

具体地，本发明一个优选实施例中，所述配置模块401，用于通过如下公式定义每一个节点信息的路径：

dX(n)＝X(P(n))+“/”+n.name+[“+i+”][“+n.attr+”]；

其中，dX(n)表征当前网页节点的路径、X(n)表征当前网页节点、p(n)表征当前网页节点的父亲节点、X(P(n))表征当前网页节点的父亲节点P(n)的路径、n.name表征当前网页节点的名称、i表征当前节点X(n)为其父亲节点p(n)的第i个孩子节点、n.attr表征当前网页节点的节点信息；

进一步的，为了实现根据网页正文中非链接文字数量应远高于对应的文字总量等通用特性对网页节点设置硬性过滤指标，如图4所示，本发明一个优选实施例中，还包括：

设置模块402，用于设置非链接文字下限阈值；

所述计算模块304，包括：

计算子单元3041，用于分别计算每一个网页节点对应的节点信息中非链接文字个数与文字总数的百分比；计算每一个目标网页节点分别对应的文字密度比；

确定子单元3042，用于确定至少一个目标网页节点，其中，所述目标网页节点对应的节点信息中非链接文字个数与文字总数的百分比不小于所述非链接文字下限阈值。

进一步的，如图4所示，本发明一个优选实施例中，还包括：

处理模块403，用于根据确定的正文节点抽取对应网页下的网页正文。

上述装置内的各单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

本发明各个实施例至少具有如下有益效果：

1、通过对具备相同目标网页模板的多个目标网页进行统计分析，而不是只分析单个网页的特性，适用于大规模数据采集任务中确定多个网页分别对应的正文节点；通过计算多个目标网页中，每一组相互对应的网页节点的平均文字密度比，根据平均文字密度最高的一组网页节点，确定每一个对应目标网页模板的网页分别对应的正文节点，可避免具备相同目标网页模板的多个网页中存在任一网页的网页正文较少时，该网页下的非正文节点被错误的确定为正文节点；可见，通过本发明实施例所述的方案，可准确确定多个网页的正文节点。

2、本发明实施例提供的确定正文节点的方法适用于大规模数据采集场景，利用平均文字密度比最大的一组网页节点，以及对应的目标网页模板生成数据采集模板，可利用该数据采集模板分别抽取对应该目标网页模板的每一个网页的网页正文。

3、本发明实施例提供的确定正文节点的装置，执行计算功能的任务和执行获取、存储节点信息功能的任务可作分布式部署，以提高各任务的处理速度；同时，通过将每一个节点信息的路径的特征值作为当前节点的唯一标识，使得计算节点可根据特征值遍历每一个节点信息，且避免计算任务在各节点间传递时浪费大量带宽。

需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个〃〃〃〃〃〃”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

最后需要说明的是：以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种确定正文节点的方法，其特征在于，包括：

形成至少一个网页模板；

获取对应目标网页模板的至少两个目标网页；

获取所述至少两个目标网页中每一个网页节点分别对应的节点信息；

根据每一个网页节点分别对应的节点信息，计算每一个网页节点分别对应的文字密度比；

根据所述目标网页模板及每一个网页节点分别对应的文字密度比，计算每一组相互对应的网页节点分别对应的平均文字密度比，确定平均文字密度比最大的一组网页节点；

根据所述平均文字密度比最大的一组网页节点，确定对应所述目标网页模板的每一个网页分别对应的正文节点。

2.根据权利要求1所述的确定正文节点的方法，其特征在于，

定义每一个节点信息分别对应的唯一标识；

A＝B/C；

3.根据权利要求2所述的确定正文节点的方法，其特征在于，所述定义每一个节点信息分别对应的唯一标识，包括：

通过如下公式定义每一个节点信息的路径：

dX(n)＝X(P(n))+“/”+n.name+[“+i+”][“+n.attr+”]；

4.根据权利要求1所述的确定正文节点的方法，其特征在于，

还包括：预先设置非链接文字下限阈值；

所述计算每一个网页节点分别对应的文字密度比，包括：

计算每一个目标网页节点分别对应的文字密度比。

5.根据权利要求1至4中任一所述的确定正文节点的方法，其特征在于，在所述确定对应所述目标网页模板的每一个网页分别对应的正文节点之后，还包括：

根据确定的正文节点抽取对应网页下的网页正文。

6.一种确定正文节点的装置，其特征在于，包括：

构建模块，用于形成至少一个网页模板；

7.根据权利要求6所述的确定正文节点的装置，其特征在于，还包括：

配置模块，用于定义每一个节点信息分别对应的唯一标识；

A＝B/C；

8.根据权利要求7所述的确定正文节点的装置，其特征在于，

dX(n)＝X(P(n))+“/”+n.name+[“+i+”][“+n.attr+”]；

9.根据权利要求6所述的确定正文节点的装置，其特征在于，还包括：

设置模块，用于设置非链接文字下限阈值；

所述计算模块，包括：

10.根据权利要求6至9中任一所述的确定正文节点的装置，其特征在于，还包括：