CN106528509A

CN106528509A - 网页信息提取方法及装置

Info

Publication number: CN106528509A
Application number: CN201610995251.7A
Authority: CN
Inventors: 于龙; 晋好林; 陈美丽; 朱涛; 赵西法
Original assignee: JINAN ZHENGHE TECHNOLOGY Co Ltd
Current assignee: JINAN ZHENGHE TECHNOLOGY Co Ltd
Priority date: 2016-11-11
Filing date: 2016-11-11
Publication date: 2017-03-22
Anticipated expiration: 2036-11-11
Also published as: CN106528509B

Abstract

本发明公开了一种网页信息提取方法及装置，所述方法包括：提取待提取网页的所有区域块；确定所述待提取网页的所有区域块中的非边界区域块；将标点密度超过第一预设阈值的非边界区域块确定为正文内容。本发明实施例的技术方案根据待提取网页的所有区域块中的非边界区域块，将标点密度超过第一预设阈值的非边界区域块确定为正文内容，通过基于标点数量来确定网页的正文内容，提高了提取网页的通用性和执行效率。

Description

网页信息提取方法及装置

技术领域

本发明涉及互联网技术领域，特别涉及一种网页信息提取方法及装置。

背景技术

互联网是一个巨大的信息发布和传播源，目前网页数量已超过800亿，每小时还以惊人的速度在增长，这些网页中可能包含用户需要的大量信息，但还包括很多与主题无关的内容，比如，导航条、广告、推销信息、版权信息、欢迎信息等。如何从这些大量的信息中提取出最有用的信息，成为近年来人们的研究热点。

现有技术提供了一种基于标点连续性的通用网页正文提取方法，该方法包括读入文件，转化为Unicode的处理步骤、去除噪声标记信息的处理步骤、生成html标记树的处理步骤、处理正文格式信息的处理步骤、提取文本节点生成文本句子序列的处理步骤和利用常用的标点对文本序列块重新分句的处理步骤和利用标点的连续性原理提取最长连续正文的处理步骤。

现有技术的网页正文提取方法无法识别网页中的链接，如果网页中存在链接，并且链接中有多个标点时，对正文内容的提取存在较大干扰。

发明内容

有鉴于此，本发明实施例的目的是提供一种通用的、执行效率较高、成较率也较高的网页信息提取方法及装置。

为了实现上述目的，本发明实施例提供了一种网页信息提取方法，包括：

提取待提取网页的所有区域块；

确定所述待提取网页的所有区域块中的非边界区域块；

将标点密度超过第一预设阈值的非边界区域块确定为正文内容。

作为优选，确定所述待提取网页的所有区域块中的非边界区域块，包括：

对所述待提取网页的html源码构建文档对象模型DOM树；

查找所述DOM树的叶子节点和所述叶子节点对应的父节点；

提取所述叶子节点和其对应的所述父节点的标点符号；

根据所述叶子节点与其对应的所述父节点的标点符号数量关系，确定所述叶子节点所属的区域块是否为非边界区域块。

作为优选，提取所述叶子节点和其对应的所述父节点的标点符号，包括：

遍历所述DOM树的所有叶子节点，提取所述叶子节点包含的所有标点符号；

将所述叶子节点包含的所有的标点符号正则匹配预设常用标点符号；

存储所述叶子节点中与所述预设常用标点符号相匹配的标点符号；

提取所述叶子节点对应的父节点包含的所有标点符号；

将所述父节点包含的所有的标点符号正则匹配所述预设常用标点符号；

存储所述父节点中与所述预设常用标点符号相匹配的标点符号。

作为优选，提取所述叶子节点包含的所有标点符号，包括：

判断所述叶子节点中是否包含链接，若是，则提取所述叶子节点中除所述链接以外的所有标点符号，否则提取所述叶子节点包含的所有标点符号。

作为优选，提取所述叶子节点对应的父节点包含的所有标点符号，包括；

判断所述父节点中是否包含链接，若是，则提取所述叶子节点中除所述链接以外的所有标点符号，否则提取所述叶子节点包含的所有标点符号。

作为优选，根据所述叶子节点与其对应的所述父节点的标点符号数量关系，确定所述叶子节点所属的区域块是否为非边界区域块，包括：

验证所述父节点中与所述预设常用标点符号相正则匹配的标点符号的数量是否大于所述叶子节点中与所述预设常用标点符号相正则匹配的标点符号的数量达第二预设阈值；

若是，则将所述父节点作为叶子节点，重复以上步骤；

否则，则确定所述子节点所属的区域块为边界区域块；

确定所述所有区域块中除所述边界区域块以外的区域块为非边界区域块。

作为优选，将标点密度超过第一预设阈值的区域块确定为正文内容，包括：

获取包含标点符号数量超过所述第一预设阈值的非边界区域块；

获取所述包含标点符号数量超过所述第一预设阈值的非边界区域块的内容，作为所述待提取网页的正文内容。

本发明实施例还提供一种网页信息提取装置，包括：

提取模块，配置为提取待提取网页的所有区域块；

第一处理模块，配置为确定所述待提取网页的所有区域块中的非边界区域块；

第二处理模块，将标点密度超过第一预设阈值的非边界区域块确定为正文内容。

作为优选，所述第一处理模块包括：

构建子模块，配置为对所述待提取网页的html源码构建文档对象模型DOM树；

查找子模块，配置为查找所述DOM树的叶子节点和所述叶子节点对应的父节点；

提取子模块，配置为提取所述叶子节点和其对应的所述父节点的标点符号；

处理子模块，配置为根据所述叶子节点与其对应的所述父节点的标点符号数量关系，确定所述叶子节点所属的区域块是否为非边界区域块。

作为优选，所述提取子模块具体用于：

遍历所述DOM树的所有叶子节点，提取所述叶子节点包含的所有标点符号；以及

将所述叶子节点包含的所有的标点符号正则匹配预设常用标点符号；以及

存储所述叶子节点中与所述预设常用标点符号相匹配的标点符号；以及

提取所述叶子节点对应的父节点包含的所有标点符号；以及

将所述父节点包含的所有的标点符号正则匹配所述预设常用标点符号；以及

与现有技术相比，本发明实施例具有以下有益效果：本发明实施例的技术方案根据待提取网页的所有区域块中的非边界区域块，将标点密度超过第一预设阈值的非边界区域块确定为正文内容，通过基于标点数量来确定网页的正文内容，提高了提取网页的通用性和执行效率。

附图说明

图1为本发明的网页信息提取方法的实施例一的流程图；

图2为本发明的网页信息提取方法的实施例二的流程图；

图3为本发明的网页信息提取装置的实施例一的示意图；

图4为本发明的网页信息提取装置的实施例二的示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

图1为本发明的网页信息提取方法的实施例一的流程图，如图1所示，本实施例的网页信息提取方法，具体可以包括如下步骤：

S101，提取待提取网页的所有区域块。

具体地，为了提高对网页信息提取的效率，可以首先根据网页的特性将待提取网页分成若干个区域块。例如，可以根据网页的table将网页分成若干个区域块，也可以根据网页的文字数量将网页分成若干个区域块。

S102，确定待提取网页的所有区域块中的非边界区域块。

具体地，待提取网页的区域块中存在边界区域块和非边界区域块。边界区域块通常用于定义网页的非重点信息，例如，网站的备案情况和为使网页美观而设置的符号等，这些都非网页正文内容，因此应当过滤掉边界区域块，保留非边界区域块。

S103，将标点密度超过第一预设阈值的非边界区域块确定为正文内容。

本实施例基于网页中的标点密度来确定待提取网页的正文内容，具体是根据标点密度是否超过第一预设阈值。具体地，将待提取网页分割成若干个区域块，去除区域块中的非边界区域块，保留边界区域块，再将边界区域块中的标点密度进行比较，保留标点密度最大或者相对较大的非边界区域块作为正文内容。

本发明实施例的技术方案根据待提取网页的所有区域块中的非边界区域块，将标点密度超过第一预设阈值的非边界区域块确定为正文内容，通过基于标点数量来确定网页的正文内容，提高了提取网页的通用性和执行效率。

图2为本发明的网页信息提取方法的实施例二的流程图，本实施例的网页信息提取方法在上述实施例一的基础上，进一步更加详细地介绍本发明的技术方案。如图2所示，本实施例的网页信息提取方法，具体可以包括如下步骤：

S201，提取待提取网页的所有区域块。

S202，对待提取网页的html源码构建文档对象模型(Document Object Model，DOM)树。

具体地，本实施例在具体实施时，可以首先对html源码进行预处理，先除去html源码看存在的一些对于网页正文提取无帮助的字符串，再生成文档对象模型DOM树。

DOM则是专门适用于HTML/XHTML的文档对象模型。DOM是一种与浏览器，平台，语言无关的接口，本领域技术人员有时会将HTML DOM理解为网页的API。它将网页中的各个元素都看作是对象，使网页中的元素也可以被计算机语言获取或者编辑。例如Javascript就可以利用DOM动态地修改网页。由于DOM是基于信息层次的，因而DOM被认为是基于树或基于对象的，DOM把HTML文档呈现为带有元素、属性和文本的树结构(节点树)。

S203，查找DOM树的叶子节点和叶子节点对应的父节点。

S204，提取叶子节点和其对应的父节点的标点符号。

具体地，步骤S204包括以下步骤：

(1)，遍历DOM树的所有叶子节点，提取叶子节点包含的所有标点符号。

进一步地，步骤(1)还可以包括：

A，判断叶子节点中是否包含链接，若是，则提取叶子节点中除链接以外的所有标点符号，否则提取叶子节点包含的所有标点符号。

具体地，判断叶子节点是否包含链接的方法，例如可以根据HTML源码中定义的字符串类型来确定。

(2)，将叶子节点包含的所有的标点符号正则匹配预设常用标点符号。

例如，预设常用标点符号可以包括“，”、“。”、“；”、“！”和“？”等。为方便比较，可以将预设常用标点符号设置为集合P，P＝{“，”，“。”，“；”，“！”，“？”}。

(3)，存储叶子节点中与预设常用标点符号相匹配的标点符号。

例如，可以设置判定阈值V，例如V＝3。则遍历DOM树的所有叶子节点，正则匹配计算叶子节点的文本标点符号属于集合P的数量C_n，如果C_n大于V，则认为符合文本条件，匹配成功。为防止重复访问该叶子节点，可以设置集合S，将匹配成功的叶子节点置入集合S。

(4)，提取叶子节点对应的父节点包含的所有标点符号。

进一步地，步骤(4)还可以包括；

B，判断父节点中是否包含链接，若是，则提取叶子节点中除链接以外的所有标点符号，否则提取叶子节点包含的所有标点符号。

具体地，判断父节点中是否包含链接的方法同上，可以根据HTML源码所定义的字符串类型来判断。

(5)将父节点包含的所有的标点符号正则匹配预设常用标点符号。

(6)存储父节点中与预设常用标点符号相匹配的标点符号。

对于父节点正则匹配预设常用标点符号的方法，可以参考对子节点的方法。

S205，根据叶子节点与其对应的父节点的标点符号数量关系，确定叶子节点所属的区域块是否为非边界区域块。

进一步地，步骤S205可以包括：

(1)，验证父节点中与预设常用标点符号相正则匹配的标点符号的数量是否大于叶子节点中与预设常用标点符号相正则匹配的标点符号的数量达第二预设阈值；若是，则执行步骤D；否则，执行步骤E；

(2)，则将父节点作为叶子节点，重复以上步骤；

(3)，否则，则确定子节点所属的区域块为边界区域块；

(4)，确定所有区域块中除边界区域块以外的区域块为非边界区域块。

例如，可以设置计数参数n，n＝0；符号增加阈值T，T＝2。

计算父节点中属于集合P的标点符号的个数F_n。若F_n-C_n>T，则将父节点作为子节点，n＝0不变，继续将该子节点与父节点的标点符号进行比较；若F_n-C_n<＝T，则n＝n+1,直至n＝3，则认为到达区域块边界，该叶子节点所属的区域块为非边界区域块，可将非边界区域块作为元素置入集合L。

S206，获取包含标点符号数量超过第一预设阈值的非边界区域块。

S207，获取包含标点符号数量超过第一预设阈值的非边界区域块的内容，作为待提取网页的正文内容。

具体地，当遍历完所有的叶子节点，可以得到边界区域块集合L，再遍历集合L中的所有元素，即所有非边界区域块，查找出标点数量最多的节点，或者查找出标点数量大于第一预设阈值的非边界区域块，作为网页的正文内容，其中，第一预设阈值根据区域块的划分标准来确定。

本发明实施例的技术方案根据待提取网页的所有区域块中的非边界区域块，将标点密度超过第一预设阈值的非边界区域块确定为正文内容，并且在提取网页时，排除链接中的标点符号，所提取网页的准确性较高。

图3为本发明的网页信息提取装置的实施例一的示意图，如图3所示，本实施例的网页信息提取装置，具体可以包括提取模块31、第一处理模块32和第二处理模块33。

提取模块31，配置为提取待提取网页的所有区域块；

第一处理模块32，配置为确定待提取网页的所有区域块中的非边界区域块；

第二处理模块33，将标点密度超过第一预设阈值的非边界区域块确定为正文内容。

本实施例的网页信息提取装置，通过采用上述模块提取网页正文的实现机制与上述图1所示实施例的网页信息提取方法的实现机制相同，详细可以参考上述图1所示实施例的记载，在此不再赘述。

图4为本发明的网页信息提取装置的实施例二的示意图，本实施例的网页信息提取装置在如图3所示的实施例的基础上，进一步更加详细地介绍本发明的技术方案。如图4所示，本实施例的网页信息提取装置，进一步可以包括：

第一处理模块包32括：

构建子模块321，配置为对待提取网页的html源码构建文档对象模型DOM树；

查找子模块322，配置为查找DOM树的叶子节点和叶子节点对应的父节点；

提取子模块323，配置为提取叶子节点和其对应的父节点的标点符号；

处理子模块324，配置为根据叶子节点与其对应的父节点的标点符号数量关系，确定叶子节点所属的区域块是否为非边界区域块。

进一步地，提取子模块32具体用于：

遍历DOM树的所有叶子节点，提取叶子节点包含的所有标点符号；以及

将叶子节点包含的所有的标点符号正则匹配预设常用标点符号；以及

存储叶子节点中与预设常用标点符号相匹配的标点符号；以及

提取叶子节点对应的父节点包含的所有标点符号；以及

将父节点包含的所有的标点符号正则匹配预设常用标点符号；以及

存储父节点中与预设常用标点符号相匹配的标点符号。

本实施例的网页信息提取装置，通过采用上述模块提取网页正文的实现机制与上述图2所示实施例的网页信息提取方法的实现机制相同，详细可以参考上述图2所示实施例的记载，在此不再赘述。

以上实施例仅为本发明的示例性实施例，不用于限制本发明，本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内，对本发明做出各种修改或等同替换，这种修改或等同替换也应视为落在本发明的保护范围内。

Claims

1.一种网页信息提取方法，其特征在于，包括：

提取待提取网页的所有区域块；

确定所述待提取网页的所有区域块中的非边界区域块；

2.根据权利要求1所述的方法，其特征在于，确定所述待提取网页的所有区域块中的非边界区域块，包括：

对所述待提取网页的html源码构建文档对象模型DOM树；

查找所述DOM树的叶子节点和所述叶子节点对应的父节点；

提取所述叶子节点和其对应的所述父节点的标点符号；

3.根据权利要求2所述的方法，其特征在于，提取所述叶子节点和其对应的所述父节点的标点符号，包括：

提取所述叶子节点对应的父节点包含的所有标点符号；

4.根据权利要求3所述的方法，其特征在于，提取所述叶子节点包含的所有标点符号，包括：

5.根据权利要求3所述的方法，其特征在于，提取所述叶子节点对应的父节点包含的所有标点符号，包括；

6.根据权利要求3所述的方法，其特征在于，根据所述叶子节点与其对应的所述父节点的标点符号数量关系，确定所述叶子节点所属的区域块是否为非边界区域块，包括：

若是，则将所述父节点作为叶子节点，重复以上步骤；

否则，则确定所述子节点所属的区域块为边界区域块；

7.根据权利要求6所述的方法，其特征在于，将标点密度超过第一预设阈值的区域块确定为正文内容，包括：

8.一种网页信息提取装置，其特征在于，包括：

提取模块，配置为提取待提取网页的所有区域块；

9.根据权利要求8所述的装置，其特征在于，所述第一处理模块包括：

10.根据权利要求7所述的装置，其特征在于，所述提取子模块具体用于：

提取所述叶子节点对应的父节点包含的所有标点符号；以及