CN104376061A

CN104376061A - 一种提取网页正文的方法

Info

Publication number: CN104376061A
Application number: CN201410629258.8A
Authority: CN
Inventors: 江潮; 贺建华; 蒋汉华
Original assignee: WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Current assignee: Language Network (wuhan) Information Technology Co Ltd
Priority date: 2014-11-10
Filing date: 2014-11-10
Publication date: 2015-02-25
Anticipated expiration: 2034-11-10
Also published as: CN104376061B

Abstract

一种提取网页正文的方法，包括：根据待提取的网页的域名，判断预置的站点知识库中是否存储有对应于该域名的用于提取正文的提取信息；若有，则根据所述提取信息对所述网页的正文进行提取；若所述站点知识库中没有对应于该域名的提取信息，或，根据该提取信息对所述网页的正文提取失败，则确定所述网页的正文节点，并通过提取所述正文节点中的文本获取所述网页的正文。彻底解放人工处理，减少了人工操作和干预成本；提高了程序提取网页正文的效率；实现了针对多种语言类的网站的自动提取，并且提取难度也会大大降低。

Description

一种提取网页正文的方法

技术领域

本发明属于通信领域，尤其涉及一种提取网页正文的方法。

背景技术

目前提取网站内容信息都是针对当前网站，人工去分析网站结构，然后针对网站主体内容结构去制定相应的模板，当网站改版后，则需要人工去判断，并修改以前的模板，每个不同站点的内容，甚至同个网站不同类型的站点内容，都需要配置一套相应的模板，当网站数量越来越多的时候，模板制定和维护的工作量也会越来越大，人工干预成本也会越来越高，效率也会越来越低。

发明内容

有鉴于此，为了解决现有技术中存在提取网页内容信息时需要大量的人工操作和干预成本的问题，本发明的目的是提出一种提取网页正文的方法。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

在一些可选的实施例中，所述方法，包括：

根据待提取的网页的域名，判断预置的站点知识库中是否存储有对应于该域名的用于提取正文的提取信息；

若有，则根据所述提取信息对所述网页的正文进行提取；若所述站点知识库中没有对应于该域名的提取信息，或，根据该提取信息对所述网页的正文提取失败，则，

确定所述网页的正文节点，并通过提取所述正文节点中的文本获取所述网页的正文。

采用上述实施例，可达到以下效果：

彻底解放人工处理，减少了人工操作和干预成本，不需要人工去判断网站是否改版；

提取内容成功后，会记录当前网页结构并保存到站点知识库中，当下次再提取相同站点则自动从站点知识库中调取以前的经验来提取正文，提高了程序提取网页正文的效率；

预先根据不同的语言体系设置相应的提取网页正文时所需的统计算法和阈值，实现了针对多种语言类的网站的自动提取，并且提取难度也会大大降低。

为了上述以及相关的目的，一个或多个实施例包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明某些示例性方面，并且其指示的仅仅是各个实施例的原则可以利用的各种方式中的一些方式。其它的益处和新颖性特征将随着下面的详细说明结合附图考虑而变得明显，所公开的实施例是要包括所有这些方面以及它们的等同。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了本发明实施例的一种提取网页正文的方法的流程示意图；

图2示出了本发明实施例的一种提取网页正文的方法的流程示意图。

具体实施方式

以下描述和附图充分地示出本发明的具体实施方案，以使本领域的技术人员能够实践它们。其他实施方案可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求，否则单独的部件和功能是可选的，并且操作的顺序可以变化。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。本发明的实施方案的范围包括权利要求书的整个范围，以及权利要求书的所有可获得的等同物。在本文中，本发明的这些实施方案可以被单独地或总地用术语“发明”来表示，这仅仅是为了方便，并且如果事实上公开了超过一个的发明，不是要自动地限制该应用的范围为任何单个发明或发明构思。

图1示出了本发明实施例的一种提取网页正文的方法的流程示意图，

如图1所示，在一些说明性的实施例中，所述提取网页正文的方法，包括以下几个步骤：

步骤S101，根据待提取的网页的域名，判断预置的站点知识库中是否存储有对应于该域名的用于提取正文的提取信息；

步骤S102，若有，则根据所述提取信息对所述网页的正文进行提取；若所述站点知识库中没有对应于该域名的提取信息，或，根据该提取信息对所述网页的正文提取失败，则确定所述网页的正文节点，并通过提取所述正文节点中的文本获取所述网页的正文；

上述实施例描述了一种自动提取网页正文的方法，在该方法中，站点知识库是预置的，该站点知识库专门用于存储用于提取各种网站的网页正文的提取信息，该提取信息包括对应于该域名下的多个网页的正文提取经验；因此若需要对某网页的正文进行提取时，首先根据该网页的域名，从站点知识库中查询是否有相应的提取信息，若有，则依次调取所述提取信息中的提取经验(即正文结构信息)并根据该提取经验对所述网页的正文进行提取；若提取失败，证明站点知识库未记录该网页的提取经验或该网页已改版；或，若当前的站点知识库中未存储对应于该域名的提取信息，则因此触发智能识别模块执行智能提取流程，首先确定所述网页的正文节点，然后提取该正文节点中的文本；

在上述提取网页正文的过程中，彻底解放人工处理，程序通过预置的站点知识库和智能识别模块来提取网页正文内容，可对任意主题类网页进行提取，完全自动化，不需要人工干预；不用人工事先对具体网站生成模板，也不需要人工去判断网站是否改版，提高了程序提取网页正文的效率；

在一些说明性的实施例中，所述确定所述网页的正文节点的操作，包括以下几个步骤：

对所述网页进行预处理；

建立正文候选池列表；

根据所述正文候选池列表推测正文区域；

根据所述正文区域，判断出所述正文节点；

在一些说明性的实施例中，所述提取信息包括对应于该域名下多个网页的正文结构信息，并且所述正文结构信息按照成功提取次数从高到低进行排序；根据所述提取信息对所述网页的正文进行提取，具体包括：

按照所述正文结构信息的排列顺序，依次调取相应的正文结构信息，并根据该正文结构信息对所述网页的正文进行提取，直到提取成功；

在所述提取成功后，还包括：记录该正文结构信息的成功提取次数，并根据当前的各所述正文结构信息的成功提取次数进行排序；

从该实施例中可以看出，在站点知识库中存储的对应于网站域名的提取信息包括多个网页提取经验，即正文结构信息；并且这些正文结构信息是按照成功提取次数排列的，当从站点知识库搜索到对应于所述网站域名的提取信息后，会优先调取成功次数高的正文结构信息来对该网站进行提取，以加快网站提取效率；此外，在每次成功提取后，都会刷新相应的正文结构信息的成功提取次数，并重新对该提取信息中的所有正文结构信息进行排序；

在一些说明性的实施例中，在通过提取所述正文节点中的文本获取所述网页的正文之后，还包括：

将所述确定所述网页的正文节点的过程中获取的正文结构信息添加到所述站点知识库中；

上述实施例中，若提取网页的正文是通过智能识别模块执行智能提取流程实现的，则在成功提取网页正文后，本程序都会自动将获取的网页提取经验(即正文结构信息)添加到站点知识库中，可以理解为站点知识库自动累积经验的过程，以便下次提取该网页或与其结构相似的域名相同的网页时，可以调取提取经验中的正文结构信息，成功提取正文；此外，在上述过程中，若站点知识库中已存储了对应于该网页域名的提取信息，则直接将所述正文结构信息添加到提取信息中即可；若站点知识库中未存储对应于该网页域名的提取信息，即站点知识库中从未存储对应于该网站的提取经验时，则将获取的正文结构信息和域名同时存储与站点知识库中；

在一些说明性的实施例中，对所述网页进行预处理，包括：获取所述网页的DOM树，并根据已创建的标签类型库，识别并删除该网页中的移除类节点和非移除类节点中的移除类内容，获取预处理后的所述网页的DOM树；所述标签类型库包括用于判断网页中节点类型的策略和判断移除类内容的策略，所述节点类型包括容器类、文本类和移除类；

所述标签类型库可以是人工预先在本系统内创建的，在该标签类型库中，将网页DOM树中的节点类型按照标签的类型分为3类，分别是容器类、文本类和移除类；其中，容器类节点主要是指类似于table，form，div等类型的标签称为容器类节点；文本类节点主要是指类似于td，span，br，p等纯文本类型的标签称为文本类节点，移除类节点主要是指与正文无关的类似于script，frame，style，object等类型的标签称为移除类节点；根据上述策略，可以快速判断网页DOM树中的节点属于哪种节点类型；此外，在标签类型库中还包括用于判断移除类内容的策略，根据该策略可以将非移除类节点中的与正文无关的内容移除，移除类内容包括页面注释内容、一些非html标签、脚本等信息；在预处理过程中，通过该标签类型库可以有效的去除移除类节点和非移除类节点中的移除类内容，以加快后续在循环DOM树的速度；

所述建立正文候选池列表，具体包括：

根据所述标签类型库和预设的阈值，判断预处理后的所述网页的DOM树中的父节点为容器类节点的文本类节点是否有效；

删除该DOM树中判断结果为无效的节点，并将该DOM树中判断结果为的有效的所述文本类节点以及该节点的父节点到所述正文候选池列表中；

在上述建立正文候选池列表的过程中，循环经过预处理后的网页DOM树，遇到容器类节点，继续递归循环该节点的子节点，如遇到文本类节点，则先是判断该节点是否有效，如果是无效节点，则直接删除；如果是有效节点，则保存到文正候选池，并记录该文本的父节点对象；

在一些说明性的实施例中，判断预处理后的所述网页的DOM树中的父节点为容器类节点的文本类节点是否有效的过程，具体包括：

识别所述网页的字符集编码，调取预设的算法，计算出所述文本类节点的有效节点特征值；

根据所述有效节点特征值和所述预设的阈值，判断该文本类节点是否有效；其中，所述阈值对应于所述有效节点特征值；

不同的网页可能语言类型不同，针对多语网站的网页正文的提取是十分复杂的，在本系统中，首先人工将不同语言体系的网页的网页调取过程中所用到的算法和阈值设置好，在上述判断文本类节点是否有效时，通过识别所述网页的字符集编码，判断出该网页的语言体系，然后从数据库中调取相应的统计算法，计算该文本类节点的有效节点特征值；然后再调取相应的预置的阈值和上述计算出的有效节点特征值进行比较，从而判断该节点是否有效；

在一些说明性的实施例中，所述有效节点特征值包括：文本数(A1)、文本比例(A2)和超链接比例(A3)；

其中，

文本数(A1)：节点中不含HTML标签的文本字节数；

文本比例(A2)：节点中不含HTML标签的文本字节数与节点总字节数的比值；

超链接比例(A3)：节点中超链接的字节数与总字节数的比值；

分别对根据上述有效节点特征值对所述文本类节点进行判断，在上述判断的过程中，若其中一项的判断结果为无效，则结束判断，并删除该节点；反之，则继续判断，直到所有有效节点特征值的判断结果均为有效后，将该节点以及该节点的父节点到所述正文候选池列表中；

进一步的，上述特征值的判断顺序是A1、A2和A3；

其中，根据A1进行判断的过程包括：若所述文本类节点的A1小于对应于所述文本数的阈值，则判断结果为无效；反之，则判断结果为有效；

根据A2进行判断的过程包括：若所述文本类节点的A2小于对应于所述文本比例的阈值，则判断结果为无效；反之，则判断结果为有效；

根据A3进行判断的过程包括：若所述文本类节点的A3大于对应于所述超链接比例的阈值，则判断结果为无效；反之，则判断结果为有效；

在一些说明性的实施例中，根据所述正文候选池列表推测正文区域，具体包括：

首先，将所述正文候选池列表中存储的第一位的文本类节点的文本字节数保存于第一变量B1中，将该文本类节点的父节点保存于第二变量B2中；

然后，依次循环所述正文候选池列表中的其它文本类节点，若父节点一致，则将该文本类节点的文本字节数累加到所述B1中；若父节点不一致，则判断该文本类节点的文本字节数是否大于B1，若大于，则将B1在值替换为该节点的文本字节数，并将B2替换为该节点的父节点，反之，则跳过该节点，继续循环；

最后，当循环完所述正文候选池列表中的所有数据后，所述B2中所记录的父节点为所述推测的正文区域；

在一些说明性的实施例中，根据所述正文区域，判断出所述正文节点，具体包括：

将所述变量B2中所述记录的父节点保存于正文节点对象C1中，然后以该节点为对象，分别向前逆序和向后顺序解析所述预处理后的所述网页的DOM树，获取该节点的所有兄弟节点，并比较所述兄弟节点与本节点是否相似，若不存在与本节点相似的兄弟节点，则停止解析，并判断当前的C1为所述正文节点；

若存在于本节点相似的兄弟节点，则将C1中存储的节点替换为本节点与所述兄弟节点的父节点，并继续重复所述解析所述预处理后的所述网页的DOM树的过程，直到不存在与当前的C1中存储的节点相似的兄弟节点，则该C1为所述正文节点；

可选的，在判断出正文节点与根据正文节点获取最终正文信息之间，还包括：清洗正文节点对象C1的过程；在该过程中，获取的C1对象进行递归循环，上述有效节点特征值进行判断，将C1中存在的跟正文无关信息的无效节点过滤掉，并将节点下的隐藏(hidden属性)信息也过滤掉，得到最终内容则为正文信息；

在一些说明性的实施例中，通过比较所述兄弟节点是否满足以下3个特征，判断所述兄弟节点与本节点是否相似，所述3个特征依次为：

是否有相同的根节点；标签名称是否相同；子节点结构是否相同，是否都为同一类标签；

若满足，则所述兄弟节点与本节点相似；反之，则不相似。

图2是网页正文智能提取的流程示意图；在该流程示意图中，可以看出本系统主要分为两个模块：站点知识库模块，用于站点知识库的提取信息累积；智能识别模块，用于智能提取流程；如图2所示，具体流程如下：

步骤S201，获取待提取的网页；

步骤S202，调取站点知识库，并判断是否存在相应的提取信息；

若不存在，则触发步骤S203；反之，则触发步骤S207；

其中，所述站点知识库通过站点知识库模块进行提取信息累积；具体可以通过以下两种方式：

步骤S2021：人工指导，即人工将提取信息输入到站点知识库中；

步骤S2022：机器学习，即在智能识别模块成功提取正文后，将提取经验(如正文结构信息)和该网页所在网站的域名，存储于站点知识库中；其中，步骤S2021和S2022是站点知识库模块执行的；

步骤S203，页面预处理；

将该网页DOM树结构中的移除类节点和移除类内容移除；

步骤S204，建立正文候选池列表；

循环预处理后得到的网页DOM树，遇到容器类节点，继续递归循环该节点的子节点，如遇到文本类节点，则先是判断该节点是否有效，如果是无效节点，则直接删除；如果是有效节点，则保存到文正候选池，并记录该文本的父节点对象；其中，根据3个有效节点特征值进行上述判断是否有效的过程，分别是文本数、文本比例和超链接比例；

步骤S205，推测正文区域；

先假设候选池列表中第一位节点数据为正文，则将该节点文本长度B1和该父节点对象B2保存在全局变量中，然后依次循环候选列表池中其他节点数据，如果父节点对象一致，则累加文本长度到全局变量B1，如果父节点不一致，当文本长度小于全局变量B1时，则直接跳过；当大于B1时候，则将该节点文本长度替换B1，该节点父对象替换B2；当候选池列表中数据循环完成后，这个B2对象就为推测正文区域；

步骤S206，获取正文节点；

将通过步骤S205得出的B2对象保存到C1(正文节点对象)中，以C1为中心开始分别向前逆序和向后顺序解析DOM树，解析出C1对象的兄弟节点，并比较兄弟节点所代表的子节点，如果存在跟C1对象非常相似子节点，则断定该父节点为文本节点，并继续重复步骤S206的操作；当没有兄弟节点存在跟C1相似子节点，则停止解析，并断定当前C1则为正文节点对象；

步骤S207，输出正文内容；

若该步骤在步骤S206后执行，则根据获取的正文节点，从网页中提取该正文节点中的正文信息；

若该步骤在步骤S202判断出站点知识库中存在提取信息后执行，则根据提取信息中提取经验(正文结构信息)的排列顺序，依次调取正文结构信息，并提取正文，若提取成功，则结束流程；若不成功，则继续调用下一个正文结构信息，并进行提取；若调取全部正文结构信息都无法成功提取正文，则触发步骤S203，指示智能识别模块执行智能提取流程，重新分析该网页提取其正文，并在提取成功后将探测结果数据(正文结构信息和域名)发送到站点知识库模块，以便站点知识库模板通过机器学习的方式，将正文结构信息添加到站点知识库中。

采用上述实施例，可达到以下效果：

本领域技术人员还应当理解，结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均可以实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性，上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件，取决于特定的应用和对整个系统所施加的设计约束条件。熟练的技术人员可以针对每个特定应用，以变通的方式实现所描述的功能，但是，这种实现决策不应解释为背离本公开的保护范围。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种提取网页正文的方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述确定所述网页的正文节点的操作，包括以下几个步骤：

对所述网页进行预处理；

建立正文候选池列表；

根据所述正文候选池列表推测正文区域；

根据所述正文区域，判断出所述正文节点。

3.如权利要求1所述的方法，其特征在于，所述提取信息包括对应于该域名下多个网页的正文结构信息，并且所述正文结构信息按照成功提取次数从高到低进行排序；根据所述提取信息对所述网页的正文进行提取，具体包括：

在所述提取成功后，还包括：记录该正文结构信息的成功提取次数，并根据当前的各所述正文结构信息的成功提取次数进行排序。

4.如权利要求3所述的方法，其特征在于，在通过提取所述正文节点中的文本获取所述网页的正文之后，还包括：

将所述确定所述网页的正文节点的过程中获取的正文结构信息添加到所述站点知识库中。

5.如权利要求2所述的方法，其特征在于，对所述网页进行预处理，包括：获取所述网页的DOM树，并根据已创建的标签类型库，识别并删除该网页中的移除类节点和非移除类节点中的移除类内容，获取预处理后的所述网页的DOM树；所述标签类型库包括用于判断网页中节点类型的策略和判断移除类内容的策略，所述节点类型包括容器类、文本类和移除类；

所述建立正文候选池列表，具体包括：

删除该DOM树中判断结果为无效的节点，并将该DOM树中判断结果为的有效的所述文本类节点以及该节点的父节点到所述正文候选池列表中。

6.如权利要求5所述的方法，其特征在于，判断预处理后的所述网页的DOM树中的父节点为容器类节点的文本类节点是否有效的过程，具体包括：

根据所述有效节点特征值和所述预设的阈值，判断该文本类节点是否有效；其中，所述阈值对应于所述有效节点特征值。

7.如权利要求6所述的方法，其特征在于，所述有效节点特征值包括：文本数、文本比例和超链接比例；

其中，根据文本数进行判断的过程包括：若所述文本类节点的文本数小于对应于所述文本数的阈值，则判断结果为无效；反之，则判断结果为有效；

根据文本比例进行判断的过程包括：若所述文本类节点的文本比例小于对应于所述文本比例的阈值，则判断结果为无效；反之，则判断结果为有效；

根据超链接比例进行判断的过程包括：若所述文本类节点的超链接比例大于对应于所述超链接比例的阈值，则判断结果为无效；反之，则判断结果为有效。

8.如权利要求5所述的方法，其特征在于，根据所述正文候选池列表推测正文区域，具体包括：

首先，将所述正文候选池列表中存储的第一位的文本类节点的文本字节数保存于第一变量中，将该文本类节点的父节点保存于第二变量中；

其次，依次循环所述正文候选池列表中的其它文本类节点，若父节点一致，则将该文本类节点的文本字节数累加到所述第一变量中；若父节点不一致，则判断该文本类节点的文本字节数是否大于第一变量，若大于，则将第一变量在值替换为该节点的文本字节数，并将第二变量替换为该节点的父节点，反之，则跳过该节点，继续循环；

最后，当循环完所述正文候选池列表中的所有数据后，所述第二变量中所记录的父节点为所述推测的正文区域。

9.如权利要求8所述的方法，其特征在于，根据所述正文区域，判断出所述正文节点，具体包括：

将所述第二变量中所述记录的父节点保存于正文节点对象中，然后以该节点为对象，分别向前逆序和向后顺序解析所述预处理后的所述网页的DOM树，获取该节点的所有兄弟节点，并比较所述兄弟节点与本节点是否相似，若不存在与本节点相似的兄弟节点，则停止解析，并判断当前的正文节点对象为所述正文节点；

若存在于本节点相似的兄弟节点，则将正文节点对象中存储的节点替换为本节点与所述兄弟节点的父节点，并继续重复所述解析所述预处理后的所述网页的DOM树的过程，直到不存在与当前的正文节点对象中存储的节点相似的兄弟节点，则该正文节点对象为所述正文节点。

10.如权利要求9所述的方法，其特征在于，通过比较所述兄弟节点是否满足以下3个特征，判断所述兄弟节点与本节点是否相似，所述3个特征依次为：

若满足，则所述兄弟节点与本节点相似；反之，则不相似。