CN109086361B

CN109086361B - 一种基于网页节点间互信息的网页文章信息自动抽取方法及系统

Info

Publication number: CN109086361B
Application number: CN201810795448.5A
Authority: CN
Inventors: 汪敏; 刘鹏飞; 李伦凉; 李绪祥
Original assignee: Cape Cloud Information Technology Co Ltd; Beijing Puyun Mdt Infotech Ltd
Current assignee: Cape Cloud Information Technology Co Ltd; Beijing Puyun Mdt Infotech Ltd
Priority date: 2018-07-20
Filing date: 2018-07-20
Publication date: 2019-06-21
Anticipated expiration: 2038-07-20
Also published as: CN109086361A

Abstract

本发明公开了一种基于网页节点间互信息的网页文章信息自动抽取方法及系统，该方法包括以下步骤：S1、清理网页，构造干净的DOM树；S2、构造空节点序列1(NODES)，用于存放步骤S3找到的文本节点、链接节点、图像节点、视频节点；S3、遍历DOM树，将找到的文本、链接、图片、视频节点保存到NODES序列；S4、构造存放DOM树中不可再拆分的布局节点的空节点序列2(NODES2)；S5、遍历NODES2，计算其中各个节点之间的互信息；S6、识别文章边界信息节点，所述文章边界信息为位于网页文章正文前后，属于文章内容的信息；S7、合并网页节点；S8、抽取网页文章信息。采用本发明实施例，能够提高网页文章信息自动抽取的准确率。

Description

一种基于网页节点间互信息的网页文章信息自动抽取方法及系统

技术领域

本发明涉及互联网信息采集的技术领域，尤其涉及一种基于网页节点互信息的网页信息自动抽取方法及系统。

背景技术

网页文章信息的抽取是指将网页中的标题、正文、正文前、中、后部分的图片、视频抽取出来。目前主流的网页内容信息抽取方法，一般都是基于启发式规则或有监督学习，比如基于网页文本密度信息、基于链接文字比信息、基于网页DOM树中标签特征等，对网页内容进行抽取。但是，它们在抽取网页内容时容易弄错或者丢失网页内容的相关信息，比如，有主、副标题的文章，标题容易识别出错；对于正文前面的图片容易丢失等。

发明内容

本发明提供了一种基于网页节点互信息的网页文章信息自动抽取方法，其将网页中两个节点的距离作为该两个节点间互信息，对于互信息越小的两个节点，其关系越紧密，越应该合并，本发明利用网页中节点间的互信息，实现网页文章信息的自动抽取。

一种基于网页节点间互信息的网页文章信息自动抽取方法，该方法包括以下步骤：

S1、清理网页，构造干净的DOM树；

S2、构造空节点序列1(NODES)，用于存放步骤S3找到的文本节点、链接节点(<A/>)、图像节点(<IMG/>)、视频节点(<VIDEO/>)；

S3、遍历DOM树，将找到的文本、链接、图片、视频节点保存到NODES序列；

S4、构造存放DOM树中不可再拆分的布局节点的空节点序列2(NODES2)；所述布局节点是指网页中影响网页布局的节点，一般包括DIV、TABLE、UL/LI、OL/LI、DL/DT/DD；

S5、遍历NODES2，计算其中各个节点之间的互信息；

S6、识别文章边界信息节点，所述文章边界信息为位于网页文章正文前后，属于文章内容的信息；

S7、合并网页节点：如果网页中相邻两个节点的互信息小于等于阈值，则合并该相邻的两个节点：并继续判断网页中相邻的节点是否可以合并，直到节点之间的互信息大于阈值终止；

S8、抽取网页文章信息。

其中，所述步骤S1进一步包括：

S1.1、获取网页HTML源代码；

S1.2、网页净化：去掉网页HTML源代码中的注释、script、css等无用信息；

S1.3、DOM树生成：对净化后的网页利用jsoup生成DOM树；

其中，所述步骤S4进一步包括：

S4.1、顺序遍历NODES序列，对每个节点，从当前布局节点往上层查找，如果该布局节点的父布局节点只存在一个子布局节点，用父布局节点代替当前布局节点，直到父布局节点存在多个布局节点时终止，此时，该父布局节点即为不可再拆分的布局节点；

S4.2将该父布局节点加入到NODES2中，并删除NODES2中该父布局节点子孙节点；最终NODES2中存放的是不可再拆分的布局节点。

其中，所述步骤S5进一步包括：

S5.1对DOM树上每一个布局节点进行初步打分，跨越一个DIV标签算2分，P标签算1分，TABLE标签算3分，TR标签算0.5分，TD标签算0.3分，UL标签算3分，LI标签算0.5分；

S5.2如果DOM树上的节点同时是NODES2中的节点，则根据这个节点包含的网页有效信息的类型(文本、链接、图片、视频)和数量，设置一个加权值，此时节点的分值为节点原分值*加权值；

如果网页有效信息的类型是链接，那么节点新分值＝节点原分值*系数K1，一般系数K1可以取1.1～1.9；

如果网页有效信息的类型是文本，节点新分值＝节点原分值*系数K2，一般系数K2可以根据文本长度、段落数量、平均句子长度等因素而定，经验值取1.5～2.5；

如果网页有效信息的类型是图片或视频，节点新分值＝节点原分值*系数K3，一般系数K3可以取 1.5～2.0：

S5.3、通过两个节点之间跨越的布局节点分值之和表示两个节点之间的互信息，互信息越大，两个节点联系越疏远；互信息越小，两个节点联系越紧密。

其中，所述步骤S6进一步包括：

S6.1、如果一个节点为H1、H2或H3，那么它就是网页标题；或者如果节点如H1、H2或H3的节点，被包含在网页的<head><title>...</title></head>中，且文本长度＞8，那么该节点是标题节点；

S6.2、如果一个节点下的文字很短，并且包含一些特殊的短文本信息，比如包含“发布日期”，或本身就是日期格式字符串，或者是一个姓名，是一个媒体名称，那么该节点就是文章边界信息节点。

其中，所述步骤S8进一步包括：

S8.1、去除网页干扰信息，去除网页中的非文章信息；

S8.2、获取网页正文：在去除网页干扰信息后，在NODES2中找到包含文本、链接、图片、视频节点最多的节点，就是正文；

S8.3、获取网页文章边界信息：在正文前面的标题为网页文章的标题信息；在所述标题信息和所述正文之间的其他文章边界信息即为网页文章的边界信息，比如作者、来源、发布日期等元信息。

另外，本发明还提供了一种基于网页节点间互信息的网页文章信息自动抽取系统，该系统包括以下模块：

网页清理模块：清理网页，构造干净的DOM树；

文章信息存储模块：遍历DOM树，将找到的文本节点、链接节点、图像节点、视频节点保存到节点序列1(NODES)中；

不可再拆分的布局节点存储模块：将DOM树中不可再拆分的布局节点存放于节点序列2(NODES2)中；所述布局节点是指网页中影响网页布局的节点，包括DIV、TABLE、UL/LI、OL/LI、DL/DT/DD；

互信息计算模块：遍历NODES2，计算其中各个节点之间的互信息，所述互信息为网页中两个节点的距离；

文章边界信息节点识别模块：所述文章边界信息为位于网页文章正文前后，属于文章内容的信息；

网页节点合并模块：如果网页中相邻两个节点的互信息小于等于阈值，则合并该相邻的两个节点；并继续判断网页中相邻的节点是否可以合并，直到节点之间的互信息大于阈值终止；

网页文章信息抽取模块：抽取网页文章信息。

其中，所述网页清理模块进一步包括：

源代码获取子模块、获取网页HTML源代码；

网页净化子模块：去掉网页HTML源代码中网页内容无关的无用信息；

DOM树生成子模块：对净化后的网页生成DOM树。

其中，所述不可再拆分的布局节点存储模块进一步包括：

不可再拆分的布局节点查找子模块：顺序遍历NODES序列，对每个节点，从当前布局节点往上层查找，如果该布局节点的父布局节点只存在一个子布局节点，用父布局节点代替当前布局节点，直到父布局节点存在多个布局节点时终止，此时，该父布局节点即为不可再拆分的布局节点；

不可再拆分的布局节点加入子模块：将该父布局节点加入到NODES2中，并删除NODES2中该父布局节点子孙节点；最终NODES2中存放的是不可再拆分的布局节点。

其中，所述互信息计算模块进一步包括：

初步打分子模块：对所述DOM树上每一个布局节点进行初步打分，跨越一个DIV标签算2分，P标签算1分，TABLE标签算3分，TR标签算0.5分，TD标签算0.3分，UL标签算3分，LI标签算0.5分；

加权分值设置子模块：如果所述DOM树上的节点同时是NODES2中的节点，则根据这个节点包含的网页有效信息的类型和数量，设置一个加权值，此时节点的分值为节点原分值*加权值；

计算模块：计算两个节点之间跨越的布局节点分值之和，将其作为两个节点之间的互信息，其中互信息越大，两个节点联系越疏远；互信息越小，两个节点联系越紧密。

其中，所述文章边界信息节点识别模块进一步包括：

标题节点识别子模块：如果一个节点为H1、H2或H3，那么它就是网页标题节点；或者如果节点如H1、 H2或H3的节点，被包含在网页的<head><title>...</title></head>中，且文本长度＞8，那么该节点是网页标题节点；

其他文章边界信息识别子模块：如果一个节点下的文字很短，并且包含特殊的短文本信息，那么该节点就是文章边界信息节点。

其中，所述网页文章信息抽取模块进一步包括：

网页干扰信息去除子模块：去除网页中的非文章信息；

网页正文信息获取子模块：在去除网页干扰信息后，在NODES2中找到包含文本、链接、图片、视频节点最多的节点，就是正文；

网页文章边界信息获取子模块：在正文前面的标题为网页文章的标题信息；在所述标题信息和所述正文之间的其他文章边界信息即为网页文章的边界信息。

本发明通过计算网页节点的互信息来标识网页节点间的紧密，并根据节点间的紧密关系实现对网页文章信息自动抽取方法，提高了网页文章信息抽取的准确率，有效解决了在抽取网页内容时容易弄错或者丢失网页内容的相关信息的问题。

附图说明

图1为本发明一种基于网页节点间互信息的网页文章信息自动抽取方法的流程图。

图2为本发明一种基于网页节点间互信息的网页文章信息自动抽取系统的示意图。

具体实施方式

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可以找说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和有点能够更明显易懂，以下为本发明的具体实施方式。

实施例一

图1公开了一种基于网页节点间互信息的网页文章信息自动抽取方法，该方法包括以下步骤：

S1、清理网页，构造干净的DOM树；

S1.1、获取网页HTML源代码；

S1.3、DOM树生成：对净化后的网页利用jsoup生成DOM树；

S4、构造存放不可再拆分的布局节点的空节点序列2(NODES2)。顺序遍历NODES序列，对每个节点，找它的父布局节点，所述布局节点是指网页中影响网页布局的节点，一般包括DIV、TABLE、UL/LI、OL/LI、 DL/DT/DD。

S4.1从当前布局节点往上层查找，如果该布局节点的父布局节点只存在一个子布局节点，用父布局节点代替当前布局节点，直到父布局节点存在多个布局节点时终止；

S4.2将该父布局节点加入到NODES2中。加入的过程中，删除NODES2中是该父布局节点子孙节点的节点；

比如：<div class＝″right″><div id＝″article″><div class＝″content″><p>这里是第一段</p><p> 这里是第二段<p/></div></div></div>

两个P都会找到同一个祖先节点<div id＝″article″>，会在NODES2中删除这两个P，用<div id＝″article″>来代替它俩；

最终NODES2中存放的是不可再拆分的布局节点。

S5、遍历NODES2，计算其中各个节点之间的互信息。

如果网页有效信息的类型是图片或视频，节点新分值＝节点原分值*系数K3，一般系数K3可以取 1.5～2.0；

S6、识别文章边界信息节点，所述文章边界信息包括文章的标题、作者、来源、发布日期等信息；

S6.2如果一个节点下的文字很短，并且包含一些特殊的短文本信息，比如包含“发布日期”，或本身就是日期格式字符串，或者是一个姓名，是一个媒体名称，那么该节点就是文章边界信息节点。

S7、合并网页节点：如果网页中相邻两个节点的互信息小于等于阈值，则合并该相邻的两个节点；并继续判断网页中相邻的节点是否可以合并，直到节点之间的互信息大于阈值终止。

S8、抽取网页文章信息：

S8.1、去除网页干扰信息，去除网页中的非文章信息，比如排除包含菜单列表、版权信息、关于我们、网站备案标识等干扰；

实施例二

图2为本发明提供的一种基于网页节点间互信息的网页文章信息自动抽取系统，该系统包括以下模块：

网页清理模块：清理网页，构造干净的DOM树；

网页文章信息抽取模块：抽取网页文章信息。

其中，所述网页清理模块进一步包括：

源代码获取子模块、获取网页HTML源代码；

DOM树生成子模块：对净化后的网页生成DOM树。

其中，所述不可再拆分的布局节点存储模块进一步包括：

其中，所述互信息计算模块进一步包括：

如果网页有效信息的类型是图片或视频，节点新分值＝节点原分值*系数K3，一般系数K3可以取 1.5～2.0；；

其中，所述文章边界信息节点识别模块进一步包括：

其中，所述网页文章信息抽取模块进一步包括：

网页干扰信息去除子模块：去除网页中的非文章信息；

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围不局限于此，任何熟悉本技术领域的技术人员在本发明的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于网页节点间互信息的网页文章信息自动抽取方法，该方法包括以下步骤：

S1、清理网页，构造干净的DOM树；

S2、构造空节点序列1NODES，用于存放步骤S3找到的文本节点、链接节点、图像节点、视频节点；

S3、遍历DOM树，将找到的文本节点、链接节点、图像节点、视频节点保存到NODES序列；

S4、构造存放DOM树中不可再拆分的布局节点的空节点序列2NODES2；所述布局节点是指网页中影响网页布局的节点，包括DIV、TABLE、UL/LI、OL/LI、DL/DT/DD；

S5、遍历NODES2，计算其中各个节点之间的互信息，所述互信息为网页中两个节点的距离；

S7、合并网页节点：如果网页中相邻两个节点的互信息小于等于阈值，则合并该相邻的两个节点；并继续判断网页中相邻的节点是否可以合并，直到节点之间的互信息大于阈值终止；

S8、抽取网页文章信息。

2.如权利要求1所述的基于网页节点间互信息的网页文章信息自动抽取方法，其特征在于：所述步骤S1进一步包括：

S1.1、获取网页HTML源代码；

S1.2、网页净化：去掉网页HTML源代码中网页内容无关的无用信息；

S1.3、DOM树生成：对净化后的网页生成DOM树。

3.如权利要求1所述的基于网页节点间互信息的网页文章信息自动抽取方法，其特征在于：所述步骤S4进一步包括：

4.如权利要求1所述的基于网页节点间互信息的网页文章信息自动抽取方法，其特征在于：所述步骤S5进一步包括：

S5.1对所述DOM树上每一个布局节点进行初步打分；

S5.2如果所述DOM树上的节点同时是NODES2中的节点，则根据这个节点包含的网页有效信息的类型和数量，设置一个加权值，此时节点的分值为节点原分值*加权值；

S5.3、两个节点之间跨越的布局节点分值之和即为两个节点之间的互信息，互信息越大，两个节点联系越疏远；互信息越小，两个节点联系越紧密。

5.如权利要求1所述的基于网页节点间互信息的网页文章信息自动抽取方法，其特征在于：其中，所述步骤S6进一步包括：

S6.1、如果一个节点为H1、H2或H3，那么它就是网页标题节点；或者如果节点如H1、H2或H3的节点，被包含在网页的<head><title>...</title></head>中，且文本长度>8，那么该节点是网页标题节点；

S6.2、如果一个节点下的文字很短，并且包含特殊的短文本信息，那么该节点就是文章边界信息节点。

6.如权利要求1所述的基于网页节点间互信息的网页文章信息自动抽取方法，其特征在于：其中，所述步骤S8进一步包括：

S8.1、去除网页干扰信息，去除网页中的非文章信息；

S8.2、获取网页正文信息：在去除网页干扰信息后，在NODES2中找到包含文本、链接、图片、视频节点最多的节点，就是正文；

S8.3、获取网页文章边界信息：在正文前面的标题为网页文章的标题信息；在所述标题信息和所述正文之间的其他文章边界信息即为网页文章的边界信息。

7.一种基于网页节点间互信息的网页文章信息自动抽取系统，该系统包括以下模块：

网页清理模块：清理网页，构造干净的DOM树；

文章信息存储模块：遍历DOM树，将找到的文本节点、链接节点、图像节点、视频节点保存到节点序列1NODES中；

不可再拆分的布局节点存储模块：将DOM树中不可再拆分的布局节点存放于节点序列2NODES2中；所述布局节点是指网页中影响网页布局的节点，包括DIV、TABLE、UL/LI、OL/LI、DL/DT/DD；

网页文章信息抽取模块：抽取网页文章信息。

8.如权利要求7所述的基于网页节点间互信息的网页文章信息自动抽取系统，其特征在于：所述网页清理模块进一步包括：

源代码获取子模块、获取网页HTML源代码；

DOM树生成子模块：对净化后的网页生成DOM树。

9.如权利要求7所述的基于网页节点间互信息的网页文章信息自动抽取系统，其特征在于：所述不可再拆分的布局节点存储模块进一步包括：

10.如权利要求7所述的基于网页节点间互信息的网页文章信息自动抽取系统，其特征在于：所述互信息计算模块进一步包括：

初步打分子模块：对所述DOM树上每一个布局节点进行初步打分；

计算模块：计算两个节点之间跨越的布局节点初步打分与加权分值之和，将其作为两个节点之间的互信息，其中互信息越大，两个节点联系越疏远；互信息越小，两个节点联系越紧密。

11.如权利要求7所述的基于网页节点间互信息的网页文章信息自动抽取系统，其特征在于：所述文章边界信息节点识别模块进一步包括：

标题节点识别子模块：如果一个节点为H1、H2或H3，那么它就是网页标题节点；或者如果节点如H1、H2或H3的节点，被包含在网页的<head><title>...</title></head>中，且文本长度>8，那么该节点是网页标题节点；

12.如权利要求7所述的基于网页节点间互信息的网页文章信息自动抽取系统，其特征在于：所述网页文章信息抽取模块进一步包括：

网页干扰信息去除子模块：去除网页中的非文章信息；