CN110083760A

CN110083760A - 一种基于可视块的多记录型动态网页信息提取方法

Info

Publication number: CN110083760A
Application number: CN201910304174.XA
Authority: CN
Inventors: 梁朝凯; 闵勇
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-04-16
Filing date: 2019-04-16
Publication date: 2019-08-02
Anticipated expiration: 2039-04-16
Also published as: CN110083760B

Abstract

一种基于可视块的多记录型动态网页信息提取方法，包含以下步骤：Step 1:网页解析和渲染；Step 2:构建可视块和可视块树；Step 3:页面预处理；Step 4:数据记录块识别；Step 5:提取网页数据记录。本发明具有以下优点：不需要同个网站的多张页面用于对比和参照，也能够完成对动态多记录型网页的数据提取，同时准确率和精确率维持在一个较高的水准；本发明针对某一个网站进行训练之后，也能够对不同的未知网站进行泛化。

Description

一种基于可视块的多记录型动态网页信息提取方法

技术领域

本发明涉及一种网页可视块构建以及动态多记录型网页信息提取方法。

背景技术

互联网已经成为了最为丰富的数据信息源之一，包含大量静态网页和动态网页，且网页数量增长呈现爆炸态势。在这些网页所构成的深度网络中，如何高效提取数据，目前仍旧是一个具有挑战性的问题。已有的方法已经解决了大多数单记录型网页的信息提取，但是对于多记录型动态网页都有各自的局限性，比如样本的无穷性、网页的半结构性、内容的动态性、布局的复杂性等，以下对这几点进行阐述：

1、网页具有无穷性。在可预见的时间里，网站数量呈现出一种信息爆炸的态势。如果不能高效挖掘出这些网页中的共性，数据记录提取方法就具有时间维度上的局限性，无法适应如此巨量且快速更迭的需求。

2、网页具有半结构性。可以将网页其分为结构化信息、半结构化和非结构化信息的提取。非结构化的信息主要指自由文本，也就是网页文档本身，通过自然语言处理就能实现数据提取。而半结构化信息，如XML网页，只需要设计合理的包装器便能实现提取。在现代互联网中占据绝大部分的半结构化网页文档，也是网页数据提取的主要研究对象。半结构化网页没有固定的模式和结构，提取其中的有效数据记录是具有挑战性的。

3、网页内容的动态性。根据网页的生成过程，可以将网页分为静态网页和动态网页。静态网页承载的内容在页面加载的过程中不会或者很少发生变化，而动态网页的内容却可以随着时间、环境或者异步请求发生变化。如运用了现在流行的JavaScript Web应用程序，大部分的页面组件在虚拟DOM树创建完毕后才会进行DOM节点的挂载，无法像基于HTML文档或者DOM信息的网页信息提取方法那样，仅依靠HTML文档源码进行数据提取。

4、网页布局的复杂性。常见的网页布局有三种：单记录页面、多记录页面以及复杂的混排型页面。单记录的网页信息提取已经有较为成熟的手段，而现有的方法对复杂的网页布局网页的提取的准确率仍旧不高，所以需要算法将其中不相干的内容剔除后，再抽取其中有价值的信息。

现有的方法皆具有以上所述的局限或者其一，因此亟需提出一种可以充分利用网页可视化信息，且对动态多记录型页面也能有效提取数据记录的方法。

发明内容

本发明克服现有技术的上述缺点，提供一个基于可视块的动态多记录型网页信息抽取方法，实现对多记录型动态网页的数据提取。

本发明的一种基于可视块的多记录型动态网页信息提取方法，包含以下步骤：

Step 1:网页解析和渲染；

通过服务器结合浏览器或者浏览器内核，获取用户目标链接的网络地址，下载网页文档及相关资源。浏览器内核负责对网页进行资源解析和渲染，提供脚本的运行环境以及网页的视觉呈现，解决了动态网页的信息提取弊端。

Step 2:构建可视块和可视块树；

通过上一步提供的网页文档访问接口，提取网页的复合信息，构建可视块和可视块树。

复合信息包含内容信息、DOM结构信息以及视觉信息，分别代表了网页的主体、网页的骨架以及网页的呈现。内容信息包含了包括如文本内容、图像的说明文本、链接等；DOM信息包含了标记为DOM节点在DOM树上的深度、相邻节点的个数、子节点的个数等，描述了DOM节点之间的层级关系；视觉信息包含文字大小、背景、位置等网页中直观可见的信息。

本发明充分利用网页的复合信息，制定启发式规则，构建网页的可视块(VisualBlock，简称VB)和可视块树(VisualBlockTree，简称VBT)。

可视块是拥有复合信息的网页视觉块，实质上是DOM节点的一个超类，具有以下特征：

V1、可视块具有大于网页根节点字号的宽高。

V2、可视块具有文本内容。

V3、可视块在页面上可视，且不被遮掩。

V4、可视块处于网页文档流中。

可视块树是可视块的树状组织结构，通过可视块树可以获取可视块之间的上下文关系。与DOM树不同，VBT有以下的几个特征：

F1、VBT中的总节点数与DOM树上的节点数相比更少。

F2、VBT中的每一个节点都对应着网页中的一个矩形视觉区域。

F3、VBT上具有父子关系的节点，对应的网页矩形区域具有嵌套的关系。

Step 3:页面预处理；

为了捕获用户的注意力，并让用户能高效地浏览页面，网页中的数据记录被开发者设计为聚集在网页中最为显著的区域内。这种区域被称为正文区域，它是包含所有网页数据记录的最小边界，对应于可视块树上包含最小正文子树的可视块节点。网页的正文区域一般具有以下几种视觉规律(Visual Patterns，简称VP)：

VP1.正文区域在网页中占据了显著位置。

VP2.相对于整个页面，正文区域的面积通常较大。

VP3.正文区域包含的内容较其他同级的区域更多。

区域聚焦指通过一些手段，从网页中捕获正文区域，并将数据提取的范围收缩于正文区域内。区域聚焦能够去除大部分网页噪声，有利于网页的数据记录提取。区域聚焦的具体步骤如下所述：

S301对可视块树上的可视块，获取其属性并计算以下指标：

T1、可视块中心与页面中心的偏移程度。

T2、可视块的面积与页面面积的占比。

T3、可视块的内容与页面内容的比值。

S302将满足上述指标的可视块被标记为MainAreaBlock；

S303对可视块树进行遍历，判断MainAreaBlock之间是否存在嵌套的父子关系，去除子块的MainAreaBlock标记；

S304提取唯一的MainAreaBlock可视块，所映射的网页区域为正文区域；

Step 4:数据记录块识别；

在前三步的基础上，通过块内噪声过滤、基于可视块的分类或聚类等方法，标识网页中的有效数据记录。

块内噪声过滤是指正文区域内部的一些噪声信息，也可能是噪声块，如“浏览量”、“回复量”、“下一页”等，这种信息通常表现为网页的功能模块，为用户提供统计信息和快捷操作，但这些噪声有碍于识别真正的数据记录。对于此类噪声信息或是噪声块，通过两种处理方法进行识别：

C1、从位置上进行识别。代表数据记录的可视块往往左右边界对齐，不符合

该条件的通常都是噪声块。

C2、寻找信息中的噪声关键词。通过正则表达式匹配噪声关键词，识别信息

中含有噪声关键词且噪声关键词被单独的一对HTML标签包裹的可视块。

可视块分类或可视块聚类是块内噪声过滤的补偿手段，用于识别块内噪声过滤中被忽略的噪声块，提高网页信息提取的准确率。

可视块分类综合了网页的内容信息、DOM结构信息、视觉信息以及相对信息，对网页正文区域内的可视块进行分类。如果可视块分类需要训练，其训练结果可以在应用前得到，不会对网页信息提取的效率造成干扰。正文区域内的所有可视块在分类完毕后得到标签，通过标签可以区别可视块是数据记录还是噪声块。可视块分类具有以下步骤：

S4021通过人工标记，将网页中的每一个可视块赋予语义，形成网页样本训练集；

S4022训练分类器，以神经网络分类算法为例，通过迭代调整步长、学习率、网络层数等参数，得到分类准确率在80％以上的可视块分类器；

S4023传入网页样本，标记可视块树上的所有可视块，被标为数据记录的可视块将作为结果输出；

可视块聚类基于块与块之间的视觉相似性，将视觉上表征相似的可视块聚为一簇，差别较大的可视块属于不同的簇。比较簇内可视块数量，簇内可视块数量最大的簇为数据记录簇，其余簇为噪声簇。可视块聚类包含以下步骤：

S4031输入可视块集合，将所有可视块标记为未访问过；

S4032基于可视块之间的视觉相似性，计算可视块之间的距离；

S4033识别可视块邻域中存在密集点的可视块，将其与领域中的可视块聚簇，并标记为访问过；

S4034剩余可视块继续聚簇，直至所有的可视块都被访问过；

S4035取最大的簇为数据记录簇，其他簇为噪声簇，输出数据记录簇中的可视块；

Step 5:提取网页数据记录；

由Step4得到网页中代表了数据记录的可视块，但这仍旧是较粗粒度的结果。通过正则以及一些特征，得到可视块中的细粒度数据，形成综合结果输出，如文档、图表、模型等。

与现有方法相比，本发明具有以下优点：

[1]不需要同个网站的多张页面用于对比和参照，也能够完成对动态多记录型网页的数据提取，同时准确率和精确率维持在一个较高的水准。

[2]本发明针对某一个网站进行训练之后，也能够对不同的未知网站进行泛化。

附图说明

图1是本发明的网页数据提取状态图。

图2是本发明的方法流程图。

图3是本发明的多记录区域聚焦流程图。

图4是本发明的数据记录块标识方法流程图。

图5是本发明的可视块分类方法流程图。

图6是本发明的可视块聚类方法流程图。

具体实施方式

网页数据记录提取的主要目的，在于从不同的网页中都能够获取其中有效的数据记录。本发明开创了一种四层的多记录型动态网页数据提取模型，如图1所示，并依照这个数据模型提出了一种多记录型动态网页的数据提取方案，其流程状态图如图1所示。

下面结合附图对本发明做进一步的详细描述。

图2为根据本发明一个方面的动态多记录型网页信息提取的方法流程图，如图所示，该方法包括以下步骤：

Step1：网页解析和渲染；

首先确定目标网页，获取目标网页的链接地址。通过浏览器内核或者接口，解析并渲染目标网页，获得其视觉呈现，图1a展示了一个基本的多记录型网页结构。

Step2：构建可视块和可视块树；

提取复合信息，包含内容信息、DOM信息及视觉信息，构建可视块和可视块树。

经过网页解析和渲染，得到具有视觉信息的DOM节点和DOM树，将其中具有一定宽高的可视DOM节点提取为可视块VB。提取网页可视块的启发式规则如下：

R1、如果当前节点的宽高不满足至少大于当前页面的基准文字大小，则该节点不是可视块节点。

R2、如果当前节点具有且仅有一个子节点，则两个节点合并为一个单元判别是否为可视块节点。

R3、如果当前节点的文本内容为空，则该节点不能作为可视块节点。

R4、如果当前节点在网页中不可视，即透明、被完全遮盖或者其他情况，则该节点不能作为可视块节点。

R5、如果当前节点在布局上脱离了文档流，则该节点不能作为可视块节点。

依照可视块节点与DOM树之间的关系，得到网页可视块树。可视块树上的可视块具有以下规律：

A1、如果第一可视块A是第二可视块B的父节点，那么第一可视块A对应的区域将包含第二可视块B对应的区域。

A2、如果第一可视块A与第二可视块B在可视块树上具有相同的深度，那么第一可视块A与第二可视块B对应的区域相互隔离，不会发生重叠。

Step3：页面预处理

页面预处理以区域聚焦为核心部分，其流程图如图3所示：

S301、计算可视块的各项指标；

本发明通过计算可视块的各项指标，识别映射于正文区域的可视块，具体指标如下：

T1、可视块中心与页面中心的偏移程度；

以网页左上角为原点构建坐标系，X轴为水平方向，Y轴为垂直方向，每一个可视块的边界平行于轴。OffsetLeft和OffsetTop分别是可视块的左侧边和上侧边距离页面边界的距离，BlockWidth和BlockHeight则分别是可视块的宽度和长度。

BlockX＝OffsetLeft+BlockWidth/2 (1)

BlockY＝OffsetTop+BlockHeight/2 (2)

由公式(1)(2)可得可视块的垂直中线和页面边界的距离BlockX，以及水平中线距离页面边界的距离BlockY，可视块的中心坐标即为(BlockX,BlockY)。同理可得页面的中心坐标为(PageX,PageY)，则可视块和页面的中心偏移量为：

在得到中心偏移量Offset后，可以得到：

VP1:Offset/PageWidth≤T_o (4)

T_o为中心偏移量Offset与整个页面宽度PageWidth的比率阈值，小于这个阈值的可视块位于网页中心位置。

T2、可视块面积与页面面积的占比；

区域面积的计算可直接由可视块宽度和高度相乘得出，VP2可以总结为：

VP2:Area_block/Area_page>T_a (5)

Area_block和Area_page分别为可视块和页面的面积，T_a为数据区域和页面的面积大小比率阈值，大于这个阈值的可视块拥有足够大的可视区域。

T3、计算可视块内容与页面内容的比值；

由可视块的属性获得其文本长度。将可视块的文本长度和页面的文本长度分别由ContentLength_block和ContentLength_page表示，则VP3可以总结为：

VP3:ContentLength_block/ContentLength_page>T_c (6)

T_c为数据区域和页面的内容文本长度比率阈值，大于这个阈值的可视块拥有足够丰富的内容。

S302将满足上述指标的可视块被标记为MainAreaBlock。

S303对可视块树进行遍历，判断MainAreaBlock之间是否存在嵌套的父子关系，去除子块的MainAreaBlock标记。

S304提取唯一的MainAreaBlock可视块，所映射的网页区域为正文区域，如图1b中加粗边框所示。

Step4：数据记录块识别；

此步骤的主要目的在于从冗杂的数据中识别网页中真正有效的数据记录，如图4所示，该步骤包含以下的子步骤：

S401区块内噪声块过滤；

对位于顶部和底部的可视块，如果其位置未向左靠齐，则将其视为噪声块。同时，依靠正则表达式，含有某些关键词的可视块也被认为是噪声块，如“浏览量”、“回复量”、“下一页”等。噪声块标记如图1c所示。

S402可视块分类；

通过神经网络构建可视块分类器，其神经元的计算公式如下：

其中x_j为神经网络的输入，w_ij是神经元的连接权，θ_i为阈值，f为激活函数，y_i是神经元的输出。可视块分类的步骤如图5所示，分为以下步骤：

S4021通过人工标记，将网页中的每一个可视块赋予语义，形成网页样本训练集。

S4022训练分类器，以神经网络分类算法为例，通过迭代调整步长、学习率、网络层数等参数，得到分类准确率在80％以上的可视块分类器。

S4023传入网页样本，标记可视块树上的所有可视块。

可视块分类器可以是预先训练好的，以便能够快速地完成可视块分类的工作。训练完成后，将正文区域内的所有可视块传入该神经网络分类器，输出层即为该可视块与各类别匹配的概率值，概率值最大的为可视块对应的标签。结果如图1d所示，所有正文区域内的可视块都拥有了标签。

S403可视块聚类；

基于密度聚类的可视块聚类，其具体算法为：随机选择一个没有访问过的可视块，以其为半径寻找所有可能被聚为一类的可视块，将这些可视块标记为已访问过，如此循环往复直至不存在没有访问过的可视块。下面列举了一种(但不限于)密度聚类的视觉相似性公式以及距离公式：

Dis(A,B)＝1-Sim(A,B) (9)

可视块聚类的流程如图6所示，其聚类结果如图1e所示。：

S4031输入可视块集合，将所有可视块标记为未访问过；

S4034剩余可视块继续聚簇，直至所有的可视块都被访问过；

S4035取最大的簇为数据记录簇，其他簇为噪声簇；

Step5:提取数据记录；

由上一步的执行结果可得到网页中代表了数据记录的可视块，通过正则匹配结合位置信息，提取可视块文本属性中的日期、链接、作者等细粒度数据。

以细粒度数据中的日期为例，通过正则表达式可以匹配到“yyyy-mm-dd”、“YYYY年MM月DD日”、“hh:mm”等形式的数据。

细粒度的数据结合可视块的文本，形成最终的综合结果输出。输出的形式可以是文档，也可以是数据图表或者其他形式。

经过实验验证，本发明不仅对传统静态网页有效，对于动态网页也能够通过渲染等方法实现网页信息的提取，同时能够迁移至不同的网站。对于如文章页面或者新闻页面这样的单记录型页面，本发明的F1值平均值为100％，而对于如搜索记录型页面或者社区论坛页面这样的多记录型页面，F1值平均值也能维持在98.3％左右，证明本发明在克服传统方法局限的基础上，解决了动态多记录型网页的信息提取。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种基于可视块的动态多记录型网页信息提取方法，包括如下步骤：

Step1:网页解析和渲染；

通过服务器结合浏览器或者浏览器内核，获取用户目标链接的网络地址，下载网页文档及相关资源，对网页进行资源解析和渲染，提供脚本的运行环境以及网页的视觉呈现；

Step2:构建可视块和可视块树；

通过上一步提供的网页文档访问接口，提取网页的复合信息，构建可视块(VisualBlock，简称VB)和可视块树(VisualBlockTree，简称VBT)；首先获取复合信息，包含网页的文本内容信息、网页的DOM信息、网页的视觉信息；然后结合复合信息，通过启发式规则提取网页DOM树中的可视块，启发式规则组如下：

R1、如果当前节点的宽高不满足至少大于当前页面的基准文字大小，则该节点不是可视块节点；

R2、如果当前节点具有且仅有一个子节点，则两个节点合并为一个单元判别是否为可视块节点；

R3、如果当前节点的文本内容为空，则该节点不能作为可视块节点；

R4、如果当前节点在网页中不可视，即透明、被完全遮盖或者其他情况，则该节点不能作为可视块节点；

R5、如果当前节点在布局上脱离了文档流，则该节点不能作为可视块节点；

得到的可视块具有以下特征：

V1、可视块具有大于网页根节点字号的宽高；

V2、可视块具有文本内容；

V3、可视块在页面上可视，且不被遮掩；

V4、可视块处于网页文档流中；

可视块树是可视块的树状组织结构，通过可视块树可以获取可视块之间的上下文关系；与DOM树不同，VBT有以下的几个特征：

F1、VBT中的总节点数与DOM树上的节点数相比更少；

F2、VBT中的每一个节点都对应着网页中的一个矩形视觉区域；

F3、VBT上具有父子关系的节点，对应的网页矩形区域具有嵌套的关系；

可视块树上的可视块具有以下规律：

A1、如果第一可视块A是第二可视块B的父节点，那么第一可视块A对应的区域将包含第二可视块B对应的区域；

A2、如果第一可视块A与第二可视块B在可视块树上具有相同的深度，那么第一可视块A与第二可视块B对应的区域相互隔离，不会发生重叠；

Step3:页面预处理；

预处理的主要工作包含但不局限于区域聚焦；区域聚焦的目的在于从网页中发现对于用户而言最为显著的区域，并将数据提取的范围收缩于这样的区域之内，从而有利于后续的数据记录提取，减少网页正文区域外的噪声干扰；

网页的正文区域一般具有以下几种视觉规律(Visual Patterns)：

VP1.正文区域在网页中占据了显著位置；

VP2.相对于整个页面，正文区域的面积通常较大；

VP3.正文区域包含的内容较其他同级的区域更多；

区域聚焦旨在发现包含所有数据记录的最小边界，也就是网页的正文区域，此区域对应于可视块树中包含最小正文子树的可视块，其具体步骤如下所述：

S301 对可视块树上的可视块，获取其属性并计算以下指标：

T1、可视块中心与页面中心的偏移程度；

首先得到可视块的中心偏移量为:

其中(PageX,PageY)为页面的中心坐标，(BlockY,BlockY)为可视块的中心坐标；

然后通过与页面宽度的对比，得到可视块中心与页面中心的偏移程度：

VP1:Offset/PageWidth≤T_o (2)

T_o是可视块中心偏移程度的阈值，为经验参数，小于这个阈值的可视块位于网页中心位置；

T2、可视块面积与页面面积的占比；

将可视块的面积Area_block与页面面积Area_page对比，得到两者的比值：

VP2:Area_block/Area_page>T_a (3)

T_a为可视块面积占比的阈值，同为经验参数，大于这个阈值的可视块拥有足够大的可视区域；

T3、可视块内容与页面内容的比值；

可视块内容与页面内容的比值可由两者的内容长度比较产生：

VP3:ContentLength_block/ContentLength_page>T_c (4)

T_c为可视块内容比值的阈值，同为经验参数，大于这个阈值的可视块拥有足够丰富的内容；

S302 将满足上述指标的可视块被标记为MainAreaBlock；

S303 对可视块树进行遍历，判断MainAreaBlock之间是否存在嵌套的父子关系，去除子块的MainAreaBlock标记；

S304 提取唯一的MainAreaBlock可视块，所映射的网页区域为正文区域；

Step4:数据记录块识别；

在前三步的基础上，通过块内噪声过滤、基于可视块的分类或聚类方法，标识网页中的有效数据记录；

S401 区块内噪声过滤

正文区域内的噪声信息和噪声块具有以下特征：

C1、噪声块处于正文区域的角落，且左右边界与代表数据记录的可视块不对齐；

C2、噪声块具有噪声关键词，如“广告”；此类噪声关键词被单独的一对HTML标签包裹；遍历网页的可视块树，通过正则表达式匹配噪声关键词，识别信息中含有噪声关键词的可视块；

S402 可视块分类

可视块分类综合了网页的内容信息、DOM结构信息、视觉信息以及相对信息，对网页正文区域内的可视块进行分类；如果可视块分类需要训练，其训练结果可以在应用前得到，不会对网页信息提取的效率造成干扰；正文区域内的所有可视块在分类完毕后得到标签，通过标签可以区别可视块是数据记录还是噪声块；可视块分类包含以下步骤：

S4021 通过人工标记，将网页中的每一个可视块赋予语义，形成网页样本训练集；

S4022 训练分类器，以神经网络分类算法为例，其神经元的计算公式如下：

调整激活函数、学习率、网络层数等参数，通过迭代训练得到分类准确率大于阈值80％的可视块分类器；

S4023 传入网页样本，标记可视块树上的所有可视块；

S403 可视块聚类

可视块聚类是补偿性的数据筛选手段，加强了对可视块的筛选；可视块聚类基于块与块之间的视觉相似性，将视觉上表征相似的可视块聚为一簇，差别较大的可视块属于不同的簇；比较簇内可视块数量，簇内可视块数量最大的簇为数据记录簇，其余簇为噪声簇；可视块聚类包含以下步骤：

S4031 输入可视块集合，将所有可视块标记为未访问过

S4032 基于可视块之间的视觉相似性，计算可视块之间的距离；

S4033 识别可视块邻域中存在密集点的可视块，将其与领域中的可视块聚簇，并标记为访问过；

S4034 剩余可视块继续聚簇，直至所有的可视块都被访问过；

S4035 取最大的簇为数据记录簇，其他簇为噪声簇；

以密度聚类为例，其距离公式如下：

Sim(A,B)为可视块之间的视觉相似性计算函数，Dis(A,B)为可视块A与另一可视块B之间的距离函数；

Step5:提取网页数据记录；

经Step4筛选出了网页中的数据记录可视块，提取这些可视块的文本内容；通过正则表达式获取可视块中的细粒度数据，与上一步的文本内容形成最终的综合结果输出。