CN112347353A

CN112347353A - 一种网页去噪的方法

Info

Publication number: CN112347353A
Application number: CN202011229773.9A
Authority: CN
Inventors: 邹季英; 吴涛; 袁仁慧
Original assignee: China Academic Journals Electronic Publishing House Co ltd; Tongfang Knowledge Network Beijing Technology Co ltd
Current assignee: China Academic Journals Electronic Publishing House Co ltd; Tongfang Knowledge Network Beijing Technology Co ltd
Priority date: 2020-11-06
Filing date: 2020-11-06
Publication date: 2021-02-09
Anticipated expiration: 2040-11-06
Also published as: CN112347353B

Abstract

本发明公开了一种网页去噪的方法，包括：导入网页，获取网页的DOM树结构信息、视觉信息和文本内容；判断节点类型，计算节点纯度；拆分DOM树提取初级视觉块，对初级视觉块集合进行邻域分析与融合，形成视觉块集合，校验视觉块集合，校验后输出提取视觉块；抽取视觉块特征；对视觉块进行分类，将视觉块的分类标签以节点属性的方式写入视觉块所包含的DOM子树的所有节点，直至叶子节点，检查、修改标注文件并输出；从节点的类别标签推导出视觉块的类别标签，使用视觉块特征和视觉块类别标签训练分类器，评估网页去噪效果；采用分类器对视觉块分类，将分类结果转化为节点的分类结果，根据节点的分类结果剔除网页中的无效内容，输出网页去噪结果并保存。

Description

一种网页去噪的方法

技术领域

本发明涉及文档信息自动抽取技术领域，尤其涉及一种网页去噪的方法。

背景技术

现有随着互联网迅猛发展，互联网应用已经深入到我国的经济、社会、文化、教育以及娱乐等各个方面，成为人们生活中不可或缺的组成部分。网页中包含着丰富的内容，既有用户想要浏览的主题信息，也有对用户形成干扰与主题无关的信息，如页面导航条、推荐链接、广告条、版权声明等，后者通常被称为网页噪声。据相关文献估算，噪声数据在网页中占了40％～50％的比例，并且这个比例还以每年6％～8％的比例增长。网页噪声比重的持续增大给网页信息检索带来很大的难题，也对诸如网页知识挖掘、话题检测、个性化推荐等任务造成很大的影响。因此，去除网页噪声、抽取网页信息是一个重要的基础性工作。

根据网页的文本、图片和超链接等内容在页面上的布局结构，网页可分为索引型、论坛型和主题型三种。三种结构的网页分工不同，样式也不同。索引型网页一般为网站的首页，用于展示网站的主要功能显示网站的最新信息，此类网页的特点是分块多、栏目多、结构复杂、内容多；论坛型网页用列表进行信息展示，每页展示若干条记录常有分页功能；主题型网页拥有一个明确的主题，集中反映一个方面的内容，是一个网站最基础的页面。

DOM(Document Object Model)是W3C制定的网页文档标准，全称是文档对象模型，大多数网页遵守这一标准，本文也基于DOM对网页展开研究。采用DOM标准可以独立于平台和语言来访问或修改文档的结构和内容，文档可以是HTML、XML、XHTML。使用DOM表示的网页被描述为一个树结构，基本要素是节点。DOM树节点的概念很宽泛，它可以是文档、元素、属性、注释等。

现有的去除网页噪声方法包括基于统计理论的方法、基于DOM树结构的方法、基于包装器归纳的方法和基于视觉特征的方法等。视觉特征是网页中一类非常重要的特征，利用视觉特征能够更好地模拟人对网页内容的识别，这是仅基于DOM树结构或统计方法无法达到的。现有基于视觉特征的方法，主要使用启发式规则对网页进行分块，但由于网页形式多样布局多变，这些方法并不通用。

发明内容

为解决上述技术问题，本发明的目的是提供一种网页去噪的方法。

本发明的目的通过以下的技术方案来实现：

一种网页去噪的方法，包括：

导入网页，获取网页的DOM树结构信息、视觉信息和文本内容；所述DOM树结构信息、视觉信息和文本内容中包括节点的相关信息；

判断节点类型，计算节点纯度；

拆分DOM树提取初级视觉块，并对初级视觉块集合进行邻域分析与融合，形成视觉块集合，校验视觉块集合，校验后输出提取视觉块；

抽取视觉块特征；

对视觉块进行分类，将视觉块的分类标签以节点属性的方式写入视觉块所包含的DOM子树的所有节点，直至叶子节点，检查、修改标注文件并输出；

从节点的类别标签推导出视觉块的类别标签，使用视觉块特征和视觉块类别标签训练分类器，并评估网页去噪效果；

采用分类器对视觉块分类，将分类结果转化为节点的分类结果，根据节点的分类结果剔除网页中的无效内容，输出网页去噪结果并保存。

与现有技术相比，本发明的一个或多个实施例可以具有如下优点：

本方法结合网页的树结构、视觉信息和节点标签与内容，采用有监督的机器学习方法，既模拟了人对网页内容的识别又克服了启发式规则法的缺陷，有效提高了网页去噪的准确率和效率。

附图说明

图1是网页去噪的方法流程图；

图2是视觉块提取算法框图；

图3是网页标注示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合实施例及附图对本发明作进一步详细的描述。

如图1所示，为网页去噪方法流程，包括：

1、导入网页，获取网页的DOM树结构信息、视觉信息和文本内容；所述DOM树结构信息、视觉信息和文本内容中包括节点的相关信息；

导入网页HTML文件，利用Chromium Embedded Framework(CEF)框架实时渲染获取网页的DOM树结构信息文本内容和视觉信息。树结构和文本内容包括：节点的父、子、兄弟关系，节点的属性标签、节点的文本内容等；视觉信息包括：节点的位置信息、字体名称、字体颜色、字体大小、是否加粗、对齐方式等。

2、判断节点类型，计算节点纯度；

(1)节点类型

将节点类型分为文本型、图片型、链接型和忽略型四种。

文本型节点：若节点为叶子节点且只包含非链接文本内容，则视为文本型节点；若节点为非叶子节点且节点的非链接文本内容所占比例大于链接文本所占比例，则认为是文本型节点。

图片型节点：如果节点为叶子节点且节点名称是"img"，认为是图片型节点；对于非叶子节点，若所有子节点是图片型，则视此节点为图片型节点。

链接型节点：若节点为叶子节点且只包含链接文本内容，判断为链接型节点；若节点为非叶子节点且节点的链接文本内容所占比例大于非链接文本所占比例，则认为是链接型节点。

忽略型节点包括两种情况：情况1，节点在网页显示中不可见，如display属性为none、或被其他元素遮罩、或节点的宽度或高度0；情况2，节点名称为"meta"、"textarea"、"script"、"iframe"、"style"、"noscript"、"button"、"input"、"select"、"option"、"labe"、"comment"、"map"、"area"、"embed"时，视为忽略型节点。

(2)节点纯度

节点纯度用于刻画节点的类型的纯度。节点纯度越高，说明此节点拥有相同类型的子节点的比例越高，节点结构越紧凑；节点纯度越低，意味着此节点下的相同类型的子节点的比例越低，结构越松散。节点纯度是视觉块提取过程的重要依据，计算公式如下：

其中DoNC代表节点纯度，N表示子节点个数，T表示当前节点的类型，subT_i表示第i个子节点的节点类型。函数F(T，subT_i)定义如下：

T＝subT_i代表该节点与其子节点的类型相同，T≠subT_i代表该节点与其子节点的类型不同。对于叶子节点，节点纯度默认为1，对于非叶子节点，节点纯度取值范围在0～1之间。

(3)判断节点类型，计算节点纯度的主要步骤如下：

步骤1.自底向上地统计DOM树节点信息，包括节点的总字符数、链接字符数、非链接字符数、是否为行内节点，以及链接型子节点数、图片型子节点数、叶子节点个数；

步骤2.自底向上地判断DOM树节点的类型，计算节点纯度，伪代码如下：

3、拆分DOM树提取初级视觉块，并对初级视觉块集合进行邻域分析与融合，形成视觉块集合，校验视觉块集合，校验后输出提取视觉块；

提取视觉块采用了先拆分再融合、分合并存的思想，主要过程如图2所示，上述视觉块若通过校验，则输出视觉块集合作为提取视觉块的最终结果；若未通过校验，则自动调整相关参数，返回重新拆分DOM树，直至通过校验。

上述拆分DOM树提取初级视觉块时，采用自顶向下递归遍历DOM树，处理一个节点的具体过程为：

①根据节点类型判断当前节点是否为有效节点：若是，则转向②；若否，则抛弃此节点；

②判断当前节点是否要拆分：若是，则遍历当前节点的子节点集合继续递归判断，转向①；若否，则将此节点及其子节点构成的子树视为一个初级视觉块输出。

所述有效节点是指，节点类型为文本型或图片型或链接型的节点；

所述判断当前节点是否要拆分，主要依据了节点类型、视觉信息、邻域关系等因素，具体规则如下：

规则1若当前节点只包含一个子节点，并且这个节点不是纯文本节点，则对节点进行切分；

规则2若当前节点的子节点，都是纯文本节点，则不对节点进行切分；

规则3若当前节点为行内节点且包含非行内子节点，则对当前节点进行切分；

规则4若当前节点DOM树中包含带有分割属性的标签(例如<HR>)，则对节点进行拆分；

规则5若当前节点的大小，小于子节点大小之和，则对当前节点进行切分；

规则6若当前节点大小与页面大小的比例小于PSR且当前节点至少包含一个纯文本类型的子节点，则不对当前节点进行切分；

规则7若当前节点的大小与父节点大小的比例小于PSR，则不对当前节点进行切分；

规则8若当前节点的兄弟节点不进行切分，则当前节点也不进行切分；

规则9对于节点名称为<TABLE>、<TR>、<TD>直接对当前节点不进行切分，对于其他节点直接进行切分；

上述规则顺序是按其重要性由大到小排列的，其中：规则1和规则2是从节点属性的角度提出，所述纯文本节点是指节点纯度为1的文本类型节点；规则3至规则7是从视觉信息的角度提出，所述PSR是指一个用于控制视觉块集合细碎程度的比例阈值，PSR越小，集合中的视觉块越细碎，每个块中的内容越一致，PSR越大，视觉块内容越粗糙；规则8是从节点邻域关系角度提出；规则9是对不适用以上8条规则的节点的通用处理方式。

在网页中不同的节点类型承担着不同的角色，规则1至规则8适用的节点也不同，具体应用组合如下：<P>类型节点多用于描述一段文字，本文对其应用规则1至规则7；<DIV>类型节点多用于描述整块的内容，本文应用规则1、规则2、规则5、规则7；<TABLE>类型节点在部分网页中用来搭建组织结构，本文应用规则1、规则2、规则7，对于其包含的节点<TR>，应用规则1、规则5、规则7，对于其包含的节点<TD>，应用规则1、规则6、规则7、规则8；对于行内节点，我们应用规则1、规则2、规则3、规则4、规则6、规则7；对于其他节点，我们应用规则1、规则2、规则4、规则5、规则6、规则7；规则9适用于所有类型节点。

对于规则2、规则6、规则7、规则8、规则9判断的不可分节点，还需要从内容一致性上进行判断节点是否可分。为此本文定义聚合度(DoC)，来描述节点在内容上的一致性，DoC取值范围为1-10之间的整数，DoC值越小，说明一致性越小，节点越粗糙，DoC值越大，节点细粒度越高。本文还定义了一个聚合度的阈值PDoC，用于控制视觉块内容上的一致性，对于DoC值小于PDoC值的节点需要进行切分，DoC计算方法如下：

对适用于规则2的不可分节点，若当前节点的子节点字体差异小于10％则将Doc值设置为10，否则设置为9；

对适用于规则6的不可分节点，DoC基础值为5，若当前节点纯度大于0.5则Doc+＝1，然后视当前节点与页面的大小比例调整DoC值，最大值设为8；

对使用规则7、规则8、规则9的节点，根据节点纯度计算DoC值，节点纯度越大，DoC值越高，范围在1-10之间。

对初级视觉块集合进行邻域分析和融合，具体过程如下：

①在视觉块集合中判断两两视觉块是否能合并：若能合并，则计算两块之间的合并权重W_ij；若不能合并，则不处理；

②收集所有合并权重W_ij，形成权重集合；

③从权重集合中取出最大W_ij，从视觉块集合中抽出最大W_ij所指向的两视觉块B_i和B_j进行合并，生成新视觉块B_new；

④更新视觉块集合：添加新块B_new，删除块B_i和B_j；

⑤更新权重集合：删除与B_i和B_j相关的合并权重，添加新块B_new与其他视觉块的合并权重；

⑥判断权重集合是否为空：若非空，则转步骤③；若为空，则结束合并过程。

判断两视觉块是否能合并的主要考虑如下因素：邻域关系：若两块不相邻，不合并；节点类型：若两块的节点类型不同，不合并；节点排列方式：若两块的节点排列方式不同，例如一个块节点之间水平排列，另一个块节点之间垂直排列，则不合并；节点纯度：若两块的节点纯度差异大于10％，不合并；字体大小：若两块的平均字体大小差异大于10％，不合并。

影响合并权重W_ij大小的因素如下：当两块的节点排列方式和对齐方式相同时，W_ij+＝0.3；当两块的字体差异小于10％时，根据字体差异值调整W_ij的增幅；当两块的节点属于同一父节点，W_ij+＝0.2。

上述校验视觉块集合，主要用视觉块个数来判断提取结果的细粒度是否满足要求。通过调整PSR和PDoC来提高视觉块细粒度，PDoC越大，PSR越小，块的细粒度越高，具体过程为：

②如果视觉块个数>3，则通过校验，否则转向②；

②交替调整PSR和PDoC值，若当前进行校验的次数为奇数，PSR减少0.1，若当前进行校验的次数为偶数，PDoC自增1。

4、抽取视觉块特征

本文从内容特征、视觉特征、字体属性等不同层面对视觉块提取特征，具体描述如下：

(1)文本比例：块内字符数与页字符数之比；

(2)链接文本比例：块内链接字符数与该块字符总数之比；

(3)链接节点比例：块内链接节点数与页链接节点总数之比；

(4)结束标点比例1：块内结束标点符号个数与该块字符总数之比。结束标点符号定义为一句话的停止符号，包括：句号、问号、感叹号、分号、冒号、省略号。

(5)结束标点比例2：块内结束标点符号个数与页结束标点符号总数之比，结束标点符号的定义与前文相同。

(6)图像节点比例：块内图像节点个数与块内节点总数之比；

(7)块充盈率：用于描述该块内容是否充盈饱满，具体定义如下：

ImageArea代表块内图像面积，CharNum代表块字符数，BlockArea代表块面积，CharAveArea代表块内字符平均面积，具体定义如下：

PageArea代表页面积，BlockFontSize代表块字体均值，PageCharNum代表页字符个数，PageFontSize代表页字体均值。

(8)块中心X：块中心点X轴坐标与页宽度之比；

(9)块中心Y：块中心点Y轴坐标与页高度之比；

(10)块宽度：块宽度与页宽度之比；

(11)块高度：块高度与页高度之比；

(12)块面积：块面积与页面积之比；

(13)块上边界：块上边界与页上边界的差值与页高度之比；

(14)块下边界：块下边界与页上边界的差值与页高度之比；

(15)块左边界：块左边界与页左边界的差值与页宽度之比；

(16)块右边界：块右边界与页左边界的差值与页宽度之比；

(17)字体属性：块字体均值与页字体均值之比；

(18)加粗属性：块内字符若加粗则取值为1；否则取值为0。

上述特征均做了归一化处理，取值范围在[0,1]之间。

5、标注流程

设计标注方案和标注流程的目的是为有监督的机器学习提供有类标签的训练样本，具体流程如下:

(1)采用规则法对视觉块分类

使用块的内容特征、视觉特征，采用启发式规则将视觉块分为噪声块和有效块。

(2)自动标注至叶子节点

视觉块可看作是一课或多棵DOM子树，本文为树的基本单元(节点)设计了一种节点属性，用于保存节点的噪声或有效内容的分类标签。自动标注至叶子节点是指，将块的分类标签以节点属性的方式写入该块所包含的DOM子树的所有节点中，直至叶子节点止。标注至叶子节点即，标注到DOM树最小的不可分割的单元，优点是标注样本与块提取方法、块特征提取方法解耦，一次标注重复使用。

(3)人工检查和修改标注结果

如图3所示，人工检查和修改标注结果是指标注人员打开标注文件时，后台自动读取标注文件DOM树节点的类标签，自动汇聚相邻的同类的节点并用红框显示。标注人员以删除块、添加新块的方式修改标注文件，点击[保存]按钮后，后台自动将块标签转化成节点标签，写入标注文件。

(4)输出网页标注文档

将自动标注和人工检查后的最终标注结果以HTML文件的形式输出和保存。

6、训练流程

本实施例运用有监督的机器学习思想，将网页去噪转化成分类问题。运用分类器将视觉块自动识别为噪声块和有效块，属于二分类问题。常用的分类器有近邻法、神经网络法、支持向量机(SVM，Support Vector Machine)、决策树(DT，Decision Tree)和随机森林(RF，Random Forest)等。

SVM是一种二分类模型，已被众多领域用于分类和回归任务，在模式识别、机器视觉和自然语言处理等领域得到了广泛应用。SVM主要原理是根据结构风险最小化原理，在特征空间中寻找最大间隔的分类超平面，使得在经验误差最小化的同时，最大化类间隔，获得更为合理和更具鲁棒性的分类效果。SVM关键的参数是核函数和惩罚系数。常用的核函数有线性核、多项式核、高斯核、拉普拉斯核、和Sigmoid核,分别尝试了上述核函数后，本文选择了高斯核。惩罚系数用于平衡特定样本上的准确率和对样本的泛化能力以避免过拟合问题，本文使用五折交叉验证的方式调优分类器的关键参数。

决策树对应一个树结构，树的根节点在最上面，叶子节点在最下面。一棵决策树对应一组规则，决策树的构建过程可以理解为一组规则的学习过程。与其他分类器相比，决策树方法非常易于解释和理解。分类结果的可解释性在实际运用中是一个非常重要的优点。决策树关键的参数有不纯度函数、树深度最大值、叶子节点个数最大值和叶子节点样本个数最小值。不纯度函数用来衡量节点的纯度并指导其选择合适的特征进行节点拆分，常用的不纯度函数有熵不纯度(entropy impurity)和方差不存度(Gini impurity)。决策树方法容易过拟合，剪枝策略很重要，树深度最大值、叶子节点个数最大值和叶子节点样本个数最小值都是预剪枝策略。

随机森林本质上是许多决策树的集合，主要思想是：每棵树的预测可能都相对较好，但对部分数据过拟合。如果构造很多树，每棵树的预测都很好，但都以不同的方式过拟合，那么我们可以对这些树的结果取平均来降低过拟合。这样既能减少过拟合又能保持树的预测能力。随机森林的随机化方法体现在两个方面：一是对样本进行自助采样(bootstrap sample)即有放回地重复随机抽取样本；二是在特征集合中随机选择一个特征子集，然后在特征子集中挑选一个最优特征用于划分。

本文针对网页去噪这个二分类问题，分别尝试了支持向量机、决策树和随机森林，使用上文描述的特征抽取方法，采用下文提出的评估方法，实践发现支持向量机和随机森林的分类效果优于决策树，支持向量机和随机森林的分类效果基本持平，随机森林略高于支持向量机。

为准确评估视觉块提取的质量和分类器训练的效果，本文设计了一套网页去噪评估方法。假设从m个网页中提取了n个视觉块，视觉块评估、分类器评估和整体评估的具体方法如下表1：

表1

如上表所示，Acc₁ Pre₁ Rec₁分别表示视觉块提取的总正确率、准确率和召回率；Acc₂ Pre₂ Rec₂分别表示分类器的总正确率、准确率和召回率；Acc Pre Rec分别表示最终的总正确率、准确率和召回率。c_i表示第i块的类标签，r_i代表分类器对第i块的分类结果。pb和p_i均为第i块的块间比重，前者未归一化，后者是归一化结果，取值范围为[0，1]。BlkArea为块面积，PgeArea为页面积，BlkCharNum是块内字符数，PgeCharNum是页内字符数。w_i代表第i块的块内权重取值范围为[0，1]。w_e表示块内有效节点的权重，w_n表示块内噪声节点的权重。eNodeArea和eNodeCharNum分别表示块内有效节点的面积和字符数，nNodeArea和nNodeCharNum分别代表块内噪声节点的面积和字符数。

7、预测流程

预测流程包括以下4个环节：

(1)采用分类器对视觉块分类

采用分类器法对视觉块分类，是指运用训练流程中生成的分类器(支持向量机或决策森林)自动将视觉块分为噪声块和有效块。

(2)将分类结果转化为节点的分类结果

若视觉块的分类结果为噪声块，则将块内所有节点视为噪声节点；若视觉块的分类结果为有效块，则将块内所有节点视为有效节点。

(3)剔除分类节点中的无效内容

剔除无效内容是指，删除分类结果中所有噪声节点和忽略节点所含内容。

(4)输出网页去噪结果并保存

输出网页去噪结果是指，将网页去噪结果保存为HTML文件格式。

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。