CN105653668A

CN105653668A - 云环境中基于DOMTree的网页内容分析提取优化方法

Info

Publication number: CN105653668A
Application number: CN201511016992.8A
Authority: CN
Inventors: 李春林; 李明铭; 周敏; 毛习均; 杜书猛; 严炜; 赵张承
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2015-12-29
Filing date: 2015-12-29
Publication date: 2016-06-08

Abstract

本发明涉及一种云环境中基于DOMTree的网页内容分析提取优化方法，该方法包括：生成DOM树；去script和style块；从各个叶子节点开始，对具有相同标签路径的不同兄弟节点间进行合并；如果叶节点的父节点不包含任何兄弟节点，则删除父节点，并用当前叶子节点代替，使得深度大于1的叶子节点接近根节点，降低DOM？Tree的高度；直至DOM？TREE的高度降为1，得到精简的DOM树，树的每一个叶子节点均为一个内容单元；利用正则表达式对标签信息进行删除，得到网页正文内容。本发明方法对所有节点对象以＜TagPath，NodeContent＞所形成的键值对进行处理，这一处理模式将大大减少解析所耗费的时间。

Description

云环境中基于DOMTree的网页内容分析提取优化方法

技术领域

本发明涉及网页数据的处理，具体地说是一种云环境中基于DOMTree的网页内容分析提取优化方法。

背景技术

Web信息抽取主要的功能是从海量页面文档中抽取信息数据源，从杂乱无序的Web信息中提取出特定的文本信息，并将这些信息以结构化的数据形式存入数据仓库中以供后用。抽取出来的Web信息能够为后续的数据挖掘的提供知识库，例如在海量的用户行为信息中提取用户特征并给特殊用户投送定点广告。使用自然语言方法进行数据处理的各类网页分类、聚类系统乃至网络信息数据挖掘等相关系统的精准度会随着那些文本噪音信息以及冗余链接文本的减少而得到提高。相同的效果也体现在以互联网为信息全部来源的一些网络爬虫以及搜索引擎等基于信息数据索引技术的系统性能上。

Web页面作为海量信息的来源，近年来基于Web的信息提取和目标文本的挖掘技术越来越受到人们的关注。在互联网这个巨大的信息库中，信息通常以文本为载体，并以Web文档形式出现。通常情况下，相同主题的不同信息分散在不同的网络上并以各异的表现形式存在着，如果能够搜集并以结构化的形式存储这些信息数据，再对这些数据进行有效地管理后将能更好的利用这些海量的网络资源。Web信息抽取系统能将分布在互联网上相同主题不同结构的Web页面存储在数据仓库中，将万维网作为信息巨大的知识数据库，最终达到方便人们对有用信息资源进行有效管理和合理运用的目的。

为了搜集互联网上的海量信息，人们很自然的将传统的文本信息解析技术使用到网页信息处理的领域中来。但是，网页存储的内容与传统的文本不同，具有以下两个特殊之处：一为多主题，即一个页面可能被分成多个区域，每一区域描述了的主题相对独立；二为多噪音，即在页面正文内容的周围经常夹杂着浏览框、广告条、交互式表单、图片修饰、公司的logo等噪声。这就使得传统文本的处理算法在被应用到网络文本处理时，不能取得理想的效果，因此在对传统文本处理之前必须采取有效的网页解析技术才能提取网页中真正想要描述的正文信息。

HTML语言为大多数Web网页所使用，这些页面的主要构成组件为普通文本和HTML标签。在宏观上,可以直接将网页内容看成一个线性的字符串；但是在微观上，这个字符串通常包含着很多交互影响、分层清晰的标签，这些标签决定了页面各模块的结构及属性，例如：网页的视觉特征(字体的颜色、颜色的差异、字体的粗细等)以及网页的版式特点(段落内容长短、标题所属位置、段落彼此的距离等)，通常各标签的级别不一，且标签具备一定规律性的分布，还有一些差异性体现在使用习惯上，这些重要的特征都可以在网页解析和内容提取时利用。

互联网网页在经过爬虫系统从服务器抓取到本地后，在进行数据挖掘之前必须对这些源代码数据进行预处理，这一过程就是页面解析。目前，基于网页分析的页面主题信息主要存在着以下问题：解析方法移植性不强，某一方法只针对某一类页面有着效果的效果；解析速度慢，由于解析方法的复杂度太高，不能在用户可以接受的时间内完成页面中目标文本的提取过程；解析效果差，部分方法过于追求速度而对目标文本采取粗粒度的划分方法，这导致了目标文本漏选或噪音数据误选等影响解析效果的问题。因此在解析过程中，单方面的只重视解析效果或者解析速度都不可取，需要在提高效率的同时追求准确度。

发明内容

本发明目的在于克服上述现有技术的不足而提出一种云环境中基于DOMTree的网页内容分析提取优化方法，该方法在传统基于DOMtree的基础上，结合Map/Reduce计算模型而提出的适合大数据并行计算场景的一种优化策略。

实现本发明目的采用的技术方案是一种云环境中基于DOMTree的网页内容分析提取优化方法，该方法包括：

S1、生成DOM树：对于该树中的每个叶子节点，将其标签路径和对应文本，并以键值对＜TagPath，NodeContent＞的形式存储；

S2、去script和style块：将网页中所有的script块和style块删除；

S3、合并：从各个叶子节点开始，对具有相同标签路径的不同兄弟节点间进行合并；

S4、降度：如果叶节点的父节点不包含任何兄弟节点，则删除父节点，并用当前叶子节点代替，使得深度大于1的叶子节点接近根节点，降低DOMTree的高度；

重复步骤S3～S4，直至DOMTREE的高度降为1，得到精简的DOM树，树的每一个叶子节点均为一个内容单元；

S5、去标签：利用正则表达式对标签信息进行删除，得到网页正文内容。

本发明方法首先根据解析文本对象生成的DOM树，对该树上的叶子节点进行降度合并等处理，同时在基于向量空间模型引用相似度计量方法判断其中噪音节点的位置。该方法对所有节点对象以＜TagPath，NodeContent＞所形成的键值对进行处理，这一处理模式将大大减少解析所耗费的时间。

附图说明

图1为本发明云环境中基于DOMTree的网页内容分析提取优化方法的流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的详细说明。

如同图1所示，本发明云环境中基于DOMTree的网页内容分析提取优化方法包括：

S1、生成DOM树：对于该树中的每个叶子节点，将其标签路径和对应文本，并以键值对＜TagPath，NodeContent＞的形式存储。

本发明对每个待解析Web页面(由固定格式的标签和普通文本构成)，利用树的概念进行处理，最终生成有层次、组织清晰、布局特征显著的DOMTree数据结构。每个生成树都由O＝{PageId,Height,{Tag₁,Tag₂,...,Tag_m},{Content₁,Content₂,...,Content_n}}唯一标识。这一方法使得看似杂乱无章毫无规律的页面源代码清晰明了，易于分析理解。在这一数据结构中，每个包含实际文本的数据均处于叶子节点中，且可以根据从根节点到叶子节点的标签得到该节点的标签路径。这一路径在以后的数据挖掘中将具有重要作用。

DomTree生成树中每个内容块都可根据向量空间模型(VSM,VectorSpaceModel)的思想使用由目标文本中关键字所形成的词条向量来表示，如p＝{w₁,w₂,...,w_i,...w_n}。通常为了具体量化某段文本与主题的相关程度，不仅需要对待分析文本进行处理，还需要对目标主题领域进行分析并构建主题词条库，其中，每条关键词均被赋予特定的衡量权值。同时，目标文本所形成词条向量中的每个词条也有唯一的权重，且由v＝{v₁,v₂,...,v_i,...v_n}向量表示。

同样，在采用向量空间模型思想后，各目标文本文件信息的表示和匹配问题自然地就转化为向量空间中各向量的表示和匹配问题。设定文本段落M所形成的文本词条向量为M＝{A₁,A₂,...,A_i,...,A_n}，而另一需要比较的段落向量N为N＝{B₁,B₂,...,B_i,...,B_n}，那么两个段落之间的关联程度可以用欧氏距离(向量夹角的余弦来)来计算。如下为向量间的相似度计算公式：

s i m (M, N) = \frac{Σ_{i = 1}^{n} A_{i} * B_{i}}{\sqrt{Σ_{i = 1}^{n} A_{i}^{2}} \sqrt{Σ_{i = 1}^{n} B_{i}^{2}}}

向量空间模型的优点在于它简化了页面相关度的计算复杂度，使之转化为了向量空间运算，因此本专利在处理文本噪音判断的时候将大量使用向量空间模型来计算相似度。

S2、去script和style块：将网页中所有的script块和style块删除，这一部分对于正文是毫无意义的。

S3、合并：从各个叶子节点开始，对具有相同标签路径的不同兄弟节点间进行合并。

本发明在合并之前，将所有满足finalscore＜λ的文本块剔除。SEWM2008规定，在页面文本块中，只要满足如下任一条件即可判定噪音信息：

a.与网页主旨内容不相关的信息

b.由网站提供的内容模板信息

c.广告信息

以上规则过于生硬，且目前部分网页中出现了开发者为达到特殊目的而故意加在网页中文中的广告等噪音信息。本发明方法在以上判定规则的基础上，引入相似度计量的方法，使得噪音识别更加合理。以下为具体步骤：

将经由SEWM2008规则预处理后的页面中各文本块进行关键词提取，构建词条向量。这些词条向量由P＝{p₁,p₂,...,p_i,...,p_n}表示；

利用以下公式，其中v_ik表示向量p_i与p_j中第k个词条的权重，求得P中每个词条向量与目标主题向量的相似度(其中)，用S＝{s₁,s₂,...,s_i,...,s_n}表示；

S i m (p_{i}, p_{j}) = \frac{Σ_{k - 1}^{N} v_{i k} * v_{j k}}{\sqrt{Σ_{k - 1}^{N} v_{i k}^{2}} * \sqrt{Σ_{k - 1}^{N} v_{j k}^{2}}}

求得向量S中的最大值，S_max＝Max{s₁,s₂,...,s_i,...,s_n}。在一个页面中，与主题相似度最高的文本块可以判定为正文文本。但是，在其他文本中，也可能出现与主题相关但是不能明显被发现的区域，所以在接下来的判定中不能直接舍得其他文本块，分别比较文本块与目标向量相似度与S_max的关系，其比较方法如下，并求出最终有效值：

{finalscore}_{i} = (1 - α) * \frac{s_{i}}{S_{m a x}} + α * s_{i}

比较每个向量的finalscore与预设阀值λ，若小于该值则判定为噪音节点并舍弃。

这一噪音发现方法，规避了传统规则中过于单一、武断的策略，引入相似度的概念，综合文本段与文本段之间的关联，极大的提高了方法判定的合理性。

重复步骤S3～S4，直至DOMTREE的高度降为1，得到精简的DOM树，树的每一个叶子节点均为一个内容单元。经过以上的合并与降度，一个网页就被分割为了基本内容单元的集合。同时，DOM树从用于显示的琐碎结构变成了适合内容提取的内容单元组织结构，并且内容单元上层节点及其蕴含的布局和视觉特征被完整地保留下来，可结合其它方法使用。

处理时间是任何方法在实际应用场景中永恒追求的目标。当前互联网数据的规模空前，传统解析方法将所有数据都由某一台或几台机器进行处理，没有考虑节点的处理能力和实际负载，运算耗费时间将是不可估计的，设定待处理文本总长度为len，节点处理平均时间为t_aver，则总处理时间为：

T₁＝len*t_aver

与传统解析方法相比，本专利所提方法对页面DOM生成树进行扫描，只有在发现叶子节点的时候才会记录从根节点到当前节点的标签路径，并以键值对的形式存储标签路径和节点文本。该优化方法在计算成本上最大程度上的发挥Map/Reduce运算模型的优势，将运算时间降低到：

T_{2} = \frac{Σ_{i = 1}^{\log_{n} (l e n)} t_{a v e r}}{n} * h

其中，n代表集群计算中计算节点的数目，在大规模集群计算中这一取值将非常大；而且在一般网页页面中，其内容的深度也不会超过7层，所以本专利所提方法的时间消耗与传统方法相比更少：T₁≥T₂。

本发明解析方法的伪代码描述如下：

首先定义一个HashMap<tagPath,content>表示目标文本中正文叶子节点的标签路径和内容。

(1)初始化目标文本<tagPath,content>和页面DOMTree

(2)dountil页面DOMTree的高度h＝1

(3)forDomTree中任一叶子节点ni

(4)if该节点文本块contenti属于script块或者style块

(5)continue；

(6)endif

(7)计算content的词条向量P和相似度S

(8)根据各节点S，求出除最大相似度文本段，其他文本最终权值V

(9)ifV≥λ

(10)将该节点存入<tagPath,content>

(11)将相同tagPath的content合并

(12)endif

(13)endfor

(14)对DOM树各节点降度，h--

(15)endfor

(16)去除<tagPath,content>中的标签路径

从执行步骤可以看出：在结合了DOM树解析网页内容的优点的同时，利用分层合并-降度思想，将网页中文本信息及其对应的标签路径与Map/Reduce模型很好的结合起来，对大量页面原始数据信息进行解析，充分利用Hadoop对大数据处理的优势。

Claims

1.一种云环境中基于DOMTree的网页内容分析提取优化方法，其特征在于，包括：

S2、去script和style块：将网页中所有的script块和style块删除；

2.根据权利要求1所述云环境中基于DOMTree的网页内容分析提取优化方法，其特征在于：步骤S1中，对由固定格式的标签和普通文本构成的每个待解析Web页面，利用树的概念进行处理，每个生成树都由O＝{PageId,Height,{Tag₁,Tag₂,...,Tag_m},{Content₁,Content₂,...,Content_n}}唯一标识。

3.根据权利要求1所述云环境中基于DOMTree的网页内容分析提取优化方法，其特征在于：在步骤S3合并之前，将所有满足finalscore＜λ的文本块剔除，剔除过程如下：

将经由SEWM2008规则预处理后的页面中各文本块进行关键词提取，构建词条向量，这些词条向量由P＝{p₁,p₂,...,p_i,...,p_n}表示；

(1)设定利用以下公式，其中v_ik表示向量p_i与p_j中第k个词条的权重，求得P中每个词条向量与目标主题向量的相似度，用S＝{s₁,s₂,...,s_i,...,s_n}表示；

S i m (p_{i}, p_{j}) = \frac{Σ_{k - 1}^{N} v_{i k} * v_{j k}}{\sqrt{Σ_{k - 1}^{N} v_{i k}^{2}} * \sqrt{Σ_{k - 1}^{N} v_{j k}^{2}}}

求得向量S中的最大值：S_max＝Max{s₁,s₂,...,s_i,...,s_n}，以及向量finalscore：

{finalscore}_{i} = (1 - α) * \frac{s_{i}}{S_{m a x}} + α * s_{i};

(2)比较每个向量的finalscore与预设阀值λ，若小于该值则判定为噪音节点并舍弃。