CN103226599B

CN103226599B - 一种精确提取网页内容的方法及系统

Info

Publication number: CN103226599B
Application number: CN201310143987.8A
Authority: CN
Inventors: 翁杰
Original assignee: Individual
Current assignee: Individual
Priority date: 2013-04-23
Filing date: 2013-04-23
Publication date: 2018-09-28
Anticipated expiration: 2033-04-23
Also published as: CN103226599A

Abstract

本发明实施例公开了一种精确提取网页内容的方法，具体步骤为：获取URL对应的网页内容，将所述网页内容源代码解析成DOM结构树；读取用户输入的筛选表达式，语法分析器加载语法表将所述筛选表达式解析成由多个词汇组成的表达式树，通过语义分析将所述多个词汇分解出筛选条件集合，所述筛选条件集合由若干个筛选条件对象组成，每个筛选条件对象由一个标签提取方法和若干个标签筛选方法组成。本发明实施例还公开了一种精确提取网页内容的系统。采用本发明，对筛选表达式的进行语法分析重组成优化表达式树，并通过语义分析组成多个筛选条件对象的集合，从而实现对DOM文档树节点的采集定位和快速筛选。使用本发明有利于提高开发效率、降低维护成本。

Description

一种精确提取网页内容的方法及系统

技术领域

本发明涉及互联网技术领域，具体地说，尤其涉及一种精确提取网页内容的方法及系统。

背景技术

网页数据采集技术是一种使用类似搜索引擎ROBOT的技术，把互联网上的文章，资料收集整理然后存储到数据库中以填充网站内容。数据采集技术对丰富网站内容，提高网站的流量有很大帮助。

然而，现有技术中使用的数据采集方法大多数是使用正则表达式的方式来实现数据的定位和提取。使用这种方法是性能相对比较优异，但是对于整个系统的维护来说却非常不容易。要精确定位一个页面的数据，通常需要将页面的内容进行分段提取，这样写出来的正则表达式代码非常多，而且也难以维护。如果所要采集的页面的标签稍微发生变化，那么对应的正则表达式也需要重新调整，而整个调整却非常耗时间。

在网页javascript脚本中，jquery框架所提供的标签选择器能够非常方便的筛选出页面中的标签，但是它却只能用于浏览器的客户端脚本。

发明内容

本发明实施例所要解决的技术问题在于，提供一种精确提取网页内容的方法。可适用于服器端，并能通过易维护的方式精确提取网页内容。

为了解决上述技术问题，本发明实施例提供了一种精确提取网页内容的方法，经过以下步骤实现：

获取URL对应的网页文档，将所述网页文档源代码解析成DOM结构树；

读取用户输入的筛选表达式，语法分析器加载语法表对所述筛选表达式的合法性分析并将所述筛选表达式解析成由多个词汇组成的表达式树；

通过语义分析，将所述多个词汇分解出筛选条件集合；

所述筛选条件集合由若干个筛选条件对象组成，每个筛选条件对象由一个标签提取方法和若干个标签筛选方法组成；所述标签提取方法从所述DOM结构树中提取所述筛选条件对象指定的对象，所述标签筛选方法根据所述筛选条件对象附带的标签过滤方法对所述标签提取方法所提取的对象做进一步过滤，得出所述筛选条件对象的筛选结果，将所述筛选结果返回。

进一步地，还包括根据所述语法表的嵌套定义遍历所述表达式树将重复嵌套的父节点进行上位合并，重组成优化表达式树的步骤。

更进一步地，所述重组成优化表达式树通过以下步骤实现：

步骤1：构建堆栈变量STACK与结果列表LIST；

步骤2：将所述筛选表达式的节点压入栈；

步骤3：读取栈顶的节点放入临时变量CUR；

步骤4：判断CUR的头部标识，当所述头部标识为所述语法表所定义的非冗余节点，将其添加到LIST中，重复第3步骤，当其为所述语法表所定义的冗余节点时，继续下一步骤；

步骤5：读取CUR当前节点下的所有节点按照从右到左出现的顺序依次压入栈，然后跳转到第3步骤继续下一个循环；

步骤6：将结果列表LIST返回。

进一步地，所述标签提取方法是以层次关键字从所述DOM结构树中提取指定类别及关键字的对象。

更进一步地，所述层次关键字为空格、大于号、加号和波浪号；所述空格表示在给定的祖先元素下匹配所有的后代元素，所述大于号表示在给定的父元素下匹配所有的子元素，所述加号表示匹配所有紧接在prev元素后的next元素，所述波浪号表示匹配prev元素之后的所有siblings元素。

进一步地，所述解析成DOM结构树步骤还包括根据网页文档上所指定的<!DOCTYPE>声明对标签进行容错处理。

更进一步地，所述对所述筛选条件合法性分析是对所述筛选条件中的词法与语法错误进行检测，当出现错误时就抛出异常并终止操作。

相应地，本发明实施例还提供了一种精确提取网页内容的系统，包括预处理模块、表达式获取模块、表达式解析模块、语义分析模块；

所述预处理模块获取URL对应的网页文档，将其解析成DOM结构树；

所述表达式获取模块读取用户输入的筛选表达式；

所述表达式解析模块加载语法表对所述筛选表达式解析成由多个词汇组成的表达式树，并根根据所述语法表的嵌套定义遍历所述表达式树将重复嵌套的父节点进行上位合并，重组成优化表达式树；

所述语义分析模块将所述表达式树分解出筛选条件集合，所述筛选条件集合由若干个筛选条件对象组成，每个筛选条件对象由一个标签提取方法和若干个标签筛选方法组成；所述标签提取方法从所述DOM结构树中提取所述筛选条件对象指定的对象，所述标签筛选方法根据所述筛选条件对象附带的标签过滤方法对所述标签提取方法所提取的对象做进一步过滤，得出所述筛选条件对象的筛选结果，将所述筛选结果返回。

进一步地，所述预处理模块还包括容错处理单元，用于根据网页文档上所指定的<!DOCTYPE>声明对DOM结构树中的标签进行容错处理。

更进一步地，所述表达式获取模块还包括筛选条件合法性分析单元，用于对所述筛选条件中的词法与语法错误进行检测，当出现错误时就抛出异常并终止操作。

实施本发明实施例，具有如下有益效果：通过将目标网页文档生成DOM结构树，并对用户输入的筛选表达式解析成表达式树，并通过语义分析组成多个筛选条件对象的集合，从而实现对DOM文档树节点的采集定位和快速筛选。使用本发明有利于提高开发效率、降低维护成本。

附图说明

图1是本发明示出一个未优化的SelectorBlocks子树的示意图；

图2是将图1中的表达式树优化的结果的示意图；

图3是实施例1中未经优化的表达式树的示意图；

图4是将实施例1的表达式树进行优化后的示意图；

图5是实施例2中未经优化的表达式树的示意图；

图6是示出可将实施例2中未经优化的表达式树优化后的结构示图；

图7是将实施例2的表达式树进行优化后的示意图；

图8是本发明的系统结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

本发明的精确提取网页的方法，是根据URL获取得到对应的网页文档，将该网页文档源代码信息解析成DOM结构树，并根据网页文档中的<!DOCTYPE>声明对标签进行容错处理。DOM结构树是一棵标签树，反应了网页的结构信息，为了简化采集定位，提高开发效率，本发明引入了对用户输入的筛选表达式进行优化并且定义了标签提取方法来提升网页内容的精确提取。

读取用户输入的筛选表达式，逐个进行解析成由多个词汇组成的表达式树，在解析过程中如果出现词法错误(Lexical Error)或者语法错误(Syntax Error)就抛出异常，并终止操作。

例如当语法表定义包含如下时：

|<Selectors>

表示<SelectorBlocks>是由多个<Selectors>组成，在未重构前的表达式树会形成多个冗余嵌套的SelectorBlocks子树，如图1所示，这时将这些冗余嵌套的子树进行上位合并优化将可使后续的语义分析步骤更为方便处理，优化后表达式树结构如图2所示的示意图，具体优化处理步骤为：

遍历整个表达式树，经以下步骤进行表达式重组成优化表达式树：

步骤1：构建堆栈变量STACK与结果列表LIST；

步骤2：将所述表达式的节点压入栈；

步骤3：读取栈顶的节点放入临时变量CUR；

步骤4：判断CUR的头部标识，当所述头部标识为<Selectors>节点时，将其添加到LIST中，重复第3步骤，当其为<SelectorBlocks>节点时，继续下一步骤；

步骤5：读取CUR的所有子节点并筛选出<SelectorBlocks>和<Selecor>节点，按照从右到左出现的顺序依次压入栈，然后跳转到第3步骤继续下一个循环；

步骤6：将结果列表LIST返回。

当生成优化表达式树后，对优化表达式遍历，分解出筛选条件集合，筛选条件集合由若干个筛选条件对象组成；

筛选条件集合LIST=[C1，C2，…,Cn]；

筛选条件对象Cn由一个标签提取方法A和多个标签筛选方法[F1，F2,…,Fn]组成，即：

筛选条件对象Cn=[A,F1，F2…Fn]；

其中，标签提取方法A是根据语法所定义的层次(hierarchy)关键字决定。以JQuery为例，层次的关键字有四种，分别为:

1)空格“<SPACE>”表示在给定的祖先元素下匹配所有的后代元素；

2)大于号“>”表示在给定的父元素下匹配所有的子元素；

3)加号“+”表示匹配所有紧接在prev元素后的next元素；

4)波浪号“～”表示匹配prev元素之后的所有siblings元素。

要构建筛选条件集合则必需遍历表达式树或优化的表达式树，对应成多个筛选条件对象，最终数据如下：

LIST=[C1，C2，…,Cn]

C=[A,F1，F2…Fn]。

根据上述的过滤条件，利用标签提取方法A从DOM结构树中预先过滤出指定的筛选元素，在从结果中通过标签筛选方法Fn筛选网页内容。

以下将给出两个具体实施例进行补充说明。

实施例1：

当用户输入指令为“INPUT,SELECT,TEXTAREA,IMG”时，所表示的含义为查找页面中所有的INPUT、SELECT、TEXTAREA、IMG标签。

系统通过词法分析将构成如图3所示的完整的未经过优的表达式树。

而在语法表<SelectorBlocks>块中定义如下：

|<Selectors>

其含义表示<SelectorBlocks>一个或多个<Selectors>所组成，之间使用逗号“,”隔开。

在未优化前，语法树中所呈现的节点是嵌套的，可表示如下：

INPUT,SELECT,TEXTAREA,IMG=(INPUT,SELECT,TEXTAREA)+(IMG)

INPUT,SELECT,TEXTAREA=(INPUT,SELECT)+(TEXTAREA)

INPUT,SELECT=(INPUT)+(SELECT)

SELECT=(SELECT)

上述的格式不利于语法分析，需要将节点优化成以下利于语法分析的优化表达式树：

INPUT,SELECT,TEXTAREA,IMG=(INPUT)+(SELECT)+(TEXTAREA)+(IMG)

优化后的表达式树如图4所示示意图。

通过语义分析,为每个<selectors>节点构建出筛选条件对象：

第一个<Seletors>节点构建出的筛选条件对象C1为：

A=提取页面中的所有标签；

F1=过滤出INPUT标签；

第二个<Seletors>节点构建出的筛选条件对象C2为：

A=提取页面中的所有标签；

F1=过滤出SELECT标签；

第三个<Seletors>节点构建出的筛选条件对象C3为：

A=提取页面中的所有标签；

F1=过滤出TEXTAREA标签；

第四个<Seletors>节点构建出的筛选条件对象C4为：

A=提取页面中的所有标签；

F1=过滤出IMG标签；

执行过滤，通过传入文档树DOM的根节点，分别传入四个<Selecors>节点所构建出来的筛选条件对象C中的A方法，然后执行对应的过滤方法F1,并将执行后的四个结果合并，最终取出文档中所有的INPUT、SELECT、TEXTAREA、IMG标签。

实施例2：

当用户输入表达式为“DIV.a>IMG.b[alt]”时，表示的含义为先查找页面中有样式名为a的DIV标签，然后在筛选出子元素中样式名为b，并且包含有alt属性的IMG标签。

系统通过词法分析将构成如图5所示的完整的未经过优的表达式树。

在语法表<Selectors>块中定义如下：

|<HierarchySplitter><Filter>

<HierarchySplitter>::='>'|'+'|'～'|

其含义表示<Selectors>是由一个或多个<Filter>所组成，之间使用层次分割符隔开，层次分割符有三种，分别是“>”,“+”,“～”。在解析jquery语法时，另外一种分割符是一个或多个空白符，遇到这种情况需要判断该节点是否含有空白符，有则保留，否则将移除。

对于以上节点可以优化为如图6所示示意图，优化后的节点结构如图7所示。

通过语义分析将构建出以下两个筛选条件对象：

筛选条件对象C1：

A=提取页面中的所有标签

F1=过滤出DIV标签

F2=过滤出包含样式名为a的标签

筛选条件对象C2：

A=在筛选条件对象C1所筛选出的结果中查找子元素（不包含子元素的后代）

F1=过滤出IMG标签

F2=过滤出包含样式名为b的标签

F3=过滤出包含属性alt的标签。

通过传入DOM结构树的根节点，先执行C1的方法A提取出所有的标签，然后遍历该结果，每遍历一个标签都需要调用C1中F1、F2方法。从而取得集合R1。

将R1传入第二个筛选条件对象C2，执行C2的方法A提取出所有子元素，然后遍历该结果，

每遍历一次标签都需要调用C2中的F1、F2、F3，从而取得最终的结果。

本发明实施例提供了一种精确提取网页内容的系统，包括预处理模块、表达式获取模块、表达式解析模块、语义分析模块。

预处理模块从URL获取得到对应的网页文档，将该网页文档源代码信息解析成DOM结构树，并根据网页文档中的<!DOCTYPE>声明对标签进行容错处理。

表达式获取模块读取用户输入的筛选表达式，如果出现词法错误(LexicalError)或者语法错误(Syntax Error)就抛出异常，并终止操作。

表达式解析模块加载语法表，根据语法表的定义将筛选表达式逐个进行解析成由多个词汇组成的表达式树，并根根据所述语法表的嵌套定义遍历所述筛选表达式树将重复嵌套的父节点进行上位合并，重组成优化表达式树，优化过程上述已说明，在此不做重复说明。

语义分析模块将表达式树或优化的表达式树进行分解出筛选条件集合。

所述筛选条件集合LIST由若干个筛选条件对象Cn组成，每个筛选条件对象Cn由一个标签提取方法A和若干个标签筛选方法Fn组成；所述标签提取方法A从所述DOM结构树中提取所述筛选条件对象指定的对象，所述标签筛选方法Fn根据所述筛选条件对象附带的标签过滤方法对所述标签提取方法所提取的对象做进一步过滤，得出所述筛选条件对象的筛选结果，将所述筛选结果返回。

标签提取方法A根据层次关键字作为标签分隔符从DOM结构树预先提取出所述优化表达式树节点指定的筛选元素，层次关键字定义为“>”,“+”,“～”和空白符；空白符表示在给定的祖先元素下匹配所有的后代元素，大于号“>”表示在给定的父元素下匹配所有的子元素，所述加号“+”表示匹配所有紧接在prev元素后的next元素，所述波浪号“～”表示匹配prev元素之后的所有siblings元素。

标签筛选方法Fn根据筛选条件对象Cn附带的标签过滤方法对标签提取方法A所提取的对象做进一步过滤，得出筛选条件对象Cn的筛选结果，将所述筛选结果返回。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种精确提取网页内容的方法，其特征在于，具体步骤如下：

读取用户输入的筛选表达式，语法分析器加载语法表对所述筛选表达式的合法性分析并将所述筛选表达式解析成由多个词汇组成的筛选表达式树；

根据所述语法表的嵌套定义遍历所述筛选表达式树将重复嵌套的父节点进行上位合并，重组成优化表达式树；

所述重组成优化表达式树通过以下步骤实现：

步骤1：构建堆栈变量STACK与结果列表LIST；

步骤2：将所述筛选表达式的节点压入栈；

步骤3：判断栈是否有数据，如果没有数据就跳转进入步骤7；

步骤4：读取栈顶的节点放入临时变量CUR；

步骤5：判断CUR的头部标识，当所述头部标识为所述语法表所定义的非冗余节点，将其添加到LIST中，重复第3步骤，当其为所述语法表所定义的冗余节点时，继续下一步骤；

步骤6：读取CUR当前节点下的所有节点按照从右到左出现的顺序依次压入栈，然后跳转到第3步骤继续下一个循环；

步骤7：将结果列表LIST返回；

通过语义分析，将所述筛选表达式树分解出筛选条件集合；

所述筛选条件集合由若干个筛选条件对象组成，每个筛选条件对象由一个标签提取方法和若干个标签筛选方法组成；所述标签提取方法从所述DOM结构树中提取所述筛选条件对象指定的对象，所述对象包括标签属性和标签样式中的至少一种，所述标签属性包括标签名和标签ID中的至少一种，所述标签筛选方法根据所述筛选条件对象附带的标签过滤方法对所述标签提取方法所提取的对象做进一步过滤，得出所述筛选条件对象的筛选结果，将所述筛选结果返回。

2.根据权利要求1所述的精确提取网页内容的方法，其特征在于，所述标签提取方法是以层次关键字从所述DOM结构树中提取指定类别及关键字的对象。

3.根据权利要求2所述的精确提取网页内容的方法，其特征在于，所述层次关键字为空格、大于号、加号和波浪号；所述空格表示在给定的祖先元素下匹配所有的后代元素，所述大于号表示在给定的父元素下匹配所有的子元素，所述加号表示匹配所有紧接在prev元素后的next元素，所述波浪号表示匹配prev元素之后的所有siblings元素。

4.根据权利要求1所述的精确提取网页内容的方法，其特征在于，所述解析成DOM结构树步骤还包括根据网页文档上所指定的<！DOCTYPE>声明对标签进行容错处理。

5.根据权利要求1所述的精确提取网页内容的方法，其特征在于，所述对所述筛选表达式的合法性分析是对所述筛选条件中的词法与语法错误进行检测，当出现错误时就抛出异常并终止操作。

6.一种精确提取网页内容的系统，其特征在于，包括预处理模块、表达式获取模块、表达式解析模块、语义分析模块；

所述表达式获取模块读取用户输入的筛选表达式；

所述表达式解析模块加载语法表对所述筛选表达式解析成由多个词汇组成的筛选表达式树，并根据所述语法表的嵌套定义遍历所述筛选表达式树将重复嵌套的父节点进行上位合并，重组成优化表达式树；

所述重组成优化表达式树通过以下步骤实现：

步骤1：构建堆栈变量STACK与结果列表LIST；

步骤2：将所述筛选表达式的节点压入栈；

步骤4：读取栈顶的节点放入临时变量CUR；

步骤7：将结果列表LIST返回；

所述语义分析模块将所述筛选表达式树分解出筛选条件集合，所述筛选条件集合由若干个筛选条件对象组成，每个筛选条件对象由一个标签提取方法和若干个标签筛选方法组成；所述标签提取方法从所述DOM结构树中提取所述筛选条件对象指定的对象，所述对象包括标签属性和标签样式中的至少一种，所述标签属性包括标签名和标签ID中的至少一种，所述标签筛选方法根据所述筛选条件对象附带的标签过滤方法对所述标签提取方法所提取的对象做进一步过滤，得出所述筛选条件对象的筛选结果，将所述筛选结果返回。

7.根据权利要求6所述的精确提取网页内容的系统，其特征在于，所述预处理模块还包括容错处理单元，用于根据网页文档上所指定的<！DOCTYPE>声明对DOM结构树中的标签进行容错处理。

8.根据权利要求7所述的精确提取网页内容的系统，其特征在于，所述表达式获取模块还包括表达式合法性分析单元，用于对所述筛选表达式中的词法与语法错误进行检测，当出现错误时就抛出异常并终止操作。