CN103226599B - 一种精确提取网页内容的方法及系统 - Google Patents
一种精确提取网页内容的方法及系统 Download PDFInfo
- Publication number
- CN103226599B CN103226599B CN201310143987.8A CN201310143987A CN103226599B CN 103226599 B CN103226599 B CN 103226599B CN 201310143987 A CN201310143987 A CN 201310143987A CN 103226599 B CN103226599 B CN 103226599B
- Authority
- CN
- China
- Prior art keywords
- expression
- screening conditions
- tree
- filtering
- web page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种精确提取网页内容的方法,具体步骤为:获取URL对应的网页内容,将所述网页内容源代码解析成DOM结构树;读取用户输入的筛选表达式,语法分析器加载语法表将所述筛选表达式解析成由多个词汇组成的表达式树,通过语义分析将所述多个词汇分解出筛选条件集合,所述筛选条件集合由若干个筛选条件对象组成,每个筛选条件对象由一个标签提取方法和若干个标签筛选方法组成。本发明实施例还公开了一种精确提取网页内容的系统。采用本发明,对筛选表达式的进行语法分析重组成优化表达式树,并通过语义分析组成多个筛选条件对象的集合,从而实现对DOM文档树节点的采集定位和快速筛选。使用本发明有利于提高开发效率、降低维护成本。
Description
技术领域
本发明涉及互联网技术领域,具体地说,尤其涉及一种精确提取网页内容的方法及系统。
背景技术
网页数据采集技术是一种使用类似搜索引擎ROBOT的技术,把互联网上的文章,资料收集整理然后存储到数据库中以填充网站内容。数据采集技术对丰富网站内容,提高网站的流量有很大帮助。
然而,现有技术中使用的数据采集方法大多数是使用正则表达式的方式来实现数据的定位和提取。使用这种方法是性能相对比较优异,但是对于整个系统的维护来说却非常不容易。要精确定位一个页面的数据,通常需要将页面的内容进行分段提取,这样写出来的正则表达式代码非常多,而且也难以维护。如果所要采集的页面的标签稍微发生变化,那么对应的正则表达式也需要重新调整,而整个调整却非常耗时间。
在网页javascript脚本中,jquery框架所提供的标签选择器能够非常方便的筛选出页面中的标签,但是它却只能用于浏览器的客户端脚本。
发明内容
本发明实施例所要解决的技术问题在于,提供一种精确提取网页内容的方法。可适用于服器端,并能通过易维护的方式精确提取网页内容。
为了解决上述技术问题,本发明实施例提供了一种精确提取网页内容的方法,经过以下步骤实现:
获取URL对应的网页文档,将所述网页文档源代码解析成DOM结构树;
读取用户输入的筛选表达式,语法分析器加载语法表对所述筛选表达式的合法性分析并将所述筛选表达式解析成由多个词汇组成的表达式树;
通过语义分析,将所述多个词汇分解出筛选条件集合;
所述筛选条件集合由若干个筛选条件对象组成,每个筛选条件对象由一个标签提取方法和若干个标签筛选方法组成;所述标签提取方法从所述DOM结构树中提取所述筛选条件对象指定的对象,所述标签筛选方法根据所述筛选条件对象附带的标签过滤方法对所述标签提取方法所提取的对象做进一步过滤,得出所述筛选条件对象的筛选结果,将所述筛选结果返回。
进一步地,还包括根据所述语法表的嵌套定义遍历所述表达式树将重复嵌套的父节点进行上位合并,重组成优化表达式树的步骤。
更进一步地,所述重组成优化表达式树通过以下步骤实现:
步骤1:构建堆栈变量STACK与结果列表LIST;
步骤2:将所述筛选表达式的节点压入栈;
步骤3:读取栈顶的节点放入临时变量CUR;
步骤4:判断CUR的头部标识,当所述头部标识为所述语法表所定义的非冗余节点,将其添加到LIST中,重复第3步骤,当其为所述语法表所定义的冗余节点时,继续下一步骤;
步骤5:读取CUR当前节点下的所有节点按照从右到左出现的顺序依次压入栈,然后跳转到第3步骤继续下一个循环;
步骤6:将结果列表LIST返回。
进一步地,所述标签提取方法是以层次关键字从所述DOM结构树中提取指定类别及关键字的对象。
更进一步地,所述层次关键字为空格、大于号、加号和波浪号;所述空格表示在给定的祖先元素下匹配所有的后代元素,所述大于号表示在给定的父元素下匹配所有的子元素,所述加号表示匹配所有紧接在prev元素后的next元素,所述波浪号表示匹配prev元素之后的所有siblings元素。
进一步地,所述解析成DOM结构树步骤还包括根据网页文档上所指定的<!DOCTYPE>声明对标签进行容错处理。
更进一步地,所述对所述筛选条件合法性分析是对所述筛选条件中的词法与语法错误进行检测,当出现错误时就抛出异常并终止操作。
相应地,本发明实施例还提供了一种精确提取网页内容的系统,包括预处理模块、表达式获取模块、表达式解析模块、语义分析模块;
所述预处理模块获取URL对应的网页文档,将其解析成DOM结构树;
所述表达式获取模块读取用户输入的筛选表达式;
所述表达式解析模块加载语法表对所述筛选表达式解析成由多个词汇组成的表达式树,并根根据所述语法表的嵌套定义遍历所述表达式树将重复嵌套的父节点进行上位合并,重组成优化表达式树;
所述语义分析模块将所述表达式树分解出筛选条件集合,所述筛选条件集合由若干个筛选条件对象组成,每个筛选条件对象由一个标签提取方法和若干个标签筛选方法组成;所述标签提取方法从所述DOM结构树中提取所述筛选条件对象指定的对象,所述标签筛选方法根据所述筛选条件对象附带的标签过滤方法对所述标签提取方法所提取的对象做进一步过滤,得出所述筛选条件对象的筛选结果,将所述筛选结果返回。
进一步地,所述预处理模块还包括容错处理单元,用于根据网页文档上所指定的<!DOCTYPE>声明对DOM结构树中的标签进行容错处理。
更进一步地,所述表达式获取模块还包括筛选条件合法性分析单元,用于对所述筛选条件中的词法与语法错误进行检测,当出现错误时就抛出异常并终止操作。
实施本发明实施例,具有如下有益效果:通过将目标网页文档生成DOM结构树,并对用户输入的筛选表达式解析成表达式树,并通过语义分析组成多个筛选条件对象的集合,从而实现对DOM文档树节点的采集定位和快速筛选。使用本发明有利于提高开发效率、降低维护成本。
附图说明
图1是本发明示出一个未优化的SelectorBlocks子树的示意图;
图2是将图1中的表达式树优化的结果的示意图;
图3是实施例1中未经优化的表达式树的示意图;
图4是将实施例1的表达式树进行优化后的示意图;
图5是实施例2中未经优化的表达式树的示意图;
图6是示出可将实施例2中未经优化的表达式树优化后的结构示图;
图7是将实施例2的表达式树进行优化后的示意图;
图8是本发明的系统结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
本发明的精确提取网页的方法,是根据URL获取得到对应的网页文档,将该网页文档源代码信息解析成DOM结构树,并根据网页文档中的<!DOCTYPE>声明对标签进行容错处理。DOM结构树是一棵标签树,反应了网页的结构信息,为了简化采集定位,提高开发效率,本发明引入了对用户输入的筛选表达式进行优化并且定义了标签提取方法来提升网页内容的精确提取。
读取用户输入的筛选表达式,逐个进行解析成由多个词汇组成的表达式树,在解析过程中如果出现词法错误(Lexical Error)或者语法错误(Syntax Error)就抛出异常,并终止操作。
例如当语法表定义包含如下时:
<SelectorBlocks>::=<SelectorBlocks>','<Selectors>
|<Selectors>
表示<SelectorBlocks>是由多个<Selectors>组成,在未重构前的表达式树会形成多个冗余嵌套的SelectorBlocks子树,如图1所示,这时将这些冗余嵌套的子树进行上位合并优化将可使后续的语义分析步骤更为方便处理,优化后表达式树结构如图2所示的示意图,具体优化处理步骤为:
遍历整个表达式树,经以下步骤进行表达式重组成优化表达式树:
步骤1:构建堆栈变量STACK与结果列表LIST;
步骤2:将所述表达式的节点压入栈;
步骤3:读取栈顶的节点放入临时变量CUR;
步骤4:判断CUR的头部标识,当所述头部标识为<Selectors>节点时,将其添加到LIST中,重复第3步骤,当其为<SelectorBlocks>节点时,继续下一步骤;
步骤5:读取CUR的所有子节点并筛选出<SelectorBlocks>和<Selecor>节点,按照从右到左出现的顺序依次压入栈,然后跳转到第3步骤继续下一个循环;
步骤6:将结果列表LIST返回。
当生成优化表达式树后,对优化表达式遍历,分解出筛选条件集合,筛选条件集合由若干个筛选条件对象组成;
筛选条件集合LIST=[C1,C2,…,Cn];
筛选条件对象Cn由一个标签提取方法A和多个标签筛选方法[F1,F2,…,Fn]组成,即:
筛选条件对象Cn=[A,F1,F2…Fn];
其中,标签提取方法A是根据语法所定义的层次(hierarchy)关键字决定。以JQuery为例,层次的关键字有四种,分别为:
1)空格“<SPACE>”表示在给定的祖先元素下匹配所有的后代元素;
2)大于号“>”表示在给定的父元素下匹配所有的子元素;
3)加号“+”表示匹配所有紧接在prev元素后的next元素;
4)波浪号“~”表示匹配prev元素之后的所有siblings元素。
要构建筛选条件集合则必需遍历表达式树或优化的表达式树,对应成多个筛选条件对象,最终数据如下:
LIST=[C1,C2,…,Cn]
C=[A,F1,F2…Fn]。
根据上述的过滤条件,利用标签提取方法A从DOM结构树中预先过滤出指定的筛选元素,在从结果中通过标签筛选方法Fn筛选网页内容。
以下将给出两个具体实施例进行补充说明。
实施例1:
当用户输入指令为“INPUT,SELECT,TEXTAREA,IMG”时,所表示的含义为查找页面中所有的INPUT、SELECT、TEXTAREA、IMG标签。
系统通过词法分析将构成如图3所示的完整的未经过优的表达式树。
而在语法表<SelectorBlocks>块中定义如下:
<SelectorBlocks>::=<SelectorBlocks>','<Selectors>
|<Selectors>
其含义表示<SelectorBlocks>一个或多个<Selectors>所组成,之间使用逗号“,”隔开。
在未优化前,语法树中所呈现的节点是嵌套的,可表示如下:
INPUT,SELECT,TEXTAREA,IMG=(INPUT,SELECT,TEXTAREA)+(IMG)
INPUT,SELECT,TEXTAREA=(INPUT,SELECT)+(TEXTAREA)
INPUT,SELECT=(INPUT)+(SELECT)
SELECT=(SELECT)
上述的格式不利于语法分析,需要将节点优化成以下利于语法分析的优化表达式树:
INPUT,SELECT,TEXTAREA,IMG=(INPUT)+(SELECT)+(TEXTAREA)+(IMG)
优化后的表达式树如图4所示示意图。
通过语义分析,为每个<selectors>节点构建出筛选条件对象:
第一个<Seletors>节点构建出的筛选条件对象C1为:
A=提取页面中的所有标签;
F1=过滤出INPUT标签;
第二个<Seletors>节点构建出的筛选条件对象C2为:
A=提取页面中的所有标签;
F1=过滤出SELECT标签;
第三个<Seletors>节点构建出的筛选条件对象C3为:
A=提取页面中的所有标签;
F1=过滤出TEXTAREA标签;
第四个<Seletors>节点构建出的筛选条件对象C4为:
A=提取页面中的所有标签;
F1=过滤出IMG标签;
执行过滤,通过传入文档树DOM的根节点,分别传入四个<Selecors>节点所构建出来的筛选条件对象C中的A方法,然后执行对应的过滤方法F1,并将执行后的四个结果合并,最终取出文档中所有的INPUT、SELECT、TEXTAREA、IMG标签。
实施例2:
当用户输入表达式为“DIV.a>IMG.b[alt]”时,表示的含义为先查找页面中有样式名为a的DIV标签,然后在筛选出子元素中样式名为b,并且包含有alt属性的IMG标签。
系统通过词法分析将构成如图5所示的完整的未经过优的表达式树。
在语法表<Selectors>块中定义如下:
<Selectors>::=<Selectors><HierarchySplitter><Filter>
|<HierarchySplitter><Filter>
<HierarchySplitter>::='>'|'+'|'~'|
其含义表示<Selectors>是由一个或多个<Filter>所组成,之间使用层次分割符隔开,层次分割符有三种,分别是“>”,“+”,“~”。在解析jquery语法时,另外一种分割符是一个或多个空白符,遇到这种情况需要判断该节点是否含有空白符,有则保留,否则将移除。
对于以上节点可以优化为如图6所示示意图,优化后的节点结构如图7所示。
通过语义分析将构建出以下两个筛选条件对象:
筛选条件对象C1:
A=提取页面中的所有标签
F1=过滤出DIV标签
F2=过滤出包含样式名为a的标签
筛选条件对象C2:
A=在筛选条件对象C1所筛选出的结果中查找子元素(不包含子元素的后代)
F1=过滤出IMG标签
F2=过滤出包含样式名为b的标签
F3=过滤出包含属性alt的标签。
通过传入DOM结构树的根节点,先执行C1的方法A提取出所有的标签,然后遍历该结果,每遍历一个标签都需要调用C1中F1、F2方法。从而取得集合R1。
将R1传入第二个筛选条件对象C2,执行C2的方法A提取出所有子元素,然后遍历该结果,
每遍历一次标签都需要调用C2中的F1、F2、F3,从而取得最终的结果。
本发明实施例提供了一种精确提取网页内容的系统,包括预处理模块、表达式获取模块、表达式解析模块、语义分析模块。
预处理模块从URL获取得到对应的网页文档,将该网页文档源代码信息解析成DOM结构树,并根据网页文档中的<!DOCTYPE>声明对标签进行容错处理。
表达式获取模块读取用户输入的筛选表达式,如果出现词法错误(LexicalError)或者语法错误(Syntax Error)就抛出异常,并终止操作。
表达式解析模块加载语法表,根据语法表的定义将筛选表达式逐个进行解析成由多个词汇组成的表达式树,并根根据所述语法表的嵌套定义遍历所述筛选表达式树将重复嵌套的父节点进行上位合并,重组成优化表达式树,优化过程上述已说明,在此不做重复说明。
语义分析模块将表达式树或优化的表达式树进行分解出筛选条件集合。
所述筛选条件集合LIST由若干个筛选条件对象Cn组成,每个筛选条件对象Cn由一个标签提取方法A和若干个标签筛选方法Fn组成;所述标签提取方法A从所述DOM结构树中提取所述筛选条件对象指定的对象,所述标签筛选方法Fn根据所述筛选条件对象附带的标签过滤方法对所述标签提取方法所提取的对象做进一步过滤,得出所述筛选条件对象的筛选结果,将所述筛选结果返回。
标签提取方法A根据层次关键字作为标签分隔符从DOM结构树预先提取出所述优化表达式树节点指定的筛选元素,层次关键字定义为“>”,“+”,“~”和空白符;空白符表示在给定的祖先元素下匹配所有的后代元素,大于号“>”表示在给定的父元素下匹配所有的子元素,所述加号“+”表示匹配所有紧接在prev元素后的next元素,所述波浪号“~”表示匹配prev元素之后的所有siblings元素。
标签筛选方法Fn根据筛选条件对象Cn附带的标签过滤方法对标签提取方法A所提取的对象做进一步过滤,得出筛选条件对象Cn的筛选结果,将所述筛选结果返回。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (8)
1.一种精确提取网页内容的方法,其特征在于,具体步骤如下:
获取URL对应的网页文档,将所述网页文档源代码解析成DOM结构树;
读取用户输入的筛选表达式,语法分析器加载语法表对所述筛选表达式的合法性分析并将所述筛选表达式解析成由多个词汇组成的筛选表达式树;
根据所述语法表的嵌套定义遍历所述筛选表达式树将重复嵌套的父节点进行上位合并,重组成优化表达式树;
所述重组成优化表达式树通过以下步骤实现:
步骤1:构建堆栈变量STACK与结果列表LIST;
步骤2:将所述筛选表达式的节点压入栈;
步骤3:判断栈是否有数据,如果没有数据就跳转进入步骤7;
步骤4:读取栈顶的节点放入临时变量CUR;
步骤5:判断CUR的头部标识,当所述头部标识为所述语法表所定义的非冗余节点,将其添加到LIST中,重复第3步骤,当其为所述语法表所定义的冗余节点时,继续下一步骤;
步骤6:读取CUR当前节点下的所有节点按照从右到左出现的顺序依次压入栈,然后跳转到第3步骤继续下一个循环;
步骤7:将结果列表LIST返回;
通过语义分析,将所述筛选表达式树分解出筛选条件集合;
所述筛选条件集合由若干个筛选条件对象组成,每个筛选条件对象由一个标签提取方法和若干个标签筛选方法组成;所述标签提取方法从所述DOM结构树中提取所述筛选条件对象指定的对象,所述对象包括标签属性和标签样式中的至少一种,所述标签属性包括标签名和标签ID中的至少一种,所述标签筛选方法根据所述筛选条件对象附带的标签过滤方法对所述标签提取方法所提取的对象做进一步过滤,得出所述筛选条件对象的筛选结果,将所述筛选结果返回。
2.根据权利要求1所述的精确提取网页内容的方法,其特征在于,所述标签提取方法是以层次关键字从所述DOM结构树中提取指定类别及关键字的对象。
3.根据权利要求2所述的精确提取网页内容的方法,其特征在于,所述层次关键字为空格、大于号、加号和波浪号;所述空格表示在给定的祖先元素下匹配所有的后代元素,所述大于号表示在给定的父元素下匹配所有的子元素,所述加号表示匹配所有紧接在prev元素后的next元素,所述波浪号表示匹配prev元素之后的所有siblings元素。
4.根据权利要求1所述的精确提取网页内容的方法,其特征在于,所述解析成DOM结构树步骤还包括根据网页文档上所指定的<!DOCTYPE>声明对标签进行容错处理。
5.根据权利要求1所述的精确提取网页内容的方法,其特征在于,所述对所述筛选表达式的合法性分析是对所述筛选条件中的词法与语法错误进行检测,当出现错误时就抛出异常并终止操作。
6.一种精确提取网页内容的系统,其特征在于,包括预处理模块、表达式获取模块、表达式解析模块、语义分析模块;
所述预处理模块获取URL对应的网页文档,将其解析成DOM结构树;
所述表达式获取模块读取用户输入的筛选表达式;
所述表达式解析模块加载语法表对所述筛选表达式解析成由多个词汇组成的筛选表达式树,并根据所述语法表的嵌套定义遍历所述筛选表达式树将重复嵌套的父节点进行上位合并,重组成优化表达式树;
所述重组成优化表达式树通过以下步骤实现:
步骤1:构建堆栈变量STACK与结果列表LIST;
步骤2:将所述筛选表达式的节点压入栈;
步骤3:判断栈是否有数据,如果没有数据就跳转进入步骤7;
步骤4:读取栈顶的节点放入临时变量CUR;
步骤5:判断CUR的头部标识,当所述头部标识为所述语法表所定义的非冗余节点,将其添加到LIST中,重复第3步骤,当其为所述语法表所定义的冗余节点时,继续下一步骤;
步骤6:读取CUR当前节点下的所有节点按照从右到左出现的顺序依次压入栈,然后跳转到第3步骤继续下一个循环;
步骤7:将结果列表LIST返回;
所述语义分析模块将所述筛选表达式树分解出筛选条件集合,所述筛选条件集合由若干个筛选条件对象组成,每个筛选条件对象由一个标签提取方法和若干个标签筛选方法组成;所述标签提取方法从所述DOM结构树中提取所述筛选条件对象指定的对象,所述对象包括标签属性和标签样式中的至少一种,所述标签属性包括标签名和标签ID中的至少一种,所述标签筛选方法根据所述筛选条件对象附带的标签过滤方法对所述标签提取方法所提取的对象做进一步过滤,得出所述筛选条件对象的筛选结果,将所述筛选结果返回。
7.根据权利要求6所述的精确提取网页内容的系统,其特征在于,所述预处理模块还包括容错处理单元,用于根据网页文档上所指定的<!DOCTYPE>声明对DOM结构树中的标签进行容错处理。
8.根据权利要求7所述的精确提取网页内容的系统,其特征在于,所述表达式获取模块还包括表达式合法性分析单元,用于对所述筛选表达式中的词法与语法错误进行检测,当出现错误时就抛出异常并终止操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310143987.8A CN103226599B (zh) | 2013-04-23 | 2013-04-23 | 一种精确提取网页内容的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310143987.8A CN103226599B (zh) | 2013-04-23 | 2013-04-23 | 一种精确提取网页内容的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103226599A CN103226599A (zh) | 2013-07-31 |
CN103226599B true CN103226599B (zh) | 2018-09-28 |
Family
ID=48837044
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310143987.8A Active CN103226599B (zh) | 2013-04-23 | 2013-04-23 | 一种精确提取网页内容的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103226599B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106327039A (zh) * | 2015-06-25 | 2017-01-11 | 中兴通讯股份有限公司 | 周报信息处理方法及装置 |
CN105094363A (zh) * | 2015-07-06 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 表情符号的处理方法及装置 |
CN107220250A (zh) * | 2016-03-21 | 2017-09-29 | 北大方正集团有限公司 | 一种模板配置方法及系统 |
CN107807927B (zh) * | 2016-09-08 | 2022-04-29 | 阿里巴巴(中国)有限公司 | 基于下发规则的页面解析方法、装置、客户端设备及系统 |
CN107015839B (zh) * | 2016-09-27 | 2020-07-17 | 阿里巴巴集团控股有限公司 | 一种实现前端事件代理的方法及装置 |
CN108874394A (zh) * | 2018-04-17 | 2018-11-23 | 上海达野智能科技有限公司 | 机器人用户程序的解释方法及解释装置 |
CN109086361B (zh) * | 2018-07-20 | 2019-06-21 | 北京开普云信息科技有限公司 | 一种基于网页节点间互信息的网页文章信息自动抽取方法及系统 |
CN111221610B (zh) * | 2020-01-03 | 2023-07-04 | 建信金融科技有限责任公司 | 一种页面元素采集方法和装置 |
CN112069063B (zh) * | 2020-08-27 | 2022-08-12 | 苏州浪潮智能科技有限公司 | 一种dojo框架获取指定组件的标签ID方法及自动化测试方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101944094A (zh) * | 2009-07-06 | 2011-01-12 | 富士通株式会社 | 网页信息提取方法和装置 |
CN101984439A (zh) * | 2010-12-09 | 2011-03-09 | 上海市共进通信技术有限公司 | 基于子查询实现数据源xml查询系统优化的方法 |
CN102999511A (zh) * | 2011-09-13 | 2013-03-27 | 阿里巴巴集团控股有限公司 | 一种页面快速转换方法、装置和系统 |
CN103019925A (zh) * | 2011-09-26 | 2013-04-03 | 阿里巴巴集团控股有限公司 | 选择器获取方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100005053A1 (en) * | 2008-07-04 | 2010-01-07 | Estes Philip F | Method for enabling discrete back/forward actions within a dynamic web application |
-
2013
- 2013-04-23 CN CN201310143987.8A patent/CN103226599B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101944094A (zh) * | 2009-07-06 | 2011-01-12 | 富士通株式会社 | 网页信息提取方法和装置 |
CN101984439A (zh) * | 2010-12-09 | 2011-03-09 | 上海市共进通信技术有限公司 | 基于子查询实现数据源xml查询系统优化的方法 |
CN102999511A (zh) * | 2011-09-13 | 2013-03-27 | 阿里巴巴集团控股有限公司 | 一种页面快速转换方法、装置和系统 |
CN103019925A (zh) * | 2011-09-26 | 2013-04-03 | 阿里巴巴集团控股有限公司 | 选择器获取方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN103226599A (zh) | 2013-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103226599B (zh) | 一种精确提取网页内容的方法及系统 | |
CN105447099B (zh) | 日志结构化信息提取方法及装置 | |
CN102254014B (zh) | 一种网页特征自适应的信息抽取方法 | |
US8255394B2 (en) | Apparatus, system, and method for efficient content indexing of streaming XML document content | |
US7251777B1 (en) | Method and system for automated structuring of textual documents | |
US7069501B2 (en) | Structured document processing system and structured document processing method | |
CN1786965B (zh) | 一种新闻网页正文信息的提取方法 | |
US7941417B2 (en) | Processing structured electronic document streams using look-ahead automata | |
CN107577783A (zh) | 基于Web结构特征挖掘的网页类型自动识别方法 | |
CN101727498A (zh) | 一种基于web结构的网页信息自动提取方法 | |
CN103177120B (zh) | 一种基于索引的XPath查询模式树匹配方法 | |
CN103870506B (zh) | 一种网页信息的抽取方法和系统 | |
Azir et al. | Wrapper approaches for web data extraction: A review | |
CN109657114B (zh) | 一种抽取网页半结构化数据的方法 | |
CN104598536B (zh) | 一种分布式网络信息结构化处理方法 | |
CN102411602B (zh) | 一种基于 fpga 实现的xml 并行投机解析方法 | |
Raza et al. | Web data extraction using hybrid program synthesis: A combination of top-down and bottom-up inference | |
CN107943929A (zh) | 基于dom树抽象的包装器自动生成方法 | |
JP4086253B1 (ja) | Xml文書の処理方法および処理プログラム | |
CN113608903A (zh) | 一种基于xml语言的故障管理方法 | |
CN104573101B (zh) | 一种基于规则路由的数据流实时分类方法及系统 | |
Alpuente et al. | A visual technique for web pages comparison | |
CN109948015A (zh) | 一种元搜索列表结果抽取方法及系统 | |
Chavan et al. | A methodology for extracting head contents from meaningful tables in web pages | |
Mlynková | An analysis of approaches to xml schema inference |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |