CN101582074A - 一种DeepWeb响应页面数据抽取方法 - Google Patents

一种DeepWeb响应页面数据抽取方法 Download PDF

Info

Publication number
CN101582074A
CN101582074A CNA2009100102019A CN200910010201A CN101582074A CN 101582074 A CN101582074 A CN 101582074A CN A2009100102019 A CNA2009100102019 A CN A2009100102019A CN 200910010201 A CN200910010201 A CN 200910010201A CN 101582074 A CN101582074 A CN 101582074A
Authority
CN
China
Prior art keywords
node
token
piece
root
java
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2009100102019A
Other languages
English (en)
Other versions
CN101582074B (zh
Inventor
申德荣
于戈
孙高尚
聂铁铮
寇月
王振华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN2009100102019A priority Critical patent/CN101582074B/zh
Publication of CN101582074A publication Critical patent/CN101582074A/zh
Application granted granted Critical
Publication of CN101582074B publication Critical patent/CN101582074B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

一种DeepWeb响应页面数据抽取方法,属于深层网络数据管理领域,该方法包括以下步骤:(1)选取DeepWeb响应页面Page;在查询页面输入关键字Key,查询得到响应页面Page;(2)抽取页面模板信息;对于响应页面的DOM树结构,找到包含关键字的孩子结点个数Wn最多的双亲结点P,将带标记的token块序列转化为带标记的token字符序列;用LCS算法处理以上两个记录的带标记的token字符序列,分隔并过滤公共token字符序列得到模板信息;(3)数据抽取;(4)token块合并;(5)数据表格聚类;本发明的有益效果:采用本发明的数据抽取方法,适用性强,精度高,效率得到大大提高。

Description

一种DeepWeb响应页面数据抽取方法
技术领域
本发明属于深层网络数据管理领域,特别涉及一种DeepWeb响应页面数据抽取方法。
背景技术
随着Web的发展,Web上的信息呈爆炸式增长。Web按其所含信息的深度可分为SurfaceWeb和Deep Web(深层网络)两大部分。Surface Web是指可以通过超链接被传统的搜索引擎索引到的页面的集合;而Deep Web是指Web中不能被传统的搜索引擎索引到的那部分内容,只能通过在查询接口动态提交查询来访问Web中的内容。随着Deep Web数据源数量的增加,其重要性日趋突现。因为这些数据源中蕴含了大量的高质量的结构化信息。然而,这些数据源只能通过其查询接口访问,最终返回一系列包含大量半结构化信息的Web页面,因此如何自动而准确地抽取这些高质量的结构化数据给人们提出了挑战。近年来,较为典型的方法有RoadRunner、MDR、MDR II、ViNTs、ViPER等。
RoadRunner是一个包装器归纳系统,其方法是进一步发掘Html文档内在的特征,通过对比样本页面间的异同来生成抽取规则,并通过比较样本页面的标签结构来识别结构之间的不匹配。RoadRunner可以分析出模式中的可选属性和嵌套属性(可以在一条记录中重复出现多次属性),但其推导时间复杂性为指数级,抽取代价高。
MDR和MDRII都是基于DOM Tree结构特征,完成对多记录页面的抽取。它们实现的关键在于利用页面的嵌套结构和表现特征把查询结果从整个页面中分离出来,并精确地划分结果中的多个记录。MDR把标签树中节点的路径看作一个字符串,并使用字符串编辑距离从数据区中发现数据记录结点;MDRII是以树的结构信息代替标签字符串,可更准确地识别数据记录。该类方法适合于DOM结构简单的页面,对DOM Tree结构复杂、数据区内噪声节点过多的结果页面不适合,并且不支持嵌套结构的数据。
ViNTs和ViPER都是基于可视化特征的抽取方法。该类方法需要建立一个有效的可视化模型,模拟人眼对页面的识别过程。其识别效率低于直接分析页面文档的识别方法。当页面没有明显的视觉特征时,抽取精度会变得很低。
发明内容
针对已有DeepWeb响应页面数据抽取方法的不足,本发明提供了一种DeepWeb响应页面数据抽取方法。本发明采用的技术方案是,包括以下步骤:步骤(1)选取DeepWeb响应页面Page;在查询页面输入关键字Key,查询得到响应页面Page,响应页面Page是HTML语法描述的字符串数组,用DOM解析工具(采用HTML Parser)将HTML字符串转化为DOM树结构,DOM树中的结点定义:(N,Kn,Wn,Tn),其中N表示结点N,Kn表示结点N包含关键字的个数,Wn表示结点N中包含关键字的孩子结点的个数,Tn表示结点N的文本内容,则DOM树结构描述为:
DOM = { ( C ′ N , K C ′ N , W C ′ N , T C ′ N ) | ∀ N ∈ DOM , ( root , K root , W root , T root ) ∈ DOM }
其中,N为DOM树中的结点,CN i为结点N的第i个孩子结点;
步骤(2)抽取页面模板信息;对于响应页面的DOM树结构,找到包含关键字的孩子结点个数Wn最多的双亲结点P,保存该结点的绝对路径{i1,i2,...,in},绝对路径的起始结点为根结点root,则P结点可以表示为
P = C C C C root i 1 i 2 · · · i n
P结点所有的孩子结点子树即为记录结点子树集。保存该结点的绝对路径,绝对路径的起始结点为根结点root;将记录结点DOM结构转化为带标记的token块序列,统计记录token块序列中非空结点最小深度,记为lownum,再将带标记的token块序列转化为带标记的token字符序列;用LCS算法处理任意两个记录的带标记的token字符序列,得到一个公共token字符序列;分隔并过滤公共token字符序列得到模板信息;
首先找到包含关键字的孩子结点个数(即WN值)最多的双亲结点,保存该结点的绝对路径。绝对路径的起始结点为根结点root。若生成的绝对路径为:{2,8,3},则记录结点的双亲结点为
Figure A20091001020100053
1)记录结点DOM结构转化为带标记的token块序列,再将带标记的token块序列转化为带标记的token字符序列。带标记的token块序列结构为:{(字符串,结点深度,块序列)};带标记的token字符序列结构为:{(字符,结点深度,块序列,字符序列)}。
记录结点DOM结构转化为带标记的token块序列过程是:先根遍历记录结点,对每个结点作如下处理:①标记结点深度;②标记结点序列号(流水号,从1开始)。③统计记录token块序列中非空结点最小深度,记为lownum。
带标记的token块序列转换为带标记的token字符序列过程是:顺序读取每一token块序列,对每个token块作如下处理:①若token块的字串为空,将其删除,不做其它处理,否则按后面过程处理;②将每个token块分裂成字符token,每个字符都生成一个字符token③保留其结点深度,结点序列号,增加一个字符序列号(流水号,从1开始)。
2)应用LCS算法处理任意两个记录的带标记的token字符序列,得到一个公共token字符序列。
3)分隔并过滤公共token字符序列得到模板信息(锚文本)
对公共token字符序列做如下处理:①如果结点深度相同并且结点序列号相同并且字符序列号连续,进行合并,合并后的结点保留结点深度和结点序列号。②将不包含字符“:”的结点全部去掉,剩余的结点信息即为模板信息。
步骤(3)数据抽取;根据绝对路径取得记录结点的双亲结点P,P下的每个记录结点子树的根结点即为记录的根结点,先根遍历每个记录的根结点,读取文本结点的内容Tn,得到一个记录的文本内容,即得到记录级数据;基于模板信息对token块进行切割,得到新的token块序列,设A为待切割的token块,B为模板信息,U为模板信息中token块集合,若A切割必需满足:① ∃ B ( B ⊆ U ) 且②A的内容必需完全包含B的内容,并且A的token块深度等于B的token块深度;
1)获取记录级数据。根据绝对路径取得记录结点的双亲结点,该结点下的每个孩子结点即为记录的根结点,先根遍历每个记录的根结点,读取文本结点的内容,得到一个记录的文本内容,即得到记录级数据。
2)切割token块序列,基于模板信息对token块进行切割,得到新token块序列。设A为待切割token块,B为模板信息,U为模板信息中token块集合。若A切割必需满足:① ∃ B ( B ⊆ U ) 且②A的内容必需完全包含B的内容,并且A的token块深度等于B的token块深度。
如果A的内容完全包含B的内容,并且A的token块深度等于B的token块深度表示为:(A的部分内容(A1)_B的内容(B)_A的部分内空(A2),token块深度),则切割规则为:将(A1_B_A2,token块深度,块序号)切割为(A1,token块深度,块序号),(B_A2,token块深度,块序号)*两部分,“*”表示该结点被打上了模板信息标记B。
步骤(4)token块合并;依据统计值lownum继续对token块进行合并,合并规则为:(1)如果token块深度高于lownum,则将当前token块合并到下一token块中;(2)如果token块深度等于lownum时,并且下一token块深度大于lownum,则输出本token块内容;如果下一token块深度等于lownum,则当前token块合并到下一token块中;
步骤(5)数据表格聚类,得到数据块级别数据;将标有相同模板标记的token块放入数据表格的同一列,其它无标记的token块依据择近原则填入相应的位置。其中择近原则表示其它无标记的token块同块序列号最近的带标记的token块放在一起。将标有相同模板标记的token块放入数据表格的同一列,其它无标记的token块依据择近原则(距离已填入的token块的距离即块间隔)填入相应的位置。这个数据表格中的内容即是数据块级别数据,而打上标记的信息就是其模式信息。
本发明的有益效果:采用本发明的数据抽取方法,适用性强,精度高,效率得到大大提高。
附图说明
图1本发明的总体流程图;
图2本发明的抽取页面模板信息流程图;
图3本发明的数据抽取流程图。
具体实施方式
本发明的一个实施例,采用知名的当当图书网站http://book.dangdang.com/做为数据源,在当当图书网站的高级搜索中的书名框中填入java,点击搜索返回一个结果页面,将这个页面另存为java.html,则java.html为数据集。编码方式为gbk。
由于java.html内容太大,为了便于书写,特将其内容进行删减,只保存了前6条记录。java.html的原码如下:
<!DOCTYPE html PUBLIC″-//W3C//DTD XHTML 1.0 Transitional//EN″″http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd″>
<html xmlns=″http://www.w3.org/1999/xhtml″>
<head><meta http-equiv=″Content-Type″content=″text/html;charset=gb2312″/><title>当当图书搜索:java</title></head><body>
       <div class=″list_r_list″>
            <span                                          class=″list_r_list_book″><a                                 name=″link_prd_img″
href=′rd.asp?id=9317290&clsid=01.49.01.11|01.54.06.06|0154.26.00&key=java′         target=″_blank″><img      onload=′DrawImage(this);′
src=′http://img3.dangdang.com/images/9317290_m.jpg′alt=′Java编程思想(第4版)′/></a></span>
                 <h2><a           name=″link_prd_name″          href=′rd.asp?id=9317290&clsid=01.49.01.11|01.54.06.06|01.54.26.00&key=java′
target=″_blank″><font class=″skcolor_ljg″>Java</font>编程思想(第4版)</a></h2>
                 <h3>顾客评分:<img src=′images/star_red.gif′/><img src=′images/star_red.gif′/><img src=′images/star_red.gif′/><img
src=images/star_red.gif′/><img src=′images/star_red2.gif′/></h3>
               <h4 class=″list_r_list_h4″>作者:(美)<a href=′search.aspx?category=01&key2=%b0%a3%bf%cb%b6%fb′name=′作者′>埃克尔
</a>著,<a href=′search.aspx?category=01&key2=%b3%c2%ea%bb%c5%f4′name=′作者′>陈昊鹏</a>译</h4>
           <h4>出版社:<ahref=′search.aspx?category=01&key3=%bb%fa%d0%b5%b9%a4%d2%b5%b3%f6%b0%e6%c9%e7′name=′出版社
′>机械工业出版社</a></h4>
             <h4>出版时间:2007年06月</h4>
             <h5>本书赢得了全球程序员的广泛赞誉,即使是最晦涩的概念,在Bruce Eckel的文字亲和力和小而直接的编程示例面前也会
化解于无形。从<font class=″skcolor_lig″>Java</font>的基础语法到最高级特性(深入的面向对象概念、多线程、自动项目构建、单元...</h5>
           <div class=″clear″></div>
           <h6><span class=″del″>¥108.00</span><span class=″red″>¥81.00</span>折扣:75折节省:¥27.00</h6>
           <span class=″list_r_list_button″><a name=′link_sale′href=′javascript:AddToShoppingCart(9317290)′onclick=″return
s(′9317290′,′0l′,′java′,this href)″><img    src=′images/buttom_goumai.gif′    onmouseover=′this.src=″images/buttom_goumai_over.gif′″
onmouseout=′this.src=″images/buttom_goumai.gif′″onmousedown=′this.src=″images/buttom_goumai_click.gif′″title=′购买′/></a></span>
               <span                  class=″list_r_list_button″><a             name=″link_favorlist″                 id=″addto_favorlist_9317290″
href=″javascript:showMsgBox(′addto_favorlist_9317290′,′9317290′,′http://customer.dangdang.com/wishlist/remote_addtofavorlist.aspx′)″><img
src=″images/buttom_zancun.gif″onmouseover=′this.src=″images/buttom_zancun_over.gif′″onmouseout=′this.src=″images/buttom_zancun.gif′″
onmousedown=′this.src=″images/buttom_zancun_click.gif′″title=″放入暂存架″alt=″放入暂存架″/></a></span>
       </div>
       <div class=″clear″></div>
            <div class=″list_r_list″>
            <span         class=″list_r_list_book″><a    name=″link_prd_img″      href=′rd.asp?id=20285763&clsid=01.54.06.06&key=java′
target=″_blank″><img onload=′DrawImage(this);′src=′http://img3.dangdang.com/images/20285763_m.jpg′alt=′Java核心技术:卷I基础知识
′/></a></span>
              <h2><a     name=″link_prd_name″     href=′rd.asp?id=20285763&clsid=01.54.06.06&key=java′    target=″_blank″><font
class=″skcolor_ljg″>Java</font>核心技术:卷I基础知识</a></h2>
                <h3>顾客评分:<img src=′images/star_red.gif′/><img src=′images/star_red.gif′/><img src=′images/star_red.gif′/><img
src=′images/star_red.gif′/><img src=′images/star_red2.gif′/></h3>
                 <h4 class=″list_r_list_h4″>作者:(美)<a href=′search.aspx?category=01&key2=%ea%bb%cb%b9%cc%d8%c2%fc′name=′作者′>
昊斯特曼</a>著,<a href=′search.aspx?category=01&key2=%d2%b6%c4%cb%ce%c4′name=′作者′>叶乃文</a>,<a
href=′search.aspx?category=01&key2=%da%f7%be%a2%f3%de′name=′作者′>邝劲筠</a>,<a
href=′search.aspx?category=01&key2=%b6%c5%d3%c0%c6%bc′name=′作者′>杜永萍</a>译</h4>
                 <h4>出版社:<a href=′search.aspx?category=01&key3=%bb%fa%d0%b5%b9%a4%d2%b5%b3%f6%b0%e6%c9%e7′name=′出版社
′>机械工业出版社</a></h4>
             <h4>出版时间:2008年06月</h4>
             <h5>《<font class=″skcolor_ljg″>Java</font>核心技术》出版以来一直畅销不衰,深受读者青睐,每个新版本都尽可能快地跟
上<font class=″skcolor_ljg″>Java</font>开发工具箱发展的步伐,而且每一版都重新改写了部分内容,以便适应<font
class=″skcolor_ljg″>Java</font>的最新特性。本版也不例外,它反映了<font class=″skcolor_ljg″>Java</font>SE 6的...</h5>
                <div class=″clear″></div>
                <h6><span class=″del″>¥98.00</span><span class=″red″>¥7350</span>折扣:75折节省:¥24.50</h6>
                <span     class=″list_r_list_button″><a     name=′link_sale′    href=′javascript:AddToShoppingCart(20285763)′    onclick=″return
s(′20285763′,′01′,′java′,this.href)″><img       src=′images/buttom_goumai.gif′        onmouseover=′this.src=″images/buttom_goumai_over.gif′″
onmouseout=′this.src=″images/buttom_goumai.gif′″onmousedown=′this.src=″images/buttom_goumai_click.gif′″title=′购买′/></a></span>
               <span             class=″list_r_list_button″><a                name=″link_favorlist″               id=″addto_favorlist_20285763″
href=″javascript:showMsgBox(′addto_favorlist_20285763′,′20285763′,′http://customer.dangdang.com/wishlist/remote_addtofavorlist.aspx′)″><img
src=″images/buttom_zancun.gif″onmouseover=′this.src=″images/buttom_zancun_over.gif′″onmouseout=′this.src=″images/buttom_zancun.gif′″
onmousedown=′this.src=″images/buttom_zancun_click.gif′″title=″放入暂存架″alt=″放入暂存架″/></a></span>
        </div>
        <div class=″clear″></div>
        <div class=″list_r_list″>
             <span      class=″list_r_list_book″><a      name=″link_prd_img″        href=′rd.asp?id=8889911&clsid=01.54.06.06&key=java′
target=″_blank″><img onload=′DrawImage(this);′src=′http://img3.dangdang.com/images/8889911_m.jpg′alt=′精通Struts:基于MVC的Java Web
设计与开发(附光盘)′/></a></span>
           <h2><a name=″link_prd_name″href=′rd.asp?id=8889911&clsid=01.54.06.06&key=java′target=″_blank″>精通Struts:基于MVC的
<font class=″skcolor_ljg″>Java</font>Web设计与开发(附光盘)</a></h2>
                <h3>顾客评分:<img src=′images/star_red.gif′/><img src=′images/star_red.gif′/><img src=′images/star_red.gif′/><img
src=′images/star_red.gif′/><img src=′images/star_red2.gif′/></h3>
             <h4  class=″list_r_list_h4″>作者:<a href=′search.aspx?category=01&key2=%cb%ef%ce%c0%c7%d9′name=′作者′>孙卫琴</a>
编著</h4>
             <h4>出版社:<a href=′search.aspx?category=01&key3=%b5%e7%d7%d3%b9%a4%d2%b5%b3%f6%b0%e6%c9%e7′name=′出版社
′>电子工业出版社</a></h4>
             <h4>出版时间:2004年08月</h4>
             <h5>Struts是目前非常流行的基于MVC的<font class=″skcolor_ljg″>Java</font>Web框架。本书详细介绍了在最新的Struts1.1
以及不久将推出的Struts1.2版本上设计和开发<font class=″skcolor_ljg″>Java</font>Web应用的各种技术。本书第1章到第3章为入门篇,
通过两个Struts应用实例,引...</h5>
             <div class=″clear″></div>
             <h6><span class=″del″>¥49.00</span><span class=″red″>¥36.80</span>折扣:75折节省:¥12.20</h6>
             <span    class=″list_r_list_button″><a    name=′link_sale′    href=′javascript:AddToShoppingCart(8889911)′    onclick=″return
s(′8889911′,′01′,′java′,this.href)″><img       src=′images/buttom_goumai.gif′      onmouseover=′this.src=″images/buttom_goumai_over.gif′″
onmouseout=′this.src=″images/buttom_goumai.gif′″onmousedown=′this.src=″images/buttom_goumai_click.gif′″title=′购买′/></a></span>
               <span              class=″list_r_list_button″><a           name=″link favorlist″             id=″addto_favorlist_8889911″
href=″javascript:showMsgBox(′addto_favorlist_8889911′,′8889911′,′http://customer.dangdang.com/wishlist/remote_addtofavorlist.aspx′)″><img
src=″images/buttom_zancun.gif″onmouseover=′this.src=″images/buttom_zancun_over.gif′″onmouseout=′this.src=″images/buttom_zancun.gif′″
onmousedown=′this.src=″images/buttom_zancum_click.gif′″title=″放入暂存架″alt=″放入暂存架″/></a></span>
        </div>
        <div class=″clear″></div>
        <div class=″list_r_list″>
             <span class=″list_r_list_book″><a name=″link_prd_img″href=′rd.asp?id=9186890&clsid=01.54.06.06&key=java′
target=″_blank″><img onload=′DrawImage(this);′src=′http://img3.dangdang.com/images/9186890_m.jpg′alt=′JAVA面向对象编程′/></a></span>
                <h2><a      name=″link_prd_name″       href=′rd.asp?id=9186890&clsid=01.54.06.06&key=java′     target=″_blank″><font
class=″skcolor_ljg″>JAVA</font>面向对象编程</a></h2>
                <h3>顾客评分:<img src=′images/star_red.gif′/><img src=′images/star_red.gif′/><img src=′images/star_red.gif′/><img
src=′images/star_red.gif′/><img src=′images/star_red2.gif′/></h3>
                 <h4 class=″list_r_list_h4″>作者:<a href=′search.aspx?category=01&key2=%cb%ef%ce%c0%c7%d9′name=′作者′>孙卫琴</a>
编著</h4>
                 <h4>出版社:<a href=′search.aspx?category=01&key3=%b5%e7%d7%d3%b9%a4%d2%b5%b3%f6%b0%e6%c9%e7′name=′出版社
′>电子工业出版社</a></h4>
             <h4>出版时间:2006年07月</h4>
             <h5>本书内容由浅入深,紧密结合实际,利用大量典型实例,详细讲解<font class=″skcolor_ljg″>Java</font>面向对象的编程
思想、编程语法和设计模式,介绍常见<font class=″skcolor_lig″>Java</font>类库的用法,总结优化<font class=″skcolor_lig″>Java</font>编程
的各种宝贵经验,深入阐述<font class=″skcolor_ljg″>Java</font>虚拟机执行<font class=″skcolor_ljg″>Java</font>程序的原理...</h5>
            <div class=″clear″></div>
            <h6><span class=″del″>¥65.80</span><span class=″red″>¥49.35</span>折扣:75折节省:¥16.45</h6>
            <span    class=″list_r_list_button″><a    name=′link_sale′    href=′javascript:AddToShoppingCart(9186890)′    onclick=″return
s(′9186890′,′01′,′java′,this.href)″><img       src=′images/buttom_goumai.gif′      onmouseover=′this.src=″images/buttom_goumai_over.gif′″
onmouseout=′this.src=″images/buttom_goumai.gif′″onmousedown=′this.src=″images/buttom_goumai_click.gif′″title=′购买′/></a></span>
               <span         class=″list_r_list_button″><a             name=″link_favorlist″              id=″addto_favorlist_9186890″
href=″javascript:showMsgBox(′addto_favorlist_9186890′,′9186890′,′http://customer.dangdang.com/wishlist/remote_addtofavorlist.aspx′)″><img
src=″images/buttom_zancun.gig″onmouseover=′this.src=″images/buttom_zancun_over.gif′″onmouseout=′this.src=″images/buttom_zancun.gif′″
onmousedown=′this.src=″images/buttom_zancun_click.gif′″title=″放入暂存架″alt=″放入暂存架″/></a></span>
        </div>
        <div class=″clear″></div>
        <div class=″list_r_list″>
             <span    class=″list_r_list_book″><a    name=″link_prd_img″    href=′rd.asp?id=20007297&clsid=01.54.06.06&key=java′
target=″_blank″><img onload=′DrawImage(this);′src=′http://img3.dangdang.com/images/20007297_m.jpg′alt=′Java程序员面试宝典′/></a></span>
                <h2><a        name=″link_prd_name″       href=′rd.asp?id=20007297&clsid=01.54.06.06&key=java′      target=″_blank″><font
class=″skcolor_ljg″>Java</font>程序员面试宝典</a></h2>
                <h3>顾客评分:<img src=′images/star_red.gif′/><img src=′images/star_red.gif′/><img src=′images/star_red.gif′/><img
src=′images/star_red.gif′/><img src=′images/star_gray.gif′/></h3>
                 <h4 class=″list_r_list_h4″>作者:<a href=′search.aspx?category=01&key2=%c5%b7%c1%a2%c6%e6′name=′作者′>欧立奇</a>,
<a href=′search.aspx?category=01&key2=%d6%ec%c3%b7′name=′作者′>朱梅</a>,<a href=′search.aspx?category=01&key2=%b6%ce%e8%ba′
name=′作者′>段韬</a>编著</h4>
                <h4>出版社:<a href=′search.aspx?category=01&key3=%b5%e7%d7%d3%b9%a4%d2%b5%b3%f6%b0%e6%c9%e7′name=′出版社
′>电子工业出版社</a></h4>
             <h4>出版时间:2007年08月</h4>
             <h5>本书是程序员面试宝典系列中的一部,也是上一本《程序员面试宝典》的姊妹丛书。本书对程序设计面试中<font
class=″skcolor_ljg″>Java</font>常见的题型和常用解答技巧进行了介绍,它不仅能帮助求职者快速复习有相关知识点,也对现代职业人如何
有...</h5>
                <div class=″clear″></div>
                <h6><span class=″del″>¥46.00</span><span class=″red″>¥34.50</span>折扣:75折节省:¥11.50</h6>
                <span    class=″list_r_list_button″><a    name=′link_sale′   href=′javascript:AddToShoppingCart(20007297)′   onclick=″return
s(′20007297′,′01′,′java′,this.href)″><img        src=′images/buttom_goumai.gif′       onmouseover=′this.src=″images/buttom_goumai_over.gif′″
onmouseout=′this.src=″images/buttom_goumai.gif′″onmousedown=′this.src=″images/buttom_goumai_click.gif′″title=′购买′/></a></span>
               <span              class=″list_r_list_button″><a            name=″link_favorlist″            id=″addto_favorlist_20007297″
href=″javascript:showMsgBox(′addto_favorlist_20007297′,′20007297′,′http://customer.dangdang.com/wishlist/remote_addtofavorlist.aspx′)″><img
src=″images/buttom_zancun.gig″onmouseover=′this.src=″images/buttom_zancun_over.gif′″onmouseout=′this.src=″images/buttom_zancun.gif′″
onmousedown=′this.src=″images/buttom_zancun_click.gif′″title=″放入暂存架″alt=″放入暂存架″/></a></span>
        </div>
        <div class=″clear″></div>
        <div class=″list_r_list″>
             <span      class=″list_r_list_book″><a      name=″link_prd_img″      href=′rd.asp?id=9155128&clsid=01.54.06.06&key=java′
target=″_blank″><img onload=′DrawImage(this);′src=′http://img3.dangdang.com/images/9155128_m.jpg′alt=′JAVA2核心技术,卷II:高级特性(原
书第7版)′/></a></span>
            <h2><a     name=″link_prd_name″       href=′rd.asp?id=9155128&clsid=01.54.06.06&key=java′      target=″_blank″><font
class=″skcolor_ljg″>JAVA</font>2核心技术,卷II:高级特性(原书第7版)</a></h2>
        <h3>顾客评分:<img src=′images/star_red.gif′/><img src=′images/star_red.gif′/><img src=′images/star_red.gif′/><img
src=′images/star_red.gif′/><img src=′images/star_red2.gif′/></h3>
                  <h4 class=″list_r_list_h4″>作者:(美)<a href=′search.aspx?category=01&key2=%bb%f4%cb%b9%cc%d8%c2%fc′name=′作者′>
霍斯特曼</a>(<a href=′search.aspx?category=01&key2=Horstmann′name=′作者′>Horstmann</a>,<a href=′search.aspx?category=01&key2=C.S′
name=′作者′>C.S</a>.),(美)<a href=′search.aspx?category=01&key2=%bf%c6%c4%ce%b6%fb′name=′作者′>科奈尔</a>(<a
href=′search.aspx?category=01&key2=Cornell′name=′作者′>Cornell</a>,G.)著;<a
href=′search.aspx?category=01&key2=%b3%c2%ea%bb%c5%f4′name=′作者′>陈昊鹏</a>等译</h4>
                 <h4>出版社:<ahref=′search.aspx?category=01&key3=%bb%fa%d0%b5%b9%a4%d2%b5%b3%f6%b0%e6%c9%e7′name=′出版社
′>机械工业出版社</a></h4>
             <h4>出版时间:2006年03月</h4>
             <h5>本书是<font class=″skcolor_ljg″>Java</font>2技术权威指南,全面覆盖<font class=″skcolor_ljg″>Java</font>2技术的高级
主题,包括:多线程、集合框架、网络API、数据库编程、分布式对象等,深入探究了Swing、<font class=″skcolor_ljg″>Java</font>2D API、
<font class=″skcolor_ljg″>Java</font>ean、<font class=″skcolor_ljg″>Java</font>安全模式、XML、注释、元数据等主题,...</h5>
                <div class=″clear″></div>
                <h6><span class=″del″>¥108.00</span><span class=″red″>¥81.00</span>折扣:75折节省:¥27.00</h6>
                <span    class=″list_r_list_button″><a    name=′link_sale′    href=′javascript:AddToShoppingCart(9155128)′    onclick=″return
s(′9155128′,′01′,′java′,this.href)″><img          src=′images/buttom_goumai.gif′          onmouseover=′this.src=″images/buttom_goumai_over.gif′″
onmouseout=′this.src=″images/buttom_goumai.gif′″onmousedown=′this.src=″images/buttom_goumai_click.gif′″title=′购买′/></a></span>
               <span               class=″list_r_list_button″><a                 name=″link_favorlist″id=″addto_favorlist_9155128″
href=″javascript:showMsgBox(′addto_favorlist_9155128′,′9155128′,′http://customer.dangdang.com/wishlist/remote_addtofavorlist.aspx′)″><img
src=″images/buttom_zancun.gif″onmouseover=′this.src=″images/buttom_zancun_over.gif″onmouseout=′this.src=″images/buttom_zancun.gif′″
onmousedown=′this.src=″images/buttom_zancun_click.gif′″title=″放入暂存架″alt=″放入暂存架″/></a></span>
        </div>
        <div class=″clear″></div>
</body>
</html>
实施例的过程如下:
(1)定位记录,获得绝对位置。可以得到记录结点的绝对路径为:{2}。
注: C root 2 = < body > , 结点body下的所有孩子结点都是记录结点子树。
(2)抽取模板信息。
①任取两个记录子树(第1条和第3条)转换为带标记的两个token块序列。
token块序列1:{(″″,1,1),(″″,1,2),(″Java″,4,3),(″编程思想(第4版)″,3,4),(″″,2,5),(″″,1,6),(″顾客评分:″,2,7),(″″,1,8),(″作者:(美)″,2,9),(″埃克尔″,3,10),(″著,″,2,11),(″陈昊鹏″,3,12),(″译″,2,13),(″″,1,14),(″出版社:″,2,15),(″机械工业出版社″,3,16),(″″,1,17),(″出版时间:2007年06月″,2,18),(″″,1,19),(″本书赢得了全球程序员的广泛赞誉,即使是最晦涩的概念,在Bruce Eckel的文字亲和力和小而直接的编程示例面前也会化解于无形。从″,2,20),(″Java″,3,21),(″的基础语法到最高级特性(深入的面向对象概念、多线程、自动项目构建、单元...″,2,22),(″″,1,23),(″″,1,24),(″¥108.00″,3,25),(″″,2,26),(″¥81.00″,3,27),(″折扣:75折节省:¥27.00″,2,28),(″″,1,29),(″″,1,30),(″″,1,31)}
token块序列2:{(″″,1,1),(″″,1,2),(″精通Struts:基于MVC的″,3,3),(″Java″,4,4),(″Web设计与开发(附光盘)″,3,5),(″″,2,6),(″″,1,7),(″顾客评分:″,2,8),(″″,1,9),(″作者:″,2,10),(″孙卫琴″,3,11),(″著″,2,12),(″″,1,13),(″出版社:″,2,14),(″电子工业出版社″,3,15),(″″,1,16),(″出版时间:2004年08月″,2,17),(″″,1,18),(″Struts是目前非常流行的基于MVC的″,2,19),(″Java″,3,20),(″Web框架。本书详细介绍了在最新的Struts1.1以及不久将推出的Struts1.2版本上设计和开发″,2,21),(″Java″,3,22),(″Web应用的各种技术。本书第1章到第3章为入门篇,通过两个Struts应用实例,引...″,2,23),(″″,1,24),(″″,1,25),(″¥49.00″,3,26),(″″,2,27),(″¥36.80″,3,28),(″折扣:75折节省:¥12.20″,2,29),(″″,1,30),(″″,1,31),(″″,1,32)}
②获得统计值lownumber:lownumber=2
③将带标记的两个token块序列转换成带标记的token字符序列。
token字符序列1:{(″J″,4,3,1),(″a″,4,3,2),(″v″,4,3,3),(″a″,4,3,4),(″编″,3,4,5),(″程″,3,4,6),(″思″,3,4,7),(″想″,3,4,8),(″(″,3,4,9),(″第″,3,4,10),(″4″,3,4,11),(″版″,3,4,12),(″)″,3,4,13),(″顾″,2,7,14),(″客″,2,7,15),(″评″,2,7,16),(″分″,2,7,17),(″:″,2,7,18),(″作″,2,9,19),(″″,2,9,20),(″者″,2,9,21),(″:″,2,9,22),(″(″,2,9,23),(″美″,2,9,24),(″)″,2,9,25),(″埃″,3,10,26),(″克″,3,10,27),(″尔″,3,10,28),(″著″,2,11,29),(″,″,2,11,30),(″陈″,3,12,31),(″昊″,3,12,32),(″鹏″,3,12,33),(″译″,2,13,34),(″出″,2,15,35),(″版″,2,15,36),(″社″,2,15,37),(″:″,2,15,38),(″机″,3,16,39),(″械″,3,16,40),(″工″,3,16,41),(″业″,3,16,42),(″出″,3,16,43),(″版″,3,16,44),(″社″,3,16,45),(″出″,2,18,46),(″版″,2,18,47),(″时″,2,18,48),(″间″,2,18,49),(″:″,2,18,50),(″2″,2,18,51),(″0″,2,18,52),(″0″,2,18,53),(″7″,2,18,54),(″年″,2,18,55),(″0″,2,18,56),(″6″,2,18,57),(″月″,2,18,58),(″本″,2,20,59),(″书″,2,20,60),(″赢″,2,20,61),(″得″,2,20,62),(″了″,2,20,63),(″全″,2,20,64),(″球″,2,20,65),(″程″,2,20,66),(″序″,2,20,67),(″员″,2,20,68),(″的″,2,20,69),(″广″,2,20,70),(″泛″,2,20,71),(″赞″,2,20,72),(″誉″,2,20,73),(″,″,2,20,74),(″即″,2,20,75),(″使″,2,20,76),(″是″,2,20,77),(″最″,2,20,78),(″晦″,2,20,79),(″涩″,2,20,80),(″的″,2,20,81),(″概″,2,20,82),(″念″,2,20,83),(″,″,2,20,84),(″在″,2,20,85),(″B″,2,20,86),(″r″,2,20,87),(″u″,2,20,88),(″c″,2,20,89),(″e″,2,20,90),(″″,2,20,91),(″E″,2,20,92),(″c″,2,20,93),(″k″,2,20,94),(″e″,2,20,95),(″l″,2,20,96),(″的″,2,20,97),(″文″,2,20,98),(″字″,2,20,99),(″亲″,2,20,100),(″和″,2,20,101),(″力″,2,20,102),(″和″,2,20,103),(″小″,2,20,104),(″而″,2,20,105),(″直″,2,20,106),(″接″,2,20,107),(″的″,2,20,108),(″编″,2,20,109),(″程″,2,20,110),(″示″,2,20,111),(″例″,2,20,112),(″面″,2,20,113),(″前″,2,20,114),(″也″,2,20,115),(″会″,2,20,116),(″化″,2,20,117),(″解″,2,20,118),(″于″,2,20,119),(″无″,2,20,120),(″形″,2,20,121),(″。″,2,20,122),(″从″,2,20,123),(″J″,3,21,124),(″a″,3,21,125),(″v″,3,21,126),(″a″,3,21,127),(″的″,2,22,128),(″基″,2,22,129),(″础″,2,22,130),(″语″,2,22,131),(″法″,2,22,132),(″到″,2,22,133),(″最″,2,22,134),(″高″,2,22,135),(″级″,2,22,136),(″特″,2,22,137),(″性″,2,22,138),(″(″,2,22,139),(″深″,2,22,140),(″入″,2,22,141),(″的″,2,22,142),(″面″,2,22,143),(″向″,2,22,144),(″对″,2,22,145),(″象″,2,22,146),(″概″,2,22,147),(″念″,2,22,148),(″、″,2,22,149),(″多″,2,22,150),(″线″,2,22,151),(″程″,2,22,152),(″、″,2,22,153),(″自″,2,22,154),(″动″,2,22,155),(″项″,2,22,156),(″目″,2,22,157),(″构″,2,22,158),(″建″,2,22,159),(″、″,2,22,160),(″单″,2,22,161),(″元″,2,22,162),(″.″,2,22,163),(″.″,2,22,164),(″.″,2,22,165),(″¥″,3,25,166),(″1″,3,25,167),(″0″,3,25,168),(″8″,3,25,169),(″.″,3,25,170),(″0″,3,25,171),(″0″,3,25,172),(″¥″,3,27,173),(″8″,3,27,174),(″1″,3,27,175),(″.″,3,27,176),(″0″,3,27,177),(″0″,3,27,178),(″折″,2,28,179),(″扣″,2,28,180),(″:″,2,28,181),(″7″,2,28,182),(″5″,2,28,183),(″折″,2,28,184),(″″,2,28,185),(″节″,2,28,186),(″省″,2,28,187),(″:″,2,28,188),(″¥″,2,28,189),(″2″,2,28,190),(″7″,2,28,191),(″.″,2,28,192),(″0″,2,28,193),(″0″,2,28,194)}
token字符序列2:{(″精″,3,3,1),(″通″,3,3,2),(″S″,3,3,3),(″t″,3,3,4),(″r″,3,3,5),(″u″,3,3,6),(″t″,3,3,7),(″s″,3,3,8),(″:″,3,3,9),(″基″,3,3,10),(″于″,3,3,11),(″M″,3,3,12),(″V″,3,3,13),(″C″,3,3,14),(″的″,3,3,15),(″J″,4,4,16),(″a″,4,4,17),(″v″,4,4,18),(″a″,4,4,19),(″W″,3,5,20),(″e″,3,5,21),(″b″,3,5,22),(″设″,3,5,23),(″计″,3,5,24),(″与″,3,5,25),(″开″,3,5,26),(″发″,3,5,27),(″(″,3,5,28),(″附″,3,5,29),(″光″,3,5,30),(″盘″,3,5,31),(″)″,3,5,32),(″顾″,2,8,33),(″客″,2,8,34),(″评″,2,8,35),(″分″,2,8,36),(″:″,2,8,37),(″作″,2,10,38),(″″,2,10,39),(″者″,2,10,40),(″:″,2,10,41),(″孙″,3,11,42),(″卫″,3,11,43),(″琴″,3,11,44),(″编″,2,12,45),(″著″,2,12,46),(″出″,2,14,47),(″版″,2,14,48),(″社″,2,14,49),(″:″,2,14,50),(″电″,3,15,51),(″子″,3,15,52),(″工″,3,15,53),(″业″,3,15,54),(″出″,3,15,55),(″版″,3,15,56),(″社″,3,15,57),(″出″,2,17,58),(″版″,2,17,59),(″时″,2,17,60),(″间″,2,17,61),(″:″,2,17,62),(″2″,2,17,63),(″0″,2,17,64),(″0″,2,17,65),(″4″,2,17,66),(″年″,2,17,67),(″0″,2,17,68),(″8″,2,17,69),(″月″,2,17,70),(″S″,2,19,71),(″t″,2,19,72),(″r″,2,19,73),(″u″,2,19,74),(″t″,2,19,75),(″s″,2,19,76),(″是″,2,19,77),(″目″,2,19,78),(″前″,2,19,79),(″非″,2,19,80),(″常″,2,19,81),(″流″,2,19,82),(″行″,2,19,83),(″的″,2,19,84),(″基″,2,19,85),(″于″,2,19,86),(″M″,2,19,87),(″V″,2,19,88),(″C″,2,19,89),(″的″,2,19,90),(″J″,3,20,91),(″a″,3,20,92),(″v″,3,20,93),(″a″,3,20,94),(″W″,2,21,95),(″e″,2,21,96),(″b″,2,21,97),(″框″,2,21,98),(″架″,2,21,99),(″。″,2,21,100),(″本″,2,21,101),(″书″,2,21,102),(″详″,2,21,103),(″细″,2,21,104),(″介″,2,21,105),(″绍″,2,21,106),(″了″,2,21,107),(″在″,2,21,108),(″最″,2,21,109),(″新″,2,21,110),(″的″,2,21,111),(″S″,2,21,112),(″t″,2,21,113),(″r″,2,21,114),(″u″,2,21,115),(″t″,2,21,116),(″s″,2,21,117),(″1″,2,21,118),(″.″,2,21,119),(″1″,2,21,120),(″以″,2,21,121),(″及″,2,21,122),(″不″,2,21,123),(″久″,2,21,124),(″将″,2,21,125),(″推″,2,21,126),(″出″,2,21,127),(″的″,2,21,128),(″S″,2,21,129),(″t″,2,21,130),(″r″,2,21,131),(″u″,2,21,132),(″t″,2,21,133),(″s″,2,21,134),(″1″,2,21,135),(″.″,2,21,136),(″2″,2,21,137),(″版″,2,21,138),(″本″,2,21,139),(″上″,2,21,140),(″设″,2,21,141),(″计″,2,21,142),(″和″,2,21,143),(″开″,2,21,144),(″发″,2,21,145),(″J″,3,22,146),(″a″,3,22,147),(″v″,3,22,148),(″a″,3,22,149),(″W″,2,23,150),(″e″,2,23,151),(″b″,2,23,152),(″应″,2,23,153),(″用″,2,23,154),(″的″,2,23,155),(″各″,2,23,156),(″种″,2,23,157),(″技″,2,23,158),(″术″,2,23,159),(″。″,2,23,160),(″本″,2,23,161),(″书″,2,23,162),(″第″,2,23,163),(″1″,2,23,164),(″章″,2,23,165),(″到″,2,23,166),(″第″,2,23,167),(″3″,2,23,168),(″章″,2,23,169),(″为″,2,23,170),(″入″,2,23,171),(″门″,2,23,172),(″篇″,2,23,173),(″,″,2,23,174),(″通″,2,23,175),(″过″,2,23,176),(″两″,2,23,177),(″个″,2,23,178),(″S″,2,23,179),(″t″,2,23,180),(″r″,2,23,181),(″u″,2,23,182),(″t″,2,23,183),(″s″,2,23,184),(″应″,2,23,185),(″用″,2,23,186),(″实″,2,23,187),(″例″,2,23,188),(″,″,2,23,189),(″引″,2,23,190),(″.″,2,23,191),(″.″,2,23,192),(″.″,2,23,193),(″¥″,3,26,194),(″4″,3,26,195),(″9″,3,26,196),(″.″,3,26,197),(″0″,3,26,198),(″0″,3,26,199),(″¥″,3,28,200),(″3″,3,28,201),(″6″,3,28,202),(″.″,3,28,203),(″8″,3,28,204),(″0″,3,28,205),(″折″,2,29,206),(″扣″,2,29,207),(″:″,2,29,208),(″7″,2,29,209),(″5″,2,29,210),(″折″,2,29,211),(″″,2,29,212),(″节″,2,29,213),(″省″,2,29,214),(″:″,2,29,215),(″¥″,2,29,216),(″1″,2,29,217),(″2″,2,29,218),(″.″,2,29,219),(″2″,2,29,220),(″0″,2,29,221)}
④LCS算法得到最大不连续公共串:{(″J″,4,3,1),(″a″,4,3,2),(″v″,4,3,3),(″a″,4,3,4),(″(″,3,4,5),(″)″,3,4,6),(″顾″,2,7,7),(″客″,2,7,8),(″评″,2,7,9),(″分″,2,7,10),(″:″,2,7,11),(″作″,2,9,12),(″″,2,9,13),(″者″,2,9,14),(″:″,2,9,15),(″著″,2,11,16),(″出″,2,15,17),(″版″,2,15,18),(″社″,2,15,19),(″:″,2,15,20),(″工″,3,16,21),(″业″,3,16,22),(″出″,3,16,23),(″版″,3,16,24),(″社″,3,16,25),(″出″,2,18,26),(″版″,2,18,27),(″时″,2,18,28),(″间″,2,18,29),(″:″,2,18,30),(″2″,2,18,31),(″0″,2,18,32),(″0″,2,18,33),(″年″,2,18,34),(″0″,2,18,35),(″月″,2,18,36),(″本″,2,20,37),(″书″,2,20,38),(″了″,2,20,39),(″最″,2,20,40),(″的″,2,20,41),(″r″,2,20,42),(″u″,2,20,43),(″的″,2,20,44),(″和″,2,20,45),(″J″,3,21,46),(″a″,3,21,47),(″v″,3,21,48),(″a″,3,21,49),(″的″,2,22,50),(″到″,2,22,51),(″入″,2,22,52),(″.″,2,22,53),(″.″,2,22,54),(″.″,2,22,55),(″¥″,3,25,56),(″.″,3,25,57),(″0″,3,25,58),(″0″,3,25,59),(″¥″,3,27,60),(″8″,3,27,61),(″0″,3,27,62),(″折″,2,28,63),(″扣″,2,28,64),(″:″,2,28,65),(″7″,2,28,66),(″5″,2,28,67),(″折″,2,28,68),(″″,2,28,69),(″节″,2,28,70),(″省″,2,28,71),(″:″,2,28,72),(″¥″,2,28,73),(″2″,2,28,74),(″.″,2,28,75),(″0″,2,28,76)}
⑤分隔过滤公共串得到模板信息:
templaeWord:Text->顾客评分:^nodeDepth->2^nodeBlockNumber->3
templaeWord:Text->作者:^nodeDepth->2^nodeBlockNumber->4
templaeWord:Text->出版社:^nodeDepth->2^nodeBlockNumber->9
templaeWord:Text->出版时间:^nodeDepth->2^nodeBlockNumber->11
templaeWord:Text->折扣:^nodeDepth->2^nodeBlockNumber->17
templaeWord:Text->节省:^nodeDepth->2^nodeBlockNumber->17
(4)抽取网页信息
①抽取记录级的数据:
Java编程思想(第4版)顾客评分:作者:(美)埃克尔著,陈昊鹏译出版社:机械工业出版社出版时间:2007年06月本书赢得了全球程序员的广泛赞誉,即使是最晦涩的概念,在Bruce Eckel的文字亲和力和小而直接的编程示例面前也会化解于无形。从Java的基础语法到最高级特性(深入的面向对象概念、多线程、自动项目构建、单元...¥108.00¥81.00折扣:75折节省:¥27.00
Java核心技术:卷I基础知识顾客评分:作者:(美)昊斯特曼著,叶乃文,邝劲筠,杜永萍译出版社:机械工业出版社出版时间:2008年06月《Java核心技术》出版以来一直畅销不衰,深受读者青睐,每个新版本都尽可能快地跟上Java开发工具箱发展的步伐,而且每一版都重新改写了部分内容,以便适应Java的最新特性。本版也不例外,它反映了JavaSE6的...¥98.00¥73.50折扣:75折节省:¥24.50
精通Struts:基于MVC的Java Web设计与开发(附光盘)顾客评分:作者:孙卫琴编著出版社:电子工业出版社出版时间:2004年08月Struts是目前非常流行的基于MVC的JavaWeb框架。本书详细介绍了在最新的Struts1.1以及不久将推出的Struts1.2版本上设计和开发Java Web应用的各种技术。本书第1章到第3章为入门篇,通过两个Struts应用实例,引...¥49.00¥36.80折扣:75折节省:¥12.20
JAVA面向对象编程顾客评分:作者:孙卫琴编著出版社:电子工业出版社出版时间:2006年07月本书内容由浅入深,紧密结合实际,利用大量典型实例,详细讲解Java面向对象的编程思想、编程语法和设计模式,介绍常见Java类库的用法,总结优化Java编程的各种宝贵经验,深入阐述Java虚拟机执行Java程序的原理...¥65.80¥49.35折扣:75折节省:¥16.45
Java程序员面试宝典顾客评分:作者:欧立奇,朱梅,段韬编著出版社:电子工业出版社出版时间:2007年08月本书是程序员面试宝典系列中的一部,也是上一本《程序员面试宝典》的姊妹丛书。本书对程序设计面试中Java常见的题型和常用解答技巧进行了介绍,它不仅能帮助求职者快速复习有相关知识点,也对现代职业人如何有...¥46.00¥34.50折扣:75折节省:¥11.50
JAVA2核心技术,卷II:高级特性(原书第7版)顾客评分:作者:(美)霍斯特曼(Horstmann,C.S.),(美)科奈尔(Cornell,G.)著;陈昊鹏等译出版社:机械工业出版社出版时间:2006年03月本书是Java 2技术权威指南,全面覆盖Java 2技术的高级主题,包括:多线程、集合框架、网络API、数据库编程、分布式对象等,深入探究了Swing、Java 2D API、Javaean、Java安全模式、XML、注释、元数据等主题,...¥108.00¥81.00折扣:75折节省:¥27.00
②标记模式后的结点信息:
##
#scheme:null#  value:Java编程思想(第4版)  $$测试位置:3
#schema:顾客评分:#  value:  $$测试位置:7
#schema:作者:#  value:(美)埃克尔著,陈昊鹏译  $$测试位置:9
#schema:出版社:#  value:机械工业出版社  $$测试位置:15
#schema:出版时间:#  value:2007年06月  $$测试位置:18
#schema:null#  value:本书赢得了全球程序员的广泛赞誉,即使是最晦涩的概念,在BruceEckel的文字亲和力和小而直接的编程示例面前也会化解于无形。从Java的基础语法到最高级特性(深入的面向对象概念、多线程、自动项目构建、单元...  $$测试位置:20
#schema:null#  value:¥108.00¥81.00  $$测试位置:25
#schema:折扣:#  value:75折  $$测试位置:28
#schema:节省:#  value:¥27.00  $$测试位置:28
##
#schema:null#  value:Java核心技术:卷I基础知识  $$测试位置:3
#schema:顾客评分:#  value:  $$测试位置:7
#schema:作者:#  value:(美)昊斯特曼著,叶乃文,邝劲筠,杜永萍译  $$测试位置:9
#schema:出版社:#  value:机械工业出版社  $$测试位置:19
#schema:出版时间:#  value:2008年06月  $$测试位置:22
#schema:null#  value:《Java核心技术》出版以来一直畅销不衰,深受读者青睐,每个新版本都尽可能快地跟上Java开发工具箱发展的步伐,而且每一版都重新改写了部分内容,以便适应Java的最新特性。本版也不例外,它反映了JavaSE 6的...  $$测试位置:24
#schema:null#  value:¥98.00¥73.50  $$测试位置:35
#schema:折扣:#  value:75折  $$测试位置:38
#schema:节省:#  value:¥24.50  $$测试位置:38
##
#schema:null#  value:精通Struts:基于MVC的JavaWeb设计与开发(附光盘)  $$测试位置:3
#schema:顾客评分:#  value:  $$测试位置:8
#schema:作者:#  value:孙卫琴编著  $$测试位置:10
#schema:出版社:#  value:电子工业出版社  $$测试位置:14
#schema:出版时间:#  value:2004年08月  $$测试位置:17
#schema:null#  value:Struts是目前非常流行的基于MVC的JavaWeb框架。本书详细介绍了在最新的Struts1.1以及不久将推出的Struts1.2版本上设计和开发JavaWeb应用的各种技术。本书第1章到第3章为入门篇,通过两个Struts应用实例,引...  $$测试位置:19
#schema:null#  value:¥49.00¥36.80  $$测试位置:26
#schema:折扣:#  value:75折  $$测试位置:29
#schema:节省:#  value:¥12.20  $$测试位置:29
##
#schema:null#  value:JAVA面向对象编程  $$测试位置:3
#schema:顾客评分:#  value:  $$测试位置:7
#schema:作者:#  value:孙卫琴编著  $$测试位置:9
#schema:出版社:#  value:电子工业出版社  $$测试位置:13
#schema:出版时间:#  value:2006年07月  $$测试位置:16
#schema:null#  value:本书内容由浅入深,紧密结合实际,利用大量典型实例,详细讲解Java面向对象的编程思想、编程语法和设计模式,介绍常见Java类库的用法,总结优化Java编程的各种宝贵经验,深入阐述Java虚拟机执行Java程序的原理...  $$测试位置:18
#schema:null#  value:¥65.80¥49.35  $$测试位置:31
#schema:折扣:#  value:75折  $$测试位置:34
#schema:节省:#  value:¥16.45  $$测试位置:34
##
#schema:null#  value:Java程序员面试宝典  $$测试位置:3
#schema:顾客评分:#  value:  $$测试位置:7
#schema:作者:#  value:欧立奇,朱梅,段韬编著  $$测试位置:9
#schema:出版社:#  value:电子工业出版社  $$测试位置:17
#schema:出版时间:#  value:2007年08月  $$测试位置:20
#schema:null#  value:本书是程序员面试宝典系列中的一部,也是上一本《程序员面试宝典》的姊妹丛书。本书对程序设计面试中Java常见的题型和常用解答技巧进行了介绍,它不仅能帮助求职者快速复习有相关知识点,也对现代职业人如何有...  $$测试位置:22
#schema:null#  value:¥46.00¥34.50  $$测试位置:27
#schema:折扣:#  value:75折  $$测试位置:30
#schema:节省:#  value:¥11.50  $$测试位置:30
##
#schema:null#  value:JAVA2核心技术,卷II:高级特性(原书第7版)  $$测试位置:3
#schema:顾客评分:#  value:  $$测试位置:7
#schema:作者:#  value:(美)霍斯特曼(Horstmann,C.S.),(美)科奈尔(Cornell,G.)著陈昊鹏等译  $$测试位置:9
#schema:出版社:#  value:机械工业出版社  $$测试位置:23
#schema:出版时间:#  value:2006年03月  $$测试位置:26
#schema:null#  value:本书是Java2技术权威指南,全面覆盖Java2技术的高级主题,包括:多线程、集合框架、网络API、数据库编程、分布式对象等,深入探究了Swing、Java2D API、Javaean、Java安全模式、XML、注释、元数据等主题,...  $$测试位置:28
#schema:null#  value:¥108.00¥81.00  $$测试位置:41
#schema:折扣:#  value:75折  $$测试位置:44
#schema:节省:#  value:¥27.00  $$测试位置:44
(5)数据集成
  顾客评分:   作者:   出版社:   出版时间:   折扣:   节省:
Java编程思想(第4版) (美)埃克尔著,陈昊鹏译 机械工业出版社 2007年6月   本书赢得了全球程序员的广泛赞誉,即使是最晦涩的概念,在Bruce Eckel的文字亲和力和小而直接的编程示例面前也会化解于无形。从Java的基础语法到最高级特性(深入的面向对象概念、多线程、自动项目构建、单元... ¥108.00¥81.00 75折 ¥27.00
Java核心技术:卷I基础知识 (美)昊斯特曼著,叶乃文,邝劲筠,杜永萍译 机械工业出版社 2008年6月   《Java核心技术》出版以来一直畅销不衰,深受读者青睐,每个新版本都尽可能快地跟上Java开发工具箱发展的步伐,而且每一版都重新改写了部分内容,以便适应Java的最新特性。本版也不例外,它反映了JavaSE 6的... ¥98.00¥73.50 75折 ¥24.50
精通Struts:基于MVC的JavaWeb设计与开发(附光盘) 孙卫琴编著 电子工业出版社 2004年8月   Struts是目前非常流行的基于MVC的JavaWeb框架。本书详细介绍了在最新的Struts1.1以及不久将推出的Struts1.2版本上设计和开发JavaWeb应用的各种技术。本书第1章到第3章为入门篇,通过两个Struts应用实例,引... ¥49.00¥36.80 75折 ¥12.20
JAVA面向对象编程 孙卫琴编著 电子工业出版社 2006年7月   本书内容由浅入深,紧密结合实际,利用大量典型实例,详细讲解Java面向对象的编程思想、编程语法和设计模式,介绍常见Java类库的用法,总结优化Java编程的各种宝贵经验,深入阐述Java虚拟机执行Java程序的原理... ¥65.80¥49.35 75折 ¥16.45
Java程序员面试宝典 欧立奇,朱梅,段韬编著 电子工业出版社 2007年8月   本书是程序员面试宝典系列中的一部,也是上一本《程序员面试宝典》的姊妹丛书。本书对程序设计面试中Java常见的题型和常用解答技巧进行了介绍,它不仅能帮助求职者快速复习有相关知识点,也对现代职业人如何有... ¥46.00¥34.50 75折 ¥11.50
JAVA2核心技术,卷II:高级特性(原书第7版)   (美)霍斯特曼(Horstmann.C.S.),(美)科奈尔(Cornell,G.)著陈昊鹏等译 机械工业出版社 2006年3月   本书是Java2技术权威指南,全面覆盖Java2技术的高级主题,包括:多线程、集合框架、网络API、数据库编程、分布式对象等,深入探究了Swing、Java2DAPI、Javaean、Java安全模式、XML、注释、元数据等主题,... ¥108.00¥81.00 75折 ¥27.00

Claims (3)

1、一种DeepWeb响应页面数据抽取方法,其特征是该方法包括以下步骤:
步骤(1)选取DeepWeb响应页面Page在查询页面输入关键字Key,查询得到响应页面Page,响应页面Page是HTML语法描述的字符串数组,用DOM解析工具将HTML字符串转化为DOM树结构,DOM树中的结点定义:(N,Kn,Wn,Tn),其中N表示结点N,Kn表示结点N包含关键字的个数,Wn表示结点N中包含关键字的孩子结点的个数,Tn表示结点N的文本内容,则DOM树结构描述为:
DOM = { ( C N i , K C N i , W C N i , T C N i ) | &ForAll; N &Element; DOM , ( root , K root , W root , T root ) &Element; DOM }
其中,N为DOM树中的结点,CN i为结点N的第i个孩子结点;
步骤(2)抽取页面模板信息;对于响应页面的DOM树结构,找到包含关键字的孩子结点个数Wn最多的双亲结点P,保存该结点的绝对路径{i1,i2,...,in},绝对路径的起始结点为根结点root,则P结点可以表示为
P = C C C C root i 1 i 2 &CenterDot; &CenterDot; &CenterDot; i n
P结点所有的孩子结点子树即为记录结点子树集;将记录结点子树集所有记录结点子树先根遍历转化为带标记的token块序列,统计记录token块序列中非空结点最小深度,记为lownum,再将带标记的token块序列转化为带标记的token字符序列;用LCS算法处理以上两个记录的带标记的token字符序列,得到一个公共token字符序列;分隔并过滤公共token字符序列得到模板信息;
步骤(3)数据抽取;根据绝对路径取得记录结点的双亲结点P,P下的每个记录结点子树的根结点即为记录的根结点,先根遍历每个记录的根结点,读取文本结点的内容Tn,得到一个记录的文本内容,即得到记录级数据;基于模板信息对token块进行切割,得到新的token块序列,设A为待切割的token块,B为模板信息,U为模板信息中token块集合,若A切割必需满足:① &Exists; B ( B &SubsetEqual; U ) 且②A的内容必需完全包含B的内容,并且A的token块深度等于B的token块深度;
步骤(4)token块合并;依据统计值lownum继续对token块进行合并,合并规则为:(1)如果token块深度高于lownum,则将当前token块合并到下一token块中;(2)如果token块深度等于lownum时,并且下一token块深度大于lownum,则输出本token块内容;如果下一token块深度等于lownum,则当前token块合并到下一token块中;
(5)数据表格聚类,得到数据块级别数据;将标有相同模板信息的token块放入数据表格的同一列,其它无标记的token块同块序列号最近的带标记的token块放在一起。
2、按照权利要求1所述的DeepWeb响应页面数据抽取方法,其特征在于步骤(2)所述的带标记的token块序列,实现过程如下:先根遍历记录结点,对每个结点作如下处理:①标记结点深度;②标记结点序列号,流水号,从1开始;③统计记录token块序列中非空结点最小深度,记为lownum。
3、按照权利要求1所述的DeepWeb响应页面数据抽取方法,其特征在于步骤(2)所述的将带标记的token块序列转化为带标记的token字符序列,过程如下:顺序读取每一token块序列,对每个token块作如下处理:①若token块的字串为空,将其删除,不做其它处理,否则按后面过程处理;②将每个token块分裂成字符token,每个字符都生成一个字符token;③保留其结点深度,结点序列号,增加一个字符序列号。
CN2009100102019A 2009-01-21 2009-01-21 一种DeepWeb响应页面数据抽取方法 Expired - Fee Related CN101582074B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009100102019A CN101582074B (zh) 2009-01-21 2009-01-21 一种DeepWeb响应页面数据抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009100102019A CN101582074B (zh) 2009-01-21 2009-01-21 一种DeepWeb响应页面数据抽取方法

Publications (2)

Publication Number Publication Date
CN101582074A true CN101582074A (zh) 2009-11-18
CN101582074B CN101582074B (zh) 2011-01-26

Family

ID=41364221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009100102019A Expired - Fee Related CN101582074B (zh) 2009-01-21 2009-01-21 一种DeepWeb响应页面数据抽取方法

Country Status (1)

Country Link
CN (1) CN101582074B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101984434A (zh) * 2010-11-16 2011-03-09 东北大学 基于可扩展语言查询的网页数据抽取方法
WO2011063561A1 (en) * 2009-11-25 2011-06-03 Hewlett-Packard Development Company, L. P. Data extraction method, computer program product and system
CN102103636A (zh) * 2011-01-18 2011-06-22 南京信息工程大学 一种面向深层网页的增量信息获取方法
CN102306204A (zh) * 2011-09-28 2012-01-04 武汉大学 基于文本结构权重的主题区域识别方法
CN102456004A (zh) * 2010-10-18 2012-05-16 金蝶软件(中国)有限公司 一种页面数据查询控制方法及系统
CN103257981A (zh) * 2012-06-12 2013-08-21 苏州大学 基于查询接口属性特征的Deep Web数据表面化方法
CN103778104A (zh) * 2012-10-22 2014-05-07 富士通株式会社 信息处理装置、信息处理方法以及电子设备
WO2014114103A1 (zh) * 2013-01-25 2014-07-31 中兴通讯股份有限公司 自动化测试平台测试输出信息提取方法和装置
CN106326206A (zh) * 2015-06-24 2017-01-11 北京京东尚科信息技术有限公司 一种基于文法模板的实体抽取方法
CN103678490B (zh) * 2013-11-14 2017-01-11 桂林电子科技大学 一种基于Hadoop平台的Deep Web查询接口聚类方法

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011063561A1 (en) * 2009-11-25 2011-06-03 Hewlett-Packard Development Company, L. P. Data extraction method, computer program product and system
CN102456004B (zh) * 2010-10-18 2014-04-02 金蝶软件(中国)有限公司 一种页面数据查询控制方法及系统
CN102456004A (zh) * 2010-10-18 2012-05-16 金蝶软件(中国)有限公司 一种页面数据查询控制方法及系统
CN101984434B (zh) * 2010-11-16 2012-09-05 东北大学 基于可扩展标记语言查询的网页数据抽取方法
CN101984434A (zh) * 2010-11-16 2011-03-09 东北大学 基于可扩展语言查询的网页数据抽取方法
CN102103636A (zh) * 2011-01-18 2011-06-22 南京信息工程大学 一种面向深层网页的增量信息获取方法
CN102103636B (zh) * 2011-01-18 2013-08-07 南京信息工程大学 一种面向深层网页的增量信息获取方法
CN102306204A (zh) * 2011-09-28 2012-01-04 武汉大学 基于文本结构权重的主题区域识别方法
CN102306204B (zh) * 2011-09-28 2013-03-13 武汉大学 基于文本结构权重的主题区域识别方法
CN103257981A (zh) * 2012-06-12 2013-08-21 苏州大学 基于查询接口属性特征的Deep Web数据表面化方法
CN103257981B (zh) * 2012-06-12 2016-04-13 苏州大学 基于查询接口属性特征的Deep Web数据表面化方法
CN103778104A (zh) * 2012-10-22 2014-05-07 富士通株式会社 信息处理装置、信息处理方法以及电子设备
CN103778104B (zh) * 2012-10-22 2017-05-03 富士通株式会社 信息处理装置、信息处理方法以及电子设备
WO2014114103A1 (zh) * 2013-01-25 2014-07-31 中兴通讯股份有限公司 自动化测试平台测试输出信息提取方法和装置
CN103678490B (zh) * 2013-11-14 2017-01-11 桂林电子科技大学 一种基于Hadoop平台的Deep Web查询接口聚类方法
CN106326206A (zh) * 2015-06-24 2017-01-11 北京京东尚科信息技术有限公司 一种基于文法模板的实体抽取方法
CN106326206B (zh) * 2015-06-24 2021-01-26 北京京东尚科信息技术有限公司 一种基于文法模板的实体抽取方法

Also Published As

Publication number Publication date
CN101582074B (zh) 2011-01-26

Similar Documents

Publication Publication Date Title
CN101582074B (zh) 一种DeepWeb响应页面数据抽取方法
CN1955963B (zh) 用于搜索电子文档中的日期的系统和方法
KR100324456B1 (ko) 구조화문서검색표시방법및장치
CN103023714B (zh) 基于网络话题的活跃度与集群结构分析系统及方法
Chen et al. Websrc: A dataset for web-based structural reading comprehension
Zheng et al. Template-independent news extraction based on visual consistency
US20110302486A1 (en) Method and apparatus for obtaining the effective contents of web page
CN101515287B (zh) 一种用于复杂页面的包装器自动生成方法
CN101593200A (zh) 基于关键词频度分析的中文网页分类方法
CN101872350A (zh) 网页正文抽取方法和装置
CN108196880A (zh) 软件项目知识图谱自动构造方法与系统
CN100444591C (zh) 获取网页关键字的方法及其应用系统
CN103488724A (zh) 一种面向图书的阅读领域知识图谱构建方法
CN102306201B (zh) 一种网页标题分析的方法和系统
CN106021392A (zh) 一种新闻关键信息的提取方法及系统
CN105677638B (zh) Web信息抽取方法
CN109857956A (zh) 基于标签和分块特征的新闻网页关键信息自动抽取方法
Azir et al. Wrapper approaches for web data extraction: A review
CN102654873A (zh) 基于中文分词的旅游信息抽取与聚合方法
CN103778238A (zh) 一种从维基百科半结构化数据自动构建分类树的方法
CN104572934A (zh) 一种基于dom的网页关键内容抽取方法
CN101751403B (zh) 将超文字标签语言文件转换成纯文字文件的方法
KR20200000897A (ko) 플레이스의 소셜 리뷰 분석 방법 및 시스템
KR101069278B1 (ko) 청구항 시각화 장치 및 방법
WO2007129660A1 (ja) 静的ウェブページ生成方法、プログラム、記録媒体及び静的ウェブページ生成管理システム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110126

Termination date: 20150121

EXPY Termination of patent right or utility model