CN103778104A - 信息处理装置、信息处理方法以及电子设备 - Google Patents
信息处理装置、信息处理方法以及电子设备 Download PDFInfo
- Publication number
- CN103778104A CN103778104A CN201210404437.2A CN201210404437A CN103778104A CN 103778104 A CN103778104 A CN 103778104A CN 201210404437 A CN201210404437 A CN 201210404437A CN 103778104 A CN103778104 A CN 103778104A
- Authority
- CN
- China
- Prior art keywords
- sequence label
- label
- common prefix
- maximum common
- sample files
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了信息处理装置、方法以及电子设备,以克服现有的用于确定待处理对象中的数据区域的方法所确定的数据区域不准确的问题。信息处理装置包括:用于获得待处理文档的树结构中各路径的标签序列的标签序列获得单元;用于基于标签序列在待处理文档的树结构中的重复出现次数来对标签序列分组的分组单元;用于获得每组标签序列的最大公共前缀以确定待处理文档的信息结构布局的布局确定单元;和用于通过分析符合数据区域更新模型的样本文档集来确定上述信息结构布局中的数据区域的数据区域确定单元。信息处理方法用于执行能够实现上述信息处理装置的功能的处理。电子设备包括上述信息处理装置。本发明的上述技术能够应用于信息处理领域。
Description
技术领域
本发明涉及信息处理领域,尤其涉及一种信息处理装置、信息处理方法以及电子设备。
背景技术
随着信息技术和网络技术的突飞猛进,尤其是云计算技术的发展,信息处理逐渐成为一个热门且不可或缺的领域。然而,由于数据信息以及数据源的丰富性和多样性,通常需要首先在待处理的对象中确定数据区域,以便能够进行后续的处理或应用,例如从数据区域中提取有用信息。
通常地,在现有的一些用于确定待处理对象中的数据区域的方法中,为了区分其中的区域(例如,哪些区域是数据区域;哪些区域是诸如广告区域、目录区域等的非数据区域),其一般是基于待处理对象的特点来获得数据区域的描述,进而通过其描述来确定数据区域。然而,由于现有的这些方法所利用的信息有限或者其他原因,导致了其获得的待处理对象中数据区域的描述往往不够准确,进而使得基于此所确定的数据区域也不够准确。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
鉴于此,本发明提供了一种信息处理装置、信息处理方法以及电子设备,以至少解决现有的用于确定待处理对象中的数据区域的方法所确定的数据区域不准确的问题。
根据本发明的一个方面,提供了一种信息处理装置,该信息处理装置包括:标签序列获得单元,其被配置用于获得待处理文档的树结构中的根节点到每个叶子节点的路径的标签序列;分组单元,其被配置用于计算每个标签序列在上述待处理文档的树结构中的重复出现次数,并将重复出现次数相差在预定范围内的标签序列确定为同一组;布局确定单元,其被配置用于获得每组标签序列的最大公共前缀,以确定上述待处理文档的信息结构布局;以及数据区域确定单元,其被配置用于通过分析符合数据区域更新模型的样本文档集来在上述信息结构布局中确定数据区域,其中,上述样本文档集中的每个样本文档均具有上述信息结构布局。
根据本发明的另一个方面,还提供了一种信息处理方法,该信息处理方法包括:获得待处理文档的树结构中的根节点到每个叶子节点的路径的标签序列;计算每个标签序列在上述待处理文档的树结构中的重复出现次数,并将重复出现次数相差在预定范围内的标签序列确定为同一组;获得每组标签序列的最大公共前缀,以确定上述待处理文档的信息结构布局;以及通过分析符合数据区域更新模型的样本文档集来在上述信息结构布局中确定数据区域,其中,上述样本文档集中的每个样本文档均具有上述信息结构布局。
根据本发明的另一个方面,还提供了一种电子设备,该电子设备包括如上所述的信息处理装置。
上述根据本发明实施例的信息处理装置、信息处理方法以及电子设备,利用了待处理文档的树结构来确定待处理文档中的数据区域,在处理的过程中,其基于树结构中各路径的标签序列的重复出现次数来对标签序列分组,并进而获得每一组标签序列的最大公共前缀,作为对这组标签序列对应区域的一种描述。利用这种描述,通过分析符合数据区域更新模型的样本文档集,便可在待处理文档的信息结构布局中确定数据区域。由此,相比于传统的用于确定数据区域的技术,根据本发明实施例的信息处理装置、信息处理方法以及电子设备能够获得至少以下益处之一:在获得最大公共前缀的过程中通过利用标签序列的重复出现次数对标签序列进行分组,然后再对分组的标签序列进行挖掘以得到上述最大公共前缀,能够使得基于最大公共前缀所获得的信息结构布局更加准确;利用符合数据区域更新模型的样本文档集使得基于这种模型特征所确定的数据区域更加准确;以及极大地提高了数据处理的效率和性能。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中:
图1是示意性地示出根据本发明的实施例的信息处理装置的一种示例结构的框图。
图2是示出待处理文档的一个示例的示意图。
图3是示出图2所示待处理文档的树结构的一个示例的示意图。
图4是示意性地示出如图1所示的标签序列获得单元的可能的示例结构的框图。
图5A~5C是示出符合数据区域更新模型的一个样本文档集中的3个连续更新的样本文档的可能示例的示意图。
图6是示意性地示出如图1所示的数据区域确定单元的可能的示例结构的框图。
图7是示意性地示出根据本发明的实施例的信息处理装置的另一种示例结构的框图。
图8是示意性地示出根据本发明的实施例的信息处理装置的又一种示例结构的框图。
图9是示意性地示出根据本发明的实施例的信息处理方法的一种示例性处理的流程图。
图10是示意性地示出根据本发明的实施例的信息处理方法的其他可能的示例性处理的流程图。
图11是示出了可用来实现根据本发明的实施例的信息处理装置和信息处理方法的一种可能的信息处理设备的硬件配置的结构简图。
本领域技术人员应当理解,附图中的元件仅仅是为了简单和清楚起见而示出的,而且不一定是按比例绘制的。例如,附图中某些元件的尺寸可能相对于其他元件放大了,以便有助于提高对本发明实施例的理解。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
本发明的实施例提供了一种信息处理装置,该信息处理装置包括:标签序列获得单元,其被配置用于获得待处理文档的树结构中的根节点到每个叶子节点的路径的标签序列;分组单元,其被配置用于计算每个标签序列在上述待处理文档的树结构中的重复出现次数,并将重复出现次数相差在预定范围内的标签序列确定为同一组;布局确定单元,其被配置用于获得每组标签序列的最大公共前缀,以确定上述待处理文档的信息结构布局;以及数据区域确定单元,其被配置用于通过分析符合数据区域更新模型的样本文档集来在上述信息结构布局中确定数据区域,其中,上述样本文档集中的每个样本文档均具有上述信息结构布局。
下面结合图1来详细描述根据本发明的实施例的信息处理装置的一个示例。
如图1所示,根据本发明的实施例的信息处理装置100包括标签序列获得单元110、分组单元120、布局确定单元130和数据区域确定单元140。
其中,标签序列获得单元110用于获得待处理文档的树结构中的根节点到每个叶子节点的路径的标签序列。
在根据本发明的实施例的信息处理装置的一些实现方式中,上述待处理文档可以是HTML格式文档(例如HTML网页),也可以是具有树结构的其他类型的文档。此外,在一些实现方式中,上述树结构可以是文档对象化模型树(DOM Tree)结构,也可以是诸如组织结构等的其他树结构。
图2示意性地示出了上述待处理文档的一个示例。如图2所示,在该示例中,上文所述的待处理文档为HTML网页。其中,在该网页中,M1对应的部分为该网页的标题,由图2可知,该网页的标题是“今日更新新闻”。此外,由图2还可获知,在该网页中,共有两条新闻。其中,M2为第一条新闻的标题,M3为第一条新闻的详细内容的链接,M4为第一条新闻的摘要;以及M5为第二条新闻的标题,M6为第二条新闻的详细内容的链接,M7为第二条新闻的摘要。需要注意的是,“M1”~“M7”是为方便理解所标示的附图标记,其分别用于表示其对应虚线框内的内容,而标记“M1”~“M7”以及各个虚线框则并非网页中所包含的内容。
需要说明的是,待处理文档的树结构可以是预先存储的,也可以是通过对待处理文档进行一些处理而获得的。在一个例子中,在上述待处理文档是HTML网页(或类似格式的文档)的情况下,可以通过HTML解析技术来获得网页的DOM Tree结构。通常情况下,通过网页浏览器可以把HTML网页解析成DOM Tree结构,然后显示给最终用户。DOM Tree结构是一个用来描述HTML格式文档的页面当中的对象的树结构。图3是示出图2所示网页的DOM Tree结构的示意图。
为叙述方便和清楚起见,下面对DOM Tree结构的一些常用概念做一些简要说明。在DOM Tree结构中,各个节点彼此之间均有等级关系,其中,常用的用于描述这种关系的概念有父节点、子节点和兄弟节点(siblingnodes)。此外,在DOM Tree结构中,顶端的节点为根节点,根节点之外的每个节点都有一个父节点,父节点拥有任意数量的子节点,叶子节点是没有子节点的节点,而兄弟节点则是拥有相同父节点并位于同一层级上的节点。在下文中,将结合图2以及图3来描述各单元的功能和处理,并在描述的过程中给出图2以及图3的相关说明。
如图4所示,在根据本发明的实施例的信息处理装置的一个实现方式中,标签序列获得单元110可以包括标签记录模块410和序列形成模块420。
其中,针对从上述待处理文档的树结构中的根节点到每个叶子节点的每个路径,标签记录模块410可以记录该路径依次经过的每个节点的标签,序列形成模块420可以利用该路径经过的所有节点的标签、并按照各个标签的记录顺序来形成该路径的标签序列。
此外,在其他一些实现方式中,标签序列获得单元110除了可以包括如上所述的标签记录模块410和序列形成模块420之外,还可以选择性地包括如图4所示的兄弟节点区分模块430。如图4所示,兄弟节点区分模块430所对应的方框用虚线表示,表明该模块是可选的,而非必须的。参考图2可知,在标签记录模块410记录每个路径经过的节点的标签的过程中,可能会遇到一些作为兄弟节点的叶子节点的标签相同的情况,在这种情况下,兄弟节点区分模块430可以对这些标签进行区分。
需要注意的是,在多组兄弟节点中分别存在标签相同的情况下,兄弟节点区分模块430可以分别对每组兄弟节点中标签相同的那些叶子节点的标签进行区分。在一个例子中,假设在上述待处理文档的树结构所包含的所有叶子节点中,共有N组兄弟节点。针对该N组兄弟节点中的任意一组,若该组兄弟节点中有M个叶子节点的标签相同,则兄弟节点区分模块430可以使用预定字符序列中的前M个来区分这M个叶子节点的标签。
下面以标签序列获得单元110包括标签记录模块410、序列形成模块420和兄弟节点区分模块430的情况为例,详细描述获得待处理文档的树结构中的根节点到每个叶子节点的路径的标签序列的一个具体示例。
在该具体示例中,以图2所示的网页作为上文所述的待处理文档的示例,并结合图3所示的DOM Tree结构的示意图来进行描述。需要注意的是,虽然在该示例中以HTML网页作为待处理文档的示例来进行描述,但本发明并不局限于此。在其他实施例中,HTML网页可以相应地替换为其他类型的待处理文档,树结构也可以是除了DOM Tree结构之外的其他类型的树结构,在此不再一一赘述。此外,需要注意的是,图3中的“N0”、“N1”、“N2”、“N11”等各符号均为附图标记,而并非树结构中的内容。
如图3所示,在该DOM Tree结构中,根节点是N0,并且共存在7个叶子节点,分别是N12、N32、N33、N34、N42、N43和N44。其中,根节点N0的标签为“body”,叶子节点N12、N32、N33、N34、N42、N43和N44的标签依次分别为“li”、“a”、“a”、“p”、“a”、“a”和“p”。类似地,可以获知该DOM Tree结构中剩余的各个节点的标签。这样,在该DOM Tree结构中,从根节点N0出发到每一个叶子节点,共存在7条路径。
下面以路径N0-N12为例,来描述如何获得该路径的标签序列。对于路径N0-N12来说,其总共依次经过4个节点,分别是N0、N1、N11和N12,由此,路径N0-N12也可以表示为“N0-N1-N11-N12”。利用标签记录模块410可以得到路径N0-N1-N11-N12中各节点的标签,依次分别是“body”、“div”、“ul”和“li”。于是,序列形成模块420可以将路径N0-N1-N11-N12(即路径N0-N12)的标签序列记为“body/div/ul/li”。
类似地,可以得到路径N0-N32的标签序列为“body/table/tr/td/ul/li/center/a”,路径N0-N33的标签序列也为“body/table/tr/td/ul/li/center/a”。由于N32和N33互为兄弟节点,而它们的标签同为“a”,因此可以利用兄弟节点区分模块430来区分它们的标签。由于N32只有一个兄弟节点N33,所以可以使用预定字符序列的前两个来区分它们的标签。在一个例子中,兄弟节点区分模块430可以使用序列“[1]、[2]、[3]、[4]、……”作为上述预定字符序列,于是,区分后的路径N0-N32的标签序列可以是“body/table/tr/td/ul/li/center/a[1]”,以及区分后的路径N0-N33的标签序列可以是“body/table/tr/td/ul/li/center/a[2]”。
由此,通过上述处理,除可以获得以上所述的3条路径的标签序列之外,还可以获得其余4条路径的标签序列。这样,以上7条路径各自的标签序列分别为:
路径N0-N12的标签序列“body/div/ul/li”;
路径N0-N32的标签序列“body/table/tr/td/ul/li/center/a[1]”;
路径N0-N33的标签序列“body/table/tr/td/ul/li/center/a[2]”;
路径N0-N34的标签序列“body/table/tr/td/ul/li/p”;
路径N0-N42的标签序列“body/table/tr/td/ul/li/center/a[1]”;
路径N0-N43的标签序列“body/table/tr/td/ul/li/center/a[2]”;以及
路径N0-N44的标签序列“body/table/tr/td/ul/li/p”。
其中,需要说明的是,图3中的节点N12对应图2中的M1,图3中的节点N32对应图2中的M2,图3中的节点N33对应图2中的M3,图3中的节点N34对应图2中的M4,图3中的节点N42对应图2中的M5,图3中的节点N43对应图2中的M6,图3中的节点N44对应图2中的M7。
由此,根据以上描述可知,通过标签序列获得单元110的处理可以得到待处理文档的树结构中的每条路径的标签序列。然后,分组单元120可以根据每种标签序列的重复出现次数来对各个标签序列进行分组。例如,分组单元120可以通过计算每种标签序列在待处理文档的树结构中的重复出现次数,来将重复出现次数相差在预定范围内的标签序列分为同一组。需要注意的是,这里所说的预定范围可以根据经验值设定,也可以通过试验的方式来确定。
在一个例子(以下称为例子一)中,以图2和图3为例,在图3所示的DOM Tree结构中共存在7条路径,可以总共得到4种标签序列,分别是“body/div/ul/li”(以下简称为“标签序列一”)、“body/table/tr/td/ul/li/center/a[1]”(以下简称为“标签序列二”)、“body/table/tr/td/ul/li/center/a[2]”(以下简称为“标签序列三”)和“body/table/tr/td/ul/li/p”(以下简称为“标签序列四”)。假设在例子一中,上述预定范围为[0,0],也即,将重复出现次数完全相同的标签序列分为同一组。由于标签序列一只出现了1次,而标签序列二、三和四各出现了2次,分组单元120可以将标签序列一分为一个组,而将标签序列二、三和四分为另一个组。
此外,在另一个例子(以下称为例子二)中,假设标签序列获得单元110所得到的某个待处理文档的树结构中的标签序列共有4种,如上文所述的标签序列一、二、三和四。而在例子二中,假设标签序列一、二、三和四各自在上述待处理文档的树结构中出现的次数分别如下(需要注意的是,该例子并未在图中示出):
body/div/ul/li(标签序列一出现12次);
body/table/tr/td/ul/li/p(标签序列二出现21次);
body/table/tr/td/ul/li/center/center/a[1](标签序列三出现20次);以及
body/table/tr/td/ul/li/center/center/a[2](标签序列四出现19次)。
假设在例子二中,上述预定范围为[0,1],也即,相当于将重复出现次数完全相同或相差1次的标签序列分为同一组。由此,分组单元120可以将标签序列一单独分为一组(以下简称为第一标签序列组),而将标签序列二、三和四分为另外一组(以下简称为第二标签序列组)。此外,在例子二中,同一组内的每个标签序列的重复出现次数只需与本组内的至少一个其他的标签序列的重复出现次数之差在上述预定范围内即可,而不需与本组内的其他每个标签序列的重复出席次数之差都在该预定范围内。
由此,通过分组单元120的处理可以将标签序列获得单元110所获得的所有标签序列进行分组。于是,对于分组的标签序列,布局确定单元130可以获得每组标签序列的最大公共前缀,以基于获得的最大公共前缀来确定待处理文档的信息结构布局。
其中,这里所说的每组标签序列的最大公共前缀是指该组标签序列中的所有标签序列所共有的最长的标签前缀,下面以上文所述的例子二中的标签序列一至四为例,来描述获得每组标签序列的最大公共前缀的一个示例。
对于第一标签序列组来说,由于其只包括标签序列一,因此,其中所有的标签序列的最大公共前缀即标签序列一本身,也即:
body/div/ul/li(以下简称为“最大公共前缀一”)。
对于第二标签序列组来说,标签序列二、三和四的最大公共前缀为:
body/table/tr/td/ul/li(以下简称为“最大公共前缀二”)。
这样,通过以上处理,可以得到各组标签序列的最大公共前缀,进而可以确定待处理文档的信息结构布局,也即,可以将待处理文档划分为若干个区域。在该示例中,最大公共前缀一和最大公共前缀二分别对应于待处理文档中的一块区域,结合上文所描述的图2和图3中各部分的对应关系可知,最大公共前缀一对应于图2中的M1,最大公共前缀二对应于图2中的M2至M7。需要注意的是,在确定了待处理文档的信息结构布局的情况下,尚不清楚待处理文档的各个区域是否为数据区域(即包含数据记录的区域)。接下来,数据区域确定单元140可以通过分析符合数据区域更新模型的样本文档集,来确定在上述信息结构布局中哪些最大公共前缀对应的区域是数据区域。
其中,这里所说的样本文档集中的每个样本文档均具有与已确定的待处理文档的信息结构布局相同的信息结构布局。也就是说,样本文档集中的每个样本文档也分别具有与以上所获得的各个最大公共前缀相对应的区域。在根据本发明的实施例的信息处理装置的一些实现方式中,样本文档集中可以包括上述待处理文档(也即,作为标签序列获得单元110的处理对象的待处理文档可以是样本文档集中的一个样本文档),或者也可以不包含上述待处理文档。
图5A示出了一般网页的页面布局的一个示例,例如,图5A中的标题可以类似于图2中的M1,图5A中的数据记录1可以类似于包括图2中的M2至M4的一条记录条目。由图5A可以看出,一般网页中,往往不只包括数据区域(如数据记录1至数据记录7对应的区域),还可能包括一到多个非数据区域(如目录区域,广告区域,网页的标题区域,页脚区域,等等)。需要说明的是,图5A中省略了诸如目录区域、广告区域等的非数据区域中的各个具体记录条目。
然而,相比于非数据区域,数据区域中的记录条目往往经常更新、且更新频率较高,而诸如目录区域、广告区域等的非数据区域往往是不更新或者更新频率非常低的。
图5A~5C以网页作为待处理文档的示例,示意性地示出了符合数据区域更新模型的一个样本文档集中的3个连续更新的样本文档。为叙述方便,以下将图5A、图5B和图5C所示网页分别简称为网页一、网页二和网页三。
如图5A~5C所示,在这3个连续更新的网页中,网页一为更新时间最早的网页,网页二次之,网页三为最新的网页。由图5A~5C也可以看出,在这3个连续更新的网页中,数据区域存在更新,而其他诸如目录区域、广告区域等的非数据区域均没有更新。在图5A~5C所示的例子中,每一次最新更新的数据记录会排在最前面,而将原来旧的数据记录依次往下排。
例如,网页二相对网页一而言,更新了3个新的数据记录(分别是数据记录#1、#2和#3),而将原来的数据记录依次往下排,并将超出页面显示限制的那些旧的数据记录删除或者放至第二页,等等。这样,网页二包括原来网页一中的4个旧数据记录(分别是数据记录1至4)。
类似地,网页三相对网页二而言,又更新了2个新的数据记录(分别是数据记录##1和##2)。这样,网页三包括网页二中的5个旧数据记录(分别是数据记录#1、#2和#3,以及数据记录1和2)。
下面结合图6来描述如图1所示的数据区域确定单元140的一个示例。在如图6所示的一个实现方式中,数据区域确定单元140可以包括获得模块610和确定模块620。
其中,获得模块610用于在样本文档集内的每个样本文档中分别获得与每个最大公共前缀对应的记录条目。
举例来说,假设样本文档X1是样本文档集中的任意一个样本文档,并假设布局确定单元130得到最大公共前缀一和最大公共前缀二共两个最大公共前缀,则获得模块610可以在样本文档X1中分别确定与最大公共前缀一对应的那些记录条目、以及与最大公共前缀二对应的那些记录条目。
其中,可以按照如下将要描述的方式来确定样本文档X1中与最大公共前缀一或二对应的记录条目。以最大公共前缀一为例,获得模块610可以在样本文档X1的树结构的所有从根节点到叶子节点的路径中,找到包含最大公共前缀一的路径,根据上述“包含最大公共前缀一的路径”的标签序列,即可确定这些“包含最大公共前缀一的路径”在样本文档X中对应的记录条目,然后将这些记录条目作为样本文档X中的与最大公共前缀一对应的所有记录条目。也就是说,最大公共前缀一在样本文档X1对应的区域是由上述确定的“包含最大公共前缀一的路径”所组成的区域。
由此,在满足一定条件的情况下,确定模块620可以将其中的一些最大公共前缀对应的区域确定为数据区域。
在一个例子(以下称为例子三)中,针对每个最大公共前缀,若样本文档集内的至少两个相邻样本文档符合某些预定条件,则确定模块620可以将该最大公共前缀对应的记录区域确定为数据区域。
在例子三中,以最大公共前缀Q为例,上述“预定条件”可以是如下条件:时间上在后的样本文档所包含的与最大公共前缀Q对应的所有记录条目中包括有时间上在先的样本文档所包含的与最大公共前缀Q对应的所有记录条目中的至少一个(以下简称为“条件一”);以及时间上在后的样本文档所包含的与最大公共前缀Q对应的所有记录条目中的至少一个未被包括在时间上在先的样本文档所包含的与最大公共前缀Q对应的所有记录条目中(以下简称为“条件二”)。其中,“时间上在先的样本文档”是指两个相邻样本文档中的那个更新时间较早的待处理文档,而“时间上在后的样本文档”是指这两个相邻样本文档中的那个更新时间较晚的待处理文档。
在另一个例子(以下称为例子四)中,针对每个最大公共前缀,若样本文档集内的每两个相邻的样本文档均符合以上在例子三中所述的预定条件的话,确定模块620可以将该最大公共前缀对应的记录区域确定为数据区域。与例子二相比,例子四的处理的鲁棒性更高。
下面描述一个例子四的具体处理示例。
假设确定的最大公共前缀共有4个,分别是最大公共前缀Q1、Q2、Q3和Q4,并假设样本文档集内共包括3个样本文档,分别是样本文档D1、D2和D3。通过获得模块610,可以在样本文档D1、D2和D3中分别确定与最大公共前缀Q1、Q2、Q3和Q4对应的记录条目。
假设通过判定发现,样本文档D1中包括的与最大公共前缀Q1对应的记录条目为记录R12和R11,样本文档D2和D3中分别包括的与最大公共前缀Q1对应的记录条目也均为记录R12和R11。这样,对于样本文档D1和D2这对相邻文档来说,样本文档D2(作为“时间上在后的样本文档”的示例)所包含的与最大公共前缀Q1对应的所有记录条目(即{记录R12,记录R11})中包括有样本文档D1(作为“时间上在先的样本文档”的示例)所包含的与最大公共前缀Q对应的记录R12和R11,因此,对于最大公共前缀Q1来说,样本文档D1和D2符合上文所述的条件一。然而,样本文档D2所包含的与最大公共前缀Q1对应的所有记录条目却完全被包括在了样本文档D1所包含的与最大公共前缀Q对应的所有记录中,由此,对于最大公共前缀Q1来说,样本文档D1和D2是不符合上文所述的条件二的。同样地,可以得知,对于最大公共前缀Q1来说,样本文档D2和D3这对相邻文档也是不符合上文所述的条件二的。因此,针对最大公共前缀Q1来说,样本文档集中不存在能够同时满足上述条件一和条件二的相邻样本文档,故最大公共前缀Q1对应的区域并非数据区域。在这种情况下,最大公共前缀Q1在这三个样本文档D1~D3中对应的区域中包含的内容是完全相同的、未发生过更新的,因此,最大公共前缀Q1对应的区域可能是一些长期不更新的如广告区域、页脚区域等的非数据区域。
此外,假设通过判定发现,样本文档D1中包括的与最大公共前缀Q2对应的记录条目为记录R25、R24、R23、R22和R21,样本文档D2中包括的与最大公共前缀Q2对应的记录条目为记录R27、R26、R25、R24和R23,样本文档D3中包括的与最大公共前缀Q2对应的记录条目为记录R28、R27、R26、R25和R24。由于样本文档D2包括的与最大公共前缀Q2对应的记录条目(R27、R26、R25、R24和R23)中包括了样本文档D1中包括的与最大公共前缀Q2对应的记录条目中的R25、R24和R23,且其中的R27和R26未包含在样本文档D1中包括的与最大公共前缀Q2对应的记录条目中,样本文档D3和D2的情况也类似,故最大公共前缀Q2对应的区域是数据区域。
此外,需要说明的是,相同的记录条目不一定是完全相同,例如,若上述样本文档D2中包括R25’,而R25’与R25之间的相似度(例如余弦相似度)高于某个相似度阈值(例如95%)的话,也可以将R25’与R25作为“相同的记录条目”来处理。其中,上述相似度阈值可以根据经验值来设定,也可以通过试验的方法来获得,这里不再详述。
对于其他的最大公共前缀可以采用类似的方法处理,这里不再赘述。
图7示意性地示出了根据本发明的实施例的信息处理装置的另一个示例。如图7所示,信息处理装置700除了包括标签序列获得单元710、分组单元720、布局确定单元730和数据区域确定单元740之外,还包括数据记录提取单元750。其中,图7所示的信息处理装置700中的标签序列获得单元710、分组单元720、布局确定单元730和数据区域确定单元740可以具有与上文中结合图1所描述的信息处理装置100中的对应单元相同的结构和功能,并能够达到相类似的技术效果,这里不再赘述。
与信息处理装置100相类似地,信息处理装置700中的布局确定单元730可以确定哪些最大标签序列对应于数据区域,由此,数据记录提取单元750可以利用这些被确定为对应数据区域的最大标签序列来在一些待提取的其他文档中提取数据记录。
在一个例子中,针对与所确定的数据区域对应的每个最大公共前缀,数据记录提取单元750可以在一些具有与上述待处理文档的信息结构布局相同的信息结构布局的其他文档中确定与该最大公共前缀对应的数据记录并对这些数据记录进行提取。这样,在利用该例子的信息处理装置700进行数据提取的过程中,不需要对每个待提取的“其他文档”再一一进行诸如确定信息结构布局、获得最大公共前缀等的步骤,而只需利用通过数据区域确定单元740所确定的数据区域对应的那个(或那些)最大公共前缀即可在上述“其他文档”中找到对应的数据区域,进而实现数据提取。
在一些具体应用中,数据记录提取单元750所提取的数据记录(例如可以包括新闻条目、搜索结果条目、产品信息等内容)可以作为数据源来提供给后续处理系统,例如数据整合(Mashup)系统,或者用于创建数据库,等等。
下面结合图8来详细描述根据本发明的实施例的信息处理装置的又一个示例。
如图8所示,信息处理装置800除了包括标签序列获得单元810、分组单元820、布局确定单元830和数据区域确定单元840之外,还包括标签序列过滤单元860。其中,图8所示的信息处理装置800中的标签序列获得单元810、分组单元820、布局确定单元830和数据区域确定单元840可以具有与上文中结合图1所描述的信息处理装置100中的对应单元相同的结构和功能,并能够达到相类似的技术效果,这里不再赘述。
其中,为了提高最终结果的准确度,在分组单元820对标签序列完成分组之后,标签序列过滤单元860可以对这些分组的标签序列进行过滤。考虑到数据区域通常包含多个记录,而一些非数据区域(如页面标题区域、页脚区域等)可能只包含一个或很少记录,因此,在一个实现方式中,标签序列过滤单元860可以将包含的标签序列的总数小于或等于预定阈值的标签序列组删除。需要注意的是,重复出现的标签序列只计为一个标签序列。此外,需要说明的是,上述预定阈值可以根据经验值来设定,也可以通过试验的方法来获得,这里不再详述。
在一个例子中,假设上述预定阈值为3,则当某组标签序列中总共包含3个或少于3个标签序列时,标签序列过滤单元860将删除该组标签序列中的所有标签序列。
这样,通过标签序列过滤单元860的处理,可以将那些不大可能对应于数据区域的标签序列组滤除掉,进而使得最终的处理结果更加准确,并可以提高处理的效率。
此外,还需要说明的是,在其他一些实现方式中,信息处理装置800除了包括以上标签序列获得单元810、分组单元820、布局确定单元830、数据区域确定单元840和标签序列过滤单元860之外,还可以选择性地包括数据记录提取单元850。其中,信息处理装置800中的数据记录提取单元850可以具有与上文中结合图7所描述的数据记录提取单元750相同的结构和功能,并能够达到相类似的技术效果,这里不再赘述。
通过以上描述可知,上述根据本发明的实施例的信息处理装置利用了待处理文档的树结构来确定待处理文档中的数据区域。在处理的过程中,其基于树结构中各路径的标签序列的重复出现次数来对标签序列分组,并进而获得每一组标签序列的最大公共前缀,作为对这组标签序列对应区域的一种描述。利用这种描述,通过分析符合数据区域更新模型的样本文档集,便可在待处理文档的信息结构布局中确定数据区域。相比于传统的用于确定数据区域的技术,上述根据本发明的实施例的信息处理装置在获得最大公共前缀的过程中,利用了标签序列的重复出现次数对标签序列进行分组,然后再对分组的标签序列进行挖掘以得到上述最大公共前缀,由此能够使得基于最大公共前缀所获得的信息结构布局更加准确(区域划分更准确)。此外,在确定数据区域的过程中,上述根据本发明的实施例的信息处理装置利用了符合数据区域更新模型的样本文档集,使得基于这种模型特征所确定的数据区域也更加准确,由此极大地提高了数据处理的效率和性能。
此外,本发明的实施例还提供了一种信息处理方法,该信息处理方法包括:获得待处理文档的树结构中的根节点到每个叶子节点的路径的标签序列;计算每个标签序列在上述待处理文档的树结构中的重复出现次数,并将重复出现次数相差在预定范围内的标签序列确定为同一组;获得每组标签序列的最大公共前缀,以确定上述待处理文档的信息结构布局;以及通过分析符合数据区域更新模型的样本文档集来在上述信息结构布局中确定数据区域,其中,上述样本文档集中的每个样本文档均具有上述信息结构布局。
下面结合图9来描述上述信息处理方法的一种示例性处理。
如图9所示,根据本发明的实施例的信息处理方法的处理流程900开始于步骤S910,然后执行步骤S920。
在步骤S920中,获得待处理文档的树结构中的根节点到每个叶子节点的路径的标签序列。然后执行步骤S930。其中,步骤S920中所执行的处理例如可以与上文中结合图1和/或图4所描述的标签序列获得单元110的处理相同,并能够达到类似的技术效果,在此不再赘述。
在步骤S930中,计算每个标签序列在待处理文档的树结构中的重复出现次数,并将重复出现次数相差在预定范围内的标签序列确定为同一组。然后执行步骤S940。其中,步骤S930中所执行的处理例如可以与上文中结合图1所描述的分组单元120的处理相同,并能够达到类似的技术效果,在此不再赘述。
在步骤S940中,获得每组标签序列的最大公共前缀,以确定待处理文档的信息结构布局。然后执行步骤S950。其中,步骤S940中所执行的处理例如可以与上文中结合图1所描述的布局确定单元130的处理相同,并能够达到类似的技术效果,在此不再赘述。
在步骤S950中,通过分析符合数据区域更新模型的样本文档集来在步骤S940中所确定的信息结构布局中确定数据区域,其中,样本文档集中的每个样本文档均具有上述信息结构布局。然后执行步骤S960。其中,步骤S950中所执行的处理例如可以与上文中结合图1和/或图6所描述的数据区域确定单元140的处理相同,并能够达到类似的技术效果,在此不再赘述。
处理流程900结束于步骤S960。
在根据本发明的实施例的信息处理方法的另一种实现方式中,在步骤S930和S940之间,还可以选择性地包括如图10所示的步骤S935。在这种实现方式中,在通过执行步骤S930实现对标签序列的分组之后,可以在步骤S935中对这些分组的标签序列进行过滤,若某组标签序列中所包含的所有标签序列个数小于或等于预定阈值,则删除这一组标签序列。其中,步骤S935中所执行的处理例如可以与上文中结合图8所描述的标签序列过滤单元860的处理相同,并能够达到类似的技术效果,在此不再赘述。
此外,如图10所示的处理流程1000所示,在根据本发明的实施例的信息处理方法的其他实现方式中,在执行完步骤S950之后,还可以选择性地包括步骤S955。其中,在步骤S955中,可以针对与所确定的数据区域对应的每个最大公共前缀,在具有与上述待处理文档的信息结构布局相同的信息结构布局的其他文档中提取与该最大公共前缀对应的数据记录。步骤S955中所执行的处理例如可以与上文中结合图7所描述的数据记录提取单元750的处理相同,并能够达到类似的技术效果,在此不再赘述。
需要注意的是,以上结合图10所描述的步骤S935和步骤S955可以分别在不同的实施例中执行,也可以在同一个实施例中执行。此外,图10中除S935和S955之外的其他步骤可以与图9中的对应步骤执行相同的处理,并能够达到类似的技术效果,在此不再赘述。
通过以上描述可知,上述根据本发明的实施例的信息处理方法利用了待处理文档的树结构来确定待处理文档中的数据区域。在处理的过程中,其基于树结构中各路径的标签序列的重复出现次数来对标签序列分组,并进而获得每一组标签序列的最大公共前缀,作为对这组标签序列对应区域的一种描述。利用这种描述,通过分析符合数据区域更新模型的样本文档集,便可在待处理文档的信息结构布局中确定数据区域。相比于传统的用于确定数据区域的技术,上述根据本发明的实施例的信息处理方法在获得最大公共前缀的过程中,利用了标签序列的重复出现次数对标签序列进行分组,然后再对分组的标签序列进行挖掘以得到上述最大公共前缀,由此能够使得基于最大公共前缀所获得的信息结构布局更加准确(区域划分更准确)。此外,在确定数据区域的过程中,上述根据本发明的实施例的信息处理方法利用了符合数据区域更新模型的样本文档集,使得基于这种模型特征所确定的数据区域也更加准确,由此极大地提高了数据处理的效率和性能。
此外,本发明的实施例还提供了一种电子设备,该电子设备包括如上所述的信息处理装置。在根据本发明的实施例的上述电子设备的具体实现方式中,上述电子设备可以是以下设备中的任意一种设备:计算机;平板电脑;个人数字助理;多媒体播放设备;手机以及电纸书等等。其中,该电子设备具有上述信息处理装置的各种功能和技术效果,这里不再赘述。
上述根据本发明的实施例的信息处理装置中的各个组成单元、子单元、模块等可以通过软件、固件、硬件或其任意组合的方式进行配置。在通过软件或固件实现的情况下,可从存储介质或网络向具有专用硬件结构的机器(例如图11所示的通用机器1100)安装构成该软件或固件的程序,该机器在安装有各种程序时,能够执行上述各组成单元、子单元的各种功能。
图11是示出了可用来实现根据本发明的实施例的信息处理装置和信息处理方法的一种可能的信息处理设备的硬件配置的结构简图。
在图11中,中央处理单元(CPU)1101根据只读存储器(ROM)1102中存储的程序或从存储部分1108加载到随机存取存储器(RAM)1103的程序执行各种处理。在RAM 1103中,还根据需要存储当CPU 1101执行各种处理等等时所需的数据。CPU 1101、ROM 1102和RAM 1103经由总线1104彼此连接。输入/输出接口1105也连接到总线1104。
下述部件也连接到输入/输出接口1105:输入部分1106(包括键盘、鼠标等等)、输出部分1107(包括显示器,例如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分1108(包括硬盘等)、通信部分1109(包括网络接口卡例如LAN卡、调制解调器等)。通信部分1109经由网络例如因特网执行通信处理。根据需要,驱动器1110也可连接到输入/输出接口1105。可拆卸介质1111例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器1110上,使得从中读出的计算机程序可根据需要被安装到存储部分1108中。
在通过软件实现上述系列处理的情况下,可以从网络例如因特网或从存储介质例如可拆卸介质1111安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图11所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1111。可拆卸介质1111的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 1102、存储部分1108中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
此外,本发明还提出了一种存储有机器可读取的指令代码的程序产品。上述指令代码由机器读取并执行时,可执行上述根据本发明的实施例的信息处理方法。相应地,用于承载这种程序产品的例如磁盘、光盘、磁光盘、半导体存储器等的各种存储介质也包括在本发明的公开中。
在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
此外,本发明的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行,也可以按照其他的时间顺序、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
此外,显然,根据本发明的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。
而且,本发明的目的也可以通过下述方式实现:将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备,并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。
此时,只要该系统或者设备具有执行程序的功能,则本发明的实施方式不局限于程序,并且该程序也可以是任意的形式,例如,目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。
上述这些机器可读存储介质包括但不限于:各种存储器和存储单元,半导体设备,磁盘单元例如光、磁和磁光盘,以及其它适于存储信息的介质等。
另外,客户计算机通过连接到因特网上的相应网站,并且将依据本发明的计算机程序代码下载和安装到计算机中然后执行该程序,也可以实现本发明。
最后,还需要说明的是,在本文中,诸如左和右、第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
综上,在根据本发明的实施例中,本发明提供了如下方案但不限于此:
附记1.一种信息处理装置,包括:
标签序列获得单元,其被配置用于获得待处理文档的树结构中的根节点到每个叶子节点的路径的标签序列;
分组单元,其被配置用于计算每个所述标签序列在所述待处理文档的树结构中的重复出现次数,并将重复出现次数相差在预定范围内的标签序列确定为同一组;
布局确定单元,其被配置用于获得每组标签序列的最大公共前缀,以确定所述待处理文档的信息结构布局;以及
数据区域确定单元,其被配置用于通过分析符合数据区域更新模型的样本文档集来在所述信息结构布局中确定数据区域,其中,所述样本文档集中的每个样本文档均具有所述信息结构布局。
附记2.根据附记1所述的信息处理装置,其中,所述数据区域确定单元包括:
获得模块,其被配置用于针对每个所述最大公共前缀,分别获得所述样本文档集内的每个样本文档中与该最大公共前缀对应的记录条目;以及
确定模块,其被配置用于针对每个所述最大公共前缀,在所述样本文档集内的每两个或至少两个相邻样本文档符合以下条件的情况下,将该最大公共前缀对应的记录区域确定为数据区域:
时间上在后的样本文档所包含的与该最大公共前缀对应的所有记录条目中包括有时间上在先的样本文档所包含的与该最大公共前缀对应的所有记录条目中的至少一个;以及
时间上在后的样本文档所包含的与该最大公共前缀对应的所有记录条目中的至少一个未被包括在时间上在先的样本文档所包含的与该最大公共前缀对应的所有记录条目中。
附记3.根据附记1或2所述的信息处理装置,其中,所述样本文档集包括所述待处理文档。
附记4.根据附记1-3中任一所述的信息处理装置,还包括:
数据记录提取单元,其被配置用于针对与所确定的数据区域对应的每个所述最大公共前缀,在具有与所述待处理文档的信息结构布局相同的信息结构布局的其他文档中提取与该最大公共前缀对应的数据记录。
附记5.根据附记1-4中任一所述的信息处理装置,其中,所述标签序列获得单元包括:
标签记录模块,其被配置用于针对从所述待处理文档的树结构中的根节点到每个叶子节点的每个路径,记录该路径依次经过的每个节点的标签;以及
序列形成模块,其被配置用于针对所述每个路径,利用该路径经过的所有节点的标签、并按照各个标签的记录顺序形成该路径的标签序列。
附记6.根据附记5所述的信息处理装置,其中,所述标签序列获得单元还包括:
兄弟节点区分模块,其被配置用于在所述待处理文档的树结构所包含的所有叶子节点中存在作为兄弟节点的M个叶子节点的标签相同的情况下,使用预定字符序列中的前M个来区分所述M个叶子节点的标签。
附记7.根据附记1-6中任一所述的信息处理装置,还包括:
标签序列过滤单元,其被配置用于针对每组标签序列,判定该组标签序列中所包含的所有标签序列的总数是否小于或等于预定阈值,并在该组标签序列中所包含的所有标签序列的总数小于或等于预定阈值的情况下删除该组标签序列;其中,重复出现的标签序列计为一个。
附记8.根据附记1-7中任一所述的信息处理装置,其中:
所述待处理文档为HTML格式文档;和/或
所述树结构采用文档对象化模型树结构。
附记9.一种信息处理方法,包括:
获得待处理文档的树结构中的根节点到每个叶子节点的路径的标签序列;
计算每个所述标签序列在所述待处理文档的树结构中的重复出现次数,并将重复出现次数相差在预定范围内的标签序列确定为同一组;
获得每组标签序列的最大公共前缀,以确定所述待处理文档的信息结构布局;以及
通过分析符合数据区域更新模型的样本文档集来在所述信息结构布局中确定数据区域,其中,所述样本文档集中的每个样本文档均具有所述信息结构布局。
附记10.根据附记9所述的信息处理方法,其中,所述确定数据区域的步骤包括:
针对每个所述最大公共前缀,
分别获得所述样本文档集内的每个样本文档中与该最大公共前缀对应的记录条目,以及
在所述样本文档集内的每两个或至少两个相邻样本文档符合以下条件的情况下,将该最大公共前缀对应的记录区域确定为数据区域:时间上在后的样本文档所包含的与该最大公共前缀对应的所有记录条目中包括有时间上在先的样本文档所包含的与该最大公共前缀对应的所有记录条目中的至少一个;以及时间上在后的样本文档所包含的与该最大公共前缀对应的所有记录条目中的至少一个未被包括在时间上在先的样本文档所包含的与该最大公共前缀对应的所有记录条目中。
附记11.根据附记9或10所述的信息处理方法,其中,所述样本文档集包括所述待处理文档。
附记12.根据附记9-11中任一所述的信息处理方法,还包括:
针对与所确定的数据区域对应的每个所述最大公共前缀,在具有与所述待处理文档的信息结构布局相同的信息结构布局的其他文档中提取与该最大公共前缀对应的数据记录。
附记13.根据附记9-12中任一所述的信息处理方法,其中,获得所述标签序列的步骤包括:
针对从所述待处理文档的树结构中的根节点到每个叶子节点的每个路径,
记录该路径依次经过的每个节点的标签,以及
利用该路径经过的所有节点的标签、并按照各个标签的记录顺序形成该路径的标签序列。
附记14.根据附记13所述的信息处理方法,其中,获得所述标签序列的步骤还包括:
在所述待处理文档的树结构所包含的所有叶子节点中存在作为兄弟节点的M个叶子节点的标签相同的情况下,使用预定字符序列中的前M个来区分所述M个叶子节点的标签。
附记15.根据附记9-14中任一所述的信息处理方法,在所述获得每组标签序列的最大公共前缀的步骤之前还包括:
针对每组标签序列,判定该组标签序列中所包含的所有标签序列的总数是否小于或等于预定阈值,并在该组标签序列中所包含的所有标签序列的总数小于或等于预定阈值的情况下删除该组标签序列;其中,重复出现的标签序列计为一个。
附记16.根据附记9-15中任一所述的信息处理方法,其中:
所述待处理文档为HTML格式文档;和/或
所述树结构采用文档对象化模型树结构。
附记17.一种电子设备,包括如附记1-8中任一所述的信息处理装置。
附记18.根据附记17所述的电子设备,其中,所述电子设备是以下设备中的任意一种:
计算机;平板电脑;个人数字助理;多媒体播放设备;手机以及电纸书。
附记19.一种存储有机器可读取的指令代码的程序产品,所述程序产品在执行时能够使所述机器执行根据附记9-16中任一所述的信息处理方法。
附记20.一种计算机可读存储介质,其上存储有根据附记19所述的程序产品。
Claims (10)
1.一种信息处理装置,包括:
标签序列获得单元,其被配置用于获得待处理文档的树结构中的根节点到每个叶子节点的路径的标签序列;
分组单元,其被配置用于计算每个所述标签序列在所述待处理文档的树结构中的重复出现次数,并将重复出现次数相差在预定范围内的标签序列确定为同一组;
布局确定单元,其被配置用于获得每组标签序列的最大公共前缀,以确定所述待处理文档的信息结构布局;以及
数据区域确定单元,其被配置用于通过分析符合数据区域更新模型的样本文档集来在所述信息结构布局中确定数据区域,其中,所述样本文档集中的每个样本文档均具有所述信息结构布局。
2.根据权利要求1所述的信息处理装置,其中,所述数据区域确定单元包括:
获得模块,其被配置用于针对每个所述最大公共前缀,分别获得所述样本文档集内的每个样本文档中与该最大公共前缀对应的记录条目;以及
确定模块,其被配置用于针对每个所述最大公共前缀,在所述样本文档集内的每两个或至少两个相邻样本文档符合以下条件的情况下,将该最大公共前缀对应的记录区域确定为数据区域:
时间上在后的样本文档所包含的与该最大公共前缀对应的所有记录条目中包括有时间上在先的样本文档所包含的与该最大公共前缀对应的所有记录条目中的至少一个;以及
时间上在后的样本文档所包含的与该最大公共前缀对应的所有记录条目中的至少一个未被包括在时间上在先的样本文档所包含的与该最大公共前缀对应的所有记录条目中。
3.根据权利要求1或2所述的信息处理装置,其中,所述样本文档集包括所述待处理文档。
4.根据权利要求1-3中任一所述的信息处理装置,还包括:
数据记录提取单元,其被配置用于针对与所确定的数据区域对应的每个所述最大公共前缀,在具有与所述待处理文档的信息结构布局相同的信息结构布局的其他文档中提取与该最大公共前缀对应的数据记录。
5.根据权利要求1-4中任一所述的信息处理装置,其中,所述标签序列获得单元包括:
标签记录模块,其被配置用于针对从所述待处理文档的树结构中的根节点到每个叶子节点的每个路径,记录该路径依次经过的每个节点的标签;以及
序列形成模块,其被配置用于针对所述每个路径,利用该路径经过的所有节点的标签、并按照各个标签的记录顺序形成该路径的标签序列。
6.根据权利要求5所述的信息处理装置,其中,所述标签序列获得单元还包括:
兄弟节点区分模块,其被配置用于在所述待处理文档的树结构所包含的所有叶子节点中存在作为兄弟节点的M个叶子节点的标签相同的情况下,使用预定字符序列中的前M个来区分所述M个叶子节点的标签。
7.根据权利要求1-6中任一所述的信息处理装置,还包括:
标签序列过滤单元,其被配置用于针对每组标签序列,判定该组标签序列中所包含的所有标签序列的总数是否小于或等于预定阈值,并在该组标签序列中所包含的所有标签序列的总数小于或等于预定阈值的情况下删除该组标签序列;其中,重复出现的标签序列计为一个。
8.根据权利要求1-7中任一所述的信息处理装置,其中:
所述待处理文档为HTML格式待处理文档;和/或
所述树结构采用文档对象化模型树结构。
9.一种信息处理方法,包括:
获得待处理文档的树结构中的根节点到每个叶子节点的路径的标签序列;
计算每个所述标签序列在所述待处理文档的树结构中的重复出现次数,并将重复出现次数相差在预定范围内的标签序列确定为同一组;
获得每组标签序列的最大公共前缀,以确定所述待处理文档的信息结构布局;以及
通过分析符合数据区域更新模型的样本文档集来在所述信息结构布局中确定数据区域,其中,所述样本文档集中的每个样本文档均具有所述信息结构布局。
10.一种电子设备,包括如权利要求1-8中任一所述的信息处理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210404437.2A CN103778104B (zh) | 2012-10-22 | 2012-10-22 | 信息处理装置、信息处理方法以及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210404437.2A CN103778104B (zh) | 2012-10-22 | 2012-10-22 | 信息处理装置、信息处理方法以及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103778104A true CN103778104A (zh) | 2014-05-07 |
CN103778104B CN103778104B (zh) | 2017-05-03 |
Family
ID=50570351
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210404437.2A Expired - Fee Related CN103778104B (zh) | 2012-10-22 | 2012-10-22 | 信息处理装置、信息处理方法以及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103778104B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111625748A (zh) * | 2020-06-01 | 2020-09-04 | 深圳市小满科技有限公司 | 网站的导航栏信息提取方法、装置、电子设备及存储介质 |
CN115512461A (zh) * | 2022-11-16 | 2022-12-23 | 华南师范大学 | 飞机巡航稳态的确定方法、装置以及计算机设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050038785A1 (en) * | 2003-07-29 | 2005-02-17 | Neeraj Agrawal | Determining structural similarity in semi-structured documents |
US7254581B2 (en) * | 2002-11-13 | 2007-08-07 | Jerry Johnson | System and method for creation and maintenance of a rich content or content-centric electronic catalog |
CN101515287A (zh) * | 2009-03-24 | 2009-08-26 | 崔志明 | 一种用于复杂页面的包装器自动生成方法 |
CN101582074A (zh) * | 2009-01-21 | 2009-11-18 | 东北大学 | 一种DeepWeb响应页面数据抽取方法 |
CN101944109A (zh) * | 2010-09-06 | 2011-01-12 | 华南理工大学 | 一种基于页面分块的图片摘要提取系统及方法 |
CN101984434A (zh) * | 2010-11-16 | 2011-03-09 | 东北大学 | 基于可扩展语言查询的网页数据抽取方法 |
CN102521325A (zh) * | 2011-12-02 | 2012-06-27 | 西北工业大学 | 基于频繁关联标签序列的xml结构相似度度量方法 |
-
2012
- 2012-10-22 CN CN201210404437.2A patent/CN103778104B/zh not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7254581B2 (en) * | 2002-11-13 | 2007-08-07 | Jerry Johnson | System and method for creation and maintenance of a rich content or content-centric electronic catalog |
US20050038785A1 (en) * | 2003-07-29 | 2005-02-17 | Neeraj Agrawal | Determining structural similarity in semi-structured documents |
CN101582074A (zh) * | 2009-01-21 | 2009-11-18 | 东北大学 | 一种DeepWeb响应页面数据抽取方法 |
CN101515287A (zh) * | 2009-03-24 | 2009-08-26 | 崔志明 | 一种用于复杂页面的包装器自动生成方法 |
CN101944109A (zh) * | 2010-09-06 | 2011-01-12 | 华南理工大学 | 一种基于页面分块的图片摘要提取系统及方法 |
CN101984434A (zh) * | 2010-11-16 | 2011-03-09 | 东北大学 | 基于可扩展语言查询的网页数据抽取方法 |
CN102521325A (zh) * | 2011-12-02 | 2012-06-27 | 西北工业大学 | 基于频繁关联标签序列的xml结构相似度度量方法 |
Non-Patent Citations (1)
Title |
---|
陈晓锋 等: "基于XPath比较的Web数据抽取方法", 《郑州大学学报(理学版)》, vol. 39, no. 2, 30 June 2007 (2007-06-30) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111625748A (zh) * | 2020-06-01 | 2020-09-04 | 深圳市小满科技有限公司 | 网站的导航栏信息提取方法、装置、电子设备及存储介质 |
CN111625748B (zh) * | 2020-06-01 | 2024-01-09 | 深圳市小满科技有限公司 | 网站的导航栏信息提取方法、装置、电子设备及存储介质 |
CN115512461A (zh) * | 2022-11-16 | 2022-12-23 | 华南师范大学 | 飞机巡航稳态的确定方法、装置以及计算机设备 |
CN115512461B (zh) * | 2022-11-16 | 2023-02-07 | 华南师范大学 | 飞机巡航稳态的确定方法、装置以及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN103778104B (zh) | 2017-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101694668B (zh) | 网页结构相似性确定方法及装置 | |
CN101950312B (zh) | 一种互联网网页内容解析方法 | |
CN103473338B (zh) | 网页内容抽取方法和网页内容抽取系统 | |
US20090276378A1 (en) | System and Method for Identifying Document Structure and Associated Metainformation and Facilitating Appropriate Processing | |
CN105095755A (zh) | 文件识别方法和装置 | |
CN102163203B (zh) | 网页下载的方法和装置 | |
CN102722709A (zh) | 一种垃圾图片识别方法和装置 | |
CN104331438B (zh) | 对小说网页内容选择性抽取方法和装置 | |
CN104598462A (zh) | 提取结构化数据的方法及装置 | |
Figueiredo et al. | DERIN: A data extraction method based on rendering information and n-gram | |
CN103678371B (zh) | 词库更新装置、数据整合装置和方法以及电子设备 | |
CN107644050A (zh) | 一种基于solr的Hbase的查询方法及装置 | |
CN105550169A (zh) | 一种基于字符长度识别兴趣点名称的方法和装置 | |
CN112364014A (zh) | 数据查询方法、装置、服务器及存储介质 | |
CN108804472A (zh) | 一种网页内容抽取方法、装置及服务器 | |
CN105117434A (zh) | 一种网页分类方法和系统 | |
CN105095206A (zh) | 信息处理方法以及信息处理装置 | |
CN110941616B (zh) | 出版物中关联数据生成方法、装置、设备及存储介质 | |
CN103778104A (zh) | 信息处理装置、信息处理方法以及电子设备 | |
CN106202349A (zh) | 网页分类字典生成方法及装置 | |
CN105095390A (zh) | 基于poi数据的连锁品牌采集方法及装置 | |
CN110765100B (zh) | 标签的生成方法、装置、计算机可读存储介质及服务器 | |
CN115062206B (zh) | 一种网页元素的搜索方法和电子设备 | |
CN103488743B (zh) | 网页元素抽取方法和网页元素抽取系统 | |
CN104991920A (zh) | 标签的生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170503 Termination date: 20181022 |