CN102460432A - 选择性内容提取 - Google Patents

选择性内容提取 Download PDF

Info

Publication number
CN102460432A
CN102460432A CN2009801602373A CN200980160237A CN102460432A CN 102460432 A CN102460432 A CN 102460432A CN 2009801602373 A CN2009801602373 A CN 2009801602373A CN 200980160237 A CN200980160237 A CN 200980160237A CN 102460432 A CN102460432 A CN 102460432A
Authority
CN
China
Prior art keywords
content
node
article
webpage
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2009801602373A
Other languages
English (en)
Other versions
CN102460432B (zh
Inventor
S.刘
P.乔施
Y.熊
C.阿特金斯
J.刘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Development Co LP
Original Assignee
Hewlett Packard Development Co LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Development Co LP filed Critical Hewlett Packard Development Co LP
Publication of CN102460432A publication Critical patent/CN102460432A/zh
Application granted granted Critical
Publication of CN102460432B publication Critical patent/CN102460432B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

一种用于提取网页内容的方法包括在网页页面内检测包括多个节点的分级结构。识别来自多个节点的潜在文章节点。将在分级结构中具有最高等级的所识别的潜在文章节点识别为文章节点。从文章节点提取内容。

Description

选择性内容提取
背景技术
网页页面常常被设计为用于屏幕显示而不是打印。除可以包括文本和图像的主要文章之外,网页页面常常包括动态地生成的广告及其它外围信息。结果,期望打印网页页面的用户常常对结果感到挫败。打印的网页页面可以具有跨越多个页面的杂乱外观,主要文章—被点缀广告及其它外围内容—出现在一个页面上或分裂于两个或更多页面之间。
附图说明
图1是网页页面格式的示例性描绘。
图2是具有点缀内容的图1的网页页面格式的示例性描绘。
图3~5是根据实施例的分级结构的示例性描绘。
图6是根据实施例的提取的内容的示例性描绘。
图7是根据实施例的其中已经排除了所选提取内容的示例性描绘。
图8是根据实施例的产生的内容的示例性描绘。
图9是根据实施例的选择性内容提取系统的示例性描绘。
图10是根据实施例的其中可以实现权利要求9的系统的环境的示例性描绘。
图11和12是描绘实现各种实施例所采取的步骤的流程图。
具体实施方式
介绍:下述各种实施例进行操作以选择性地和自动地从网页页面或一系列相关网页页面提取内容。然后可以产生提取的内容,正如本文所使用的,产生所提取的内容可以包括但不限于打印、显示、传送和以电子方式存储。
在操作中,检查网页页面以识别诸如DOM(文档对象模型)的分级结构。检查该结构的节点以识别潜在文章节点。在示例中,潜在文章节点是包括超过门限的数量的文本的那些节点。该门限限定一定数目的字符或词语。首先出现在结构中的潜在文章被识别为文章节点。提取、合并并产生来自同一分级水平处的文章节点和兄弟节点的内容。在某些情况下,排除诸如来自兄弟节点的广告的内容。
网页内容:可以使用网页内容来向用户传送信息。该信息包括用户请求的文章内容以及诸如网站识别、链接和各种各样广告的外围内容。文章内容可以包括诸如与特定主题有关的文本和图像的信息,诸如新闻故事、处方或任何其它主题。
图1是用于网页页面10的示例性格式。虽然所示的格式是示例性的,但其包括普通部分,包括文章12(article)、页眉(header)14、专栏(column)16和页脚(footer)18。文章部分12包括诸如与感兴趣的特定主题有关的文本和图像的文章内容。示例包括但不限于新闻故事、建筑平面图和处方。它还可以包括不是直接与文章内容有关的内嵌广告及其它外围内容。页眉14通常包括识别网站、导航链接和通常横幅广告的数据。专栏16可以包括与文章部分14的内容有关或无关的广告和链接。页脚18可以包括识别网站、用于网站的导航链接和广告的数据。
图2是具有点缀在每个部分12~18内的示例性内容的图1的网页页面10的描绘。页眉14被示为包括横幅广告20、网站标题22和网站链接条24。横幅广告20一般地表示充当到另一网页页面的链接的图像。网站标题22表示诸如识别网站的文本和图像的内容。网站链接条24表示用于导航所识别的网站的一组链接。通常,内容20、22和24中没有一个直接与部分12的文章内容的主题有关。
文章部分12被示为包括标题26、文本28、图像30、内嵌广告32、文本34、内嵌广告36、文本38和在某些情况下的继续链接40。标题26表示文章内容的标题。文本28、34和38表示文章内容的主要文本。图像30表示作为文章内容的一部分的图片或其它图形内容。内嵌广告32和36表示到其它网站的链接,并且不必要与标题26、文本28、24和38以及图像30有关,并且在文章内容外围。文章内容可以跨越一个或多个附加网页页面。在这种情况下,包括继续链接40。继续链接40表示到包含附加文章内容的后续网页页面的链接,并且时间常常出现在文章部分12的结尾处且包括词语“下一个”或“1”和“2”。该附加网页页面可以包括或可以不包括到又另一网页页面的另一继续链接。
专栏部分16被示为包括专栏广告44、相关链接46以及专栏广告48。专栏广告44和48表示到其它网站的链接,并且可以是或可以不是与文章内容的主题有关。相关链接46表示到网站的其它网页页面的链接,其包括与网页页面10的文章内容有关的其它文章内容。页脚18被示为包括横幅广告50和网站链接条52。横幅广告50一般地表示充当到另一网页页面的链接的图像。网站链接条52表示用于导航网站的一组链接。通常,内容44~52中没有一个直接与部分12的文章内容的主题有关。
内容提取:使用图2的网页页面10作为示例,下文相对于图3~8所讨论的各种实施例进行操作以自动地提取部分12的文章内容。排除来自部分14~18的内容。然后可以以诸如打印、存档、电子邮件发送等多种方式来产生提取的内容。当然,网页页面10仅仅被用作示例。下文所讨论的程序对多种网页页面格式起作用。
从图3开始,识别主题网页页面的分级结构52。在这里,主题网页页面是图2的网页页面10。此类分级结构可以是如在图3中描绘并在图4和5中扩展的网页页面的DOM(文档对象模型)。结构52包括多个分级地组织的节点。节点54是根节点,其在本示例中将网页页面语言识别为HTML(超文本标记语言)。请注意,节点54包括打开标签“<HTML>”和关闭标签“</HTML>”。出于参考附图的效率的目的,将两个标签称为单数节点54。在其它上下文中,可以将每个标签识别为结构52上的单独节点。
根节点54包括或另外包含子节点56和58。关于彼此,节点56和58是结构52内的同一分级水平处的兄弟。节点56对应于HTML代码的头部标签并包括被识别为头部内容60的一个(或多个)子节点。头部内容60表示包含对于网页页面的观看者而言不直接可见的内容的一个或多个子节点。头部内容60可以包括到诸如样式表和Java脚本程序的项目的外部链接。头部内容60还包括出现在观看者的浏览器的顶栏中的用于网页页面的标题。其它元素可以包括页面描述和关键字。
节点58对应于HTML代码的主体标签,并包括或另外包含在本示例中对应于网页页面10的部分12~18的内容62~68。换言之,主体内容62~68表示定义在观看网页页面时能够看到的内容的各种子节点。页眉内容62表示定义网页页面10的页眉部分14的内容的各种节点。相对于图4被扩展的文章内容64表示定义网页页面10的文章部分12的内容的各种节点。相对于图5被扩展的专栏内容66表示定义网页页面10的专栏部分16的内容的各种节点。页脚内容68表示定义网页页面10的页脚部分18的内容的各种节点。
现在参考图4,文章内容64包括节点70,其表示对应于网页页面10的文章部分12的打开和关闭标签。示例性标签可以包括但不限于<div>、<p>和<br>。标签70包括或另外包含子节点72~86。相对于图2:
•节点72对应于用于标题26的标签和内容72a;
•节点74对应于用于文本28的标签和内容74a;
•节点76对应于用于图像30的标签和内容76a;
•节点78对应于用于内嵌广告32的标签和内容78a;
•节点80对应于用于文本34的标签和内容80a;
•节点82对应于用于内嵌广告36的标签和内容74a;
•节点84对应于用于文本38的标签和内容84a;以及
•节点86对应于链接40的标签和内容86a。
参考图5,专栏内容66包括表示对应于网页页面10的专栏部分16的打开和关闭标签的节点88。示例性标签可以包括但不限于<div>、<p>和<br>。标签88包括或另外包含子节点90~94。相对于图2:
•节点90对应于用于专栏广告44的标签和内容90a;
•节点92对应于用于相关链接46的标签和内容92a;以及
•节点94对应于用于专栏广告48的标签和内容94a。
如上所指出的,目的是从文章部分12提取并公布内容,其排除了来自其它部分14~18的内容。另一目的是在公布之前进一步从提取的文章内容削减广告及其它外围信息。为了这样做,检查图3~5中所示的结构52以识别潜在的文章节点。在图1~5的示例中,文章节点是包含作为文章部分12的一部分的内容的那些节点。潜在文章节点是具有特性的节点,该特性指示节点包含直接与网页页面的主要主题有关的内容的可能性。在一个示例中,潜在文章节点是包含超过门限的数量的文本的节点。该门限可以限定一定数目的字符或词语。从所识别的潜在文章节点,首先出现在结构中的节点被识别为文章节点。提取、合并并产生来自文章节点和兄弟节点的内容。在某些情况下,排除诸如广告的内容。
在返回参考图3~5的同时移动至图6,假定节点74的文本74a、节点84的文本84a和节点92的相关链接92a每个包括超过门限的数量的文本。因此,可以将节点74、84和92中的每一个识别为潜在文章节点。在结构52内,节点74首先出现,并因此具有所识别的潜在文章节点的最高等级(rank)。结果,在本示例中,将节点74选作文章节点。节点72和76~86是节点74的兄弟节点。换言之,节点72和76~86在结构52内处于与节点74相同的分级水平。
如图6的示例性内容结构96所描绘的,提取并合并来自所识别的文章节点74和兄弟节点72和76~86的内容。在产生结构96的内容之前,识别在所识别的文章节点74的文本外围的内容并将其排除,如图7的示例性内容结构98所描绘的。可以以许多方式来识别外围内容。例如,外围内容可以包括具有文本“广告”的链接或图像。外围内容可以是具有在门限值以下的数量的文本的链接。例如,到相关页面的继续链接可以简单地包括词语“下一个”或“继续”或“1”和“2”。因此,在图7中,已经从图7中的结构98排除内容78a、82a和86a。
然后可以如图8的产生的内容100所描绘地产生内容结构98的内容72a、74a、76a、80a和84a。如上所指出的,可以以许多方式来产生提取的内容,包括打印、在监视器上显示、经由电子邮件或网页页面传送以及以电子方式存储在文件中。在图8的示例中,产生的内容100包括直接与网页页面10的主要主题、即文章部分12的主题有关的内容。从产生的内容100排除的是来自部分14~18的内容和来自部分12的外围内容。
提取系统:图9~10描绘根据实施例的充当系统102的各种物理和逻辑部件,用于选择性地提取网页内容。系统102被示为包括结构引擎104、文章引擎106和产生引擎108。结构引擎104一般地表示能够在网页页面内检测包括多个节点的分级结构的硬件和编程的任何组合。如所指出的,此类分级结构可以包括DOM(文档对象模型)。
文章引擎106一般地表示能够识别来自分级结构的多个节点的潜在文章节点的硬件和编程的任何组合。文章引擎106可以通过识别包含超过给定门限的数量的文本(诸如许多词语或字符)的那些节点来执行此任务。文章引擎106然后将在分级结构中具有最高等级的潜在文章节点识别为文章节点。文章引擎106从所识别的文章节点提取内容。在所识别的文章节点具有兄弟节点、它们是处于同一分级水平处的节点的情况下,文章引擎106从那些兄弟节点提取内容并将所提取的内容合并。文章引擎106还可以负责从合并的内容排除来自兄弟节点中的一个或多个的内容。检查所提取的内容,文章引擎106可以排除来自兄弟节点的包括与图像相结合的词语“广告”或“ad”的内容。文章引擎106还可以排除来自兄弟节点的包括落在门限以下的数量的文本的内容。
文章引擎106还可以负责确定所识别的文章节点的兄弟节点是否包括指示相关后续网页页面的存在的内容。相关后续网页页面是具有文章节点的网页页面,该文章节点具有作为当前网页页面的提取内容的继续的内容。如在图4中所描绘的,诸如节点86的兄弟节点可以包括与词语“下一个”或后续网页页面包含与所提取的内容有关的内容的某个其它指示符的链接。因此,文章引擎106可以针对包括链接和词语“下一个”或“1”和“2”或“继续”的内容检查兄弟节点。在检测到此类内容时,结构引擎104在由该链接参考的网页页面内检测包括多个节点的分级结构。检查该新的多个节点,文章引擎106以先前所述的方式提取内容,将新提取的内容附加于先前提取的内容。此过程可以重复直到文章引擎106不再发现相关后续网页页面的指示。
产生引擎108一般地表示能够产生提取和合并的内容的硬件和编程的任何组合。如上所指出的,可以以许多方式来产生提取的内容,包括打印、在监视器上显示、经由电子邮件或网页页面传送以及以电子方式存储在文件中。
可以在诸如图10的环境110的许多环境中实现图9的系统102。环境110包括客户端设备112、服务器设备114和116、打印机118、数据储存库122和显示设备124。客户端设备一般地表示能够获得和处理网页内容的任何计算设备。例如,客户端设备112可以是台式计算机、膝上型计算机、智能电话。服务器设备114一般地表示能够向客户端设备112提供网页页面服务的任何计算设备。服务器设备116一般地表示能够向客户端设备112提供远程应用服务的任何一个或多个计算设备。打印机118一般地表示能够产生打印的图像的任何图像形成设备。数据储存库一般地表示能够存储电子数据以供稍后检索和使用的任何服务。显示设备124一般地表示能够显示期望图像的诸如计算机监视器或电视的任何设备。
链接124将客户端设备112与设备114~122互连。链接124一般地表示经由电信链接、红外链接、射频链接或提供电子通信的任何其它连接器或系统的电缆、无线、光纤或远程连接的一个或多个。链接124可以表示内部网、因特网或两者的组合。如在图10中描绘的客户端设备112与设备114~122之间的链接124所遵循的路径表示这些设备之间的逻辑通信路径,不必要是设备之间的物理路径。
在图10的示例中,客户端设备112包括处理器126和存储器128。处理器160一般地表示能够执行存储在存储器130中的程序指令的任何设备。存储器130一般地表示被配置为存储程序指令的任何存储器,该程序指令在被执行时促使处理器128选择性地从网页页面提取网页内容或促使处理器128请求由服务器设备116执行的远程应用做相同的事情。
存储器130被示为包括OS(操作系统)130、驱动程序132和浏览器134。OS130一般地表示诸如驱动程序132和浏览器134的其它程序或应用在其顶部上运行的任何软件平台。示例包括Linux®和Microsoft Windows®。驱动程序132一般地表示在被执行时控制打印机118、数据储存库120和显示设备122的操作的任何程序指令。特别地,驱动程序132为OS 130和浏览程序134提供转换服务。驱动程序132将从OS 130和浏览器134接收到的一般命令转换成能够被外围设备118、120和122利用的设备特定命令。浏览器134一般地表示在被执行时进行操作以通过驱动程序132的使用来从服务器设备114检索网页页面的任何程序指令,驱动程序132进行操作以引起网页页面的显示并打印网页页面。
如上所指出的,图9的系统102的各种部件包括硬件和编程的组合。相对于图10,可以通过处理器126和/或服务器设备116来实现硬件部件。可以将编程元件实现为OS 130、驱动程序132、浏览器134和/或由服务器设备116执行的编程的一部分。
操作:图11~12是为了实现各种实施例所采取的步骤的示例性流程图。在讨论图11~12时,对图2~10的图进行参考以提供上下文示例。然而,实施方式不限于那些示例。从图11开始,在网页页面内检测分级结构(步骤136)。该结构包括多个分级地组织的节点。在给定示例中,结构是如在图3~5的示例中描绘的DOM(文档对象模型)。在图9的示例中,结构引擎104负责实现步骤136。参考图10,可以至少部分地经由OS 130、驱动程序132、浏览器134或者甚至由服务器设备116执行的编程来实现结构引擎104。
从在步骤136中检测的结构的多个节点识别潜在的文章节点(步骤138)。在这样做时,检查多个节点以识别具有特性的那些节点,该特性指示节点包含直接与网页页面的主要主题有关的内容的可能性。此类特性可以包括超过门限数目的词语或字符的文本量。选择结构内的具有最高等级的潜在文章节点—即首先出现的潜在文章节点作为文章节点(步骤140)。参考图9,文章引擎106负责实现步骤138和140。参考图10,可以至少部分地经由OS 130、驱动程序132、浏览器134或者甚至由服务器设备116执行的编程来实现文章引擎106。
产生来自所选文章节点的内容(步骤142)。产生可以包括打印、显示、经由电子消息传送、张贴到网站和保存到文件。参考图9,产生引擎108负责实现步骤138和140。参考图10,可以至少部分地经由OS 130、驱动程序132、浏览器134或者甚至由服务器设备116执行的编程来实现产生引擎108。
在步骤140中选择的文章节点可以不是包括所有文章内容。在这种情况下,识别所选文章节点的兄弟节点。将来自所选文章节点的内容与从那些兄弟节点提取的内容合并,并在步骤142中产生合并的内容。然而,某些兄弟节点可以包括在文章内容的主题外围的诸如广告和链接的内容。在产生合并的内容之前,识别那些兄弟节点,其包括在门限以下的数量的广告内容和文本内容中的一个或多个。可以例如通过搜索包括词语“广告”或“ad”或其变体且如果有任何其他文本则很少的注释来识别包含广告内容的兄弟节点。将来自此类识别的一个或多个兄弟节点的内容从合并的内容中排除。
移动至图12,在获得的网页页面内检测分级结构(步骤144)。该结构包括多个分级地组织的节点。在给定示例中,该结构是如在图3~5的示例中描绘的DOM(文档对象模型)。在图9的示例中,结构引擎104负责实现步骤144。参考图10,可以至少部分地经由OS 130、驱动程序132、浏览器134或者甚至由服务器设备116执行的编程来实现结构引擎104。
从在步骤144中检测的结构的多个节点识别潜在的文章节点(步骤146)。在这样做时,检查多个节点以识别具有特性的那些节点,该特性指示节点包含直接与网页页面的主要主题有关的内容的可能性。此类特性可以包括超过门限数目的词语或字符的文本量。选择在步骤144中检测的结构内的具有最高等级的潜在文章节点-即首先出现的潜在文章节点作为文章节点(步骤148)。从所选文章节点中提取内容(步骤150)。
确定是否存在相关后续网页页面(步骤152)。此类网页页面包含作为所选文章节点的内容的继续的内容。兄弟节点可以包括与词语“下一个”或后续网页页面包含与所选文章节点的内容有关的内容的某个其它指示符的链接。因此,文章引擎106可以在步骤152中针对包括链接和词语“下一个”或“继续”或“1”和“2”的内容检查所选文章节点的兄弟节点。在步骤152中的肯定确定时,获得后续网页页面(步骤154)且过程跳回至步骤144。在这种情况下,可以在每次重复步骤150时从所选文章节点提取内容。在步骤152中的否定确定时,过程继续至步骤156,其中,将在步骤150中从在步骤148中选择的一个或多个文章节点提取的内容合并。参考图9,文章引擎106负责实现步骤146~156。参考图10,可以至少部分地经由OS 130、驱动程序132、浏览器134或者甚至由服务器设备116执行的编程来实现文章引擎106。
然后产生合并的内容(步骤142)。产生可以包括打印、显示、经由电子消息传送、张贴到网站和保存到文件。参考图9,产生引擎108负责实现步骤138和140。参考图10,可以至少部分地经由OS 130、驱动程序132、浏览器134或者甚至由服务器设备116执行的编程来实现产生引擎108。
在步骤140中选择的一个或多个文章节点可以不包括所有文章内容。在这种情况下,识别所选文章节点的兄弟节点。在步骤150中提取来自那些兄弟节点的内容并在步骤156中合并。然而,某些兄弟节点可以包括在文章内容的主题外围的诸如广告和链接的内容。在产生合并的内容之前,识别那些兄弟节点,其包括在门限以下的数量的广告内容和文本内容中的一个或多个。可以例如通过搜索包括词语“广告”或其变体且如果有任何其他文本则很少的注释来识别包含广告内容的兄弟节点。将来自此类识别的一个或多个兄弟节点的内容从步骤156的合并内容中排除。
结论:图1~8的图用来相对于示例性网页页面描绘选择性内容提取。然而,实施方式不受限制。图9~10示出了各种实施例的架构、功能和操作。图9~10中所示的各种部件被至少部分地定义为程序。每个此类部件、其部分或其各种组合可以整体地或部分地表示包含将实现一个(或多个)任何指定逻辑功能的一个或多个可执行指令的模块、段或代码部分。每个部件或其各种组合可以表示将实现一个(或多个)指定逻辑功能的电路或许多互连电路。
并且,可以在供指令执行系统使用或与之有关的任何计算机可读介质中实施本发明,该指令执行系统诸如基于计算机/处理器的系统或ASIC(专用集成电路)或能够从计算机可读介质取出或获得逻辑并执行包含在其中的指令的其它系统。“计算机可读介质”可以是可以包含、存储或保持供指令执行系统使用或与之有关的程序和数据的任何介质。计算机可读介质可以包括许多物理介质中的任何一个,诸如,例如电子、磁性、光学、电磁或半导体介质。适当计算机可读介质的更具体示例包括但不限于诸如软盘或硬盘驱动器的便携式计算机磁盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程序只读存储器或便携式压缩盘。
虽然图11~12的流程图示出执行的特定顺序,但执行的顺序可以与所描绘的顺序不同。例如,可以相对于所示的顺序扰乱两个或更多方框的执行的顺序。并且,可以同时地或部分同时地执行连续地示出的两个或更多方框。所有此类变型在本发明的范围内。
已经参考前述示例性实施例示出并描述了本发明。然而,应理解的是在不脱离在以下权利要求中限定的本发明的精神和范围的情况下可以产生其它形式、细节和实施例。

Claims (15)

1.一种用于提取网页内容的方法,包括:
在网页页面内检测包括多个节点的分级结构;
从所述多个节点识别潜在文章节点;
选择在分级结构中具有最高等级的所识别的潜在文章节点中的一个作为文章节点;以及
产生从文章节点提取的内容。
2.权利要求1的方法:
还包括将文章节点的内容与来自在与文章节点相同的分级水平处的其它节点的内容合并;以及
其中,产生包括产生合并的内容。
3.权利要求2的方法,还包括:
在与文章节点相同的分级水平处识别节点,该节点包含广告内容和在门限值以下的数量的文本内容中的一个或多个,以及
将来自所识别的节点的内容从合并的内容中排除。
4.权利要求1的方法,其中,识别潜在文章节点包括识别所述多个节点中的一个或多个,其包含超过门限的数量的文本内容。
5.权利要求1的方法,其中,网页页面是第一网页页面且文章节点是第一文章节点,该方法还包括:
确定第一网页页面是否包括包含指示第二网页页面的存在的内容的节点,所述第二网页页面包含具有作为第一文章节点内容的继续的内容的第二文章节点;
在肯定确定时:
在第二网页页面内检测包括多个节点的分级结构;
从所述多个节点识别潜在文章节点;
选择在第二网页页面的分级结构上首先出现的所识别的潜在文章节点作为第二文章节点;以及
从第二文章节点提取内容;以及
其中,产生包括产生从第一和第二文章节点提取的内容。
6.一种具有记录在其上面的计算机可执行指令的计算机可读介质,其中,该指令在被执行时促使处理系统实现方法,该方法包括:
在网页页面内检测包括多个节点的分级结构;
从所述多个节点识别潜在文章节点;
选择在分级结构中具有最高等级的所识别的潜在文章节点作为文章节点;以及
产生从文章节点提取的内容。
7.权利要求6的介质,其中:
该方法包括将文章节点的内容与来自在与文章节点相同的分级水平处的其它节点的内容合并;以及
产生包括产生合并的内容。
8.权利要求7的介质,其中,该方法包括:
在与文章节点相同的分级水平处识别节点,该节点包含广告内容和在门限值以下的数量的文本内容中的一个或多个,以及
将来自所识别的节点的内容从合并的内容中排除。
9.权利要求6的介质,其中,识别潜在文章节点包括识别所述多个节点中的一个或多个,其包含超过门限的数量的文本内容。
10.权利要求6的介质,其中,网页页面是第一网页页面且文章节点是第一文章节点,并且该方法包括:
确定第一网页页面是否包括包含指示第二网页页面的存在的内容的节点,所述第二网页页面包含具有作为第一文章节点内容的继续的内容的第二文章节点;
在肯定确定时:
在第二网页页面内检测包括多个节点的分级结构;
从所述多个节点识别潜在文章节点;
选择在第二网页页面的分级结构上首先出现的所识别的潜在文章节点作为第二文章节点;以及
从第二文章节点提取内容;以及
其中,产生包括产生从第一和第二文章节点提取的内容。
11.一种用于提取网页内容的系统,包括:
结构引擎,其可操作用于在网页页面内检测包括多个节点的分级结构;
文章引擎,其可操作用于从所述多个节点识别潜在文章节点以及选择在分级结构中具有最高等级的所识别的潜在文章节点作为文章节点;以及
产生引擎,其可操作用于产生从文章节点提取的内容。
12.权利要求11的系统,其中:
文章引擎可操作用于将文章节点的内容与来自在与文章节点相同的分级水平处的其它节点的内容合并并提取合并的内容;以及
所述产生引擎可操作用于产生合并的内容。
13.权利要求12的系统,其中,所述文章引擎可操作用于:
在与文章节点相同的分级水平处识别节点,该节点包含广告内容和在门限值以下的数量的文本内容中的一个或多个,以及
将来自所识别的节点的内容从合并的内容中排除。
14.权利要求11的系统,其中,文章引擎可操作用于通过识别所述多个节点中的一个或多个来识别潜在文章节点,其包含超过门限值的数量的文本内容。
15.权利要求11的系统,其中,网页页面是第一网页页面且文章节点是第一文章节点,并且文章引擎可操作用于确定第一网页页面是否包括包含指示第二网页页面的存在的内容的节点,所述第二网页页面包含具有作为第一文章节点内容的继续的内容的第二文章节点并且在肯定确定时:
促使结构引擎在第二网页页面内检测包括多个节点的分级结构;
从第二网页页面的所述多个节点识别潜在文章节点;
选择在第二网页页面的分级结构上首先出现的所识别的潜在文章节点作为第二文章节点;以及
促使产生引擎产生从第一和第二文章节点提取的内容。
CN200980160237.3A 2009-06-30 2009-06-30 选择性内容提取 Expired - Fee Related CN102460432B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2009/049298 WO2011002456A1 (en) 2009-06-30 2009-06-30 Selective content extraction

Publications (2)

Publication Number Publication Date
CN102460432A true CN102460432A (zh) 2012-05-16
CN102460432B CN102460432B (zh) 2013-11-20

Family

ID=43411320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200980160237.3A Expired - Fee Related CN102460432B (zh) 2009-06-30 2009-06-30 选择性内容提取

Country Status (5)

Country Link
US (1) US9032285B2 (zh)
EP (1) EP2449521A4 (zh)
JP (1) JP5469244B2 (zh)
CN (1) CN102460432B (zh)
WO (1) WO2011002456A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106233284A (zh) * 2014-04-16 2016-12-14 谷歌公司 针对信息资源内可能包括主要内容的节点生成稳定标识符的方法和系统
CN109086361A (zh) * 2018-07-20 2018-12-25 北京开普云信息科技有限公司 一种基于网页节点间互信息的网页文章信息自动抽取方法及系统
CN110795931A (zh) * 2018-07-17 2020-02-14 福建天泉教育科技有限公司 一种web网站页面语言的检测方法及终端

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011108146A (ja) * 2009-11-20 2011-06-02 Sony Corp 情報処理装置、情報処理方法、プログラムおよび情報処理システム
US8620849B2 (en) * 2010-03-10 2013-12-31 Lockheed Martin Corporation Systems and methods for facilitating open source intelligence gathering
WO2012012911A1 (en) * 2010-07-28 2012-02-02 Hewlett-Packard Development Company, L.P. Producing web page content
CN102831121B (zh) * 2011-06-15 2015-07-08 阿里巴巴集团控股有限公司 一种网页信息抽取的方法和系统
US10572578B2 (en) 2011-07-11 2020-02-25 Paper Software LLC System and method for processing document
WO2013009889A1 (en) 2011-07-11 2013-01-17 Paper Software LLC System and method for searching a document
AU2012281166B2 (en) * 2011-07-11 2017-08-24 Paper Software LLC System and method for processing document
AU2012282688B2 (en) 2011-07-11 2017-08-17 Paper Software LLC System and method for processing document
US10055718B2 (en) 2012-01-12 2018-08-21 Slice Technologies, Inc. Purchase confirmation data extraction with missing data replacement
US20150095751A1 (en) * 2013-09-27 2015-04-02 Microsoft Corporation Employing page links to merge pages of articles
US20150339394A1 (en) * 2014-05-20 2015-11-26 Tasty Time, Inc. Extracting Online Recipes, and Arranging and Generating a Cookbook
WO2018053620A1 (en) 2016-09-23 2018-03-29 Hvr Technologies Inc. Digital communications platform for webpage overlay
US10447635B2 (en) 2017-05-17 2019-10-15 Slice Technologies, Inc. Filtering electronic messages
US11803883B2 (en) 2018-01-29 2023-10-31 Nielsen Consumer Llc Quality assurance for labeled training data

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040103371A1 (en) * 2002-11-27 2004-05-27 Yu Chen Small form factor web browsing
CN1592280A (zh) * 2003-09-01 2005-03-09 摩托罗拉公司 用于网页概括的网关
CN1755675A (zh) * 2004-09-30 2006-04-05 微软公司 统一导航的系统和方法

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6029182A (en) * 1996-10-04 2000-02-22 Canon Information Systems, Inc. System for generating a custom formatted hypertext document by using a personal profile to retrieve hierarchical documents
JP3772504B2 (ja) 1998-01-08 2006-05-10 セイコーエプソン株式会社 ネットワークプリンタ及びネットワーク印刷方法
JPH11212751A (ja) 1998-01-29 1999-08-06 Canon Inc 画像形成装置、画像形成方法および記憶媒体
US6360227B1 (en) * 1999-01-29 2002-03-19 International Business Machines Corporation System and method for generating taxonomies with applications to content-based recommendations
JP2001184344A (ja) * 1999-12-21 2001-07-06 Internatl Business Mach Corp <Ibm> 情報処理システム、プロキシサーバ、ウェブページ表示制御方法、記憶媒体、及びプログラム伝送装置
US20010045965A1 (en) * 2000-02-14 2001-11-29 Julian Orbanes Method and system for receiving user input
WO2001067351A1 (en) * 2000-03-09 2001-09-13 The Web Access, Inc. Method and apparatus for performing a research task by interchangeably utilizing a multitude of search methodologies
US20020007379A1 (en) * 2000-05-19 2002-01-17 Zhi Wang System and method for transcoding information for an audio or limited display user interface
JP2002032364A (ja) 2000-07-14 2002-01-31 Ricoh Co Ltd 文書情報処理方法、文書情報処理装置及び記録媒体
US20020016801A1 (en) * 2000-08-01 2002-02-07 Steven Reiley Adaptive profile-based mobile document integration
WO2002033584A1 (en) * 2000-10-19 2002-04-25 Copernic.Com Text extraction method for html pages
US6650348B2 (en) * 2001-01-17 2003-11-18 Microsoft Corporation System and method for web-based content scheduling
JP2002229984A (ja) 2001-02-06 2002-08-16 Ricoh Co Ltd 構造化文書処理装置、構造化文書処理方法およびコンピュータに構造化文書処理を実行させるためのプログラム
JP2002229985A (ja) 2001-02-06 2002-08-16 Ricoh Co Ltd 構造化文書処理装置、構造化文書処理方法およびコンピュータに構造化文書処理を実行させるためのプログラム
US20020010715A1 (en) * 2001-07-26 2002-01-24 Garry Chinn System and method for browsing using a limited display device
US7072883B2 (en) * 2001-12-21 2006-07-04 Ut-Battelle Llc System for gathering and summarizing internet information
US7065707B2 (en) * 2002-06-24 2006-06-20 Microsoft Corporation Segmenting and indexing web pages using function-based object models
JP4370783B2 (ja) 2002-06-27 2009-11-25 沖電気工業株式会社 情報処理装置および方法
US7752072B2 (en) * 2002-07-16 2010-07-06 Google Inc. Method and system for providing advertising through content specific nodes over the internet
US20040158799A1 (en) * 2003-02-07 2004-08-12 Breuel Thomas M. Information extraction from html documents by structural matching
US20050076000A1 (en) 2003-03-21 2005-04-07 Xerox Corporation Determination of table of content links for a hyperlinked document
JP2005189973A (ja) 2003-12-24 2005-07-14 Ricoh Co Ltd 構造化文書印刷システム
JP2006235942A (ja) 2005-02-24 2006-09-07 Canon Inc 構造化文書処理装置
KR20070043386A (ko) 2005-10-21 2007-04-25 삼성전자주식회사 프레임 태그를 이용한 웹 브라우저의 인쇄영역 설정 장치및 방법
US20070288247A1 (en) * 2006-06-11 2007-12-13 Michael Mackay Digital life server
US20070293950A1 (en) * 2006-06-14 2007-12-20 Microsoft Corporation Web Content Extraction
US10460327B2 (en) * 2006-07-28 2019-10-29 Palo Alto Research Center Incorporated Systems and methods for persistent context-aware guides
US7801358B2 (en) * 2006-11-03 2010-09-21 Google Inc. Methods and systems for analyzing data in media material having layout
US20080201118A1 (en) 2007-02-16 2008-08-21 Fan Luo Modeling a web page on top of HTML elements level by encapsulating the details of HTML elements in a component, building a web page, a website and website syndication on browser-based user interface
US7917846B2 (en) * 2007-06-08 2011-03-29 Apple Inc. Web clip using anchoring
US8869023B2 (en) * 2007-08-06 2014-10-21 Ricoh Co., Ltd. Conversion of a collection of data to a structured, printable and navigable format
US20090248707A1 (en) * 2008-03-25 2009-10-01 Yahoo! Inc. Site-specific information-type detection methods and systems
US8156419B2 (en) * 2008-07-17 2012-04-10 International Business Machines Corporation Intelligent preloads of views and asynchronous loading of models using the MVC design pattern
US8155990B2 (en) * 2009-01-26 2012-04-10 Microsoft Corporation Linear-program formulation for optimizing inventory allocation
US8806325B2 (en) * 2009-11-18 2014-08-12 Apple Inc. Mode identification for selective document content presentation
US8315849B1 (en) * 2010-04-09 2012-11-20 Wal-Mart Stores, Inc. Selecting terms in a document
US8555155B2 (en) * 2010-06-04 2013-10-08 Apple Inc. Reader mode presentation of web content
US9280528B2 (en) * 2010-10-04 2016-03-08 Yahoo! Inc. Method and system for processing and learning rules for extracting information from incoming web pages

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040103371A1 (en) * 2002-11-27 2004-05-27 Yu Chen Small form factor web browsing
CN1592280A (zh) * 2003-09-01 2005-03-09 摩托罗拉公司 用于网页概括的网关
CN1755675A (zh) * 2004-09-30 2006-04-05 微软公司 统一导航的系统和方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106233284A (zh) * 2014-04-16 2016-12-14 谷歌公司 针对信息资源内可能包括主要内容的节点生成稳定标识符的方法和系统
CN106233284B (zh) * 2014-04-16 2019-08-16 谷歌有限责任公司 生成用于主要内容的稳定标识符的方法和系统
CN110795931A (zh) * 2018-07-17 2020-02-14 福建天泉教育科技有限公司 一种web网站页面语言的检测方法及终端
CN110795931B (zh) * 2018-07-17 2022-10-21 福建天泉教育科技有限公司 一种web网站页面语言的检测方法及终端
CN109086361A (zh) * 2018-07-20 2018-12-25 北京开普云信息科技有限公司 一种基于网页节点间互信息的网页文章信息自动抽取方法及系统
CN109086361B (zh) * 2018-07-20 2019-06-21 北京开普云信息科技有限公司 一种基于网页节点间互信息的网页文章信息自动抽取方法及系统

Also Published As

Publication number Publication date
WO2011002456A1 (en) 2011-01-06
CN102460432B (zh) 2013-11-20
EP2449521A1 (en) 2012-05-09
JP2012532395A (ja) 2012-12-13
JP5469244B2 (ja) 2014-04-16
US9032285B2 (en) 2015-05-12
EP2449521A4 (en) 2013-07-03
US20120089903A1 (en) 2012-04-12

Similar Documents

Publication Publication Date Title
CN102460432B (zh) 选择性内容提取
Borodin et al. More than meets the eye: a survey of screen-reader browsing strategies
CN100495393C (zh) 用于定制搜索结果的系统和方法
CN108399150B (zh) 文本处理方法、装置、计算机设备和存储介质
CN103399885B (zh) 兴趣点代表图片的挖掘方法、装置和服务器
CN102326179A (zh) 用于查看web上的文档的字体处理
CN101454781A (zh) 扩展的摘录
CN103207892B (zh) 一种用于经由网络分享文档的方法和装置
CN105095394A (zh) 网页生成方法和装置
CN102375878A (zh) Web页浏览系统和中继服务器
JP2010527051A (ja) モバイル装置のための文書処理
US20150227276A1 (en) Method and system for providing an interactive user guide on a webpage
CN103635901A (zh) 使用阅读列表面板呈现文档的方法
US20160179834A1 (en) Information processing apparatus, search server, web server, and non-transitory computer readable storage medium
CN102165410A (zh) 打印结构化文档
CN111562911B (zh) 一种网页编辑方法、装置及存储介质
US20120120436A1 (en) Remote printing
CN101539933B (zh) 智能型内容直达技术
CN102193789B (zh) 一种实现可配置跳转链接的方法和设备
CN103309905A (zh) 对网页进行转码后合并阅读的方法以及服务器
US9223762B2 (en) Encoding information into text for visual representation
CN100592300C (zh) 一种数据显示的方法及装置
US8413062B1 (en) Method and system for accessing interface design elements via a wireframe mock-up
KR101102851B1 (ko) 사용자 단말 장치의 설정 해상도와 컨텐츠 제공 서버에서 제공하는 기본 해상도의 차이로 인해 생기는 웹 페이지의 여백 영역에 추가 컨텐츠를 제공하기 위한 방법, 시스템 및컴퓨터 판독 가능한 기록 매체
JP2007034464A (ja) 広告コンテンツ提示システム、広告コンテンツ提示プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20131120

Termination date: 20210630

CF01 Termination of patent right due to non-payment of annual fee