CN102460432A - 选择性内容提取 - Google Patents
选择性内容提取 Download PDFInfo
- Publication number
- CN102460432A CN102460432A CN2009801602373A CN200980160237A CN102460432A CN 102460432 A CN102460432 A CN 102460432A CN 2009801602373 A CN2009801602373 A CN 2009801602373A CN 200980160237 A CN200980160237 A CN 200980160237A CN 102460432 A CN102460432 A CN 102460432A
- Authority
- CN
- China
- Prior art keywords
- content
- node
- article
- webpage
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
- G06F16/9577—Optimising the visualization of content, e.g. distillation of HTML documents
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
一种用于提取网页内容的方法包括在网页页面内检测包括多个节点的分级结构。识别来自多个节点的潜在文章节点。将在分级结构中具有最高等级的所识别的潜在文章节点识别为文章节点。从文章节点提取内容。
Description
背景技术
网页页面常常被设计为用于屏幕显示而不是打印。除可以包括文本和图像的主要文章之外,网页页面常常包括动态地生成的广告及其它外围信息。结果,期望打印网页页面的用户常常对结果感到挫败。打印的网页页面可以具有跨越多个页面的杂乱外观,主要文章—被点缀广告及其它外围内容—出现在一个页面上或分裂于两个或更多页面之间。
附图说明
图1是网页页面格式的示例性描绘。
图2是具有点缀内容的图1的网页页面格式的示例性描绘。
图3~5是根据实施例的分级结构的示例性描绘。
图6是根据实施例的提取的内容的示例性描绘。
图7是根据实施例的其中已经排除了所选提取内容的示例性描绘。
图8是根据实施例的产生的内容的示例性描绘。
图9是根据实施例的选择性内容提取系统的示例性描绘。
图10是根据实施例的其中可以实现权利要求9的系统的环境的示例性描绘。
图11和12是描绘实现各种实施例所采取的步骤的流程图。
具体实施方式
介绍:下述各种实施例进行操作以选择性地和自动地从网页页面或一系列相关网页页面提取内容。然后可以产生提取的内容,正如本文所使用的,产生所提取的内容可以包括但不限于打印、显示、传送和以电子方式存储。
在操作中,检查网页页面以识别诸如DOM(文档对象模型)的分级结构。检查该结构的节点以识别潜在文章节点。在示例中,潜在文章节点是包括超过门限的数量的文本的那些节点。该门限限定一定数目的字符或词语。首先出现在结构中的潜在文章被识别为文章节点。提取、合并并产生来自同一分级水平处的文章节点和兄弟节点的内容。在某些情况下,排除诸如来自兄弟节点的广告的内容。
网页内容:可以使用网页内容来向用户传送信息。该信息包括用户请求的文章内容以及诸如网站识别、链接和各种各样广告的外围内容。文章内容可以包括诸如与特定主题有关的文本和图像的信息,诸如新闻故事、处方或任何其它主题。
图1是用于网页页面10的示例性格式。虽然所示的格式是示例性的,但其包括普通部分,包括文章12(article)、页眉(header)14、专栏(column)16和页脚(footer)18。文章部分12包括诸如与感兴趣的特定主题有关的文本和图像的文章内容。示例包括但不限于新闻故事、建筑平面图和处方。它还可以包括不是直接与文章内容有关的内嵌广告及其它外围内容。页眉14通常包括识别网站、导航链接和通常横幅广告的数据。专栏16可以包括与文章部分14的内容有关或无关的广告和链接。页脚18可以包括识别网站、用于网站的导航链接和广告的数据。
图2是具有点缀在每个部分12~18内的示例性内容的图1的网页页面10的描绘。页眉14被示为包括横幅广告20、网站标题22和网站链接条24。横幅广告20一般地表示充当到另一网页页面的链接的图像。网站标题22表示诸如识别网站的文本和图像的内容。网站链接条24表示用于导航所识别的网站的一组链接。通常,内容20、22和24中没有一个直接与部分12的文章内容的主题有关。
文章部分12被示为包括标题26、文本28、图像30、内嵌广告32、文本34、内嵌广告36、文本38和在某些情况下的继续链接40。标题26表示文章内容的标题。文本28、34和38表示文章内容的主要文本。图像30表示作为文章内容的一部分的图片或其它图形内容。内嵌广告32和36表示到其它网站的链接,并且不必要与标题26、文本28、24和38以及图像30有关,并且在文章内容外围。文章内容可以跨越一个或多个附加网页页面。在这种情况下,包括继续链接40。继续链接40表示到包含附加文章内容的后续网页页面的链接,并且时间常常出现在文章部分12的结尾处且包括词语“下一个”或“1”和“2”。该附加网页页面可以包括或可以不包括到又另一网页页面的另一继续链接。
专栏部分16被示为包括专栏广告44、相关链接46以及专栏广告48。专栏广告44和48表示到其它网站的链接,并且可以是或可以不是与文章内容的主题有关。相关链接46表示到网站的其它网页页面的链接,其包括与网页页面10的文章内容有关的其它文章内容。页脚18被示为包括横幅广告50和网站链接条52。横幅广告50一般地表示充当到另一网页页面的链接的图像。网站链接条52表示用于导航网站的一组链接。通常,内容44~52中没有一个直接与部分12的文章内容的主题有关。
内容提取:使用图2的网页页面10作为示例,下文相对于图3~8所讨论的各种实施例进行操作以自动地提取部分12的文章内容。排除来自部分14~18的内容。然后可以以诸如打印、存档、电子邮件发送等多种方式来产生提取的内容。当然,网页页面10仅仅被用作示例。下文所讨论的程序对多种网页页面格式起作用。
从图3开始,识别主题网页页面的分级结构52。在这里,主题网页页面是图2的网页页面10。此类分级结构可以是如在图3中描绘并在图4和5中扩展的网页页面的DOM(文档对象模型)。结构52包括多个分级地组织的节点。节点54是根节点,其在本示例中将网页页面语言识别为HTML(超文本标记语言)。请注意,节点54包括打开标签“<HTML>”和关闭标签“</HTML>”。出于参考附图的效率的目的,将两个标签称为单数节点54。在其它上下文中,可以将每个标签识别为结构52上的单独节点。
根节点54包括或另外包含子节点56和58。关于彼此,节点56和58是结构52内的同一分级水平处的兄弟。节点56对应于HTML代码的头部标签并包括被识别为头部内容60的一个(或多个)子节点。头部内容60表示包含对于网页页面的观看者而言不直接可见的内容的一个或多个子节点。头部内容60可以包括到诸如样式表和Java脚本程序的项目的外部链接。头部内容60还包括出现在观看者的浏览器的顶栏中的用于网页页面的标题。其它元素可以包括页面描述和关键字。
节点58对应于HTML代码的主体标签,并包括或另外包含在本示例中对应于网页页面10的部分12~18的内容62~68。换言之,主体内容62~68表示定义在观看网页页面时能够看到的内容的各种子节点。页眉内容62表示定义网页页面10的页眉部分14的内容的各种节点。相对于图4被扩展的文章内容64表示定义网页页面10的文章部分12的内容的各种节点。相对于图5被扩展的专栏内容66表示定义网页页面10的专栏部分16的内容的各种节点。页脚内容68表示定义网页页面10的页脚部分18的内容的各种节点。
现在参考图4,文章内容64包括节点70,其表示对应于网页页面10的文章部分12的打开和关闭标签。示例性标签可以包括但不限于<div>、<p>和<br>。标签70包括或另外包含子节点72~86。相对于图2:
•节点72对应于用于标题26的标签和内容72a;
•节点74对应于用于文本28的标签和内容74a;
•节点76对应于用于图像30的标签和内容76a;
•节点78对应于用于内嵌广告32的标签和内容78a;
•节点80对应于用于文本34的标签和内容80a;
•节点82对应于用于内嵌广告36的标签和内容74a;
•节点84对应于用于文本38的标签和内容84a;以及
•节点86对应于链接40的标签和内容86a。
参考图5,专栏内容66包括表示对应于网页页面10的专栏部分16的打开和关闭标签的节点88。示例性标签可以包括但不限于<div>、<p>和<br>。标签88包括或另外包含子节点90~94。相对于图2:
•节点90对应于用于专栏广告44的标签和内容90a;
•节点92对应于用于相关链接46的标签和内容92a;以及
•节点94对应于用于专栏广告48的标签和内容94a。
如上所指出的,目的是从文章部分12提取并公布内容,其排除了来自其它部分14~18的内容。另一目的是在公布之前进一步从提取的文章内容削减广告及其它外围信息。为了这样做,检查图3~5中所示的结构52以识别潜在的文章节点。在图1~5的示例中,文章节点是包含作为文章部分12的一部分的内容的那些节点。潜在文章节点是具有特性的节点,该特性指示节点包含直接与网页页面的主要主题有关的内容的可能性。在一个示例中,潜在文章节点是包含超过门限的数量的文本的节点。该门限可以限定一定数目的字符或词语。从所识别的潜在文章节点,首先出现在结构中的节点被识别为文章节点。提取、合并并产生来自文章节点和兄弟节点的内容。在某些情况下,排除诸如广告的内容。
在返回参考图3~5的同时移动至图6,假定节点74的文本74a、节点84的文本84a和节点92的相关链接92a每个包括超过门限的数量的文本。因此,可以将节点74、84和92中的每一个识别为潜在文章节点。在结构52内,节点74首先出现,并因此具有所识别的潜在文章节点的最高等级(rank)。结果,在本示例中,将节点74选作文章节点。节点72和76~86是节点74的兄弟节点。换言之,节点72和76~86在结构52内处于与节点74相同的分级水平。
如图6的示例性内容结构96所描绘的,提取并合并来自所识别的文章节点74和兄弟节点72和76~86的内容。在产生结构96的内容之前,识别在所识别的文章节点74的文本外围的内容并将其排除,如图7的示例性内容结构98所描绘的。可以以许多方式来识别外围内容。例如,外围内容可以包括具有文本“广告”的链接或图像。外围内容可以是具有在门限值以下的数量的文本的链接。例如,到相关页面的继续链接可以简单地包括词语“下一个”或“继续”或“1”和“2”。因此,在图7中,已经从图7中的结构98排除内容78a、82a和86a。
然后可以如图8的产生的内容100所描绘地产生内容结构98的内容72a、74a、76a、80a和84a。如上所指出的,可以以许多方式来产生提取的内容,包括打印、在监视器上显示、经由电子邮件或网页页面传送以及以电子方式存储在文件中。在图8的示例中,产生的内容100包括直接与网页页面10的主要主题、即文章部分12的主题有关的内容。从产生的内容100排除的是来自部分14~18的内容和来自部分12的外围内容。
提取系统:图9~10描绘根据实施例的充当系统102的各种物理和逻辑部件,用于选择性地提取网页内容。系统102被示为包括结构引擎104、文章引擎106和产生引擎108。结构引擎104一般地表示能够在网页页面内检测包括多个节点的分级结构的硬件和编程的任何组合。如所指出的,此类分级结构可以包括DOM(文档对象模型)。
文章引擎106一般地表示能够识别来自分级结构的多个节点的潜在文章节点的硬件和编程的任何组合。文章引擎106可以通过识别包含超过给定门限的数量的文本(诸如许多词语或字符)的那些节点来执行此任务。文章引擎106然后将在分级结构中具有最高等级的潜在文章节点识别为文章节点。文章引擎106从所识别的文章节点提取内容。在所识别的文章节点具有兄弟节点、它们是处于同一分级水平处的节点的情况下,文章引擎106从那些兄弟节点提取内容并将所提取的内容合并。文章引擎106还可以负责从合并的内容排除来自兄弟节点中的一个或多个的内容。检查所提取的内容,文章引擎106可以排除来自兄弟节点的包括与图像相结合的词语“广告”或“ad”的内容。文章引擎106还可以排除来自兄弟节点的包括落在门限以下的数量的文本的内容。
文章引擎106还可以负责确定所识别的文章节点的兄弟节点是否包括指示相关后续网页页面的存在的内容。相关后续网页页面是具有文章节点的网页页面,该文章节点具有作为当前网页页面的提取内容的继续的内容。如在图4中所描绘的,诸如节点86的兄弟节点可以包括与词语“下一个”或后续网页页面包含与所提取的内容有关的内容的某个其它指示符的链接。因此,文章引擎106可以针对包括链接和词语“下一个”或“1”和“2”或“继续”的内容检查兄弟节点。在检测到此类内容时,结构引擎104在由该链接参考的网页页面内检测包括多个节点的分级结构。检查该新的多个节点,文章引擎106以先前所述的方式提取内容,将新提取的内容附加于先前提取的内容。此过程可以重复直到文章引擎106不再发现相关后续网页页面的指示。
产生引擎108一般地表示能够产生提取和合并的内容的硬件和编程的任何组合。如上所指出的,可以以许多方式来产生提取的内容,包括打印、在监视器上显示、经由电子邮件或网页页面传送以及以电子方式存储在文件中。
可以在诸如图10的环境110的许多环境中实现图9的系统102。环境110包括客户端设备112、服务器设备114和116、打印机118、数据储存库122和显示设备124。客户端设备一般地表示能够获得和处理网页内容的任何计算设备。例如,客户端设备112可以是台式计算机、膝上型计算机、智能电话。服务器设备114一般地表示能够向客户端设备112提供网页页面服务的任何计算设备。服务器设备116一般地表示能够向客户端设备112提供远程应用服务的任何一个或多个计算设备。打印机118一般地表示能够产生打印的图像的任何图像形成设备。数据储存库一般地表示能够存储电子数据以供稍后检索和使用的任何服务。显示设备124一般地表示能够显示期望图像的诸如计算机监视器或电视的任何设备。
链接124将客户端设备112与设备114~122互连。链接124一般地表示经由电信链接、红外链接、射频链接或提供电子通信的任何其它连接器或系统的电缆、无线、光纤或远程连接的一个或多个。链接124可以表示内部网、因特网或两者的组合。如在图10中描绘的客户端设备112与设备114~122之间的链接124所遵循的路径表示这些设备之间的逻辑通信路径,不必要是设备之间的物理路径。
在图10的示例中,客户端设备112包括处理器126和存储器128。处理器160一般地表示能够执行存储在存储器130中的程序指令的任何设备。存储器130一般地表示被配置为存储程序指令的任何存储器,该程序指令在被执行时促使处理器128选择性地从网页页面提取网页内容或促使处理器128请求由服务器设备116执行的远程应用做相同的事情。
存储器130被示为包括OS(操作系统)130、驱动程序132和浏览器134。OS130一般地表示诸如驱动程序132和浏览器134的其它程序或应用在其顶部上运行的任何软件平台。示例包括Linux®和Microsoft
Windows®。驱动程序132一般地表示在被执行时控制打印机118、数据储存库120和显示设备122的操作的任何程序指令。特别地,驱动程序132为OS
130和浏览程序134提供转换服务。驱动程序132将从OS 130和浏览器134接收到的一般命令转换成能够被外围设备118、120和122利用的设备特定命令。浏览器134一般地表示在被执行时进行操作以通过驱动程序132的使用来从服务器设备114检索网页页面的任何程序指令,驱动程序132进行操作以引起网页页面的显示并打印网页页面。
如上所指出的,图9的系统102的各种部件包括硬件和编程的组合。相对于图10,可以通过处理器126和/或服务器设备116来实现硬件部件。可以将编程元件实现为OS 130、驱动程序132、浏览器134和/或由服务器设备116执行的编程的一部分。
操作:图11~12是为了实现各种实施例所采取的步骤的示例性流程图。在讨论图11~12时,对图2~10的图进行参考以提供上下文示例。然而,实施方式不限于那些示例。从图11开始,在网页页面内检测分级结构(步骤136)。该结构包括多个分级地组织的节点。在给定示例中,结构是如在图3~5的示例中描绘的DOM(文档对象模型)。在图9的示例中,结构引擎104负责实现步骤136。参考图10,可以至少部分地经由OS 130、驱动程序132、浏览器134或者甚至由服务器设备116执行的编程来实现结构引擎104。
从在步骤136中检测的结构的多个节点识别潜在的文章节点(步骤138)。在这样做时,检查多个节点以识别具有特性的那些节点,该特性指示节点包含直接与网页页面的主要主题有关的内容的可能性。此类特性可以包括超过门限数目的词语或字符的文本量。选择结构内的具有最高等级的潜在文章节点—即首先出现的潜在文章节点作为文章节点(步骤140)。参考图9,文章引擎106负责实现步骤138和140。参考图10,可以至少部分地经由OS 130、驱动程序132、浏览器134或者甚至由服务器设备116执行的编程来实现文章引擎106。
产生来自所选文章节点的内容(步骤142)。产生可以包括打印、显示、经由电子消息传送、张贴到网站和保存到文件。参考图9,产生引擎108负责实现步骤138和140。参考图10,可以至少部分地经由OS 130、驱动程序132、浏览器134或者甚至由服务器设备116执行的编程来实现产生引擎108。
在步骤140中选择的文章节点可以不是包括所有文章内容。在这种情况下,识别所选文章节点的兄弟节点。将来自所选文章节点的内容与从那些兄弟节点提取的内容合并,并在步骤142中产生合并的内容。然而,某些兄弟节点可以包括在文章内容的主题外围的诸如广告和链接的内容。在产生合并的内容之前,识别那些兄弟节点,其包括在门限以下的数量的广告内容和文本内容中的一个或多个。可以例如通过搜索包括词语“广告”或“ad”或其变体且如果有任何其他文本则很少的注释来识别包含广告内容的兄弟节点。将来自此类识别的一个或多个兄弟节点的内容从合并的内容中排除。
移动至图12,在获得的网页页面内检测分级结构(步骤144)。该结构包括多个分级地组织的节点。在给定示例中,该结构是如在图3~5的示例中描绘的DOM(文档对象模型)。在图9的示例中,结构引擎104负责实现步骤144。参考图10,可以至少部分地经由OS 130、驱动程序132、浏览器134或者甚至由服务器设备116执行的编程来实现结构引擎104。
从在步骤144中检测的结构的多个节点识别潜在的文章节点(步骤146)。在这样做时,检查多个节点以识别具有特性的那些节点,该特性指示节点包含直接与网页页面的主要主题有关的内容的可能性。此类特性可以包括超过门限数目的词语或字符的文本量。选择在步骤144中检测的结构内的具有最高等级的潜在文章节点-即首先出现的潜在文章节点作为文章节点(步骤148)。从所选文章节点中提取内容(步骤150)。
确定是否存在相关后续网页页面(步骤152)。此类网页页面包含作为所选文章节点的内容的继续的内容。兄弟节点可以包括与词语“下一个”或后续网页页面包含与所选文章节点的内容有关的内容的某个其它指示符的链接。因此,文章引擎106可以在步骤152中针对包括链接和词语“下一个”或“继续”或“1”和“2”的内容检查所选文章节点的兄弟节点。在步骤152中的肯定确定时,获得后续网页页面(步骤154)且过程跳回至步骤144。在这种情况下,可以在每次重复步骤150时从所选文章节点提取内容。在步骤152中的否定确定时,过程继续至步骤156,其中,将在步骤150中从在步骤148中选择的一个或多个文章节点提取的内容合并。参考图9,文章引擎106负责实现步骤146~156。参考图10,可以至少部分地经由OS 130、驱动程序132、浏览器134或者甚至由服务器设备116执行的编程来实现文章引擎106。
然后产生合并的内容(步骤142)。产生可以包括打印、显示、经由电子消息传送、张贴到网站和保存到文件。参考图9,产生引擎108负责实现步骤138和140。参考图10,可以至少部分地经由OS 130、驱动程序132、浏览器134或者甚至由服务器设备116执行的编程来实现产生引擎108。
在步骤140中选择的一个或多个文章节点可以不包括所有文章内容。在这种情况下,识别所选文章节点的兄弟节点。在步骤150中提取来自那些兄弟节点的内容并在步骤156中合并。然而,某些兄弟节点可以包括在文章内容的主题外围的诸如广告和链接的内容。在产生合并的内容之前,识别那些兄弟节点,其包括在门限以下的数量的广告内容和文本内容中的一个或多个。可以例如通过搜索包括词语“广告”或其变体且如果有任何其他文本则很少的注释来识别包含广告内容的兄弟节点。将来自此类识别的一个或多个兄弟节点的内容从步骤156的合并内容中排除。
结论:图1~8的图用来相对于示例性网页页面描绘选择性内容提取。然而,实施方式不受限制。图9~10示出了各种实施例的架构、功能和操作。图9~10中所示的各种部件被至少部分地定义为程序。每个此类部件、其部分或其各种组合可以整体地或部分地表示包含将实现一个(或多个)任何指定逻辑功能的一个或多个可执行指令的模块、段或代码部分。每个部件或其各种组合可以表示将实现一个(或多个)指定逻辑功能的电路或许多互连电路。
并且,可以在供指令执行系统使用或与之有关的任何计算机可读介质中实施本发明,该指令执行系统诸如基于计算机/处理器的系统或ASIC(专用集成电路)或能够从计算机可读介质取出或获得逻辑并执行包含在其中的指令的其它系统。“计算机可读介质”可以是可以包含、存储或保持供指令执行系统使用或与之有关的程序和数据的任何介质。计算机可读介质可以包括许多物理介质中的任何一个,诸如,例如电子、磁性、光学、电磁或半导体介质。适当计算机可读介质的更具体示例包括但不限于诸如软盘或硬盘驱动器的便携式计算机磁盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程序只读存储器或便携式压缩盘。
虽然图11~12的流程图示出执行的特定顺序,但执行的顺序可以与所描绘的顺序不同。例如,可以相对于所示的顺序扰乱两个或更多方框的执行的顺序。并且,可以同时地或部分同时地执行连续地示出的两个或更多方框。所有此类变型在本发明的范围内。
已经参考前述示例性实施例示出并描述了本发明。然而,应理解的是在不脱离在以下权利要求中限定的本发明的精神和范围的情况下可以产生其它形式、细节和实施例。
Claims (15)
1.一种用于提取网页内容的方法,包括:
在网页页面内检测包括多个节点的分级结构;
从所述多个节点识别潜在文章节点;
选择在分级结构中具有最高等级的所识别的潜在文章节点中的一个作为文章节点;以及
产生从文章节点提取的内容。
2.权利要求1的方法:
还包括将文章节点的内容与来自在与文章节点相同的分级水平处的其它节点的内容合并;以及
其中,产生包括产生合并的内容。
3.权利要求2的方法,还包括:
在与文章节点相同的分级水平处识别节点,该节点包含广告内容和在门限值以下的数量的文本内容中的一个或多个,以及
将来自所识别的节点的内容从合并的内容中排除。
4.权利要求1的方法,其中,识别潜在文章节点包括识别所述多个节点中的一个或多个,其包含超过门限的数量的文本内容。
5.权利要求1的方法,其中,网页页面是第一网页页面且文章节点是第一文章节点,该方法还包括:
确定第一网页页面是否包括包含指示第二网页页面的存在的内容的节点,所述第二网页页面包含具有作为第一文章节点内容的继续的内容的第二文章节点;
在肯定确定时:
在第二网页页面内检测包括多个节点的分级结构;
从所述多个节点识别潜在文章节点;
选择在第二网页页面的分级结构上首先出现的所识别的潜在文章节点作为第二文章节点;以及
从第二文章节点提取内容;以及
其中,产生包括产生从第一和第二文章节点提取的内容。
6.一种具有记录在其上面的计算机可执行指令的计算机可读介质,其中,该指令在被执行时促使处理系统实现方法,该方法包括:
在网页页面内检测包括多个节点的分级结构;
从所述多个节点识别潜在文章节点;
选择在分级结构中具有最高等级的所识别的潜在文章节点作为文章节点;以及
产生从文章节点提取的内容。
7.权利要求6的介质,其中:
该方法包括将文章节点的内容与来自在与文章节点相同的分级水平处的其它节点的内容合并;以及
产生包括产生合并的内容。
8.权利要求7的介质,其中,该方法包括:
在与文章节点相同的分级水平处识别节点,该节点包含广告内容和在门限值以下的数量的文本内容中的一个或多个,以及
将来自所识别的节点的内容从合并的内容中排除。
9.权利要求6的介质,其中,识别潜在文章节点包括识别所述多个节点中的一个或多个,其包含超过门限的数量的文本内容。
10.权利要求6的介质,其中,网页页面是第一网页页面且文章节点是第一文章节点,并且该方法包括:
确定第一网页页面是否包括包含指示第二网页页面的存在的内容的节点,所述第二网页页面包含具有作为第一文章节点内容的继续的内容的第二文章节点;
在肯定确定时:
在第二网页页面内检测包括多个节点的分级结构;
从所述多个节点识别潜在文章节点;
选择在第二网页页面的分级结构上首先出现的所识别的潜在文章节点作为第二文章节点;以及
从第二文章节点提取内容;以及
其中,产生包括产生从第一和第二文章节点提取的内容。
11.一种用于提取网页内容的系统,包括:
结构引擎,其可操作用于在网页页面内检测包括多个节点的分级结构;
文章引擎,其可操作用于从所述多个节点识别潜在文章节点以及选择在分级结构中具有最高等级的所识别的潜在文章节点作为文章节点;以及
产生引擎,其可操作用于产生从文章节点提取的内容。
12.权利要求11的系统,其中:
文章引擎可操作用于将文章节点的内容与来自在与文章节点相同的分级水平处的其它节点的内容合并并提取合并的内容;以及
所述产生引擎可操作用于产生合并的内容。
13.权利要求12的系统,其中,所述文章引擎可操作用于:
在与文章节点相同的分级水平处识别节点,该节点包含广告内容和在门限值以下的数量的文本内容中的一个或多个,以及
将来自所识别的节点的内容从合并的内容中排除。
14.权利要求11的系统,其中,文章引擎可操作用于通过识别所述多个节点中的一个或多个来识别潜在文章节点,其包含超过门限值的数量的文本内容。
15.权利要求11的系统,其中,网页页面是第一网页页面且文章节点是第一文章节点,并且文章引擎可操作用于确定第一网页页面是否包括包含指示第二网页页面的存在的内容的节点,所述第二网页页面包含具有作为第一文章节点内容的继续的内容的第二文章节点并且在肯定确定时:
促使结构引擎在第二网页页面内检测包括多个节点的分级结构;
从第二网页页面的所述多个节点识别潜在文章节点;
选择在第二网页页面的分级结构上首先出现的所识别的潜在文章节点作为第二文章节点;以及
促使产生引擎产生从第一和第二文章节点提取的内容。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2009/049298 WO2011002456A1 (en) | 2009-06-30 | 2009-06-30 | Selective content extraction |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102460432A true CN102460432A (zh) | 2012-05-16 |
CN102460432B CN102460432B (zh) | 2013-11-20 |
Family
ID=43411320
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200980160237.3A Expired - Fee Related CN102460432B (zh) | 2009-06-30 | 2009-06-30 | 选择性内容提取 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9032285B2 (zh) |
EP (1) | EP2449521A4 (zh) |
JP (1) | JP5469244B2 (zh) |
CN (1) | CN102460432B (zh) |
WO (1) | WO2011002456A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106233284A (zh) * | 2014-04-16 | 2016-12-14 | 谷歌公司 | 针对信息资源内可能包括主要内容的节点生成稳定标识符的方法和系统 |
CN109086361A (zh) * | 2018-07-20 | 2018-12-25 | 北京开普云信息科技有限公司 | 一种基于网页节点间互信息的网页文章信息自动抽取方法及系统 |
CN110795931A (zh) * | 2018-07-17 | 2020-02-14 | 福建天泉教育科技有限公司 | 一种web网站页面语言的检测方法及终端 |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011108146A (ja) * | 2009-11-20 | 2011-06-02 | Sony Corp | 情報処理装置、情報処理方法、プログラムおよび情報処理システム |
US8620849B2 (en) * | 2010-03-10 | 2013-12-31 | Lockheed Martin Corporation | Systems and methods for facilitating open source intelligence gathering |
WO2012012911A1 (en) * | 2010-07-28 | 2012-02-02 | Hewlett-Packard Development Company, L.P. | Producing web page content |
CN102831121B (zh) * | 2011-06-15 | 2015-07-08 | 阿里巴巴集团控股有限公司 | 一种网页信息抽取的方法和系统 |
US10572578B2 (en) | 2011-07-11 | 2020-02-25 | Paper Software LLC | System and method for processing document |
WO2013009889A1 (en) | 2011-07-11 | 2013-01-17 | Paper Software LLC | System and method for searching a document |
AU2012281166B2 (en) * | 2011-07-11 | 2017-08-24 | Paper Software LLC | System and method for processing document |
AU2012282688B2 (en) | 2011-07-11 | 2017-08-17 | Paper Software LLC | System and method for processing document |
US10055718B2 (en) | 2012-01-12 | 2018-08-21 | Slice Technologies, Inc. | Purchase confirmation data extraction with missing data replacement |
US20150095751A1 (en) * | 2013-09-27 | 2015-04-02 | Microsoft Corporation | Employing page links to merge pages of articles |
US20150339394A1 (en) * | 2014-05-20 | 2015-11-26 | Tasty Time, Inc. | Extracting Online Recipes, and Arranging and Generating a Cookbook |
WO2018053620A1 (en) | 2016-09-23 | 2018-03-29 | Hvr Technologies Inc. | Digital communications platform for webpage overlay |
US10447635B2 (en) | 2017-05-17 | 2019-10-15 | Slice Technologies, Inc. | Filtering electronic messages |
US11803883B2 (en) | 2018-01-29 | 2023-10-31 | Nielsen Consumer Llc | Quality assurance for labeled training data |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040103371A1 (en) * | 2002-11-27 | 2004-05-27 | Yu Chen | Small form factor web browsing |
CN1592280A (zh) * | 2003-09-01 | 2005-03-09 | 摩托罗拉公司 | 用于网页概括的网关 |
CN1755675A (zh) * | 2004-09-30 | 2006-04-05 | 微软公司 | 统一导航的系统和方法 |
Family Cites Families (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6029182A (en) * | 1996-10-04 | 2000-02-22 | Canon Information Systems, Inc. | System for generating a custom formatted hypertext document by using a personal profile to retrieve hierarchical documents |
JP3772504B2 (ja) | 1998-01-08 | 2006-05-10 | セイコーエプソン株式会社 | ネットワークプリンタ及びネットワーク印刷方法 |
JPH11212751A (ja) | 1998-01-29 | 1999-08-06 | Canon Inc | 画像形成装置、画像形成方法および記憶媒体 |
US6360227B1 (en) * | 1999-01-29 | 2002-03-19 | International Business Machines Corporation | System and method for generating taxonomies with applications to content-based recommendations |
JP2001184344A (ja) * | 1999-12-21 | 2001-07-06 | Internatl Business Mach Corp <Ibm> | 情報処理システム、プロキシサーバ、ウェブページ表示制御方法、記憶媒体、及びプログラム伝送装置 |
US20010045965A1 (en) * | 2000-02-14 | 2001-11-29 | Julian Orbanes | Method and system for receiving user input |
WO2001067351A1 (en) * | 2000-03-09 | 2001-09-13 | The Web Access, Inc. | Method and apparatus for performing a research task by interchangeably utilizing a multitude of search methodologies |
US20020007379A1 (en) * | 2000-05-19 | 2002-01-17 | Zhi Wang | System and method for transcoding information for an audio or limited display user interface |
JP2002032364A (ja) | 2000-07-14 | 2002-01-31 | Ricoh Co Ltd | 文書情報処理方法、文書情報処理装置及び記録媒体 |
US20020016801A1 (en) * | 2000-08-01 | 2002-02-07 | Steven Reiley | Adaptive profile-based mobile document integration |
WO2002033584A1 (en) * | 2000-10-19 | 2002-04-25 | Copernic.Com | Text extraction method for html pages |
US6650348B2 (en) * | 2001-01-17 | 2003-11-18 | Microsoft Corporation | System and method for web-based content scheduling |
JP2002229984A (ja) | 2001-02-06 | 2002-08-16 | Ricoh Co Ltd | 構造化文書処理装置、構造化文書処理方法およびコンピュータに構造化文書処理を実行させるためのプログラム |
JP2002229985A (ja) | 2001-02-06 | 2002-08-16 | Ricoh Co Ltd | 構造化文書処理装置、構造化文書処理方法およびコンピュータに構造化文書処理を実行させるためのプログラム |
US20020010715A1 (en) * | 2001-07-26 | 2002-01-24 | Garry Chinn | System and method for browsing using a limited display device |
US7072883B2 (en) * | 2001-12-21 | 2006-07-04 | Ut-Battelle Llc | System for gathering and summarizing internet information |
US7065707B2 (en) * | 2002-06-24 | 2006-06-20 | Microsoft Corporation | Segmenting and indexing web pages using function-based object models |
JP4370783B2 (ja) | 2002-06-27 | 2009-11-25 | 沖電気工業株式会社 | 情報処理装置および方法 |
US7752072B2 (en) * | 2002-07-16 | 2010-07-06 | Google Inc. | Method and system for providing advertising through content specific nodes over the internet |
US20040158799A1 (en) * | 2003-02-07 | 2004-08-12 | Breuel Thomas M. | Information extraction from html documents by structural matching |
US20050076000A1 (en) | 2003-03-21 | 2005-04-07 | Xerox Corporation | Determination of table of content links for a hyperlinked document |
JP2005189973A (ja) | 2003-12-24 | 2005-07-14 | Ricoh Co Ltd | 構造化文書印刷システム |
JP2006235942A (ja) | 2005-02-24 | 2006-09-07 | Canon Inc | 構造化文書処理装置 |
KR20070043386A (ko) | 2005-10-21 | 2007-04-25 | 삼성전자주식회사 | 프레임 태그를 이용한 웹 브라우저의 인쇄영역 설정 장치및 방법 |
US20070288247A1 (en) * | 2006-06-11 | 2007-12-13 | Michael Mackay | Digital life server |
US20070293950A1 (en) * | 2006-06-14 | 2007-12-20 | Microsoft Corporation | Web Content Extraction |
US10460327B2 (en) * | 2006-07-28 | 2019-10-29 | Palo Alto Research Center Incorporated | Systems and methods for persistent context-aware guides |
US7801358B2 (en) * | 2006-11-03 | 2010-09-21 | Google Inc. | Methods and systems for analyzing data in media material having layout |
US20080201118A1 (en) | 2007-02-16 | 2008-08-21 | Fan Luo | Modeling a web page on top of HTML elements level by encapsulating the details of HTML elements in a component, building a web page, a website and website syndication on browser-based user interface |
US7917846B2 (en) * | 2007-06-08 | 2011-03-29 | Apple Inc. | Web clip using anchoring |
US8869023B2 (en) * | 2007-08-06 | 2014-10-21 | Ricoh Co., Ltd. | Conversion of a collection of data to a structured, printable and navigable format |
US20090248707A1 (en) * | 2008-03-25 | 2009-10-01 | Yahoo! Inc. | Site-specific information-type detection methods and systems |
US8156419B2 (en) * | 2008-07-17 | 2012-04-10 | International Business Machines Corporation | Intelligent preloads of views and asynchronous loading of models using the MVC design pattern |
US8155990B2 (en) * | 2009-01-26 | 2012-04-10 | Microsoft Corporation | Linear-program formulation for optimizing inventory allocation |
US8806325B2 (en) * | 2009-11-18 | 2014-08-12 | Apple Inc. | Mode identification for selective document content presentation |
US8315849B1 (en) * | 2010-04-09 | 2012-11-20 | Wal-Mart Stores, Inc. | Selecting terms in a document |
US8555155B2 (en) * | 2010-06-04 | 2013-10-08 | Apple Inc. | Reader mode presentation of web content |
US9280528B2 (en) * | 2010-10-04 | 2016-03-08 | Yahoo! Inc. | Method and system for processing and learning rules for extracting information from incoming web pages |
-
2009
- 2009-06-30 WO PCT/US2009/049298 patent/WO2011002456A1/en active Application Filing
- 2009-06-30 JP JP2012519522A patent/JP5469244B2/ja not_active Expired - Fee Related
- 2009-06-30 EP EP20090846942 patent/EP2449521A4/en not_active Withdrawn
- 2009-06-30 CN CN200980160237.3A patent/CN102460432B/zh not_active Expired - Fee Related
- 2009-06-30 US US13/378,153 patent/US9032285B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040103371A1 (en) * | 2002-11-27 | 2004-05-27 | Yu Chen | Small form factor web browsing |
CN1592280A (zh) * | 2003-09-01 | 2005-03-09 | 摩托罗拉公司 | 用于网页概括的网关 |
CN1755675A (zh) * | 2004-09-30 | 2006-04-05 | 微软公司 | 统一导航的系统和方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106233284A (zh) * | 2014-04-16 | 2016-12-14 | 谷歌公司 | 针对信息资源内可能包括主要内容的节点生成稳定标识符的方法和系统 |
CN106233284B (zh) * | 2014-04-16 | 2019-08-16 | 谷歌有限责任公司 | 生成用于主要内容的稳定标识符的方法和系统 |
CN110795931A (zh) * | 2018-07-17 | 2020-02-14 | 福建天泉教育科技有限公司 | 一种web网站页面语言的检测方法及终端 |
CN110795931B (zh) * | 2018-07-17 | 2022-10-21 | 福建天泉教育科技有限公司 | 一种web网站页面语言的检测方法及终端 |
CN109086361A (zh) * | 2018-07-20 | 2018-12-25 | 北京开普云信息科技有限公司 | 一种基于网页节点间互信息的网页文章信息自动抽取方法及系统 |
CN109086361B (zh) * | 2018-07-20 | 2019-06-21 | 北京开普云信息科技有限公司 | 一种基于网页节点间互信息的网页文章信息自动抽取方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2011002456A1 (en) | 2011-01-06 |
CN102460432B (zh) | 2013-11-20 |
EP2449521A1 (en) | 2012-05-09 |
JP2012532395A (ja) | 2012-12-13 |
JP5469244B2 (ja) | 2014-04-16 |
US9032285B2 (en) | 2015-05-12 |
EP2449521A4 (en) | 2013-07-03 |
US20120089903A1 (en) | 2012-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102460432B (zh) | 选择性内容提取 | |
Borodin et al. | More than meets the eye: a survey of screen-reader browsing strategies | |
CN100495393C (zh) | 用于定制搜索结果的系统和方法 | |
CN108399150B (zh) | 文本处理方法、装置、计算机设备和存储介质 | |
CN103399885B (zh) | 兴趣点代表图片的挖掘方法、装置和服务器 | |
CN102326179A (zh) | 用于查看web上的文档的字体处理 | |
CN101454781A (zh) | 扩展的摘录 | |
CN103207892B (zh) | 一种用于经由网络分享文档的方法和装置 | |
CN105095394A (zh) | 网页生成方法和装置 | |
CN102375878A (zh) | Web页浏览系统和中继服务器 | |
JP2010527051A (ja) | モバイル装置のための文書処理 | |
US20150227276A1 (en) | Method and system for providing an interactive user guide on a webpage | |
CN103635901A (zh) | 使用阅读列表面板呈现文档的方法 | |
US20160179834A1 (en) | Information processing apparatus, search server, web server, and non-transitory computer readable storage medium | |
CN102165410A (zh) | 打印结构化文档 | |
CN111562911B (zh) | 一种网页编辑方法、装置及存储介质 | |
US20120120436A1 (en) | Remote printing | |
CN101539933B (zh) | 智能型内容直达技术 | |
CN102193789B (zh) | 一种实现可配置跳转链接的方法和设备 | |
CN103309905A (zh) | 对网页进行转码后合并阅读的方法以及服务器 | |
US9223762B2 (en) | Encoding information into text for visual representation | |
CN100592300C (zh) | 一种数据显示的方法及装置 | |
US8413062B1 (en) | Method and system for accessing interface design elements via a wireframe mock-up | |
KR101102851B1 (ko) | 사용자 단말 장치의 설정 해상도와 컨텐츠 제공 서버에서 제공하는 기본 해상도의 차이로 인해 생기는 웹 페이지의 여백 영역에 추가 컨텐츠를 제공하기 위한 방법, 시스템 및컴퓨터 판독 가능한 기록 매체 | |
JP2007034464A (ja) | 広告コンテンツ提示システム、広告コンテンツ提示プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20131120 Termination date: 20210630 |
|
CF01 | Termination of patent right due to non-payment of annual fee |