CN101061478A - 提供与文档相关的信息 - Google Patents

提供与文档相关的信息 Download PDF

Info

Publication number
CN101061478A
CN101061478A CNA2005800396934A CN200580039693A CN101061478A CN 101061478 A CN101061478 A CN 101061478A CN A2005800396934 A CNA2005800396934 A CN A2005800396934A CN 200580039693 A CN200580039693 A CN 200580039693A CN 101061478 A CN101061478 A CN 101061478A
Authority
CN
China
Prior art keywords
document
search
information
web
web document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005800396934A
Other languages
English (en)
Other versions
CN101061478B (zh
Inventor
舍拉佳·哈利克
威廉姆·C·布鲁格赫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN101061478A publication Critical patent/CN101061478A/zh
Application granted granted Critical
Publication of CN101061478B publication Critical patent/CN101061478B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

一种系统,识别文档,执行搜索以识别与同该文档关联的属性相关的web文档,并提供与所述web文档关联的信息和该文档。

Description

提供与文档相关的信息
技术领域
符合本发明原理的系统与方法一般涉及信息检索,更具体而言,涉及提供与特定文档相关的信息。
背景技术
现代计算机网络,尤其是因特网,使得大量信息能够广泛地且容易地获得。例如,免费因特网搜索引擎标引(index)出了链接至因特网的成千上万的web文档。连接至因特网的用户可以输入简单的搜索查询以快速地定位与该搜索查询相关的web文档。
然而,在因特网上不能广泛获得的一类内容包括更传统的作者印刷作品,例如书籍和杂志。使这些作品能够以数字方式获得的阻碍在于难以将作品的印刷版本转换为数字形式。光学字符识别(OCR)(它是使用光学扫描设备生成接下来转换为计算机可读格式(例如ASCII文件)的字符的文本图像的动作),是将印刷文本转换为可用数字形式的已知技术。OCR系统一般包括用于生成印刷页面图像的光学扫描仪,以及用于分析该图像的软件。
发明内容
根据一个方面,一种方法可以包括:接收搜索查询;基于该搜索查询执行第一搜索以识别文档;基于与该文档关联的属性执行第二搜索;并呈现第二搜索的结果。
根据另一方面,一种系统可以包括存储指令的存储器和执行这些指令的处理器。该系统可以识别文档,执行搜索以识别带有与该文档关联的属性相关的信息的web文档,并呈现与该web文档关联的信息。
根据又一方面,计算机可读媒体中体现的图形用户界面可以包括到文档各部分的一组链接,文档内容的描述,以及与该文档关联的著录信息。该图形用户界面还可以包括用于使web文档的搜索得以执行的链接,该web文档带有与该文档关联的属性相关的信息。
根据再一方面,一种方法可以包括:接收来自用户的文档标识;自动执行多个搜索以识别与该文档关联的属性相关的web文档;并向用户提供与这些web文档关联的信息。
根据又一方面,一种计算机可读媒体可以包含计算机可执行指令,这些计算机可执行指令包括用于识别文档的指令,用于执行搜索以识别带有与该文档关联的属性相关的信息的web文档的指令,用于从这些web文档提取信息的指令,以及用于呈现所提取的信息以及与该文档关联的信息的指令。
附图说明
并入本说明书并构成其一部分的附图,图示了本发明的实施例,并且与说明书一起对本发明进行解释。在附图中,
图1是其中可以实现符合本发明原理的系统和方法的网络的示例图;
图2是根据符合本发明原理的实现方式,图1的客户端或服务器的示例图;
图3A-3D是根据符合本发明原理的某些实现方式,用于呈现与同文档相关的web文档有关的信息的示例处理的流程图;
图4是根据符合本发明原理的一种实现方式,其中可以以搜索结果形式呈现与文档关联的信息的图形用户界面的示例图;
图5是根据符合本发明原理的一种实现方式,呈现与文档关联的引用页面的示例图;
图6是根据符合本发明原理的一种实现方式,其中可以呈现与web文档关联的信息的图形用户界面的示例图;
图7是根据符合本发明原理的另一实现方式,引用页面部分的示例图;
图8是根据符合本发明原理的又一实现方式,引用页面部分的示例图;
图9是根据符合本发明原理的替代实现方式,其中可以以搜索结果形式呈现与文档关联的信息的图形用户界面的示例图;以及
图10A和图10B是根据符合本发明原理的两种不同实现方式,其中可以呈现相关信息的图形用户界面的示例图。
具体实施方式
本发明的下述详细描述参照附图。不同附图中相同的附图标记可以识别相同或类似的元素。同样,下述详细描述并不限制本发明。
总述
越来越多类型的文档可以通过搜索引擎来进行搜索。例如,某些文档(诸如书籍、杂志、和/或目录)可以被扫描,并且它们的文本可以通过OCR进行识别。对这些文档进行更多了解,并使得该附加信息可以被用户获得是有益的。
符合本发明原理的系统和方法可以自动地对与同文档关联的一个或多个属性(也称作“文档属性”)相关的附加信息进行搜索,并与该文档关联地提供该附加信息。
示例性网络配置
图1是其中可以实现符合本发明原理的系统和方法的网络100的示例图。网络100可以包括通过网络150连接至多个服务器120-140的多个客户端110。为了简便起见,将两个客户端110和三个服务器120-140图示为连接至网络150。实际上,可以有更多或更少的客户端和服务器。同样,在某些实例中,客户端也可以执行服务器的功能,而服务器也可以执行客户端的功能。
客户端110可以包括客户端实体。实体可以定义为诸如无线电话、个人计算机、个人数字助理(PDA)、膝上型电脑,或其他类型的计算或通信设备的设备,在这些设备之一上运行的线程或进程,和/或可由这些设备之一执行的对象。服务器120-140可以包括以符合本发明原理的方式来采集、处理、搜索,和/或保存文档的服务器实体。
在符合本发明原理的一种实现方式中,服务器120可以包括客户端110可以使用的搜索引擎125。服务器120可以爬过(crawl)文档大全(corpus)(例如web文档),标引这些文档,并且在文档仓库中存储与这些文档关联的信息。替代地或另外地,服务器120可以分析文档(例如书籍、杂志、报纸、文章、目录等)的数据库(或数据库集),并且在相同仓库或不同仓库中存储与这些文档关联的信息。服务器130和140可以存储或保存可以由服务器120爬过或分析的文档。
尽管将服务器120-140示为分立实体,服务器120-140中的一个或多个有可能执行服务器120-140中另一个或另外多个的一个或多个功能。例如,服务器120-140中的两个或更多可能实现为单一服务器。服务器120-140中的单独一个还可能实现为两个或更多分立(并且可能是分布式)设备。
网络150可以包括局域网(LAN),广域网(WAN),诸如公用交换电话网(PSTN)的电话网络,内联网,因特网,存储设备,或网络组合。客户端110和服务器120-140可以通过有线、无线,和/或光连接与网络150连接。
作为此处使用的术语,“文档”广泛地解释为包括任何传统的作者印刷作品,诸如书籍、杂志、目录、报纸、文章等等。作为此处使用的术语,“web文档”广泛地解释为包括可以通过网络(如网络150)获得的任何机器可读的且机器可存储的作品产品。例如,Web文档可以包括web站点,文件,文件组合,带有到其他文件的嵌入式链接的一个或多个文件,新闻组张贴版,博客(blog),web广告等等。在因特网的情境里,通常的web文档是网页。网页经常包括文本信息,并且可以包括嵌入式信息(例如元信息、图像、超链接等)和/或嵌入式指令(例如Java脚本等)。最为此处使用的术语,“链接”广泛地解释为包括对或来自web文档的任何引用。
示例性客户端/服务器架构
图2是根据符合本发明原理的实现方式,可对应于客户端110和服务器120-140中一个或多个的客户端或服务器实体(下文中称作“客户端/服务器实体”)的示例图。客户端/服务器实体可以包括总线210,处理器220,主存储器230,只读存储器(ROM)240,存储设备250,输入设备260,输出设备270,以及通信接口280。总线210可以包括允许客户端/服务器实体的元件之间进行通信的路径。
处理器220可以包括常规处理器,微处理器,或解译且执行指令的处理逻辑。主存储器230可以包括可以存储由处理器220执行的信息和指令的随机访问存储器(RAM)或其他类型的动态存储设备。ROM240可以包括可以存储由处理器220使用的静态信息和指令的常规ROM设备或其他类型的静态存储设备。存储设备250可以包括磁和/或光记录媒体及其相应驱动器。
输入设备260可以包括允许操作者向客户端/服务器实体输入信息的常规机制,例如键盘、鼠标、手写笔、语音识别和/或生物测定机制等等。输出设备270可以包括向操作者输出信息的常规机制,包括显示器、打印机、扬声器等等。通信接口280可以包括任何能够使客户端/服务器实体与其他设备和/或系统进行通信的象收发机一样的机制。例如,通信接口280可以包括用于通过网络,如网络150,与其他设备或系统进行通信的机制。
正如将要在下文中详细描述的那样,符合本发明原理的客户端/服务器实体,可以执行特定的与搜索相关的操作。客户端/服务器实体可以响应于处理器220执行计算机可读媒体(如存储器230)中包含的软件指令,执行这些操作。计算机可读媒体可以定义为物理或逻辑存储设备和/或载波。
软件指令可以从其他计算机可读媒体(如数据存储设备250),或者通过通信接口280从其他设备读取到存储器230中。存储器230中包含的软件指令可以使处理器220执行稍后将要描述的过程。替代地,硬件电路可以代替或者结合软件指令来使用以实现符合本发明原理的过程。因此,符合本发明原理的实现方式并不局限于硬件电路和软件的任何特定组合。
示例性处理
图3A-3D是根据符合本发明原理的某些实现方式,用于呈现与同文档相关的web文档有关的信息的示例处理的流程图。处理可以始于用户提供搜索项(或一组搜索项)作为搜索文档仓库的搜索查询。在一种实现方式中,文档仓库包括可以从因特网和/或数据库(或数据库集)获得的文档,而用于搜索该仓库的工具(vehicle)是搜索引擎,例如搜索引擎125(图1)。用户可以通过客户端,如客户端110(图1)上的web浏览器软件来提供搜索查询。
搜索查询可以由搜索引擎来接收,并用来识别与搜索查询相关的文档(例如书籍、杂志、报纸、文章、目录,等等)(动作305和310)(图3A)。已经存在用于识别与搜索查询相关的文档的基于技术。一种这样的技术可能包括识别包含该搜索项或者搜索项同义字的文档。当搜索查询包括多于一个搜索项时,则技术可能包括识别包含这些搜索项作为词组的文档,或者包含这些搜索项但不必同时包含的文档,或者不用包含全部这些搜索项的文档。其他技术对本领域技术人员而言也是众所周知的。
任选地,可以以某种方式对这些文档进行评分(动作315)。例如,文档的评分可以基于信息检索(IR)得分。已经存在用于生成IR分数的若干技术。例如,文档的IR得分可以基于文档内出现搜索项的文档文本中(例如,在标题、主体、页脚、页眉,等等)搜索项的出现数目,或者基于搜索项的出现特性(例如字体、尺寸、颜色,等等)来生成。其他技术对本领域技术人员而言也是众所周知的。
搜索结果可以基于这些文档及其任选得分来形成,并呈现给用户(动作320)。在一种实现方式中,搜索结果可以包括与文档关联的信息,例如到文档的链接,其可以基于文档得分任选地进行分类。类似于常规搜索引擎提供的搜索结果,可以将搜索结果提供为HTML文档。替代地,可以根据搜索引擎和客户端约定一致的其他格式(例如可扩展标记语言(XML))来提供搜索结果。
图4是根据符合本发明原理的一种实现方式,其中可以以搜索结果400的形式呈现与文档关联的信息的图形用户界面的示例图。如图4所示,搜索结果400可以包括文档标题410,作者信息420,来自文档的摘录430,以及任选地到该文档中其他相关摘录的链接440。假设对于该例,以及随后的那些例子,用户已经对与搜索项“military(军事)”相关的文档执行了搜索,并且所得到的一个文档包括“9/11Report(9/11报告)”。
文档标题410可以包括与该文档关联的标题。文档标题410的选择可以使得很可能采用(下文描述的)引用页面的形式的与该文档关联的详细信息得以呈现。作者信息420可以包括该文档作者的姓名。摘录430可以包括文档中包括搜索查询的搜索项的部分。搜索项的出现可以在摘录430内在视觉上加以辨别(例如高亮显示)。链接440可以允许将含有搜索项的,来自该文档的一个或多个其他摘录呈现给用户。
返回到图3A,用户可以选择搜索结果中的一个文档(动作325)。各种各样的公知技术可以用于选择。例如,选择可以通过点击、鼠标悬停(mousehover)、鼠标经过(mouseover)、键盘敲击等等来进行。在一种实现方式中,文档选择可以包括与该文档关联的链接的选择,诸如图4所示的文档标题410的选择。
在符合本发明原理的一种实现方式中,有可能采用引用页面的方式的有关文档的详细信息,可以响应于用户对该文档的选择而呈现给用户(动作330)(图3B)。图5是根据符合本发明原理的一种实现方式,与文档关联的引用页面500的示例图。如图5所示,引用页面500可用包括来自该文档的摘录510,有关该文档的提要(synopsis)520,与该文档关联的封皮(iacket)或封皮内折边(flap)说明530,相关信息540,著录信息550,以及到该文档不同部分的一组链接560。在另外的实现方式中,引用页面500可以包括更多、更少、或不同类型的信息。
摘录510可以包括来自该文档的、可以包括搜索查询的搜索项的文本部分。该文本部分可以对应于文档文本的图像或文本版本。搜索项的出现可以在该文本部分中在视觉上加以辨别(例如高亮显示)。提要520可以包括该文档内容的简短描述。封皮或封皮内折边说明530可以包括来自与该文档关联的封皮、封皮页(cover)或封皮内折边的文本。
著录信息510可以包括诸如ISBN,ISSN,出版者名称,标识文档主题内容类别的类别代码,和/或公开日期的信息。在其他实现方式中,著录信息550可以包括更多,更少,或不同条信息。链接560可以包括到该文档各部分的链接。例如,这些链接可以引用文档的封面(front cover),内容表,相关摘录,索引,和/或封底(back cover)。这些链接之一的选择可以使相应文档部分的图像得以呈现。
相关信息540可以包括各种类型的与用户可能发现有用的文档相关的信息。该信息可以通过执行与文档属性(例如标题,作者,出版者,出版日期等)相关的搜索来获得,以识别相关的web文档。
可以通过搜索获得的信息的例子可以包括与文档评论关联的信息,与文档话题关联的信息,与文档主题或类别关联的信息,与同该文档同一系列书籍关联的信息,与该文档同一杂志中杂志发行(magazine issue)关联的信息,与该文档来自同一会议的同一日志中或与该文档在同一杂志中的文章关联的信息,与新闻文章关联的信息,博客,或者其他类型的引用该文档或文档作者的张贴公告(posting),与同该文档或该文档话题相关产品关联的信息,与该文档出版者关联的信息,与同该文档关联的出版日期关联的信息,与作者传记关联的信息,与同作者相关的web文档(诸如作者的网页)关联的信息,与作者图像关联的信息,和/或与相同作者的其他文档关联的信息。
在一种实现方式中,相关信息540可以包括与一个或多个文档属性关联的链接列表。如图5所示,示出了两个示例性链接542和544。实际上,可以有另外的链接。这些链接之一的选择可以使与特定文档属性相关的搜索得以执行。例如,与作者传记关联的链接544的选择可以使搜索得以执行,以便识别包括与该文档作者传记相关的信息的web文档。形成与各种话题相关的搜索查询的技术是本领域众所周知的。
相关信息540可任选地还包括与一个或多个文档属性相关的广告集547。例如,广告可以为销售该文档、该文档的一部分、与作者相关的其它文档或与该文档属于同一话题的其它文档而提供。广告集547可还或替换地与其它信息相关或从其它信息得出,所述其它信息例如搜索查询项、另一(例如相关)文档或用户行为(例如搜索或观看历史)。
返回到图3B,可以判断是否需要与文档属性相关的信息(动作335)。例如,可以判断用户是否选择了一个链接或与相关信息540关联的广告。如果需要与文档属性相关的信息,那么可以执行与文档属性相关的搜索以识别相关的web文档(动作340)。例如,如果用户需要有关文档评论的信息,那么可以利用例如与文档标题或作者姓名关联的词或多个词,以及类似“评论”或“多个评论”的词作为搜索查询,来执行搜索。与上述技术类似的技术可以用来识别与搜索查询相关的web文档。
Web文档可以基于IR得分和/或基于链接的得分任意地进行评分。已经存在生成IR和基于链接的得分的若干技术。用于生成IR得分的示例性技术可能基于该文档中搜索项的出现数目。用于生成基于链接的得分的技术在美国专利No.6,285,999中进行了描述。其他技术对本领域技术人员而言也是众所周知的。
在另一实现方式中,作为后台任务,可以对与相关信息540关联的所有链接进行搜索。换句话说,为与相关信息540关联的不同类型的信息,可以识别相关的web文档,而且这些相关的web文档可以进行高速缓存,以便用于稍后当用户指示需要这些信息时,呈现给用户。
搜索结果可以基于web文档及其任选得分来形成,并呈现给用户(动作345)。在一种实现方式中,搜索结果可以包括与web文档关联的信息,例如到web文档的链接,它可以基于web文档得分任意地进行分类。类似于常规搜索引擎提供的搜索结果,可以将搜索结果提供为HTML文档。替代地,可以根据搜索引擎和客户端约定一致的格式(例如XML)来提供搜索结果。
图6是根据符合本发明原理的一种实现方式,其中可以呈现关联信息的图形用户界面的示例图。在该示例性实现方式中,假设用户通过选择与相关信息540关联的相应链接,要求与该文档评论相关的附加信息。在这种情况下,可以执行搜索以识别带有该文档评论的web文档。例如,诸如与文档标题(如“9/11 Report(9/11报告)”)或作者姓名关联的词或多个词,以及类似“评论”或“多个评论”(或者很可能识别带有该文档评论的web文档的其他搜索项)的词的搜索查询,可以用来识别相关的web文档。
一组搜索结果(在图6中图示了其两个例子)可以呈现给用户。在图6中,示例性搜索结果对应于书籍评论-9/11 Report(9/11报告)。例如,搜索结果600可以包括web文档标识符610,来自该web文档的摘录620,以及与该web文档关联的其他信息630。标识符610可以识别该web文档。标识符610的选择可以使得该web文档得以呈现。摘录620可以包括该web文档中可以包括搜索查询的搜索项的部分。搜索项的出现可以在摘录620中在视觉上加以辨别(例如高亮显示)。其他信息630可以包括web文档的地址,web文档的大小,与web文档关联的日期,或者与该web文档关联的其他信息。
在符合本发明原理的另一实现方式中,可以响应于用户在搜索结果中选择文档(动作325)(图3A)而执行搜索。在这种实现方式中,可以执行与一个或多个文档属性相关的搜索,以识别相关的web文档(动作350)(图3C)。例如,可以对不同的文档属性形成搜索查询,并且可以执行搜索以识别相关的web文档。上述技术的类似技术可以用来识别并有可能为与搜索查询相关的web文档评分。
有关该文档的详细信息(包括关于相关web文档的信息),很可能以引用页面的形式呈现给用户(动作355)。在一种实现方式中,引用页面可以类似于上面关于图5所述的引用页面500。然而,在这种实现方式中,与相关信息540关联的链接可以用与相关web文档关联的信息来代替或加以补充。
图7是根据符合本发明原理的另一实现方式,引用页面部分700的示例图。在该实现方式中,与一个或多个文档属性相关的一组搜索结果可以呈现给用户。如图7所示,与文档评论542相对应地呈现两个示例性搜索结果。同样如图7所示,可以提供链接以用于另外的搜索结果。
例如,搜索结果710可以包括web文档源712,来自该web文档的摘录714,以及与该web文档关联的其他信息716。源712可以包括该web文档的源。源712的选择可以使得对应的web文档得以呈现。摘录714可以包括web文档中可以包括搜索查询的搜索项的部分。搜索项的出现可以在摘录714中在视觉上加以辨别(例如高亮显示)。其他信息716可以包括web文档的地址,web文档的大小,与web文档关联的日期,或者与该web文档关联的其他信息。
在符合本发明原理的另一实现方式中,可以响应于用户在搜索结果中选择文档(动作325)(图3A)而执行搜索。在这种实现方式中,可以执行与一个或多个文档属性相关的搜索,以识别相关的web文档(动作360)(图3D)。例如,可以对不同的文档属性形成搜索查询,并且可以执行搜索以识别相关的web文档。上述技术的类似技术可以用来识别并有可能为与搜索查询相关的web文档评分。
可以从相关的web文档中提取信息(动作365)。可能是引用页面形式的页面可以基于所提取的信息来创建,并且该页面可以呈现给用户(动作370和375)。在一种实现方式中,引用页面可以类似上面关于图5描述的引用页面500。然而,在这种实现方式中,与相关信息540关联的链接可以用从相关web文档提取的信息来代替或加以补充。
图8是根据符合本发明原理的又一实现方式,引用页面部分800的示例图。在该实现方式中,对于各种类型的相关信息540,可以从对应于一组搜索结果的web文档中提取信息,并且该信息可以呈现给用户。从搜索结果提取的特定类型的信息可以包括用户可能发现有用的任何信息。
如图8所示,呈现关于文档评论的从两个示例性搜索结果提取的信息。例如,信息810可以包括信息源812,任选用户评级(rating)814,评论816,和其他信息818。源812可以包括该信息的源(例如Amazon.com)。源812的选择可以使得来自该源的web文档得以呈现。用户评级814可以包括源812(例如Amazon.com)的用户对该文档的评级。评论816可以包括源812(例如Amazon.com)提供的文档评论(或评论的一部分)。其他信息818可以包括web文档的地址,web文档的大小,与web文档关联的日期,或者与该web文档关联的其他信息。
替代的图形用户界面
在符合本发明原理的替代实现方式中,与上面关于图4所描述的类似,信息可以关于文档而呈现。然而,在这种情况下,与相关信息540(图5)类似,可以为相关信息提供附加链接。图9是根据符合本发明原理的该替代实现方式,其中可以以搜索结果900的形式呈现与文档关联的信息的图形用户界面的示例图。如图9所示,搜索结果900可以包括文档标题410,作者信息420,来自文档的摘录430,到该文档中其他相关摘录的任选链接440,以及到相关信息的链接910。文档标题410,作者信息420,摘录430,任选链接440可以类似于上面关于图4所述的部分。
链接910可以使得相关信息得以呈现。图10A和图10B是根据符合本发明原理的两种不同实现方式,其中可以呈现相关信息的图形用户界面的示例图。如图10A所示,链接910的选择可以使一组链接得以提供,这组链接可以基于它们所关联的不同类型的文档属性进行任意地分离。如上所述,该组链接中某一链接的选择可以使得执行搜索并呈现结果。
如图10B所示,链接910的选择可以使得关于它们所关联的不同类型的文档属性,执行搜索并呈现结果。在一种实现方式中,可以提供一组搜索结果(类似于图7)。如上所述,这些搜索结果之一的选择可以使得对应的web文档得以呈现。在另一实现方式中,可以提供对应于一组搜索结果的从web文档(多个web文档)提取的信息(类似于图8)。
结论
符合本发明原理的系统和方法可以对与一个或多个文档属性相关的附加信息进行搜索,并且与该文档关联地提供所述附加信息。
本发明优选实施例的前述说明提供了说明和描述,但是并不意图是穷尽的或将本发明局限于所公开的确切形式。各种修改和变形可以根据上述教导作出,或可以从本发明的实践中获得。
例如,尽管已经关于图3A-3D描述了一系列的动作,但是在符合本发明原理的其他实现方式中,可以对这些动作的次序进行修改。此外,还可以并行地执行不相互依赖的动作。
已经描述了将文档识别为搜索结果,并且可以呈现与该文档或文档作者相关的web文档。然而,在其他实现方式中,文档可以以其他方式来标识,例如通过目录、类别,或其他文档列表。
同样,已经关于图4-10B描述了示例性图形用户界面。在符合本发明原理的其他实现方式中,图形用户界面可以包括更多,更少,或不同条信息。
如上所述,对本领域普通技术人员而言显而易见的是,本发明的这些方面可以在如附图中所示实现方式中以软件、硬件和固件的许多不同形式来实现。用来实现符合本发明原理的方面的实际软件代码或专用控制硬件并非对本发明的限制。因此,并不参照特定的软件代码对这些方面的操作和性能进行描述——可以理解本领域普通技术人员能够根据此处的说明,设计软件和控制硬件来实现这些方面。
本申请中使用的元件、动作或指令都不应当解释为对本发明关键或必要的,除非进行了这样的明确描述。同样,在此处使用时,冠词“一”意图包括一个或多个项目。在意指唯一一个项目的时候,使用术语“一个”或类似语言。此外,短语“基于”意图表达“至少部分地基于”的含义,除非另外进行了明确表明。

Claims (30)

1.一种方法,包括:
接收搜索查询;
基于该搜索查询执行第一搜索以识别文档;
基于与该文档关联的属性执行第二搜索;以及
呈现第二搜索的结果。
2.根据权利要求1的方法,其中执行第二搜索的步骤包括:
接收该文档的选择,以及
响应于该文档的选择,执行第二搜索。
3.根据权利要求1的方法,其中执行第二搜索的步骤包括:
接收该文档的选择,
呈现与该文档关联的引用页面,该引用页面包括与属性关联的多个链接,
接收这些链接之一的选择,以及
响应于这些链接之一的所述选择,执行第二搜索。
4.根据权利要求1的方法,其中呈现第二搜索的结果的步骤包括:
识别与属性相关的web文档,
从该web文档中提取信息,以及
呈现所提取的信息。
5.根据权利要求1的方法,其中呈现第二搜索的结果的步骤包括:
将web文档识别为第二搜索的结果,
生成所述web文档的得分,
基于所述得分对web文档进行分类,以及
呈现分类后的web文档。
6.根据权利要求5的方法,其中生成所述web文档的得分的步骤包括:
生成所述web文档的信息检索得分,
生成所述web文档的基于链接的得分,以及
基于信息检索得分和基于链接的得分,生成所述web文档的总体得分。
7.根据权利要求1的方法,还包括:
呈现与该文档关联的引用页面,该引用页面包括与带有与属性相关的信息的web文档的搜索关联的链接。
8.根据权利要求7的方法,其中链接的选择使得第二搜索得以执行。
9.根据权利要求7的方法,其中所述引用页面还包括以下中的至少之一:
该文档的内容的描述,
与同该文档关联的封皮、封皮页或封皮内折边之一关联的文本,
与该文档关联的著录信息,或
广告。
10.根据权利要求7的方法,其中所述引用页面还包括:
来自该文档的摘录,和
到该文档各部分的一组链接。
11.根据权利要求10的方法,其中所述摘录包括来自该文档的一部分文本的图像。
12.根据权利要求10的方法,其中该组链接引用以下中的至少之一:
与该文档关联的封面,
与该文档关联的内容表,
与该文档关联的索引,或
与该文档关联的封底。
13.根据权利要求1的方法,其中呈现第二搜索的结果的步骤包括:
呈现与该文档关联的引用页面,该引用页面包括到带有与所述属性相关的信息的web文档的链接。
14.根据权利要求13的方法,其中该链接通过执行第二搜索而生成。
15.根据权利要求13的方法,其中所述引用页面还包括以下中的至少之一:
该文档的内容的描述,
与同该文档关联的封皮、封面或封皮内折边之一关联的文本,
与该文档关联的著录信息,或
广告。
16.根据权利要求13的方法,其中所述引用页面还包括:
来自该文档的摘录,和
到该文档各部分的一组链接。
17.根据权利要求13的方法,其中所述广告与搜索查询、文档或用户行为中的至少一个相关,或者从搜索查询、文档或用户行为中的至少一个导出。
18.根据权利要求1的方法,其中呈现第二搜索的结果的步骤包括:
呈现与该文档关联的引用页面,该引用页面含有从带有与所述属性相关的信息的web文档中提取的信息。
19.根据权利要求18的方法,其中所述web文档通过第二搜索来识别。
20.根据权利要求1的方法,其中所述属性对应于与该文档关联的标题、作者、类别、出版者、或出版日期中的至少一个。
21.一种系统,包括:
用于标识文档的部件;
用于执行搜索以识别与同该文档关联的属性相关的web文档的部件;以及
用于提供与所述web文档关联的信息和该文档的部件。
22.一种系统,包括:
存储指令的存储器;和
执行这些指令以便实现以下动作的处理器:
识别文档,
执行搜索以识别带有与同该文档关联的属性相关的信息的web文档,以及
呈现与该web文档关联的信息。
23.一种计算机可读媒体中体现的图形用户界面,包括:
到文档各部分的一组链接;
该文档的内容的描述;
与该文档关联的著录信息;和
链接,用于使带有与同该文档关联的属性相关的信息的web文档的搜索得以执行。
24.根据权利要求23的图形用户界面,其中所述链接包括与同该文档关联的不同属性关联的多个链接。
25.根据权利要求23的图形用户界面,还包括:
来自该文档的摘录。
26.根据权利要求25的图形用户界面,其中所述摘录包括多个词,这些词之一相对于这些词的另一个,可以在视觉上加以辨别。
27.根据权利要求23的图形用户界面,其中该组链接引用以下中的至少之一:
与该文档关联的封面,
与该文档关联的内容表,
与该文档关联的索引,或
与该文档关联的封底。
28.根据权利要求23的图形用户界面,其中所述属性对应于与该文档关联的标题、作者、类别、出版者、或出版日期中的至少一个。
29.一种方法,包括:
接收来自用户的文档标识;
自动执行多个搜索以识别与同该文档关联的属性相关的web文档;以及
向用户提供与该web文档关联的信息。
30.一种包含有计算机可执行指令的计算机可读媒体,所述计算机可执行指令包括:
用于识别文档的指令;
用于执行搜索以识别带有与同该文档关联的属性相关的信息的web文档的指令;
用于从所述web文档提取信息的指令;以及
用于连同与该文档关联的信息呈现所提取的信息的指令。
CN2005800396934A 2004-09-30 2005-08-29 用于识别web文档的方法和系统 Active CN101061478B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/953,112 US8386453B2 (en) 2004-09-30 2004-09-30 Providing search information relating to a document
US10/953,112 2004-09-30
PCT/US2005/030646 WO2006039025A1 (en) 2004-09-30 2005-08-29 Providing information relating to a document

Publications (2)

Publication Number Publication Date
CN101061478A true CN101061478A (zh) 2007-10-24
CN101061478B CN101061478B (zh) 2011-06-15

Family

ID=35708608

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005800396934A Active CN101061478B (zh) 2004-09-30 2005-08-29 用于识别web文档的方法和系统

Country Status (7)

Country Link
US (2) US8386453B2 (zh)
EP (1) EP1797511A1 (zh)
JP (2) JP2008515087A (zh)
CN (1) CN101061478B (zh)
BR (1) BRPI0515950A (zh)
CA (1) CA2583042C (zh)
WO (1) WO2006039025A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102349069A (zh) * 2009-01-16 2012-02-08 谷歌公司 为搜索结果或链接页面可视化站点结构及使能站点导航
CN103577436A (zh) * 2012-07-27 2014-02-12 阿尔派株式会社 内容检索装置及内容检索方法
CN103744856A (zh) * 2013-12-03 2014-04-23 北京奇虎科技有限公司 联动性扩展搜索方法及装置、系统
CN104239570A (zh) * 2014-09-30 2014-12-24 百度在线网络技术(北京)有限公司 论文的搜索方法及装置
CN104428769A (zh) * 2012-07-13 2015-03-18 索尼公司 提供文本阅读器的信息
CN107277574A (zh) * 2017-07-17 2017-10-20 环球智达科技(北京)有限公司 影片相关信息的推送方法
CN107396147A (zh) * 2017-07-17 2017-11-24 环球智达科技(北京)有限公司 人物相关信息的推送方法
CN110008395A (zh) * 2018-09-17 2019-07-12 北京字节跳动网络技术有限公司 评论内容的呈现方法、装置、存储介质及终端

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100185538A1 (en) * 2004-04-01 2010-07-22 Exbiblio B.V. Content access with handheld document data capture devices
US9799060B2 (en) * 2004-04-01 2017-10-24 Google Inc. Content access with handheld document data capture devices
US20060101012A1 (en) * 2004-11-11 2006-05-11 Chad Carson Search system presenting active abstracts including linked terms
US7606794B2 (en) * 2004-11-11 2009-10-20 Yahoo! Inc. Active Abstracts
US20060149710A1 (en) 2004-12-30 2006-07-06 Ross Koningstein Associating features with entities, such as categories of web page documents, and/or weighting such features
US7444589B2 (en) * 2004-12-30 2008-10-28 At&T Intellectual Property I, L.P. Automated patent office documentation
CA2605252A1 (en) * 2005-04-18 2006-10-26 Collage Analytics Llc System and method for efficiently tracking and dating content in very large dynamic document spaces
JP4789516B2 (ja) * 2005-06-14 2011-10-12 キヤノン株式会社 文書変換装置、文書変換方法並びに記憶媒体
CA2630002C (en) * 2005-11-15 2014-03-18 Google Inc. Displaying compact and expanded data items
JP2007287134A (ja) * 2006-03-20 2007-11-01 Ricoh Co Ltd 情報抽出装置、及び情報抽出方法
US8073830B2 (en) * 2006-03-31 2011-12-06 Google Inc. Expanded text excerpts
US20070274300A1 (en) 2006-05-04 2007-11-29 Microsoft Corporation Hover to call
JP2008021267A (ja) * 2006-07-14 2008-01-31 Fuji Xerox Co Ltd 文献検索システム、文献検索処理方法及び文献検索処理プログラム
US8615707B2 (en) * 2009-01-16 2013-12-24 Google Inc. Adding new attributes to a structured presentation
WO2010083478A2 (en) * 2009-01-16 2010-07-22 Google Inc. Retrieving and displaying information from an unstructured electronic document collection
US20100185651A1 (en) * 2009-01-16 2010-07-22 Google Inc. Retrieving and displaying information from an unstructured electronic document collection
US8977645B2 (en) 2009-01-16 2015-03-10 Google Inc. Accessing a search interface in a structured presentation
US8412749B2 (en) * 2009-01-16 2013-04-02 Google Inc. Populating a structured presentation with new values
US8452791B2 (en) 2009-01-16 2013-05-28 Google Inc. Adding new instances to a structured presentation
US8458171B2 (en) * 2009-01-30 2013-06-04 Google Inc. Identifying query aspects
US8812362B2 (en) * 2009-02-20 2014-08-19 Yahoo! Inc. Method and system for quantifying user interactions with web advertisements
FR2953043A1 (fr) * 2009-11-23 2011-05-27 Sagem Comm Procede de traitement d'un document a associer a un service, et scanner associe
US20120027246A1 (en) * 2010-07-29 2012-02-02 Intuit Inc. Technique for collecting income-tax information
US9280601B1 (en) 2012-02-15 2016-03-08 Google Inc. Modifying search results
US8965880B2 (en) 2012-10-05 2015-02-24 Google Inc. Transcoding and serving resources
US8924850B1 (en) 2013-11-21 2014-12-30 Google Inc. Speeding up document loading
WO2022091074A1 (en) * 2020-10-28 2022-05-05 Wimmer Carl P Comprehension engine to comprehend contents of selected documents

Family Cites Families (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5317507A (en) * 1990-11-07 1994-05-31 Gallant Stephen I Method for document retrieval and for word sense disambiguation using neural networks
US5623681A (en) * 1993-11-19 1997-04-22 Waverley Holdings, Inc. Method and apparatus for synchronizing, displaying and manipulating text and image documents
US5799325A (en) * 1993-11-19 1998-08-25 Smartpatents, Inc. System, method, and computer program product for generating equivalent text files
US5708825A (en) * 1995-05-26 1998-01-13 Iconovex Corporation Automatic summary page creation and hyperlink generation
US6112201A (en) * 1995-08-29 2000-08-29 Oracle Corporation Virtual bookshelf
US5713016A (en) * 1995-09-05 1998-01-27 Electronic Data Systems Corporation Process and system for determining relevance
WO1997019415A2 (en) * 1995-11-07 1997-05-29 Cadis, Inc. Search engine for remote object oriented database management system
US5787424A (en) * 1995-11-30 1998-07-28 Electronic Data Systems Corporation Process and system for recursive document retrieval
US5893109A (en) * 1996-03-15 1999-04-06 Inso Providence Corporation Generation of chunks of a long document for an electronic book system
JP3714723B2 (ja) 1996-05-13 2005-11-09 沖電気工業株式会社 文書表示システム
US6285999B1 (en) 1997-01-10 2001-09-04 The Board Of Trustees Of The Leland Stanford Junior University Method for node ranking in a linked database
US7363291B1 (en) * 2002-03-29 2008-04-22 Google Inc. Methods and apparatus for increasing efficiency of electronic document delivery to users
JP3779431B2 (ja) * 1997-06-13 2006-05-31 富士通株式会社 リレーショナルデータベース管理装置,中間リンクテーブル自動作成処理方法およびプログラム記憶媒体
US5987457A (en) * 1997-11-25 1999-11-16 Acceleration Software International Corporation Query refinement method for searching documents
US6032145A (en) * 1998-04-10 2000-02-29 Requisite Technology, Inc. Method and system for database manipulation
US6122647A (en) 1998-05-19 2000-09-19 Perspecta, Inc. Dynamic generation of contextual links in hypertext documents
IL126373A (en) * 1998-09-27 2003-06-24 Haim Zvi Melman Apparatus and method for search and retrieval of documents
US7200804B1 (en) * 1998-12-08 2007-04-03 Yodlee.Com, Inc. Method and apparatus for providing automation to an internet navigation application
US6510406B1 (en) * 1999-03-23 2003-01-21 Mathsoft, Inc. Inverse inference engine for high performance web search
JP2000322427A (ja) * 1999-05-11 2000-11-24 Kubota Corp 情報検索装置及び記録媒体
US7287214B1 (en) * 1999-12-10 2007-10-23 Books24X7.Com, Inc. System and method for providing a searchable library of electronic documents to a user
US6785670B1 (en) * 2000-03-16 2004-08-31 International Business Machines Corporation Automatically initiating an internet-based search from within a displayed document
US6968332B1 (en) * 2000-05-25 2005-11-22 Microsoft Corporation Facility for highlighting documents accessed through search or browsing
WO2002041164A1 (en) * 2000-11-17 2002-05-23 Wheretheheckisit.Com,Llp Virtual directory
US6785688B2 (en) * 2000-11-21 2004-08-31 America Online, Inc. Internet streaming media workflow architecture
US6792459B2 (en) * 2000-12-14 2004-09-14 International Business Machines Corporation Verification of service level agreement contracts in a client server environment
US7158971B1 (en) * 2001-03-07 2007-01-02 Thomas Layne Bascom Method for searching document objects on a network
US6732090B2 (en) * 2001-08-13 2004-05-04 Xerox Corporation Meta-document management system with user definable personalities
JP2003067149A (ja) * 2001-08-30 2003-03-07 Canon Inc データ処理装置、データ処理システム、データ処理方法、タブ印刷方法、記憶媒体、及びプログラム
JP3791908B2 (ja) 2002-02-22 2006-06-28 インターナショナル・ビジネス・マシーンズ・コーポレーション 検索システム、システム、検索方法およびプログラム
US7076497B2 (en) * 2002-10-11 2006-07-11 Emergency24, Inc. Method for providing and exchanging search terms between internet site promoters
US20040138988A1 (en) * 2002-12-20 2004-07-15 Bart Munro Method to facilitate a search of a database utilizing multiple search criteria
JP2004318321A (ja) * 2003-04-14 2004-11-11 Nec Corp 生物情報検索システム及び検索方法
US20050004835A1 (en) * 2003-07-01 2005-01-06 Yahoo! Inc System and method of placing a search listing in at least one search result list
US20060143674A1 (en) * 2003-09-19 2006-06-29 Blu Ventures, Llc Methods to adapt search results provided by an integrated network-based media station/search engine based on user lifestyle
US20050222989A1 (en) * 2003-09-30 2005-10-06 Taher Haveliwala Results based personalization of advertisements in a search engine
US20070214126A1 (en) * 2004-01-12 2007-09-13 Otopy, Inc. Enhanced System and Method for Search
US20050160083A1 (en) * 2004-01-16 2005-07-21 Yahoo! Inc. User-specific vertical search
US8407094B1 (en) * 2004-03-31 2013-03-26 Google Inc. Providing links to related advertisements
US7359893B2 (en) * 2004-03-31 2008-04-15 Yahoo! Inc. Delivering items based on links to resources associated with search results
US7698626B2 (en) * 2004-06-30 2010-04-13 Google Inc. Enhanced document browsing with automatically generated links to relevant information
US20060173825A1 (en) * 2004-07-16 2006-08-03 Blu Ventures, Llc And Iomedia Partners, Llc Systems and methods to provide internet search/play media services
US20060036659A1 (en) * 2004-08-12 2006-02-16 Colin Capriati Method of retrieving information using combined context based searching and content merging

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102349069A (zh) * 2009-01-16 2012-02-08 谷歌公司 为搜索结果或链接页面可视化站点结构及使能站点导航
CN104428769A (zh) * 2012-07-13 2015-03-18 索尼公司 提供文本阅读器的信息
US10909202B2 (en) 2012-07-13 2021-02-02 Sony Corporation Information providing text reader
CN104428769B (zh) * 2012-07-13 2018-04-06 索尼公司 提供文本阅读器的信息
CN103577436B (zh) * 2012-07-27 2017-10-13 阿尔派株式会社 内容检索装置及内容检索方法
CN103577436A (zh) * 2012-07-27 2014-02-12 阿尔派株式会社 内容检索装置及内容检索方法
CN103744856B (zh) * 2013-12-03 2016-09-21 北京奇虎科技有限公司 联动性扩展搜索方法及装置、系统
CN103744856A (zh) * 2013-12-03 2014-04-23 北京奇虎科技有限公司 联动性扩展搜索方法及装置、系统
CN104239570A (zh) * 2014-09-30 2014-12-24 百度在线网络技术(北京)有限公司 论文的搜索方法及装置
CN104239570B (zh) * 2014-09-30 2018-04-13 百度在线网络技术(北京)有限公司 论文的搜索方法及装置
CN107277574A (zh) * 2017-07-17 2017-10-20 环球智达科技(北京)有限公司 影片相关信息的推送方法
CN107396147A (zh) * 2017-07-17 2017-11-24 环球智达科技(北京)有限公司 人物相关信息的推送方法
CN110008395A (zh) * 2018-09-17 2019-07-12 北京字节跳动网络技术有限公司 评论内容的呈现方法、装置、存储介质及终端

Also Published As

Publication number Publication date
CN101061478B (zh) 2011-06-15
US20130151497A1 (en) 2013-06-13
CA2583042A1 (en) 2006-04-13
WO2006039025A1 (en) 2006-04-13
JP2008515087A (ja) 2008-05-08
JP2012104149A (ja) 2012-05-31
US20060074868A1 (en) 2006-04-06
CA2583042C (en) 2014-03-18
JP5531033B2 (ja) 2014-06-25
BRPI0515950A (pt) 2008-08-12
EP1797511A1 (en) 2007-06-20
US8386453B2 (en) 2013-02-26

Similar Documents

Publication Publication Date Title
CN101061478B (zh) 用于识别web文档的方法和系统
US11803604B2 (en) User interfaces for a document search engine
US10528650B2 (en) User interface for presentation of a document
Bigham et al. WebInSight: making web images accessible
US7624093B2 (en) Method and system for automatic summarization and digest of celebrity news
US9323827B2 (en) Identifying key terms related to similar passages
US7917493B2 (en) Indexing and searching product identifiers
US20170235841A1 (en) Enterprise search method and system
US20070250501A1 (en) Search result delivery engine
US9613061B1 (en) Image selection for news search
CN103324622A (zh) 一种自动生成首页摘要的方法及装置
CN1659550A (zh) 导航搜索结果的系统和方法
Mandl Recent developments in the evaluation of information retrieval systems: Moving towards diversity and practical relevance
EP1462952B1 (en) Method for indexing and searching a collection of internet documents
JP6653169B2 (ja) キーワード抽出装置、コンテンツ生成システム、キーワード抽出方法、およびプログラム
CN1395206A (zh) 一种收集、分析和提供网上信息的方法和系统
CN1871601A (zh) 将文档与上下文广告相关联的系统和方法
US20190026370A1 (en) System and Method for Categorizing Web Search Results
Zogla Next steps in newspaper digitization: making use of digitized texts at NLL
Grosse et al. Annex to Evaluation of the Prototype
JP2005122668A (ja) 情報検索システム
JP2003108553A (ja) 機械翻訳装置、機械翻訳方法及び機械翻訳プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: American California

Patentee after: Google limited liability company

Address before: American California

Patentee before: GOOGLE Inc.

CP01 Change in the name or title of a patent holder