CN102822820A - 使用虚拟文档进行索引和搜索 - Google Patents
使用虚拟文档进行索引和搜索 Download PDFInfo
- Publication number
- CN102822820A CN102822820A CN2011800145787A CN201180014578A CN102822820A CN 102822820 A CN102822820 A CN 102822820A CN 2011800145787 A CN2011800145787 A CN 2011800145787A CN 201180014578 A CN201180014578 A CN 201180014578A CN 102822820 A CN102822820 A CN 102822820A
- Authority
- CN
- China
- Prior art keywords
- document
- relevant
- virtual
- search
- data source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims description 24
- 238000003860 storage Methods 0.000 claims description 16
- 230000006855 networking Effects 0.000 claims description 2
- 238000004891 communication Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 5
- 238000013500 data storage Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000004087 circulation Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Processing Or Creating Images (AREA)
Abstract
链接和/或嵌入的文档以及共享数据源的文档之间的关系被捕捉并通过虚拟文档来呈现。创建表示与相关文档相关联的链接/嵌入的文档以及数据源的虚拟文档。保存真实和虚拟文档之间的关系,并且将其与搜索结果一起呈现,从而向用户提供搜索结果的全面描绘。
Description
背景技术
搜索引擎发现并存储与诸如网页之类的文档有关的信息,搜索引擎一般从文档的代码中检索这些信息。有时文档由爬行器或自动化浏览器来检索,它们可追踪文档中或网站上的链接。传统爬行器一般将文档作为平面文本文件来分析,检查词语以及它们的位置(例如,标题、头部或特殊字段)。关于经分析的文档的数据可被存储在索引数据库中以供在稍后查询时使用。查询可包括单个词语或词语的组合。
许多文档包括除文本数据以外的图形、视频、音频、以及类似元素。文档之间的链接(例如,到其他文档的超链接)也很常见。此外,诸如文字处理文档或电子表格等文档可包含可在多个文档之间共享的来自外部源的数据。此外,还经常将整个文档嵌入其他文档中。
基于平面文本的搜索不一定捕捉文档之间以及文档与数据源(如上述数据源)之间的多维关系。为了捕捉链接/嵌入的文档之间的或文档与数据源之间的关系,必须执行多个搜索,从而在呈现搜索结果时增加了对系统资源的使用和/或丢失了关系信息。
发明内容
提供本发明内容以便以简化的形式介绍将在以下的具体实施方式中进一步描述的一些概念。本发明内容并不旨在专门标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
各实施例涉及通过虚拟文档来捕捉并呈现链接和/或嵌入的文档以及共享(诸)数据源的文档之间的关系。根据一些实施例,可创建表示与相关文档相关联的链接/嵌入的文档和数据源的虚拟文档。真实和虚拟文档之间的关系可被保存,并且作为图连同搜索结果一起呈现,从而向用户提供搜索结果的全面描绘。
通过阅读下面的详细描述并参考相关联的附图,这些及其他特点和优点将变得显而易见。可以理解,前述一般描述和以下的详细描述都是说明性的,并且不限制所要求保护的各方面。
附图简述
图1是示出网络搜索环境中的基于虚拟文档的搜索操作的概念图;
图2是示出使用虚拟文档来捕捉链接/嵌入/来自外部源的文档之间的关系的搜索操作的概念图;
图3示出在根据一些实施例的系统中通过虚拟文档来捕捉链接的文档之间的关系;
图4示出在根据其他实施例的系统中通过虚拟文档来捕捉共享一数据源的文档之间的关系;
图5示出在根据又一些实施例的系统中通过虚拟文档来捕捉嵌入的文档之间的关系;
图6是可实现根据各实施例的系统的联网环境;
图7是可实现各实施例的示例计算操作环境的框图;以及
图8示出根据各实施例的执行使用虚拟文档来捕捉链接/嵌入/来自外部源的文档之间的关系的搜索的过程的逻辑流程图。
具体实施方式
如以上简要地描述的,链接/嵌入/来自外部源的文档之间的关系可在爬行时通过采用虚拟文档来捕捉,并与搜索结果一起被呈现给用户。在以下详细描述中,参考了构成了详细描述的一部分并作为说明示出了各具体实施例或示例的附图。可组合这些方面,可利用其他方面,并且可以做出结构上的改变而不背离本发明的精神或范围。因此,以下详细描述并不旨在限制,并且本发明的范围由所附权利要求及其等效方案来限定。
尽管在结合在个人计算机上的操作系统上运行的应用程序执行的程序模块的一般上下文中描述了各实施例,但是本领域的技术人员会认识到各方面也可以结合其他程序模块实现。
一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、组件、数据结构和其他类型的结构。此外,本领域的技术人员可以明白,各实施例可以用其他计算机系统配置来实施,包括手持式设备、多处理器系统、基于微处理器或可编程消费电子产品、小型计算机、大型计算机以及类似计算设备。各实施例还能在任务由通过通信网络链接的远程处理设备来执行的分布式计算环境中实现。在分布式计算环境中,程序模块可位于本地和远程存储器存储设备两者中。
各实施例可被实现为计算机实现的过程(方法)、计算系统、或者诸如计算机程序产品或计算机可读介质等制品。计算机程序产品可以是计算机系统可读并且编码包括用于使计算机或计算系统执行示例过程的指令的计算机程序的计算机存储介质。例如,计算机可读存储介质可经由易失性计算机存储器、非易失性存储器、硬盘驱动器、闪存驱动器、软盘或紧致盘和类似介质中的一个或多个来实现。
贯穿本说明书,术语“平台”可以是用于管理计算机和网络操作(其可包括搜索)的软件和硬件组件的组合。平台的示例包括但不限于,在多个服务器上执行的托管服务、在单个服务器上执行的应用程序以及类似系统。术语“服务器”一般指通常在联网环境中执行一个或多个软件程序的计算设备。然而,服务器还可以被实现为在被视作网络上的服务器的一个或多个计算设备上执行的虚拟服务器(软件程序)。以下提供关于这些技术和示例操作的更多细节。
参考图1,概念图100示出了网络搜索环境中的基于虚拟文档的搜索操作。搜索引擎的质量的一个测度是尽可能快地找出相关文档而不过度消耗系统资源。
当用户向搜索引擎提交查询(例如通过使用关键词)时,搜索引擎可检查其索引并根据预定义准则提供匹配结果的列表。该索引可根据与数据一起存储的信息和对该信息进行索引的方式来构建。查询可包括诸如布尔运算符(例如AND(与)、OR(或)、NOT(非)等)之类的参数,这些参数允许用户细化并扩展搜索的项。然而,常规搜索引擎通常搜索文档内的文本数据,并且不检测与所找到的文档相关联的到其他文档的链接、嵌入的文档、或共享的数据源。
根据各实施例的搜索引擎可采用表示链接或嵌入的文档以及外部数据源的虚拟文档来捕捉链接/嵌入/来自外部源的文档之间的关系以供后续呈现给作出请求的用户,并且在对文档进行排名时相应地考虑该关系。
搜索操作可以在不同的环境中执行,如在桌面上或在如图100中所示的联网环境中。图100中示出的联网搜索环境是为了描述的目的。可在诸如基于企业的网络、基于云的网络及其组合等各种联网环境中实现各实施例。用户102可在他们的计算设备104中执行多个应用程序。这些应用程序中的一些可在本地执行,而其他可以是在其他计算设备上执行并通过计算设备104来访问的分布式应用程序。
在典型的系统中,计算设备104可作为客户机与一个或多个服务器(例如服务器112)通信。服务器112可为用户102执行搜索操作以在服务器112本身、其他客户机106、数据存储108、网络的其他服务器114、或网络110外部的资源上搜索文档。
在一示例情形中,网络110可表示企业网络,其中用户102可提交搜索请求。基于所提供的搜索项,服务器122上的搜索应用程序可执行搜索,该搜索在爬行时捕捉链接/嵌入/来自外部源的文档之间的关系。这些关系可被保存以供呈现给用户102,并在对搜索结果进行排名时计入考虑范围内。搜索还可包括网络110外部的资源,诸如服务器116或服务器122以及数据存储120,它们可通过至少一个其他网络118来访问。
如上所述,搜索还可在驻留于计算设备104上的应用程序上执行或在用户102能通过计算设备104和网络110访问的分布式服务上执行。搜索结果可由执行该搜索的应用程序(例如,浏览应用程序)来呈现,或由搜索引擎提供给各种应用程序以供呈现。
图2包括示出使用虚拟文档来捕捉链接/嵌入/外部源文档之间的关系的搜索操作的概念图200。如上所述,被搜索文档的内容可包含其他文档(例如,文字处理文件嵌入在电子表格文件中),具有与另一文档的链接数据关系(例如,电子表格单元引用不同的电子表格文件中的另一单元),或接收来自外部数据源(该外部数据源也可向其他文档提供数据)的数据。在平面文本搜索期间,文档与其嵌入文档/依存文档/外部数据源之间的这些关系通常丢失了。结果,用户可能不能够确定哪一些(有多少)文档使用特定数据源,不能找出文档之间的依存关系,并且必须重复搜索任何相关文档/数据源,从而过度消耗系统资源。
在根据各实施例的系统中,搜索引擎226可以对数据源224执行搜索,数据源224可包括数据库、分析服务、门户(例如,web共享服务)、各种形式的数据、以及其他服务。该搜索可产生不带有上述关系中的任一个的正常文档。该搜索还可返回包括到其他文档的链接、嵌入的文档、以及来自外部数据源的数据的文档。为区别起见,不带有上述关系中的任一个的文档或包含到另一文档的链接、嵌入的文档、以及来自外部源的数据的文档在此被称为“真实文档”。
根据一些实施例,链接或嵌入的文档与文档和外部数据源之间的关系可以按链式的方式来链接,从而意味着多个文档之间可能存在多级关系。搜索引擎226可为链接的文档/嵌入的文档/外部数据源中的每一个创建虚拟文档230。搜索引擎226还可创建所发现的真实文档228和虚拟文档230的、根据预定义算法进行了排名的索引232。根据一些实施例,该排名算法可考虑真实和虚拟文档之间的关系234。
根据其他实施例,关系234可被保存并被提供给呈现应用程序236,使得关于这些关系的信息可连同所列出的搜索结果一起使用图形、文本、或其他方案来呈现给用户。如下文详细解释的,关系234可作为元数据或作为虚拟文档中的每一个的标识符的一部分被提供给呈现应用程序236。
已经用具体的服务器、客户机设备、软件模块和交互描述了图1和图2中的示例系统。各实施例不限于根据这些示例配置的系统。通过采用虚拟文档来进行索引和搜索可以在采用更少或附加组件并执行其他任务的配置中实现。此外,可以使用此处描述的原理以相似的方式来实现特定的协议和/或接口。
图3示出在根据一些实施例的系统中通过虚拟文档来捕捉链接的文档之间的关系。图300示出示例文档340,文档340包括到文档342的链接,文档342又包括到文档344的链接。文档342和344可能不能被常规搜索发现。根据一些实施例的搜索引擎可以返回文档340作为搜索真实文档350并返回文档342和344作为虚拟文档352和354。
根据一个实施例,文档之间的数据依存关系可被保存在文档的标识符中。例如,标识虚拟文档352的统一资源定位符(URL)可以是文档340和342的组合,指示这两个文档之间的数据依存关系。类似地,虚拟文档364的URL可以是所有三个文档340、342、以及344的组合,指示这三个文档之间的链式关系。
图4示出在根据其他实施例的系统中通过虚拟文档来捕捉共享一数据源的文档之间的关系。如图400所示,文档462和464可包含从数据源460动态提供的数据。例如,文档462和464可以是包括在数据源460处维护并周期性地更新的数据的电子表格数据。
根据各实施例的搜索引擎可以确定文档462、464与数据源460之间的关系,并创建表示数据源460的虚拟文档465。根据一个实施例,搜索结果的真实文档466、468与虚拟文档465之间的关系可被保存在元数据中或真实文档466和468的标识符中。例如,可以用数据源460的服务器名和数据源标识符来补充文档URL,从而指示文档和数据源之间的关系。呈现应用程序还可确定以下事实:文档462和464两者以此方式共享同一文档。各实施例不限于两个文档或共享单个数据源。可以索引共享任何数量的数据源的任何数量的文档,并且使用虚拟文档来呈现结果以捕捉数据依存关系。
图5示出在根据又一些实施例的系统中通过虚拟文档来捕捉嵌入的文档之间的关系。图500中的文档570包括嵌入的文档572,嵌入的文档572可能不能被基于平面文本的搜索引擎发现。
根据各实施例的搜索引擎可以在搜索结果中创建表示嵌入的文档572的虚拟文档582以及表示文档570的真实文档580。与上述示例一样,文档之间的关系可被保存在元数据中或文档的标识符中。例如,虚拟文档582的URL可包括父文档(570)的URL和嵌入的文档(572)的名称。此外,嵌入的文档572的类型(例如,文字处理、电子表格、图像、演示、浏览文档,等等)也可被保存为虚拟文档的属性。
已经用具体文档、关系、以及呈现示例描述了图3、4和5中的示例文档表示。各实施例不限于根据这些示例配置的系统。通过采用虚拟文档来进行索引和搜索可以用其他类型的文档、关系、和配置使用本文描述的原理来实现。
图6是可实现各实施例的示例联网环境。提供基于虚拟文档的搜索的、用于捕捉文档之间的关系的平台可经由诸如主存服务等在一个或多个服务器614上执行的软件来实现。该平台可以通过网络610来与诸如智能电话613、膝上型计算机612、或台式计算机611(‘客户机设备’)之类的个体计算设备上的客户机应用程序进行通信。
如上所述,在客户机设备611-613的任何一个上执行的客户机应用程序可向客户机设备611-613上的、服务器614上的或个体服务器616上的搜索引擎提交搜索请求。搜索引擎可以确定相关文档,如链接、嵌入、或共享数据源的文档,并如上所述在爬行时创建虚拟文档以保存关系。搜索结果还可考虑捕捉到的关系来进行排名。该服务可直接从数据存储619中或通过数据库服务器618检索相关数据,并且通过客户机设备611-613将经排名的搜索结果提供给用户。
网络610可包括服务器、客户机、因特网服务供应商以及通信介质的任何拓扑结构。根据各实施例的系统可以具有静态或动态拓扑结构。网络610可包括诸如企业网络等安全网络、诸如无线开放网络等非安全网络、或因特网。网络610还可通过诸如公共交换电话网络(PSTN)或蜂窝网络等其他网络来协调通信。此外,网络610可包括诸如蓝牙或类似网络等近程无线网络。网络610提供本文描述的节点之间的通信。作为示例而非限制,网络610可以包括无线介质,诸如声学、RF、红外和其他无线介质。
可以采用计算设备、应用程序、数据源、以及数据分发系统的许多其他配置来实现用于采用虚拟文档来进行索引和搜索的框架。此外,图6中所讨论的联网环境仅用于说明目的。各实施例不限于示例应用程序、模块、或过程。
图7及相关联讨论旨在提供对其中可实现各实施例的合适计算环境的简要概括描述。参考图7,示出了根据各实施例的用于应用程序的示例计算操作环境(诸如计算设备700)的框图。在基本配置中,计算设备700可以是根据各实施例的执行具有执行搜索能力的客户机应用程序的客户机设备、或执行具有执行搜索能力的服务的服务器,并且包括至少一个处理单元702和系统存储器704。计算设备700还可包括协作执行程序的多个处理单元。取决于计算设备的确切配置和类型,系统存储器704可以是易失性的(诸如RAM)、非易失性的(诸如ROM、闪存等)或是两者的某种组合。系统存储器704通常包括适于控制平台操作的操作系统705,诸如来自华盛顿州雷德蒙市的微软公司的操作系统。系统存储器704还可包括一个或多个软件应用程序,诸如程序模块706、有搜索能力的应用程序722、搜索引擎724和可任选地其他应用程序/数据726。
应用程序722可以是能够通过搜索引擎724对计算设备700中的其他应用程序/数据726和/或基于企业或基于云的联网环境中可用的各种数据执行搜索的任何应用程序。搜索引擎724可以创建上述用于表示与所找到的文档相关联的链接、嵌入、或数据源共享的文档的虚拟文档。应用程序722以及搜索引擎724可以是独立的应用程序或者是所主存的服务的集成组件。该基本配置在图7中由虚线708内的那些组件示出。
计算设备700可具有附加特征或功能。例如,计算设备700还可包括附加数据存储设备(可移动和/或不可移动),例如磁盘、光盘或磁带。在图7中通过可移动存储709和不可移动存储710示出这样的附加存储。计算机可读存储介质可以包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。系统存储器704、可移动存储709和不可移动存储710都是计算机可读存储介质的示例。计算机可读存储介质包括,但不限于,RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光存储、磁带、磁盘存储或其他磁存储设备、或能用于存储所需信息且可以由计算设备700访问的任何其他介质。任何这样的计算机可读存储介质都可以是计算设备700的一部分。计算设备700还可以具有输入设备712,诸如键盘、鼠标、笔、语音输入设备、触摸输入设备和类似输入设备。还可以包括输出设备714,诸如显示器、扬声器、打印机和其他类型的输出设备。这些设备在本领域中公知且无需在此处详细讨论。
计算设备700还可包含通信连接716,该通信连接允许该设备诸如通过分布式计算环境中的有线或无线网络、卫星链接、蜂窝链接、短程网络和类似机制来与其他设备718进行通信。其他设备718可包括执行通信应用程序的计算机设备、其他web服务器和类似设备。一个或多个通信连接716是通信介质的一个示例。通信介质可在其中包括计算机可读指令、数据结构、程序模块或其他数据。作为示例而非限制,通信介质包括诸如有线网络或直接线连接之类的有线介质,以及诸如声学、RF、红外及其他无线介质之类的无线介质。
各示例实施例还包括各种方法。这些方法可以用任何数量的方式,包括本文中所描述的结构来实现。一种此类方式是通过本文中描述的类型的设备的机器操作。
另一可任选方式是结合一个或多个人类操作者执行该方法的各个操作中的某一些来执行该方法的一个或多个操作。这些人类操作者无需彼此同在一处,而是其每一个可以仅与执行程序的一部分的机器同在一处。
图8示出根据各实施例的执行使用虚拟文档来捕捉链接/嵌入/来自外部源的文档之间的关系的搜索的过程800的逻辑流程图。过程800可实现为在服务器或客户机设备上执行的应用程序的一部分。
过程800始于操作810,在此爬行文档。可对爬行结果进行索引以用于在后续搜索时快速呈现搜索结果。在操作820,在爬行被执行时,确定链接/嵌入/来自外部源的文档之间的关系。如上所述,这些关系可连接两个或更多个文档。可唯一地标识每一虚拟文档,使得对虚拟文档的爬行和索引可被立即执行而非通过多个循环来执行。
在操作830,可创建虚拟文档来表示连接的文档或数据源,使得可保存关系以供后续呈现。这些关系还可被用来对真实和虚拟文档进行排名。在840,可从用户接收搜索请求。在操作850,可向呈现应用程序提供搜索结果。连同经排名的文档一起,还可提供关于关系的信息,例如作为元数据或作为虚拟文档的标识符的一部分。因而,在根据各实施例的系统中,虚拟文档被独立地爬行和索引。文档与相关联的虚拟文档之间的关系可被存储为真实文档和相关联的文档两者的属性,使其能被搜索和导航。在任选操作860,这些关系被呈现为各种格式的文档映射。
包括在过程800内的各操作是用于说明目的。使用虚拟文档来捕捉链接、嵌入、以及共享数据源的文档之间的关系以进行索引和搜索,可使用本文描述的原理通过具有更少或更多步骤的类似过程以及按不同操作次序来实现。
以上说明书、示例和数据提供了对各实施例的组成的制造和使用的全面描述。尽管用结构特征和/或方法动作专用的语言描述了本主题,但可以理解,所附权利要求书中定义的主题不必限于上述具体特征或动作。相反,上述具体特征和动作是作为实现权利要求和各实施方式的示例形式而公开的。
Claims (15)
1.一种至少部分地在计算设备中执行的用于执行采用虚拟文档的搜索的方法,所述方法包括:
从用户接收搜索请求;
在爬行时,确定相关的第一文档与第二文档之间的关系;
创建表示所述第二文档的虚拟文档;
索引包括相关的第一文档和所述虚拟文档的搜索结果;以及
呈现所述搜索结果。
2.如权利要求1所述的方法,其特征在于,所述相关的第一文档与所述第二文档之间的关系包括以下之一:所述第二文档从所述相关的第一文档链接和所述第二文档被嵌入在所述相关的第一文档中。
3.如权利要求2所述的方法,其特征在于,还包括:
创建表示链接到所述相关的第一文档的数据源的另一虚拟文档;以及
在索引所述搜索结果时包括所述另一虚拟文档。
4.如权利要求3所述的方法,其特征在于,还包括:
通过以下之一来保存所述相关的第一文档与所述第二文档和所述数据源中的至少一个之间的关系:与所述搜索结果相关联的元数据以及所述虚拟文档和所述另一虚拟文档的标识符。
5.如权利要求4所述的方法,其特征在于,所述虚拟文档的标识符包括:
在所述相关的第一文档与所述第二文档相链接的情况下,所述相关的第一文档的标识符和所述第二文档的标识符的组合,以及
在所述第二文档被嵌入在所述相关的第一文档中的情况下,所述相关的第一文档的标识符与所述第二文档的名称的组合。
6.如权利要求1所述的方法,其特征在于,所述相关的第一文档与多个文档相关,并且所述方法还包括:
创建多个虚拟文档,每一虚拟文档表示所述多个文档之一。
7.如权利要求1所述的方法,其特征在于,所述相关的第一文档内容包括以下集合中的至少一个:文本数据和图形数据。
8.一种便于采用虚拟文档进行搜索的联网计算设备,所述计算设备包括:
存储指令的存储器;
耦合至所述存储器的处理器,所述处理器基于所存储的指令来执行搜索应用程序,其中所述搜索应用程序被配置成:
接收搜索请求;
在爬行时,确定以下集合中的至少一个:链接到相关的文档的文档、嵌入到所述相关的文档的文档、以及向所述相关的文档提供数据的数据源;
创建表示所述链接的文档、所述嵌入的文档、以及所述数据源中的每一个的虚拟文档;
索引包括所述相关的第一文档和所述虚拟文档的搜索结果;以及
将所述搜索结果提供给客户机应用程序以供呈现,其中考虑所述相关的文档与所述虚拟文档之间的关系来对所述搜索结果进行排名。
9.如权利要求8所述的计算设备,其特征在于,所述搜索应用程序还被配置成:
向所述客户机应用程序提供与所述相关的文档与所述虚拟文档之间的关系相关联的信息,从而使得所述客户机应用程序能够将所述关系与所述搜索结果一起呈现。
10.如权利要求9所述的计算设备,其特征在于,所述关系是采用图形方案和文本方案中的至少一个来呈现的。
11.如权利要求10所述的计算设备,其特征在于,表示链接到所述相关的文档的文档的虚拟文档的统一资源定位符(URL)包括所述相关的文档的URL和所述链接的文档的URL的组合,表示嵌入到所述相关的文档的文档的虚拟文档的URL包括所述相关的文档的URL和所述嵌入的文档的名称的组合,以及表示链接到所述相关的文档的数据源的虚拟文档的URL包括与所述数据源相关联的服务器名和数据源标识符的组合。
12.如权利要求8所述的计算设备,其特征在于,所述计算设备被耦合到以下之一:基于企业的网络、基于云的网络、以及基于企业的网络和基于云的网络的组合。
13.一种其上存储有用于采用虚拟文档进行搜索的指令的计算机可读存储介质,所述指令包括:
在搜索应用程序处接收搜索请求;以及
在爬行时,确定以下集合中的至少一个:链接到相关的文档的文档、嵌入到所述相关的文档的文档、以及向所述相关的文档提供数据的数据源,以便在单个搜索中对所述相关的文档和有关文档和数据源进行索引;
创建表示所述链接的文档、所述嵌入的文档、以及所述数据源中的每一个的虚拟文档,以使得所述链接的文档、所述嵌入的文档、以及所述数据源是可搜索和可导航的;
索引包括所述相关的文档和所述虚拟文档的搜索结果;以及
将所述搜索结果提供给客户机应用程序以供呈现所述搜索结果和所述相关的文档与所述虚拟文档之间的关系,其中考虑所述相关的文档与所述虚拟文档之间的关系来对所述搜索结果进行排名。
14.如权利要求13所述的计算机可读介质,其特征在于,表示所述数据源的虚拟文档使得搜索应用程序能够推断出所述相关的文档与共享该同一数据源的多个文档之间的关系。
15.如权利要求13所述的计算机可读介质,其特征在于,嵌入到所述相关的文档中的文档的类型被存储为表示所述嵌入的文档的虚拟文档的属性。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/727,739 | 2010-03-19 | ||
US12/727,739 US8560519B2 (en) | 2010-03-19 | 2010-03-19 | Indexing and searching employing virtual documents |
PCT/US2011/028651 WO2011116082A2 (en) | 2010-03-19 | 2011-03-16 | Indexing and searching employing virtual documents |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102822820A true CN102822820A (zh) | 2012-12-12 |
CN102822820B CN102822820B (zh) | 2015-07-08 |
Family
ID=44648035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180014578.7A Active CN102822820B (zh) | 2010-03-19 | 2011-03-16 | 使用虚拟文档进行索引和搜索 |
Country Status (8)
Country | Link |
---|---|
US (1) | US8560519B2 (zh) |
EP (1) | EP2548140A4 (zh) |
JP (1) | JP5856139B2 (zh) |
CN (1) | CN102822820B (zh) |
AU (1) | AU2011227327B2 (zh) |
BR (1) | BR112012023714A2 (zh) |
CA (1) | CA2790421C (zh) |
WO (1) | WO2011116082A2 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110851436A (zh) * | 2018-08-03 | 2020-02-28 | Emc Ip控股有限公司 | 具有虚拟编索引的分布式搜索框架 |
CN113204579A (zh) * | 2021-04-29 | 2021-08-03 | 北京金山数字娱乐科技有限公司 | 内容关联方法、系统、装置、电子设备及存储介质 |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10140278B2 (en) * | 2012-03-26 | 2018-11-27 | Adobe Systems Incorporated | Computer-implemented methods and systems for associating files with cells of a collaborative spreadsheet |
US9529818B2 (en) | 2012-04-23 | 2016-12-27 | Google Inc. | Sharing and synchronizing electronically stored files |
EP2842050A4 (en) * | 2012-04-23 | 2016-01-13 | Google Inc | SHARING AND SYNCHRONIZING ELECTRONICALLY STORED FILES |
US9244934B2 (en) | 2012-04-23 | 2016-01-26 | Google Inc. | Sharing and synchronizing electronically stored files |
US9239846B2 (en) | 2012-04-23 | 2016-01-19 | Google Inc. | Sharing and synchronizing electronically stored files |
US8949179B2 (en) | 2012-04-23 | 2015-02-03 | Google, Inc. | Sharing and synchronizing electronically stored files |
US8965880B2 (en) | 2012-10-05 | 2015-02-24 | Google Inc. | Transcoding and serving resources |
US9727652B2 (en) * | 2013-07-22 | 2017-08-08 | International Business Machines Corporation | Utilizing dependency among internet search results |
US20140297430A1 (en) * | 2013-10-31 | 2014-10-02 | Reach Labs, Inc. | System and method for facilitating the distribution of electronically published promotions in a linked and embedded database |
US8924850B1 (en) | 2013-11-21 | 2014-12-30 | Google Inc. | Speeding up document loading |
CN111367778B (zh) * | 2020-03-13 | 2023-07-07 | 百度在线网络技术(北京)有限公司 | 评估搜索策略的数据分析方法和装置 |
US20220230106A1 (en) * | 2021-01-20 | 2022-07-21 | Saudi Arabian Oil Company | Systems and methods for asset integrity management and monitoring of safety critical elements |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1898670A (zh) * | 2003-12-30 | 2007-01-17 | Google公司 | 提高搜索质量的系统和方法 |
CN101055585A (zh) * | 2006-04-13 | 2007-10-17 | Lg电子株式会社 | 文档聚类系统和方法 |
US20080235210A1 (en) * | 2007-03-21 | 2008-09-25 | Oracle International Corporation | Searching related documents |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5544352A (en) * | 1993-06-14 | 1996-08-06 | Libertech, Inc. | Method and apparatus for indexing, searching and displaying data |
JP3108015B2 (ja) * | 1996-05-22 | 2000-11-13 | 松下電器産業株式会社 | ハイパーテキスト検索装置 |
US6285999B1 (en) | 1997-01-10 | 2001-09-04 | The Board Of Trustees Of The Leland Stanford Junior University | Method for node ranking in a linked database |
US6397231B1 (en) | 1998-08-31 | 2002-05-28 | Xerox Corporation | Virtual documents generated via combined documents or portions of documents retrieved from data repositories |
US7461334B1 (en) * | 1999-03-19 | 2008-12-02 | Network Solutions, Llc | Apparatus and method for web forwarding |
JP3974292B2 (ja) * | 1999-08-20 | 2007-09-12 | 富士通株式会社 | 文書閲覧システム及びそのシステムで用いられるデータ読み込み装置及び文書表示装置 |
US7191392B1 (en) | 2000-03-23 | 2007-03-13 | Virpack.Com | System and method for the creation of virtual information packages |
US20020078014A1 (en) * | 2000-05-31 | 2002-06-20 | David Pallmann | Network crawling with lateral link handling |
US7490092B2 (en) | 2000-07-06 | 2009-02-10 | Streamsage, Inc. | Method and system for indexing and searching timed media information based upon relevance intervals |
US7203673B2 (en) * | 2000-12-27 | 2007-04-10 | Fujitsu Limited | Document collection apparatus and method for specific use, and storage medium storing program used to direct computer to collect documents |
JP3895955B2 (ja) * | 2001-08-24 | 2007-03-22 | 株式会社東芝 | 情報検索方法および情報検索システム |
US7165024B2 (en) | 2002-02-22 | 2007-01-16 | Nec Laboratories America, Inc. | Inferring hierarchical descriptions of a set of documents |
US20030225722A1 (en) | 2002-05-30 | 2003-12-04 | International Business Machines Corporation | Method and apparatus for providing multiple views of virtual documents |
JP4438392B2 (ja) * | 2003-11-27 | 2010-03-24 | 富士ゼロックス株式会社 | 木構造データ作成装置及びプログラム |
US7424467B2 (en) | 2004-01-26 | 2008-09-09 | International Business Machines Corporation | Architecture for an indexer with fixed width sort and variable width sort |
US8805781B2 (en) | 2005-06-15 | 2014-08-12 | Geronimo Development | Document quotation indexing system and method |
US20080114753A1 (en) * | 2006-11-15 | 2008-05-15 | Apmath Ltd. | Method and a device for ranking linked documents |
-
2010
- 2010-03-19 US US12/727,739 patent/US8560519B2/en active Active
-
2011
- 2011-03-16 AU AU2011227327A patent/AU2011227327B2/en active Active
- 2011-03-16 CN CN201180014578.7A patent/CN102822820B/zh active Active
- 2011-03-16 CA CA2790421A patent/CA2790421C/en active Active
- 2011-03-16 EP EP11756923.6A patent/EP2548140A4/en not_active Ceased
- 2011-03-16 JP JP2013501314A patent/JP5856139B2/ja active Active
- 2011-03-16 WO PCT/US2011/028651 patent/WO2011116082A2/en active Application Filing
- 2011-03-16 BR BR112012023714A patent/BR112012023714A2/pt not_active Application Discontinuation
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1898670A (zh) * | 2003-12-30 | 2007-01-17 | Google公司 | 提高搜索质量的系统和方法 |
CN101055585A (zh) * | 2006-04-13 | 2007-10-17 | Lg电子株式会社 | 文档聚类系统和方法 |
US20080235210A1 (en) * | 2007-03-21 | 2008-09-25 | Oracle International Corporation | Searching related documents |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110851436A (zh) * | 2018-08-03 | 2020-02-28 | Emc Ip控股有限公司 | 具有虚拟编索引的分布式搜索框架 |
CN110851436B (zh) * | 2018-08-03 | 2023-10-27 | Emc Ip控股有限公司 | 具有虚拟编索引的分布式搜索框架 |
CN113204579A (zh) * | 2021-04-29 | 2021-08-03 | 北京金山数字娱乐科技有限公司 | 内容关联方法、系统、装置、电子设备及存储介质 |
CN113204579B (zh) * | 2021-04-29 | 2024-06-07 | 北京金山数字娱乐科技有限公司 | 内容关联方法、系统、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
EP2548140A4 (en) | 2016-07-06 |
JP5856139B2 (ja) | 2016-02-09 |
US8560519B2 (en) | 2013-10-15 |
BR112012023714A2 (pt) | 2016-08-23 |
AU2011227327B2 (en) | 2014-04-10 |
CA2790421C (en) | 2019-03-05 |
WO2011116082A2 (en) | 2011-09-22 |
EP2548140A2 (en) | 2013-01-23 |
US20110231386A1 (en) | 2011-09-22 |
JP2013522798A (ja) | 2013-06-13 |
WO2011116082A3 (en) | 2012-01-05 |
CN102822820B (zh) | 2015-07-08 |
CA2790421A1 (en) | 2011-09-22 |
AU2011227327A1 (en) | 2012-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102822820B (zh) | 使用虚拟文档进行索引和搜索 | |
CN109964216B (zh) | 识别未知数据对象 | |
US10642904B2 (en) | Infrastructure enabling intelligent execution and crawling of a web application | |
US9367530B2 (en) | Distributed document co-authoring and processing | |
US8688702B1 (en) | Techniques for using dynamic data sources with static search mechanisms | |
US8407241B2 (en) | Content mesh searching | |
KR20170091142A (ko) | 웹 콘텐츠 태깅 및 필터링 | |
US10331441B2 (en) | Source code mapping through context specific key word indexes and fingerprinting | |
CN102007509A (zh) | 通过基于web的桌面生产力应用程序来插入多媒体文件 | |
CN102200996A (zh) | 对动态报告进行解析和索引 | |
US8671108B2 (en) | Methods and systems for detecting website orphan content | |
CN102725755A (zh) | 文件访问方法及系统 | |
WO2018085475A2 (en) | Multi-level data pagination | |
US11853301B1 (en) | Sharing compiled code for executing queries across query engines | |
US20180260190A1 (en) | Split and merge graphs | |
KR101503268B1 (ko) | 시맨틱 클라이언트, 시맨틱 정보 관리 서버, 시맨틱 정보생성 방법, 시맨틱 정보 검색 방법 및 그 방법들을수행하기 위한 컴퓨터 기록매체 | |
KR20130044329A (ko) | 컨텍스트-기반 아이템 북마킹 | |
US20190250999A1 (en) | Method and device for storing and restoring a navigation context | |
US9251273B2 (en) | Delivering a filtered search result | |
US11409790B2 (en) | Multi-image information retrieval system | |
US9542457B1 (en) | Methods for displaying object history information | |
WO2017053155A1 (en) | Intelligent tabular big data presentation in search environment based on prior human input configuration | |
EP3120263A1 (en) | Asset collection service through capture of content | |
US10970358B2 (en) | Content generation | |
Gupta et al. | Android App with PaaS Solution for Web Mining of E-Mail Addresses and its Triggering Mail |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
ASS | Succession or assignment of patent right |
Owner name: MICROSOFT TECHNOLOGY LICENSING LLC Free format text: FORMER OWNER: MICROSOFT CORP. Effective date: 20150728 |
|
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20150728 Address after: Washington State Patentee after: Micro soft technique license Co., Ltd Address before: Washington State Patentee before: Microsoft Corp. |