CN1514976A - 用于进行对象检索的分布式计算机数据库系统和方法 - Google Patents

用于进行对象检索的分布式计算机数据库系统和方法 Download PDF

Info

Publication number
CN1514976A
CN1514976A CNA998016764A CN99801676A CN1514976A CN 1514976 A CN1514976 A CN 1514976A CN A998016764 A CNA998016764 A CN A998016764A CN 99801676 A CN99801676 A CN 99801676A CN 1514976 A CN1514976 A CN 1514976A
Authority
CN
China
Prior art keywords
node
feature
inquiry
hash
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA998016764A
Other languages
English (en)
Inventor
Kp
K·P·巴克劳斯基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JAGE CO Ltd
Original Assignee
JAGE CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JAGE CO Ltd filed Critical JAGE CO Ltd
Publication of CN1514976A publication Critical patent/CN1514976A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9014Indexing; Data structures therefor; Storage structures hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2468Fuzzy queries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Fuzzy Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Automation & Control Theory (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

分布式计算机数据库系统包括一个或多个前端计算机和由网络互连起来、成为一个检索包括图象、声音和视频流以及普通和结构化文档的对象的搜索引擎的一个或多个计算机节点。查询是一个与要检索的对象格式相同的对象。将来自用户的查询发送到一个前端计算机,后者将查询传递到搜索引擎的称为内部节点的一个计算机节点。内部节点从查询抽取特征,然后散列这些特征。将每个散列特征发送到网络上的一个节点。网络上每个接收到散列特征的节点,用散列特征在其各自的数据库分区上进行检索。各本地数据库的检索结果由内部节点收集。

Description

用于进行对象检索的 分布式计算机数据库系统和方法
本发明涉及计算机数据库系统,更具体来说涉及分布式计算机数据库系统。
本领域中一般都认识到,在过去十几年中,信息处理的性质的两个重大变化是,从以字母数字文本处理为主到多媒体处理的转变,从前是分离的计算机由网络连接起来,而网络又由内部网和因特网连接起来。第一种变化导致计算机上的计算机图像变得与文本一样普通。第二种变化导致大量的文本和多媒体信息能为人们所用。信息向人们开放程度的这种提高,是以查找相关信息的难度的增加为代价的。
a)基于单词的搜索引擎
人们已经开发了辅助信息检索的搜索引擎,但是它们主要还是基于将查询中的单词与文本文档中的单词匹配。实际上,这意味着它们一般不能有效地检索图像和其它种类的多媒体的特征。基于单词的系统和基于非单词的系统目前采用独立和截然不同的方法来抽取相关信息。
一种从基于单词的数据库抽取信息的方法是提交查询形式的信息请求。根据查询,计算机能从数据库抽取与查询所规定信息相关的信息。抽取的信息可用于确定查询与数据库中对象之间的“相似”或“相关”程度。人们已经开发了各种计算机实现的相似性测量(similarity measure),用于在查询和数据库信息是自然语言的文档时,比较查询与数据库中的对象。余弦测量(cosine measure)是一种常用的相似性测量。余弦测量的表达公式是COS(v,w),其中向量v表示查询,向量w表示文档。这些向量所在的空间中,每个可能的单词(或同义词集)代表空间的一维。要了解关于余弦测量的进一步信息,可参考G.Salton的《自动文本处理》(Automatic Text Processing,Addison-Wesley,Reading,MA,1989),G.Salton、J.Allen和C.Buckley的《大型文本文件的自动构造和检索》(Automatic structuring and retrieval of large text files,Comm.ACM,37:97-108,1994)。
b)基于非单词的搜索引擎
如上所述,基于非单词的的技术采用的抽取相关信息的方法与基于单词的系统所使用的截然不同。基于非单词的信息检索技术用于例如医学中从人体图象抽取诊断信息时是有益的。肺癌是最难治疗的癌症之一。早期发现对于提高生还率来说是重要的。胸部CT扫描比传统的X光胸透技术更有效,但是CT扫描产生的需要检查的图象更多,这就必然要用计算机辅助执行大规模的筛选程序。CT图象的计算机辅助诊断,要求抽取大量的特征,诸如肺区、血管、气泡和肿瘤。这些特征的检测要用计算机实现的阀值算法并作剔除CT扫描仪的制造物的修匀。这些特征又具有涉及诸如它们的形状、面积、厚度和在肺中的位置等属性的复杂结构。在计算机上实现检查这类特征的这类算法时,采用对象数据库是有用的。对象数据库是一批按照某种数据模型组织并存储在计算机存储介质上的数据或信息对象。每个信息对象以及数据对象都有一个类型,诸如图象、声音或视频流,例如文本文件或结构化文档。每个信息都由一个对象标识符(OID)唯一地标识。OID可以是因特网统一资源定位器(URL)或某种其它形式的标识符,诸如本机对象标识符(local object identifier)。含有图象、声音和/或视频流的数据库不但能包括信息对象本身,也能包括特征和元数据(meta data)。用于这种数据库的数据模型能支持许多抽象层次上的信息的表示,这些层次包括:
1.数据表示层,它含有信息对象的实际数据。
2.数据对象层,它存储从信息对象抽取的数据对象(诸如线和区域)。这个层上的对象没有域解释(domain interpretation)。
3.域对象层,它将一个域对象与数据对象层的每个对象关联
4.域事件层,它将域对象互相关联,提供空间或时间关系的语义表示。
数据对象层(即上述的层2)的特征可以表示为一组独立于域的数据,诸如线和区域。域层(即上述的层3和4)的特征可以表示为一组按域关系彼此相关的域对象。
考察另一个医学例子。乳房X光术是早期检查乳腺癌的一种最有效的方法。乳腺癌是妇女患癌的一个主要原因。人工阅读乳房X光片耗费人力,所以计算机辅助是必不可少的。乳房X光片中有非常多已经判明是对正确诊断有重要意义的特征,诸如凝结的微钙化体(clustered micro calcifications)、星形损伤(stellate lesions)和肿瘤。这些每个都能表示为一组具有复杂结构的医学域对象。例如,星形损伤具有由spincules环绕的中央体(central mass)构成的复杂结构。而spincules又有复杂的星形结构。抽取这些复杂的域对象以及它们互相之间的关系,对于乳腺癌的有效检查是重要的。
图象、声音和视频流的特征可以在计算机中表示为一组存储在数据库中的数据结构。特征可以划分为以下类型:
·不能直接从信息对象抽取的、通常描述的是关于信息对象的其它数据的特征,诸如摄影者姓名或拍摄日期。这种特征称为元数据。
·能在插入数据库时直接从信息对象抽取的特征。
·不到需要时不作计算的特征。
特征可以简单到是一个诸如图象亮度的属性的值,但是许多特征更为复杂,因此是用复杂的数据结构表示的。这种复杂特征的一个例子是,乳房X光片中星形损伤的结构的表示。
一般来说,可以通过分析文档从结构化文档中抽取特征,以产生数据结构;可以通过使用已经为在计算机上的实现而开发的许多特征抽取算法中的一个算法从非结构化文档中抽取特征。如结构化文档的情况一样,从非结构化文档中抽取特征也产生数据结构。人们已经为诸如图象、声音和视频流的多媒体开发了大量的各种特征抽取算法。要探讨这类算法,应当参考由编辑A.Del Bimbo编辑的《第9届图象分析与处理国际研讨会会刊》(标题原文:The Ninth International Conference on Image Analysis and Processing,卷1311,Springer,1997年9月)。例如,医学图象一般用边沿检查算法(edge detection algorithms)来抽取数据对象,而用特定于域的知识将数据对象分类为有医学意义的对象,诸如血管、损伤和肿瘤。傅立叶和弱波变换以及许多过滤算法也用于特征抽取。例如,弱波分析已经被用来特征化区域的纹理和确定形状(诸如字母)而不管该形状在图象内的位置或方向。
表示特征的数据结构一般符合数据库的某个数据模型,数据模型决定了所允许的分量(component)种类和属性值。每个特征可以具有一个或多个与表示该特征的数据结构的分量关联的值。在最简单的情况中,数据结构可以有一个单一的、具有一个关联值的分量,特征可以由对象的一个属性来表示。更复杂的特征可以由若干互相关联的、每个都有属性值的分量来表示。处于域层的数据模型经常被称为主体(ontology)。主体为诸如医学的特定域内的知识建立模型。主体可包括概念网络(concept network)、专业词汇、语法形式和推理规则。特别地,主体定义对象可拥有的特征以及如何从对象抽取特征。对象的每个特征都有一个关联的权重(weight)来代表该特征的“强度”或者说对象具有该特征的程度。
当前用于从信息对象抽取特征的系统使用的主体非常简单,此外,主体在系统的设计中是隐式的,不是系统的一个单独成分。结果,当前的系统不能在因其而设计系统的单一本体以外使用。如果不彻底重新设计系统,要使用不同的本体、甚而向本体添加新功能一般是都不可能的。这类系统不适合现代应用领域的典型的那些大型、复杂、演变的本体。
当信息对象不是用自然语言编写的文档时,信息检索系统就不能用上述的余弦测量来测量信息的相关性,因此人们开发了其它测量(下文作讨论),用于在这些系统中从图象或其它多媒体抽取特征。这种区别进一步说明了基于单词的与基于非单词的信息检索系统之间的差异—正如本领域的熟练人员所认识到的那样。
要帮助在代表图象特征之类的数据库中查找信息,要采用称为索引(indexes)的特殊数据结构。就解决相似性索引(similarity indexing)的问题而言,当前的索引技术是非常有限的。许多搜索引擎局限于索引附属于信息对象的元数据,而不索引信息对象的内容。其它能直接索引信息对象的内容的搜索引擎使用的索引技术,功能随着规模的增加而急剧衰减,这些搜索引擎一般只是选择一些信息对象,而不排定它们的次序。
当前的技术一般要求每个属性或特征有单独的索引。这种技术中即使最复杂的索引也局限于非常少量的属性。由于每个索引可以大至数据库本身,这种技术在有成百上千的属性的情况下就不能正常发挥作用,正如常见的要直接索引诸如图象、声音和视频流的对象时的情形一样。此外,维护每个索引结构的关联开销也很可观。这就限制了能索引的属性的数量。当前系统不能扩展到能支持有许多-包括图象、声音和视频流-对象类型、数百万个特征、同时涉及许多对象类型和特征的查询、不断添加的新对象类型和特征的数据库。
当前技术的另一个特点是,它在检索时将各信息对象作为单独的单元对待,即要么将信息对象作为一个整体来检索,要么就根本不检索。例如,万维网浏览器按单元检索每个文档,只有整个文档都被下载并格式化后才提交文档。对象内的个别数据项甚至段落都不个别作索引。有些搜索引擎在这方面甚至更加极端,即它们仅仅把Web站点进行归类。
当前的搜索引擎通常都包括陈旧的索引项,就是说,自打文档被索引以后,产生索引项的文档被更新过或已经被删除。保留陈旧索引项是有必要的,因为要不断地监视这么多的文档,成本极其高。对于许多文档来说,保留陈旧索引项是可以接受的,但是对某些时间敏感型文档—诸如含有商品价格的文档—来说,保持索引的最新状态是重要的。
有关上述思想的其它信息可参阅下列文献:
1.L.Aiello、J.Doyle和S.Shapiro编辑的《第五届知识表示和推理原理国际大会》(Fifth Intern.Conf.on Principles ofKnowledge Representation and Reasoning,Morgan Kaufman出版社,San Mat eo,CA,1996)
2.K.Baclawski的《分布式计算机数据库系统与方法》(Distributed computer database system and method,1997年12月,美国专利申请号5,694,593,受让人-西北大学(位于美国麻省波士顿))
3.N.Fridman Noy的《试验科学中智能信息检索的知识表示》(Knowledge Representation for Intelligent InformationRetrieval in Experimental Science,博士论文,西北大学计算机学院(位于美国麻省波士顿),1997)
4.P.Hayes和J.Carbonnel.Scout的《自动化的查询相关文档总结》(automated query-relevant document summarization,Technical Report 1997 Project Summary,Carnegie(卡内基)集团(美国宾州匹兹堡),1997)
5.Y.Ohta的《户外自然彩色景观的基于知识的解释》(Knowledge-Based Interpretation of Outdoor Natural ColorScences.Pitma(美国麻省波士顿),1985)
6.M.Zloof的《举例查询:表和表单的调用和定义》(Query-by-example:the invocation and definition of tables andforms,In Proc.Conf.On Very Large Databases,1-24页,1975)
在以上发明背景介绍中引用的文献,本文引以参考。
期望提供这样一种信息检索系统,它能用单一的索引系统从基于单词和非单词的信息的统一数据库检索信息-信息包括文档、图象和其它形式的多媒体,另外还能克服当前系统的许多性能和其它问题及局限。这种信息检索系统最好是高度可伸缩的、多用途的、坚固的和经济的。
本发明归属于在信息检索装置中处理查询,进行基于单词和基于非单词的数据库信息的检索,方法是从查询中抽取一些特征,将每个特征分割成特征片断(feature fragments),将每个特征片断散列(hashing)成散列特征片断(hashed feature fragments)。可以利用散列特征片断来访问散列表(hash table),以从中获得可用于获得与查询相关的数据库信息的对象标识符。另一个方面,本发明归属于一种为方便数据库检索而索引信息的信息索引系统,方法是从信息中抽取一些特征,将每个特征分割成特征片断,将每个特征片断散列成散列特征片断。用散列特征片断来访问散列表,以存储指定散列特征片断所决定的、应当将信息存储在该处的位置的对象标识符。信息检索装置可以在分布式计算机数据库系统中实现。
一般来说,如本文所用的术语“特征”,系指与某信息对象关联的或者从该信息对象的内容派生的、在适用的域内有意义并且与适用的主体相符的任何信息或知识-不管该信息对象代表的是文档、图象还是其它多媒体。所以,例如如果信息对象代表-例如要参加摄影比赛的-一张人脸摄影图象,则图象的特征包括眼睛、鼻子和嘴,这是因为它们是评委们在浏览图象时能看到的。如果将同一张图象用于皮肤病诊断,域和主体就变化了,特征甚至能包括肉眼不能观察到的表面缺陷。
更具体来说,按照本发明一个方面的分布式计算机数据库系统可包括一个或多个前端计算机和一个或多个由网络互连起来、成为一个检索包括例如图象、声音和视频流以及普通和结构化文档的数据库对象的搜索引擎的计算机节点。将最好与要检索的数据库对象的格式相同的查询或查询对象,从用户发送到一个前端计算机,后者将查询转发到搜索引擎的称为内部节点的一个计算机节点。内部节点从查询抽取特征,由特征生成片断,然后散列这些特征片断。每个散列特征片段被传递到网络的一个节点。网络上每个接收到散列特征片断的节点用散列特征片断在其各自的数据库分区上进行检索。本地数据库的检索结果由内部节点收集。如果用户请求,就由内部节点第二次重复这个过程,来改进查询的结果。
以上分布式计算机数据库系统可以实现得具有许多有用的功能。例如,系统可以被实现得支持对诸如图象、声音和视频流以及普通和结构化文档的信息对象的索引和检索。信息对象本身的内容以及附属于对象的任何元数据,二者都能被索引。最好要根据本体来检索与查询相关的对象,本体被视为系统的独立成分,可能是大型、复杂和演变的。信息对象本身不必存储在数据库系统本身中-只要能在数据库系统中得到信息对象的位置,例如只要数据库存储指向存储在远程位置的信息对象的指针。例如,数据库可以存储在与因特网或内部网相连的远程服务器存储的文档的URL(统一资源定位器)。此外,系统能根据信息对象是时间敏感的的指示,仅在(不是直到)对象与查询相关时才下载对象作处理,由此消除了数据库中的陈旧数据。
本发明的分布式计算机数据库系统也能支持索引下述全部三种特征:元数据、在对象被索引时计算出的特征和在查询处理期间计算出的特征。特征可以是复杂的数据结构,可以用任何适合的计算机实现的相似性测量-诸如特征对比模型(Feature ContrastModel),将查询与信息对象作比较。在同一个查询或信息对象内可以使用一个或一个以上的相似性测量。数据库中的对象可以将相似性函数(similarity functions)与它们要与其一起被采用的特征类型相关联,甚至指定这些相似性函数。
分布式计算机数据库系统能用一种能扩展支持高性能分布式索引方法来支持索引很大数量的对象类型-包括图象、声音和视频流,数百万计的特征,同时涉及许多对象类型和特征的查询,以及不断添加到系统的新对象类型和特征。这就避免了当前系统的诸多限制。该索引方法例如允许索引和检索单一信息对象-而不是如许多当前系统中那样只能是整个文档-内的个别数据项。
为了向用户显示,分布式计算机数据库系统从一些相关源收集数据库项,并且例如将它们组织成一个供向用户表示的单一表格。此外,用户还可以规定所请求的信息是时间敏感的,在这种情况下,本发明将下载信息对象的当前状态并处理它,以抽取相关信息。这就避免了当前搜索引擎的含有大量陈旧索引项的缺陷。
在本发明的另一个方面,包括一个或多个前端计算机和一个或多个由网络互连的计算机节点的分布式计算机数据库系统按搜索引擎来运行。希望查询数据库的用户,将查询传输到一个前端计算机,后者接着将查询传递到网络的一个计算机节点。接收查询的节点被称作搜索引擎的内部节点,内部节点用本体中指定的特征抽取算法抽取所接收查询的特征。将特征分割成大小有界的片断。用许多现成的散列算法(hashing algorithms)中的一个算法散列这些片断。每个散列片断的一部分被内部节点用作寻址索引(addressingindex),内部节点通过它将散列查询特征(hashed query feature)传输给网络上的节点。网络上每个接收散列查询特征的节点,用散列查询特征在其各自的数据库分区上进行检索。找到散列查询特征的对应数据的节点返回例如处理这个片断的对象的OIDs。可以调用计算机实现的-例如特定于该片断类型的-匹配函数(matchingfunction)被激活以选择例如要被返回的一个OIDs子集。内部节点收集所抽取的信息对象,然后根据与查询以及在查询中但不在返回的对象中的片断一致的片断,计算计算机实现的相似性函数或算法。相似性函数被用来例如根据计算出的匹配程度-即相似或相关程度-来排定对象的次序。用于各片断的函数可以是例如特定于该片断的类型的。结果例如是一个排定次序的对象标识符的列表,或者一个以与对象关联的或是从对象抽取的数据为内容的表格。内部节点也能在一个以上文档中含有相同信息时减少冗余。特别是,例如可以按照上文引用的Hayes和Carbonell的最大边际相关(MaximumMarginal Relevance)(MMR)尺度来排列所抽取的信息。结果无论是列表还是表格,都被传输到前端节点,后者格式化对用户的应答。例如,如果前端节点是万维网服务器,则前端节点就构造一个HTML格式的页面,页面内含有一个URL列表或一个每项都有被抽取的部分相关文档以及一个对该文档的URL的引用的表格。
以上的分布式计算机数据库系统可以以与处理查询的方式相同的方式处理要被索引的信息对象-除非查询节点只将数据存储在它们各自的数据库中,并且没有信息被返回给内部节点。
在本发明的另一个方面,分布式计算机数据库系统也能应用户的请求,提供更高层次的服务,例如如上所述的1级服务以及2和3级服务。对于2或3级服务,要用每个OID的一部分作为寻址索引,把在上述基本服务中获得的OIDs传输到网络上的其它节点。此外,如果请求了3级服务,就把每个对象与查询共有的特征与OIDs一起传输到网络上的相同节点。网络上每个接收OID的节点用该OID在其各自的数据库上检索相应的对象信息。在2级服务中,要检索辅助信息并将其传输到前端节点。辅助信息可以包括例如对象的URL或者对象小结或二者。对于3级服务,要根据对象拥有但查询却不拥有的片断来计算一个不相似性值。将不相似性值以及对象的有关辅助信息传输给内部节点。不相似性值可以使用特定于片断类型的函数。内部节点收集不相似性值,用它们来修改在第一级处理中获得的对象的相似性值。用修改了的值来排定对象的次序。将OIDs和具有最大相似性值的对象的任何有关辅助信息传输给前端节点。3级服务另外还能下载和处理原始信息对象-如果这是指定的。指定的方式有多种例如:
1.本体可以指定某类型的片断是时间敏感的。
2.信息对象自己可以指定它是时间敏感的。
3.查询可以指定有些或全部片断是时间敏感的。
在上述的各种情况下,为了避免陈旧数据,要在有请求并且最近的下载超过规定时间长度时下载信息对象。时间长度可由用户规定,可以是个系统参数,或者是例如根据信息对象的类型动态计算出来的。无论所请求的是哪一级服务,前端节点都例如根据OIDs和内部节点传输的任何辅助信息来格式化对用户的应答。例如,如果前端节点是万维网服务器,则前端节点可以为每个对象构造一个HTML格式的、含有对URL的引用和辅助信息的页面。
所以,本发明能提供这样一种信息检索系统,它能用单一的索引系统从基于单词和非单词的信息的统一数据库检索包括文档、图象和其它形式的多媒体的信息,另外还能克服当前系统的许多性能和其它问题及局限。本发明也能提供一种方便信息检索、与检索系统协作的信息索引系统。这种信息索引和检索系统可以在分布式模型的基础上建立,因此是高度可伸缩的、多用途的、坚固的和经济的。
参考下面结合以下各附图的说明可以更好地理解本发明的以上和其它优点:
图1是按照本发明的分布式计算机数据库系统的实施例的框图;
图2是图1的分布式计算机数据库系统的流程图形式的框图,该图显示了一种按照本发明实施例处理不同服务层次的查询并返回结果-包括从外部服务器下载时间敏感的对象信息-的方法;
图3是图1的分布式计算机数据库系统的流程图形式的框图,该图显示了一种按照本发明实施例索引信息对象的方法;
图4A-4F的框图分别表示可以与图2和3的实施例一起使用的查询消息、查询响应消息、对象消息、对象响应消息、插入消息、插入对象消息的格式;
图5是按照本发明实施例的图1、2和3中的内部节点的一个代表性内部节点的框图;
图6是按照本发明实施例的图1、2和3中的查询节点的一个代表性查询节点的框图;
图7是按照本发明实施例的图1、2和3中的对象节点的一个代表性对象节点的框图;
图8是按照用户计算机、前端计算机、内部节点、查询节点、对象节点以及外部服务器的每个的示例性实施例的计算机系统的框图。
参看图1,概括地说,按照本发明的分布式计算机数据库系统100的一个实施例包括用户计算机102,它在例如通信链路103、104-例如网络-上与许多前端计算机105之一通信。前端计算机105(在其它实施例中也可以是用户计算机)本身又与一个包括一个或多个由局域网108互连的计算机节点106、109、110的搜索引擎通信。各个计算机节点106、109、110可以包括为搜索引擎提供数据的本机磁盘,或者,可以代之以或额外地通过网络从磁盘服务器或其它外部服务器111获得数据。
搜索引擎的每个计算机节点106、109、110都可以是若干种类中的任何一种,包括内部节点106、查询节点109和对象节点110。搜索引擎的节点106、109、110未必代表截然不同的计算机。在一个示例性实施例中,搜索引擎由单一的计算机组成,它承担所有内部节点106、查询节点109和对象节点110的角色。在另一个示例性实施例中,搜索引擎由用作各个内部节点106、查询节点109和对象节点110的分立的计算机组成。本领域的熟练人员知道,可能的变化有很多,但仍然不偏离最佳实施例的范围和精神。
在操作期间,用户计算机102将查询在链路103上传输到一个前端计算机105。前端计算机105提供搜索引擎的用户界面,调用由搜索引擎进行的数据检索,以处理查询,生成应答,然后-至少在一个实施例中-将应答返回给用户计算机102。
参照图2首先考察对查询的处理,在一个实施例中,当用户从用户计算机102通过连接或链路211传输(步骤201)查询时,前端计算机213接收该查询。前端计算机213负责建立与用户计算机212的连接211,使用户能传输查询,能接收适当格式的应答。前端计算机213也负责任何验证和管理功能。例如,前端计算机213可以是一个用HTTP协议与用户计算机212通信的万维网服务器。
在验证了查询可以接受之后,前端计算机213进行为使查询与搜索引擎的要求一致所必需的任何重新格式化。要求在数据库中检索对象的查询的格式,最好与数据库中对象的格式相同。每个查询可以包括一个或多个表示所要检索的数据项的标记或变量。这个技术可用于对对象数据库的模糊查询。术语“模糊查询”指的是一种查询,它指定按照可能仅仅满足到该查询所规定的某个程度的一组条件检索出的信息。例如,某个寻找有关高个子的信息的模糊查询可能规定高于7英尺(213cm)的为高(100%),低于5英尺(152cm)的为不高(0%),身高在5至7英尺之间的人为身高程度在0%至100%之间。最好用与从信息对象抽取特征时所用的本体相同的本体来抽取查询的特征。
前端计算机213然后将查询传输到搜索引擎的一个内部节点215(步骤202),该内部节点于是被定义为负责该查询的搜索引擎内部节点。
内部节点215按照本体从查询抽取特征。从结构化查询或文档抽取特征,方法是分析查询或文档,生成一个数据结构,然后将该数据结构划分成(有可能是重叠的)称作片断的子结构。查询的子结构被用来在数据库中寻找匹配的片断,因此它们也被称作探针(probes)。
从结构化查询或文档抽取特征,方法是使用例如以可由内部节点215执行的计算机程序实现的特征抽取算法。特征抽取产生一个由一批互相相关的域对象组成的数据结构。该数据结构被划分成(可能是重叠的)子结构-如结构化文档的情形一样,这些结构是非结构化文档的片断。已经为诸如声音、图象和视频流的媒体开发了大量不同的特征抽取算法,例如用于图象的边沿检测(edge detection)、分割和分类算法。也用傅立叶和弱波变换以及许多过滤算法来从图象和声音抽取特征。视频流包含一系列图象和一个同步声道。除了从个别图象和声道抽取特征外,还可以将视频流组织成场景(scences);可以将连续图象中的域对象互相表示,可以将声道中的域对象与对应场景中的域对象关联。从视频流抽取的域对象也可以包括这些域对象。每个特征可以具有一个或多个与代表该特征的数据结构的分量相关联的值。在最简单的情形中,数据结构的构成是有一个关联值的一个单一分量。在这种情况下,特征代表对象的一个属性。更复杂的特征将含有数个互相关联的、每个都可以有属性值的分量。代表特征的数据结构与本体规定的数据模型一致。数据模型确定所允许的分量和属性值的种类。每个特征的每个片断都有一个代表特征强度的关联权重。
如果某片断在数据库中的存在是非常普遍的,那么它可能无助于搜索引擎的目的-即识别那些与特定查询相似的对象。例如图像的亮度。这种片断的可能值将被划分成一批范围连续而不重叠的值。当某个查询的片断被抽取时,也可以将代表接近但不包括查询中该片断的值的值范围的片断包括进来,作为该查询的片断,但它们的权重小于代表一个包括该查询的片断的值的值范围的片断。特定片断的值范围既可以在本体中明确规定,也可以在搜索引擎索引对象时动态地建立。
当查询片断中出现标记(marker)时,标记代表一个要检索的数据项。将标记用文档中的任意项替换,使得修改后的片断按照本体是一个合法的片断。例如,一个请求房屋颜色的片断会检索对象数据库中存在的房屋的所有颜色,所以要用例如白色、褐色或其它颜色来替换该标记。
内部节点通过使用预先定义的散列函数(hashing function)来编码查询的每个片断。在生成各种查询节点上用于在本机数据库中本地存储数据的存储位置的索引时,最好也使用相同的散列函数。用相同的散列函数为数据存储生成索引和为查询生成散列探针(hashed probes),保证了在数据的存储期间,数据是均匀地分布在搜索引擎的各查询节点上的,保证了在查询的处理期间,探针是均匀地散布在各查询节点上的。
用散列函数得出的散列值有一个第一部分,其作用是标识数据为了存储而要被发送到的查询节点,或者要被作为探针发送的查询片断。散列值也有一个第二部分,它被用来标识数据要被存储的或要从其提取数据的查询节点中的位置。所以,就查询来说,散列查询片断(hashed query fragments)被分布(步骤203)在连接或链路216、217上,作为指向-如散列值的第一部分所标识的-搜索引擎的某些查询节点216、221的探针。
在第1或基本服务层,探针符合数据最初在查询节点上存储所用的索引片断的查询节点219、221响应查询,例如将符合所请求信息的索引字的OIDs在连接或链路218、214上传输(步骤204)给内部节点224。这样,散列探针与索引字的本机散列表之间的所有匹配,都被返回或收集到最初散列查询片断的内部节点224。
之后,内部节点224确定在查询中返回的每个对象的相关性。相关性确定是由内部节点224通过比较查询和被返回OIDs的对象的相似程度而作出的。查询与对象间的相似测量可以是例如余弦测量,由COS(v,w)表示,其中向量v表示查询,向量w表示对象。这些向量位于由每个片段表示空间的一维的空间。
如果信息对象不是用自然语言编写的文档,信息检索系统就不能采用上述的余弦测量来测量信息的相关性。另一个适合其它信息类型的两个对象之间的相似性测量是在上文提及的用于余弦测量的同一个空间中的距离函数;然而,有令人信服的证据表明,人类对相似性的感知,并不满足距离函数的公理。要讨论这一点,应参考《目视光学系统中以内容为中心的计算》(原文标题:Content-Centric Computing in Visual System,见The Ninth InternationalConference on Image Analysis and Processing,卷二,1-13页,1997年7月),这里采用其内容作为参考。相应地,似乎是当前最成功的方法的理想模型是“特征对比模型”,其说明可见《相似性的特征》一文(原文标题:Features of Similarity,刊于Psychological Review,84(4):327-352,1977年7月)。在这个模型中,查询与对象之间的相似性是由三项条件确定的:
1.查询与对象的共同特征。
2.不是对象的特征的查询的特征。
3.不是查询的特征的对象的特征。
第1个条件对相似性值贡献正数,而第2个和第3个条件有负贡献。此外,第2个和第3个条件还要乘以预先定义的常数,使得第2个和第3个集合中的特征比第1个集合中的特征对相似性影响更小。
在一个运用该模型的实现中,查询与对象之间相似性测量,是由三个预先定义的、用来与特征对比模型中出现的三个条件相乘的常数确定的。在这个实施例中,如果规定服务的层次要么是1级(基本的)或2级,则只用对比模型的前两个条件来计算相似性测量,或者将第3个条件的预定常数设置为0-这样的效果是等同的。因为第3个条件是最次要的,它对被检索的对象的排序只有很少影响。如果所有三个条件都要使用,则可以请求3级服务。然后,该实现就能根据相似性测量,返回数量为预定的N个相似性最高的对象,或者,返回所有生成大于预定值的相似性值的对象-它们被视为与查询足够相似,可以作为相关信息返回给用户。
一旦确定了相似性,内部节点224按照相似性程度来对OIDs排序,然后返回一系列最相关的OIDs。这里,不同的实施例也能采取不同的可选方法。例如,可以将这一系列最相关的OIDs传输(步骤205)到前端计算机213,后者将应答适当地格式化,将应答传送给用户。另外,也可以将一系列最相关的OIDs通过网络108直接传输到用户计算机,无需前端计算机的介入。
在另一个可选方案中,对于更高的服务层次(2级和3级),内部节点224将最相关的OIDs传输(步骤206)给对象节点225、228,后者持有与这些OIDs所标识的对象相关联的信息。与每个对象相关联的信息例如是:对象的URL,对象本身,或者那些具有关联值的特征的对象特征与特征值列表。为了方便访问信息,OIDs可有一个第一部分,其作用是标识存储对象信息所在的对象节点225、228。OIDs还可有一个第二部分,它是用来标识对象信息在对象节点225、228中一个本机表(local table)中的存储位置的本机索引值(localindex value)。
对于2级服务来说,对象节点225、228返回最相关对象的对象信息。对象节点225、228可以遵照时间敏感性规定,从外部服务器231、235下载对象,对对象节点中保留的对象信息进行更新。完成下载的手段是,与负责该对象的外部服务器231、235建立通信,在连接或链路226上请求对象更新,在连接或链路232、236上提取对象,然后抽取对象的特征(步骤206)。时间敏感性规定可以在查询中、在查询的每个片断中和/或在对象中规定。然后,可以将最相关对象的对象信息传输(步骤207)到前端计算机213,由前端计算机适当地格式化该应答后将该应答传送给用户计算机212,或者通过网络108直接传输到用户计算机212,无需前端计算机的介入。
对于3级服务来说,对象节点225、228将相关对象的对象信息传输(步骤207)到内部节点233。内部节点233用相关对象的对象信息来重新计算查询与对象之间的相似性测量。这可能导致对象被以不同的次序排列,也可能导致返回一个不同的对象列表。为了这个任务,内部节点233可以使用特征对比模型,3个条件全部可以有非零的预定常数。在这个实施例中,对象信息含有一个对象特征列表,使得不是查询特征的对象特征可以在相似性测量中被包括。然后,内部节点233返回最相关对象的对象信息,将对象信息传输到前端计算机213(步骤208),由前端计算机适当地格式化该应答后将该应答传送给用户计算机239(步骤209)。在另一个实施例中,内部节点233用抽取的相关对象的信息来建立一个或多个信息表。在另一个实施例中,将相关对象的对象信息或信息表通过网络108直接传输到用户计算机239,无需前端计算机的介入。
应当注意的是,在以上对图2的讨论中,提及同一个节点时使用了不同的标注号,这是为了方便对系统及其操作的描述。所以,例如尽管用215、224和233来标注内部节点,它却可以是同一个节点,而不是不同的成分。类似地,前端计算机213、238可以是同一个节点,用户计算机212、239也如此。
下面参照图3考察对象的索引,在一个实施例中,当用户从用户计算机306传输(步骤301)一个对象时,前端计算机307接收该对象。前端计算机307负责建立与用户计算机306的连接,使用户能传输对象。在另一个实施例中,前端计算机303不与用户交互,而是自动检查其环境中的对象,供搜索引擎索引。前端计算机307选择一个内部节点309,在连接或链路308上将对象传输给所选择的内部节点(步骤302)。在一个实施例中,对内部节点的选择是随机进行的,为的是使工作负荷在各内部节点上均匀分布。内部节点309赋予对象一个独有的OID,然后像以上讨论的查询的情形一样地处理对象,不过,在连接或链路310、311、312发送的与对象关联的数据(即散列片断)被存储在查询节点313、314和对象节点315中。
下面参照图4a考察最佳实施例中使用的消息格式,查询消息是由散列模块(hashing module)512(见图5)生成并从内部节点传输给查询节点的。查询消息有4个字段:首部402、查询标识符(QID)403、散列查询片断(HQF)404和值405。首部字段402规定该消息是个查询消息,也规定目的地查询节点。目的地查询节点是由散列查询片断的第一部分确定的。QID字段403含有一个查询类型说明符和一个查询标识符。HQF字段403含有一个片断类型说明符和由散列模块512生成的散列查询片断的第二部分。值字段405含有一个可选的与片断关联的值。片断类型说明符确定查询消息是否含有值字段,如果查询消息含有值字段,则片断类型说明符确定值字段的大小。
图4b表示查询应答消息的示例性格式。查询应答消息是由相似性比较器514(见图5)生成并从查询节点传输给内部节点的。每个查询应答消息都是一个查询消息的结果。查询应答消息含有4个字段:首部406、QID 407、对象标识符(OID)408和权重409。首部字段406规定该消息是个查询应答消息,也规定目的地内部节点。目的地内部节点是从其接受到对应查询消息的内部节点。QID字段407含有一个查询类型说明符和一个查询标识符。OID字段408含有一个对象类型说明符和一个对象标识符。权重字段409含有一个可选的与对象关联的值。对象类型说明符确定查询应答消息是否含有权重字段409,如果查询应答消息含有权重字段,则对象类型说明符确定该字段的大小。
图4c表示对象消息的示例性格式。对象消息是由相似性比较器生成并从内部节点传输给对象节点的。对象消息含有4个字段:首部410、QID 411、OID 412和时间敏感性(TS)TS。首部字段410规定该消息是个对象消息,也规定目的地对象节点。目的地对象节点由对象标识符的第一部分确定。QID字段411含有一个查询类型说明符和一个查询标识符。OID字段412含有一个对象类型说明符和对象标识符的第二部分。TS字段413含有一个可选的时间敏感性说明符。对象类型说明符确定对象消息是否含有TS字段,如果对象消息含有TS字段,则对象类型说明符确定TS字段的大小。
图4d表示对象应答消息的示例性格式。对象应答消息是由对象表或由特征抽取器(feature extractor)生成、并从对象节点传输给内部节点的。对象应答消息有3个部分:标识符部分、特征部分和辅助部分。标识符部分含有4个字段:首部414、QID 415、OID 416和位置417。首部字段414规定该消息是个对象应答消息,也规定目的地内部节点。目的地内部节点是从其接受到对应对象消息的内部节点。QID字段415含有一个查询类型说明符和一个查询标识符。OID字段416含有一个对象类型说明符和一个对象标识符。位置字段417含有一个可选的位置标识符,诸如URL。对象类型说明符确定对象应答消息是否含有位置字段,如果对象应答消息含有位置字段,则对象类型说明符确定位置字段的大小。特征部分含有一个说明对象的一些关联特征的字段418。辅助部分含有一个说明对象的辅助信息的字段419。对象类型说明符确定对象应答消息是否含有辅助部分,如果对象应答消息含有辅助部分,则对象类型说明符确定辅助部分的大小和结构。
图4e表示插入消息的示例性格式。插入消息是由散列模块生成、并从内部节点传输给查询节点的。插入消息有4个字段:首部420、OID 421、HQF 4422和值423。首部字段420规定该消息是个插入消息,也规定目的地查询节点。目的地查询节点由散列查询片断的第一部分确定。OID字段421含有一个对象类型说明符和一个对象标识符。HQF字段422含有一个片断类型说明符和由散列模块生成的散列查询片断的第二部分。值字段423含有一个可选的与片断关联的值。片断类型说明符确定插入消息是否含有值字段,如果插入消息含有值字段,则片断类型说明符确定值字段的大小。
图4f表示插入对象消息的示例性格式。插入对象消息是由特征抽取器生成、并从查询节点传输给内部节点的。插入对象消息有3个部分:标识符部分、特征部分和辅助部分。标识符部分含有4个字段:首部424、OID 425、TS 426和位置427。首部字段424规定该消息是个插入对象消息,也规定目的地对象节点。目的地对象节点由对象标识符的第一部分确定。OID字段425含有一个对象类型说明符和一个对象标识符。TS字段426含有一个可选的时间敏感性说明符。对象类型说明符确定插入对象消息是否含有TS字段,如果插入对象消息含有TS字段,则对象类型说明符确定TS字段的大小。位置字段427含有一个可选的位置标识符,诸如URL。对象类型说明符确定插入对象消息是否含有位置字段,如果插入对象消息含有位置字段,则对象类型说明符确定位置字段的大小。特征部分含有一个说明对象的一些关联特征的字段428。辅助部分含有一个说明对象的辅助信息的字段429。对象类型说明符确定插入对象消息是否含有辅助部分,如果插入对象消息含有辅助部分,则对象类型说明符确定辅助部分的大小和结构。
分布式计算机数据库系统的每个节点包括一个通信模块(如图5、6、和7中所示,下文将作讨论),它负责在节点之间发送和接受消息。发送消息时要求(1)在通信介质上发送之前将消息排队,(2)在通信介质上实际发送,(3)当由消息类型确定的模块接收到消息时,将处理该消息的任务排队。消息类型确定向接收模块发出的命令。该命令确定该模块处理该消息的手段。
要发送的消息的目的地节点是在各消息的首部字段中规定的。当从另一个节点接收到一个消息时,消息类型确定了节点中的哪个模块将处理该消息。消息类型也在各消息的首部字段中说明。内部节点的通信模块也负责与前端节点通信。前端节点向内部节点发送查询和对象,内部节点向前端节点发送结果,诸如格式化的信息表。
下面参照图5考察上述节点的示例性实施例,内部节点500可以有一个从查询或对象抽取特征的特征抽取器502。对图象进行特征抽取的方法步骤是:检测边沿,标识图象对象,将图象对象分类为域对象,确定域对象之间的关系。在另一个实施例中,对图象的特征抽取是通过傅立叶或弱波变换进行的。每个傅立叶或弱波变换构成一个抽取特征。抽取特征被传送到分段器(fragmenter)504。此外,当从对象抽取了特征时,这些特征被以插入对象消息的形式传送到通信模块506。
分段器504计算各个特征中含有的片断。每个片断由特征中的一组有限的关联分量组成。在一个实施例中,数据结构中定义特征的各个属性和各个关系都构成一个不同的片断。片断被传送到散列模块512。
散列模块512计算片断的散列函数。在一个实施例中,散列函数是MD4消息摘要(MD4 Message Digest)算法(该算法登载在1990年10月由Network Working Group of the Internet Engineering TaskForce发表的意见征询(Request for Comment(RFC)1186)说明中,可从因特网上获得,或向MIT计算机科学实验室(位于美国麻省剑桥)的R.Rivest索取)。散列模块512要么将查询消息、要么将插入消息传送给通信模块,具体要视片断是查询片断还是对象片断而定。
相似性比较器514接收查询应答消息并生成对象消息,对象消息被传送给通信模块。相似性比较器514收集所有对查询的查询应答。对于应答中的每个对象,相似性比较器514确定检索中所返回的每个对象的相关性。相关性的确定是由内部节点通过比较查询与返回了对象标识符的对象之间的相似程度而作出的。在一个实施例中,查询与对象之间的相似性测量是一个余弦测量,表达公式是COS(v,w),其中向量v表示查询,向量w表示对象。这些向量处于一个其中每个片断代表空间的一维的空间中。最相关的对象标识符被用对象消息传送给通信模块506。
表构造器516接收对象应答消息,通过收集QID字段相同的所有对象应答消息来格式化存储器中存储的表517。在一个实施例中,每个对象应答消息都在格式化的表517中产生一行。该行中的条目是由对象应答消息的特征部分的每个特征确定的。此外,该行中有一个条目规定位置字段。表517内各行的排列是由对象应答消息的辅助部分决定的。该格式化的应答被发送到从其接收查询的前端计算机。
参看图6,查询节点600可以有一个从通信模块603接收查询消息和插入消息的片断表模块602。就查询消息来说,片断表模块602用HQF字段中的散列值检索存储器中存储的本机散列表603中的一个条目。HQF字段中的类型说明符和本机散列表603中的该条目然后被传送到片断比较器604。就插入消息来说,片断表模块602通过将插入消息的OID和值字段插到本机散列表603中的条目来修改本机散列表603中的一个条目。
片断比较接收器来自片断表602的条目。由从片断表602传送过来的HQF类型说明符来确定一个比较函数。用该比较函数来确定从片断表602传送过来的条目中的OID和值字段的相关性。在一个实施例中,该比较函数一个相似性权重,具有最高相似性权重的对象标识符被认为是相关的。用一个查询应答消息将这些相关的对象标识符和它们的相似性权重传送到通信模块603。
参看图7,对象节点600可以由一个从通信模块704接收对象消息和插入对象消息的对象表模块702。就对象消息而言,对象表模块702用对象消息的OID字段中的对象标识符提取存储器中的本机表703中的一个条目。将对象消息和所提取的条目传送到下载确定器(Download Determiner)。就插入对象消息而言,对象表模块702在本机表703中插入一个新条目。如果指定对象标识符的对应条目已经存在,则替换掉现有的条目。新的或替换条目含有插入对象消息中的信息。
下载确定器706从对象表接收对象消息和条目。它用TS字段来确定是否应当用下载器下载对象。在一个实施例中,TS字段是1位的,它的值有两个对应下载还是不下载这两种可能的状态。在另一个实施例中,TS字段是一个到期时间。如果已经达到了到期时间,就下载对象。否则就不下载对象。如果下载确定器706确定不应当下载对象,则对象消息和从对象表模块706接收的对象条目使用对象响应消息被传送到通信模块。如果下载确定器706确定应当下载对象,则将从对象表模块702接收的对象消息传送给下载器708。
下载器708从加载确定器接收对象消息。下载器708用对象消息的位置字段来加载对象。在一个实施例中,下载器708用超文本传输协议来下载一个由统一资源定位器(URL)指定的网页。下载的对象被传输到特征抽取器710。
特征抽取器710从从下载器708接收的对象抽取特征。对图象进行特征抽取的方法步骤是:检测边沿,标识图象对象,将图象对象分类为域对象,确定域对象之间的关系。在另一个实施例中,对图象的特征抽取是通过傅立叶或弱波变换进行的。每个傅立叶或弱波变换构成一个抽取特征。用插入对象消息将所抽取的特征传送到对象表模块702,使本机对象表中的一个条目被替换掉。也用对象应答消息将所抽取的特征传送到通信模块704。
图8表示示例性计算机系统800的传统系统体系结构。每个用户计算机、前端计算机和包括内部节点、查询节点、对象节点的计算机节点,都能以计算机系统800的一个实例来实现。对图8的示例性计算机系统的讨论,仅具有说明性的意义,但是不应当认为是对本发明的限制。尽管下文的描述可能涉及到描述特定计算机系统时的常用术语,所说明的概念同样适用于其它计算机系统,包括体系结构与图8所示的不相似的系统。
计算机系统800包括一个中央处理单元(CPU)805,CPU可以包括常规的微处理器、用于暂时存储信息的随机存取存储器(RAM)810、用于永久存储信息的只读存储器(ROM)815。配备一个存储器控制器825来控制系统RAM 810。总线控制器836用于接收和处理来自其它系统组件的各种中断信号。可以用软盘842、CD-ROM 847或硬盘852提供海量存储。可以通过诸如软盘842、CD-ROM 847的可卸式介质与客户机计算机800进行数据交换。软盘842可以插入软盘驱动器841,后者由控制器840连接到总线830。类似地,CD-ROM 847可以插入CD-ROM驱动器846,后者由控制器845连接到总线830。硬盘852是硬盘驱动器851的一部分,由控制器850连接到总线830。
向计算机系统800的用户输入可以由许多设备提供。例如,可以将键盘856和鼠标857通过键盘和鼠标控制器855连接到总线830。将能同时作为麦克风和扬声器的音频转接器896通过音频控制器897连接到总线830。对本领域的熟练人员来说,显然也可以通过总线830和适当的控制器将诸如光笔和/或输入板以及语音输入用的麦克风等其它输入设备连接到客户机计算机800。配备DMA控制器860来执行对RAM 810的直接存储器访问。用控制视频显示器870的视频控制器865来生成可视显示。
计算机系统800也包括一个能使客户机计算机800经总线891互连到网络895的网络适配器890。网络895可以是局域网(LAN)、宽域网(WAN)或因特网,可以使用能互连多个网络设备的通用通信线路。
计算机系统800一般是由操作系统软件来控制和协调的。在其它计算机系统控制功能中,操作系统控制系统资源的分配,执行诸如进程调度、内存管理、连网和I/O服务的任务。
上述实施例的组件的软件实现所包含的计算机指令和例程,既可以固定在有形介质(诸如计算机可读介质-例如图8的软盘842、CD-ROM 847、ROM 815或硬盘852)上,也可以通过调制解调器或其它接口设备(诸如在介质891上与网络895相连的通信适配器890)传输。介质891既可以是有形介质-包括但不限于光学或硬电缆通信线路,也可以用无线技术(包括但不限于微波、红外或其它传输技术)实现。它也可以是因特网。在这样传输时,软件组件可以采用载波中体现的数字信号的形式。一系列的计算机指令体现了本文在前面针对本发明所述的全部或部分功能。本领域的熟练人员会明白,这种计算机指令能用一些适合用于许多计算机体系结构或操作系统的程序设计语言来编写。此外,这种指令可以采用现在或将来的任何存储技术(包括但不限于半导体、磁性、光学或其它存储器件)来存储,或者采用现在或将来的任何通信技术(包括但不限于光学、红外、微波或其它传输技术)来传输。预计这种计算机程序产品可以按附带印刷或电子文件的可卸式介质来发布-例如跟计算机系统在例如系统ROM或硬盘上预装的压缩包装软件(shrinkwrapped software),或者在网络(例如因特网或万维网)上从服务器或电子公告板发布。
尽管已经披露了本发明的示例性实施例,对于本领域的熟练人员来说,显然,在不偏离本发明的精神和范围的条件下,可以作出各种将实现本发明的某些优点的修改和改进。其它执行相同功能的组件可以适当地替代,这对本领域有合理熟练程度的人员来说是显而易见的。此外,本发明的方法既可以用适当的处理器指令以全部软件实现来实现,也可以以使用硬件逻辑与软件逻辑的组合的混合实现来实现相同的结果。此外,诸如存储器大小、实现特定功能所用的逻辑和/或指令的具体配置、以及对本发明思想的其它改进等方面,都被认为由后附的权利要求所包括。所以,本发明应当解释为只受权利要求所指出的限制。

Claims (28)

1.一种在具有由网络连接的多个内部节点和多个查询节点的分布式计算机数据库系统中用模糊查询进行信息检索的方法,该方法包含的步骤为:
A)选择所述多个内部节点的一个第一内部节点;
B)由所述被选择的内部节点从用户给出的查询中抽取多个特征;
C)由所述被选择的内部节点将所述多个抽取特征的每个抽取特征分割成多个查询片断;
D)由所述被选择的内部节点散列所述多个查询片断的每个所述查询片断,散列查询片断有一个第一部分和一个第二部分;
E)由所述被选择的内部节点将所述多个散列查询片断的每个所述散列查询片断传输到由各散列查询片断的所述第一部分指示的多个查询节点中的相应查询节点;
F)由所述查询节点运用相应散列查询片断的所述第二部分按照位于所述查询节点上的本地散列表来访问数据;
G)由各个根据所述各自的散列查询片断访问数据的所述查询节点将对应于所述被访问数据的多个对象标识符返回给所述被选择的内部节点。
2.权利要求1的方法,进一步包含的步骤为,在将所述多个对象标识符的所述部分返回给所述被选择的内部节点的步骤之前,对所述被访问数据应用一个匹配函数来选择多个对象标识符的一部分,所述匹配函数是特定于查询片断的类型的。
3.权利要求1的方法,进一步包含的步骤为,在从所述查询抽取特征的步骤之前,在所述内部节点接收来自所述用户的所述查询。
4.权利要求3的方法,进一步包含的步骤为:
A)由所述内部节点确定被访问数据与查询之间的一个相似性测量;
B)在返回所述多个对象标识符的步骤之后,由所述内部节点向所述用户返回具有预定的相似程度的被访问数据。
5.权利要求4的方法,其中相似性测量是由相似性函数根据以下确定的:
A)由所述被访问数据和所述查询二者均拥有的特征;
B)仅由所述查询所拥有的特征。
6.权利要求5的方法,其中对于所述多个特征的每个特征,所述相似性函数采用一个所述特征类型特定的函数。
7.权利要求1的方法,其中的运用步骤包括,由所述查询节点运用所述相应散列查询片断的所述第二部分按照位于所述查询节点上的本地散列表来访问多个对象标识符,每个所述对象标识符有一个第一部分和一个第二部分;所述方法进一步包含:
A)由所述被选择的内部节点将所述多个对象标识符的每个所述对象标识符发送到由每个所述对象标识符的所述第一部分指示的多个对象节点中相应的对象节点;
B)由所述对象节点运用相应对象节点的所述第二部分按照所述对象节点上的一个本地对象表来访问数据。
C)由按照所述相应对象标识符访问数据的每个所述对象节点将包含对象位置和对象特征的对象信息返回给所述被选择的内部节点。
8.权利要求7的方法,进一步包含的步骤为,在将所述多个对象标识符的所述部分返回给所述被选择的内部节点的步骤之前,对所述被访问数据应用一个匹配函数来选择所述多个对象标识符的一部分,所述匹配函数是特定于查询片断的类型的。
9.权利要求7的方法,进一步包含的步骤为:
A)由所述对象节点从由被访问数据定位的外部服务器下载由所述相应对象标识符标识的对象;
B)在将包含对象位置和对象特征的对象信息返回给所述被选择的内部节点的步骤之前,由所述对象节点按照所述查询从对象抽取数据。
10.权利要求7的方法,进一步包含的步骤为:在从所述查询抽取特征的步骤之前,在所述内部节点接收来自用户的查询。
11.权利要求7的方法,其中,来自所述用户的所述查询含有一个对时间敏感性要求的规定。
12.权利要求7的方法,进一步包含的步骤为:
A)由所述内部节点确定所述被访问数据与所述查询之间的一个相似性测量;
B)在返回所述对象信息的步骤之后,由所述内部节点向所述用户返回具有预定的相似程度的被访问数据。
13.权利要求7的方法,进一步包含的步骤为:由所述被选择的内部节点建立一个表,所述表含有对应多个对象的每个对象的所述对象位置和所述多个对象特征。
14.权利要求7的方法,其中相似性测量是由相似性函数根据以下确定的:
A)由所述被访问数据和所述查询二者均拥有的特征;
B)仅由所述查询所拥有的特征。
C)仅由所述被访问数据所拥有的特征。
15.权利要求7的方法,其中对于所述多个特征的每个特征,相似性函数采用一个所述特征类型特定的函数。
16.一种以有助于在具有由网络连接的多个内部节点和多个查询节点的分布式计算机数据库系统中用模糊查询进行信息检索的方式存储对象和对象的位置的方法,所述方法包含的步骤为:
A)选择所述多个内部节点的一个第一内部节点;
B)由所述被选择的内部节点从用户提交的查询中抽取多个特征;
C)由所述被选择的内部节点将所述多个抽取特征的每个所述抽取特征分割成多个对象片断;
D)由所述被选择的内部节点散列所述多个对象片断的每个所述对象片断,所述散列对象片断有一个第一部分和一个第二部分;
E)由所述被选择的内部节点将所述多个散列对象片断的每个所述散列对象片断传输到由每个所述散列对象片断的所述第一部分指示的所述多个查询节点中的相应查询节点;
F)由所述查询节点运用所述相应散列对象片断的所述第二部分按照位于所述查询节点上的本地散列表来存储数据;
17.权利要求16的方法,进一步包含的步骤为,在从所述对象抽取特征的步骤之前,在所述内部节点接收来自所述用户的所述对象。
18.权利要求16的方法,其中的分布式计算机数据库系统包括多个对象节点,所述方法进一步包含:
A)由所述被选择的内部节点为用户选择的对象选择一个唯一的对象标识符,所述对象标识符有一个第一部分和一个第二部分;
B)用所述对象标识符的第一部分来选择所述多个对象节点的一个对象节点;
C)由所述被选择的内部节点将所述对象的位置,所述对象的所述多个对象特征发送给由每个对象标识符的所述第一部分指示的多个对象节点的相应对象节点;
D)由所述对象节点运用所述对象标识符的所述第二部分按照位于所述对象节点上的一个本地对象表来存储数据。
18.一种具有处理来自用户的查询的信息检索工具的分布式计算机数据库系统,包含:
A)多个内部节点;
B)多个查询节点;
C)由网络连接的所述多个内部节点和所述多个查询节点;
D)其中每个所述内部节点在收到来自用户的查询时,从所述查询中抽取多个特征,将所述多个查询特征的每个所述查询特征分割成多个查询片断,将所述多个查询特征的每个所述查询特征散列成一个具有一个第一部分和一个第二部分的散列查询片断,并将每个散列查询片断发送到由散列查询片断的所述第一部分指示的所述多个查询节点的相应查询节点,
E)另外,其中每个所述查询节点运用所述散列查询片断的所述第二部分按照所述查询节点上的一个本地散列表访问数据并将对应于被访问数据的多个对象标识符返回给所述内部节点。
19.权利要求17的分布式计算机数据库系统,其中,查询节点对所述被访问数据应用一个匹配函数来选择所述多个对象标识符的一部分,所述匹配函数是特定于查询片断的类型的。
20.权利要求17的分布式计算机数据库系统,其中,所述内部节点确定所述被访问数据与所述查询之间的一个相似性测量并向所述用户返回具有预定的相似程度的被访问数据。
21.权利要求17的分布式计算机数据库系统,其中,所述内部节点用由以下确定的相似性函数来测量相似性:
A)由所述被访问数据和所述查询二者均拥有的特征;和
B)仅由所述查询所拥有的特征。
22.权利要求17的分布式计算机数据库系统,其中,对于所述多个特征的每个特征来说,所述相似性函数使用一个特定于所述特征类型的函数。
23.一种用于存储和查询信息对象或信息对象的位置的分布式计算机数据库系统,包含:
A)多个内部节点;
B)多个查询节点;
C)由网络连接的所述多个内部节点和所述多个查询节点;
D)其中每个所述内部节点在收到来自用户的对象时,从所述对象中抽取多个特征,将所述多个对象特征的每个所述对象特征分割成多个对象片断,将所述多个对象特征的每个所述对象特征散列成一个具有一个第一部分和一个第二部分的散列对象片断,并将每个所述散列对象片断发送到由所述散列对象片断的第一部分指示的所述多个查询节点的相应查询节点,并且,其中每个所述查询节点运用所述散列对象片断的所述第二部分按照所述查询节点上的一个本地散列表来存储对象或对象的位置。
24.一种用于处理基于单词和基于非单词的数据库信息检索的查询的信息检索装置,包含:
A)一个从查询抽取一些特征的机构;
B)一个与抽取机构相连的、用于将每个特征分割成特征片断的机构;
C)一个与分割机构相连的、用于将每个特征片断散列成散列特征片断的机构-其中散列特征片断用于访问散列表,从中获得用以从数据库获得与查询相关的信息的对象标识符。
25.一种用于处理基于单词和基于非单词的数据库信息检索的查询的计算机程序产品,计算机程序产品包含一个在计算机可读介质上体现的计算机可读程序,计算机可读程序包含:
A)一个第一代码部分,用于从查询抽取一些特征;
B)一个第二代码部分,用于将每个特征分割成特征片断;
C)一个第三代码部分,用于将每个特征片断散列成散列特征片断-其中散列特征片断用于访问散列表,从中获得用以从数据库获得与查询相关的信息的对象标识符。
26.一种用于为方便数据库检索而索引信息的信息索引系统,系统包含:
A)一个从信息抽取一些特征的机构;
B)一个用于将每个特征分割成特征片断的机构;
C)一个用于将每个特征片断散列成散列特征片断的机构-其中散列特征片断用于访问散列表,以在其中的由散列特征片断确定的位置存储指示信息的对象标识符。
27.一种用于为方便数据库检索而索引信息的计算机程序产品,计算机程序产品包含一个在计算机可读介质上体现的计算机可读程序,计算机可读程序包含:
A)一个第一代码部分,用于从信息抽取一些特征;
B)一个第二代码部分,用于将每个特征分割成特征片断;
C)一个第三代码部分,用于将每个特征片断散列成散列特征片断-其中散列特征片断用于访问散列表,以在其中的由散列特征片断确定的位置存储指示信息的对象标识符。
CNA998016764A 1998-07-24 1999-07-23 用于进行对象检索的分布式计算机数据库系统和方法 Pending CN1514976A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US9411098P 1998-07-24 1998-07-24
US60/094,110 1998-07-24
US9434798P 1998-07-28 1998-07-28
US60/094,347 1998-07-28

Publications (1)

Publication Number Publication Date
CN1514976A true CN1514976A (zh) 2004-07-21

Family

ID=26788437

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA998016764A Pending CN1514976A (zh) 1998-07-24 1999-07-23 用于进行对象检索的分布式计算机数据库系统和方法

Country Status (7)

Country Link
US (1) US6463433B1 (zh)
EP (1) EP1025518A2 (zh)
JP (1) JP2002521752A (zh)
CN (1) CN1514976A (zh)
AU (1) AU5460299A (zh)
CA (1) CA2303368A1 (zh)
WO (1) WO2000005663A2 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100546267C (zh) * 2005-11-08 2009-09-30 索尼株式会社 用于处理信息的系统、装置、方法、记录介质和计算机程序
CN101950300A (zh) * 2010-09-20 2011-01-19 华南理工大学 一种分层结构、分布式搜索引擎系统及其实现方法
CN102033959A (zh) * 2010-12-29 2011-04-27 北京播思软件技术有限公司 一种分布式计算系统中对象传递的方法
CN1917540B (zh) * 2006-07-27 2011-09-14 中山大学 一种用于数字小区的分布式资源共享装置及方法
CN103488778A (zh) * 2013-09-27 2014-01-01 华为技术有限公司 一种数据查询方法及装置
CN103488778B (zh) * 2013-09-27 2016-11-30 华为技术有限公司 一种数据查询方法及装置
CN106844654A (zh) * 2017-01-23 2017-06-13 公安部第三研究所 面向警务实战的海量视频分布式检索方法
CN108694209A (zh) * 2017-04-11 2018-10-23 华为技术有限公司 基于对象的分布式索引方法和客户端
CN110046299A (zh) * 2017-11-07 2019-07-23 奥誓公司 用于自动地执行隐式消息搜索的计算机化系统和方法
CN110399392A (zh) * 2018-04-25 2019-11-01 国际商业机器公司 语义关系数据库运算
CN112148728A (zh) * 2019-06-28 2020-12-29 伊姆西Ip控股有限责任公司 用于信息处理的方法、设备和计算机程序产品

Families Citing this family (129)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7062765B1 (en) * 1999-05-25 2006-06-13 Realnetworks, Inc. System and method for updating information via a network
DE10014757B4 (de) * 2000-03-24 2012-10-04 Jarg Corp. Warehousing-Verfahren und verteiltes Computer-Datenbanksystem für das Warehousing
GB2400473B (en) * 2000-03-29 2004-12-01 Jarg Corp Knowledge extraction system and method
US7277766B1 (en) * 2000-10-24 2007-10-02 Moodlogic, Inc. Method and system for analyzing digital audio files
JP2002149699A (ja) * 2000-11-10 2002-05-24 Hitachi Ltd データ検索装置
FR2821947B1 (fr) * 2001-03-12 2003-05-16 Canon Kk Procede et dispositif de validation de parametres definissant une image
US6728706B2 (en) * 2001-03-23 2004-04-27 International Business Machines Corporation Searching products catalogs
JP3698068B2 (ja) * 2001-04-13 2005-09-21 株式会社デンソー 通信システム、通信情報分割送信システム、及び通信情報分割装置
US20020169759A1 (en) * 2001-05-14 2002-11-14 International Business Machines Corporation Method and apparatus for graphically formulating a search query and displaying result set
US7580927B1 (en) * 2001-05-29 2009-08-25 Oracle International Corporation Quadtree center tile/boundary tile optimization
US6629100B2 (en) * 2001-10-01 2003-09-30 Ipac Acquisition Subsidiary I, Llc Network-based photosharing architecture for search and delivery of private images and metadata
US6757684B2 (en) 2001-10-01 2004-06-29 Ipac Acquisition Subsidiary I, Llc Network-based photosharing architecture
EP2296098B1 (en) * 2001-10-23 2019-02-27 BlackBerry Limited System and method for merging remote and local data in a single user interface
US6768816B2 (en) * 2002-02-13 2004-07-27 Convey Corporation Method and system for interactive ground-truthing of document images
US20030182278A1 (en) * 2002-03-25 2003-09-25 Valk Jeffrey W. Stateless cursor for information management system
US7769750B2 (en) * 2002-07-22 2010-08-03 Microsoft Corporation Metadata based hypermedia management system
US20040015542A1 (en) * 2002-07-22 2004-01-22 Anonsen Steven P. Hypermedia management system
US7146371B2 (en) * 2002-12-05 2006-12-05 International Business Machines Corporation Performance and memory bandwidth utilization for tree searches using tree fragmentation
US20040122707A1 (en) * 2002-12-18 2004-06-24 Sabol John M. Patient-driven medical data processing system and method
US20040122709A1 (en) * 2002-12-18 2004-06-24 Avinash Gopal B. Medical procedure prioritization system and method utilizing integrated knowledge base
US20040122702A1 (en) * 2002-12-18 2004-06-24 Sabol John M. Medical data processing system and method
US20040122708A1 (en) * 2002-12-18 2004-06-24 Avinash Gopal B. Medical data analysis method and apparatus incorporating in vitro test data
US20040122706A1 (en) * 2002-12-18 2004-06-24 Walker Matthew J. Patient data acquisition system and method
US20040122704A1 (en) * 2002-12-18 2004-06-24 Sabol John M. Integrated medical knowledge base interface system and method
US20040122705A1 (en) * 2002-12-18 2004-06-24 Sabol John M. Multilevel integrated medical knowledge base system and method
US20040122787A1 (en) * 2002-12-18 2004-06-24 Avinash Gopal B. Enhanced computer-assisted medical data processing system and method
US7490085B2 (en) * 2002-12-18 2009-02-10 Ge Medical Systems Global Technology Company, Llc Computer-assisted data processing system and method incorporating automated learning
US20040122703A1 (en) * 2002-12-19 2004-06-24 Walker Matthew J. Medical data operating model development system and method
US7333997B2 (en) * 2003-08-12 2008-02-19 Viziant Corporation Knowledge discovery method with utility functions and feedback loops
US20050278362A1 (en) * 2003-08-12 2005-12-15 Maren Alianna J Knowledge discovery system
FR2859292A1 (fr) * 2003-08-27 2005-03-04 St Microelectronics Sa Dispositif de controle de l'acces a une memoire securisee, comprenant un circuit synchrome de recherche d'attributs
US7319998B2 (en) * 2003-11-14 2008-01-15 Universidade De Coimbra Method and system for supporting symbolic serendipity
US7357000B2 (en) * 2003-12-05 2008-04-15 Dover Systems, Inc. Display deck for a temperature controlled case
GB2430058A (en) * 2004-05-13 2007-03-14 Robert John Rogers A system and method for retrieving information and a system and method for storing information
US7487072B2 (en) * 2004-08-04 2009-02-03 International Business Machines Corporation Method and system for querying multimedia data where adjusting the conversion of the current portion of the multimedia data signal based on the comparing at least one set of confidence values to the threshold
US7719971B1 (en) 2004-09-15 2010-05-18 Qurio Holdings, Inc. Peer proxy binding
US9405751B2 (en) 2005-08-23 2016-08-02 Ricoh Co., Ltd. Database for mixed media document system
US8856108B2 (en) 2006-07-31 2014-10-07 Ricoh Co., Ltd. Combining results of image retrieval processes
US8949287B2 (en) 2005-08-23 2015-02-03 Ricoh Co., Ltd. Embedding hot spots in imaged documents
US8965145B2 (en) 2006-07-31 2015-02-24 Ricoh Co., Ltd. Mixed media reality recognition using multiple specialized indexes
US9171202B2 (en) 2005-08-23 2015-10-27 Ricoh Co., Ltd. Data organization and access for mixed media document system
US8600989B2 (en) 2004-10-01 2013-12-03 Ricoh Co., Ltd. Method and system for image matching in a mixed media environment
US8156116B2 (en) 2006-07-31 2012-04-10 Ricoh Co., Ltd Dynamic presentation of targeted information in a mixed media reality recognition system
US8838591B2 (en) 2005-08-23 2014-09-16 Ricoh Co., Ltd. Embedding hot spots in electronic documents
US8825682B2 (en) 2006-07-31 2014-09-02 Ricoh Co., Ltd. Architecture for mixed media reality retrieval of locations and registration of images
US9373029B2 (en) 2007-07-11 2016-06-21 Ricoh Co., Ltd. Invisible junction feature recognition for document security or annotation
US8176054B2 (en) 2007-07-12 2012-05-08 Ricoh Co. Ltd Retrieving electronic documents by converting them to synthetic text
US9384619B2 (en) 2006-07-31 2016-07-05 Ricoh Co., Ltd. Searching media content for objects specified using identifiers
US8868555B2 (en) 2006-07-31 2014-10-21 Ricoh Co., Ltd. Computation of a recongnizability score (quality predictor) for image retrieval
US9530050B1 (en) 2007-07-11 2016-12-27 Ricoh Co., Ltd. Document annotation sharing
US7812986B2 (en) 2005-08-23 2010-10-12 Ricoh Co. Ltd. System and methods for use of voice mail and email in a mixed media environment
US8989431B1 (en) 2007-07-11 2015-03-24 Ricoh Co., Ltd. Ad hoc paper-based networking with mixed media reality
US7702673B2 (en) 2004-10-01 2010-04-20 Ricoh Co., Ltd. System and methods for creation and use of a mixed media environment
US7865495B1 (en) 2004-10-06 2011-01-04 Shopzilla, Inc. Word deletion for searches
EP1812898A2 (en) * 2004-11-02 2007-08-01 Eagleforce Associates System and method for predictive analysis and predictive analysis markup language
JP5300266B2 (ja) * 2004-12-03 2013-09-25 ナショナル ユニヴァーシティー オブ シンガポール ネットワークにおけるクエリマッチング
US20060136259A1 (en) * 2004-12-17 2006-06-22 General Electric Company Multi-dimensional analysis of medical data
US20060136417A1 (en) * 2004-12-17 2006-06-22 General Electric Company Method and system for search, analysis and display of structured data
US7567899B2 (en) * 2004-12-30 2009-07-28 All Media Guide, Llc Methods and apparatus for audio recognition
EP1877968A2 (en) * 2005-04-12 2008-01-16 Alianna J. Maren System and method for evidence accumulation and hypothesis generation
US7552117B2 (en) * 2005-05-26 2009-06-23 International Business Machines Corporation Using ontological relationships in a computer database
US7853618B2 (en) 2005-07-21 2010-12-14 The Boeing Company Methods and apparatus for generic semantic access to information systems
US7688995B2 (en) * 2005-08-04 2010-03-30 Siemens Medical Solutions Usa, Inc. System and method for quality assurance for distributed computer aided diagnosis solutions
WO2007027967A2 (en) * 2005-08-31 2007-03-08 Eagleforce Associates System for hypothesis generation
US20070078873A1 (en) * 2005-09-30 2007-04-05 Avinash Gopal B Computer assisted domain specific entity mapping method and system
US8392400B1 (en) 2005-12-29 2013-03-05 Amazon Technologies, Inc. Method and apparatus for stress management in a searchable data service
US7764701B1 (en) 2006-02-22 2010-07-27 Qurio Holdings, Inc. Methods, systems, and products for classifying peer systems
US7779004B1 (en) 2006-02-22 2010-08-17 Qurio Holdings, Inc. Methods, systems, and products for characterizing target systems
US8019763B2 (en) * 2006-02-27 2011-09-13 Microsoft Corporation Propagating relevance from labeled documents to unlabeled documents
US8001121B2 (en) * 2006-02-27 2011-08-16 Microsoft Corporation Training a ranking function using propagated document relevance
US9100723B2 (en) * 2006-03-07 2015-08-04 Samsung Electronics Co., Ltd. Method and system for managing information on a video recording
US7596549B1 (en) 2006-04-03 2009-09-29 Qurio Holdings, Inc. Methods, systems, and products for analyzing annotations for related content
US8005841B1 (en) 2006-04-28 2011-08-23 Qurio Holdings, Inc. Methods, systems, and products for classifying content segments
US8615573B1 (en) 2006-06-30 2013-12-24 Quiro Holdings, Inc. System and method for networked PVR storage and content capture
US9020966B2 (en) 2006-07-31 2015-04-28 Ricoh Co., Ltd. Client device for interacting with a mixed media reality recognition system
US8489987B2 (en) 2006-07-31 2013-07-16 Ricoh Co., Ltd. Monitoring and analyzing creation and usage of visual content using image and hotspot interaction
US8201076B2 (en) 2006-07-31 2012-06-12 Ricoh Co., Ltd. Capturing symbolic information from documents upon printing
US9176984B2 (en) 2006-07-31 2015-11-03 Ricoh Co., Ltd Mixed media reality retrieval of differentially-weighted links
US8676810B2 (en) 2006-07-31 2014-03-18 Ricoh Co., Ltd. Multiple index mixed media reality recognition using unequal priority indexes
US9063952B2 (en) 2006-07-31 2015-06-23 Ricoh Co., Ltd. Mixed media reality recognition with image tracking
US7873988B1 (en) 2006-09-06 2011-01-18 Qurio Holdings, Inc. System and method for rights propagation and license management in conjunction with distribution of digital content in a social network
US7801971B1 (en) 2006-09-26 2010-09-21 Qurio Holdings, Inc. Systems and methods for discovering, creating, using, and managing social network circuits
US7925592B1 (en) 2006-09-27 2011-04-12 Qurio Holdings, Inc. System and method of using a proxy server to manage lazy content distribution in a social network
US8554827B2 (en) 2006-09-29 2013-10-08 Qurio Holdings, Inc. Virtual peer for a content sharing system
US7782866B1 (en) 2006-09-29 2010-08-24 Qurio Holdings, Inc. Virtual peer in a peer-to-peer network
US7886334B1 (en) * 2006-12-11 2011-02-08 Qurio Holdings, Inc. System and method for social network trust assessment
US7730216B1 (en) 2006-12-14 2010-06-01 Qurio Holdings, Inc. System and method of sharing content among multiple social network nodes using an aggregation node
US8135800B1 (en) 2006-12-27 2012-03-13 Qurio Holdings, Inc. System and method for user classification based on social network aware content analysis
US7840903B1 (en) 2007-02-26 2010-11-23 Qurio Holdings, Inc. Group content representations
US20080256052A1 (en) * 2007-04-16 2008-10-16 International Business Machines Corporation Methods for determining historical efficacy of a document in satisfying a user's search needs
US8706914B2 (en) * 2007-04-23 2014-04-22 David D. Duchesneau Computing infrastructure
US9111285B2 (en) * 2007-08-27 2015-08-18 Qurio Holdings, Inc. System and method for representing content, user presence and interaction within virtual world advertising environments
CN101123610B (zh) * 2007-09-13 2011-04-27 北京交通大学 一种混和分布式重叠网络装置及其服务注册方法
US20090234860A1 (en) * 2008-03-13 2009-09-17 Rolta International, Inc. Service-Oriented Architecture System and Method
US8949233B2 (en) * 2008-04-28 2015-02-03 Alexandria Investment Research and Technology, Inc. Adaptive knowledge platform
US8332414B2 (en) 2008-07-01 2012-12-11 Samsung Electronics Co., Ltd. Method and system for prefetching internet content for video recorders
FR2939537B1 (fr) * 2008-12-10 2011-01-07 Thales Sa Systeme de recherche d'information visuelle
US8620967B2 (en) * 2009-06-11 2013-12-31 Rovi Technologies Corporation Managing metadata for occurrences of a recording
US8677400B2 (en) 2009-09-30 2014-03-18 United Video Properties, Inc. Systems and methods for identifying audio content using an interactive media guidance application
US8161071B2 (en) 2009-09-30 2012-04-17 United Video Properties, Inc. Systems and methods for audio asset storage and management
US8495730B2 (en) * 2009-10-12 2013-07-23 International Business Machines Corporation Dynamically constructed capability for enforcing object access order
US8209316B2 (en) * 2010-01-05 2012-06-26 Microsoft Corporation Providing suggestions of related videos
US20110173185A1 (en) * 2010-01-13 2011-07-14 Rovi Technologies Corporation Multi-stage lookup for rolling audio recognition
US8886531B2 (en) * 2010-01-13 2014-11-11 Rovi Technologies Corporation Apparatus and method for generating an audio fingerprint and using a two-stage query
US9317536B2 (en) * 2010-04-27 2016-04-19 Cornell University System and methods for mapping and searching objects in multidimensional space
US9275160B2 (en) 2010-05-20 2016-03-01 Salesforce.Com, Inc. Performing an upgrade in a multi-tenant database system environment
US20120284276A1 (en) * 2011-05-02 2012-11-08 Barry Fernando Access to Annotated Digital File Via a Network
US9058331B2 (en) 2011-07-27 2015-06-16 Ricoh Co., Ltd. Generating a conversation in a social network based on visual search results
US8849819B2 (en) * 2011-08-05 2014-09-30 Deacon Johnson System and method for controlling and organizing metadata associated with on-line content
US20130211826A1 (en) * 2011-08-22 2013-08-15 Claes-Fredrik Urban Mannby Audio Signals as Buffered Streams of Audio Signals and Metadata
WO2013154947A1 (en) * 2012-04-09 2013-10-17 Vivek Ventures, LLC Clustered information processing and searching with structured-unstructured database bridge
CN102929903B (zh) * 2012-07-04 2017-02-08 北京中盾安全技术开发公司 一种基于视频信息分层结构化描述的快速视频检索方法
US9336302B1 (en) 2012-07-20 2016-05-10 Zuci Realty Llc Insight and algorithmic clustering for automated synthesis
WO2014086435A1 (en) * 2012-12-07 2014-06-12 Longsand Limited Matching a feature of captured visual data
US9342557B2 (en) 2013-03-13 2016-05-17 Cloudera, Inc. Low latency query engine for Apache Hadoop
CN103399946B (zh) * 2013-08-15 2017-09-01 兴义供电局 跨区域电力自动化系统及其数据库连接方法和系统
US9996803B2 (en) * 2013-09-03 2018-06-12 Arizona Board Of Regents On Behalf Of Arizona State University Systems and methods for authenticating a user through an unobservable re-authentication system
US9477731B2 (en) 2013-10-01 2016-10-25 Cloudera, Inc. Background format optimization for enhanced SQL-like queries in Hadoop
RU2589863C2 (ru) * 2013-12-05 2016-07-10 Закрытое акционерное общество "Лаборатория Касперского" Система и способ оценки ресурсов в компьютерной сети с позиции объектов интереса
CN105302838B (zh) * 2014-07-31 2019-01-15 华为技术有限公司 分类方法、查找方法和设备
CN105447151A (zh) * 2015-11-27 2016-03-30 深圳市金蝶友商电子商务服务有限公司 访问分布式数据库的方法、数据源代理装置及应用服务器
US10909173B2 (en) 2016-12-09 2021-02-02 The Nielsen Company (Us), Llc Scalable architectures for reference signature matching and updating
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US10977294B2 (en) 2018-12-18 2021-04-13 International Business Machines Corporation Cognitive visual and ontological mapping of tabular data based on a distribution of a measure of interest
JP7248820B2 (ja) * 2019-04-23 2023-03-29 ザ プロクター アンド ギャンブル カンパニー 美容的皮膚属性を決定するための機器及び方法
WO2020219612A1 (en) 2019-04-23 2020-10-29 The Procter & Gamble Company Apparatus and method for visualizing cosmetic skin attributes
US11244203B2 (en) * 2020-02-07 2022-02-08 International Business Machines Corporation Automated generation of structured training data from unstructured documents
CN112835938B (zh) * 2021-02-23 2024-07-30 百度在线网络技术(北京)有限公司 数据处理方法、装置、电子设备和计算机可读存储介质
CN114020986B (zh) * 2022-01-05 2022-04-26 深圳思谋信息科技有限公司 内容检索系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4814979A (en) * 1981-04-01 1989-03-21 Teradata Corporation Network to transmit prioritized subtask pockets to dedicated processors
US4811199A (en) * 1987-05-08 1989-03-07 Kuechler William L System for storing and manipulating information in an information base
US5309359A (en) * 1990-08-16 1994-05-03 Boris Katz Method and apparatus for generating and utlizing annotations to facilitate computer text retrieval
US5647058A (en) * 1993-05-24 1997-07-08 International Business Machines Corporation Method for high-dimensionality indexing in a multi-media database
JP3959107B2 (ja) 1994-05-13 2007-08-15 サイテク・テクノロジー・コーポレーシヨン 高活性触媒
US5694593A (en) * 1994-10-05 1997-12-02 Northeastern University Distributed computer database system and method
US5655080A (en) 1995-08-14 1997-08-05 International Business Machines Corporation Distributed hash group-by cooperative processing
US5926551A (en) 1995-12-28 1999-07-20 International Business Machines Corporation System and method for certifying content of hard-copy documents
US5931907A (en) 1996-01-23 1999-08-03 British Telecommunications Public Limited Company Software agent for comparing locally accessible keywords with meta-information and having pointers associated with distributed information
JP3198932B2 (ja) * 1996-08-02 2001-08-13 松下電器産業株式会社 文書検索装置

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100546267C (zh) * 2005-11-08 2009-09-30 索尼株式会社 用于处理信息的系统、装置、方法、记录介质和计算机程序
CN1917540B (zh) * 2006-07-27 2011-09-14 中山大学 一种用于数字小区的分布式资源共享装置及方法
CN101950300A (zh) * 2010-09-20 2011-01-19 华南理工大学 一种分层结构、分布式搜索引擎系统及其实现方法
CN101950300B (zh) * 2010-09-20 2013-07-24 华南理工大学 一种分布式搜索引擎系统及其实现方法
CN102033959A (zh) * 2010-12-29 2011-04-27 北京播思软件技术有限公司 一种分布式计算系统中对象传递的方法
CN103488778A (zh) * 2013-09-27 2014-01-01 华为技术有限公司 一种数据查询方法及装置
CN103488778B (zh) * 2013-09-27 2016-11-30 华为技术有限公司 一种数据查询方法及装置
CN106844654A (zh) * 2017-01-23 2017-06-13 公安部第三研究所 面向警务实战的海量视频分布式检索方法
CN108694209A (zh) * 2017-04-11 2018-10-23 华为技术有限公司 基于对象的分布式索引方法和客户端
CN108694209B (zh) * 2017-04-11 2021-11-19 华为技术有限公司 基于对象的分布式索引方法和客户端
CN110046299A (zh) * 2017-11-07 2019-07-23 奥誓公司 用于自动地执行隐式消息搜索的计算机化系统和方法
CN110046299B (zh) * 2017-11-07 2022-12-20 雅虎资产有限责任公司 用于自动地执行隐式消息搜索的计算机化系统和方法
CN110399392A (zh) * 2018-04-25 2019-11-01 国际商业机器公司 语义关系数据库运算
CN110399392B (zh) * 2018-04-25 2023-06-27 国际商业机器公司 语义关系数据库运算
CN112148728A (zh) * 2019-06-28 2020-12-29 伊姆西Ip控股有限责任公司 用于信息处理的方法、设备和计算机程序产品
CN112148728B (zh) * 2019-06-28 2024-08-02 伊姆西Ip控股有限责任公司 用于信息处理的方法、设备和计算机程序产品

Also Published As

Publication number Publication date
WO2000005663A3 (en) 2000-04-27
EP1025518A2 (en) 2000-08-09
JP2002521752A (ja) 2002-07-16
US6463433B1 (en) 2002-10-08
CA2303368A1 (en) 2000-02-03
WO2000005663A2 (en) 2000-02-03
AU5460299A (en) 2000-02-14

Similar Documents

Publication Publication Date Title
CN1514976A (zh) 用于进行对象检索的分布式计算机数据库系统和方法
CN100339855C (zh) 内容管理系统
EP1018086B1 (en) Search system and method based on multiple ontologies
US8200695B2 (en) Database for uploading, storing, and retrieving similar documents
CN100504858C (zh) 关联的共享计算机对象
US20080222121A1 (en) System for Adaptively Querying a Data Storage Repository
CN1301365A (zh) 信息管理系统
US20070100798A1 (en) Community built result sets and methods of using the same
CN1519751A (zh) 生成结构模式候选对象的方法、系统和程序
CN1783124A (zh) 基于电子邮件的语义网协作和注释
JP2002351873A (ja) メタデータ管理システムおよび検索方法
JP3896014B2 (ja) 情報収集システム、情報収集方法及びコンピュータに情報収集を実行させるプログラム
CN1609853A (zh) 用于计算机系统体系结构的上下文关联图表
Ahmed et al. 'SemanticLIFE'-A Framework for Managing Information of A Human Lifetime.
TW201415254A (zh) 語意標註建議方法及其系統
US20120054140A1 (en) Information processing apparatus, information processing method and storage medium
Roszkowski et al. A distributed architecture for resource discovery using metadata
US7349950B2 (en) Method, system and storage medium for accessing dynamic content
US7225221B2 (en) Method and system for retrieving information, and computer product
Diallo et al. Process of building a vocabulary for the infection domain
Bermudez et al. Construction of marine vocabularies in the Marine Metadata Interoperability Project
US20040039992A1 (en) Electronic document request/supply method based on XML
KR20120111215A (ko) 질의에 따른 정보 검색 장치 및 방법
Tsai et al. Information services for novelty mining
Ernst Developing a service endpoint to integrate semantic collection data from botanical databases and other information systems

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication