CN101341464B - 对结构化数据进行搜索的方法、系统以及使数据项结构化及可搜索的方法、系统 - Google Patents

对结构化数据进行搜索的方法、系统以及使数据项结构化及可搜索的方法、系统 Download PDF

Info

Publication number
CN101341464B
CN101341464B CN2005800523802A CN200580052380A CN101341464B CN 101341464 B CN101341464 B CN 101341464B CN 2005800523802 A CN2005800523802 A CN 2005800523802A CN 200580052380 A CN200580052380 A CN 200580052380A CN 101341464 B CN101341464 B CN 101341464B
Authority
CN
China
Prior art keywords
data item
attribute
data
supplier
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2005800523802A
Other languages
English (en)
Other versions
CN101341464A (zh
Inventor
宾杜·雷迪
乔纳森·布伦斯曼
宁·莫斯贝格尔
戈拉夫·拉温德拉·布哈亚
萨拉·西拉杰丁
大卫·卡莱
珍妮弗·L·克森斯基
阿尔文德·孙达瑞拉简
普涅特·阿加瓦尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Priority to CN201010156907.9A priority Critical patent/CN101866347B/zh
Publication of CN101341464A publication Critical patent/CN101341464A/zh
Application granted granted Critical
Publication of CN101341464B publication Critical patent/CN101341464B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/972Access to data in other repository systems, e.g. legacy data or dynamic Web page generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/164File meta data generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Computer Hardware Design (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

通过指定用来进一步过滤查询结果的标签或属性值,用户能够改善对结构化数据的搜索。

Description

对结构化数据进行搜索的方法、系统以及使数据项结构化及可搜索的方法、系统
相关申请
依据美国专利法第35号第119条(e)款(35U.S.C.§119(e)),本申请以申请号为11/257,282的美国实用申请为优先权,其标题为“对结构化数据的搜索”,由Reddy等人于2005年10月23日提出申请。本申请与申请号为11/256,883的美国申请有关,其标题为“向结构化数据添加属性及标签”,由Reddy等人于2005年10月23日提出申请,通过引用将其结合于此。
背景技术
常规搜索引擎能够搜索非常巨大的信息集合,诸如万维网或极其巨大的数据库。当所搜索的数据集合的规模增长时,常规搜索引擎不再足够来正确地返回与用户输入的查询词相匹配的查询结果。替代地,需要提供机制来帮助用户拣选从搜索返回的大量数据。
当前几个常规搜索引擎使用不同的方法来组织在搜索结果中返回的数据。
此种组织方法的目的是判定哪个搜索结果将使用户发生最大兴趣。常规搜索引擎通常使用多种技术来以优先顺序排列搜索结果,但是这些技术不理想,因为其必须对用户正搜索的信息、的类型做出假设。例如,如果用户输入“工作”,他可能是搜索工作公告、史蒂夫乔布(Steve Jobs)的信息、特定国家的工作统计量、或许多其它项。因此,当使用常规搜索引擎时,用户不能仅输入“工作”作为查询词。用户也很可能输入另外的查询词以缩小搜索范围。遗憾的是,用户也可能错过不包含缩小词的相关收录。
当前,对可能存储在万维网上或不存储在万维网上的不同类型的数据进行搜索是困难的。通常常规搜索引擎对仅仅来自少数源的数据进行操作。例如,基于网络的搜索引擎传统上允许用户搜索在万维网上的页面。网络搜索引擎常常具有对信息集合进行索引以使其可搜索的“后台(back-end)”。例如,基于网络的搜索引擎周期性地爬行(crawl)万维网并且创建所爬行的页面以及站点的索引。其它搜索引擎允许用户搜索现有的数据库。此种搜索引擎依赖于数据库的预先确定的组织。例如,如果数据库具有已知字段以及属性,用户就能够在其属性内搜索。例如,XML数据库仅接受格式完好(well-formed)的XML输入。如果被搜索的数据不是如此组织的,一般XML数据库不能接受该数据或不能组织该数据以用于搜索。
其它搜索引擎允许用户搜索数据库或搜索具有扁平式组织的文本文档。此种搜索引擎必须知道关于数据库的组织以及在数据库内的文档的组织。存储数据的位置的多样性以及存储数据的格式的多样性,意味着用户必须经常在多个数据库中的多个位置搜索以找到其需要的信息。
所需要的是,可以通过基于网络的搜索引擎来搜索文档集合,以及因而多数人可容易地访问所述文档集合,同时所述文档集合包含了各种类型的文档以及数据格式。此外,如果以能够帮助用户对其搜索进行微调的方法来组织可搜索的文档集合,这将也是所需要的。
发明内容
所描述的本发明实施例将标签以及属性值与待搜索的数据项相关联。提供者能够将属性以及标签与它们的数据相关联,或能够向现有数据添加属性以及标签。优选实施例允许内容提供者对项附上其自定义的标签以及属性,或使用预先定义的标签以及属性。提供者能够使用用户接口或批量上载机构来上载数据。通过指定将标签或属性值用于进一步过滤查询结果,用户能够改善搜索。
附图说明
通过考虑下列与附图相结合的详细描述,能够容易地理解本发明的教导。在附图中相同的标记表示相同的部分。
图1(a)是示出了根据本发明优选实施例的数据处理系统的框图。
图1(b)是示出了根据本发明优选实施例的另一个数据处理系统的框图。
图1(c)是根据本发明优选实施例的体系结构图。
图2(a)是示出了根据本发明优选实施例的创建可搜索的数据项集合的概述的流程图。
图2(b)是示出了根据本发明优选实施例的搜索文档集合以及改善搜索的概述的流程图。
图3(a)是示出了从数据项集合提取标签以及属性的方法的流程图。
图3(b)是示出了接收查询词以及显示查询结果的方法的流程图。
图3(c)是示出了对于给定的查询结果确定显示哪个属性的方法的流程图。
图3(d)是示出了允许用户使用标签和/或属性值来改善所显示的查询结果的方法的流程图。
图3(e)示出了周期性执行的方法,该方法确定任何新的、提供者所提供的属性是否应该被添加到信息类型的核心属性。
图4(a)是搜索引擎以及由用户输入的查询词的实例截屏。
图4(b)是示出了来自图4(a)的查询的查询结果,并且也示出了与对查询词的查询结果有关的标签以及属性的实例截屏。
图4(c)-4(g)是示出了另外的属性和标签以及用户如何使用属性和/或标签来缩小其搜索范围的实例截屏。
图5(a)示出了用于为可搜索的数据集合存储属性以及标签的数据格式。
图5(b)示出了使用图5(a)的格式存储属性的实例。
图5(c)示出了使用图5(a)的格式存储标签的实例。
图5(d)示出了将信息类型映射到其属性的实例数据结构。
图5(e)示出了信息类型的实例,所述信息类型被映射到用于该信息类型的一些实例属性。
图6(a)-6(e)是示出了允许提供者编辑以及向系统输入数据的用户界面的实例截屏。
图7是示出了用于注册批量上载文件的用户界面的实例截屏。
图8(a)-8(d)示出了提供者是如何完成数据以及属性值的批量上载的。
描述本发明实施例的附图仅用于图示的目的。本领域的普通技术人员将易于从以下论述认识到可以使用在此所图示的结构以及方法的替选实施例,而不会偏离在此所描述的发明的原理。
具体实施方式
以下段落描述了根据本发明的进行上载以及搜索结构化数据的系统的不同实施例。
图1(a)是示出了根据本发明优选实施例的数据处理系统的框图100。图1(a)包括多个客户机数据处理系统110a...11On、网络130、以及服务器数据处理系统120。在图中,实例用户数据处理系统110a包括处理器140、浏览器150、以及存储器160。用户数据处理系统100或其组件可以是任何适当的数据处理系统,其包括但不局限于个人计算机、有线网络计算机、无线网络计算机、移动电话或包含移动电话的装置、手持式装置、瘦客户机装置、以上的一些组合等等。网络130可以是允许在一个或多个用户数据处理系统110以及服务器数据处理系统120之间通信的任何网络。例如,网络130可以是但不局限于因特网、LAN、以及WAN、有线网络、无线网络、移动电话网络、传输文本消息的网络、以上的一些组合。
在本发明的优选实施例中,用户数据处理系统110a包括在存储器160中的浏览器软件150,由处理器140执行该浏览器软件来允许用户与服务器系统120通信。如下述详细描述的,此种浏览器150允许用户与服务器数据处理系统120通信来发送查询词到服务器数据处理系统120,以及从系统120接收查询结果。如下述进一步描述,浏览器150允许用户接收与查询结果相关联的标签以及属性,以及使用标签以及属性进一步限定查询结果。虽然在此所论述的实施例是基于浏览器的,但是本发明不局限于基于浏览器的搜索,并且可以使用任何适当的用于在用户110和服务器120之间通信的机构,而不会偏离本发明的精神和范围。
在此所论述的所有软件以及计算机可执行指令中的一些能够作为计算机程序产品被存储在计算机可读介质上,其包括但不局限于:数据处理系统的存储器、CD ROM、闪存、软盘、或能够在网络上或在系统组件间作为信号来传输的。
服务器数据处理系统120包括处理器170,其执行搜索和查询引擎软件185来使服务器系统120能够为查询词搜索结构化数据集合190。(搜索和查询引擎185也被称为“搜索引擎”)。一个结构化数据的实例是字段化数据,即每个数据项具有一个或多个数据字段(诸如名称、地址、状态等等)。
存储器180也包括属性储存库195,其为结构化数据190中的一些或所有数据项存储属性(以及标签)。储存库将连同图5在以下论述。虽然将储存库195作为结构化数据集合190的一部分来示出,但是也可以将储存库195从数据集合190中分离。
搜索引擎185、储存库195、以及结构化数据集合190都在图1(a)中显示为存在于单一存储器180内,尽管可以以多种方法存储巨大的搜索引擎以及巨大的数据集合,所述方法包括但不局限于分布式数据处理系统、协同数据处理系统、网络数据处理系统等等。搜索引擎185可以是软件、硬件、固件、或任何上述的结合。
在优选实施例中,通过一个或多个用户系统110由用户输入查询词并且通过网络130将查询词传输到服务器数据处理系统120。由服务器120使用以接收、索引、以及搜索数据集合的方法的细节将在此详细论述。
图1(b)是示出了根据本发明优选实施例的另一的数据处理系统的框图111。在图1(b)中,用户在其机器110上存储个人数据集合190。预计个人搜索引擎将访问并且组织该数据来使其可被用户以及可能被在网络130上的其它用户所搜索。此种系统也允许将数据库以及其它类型的数据集合添加到可搜索的文档池,该文档池可被中央搜索引擎访问。
在图1(b)的实施例中,数据集合190被存储在用户的数据处理系统110或企业服务器上(未示出),并且可以使其对所选择的一组个人或个体来说是可用的,诸如仅对用户、仅对用户的一较小子集、或对所有知道怎样访问数据集合190的用户。在此种情况中,如在此所描述的,通过属性以及标签对搜索进行过滤的能力可以是个人搜索引擎185的一部分,所述个人搜索引擎本地地运行于计算机上或本地计算机网络上。例如,可从加州山景城的谷歌公司获得的谷歌桌面搜索工具是一个运行于用户的桌面并且对在其个人计算机上的数据进行索引的搜索工具。结合了本发明的谷歌桌面搜索的实施将给予用户搜索数据库以及搜索存储在其桌面或可从其桌面访问的其它类型数据集合的能力。
结合本发明的谷歌桌面搜索的实施也将给予用户以有用的属性以及标签来组织其数据的能力。例如,大学图书馆能够使其所有的在线收集品对该大学的学生、全体教员、毕业生都是可用的。在此种情况中,信息将不会在公开可用的服务器上,而是将被存储在大学的服务器中,并且将仅对大学数据提供者所准许访问的那些人(以及程序)来说是可访问并且可搜索的。在实例中,大学也将能够控制哪个提供者具有向数据集合添加的能力。
图1(c)是根据本发明优选实施例的体系结构图131。在所描述的实施例中,提供者能够使用向系统输入数据以及属性的三种方法中的一个或多个。面向提供者的前台132(例如见图6(b))允许提供者使用用户界面输入数据项以及属性,也正是为了此种目的而提供用户界面。提供者也能够执行数据项的批量上载133(例如见图8(a)-8(d))。提供者也能够从特定的URL(例如使用FTP)上载134项。搜索和查询引擎185对在数据集合190中的项进行索引,所述数据集合优选地包括所输入的所述数据项的属性以及属性值,以生成所有数据的索引137。搜索引擎185也允许用户输入查询(例如见图4(a))。系统也包括应用程序接口(API)来允许软件程序通过搜索引擎185查询数据。
图2(a)是示出了根据本发明优选实施例的创建可搜索的数据项集合的概述的流程图200。如以下结合图6(a)-6(e)以及图8(a)-8(d)所讨论的,服务器120接收202数据项集合。数据能够作为标准web爬行的结果而被接收,或能够由一个或多个想要其数据成为可搜索的提供者所提供。所接收的数据项集合被处理来提取如以下所描述的标签、属性、以及属性值,并且所述标签、属性、以及属性值与各种信息类型相关联。在某些环境中,用户将为一些或所有所输入的数据提供属性名称和/或属性值。作为一个实例,用户可以上载其已经创建的用于保存医学期刊集合的数据库。该用户可能已经用诸如“期刊”、“发行年”、“期刊名称”的反映属性名称的值对这些期刊指定了属性。该用户也可以为每一期刊输入零个或更多标签,诸如“医学”、“牙科”、“来自哈佛”等等。标签是一种特殊的属性(也被称为无值标记(valueless tag)),其不具有与其相关联的值。元素204的细节将结合图3(a)来论述。
图2(b)是示出了根据本发明优选实施例的搜索文档集合以及改善搜索的概述的流程图210。在所描述的实施例中,用户输入212一个或多个查询词(诸如在图4(a)截屏400中的“癌受体”402)。
在某些实施例中,用户也可以输入属性名称以及值作为键入区域402的查询的一部分。例如用户可以将以下内容键入区域402:
癌受体属性(期刊类型:医学)
设想用户知道查询结果中的一些项具有命名为期刊类型的属性,但是该属性不是属性核心集的一部分,并且用户想要仅返回医学期刊。
系统确定213查询结果,如结合图3(b)在以下更为详细地讨论查询结果。在一些实施例中,在此点显示213查询结果。在其它实施例中,则不会显示查询结果,但是作为替代的是,要求用户通过选择对查询词特定的标签和/或属性来进一步改善其搜索。例如如图3(d)中所示出的,用户通过指定标签以及属性能够改善其搜索214。
图3(a)是示出了从数据项集合提取标签以及属性的方法的流程图300。该方法是用来组织数据集合以使得数据集合能够被搜索的建立过程的一部分。
一旦数据项被接收,对每个具有信息类型的数据项,系统为该信息类型确定304标签以及属性。属性是名称/值对,具有名称,诸如“期刊”,然后其具有一个或多个可能的期刊名称的值。
在优选实施例中,属性以及标签是由数据提供者指定。从而,确定属性仅仅是识别用户所提供的属性以及标签。
在某些情况中,数据提供者不会为其的项指定属性以及标签。例如,如果该项是由web爬行器定位的网页,网页所有者不会有机会来为其页面指定属性或标签。从而,在另一个优选实施例中,由软件为数据集合导出标签以及属性。导出标签以及属性可以涉及完全自动化的过程,在该过程中由软件在数据集合内找到预先确定的标签以及属性列表的潜在值。例如,在用于销售的项的列表中(例如谷歌的Froogle系统),符合预定标准的价格金额被作为用于该项的“价格”属性的值而分配。在另一个优选实施例中,软件执行与提供者交互的过程,在其中软件提出属性/值对,然后由提供者接受或拒绝该属性/值对。在另一个优选实施例中,html标记被扫描并且用所发现的信息来为具有标记的页面导出属性值。作为一个实例,设想页面包含html注释:
<!当前价格是在http://www.todayspricesforbigco.com%id=32423490!>
软件将从所指出的URL获得当前价格,并且使其成为对该网页的价格属性的值。
一旦属性以及标签已经与数据项相关联306,就对数据项进行索引309以使其能够被搜索。在第一优选实施例中,也能对属性以及标签以及其值进行索引,尽管在其它优选实施例中,它们是被分别搜索或被分别索引。
图5(a)示出了用来在储存库195中存储标签以及属性的格式500的实例。每个项与适合其类型的特定属性以及标签相关联。例如-工作公告可以具有属性,工作职责-产品管理、雇主-ABC公司以及工作类型-专职。在优选实施例中的属性以及标签可以具有以下类型的值:
BOOLEAN(布尔型)
INT(整型)
FLOAT(浮点型)
URL
STRING(字符串)
LOCATION(位置)
DATE(日期)
DATE RANGE(日期范围)
由元标记在存储器中指示属性以及标签,如下所示:
<start name>
name
</end name>
<start value>
value
</end value>
从而,在优选实施例中,每个属性是名称/值对,诸如属性名称“期刊”以及用于“期刊”属性的值“炎症期刊”(见图5(b))。每个标签仅有一个名称,诸如“医学”,其将指示特定的期刊是医学期刊(见图5(c))。在优选实施例中,数据项的信息类型也是其标签之一的名称。从而,具有“事件和行为”信息类型的数据项也将具有相同名称的标签。那样,通过指定与数据项的信息类型相同名称的标签,用户能够搜索具有特定信息类型的数据。
图5(d)示出了将信息类型映射到其属性的数据结构的实例。从而,如果在数据集合190中的项具有“产品”信息类型,则该项的属性可以通过访问图5(c)中的数据结构被确定,该数据结构包括属性以及对“产品”信息类型的其属性类型。
如图5(d)中所示,每个信息类型具有预先定义的属性。属性的值是属性类型的值。图5(e)示出了一些实际的值。从而,“期刊”信息类型具有“期刊名称”属性,其带有属性类型字符串的值,以及“期刊”信息类型具有带有空值的“医学”标签。例如,此种属性将允许用户搜索特定的期刊标题或搜索所有的医学期刊。同样地,“产品”信息类型具有“NumAvail”属性,该属性指示多个对销售来说是可用的特定产品,并且该属性具有整型属性类型。所有属性是可选的。提供者可以选择使用任何向其建议的属性或选择创建其自己的属性。
图3(b)是显示响应于所接收的查询词或词的查询结果的方法的流程图310。在优选实施例中,查询结果由搜索引擎185确定。例如,对“癌受体”402的查询(见图4(a))可以返回312具有诸如在图4(b)中所示出的属性404的项的查询结果406。如早先提及的,在此点本发明的一些实施例确定但不显示查询结果406。
一旦对查询的查询结果被确定(并且可选地被显示),至少显示一些查询结果的属性名称以及标签322。在数据集406中的数据项具有确定的信息类型。最初显示的属性404是一些或所有用于查询结果406中数据项的信息类型的属性。查询结果将含有数据项,每个数据项具有不同的属性。在查询结果顶端显示的属性是查询结果中最共同的属性,并且是已被搜索者点击或改善最多的属性。例如,查询“住房”具有以卧室和浴室作为属性的许多项,搜索者常常通过属性“浴室”以及“卧室”来对该查询“住房”进行改善。因此卧室以及浴室应该被显现在搜索结果上方的顶行上。
图4(b)示出了查询结果406以及多个属性和标签名称404(“期刊”、“pubmed”、“资讯来源”、“作者”)。在每个属性后的数字指示在查询结果406中具有与其相关联的属性的项的数量。例如,在图4(b)中,查询结果406包括2050个含有相关联的“期刊”属性/标签的项。从而,随同特定查询结果示出的属性的数量以及特性是依赖于查询的,并且进一步依赖于后来所选择的以缩小搜索范围的属性以及标签。
图3(c)是示出了对于给定的查询结果406确定显示哪个属性的方法的流程图340。当终端用户执行搜索时,搜索引擎185确定341最相关的q个结果以及为q个最相关的结果确定342n个最普遍的(popular)属性。系统为顶部n个属性名称确定344顶部m个属性/标签值。然后通过计算在相关结果集中的匹配要约(offer)的数量,来计算348柱状图,或要约计数。值q、n、以及m都是可配置的。不应被从限制意义上来理解的实例值有:q-1,000-100,000K(q也可以被设置为匹配特定查询词的所有结果)。N在100的范围内,M在20-100的范围内。
在优选实施例中,在确定柱状图以前将属性标准化346。在某些实施方式中,当数据最初被存储在数据集合190中时,就完成了一定数量的数据清除以及标准化。在所描述的实施例中,基于被搜索的查询词实时地完成数据标准化(例如,当查询词是“汽车”时,将所有的“牌子”属性标准化为“款型(make)”是有意义的,然而如果查询是“手提包”,将所有的款型属性标准化为“牌子”是有意义的)。其它实施例可以在数据被接收进数据集合190时做更多的标准化。在优选实施例中通过以下方式完成数据标准化:
1.词干技术(stemming)——例如,restaurant=restaurants。
2.缩写——例如,sz=size。
3.单位等同——例如,重量=盎司、磅等等。
4.尝试进行的拼写改正。
在下述系统中词干技术是特别有用的,在所述系统中提供者指定其自己的属性名称,这使得差异以及拼写错误潜入数据集合190。例如,词干技术允许用户利用经过词干技术的属性“Journals”的单一选择,来按属性名称“Journal”、“journasl”、“Journsl”等等进行过滤。
在某些优选实施例中,提供者添加的属性是检验后的类型。例如,检验URL、DateTime(日期时间)、Number(数字)、String(字符串)、Location(位置)、Boolean(布尔型)属性以查看其是否是有效值。一些实施例查验(ping)每一URL值以查看其是否是有效的,尽管这对不同的实施方式来说是可选择的。对于优选实施例,将位置进行地理编码以使其能够被在线地图服务,诸如GoogleMaps(谷歌地图)所引用。在某些实施例中,将不能被地理编码的“位置”属性认为是无效的。
一旦普遍的属性以及标签被确定并且被显示322(图3(b)),就允许用户为查询结果指定324一个或多个所显示的标签以及属性值(见图3(d))。
图4(c)示出了实例,在其中用户已经从图4(b)选择属性“期刊”并且正准备在栏408中输入期刊名称,其中该用户想要将其搜索限制在该期刊名称上。注意到查询词402现在是“癌受体过滤:期刊”。属性“期刊”已经从所列出的核心属性404消失。
类似地,在图4(d)中,用户选择第二属性“年份”410并且输入年份或年份范围,其中该用户想要在该年份或年份范围内在所指定的期刊中搜索查询词。注意到查询词402现在是“癌受体过滤:期刊过滤:年份”。属性“年份”已经从所列出的属性404消失。如果用户选择GO(执行)按钮411,就会使用所选择的属性作为过滤器再次执行搜索,并且显示诸如图4(e)的显示。从而,用户能够为所显示的查询结果选择一个或多个普遍的属性,并且能够根据所显示的属性(或标签)过滤最初的搜索。如果用户让属性值为空,则所有的属性值都匹配。例如,如果用户选择属性期刊但是没有输入期刊名称,所有具有期刊属性(以及同样命名的属性)的数据项都被选择来作为对查询结果的可能候选者。不具有期刊属性的数据项不会被选择为查询结果。
图4(d)示出了实例,其中用户已经选择了多于一个的属性或标签来缩小搜索范围。在所描述的实施例中,通过点击属性和标签404的多个标签以及属性,来选择多个标签以及属性。其它优选实施例允许将标签以及属性输入进搜索窗口402。例如,如果存在属性价格,用户可以键入以下内容作为查询词:
属性(价格:$150)
该查询将在当前查询结果中定位具有价格属性以及属性值为$150的数据项。
作为另外的实例,用户可以键入:
属性(价格:$150)AND标签(小于面包盒)
该查询将在当前查询结果中定位具有价格属性,以及属性值为$150,以及小于面包盒标签的数据项。其它优选实施例将使用其它适当的用户界面元素来允许用户有逻辑地组合属性以及标签。
图4(e)示出了局限于如图4(d)中所指定的特定年份或年份范围的特定期刊的查询结果。允许用户决定其是否想要在期刊412内继续搜索或者是否搜索全部的数据项集合(例如“搜索所有的Googlebase”)413。在实例中,在区域414向用户提供多个标签的选择(“生物技术”、“医学”、以及“摄影”,其分别与在查询结果406’中的30、15、以及6个项相关联)。在实例中,进一步向用户提供选择来为区域416中的属性指定值:日期、作者、pubmed、引文。也向用户提供了通过相关性、数据属性、或任何用户已经定义的属性(例如价格、位置等等)来对查询结果406’进行分类416的选项。
在图4(f)中,用户已经从图4(e)的区域414选择了属性“日期”,并且给予用户机会来输入数据420。当用户选择下拉操作件“两者之间(between)”时其被给予机会来选择日期范围(如所示出的)。属性“日期”已经从所列出的属性418中消失。在此实例中,“作者”属性已经从属性414中消失。如果属性不再与查询以及查询结果有关,则其即消失。用户没有通过期刊进行过滤的事实现在是假设用户仅在考虑受限制的项目集。用户选择执行按钮来执行搜索,并且作者词再次出现。
图4(g)示出了用户指定作者名字422。当查询正被改善时新的属性以及标签就会显现,这是因为属性以及标签是基于查询结果的,并且查询结果在不断地改变。当用户按下执行按钮423时,另外的搜索被执行,进一步过滤查询结果来反映用户指定的属性以及属性值。
以下段落论述在搜索的时候或在使用属性以及标签缩小搜索范围的时候对属性储存库195的访问。
对引用储存库195的查询以及索引优选地支持以下运算符:
数字-Is(是)、Between(两者之间)、Greater Than(大于)、Less Than(小于)、Number Range(数字范围)
建议
字符串-Is(是)、Has(具有)
日期-Range(范围)、Before(在之前)、After(在之后)、Is(是)
位置-Within(在之内)
可以至少以以下方式查询储存库195:
-给出与特定的属性名称-类型对相匹配的所有项
-基于属性-值的值对这些项进行分类
-支持对以下属性类型的分类
-DateTime(日期时间)
-Number(数字)-Int(整型)、Float(浮点型)
-String(字符串)
-Location(位置)-距用户所输入的位置的距离
该查询能力允许用户输入以下类型的属性查询:
-给出具有特定名称-类型对的所有项
-将所给出的这些项按照属性值分类(例如给出具有事件_日期的所有项,并且将其按升序排序给出)
-为特定名称-类型属性给出介于值1与值2中间的所有项
实例
-给出具有以烹饪_类型作为属性并且具有在15与30之间的值的所有项,所述值的单位为分钟
-给出具有以大小作为属性并且具有不带单位的值1和15的所有项
-给出具有事件_日期并且值为小于今日的所有项
-给出具有发行_日期并且值为在1925年的所有项
支持以下运算符
-对数字-int(整型)、float(浮点型)
-Less than(小于)
-Greater than(大于)
-Between(两者之间)
对日期时间-
-Is(是)
-Before(在之前)
-After(在之后)
-Between(两者之间)
-Scoring of Items(项的评分)
当前存在2个主要的信号,通过其对项进行评分
-依赖于查询的排名-主要为IR分值
-独立于查询的排名-页面排名以及项排名的混合
页面排名是提供者的网站页面排名。在项被装载在数据集合190中和/或项没有被链接或被连接到其它项的情况中,页面排名不存在。
项排名能够由多个因素所确定。两个主要的信号是
-特定于提供者的信号(例如评级)。
-特定于要约的信号(例如描述的长度、属性的数量、标签、图片等等)。
-项排名能够由以下信号定义
-描述的长度
-标题的长度
-标签的数量
-属性的数量
-图片
-要约已经被报告为垃圾的次数
-提供者的评级
-要约的新近性
将项评分为-依赖于查询的排名*独立于查询的排名
对默认排序来说排名即为默认排序。
在优选实施例中,在系统中能够设置某些参数。这些参数包括每个提供者最多的项数。其防止了由特定提供者造成的页面拥挤。
当用户选择属性和/或标签来缩小搜索范围时,系统搜索标签、标题、描述以及属性值。属性名称作为完整名称也应该是可搜索的。与相距较远出现的词语相比,短语被赋予更大的权重。与描述相比较标题被赋予更大的权重,与标题相比较标签被赋予更大的权重。属性值被赋予与标签同样的权重。用户可以开启或关闭提供者造成的商业拥挤来管控来自个体提供商的一个页面数的项是否会或不会被作为搜索结果显示。取决于所执行的搜索,商人拥挤(merchant crowding)可以是被需要的或不被需要的。
在优选实施例中,基于与同样或相似类型的其它项相关联的属性,系统定义了特定类型的新项的结构(例如,如果信息类型“工作”的多数项具有工作职责、工作类型以及雇主的属性,那么信息类型“工作”的数据项的共同属性结构将默认为是工作类型、雇主以及工作职责)。搜索者以及其它程序能够用诸如“给出其雇主是ABC公司并且其工作-类型是产品管理的所有工作”的查询查询数据集。
应当理解,尽管在此所描述的实例涉及人类用户,本发明的其它实施例可以被设计为与诸如人工智能软件程序的非人类用户一起或与在网络上通信的实体一起运行,该实体可能是人类或非人类。如果非人类用户是软件程序,显示如在此所描述的结果以及属性就可以是不必要的了。替代地,此种实施方式可以仅传达能够被用来缩小查询结果范围的可能的属性。在此种实施例中,由于非人类的人工智能能够处理需从其中选择的大量属性,因此能够显示大量的属性选项。在此种实施例中,可以不需要诸如确定柱状图的方法的元素或者该元素可以被用来仅对属性选择进行排名并且不限制多个可用的属性选择。
应当理解,在结构化数据190中各种信息类型的核心属性可能需要被周期性地更新。当将数据添加到结构化数据集合时,某些最初不普遍的属性可以变得普遍。例如,具有整型属性类型的“季”属性可以指定:作为演员图片的来源的哪一季电视节目可能并没有在最初被信息类型“电视节目”的初始核心属性所考虑,但是当越来越多的演员图片被添加到数据集合中时其可以变得普遍。在一些实施例中,基于普遍性(popularity)以及季节性(seasonality),并且在通过垃圾过滤器以后,核心属性也会被自动更新。
图3(e)示出了周期性执行的方法350,该方法确定任何新的、提供者所提供的属性是否应该被提升为信息类型的核心属性。项信息类型的属性核心组是如下属性:即只要提供者添加该信息类型的新项就自动提供该属性。在优选实施例中,仅提供核心属性以减少提供者滥发(spam)属性从而使其挤进所显示的属性的可能性。对于每种信息类型,所述方法考虑该信息类型322的最普遍的用户所添加的属性,并且将最普遍的属性提升为该信息类型的核心属性。
作为被用于决定将哪个属性提升为核心属性的,“最普遍的”对不同的实施例来说定义不同。例如,最普遍的可以是不在核心属性中的属性,而在诸如周或月的预先确定的时段里用户最为频繁地选择352该属性。作为另一个实例,最普遍的可以是不在核心属性中的属性,且该属性具有在预先确定的时段里最为频繁地出现在查询结果中的数据项。作为另一个实例,最普遍的可以是不在核心属性中的属性,且该属性在预先确定的时段里出现在数量最多的提供者的数据中。可以以任何适当的方式来确定最普遍的,只要其产生的属性对缩小搜索范围有用,就将其添加到核心属性。
例如,提供者可以为文章的项信息类型着手添加“博客”属性来指示已经在博客中提及该文章。此种属性将具有URL属性类型,指示提及项的博客的URL。如果阈值数量354的唯一提供者或用户使用了信息类型的特定的新属性,则该属性被添加356到该信息类型的属性核心组。在优选实施例中,阈值将是基于使用系统的提供者的总数的。其将以如2-3开始并且增加到较大数量。对标签执行类似的方法来将普遍的标签添加到标签核心集。在某些优选实施例中,所提升的属性将由人类或实现方法的适当的软件或硬件进行常识性检验(sanitycheck)。
前述段落已经大体上论述了搜索以及更新输入到结构化数据集合190的数据的方法。以下段落论述提供者能够将数据输入到或将数据添加到结构化数据集合190的方法。在某些优选实施例中,提供者也能够为其数据指定新的属性。
图6(a)-6(e)是示出了提供者能够如何编辑数据集合中的项的实例截屏。提供者是将内容添加到或能够将内容添加到数据集合190的任何人。在所描述的实施例中,数据集合190是由一个或多个提供者所拥有的数据,提供者诸如个人、非营利的组织、或公司。实施例允许此种提供者通过网络来设置并且增加其自己的结构化数据集合(例如数据库),并且通过网络或类似网络来使其集合是可搜索的。预期的是,为了报酬或交换具许可(permission)以允许数据被其他人搜索,提供者将乐于把数据存储到中央储存库中。在此种情况中,通过网络或基于网络的浏览器可以搜索数据集合,所述浏览器诸如谷歌浏览器或谷歌桌面搜索引擎,其版本为包含在此所描述的一些或所有的功能的版本。
图6(a)-6(e)是示出了允许提供者编辑以及向系统内输入数据的用户界面的实例截屏。
图6(a)示出了用户界面600,该界面允许提供者查看并且编辑数据集合190中的数据项。也可以使用用户界面来将项添加到数据集合190中。区域602包含数据集合190中的项的部分列表。在本实例中,该列表包括项标题601、项类型(也被称为信息类型)605、状态603、到期日、闪现次数(项已经显示的次数)、在对象上的点击数、以及点进率、在搜索结果中项被点击的次数。在实例中,在区域602示出数据集合中所有项的一个子集,但是提供者也可以搜索其个人的数据集合620或搜索整个数据集合622。提供者也可以查看非活动项616或上载批量文件618。每个数据项具有相关联的“编辑”链接619。在优选实施例中,提供者能够只编辑其自己的数据项。区域604允许提供者显示诸如下拉菜单的选择装置,该装置示出现有信息类型(事件以及活动、住房等等)。如果提供者选择信息类型,其能够在区域606为其数据添加信息类型的描述。
图6(b)示出了用户界面,该界面允许提供者查看并且编辑610数据集合190中的数据项。所述项具有“资讯和文章”的信息类型。如果提供者在图6(a)的区域602中已经选择了数据项,则该项的信息将被显示在区域611的栏中。然而,在实例中,提供者没有选择项,因此提供者可以自由地输入新的数据项。在实例中,“资讯和文章”610信息类型包含以下字段:标题、图片、描述以及在查询结果中所显示的链接614(例如URL)。
图6(b)的用户界面也允许提供者编辑项的属性以及标签。需注意到,尽管每种信息类型具有相关联的属性,但是不是特定类型的所有数据项都具有用于该信息类型的所有可能属性的值。在实例中,如参考数字612所示出,提供者已经指出有数量为“1”个的项是可用的或存在的。对该项来说,没有为作者或资讯来源属性指定值。每个属性具有“文本”属性类型。提供者可以自由地为个人数据项的属性添加值。提供者也能够使用区域613来添加属性。在此,提供者能够添加属性名称以及属性值。
提供者能够在区域618中提供与联系方式信息(contactinformation)有关的属性值。提供者能够在区域619中提供与位置信息有关的属性值。
提供者能够在区域619中将标签添加到项。在某些实施例中,信息类型是默认属性名称。在此,信息类型是“资讯和文章”并且其也是标签。
图6(c)示出了图6(b)的用户界面,该界面允许提供者查看并且编辑610数据集合190中的数据项。在实例中,提供者能够为新的提供者所定义的属性613添加名称以及值。尽管默认属性类型是“文本”,提供者可以选择另一个属性类型,诸如数字单位、数字、数据范围、大文本、URL、布尔型、以及位置。
图6(d)示出了用户界面,该界面允许提供者查看并且编辑610数据集合190中的数据项。该项具有“产品”630信息类型。如果提供者在图6(a)的区域602中已经选择了数据项,则该项的信息将被显示在区域611的栏中。然而,在实例中,提供者没有选择项,因此提供者可以自由地使用用户界面630输入新的项。在实例中,“产品”信息类型包含以下字段:标题、图片、描述以及在查询结果中所显示的链接634(例如URL)。
图6(d)的用户界面也允许提供者编辑项的属性以及标签。需注意到,尽管每种信息类型具有相关联的属性,但是不是特定信息类型的所有数据项都具有用于该信息类型的所有可能属性的值。在实例中,如参考数字632所示出,提供者已经指出每项价格150美元(例如与每磅或每打相对)。数量“1”被指定。价格类型是提供者设置的价格的类型(例如比价竞卖(best offer)、可商议的、固定的等等)。对该项来说,没有为价格选项、品牌、条件、以及产品类型指定值。每个属性具有“文本”属性类型。提供者可以自由地为个人数据项的属性添加值。提供者也能够使用区域613来添加属性。在该实施例中,提供者能够为其指定的属性改变属性类型。用户可以自由地为个人数据项的属性添加值。用户也能够使用区域613来添加属性。在此,提供者能够添加属性名称以及属性值。
在该实施例中,提供者添加的属性被添加到其当前信息类型的所有项。在此,例如,一旦属性被定义,提供者的类型为“产品”的所有项都被赋予最近所添加的属性613。通常单独地添加每个项的值。某些实施例也允许提供者为其指定的信息类型的所有项指定值。如上所述,新的属性逐渐变为属性核心集是可能的。在其它实施例中,新的属性不一定被添加到该信息类型的所有项。在其它实施例中,提供者可以同意限定的一组提供者都将具有相同的属性,以使得当一个提供者添加属性时,在组中的其它提供者也将具有相同的属性。
提供者能够在区域618中提供与联系方式信息有关的属性值。提供者能够在区域619中提供与位置信息有关的属性值。提供者能够在区域638中提供与支付方式有关的属性值。
提供者能够将标签添加到区域616中的项。在某些实施例中,信息类型是默认属性名称。在此,信息类型是“产品”并且其也是标签。在该实施例中,提供者添加的标签不被添加到其当前类型的所有项(除了是该信息类型的标签以外)。如上所述,新的标签逐渐变为核心标签集是可能的。在其它实施例中,新的标签总是被添加到该信息类型的所有项。
图6(e)示出了图6(d)的用户界面,该界面允许提供者查看并且编辑630数据集合190中的数据项。在该实例中,联系方式、支付方式、以及位置都是产品信息类型的属性。其是具有复合类型的属性(不只是整型或简单字符串)。在该实例中,提供者能够为信息类型“产品”的项添加与联系方式618有关的值。在此,提供者指定昵称、电话号码、电子邮件地址(从提供者信息数据库获得的可能值,未示出)中的一些或全部。在该实例中,提供者能够为信息类型“产品”的项添加与支付方式638有关的值。在此,提供者指定支付方式以及注释中的一些或全部。在该实例中,提供者能够为信息类型“产品”的项添加与位置619有关的值。在此,提供者指定文本注释中的一些或全部(例如“加州弗里蒙特”)。在该实施例中,也存在复选框来指示消费者是否能够从该位置获得产品以及递送半径。
在该实例中,为每个项分别地输入联系方式、支付方式、以及位置值。提供者添加的值不被添加到其当前信息类型的所有项。在此,例如,不是所有的提供者的信息类型为“产品”的项都被赋予在图6(e)中示出的联系方式、支付方式、以及位置值。通常单独地添加每个项的值。某些实施例也允许提供者为其指定的信息类型的所有项指定值。例如,对提供者的所有“产品”来说支付方式信息可以是相同的。
促销者可以通过图6的用户界面或经由图7以及8所示出的批量上载方法来输入项。
图7是示出了用于注册批量上载文件的用户界面的实例截屏700。批量上载文件被用来创建或添加到数据集合190。在该实例中,添加具相同信息类型的项的平面文件(flat file)。在该实例中,文件名称712是“本地商品目录(local inventory)”。提供者选择数据类型714,其是预先定义的信息类型或自定义的信息类型。提供者为数据中的文本字符串选择语言716。当提供者选择按钮“注册批量上载文件”718时,具有文件名称712的文件被注册,然后将允许提供者上载文件。提供者能够使用基于网页的上载界面或使用另外的诸如FTP(文件传送协议)或RSS的机制来上载文件。
图8(a)示出了将被批量上载的制表符分隔的(tab-delimited)文件的格式801。以下是批量上载文件的格式要求:
-制表符分隔的纯文本。
-文件首行是标题-必须包含属性名称(在以下描述),由制表符分隔。
-每行一个项;每一属性应该由制表符分隔。
-在行末端没有结尾制表符(trailing tab)。
-文件必须被保存为LATINl或UTF-8编码。ASCII也是可接受的,因为其是LATINl的子集。
-链接以及图像URL应该被完全限定。即,其必须包括http://部分,例如:http://www.example.com/image.gif
-制表符、回车、或换行符-如果这些中的任何一个在属性中出现,将不能显示该项。
-HTML标记、注释、以及换码顺序(escape sequence)-不会从批量上载移除html,但是为了最佳表现(appearance),不应该包括HTML。
在优选实施例中,数据项是所上载的文件的一部分,该文件也包含属性。在另外的优选实施例中,数据项以及属性在单独的文件中被上载,构建所述单独文件以使得哪个属性值属于哪个数据项是清楚的。
图8(b)是提供者用来创建批量上载文件的实例方法的流程图800。提供者可以是人类,或是硬件或软件。
要素802:在电子表格程序(spreadsheet program)中打开新的文件
所描述的方法使用诸如微软Excel的电子表格程序来创建批量上载文件。使用类似微软Excel的电子表格程序使创建批量上载并将其转换成适当格式变得容易。能够使用其它方法来产生适当格式化的文件。
要素804:创建标题行
作为一个实例,产品批量上载的标题行可能看起来像图8(c)中的行832。依照提供者想要提交的项的信息类型指定批量上载中的每一列(参见图7的714)。在电子表格832的首行输入每一属性的名称,提供者想要包括该名称来描述其的项。这就是标题行。标题行的内容将依赖于所提交信息的信息类型、以及提供者是否发送了所定义的信息类型、或其自己创建的信息类型。
自定义信息类型:
批量上载能够被用来提交任何信息类型。如果提供者发送其自己的信息类型,其可以使用预先定义的属性的任何组合。在优选实施例中,强烈地推荐提供者使用预先定义的属性。提供者也能够包括无限多的自定义属性:提供者应该挑选最能描述其的项的属性集。
限定信息类型:
提供者能够发送用于限定信息类型之一的批量上载。强烈地推荐提供者在其批量上载中包括信息类型。其允许将项更精确地匹配到搜索查询。提供者给出越多的信息,用户就越容易找到项。在优选实施例中,提供者必须包括所推荐的属性以使提供者的项能够出现在已完成的搜索的显著部分中。
要素806:输入项信息
在每行834上,提供者为其数据集合中的项输入信息。每个信息应该反映其所在的列的标题。(例如产品的价格应该输在“价格”标题下)。每一行仅包括一个项。参见图8(c)。
要素808:将批量上载转换为制表符分隔的纯文本
使用先前注册的文件名(参见图7)将电子表格转换为制表符分隔的文本(.txt)。在提供者已经将所有项输入进电子表格后,其将电子表格保存为制表符分隔的文本(.txt)格式。注册的文件名能够被再次用于后续的上载。如果所上载的文件具有未注册的名称,则该文件中的项将不会被添加到数据集合190。在优选实施例中,最新的批量上载必须至少每30天发送一次以确保项保留在数据集合190中。
要素810:上载文件
图8(d)示出了上载文件的用户界面840。
要素812:检查批量上载的错误
在提供者已经发送批量上载后,其能够通过登录到中央网站查看批量上载的状态。如果列出结果为“成功”,则不需要改变批量上载。否则,提供者可以点击批量上载的文件名来查看关于如何改正错误的信息。
在批量上载被上载后,文件将被处理以将项、属性、以及标签添加到数据集合190以及图5的数据结构。一旦上载已经被批准,具有相同文件名的任何未来的更新都将被自动地处理。
尽管本发明已经就几个实施例在以上进行了描述,但能够在本发明的范围内进行各种修改。例如,某些优选实施例包括检测无效的或“垃圾的”属性和标签的方法和系统。不希望的是,提供者把属性添加到其数据中,而该属性将允许数据项出现在搜索的顶端。一些用来避免此种属性的方法包括黑名单、特定的柱状图分布等等。
在其它优选实施例中,对显示的顶端的属性以及标签的确定不仅是基于属性关键类型元组(attribute key-type tuple)以及标签的普遍性,还是基于值的分布(分布越离散越好,并且越倾斜越好。例如,对一个属性5个普遍的值比50个均匀分布的值更好。实例如果颜色是属性并且将红色、蓝色、以及绿色看作顶端的颜色,那么其将是凭以改善的良好属性。另一方面颜色具有100个值每个值出现三次不是那么有用的。
另一个优选实施例基于使用属性、项排名/每个要约的要约排名的提供者的数量来执行复杂的置信度分值。
另一个优选实施例使用来自用户的点击信号来确定向用户显示哪个属性。通过被定义为普遍性排名的事物来对属性以及标签评分:
PR=在查询结果中的普遍性*用于该特定查询的CTR
在另一个优选实施例中,如果用户总是将2个属性约束用于特定的查询(例如90%的情况下Ipod总是受约束于价格以及位置,当用户键入ipod时依据价格以及位置的系统约束将发生)示出已经应用于所述查询结果的约束。
因此,本发明的公开意在是说明性的,而不是限制在权利要求中阐述的本发明的范围。

Claims (31)

1.一种用于对结构化数据进行搜索的方法,包括:
在搜索引擎可访问的一个或多个数据存储设备上保持拥有的数据项的索引,每一个所拥有的数据项具有相应的提供者,每一个提供者是共同提供所述拥有的数据项的多个提供者中的一个,并且每一个拥有的数据项是由其相应的提供者使得可用的数据项;
从所述多个提供者中的每一个接收将属性与相应的提供者拥有的数据项相关联的数据;
从与所述搜索引擎交互的用户通过客户端设备接收搜索查询;
从所述拥有的数据项之间接收对满足所述搜索查询的第一数据项的选择,所述第一数据项共同具有通过所述多个提供者与所述第一数据项相关联的第一属性;
选择所述第一属性的子集,所述子集包括少于全部的所述第一属性;
向所述客户端设备输出搜索引擎结果页面,所述搜索引擎结果页面包括指向所述第一数据项的两个或多个中的每一个的相应的引用以及所选择的所述第一属性的子集;
响应于对所选择的子集的第一属性的表示的用户选择,提供搜索窗口用于接收查询改善;
接收对少于所有的所选择的子集的属性的用户选择;
选择各自与所述少于所有的所选择的子集的属性相关联的第一数据项的子集;
生成搜索引擎查询结果,所述搜索引擎查询结果包括指向所述第一数据项的所选择的子集的两个或多个第一数据项中的每一个的相应的引用;以及
输出包括所述搜索引擎查询结果的第二搜索引擎结果页面。
2.如权利要求1所述的方法,其中每一个第一属性包括:
属性名称;以及
属性值,其反映与所述属性名称相关联的值。
3.如权利要求1所述的方法,其中所述第一属性的每一个包括不是自动从所述数据项自身获得的用户提供的属性。
4.如权利要求1所述的方法,其中保持所述拥有的数据项的所述索引进一步包括执行对数据集合的web爬行,所述数据集合存储所述数据项以及描述每一个数据项的信息类型的相关联的属性。
5.如权利要求1所述的方法,进一步包括:
选择具有属性值的所述第一数据项的子集,所述属性值与满足所接收的查询改善的所选择的子集的第一属性相关联;以及
生成第二搜索引擎查询结果,所述第二搜索引擎查询结果包括指向所选择的子集的所述第一数据项的每一个的相应的引用。
6.如权利要求1所述的方法,进一步包括:
确定所述搜索引擎的先前的用户在预定时间段内选择所述第一属性的频度以缩小过去的查询结果,
其中选择所述子集进一步包括选择具有最高的确定的频度的所述第一属性。
7.一种用于对结构化数据进行搜索的系统,包括:
在搜索引擎可访问的一个或多个数据存储设备上保持拥有的数据项的索引的装置,每一个所拥有的数据项具有相应的提供者,每一个提供者是共同提供所述拥有的数据项的多个提供者中的一个,并且每一个拥有的数据项是由其相应的提供者使得可用的数据项;
从所述多个提供者中的每一个接收将属性与相应的提供者拥有的数据项相关联的数据的装置;
从与所述搜索引擎交互的用户通过客户端设备接收搜索查询的装置;
从所述拥有的数据项之间接收对满足所述搜索查询的第一数据项的选择的装置,所述第一数据项共同具有通过所述多个提供者与所述第一数据项相关联的第一属性;
选择所述第一属性的子集的装置,所述子集包括少于全部的所述第一属性;
向所述客户端设备输出搜索引擎结果页面的装置,所述搜索引擎结果页面包括指向所述第一数据项的两个或多个中的每一个的相应的引用以及所选择的所述第一属性的子集;
响应于对所选择的子集的第一属性的表示的用户选择,提供搜索窗口用于接收查询改善的装置;
接收对少于所有的所选择的子集的属性的用户选择的装置;
选择各自与所述少于所有的所选择的子集的属性相关联的第一数据项的子集的装置;
生成搜索引擎查询结果的装置,所述搜索引擎查询结果包括指向所述第一数据项的所选择的子集的两个或多个第一数据项中的每一个的相应的引用;以及
输出包括所述搜索引擎查询结果的第二搜索引擎结果页面的装置。
8.如权利要求7所述的系统,其中每一个第一属性包括:
属性名称;以及
属性值,其反映与所述属性名称相关联的值。
9.如权利要求8所述的系统,其中所述属性值描述数据项的源。
10.如权利要求7所述的系统,其中所述属性包括不是自动从所述数据项自身获得的用户提供的属性。
11.如权利要求7所述的系统,其中保持所述拥有的数据项的所述索引进一步包括执行对数据集合的web爬行,所述数据集合存储所述数据项以及描述每一个数据项的信息类型的相关联的属性。
12.一种使项结构化以及可搜索的方法,包括:
使用在线界面从多个提供者接收要进行结构化的多个数据项,每一个数据项具有相应的提供者,每一个提供者是共同提供所述多个数据项的多个提供者中的一个,并且每一个数据项是由其相应的提供者使得公开可用的数据项;
从所述多个提供者并通过所述在线界面接收通过所述数据项的相应的提供者与所述数据项相关联的属性名称;
导出要与所接收的多个数据项相关联的属性值;以及
将所述多个数据项与其相关联的属性名称和值一起存储在可由基于web的搜索引擎搜索的存储器中。
13.如权利要求12所述的方法,其中至少一个数据项作为web爬行的结果而被接收,并且所述至少一个数据项的属性值作为所述web爬行的结果而被自动导出。
14.如权利要求12所述的方法,其中所述多个数据项作为提供者通过所述在线界面对所述多个数据项以及其属性名称和值的批量上载的结果而被接收。
15.如权利要求12所述的方法,其中至少一个数据项作为其相应的提供者经由所述在线界面单独地选择所述数据项并手动输入其属性名称和值的结果而被接收。
16.如权利要求12所述的方法,其中所述属性名称是属性名称核心集的部分,所述属性名称核心集是与查询结果一起被显示的仅有的属性。
17.如权利要求12所述的方法,其中所述属性名称是预定的一组属性名称的部分。
18.如权利要求12所述的方法,其中所述属性名称是提供者定义的一组属性名称的部分。
19.如权利要求12所述的方法,其中所述提供者为一种信息类型的数据项定义属性名称和其类型,并且为具有所述信息类型的多个数据项的每一个定义属性值。
20.如权利要求12所述的方法,进一步包括:
基于用于类似数据项的属性的普遍性,在存储器中的数据结构中定义属性,所述数据结构与所述数据项相关联。
21.如权利要求12所述的方法,其中导出所述属性值进一步包括:
为预定列表中的属性自动识别潜在的属性值。
22.如权利要求12所述的方法,其中导出所述属性值进一步包括:
向所述数据项的相应的提供者自动建议属性和属性值;以及
接收由所述数据项的所述相应的提供者发起的信号,所述信号指示对所建议的属性和属性值的接受或拒绝。
23.如权利要求12所述的方法,其中每一个数据项与至少一个属性相关联,每一个属性具有属性名称和属性值。
24.一种用于使项结构化以及可搜索的系统,包括:
使用在线界面从多个提供者接收要进行结构化的多个数据项的装置,每一个数据项具有相应的提供者,每一个提供者是共同提供所述多个数据项的多个提供者中的一个,并且每一个数据项是由其相应的提供者使得公开可用的数据项;
从所述多个提供者并通过所述在线界面接收通过所述数据项的相应的提供者与所述数据项相关联的属性名称的装置;
导出要与所接收的多个数据项相关联的属性值的装置;以及
将所述多个数据项与其相关联的属性名称和值一起存储在可由基于web的搜索引擎搜索的存储器中的装置。
25.如权利要求24所述的系统,其中至少一个数据项作为web爬行的结果而被接收,并且所述至少一个数据项的属性值作为所述web爬行的结果而被自动导出。
26.如权利要求24所述的系统,其中所述多个数据项作为提供者通过在线界面对所述多个数据项以及其属性名称和值的批量上载的结果而被接收。
27.如权利要求24所述的系统,其中所述数据项作为提供者经由所述在线界面单独地输入所述数据项以及其属性名称和值的结果而被接收。
28.如权利要求24所述的系统,其中所述属性名称是属性名称核心集的部分,所述属性名称核心集是与查询结果一起被显示的仅有的属性。
29.如权利要求24所述的系统,其中所述属性名称是提供者定义的一组属性名称的部分。
30.如权利要求24所述的系统,其中所述操作进一步包括:基于用于类似数据项的属性的普遍性,在存储器中的数据结构中定义属性,所述数据结构与所述数据项相关联。
31.一种使项结构化以及可搜索的设备,包括:
使用在线界面从多个提供者接收要进行结构化的多个数据项的用户界面,每一个数据项具有相应的提供者,每一个提供者是共同提供所述多个数据项的多个提供者中的一个,并且每一个数据项是由其相应的提供者使得公开可用的数据项;
从所述多个提供者并通过所述在线界面接收通过所述数据项的相应的提供者与所述数据项相关联的属性名称的用户界面;
导出要与所接收的多个数据项相关联的属性值的处理器;以及
可由基于web的搜索引擎搜索的存储器,所述存储器将所述多个数据项与其相关联的属性名称和值一起存储。
CN2005800523802A 2005-10-23 2005-12-13 对结构化数据进行搜索的方法、系统以及使数据项结构化及可搜索的方法、系统 Active CN101341464B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010156907.9A CN101866347B (zh) 2005-10-23 2005-12-13 对结构化数据进行搜索的方法、系统以及使数据项结构化及可搜索的方法、系统

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/257,282 2005-10-23
US11/257,282 US7933900B2 (en) 2005-10-23 2005-10-23 Search over structured data
PCT/US2005/045447 WO2007046830A2 (en) 2005-10-23 2005-12-13 Search over structured data

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201010156907.9A Division CN101866347B (zh) 2005-10-23 2005-12-13 对结构化数据进行搜索的方法、系统以及使数据项结构化及可搜索的方法、系统

Publications (2)

Publication Number Publication Date
CN101341464A CN101341464A (zh) 2009-01-07
CN101341464B true CN101341464B (zh) 2010-05-26

Family

ID=38044965

Family Applications (2)

Application Number Title Priority Date Filing Date
CN2005800523802A Active CN101341464B (zh) 2005-10-23 2005-12-13 对结构化数据进行搜索的方法、系统以及使数据项结构化及可搜索的方法、系统
CN201010156907.9A Active CN101866347B (zh) 2005-10-23 2005-12-13 对结构化数据进行搜索的方法、系统以及使数据项结构化及可搜索的方法、系统

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201010156907.9A Active CN101866347B (zh) 2005-10-23 2005-12-13 对结构化数据进行搜索的方法、系统以及使数据项结构化及可搜索的方法、系统

Country Status (9)

Country Link
US (2) US7933900B2 (zh)
EP (1) EP1952273B1 (zh)
JP (2) JP5112324B2 (zh)
KR (1) KR101222253B1 (zh)
CN (2) CN101341464B (zh)
AU (2) AU2005337489B2 (zh)
BR (1) BRPI0520649A2 (zh)
CA (1) CA2626860C (zh)
WO (1) WO2007046830A2 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105302821A (zh) * 2014-06-26 2016-02-03 阿里巴巴集团控股有限公司 一种查询数据的方法及装置

Families Citing this family (90)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070100862A1 (en) 2005-10-23 2007-05-03 Bindu Reddy Adding attributes and labels to structured data
US7933900B2 (en) * 2005-10-23 2011-04-26 Google Inc. Search over structured data
US8108388B2 (en) * 2006-04-26 2012-01-31 Microsoft Corporation Significant change search alerts
US7792821B2 (en) * 2006-06-29 2010-09-07 Microsoft Corporation Presentation of structured search results
US7890499B1 (en) 2006-07-28 2011-02-15 Google Inc. Presentation of search results with common subject matters
US9990110B1 (en) 2006-08-14 2018-06-05 Akamai Technologies, Inc. Private device cloud for global testing of mobile applications
US9154611B1 (en) 2006-08-14 2015-10-06 Soasta, Inc. Functional test automation for gesture-based mobile applications
US9720569B2 (en) 2006-08-14 2017-08-01 Soasta, Inc. Cloud-based custom metric/timer definitions and real-time analytics of mobile applications
US20080104542A1 (en) * 2006-10-27 2008-05-01 Information Builders, Inc. Apparatus and Method for Conducting Searches with a Search Engine for Unstructured Data to Retrieve Records Enriched with Structured Data and Generate Reports Based Thereon
US7895175B2 (en) * 2006-11-15 2011-02-22 Yahoo! Inc. Client-side federated search
US7987185B1 (en) 2006-12-29 2011-07-26 Google Inc. Ranking custom search results
US7725453B1 (en) * 2006-12-29 2010-05-25 Google Inc. Custom search index
US8584013B1 (en) 2007-03-20 2013-11-12 Google Inc. Temporal layers for presenting personalization markers on imagery
US9069853B2 (en) * 2007-03-30 2015-06-30 Innography, Inc. System and method of goal-oriented searching
US8725597B2 (en) * 2007-04-25 2014-05-13 Google Inc. Merchant scoring system and transactional database
US8655868B2 (en) 2007-09-12 2014-02-18 Ebay Inc. Inference of query relationships based on retrieved attributes
US8442994B1 (en) 2007-09-14 2013-05-14 Google Inc. Custom search index data security
US8370372B2 (en) * 2007-11-05 2013-02-05 Jones Scott A Method and system of promoting human-assisted search
US20090210389A1 (en) * 2008-02-20 2009-08-20 Microsoft Corporation System to support structured search over metadata on a web index
US20100076979A1 (en) * 2008-09-05 2010-03-25 Xuejun Wang Performing search query dimensional analysis on heterogeneous structured data based on relative density
US20100076952A1 (en) * 2008-09-05 2010-03-25 Xuejun Wang Self contained multi-dimensional traffic data reporting and analysis in a large scale search hosting system
US8290923B2 (en) * 2008-09-05 2012-10-16 Yahoo! Inc. Performing large scale structured search allowing partial schema changes without system downtime
US8843476B1 (en) * 2009-03-16 2014-09-23 Guangsheng Zhang System and methods for automated document topic discovery, browsable search and document categorization
US7742933B1 (en) * 2009-03-24 2010-06-22 Harrogate Holdings Method and system for maintaining HIPAA patient privacy requirements during auditing of electronic patient medical records
US8250015B2 (en) * 2009-04-07 2012-08-21 Microsoft Corporation Generating implicit labels and training a tagging model using such labels
US8832133B2 (en) 2009-08-24 2014-09-09 Microsoft Corporation Answering web queries using structured data sources
CN102141990B (zh) 2010-02-01 2014-02-26 阿里巴巴集团控股有限公司 一种搜索方法和装置
US20110225076A1 (en) * 2010-03-09 2011-09-15 Google Inc. Method and system for detecting fraudulent internet merchants
US9229842B2 (en) 2010-07-19 2016-01-05 Soasta, Inc. Active waterfall charts for continuous, real-time visualization of website performance data
US9251035B1 (en) 2010-07-19 2016-02-02 Soasta, Inc. Load test charts with standard deviation and percentile statistics
US9021362B2 (en) 2010-07-19 2015-04-28 Soasta, Inc. Real-time analytics of web performance using actual user measurements
US9436579B2 (en) 2010-07-19 2016-09-06 Soasta, Inc. Real-time, multi-tier load test results aggregation
US9495473B2 (en) 2010-07-19 2016-11-15 Soasta, Inc. Analytic dashboard with user interface for producing a single chart statistical correlation from source and target charts during a load test
US9450834B2 (en) 2010-07-19 2016-09-20 Soasta, Inc. Animated globe showing real-time web user performance measurements
US20120072860A1 (en) * 2010-09-17 2012-03-22 Microsoft Corporation Techniques to provide pivot-based search for business data
JP5811094B2 (ja) * 2010-09-22 2015-11-11 日本電気株式会社 属性情報処理装置、属性情報処理方法及び属性情報評価システム
US20120078925A1 (en) * 2010-09-27 2012-03-29 International Business Machines Corporation Searching within log files
CN101968807A (zh) * 2010-10-15 2011-02-09 北京思在信息技术有限责任公司 一种内容检索的方法及装置
KR101172487B1 (ko) * 2010-11-29 2012-08-14 엔에이치엔(주) 검색 결과 내에 첨부된 정보 데이터베이스에 기초한 검색 리스트 및 검색어 순위 제공 방법 및 시스템
CN102073726B (zh) * 2011-01-11 2014-08-06 百度在线网络技术(北京)有限公司 搜索引擎系统的结构化数据的引入方法和装置
CN102073725B (zh) * 2011-01-11 2013-05-08 百度在线网络技术(北京)有限公司 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统
US9898533B2 (en) 2011-02-24 2018-02-20 Microsoft Technology Licensing, Llc Augmenting search results
CN102902695A (zh) * 2011-07-29 2013-01-30 上海博泰悦臻电子设备制造有限公司 导航系统及兴趣点搜索方法和装置
CN102968418A (zh) 2011-09-01 2013-03-13 阿里巴巴集团控股有限公司 网站信息检索方法和系统
US9785533B2 (en) * 2011-10-18 2017-10-10 Soasta, Inc. Session template packages for automated load testing
FR2989189B1 (fr) 2012-04-04 2017-10-13 Qwant Procede et dispositif de fourniture rapide d'information
US9916396B2 (en) 2012-05-11 2018-03-13 Google Llc Methods and systems for content-based search
US8954438B1 (en) 2012-05-31 2015-02-10 Google Inc. Structured metadata extraction
US9471606B1 (en) 2012-06-25 2016-10-18 Google Inc. Obtaining information to provide to users
US8997008B2 (en) 2012-07-17 2015-03-31 Pelicans Networks Ltd. System and method for searching through a graphic user interface
US9110852B1 (en) 2012-07-20 2015-08-18 Google Inc. Methods and systems for extracting information from text
CN103577436B (zh) * 2012-07-27 2017-10-13 阿尔派株式会社 内容检索装置及内容检索方法
US9390174B2 (en) 2012-08-08 2016-07-12 Google Inc. Search result ranking and presentation
WO2014022979A1 (en) * 2012-08-08 2014-02-13 Google Inc. Clustered search results
US9256682B1 (en) 2012-12-05 2016-02-09 Google Inc. Providing search results based on sorted properties
CN104021124B (zh) 2013-02-28 2017-11-03 国际商业机器公司 用于处理网页数据的方法、装置和系统
US9218819B1 (en) 2013-03-01 2015-12-22 Google Inc. Customizing actions based on contextual data and voice-based inputs
US9772923B2 (en) 2013-03-14 2017-09-26 Soasta, Inc. Fast OLAP for real user measurement of website performance
US10055462B2 (en) 2013-03-15 2018-08-21 Google Llc Providing search results using augmented search queries
US9477759B2 (en) 2013-03-15 2016-10-25 Google Inc. Question answering using entity references in unstructured data
US10108700B2 (en) 2013-03-15 2018-10-23 Google Llc Question answering to populate knowledge base
EP2819029A1 (en) * 2013-06-28 2014-12-31 Alcatel Lucent Database interrogation
US9811830B2 (en) 2013-07-03 2017-11-07 Google Inc. Method, medium, and system for online fraud prevention based on user physical location data
US20150074101A1 (en) * 2013-09-10 2015-03-12 Microsoft Corporation Smart search refinement
US20150154292A1 (en) * 2013-12-03 2015-06-04 Yahoo! Inc. Recirculating on-line traffic, such as within a special purpose search engine
CN103699619A (zh) * 2013-12-18 2014-04-02 北京百度网讯科技有限公司 一种用于提供搜索结果的方法及装置
US10601674B2 (en) 2014-02-04 2020-03-24 Akamai Technologies, Inc. Virtual user ramp controller for load test analytic dashboard
CN103995870A (zh) * 2014-05-21 2014-08-20 百度在线网络技术(北京)有限公司 交互式搜索方法和装置
US9934331B2 (en) 2014-07-03 2018-04-03 Microsoft Technology Licensing, Llc Query suggestions
CN105468601A (zh) * 2014-08-21 2016-04-06 富泰华工业(深圳)有限公司 信息处理装置和信息处理系统及其信息处理方法
CN105468627A (zh) 2014-09-04 2016-04-06 纬创资通股份有限公司 屏蔽与过滤网页内容的方法与系统
US10025764B2 (en) * 2014-10-30 2018-07-17 Snap-On Incorporated Methods and systems for taxonomy assist at data entry points
JP2017537398A (ja) * 2014-12-02 2017-12-14 ロングサンド リミテッド 一組の構造化データタームからの非構造化検索クエリの生成
US10346431B1 (en) 2015-04-16 2019-07-09 Akamai Technologies, Inc. System and method for automated run-tme scaling of cloud-based data store
US9961166B2 (en) * 2015-07-31 2018-05-01 Microsoft Technology Licensing, Llc Organizational directory access client and server leveraging local and network search
US10176175B2 (en) * 2015-08-19 2019-01-08 International Business Machines Corporation System and method for identifying candidates for back-of-book index
KR101753768B1 (ko) * 2015-10-01 2017-07-04 한국외국어대학교 연구산학협력단 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템
KR102454725B1 (ko) * 2016-09-09 2022-10-13 엘에스일렉트릭(주) 그래픽 객체 편집 장치
CN107870915B (zh) * 2016-09-23 2021-08-17 伊姆西Ip控股有限责任公司 对搜索结果的指示
US11507216B2 (en) 2016-12-23 2022-11-22 Realwear, Inc. Customizing user interfaces of binary applications
US10620910B2 (en) 2016-12-23 2020-04-14 Realwear, Inc. Hands-free navigation of touch-based operating systems
US11099716B2 (en) 2016-12-23 2021-08-24 Realwear, Inc. Context based content navigation for wearable display
CN108268512B (zh) * 2016-12-30 2020-07-31 中国移动通信集团上海有限公司 一种标签查询方法及装置
US10606736B1 (en) 2017-03-03 2020-03-31 Akamai Technologies Inc. System and method for automated creation of a load test plan
US10586358B1 (en) 2017-05-10 2020-03-10 Akamai Technologies, Inc. System and method for visualization of beacon clusters on the web
CN111753181A (zh) * 2019-03-28 2020-10-09 北京京东尚科信息技术有限公司 基于图像的搜索方法、装置、服务器、客户端及介质
US11176324B2 (en) * 2019-09-26 2021-11-16 Sap Se Creating line item information from free-form tabular data
US11449914B2 (en) * 2020-08-31 2022-09-20 Coupang Corp. Systems and methods for visual navigation during online shopping using intelligent filter sequencing
CN113806597A (zh) * 2021-09-10 2021-12-17 浙江创邻科技有限公司 一种基于图数据库的金融搜索系统及方法
CN114485713A (zh) * 2022-02-11 2022-05-13 龚加淦 一种基于大数据的交通服务智能推送方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1292125A (zh) * 1998-11-03 2001-04-18 白金技术有限公司 通过有选择地使用属性或关键字值优化查询生成的方法和装置

Family Cites Families (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6978277B2 (en) 1989-10-26 2005-12-20 Encyclopaedia Britannica, Inc. Multimedia search system
US5752242A (en) * 1996-04-18 1998-05-12 Electronic Data Systems Corporation System and method for automated retrieval of information
US6366923B1 (en) 1998-03-23 2002-04-02 Webivore Research, Llc Gathering selected information from the world wide web
US6845370B2 (en) 1998-11-12 2005-01-18 Accenture Llp Advanced information gathering for targeted activities
US7181459B2 (en) * 1999-05-04 2007-02-20 Iconfind, Inc. Method of coding, categorizing, and retrieving network pages and sites
US7421648B1 (en) 1999-05-21 2008-09-02 E-Numerate Solutions, Inc. Reusable data markup language
US7181438B1 (en) * 1999-07-21 2007-02-20 Alberti Anemometer, Llc Database access system
JP2001067262A (ja) 1999-08-31 2001-03-16 Degital Institute:Kk 情報処理システム及び情報記録媒体
NZ518635A (en) 1999-11-02 2004-02-27 Clarity Inc E Verbal classification system for the efficient sending and receiving of information
JP2001147922A (ja) 1999-11-18 2001-05-29 Canon Inc 文書管理装置、文書管理方法および記憶媒体
IL133546A0 (en) * 1999-12-16 2001-04-30 Lewin Asaf A system for providing services through the internet
JP2001188760A (ja) * 1999-12-28 2001-07-10 Sony Corp 情報処理装置および方法、並びに記録媒体
US6701314B1 (en) * 2000-01-21 2004-03-02 Science Applications International Corporation System and method for cataloguing digital information for searching and retrieval
US6886005B2 (en) * 2000-02-17 2005-04-26 E-Numerate Solutions, Inc. RDL search engine
CA2404337A1 (en) * 2000-03-27 2001-10-04 Documentum, Inc. Method and apparatus for generating metadata for a document
US6499029B1 (en) 2000-03-29 2002-12-24 Koninklijke Philips Electronics N.V. User interface providing automatic organization and filtering of search criteria
JP2001326921A (ja) * 2000-05-15 2001-11-22 Sony Corp コンテンツ管理システム、コンシンツ管理方法、カメラ装置
US7062483B2 (en) * 2000-05-18 2006-06-13 Endeca Technologies, Inc. Hierarchical data-driven search and navigation system and method for information retrieval
DE10031351A1 (de) 2000-06-28 2002-01-17 Guru Netservices Gmbh Verfahren zur automatischen Recherche
US6675159B1 (en) 2000-07-27 2004-01-06 Science Applic Int Corp Concept-based search and retrieval system
US6757662B1 (en) * 2000-08-21 2004-06-29 Richard L. Greenwald Method and system for display advertisement qualification and notification
US7185001B1 (en) * 2000-10-04 2007-02-27 Torch Concepts Systems and methods for document searching and organizing
US7647339B2 (en) * 2000-10-04 2010-01-12 Gonzalez Emmanuel C Method for digitally labeling websites
US7069310B1 (en) * 2000-11-10 2006-06-27 Trio Systems, Llc System and method for creating and posting media lists for purposes of subsequent playback
JP2002183210A (ja) 2000-12-14 2002-06-28 Nippon Telegraph & Telephone East Corp 検索サーバにおけるコンテンツ検索方法およびそのプログラムが記録されたコンピュータ読み取り可能な記録媒体
JP3545347B2 (ja) 2001-01-15 2004-07-21 株式会社アマダ情報サービス 検索システム
US7272610B2 (en) * 2001-11-02 2007-09-18 Medrecon, Ltd. Knowledge management system
US7266563B2 (en) * 2001-12-28 2007-09-04 Fotomedia Technologies, Llc Specifying, assigning, and maintaining user defined metadata in a network-based photosharing system
US7203675B1 (en) * 2002-02-19 2007-04-10 Ncr Corp. Methods, systems and data structures to construct, submit, and process multi-attributal searches
JP2003296341A (ja) * 2002-04-03 2003-10-17 Nissan Motor Co Ltd データベース生成方法、データベース生成プログラム、データ構造、データベース生成システム、検索システム、及び検索方法
JP3793479B2 (ja) 2002-04-05 2006-07-05 富士通株式会社 情報提供システム
US20040143659A1 (en) 2002-04-26 2004-07-22 Milliken Russell C. System and method for a scalable notification server providing
JP4073734B2 (ja) * 2002-08-19 2008-04-09 日本電信電話株式会社 入力単語候補を推薦する情報検索システム
US7424510B2 (en) * 2002-09-03 2008-09-09 X1 Technologies, Inc. Methods and systems for Web-based incremental searches
US6944612B2 (en) * 2002-11-13 2005-09-13 Xerox Corporation Structured contextual clustering method and system in a federated search engine
KR20040048548A (ko) 2002-12-03 2004-06-10 김상수 지능형 데이터베이스 및 검색 편집 프로그램을 통한사용자 맞춤 검색 방법 및 시스템
US7472110B2 (en) * 2003-01-29 2008-12-30 Microsoft Corporation System and method for employing social networks for information discovery
US7885963B2 (en) * 2003-03-24 2011-02-08 Microsoft Corporation Free text and attribute searching of electronic program guide (EPG) data
JP2004310594A (ja) * 2003-04-09 2004-11-04 Glory Ltd 紙葉類処理装置および紙葉類処理システム
JP2004341960A (ja) * 2003-05-16 2004-12-02 Sony Corp 位置依存情報検索方法、位置依存情報検索装置、位置依存情報提供装置、および位置依存情報検索プログラム
US8589373B2 (en) * 2003-09-14 2013-11-19 Yaron Mayer System and method for improved searching on the internet or similar networks and especially improved MetaNews and/or improved automatically generated newspapers
JP2005202788A (ja) 2004-01-16 2005-07-28 National Institute Of Advanced Industrial & Technology 空間検索方法、空間検索装置、空間検索プログラムおよび空間検索プログラムを記録したコンピュータ読取可能な記録媒体
JP2005242586A (ja) 2004-02-25 2005-09-08 Fuji Xerox Co Ltd 文書ビュー提供のためのプログラム、装置、システム及び方法
US8676830B2 (en) * 2004-03-04 2014-03-18 Yahoo! Inc. Keyword recommendation for internet search engines
JP2005251115A (ja) * 2004-03-08 2005-09-15 Shogakukan Inc 連想検索システムおよび連想検索方法
US20050240393A1 (en) * 2004-04-26 2005-10-27 Glosson John F Method, system, and software for embedding metadata objects concomitantly wit linguistic content
US7933900B2 (en) * 2005-10-23 2011-04-26 Google Inc. Search over structured data
US20070100862A1 (en) * 2005-10-23 2007-05-03 Bindu Reddy Adding attributes and labels to structured data

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1292125A (zh) * 1998-11-03 2001-04-18 白金技术有限公司 通过有选择地使用属性或关键字值优化查询生成的方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105302821A (zh) * 2014-06-26 2016-02-03 阿里巴巴集团控股有限公司 一种查询数据的方法及装置

Also Published As

Publication number Publication date
CN101866347B (zh) 2017-05-17
KR20080066818A (ko) 2008-07-16
WO2007046830A2 (en) 2007-04-26
EP1952273A2 (en) 2008-08-06
JP5112324B2 (ja) 2013-01-09
EP1952273B1 (en) 2019-04-10
CA2626860A1 (en) 2007-04-26
JP2012043477A (ja) 2012-03-01
US8762372B2 (en) 2014-06-24
KR101222253B1 (ko) 2013-01-16
AU2005337489B2 (en) 2012-03-08
EP1952273A4 (en) 2009-04-29
US7933900B2 (en) 2011-04-26
AU2005337489A1 (en) 2007-04-26
US20110202517A1 (en) 2011-08-18
WO2007046830A3 (en) 2007-11-15
JP5560258B2 (ja) 2014-07-23
JP2009512954A (ja) 2009-03-26
CN101341464A (zh) 2009-01-07
BRPI0520649A2 (pt) 2010-04-06
CA2626860C (en) 2015-12-08
US20070168331A1 (en) 2007-07-19
CN101866347A (zh) 2010-10-20
AU2012200884A1 (en) 2012-03-08

Similar Documents

Publication Publication Date Title
CN101341464B (zh) 对结构化数据进行搜索的方法、系统以及使数据项结构化及可搜索的方法、系统
JP5300960B2 (ja) 属性およびラベルの構造化データへの追加
CN101124576B (zh) 集成有来自信任网络的用户注释的搜索系统和方法
US9965462B2 (en) Systems and methods for identifying and recording the sentiment of a message, posting, or other online communication using an explicit sentiment identifier
US6564208B1 (en) Delivering non-default items in association with search results
US8156105B2 (en) Rapid item data entry for physical items in the control of a user in an item data management server
US20120221596A1 (en) Method and System for Automated Search for, and Retrieval and Distribution of, Information
KR20100094021A (ko) 이동통신 단말기와 아이피 기반 정보 단말기를 이용한 맞춤, 지능형 심볼, 아이콘 인터넷 정보 검색시스템
CN101160581A (zh) 实现基于位置的多模式电子目录服务方法、系统以及装置
US20110314052A1 (en) Enhanced search system and method
CN101828167A (zh) 推荐产生系统、设备和方法
US20160055255A1 (en) System and/or method for linking network content
US20070244868A1 (en) Internet book marking and search results delivery
CN102622402B (zh) 使用页面集而提供信息搜索服务的服务器、方法和系统
KR101748245B1 (ko) 3d 프린팅 데이터 서비스 제공 방법
CN101894146A (zh) 使用创建的文本编辑框实现广告功能的方法及系统
Slezak A Proposal for Establishing a Free Market Basis for Plant Genome Information Exchange
JP2003263318A (ja) Xml等のタグ情報利用のプログラム連携システム、及び連携プログラム作成システム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C53 Correction of patent of invention or patent application
CB03 Change of inventor or designer information

Inventor after: Reddy Bindu

Inventor after: Marshall Spit

Inventor after: Brunsman Jonathan

Inventor after: Mosberger Ning

Inventor after: Bhaya Gaurav Ravindra

Inventor after: Sirajuddin Sarah

Inventor after: Calley David

Inventor after: Kozenski Jennifer L.

Inventor after: Sundararajan Arvind

Inventor after: Agarwal Puneet

Inventor before: Reddy Bindu

Inventor before: Brunsman Jonathan

Inventor before: Mosberger Ning

Inventor before: Bhaya Gaurav Ravindra

Inventor before: Sirajuddin Sarah

Inventor before: Calley David

Inventor before: Kozenski Jennifer L.

Inventor before: Sundararajan Arvind

Inventor before: Agarwal Puneet

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR; FROM: BINDU REDI JONATHAN BULENSMAN NING MOSBEGEL GRAVES LAVENDERA BUHAYA SARA SIRAGEDING DAVID KALAIN JENNIFER L KESONKEYS ARVIND SOONDARIRAJEAN PUNIET AGARWAL TO: BINDU REDI JONATHAN BULENSMAN NING MOSBEGEL GRAVES LAVENDERA BUHAYA SARA SIRAGEDING DAVID KALAIN JENNIFER L KESONKEYS ARVIND SOONDARIRAJEAN PUNIET AGARWAL MARSHALL SPIT

CP01 Change in the name or title of a patent holder

Address after: American California

Patentee after: Google limited liability company

Address before: American California

Patentee before: Google Inc.

CP01 Change in the name or title of a patent holder