CN1310175C - 搜索引擎管理系统和方法 - Google Patents

搜索引擎管理系统和方法 Download PDF

Info

Publication number
CN1310175C
CN1310175C CNB031275427A CN03127542A CN1310175C CN 1310175 C CN1310175 C CN 1310175C CN B031275427 A CNB031275427 A CN B031275427A CN 03127542 A CN03127542 A CN 03127542A CN 1310175 C CN1310175 C CN 1310175C
Authority
CN
China
Prior art keywords
language
search
kernel
input
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB031275427A
Other languages
English (en)
Other versions
CN1503163A (zh
Inventor
金文柱
西村真里子
田浦厚志
高村惠美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IBM China Co Ltd
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1503163A publication Critical patent/CN1503163A/zh
Application granted granted Critical
Publication of CN1310175C publication Critical patent/CN1310175C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

以不同自然语言输入的数据穿过过渡翻译层,过渡翻译层利用包括用于所有所支持的自然语言的字符集的通用字符集将数据转变为单个计算机语言。以原始的自然语言来存储数据,并且文件被划分成由搜索术语识别的部分,这些部分被以基于类型的分类树排列。双向倒排索引被通过用于由关键词搜索术语来访问,在关键词搜索术语中,以所有支持的语言表达的关键词被存储并且交叉参考到每种自然语言的文件中。包括这个表格的搜索引擎可以识别以所查询的语言、第二种语言或由用户确定的所有所支持的语言的相关文件。所操作的文件随后通过过渡翻译层被输出,并且以与输入形式和语言相同或不同的所期望格式被提供。

Description

搜索引擎管理系统和方法
技术领域
本发明涉及一种多语言数据库网络的配置。而且,本发明涉及在数据库网络中以所选择的语言执行关键词搜索和获得搜索结果。
背景技术
因特网文本检索系统接受由多个关键词T1、T2、...、Ti、...、Tn组成的搜索查询S形式的、所请求信息的语句,并且返回包括对于搜索查询术语的匹配项目的一批文件。为了提供在因特网数据库上的这样的搜索性能,已经开发了搜索引擎,所述搜索引擎向信息包括源提供查询接口,并且返回按照所列出的文件如何良好地匹配搜索查询而依序排序的搜索结果。搜索引擎的用途之一是连接公司网站。公司网站的一个问题是对于客户和雇员等它难于找到它们需要的信息。在可以利用技术内容文章来很大地加权的某个产品支持数据库中尤其是这样。在一个全球性的公司中,这个信息可以是多种自然语言表达的形式、可以是模拟和数字形式、可以是多种不同格式和可以是多种机器语言表达的形式。数据类型和它们的形式、格式和语言可能不是搜索者所要求或甚至明白的。所需要的是国际化的搜索系统,它容易使用并且提供可以由搜索者明白的结果。
发明内容
因此,本发明的一个目的是提供以多种语言可以访问的国际化搜索系统,并且以可选择的语言提供可理解的搜索结果。
本发明的另一个目的是提供能够访问多种形式、格式和语言的信息的国际化搜索系统,它能够向搜索者以他们所期望的格式和计算机语言来提供所述信息。
本发明的另一个目的是通过一种国际化搜索系统,它接受多种民族语言的搜索术语和提供现场特定搜索结果。
按照本发明,以不同自然语言输入的数据穿过过渡翻译层,过渡翻译层利用包括用于所有所支持的自然语言的字符集的通用字符集将数据转变为单个计算机语言。以原始的自然语言来存储数据,并且文件被划分成由搜索术语识别的部分,这些部分被以基于类型的分类树排列。在产品数据库的情况下,当产品名称或数量是已知的时候,这些类型可以是使得能够进行迅速的关键词搜索的各种产品类型。双向倒排索引被通过用于由关键词搜索术语来访问,在关键词搜索术语中,以所有支持的语言表达的关键词被存储并且交叉参考到每种自然语言的文件中。当查询以多种语言之一的关键词的时候,可以一起来访问不同语言的相同含义的关键词。包括这个表格的搜索引擎可以识别以所查询的语言、第二种语言或由用户确定的所有所支持的语言的相关文件。以所选择的语言的文件被从所存储的部分公式化并且当搜索者请求时被识别。所操作的文件随后通过过渡翻译层被输出,并且以与输入形式和语言相同或不同的所期望格式被提供。
附图说明
图1是用于在线区域网络的系统组织的示意图;
图2是实现本发明并且连接到图1所示的网络的专用网络的示意图;
图3是示出本发明的信息源、与翻译层相关的搜索引擎和信息内核的排列的示意图;
图4是示出本发明的内核的细节的示意图;
图5是示出按照本发明的后端数据收集的示意流程图;
图6是按照本发明的关键词查询的处理的示意流程图;
图7是按照本发明的文件请求查询的处理的示意图;
图8A是与产品类型相关的分类树中的数据的排列的示意图;
图8B是示出将本地产品名称加到通用的分类数据库产品类型的的处理图;
图9是示出使用本地(日本)数据库的文件存储和检索的示意图;
图10是将一种语言表达的关键词与另一种语言的它们的对应部分相关联的索引表格的图;
图11是多语言数据库搜索系统的图;
图12是用于输入搜索查询的计算机显示屏幕部分的图;
图13是用于获得搜索结果的流程图;
图14是国际搜索处理的方框图;和
图15是通过所述内核的元素示出搜索序列的流程图。
具体实施方式
现在参见图1,通过诸如因特网104的包括网络节点服务器的广域网、经由在线服务来完成在多个用户计算机100a到100n和多个信息服务器102a到102n之间的通信。网络节点服务器管理诸如在任何给定的用户计算机和信息服务器之间的通信的网络业务。
计算机100被配备了通信软件,包括诸如网景通信公司的网景浏览器的WWW浏览器,它使得购物者可以经由因特网连接和使用在线购物服务。在用户计算机100上的软件管理向用户显示从服务器接收的信息的显示,并且向适当的信息服务器102发回用户的行为,以便可以向用户提供附加的显示信息或要按照其来行动的信息。可以经由调制解调器或诸如电缆连接的其他手段来建立对因特网的网络节点的连接106。
后述的图1所示的服务器是那些通过因特网通过产品、服务和信息以获得收费的商家。虽然下面的讨论针对在购物者和这样的商家之间经由因特网的通信,它一般可以应用到网络上的任何信息寻找者和任何信息提供者。(例如,信息提供者可以是诸如大学图书馆、公共图书馆或国会图书馆的图书馆或其他类型的信息提供者)关于商家和商家的产品的信息被存储在商家服务器103所访问的购物数据库108中。这可能是商家拥有的数据库或商家的供货商的数据库。可以公布为网页的、可以由商家服务器访问的所有产品信息被索引,并且一个全文索引数据库110记录每个词的出现数量和它们在所述位置的使用。除了独立商家的服务器和其他信息服务器之外,还有诸如Google公司的Google的多个搜索服务提供者的服务器114a-114,这些提供者保留通过询问独立商家的产品信息数据库108而获得的独立商家102a-102n的产品的全文索引116。诸如Google的这些搜索服务提供者的一些是通用的搜索提供者,而另一些是主题专用搜索提供者。
商家和所述应用服务提供者每个可以保留关于购物者和它们的购买习惯的信息的数据库以便为购物者定制在线购物。为购物者完成定制的电子购物环境的操作包括累积关于购物者的偏好的数据。每个商家记录和处理与诸如购物者选择的特定的网站和特定的产品、对于网站的进入和推出时间、对网站参观的次数等的电子购物选项相关的信息,以便建立购物者的购物简档。原始数据可以随后被处理以建立购物者的偏好简档。简档也可以包括由购物者当预订服务时提供的或从其他来源获得的关于购物者的个人数据或特点(如年龄、职业、地址和爱好)。简档数据可以帮助鉴别在关键词查询中使用的词的含义。例如,在医生的查询中的一个关键词可以具有与由土木工程师提供的同一关键词的使用完全不同的含义。关于购物者的数据累积被放置在每个商家的购物者简档数据库112或118中。在购物者的数据库中的每个独立购物者简档和搜索应用服务提供者可以根据购物者和它们的简档软件对于特定商家的或服务提供者的经验而彼此不同。数据收集可以在购物者的搜索期间继续,以便获得和使用更新的购物者简档数据。
利用在购物交易中涉及的关于的购物者的信息,商家能够满足购物者的需要,并且购物者被提供机会来观看和购买最可能感兴趣的商品,因为商家的产品和服务针对那些已经直接或间接表达了它们的兴趣的购物者。
当购物者向在他的/她的浏览器的默认网页或主页上提供的空间中输入用于关键词的形式的搜索特点的时候,商家万维网服务器102的搜索引擎利用关键词对所访问的全文索引数据库110或118进行搜索,并且获取描述包括所述关键词的匹配项的那些产品和服务的一批文件。这批文件包括对文件的基本测试排序Tf(包括点击的数量、它们的位置等,它们被用于对所述这批文件排序),并且高分在上。这个列表随后被发送到将使用排序算法的排序模块,以便利用文本因素和其他排序因素来对这批文件排序,并且也可以引入反映信息、提供者偏爱和兴趣的因素,所述排序算法例如在题目为“TheAnatomy of a Large-Scale Hypertextual Web Search Engine”by Sergey Brin andLawrence Page of the Computer Science Department,Stanford University,Stanford CA 94305(“大型超文本万维网搜索引擎的剖析”,Sergey Brin和Lawrence Page,计算机科学系,斯坦福大学,加利福尼亚州斯坦福,94305)的文章中描述的排序算法(该文在此引入作为参考),所述其他排序因素例如链接分析、流行、来自用户简档的用户的偏好。随后将基于所述排序算法重新排序的一批文件提供给用户。
图1示出了按照本发明、当商家万维网服务器120之一从商家获得信息和将其提供到用户的时候如何使用一个多语言因特网搜索管理服务器120。如图2所示,搜索管理服务器120在专用内联网网络200中连接到服务器202和诸如图1所示的多个计算机100,以便计算机10可以获得存储在专用内联网的内部来源的中的信息。内联网200具有公共因特网访问能力,它提供对在公共因特网104上的服务的访问。“防火墙”222将专用内联网200与公共因特网104分隔,仅仅允许具有正确ID和密码的那些从公共因特网104进入内联网200。内联网200的内部来源是公司文件管理系统204和内部数据库206。而且,内联网200具有语音识别系统220,它能够响应由客户端计算机100从单独的计算机100或这样的计算机的客户端网络提供的语音命令和语音口述的压缩数字化数据。
按照本发明,搜索管理服务器120包括图3所示的集成搜索管理系统,它接收来自内联网和因特网中的搜索引擎的查询和信息,并且通过计算机100访问除了在内联网和因特网中的那些之外的信息源。例如,可以在集成搜索管理系统中存储由语音识别系统220发送到计算机224并且连接到文本的语音。集成管理服务器包括中央处理单元230、网络接口232和足够大的随机访问存储器234和高密度存储器236,以便执行它的功能。除了它到内联网的连接,搜索管理系统包括到因特网的直接链路226以便使得商家的客户能够访问。
如图3所示,集成搜索管理系统有一个核心或内核300,它仅仅操作扩展标记语言(XML)形式的数据和代码,具有以通用统一代码字符集编码的字符。以所有所支持的语言的来自所有可能来源的数据在进入集成搜索管理系统之前被缩小为这种公共的形式。例如,HTML网页、文本文件和所涉及的语音消息被转换为公共形式。以搜索引擎302、信息源304和用户机器306的不同来源形式的数据在包括翻译程序的一系列命令解释程序中被转换为XML内核形式,在这些命令解释程序中,在其内部翻译程序中,将各种文件从它们的源形式转换为XML形式。在层中布置翻译程序308,以便它们可以在源语言和内核语言之间的翻译中共享。当要增加一个新的源层的时候,可以提供一个附加层来在新的或修改的源语言和现有的源语言之间翻译。如果要接受一个全新的协议,则可以增加翻译程序308和310的附加部分312。这提供了一种具有先进技术的搜索管理系统,它具有用于翻译单元308和310的面向对象的程序模块的模块使用。如图所示,信息源304可以以任何所支持的自然语言表达。数据在它的整个处理中保持它的自然语言状态。
如图4所示,排列使得内核300可以包括最小数量的元素。那些元素是:
文件提取管理器402,它负责浏览原始的信息源,并且利用与信息源兼容的机制来提取数据核文件内容,所述信息源将数据以可以由可搜索内容管理器404处理的格式放置。2002年5月30日提交的序号为10/157,243的美国专利申请包括文件提取管理器的说明。
可搜索内容管理器404,它负责处理从信息源提取的数据并且将其存储在内容储存库406中。数据被以标准的内核格式存储,所述标准内核格式最好基于文件的粒状(granular)元素或组件对象。这些元素可以随后被组合以构成相干文件。可以在2002年6月30日提交的序号为10/159,373的美国专利中请中找到处理的说明。如图8A所示,以基于产品类型的分类树将元素800存储在内容储存库406中。例如,对于一个面向计算机的业务,存在升序排列的软件产品类型802和硬件产品类型804,用于更具体地识别产品类型。图8B是处理图,示出了在包括在多个国家中的产品的名称的通用分类数据库上的本地产品名称的处理。如图8B所示,通过利用增加命令由通用提供分类(offering classification,OC)或分类(taxonomy)数据库920向组件储存库300增加本地国家产品名称810。文件夹en-US等包括由自然语言支持工具从产品名称数据库提供的提供信息,自然语言支持工具增加来自本地国家数据库的产品名称翻译。
将分类信息附加到文件部分使得有可能将关键词搜索与产品识别信息组合以将搜索结果的范围变窄。
内容储存库406,它是元素800的可搜索库,其中存储了可搜索内容。如图9所示,以不同语言902-904的可以获得的文件900被数据提取器402提取,并且被缩小为段或组件对象809,并被存储在内核存储系统或内容储存库中。对象908保留在内核存储储存库406中的文件的自然语言状态,但被改变为通用字符集的字符,并且被数据处理器230以XML计算机语言存储。
储存库406具有搜索索引408,用于提供一种机制以在用户的计算机屏幕910上利用诸如文件视图、文件类型、元数据等的给定的一组属性来请求特定的文件。以所有可以获得的、所支持的自然语言NL来在内容储存库中存储文件。所述索引包括2002年6月27日提交的序号为10/180,195的美国专利申请和2002年2月1日提交的序号为10/066,346的美国专利申请的倒排索引表410,以便可以选择适当语言的文件。
图10中示出了图4和9的扩展索引表410的更详细的视图。从文件D1-Dn提取英文关键词K1-Kn。以所有所支持的自然语言的对应关键词被获得,以便对于每个英文关键词Ki,有每种所支持语言的同义词。如图10所示,X指示文件D1-Dn,其中出现一个或多个所列出的关键词。于是,如图所示,关键词K1以英文出现在文件D1和Dj种,具有同义关键词K11和K12以自然语言NL1和NL2存在于文件中。类似地,同义词Ki1和Ki2在文件D2中,文件D2可以以自然语言NL1和2获得,而不能以英文获得。同义词Kn和Kn2在文件Dj中,文件Dj可以以英文和自然语言NL2获得而不能以自然语言NL1获得。存储在每个标有X的位置的是排序因素信息,例如:词在文件中出现的次数,它与出现在文件中的其他关键词的接近程度,包括关键词的文件的类型(即技术杂志广告)等。这个信息随后用于将每个文件相对于通过搜索而找到的其他文件排序。
图9示出了数据检索处理和以组件格式存储的本地文件。来自本地国家数据库904的数据被复制到系统数据库902。数据提取器402从XML格式的系统数据库902和组件908检索数据,并且利用数据处理器230将其存储在组件库300。数据处理器230利用数据库920根据本地产品名称来存储组件。所述组件准备通过用于通过在用户的显示屏幕910上输入的查询的搜索。
当图10的表格被以任何所支持的语言表达的关键词查询的时候,包括与在查询中的关键词具有同义关键词的、以任何语言的文件以它们的排序信息被识别和提供。例如,假定查询包括关键词Ki和Kn,文件D2-Dj和Dn将以它们可获得的语言被识别。因此在文件D2的情况下,文件将被识别为可以以英文和民族语言NL1和NL2来获得,而以民族语言NL1和NL2可以获得文件Dj。伴随通过题目或申请号对文件的识别,所存储的排序因素信息将被提供到文件排序算法,例如在2002年4月10日提交的序号为10/120,071的共同待批准的美国专利申请中所示的文件排序算法,该美国专利申请在此引入作为参考。
图1图解了并入本发明的搜索系统。以任何所支持的语言的查询1110被输入到搜索引擎1120,并且被传送到参照图4和9所述的扩展关键词倒排索引410。索引410支持多种语言,并且允许以任何所支持的语言翻译关键词查询。在英文查询的情况下,查询利用语言关键词11301和以其他所支持的语言表达的关键词11302和1130n的列表被应用到倒排索引410。这产生了以任何用户感兴趣的语言的英文点击列表11401到1140n。有可能用户将选择一个列表(假定列表11402),确定那是不合适的,并且尝试另一种选择。如果用户明白英语的能力有限,它可以愿意看以任何其他自然语言11402到1140n的结果。如果民族语言结果(假定1140i)不够(或不存在),则用户可以继续到英文结果11401。作为另一种选择,用户可以识别所感兴趣的结果最可能是英文结果11401,并且可以以那些结果来开始。作为又一种选择,用户找到很多英文结果以至于他决定查看以他的民族语言1150的更多选择列表。当民族语言结果不足或不可获得的时候,搜索引擎将提供其他语言的文件以增加以英语作为默认列表语言的选择列表1160中列出的搜索结果,使得以英语不可获得的文件被以它们可以获得的语言提供。排序算法1170分析在选择列表中的文件以向用户提供排序列表1180。
如图12所示,用于查询本系统的计算机屏幕包括输入关键词查询1200的空间。搜索引擎1202用于指示搜索范围。搜索引擎1204用于执行要搜索的语言。区域1206用于指示查询术语被提供的语言,空间1208用于提供排序列表被提供的语言。因此在附图中,“便携式电脑”和“IBM”是要查看的关键词。搜索引擎是“任何国家”。但是,如果期望,搜索可以限定到假定特定的国家或甚至特定的文件储存库。例如,搜索引擎可以限定到国会图书馆或在美国的任何图书馆。执行搜索的语言被全部列出。这将导致对所有所支持的语言的搜索,以便将从表格中读出相同文件的多个拷贝。空间1206识别搜索词是英文的情况。但是,可以使用任何其他所支持的语言。例如,如果德语是所支持的语言,则搜索术语1200可以是德语词,并且查询语言将指示它们是德语的。最后,可以以与查询语言不同的语言来提供结果,以便如此处所示,虽然搜索术语是英文的,但是所排序的文件将以德语被提供,使得那些文件可以用德语言来获得。如果不能够以德语来获得任何一个文件,则列表将包括以可以用作为第一默认语言的英文获得的语言的那个文件。所述空间1200-1208的使用允许控制搜索执行及结果被提供的其范围和语言。
参见图13,通过用户在步骤1302和1304输入在图12的空间1200-1208中给出的搜索信息来查询系统。所输入的查询和其他信息随后被用于在步骤1206查询扩展的倒排索引表格,并且从表格410来获得文件列表。搜索随后在步骤1310被提供他喜欢的语言的排序文件列表,并且在步骤1312确定是否结果是满意的。如果是,则处理结束。但是如果搜索不满意,则他可以在步骤1314通过修改在步骤1302和1304提供的数据来扩展或否则改变它的搜索范围。
向回参见图4,索引管理器412负责利用由搜索引擎提供的适当接口来建立和更新搜索索引408,并且它基于存储在内容储存库中的内容。索引管理器可以处理多个搜索索引。
搜索管理器414主要负责从接口管理器组件收集搜索查询的输入参数,并且利用配置信息(如搜索引擎参数)、个性化信息(如优选文件类型)和分类信息(如搜索类别)来建立最后的查询对象。2002年7月23日提交的美国专利申请(YOR9-2002-0163)包括对搜索管理引擎的说明。
访问管理器416是到搜索引擎的直接接口。它负责以适当的格式向搜索引擎提交搜索查询,并且收集要由其他组件处理和返回的搜索结果。这可以通过利用面向内部组件的一般适配器接口以及面向不同的搜索引擎的可插入适配器来实现。2002年7月31日提交的序号为10/209,619的美国专利申请和2002年6月3日提交的序号为10/759,373的美国专利申请包括访问管理器的说明。
布局管理器418负责建立和定制文件内容和搜索结果的布局。从内容储存库模块406来检索内容。在2002年6月3日提交的序号为10/759,373的美国专利申请包括布局管理器的说明。
接口管理器420负责处理用户的GUI和与后端模块接口。对内核的输入和输出422、424、426、428、430和432分别是与内核300接口的翻译级310的饿输出和输入。
现在参见图5,通过连续提取、存储和索引数据的后端处理来从在内联网和因特网上的来源提取文件和其他数据。文件提取管理器402从数据源出来经过翻译程序308和310到达每个来源,以便提供向信息源提供兼容的请求(步骤500和502)。它从来源提取数据,在翻译程序308和310中将其转换为XML形式,并且将数据放到内容储存库406中(步骤504、506和510)。索引管理器412产生对于所提取的文件的索引数据,并将其与数据一起放置到内容储存库中(步骤512)。文件的所有所支持的国家语言NL被提取和存储在储存库中,并且可以利用倒排索引410来访问。
现在参见图6和14,在接收到以HTTP语言的查询的时候(步骤600),翻译程序308和310将查询翻译为内核XML形式(步骤602)。接口管理器形成用于访问内容储存库406的查询(步骤604),并且将所述查询提供到搜索管理引擎414(步骤606和608),搜索管理引擎414获得定制和配置数据并且将其加到查询的数据。定制数据个性化为用户定制查询,而配置数据识别提供数据的特定因特网或内联网服务器。访问管理器416产生信息的点击列表(步骤610),并且将其提供到接口管理器420,接口管理器420将其改变为用户的GUI,用户的GUI将其发送到翻译程序308和310以将其转换为用户接口的语言(步骤612)。
现在参见图7,当用户查看点击列表和利用HTTP文件查看查询拉请求数据的时候(步骤70),数据被转换为XML查询(步骤702)并且被提供到用于查询收集的接口管理器302(步骤704)。来自接口管理器的信息被提供到布局管理器418,布局管理器418从内容储存库314的内容产生文件(步骤706和708),并且将文件通过接口管理器420和翻译程序308和310发送到用户,以便将XML文件转换为HTTP形式(步骤710和712),并且将它们提供给用户显示器(步骤714)。
图15示出了在搜索系统的各种组件期间的事件的序列。
上面,我们已经说明了本发明的一个实施例,这个实施例的修改形式对本领域的技术人员是显然的。例如如所指出的那样,可以通过向翻译程序加上另一个层来容易地接纳不同的语言。而且。当XML已经被用做语言的内核的时候,诸如GML、HTML的其他语言可以被用来取代XML。另外,翻译程序被描述为在XML和HTTP、HTML之间的翻译,并且可以使用其他连接器。为此,应当明白,本发明不限于所述的实施例,而是包括落入所附的权利要求所限定的精神和范围内的所有改变。

Claims (11)

1.一种搜索引擎管理系统,用于搜索以多种自然语言表达的文件,所述系统包括:
格式翻译部件,接收以两种或多种自然语言表达的一个或更多的输入,所述输入具有输入格式和输入数据,所述格式翻译部件以其自然语言保留所述数据,使用输入适配器将输入格式转换为包括通用字符集的单一内核格式,所述格式翻译部件还具有一个或多个输出适配器;
内核部件,使用内核格式以一个或多个内核元素来操作输入数据,以便产生内核结果,其中内核结果通过格式翻译部件被发送到一个或多个网络输出端,其中输出适配器将内核结果转换为以一种或多种自然语言表达的输出格式。
2.按照权利要求1的系统,其中内核格式包括下列格式中的任何一个或多个:在统一代码字符集中的XML、GML和HTML。
3.按照权利要求1的系统,包括:
在内核中的关键词的列表,对于在内核的数据库中的多个文件中的每个文件,它包括以至少第一和第二自然语言表达的同义关键词;
在内核中的倒排索引,用于数据库的所述多个文件,包括在列表中的同义关键词;
在内核中的搜索引擎,响应于第一和第二自然语言表达的关键词,所述搜索引擎使用倒排索引来获得一组结果,其中包括与以第一或输入语言表达的输入关键词搜索术语对应的文件,并且包括以第二语言表达的文件。
4.按照权利要求3的系统,其中所述列表是双向列表,用于将搜索术语从第一种语言转换为第二种语言和从第二种语言转换为第一种语言。
5.按照权利要求4的系统,其中搜索术语的转换使用用于管理多种语言的统一代码系统。
6.一种用于搜索引擎管理系统的方法,所述搜索引擎管理系统用于搜索以多种自然语言表达的文件,包括格式翻译部件和内核部件,该方法包括:
所述格式翻译部件接收以两种或多种自然语言表达的一个或更多的输入,所述输入具有输入格式和输入数据,所述格式翻译部件以其自然语言保留所述数据,使用输入适配器将输入格式转换为包括通用字符集的单一内核格式,所述格式翻译部件还具有一个或多个输出适配器;
所述内核部件使用内核格式以一个或多个内核元素来操作输入数据,以便产生内核结果,其中内核结果通过格式翻译部件被发送到一个或多个网络输出端,其中输出适配器将内核结果转换为以所选择的自然语言的输出格式。
7.按照权利要求6的方法,其中内核格式包括下列格式中的任何一个或多个:在统一代码字符集中的XML、GML和HTML。
8.按照权利要求6的方法,其中内核元素包括内容储存库和下面的任何一个或多个:
内容提取管理器;可搜索内容管理器;访问管理器;索引管理器;接口管理器;布局管理器;搜索管理引擎。
9.按照权利要求6的方法,其中所述搜索引擎管理系统进一步包括在内核中的:
关键词列表,对于在内核的数据库中的多个文件中的每个文件,它包括以至少第一和第二自然语言表达的同义关键词;
倒排索引,用于数据库的所述多个文件,包括在列表中的同义关键词;
搜索引擎,
该方法进一步包括,响应于第一和第二自然语言表达的关键词,所述搜索引擎使用倒排索引来获得一组结果,其中包括与以第一或输入语言表达的输入关键词搜索术语对应的文件,并且包括以第二语言表达的文件。
10.按照权利要求9的方法,其中所述列表是双向列表,用于将搜索术语从第一种语言转换为第二种语言和从第二种语言转换为第一种语言。
11.按照权利要求10的方法,其中搜索术语的转换使用用于管理多种语言的统一代码系统。
CNB031275427A 2002-11-22 2003-08-06 搜索引擎管理系统和方法 Expired - Fee Related CN1310175C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/302,108 2002-11-22
US10/302,108 US7039625B2 (en) 2002-11-22 2002-11-22 International information search and delivery system providing search results personalized to a particular natural language

Publications (2)

Publication Number Publication Date
CN1503163A CN1503163A (zh) 2004-06-09
CN1310175C true CN1310175C (zh) 2007-04-11

Family

ID=32324682

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB031275427A Expired - Fee Related CN1310175C (zh) 2002-11-22 2003-08-06 搜索引擎管理系统和方法

Country Status (2)

Country Link
US (1) US7039625B2 (zh)
CN (1) CN1310175C (zh)

Families Citing this family (87)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3621643B2 (ja) * 2000-05-30 2005-02-16 株式会社 ネットピア.コム 実名を利用した地域情報提供システム及びその方法
US7249018B2 (en) * 2001-01-12 2007-07-24 International Business Machines Corporation System and method for relating syntax and semantics for a conversational speech application
US7464072B1 (en) 2001-06-18 2008-12-09 Siebel Systems, Inc. Method, apparatus, and system for searching based on search visibility rules
US6952691B2 (en) 2002-02-01 2005-10-04 International Business Machines Corporation Method and system for searching a multi-lingual database
TWI289261B (en) * 2002-09-11 2007-11-01 Hon Hai Prec Ind Co Ltd System and method for dynamically generating a HTTP query
US7233938B2 (en) * 2002-12-27 2007-06-19 Dictaphone Corporation Systems and methods for coding information
US20040267566A1 (en) * 2003-01-10 2004-12-30 Badgett Robert Gwathmey Computer-based clinical knowledge system
JP4267336B2 (ja) * 2003-01-30 2009-05-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 構造パターン候補を生成する方法、システムおよびプログラム
US7958443B2 (en) 2003-02-28 2011-06-07 Dictaphone Corporation System and method for structuring speech recognized text into a pre-selected document format
US8290958B2 (en) 2003-05-30 2012-10-16 Dictaphone Corporation Method, system, and apparatus for data reuse
US20040243545A1 (en) * 2003-05-29 2004-12-02 Dictaphone Corporation Systems and methods utilizing natural language medical records
US7854009B2 (en) 2003-06-12 2010-12-14 International Business Machines Corporation Method of securing access to IP LANs
US7409336B2 (en) * 2003-06-19 2008-08-05 Siebel Systems, Inc. Method and system for searching data based on identified subset of categories and relevance-scored text representation-category combinations
US8014997B2 (en) * 2003-09-20 2011-09-06 International Business Machines Corporation Method of search content enhancement
US7860717B2 (en) * 2003-09-25 2010-12-28 Dictaphone Corporation System and method for customizing speech recognition input and output
US20050120300A1 (en) * 2003-09-25 2005-06-02 Dictaphone Corporation Method, system, and apparatus for assembly, transport and display of clinical data
US7542909B2 (en) * 2003-09-30 2009-06-02 Dictaphone Corporation Method, system, and apparatus for repairing audio recordings
US8024176B2 (en) * 2003-09-30 2011-09-20 Dictaphone Corporation System, method and apparatus for prediction using minimal affix patterns
US7818308B2 (en) * 2003-10-01 2010-10-19 Nuance Communications, Inc. System and method for document section segmentation
US7996223B2 (en) * 2003-10-01 2011-08-09 Dictaphone Corporation System and method for post processing speech recognition output
US20050144184A1 (en) * 2003-10-01 2005-06-30 Dictaphone Corporation System and method for document section segmentation
US7774196B2 (en) * 2003-10-01 2010-08-10 Dictaphone Corporation System and method for modifying a language model and post-processor information
WO2005050474A2 (en) 2003-11-21 2005-06-02 Philips Intellectual Property & Standards Gmbh Text segmentation and label assignment with user interaction by means of topic specific language models and topic-specific label statistics
US7315811B2 (en) * 2003-12-31 2008-01-01 Dictaphone Corporation System and method for accented modification of a language model
US7716211B2 (en) * 2004-02-10 2010-05-11 Microsoft Corporation System and method for facilitating full text searching utilizing inverted keyword indices
CA2498728A1 (en) * 2004-02-27 2005-08-27 Dictaphone Corporation A system and method for normalization of a string of words
US7783474B2 (en) * 2004-02-27 2010-08-24 Nuance Communications, Inc. System and method for generating a phrase pronunciation
US7379946B2 (en) * 2004-03-31 2008-05-27 Dictaphone Corporation Categorization of information using natural language processing and predefined templates
US7257577B2 (en) * 2004-05-07 2007-08-14 International Business Machines Corporation System, method and service for ranking search results using a modular scoring system
US7376648B2 (en) * 2004-10-20 2008-05-20 Oracle International Corporation Computer-implemented methods and systems for entering and searching for non-Roman-alphabet characters and related search systems
KR100654447B1 (ko) * 2004-12-15 2006-12-06 삼성전자주식회사 지역별로 존재하는 컨텐츠를 글로벌로 공유하고 거래하는방법 및 시스템
US20060149553A1 (en) * 2005-01-05 2006-07-06 At&T Corp. System and method for using a library to interactively design natural language spoken dialog systems
US8478589B2 (en) 2005-01-05 2013-07-02 At&T Intellectual Property Ii, L.P. Library of existing spoken dialog data for use in generating new natural language spoken dialog systems
US8185399B2 (en) 2005-01-05 2012-05-22 At&T Intellectual Property Ii, L.P. System and method of providing an automated data-collection in spoken dialog systems
US20060212265A1 (en) * 2005-03-17 2006-09-21 International Business Machines Corporation Method and system for assessing quality of search engines
JP4325577B2 (ja) * 2005-03-25 2009-09-02 富士ゼロックス株式会社 翻訳装置およびプログラム
US7640255B2 (en) 2005-05-31 2009-12-29 Sap, Ag Method for utilizing a multi-layered data model to generate audience specific documents
US7657511B2 (en) * 2005-05-31 2010-02-02 Sap, Ag Multi-layered data model for generating audience-specific documents
US8069411B2 (en) * 2005-07-05 2011-11-29 Dictaphone Corporation System and method for auto-reuse of document text
US8065286B2 (en) * 2006-01-23 2011-11-22 Chacha Search, Inc. Scalable search system using human searchers
US8117196B2 (en) 2006-01-23 2012-02-14 Chacha Search, Inc. Search tool providing optional use of human search guides
US20070174258A1 (en) * 2006-01-23 2007-07-26 Jones Scott A Targeted mobile device advertisements
US20070271231A1 (en) * 2006-05-22 2007-11-22 Jimmy Jong-Yuan Lin Search method on the Internet
US7860815B1 (en) * 2006-07-12 2010-12-28 Venkateswara Prasad Tangirala Computer knowledge representation format, system, methods, and applications
US8645816B1 (en) * 2006-08-08 2014-02-04 Emc Corporation Customizing user documentation
US8346555B2 (en) * 2006-08-22 2013-01-01 Nuance Communications, Inc. Automatic grammar tuning using statistical language model generation
US8223936B2 (en) * 2006-10-09 2012-07-17 Thirunarayanan Srinivasan Method and system for providing pay-per-call services
US20080195482A1 (en) * 2006-10-11 2008-08-14 Enterpret Communications, Inc. Method and system for providing remote translations
JP4856196B2 (ja) * 2007-01-30 2012-01-18 富士通株式会社 設定チェック用情報収集方法,設定チェック用情報収集装置および設定チェック用情報収集プログラム
WO2008103682A1 (en) * 2007-02-19 2008-08-28 Viewzi Inc. Multi-view internet search mashup
US7958106B2 (en) * 2007-03-14 2011-06-07 Tacoda Llc System and method for determining client metadata using a dynamic rules engine
US8161040B2 (en) * 2007-04-30 2012-04-17 Piffany, Inc. Criteria-specific authority ranking
US8874545B2 (en) * 2007-10-19 2014-10-28 Oracle International Corporation Data source-independent search system architecture
US20090299853A1 (en) * 2008-05-27 2009-12-03 Chacha Search, Inc. Method and system of improving selection of search results
CN102110123B (zh) * 2009-12-29 2014-02-05 中国人民解放军国防科学技术大学 倒排索引建立方法
US10156954B2 (en) * 2010-01-29 2018-12-18 Oracle International Corporation Collapsible search results
US9009135B2 (en) * 2010-01-29 2015-04-14 Oracle International Corporation Method and apparatus for satisfying a search request using multiple search engines
US20110191333A1 (en) * 2010-01-29 2011-08-04 Oracle International Corporation Subsequent Search Results
US8271435B2 (en) * 2010-01-29 2012-09-18 Oracle International Corporation Predictive categorization
CN101840438B (zh) * 2010-05-25 2012-03-28 刘宏 面向源文献元关键词的检索系统
US8498972B2 (en) * 2010-12-16 2013-07-30 Sap Ag String and sub-string searching using inverted indexes
US8527518B2 (en) * 2010-12-16 2013-09-03 Sap Ag Inverted indexes with multiple language support
US9916420B2 (en) 2011-02-18 2018-03-13 Nuance Communications, Inc. Physician and clinical documentation specialist workflow integration
US8788289B2 (en) 2011-02-18 2014-07-22 Nuance Communications, Inc. Methods and apparatus for linking extracted clinical facts to text
US8768723B2 (en) 2011-02-18 2014-07-01 Nuance Communications, Inc. Methods and apparatus for formatting text for clinical fact extraction
US9679107B2 (en) 2011-02-18 2017-06-13 Nuance Communications, Inc. Physician and clinical documentation specialist workflow integration
US8694335B2 (en) 2011-02-18 2014-04-08 Nuance Communications, Inc. Methods and apparatus for applying user corrections to medical fact extraction
US10032127B2 (en) 2011-02-18 2018-07-24 Nuance Communications, Inc. Methods and apparatus for determining a clinician's intent to order an item
US8738403B2 (en) 2011-02-18 2014-05-27 Nuance Communications, Inc. Methods and apparatus for updating text in clinical documentation
US8799021B2 (en) 2011-02-18 2014-08-05 Nuance Communications, Inc. Methods and apparatus for analyzing specificity in clinical documentation
US10460288B2 (en) 2011-02-18 2019-10-29 Nuance Communications, Inc. Methods and apparatus for identifying unspecified diagnoses in clinical documentation
US9904768B2 (en) 2011-02-18 2018-02-27 Nuance Communications, Inc. Methods and apparatus for presenting alternative hypotheses for medical facts
CN102136011A (zh) * 2011-05-09 2011-07-27 南开大学 倒排索引求交方法
US20130013616A1 (en) * 2011-07-08 2013-01-10 Jochen Lothar Leidner Systems and Methods for Natural Language Searching of Structured Data
CN103294682A (zh) * 2012-02-24 2013-09-11 摩根全球购物有限公司 多语言检索方法、计算机可读储存媒体及网络搜寻系统
CN104657460B (zh) * 2015-02-10 2018-02-09 北京航空航天大学 一种基于大规模文件系统负载特征关键字的文件搜索方法
US10452693B2 (en) * 2017-04-07 2019-10-22 Sap Se Reordering of enriched inverted indices
US10747817B2 (en) 2017-09-29 2020-08-18 Rovi Guides, Inc. Recommending language models for search queries based on user profile
US10769210B2 (en) * 2017-09-29 2020-09-08 Rovi Guides, Inc. Recommending results in multiple languages for search queries based on user profile
CN108491521B (zh) * 2018-03-27 2021-07-30 国网河北省电力有限公司电力科学研究院 知识库语言转化方法及装置
CN111161706A (zh) * 2018-10-22 2020-05-15 阿里巴巴集团控股有限公司 交互方法、装置、设备和系统
US11507966B2 (en) * 2019-02-07 2022-11-22 Dell Products L.P. Multi-region document revision model with correction factor
JP6651189B1 (ja) 2019-03-29 2020-02-19 株式会社 情報システムエンジニアリング 機械学習用のデータ構造、学習方法及び情報提供システム
JP6607590B1 (ja) 2019-03-29 2019-11-20 株式会社 情報システムエンジニアリング 情報提供システム及び情報提供方法
JP6607589B1 (ja) 2019-03-29 2019-11-20 株式会社 情報システムエンジニアリング 情報提供システム及び情報提供方法
CN110471659B (zh) * 2019-08-16 2023-07-21 珠海格力电器股份有限公司 多语言实现方法和系统、人机界面组态软件端和设备端
CN112380876A (zh) * 2020-12-04 2021-02-19 北京有竹居网络技术有限公司 基于多语言机器翻译模型的翻译方法、装置、设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06195383A (ja) * 1992-09-25 1994-07-15 Nec Corp 知識ベース構築方式
JPH10207902A (ja) * 1997-01-24 1998-08-07 Toshiba Corp 情報サービスシステムおよび情報検索方法
WO1999034307A1 (en) * 1997-12-29 1999-07-08 Infodream Corporation Extraction server for unstructured documents
CN1302412A (zh) * 1997-07-22 2001-07-04 微软公司 应用搜索结果的自然语言处理以改进整体精度的信息检索系统的设备和方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5937168A (en) * 1997-05-30 1999-08-10 Bellsouth Corporation Routing information within an adaptive routing architecture of an information retrieval system
US6275810B1 (en) * 1998-09-10 2001-08-14 International Business Machines Corporation Method for scheduling holidays in distributed computer enterprise locales
US6262725B1 (en) * 1998-09-10 2001-07-17 International Business Machines Corporation Method for displaying holidays in a locale-sensitive manner across distributed computer enterprise locales
US6141005A (en) * 1998-09-10 2000-10-31 International Business Machines Corporation Combined display of locale-sensitive calendars in a distributed computer enterprise environment
US6111572A (en) * 1998-09-10 2000-08-29 International Business Machines Corporation Runtime locale-sensitive switching of calendars in a distributed computer enterprise environment
US6952691B2 (en) * 2002-02-01 2005-10-04 International Business Machines Corporation Method and system for searching a multi-lingual database
US7260570B2 (en) * 2002-02-01 2007-08-21 International Business Machines Corporation Retrieving matching documents by queries in any national language
US7092938B2 (en) * 2002-08-28 2006-08-15 International Business Machines Corporation Universal search management over one or more networks

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06195383A (ja) * 1992-09-25 1994-07-15 Nec Corp 知識ベース構築方式
JPH10207902A (ja) * 1997-01-24 1998-08-07 Toshiba Corp 情報サービスシステムおよび情報検索方法
CN1302412A (zh) * 1997-07-22 2001-07-04 微软公司 应用搜索结果的自然语言处理以改进整体精度的信息检索系统的设备和方法
WO1999034307A1 (en) * 1997-12-29 1999-07-08 Infodream Corporation Extraction server for unstructured documents

Also Published As

Publication number Publication date
US20040103075A1 (en) 2004-05-27
CN1503163A (zh) 2004-06-09
US7039625B2 (en) 2006-05-02

Similar Documents

Publication Publication Date Title
CN1310175C (zh) 搜索引擎管理系统和方法
CN1278263C (zh) 在一个或多个网络上进行通用搜索管理的系统
US6493721B1 (en) Techniques for performing incremental data updates
US6393415B1 (en) Adaptive partitioning techniques in performing query requests and request routing
US6496843B1 (en) Generic object for rapid integration of data changes
US6374241B1 (en) Data merging techniques
US6826559B1 (en) Hybrid category mapping for on-line query tool
US6421683B1 (en) Method and product for performing data transfer in a computer system
US6408294B1 (en) Common term optimization
US6484161B1 (en) Method and system for performing online data queries in a distributed computer system
KR101579551B1 (ko) 자동적 확장 언어 검색
US7865495B1 (en) Word deletion for searches
CN100375090C (zh) 通过任意国家语言的查询来检索匹配的文档的方法和系统
CN1408093A (zh) 一种能够运行在不同格式的厂商站点上的电子购物代理
CN101685444B (zh) 用于实现元数据搜索的系统和方法
US20050065774A1 (en) Method of self enhancement of search results through analysis of system logs
US8126865B1 (en) Systems and methods for syndicating and hosting customized news content
US7024405B2 (en) Method and apparatus for improved internet searching
CN100501745C (zh) 电子文本处理与检索的便捷方法和系统
AU2011204800B2 (en) Rule-based system and method to associate attributes to text strings
US7783643B2 (en) Direct navigation for information retrieval
CN1360267A (zh) 文件分类查找方法
US7836108B1 (en) Clustering by previous representative
KR100672278B1 (ko) 웹 브라우저의 즐겨찾기 리스트를 이용한 개인화 검색 방법및 검색 서버
KR20010105983A (ko) 인터넷 서비스 제공방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: IBM (CHINA) CO., LTD.

Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINES CORP.

Effective date: 20101101

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: NEW YORK STATE, UNITED STATES TO: 201203 7/F, BUILDING 10, ZHANGJIANG INNOVATION PARK, NO.399, KEYUAN ROAD, HIGH-TECH PARK, ZHANGJIANG, PUDONG NEW DISTRICT, SHANGHAI

TR01 Transfer of patent right

Effective date of registration: 20101101

Address after: 201203 Shanghai city Pudong New Area Keyuan Road No. 399 Zhang Jiang Zhang Jiang high tech Park Innovation Park 10 Building 7 layer

Patentee after: International Business Machines (China) Co., Ltd.

Address before: American New York

Patentee before: International Business Machines Corp.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20070411

Termination date: 20170806