CN100375090C - 通过任意国家语言的查询来检索匹配的文档的方法和系统 - Google Patents

通过任意国家语言的查询来检索匹配的文档的方法和系统 Download PDF

Info

Publication number
CN100375090C
CN100375090C CNB038024179A CN03802417A CN100375090C CN 100375090 C CN100375090 C CN 100375090C CN B038024179 A CNB038024179 A CN B038024179A CN 03802417 A CN03802417 A CN 03802417A CN 100375090 C CN100375090 C CN 100375090C
Authority
CN
China
Prior art keywords
language
keyword
document
search
inverted index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CNB038024179A
Other languages
English (en)
Other versions
CN1620661A (zh
Inventor
G·T·布朗
Y·N·多加纳塔
Y·德里西
T-H·芬
金文柱
L·科扎科夫
J·利昂-罗德里格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US10/066,346 external-priority patent/US6952691B2/en
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1620661A publication Critical patent/CN1620661A/zh
Application granted granted Critical
Publication of CN100375090C publication Critical patent/CN100375090C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3337Translation of the query language, e.g. Chinese to English
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

使用包括双向倒排索引工具的搜索引擎减少了搜索时间,可以使用多种语言中的一种语言的关键词访问该工具,并提供包含所有这些语言的文档列表。所有支持语言的关键词最好储存在倒排索引查找表中,该表交叉引用了包含该关键词的这些语言的文档。当查询一种语言的关键词时,可以一起访问具有相同含义的不同语言的该关键词。包含该表的搜索引擎可以识别选定语言、第二语言或者所有支持语言的相关文档,这可以由用户决定。关于每个文档的信息还包括用于对该文档进行排序的信息,诸如关键词频率和诸关键词相似性。

Description

通过任意国家语言的查询来检索匹配的文档的方法和系统
相关申请
本申请是提交于2002年2月1日,序列号为10/066,346(CHA920010230US1)标题为“Method and System for Searching aMulti-lingual Database”(用于搜索多语言数据库的方法和系统)的美国专利申请的继续申请。
技术领域
本发明涉及使用用户输入的搜索关键词项搜索数据库的领域。更具体地,本发明涉及用于搜索包含不同语言文档的数据库的系统和方法,其中使用一种数据库语言输入搜索项,并且识别出适用的不同语言的数据库文档。
背景技术
现已提出了各种方法用于搜索包括多种语言内容的数据库。一种方法是将整个数据库转换成输入搜索项的语言或用户的语言。然而,对于很大的数据库,这涉及大量的转换(并且如果该数据库被不同语言的用户所使用,则涉及多种转换)。此外,每次转换文档的过程都可能丢失(或歪曲)原始文本的某些含义。另一种方法是使用上述共同未决申请中描述的同义词或关键词字典。该共同未决申请的系统包括双向同义词或关键词字典,其允许在第一语言和其它语言之间转换关键词。文档的转换后的关键词被存储在倒排索引中,该倒排索引然后用于或者以选定的语言、第二语言或者以所有语言进行搜索,这可以由用户决定。多种搜索和转换后的同义词字典的使用避免了需要转换整个文档,并且避免了由于转换整个数据库造成的上述偏差。然而,执行和分析此类搜索可能要花费很长时间,这妨碍了用户交互地修改搜索以便获得有意义的结果。
在欧洲专利申请EP 0 964 344 A2中披露了一种形成并使用搜索工具搜索文档并列出文档的方法。检索到的文档包括具有与搜索的关键词同等含义的关键词,其中文档的语言不同于搜索的关键词的语言。创建一个索引,其中包括所述的关键词以及以所有文档的所支持的语言中的另一种语言表示的该关键词的转换。关键词和其转换被指派给出现有所述关键词的文档。当希望从文档集合中检索信息时,可以通过信息检索系统将以文档语言表示的或是以所支持的任意其它语言表示的查询应用于所述的索引上。信息检索系统将这些查询应用于所述索引,并且如果发现与索引特征相匹配,则返回相关的文档号,从而识别出可能包括感兴趣的内容的文档或多个文档。对于搜索全部由相同语言书写的文档来说,这是一种容易且快速的方法。不利地,披露于EP 0 964 344 A2的搜索工具不对诸文档的语言进行区分。因此,对于以多于一种语言编写的文档的数据库来说,这种搜索工具仅是很弱地适用。
以披露于PETERS C ET AL:“Multilingual access for informationsystems”INTERNET(在线)16-25August 2001,第1-8页,XP00225502367th IFLA Council和从因特网上:URL:http://citeseer.nj.nec.com/peters01.multiligual.html(2003年9月19日检索到的)的综合会议中的方法将检索到的文档按照相关性排序。
然而,所述的方法没有消除上面所述EP 0 964 344 A2的方法的不利的一面。
发明内容
根据本发明,通过使用搜索引擎减少了搜索时间,所述搜索引擎包括双向倒排索引工具,该工具可以由多种语言中一种语言的关键词搜索来访问,并且该工具提供了所包含的所有这些语言的文档的列表。所有所支持的语言的关键词最好储存在倒排索引查找表内,该查找表交叉引用了包含所述关键词的那些语言的文档。当查询一种语言的关键词时,可以一起访问具有相同含义的不同语言的该关键词。包含该表的搜索引擎可以或者以选定的语言、第二语言或者以所有语言识别相关文档,这可以由用户决定。每个文档的信息不仅包括该文档的标识,而且还包括用于将文档排序的信息,例如关键词在该文档中出现的次数以及关键词与其它关键词的近似程度。通过消除对转换关键词、在文档中标识关键词以及在搜索运行时收集排序信息的需要,倒排索引表的使用由此减少了搜索时间,并且避免了文档的全文转换可能产生的偏差。
因此,本发明的一个目的是提供一种改进的用于多语言文档的搜索引擎。
本发明的另一目的是减少转换关键词和查找包含这些关键词的文档的运行时间。
本发明的再一目的是允许以任何支持语言的关键词来搜索数据库以查找以该种或任何其它所支持的语言编写的文档。
附图说明
以上已经说明了本发明的一些目的和优点,通过结合附图阅读以下对本发明的说明,本发明的其它目的和优点对于本领域的技术人员来说将是显而易见的,其中:
图1是其中存在两种不同语言文档的传统搜索技术的示意图;
图2是本发明改进的多语言文档数据库索引系统以及倒排索引表的示意图;
图3是将一种语言的关键词与它们在其它语言中的对应部分关联并标识包含所查询关键词的所有这些语言的文档的本发明索引表的示意图;
图4是同义词表的一部分的示意图;
图5是本发明的多语言数据库搜索系统的示意图;
图6是可用于向引入本发明的搜索系统输入搜索查询的计算机显示屏的一部分的示意图;以及
图7是示出了执行示例逻辑以实施本发明的流程图。
具体实施方式
图1示出了传统的搜索系统,其中英语(第一语言)文档以标号102表示,第二语言例如国家语言(NL)的文档以标号122表示。虽然分别维护每组文档,但都是通过提取关键词并创建索引的过程为每组文档建立索引,其由用于英语文档102的方块104和用于第二语言文档122的方块124表示。下一步是对每组文档执行倒排索引,英语的倒排索引用方块106表示,第二语言的倒排索引用方块126表示。然后,格式化搜索或查询并将其应用到一个选定数据库,方块108表示英语查询,方块128表示国家语言查询。英语查询的结果用方块110表示,国家语言的查询结果用方块130表示。因此,对每个数据库分别执行诸处理步骤,所述步骤包括在方块112索引文档、在方块114创建倒排索引和在方块116执行搜索并提供输出。
所述诸步骤都是相同的,与数据库无关,每个数据库保持独立并单独搜索每个数据库,每个数据库生成独立的结果。由于同样的结构可以应用于任意数目的独立数据库,该系统可以扩展以支持所需数目的语言。然而,某些技术文档是用本国语言(例如西班牙语)编写的,但使用了来自另一语言的技术术语(例如,来自英语)。在这样的系统中,如果搜索项是以另一语言被包括在文档中,搜索国家语言数据库以寻找该搜索项的国家语言等同项将不会查找到该搜索项。同样在这样的系统中,搜索国家语言可能不会发现以多种不同语言处理搜索主题的文档。
图2示出了一种用于将不同语言文档中的关键词合并为图3所示的单一的扩充的关键词索引表的系统。如图2所示,数据库200中任意语言(比如,英语)的文档由标号202表示。通过使用爬行器(crawler)离线识别来自数据库中每个文档的关键词,爬行器204为提取器206扫描文档,提取器206识别文档文本中的关键词。然后使用关键词转换器208将提取出的英语关键词转换为其它支持的语言,以便创建所有支持语言的具有相同含义的关键词的扩充的倒排索引210。最好使用关键词字典212完成关键词的转换,以便为图3的索引形成同义词列表,所述关键词字典212包含与在其它国家语言中具有相应含义的关键词关联的英语关键词,所述同义词列表有效地在每种所支持的语言的关键词中列出了每个关键词,以及其在其它支持的语言中的相应含义。为了管理各种语言,建议使用统一字符编码(Unicode)系统(UTF8)转换每个关键词,虽然也可以使用任何其它准确而可靠的系统以有助于本发明。尽管对以英语作为一种用于针对关键词来查询文档的语言进行了说明,但是本发明并不限于以英语针对关键词来查询文档。任何所支持的语言En、NL1、...NLi...NLn都可以用于在文档中查找使用英语没有查找到的关键词。
图3示出了图2中的扩充的索引表210的更详细的视图。使用结合图2说明的方法从文档D1到Dn中提取英语关键词K1到Kn。如上所述得到所有支持的国家语言的相应关键词,以便对于每个英语关键词Ki,每种支持的语言都存在同义关键词。如图3所示,X表示其中出现一个或多个所列出关键词的文档D1到Dn。因此,如图所示,关键词K1以英语出现在文档D1和Dj中,具有相同含义的关键词K11和K12以国家语言NL1和NL2出现在这些文档中。类似地,同义关键词Ki1和Ki2出现在文档D2中,其可以用国家语言NL1和NL2得到,但是不能用英语得到。同义关键词Kn和Kn2出现在文档Dj中,其可以用英语和国家语言NL2得到,但是不能以国家语言NL1得到。储存在标记有X的每个位置中的是排序因子信息,例如,单词在该文档中出现的次数,其与出现在该文档中的其它关键词的近似程度;包含该关键词的文档的类型(即,技术文档或广告)等。然后使用该信息相对于搜索所找到的其它文档对每个文档进行排序。
当以支持的任意语言的关键词查询图3中的表时,将识别包含与查询中关键词具有相同含义的关键词的任意语言文档并提供它们的排序信息。例如,假设查询包含关键词Ki和Kn,则文档D2和Dj以及Dn将以其可用的语言被识别出来。因此,对于文档D2,该文档将被识别为英语和国家语言NL1和NL2可用,而文档Dj将为国家语言NL1和NL2可用。随着或是由标题或是由归档号码对文档进行识别,将向文档排序算法提供所储存的排序因子信息,所述文档排序算法诸如2002年4月10日申请的美国共同未决专利No.10/120.071中所示,在此引入作为参考。
图4示出了可用于产生图3中的扩充的倒排索引的关键词同义词表400的一部分。该表包括多个列,每列与支持的不同语言关联。如图所示,这些支持的语言是列410中的英语、列420中的西班牙语、列430中的法语以及列440中的意大利语。还示出了另一列450,其用于任何其它支持的语言诸如德语或日语,当然应当认识到,某些语言具有不同于英语的字符类型,并且某些语言具有如此多的不同符号,以至于可能需要使用双字节字符集来表示这些语言中的某些语言,例如日语。图4的行中示出了两组同义词,一组与行460中的英语单词“network”关联,一组与行470中的英语单词“processor”关联。实际上,同义词表400可以具有期望的由标号490表示的其它列(或如果支持较少的语言,可以有更少的列,选择支持的语言只是设计选择,不是本发明的特征)并且如标号480所示,每个关键词都有一行。重要的是应注意到每一项都与一种语言关联,以便可以将单词与其语言关联并将西班牙语单词网络(red)与英语单词的颜色红色区分开(如果需要)。虽然为了理解同义表的概念以表格的形式示出了该表,但是根据传统的数据处理技术,该表可以在存储装置中以其它已知的格式存在。
图5示出了结合有本发明的搜索系统。支持的任意语言的查询510被输入到搜索引擎520,并被传递给结合图2和图3说明的扩充的关键词倒排索引210。索引210支持多种语言并且允许将关键词查询转换成任意支持的语言。在英语查询的情况下,使用语言关键词5301和其它支持语言的语言关键词5302到530n中的列表将该查询应用于倒排索引210。这产生了英语语言命中列表5401和国家语言命中列表5402到540n。然后用户可以选择其感兴趣的任意语言的结果5401到540n。有可能用户选择一个列表(比如,列表5402),确定其不适合并尝试其它选择。如果用户理解英语的能力有限,他可能愿意以任何其它国家语言5402到540n查看结果。如果国家语言结果(比如,540i)不充分(或不存在),该用户可以继续查看英语结果5401。在另一种情况中,用户可能认识到感兴趣的结果最有可能是英语结果5401,并可以以这些结果开始。在另外一种情况中,用户发现有如此多的英语结果,从而他决定在其国家语言550中再次检查更有选择性的列表。在国家语言结果不够或不可用的情况下,搜索引擎将提供其它语言的文档以增加列于选定列表560中的搜索结果,其中英语是默认的语言,英语文档不可用时以可用的语言提供文档。由排序算法570分析选定列表中的文档以便向用户提供排序的列表580。
如图6所示,用于查询本系统的计算机屏幕包括输入关键词查询600的输入框。搜索区域602用于指明搜索范围。搜索区域604用于指出要搜索的语言。区域606用于指出将提供何种语言的查询项,并且输入框608用于提供将以何种语言提供排序列表。因此,在该图中,“laptop”和“IBM”是要检查的关键词。搜索区域是“任意国家”。然而,如果需要,可以将搜索局限在特定的国家或特定的文档库。例如,可以将搜索区域局限在国会图书馆或美国的任意图书馆。同样也列出将以何种语言执行查询。这将产生图3的表中包含的所有支持语言的查询,从而如结合图3所述的,将从该表中读出相同文档的多个副本。输入框606标识出搜索的单词为英语单词。但是也可以使用任何其它支持的语言。例如,如果德语是支持的语言,搜索项600可以是德语单词,并且查询语言将指出它们是德语。最后,可以用与查询语言不同的语言提供结果,如此处所示的,虽然搜索项是英语,但是只要德语的排序文档可用,将以德语提供该排序的文档。如果任何德语文档都不可用,该列表将包含可用语言的文档,其中英语是默认第一语言。上述输入框600和608的使用允许控制执行搜索的范围和语言以及提交的结果。
现在参考图7,通过用户在步骤702和步骤704输入在图6的输入框600到608中显示的搜索信息来搜索系统。然后使用输入的查询信息和其它信息在步骤706查询的扩充倒排索引表并从表210获得文档列表。然后在步骤710中向搜索者提供其首选语言的排序文档列表并在步骤712中决定结果是否令人满意。如果结果令人满意,则过程结束。然而如果搜索者不满意,则他可以在步骤714通过修改在步骤702和704中提供的数据来扩展或改变搜索范围。
应当理解,本发明特别适合于在数据处理系统中使用,所述数据处理系统诸如带有存储程序的通用计算机,所述存储程序包括包含多条指令的计算机程序装置。通常这些指令是用人们可以阅读的高级语言编写的,并且通常这些指令被转换成机器语言,即所述数据处理系统能够理解的简单指令。在适合的情况下,如果希望,可以直接以机器编程语言编写此类指令,这是一种允许高效地执行,但是更难于编程的系统。本发明不限于任何特定的输入语言。2002年4月10日申请的美国共同未决专利No.10/120,071披露了一种适合于与本发明一起使用的网络。在此将该申请的主题内容引入作为参考。可以在服务器上提供本发明的软件并使用计算机在因特网上对其进行访问,在所述计算机上将出现图6所呈现的显示。
如本文件中所使用的,软件、计算机程序以及计算机程序装置是可替换使用的。在本文中的软件的意思是任何语言的任何表达、代码或符号,或指令集,所述指令集旨在使具有信息处理能力的系统直接或者执行下面的两者之一或者都执行之后实现特定的功能:
a)转换为另一种语言、代码或符号;b)以不同的材料形式再现。
在优选实施例的说明中使用了统一字符编码系统来管理不同的语言,但是如果希望,其它适合表示不同语言的方法也可以用于帮助本发明。
术语(多种)国家语言用来表示一种或多种关联的语言。国家语言可以是系统支持的任意语言,并且对于不同的用户可以包括不同的语言。所以对于墨西哥人或来自西班牙的人,“国家语言”可能表示西班牙语,而对于来自法国或其它讲法语的地区的人,“国家语言”可能表示法语。对于各种常用语言,可以获得适合的同义词表,其被用作定位关键词的系统并将所考虑的文档说明性的关键词与基本相同的常用词汇分离。这种关键词定位系统通常面向技术并识别在所考虑的技术下感兴趣的单词。
当然,在参阅了上面对优选实施例进行的说明以及附图和所附权利要求后,对于相关领域的技术人员来说本发明的许多改型都是显而易见的。例如,在某些情况下,可以使用支持语言的组合编写文档。此外,可以使用本发明的某些元素获得益处而不必相应使用其它元素。例如,使用同义词或关键词字典并不是完成将关键词转换为其它语言的唯一方法。此外,取决于环境情况,各种其它装置也可以被替代以便获得益处。因此,上述对优选实施例的说明应被认为只是本发明原理的示例,并非对其进行限制。

Claims (11)

1.一种搜索包括文档的数据库的方法,包括:
创建识别每个文档的关键词搜索项的搜索工具,即使用所支持的任意语言的关键词搜索项标识搜索文档形成一具有双索引的倒排索引表;其中所述关键词搜索项和与其具有相同含义、支持其它语言的关键词相关联,所述文档以多于一种语言编写;在该倒排索引表中关键词相对于文档列出并且被列于以多语言表示的同义词块中,并且提供了第一索引号以标识各关键词的语义含义,并且提供了第二索引号以标识关键词的语言;
使用响应搜索语言和其它所支持的语言的关键词搜索项的搜索引擎查询该倒排索引表;
基于该搜索项及其相关联的同义词提供检索到的多种语言文档的列表,并以多种语言输出检索到的文档的列表。
2.如权利要求1的方法,其中创建搜索工具的步骤包括如下的步骤:
使用提取器从每个文档中提取关键词;
通过使用关键词字典将关键词转换为所支持的语言;
以各种所支持的语言为每个文档创建关键词列表;以及
使用以每种所支持的语言表示的关键词创建包含所述关键词的文档的所述倒排索引表。
3.如权利要求2的方法,其中使用关键词创建所述倒排索引表的步骤包括使用统一字符编码系统管理所支持的语言的步骤。
4.如权利要求1的方法,其中该方法还包括基于所述搜索工具中的排序信息提供文档的有序列表的步骤。
5.如权利要求4的方法,其中所述的排序信息包括在所述倒排索引表中。
6.如权利要求1的方法,其中在使用响应搜索语言和其它所支持的语言的关键词搜索项的搜索引擎查询该倒排索引表的步骤之前还包括产生包括标识以何种语言给出关键词搜索项的查询的步骤。
7.如权利要求1的方法,包括将搜索结果转换成另一种语言的步骤。
8.如权利要求1的方法,其中基于该搜索项和与其相关联的同义词提供检索到的多种语言文档的列表步骤包括当存在有以搜索者选择的所支持的语言表示的文档时,提供这种语言的文档的列表。
9.一种基于输入搜索项来搜索包括文档的数据库的系统,该系统包括:
用于创建搜索工具的装置,所述的搜索工具识别每个文档的关键词搜索项,并使用所支持的任意语言的关键词搜索项标识搜索文档形成一具有双索引的倒排索引表;其中所述的关键词搜索项与和其具有相同含义、支持其它语言的关键词相关联,所述文档以多于一种语言编写;在该倒排索引表中关键词相对于文档列出并且被列于以多语言表示的同义词块中,并且提供了第一索引号以标识各关键词的语义含义,并且提供了第二索引号以标识关键词的语言;
搜索引擎装置,其响应搜索语言和其它所支持的语言的关键词搜索项查询该倒排索引表;
用于基于搜索项及其相关联的同义词提供检索到的多种语言文档的列表的装置;
用于以多种语言输出检索到的文档的列表的装置。
10.如权利要求9所述的系统,其中所述的列表是双向列表,其可用于将搜索项从第一语言转换成第二语言,以及将搜索项从第二语言转换成第一语言。
11.如权利要求9所述的系统,其中搜索项的转换使用了统一字符编码系统管理多种语言。
CNB038024179A 2002-02-01 2003-01-24 通过任意国家语言的查询来检索匹配的文档的方法和系统 Expired - Lifetime CN100375090C (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US10/066,346 2002-02-01
US10/066,346 US6952691B2 (en) 2002-02-01 2002-02-01 Method and system for searching a multi-lingual database
US10/180,195 US7260570B2 (en) 2002-02-01 2002-06-26 Retrieving matching documents by queries in any national language
US10/180,195 2002-06-26

Publications (2)

Publication Number Publication Date
CN1620661A CN1620661A (zh) 2005-05-25
CN100375090C true CN100375090C (zh) 2008-03-12

Family

ID=27667790

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB038024179A Expired - Lifetime CN100375090C (zh) 2002-02-01 2003-01-24 通过任意国家语言的查询来检索匹配的文档的方法和系统

Country Status (9)

Country Link
US (1) US7260570B2 (zh)
EP (1) EP1485830B1 (zh)
JP (1) JP4634715B2 (zh)
KR (1) KR100572797B1 (zh)
CN (1) CN100375090C (zh)
AT (1) ATE322045T1 (zh)
CA (1) CA2474814A1 (zh)
DE (1) DE60304331T2 (zh)
WO (1) WO2003065248A2 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105404688A (zh) * 2015-12-11 2016-03-16 北京奇虎科技有限公司 搜索方法和搜索设备

Families Citing this family (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6952691B2 (en) * 2002-02-01 2005-10-04 International Business Machines Corporation Method and system for searching a multi-lingual database
US7039625B2 (en) * 2002-11-22 2006-05-02 International Business Machines Corporation International information search and delivery system providing search results personalized to a particular natural language
US7536323B2 (en) * 2003-03-26 2009-05-19 Victor Hsieh Online intelligent multilingual comparison-shop agents for wireless networks
US7483877B2 (en) * 2003-04-11 2009-01-27 International Business Machines Corporation Dynamic comparison of search systems in a controlled environment
JP2004355069A (ja) 2003-05-27 2004-12-16 Sony Corp 情報処理装置および方法、プログラム、並びに記録媒体
US7854009B2 (en) * 2003-06-12 2010-12-14 International Business Machines Corporation Method of securing access to IP LANs
US20050065774A1 (en) * 2003-09-20 2005-03-24 International Business Machines Corporation Method of self enhancement of search results through analysis of system logs
US8014997B2 (en) * 2003-09-20 2011-09-06 International Business Machines Corporation Method of search content enhancement
US20050138007A1 (en) * 2003-12-22 2005-06-23 International Business Machines Corporation Document enhancement method
US7716211B2 (en) * 2004-02-10 2010-05-11 Microsoft Corporation System and method for facilitating full text searching utilizing inverted keyword indices
DE202004005008U1 (de) * 2004-03-30 2004-06-24 E.I. Du Pont De Nemours And Company, Wilmington Textiles Flächengebilde für Schutzbekleidung
US7594277B2 (en) * 2004-06-30 2009-09-22 Microsoft Corporation Method and system for detecting when an outgoing communication contains certain content
US8473475B2 (en) 2004-09-15 2013-06-25 Samsung Electronics Co., Ltd. Information storage medium for storing metadata supporting multiple languages, and systems and methods of processing metadata
US20080077570A1 (en) * 2004-10-25 2008-03-27 Infovell, Inc. Full Text Query and Search Systems and Method of Use
WO2006047654A2 (en) * 2004-10-25 2006-05-04 Yuanhua Tang Full text query and search systems and methods of use
US20070022134A1 (en) * 2005-07-22 2007-01-25 Microsoft Corporation Cross-language related keyword suggestion
US7672831B2 (en) * 2005-10-24 2010-03-02 Invention Machine Corporation System and method for cross-language knowledge searching
KR100643801B1 (ko) * 2005-10-26 2006-11-10 엔에이치엔(주) 복수의 언어를 연동하는 자동완성 추천어 제공 시스템 및방법
US8380488B1 (en) 2006-04-19 2013-02-19 Google Inc. Identifying a property of a document
US8762358B2 (en) * 2006-04-19 2014-06-24 Google Inc. Query language determination using query terms and interface language
US8255376B2 (en) 2006-04-19 2012-08-28 Google Inc. Augmenting queries with synonyms from synonyms map
US8442965B2 (en) 2006-04-19 2013-05-14 Google Inc. Query language identification
US7835903B2 (en) * 2006-04-19 2010-11-16 Google Inc. Simplifying query terms with transliteration
US20070271231A1 (en) * 2006-05-22 2007-11-22 Jimmy Jong-Yuan Lin Search method on the Internet
CN100416570C (zh) * 2006-09-22 2008-09-03 浙江大学 一种基于问答库的中文自然语言问答方法
WO2008086889A1 (de) * 2007-01-16 2008-07-24 Netbreeze Gmbh Transkriptionsvorrichtung zur automatisierten transkription und transphrasierung sowie entsprechendes verfahren
KR100893629B1 (ko) * 2007-02-12 2009-04-20 주식회사 이지씨앤씨 전자교재 컨텐츠의 구문에 식별코드를 부여하는 시스템 및방법, 전자교재 컨텐츠의 데이터 검색 시스템 및 방법,전자교재 컨텐츠의 사용과 제공에 관한 포인트 관리 시스템및 방법
US8051061B2 (en) 2007-07-20 2011-11-01 Microsoft Corporation Cross-lingual query suggestion
US7917488B2 (en) * 2008-03-03 2011-03-29 Microsoft Corporation Cross-lingual search re-ranking
US8065739B1 (en) * 2008-03-28 2011-11-22 Symantec Corporation Detecting policy violations in information content containing data in a character-based language
US8171041B2 (en) * 2008-05-15 2012-05-01 Enpulz, L.L.C. Support for international search terms
WO2009154570A1 (en) * 2008-06-20 2009-12-23 Agency For Science, Technology And Research System and method for aligning and indexing multilingual documents
US8782061B2 (en) * 2008-06-24 2014-07-15 Microsoft Corporation Scalable lookup-driven entity extraction from indexed document collections
US8135580B1 (en) * 2008-08-20 2012-03-13 Amazon Technologies, Inc. Multi-language relevance-based indexing and search
JP5751537B2 (ja) * 2008-09-17 2015-07-22 有限会社新英プラナーズ 国際対応型日本語入力システム
US20100145923A1 (en) * 2008-12-04 2010-06-10 Microsoft Corporation Relaxed filter set
WO2010105216A2 (en) 2009-03-13 2010-09-16 Invention Machine Corporation System and method for automatic semantic labeling of natural language texts
US8577909B1 (en) * 2009-05-15 2013-11-05 Google Inc. Query translation using bilingual search refinements
US8577910B1 (en) 2009-05-15 2013-11-05 Google Inc. Selecting relevant languages for query translation
US8572109B1 (en) 2009-05-15 2013-10-29 Google Inc. Query translation quality confidence
US8538957B1 (en) 2009-06-03 2013-09-17 Google Inc. Validating translations using visual similarity between visual media search results
CN102053991B (zh) * 2009-10-30 2014-07-02 国际商业机器公司 用于多语言文档检索的方法及系统
WO2011061556A1 (en) * 2009-11-20 2011-05-26 Kim Mo Intelligent search system
US8773706B2 (en) * 2010-03-29 2014-07-08 Konica Minolta Laboratory U.S.A., Inc. Apparatus, systems, and methods for dynamic language customization
CN101944108A (zh) * 2010-09-07 2011-01-12 深圳市彩讯科技有限公司 一种索引文件及索引文件建立方法
US8639701B1 (en) * 2010-11-23 2014-01-28 Google Inc. Language selection for information retrieval
US8527518B2 (en) * 2010-12-16 2013-09-03 Sap Ag Inverted indexes with multiple language support
US8498972B2 (en) * 2010-12-16 2013-07-30 Sap Ag String and sub-string searching using inverted indexes
EP2702509A4 (en) * 2011-04-28 2015-05-20 Microsoft Technology Licensing Llc SEARCH RESULTS FOR ALTERNATIVE MARKETS
EP2798538B1 (en) * 2011-12-29 2019-08-28 P2S Media Group OY Method and apparatus for providing metadata search codes to multimedia
US20130332450A1 (en) * 2012-06-11 2013-12-12 International Business Machines Corporation System and Method for Automatically Detecting and Interactively Displaying Information About Entities, Activities, and Events from Multiple-Modality Natural Language Sources
CN103488648B (zh) * 2012-06-13 2018-03-20 阿里巴巴集团控股有限公司 一种多语种混合检索方法和系统
CN104281583B (zh) * 2013-07-02 2018-01-12 索意互动(北京)信息技术有限公司 信息检索方法及装置
CN104731828B (zh) 2013-12-24 2017-12-05 华为技术有限公司 一种跨领域文档相似度计算方法及装置
CN103699675B (zh) * 2013-12-30 2017-07-04 语联网(武汉)信息技术有限公司 一种译员分级索引的方法
US9524293B2 (en) * 2014-08-15 2016-12-20 Google Inc. Techniques for automatically swapping languages and/or content for machine translation
US9792315B2 (en) 2014-08-21 2017-10-17 Dropbox, Inc. Multi-user search system with methodology for bypassing instant indexing
US9183303B1 (en) 2015-01-30 2015-11-10 Dropbox, Inc. Personal content item searching system and method
US9384226B1 (en) 2015-01-30 2016-07-05 Dropbox, Inc. Personal content item searching system and method
TWI712899B (zh) 2015-07-28 2020-12-11 香港商阿里巴巴集團服務有限公司 資訊查詢方法及裝置
US9606990B2 (en) 2015-08-04 2017-03-28 International Business Machines Corporation Cognitive system with ingestion of natural language documents with embedded code
KR101656357B1 (ko) 2015-11-04 2016-09-09 국방과학연구소 데이터 표를 이용하여 공학용 데이터베이스를 구성하는 방법
US10824795B2 (en) 2016-06-21 2020-11-03 Fernando J. Pinho Indoor positioning and recording system
WO2017223133A1 (en) * 2016-06-21 2017-12-28 Pinho Fernando J Indoor positioning and recording system
US10691734B2 (en) * 2017-11-21 2020-06-23 International Business Machines Corporation Searching multilingual documents based on document structure extraction
CN108345694B (zh) * 2018-03-19 2021-09-03 华北电力大学(保定) 一种基于主题数据库的文献检索方法及系统
US11392853B2 (en) * 2019-02-27 2022-07-19 Capital One Services, Llc Methods and arrangements to adjust communications
CN110347904A (zh) * 2019-05-28 2019-10-18 成都美美臣科技有限公司 一个多语言电子商务网站处理语言搜索方法
CN112380410A (zh) * 2020-11-10 2021-02-19 北京字节跳动网络技术有限公司 信息处理方法、装置和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1203678A (zh) * 1995-10-06 1998-12-30 科尔威尔技术公司 存储和检索数字化数据的系统
EP0964344A2 (en) * 1998-06-02 1999-12-15 Sharp Kabushiki Kaisha Method of and apparatus for forming an index, use of an index and a storage medium
CN1272656A (zh) * 1999-04-30 2000-11-08 国际商业机器公司 内容-索引搜索系统和方法
EP1072984A2 (en) * 1999-07-28 2001-01-31 International Business Machines Corporation Method and system for providing native language query service

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01181123A (ja) * 1988-01-14 1989-07-19 Hitachi Ltd 情報検索装置
US6278967B1 (en) 1992-08-31 2001-08-21 Logovista Corporation Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis
JP2737662B2 (ja) * 1994-08-29 1998-04-08 日本電気株式会社 外国語キーワード文献検索処理装置
US6055528A (en) * 1997-07-25 2000-04-25 Claritech Corporation Method for cross-linguistic document retrieval
US5991713A (en) 1997-11-26 1999-11-23 International Business Machines Corp. Efficient method for compressing, storing, searching and transmitting natural language text
JP3181548B2 (ja) * 1998-02-03 2001-07-03 富士通株式会社 情報検索装置及び情報検索方法
JP3601653B2 (ja) * 1998-03-18 2004-12-15 富士通株式会社 情報検索装置および方法
US6275789B1 (en) 1998-12-18 2001-08-14 Leo Moser Method and apparatus for performing full bidirectional translation between a source language and a linked alternative language
US7027974B1 (en) * 2000-10-27 2006-04-11 Science Applications International Corporation Ontology-based parser for natural language processing
EP1454263A4 (en) * 2001-11-21 2008-02-13 Contecs Dd Llc DATA DICTIONARY OF DIGITAL RIGHTS MANAGEMENT

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1203678A (zh) * 1995-10-06 1998-12-30 科尔威尔技术公司 存储和检索数字化数据的系统
EP0964344A2 (en) * 1998-06-02 1999-12-15 Sharp Kabushiki Kaisha Method of and apparatus for forming an index, use of an index and a storage medium
CN1272656A (zh) * 1999-04-30 2000-11-08 国际商业机器公司 内容-索引搜索系统和方法
EP1072984A2 (en) * 1999-07-28 2001-01-31 International Business Machines Corporation Method and system for providing native language query service

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105404688A (zh) * 2015-12-11 2016-03-16 北京奇虎科技有限公司 搜索方法和搜索设备

Also Published As

Publication number Publication date
EP1485830B1 (en) 2006-03-29
WO2003065248A3 (en) 2004-03-11
EP1485830A2 (en) 2004-12-15
KR100572797B1 (ko) 2006-04-24
KR20040077918A (ko) 2004-09-07
DE60304331T2 (de) 2006-11-09
JP2005516306A (ja) 2005-06-02
JP4634715B2 (ja) 2011-02-16
WO2003065248A2 (en) 2003-08-07
US20030149687A1 (en) 2003-08-07
US7260570B2 (en) 2007-08-21
CA2474814A1 (en) 2003-08-07
CN1620661A (zh) 2005-05-25
DE60304331D1 (de) 2006-05-18
ATE322045T1 (de) 2006-04-15

Similar Documents

Publication Publication Date Title
CN100375090C (zh) 通过任意国家语言的查询来检索匹配的文档的方法和系统
CN100478949C (zh) 具有实体检测的查询改写
US7039625B2 (en) International information search and delivery system providing search results personalized to a particular natural language
Rowley The controlled versus natural indexing languages debate revisited: a perspective on information retrieval practice and research
US6711561B1 (en) Prose feedback in information access system
US6745181B1 (en) Information access method
US6604101B1 (en) Method and system for translingual translation of query and search and retrieval of multilingual information on a computer network
US6286000B1 (en) Light weight document matcher
US20070250501A1 (en) Search result delivery engine
WO2002037327A2 (en) Pre-translated multi-lingual online search system, method, and computer program product
US7024405B2 (en) Method and apparatus for improved internet searching
Capstick et al. A system for supporting cross-lingual information retrieval
WO2007107993A2 (en) Method and apparatus for extracting terms based on a displayed text
JP2004118740A (ja) 質問応答システム、質問応答方法、質問応答プログラム
US20070271228A1 (en) Documentary search procedure in a distributed system
EP1160686A2 (en) A method of searching the internet and an internet search engine
JP2003150623A (ja) 言語横断型特許文献検索方法
JP2001184358A (ja) カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体
CN100456285C (zh) 用于访问数据库的方法和设备
KR20010107810A (ko) 웹 검색시스템 및 그 방법
US8478732B1 (en) Database aliasing in information access system
Aruna Online public access catalogue
Pantelia ‘Noûs, INTO CHAOS’: THE CREATION OF THE THESAURUS OF THE GREEK LANGUAGE
KR100434718B1 (ko) 문서 색인 시스템 및 그 방법
JPH0540783A (ja) 自然言語解析装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20080312