CN103927375B - 跨语言搜索结果的闪烁注释标注加亮 - Google Patents
跨语言搜索结果的闪烁注释标注加亮 Download PDFInfo
- Publication number
- CN103927375B CN103927375B CN201410171923.3A CN201410171923A CN103927375B CN 103927375 B CN103927375 B CN 103927375B CN 201410171923 A CN201410171923 A CN 201410171923A CN 103927375 B CN103927375 B CN 103927375B
- Authority
- CN
- China
- Prior art keywords
- language
- search
- standardization
- querying condition
- instrument
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3337—Translation of the query language, e.g. Chinese to English
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99934—Query formulation, input preparation, or translation
Abstract
本发明提供了一种跨语言搜索结果的闪烁注释标注加亮,具体是从电子文档、网站或互联网中对信息进行跨语言搜索的系统和方法。该系统首先对用户输入的输入语言原始查询条件进行方言标准化,其中所述方言标准化包括方言语音标准化、方言词汇标准化和方言语法标准化。然后将标准化的查询条件翻译为优化的目标文档语言的搜索字符串,系统执行搜索并利用注释标注或标注泡对每条匹配短语或匹配对象加亮,以帮助用户浏览搜索结果。
Description
本申请是于2005年3月30日提交的申请号为03823420.3(PCT/US2003/030629)的标题为“跨语言搜索结果的闪烁注释标注加亮”的专利申请的分案申请。
技术领域
本发明涉及跨语言(trans-lingual)搜索以及搜索结果的检索,更确切地说,本发明涉及一种系统和方法,在标注(callout)或虚拟标注泡(bubble)中动态显示对跨语言搜索结果的语言注释。
背景技术
万维网是由互联网提供的快速发展的信息领域。万维网(“网络”)确保搜索工具能够快速搜索和检索相关信息。在本说明书的上下文中,搜索引擎呈现出强大的优势,因为它能够帮助用户使用关键词、句子或查询条件(query)从网络搜索和检索特定信息。
现在可用的搜索工具很多,用户可以从中选择一个进行搜索。然而,搜索工具不都一样。因为搜索工具使用专用的特殊算法对其各自数据库中的信息或网站进行索引,所以搜索工具各不相同。重要的是要知道各种搜索工具之间的不同之处,因为每种搜索工具执行常规的信息搜索和检索任务时的方式不同。因此,即使输入同样的短语/查询条件,不同搜索引擎得到的搜索结果也不同。
搜索工具的种类大致分为五种:字典类、搜索引擎类、超级引擎类、元数据引擎类和特殊搜索引擎类。
Yahoo、Magellan和Look Smart等搜索工具属于字典类搜索工具。这些网络字典中都是自己开发数据库,数据库中包含它们选择的网站。因此,当用户使用诸如Yahoo的字典进行搜索时,他实际上是在搜索由Yahoo支持的数据库,并且浏览数据库中的内容。
Infoseek、WeCrawler和Lycos等搜索引擎使用诸如“Web Crawlers”、“Spiders”或“robots”之类的软件程序在网络中搜索并进行索引,并将不同网站的内容分类,将分类存入该搜索引擎自己的数据库中。Web Crawl程序是一套自主程度不同的软件代理程序的子程序,执行用户下达的任务。这些代理通常由一个历史链接列表开始,诸如服务器列表和最受欢迎或最佳网站,并受这些网页上链接的引导去发现更多的链接并将链接加入其数据库。
一类更为复杂的搜索引擎包括超级引擎,它使用的软件与“Web Crawlers”、“spiders”或“robots”相似。然而,它们与普通搜索引擎的不同之处在于它们不仅对标题中出现的关键词进行索引,而且对网站所有内容中出现的关键词进行索引。超级引擎的例子有Excite、OpenText、Hot Bot和Alta Vista。
元搜索引擎查询其它搜索引擎并将搜索到的所有结果结合在一起。实际上,使用元搜索引擎的用户是利用其数据库所包括的全部搜索引擎进行搜索。元搜索引擎的例子有Dogpile和Savvy Search。
特殊搜索引擎是另一类搜索引擎,迎合对特殊领域的信息有需求的用户。特殊搜索引擎的例子有Deja News和Infospace。
由此可见,这些搜索引擎中的每一种都各具特色,它们执行搜索的方式以及实现获取网站可用资源这一基本目标的工作方式不同。大多数搜索引擎允许用户敲入几个单词,然后在其数据库中搜索。每种搜索引擎处理近似拼写、多变体和截断的方式都不同。
然而,大多数搜索引擎有其局限性,因为它们仅迎合英语群体的需要,并仅有助于搜索和检索一种语言的文档。多数搜索引擎需要输入英文并搜索仅提供英语信息的网站。换句话说,多数搜索工具主要迎合讲英语的互联网用户的需要。这使得这些搜索工具对不讲英语的用户来说几乎无用,而这部分用户占整个互联网用户的75%。因为非英语用户群体无法有效地输入英文短语或查询条件,所以他们不能搜索网站。因此,这一大部分用户群体无法从搜索工具和英语的网络文档中受益。这是所有的现有搜索引擎都没有指出的严重缺陷。
同样,非英语的互联网用户也创建非英语网站。而面向英语的搜索引擎无法查询这类丰富的信息源。结果,与非英语群体不能利用英语资源一样,英语人群也不能利用其它语言的资源。
例如,当准备需要“shrimp caviare”的中国豆腐菜时,在诸如altavista.com的超级引擎上进行搜索,以确认世界何地提供“shrimp caviare”。使用altavista.com在“所有语言”下进行搜索时,在“英文”或“中文”设置中,显示没有匹配的结果。然后,在中文搜索引擎china.com上查询英文名词“shrimp caviare”时,也没有匹配结果。随后,用中文输入名词“虾酱”查找其中文同义词。找到“虾子”(表示“虾卵”)为中文同义词。然后,用这个单词在china.com上执行搜索,出现了二十四个结果。
陈宁萍(Chan Ning Ping)等的发明“用于翻译查找条件、并对计算机网络上多语信息进行搜索和提取的方法和系统”在2003年8月5日被授予美国专利权(6,604,101)。该专利公开了一种方法,将用户以源语言(source language)(也称为用户语言或主体语言)输入的查询条件(query)翻译成目标语言(target language)(也称为客体语言),并且搜索和检索符合条件的目标语言网络文档,再将这些网络文档翻译成源语言。根据该发明,用户首先通过诸如键盘之类的设备输入源语言查询条件。然后,位于后台(backend)的服务器处理该查询条件,从输入的查询条件中提取实义词(content word)。下一步,由位于服务器上的方言控制器进行操作,对提取出的实义词进行方言标准化。在此过程中,可能提示用户输入更多信息以进行精确查询,或者在最初的查询条件不能满足方言标准化需要时,也提示用户输入更多信息。下一步,进行搜索前的翻译,由翻译器将方言标准化的词翻译成目标语言。翻译过程之后,将翻译后的词输入目标语言的搜索引擎。得到与经过翻译的词相同的目标语言的搜索结果。然后以网站名称(URL)的形式显示满足搜索条件的结果。因此,得到的所有目标语言的结果显示在用户的计算机屏幕上。可以根据用户需求将这些结果的全部或部分翻译成源语言。Chan的该专利使得用户以母语输入查询条件,并将目标网站的全部翻译返回给用户,帮助用户进行网络搜索。在很多情况下,对于对目标语言有基础了解的用户,无需对整个文档进行翻译。而就一些关键词、短语或句子进行即时注释就已经足够满足用户要求了。
相应地,希望提供一种系统和方法,使用户能够输入一个与待搜索的文档中使用的原始语言不同的搜索条目(search entry),利用标注或标注泡对搜索结果中每条匹配短语或匹配对象自动加亮,标注或标注泡中包含一个基于人工智能的对匹配短语或匹配对象进行的双语注释。
进一步,希望提供一种系统和方法,使得远端用户能够输入一个与待搜索的网站使用的原始语言不同的搜索条目,利用标注或标注泡对搜索结果中每条匹配短语或匹配对象自动加亮,标注或标注泡中包含一个基于人工智能的对匹配短语或匹配对象进行的双语注释。
再进一步,希望提供一种系统和方法,使得远端用户能够输入一个与网络搜索引擎中使用的语言不同的搜索条目,利用标注或标注泡对搜索结果中每条匹配短语或匹配对象自动加亮,标注或标注泡中包含一个基于人工智能的对匹配短语或匹配对象进行的双语注释。
发明内容
本发明提供了一种从电子文档、网站或互联网中对信息进行跨语言搜索的系统和方法。该系统首先对用户输入的输入语言原始条目进行方言标准化,然后将标准化的条目翻译并优化为客体语言(也称为目标语言)搜索查询条件,系统执行搜索并利用注释标注或标注泡对每条匹配短语或匹配对象加亮,以帮助用户浏览搜索结果,其中所述方言标准化包括方言语音标准化、方言词汇标准化和方言语法标准化。
该系统可以调整或设置以便适应任何仅使用一种语言的搜索引擎。在一个优选实施例中,本发明作为一个在用户计算机上运行的应用程序,并操作执行如下步骤:
对用户输入的第一语言原始条目进行方言标准化;
将标准化的条目翻译并优化为第二语言查询条件;
对该查询条件执行搜索;和
发送一个信号,通过将可视提示与所述每条匹配对象进行关联而加亮每条匹配对象,所述可视提示的大小可调,用以包含注释消息,
其中所述方言标准化包括方言语音标准化、方言词汇标准化和方言语法标准化。
在另一优选实施例中,本发明作为一个结合在网站后台服务器中的系统,该系统操作执行如下步骤:
接收用户通过网站服务器支持的网站输入的第一语言原始条目;
在后台服务器对该原始条目进行方言标准化;
将标准化的条目翻译并优化为第二语言查询条件;
在服务器的数据库中对该查询条件执行搜索;和
发送一个信号,通过将可视提示与所述每条匹配对象进行关联而加亮每条匹配对象,所述可视提示的大小可调,用以包含注释消息,
其中所述方言标准化包括方言语音标准化、方言词汇标准化和方言语法标准化。
在再一个优选实施例中,本发明作为一个网络服务器支持的跨语言网络搜索引擎。该搜索引擎操作执行如下步骤:
发送一个信号,通过将可视提示与所述每条匹配对象进行关联而加亮每条匹配对象,所述可视提示的大小可调,用以包含注释消息。
上文对本发明的最为相关和重要的特征进行了概述,下面对本发明进行详细说明,以使本发明对现有技术的贡献可以被充分了解。
附图说明
为了对本发明的原理和目的有更明确的认识,下面参考附图对本发明作具体说明,在附图中:
图1是说明本发明优选实施例中计算机环境的示意图;
图2是本发明基本处理步骤框图;
图3是本发明一优选实施例的在本地计算机上运行的系统的示意框图;
图4是说明图3中系统操作的示意框图;
图5是包含翻译之后的方言处理步骤(例如优化查询条件)的解决方案的示意框图;
图6是一个标注示例的示意框图,该标注包含一个以上翻译后或优化后查询条件的同义词,每个同义词对应超链接,在选中的查询条件同义词上点击超链接触发一个新搜索;
图7是一个位于匹配短语或对象右上方的圆头矩形标注示例;
图8是一个位于匹配短语或对象左下方的云朵形状标注示例;
图9是根据图3和图6的优选实施例的方法流程图,包括一个搜索步骤,该步骤由用户点击显示在标注内的查询条件同义词的超链接触发;
图10是根据图3和图5的优选实施例的方法流程图,其中对由翻译后查询条件(或优化后的客体语言查询条件)和一个以上识别的客体语言同义词构成的查询条件进行布尔搜索;
图11是根据本发明另一优选实施例的基于互联网的网络的示意框图,其中网站向用户(搜索者)提供以选定的主体语言输入查询条件的工具,并向用户返回搜索结果,该搜索结果用闪烁的注释标注加亮;
图12是进一步说明图11中优选实施例的示意框图;
图13是根据图11和图12的优选实施例的方法流程图;
图14是根据本发明另一优选实施例的基于互联网的网络示意框图,其中网络搜索引擎主机在其主页上向用户(搜索者)提供以选定的主体语言输入查询条件的工具,并向用户返回搜索结果,该搜索结果用闪烁的注释标注加亮;
图15是进一步说明图14的优选实施例的示意框图;和
图16是根据图14和图15中优选实施例的方法流程图。
具体实施方式
参考附图,结合最佳方式和优选实施例对本发明进行详细说明。最常用的形式是,本发明包括一个计算机可读的程序存储介质,具体表现为计算机可执行的指令程序,执行向用户提供一个以上注释标注所需的步骤,每个标注与搜索结果中包含的一个客体语言匹配短语或匹配对象相关,由该搜索程序或搜索引擎返回用户通过输入一个主体语言条目进行搜索的结果。在本申请文件的上下文中,“主体语言”指除了待搜索文档使用的原始语言之外,用户输入条目或查询条件的语言。相应地,“客体语言”指除了主体语言以外,待搜索文档中使用的原始语言。为了说明清楚,主体语言称为“搜索者语言”,客体语言称为“被搜索者语言”。
图1是一个根据本发明一优选实施例的计算机环境方框图。计算机环境包括计算机平台101,计算机平台101包括硬件单元102和操作系统103。硬件单元102包括至少一个中央处理单元(CPU)104、一个存储应用程序的只读随机存储器(通常称为ROM)105、一个应用程序操作所用的读/写随机存储器(通常称为RAM)106和一个输入/输出(I/O)接口107。各种外围设备与计算机平台101连接,例如数据存储设备108和终端109。跨语言搜索和halo(下文称为TSH)应用程序100与诸如Word、Word Perfect和Microsoft Excel等的数据处理应用程序110相配合。本领域普通技术人员容易理解,无需进行本质修改,本发明也可在其它系统中实现。
广义而言,如图2所示,根据本发明的系统和方法执行四个步骤:对用户输入的原始查询条件进行方言处理(步骤111a),在搜索前将原始查询条件翻译为客体语言(步骤112a),对翻译后的查询条件进行搜索(步骤113a)和利用注释标注对搜索结果进行加亮(步骤114a)。
图3是说明本发明一优选实施例的示意框图。TSH应用程序100结合在支持可搜索文档的数据处理应用程序中。用户打开一个文档125,通过显示在用户屏幕124上的用户图形界面(GUI)120执行搜索。用户利用语言设置工具121选择一种客体语言,例如,文档中使用的语言,并选择一种主体语言,例如,用户输入查询条件的语言。语言设置工具121可以是一个下拉列表或多个超链接的图标,每个图标代表一种选项。通常,用户从中选择一个选项。然而,系统可设置为使用户能够同时选择两个以上选项。在出厂时预先设置缺省的源或客体语言,但是用户也可以重新设置。缺省语言也可以是用户最后一次使用的语言。在其它情况下,当用户激活TSH应用程序时,无需每次设置语言。方言处理模块111b是一个功能强大的程序,可以鉴别、分析并将不常用的查询条件转换为常用的查询条件或标准化的查询条件,该不常用的查询条件有俚语、方言短语、少年用语(teen-language)或医学、化学和植物学等的专用术语。例如,它可以将auto、automobile和vehicle等联系起来,并通过统计抽象和模糊逻辑对输入进行标准化。标准化包括方言语音的标准化、方言词汇的标准化和方言语法的标准化。假设用户选择简体中文作为主体语言,英语作为客体语言,然后从查询条件输入窗口122输入“吊车”作为其原始搜索查询条件。方言处理模块111b将原始查询条件“吊车”映射为更常用的同义词“起重机”。然后,翻译器112b将“起重机”翻译为“crane”或“cranes”,作为搜索模块113b的搜索查询条件。翻译器112b可以从多种变体或同义词中优化搜索查询条件,变体或同义词包括由于常用而失去明显含义的品牌名称或商标(例如Xerox、Kleenex等)。然后,显示模块114b利用一个闪烁的标注126对在文档中找到的每个匹配术语加亮,标注的内容包括原始查询条件“吊车”及其同义词“起重机”。标注注释在双语模式下,不仅显示主体语言的查询条件,同时显示翻译为客体语言的查询条件及其变体(同义词/替代词)。
图4是一个说明图3的操作示例的示意框图。在此例中,用户输入的是在中文中不常用的表示自行车的术语“单车”。方言处理模块将它翻译成中文最常用的表达方式“自行车”。翻译模块将“自行车”翻译成“bicycle”,作为搜索模块的查询条件。在很多方案中,方言处理模块和翻译模块可以结合为一个模块。
方言处理是非常重要的步骤,因为经常遇到单词具有多个不同方言变体的情况。英语本身就由多种方言变体构成,有英国英语、美国英语、加拿大英语、澳大利亚英语、印度英语和非洲英语等。英国英语和美国英语的方言变体的很典型例子有centre与center、lorry与truck、queue与line,以及petrol与gasoline等。在其它很多语言中也可找到类似情况。例如,中文中一个特定单词的方言变体有四十五种之多。这种情况进一步确认了方言变体是经常性的而非例外的事实,因此,唯一的解决方法就是将查询条件或单词标准化为常见的单词。
特别是,在本发明中,需要对识别出的关键词赋予恰当的含义,所以方言处理的重要性更不能低估。否则,一个不恰当的方言处理将导致翻译错误,并在后续的搜索和检索信息的步骤中破坏整个搜索过程。
在本发明一优选实施例中,如果方言处理模块无法识别单词,并因此而不能执行方言标准化,查询条件提示器将提示用户输入更多的查询条件,或要求用户从一套表达方式中选择,以便帮助用户阐明或突出其查询条件。在这种情况下,用户可以向查询输入工具提交其它查询条件。这种查询条件可以是一个标准术语或非标准术语。例如,单词“auto”的不同变体包括automobile,并且允许用户输入transportation vehicle作为方言标准化步骤的一部分。
图5是增加翻译后的方言处理(或翻译后的查询条件优化)的扩展方案的示意框图。方言处理包括两部分:翻译前的处理130和翻译后的处理140,翻译前的处理130将主体语言的所有不常用的查询条件改变为一个标准的查询条件,翻译后的处理140选择一种最佳和最相关的翻译作为翻译后的查询语言,并识别一个以上翻译后的查询条件的同义词作为搜索查询条件。搜索引擎可以同时或顺序执行搜索。在同时搜索的情况下,如果翻译后的查询条件是“bicycle”,搜索模块执行基于典型布尔“或”功能的“bicycle或bike或cycle或tandem”搜索,只要其中一个变量为真,搜索结果为真。在一个自动的顺序搜索情况下,搜索顺序应由每个同义词或替代词的使用频率确定。例如,假设在语言统计中,“taxi”比“cab”更常用,那么,如果翻译后的查询条件为“taxi”,那么搜索引擎首先搜索“taxi”,然后搜索“cab”。可根据用户命令执行顺序搜索。例如,标注内容可包括翻译后的客体语言查询条件及其变体同义词或替代词。如图6所示,每个同义词或替代词都有超链接。当用户在其中任何一个上移动鼠标指针时,在屏幕上自动弹出消息,例如“点击下划线进行新搜索”。当用户点击其中一个同义词或替代词时,搜索模块对点击的查询条件执行搜索。因为在一些情况下,翻译模块翻译的查询条件对于特定用户来说不是最佳选择,需要用户的参与,所以该功能是很有用的。
参考图3,用户界面包括一个标注设置工具123,用户可以设置参数构建标注并设置标注的风格,标注通常为标注泡,用于显示注释消息。注释消息可包括原始条目的多种主体语言同义词,以及翻译后的查询条件的多种客体语言同义词。参数包括但不局限于风格、形状、字体和字号、以及背景颜色。与语言设置121类似,标注设置123可以是下拉列表或多个具有超链接的图标,每个图标代表一个选项。在一种方案中,语言设置121和标注设置123结合在一个GUI 120中。在另一种方案中,语言设置121和标注设置123以一种方便的方式与显示的标注关联,例如,它们通常处于隐藏状态,但是,用户可通过标注上点击右键来访问它们。在用户修改这些设置之前,它们处于缺省状态,或用户最后一次使用时的状态。
本发明中使用的标注或标注泡是计算机屏幕显示的动态生成的可视提示。可视提示可以是透明的、半透明的或不透明的。虽然用户可以预先设置其风格、形状、字体和字号以及背景颜色,显示的内容由显示模块114b根据搜索模块113b的输出确定,可选地,也可根据翻译模块112b的输出确认。在双语模式下,标注中的注释内容包括标准化的主体语言查询条件及其客体语言的翻译。优选地,标准化的主体语言查询条件及其客体语言的翻译位于不同的行。如果用户从语言设置121中同时选择两种主体语言,注释内容将以三种语言显示。用户可以从语言设置121中同时选择多种主体语言,并获得对其输入的原始查询条件进行的多语注释。虽然标注或标注泡的大小可以固定,优选地,其大小根据显示的内容可调。在此,术语“可调”指弹性、灵活、按比例缩放、自动调整,以适合所显示的内容。例如,当查询条件及其翻译非常短时,标注或标注泡相对较小;否则,标注或标注泡相对较大。
图7示出了一种位于匹配短语或匹配对象(奥克兰港)的右上方的一个rounded矩形注释标注的示意图,其中使用的字体是“Time New Roman”。图8示出了一种位于匹配结果坐下方的云朵形状的注释标注,其中使用的字体是“Courier New”。
标注和“标注泡”之间的不同之处在于前者具有一个主体和一个尾部,但是后者只有一个主体。尾部的用处在于它可作为注释标注和需要注释的文本信息之间的引用桥梁。虽然在本发明中,优选地,在多个实施例中使用标注,但是,使用其它诸如正方形、矩形、圆形、标注泡、或“风筝”形状的可视提示框来显示返回的注释消息也不偏离本发明的主旨和范围。
图9是根据上述优选实施例的一种方案的方法170流程图。方法170包括如下步骤:
步骤171:用户输入选定的主体语言的原始条目(例如“特大吊车”的中文意思是超级巨大的吊车);
步骤172:方言处理模块通过应用一套统计、逻辑、语言规则和/或语法规则对用户的原始条目进行标准化(例如,将“特大吊车”改为中文意思为起重机的“起重机”),其中标准化包括方言语音标准化、方言词汇标准化和方言语法标准化;
步骤173:检查标准化是否成功;
步骤178:如果步骤173的检查结果为否,提示用户修改其输入条目;
步骤174:如果步骤173的检查结果为是,翻译器将标准化的条目翻译为选定的客体语言,作为一个查询条件(例如,将“起重机”翻译为CRANE或CRANES);
步骤175:使用该查询条件搜索目标文档;
步骤176:利用标注对所有目标文档中的匹配短语或匹配对象加亮,标注的内容包括标准化的主体语言条目(例如“起重机”)、原始的主体语言条目(“吊车”)、客体语言查询条件(crane)和/或其它帮助阅读的信息。
在图6所示的方案中,翻译后的查询条件的同义词/替代词在标注中显示为超链接,方法170进一步包括以下步骤:
步骤177:当用户点击任何一个超链接的同义词/替代词时,将点击的同义词/替代词作为一条查询条件执行新的搜索。
图10是根据上述优选实施例的另一方案的方法180流程图。方法180包括如下步骤:
步骤181:用户用选定的主体语言输入查询条目(例如,在中文口语中“的士”指出租车);
步骤182:方言处理模块通过应用一套统计、逻辑、语言规则和/或语法规则对用户的原始条目进行标准化(例如,将“的士”修改为“出租车”),其中标准化包括方言语音标准化、方言词汇标准化和方言语法标准化;
步骤183:自动检查标准化是否成功;
步骤188:如果步骤183的检查结果为否,提示用户修改其输入条目;
步骤184:如果步骤183的检查结果为是,翻译器将标准化的条目翻译为选定的客体语言,作为一个查询条件(例如,将“出租车”翻译为TAXI);
步骤185:识别一个以上客体语言条目的替代词(例如taxi、cab、yellow cab或minicab);
步骤186:对查询条件和所有识别出的替代词进行布尔搜索;
步骤187:利用标注对所有目标文档中的匹配短语或匹配对象加亮,标注的内容包括标准化的主体语言条目、原始的主体语言条目、和/或客体语言查询条件或其翻译。
图11是根据本发明另一优选实施例的基于互联网的网络示意框图,它是本发明在网站内容管理领域的应用。TSH应用程序在支持网站202的后台服务器201上运行。用户(搜索者)203通过互联网204访问网站202。网站202包括GUI 220,在GUI 220上,用户203从多个选项中选择一种主体语言,并输入用于搜索网站的主体语言原始条目。用户还可以设置用于加亮网站中匹配短语或对象的标注或标注泡。
图12是进一步说明图11的优选实施例的示意框图。GUI 220包括一个语言设置工具221、一个标注设置工具223和一个查询条件输入工具222,语言设置工具221既可以是下拉列表,也可以是多个具有超链接的图标,每个图标对应一个选项,用户在标注设置工具223设置多个标注(或标注泡)的参数,用于加亮该特定网站的匹配短语或对象,用户在查询条件输入工具222中用选定的主体语言输入原始条目并点击“go”以开始搜索过程。方言处理模块211应用一套统计、逻辑、语言规则和/或语法规则,将原始条目标准化或修改为一个主体语言中更为常用的条目,其中标准化包括方言语音标准化、方言词汇标准化和方言语法标准化。如果标准化失败,服务器向用户返回提示信息,提示用户修改原始条目。翻译模块212将标准化的条目翻译成客体语言(例如,网站使用的语言)。然后,使用翻译后的条目作为搜索查询条件执行搜索操作。显示控制214负责发送信号对在网站页面225中找到的匹配短语或匹配对象加亮。本发明中使用的加亮方式是一个可视提示,诸如包括注释消息的标注226或标注泡。在优选实施例中,可视提示可设置为闪烁或闪光的标注。
图13是根据图11和图12的优选实施例的方法流程图。该方法包括如下步骤:
步骤251:用户(搜索者)通过在其浏览器中输入网站域名(URL)访问服务器(被搜索者)支持的网站;
步骤252:从语言设置工具中选择一种主体语言;
步骤253:用主体语言输入一个原始条目;
步骤254:服务器标准化该原始条目,其中标准化包括方言语音标准化、方言词汇标准化和方言语法标准化;
步骤255:将标准化的条目翻译为客体语言;
步骤256:使用翻译后的条目作为一个查询条件,搜索存储在服务器数据库中的网站文件;
步骤257:向用户计算机屏幕返回搜索结果;和
步骤258:根据服务器端的显示控制214发来的信号,用标注注释加亮每个匹配短语或匹配对象。
可选地,如果服务器由于某种原因不能进行标准化,该方法可包括一个提示用户修改其原始条目的步骤。例如,当输入的单词超过服务器数据库的范围,或者输入的字符过于泛泛以至于不能进行有意义的搜索时。
如图5、图6和图9所示,该方法进一步包括一个翻译后的方言处理(也称为优化步骤)。翻译后的方言处理步骤包括如下子步骤:
优化翻译后的条目;
识别一个以上该优化条目的替代词;
如图6所示,以超链接的形式在注释标注中显示查询条件替代词;和
如果用户点击任何超链接的替代词,将执行一个新的搜索。
或者,如图5和图10所示,该方法可包括一个不同的翻译后方言处理的步骤。这种不同的翻译后的方言处理步骤包括如下子步骤:
优化翻译后的条目;
识别一个以上该优化条目的替代词;和
对优化条目和所有识别出的替代词进行布尔搜索。
图14是根据本发明另一优选实施例的基于互联网的网络示意框图,它是本发明在网络搜索引擎领域的应用。TSH应用程序在后台服务器301上运行,该后台服务器301通过其网站302支持跨语言网络搜索引擎。用户303通过互联网304访问网站302。网站302包括GUI320,在GUI 320上,用户303从多个选项中选择一种主体语言,并输入用于搜索互联网信息的主体语言原始查询条件。用户还可以设置用于加亮网站中匹配短语或对象的标注(或标注泡)。
图15是进一步说明图14的优选实施例的示意框图。GUI 320包括一个语言设置工具321、一个标注设置工具323和一个查询条件输入工具322,语言设置工具321既可以是下拉列表,也可以是多个具有超链接的图标,每个图标对应一种选项,用户在标注设置工具323设置多个标注(或标注泡)的参数,用于加亮返回的搜索列表中匹配短语或对象,用户在查询条件输入工具322中用选定的主体语言输入原始条目并点击“go”以开始搜索过程。方言处理模块311应用一套统计、逻辑、语言规则和/或语法规则,将原始条目标准化或修改为一个主体语言中更为常用的条目,其中标准化包括方言语音标准化、方言词汇标准化和方言语法标准化。如果标准化失败,服务器向用户返回提示信息,提示用户修改原始条目。翻译模块312将标准化的条目翻译成客体语言(例如,网站使用的语言)。然后,搜索引擎313使用翻译后的条目作为搜索查询条件执行搜索操作。显示控制314负责发送信号对在返回的搜索结果324的列表中找到的匹配短语或匹配对象加亮。本发明中使用的加亮方式是一个可视提示,诸如包括注释消息的标注326或标注泡。在优选实施例中,可视提示可设置为闪烁或闪光的标注。
图16是根据图14和图15的优选实施例的方法流程图。该方法包括如下步骤:
步骤351:用户通过在其浏览器中输入网站域名(URL)访问搜索引擎的主页;
步骤352:从语言设置工具中选择一种主体语言(例如,简体中文);
步骤353:用主体语言输入一个原始条目(例如,跨语言的检索系统或方法);
步骤354:后台服务器标准化该原始条目(例如,将“跨语言的搜索系统和方法”修改为“跨语言搜索”),其中标准化包括方言语音标准化、方言词汇标准化和方言语法标准化;
步骤355:将标准化的条目翻译为客体语言(例如,将“跨语言搜索”翻译成“cross-language search”);
步骤356:使用翻译后的条目作为一个查询条件,搜索互联网信息;
步骤357:向用户计算机屏幕返回搜索结果,根据服务器端的显示控制314发来的信号,用闪烁的标注注释加亮每条匹配短语或匹配对象。
可选地,如果服务器由于某种原因不能进行标准化,该方法可包括一个提示用户修改其原始条目的步骤。例如,当输入的单词超过服务器数据库的范围,或者输入的字符过于泛泛以至于不能进行有意义的搜索时。
如图5、图6和图9所示,该方法进一步包括一个翻译后的方言处理(也称为优化步骤)。翻译后的方言处理步骤包括如下子步骤:
优化翻译后的条目;
识别一个以上该优化条目的替代词;
如图6所示,以超链接的形式在注释标注中显示查询条件替代词;和
如果用户点击任何超链接的替代词,执行一个新的搜索。
或者,如图5和图10所示,该方法可包括一个不同的翻译后方言处理的步骤。这种不同的翻译后的方言处理步骤包括如下子步骤:
优化翻译后的条目;
识别一个以上该优化条目的替代词;和
对优化条目和所有识别出的替代词进行布尔搜索。
上述发明可在法律、科学、商业、新闻、后勤、专利和教育等诸多领域内应用。上述发明也可以应用于搜索引擎和数据库、电子出版和日译英、日译中、日译韩和英译西等。
虽然在此说明书中参考优选实施例对本发明进行了说明,本领域普通技术人员仍容易理解,其它应用程序也可以替代本文提出的应用程序,而不偏离本发明的精神和范围。
相应地,本发明仅受权利要求书的限制。
Claims (49)
1.一种对包含在可搜索的电子文档中的信息进行搜索的系统,该系统包括处理器、存储所述处理器执行搜索所需操作的至少一个程序的第一存储器和所述至少一个程序的操作所需的第二存储器,该系统进一步包括:
对用户输入的第一语言原始条目进行方言标准化的工具;
将标准化的条目翻译成第二语言查询条件的工具;
对第二语言查询条件进行优化的工具;
对优化的第二语言查询条件执行搜索的工具;和
通过将可视提示与每条匹配对象进行关联而加亮所述每条匹配对象的工具,所述可视提示的大小可调,用以包含注释消息,所述注释消息包括所述第一语言标准化条目和所述优化的第二语言查询条件,
其中所述方言标准化包括方言语音标准化、方言词汇标准化和方言语法标准化。
2.根据权利要求1所述的系统,该系统进一步包括:
设置语言的工具,用于接收用户对第一语言和/或第二语言的设置;
所述语言设置工具包括以下任意一种:
下拉列表;和
一套具有超链接的图标,每个图标代表一个选项。
3.根据权利要求1所述的系统,该系统进一步包括:
在所述方言标准化工具无法标准化所述原始条目的情况下提示用户输入其它条目的工具。
4.根据权利要求1所述的系统,其中,每个可视提示包括指向或连接到匹配对象的尾部。
5.根据权利要求1所述的系统,其中所述可视提示处于闪烁状态。
6.根据权利要求1所述的系统,其中,所述注释消息进一步包括一种以上所述优化的第二语言查询条件的替代词,所述替代词中的每个都被超链接,点击每个替代词将触发对所点击的替代词进行的新搜索。
7.根据权利要求1所述的系统,该系统进一步包括:
提供所述优化的第二语言查询条件的一个以上替代词的工具,
其中,所述搜索工具对包含所述优化的第二语言查询条件和所述一个以上替代词的查询条件执行布尔搜索。
8.一种用于电子跨语言搜索系统中的方法,该系统对包含在可搜索电子文档中的信息进行搜索,该系统包括处理器、存储所述处理器执行搜索所需操作的至少一个程序的第一存储器和所述至少一个程序的操作所需的第二存储器,在该系统中,所述至少一个程序执行的方法包括如下步骤:
对用户输入的第一语言原始条目进行方言标准化;
将标准化的条目翻译成第二语言查询条件;
对第二语言查询条件进行优化;
对优化的第二语言查询条件执行搜索;和
通过将可视提示与每条匹配对象进行关联而加亮所述每条匹配对象,所述可视提示的大小可调,用以包含注释消息,所述注释消息包括所述第一语言标准化条目和所述优化的第二语言查询条件,
其中所述方言标准化包括方言语音标准化、方言词汇标准化和方言语法标准化。
9.根据权利要求8所述的方法,在对用户输入的第一语言原始条目进行方言标准化之前进一步包括如下步骤:
接收用户的语言设置,
所述语言设置包括从以下任意一个中选择一个选项:
下拉列表;和
一套具有超链接的图标,每个图标代表一个选项。
10.根据权利要求8所述的方法,进一步包括:
在无法标准化所述原始条目的情况下提示用户输入其它条目。
11.根据权利要求8所述的方法,其中,每个可视提示包括指向或连接到匹配对象的尾部。
12.根据权利要求8所述的方法,其中所述可视提示处于闪烁状态。
13.根据权利要求8所述的方法,其中,所述注释消息进一步包括一种以上所述优化的第二语言查询条件的替代词,所述替代词中的每个都被超链接,点击每个替代词将触发对所点击的替代词进行的新搜索。
14.根据权利要求8所述的方法,进一步包括:
提供所述优化的第二语言查询条件的一个以上替代词,
其中,所述搜索步骤是对包含所述优化的第二语言查询条件和所述一个以上替代词的布尔查询条件执行的步骤。
15.一种用于实现跨语言搜索的处理方法,搜索结果中的每个匹配对象通过闪烁的注释标注加亮,所述处理方法包括如下步骤:
对用户输入的第一语言原始条目进行方言标准化;
将标准化的条目翻译成第二语言查询条件;
对第二语言查询条件进行优化;
对优化的第二语言查询条件执行搜索;和
通过将可视提示与每条匹配对象进行关联而加亮所述每条匹配对象,所述可视提示的大小可调,用以包含注释消息,所述注释消息包括所述第一语言标准化条目和所述优化的第二语言查询条件,
其中所述方言标准化包括方言语音标准化、方言词汇标准化和方言语法标准化。
16.根据权利要求15所述的用于实现跨语言搜索的处理方法,在对用户输入的第一语言原始条目进行方言标准化之前进一步包括如下步骤:
接收用户的语言设置,
所述语言设置包括从以下任意一个中选择一个选项:
下拉列表;和
一套具有超链接的图标,每个图标代表一个选项。
17.根据权利要求15所述的用于实现跨语言搜索的处理方法,进一步包括如下步骤:
在无法标准化所述原始条目的情况下提示用户输入其它条目。
18.根据权利要求15所述的用于实现跨语言搜索的处理方法,其中,每个可视提示包括指向或连接到匹配对象的尾部。
19.根据权利要求15所述的用于实现跨语言搜索的处理方法,其中,所述可视提示处于闪烁状态。
20.根据权利要求15所述的用于实现跨语言搜索的处理方法,其中,所述注释消息进一步包括一种以上所述优化的第二语言查询条件的替代词,所述替代词中的每个都被超链接,点击每个替代词将触发对所点击的替代词进行的新搜索。
21.根据权利要求15所述的用于实现跨语言搜索的处理方法,进一步包括如下步骤:
提供所述优化的第二语言查询条件的一个以上替代词,其中,所述搜索步骤是对包含所述优化的第二语言查询条件和所述一个以上替代词的布尔查询条件执行的步骤。
22.一种用于基于互联网的电子跨语言搜索系统中的方法,该系统对包含在后台服务器支持的网站中的信息进行搜索,该系统包括处理器、存储所述处理器执行搜索所需操作的至少一个程序的第一存储器和所述至少一个程序的操作所需的第二存储器,在该系统中,所述至少一个程序执行的方法包括如下步骤:
对用户通过互联网输入的第一语言原始条目进行方言标准化;
将标准化的条目翻译成第二语言查询条件;
对第二语言查询条件进行优化;
对优化的第二语言查询条件执行搜索;和
发送一个信号,通过将可视提示与每条匹配对象进行关联而加亮所述每条匹配对象,所述可视提示的大小可调,用以包含注释消息,所述注释消息包括所述第一语言标准化条目和所述优化的第二语言查询条件,
其中所述方言标准化包括方言语音标准化、方言词汇标准化和方言语法标准化。
23.根据权利要求22所述的方法,该方法在对用户通过互联网输入的第一语言原始条目进行方言标准化之前进一步包括如下步骤:
接收用户的语言设置,
所述语言设置包括从以下任意一个中选择一个选项:
下拉列表;和
一套具有超链接的图标,每个图标代表一个选项。
24.根据权利要求22所述的方法,进一步包括如下步骤:
在无法标准化所述原始条目的情况下提示用户输入其它条目。
25.根据权利要求22所述的方法,其中,每个可视提示包括指向或连接到匹配对象的尾部。
26.根据权利要求22所述的方法,其中,所述可视提示处于闪烁状态。
27.根据权利要求22所述的方法,其中,所述注释消息进一步包括一种以上所述优化的第二语言查询条件的替代词,所述替代词中的每个都被超链接,点击每个替代词将触发对所点击的替代词进行的新搜索。
28.根据权利要求22所述的方法,进一步包括如下步骤:
提供所述优化的第二语言查询条件的一个以上替代词,
其中,所述搜索步骤是对包含所述优化的第二语言查询条件和所述一个以上替代词的布尔查询条件执行的步骤。
29.一种基于互联网的电子跨语言搜索系统,该系统对包含在后台服务器支持的网站中的信息进行搜索,该系统包括处理器、存储所述处理器执行搜索所需操作的至少一个程序的第一存储器和所述至少一个程序的操作所需的第二存储器,所述后台服务器与远端用户计算机通过互联网进行通讯连接,该系统进一步包括:
对用户输入的第一语言原始条目进行方言标准化的工具;
将标准化的条目翻译成第二语言查询条件的工具;
对第二语言查询条件进行优化的工具;
对优化的第二语言查询条件执行搜索的工具;和
用于发送一个信号、以通过将可视提示与每条匹配对象进行关联而加亮所述每条匹配对象的工具,所述可视提示的大小可调,用以包含注释消息,所述注释消息包括所述第一语言标准化条目和所述优化的第二语言查询条件,
其中所述方言标准化包括方言语音标准化、方言词汇标准化和方言语法标准化。
30.根据权利要求29所述的系统,该系统进一步包括:
设置语言的工具,用于接收用户对第一语言和/或第二语言的设置,
所述语言设置工具包括以下任意一个:
下拉列表;和
一套具有超链接的图标,每个图标代表一个选项。
31.根据权利要求29所述的系统,进一步包括:
在所述方言标准化工具无法标准化所述原始条目的情况下提示用户输入其它条目的工具。
32.根据权利要求29所述的系统,其中,每个可视提示包括指向或连接到匹配对象的尾部。
33.根据权利要求29所述的系统,其中,所述可视提示处于闪烁状态。
34.根据权利要求29所述的系统,其中,所述注释消息进一步包括一种以上所述优化的第二语言查询条件的替代词,所述替代词中的每个都被超链接,点击每个替代词将触发对所点击的替代词进行的新搜索。
35.根据权利要求29所述的系统,进一步包括:
提供所述优化的第二语言查询条件的一个以上替代词的工具,
其中,所述搜索工具对包含所述优化的第二语言查询条件和所述一个以上替代词的查询条件执行布尔搜索。
36.一种用在全球网络中的方法,所述全球网络包含服务器和至少一个与服务器进行通讯连接的客户端计算机,所述服务器包括方言处理模块、翻译模块、搜索引擎和显示模块,该方法包括如下步骤:
所述方言处理模块对用户通过所述至少一个客户端计算机输入的第一语言原始条目进行方言标准化;
所述翻译模块将标准化的条目翻译成第二语言查询条件;
所述方言处理模块对第二语言查询条件进行优化;
所述搜索引擎对优化的第二语言查询条件执行搜索;和
所述显示模块发送一个信号,通过将可视提示与每条匹配对象进行关联而加亮所述每条匹配对象,所述可视提示的大小可调,用以包含注释消息,所述注释消息包括所述第一语言标准化条目和所述优化的第二语言查询条件,
其中所述方言标准化包括方言语音标准化、方言词汇标准化和方言语法标准化。
37.根据权利要求36所述的方法,在所述方言处理模块对用户通过所述至少一个客户端计算机输入的第一语言原始条目进行方言标准化之前进一步包括:
所述方言处理模块和/或所述翻译模块接收用户的语言设置,
所述设置命令包括从以下任意一个中选择一个选项:
下拉列表;和
一套具有超链接的图标,每个图标代表一个选项。
38.根据权利要求36所述的方法,进一步包括:
所述方言处理模块在无法标准化所述原始条目的情况下提示用户输入其它条目。
39.根据权利要求36所述的方法,其中,每个可视提示包括一个指向或连接到匹配对象的尾部。
40.根据权利要求36所述的方法,其中,所述可视提示处于闪烁状态。
41.根据权利要求36所述的方法,其中,所述注释消息进一步包括一种以上所述优化的第二语言查询条件的替代词,所述替代词中的每个都被超链接,点击每个替代词将触发对所点击的替代词进行的新搜索。
42.根据权利要求36所述的方法,该方法进一步包括如下步骤:
所述方言处理模块提供所述优化的第二语言查询条件的一个以上替代词,
其中,所述搜索步骤是对包含所述优化的第二语言查询条件和所述一个以上替代词的布尔查询条件执行的步骤。
43.一种在互联网上搜索信息的系统,该系统包括服务器和与所述服务器进行通讯连接的至少一个客户端计算机,其中,所述服务器包括至少一个处理器、存储所述至少一个处理器执行搜索所需操作的至少一个程序的第一存储器和所述至少一个程序的操作所需的第二存储器,该系统进一步包括:
对用户通过所述至少一个客户端计算机屏幕上的图形用户界面输入的第一语言原始条目进行方言标准化的工具;
将标准化的条目翻译成第二语言查询条件的工具;
对第二语言查询条件进行优化的工具;
对优化的第二语言查询条件执行搜索的工具;和
用于发送一个信号、以通过将可视提示与每条匹配对象进行关联而加亮所述每条匹配对象的工具,所述可视提示的大小可调,用以包含注释消息,所述注释消息包括所述第一语言标准化条目和所述优化的第二语言查询条件,
其中所述方言标准化包括方言语音标准化、方言词汇标准化和方言语法标准化。
44.根据权利要求43所述的系统,该系统进一步包括:
设置语言的工具,用于接收用户对第一语言和/或第二语言的设置,
所述语言设置工具包括以下任意一个:
下拉列表;和
一套具有超链接的图标,每个图标代表一个选项。
45.根据权利要求43所述的系统,该系统进一步包括:
在所述方言标准化工具无法标准化所述原始条目的情况下提示用户输入其它条目的工具。
46.根据权利要求43所述的系统,其中,每个可视提示包括指向或连接到匹配对象的尾部。
47.根据权利要求43所述的系统,其中,所述可视提示处于闪烁状态。
48.根据权利要求43所述的系统,其中,所述注释消息进一步包括一种以上所述优化的第二语言查询条件的替代词,所述替代词中的每个都被超链接,点击每个替代词将触发对所点击的替代词进行的新搜索。
49.根据权利要求43所述的系统,进一步包括:
提供所述优化的第二语言查询条件的一个以上替代词的工具,
其中,所述搜索工具对包含所述优化的第二语言查询条件和所述一个以上替代词的查询条件执行布尔搜索。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US41462402P | 2002-09-30 | 2002-09-30 | |
US60/414,624 | 2002-09-30 | ||
CNA038234203A CN1685341A (zh) | 2002-09-30 | 2003-09-27 | 跨语言搜索结果的闪烁注释标注加亮 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA038234203A Division CN1685341A (zh) | 2002-09-30 | 2003-09-27 | 跨语言搜索结果的闪烁注释标注加亮 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103927375A CN103927375A (zh) | 2014-07-16 |
CN103927375B true CN103927375B (zh) | 2017-06-23 |
Family
ID=32312467
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN03823420.3A Expired - Fee Related CN1685341B (zh) | 2002-09-30 | 2003-09-27 | 跨语言搜索结果的闪烁注释标注加亮 |
CN201410171923.3A Expired - Fee Related CN103927375B (zh) | 2002-09-30 | 2003-09-27 | 跨语言搜索结果的闪烁注释标注加亮 |
CNA038234203A Granted CN1685341A (zh) | 2002-09-30 | 2003-09-27 | 跨语言搜索结果的闪烁注释标注加亮 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN03823420.3A Expired - Fee Related CN1685341B (zh) | 2002-09-30 | 2003-09-27 | 跨语言搜索结果的闪烁注释标注加亮 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA038234203A Granted CN1685341A (zh) | 2002-09-30 | 2003-09-27 | 跨语言搜索结果的闪烁注释标注加亮 |
Country Status (6)
Country | Link |
---|---|
US (1) | US7111237B2 (zh) |
EP (1) | EP1588287A1 (zh) |
JP (2) | JP4664076B2 (zh) |
CN (3) | CN1685341B (zh) |
CA (1) | CA2500334A1 (zh) |
WO (1) | WO2004042615A1 (zh) |
Families Citing this family (72)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7146358B1 (en) * | 2001-08-28 | 2006-12-05 | Google Inc. | Systems and methods for using anchor text as parallel corpora for cross-language information retrieval |
US20040143596A1 (en) * | 2003-01-17 | 2004-07-22 | Mark Sirkin | Content distributon method and apparatus |
US20100070265A1 (en) * | 2003-05-28 | 2010-03-18 | Nelson David D | Apparatus, system, and method for multilingual regulation management |
US20040243391A1 (en) * | 2003-05-28 | 2004-12-02 | Nelson David D. | Apparatus, system, and method for multilingual regulation management |
DE10348920A1 (de) * | 2003-10-21 | 2005-05-25 | Bayer Materialscience Ag | Computersystem und Verfahren zur mehrsprachigen assoziativen Suche |
US7890526B1 (en) * | 2003-12-30 | 2011-02-15 | Microsoft Corporation | Incremental query refinement |
IL161263A0 (en) * | 2004-04-02 | 2004-09-27 | Crossix Solutions Llc | A privacy preserving data-mining protocol |
US20060004730A1 (en) * | 2004-07-02 | 2006-01-05 | Ning-Ping Chan | Variant standardization engine |
US20060080274A1 (en) * | 2004-10-12 | 2006-04-13 | Pricegrabber.Com, Llc | Dynamic product association |
US8677274B2 (en) * | 2004-11-10 | 2014-03-18 | Apple Inc. | Highlighting items for search results |
US7783633B2 (en) * | 2004-11-19 | 2010-08-24 | International Business Machines Corporation | Display of results of cross language search |
KR100654447B1 (ko) * | 2004-12-15 | 2006-12-06 | 삼성전자주식회사 | 지역별로 존재하는 컨텐츠를 글로벌로 공유하고 거래하는방법 및 시스템 |
US7861154B2 (en) * | 2005-02-28 | 2010-12-28 | Microsoft Corporation | Integration of annotations to dynamic data sets |
US20060212509A1 (en) * | 2005-03-21 | 2006-09-21 | International Business Machines Corporation | Profile driven method for enabling annotation of World Wide Web resources |
US20060218485A1 (en) * | 2005-03-25 | 2006-09-28 | Daniel Blumenthal | Process for automatic data annotation, selection, and utilization |
WO2006107816A2 (en) * | 2005-04-01 | 2006-10-12 | Educational Testing Service | Method and system for instructing language learners |
US10319252B2 (en) | 2005-11-09 | 2019-06-11 | Sdl Inc. | Language capability assessment and training apparatus and techniques |
US7734610B2 (en) * | 2005-12-12 | 2010-06-08 | Google Inc. | Decentralised web annotation |
US8055674B2 (en) * | 2006-02-17 | 2011-11-08 | Google Inc. | Annotation framework |
US8943080B2 (en) * | 2006-04-07 | 2015-01-27 | University Of Southern California | Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections |
US8135709B2 (en) * | 2006-07-05 | 2012-03-13 | BNA (Llesiant Corporation) | Relevance ranked faceted metadata search method |
US8135708B2 (en) * | 2006-07-05 | 2012-03-13 | BNA (Llesiant Corporation) | Relevance ranked faceted metadata search engine |
US20080016049A1 (en) * | 2006-07-12 | 2008-01-17 | Dettinger Richard D | Natural language support for query results |
US7904446B1 (en) * | 2006-08-04 | 2011-03-08 | Adobe Systems Incorporated | Searchable menu system via keyword search |
US20080115072A1 (en) * | 2006-11-09 | 2008-05-15 | International Business Machines Corporation | Method and apparatus for visually assisting language input mode indentification |
US9122674B1 (en) | 2006-12-15 | 2015-09-01 | Language Weaver, Inc. | Use of annotations in statistical machine translation |
US8214813B2 (en) | 2007-01-12 | 2012-07-03 | Microsoft Corporation | Code optimization across interfaces |
CZ17575U1 (cs) * | 2007-03-05 | 2007-06-11 | I2S A. S. | Multilinguální internetový vyhledávac |
US7720856B2 (en) * | 2007-04-09 | 2010-05-18 | Sap Ag | Cross-language searching |
EP2201484A4 (en) * | 2007-09-21 | 2010-09-22 | Google Inc | INTERLANGUE RESEARCH |
US20090083026A1 (en) * | 2007-09-24 | 2009-03-26 | Microsoft Corporation | Summarizing document with marked points |
US9754022B2 (en) | 2007-10-30 | 2017-09-05 | At&T Intellectual Property I, L.P. | System and method for language sensitive contextual searching |
US7941399B2 (en) | 2007-11-09 | 2011-05-10 | Microsoft Corporation | Collaborative authoring |
US8825758B2 (en) | 2007-12-14 | 2014-09-02 | Microsoft Corporation | Collaborative authoring modes |
US7984034B1 (en) * | 2007-12-21 | 2011-07-19 | Google Inc. | Providing parallel resources in search results |
US8301588B2 (en) | 2008-03-07 | 2012-10-30 | Microsoft Corporation | Data storage for file updates |
US8352870B2 (en) | 2008-04-28 | 2013-01-08 | Microsoft Corporation | Conflict resolution |
US8825594B2 (en) | 2008-05-08 | 2014-09-02 | Microsoft Corporation | Caching infrastructure |
US8429753B2 (en) | 2008-05-08 | 2013-04-23 | Microsoft Corporation | Controlling access to documents using file locks |
US20090287474A1 (en) * | 2008-05-16 | 2009-11-19 | Yahoo! Inc. | Web embedded language input arrangement |
US8417666B2 (en) | 2008-06-25 | 2013-04-09 | Microsoft Corporation | Structured coauthoring |
GB2461771A (en) * | 2008-07-11 | 2010-01-20 | Icyte Pty Ltd | Annotation of electronic documents with preservation of document as originally annotated |
US8346768B2 (en) | 2009-04-30 | 2013-01-01 | Microsoft Corporation | Fast merge support for legacy documents |
US8572109B1 (en) | 2009-05-15 | 2013-10-29 | Google Inc. | Query translation quality confidence |
US8577909B1 (en) | 2009-05-15 | 2013-11-05 | Google Inc. | Query translation using bilingual search refinements |
US8577910B1 (en) * | 2009-05-15 | 2013-11-05 | Google Inc. | Selecting relevant languages for query translation |
US8538957B1 (en) | 2009-06-03 | 2013-09-17 | Google Inc. | Validating translations using visual similarity between visual media search results |
US8990064B2 (en) | 2009-07-28 | 2015-03-24 | Language Weaver, Inc. | Translating documents based on content |
US10417646B2 (en) | 2010-03-09 | 2019-09-17 | Sdl Inc. | Predicting the cost associated with translating textual content |
US8930176B2 (en) * | 2010-04-01 | 2015-01-06 | Microsoft Corporation | Interactive multilingual word-alignment techniques |
CN102253930B (zh) * | 2010-05-18 | 2016-03-23 | 腾讯科技(深圳)有限公司 | 一种文本翻译的方法及装置 |
US20120005183A1 (en) * | 2010-06-30 | 2012-01-05 | Emergency24, Inc. | System and method for aggregating and interactive ranking of search engine results |
CN102479178A (zh) * | 2010-11-29 | 2012-05-30 | 英业达股份有限公司 | 地方方言翻译方法 |
US9864611B2 (en) * | 2010-12-15 | 2018-01-09 | Microsoft Technology Licensing, Llc | Extensible template pipeline for web applications |
US11003838B2 (en) | 2011-04-18 | 2021-05-11 | Sdl Inc. | Systems and methods for monitoring post translation editing |
US8224836B1 (en) * | 2011-11-02 | 2012-07-17 | Google Inc. | Searching in multiple languages |
US9043248B2 (en) * | 2012-03-29 | 2015-05-26 | International Business Machines Corporation | Learning rewrite rules for search database systems using query logs |
US10261994B2 (en) | 2012-05-25 | 2019-04-16 | Sdl Inc. | Method and system for automatic management of reputation of translators |
US9152622B2 (en) | 2012-11-26 | 2015-10-06 | Language Weaver, Inc. | Personalized machine translation via online adaptation |
US9251125B2 (en) | 2013-03-15 | 2016-02-02 | International Business Machines Corporation | Managing text in documents based on a log of research corresponding to the text |
CN103268326A (zh) * | 2013-05-02 | 2013-08-28 | 百度在线网络技术(北京)有限公司 | 一种个性化的跨语言检索方法及装置 |
GB2520226A (en) * | 2013-05-28 | 2015-05-20 | Ibm | Differentiation of messages for receivers thereof |
CN103279522A (zh) * | 2013-05-29 | 2013-09-04 | 苏州市米想网络信息技术有限公司 | 一种辅助提高软件 |
US9213694B2 (en) | 2013-10-10 | 2015-12-15 | Language Weaver, Inc. | Efficient online domain adaptation |
CN103914539A (zh) * | 2014-04-01 | 2014-07-09 | 百度在线网络技术(北京)有限公司 | 信息查询方法和装置 |
RU2014125471A (ru) | 2014-06-24 | 2015-12-27 | Общество С Ограниченной Ответственностью "Яндекс" | Способ обработки поискового запроса и сервер |
CN106407188A (zh) * | 2015-07-16 | 2017-02-15 | 中兴通讯股份有限公司 | 一种文档查错方法和装置 |
CN105138697B (zh) * | 2015-09-25 | 2018-11-13 | 百度在线网络技术(北京)有限公司 | 一种搜索结果的展现方法、装置及系统 |
CN106599083A (zh) * | 2016-11-24 | 2017-04-26 | 海南州云藏藏文信息技术有限公司 | 云藏藏文搜索引擎服务系统 |
CN108614830B (zh) * | 2016-12-12 | 2021-08-24 | 北京搜狗科技发展有限公司 | 一种搜索结果的展示方法和装置 |
CN108334526A (zh) * | 2017-01-20 | 2018-07-27 | 北京搜狗科技发展有限公司 | 搜索结果项的展示方法和装置 |
CN110929088B (zh) * | 2019-10-25 | 2023-08-25 | 哈尔滨师范大学 | 一种音乐搜索系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1192014A (zh) * | 1997-02-26 | 1998-09-02 | 蔡铭淙 | 以第二种文字检索以第一种文字建立之产业科技资料库的方法 |
CN1282928A (zh) * | 1999-07-28 | 2001-02-07 | 国际商业机器公司 | 提供本国语言查询服务的方法和系统 |
US6212537B1 (en) * | 1996-10-23 | 2001-04-03 | Mazda Motor Corporation | Document searching system for multilingual documents |
CN1295292A (zh) * | 1999-11-05 | 2001-05-16 | 国际商业机器公司 | 用于多语言万维网服务器的方法和系统 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1995012173A2 (en) * | 1993-10-28 | 1995-05-04 | Teltech Resource Network Corporation | Database search summary with user determined characteristics |
US6024571A (en) * | 1996-04-25 | 2000-02-15 | Renegar; Janet Elaine | Foreign language communication system/device and learning aid |
US6091415A (en) * | 1997-05-02 | 2000-07-18 | Inventec Corporation | System and method for displaying multiple dialog boxes in a window display |
JPH1173420A (ja) * | 1997-08-28 | 1999-03-16 | Sharp Corp | 文書処理装置及び文書処理プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP4183311B2 (ja) * | 1997-12-22 | 2008-11-19 | 株式会社リコー | 文書の注釈方法、注釈装置および記録媒体 |
US6347316B1 (en) * | 1998-12-14 | 2002-02-12 | International Business Machines Corporation | National language proxy file save and incremental cache translation option for world wide web documents |
AU6200300A (en) * | 1999-06-24 | 2001-01-09 | Simpli.Com | Search engine interface |
AU2001249777A1 (en) * | 2000-03-31 | 2001-10-15 | Amikai, Inc. | Method and apparatus for providing multilingual translation over a network |
US7107204B1 (en) * | 2000-04-24 | 2006-09-12 | Microsoft Corporation | Computer-aided writing system and method with cross-language writing wizard |
US6604101B1 (en) * | 2000-06-28 | 2003-08-05 | Qnaturally Systems, Inc. | Method and system for translingual translation of query and search and retrieval of multilingual information on a computer network |
JP3563682B2 (ja) * | 2000-09-12 | 2004-09-08 | 日本電信電話株式会社 | 次検索候補単語提示方法および装置と次検索候補単語提示プログラムを記録した記録媒体 |
-
2003
- 2003-09-27 CN CN03823420.3A patent/CN1685341B/zh not_active Expired - Fee Related
- 2003-09-27 CN CN201410171923.3A patent/CN103927375B/zh not_active Expired - Fee Related
- 2003-09-27 JP JP2004549974A patent/JP4664076B2/ja not_active Expired - Fee Related
- 2003-09-27 CA CA002500334A patent/CA2500334A1/en not_active Abandoned
- 2003-09-27 CN CNA038234203A patent/CN1685341A/zh active Granted
- 2003-09-27 EP EP03810763A patent/EP1588287A1/en not_active Ceased
- 2003-09-27 WO PCT/US2003/030629 patent/WO2004042615A1/en active Application Filing
- 2003-09-27 US US10/529,089 patent/US7111237B2/en not_active Expired - Lifetime
-
2010
- 2010-06-15 JP JP2010136223A patent/JP2010198644A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6212537B1 (en) * | 1996-10-23 | 2001-04-03 | Mazda Motor Corporation | Document searching system for multilingual documents |
CN1192014A (zh) * | 1997-02-26 | 1998-09-02 | 蔡铭淙 | 以第二种文字检索以第一种文字建立之产业科技资料库的方法 |
CN1282928A (zh) * | 1999-07-28 | 2001-02-07 | 国际商业机器公司 | 提供本国语言查询服务的方法和系统 |
CN1295292A (zh) * | 1999-11-05 | 2001-05-16 | 国际商业机器公司 | 用于多语言万维网服务器的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
JP2010198644A (ja) | 2010-09-09 |
JP4664076B2 (ja) | 2011-04-06 |
CA2500334A1 (en) | 2004-05-21 |
EP1588287A1 (en) | 2005-10-26 |
CN1685341A (zh) | 2005-10-19 |
CN103927375A (zh) | 2014-07-16 |
US20060129915A1 (en) | 2006-06-15 |
JP2006502510A (ja) | 2006-01-19 |
CN1685341B (zh) | 2014-09-10 |
WO2004042615A1 (en) | 2004-05-21 |
US7111237B2 (en) | 2006-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103927375B (zh) | 跨语言搜索结果的闪烁注释标注加亮 | |
US5842206A (en) | Computerized method and system for qualified searching of electronically stored documents | |
US6714905B1 (en) | Parsing ambiguous grammar | |
US6745181B1 (en) | Information access method | |
US6711561B1 (en) | Prose feedback in information access system | |
US7376641B2 (en) | Information retrieval from a collection of data | |
KR101732342B1 (ko) | 신뢰 질의 시스템 및 방법 | |
US8639708B2 (en) | Fact-based indexing for natural language search | |
JP3027052B2 (ja) | 文書検索システム | |
US20030115552A1 (en) | Method and system for automatic creation of multilingual immutable image files | |
US20110087961A1 (en) | Method and System for Assisting in Typing | |
US20020161569A1 (en) | Machine translation system, method and program | |
US20060122997A1 (en) | System and method for text searching using weighted keywords | |
EP1221110A2 (en) | Apparatus for and method of searching | |
US20050065920A1 (en) | System and method for similarity searching based on synonym groups | |
US7343372B2 (en) | Direct navigation for information retrieval | |
US8640017B1 (en) | Bootstrapping in information access systems | |
US7127450B1 (en) | Intelligent discard in information access system | |
US8478732B1 (en) | Database aliasing in information access system | |
JPH0793345A (ja) | 文書検索装置 | |
Iyer et al. | AgroExplorer: a Meaning Based Multilingual Search Engine | |
WO2009029922A2 (en) | Fact-based indexing for natural language search | |
CA2342293A1 (en) | System and method for the acquisition, conversion, categorization and retrieval of data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20170420 Address after: Ontario Applicant after: Improved search Co Ltd Address before: American California Applicant before: QNATURALLY SYSTEMS INC |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170623 Termination date: 20190927 |
|
CF01 | Termination of patent right due to non-payment of annual fee |