CN1448868A - 交叉语言信息检索装置和方法 - Google Patents

交叉语言信息检索装置和方法 Download PDF

Info

Publication number
CN1448868A
CN1448868A CN03108384A CN03108384A CN1448868A CN 1448868 A CN1448868 A CN 1448868A CN 03108384 A CN03108384 A CN 03108384A CN 03108384 A CN03108384 A CN 03108384A CN 1448868 A CN1448868 A CN 1448868A
Authority
CN
China
Prior art keywords
term
language
file
retrieval
searched targets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN03108384A
Other languages
English (en)
Other versions
CN1253820C (zh
Inventor
酒井哲也
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of CN1448868A publication Critical patent/CN1448868A/zh
Application granted granted Critical
Publication of CN1253820C publication Critical patent/CN1253820C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation

Abstract

本发明提供了交叉语言信息检索装置和方法。机器翻译部分将输入部分输入的检索请求机器翻译成与检索目标文件相同的语言。直译部分将检索请求内机器翻译部分没能翻译的表音符号转换成与检索目标文件相同的语言内的表音符号。检索部分根据机器翻译部分产生的检索词和直译部分提供的检索词从文件数据库中检索包括这些检索词的文件。

Description

交叉语言信息检索装置和方法
相关申请的交叉引用
本申请基于2002年3月28日递交的在先日本专利申请No.2002-092925,并要求享受该日本专利申请的优先权,该日本专利申请的全部内容在此列为参考予以引用。
技术领域
本发明涉及在检索请求的语言与检索目标文件的语言相互不同时实现检索的交叉语言信息检索系统(cross-language informationretrieval system)。
背景技术
最近几年中,业已增加了对交叉语言信息检索的需要,例如用日语检索英语文件,或者用英语从包括法语、德语或西班牙语文件的数据库中进行检索。
上述应用的方法大致可以分为以下(1)至(3)三类:
(1)将检索请求翻译成检索目标的语言;
(2)将检索目标翻译成检索请求的语言;
(3)将检索请求和检索目标转换为不取决于语言的中间表示方式。
实际上,主要应用的是翻译成本低的(1)。
作为翻译检索请求的主要资源,有(a)机器翻译、(b)双语词表和(c)平行语言资料库。(c)包括大量的文件数据及其双语文献,双语资料必须用统计技术之类从中提取,但是完全自动获得的双语资料不一定高度可靠。
(b)是一种机械地接入一个日英词典的方法,例如在输入检索请求“情報,検索”时,对每个词执行象“情報→information”或“検索→search”那样的替换,再根据“information,search”执行检索。
然而,在这样按照每个词得到一个对等词时,就不能实现考虑语境的翻译。例如,在以上情况下,获取进一步的适当检索条件“information,retrieval”就可能会失败。
虽然很难开发一种机器翻译系统(a),可以通过输入一个母语句子作为检索请求分析和翻译整个句子,但是通常可以认为与(b)或(c)相比较可以得到更为正确的翻译。本发明涉及利用(1)检索请求翻译和(a)机器翻译的交叉语言信息检索方法。
然而,无论机器翻译系统多么有效,没有登录在机器翻译词典内的词,例如新流行的字、技术名词或公司名称,是不能成功翻译的。
例如,母语为英语的用户输入一个技术名词“instanton”作为检索请求,如果机器翻译没能将这个词翻译成一个日语对等词就不能实现对日语文件的检索。相反,如果一个日本用户输入“ィンスタントン”,如果机器翻译没能将这个词翻译成英语的对等词就不能实现对英语文件的检索。
如上所述,作为一种众所周知的被认为适合于翻译词典外的词的技术,是直译。例如,对于日语和英语来说,这种技术预先准备了表音符号(phonogram)的基本对应关系,例如“ィン←→in”、“ン←→n”和“トン←→ton”,再根据它们的组合实现例如“instanton→ィンスタントン”或“ィンスタントン→instanton”的转换。
例如,作为一种实现的方法,有日本专利申请特开公开No.1997-69109“文件检索方法和文件检索装置”(“document retrievalmethod and document retrieval apparatus”)。这个公开文件揭示了一种实现在根据日语检索请求执行对日语文件的检索时自动执行例如对“ィンスタントン→instanton”的直译的具体直译的方法,假设一个申请用两个检索字“ィンスタントン”和“instanton”而不是只用片假名字符串“ィンスタントン”提取,同时允许这个词以英语按照原样出现在日语文件中。
然而,在由本发明处理的交叉语言检索的环境中,很难只用直译处理检索请求的翻译。例如,在用日语提取一个英语文件时,直译只能用于在检索请求内的片假名词。
发明内容
因此,本发明的一个目的是在一个在检索请求的语言与检索目标文件的语言不同时实现检索的交叉语言信息检索系统内以实现检索请求的准确和可靠的翻译,从而也实现高度准确的交叉语言检索。
按照本发明的一个实施例,提供了一种在检索请求的第一语言与检索目标文件的语言不同时实现文件检索的交叉语言信息检索装置,这种设备包括:一个存储含有各检索词的诸文件的文件数据库,按照多个检索词存储每个文件;一个输入检索请求的输入装置;一个机器翻译装置,用来将输入装置输入的检索请求翻译成与检索目标文件关联的第二语言和以检索目标文件的语言产生第一检索词;一个直译装置,用来将检索请求内的机器翻译设备不能翻译的一个表音符号转换成与检索目标文件关联的第二语言内的一个表音符号,以检索目标文件的语言提供一个结果作为第二检索词;以及一个检索装置,用来从文件数据库提取包括第一检索词和第二检索词的文件。
附图说明
图1为示出按照本发明设计的交叉语言检索系统的一个实施例的结构的示意图;
图2为示出第一实施例内翻译部分的处理的例子的流程图;
图3为示出第一实施例内直译部分的处理的例子的流程图;
图4A和4B为示出直译部分所用的转换规则的数据结构的例子的示意图;
图5为示出第一实施例内检索部分14的处理的例子的流程图;
图6为示出检索部分得到的检索结果的例子的示意图;
图7示出了按照本发明设计的交叉语言检索系统的第二实施例的结构;
图8为示出第二实施例内翻译部分的处理的例子的流程图;
图9为示出第二实施例内直译部分的处理的例子的流程图;
图10为示出在第一实施例中在将机器翻译结果和直译结果给用户判别、比较从中选择检索词时的屏幕显示例子的示意图;以及
图11为示出在第二实施例中在将机器翻译结果和直译结果给用户判别、比较从中选择检索词时的屏幕显示例子的示意图。
具体实施方式
下面将说明本发明的一些实施例,但这并不对本发明的设备和方法有所限制。
图1示出了按照本发明设计的交叉语言检索系统的一个实施例的结构。
这个设备包括输入部分11、输出部分12、登录部分13、检索部分14、翻译部分15和直译部分16。
在这里,输入部分11和输出部分12相应于计算机的用户接口,硬件上相当于诸如键盘或鼠标之类的输入装置和诸如计算机显示器之类的输出装置。另一方面,登录部分13、检索部分14、翻译部分15和直译部分16相应于计算机的程序。
下面将首先说明这个设备的整个处理流程的概况,然后再说明一些主模块的处理流程。
整个处理流程
象一个常规的情检索系统那样,登录部分13事先读出作为检索目标的文件数据17,对文件进行分析,生成一个文件数据库(索引)18。文件数据17包括多个文件。作为这样的文件,包括在诸如科学、医学、娱乐、体育之类的任何技术领域内的文件,可以是报纸或专利刊物之类。登录部分13检测在每个文件内包括的检索词(关键词),生成指出每个检索词包括在哪个文件内的文件数据库18。在文件数据库18内,含有检索词的文件的文件ID按照多个检索词登记到一个表。在有些情况下,多个文件可以含有相同的检索词。在这种情况下,在用一个检索词对文件数据库18执行检索时,就会提供多个文件作为检索结果。
用户将一个任意的检索请求输入输入部分11。这个检索请求是一个母语句子,或者一个词组或词。在这里,由于假设是交叉语言检索,因此在文件数据17例如是用英语写的时,用户的检索请求是以一种语言,例如是日语,而不是英语输入。
输入的检索请求首先传送到翻译部分15。翻译部分15试图对检索请求进行机器翻译,产生检索词。此时,只将没能翻译的部分传送给直译部分16。这里,机器翻译包括日语到英语的翻译、英语到日语的翻译,或者从任何其他语言到另一种语言的翻译。直译部分16通过直译以与文件数据相同的语言产生检索词。最后,检索部分14从翻译部分15和直译部分16接收检索词,在文件数据库18内进行检索,将结果传送给输出部分12。
下面将对作为本发明核心的翻译部分15、直译部分16和检索部分14的处理进行详细说明。
翻译部分15的处理流程
图2示出了在第一实施例内翻译部分15的处理流程的例子。
从输入部分11接收到检索请求后,翻译部分15就对这个检索请求执行机器翻译(S101,S102)。例如,在检索请求以日语词组“ィンスタントンが実在すゐ証 ”的形式给出而文件数据17是用英语写的时,检索请求就由日语到英语的机器翻译进行翻译。
然后,可能从机器翻译得到一个指出原始语言和翻译语言的对应关系的数据结构,例如“(ィンスタントン:[词典外的词]),(実在:exist),(証
Figure A0310838400092
:evidence)”。顺便说一下,在这个例子中假设词“ィンスタントン”没能翻译,因为它没有登入机器翻译词典19。
在上述情况下,翻译部分15将字符串“ィンスタントン”作为没能翻译的部分传送给直译部分16(S103)。然后,将对等词“existence”和“evidence”作为成功翻译的部分传送给检索部分14作为检索词(S104)。
直译部分16的处理流程
图3示出了在第一实施例内直译部分16的处理流程的例子。
从翻译部分15接收到一个字符串后,直译部分16从这个字符串中只提取一个表音符号串(S201,S202)。在说明翻译部分15时所提供的这个例子中,字符串“ィンスタントン”传送给直译部分16,但这是一个不包括汉字之类的作为一个整体的表音符号串,从而成为按照原样直译的目标。在日语到英语转换的情况下,直译部分16从输入的字符串中提取片假名作为转换目标。
在这种情况下,直译部分16用稍后将说明的转换规则20等将表音符号串“ィンスタントン”转换成与文件数据17相同的语言内的表音符号串(S203)。例如,在文件数据17是用英语写的时,将“ィンスタントン”转换成“instanton”之类。最后,直译部分16将转换结果提供给检索部分14(S204)。
在本发明中,对直译技术并没有限制,例如可以采用如在上面提到的日本专利申请特开公开No.1997-69109中所揭示的技术。这里,将说明直译技术的一个例子,但这本身并不是本发明的核心。
图4A和4B示出了直译部分16所用的转换规则20的数据结构的例子。
图4A示出了将一个英语字符串转换成一个日语片假名字符串的规则的例子,图4B示出了将日语片假名字符串转换成英语字符串的规则的例子。
例如,图4A中的第一个词条给出了字符串“web”转换成“ウエブ”的概率为0.9而转换成“ウエッブ”的概率为0.1的信息。
此外,第三个词条给出字符串“sta”转换成“スタ”的概率为0.7而转换成“スティ”的概率为0.3的信息。(这是因为例如“sta”在“stack”或“statistic”内发音如“スタ”,而“sta”在“station”之类内发音如“スティ”)。相反,图4B中第二个词条给出字符串“サィト”转换成“site”的概率为0.6、转换成“cite”的概率为0.2和转换成“sight”的概率为0.2的信息。
这样的规则必须事先制定。例如,在采用如图4A所示的转换规则的情况下,在提供了一个字符串“website”时,直译部分16首先将它分解成“web”和“site”,再用转换规则核对。因此,可以得到转换结果“ウエブサィト”和“ウエッブサィト”。
此外,根据在转换规则中给出的“ウエブ”、“ウエッブ”和“サィト”的概率,通过计算每个转换结果的出现概率(实际用的转换结果的概率),例如为0.9×1.0=0.9和0.1×1.0=0.1,就很容易为多个转换结果提供各自的优先等级。而且,通常可以按概率次序输出一个或几个转换结果。
同样,如果采用如图4B所示的转换规则,在提供了一个字符串“ィンスタントン”时,根据图4B中的第三个词条和其他词条按优先等级可以得到诸如“instanton”、“imstanton”和“innstanton”之类的候选词。
检索部分14的处理流程
图5示出了在第一实施例内检索部分14的处理流程的例子。
检索部分14从翻译部分15和直译部分16接收检索词(S301,S302)。在说明翻译部分15所给出的例子中,从翻译部分15得到“exist”和“evidence”和从直译部分16得到“instanton”(“imstanton”,“innstanton”)。于是,将这些词认为是检索词,生成检索条件,执行检索,将检索结果提供给输出部分12(S303至S305)。
作为一种变型,可以分别执行用翻译部分15给出的检索词的检索和用直译部分16给出的检索词的检索,再将两个检索结果合并在一起,从而最后得到一个检索结果。具体地说,例如可以考虑根据在两个检索结果内的文件得分的和或平均值得出各个文件得分。
图6示出了检索结果的例子。
在这个例子中,检索部分14首先从文件数据库18提取一个包括“exist”的文件。在有命中时(在存在一个包括“exist”的文件时),记录这个文件的文件ID和在同一个文件有多个命中的情况下将文件内的命中数乘以例如10点所得到的点值。对于“evidence”、“instanton”、“imstanton”和“innstanton”,同样录取命中文件的文件ID和这个文件的点值。然后,检索部分14a录取将各个命中文件得到的点值相加后得到的值作为得分。最后,检索部分14按照这些得分确定这些文件的优先级,按照得分排列命中文件的文件ID(或文件名),再将结果提供给输出部分12。
采用上述处理,由于直译(transliteration)在机器翻译没能翻译词典外的词时起着一个备用机制的作用,因此有可能实现高度准确的检索请求翻译和高度准确的交叉语言检索。
下面将说明按照本发明设计的第二实施例。图7示出了按照这个实施例设计的交叉语言检索系统。
在这个实施例中交叉语言检索系统的结构与第一实施例不同的是用户输入的检索请求从输入部分11同时提供给翻译部分15和直译部分16。下面将就差别进行说明。
翻译部分15的处理流程
图8示出了在这个实施例中翻译部分15b的处理流程的例子。
翻译部分15b从输入部分11接收检索请求后,用机器翻译进行翻译(S401,S402)。然后,将成功翻译部分的对等部分提供给检索部分14b(S403)。如稍后要详细说明的那样,在为用户显示对等信息时,也将对等信息提供给输出部分12。
例如,如果作为检索请求给出的是英语词组“Risk factors ofheart diseases”而要执行对日语文件的搜索,假设机器翻译内部得到一个数据结构“(risk factor:危険因子),(heart disease:心疾患)”。此时,翻译部分15b就将“危険因子”和“心疾患”提供给检索部分14b作为检索词。
直译部分16的处理流程
图9示出了在第二实施例内直译部分16b的处理流程的例子。
直译部分16b从输入部分11接收到检索请求后,从这个检索请求中只提取表音符号串(S501,S502)。在上面提到的“Risk factorsof heart diseases”的例子中,由于整个输入是英语词组,因此所有的词都是表音符号串。因此,对诸如“risk”、“factor”、“heart”和“disease”各词用就第一实施例说明的转换规则执行直译(S503)。注意,诸如“of”之类的前置词、冠词、连接词等可以通过与一个称为“无用词表”的表进行对照后予以删除。此外,在这个例子中规定机械地剔除添加在每个词未端的“s”。
例如,假设通过直译对于“risk”、“factor”和“heart”得到正确的转换结果“リスク”、“ファクタ”和“ハ-ト”,但是对于“disease”得到一个错误的转换结果“ディシ-セ”。(例如,可以认为这个结果是由转换规则“di:ディ”、“sea:シ-”和“se:セ”得出的。)很难保证这样直译会得到一个正确的转换结果,但是直译部分16b将所有得到的转换结果(“リスク”,“ファクタ”,“ハ-ト”,“ディシ-セ”)全部提供给检索部分14b作为检索词(S504)。
虽然检索部分14b的处理流程与在第一实施例中的相同,但是不但从翻译部分15b获得“危険因子”和“心疾患”而且可以从直译部分16b获得“リスク”、“ファクタ”、“ハ-ト”和“ディシ-セ”,因此检索部分14b用所有的这些词执行搜索。
这里,假设文件数据库18内有一个日语文件与英语检索请求“Risk factors of heart diseases”匹配,在这个文件中出现词语“心疾患のリスクファクタ”但是没有出现词语“危険因子”。
在这种情况下,采用第一实施例的方法从翻译部分得到一个内部数据结构“(risk factor:危険因子),(heart disease:心疾患)”,而不检测词典外的词。因此,直译部分16b不操作。
也就是说,只用“危険因子”和“心疾患”执行搜索。因此,有可能在检索结果的顶上出现一个大量含有“危険因子”和“心疾患”的文件而不是含有词语“心疾患のリスクファクタ”的适当文件。
但是,由于在这个实施例中无论机器翻译是否能翻译都执行直译,因此在检索结果的上部会出现一个适当的文件。
应当注意的是,如果检索是根据一个诸如在以上例子中的“ディシ-セ”之类的不适当的转换结果执行的,那么在很多情况下这样的词不能命中实际文件。因此,可以认为这种对检索准确性有不利影响的可能性是很小的。
基于优先级产生检索条件
此外,在第一和第二实施例中,检索部分14可以判定机器翻译结果和直译结果的优先级,将这个优先级反映给检索条件。例如,如果结合第一实施例说明的每个转换结果的出现概率仅仅是一个固定值,那么检索词在转换结果后的权重就可能降低。
具体地说,如果输入的检索请求是用英语写的,文件数据是用日语写的,而转换规则如图4A所示,那么可以得到字符串“website”转换成字符串“ウエブサィト”的出现概率为0.9×1.0=0.9。因此,转换结果“ウエブサィト”的可靠性可以认为是高的。在这种情况下,转换结果的检索词权重等于机器翻译结果的检索词权重。
相反,如果输入检索请求是用日语写的,文件数据是用英语写的,而转换规则如图4B所示的那样,那么得到字符串“ウエブサィト”转换成“website”的出现概率为0.8×0.6=0.48。在这种情况下,直译得到的“website”的检索词权重与机器翻译得到的检索词权重相比是降低了。通常,由于在执行从片假名逆转换成英语时模糊度比在从英语转换成片假名时高,因此可靠性趋于比较低。
此外,在第二实施例中,在对于同一个词得到机器翻译、直译两个结果时,也可以考虑按照直译结果的出现概率采用其中一个结果作为检索词。
为用户显示/由用户选择
此外,在第一和第二实施例中,可以将机器翻译的结果和直译的结果给用户判别和比较,用户因此可以进行选择。
图10示出了在将机器翻译结果和直译结果给用户判别和比较从而使用户可以从中选择一个结果作为检索词时的屏幕的显示例子。
在这个例子中,假设用户输入日语检索请求“ィンスタントンが実在すゐ証
Figure A0310838400151
”,而所检索的的英语文件。
在一个“机器翻译结果”的面板上“実在”和“証
Figure A0310838400152
”分别被译成检索词“exist”和“evidence”,但是斜线指出“ィンスタントン”不能翻译。在这里,诸如作为与“証 ”相应的检索词的“proof”之类的对等词可以显示为一个具有低优先级的检索词。在屏栏“直译结果”内,按优先等级次序(即出现概率的次序)显示与“ィンスタントン”相应的多个直译结果。
用户可以很容易通过操作为各候选检索词给出的复选框确定采用哪个检索词。在图10这种情况下,用作为直译结果的“instanton”和作为机器翻译结果的“exist”和“evidence”三个检索词执行对英语文件的搜索。
图11示出了在将机器翻译结果和直译结果给用户判别和比较、请求用户选择其中之一作为检索词时的屏幕的显示例子。
图10示出了根据日语检索结果执行对英语文件的搜索的例子,而图11示出了根据英语检索请求对日语文件执行搜索的例子,假设用户输入以上说明的“Risk factors of heart diseases”作为检索请求。
在第二实施例中,由于翻译部分15b和直译部分16b独立操作,“机器翻译”示出“riskfactor”已译成“危険因子”,而“heartdisease”已译成“心疾患”,但是屏栏“transliteration(直译)”示出直译已得出字符串“リスク”、“ファクタ”、“ハ-ト”和“デシ-セ”。
象图10那样,用户可以通过操作每个候选检索词的复选框来选择检索词。此外,用户可以通过操作就在词“机器翻译”和“直译”下的复选框选择只用机器翻译结果的搜索、只用直译结果的搜索或用机器翻译结果和直译结果的搜索。
在将机器翻译结果和直译结果给用户判别和比较而检索词的最终选择由用户确定时,用户可以学习区别机器翻译有益的场合和直译有益的场合,可以认为具有机器翻译的准确性和对于词典外的词直译的可靠性的优点的交叉语言检索可以容易取得成功。
对于熟悉该技术领域的人员来说其他的优点和变型都是显而易见的。因此,本发明在各方面都不局限于在这里所示出和说明的具体细节和典型实施例。因此,根据如所附权利要求书给出的本发明的精神所作出的各种修改都应属于本发明的专利保护范围。

Claims (12)

1.一种在检索请求所使用的第一语言与检索目标文件所使用的语言不同时实现文件检索的交叉语言信息检索设备,所述设备包括:
一个存储含有各检索词的诸文件的文件数据库,其中按照多个检索词存储每个文件;
一个输入检索请求的输入装置;
一个机器翻译装置,用来将输入装置输入的检索请求翻译成与检索目标文件关联的第二语言和以检索目标文件的语言产生第一检索词;
一个直译装置,用来将检索请求内机器翻译设备不能翻译的表音符号转换成与检索目标文件关联的第二语言内的表音符号,以检索目标文件的语言提供一个结果作为第二检索词;以及
一个检索装置,用来从文件数据库检索包括第一检索词和第二检索词的文件。
2.按照权利要求1所述的设备,其中所述检索装置包括一个优先级判断装置,用来自动判定机器翻译装置产生的第一检索词和直译装置提供的第二检索词的优先级,而且在以与检索目标文件关联的第二语言生成检索条件时反映该优先级。
3.按照权利要求1所述的设备,所述设备还包括一个显示装置,用来显示机器翻译装置产生的第一检索词和直译装置提供的第二检索词。
4.按照权利要求3所述的设备,其中所述显示装置包括一个选择装置,用来从所显示的检索词中选择任何一个检索词,以便检索装置执行检索。
5.一种在检索请求所使用的第一语言与检索目标文件所使用的语言不同时实现文件检索的交叉语言信息检索设备,所述设备包括:
一个存储含有各检索词的文件的文件数据库,按照各检索词存储每个文件;
一个输入检索请求的输入装置;
一个机器翻译设备,用来将输入装置输入的检索请求翻译成与检索目标文件关联的第二语言和以检索目标文件的语言产生第一检索词;
一个直译装置,用来将输入装置输入的检索请求转换成与检索目标文件关联的第二语言内的表音符号,以检索目标文件的语言提供一个结果作为第二检索词;以及
一个检索装置,用来检索包括第一检索词和第二检索词的文件。
6.按照权利要求5所述的设备,其中所述检索装置包括一个优先级判断装置,用来自动判定机器翻译装置产生的第一检索词和直译装置提供的第二检索词的优先级,而且在以与检索目标文件关联的第二语言生成检索条件时反映该优先级。
7.按照权利要求5所述的设备,所述设备还包括一个显示装置,用来显示机器翻译装置产生的第一检索词和直译装置提供的第二检索词。
8.按照权利要求7所述的设备,其中所述显示装置包括一个选择装置,用来从所显示的检索词中选择任何一个检索词,以便检索装置执行检索。
9.一种用于在检索请求所使用的第一语言与检索目标文件所使用的语言不同时实现文件检索的交叉语言信息检索设备的文件检索方法,所述方法包括下列步骤:
检测在多个文件内包括的检索词,将指出哪个文件包括相应检索词的信息登录到一个文件数据库;
输入检索请求;
将输入的检索请求翻译成与检索目标文件关联的第二语言和以检索目标文件的语言产生第一检索词;
将检索请求内机器翻译不能翻译的表音符号转换成与检索目标文件关联的第二语言内的表音符号,以检索目标文件的语言提供一个结果作为第二检索词;以及
检索包括第一检索词和第二检索词的文件。
10.按照权利要求9所述的方法,所述方法还包括显示机器翻译产生的第一检索词和直译提供的第二检索词的步骤。
11.按照权利要求10所述的方法,所述方法还包括使用户选择任何所显示的检索词以便执行检索的步骤。
12.一种用于在检索请求所使用的第一语言与检索目标文件所使用的语言不同时实现文件检索的在交叉语言信息检索设备内执行文件检索的文件检索程序,所述程序包括:
检测在多个文件内包括的检索词,将指出哪个文件包括相应检索词的信息登录到一个文件数据库;
输入检索请求;
将输入的检索请求翻译成与检索目标文件关联的第二语言和以检索目标文件的语言产生第一检索词;
将检索请求内机器翻译不能翻译的表音符号转换成与检索目标文件关联的第二语言内的表音符号,以检索目标文件的语言提供该表音符号作为第二检索词;以及
检索包括第一检索词和第二检索词的文件。
CNB031083846A 2002-03-28 2003-03-28 交叉语言信息检索设备和方法 Expired - Fee Related CN1253820C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP092925/2002 2002-03-28
JP2002092925A JP2003288360A (ja) 2002-03-28 2002-03-28 言語横断情報検索装置及び方法

Publications (2)

Publication Number Publication Date
CN1448868A true CN1448868A (zh) 2003-10-15
CN1253820C CN1253820C (zh) 2006-04-26

Family

ID=28786165

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB031083846A Expired - Fee Related CN1253820C (zh) 2002-03-28 2003-03-28 交叉语言信息检索设备和方法

Country Status (3)

Country Link
US (1) US20030200079A1 (zh)
JP (1) JP2003288360A (zh)
CN (1) CN1253820C (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729386A (zh) * 2012-10-16 2014-04-16 阿里巴巴集团控股有限公司 信息查询系统与方法
CN110866408A (zh) * 2018-08-28 2020-03-06 本田技研工业株式会社 数据库制作装置以及检索系统

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4064748B2 (ja) * 2002-07-22 2008-03-19 アルパイン株式会社 音声発生装置、音声発生方法及びナビゲーション装置
US7437284B1 (en) * 2004-07-01 2008-10-14 Basis Technology Corporation Methods and systems for language boundary detection
US7376648B2 (en) * 2004-10-20 2008-05-20 Oracle International Corporation Computer-implemented methods and systems for entering and searching for non-Roman-alphabet characters and related search systems
US20070022134A1 (en) * 2005-07-22 2007-01-25 Microsoft Corporation Cross-language related keyword suggestion
US7672831B2 (en) * 2005-10-24 2010-03-02 Invention Machine Corporation System and method for cross-language knowledge searching
WO2009049049A1 (en) * 2007-10-09 2009-04-16 Language Analytics Llc Method and system for adaptive transliteration
US7984034B1 (en) * 2007-12-21 2011-07-19 Google Inc. Providing parallel resources in search results
GB2473374A (en) 2008-05-09 2011-03-09 Research In Motion Ltd Method of e-mail address search and e-mail address transliteration and associated device
US8332205B2 (en) * 2009-01-09 2012-12-11 Microsoft Corporation Mining transliterations for out-of-vocabulary query terms
CN102439590A (zh) 2009-03-13 2012-05-02 发明机器公司 用于自然语言文本的自动语义标注的系统和方法
US8577910B1 (en) 2009-05-15 2013-11-05 Google Inc. Selecting relevant languages for query translation
US8572109B1 (en) 2009-05-15 2013-10-29 Google Inc. Query translation quality confidence
US8577909B1 (en) * 2009-05-15 2013-11-05 Google Inc. Query translation using bilingual search refinements
US8538957B1 (en) 2009-06-03 2013-09-17 Google Inc. Validating translations using visual similarity between visual media search results
US9904436B2 (en) 2009-08-11 2018-02-27 Pearl.com LLC Method and apparatus for creating a personalized question feed platform
US20140114986A1 (en) * 2009-08-11 2014-04-24 Pearl.com LLC Method and apparatus for implicit topic extraction used in an online consultation system
US9646079B2 (en) 2012-05-04 2017-05-09 Pearl.com LLC Method and apparatus for identifiying similar questions in a consultation system
US8442964B2 (en) * 2009-12-30 2013-05-14 Rami B. Safadi Information retrieval based on partial machine recognition of the same
US20110218796A1 (en) * 2010-03-05 2011-09-08 Microsoft Corporation Transliteration using indicator and hybrid generative features
US9275038B2 (en) 2012-05-04 2016-03-01 Pearl.com LLC Method and apparatus for identifying customer service and duplicate questions in an online consultation system
US9501580B2 (en) 2012-05-04 2016-11-22 Pearl.com LLC Method and apparatus for automated selection of interesting content for presentation to first time visitors of a website
US9176936B2 (en) * 2012-09-28 2015-11-03 International Business Machines Corporation Transliteration pair matching
US20140244237A1 (en) * 2013-02-28 2014-08-28 Intuit Inc. Global product-survey
US9922351B2 (en) 2013-08-29 2018-03-20 Intuit Inc. Location-based adaptation of financial management system

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729386A (zh) * 2012-10-16 2014-04-16 阿里巴巴集团控股有限公司 信息查询系统与方法
CN103729386B (zh) * 2012-10-16 2017-08-04 阿里巴巴集团控股有限公司 信息查询系统与方法
CN110866408A (zh) * 2018-08-28 2020-03-06 本田技研工业株式会社 数据库制作装置以及检索系统
CN110866408B (zh) * 2018-08-28 2023-10-24 本田技研工业株式会社 数据库制作装置以及检索系统

Also Published As

Publication number Publication date
US20030200079A1 (en) 2003-10-23
CN1253820C (zh) 2006-04-26
JP2003288360A (ja) 2003-10-10

Similar Documents

Publication Publication Date Title
CN1253820C (zh) 交叉语言信息检索设备和方法
CN1834955A (zh) 多语种翻译存储器、翻译方法以及翻译程序
US8041557B2 (en) Word translation device, translation method, and computer readable medium
CN1159661C (zh) 用于中文的标记和命名实体识别的系统
CN1855090A (zh) 用于将日文翻译成中文的装置和方法
CN1815471A (zh) 信息检索系统、方法和程序
CN101079028A (zh) 一种统计机器翻译中的在线翻译模型选择方法
CN1928862A (zh) 基于数据挖掘获取词或词组单元译文信息的系统和方法
US8423350B1 (en) Segmenting text for searching
CN1770144A (zh) 机器翻译系统及方法
JP2003141115A (ja) 単語間の翻訳関係を計算する方法
CN101030267A (zh) 自动问答方法及系统
CN1838148A (zh) 电子设备和记录介质
CN101034392A (zh) 语法分析方法、装置及存储语法分析程序的产品
US20110218796A1 (en) Transliteration using indicator and hybrid generative features
WO2008106439A2 (en) Name indexing for name matching systems
EP2359264A2 (en) Named entity transliteration using corporate corpora
CN1687925A (zh) 一种实现双语网页搜索的方法
JP2013206397A (ja) 機械翻訳装置、機械翻訳方法及び機械翻訳プログラム
US8670974B2 (en) Acquisition of out-of-vocabulary translations by dynamically learning extraction rules
CN101079268A (zh) 进行手语合成与显示的系统和方法
CN1542648A (zh) 用于词分析的系统和方法
US9146918B2 (en) Compressing data for natural language processing
Shekhar et al. Linguistic structural framework for encoding transliteration variants for word origin detection using bilingual lexicon
JP4486324B2 (ja) 類似単語検索装置、この方法、このプログラム、および情報検索システム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee