CN101520777A - 用于机器翻译的设备和方法 - Google Patents
用于机器翻译的设备和方法 Download PDFInfo
- Publication number
- CN101520777A CN101520777A CN200910007558A CN200910007558A CN101520777A CN 101520777 A CN101520777 A CN 101520777A CN 200910007558 A CN200910007558 A CN 200910007558A CN 200910007558 A CN200910007558 A CN 200910007558A CN 101520777 A CN101520777 A CN 101520777A
- Authority
- CN
- China
- Prior art keywords
- statement
- target language
- translation
- source language
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/47—Machine-assisted translation, e.g. using translation memory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及用于机器翻译的设备和方法。在一种机器翻译设备中,在范例存储单元中存储目标语言形式的目标语言范例和源语言形式的源语言范例,同时彼此对应地保持目标语言范例和源语言范例。输入接收单元接收所述源语言形式的输入语句。搜索单元在所述范例存储单元中搜索所述目标语言范例中对应于所述源语言范例中匹配或类似所述输入语句的一个范例的一个范例。翻译单元通过将所述搜索中找到的所述目标语言范例之一翻译成所述源语言形式来产生反向翻译语句。检测单元检测所述反向翻译语句和所述输入语句之间的差异部分。输出单元输出所述差异部分。
Description
技术领域
本发明涉及一种用于将已输入的源语言语句翻译成目标语言语句的机器翻译设备和机器翻译方法。
背景技术
随着自然语言处理技术的发展,机器翻译设备得到了发展,这种设备接收以源语言表达的源语言语句的输入、将输入语句转换成期望目标语言的语句并输出转换结果。例如,将日文表达的文本等翻译成诸如英文或中文之类的另一种语言的机器翻译设备已经投入实际使用。为了以更高水平的精确度更忠实地翻译源语言的输入语句,这种机器翻译设备需要包括能够针对自然语言的多样性和歧义找到充分的解决方案的机构。
例如,JP-A2000-10974(特开)提出了一种技术,利用该技术,通过与用户交互来补充源语言语句中缺少的格要素(case element)。该技术实现了针对源语言语句翻译期间出现的歧义提供解决方案并实现了高水平的精确度而不会造成分析错误的翻译设备。
然而,有这样一些情形,其中,即使源语言语句没有分析歧义,该翻译设备也不能够产生充分反映源语言语句暗含目的的翻译语句。例如,由于文化背景、措辞或语用的原因,任何源语言都有通常省略的某些单词或短语。情况常常是省略这样的单词或短语不会导致源语言中的文法问题。于是,难以检测到这种情况:在翻译涉及到省略这种单词或短语的源语言语句时,翻译语句未适当反映出源语言语句的暗含目的。
此外,一般而言,机器翻译设备的用户通常对目标语言了解不够。于是,用户极难检查该设备输出的翻译语句以判定翻译语句未恰当反映用户目的并进一步再次输入带补充信息的源语言语句以获得更适当的翻译语句。
发明内容
根据本发明的一个方面,一种机器翻译设备,其包括:范例存储单元,其彼此对应地存储目标语言形式的多个目标语言范例和源语言形式的多个源语言范例,所述多个目标语言范例中的每一个目标语言范例的含义等价于所述多个源语言范例中对应一个源语言范例的含义;输入接收单元,其接收所述源语言形式的输入语句;搜索单元,其在所述范例存储单元中搜索所述多个目标语言范例中与所述多个源语言范例中匹配于或类似于所述输入语句的一个源语言范例相对应的一个目标语言范例;翻译单元,其通过将所述输入语句翻译成所述目标语言的形式来产生目标语言语句,并通过将所述搜索中找到的所述多个目标语言范例中的所述一个目标语言范例翻译成所述源语言的形式来产生反向翻译语句;检测单元,其检测所述反向翻译语句和所述输入语句之间的多个差异部分;以及输出单元,其输出所述差异部分。
根据本发明的另一个方面,一种机器翻译设备,其包括:范例存储单元,其彼此对应地存储目标语言形式的多个目标语言范例和源语言形式的多个源语言范例,所述多个目标语言范例中的每一个目标语言范例的含义等价于所述多个源语言范例中对应一个源语言范例的含义;输入接收单元,其接收所述源语言形式的输入语句;搜索单元,其在所述范例存储单元中搜索所述多个目标语言范例中与所述多个源语言范例中匹配于或类似于所述输入语句的一个源语言范例相对应的一个目标语言范例;第一翻译单元,其通过将所述搜索中找到的所述多个目标语言范例中的一个目标语言范例翻译成所述源语言的形式来产生第一反向翻译语句;第二翻译单元,其通过将所述输入语句翻译成所述目标语言的形式来产生目标语言语句,并通过将所产生的目标语言语句翻译成所述源语言的形式来产生第二反向翻译语句;检测单元,其检测所述第一反向翻译语句和所述第二反向翻译语句之间的差异部分;以及输出单元,其输出所述差异部分。
根据本发明的又一方面,一种机器翻译方法,其包括:接收源语言形式的输入语句;在范例存储单元中搜索所述多个目标语言范例中与所述多个源语言范例中匹配于或类似于所述输入语句的一个源语言范例相对应的一个目标语言范例,其中,所述范例存储单元彼此对应地存储目标语言形式的多个目标语言范例和所述源语言形式的多个源语言范例,所述多个目标语言范例中的每一个目标语言范例的含义等价于所述多个源语言范例中对应一个源语言范例的含义;通过将所述输入语句翻译成所述目标语言的形式来产生目标语言语句;通过将所述搜索中找到的所述多个目标语言范例中的所述一个目标语言范例翻译成所述源语言的形式来产生反向翻译语句;检测所述反向翻译语句和所述输入语句之间的差异部分;以及输出所述差异部分。
根据本发明的又一方面,一种机器翻译方法,其包括:接收源语言形式的输入语句;在范例存储单元中搜索所述多个目标语言范例中与所述多个源语言范例中匹配于或类似于所述输入语句的一个源语言范例相对应的一个目标语言范例,其中,所述范例存储单元彼此对应地存储目标语言形式的多个目标语言范例和所述源语言形式的多个源语言范例,所述多个目标语言范例中的每一个目标语言范例的含义等价于所述多个源语言范例中对应一个源语言范例的含义;通过将所述搜索中找到的所述多个目标语言范例中的一个目标语言范例翻译成所述源语言的形式来产生第一反向翻译语句;通过将所述输入语句翻译成所述目标语言的形式来产生目标语言语句,并通过将所产生的目标语言语句翻译成所述源语言的形式来产生第二反向翻译语句;检测所述第一反向翻译语句和所述第二反向翻译语句之间的差异部分;以及输出所述差异部分。
附图说明
图1是根据本发明实施例的机器翻译设备的方框图;
图2为示出了范例存储单元中存储的平行翻译范例组的示范性数据结构的图示;
图3为示出了类似的平行翻译范例列表范例的图示;
图4为解释用于检测源语言输入语句和经编辑的范例反向翻译语句之间差异的过程的图示;
图5为解释用于检测反向翻译输入语句和经编辑的范例反向翻译语句之间差异的过程的图示;
图6为示出了其中存储差异信息的差异信息列表范例的图示;
图7为示出了建议语句范例的图示;
图8为示出了用户差异信息范例的图示;
图9为示出了显示屏范例的图示;
图10是根据该实施例的机器翻译过程的总体流程的流程图;
图11是根据该实施例的差异检测过程的总体流程的流程图;
图12是根据该实施例的建议语句产生过程的总体流程的流程图;
图13是根据该实施例的结果输出过程的总体流程的流程图;
图14是根据该实施例的假设施加过程的总体流程的流程图;
图15是根据该实施例的更新过程的总体流程的流程图;
图16为示出了翻译语句范例的图示;
图17为示出了编辑范例翻译语句的范例的图示;
图18为示出了显示屏范例的图示;
图19为示出了类似的平行翻译范例列表范例的图示;
图20为示出了翻译语句范例的图示;
图21为示出了差异信息列表的范例的图示;
图22为示出了显示屏范例的图示;
图23为示出了显示屏另一范例的图示;以及
图24为解释根据该实施例的机器翻译设备的硬件配置的图示。
具体实施方式
将参考附图详细描述根据本发明的机器翻译设备和机器翻译方法的示范性实施例。在接下来的部分中,将利用在日文和中文语言之间或日文和英文语言之间翻译的范例来解释本发明。然而,在翻译过程中可用作目标语言的语言不限于这些语言。使用任何其他语言都是可接受的。
根据本发明实施例的机器翻译设备搜索包括类似于源语言输入语句的范例的平行翻译范例组,通过将平行翻译范例组中的目标语言范例翻译成源语言所获得的反向翻译语句与输入语句或与进一步将输入语句翻译成目标语言的结果翻译成源语言所获得的另一个反向翻译语句进行比较来检测差异部分(即差异),并输出所检测到的差异。
如图1所示,机器翻译设备100包括:输入接收单元101;选择接收单元102;翻译控制单元110;输出单元103和范例存储单元120。翻译控制单元110是控制翻译过程的构成要素,包括搜索单元111、翻译单元112、检测单元113、产生单元114、假设施加单元115和更新单元116。接下来将详细解释每个构成要素的功能。
输入接收单元101接收用户提供的源语言形式的输入语句(在下文中称为“源语言输入语句”)。为了输入源语言输入语句,使用任何通用输入模块,例如键盘、定点装置、手写字符识别装置和光学字符读取器(OCR)都是可接受的。输入接收单元101可以使用任何方法,只要其能够执行处理以最终获得源语言输入语句即可。例如,如下设置是可接受的:输入接收单元101接收用户的发声作为语音输入,并作为对输入进行的语音识别过程结果输出源语言输入语句。
范例存储单元120中存储平行翻译范例组,每个平行翻译范例组都由源语言语句和至少一种目标语言的语句构成,源语言语句是目标语言语句的翻译,反之亦然。在本实施例的描述中,在所用的范例中每个平行翻译范例组包括彼此对应保持的日文、中文和英文范例。彼此对应地保持范例的语言数量不必一定是三个。换言之,另一种设置是可接受的:彼此对应地保持两种语言或四种或更多语言的范例。在使用三种或更多语言范例的情况下,可以通过设置使用户能够动态选择期望的目标语言。
在图2中示出了存储了六个平行翻译范例组(即平行翻译范例组201到206)的范例。平行翻译范例组201到206中的每一个都包含多种语言的范例。例如,平行翻译范例组201包含日文语句207、中文语句208和英文语句209,每个语句都是其他语句的平行翻译。
在下面的解释中,将把每个平行翻译范例组中的范例语句中与表达输入接收单元101接收的源语言输入语句的语言相同的语句称为“范例源语句”,而将把指定为翻译目标语言的语言的语句称为“范例翻译语句”。
可以利用任何通用存储介质,例如硬盘驱动器(HDD)、光盘、存储卡和随机存取存储器(RAM)来配置范例存储单元120。
返回到图1的描述,搜索单元111在范例存储单元120中搜索均包含类似于输入接收单元101接收的源语言输入语句的范例源语句的平行翻译范例组。搜索单元111还将平行翻译范例组存储到类似的平行翻译范例列表中,同时根据它们的相似水平的次序设置它们。为了计算平行翻译范例组的相似水平,使用通常使用的任何方法都是可接受的,例如在描述单词的概念性的上级/从属关系和同义词关系的类属词典中测量单词之间的距离的方法。
例如,搜索单元111使用在相关单词完全匹配时具有最大值的指标作为表示单词间相似水平的单词与单词相似水平。此外,搜索单元111利用任何广为人知的方法,例如动态规划方法来检测使整个语句的单词与单词相似水平最大的单词与单词对应度。此外,搜索单元111将假想利用所检测的单词与单词对应度获得的单词与单词相似水平总和用作整个语句的相似水平。于是,通过进行搜索,搜索单元111找到按照整个语句相似水平降序排列的预定数量的平行翻译范例组。
图3为示出了类似的平行翻译范例列表范例的图示,该列表中存储了搜索单元111进行处理的结果。如图3所示,该类似平行翻译范例列表中存储了在搜索中发现的图2中所示的一些平行翻译范例组作为类似于源语言输入语句的范例,同时按照它们的相似水平的顺序设置它们。图3中所示的为类似平行翻译范例列表的范例,其中存储了分别对应于图2所示的平行翻译范例组202、203和201的平行翻译范例组301、302和303。
返回到图1的描述,在输出翻译语句之前,在指定的字符串代表源语言语句的情况下,翻译单元112将该语句翻译成目标语言的语句,在指定的字符串代表目标语言语句的情况下,翻译单元112将该语句翻译成源语言语句。例如,在目标语言为中文且指定的字符串代表日文语句的情况下,翻译单元112将日文语句翻译成中文语句。另一方面,在指定字符串代表中文语句的情况下,翻译单元112将中文语句翻译成日文语句。
根据本实施例,响应于来自检测单元113的请求(稍后解释),翻译单元112通过将编辑范例翻译语句获得的经编辑的范例翻译语句(稍后详细解释)翻译成源语言来产生经编辑的范例反向翻译语句。而且,响应于来自检测单元113的请求,翻译单元112通过将源语言输入语句翻译成目标语言产生目标语言语句,并通过将所产生的目标语言语句翻译成源语言来产生反向翻译输入语句。在检测单元113检测经编辑的范例反向翻译语句和源语言输入语句之间的差异、或经编辑的范例反向翻译语句和反向翻译输入语句之间的差异时,会参考经编辑的范例反向翻译语句。
翻译单元112执行的翻译过程可以采用通常使用的任何机器翻译方法,例如转移法、基于范例的方法、基于统计的方法和中间语言方法。
检测单元113检测经编辑的范例反向翻译语句和源语言输入语句之间的差异、以及经编辑的范例反向翻译语句和反向翻译输入语句之间的差异。更具体而言,首先,检测单元113检测源语言输入语句和搜索单元111构造出的类似平行翻译范例列表中存储的平行翻译范例组中包括的每个范例源语句之间的差异。之后,检测单元113利用源语言输入语句中表现出差异的单词翻译替换范例翻译语句中对应于范例源语句中表现出差异的单词的单词,从而产生经编辑的范例翻译语句。此外,检测单元113令翻译单元112将经编辑的范例翻译语句翻译成源语言来获得经编辑的范例反向翻译语句。之后,检测单元113检测经编辑的范例反向翻译语句和源语言输入语句之间的差异。然后检测单元113将包括所检测的差异的差异信息存储到差异信息列表中,同时对应于差异信息保持比较过程中所用的平行翻译范例组。
而且,检测单元113令翻译单元112将源语言输入语句翻译成目标语言来获得目标语言语句。此外,检测单元113令翻译单元112将目标语言语句进一步翻译成源语言来获得反向翻译输入语句。之后,检测单元113检测经编辑的范例反向翻译语句和反向翻译输入语句之间的差异。然后检测单元113将包括所检测的差异的差异信息存储到差异信息列表中,同时对应于差异信息保持比较过程中所用的平行翻译范例组。
接下来将解释检测单元113执行的差异检测过程的特定范例。图4为示出了对以日文输入的表达含义“我喜欢喝酒”的源语言输入语句401进行的差异检测过程范例的图示。
应当指出,在日文中,在表达这种含义时,可能会从该语句中省略以“osake”(意为“酒”)为宾语的动词“nomu”(意为“喝”)。该源语言输入语句401代表省略了动词“nomu”(意为“喝”)的日文语句。
在这种情形中,例如,作为搜索结果,搜索单元111找到对应于图2中所示的平行翻译范例组201的平行翻译范例组402。平行翻译范例组402包括相互不同的语言范例,每个范例都表示“我喜欢看电影”。应当指出,从在平行翻译范例组402中包括的日文范例源语句403中省略了以单词“eiga”(意为“电影”)为宾语的动词“miru”(意为“看”)。
因此,作为源语言输入语句401和范例源语句403之间的差异,检测单元113检测到意为“酒”的日文单词“osake”411和意为“电影”的日文单词“eiga”412。然后,检测单元113通过在范例翻译语句404中以意为“酒”的中文单词或英文单词代替至少一个意为“电影”的加下划线的单词,来产生经编辑的范例翻译语句405。在图4中示出了中文范例翻译语句和英文范例翻译语句;然而,只要检测单元113对对应于指定目标语言的至少一个范例翻译语句进行差异检测过程就足够了。
接下来,检测单元113令翻译单元112进一步翻译经编辑的范例翻译语句405来产生经编辑的范例反向翻译语句406。之后,检测单元113检测源语言输入语句401和经编辑的范例反向翻译语句406之间的差异413、并将包括所检测的差异413的差异信息存储到差异信息列表中,同时对应于该差异信息保持平行翻译范例组402。
图5为示出了对以日文输入的表达含义“请不要忘记粘贴邮票”的源语言输入语句501进行的差异检测过程范例的图示。
应当指出,在日文中,在表达这种含义时,可能会从该语句中省略以“kitte”(意为“邮票”)为宾语的动词“haru”(意为“粘贴”)。该源语言输入语句501代表省略了动词“haru”(意为“粘贴”)的日文语句。
检测单元113令翻译单元112将源语言输入语句501翻译成目标语言来获得目标语言语句502。此外,检测单元113令翻译单元112将目标语言语句502进一步翻译成源语言来获得反向翻译输入语句503。
另一方面,作为类似于源语言输入语句501的范例,作为搜索结果,搜索单元111找到对应于图2中所示的平行翻译范例组204的平行翻译范例组504。该平行翻译范例组504包括相互不同语言的范例,每个范例都表示“请不要忘记买一本笔记本”。应当指出,从在平行翻译范例组504中包括的日文范例源语句505中省略了以单词“nooto”(意为“笔记本”)为宾语的动词“kau”(意为“买”)。
因此,作为源语言输入语句501和范例源语句505之间的差异,检测单元113检测到意为“邮票”的日文单词“kitte”511和意为“笔记本”的日文单词“nooto”512。然后,检测单元113通过在范例翻译语句506中以意为“邮票”的中文单词或英文单词代替至少一个意为“笔记本”的加下划线单词,来产生经编辑的范例翻译语句507。
接下来,检测单元113令翻译单元112进一步翻译经编辑的范例翻译语句507来产生经编辑的范例反向翻译语句508。之后,检测单元113检测源语言输入语句501和经编辑的范例反向翻译语句508之间的差异513,并将包括所检测的差异513的差异信息存储到差异信息列表中,同时对应于该差异信息保持平行翻译范例组504。
图6为示出了在已经获得了包括图3所示的三个平行翻译范例组的类似平行翻译范例列表的情况下包括三条对应于平行翻译范例组的差异信息的差异信息列表范例的图示。如图6所示,对应于分别检测到差异602、605和608的平行翻译范例组603、606和609分别保持诸条差异信息601、604和607。每条差异信息601、604和607都包含均被置于符号“(”和“)”之间且初始包括在源语言输入语句中的短语。利用这些设置,用户能够容易地理解经编辑的范例反向翻译语句中具有差异的部分。
返回到图1的描述,产生单元114通过向源语言输入语句添加检测到的差异来产生输出语句。输出语句是为用户输出的语句,以便针对包括补充信息的新的源语言语句提示候选者,该补充信息是机器翻译设备获得用户期望的翻译所需要的。在下面的解释中,将把这种输出语句称为“建议语句”。
更具体而言,产生单元114通过将差异信息列表中包括的差异析取地设置到均设置于符号“(”和“)”之间且初始包括在源语言输入语句中的部分间的位置中来产生建议语句。如图7所示,产生单元114将设置于符号“{”和“}”之间且被析取地设置并同时彼此被符号“/”分隔的差异702、703和704嵌入源语言输入语句中表现出差异的部分中来产生建议语句701。建议语句701是在已经针对图4所示的源语言输入语句401获得图6所示的差异信息列表情况下由产生单元114产生的建议语句的范例。
返回到图1的描述,选择接收单元102接收用户从已经由产生单元114产生并由输出单元103输出的建议语句(稍后解释)选择的差异之一。而且,选择接收单元102接收用户执行的用于结束翻译过程的操作。选择接收单元102要接收所选差异并接收结束翻译过程的操作,可以使用任何通用输入装置,例如可以使用键盘和定点装置。
例如,用户利用定点装置指到显示如图7所示已经输出的建议语句701之内的差异702的部分来选择他/她意欲选择的差异之一。结果,选择接收单元102接收到所选的差异。选择接收单元102将包括所选差异702的图6所示的该条差异信息601作为所选差异信息存储到诸如随机存取存储器(RAM)之类的存储单元等(未示出)中。
在用户希望用除建议语句中包含的差异之外的单词或短语补充源语言输入语句的情况下,选择接收单元102接收用户自己输入的单词或短语作为用户差异信息并将所接收的用户差异信息存储到存储单元中。如图8所示,在用户差异信息801中,将每一个均被设置于符号“(”和“)”之间且初始包括在源语言输入语句中的短语添加到代表用户已输入的短语的差异802。
用户差异信息与充当图6所示的差异信息列表的要素的差异信息的不同之处在于,检测到差异的平行翻译范例组不是对应于用户差异信息保持的。然而,用于存储差异信息自身的存储方法对用户差异信息和差异信息而言是公共的。于是,对于用户已经选择输出差异之一以及用户已经自己输入差异的两种情形而言,要执行的过程是彼此相同的。
另一种设置是可接受的,即配置选择接收单元102,以便接收用户的发声作为语音输入,对所接收的语音进行语音识别处理并接收与语音识别处理结果匹配的差异作为所选差异。另一种设置是可接受的,其中,在用户仅发出差异一部分的关键字的声音时,选择接收单元102判定已经选择了包括该关键字的差异。
假设施加单元115利用所选的差异信息或用户差异信息产生新的源语言输入语句并令翻译单元112翻译新产生的源语言输入语句来获得新的目标语言语句。
例如,在用户已经针对图7所示的建议语句701选择了差异702的情况下,将图6所示的该条差异信息601作为所选差异信息加以存储。在这种情况下,假设施加单元115通过从该条差异信息601消除符号“(”和“)”来产生新的源语言输入语句。而且,基于该用户差异信息,假设施加单元115以类似方式产生新的源语言输入语句。
更新单元116更新位置设置,从而将对应于所选差异信息保持的平行翻译范例组移动到已经由搜索单元111产生的类似平行翻译范例列表的顶部。
输出单元103输出源语言输入语句、目标语言语句、建议语句以及类似平行翻译范例列表的内容。可以利用通常使用的任何方法实现输出单元103使用的输出方法,例如由显示装置(未示出)实现的图像输出、由打印装置(未示出)输出的打印输出、由音频合成装置(未示出)实现的合成音频输出。此外,可以接受这样的设置,即将这些输出方法中的两种或更多种集成到该机器翻译设备中,从而根据需要改变要使用的输出方法。可以接受的另一种设置是组合使用这些输出方法中的两种或更多种。
如图9所示,显示屏包括向其中输出源语言输入语句的源语言输入语句字段901;向其中输出目标语言语句的目标语言语句字段902;向其中输出建议语句的建议语句字段903;以及向其中输出类似平行翻译范例列表之内的平行翻译范例组的类似平行翻译范例列表字段904。
接下来,将参考图10解释如上所述配置的根据本实施例的机器翻译设备100执行的机器翻译过程。首先,输入接收单元101接收源语言输入语句S(步骤S1001)。接下来,搜索单元111在范例存储单元120中搜索例如均匹配或类似于源语言输入语句S的范例并按照它们的相似水平的降序将范例存储到类似平行翻译范例列表Le中(步骤S1002)。
之后,翻译单元112通过翻译源语言输入语句S来产生目标语言语句T(步骤S1003)。此外,检测单元113产生经编辑的范例反向翻译语句和反向翻译输入语句并执行差异检测过程,以通过将经编辑的范例反向翻译语句与源语言输入语句进行比较以及与反向翻译输入语句进行比较来检测差异(步骤S1004)。稍后将解释差异检测过程的细节。作为差异检测过程的结果,输出包括所检测到的差异的差异信息列表Ld。
之后,参考所检测到的差异,产生单元114执行建议语句产生过程以产生要提供给用户的建议语句(步骤S1005)。稍后将解释建议语句产生过程的细节。
接下来,输出单元103执行结果输出过程以向显示装置等输出源语言输入语句、目标语言语句和所产生的建议语句(步骤S1006)。稍后将解释结果输出过程的细节。
之后,选择接收单元102接收用户的操作(步骤S1007)。选择接收单元102然后判断所接收的操作是否是结束过程的操作(步骤S1008)。在所接收的操作是结束过程的操作的情况下(步骤S1008:是),结束机器翻译过程。
相反,在所接收的操作不是结束过程的操作的情况下(步骤S1008:否),选择接收单元102判断是否已输入差异(步骤S1009)。用于输入差异的方法范例包括用户利用定点装置等从所显示的建议语句中选择差异的方法以及用户自己输入建议语句中未包括的差异的另一种方法。
在未输入差异的情况下(步骤S1009:否),该过程返回到用户操作接收过程,从而重复该过程(步骤S1007)。
相反,在已经输入了差异的情况下(步骤S1009:是),假设施加单元115判断输入的差异是否包括在已经作为差异检测过程的结果输出的差异信息列表中(步骤S1010)。在输入的差异包括在差异信息列表中的情况下(步骤S1010:是),假设施加单元115向存储单元中存储包括输入差异的差异信息作为所选差异信息H,并且还将用户差异信息U设置为空白(步骤S1011)。
相反,在输入差异未包括在差异信息列表中的情况下(步骤S1010:否),假设施加单元115产生包括输入差异的用户差异信息U并将所产生的用户差异信息U存储到存储单元中。此外,假设施加单元115将所选的差异信息H设置成空白(步骤S1012)。
之后,通过参考已经存储的所选差异信息H或用户差异信息U,假设施加单元115执行假设施加过程以产生新的源语言输入语句并通过翻译新产生的源语言输入语句来获得目标语言语句(步骤S1013)。稍后将解释假设施加过程的细节。
接下来,更新单元116执行更新过程以在显示屏上更新显示(步骤S1014)。稍后将解释更新过程的细节。
作为上述过程的结果,可以将重新将翻译结果翻译成源语言获得的反向翻译语句和源语言输入语句之间的差异作为检测翻译结果是否恰当反映出源语言语句暗含目的所用的信息来输出。因此,机器翻译设备能够利用用户从输出差异中选择的差异翻译新产生的源语言输入语句。于是,机器翻译设备能够容易地获得恰当反映该意图的翻译结果。
接下来将参考图11解释在步骤S1004执行的差异检测过程的细节。
首先,检测单元113令翻译单元112将目标语言语句T翻译成源语言来产生反向翻译输入语句Tb(步骤S1101)。之后,检测单元113从类似平行翻译范例列表Le中获得尚未被处理的平行翻译范例组E(步骤S1102)。
接下来,检测单元113检测所获得的平行翻译范例组E中的范例源语句和源语言输入语句S之间的差异部分(步骤S1103)。此外,检测单元113利用对应于范例源语句中的差异部分的翻译单词/短语替代对应于平行翻译范例组E之内范例翻译语句中的差异部分的单词或短语产生经编辑的范例翻译语句Em(步骤S1014)。在这种情况下,检测单元113通过参考其中存储了源语言单词和目标语言单词且同时彼此对应地保持单词的词典(未示出)等来获得对应于范例源语句中的差异部分的翻译单词/短语。
之后,检测单元113令翻译单元112将经编辑的范例翻译语句Em翻译成源语言来产生经编辑的范例反向翻译语句Et(步骤S1105)。接下来,检测单元113检测经编辑的范例反向翻译语句St和源语言输入语句S之间的差异,产生包括检测到的差异的差异信息并将所产生的差异信息存储到差异信息列表Ld中(步骤S1106)。更具体而言,检测单元113产生差异信息,在差异信息中将设置于符号“(”和“)”之间且初始包括在源语言输入语句中的单词或短语添加到所检测到的差异中。此外,检测单元113将所产生的差异信息存储到差异信息列表Ld中,同时对应于所产生的差异信息保持检测出差异的平行翻译范例组。
类似地,检测单元113检测经编辑的范例反向翻译语句Et和在步骤S1101中产生的反向翻译输入语句Tb之间的差异,产生包括检测到的差异的差异信息并将所产生的差异信息存储到差异信息列表Ld中(步骤S1107)。
之后,检测单元113判断是否已经处理了类似平行翻译范例列表Le中的所有平行翻译范例组(步骤S1108)。在尚未处理所有平行翻译范例组的情况下(步骤S1108:否),检测单元113选择下一个平行翻译范例组并重复该过程(步骤S1102)。相反,在已经处理过所有平行翻译范例组的情况下(步骤S1108:是),差异检测过程结束。
接下来,将参考图12解释在步骤S1005中执行的建议语句产生过程的细节。
首先,产生单元114将源语言输入语句S指定为要在显示装置等上显示的建议语句P(步骤S1201)。之后,产生单元114从差异信息列表Ld中获得一条尚未处理过的差异信息(步骤S1202)。接下来,产生单元114将所获得的这条差异信息与建议语句P组合(步骤S1203)。更具体而言,产生单元114通过将该条差异信息中包括的差异插入建议语句P的对应位置中同时将差异设置于符号“(”和“)”之间来组合该条差异信息和建议语句P。在这种情况下,在产生单元114将多个差异插入相同位置时,产生单元114利用符号“/”将插入的差异彼此分开。
接下来,产生单元114判断是否已处理了差异信息列表Ld中的所有各条差异信息(步骤S1204)。在尚未处理所有各条差异信息的情况下(步骤S1204:否),产生单元114选择下一条差异信息并重复该过程(步骤S1202)。相反,在已经处理过所有各条差异信息的情况下(步骤S1204:是),建议语句产生过程结束。
接下来将参考图13解释在步骤S1006执行的结果输出过程的细节。
首先,输出单元103在显示屏上的预定位置输出源语言输入语句S、目标语言语句T和建议语句P(步骤S1301)。之后,输出单元103从类似平行翻译范例列表Le中获得尚未被处理的平行翻译范例组(步骤S1302)。接下来,输出单元103将所获得的平行翻译范例组输出到显示屏上的预定位置(步骤S1303)。
之后,输出单元103判断是否已经处理了类似平行翻译范例列表Le中的所有平行翻译范例组(步骤S1304)。在未处理过所有平行翻译范例组的情况下(步骤S1304:否),输出单元103选择下一个平行翻译范例组并重复该过程(步骤S1302)。相反,在已经处理过所有平行翻译范例组的情况下(步骤S1304:是),结果输出过程结束。
接下来将参考图14解释在步骤S1013执行的假设施加过程的细节。
首先,假设施加单元115判断所选的差异信息H是否为空白(步骤S1401)。在所选差异信息H为空白的情况下(步骤S1401:是),假设施加单元115基于用户差异信息U产生新的源语言输入语句S(步骤S1402)。更具体而言,假设施加单元115通过从用户差异信息U去除符号“(”和“)”来产生新的源语言输入语句S。
相反,在所选差异信息H不是空白的情况下(步骤S1401:否),假设施加单元115基于所选差异信息H产生新的源语言输入语句S(步骤S1403)。
之后,假设施加单元115令翻译单元112翻译新产生的源语言输入语句S来产生目标语言语句T(步骤S1404),假设施加过程结束。
接下来,将参考图15解释在步骤S1014执行的更新过程的细节。
首先,更新单元116判断所选的差异信息H是否为空白(步骤S1501)。在所选差异信息H为空白的情况下(步骤S1501:是),更新单元116结束该更新过程。
相反,在所选差异信息H不是空白的情况下(步骤S1501:否),更新单元116基于已产生了哪些所选差异信息H获得平行翻译范例组Eh(步骤S1502)。更具体而言,更新单元116从差异信息列表中获得对应于与所选差异信息H匹配的该条差异信息保持的平行翻译范例组Eh。
之后,更新单元116更新位置设置,使所获得的平行翻译范例组Eh位于类似平行翻译范例列表Le的顶部(步骤S1503),更新过程结束。
接下来将解释根据本实施例的机器翻译过程的特定范例。在以下解释中,假设范例存储单元120中存储了如图2所示的平行翻译范例组。还假设源语言为日文,指定的目标语言为中文或英文。
首先,假设输入接收单元101已接收到以日文输入的表示含义“我喜欢喝酒”的如图4所示的源语言输入语句401(步骤S1001)。应当指出,如上所述,源语言输入语句401省略了意为“喝”的动词“nomu”。
搜索单元111在范例存储单元120中搜索均类似于源语言输入语句401的范例。结果,搜索单元111获得例如图3所示的类似平行翻译范例列表Le(步骤S1002)。而且,翻译单元112通过翻译源语言输入语句401例如产生如图16所示的中文语句1601或英文语句1602(步骤S1003)。
中文语句1601和英文语句1602均具有“我喜欢被称为酒的东西”这一含义。换言之,这些翻译语句是不自然的翻译语句,每句的含义均与用户的意图不同,因为未经任何调整直接翻译了省略动词的源语言输入语句401。
为了在这种情况下实现恰当反映用户所说意图的翻译过程,继续如下所述进行该过程:首先,检测单元113执行差异检测过程(步骤S1004)。
例如,检测单元113令翻译单元112将作为中文语句1601和英文语句1602之一的目标语言语句T翻译成源语言,从而获得与源语言输入语句401相同的反向翻译输入语句Tb(步骤S1101)。
类似平行翻译范例列表Le中存储如图3所示的三个平行翻译范例组。于是,在平行翻译范例组E充当处理目标时,检测单元113提取列在类似平行翻译范例列表Le顶部的平行翻译范例组301(步骤S1102)。
平行翻译范例组301中包括的范例源语句304和源语言输入语句401之间的差异为意为“牛奶”的日文单词和意为“酒”的日文单词。于是,检测单元113利用意为“酒”的单词替换平行翻译范例组301中包括的范例翻译语句305或范例翻译语句306中使用的意为“牛奶”的单词,从而产生经编辑的范例翻译语句Em(步骤S1104)。
图17为示出了在上述过程中产生的经编辑的范例翻译语句的范例的图示。在目标语言为中文的情况下,产生图17所示的中文语句1701作为经编辑的范例翻译语句Em。另一方面,在目标语言为英文的情况下,产生图17中所示的英文语句1702作为经编辑的范例翻译语句Em。
然后,检测单元113令翻译单元112将所产生的经编辑的范例翻译语句Em翻译成日文来产生经编辑的范例反向翻译语句Et(步骤S1105)。结果,获得了日文的经编辑的范例反向翻译语句Et,其包括源语言输入语句401中省略的意为“喝”的动词“nomu”。
之后,检测单元113检测源语言输入语句401和经编辑的范例反向翻译语句St之间的差异并将所检测到的差异存储到差异信息列表Ld中(步骤S1106)。在本实例中,检测单元113存储如图6所示的差异信息601,同时对应于差异信息601保持检测出差异的平行翻译范例组301。
作为上述过程的结果,已经针对类似平行翻译范例列表Le中包括的平行翻译范例组中的第一个平行翻译范例组完成了差异检测过程。之后,针对类似平行翻译范例列表Le中包括的所有平行翻译范例组的每一个反复执行上述过程。结果,产生了如图6所示的差异信息列表Ld。
接下来,产生单元114执行建议语句产生过程(步骤S1005)。
首先,产生单元114将源语言输入语句401指定为建议语句P的初始值(步骤S1201)。之后,产生单元114执行下述过程,依次将差异信息列表Ld中存储的每条差异信息嵌入建议语句P中。
在本实例中,差异信息列表Ld中存储了三条差异信息,即如图6所示的差异信息601、604和607。产生单元114从差异信息列表Ld提取第一条差异信息(即差异信息601)(步骤S1202)。之后,产生单元114将差异信息601中的差异602嵌入建议语句P中(步骤S1203)。在该阶段,产生单元114产生仅包括图7所示建议语句701中的差异702的建议语句,差异702设置于符号“{”和“}”之间。
作为上述过程的结果,在差异信息列表Ld中包括的各条差异信息中,已经完成了针对第一条差异信息的建议语句产生过程。之后,针对差异信息列表Ld中包括的所有各条差异信息的每一条反复执行上述过程。结果,产生了如图7所示的建议语句701。
接下来,输出单元103执行结果输出过程(步骤S1006)。作为结果输出过程的结果,输出在迄今为止执行的过程中已经产生的源语言输入语句S、目标语言语句T和建议语句P(步骤S1301)。而且,根据在类似平行翻译范例列表Le中设置平行翻译范例组的次序依次输出列表中存储的平行翻译范例组(步骤S1302到S1303)。在本实例中,输出单元103向如图9所示的显示屏上输出源语言输入语句S、目标语言语句T、建议语句P和平行翻译范例组。如图9所示,根据平行翻译范例组在列表中的设置次序将平行翻译范例组输出到类似平行翻译范例列表字段904中。
之后,假设用户已从存在的建议语句701选择了差异702,且选择接收单元102已经接收到用户的选择(步骤S1007)。所接收到的操作不是结束过程的操作(步骤S1008:否),且已经输入了差异(步骤S1009:是)。于是,假设施加单元115判断输入的差异是否包括在差异信息列表Ld中(步骤S1010)。
在本实例中,所选的差异702与图6所示的差异信息列表Ld中包括的各条差异信息中的差异信息601中包括的差异602匹配。于是,假设施加单元115将差异信息601作为所选差异信息H存储到存储单元中并将用户差异信息U设置成空白(步骤S1011)。
之后,执行假设施加过程,从而基于已经存储的所选差异信息执行恰当反映用户意图的翻译过程(步骤S1013)。
所选差异信息H中存储图6中所示的差异信息601(步骤S1401:否)。于是,假设施加单元115基于差异信息601产生了新的源语言输入语句S(步骤S1403)。更具体而言,假设施加单元115通过从差异信息601删除符号“(”和“)”来产生新的源语言输入语句S。
接下来,假设施加单元115令翻译单元112将新产生的源语言输入语句S翻译成目标语言来产生目标语言语句T(步骤S1404)。在本实例中,例如,假设施加单元115产生图17中所示的中文语句1701和英文语句1702之一作为目标语言语句T。
这些目标语言语句的每一句都是包括对目标对象“酒”采取的动作的表达方式,这与一开始在步骤S1003中获得的中文语句1601或英文语句1602不同。换言之,每一目标语言语句都是等价于用户希望表达的源语言输入语句内容的翻译语句。
之后,更新单元116执行更新过程(步骤S1014)。
所选差异信息H中存储图6中所示的差异信息601(步骤S1501:否)。于是,首先,更新单元116获得对应于所选差异信息H保持的平行翻译范例组Eh(步骤S1502)。然后,更新单元116设置位置设置,使所获得的平行翻译范例组Eh位于类似平行翻译范例列表Le的顶部(步骤S1503)。在本实例中,因为位于列表顶部的图3中的平行翻译范例组301是对应于所选差异信息H保持的(参考图6中所示的平行翻译范例组603),因此列表中设置平行翻译范例组的次序未变化。
作为上述过程的结果,完成了更新过程且再次调用结果输出过程(步骤S1006)。结果,显示出如图18所示的显示屏。如图18所示,向源语言输入语句字段2001中输出新的源语言输入语句,利用该新的源语言输入语句能够获得忠实反映出用户表达意图的翻译语句。而且,向目标语言语句字段2002中输出通过翻译新的源语言输入语句获得的翻译语句。在类似平行翻译范例列表中设置平行翻译范例组的次序已经改变的情况下,按照改变后的次序向类似平行翻译范例列表字段2003中输出平行翻译范例组。
作为上述过程的结果,完成了结果输出过程。在用户输入结束过程的操作时(步骤S1008:是),机器翻译过程结束。
如上所述,根据本实施例,即使用户对目标语言了解不够多,用户也能够在源语言中找到机器翻译设备100要输出充分反映用户表达意图的翻译语句所需的信息。而且,基于该信息,用户能够容易地产生可以产生恰当反映表达意图的翻译语句的源语言输入语句。结果,能够实现在翻译过程中实现高水平精确度的机器翻译设备100。
接下来将解释根据本实施例的机器翻译过程的另一特定范例。在下面的部分中,将解释如下的过程范例,该过程是在输出的建议语句不含恰当反映用户意图的信息、因此用户自己输入要用于补足建议语句的单词或短语的情况下执行的。
在下面的解释中,使用了如下范例,其中输入接收单元101接收到以日文输入的图5所示的表达含义“请不要忘记粘贴邮票”的源语言输入语句501(步骤S1001)。如上所述,源语言输入语句501中省略了意为“粘贴”的动词“haru”。
搜索单元111在范例存储单元120中搜索均类似于源语言输入语句501的范例,并且获得例如图19中所示的类似平行翻译范例列表Le(步骤S1002)。而且,翻译单元112通过翻译源语言输入语句501例如产生如图20所示的中文语句2201和英文语句2202之一(步骤S1003)。
图20中所示的中文语句2201和英文语句2202均具有含义“请不要忘记买(一张)邮票”。换言之,这些翻译语句的每一句都补充了动作“买”,这与用户的意图不同。
为了在这种情况下实现恰当反映用户所说意图的翻译过程,继续如下所述进行该过程。从差异检测过程到结果输出过程(步骤S1004到S1006)的过程与上述那些相同。于是将省略其详细解释。
图21为示出了本范例中的差异检测过程产生的差异信息列表Ld的范例的图示。图22为示出了本范例中的结果输出过程输出的显示屏范例的图示。如图21和22所示,在本实例中,在搜索中未找到含有用户希望表达的意为“粘贴”的动词的平行翻译范例组。于是,没有显示出含有意为“粘贴”的动词的建议语句。然而,基于所显示的建议语句,用户能够推测可以通过用动词补充输入语句来获得适当的翻译语句。
假设在完成结果输出过程之后,尽管在任何给出的建议语句中都不包括差异,但用户输入日文单词来用意为“粘贴”的动词补充该语句(步骤S1007)。
该操作不是结束过程的操作(步骤S1008:否),且已经输入了差异(步骤S1009:是)。于是,假设施加单元115判断输入的差异是否包括在差异信息列表Ld中(步骤S1010)。
在本实例中,输入的差异不包括在差异信息列表Ld中(步骤S1010:否)。于是,假设施加单元115产生包括输入差异的用户差异信息U,将所产生的用户差异信息U存储到存储单元中并将所选差异信息H设置成空白(步骤S1012)。图8中所示的用户差异信息801代表在本实例中产生的用户差异信息。
之后,执行假设施加过程,从而能够基于存储的用户差异信息801执行恰当反映用户意图的翻译过程(步骤S1013)。
在本实例中,因为所选差异信息H是空白的(步骤S1401:是),假设施加单元115基于用户差异信息801产生新的源语言输入语句S(步骤S1403)。更具体而言,假设施加单元115通过从用户差异信息801删除符号“(”和“)”来产生新的源语言输入语句S。
接下来,假设施加单元115令翻译单元112将新产生的源语言输入语句S翻译成目标语言来产生目标语言语句T(步骤S1404)。在本实例中,产生图20所示的中文语句2203和英文语句2204之一作为目标语言语句T。图20中所示的中文语句2203和英文语句2204均为补充了用户所意图表达的动作“粘贴”的翻译语句。
之后,更新单元116执行更新过程(步骤S1014)。
在本实例中,所选差异信息H是空白的(步骤S1501:是)。于是,更新单元116执行更新过程而不更新类似平行翻译范例列表Le中的位置设置。
作为上述过程的结果,完成了更新过程并再次调用结果输出过程(步骤S1006)。结果,显示出如图23所示的显示屏。如图23所示,向源语言输入语句字段2501中输出新的源语言输入语句,利用该新的源语言输入语句能够获得忠实反映出用户表达意图的翻译语句。而且,向目标语言语句字段2502中输出通过翻译新的源语言输入语句获得的翻译语句。
如上所述,即使用户对目标语言了解不够多,通过参考附于建议语句的缺失单词或短语的类似表达和信息范例,用户也能够推测出机器翻译设备要输出充分反映用户表达意图的翻译语句所需的信息。于是,用户能够容易地执行操作来纠正源语言输入语句。
在上述实施例中,更新单元116将产生了所选差异的平行翻译范例组移动到类似平行翻译范例列表的顶部,从而以较高优先级在显示屏上显示平行翻译范例组。除了这种设置之外,另一种可接受的设置是:在之后执行的范例搜索过程中为产生了所选差异的平行翻译范例组赋予较高优先级。
在这种情况下,配置范例存储单元120以在其中对应于平行翻译范例组存储表示平行翻译范例组的优先化程度的优先级水平。在已经在搜索中找到彼此具有相同相似水平的平行翻译范例组的情况下,搜索单元111通过为具有较高优先级水平的平行翻译范例组赋予较高优先级来执行搜索。此外,更新单元116将分配给产生了所选差异的平行翻译范例组的优先级水平提高预定值。
利用这些设置,能够找到更加适当的平行翻译范例组来从搜索中找到的平行翻译范例组中检测出适当的差异并为用户提供所检测的差异。
在上述实施例中,解释了执行如下两种过程的范例:通过将源语言输入语句与经编辑的范例反向翻译语句进行比较来检测差异的过程(例如步骤S1106);以及通过将反向翻译输入语句与经编辑的范例反向翻译语句进行比较来检测差异的过程(例如步骤S1107)。然而,用于检测差异的方法不限于该范例。可以接受的另一种设置是执行以上两种过程之一来检测差异。
在上述实施例中,在包括在建议语句中时输出检测到的差异,此外,通过基于用户从建议语句选择的差异对新产生的源语言输入语句再次翻译获得恰当反映用户意图的翻译语句。然而,用于输出差异的方法不限于该范例中的方法。采用任何其他方法都是可接受的,只要该方法暗示能够产生至少通过补充差异来恰当反映用户意图的翻译语句即可。例如,仅以列表形式输出差异是可接受的设置。此外,用于执行再次翻译过程的方法不限于上述范例中的方法。例如,另一种设置是可接受的,其中,机器翻译设备接收用户通过参考输出差异重新输入的新源语言输入语句并翻译所接收的语句。
在上述具体范例中,如果假设在完成步骤S1006中的结果输出过程之后,用户已经输入日文单词来为该语句补充意为“买”的动词,该过程与不做任何调整地接受反向翻译输入语句的无变化语句,即在步骤S1001接收的源语言输入语句的翻译结果具有相同含义。如本文所述,通过进行差异比较过程来比较反向翻译输入语句和范例源语句,能够确认机器翻译设备输出的翻译结果是与用户意图忠实匹配的结果。
如上所述,在使用根据本实施例的机器翻译设备时,能够搜索包括类似于源语言输入语句的范例的平行翻译范例组,通过将平行翻译范例组中包括的目标语言范例翻译成源语言所获得的反向翻译语句与输入语句或与进一步将输入语句翻译成目标语言的结果翻译成源语言所获得的另一个反向翻译语句进行比较来检测差异,并为用户输出所检测到的差异。
换言之,利用积累了翻译范例的基于范例的信息,能够推测出说话者的意图即为翻译过程中所需的信息,只要仅忠实地翻译出源语言语句的表面信息,说话者的意图就很少反映在目标语言语句中。还可以为用户提供这种信息,以提示用户输入补充信息。结果,能够避免目标语言说话者接收到不同于用户(即源语言说话者)意图的一些内容的情形。
接下来将参考图24解释根据本实施例的机器翻译设备的硬件配置。
根据本实施例的机器翻译设备包括诸如中央处理单元(CPU)51之类的控制装置、诸如只读存储器(ROM)52和随机存取存储器(RAM)之类53的存储装置、建立通往网络的连接并进行通信的通信接口(I/F)54、诸如硬盘驱动器(HDD)和光盘(CD)驱动装置之类的外存储装置、显示装置、诸如键盘和鼠标之类的输入装置、以及将这些构成单元彼此连接的总线61。该机器翻译设备具有通用计算机可以使用的硬件配置。
可以通过在计算机可读记录介质中以可安装格式或可执行格式记录成文件来提供根据本实施例的机器翻译设备执行的机器翻译计算机程序(在下文中称为“机器翻译程序”),所述计算机可读记录介质例如为只读光盘存储器(CD-ROM)、软磁盘(FD)、可记录光盘(CE-R)和数字多用盘(DVD)等。
另一种设置是可接受的,即将根据本实施例的机器翻译设备执行的机器翻译程序存储在连接到像因特网的网络的计算机中,从而经网络下载来提供机器翻译程序。另一种设置是可接受的,其中,经由像因特网那样的网络提供或分布由根据本实施例的机器翻译设备执行的机器翻译程序。
此外,在另一种可接受的设置中,将根据本实施例的机器翻译程序事先集成到ROM等之中来加以提供。
根据本实施例的机器翻译设备执行的机器翻译程序具有包括上述功能单元(例如输入接收单元、选择接收单元、翻译控制单元和输出单元)的模块配置。作为实际硬件配置,在CPU51(即处理器)如上所述从存储装置读取并执行机器翻译程序时将这些功能单元加载到主存储装置中,从而在主存储装置中产生这些功能单元。
Claims (14)
1、一种机器翻译设备,其包括:
范例存储单元,其彼此对应地存储目标语言形式的多个目标语言范例和源语言形式的多个源语言范例,所述多个目标语言范例中的每一个目标语言范例的含义等价于所述多个源语言范例中对应一个源语言范例的含义;
输入接收单元,其接收所述源语言形式的输入语句;
搜索单元,其在所述范例存储单元中搜索所述多个目标语言范例中与所述多个源语言范例中匹配于或类似于所述输入语句的一个源语言范例相对应的一个目标语言范例;
翻译单元,其通过将所述输入语句翻译成所述目标语言的形式来产生目标语言语句,并通过将所述搜索中找到的所述多个目标语言范例中的所述一个目标语言范例翻译成所述源语言的形式来产生反向翻译语句;
检测单元,其检测所述反向翻译语句和所述输入语句之间的差异部分;以及
输出单元,其输出所述差异部分。
2、根据权利要求1所述的设备,还包括产生单元,所述产生单元通过将所述差异部分添加到所述输入语句来产生输出语句,其中
所述输出单元输出添加了所述差异部分的输出语句。
3、根据权利要求1所述的设备,还包括选择接收单元,所述选择接收单元接收对输出的所述差异部分中的一个差异部分的选择,其中
所述翻译单元还通过将添加了所述差异部分中的所选择的一个差异部分的输入语句翻译成所述目标语言的形式来产生所述目标语言语句,以及
所述输出单元还输出所述目标语言语句。
4、根据权利要求3所述的设备,其中
所述范例存储单元还存储与所述多个目标语言范例相对应的多个优先级水平,所述多个优先级水平分别表示所述多个目标语言范例优先化的程度,
所述搜索单元通过为所述多个目标语言范例中的一些目标语言范例赋予较高优先级来执行搜索,相比于所述多个目标语言范例中具有较低优先级水平的其他目标语言范例,所述多个目标语言范例中的所述一些目标语言范例具有较高优先级水平,以及
所述设备还包括更新单元,所述更新单元将产生了包含所选差异部分的所述反向翻译语句的目标语言范例的优先级水平提高预定值。
5、根据权利要求1所述的设备,其中
所述输入接收单元还接收要添加到所述输入语句的一个或多个单词的输入,
所述翻译单元还通过将添加了所接收的一个或多个单词的所述输入语句翻译成所述目标语言的形式来产生所述目标语言语句,以及
所述输出单元还输出所述目标语言语句。
6、根据权利要求1所述的设备,其中
所述范例存储单元彼此对应地存储所述多个目标语言范例和所述多个源语言范例,可以从所述多个源语言范例的每一个源语言范例中省略所述多个目标语言范例中对应一个目标语言范例所含的一个或多个单词,以及
所述检测单元检测从所述多个源语言范例中匹配于或类似于所述输入语句的一个源语言范例省略的所述一个或多个单词作为所述差异部分中的一个差异部分。
7、一种机器翻译设备,其包括:
范例存储单元,其彼此对应地存储目标语言形式的多个目标语言范例和源语言形式的多个源语言范例,所述多个目标语言范例中的每一个目标语言范例的含义等价于所述多个源语言范例中对应一个源语言范例的含义;
输入接收单元,其接收所述源语言形式的输入语句;
搜索单元,其在所述范例存储单元中搜索所述多个目标语言范例中与所述多个源语言范例中匹配于或类似于所述输入语句的一个源语言范例相对应的一个目标语言范例;
第一翻译单元,其通过将所述搜索中找到的所述多个目标语言范例中的一个目标语言范例翻译成所述源语言的形式来产生第一反向翻译语句;
第二翻译单元,其通过将所述输入语句翻译成所述目标语言的形式来产生目标语言语句,并通过将所产生的目标语言语句翻译成所述源语言的形式来产生第二反向翻译语句;
检测单元,其检测所述第一反向翻译语句和所述第二反向翻译语句之间的差异部分;以及
输出单元,其输出所述差异部分。
8、根据权利要求7所述的设备,还包括产生单元,所述产生单元通过将所述差异部分添加到所述输入语句来产生输出语句,其中
所述输出单元输出添加了所述差异部分的输出语句。
9、根据权利要求7所述的设备,还包括选择接收单元,所述选择接收单元接收对所述差异部分中的一个差异部分的选择,其中
所述第二翻译单元还通过将添加了所述差异部分中的所选择的一个差异部分的输入语句翻译成所述目标语言的形式来产生所述目标语言语句,以及
所述输出单元还输出所述目标语言语句。
10、根据权利要求9所述的设备,其中
所述范例存储单元还存储与所述多个目标语言范例相对应的多个优先级水平,所述多个优先级水平分别表示所述多个目标语言范例优先化的程度,
所述搜索单元通过为所述多个目标语言范例中的一些目标语言范例赋予较高优先级来执行搜索,相比于所述多个目标语言范例中具有较低优先级水平的其他目标语言范例,所述多个目标语言范例中的所述一些目标语言范例具有较高优先级水平,以及
所述设备还包括更新单元,所述更新单元将产生了包含所选差异部分的所述反向翻译语句的目标语言范例的优先级水平提高预定值。
11、根据权利要求7所述的设备,其中
所述输入接收单元还接收要添加到所述输入语句的一个或多个单词的输入,
所述第二翻译单元还通过将添加了所接收的一个或多个单词的所述输入语句翻译成所述目标语言的形式来产生所述目标语言语句,以及
所述输出单元还输出所述目标语言语句。
12、根据权利要求7所述的设备,其中
所述范例存储单元彼此对应地存储所述多个目标语言范例和所述多个源语言范例,可以从所述多个源语言范例的每一个源语言范例中省略所述多个目标语言范例中对应一个目标语言范例所含的一个或多个单词,以及
所述检测单元检测从所述多个源语言范例中匹配于或类似于所述输入语句的一个源语言范例省略的所述一个或多个单词作为所述差异部分中的一个差异部分。
13、一种机器翻译方法,其包括:
接收源语言形式的输入语句;
在范例存储单元中搜索所述多个目标语言范例中与多个源语言范例中匹配于或类似于所述输入语句的一个源语言范例相对应的一个目标语言范例,其中,所述范例存储单元彼此对应地存储目标语言形式的所述多个目标语言范例和所述源语言形式的所述多个源语言范例,所述多个目标语言范例中的每一个目标语言范例的含义等价于所述多个源语言范例中对应一个源语言范例的含义;
通过将所述输入语句翻译成所述目标语言的形式来产生目标语言语句;
通过将所述搜索中找到的所述多个目标语言范例中的所述一个目标语言范例翻译成所述源语言的形式来产生反向翻译语句;
检测所述反向翻译语句和所述输入语句之间的差异部分;以及
输出所述差异部分。
14、一种机器翻译方法,其包括:
接收源语言形式的输入语句;
在范例存储单元中搜索所述多个目标语言范例中与多个源语言范例中匹配于或类似于所述输入语句的一个源语言范例相对应的一个目标语言范例,其中,所述范例存储单元彼此对应地存储目标语言形式的所述多个目标语言范例和所述源语言形式的所述多个源语言范例,所述多个目标语言范例中的每一个目标语言范例的含义等价于所述多个源语言范例中对应一个源语言范例的含义;
通过将所述搜索中找到的所述多个目标语言范例中的一个目标语言范例翻译成所述源语言的形式来产生第一反向翻译语句;
通过将所述输入语句翻译成所述目标语言的形式来产生目标语言语句,并通过将所产生的目标语言语句翻译成所述源语言的形式来产生第二反向翻译语句;
检测所述第一反向翻译语句和所述第二反向翻译语句之间的差异部分;以及
输出所述差异部分。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008048284A JP5100445B2 (ja) | 2008-02-28 | 2008-02-28 | 機械翻訳する装置および方法 |
JP048284/2008 | 2008-02-28 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101520777A true CN101520777A (zh) | 2009-09-02 |
Family
ID=41013827
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200910007558A Pending CN101520777A (zh) | 2008-02-28 | 2009-02-23 | 用于机器翻译的设备和方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8924195B2 (zh) |
JP (1) | JP5100445B2 (zh) |
CN (1) | CN101520777A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102880723A (zh) * | 2012-10-22 | 2013-01-16 | 深圳市宜搜科技发展有限公司 | 一种识别用户检索意图的搜索方法和系统 |
CN103729347A (zh) * | 2012-10-10 | 2014-04-16 | 株式会社东芝 | 机器翻译装置、方法及程序 |
CN105373527A (zh) * | 2014-08-27 | 2016-03-02 | 中兴通讯股份有限公司 | 一种省略恢复方法及问答系统 |
CN105573989A (zh) * | 2014-11-04 | 2016-05-11 | 富士通株式会社 | 翻译装置及翻译方法 |
CN108304389A (zh) * | 2017-12-07 | 2018-07-20 | 科大讯飞股份有限公司 | 交互式语音翻译方法及装置 |
CN108427672A (zh) * | 2018-02-07 | 2018-08-21 | 平安科技(深圳)有限公司 | 文字翻译的方法及终端设备 |
CN109918646A (zh) * | 2019-01-30 | 2019-06-21 | 中国科学院自动化研究所 | 篇章因果关系判断方法、系统、装置 |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201020816A (en) * | 2008-11-25 | 2010-06-01 | Univ Nat Taiwan | Information retrieval oriented translation apparatus and methods, and storage media |
RU2009144948A (ru) * | 2009-12-03 | 2011-06-10 | Виталий Евгеньевич Пилкин (RU) | Система улучшения автоматизированного перевода информации |
US9063931B2 (en) * | 2011-02-16 | 2015-06-23 | Ming-Yuan Wu | Multiple language translation system |
JP2013206253A (ja) | 2012-03-29 | 2013-10-07 | Toshiba Corp | 機械翻訳装置、方法、およびプログラム |
JP5653392B2 (ja) * | 2012-06-29 | 2015-01-14 | 株式会社東芝 | 音声翻訳装置、方法およびプログラム |
JP6221339B2 (ja) * | 2013-05-14 | 2017-11-01 | 富士通株式会社 | 翻訳装置及び翻訳方法 |
JP6344107B2 (ja) * | 2014-07-17 | 2018-06-20 | 富士通株式会社 | 翻訳における原文修正支援装置、支援方法及びプログラム |
US9483465B2 (en) * | 2015-03-06 | 2016-11-01 | Ricoh Company, Ltd. | Language translation for multi-function peripherals |
JP6451414B2 (ja) * | 2015-03-06 | 2019-01-16 | 富士通株式会社 | 情報処理装置、要約文編集方法、及びプログラム |
JP6555553B2 (ja) * | 2016-03-25 | 2019-08-07 | パナソニックIpマネジメント株式会社 | 翻訳装置 |
CN107818086B (zh) * | 2016-09-13 | 2021-08-10 | 株式会社东芝 | 机器翻译方法和装置 |
WO2020149069A1 (ja) * | 2019-01-15 | 2020-07-23 | パナソニックIpマネジメント株式会社 | 翻訳装置、翻訳方法およびプログラム |
US11095578B2 (en) | 2019-12-11 | 2021-08-17 | International Business Machines Corporation | Technology for chat bot translation |
WO2024010805A1 (en) * | 2022-07-06 | 2024-01-11 | Cabo Applications Llc | Delimited machine-enabled language translation |
Family Cites Families (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04241543A (ja) * | 1991-01-14 | 1992-08-28 | Toshiba Corp | ポータブル編集翻訳装置 |
GB2279164A (en) * | 1993-06-18 | 1994-12-21 | Canon Res Ct Europe Ltd | Processing a bilingual database. |
US5675707A (en) * | 1995-09-15 | 1997-10-07 | At&T | Automated call router system and method |
JPH09128396A (ja) * | 1995-11-06 | 1997-05-16 | Hitachi Ltd | 対訳辞書作成方法 |
US6341372B1 (en) * | 1997-05-01 | 2002-01-22 | William E. Datig | Universal machine translator of arbitrary languages |
US6345243B1 (en) * | 1998-05-27 | 2002-02-05 | Lionbridge Technologies, Inc. | System, method, and product for dynamically propagating translations in a translation-memory system |
US6345244B1 (en) * | 1998-05-27 | 2002-02-05 | Lionbridge Technologies, Inc. | System, method, and product for dynamically aligning translations in a translation-memory system |
JP2000010974A (ja) | 1998-06-26 | 2000-01-14 | Matsushita Electric Ind Co Ltd | 機械翻訳装置および機械翻訳方法ならびに記録媒体 |
US6275789B1 (en) * | 1998-12-18 | 2001-08-14 | Leo Moser | Method and apparatus for performing full bidirectional translation between a source language and a linked alternative language |
US6266642B1 (en) * | 1999-01-29 | 2001-07-24 | Sony Corporation | Method and portable apparatus for performing spoken language translation |
US6278968B1 (en) * | 1999-01-29 | 2001-08-21 | Sony Corporation | Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system |
US6278969B1 (en) * | 1999-08-18 | 2001-08-21 | International Business Machines Corp. | Method and system for improving machine translation accuracy using translation memory |
CN1271545C (zh) * | 1999-11-17 | 2006-08-23 | 联合国 | 语言翻译系统 |
US6598021B1 (en) * | 2000-07-13 | 2003-07-22 | Craig R. Shambaugh | Method of modifying speech to provide a user selectable dialect |
US6782356B1 (en) * | 2000-10-03 | 2004-08-24 | Hewlett-Packard Development Company, L.P. | Hierarchical language chunking translation table |
US20020072914A1 (en) * | 2000-12-08 | 2002-06-13 | Hiyan Alshawi | Method and apparatus for creation and user-customization of speech-enabled services |
US6885985B2 (en) * | 2000-12-18 | 2005-04-26 | Xerox Corporation | Terminology translation for unaligned comparable corpora using category based translation probabilities |
US6996518B2 (en) * | 2001-01-03 | 2006-02-07 | International Business Machines Corporation | Method and apparatus for automated measurement of quality for machine translation |
US6535852B2 (en) * | 2001-03-29 | 2003-03-18 | International Business Machines Corporation | Training of text-to-speech systems |
CA2464932A1 (en) * | 2001-10-29 | 2003-05-08 | Stephen Clifford Appleby | Machine translation |
US7349839B2 (en) * | 2002-08-27 | 2008-03-25 | Microsoft Corporation | Method and apparatus for aligning bilingual corpora |
CN1290036C (zh) * | 2002-12-30 | 2006-12-13 | 国际商业机器公司 | 根据机器可读词典建立概念知识的计算机系统及方法 |
US7283949B2 (en) * | 2003-04-04 | 2007-10-16 | International Business Machines Corporation | System, method and program product for bidirectional text translation |
US7487092B2 (en) * | 2003-10-17 | 2009-02-03 | International Business Machines Corporation | Interactive debugging and tuning method for CTTS voice building |
US7587307B2 (en) * | 2003-12-18 | 2009-09-08 | Xerox Corporation | Method and apparatus for evaluating machine translation quality |
JP4134983B2 (ja) * | 2004-12-21 | 2008-08-20 | ブラザー工業株式会社 | 機械翻訳装置 |
JP4317990B2 (ja) * | 2005-03-11 | 2009-08-19 | 独立行政法人情報通信研究機構 | データ変換適性評価方法及びデータ変換装置 |
JP4263181B2 (ja) * | 2005-03-28 | 2009-05-13 | 株式会社東芝 | コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム |
JP4050755B2 (ja) * | 2005-03-30 | 2008-02-20 | 株式会社東芝 | コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム |
US7716052B2 (en) * | 2005-04-07 | 2010-05-11 | Nuance Communications, Inc. | Method, apparatus and computer program providing a multi-speaker database for concatenative text-to-speech synthesis |
JP2006318202A (ja) * | 2005-05-12 | 2006-11-24 | Suri Kaiseki Kenkyusho:Kk | 翻訳装置、翻訳プログラム及び翻訳システム |
JP4559946B2 (ja) * | 2005-09-29 | 2010-10-13 | 株式会社東芝 | 入力装置、入力方法および入力プログラム |
JP4058071B2 (ja) * | 2005-11-22 | 2008-03-05 | 株式会社東芝 | 用例翻訳装置、用例翻訳方法および用例翻訳プログラム |
US7890330B2 (en) * | 2005-12-30 | 2011-02-15 | Alpine Electronics Inc. | Voice recording tool for creating database used in text to speech synthesis system |
JP2007220045A (ja) * | 2006-02-20 | 2007-08-30 | Toshiba Corp | コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム |
US7848915B2 (en) * | 2006-08-09 | 2010-12-07 | International Business Machines Corporation | Apparatus for providing feedback of translation quality using concept-based back translation |
JP4393494B2 (ja) * | 2006-09-22 | 2010-01-06 | 株式会社東芝 | 機械翻訳装置、機械翻訳方法および機械翻訳プログラム |
EP2109832A4 (en) * | 2007-01-10 | 2010-05-12 | Ca Nat Research Council | MEANS AND METHODS FOR AUTOMATIC POSTENDING OF TRANSLATIONS |
US7983897B2 (en) * | 2007-02-14 | 2011-07-19 | Google Inc. | Machine translation feedback |
US7895030B2 (en) * | 2007-03-16 | 2011-02-22 | International Business Machines Corporation | Visualization method for machine translation |
US7953600B2 (en) * | 2007-04-24 | 2011-05-31 | Novaspeech Llc | System and method for hybrid speech synthesis |
US20090043583A1 (en) * | 2007-08-08 | 2009-02-12 | International Business Machines Corporation | Dynamic modification of voice selection based on user specific factors |
US8060360B2 (en) * | 2007-10-30 | 2011-11-15 | Microsoft Corporation | Word-dependent transition models in HMM based word alignment for statistical machine translation |
US8527715B2 (en) * | 2008-02-26 | 2013-09-03 | International Business Machines Corporation | Providing a shared memory translation facility |
US8060358B2 (en) * | 2008-03-24 | 2011-11-15 | Microsoft Corporation | HMM alignment for combining translation systems |
US9761219B2 (en) * | 2009-04-21 | 2017-09-12 | Creative Technology Ltd | System and method for distributed text-to-speech synthesis and intelligibility |
US8380504B1 (en) * | 2010-05-06 | 2013-02-19 | Sprint Communications Company L.P. | Generation of voice profiles |
-
2008
- 2008-02-28 JP JP2008048284A patent/JP5100445B2/ja active Active
- 2008-09-19 US US12/234,009 patent/US8924195B2/en not_active Expired - Fee Related
-
2009
- 2009-02-23 CN CN200910007558A patent/CN101520777A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103729347A (zh) * | 2012-10-10 | 2014-04-16 | 株式会社东芝 | 机器翻译装置、方法及程序 |
CN102880723A (zh) * | 2012-10-22 | 2013-01-16 | 深圳市宜搜科技发展有限公司 | 一种识别用户检索意图的搜索方法和系统 |
CN105373527A (zh) * | 2014-08-27 | 2016-03-02 | 中兴通讯股份有限公司 | 一种省略恢复方法及问答系统 |
CN105373527B (zh) * | 2014-08-27 | 2020-11-27 | 中兴通讯股份有限公司 | 一种省略恢复方法及问答系统 |
CN105573989A (zh) * | 2014-11-04 | 2016-05-11 | 富士通株式会社 | 翻译装置及翻译方法 |
CN108304389A (zh) * | 2017-12-07 | 2018-07-20 | 科大讯飞股份有限公司 | 交互式语音翻译方法及装置 |
CN108304389B (zh) * | 2017-12-07 | 2021-06-08 | 科大讯飞股份有限公司 | 交互式语音翻译方法及装置 |
CN108427672A (zh) * | 2018-02-07 | 2018-08-21 | 平安科技(深圳)有限公司 | 文字翻译的方法及终端设备 |
CN109918646A (zh) * | 2019-01-30 | 2019-06-21 | 中国科学院自动化研究所 | 篇章因果关系判断方法、系统、装置 |
Also Published As
Publication number | Publication date |
---|---|
JP5100445B2 (ja) | 2012-12-19 |
US8924195B2 (en) | 2014-12-30 |
US20090222256A1 (en) | 2009-09-03 |
JP2009205518A (ja) | 2009-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101520777A (zh) | 用于机器翻译的设备和方法 | |
Wang et al. | An overview of image caption generation methods | |
CN107077841B (zh) | 用于文本到语音的超结构循环神经网络 | |
JP4050755B2 (ja) | コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム | |
JP4058071B2 (ja) | 用例翻訳装置、用例翻訳方法および用例翻訳プログラム | |
Tur et al. | Spoken language understanding: Systems for extracting semantic information from speech | |
Schultz et al. | Multilingual speech processing | |
CN110634487B (zh) | 一种双语种混合语音识别方法、装置、设备及存储介质 | |
CN109086408A (zh) | 文本生成方法、装置、电子设备及计算机可读介质 | |
CN100451968C (zh) | 语法创建系统 | |
CN101622616B (zh) | 共享语言模型 | |
US20120239390A1 (en) | Apparatus and method for supporting reading of document, and computer readable medium | |
CN102667773A (zh) | 搜索设备、搜索方法及程序 | |
CN101960451A (zh) | 信息处理装置、方法、以及程序 | |
CN102549652A (zh) | 信息检索装置、信息检索方法及导航系统 | |
CN101447187A (zh) | 语音识别装置及方法 | |
CN103440234A (zh) | 自然语言理解系统及方法 | |
Kong et al. | Conversational AI with Rasa: Build, test, and deploy AI-powered, enterprise-grade virtual assistants and chatbots | |
WO2021034395A1 (en) | Data-driven and rule-based speech recognition output enhancement | |
EP1634151A1 (en) | Information processing method and apparatus | |
Granell et al. | Multimodality, interactivity, and crowdsourcing for document transcription | |
CN102135953B (zh) | 文本一致性编辑方法 | |
CN1965349A (zh) | 多形式的非歧意性语音识别 | |
Sproat et al. | Applications of lexicographic semirings to problems in speech and language processing | |
Mitrevski | Developing Conversational Interfaces for IOS: Add Responsive Voice Control to Your Apps |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20090902 |