CN101339547A - 用于机器翻译的装置和方法 - Google Patents

用于机器翻译的装置和方法 Download PDF

Info

Publication number
CN101339547A
CN101339547A CNA2008101295813A CN200810129581A CN101339547A CN 101339547 A CN101339547 A CN 101339547A CN A2008101295813 A CNA2008101295813 A CN A2008101295813A CN 200810129581 A CN200810129581 A CN 200810129581A CN 101339547 A CN101339547 A CN 101339547A
Authority
CN
China
Prior art keywords
notion
language
example group
group
translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2008101295813A
Other languages
English (en)
Inventor
知野哲朗
釜谷聪史
降幡建太郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of CN101339547A publication Critical patent/CN101339547A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

概念获得单元针对范例存储单元中存储的每个范例组,从概念存储单元获得第一语言范例中包括的词组的第一概念和第二语言范例中包括的词组的第二概念。判断单元判定包括第一概念和第二概念之间的不匹配概念的范例组不适用。范例组搜索单元搜索包括与输入语句类似或匹配的第一语言范例的范例组。输出控制单元输出删除了被判定为不适用的范例组的第二语言的多个范例组中的范例作为翻译结果。

Description

用于机器翻译的装置和方法
技术领域
本发明涉及一种用于对以源语言输入的语句进行机器翻译以获得目标语言语句的装置和方法。
背景技术
已经开发出机器翻译技术来将一种语言的表达自动翻译成不同语言中语义等价的表达,例如在日语和英语之间翻译。尤其是对于书面语广泛使用了机器翻译系统。可以将用于实现机器翻译的技术分成两大类,基于规则的翻译和基于语料库的翻译。
在基于规则的翻译中,针对每种语言的语法和词汇信息以及任两种在翻译中处理的语言之间的词汇和句子结构之间的对应关系描述规则,从而可以依据规则实现语言之间的转换。
开发基于规则的翻译中使用的规则和词典不仅要求对翻译的源语言和目标语言都具有高水平的认知,而且要对这些语言之间的语义和语法关系有高水平的认知。此外,因为语言有着无限的多样性,因此规则的开发需要大量的时间和基于穷尽性工作的高水平认知。而且,这种规则开发需要针对每一对源语言和目标语言进行。还有一个问题是,翻译的结果是自动化的且不自然的,这是因为变化无限多的语句都是基于有限数量的规则来翻译的。
作为克服基于规则的翻译中这种问题的解决方案,广泛采用了基于语料库的翻译。在基于语料库的翻译中,收集大量彼此语义等价的两种语言的表达对范例,参考所收集的范例进行语言转换。作为基于语料库的翻译,公知的有诸如翻译存储(TM)、基于范例的机器翻译(EBMT)和推测性机器翻译(SMT)等系统。
TM系统搜索与被输入的表达具有相同源语言表达的范例对,并输出表达的翻译。EBMT系统搜索包括类似于输入表达的源语言表达的范例对,并基于搜索到的范例的翻译获得语义上等价的目标语言表达。SMT系统基于来源于已可用的大量范例数据的统计信息获得以源语言输入的表达的翻译。
基于语料库的翻译的优势在于,翻译结果自然而可靠,而且开发相对容易,这使得多语言应用较为容易。在以下描述中,除非另作说明,将EBMT系统用作基于语料库的翻译的典型范例。
关于基于语料库的翻译,JP-A 2002-7392(特开)提出了一种技术,根据翻译方向设置源语言模式和目标语言模式,从而不必针对每种翻译语言创建模式。
应当指出,在表达单词时,可以不仅仅从表达(单词或一串字符的字面含义)来解释单词的含义,而是从表达和表达单词的环境之组合来解释其含义。
正是单词的这个方面提高了单词作为沟通工具的效率,一个单词随着环境变化而具有不同的含义。环境可以包括发言者和听者的立场、角色和关系,或时间、地点和周围物体以及已经确定的条件,此外还包括发言者和听者的知识和信仰、他们对彼此的了解和信任度、以及很多其他因素。
因此,可以将基于语料库的翻译中采用的范例中的语言的表达视为仅在为每个翻译对指定的有限环境下具有等价的含义。
然而在大多数情况下,基于语料库的翻译中的翻译范例对仅包括不同语言范例或“表达”的单词,并不包括做出这种表达的环境信息。
另一方面,因为基于语料库的翻译需要大量的翻译语料库,因此难以从语料库中排除在特定语境(环境)下使用的范例对或具有自由翻译的词组或固定词组(例如基于寓言的词组和成语)的范例对。
根据如JP-A 2002-7392(特开)所述的常规基于语料库的翻译技术,仅考虑词组的相似性来选择范例对,而不考虑使用单词的环境,这样有时会造成翻译的语句在语义上不等价。换言之,翻译结果可能不自然或不正确,可能无法实现被认为是基于语料库的翻译的优点的自然和高可靠性。
为了解决这个问题,可以考虑这样的方法:预先自动检测表达环境的一部分或向范例对附加环境的一部分。然而,很难以机械式的方式执行这些操作。可以人工地将环境的部分信息附加到范例对,但这不支持基于语料库的翻译在易于开发方面的优点。
发明内容
根据本发明的一个方面,一种机器翻译装置,其包括:范例存储单元,其存储范例组,其中,以包括第一语言和第二语言的至少两种语言来描述所述范例组中的范例,所述范例具有尽可能等价的含义且彼此相关联;概念存储单元,其彼此相关联地存储所述第一语言词组、所述第二语言词组以及概念,所述概念表示所述第一语言词组和所述第二语言词组共有的含义;第一概念获得单元,其从所述概念存储单元获得第一概念,所述第一概念对应于所述范例存储单元中存储的所述范例组的所述第一语言范例中包括的词组;第二概念获得单元,其从所述概念存储单元获得第二概念,所述第二概念对应于所述范例存储单元中存储的所述范例组的所述第二语言范例中包括的词组;判断单元,其判断所述第一概念和所述第二概念之间是否有任何不匹配概念,并在有所述不匹配概念时,判定包括所述不匹配概念的范例组不适用;接收单元,其接收所述第一语言的输入语句;范例组搜索单元,其搜索包括与所述输入语句类似或匹配的所述第一语言范例的任何范例组;删除单元,其从所述范例组搜索单元搜索的所述多个范例组中删除被判定为不适用的所述范例组;以及输出控制单元,其输出在删除了被判定为不适用的所述范例组的所述多个范例组中包括的所述第二语言范例作为翻译结果。
根据本发明的另一个方面,一种机器翻译方法,其包括:从概念存储单元获得概念作为第一概念,所述概念对应于范例存储单元中存储的范例组的第一语言范例中包括的词组,所述概念存储单元彼此关联地存储所述第一语言词组、第二语言词组以及概念,所述概念表示由所述第一语言词组和所述第二语言词组共有的含义,所述范例存储单元存储所述范例组,其中以包括所述第一语言和所述第二语言的至少两种语言来描述所述范例组中的范例,所述范例具有尽可能等价的含义且彼此相关联;从所述概念存储单元获得概念作为第二概念,所述概念对应于所述范例存储单元中存储的所述范例组的所述第二语言范例中包括的词组;判断所述第一概念和所述第二概念之间是否有任何不匹配概念;在有所述不匹配概念时判定具有所述不匹配概念的所述范例组不适用;接收所述第一语言的输入语句;搜索包括与所述输入语句类似或匹配的所述第一语言范例的任何范例组;从所搜索的多个范例组中删除被判定为不适用的所述范例组;以及输出在删除了被判定为不适用的所述范例组的所述多个范例组中包括的所述第二语言范例作为翻译结果。
附图说明
图1是根据本发明第一实施例的机器翻译装置的方框图;
图2是解释翻译范例的数据结构的范例的示意图;
图3是解释词库信息的数据结构的范例的示意图;
图4是解释范例分析信息的范例的示意图;
图5是根据第一实施例解释适用性信息的范例的示意图;
图6是根据第一实施例的机器翻译处理的流程图;
图7是根据第一实施例的机器翻译处理的流程图;
图8是根据第一实施例的机器翻译处理的流程图;
图9是根据第一实施例的变型的机器翻译装置的结构的方框图;
图10是根据第二实施例的机器翻译装置的结构的方框图;
图11是根据第二实施例解释适用性信息的范例的示意图;
图12是根据第二实施例的适用性判断处理的流程图;
图13是根据第二实施例的机器翻译处理的流程图;
图14是用于解释在具体范例中处理的各种信息的示意图;
图15是根据第三实施例的机器翻译装置的方框图;
图16是根据第三实施例的适用性信息呈现处理的流程图;
图17是示出了适用性信息呈现范例的示意图;以及
图18是示出了根据第一到第三实施例的机器翻译装置的硬件结构的示意图。
具体实施方式
以下将参考附图详细描述根据本发明的机器翻译装置和方法的示范性实施例。
在处理三种或更多种语言的多语言翻译语料库中上述问题尤为突出。此外,由于各语言的语义系统之间的差异,常规技术不能准备具有最佳等价含义的翻译对或翻译组。这常常导致错译。
为了避免这种问题,可以考虑这样的方法:准备由含义最佳地等价的词组构成的(多语言)语料库或直观检查语料库。然而,这样会丢失基于语料库的翻译在易于开发和多语言应用方面的优点。
根据本发明第一实施例的机器翻译装置比较两种语言范例中包括的单词的概念类别,当概念类别不匹配时针对每种翻译方向判断适用性,从而能够仅使用适用的范例组。这项功能例如取消了通过直观检查语料库来汇集最佳翻译语料库的需要。
在下文中,论述一种包括日语、英语和汉语的翻译词组的组的翻译存储系统的基于语料库的机器翻译装置。不过,语言的组合不限于该范例。可以处理两种语言或更多种语言。
如图1所示,机器翻译装置100包括范例存储单元121、词库存储单元122、接收单元101、范例组搜索单元102、概念获得单元103、判断单元104和输出控制单元105。
范例存储单元121中存储在语义上基本彼此等价的不同语言的范例词组的组。
如图2所示,范例存储单元121中的每一条表示一组范例词组,每个词组都与同一组中语义上等价的或几乎等价的其他语言的词组相关联。具体而言,每个范例条目包括用于标识该条目的地址、示出日语词组的日语范例J、示出英语词组的英语范例E和示出汉语词组的汉语范例C。
例如,在地址a1处的条目中,作为一组都表示“你好”的问候词组,日语范例201、英语范例202和汉语范例203彼此相关联。
当在条目中没有可用范例时,范例存储单元121在对应单元中输入符号“-”。例如,在地址a2处的条目中,日语范例204和英语范例205彼此关联以形成表示“How much is it for one person?”的组。然而,没有对应的汉语词组。于是,为汉语范例206输入符号“-”。
图1中的词库存储单元122中存储词库信息,其中表示单词含义的概念类别、概念类别之间的超类-子类关系以及属于每种概念类别的单词彼此关联。
如图3所示,词库信息中的每一条目包括以下各项作为概念类别的信息:标识条目的地址、概念类别N、子类概念ID列表、对应的日语单词列表J、对应的英语单词列表E和对应的汉语单词列表C。
例如,在地址b1处的条目中,概念类别为“时间”,包括含义为“今天早晨”的日语单词301、含义为“时间”的日语单词302等作为属于该概念类别的日语单词。此外,包括单词“morning”、“hour”等作为属于该概念类别的英语单词,而包括含义为“时间”等的汉语单词303作为属于该概念类别的汉语单词。
符号“...”表示省略对解释不重要的部分。地址b7处的条目具有概念类别“工具”,其子类概念ID列表示出了“b8,...”。这表示该条目是地址b8处的概念类别的更高概念。换言之,该表格表示地址b8处的条目的概念类别为“体育用品”,而概念类别“体育用品”是概念类别“工具”的子类概念。
发明人自己参考根据Kodansha出版、Takeshi Shibata和SusumuYamada编辑的“Ruigo Dai-jiten”(ISBN 4-06-123290-8)体系的第一级提供了地址b9到b16的概念类别。
在图3中,为了便于解释用汉语描述概念类别。可以用任何其他语言或以任何其他方式给出描述。此外,因为提供了标识概念类别的地址,因此可以不为该表格配置概念类别。
范例存储单元121和词库存储单元122可以由任何广泛使用的记录介质形成,例如硬盘驱动器(HDD)、光盘、存储卡和随机存取存储器(RAM)。
在图1中,接收单元101接收用户以源语言输入的语句。例如,当以语音、图像等形式输入源语言语句时,接收单元101可以对输入语句采用语音识别技术、字符识别技术、图象识别技术、这些技术的组合并接收被转换成字符串的语句。语句的输入不限于上述方法,而是可以采取任何常规方法,只要可以用字符串形式接收语句即可。在此假设在独立的处理中指定翻译的目标语言。
范例组搜索单元102在范例存储单元121中搜索能用于所接收语句的适用范例组。例如,当源语言为日语,而独立指定的翻译目标语言为英语时,范例组搜索单元102首先搜索这样的范例组,在该范例组中,日语范例J的内容与源语言输入匹配或类似,且英语范例E的单元未示出“-”。在找到适用条目时,范例组搜索单元102输出条目的地址作为适用范例组。
可以用与诸如翻译存储、基于范例的机器翻译、预测性机器翻译和信息检索中常规使用的搜索类似语句的处理相同的方式,实现由范例组搜索单元102执行的相似范例搜索处理。
概念获得单元103分析存储在范例存储单元121中的范例组,通过参考词库存储单元122获得每个范例组的范例中的每个单词的概念类别列表。概念获得单元103在概念获得单元103内部的存储单元(未示出)中存储所获得的概念类别列表和与范例组的地址相关的范例分析信息。
如图4所示,范例分析信息的每个条目包括标识范例分析信息的对应项的地址、范例组地址、日语范例概念类别列表J、英语范例概念类别列表E和汉语范例概念类别列表C,相互关联地存储它们。
对于范例分析信息的每一条目,在范例组地址列中记录范例组中受到分析的项目地址。此外,在日语范例概念类别列表J的列中列出和记录从词库存储单元122中找到的概念类别,作为与相应范例组的日语范例中出现的表达相对应的概念类别。以相似的方式,在英语范例概念类别列表E的列中列出和记录从对应范例组的英语范例提取的概念类别。此外,在汉语范例概念类别列表C的列中列出和记录从对应范例组的汉语范例提取的概念类别。与图2中的方式相同,在没有相应范例的单元中输入符号“-”。此外,符号“...”表示省略与解释无关的项目。
判断单元104适当地参考范例存储单元121、词库存储单元122,以及概念获得单元103中存储的范例分析信息,并判断范例组是否适用于源语言和目标语言的每种翻译方向。
更具体地说,判断单元104首先将源语言范例中包括的词组的概念类别与目标语言范例中包括的词组的概念类别进行比较,获得表示两组概念类别之间的不匹配部分的任何不匹配概念。然后,判断单元104进行分析,查看在源语言范例或目标语言范例中是否找到了不匹配的概念,或者何时在两个范例中找到不匹配概念,并分析这些不匹配概念的超类-子类关系。由此判断单元104针对每种翻译方向做出范例组是否适用的判断。可以配置判断单元104以判定在找到不匹配概念时范例组不适用。
判断单元104在其内部的存储单元等(未示出)中存储表示判断结果的适用性信息。如图5所示,每条适用性信息包括用于标识适用性信息的地址、范例组地址和针对范例组的每种翻译方向(日语到英语、日语到汉语、英语到日语、英语到汉语、汉语到日语和汉语到英语)表示适用性信息的单元。
此外,在日语到英语、日语到汉语、英语到日语、英语到汉语、汉语到日语和汉语到英语的各列内的对应一列中针对每种翻译方向输入范例组的适用性信息。具体而言,当范例组适用时,输入符号“○”,而当范例组不适用时,输入符号“×”。
应当指出,例如“日语到英语”表示源语言为日语而目标语言为英语的翻译方向。符号“-”表示相对于对应的翻译方向没有范例。符号“...”表示省略与解释无关的部分。
例如在图5中,地址为d1的条目示出了针对地址a1的范例组的适用性信息,在日语到英语、日语到汉语、英语到日语、英语到汉语、汉语到日语和汉语到英语的所有单元中都输入了符号“○”。因此,该范例适用于关于日语、英语和汉语的全部六种翻译方向。
此外,地址d4的条目示出了对应于地址a4的范例组的适用性信息,其中英语到日语方向的适用性为“○”,日语到英语方向的适用性为“×”,其他方向,即日语到汉语、英语到汉语、汉语到日语和汉语到英语的适用性为“-。这意味着该范例组仅包括日语和英语范例,且从英语到日语的范例适用,但从日语到英语的范例不适用。
在图1中,当范例组搜索单元102搜索范例组时,输出控制单元105从找到的范例组中去除被判断为不适用的组,并从被判断为适用的范例组检索目标语言范例,以将它们作为翻译结果呈现给用户。
接下来,介绍如上所述根据第一实施例由机器翻译装置100执行的处理。根据第一实施例,执行适用性信息设置处理和机器翻译处理,适用性信息设置处理判断存储在范例存储单元121中的范例的适用性并设置适用性信息,机器翻译处理根据适用性信息利用适用范例执行翻译。
首先,参考图6介绍适用性信息设置处理。
概念获得单元103从范例存储单元121获得尚未处理的范例组E(步骤S601)。接下来,概念获得单元103针对所获得的范例组E的范例分析信息产生新条目C(步骤S602)。
之后,概念获得单元103从范例组E中包括的范例中获得尚未处理的范例e(步骤S603)。接下来,概念获得单元103参考词库存储单元122,提取范例e中包括的概念类别并将它们添加到条目C中(步骤S604)。
更具体地说,概念获得单元103针对范例e中包括的每个单词或词组从词库存储单元122获得概念类别,并将它们添加到条目C的对应单元(日语范例概念类别列表J、英语范例概念类别列表E或汉语范例概念类别列表C)。
接下来,概念获得单元103判断是否处理了范例组E中包括的所有范例(步骤S605)。如果有任何尚未处理的范例(步骤S605处的“否”),则获得下一范例来重复该处理(步骤S603)。
当处理过所有范例时(步骤S605处的“是”),判断单元104针对范例组E的适用性信息产生新条目D(步骤S606)。
接下来,判断单元104执行适用性判断处理,通过参考概念获得单元103提取的概念类别判断范例组的适用性(步骤S607)。稍后将详细描述适用性判断处理。
接下来,概念获得单元103判断是否已经处理了范例存储单元121中存储的所有范例组(步骤S608)。如果有任何尚未处理的范例组(步骤S608处的“否”),则获得下一范例组来重复该处理(步骤S601)。如果已经处理了所有范例组(步骤S608处的“是”),则终止适用性信息设置处理。
通过这种方式,判断范例组的适用性,并在实际机器翻译之前将判断结果设置为适用性信息。不必预先对所有范例组执行适用性信息设置处理。最迟应该在获得对应于输入的源语言语句的目标语言范例的处理之前执行该处理,从而能够判断范例的适用性。
例如,可以在机器翻译处理期间对获得的范例组进行适用性信息设置处理,并可以利用根据适用性信息设置处理的结果提取的适用范例组完成机器翻译。
现在参考图7详细描述在步骤S607处的适用性判断处理。
首先,判断单元104从范例组E获得从未处理翻译方向的源语言范例和目标语言范例(步骤S701)。然后,判断单元104判断源语言范例和目标语言范例中的至少一个是否不可用(步骤S702)。
当源语言范例或目标语言范例中至少一个不可用时(步骤S702处的“是”),判断单元104在用于条目D的对应翻译方向的单元中输入符号“-”(步骤S703)。
如果不是源语言范例或目标语言范例中至少一个不可用时(步骤S702处的“否”),判断单元104获得源语言范例和目标语言范例的概念类别(步骤S704)。
接下来,判断单元104判断源语言范例的概念类别是否包括任何不匹配目标语言范例的概念类别的不匹配概念(步骤S705)。如果有任何不匹配概念(步骤S705处的“是”),判断单元104还判断在不匹配概念和目标语言范例的每个概念类别之间是否有超类-子类关系(步骤S706)。在该判断期间,判断单元104参考词库存储单元122中存储的子类概念ID列表。
在有超类-子类关系时(步骤S706处的“是”),判断单元104进一步判断目标语言范例的不匹配概念是否是源语言范例的不匹配概念的子类概念(步骤S707)。
当目标语言范例的不匹配概念是源语言范例的不匹配概念的子类概念时(步骤S707处的“是”),判断单元104在条目D的对应翻译方向的单元中输入符号“×”(步骤S708)。
当目标语言范例的不匹配概念不是源语言范例的不匹配概念的子类概念时,或者换言之,当目标语言范例的不匹配概念是超类概念时(步骤S707处的“否”),判断单元104在条目D的对应翻译方向的单元中输入符号“○”(步骤S709)。
此外,当在步骤S705判定没有不匹配概念时(步骤S705处的“否”),判断单元104在条目D的对应翻译方向的单元中输入符号“○”(步骤S709)。
此外,当在步骤S706判定在不匹配概念和每个目标语言范例的概念类别之间没有超类-子类关系时(步骤S706处的“否”),判断单元104在条目D的对应翻译方向的单元中输入符号“×”(步骤S708)。
换言之,步骤S706处的判断标准是,如果在源语言和目标语言之间有不匹配概念类别且在翻译方向上概念类别数量增加,则判定范例组不适用。当根据这种判断标准将范例适用性限于某种环境时,因为概念类别数量沿翻译方向增加,所以可以控制到环境有限的语言的翻译。
接下来,判断单元104判断是否对所有的翻译方向进行了处理(步骤S710)。如果未完成该处理(步骤S710处的“否”),则在下一翻译方向上重复该处理(步骤S701)。如果完成了对所有翻译方向的处理(步骤S710处的“是”),则终止适用性信息设置处理。
在步骤S705、S706和S707中使用的判断标准是作为范例提供的,只要可以将概念类别加以适当比较以判断哪些范例组适用就可以采用任何标准。例如,可以将该处理配置成包括这些步骤处的判断标准中的至少一个。此外,可以将该处理配置成包括两个或更多判断标准。
此外,根据图7A的流程图,针对每个翻译方向做出判断,但是可以将该处理配置成针对每对语言判断概念类别的关系并针对交叉翻译方向设置适用性信息。通过这种方式,当目标语言(例如英语)的范例包括日语范例的子类概念类别时,则为“日语到英语”翻译方向输入“×”,而同时为“英语到日语”翻译方向输入“○”。
接下来,参考图8解释机器翻译处理。
首先,接收单元101根据从用户接收的输入数据设置翻译方向(步骤S801)。在该方法中不必一定要确定翻译方向。可以预先设定具体的翻译方向,或者可以采用任何其他方法。
接下来,接收单元101判断是否接收到源语言输入语句(在下文中称为“源语言输入I”)(步骤S802)。如果未接收到源语言输入I(步骤S802处的“否”),则重复该处理,直到接收到为止。
在接收到源语言输入I时(步骤S802处的“是”),范例组搜索单元102在范例存储单元121中搜索包括匹配或类似于源语言输入I的源语言范例的候选范例组列表L(步骤S803)。
然后,范例组搜索单元102从该列表L获取未处理的候选范例组E(步骤S804)。之后,范例组搜索单元102获取适用性信息对应于候选范例组E的条目D(步骤S805)。
接下来,范例组搜索单元102判断是否在对应于在步骤S801中设定的翻译方向的条目D的单元中输入了“○”(步骤S806)。在输入了“○”时(步骤S806处的“是”),输出控制单元105输出候选范例组E的目标语言范例作为翻译结果(步骤S808)。
当在条目D的对应单元中未输入“○”时(步骤S806处的“否”),判定该候选范例组E不适用。换言之,输出控制单元105从候选范例组的列表L中去除该候选范例组E。接下来,范例组搜索单元102判断是否对列表L中的所有候选范例组都进行了处理(步骤S807)。
当有任何尚未处理的候选范例组时(步骤S807处的“否”),范例组搜索单元102获取下一未处理的候选范例组以重复该处理(步骤S804)。当对所有候选范例组进行了处理时(步骤S807处的“是”),则终止机器翻译处理。
当在超类-子类关系方面比较概念类别时,可以忽略预定范围内的关系。此外,当比较概念类别以寻找匹配时,可以采用语义距离来表示概念类别的相似性如何,从而可以在该距离大于预定的阈值时判定该概念类别不匹配。
在预测性机器翻译中,可以通过参考适用性信息并仅关注适用范例组来执行预测性机器翻译的学习过程。此外,可以从针对每种翻译方向的概念类别比较中排除掉特定的词类,例如副词和人称代词。再者,当从候选范例组中选择要输出的范例组时,可以按照例如相似度的降序选择若干组。
接下来,通过给出具体范例在下文中介绍根据实施例由机器翻译装置100执行的处理。首先介绍适用性信息设置处理的特定范例。在此假设,预先在范例存储单元121中存储图2所示的信息,并预先在词库存储单元122中存储图3所示的信息。尚未在概念获得单元103中存储范例分析信息。关于翻译方向,假设源语言为日语,目标语言为英语。
在适用性信息设置处理中,虽然对范例存储单元121中存储的所有范例组进行处理,但在此讨论范例组处理的典型范例并详细介绍该处理的操作。
首先,讨论如图2所示的对地址a4处的条目的范例组(在下文中称为“范例组E4”)执行的适用性信息设置处理。
在步骤S601获得范例组E4之后,产生如图4中的地址c4处所示的条目(在下文中称为“条目c4”)作为范例组E4的范例分析信息的新条目(步骤S602)。
范例组E4中包括的日语范例J(在下文中称为“日语范例J4”)和英语范例E“My son had nosebleed this morning。”(在下文中称为英语范例E4)都尚未被处理,因此首先提取日语范例J4(步骤S603)。
范例组E4中被省略了句子主语的日语范例J表示今天早晨某人鼻子出血了。另一方面,范例组E4的英语范例E表示儿子今天早晨鼻子出血了。因此,从英语到日语的翻译可能不会总是错误的,但在动作主语不是儿子的情况下,从日语到英语的翻译是不正确的。
接下来,参考图3所示的词库存储单元122,从而将日语范例J4中出现的单词207和208与词库存储单元122中地址b1处的条目(单词301)和地址b2处的条目(单词304)进行匹配。然后,在条目c4的日语范例概念类别列表J的单元中提取并记录单词207和208分别属于“时间”和“生理现象”概念类别的信息(步骤S604)。
因为范例组E4包括未处理的英语范例E4(步骤S605处的“否”),因此提取该英语范例E4(步骤S603),在该英语范例上执行类似处理。在该处理中,基于词库存储单元122的地址b3、b2和b1处的条目,从英语范例E4中出现的单词“son”、“nosebleed”和“morning”提取概念类别“人”、“生理现象”和“时间”。然后,在条目c4的英语范例概念类别列表E的单元中记录所提取的概念类别(步骤S604)。
因为现在处理了范例组E4中的所有范例(步骤S605处的“是”),判断单元104在图5中的地址d4处产生条目(在下文中称为“条目d4”)作为用于范例组E4的适用性信息的新项目(步骤S606)。
接下来,在适用性判断处理中针对每种翻译方向判断范例组E4的适用性,向条目d4添加结果,如图5所示(步骤S607)。
更具体地说,因为范例组E4仅包括日语范例和英语范例,所以为涉及汉语的任何翻译方向,即日语到汉语、英语到汉语、汉语到日语和汉语到英语输入符号“-”(步骤S703)。
此外,针对条目c4的日语范例概念类别列表J表示“时间、生理现象”,针对条目c4的英语范例概念类别列表E表示“人、生理现象、时间”。因此判定有不匹配概念“人”(步骤S705处的“是”)。因为包括与源语言概念类别没有超类-子类关系的概念类别“人”,所以在“日语到英语”翻译方向的单元中记录符号“×”(步骤S706、步骤S708处的“否”)。
利用与上述相似的处理,在英语到日语翻译方向的单元中记录符号“○”(步骤S709)。结果,相对于范例组E4完成了适用性信息设置处理。根据本实施例,可以通过设置适用性信息以仅在可能发生错译的日语到英语翻译方向中避免使用范例组E4。
接下来,讨论如图2所示的对地址a6处的条目的范例组(在下文中称为“范例组E6”)执行的适用性信息设置处理。
在步骤S601处获得范例组E6之后,新产生如图4中所示的地址c6处的条目(在下文中称为“条目c4”)作为范例组E6的新范例分析信息条目(步骤S602)。
根据上述处理,针对范例组E6中包括的日语范例J、英语范例E“10yuanfor each car per hour.”和汉语范例C提取概念类别列表。具体而言,分别提取了“时间、货币”、“货币、时间、运输工具”和“运输工具、时间、货币”。如图4所示,将提取的概念类别输入条目c6的日语范例概念类别列表J、英语范例概念类别列表E和汉语范例概念类别列表C的对应单元中。
范例组E6的日语范例J没有句子宾语,表示未定义的某物每小时的费率为10元。另一方面,范例组E6的英语范例E和汉语范例C都表明汽车的每小时费率为10元。因此,从英语或汉语到日语的翻译可能不会错,但在句子宾语不是汽车时,从日语到英语或到汉语的翻译是不正确的。
之后,由判断单元104在图5的地址d6处产生条目(在下文中称为“条目d6”)作为范例组E6的新适用性信息项目(步骤S606)。
接下来,在适用性判断处理中,针对范例组E6的每种翻译方向判断适用性,向条目d6添加结果,如图5所示(步骤S607)。
具体而言,因为范例组E6包括所有的日语、英语和汉语范例,因此在步骤S703处不输入符号“-”。
另一方面,在对应于范例组E6的条目c6中,英语范例概念类别列表E和汉语范例概念类别列表C包括日语范例概念类别列表J中未出现的概念类别“运输工具”。此外,在日语范例概念类别列表J中没有与该概念类别具有超类-子类关系的概念类别。因此,在条目d6的日语到英语和日语到汉语的翻译方向的单元中输入符号“×”(步骤S706、步骤S708处的“是”)。
在类似的处理中,在英语到日语、英语到汉语、汉语到日语和汉语到英语的翻译方向的单元中输入符号“○”(步骤S709)。由此对范例组E6完成了适用性信息设置处理。根据本实施例,可以通过设置适用性信息以仅在可能发生错译的日语到英语和日语到汉语的翻译方向中避免使用范例组E6。
现在介绍对图2中地址a5处的条目中的范例组(在下文中称为“范例组E5”)进行的适用性信息设置处理。
在步骤S601处获得范例组E5之后,产生如图4中所示的在地址c5处的条目(在下文中称为“条目c5”)作为范例组E5的新范例分析信息项目
(步骤S602)。
针对范例组E5的日语范例J和英语范例E“How much does it cost torent a racket?”,根据类似于上述的处理提取概念类别列表。更具体地说,分别提取“工具、货币”和“货币、体育用品”。在图4中的条目c5的日语范例概念类别列表J和英语范例概念类别列表E的单元中记录这些概念类别。
在范例组E5的日语范例J中,询问了某种工具的租金。另一方面,范例组E5的英语范例E是询问特定工具(即球拍)的租金。因此,从英语到日语的翻译不会错,但在工具不是球拍时从日语到英语的翻译是不正确的。
之后,判断单元104在地址d5处产生新条目(在下文中称为“条目d5”)作为如图5所示的范例组E5的适用性信息项目(步骤S606)。
接下来,在适用性判断处理中,针对每种翻译方向判断范例组E5的适用性,向条目d5添加结果,如图5所示(步骤S607)。
换言之,范例组E5仅包括日语和英语范例,因此在日语到汉语、英语到汉语、汉语到日语和汉语到英语的翻译方向单元中输入符号“-”(步骤S703)。
接下来,在对应于范例组E5的条目c5中,在日语范例概念类别列表J和英语范例概念类别列表E的内容之间检测到不匹配概念类别“工具”和“体育用品”(步骤S705处的“是”)。此外,从图3所示的词库存储单元122获得对应于概念类别“工具”的地址b7的条目(在下文中称为条目b7)和对应于概念类别“体育用品”的地址b8的条目(在下文中称为条目b8)。
判定概念类别“体育用品”是概念类别“工具”的子类概念,因为条目b7的子类概念ID列表包括表示条目b8的值b8。因此,根据在步骤S707中采用的判断标准,在针对条目d5的日语到英语翻译方向的单元中记录符号“×”(步骤S707、步骤S708处的“否”)。
利用与上述相似的处理,在英语到日语翻译方向的单元中记录符号“○”(步骤S709)。结果,对范例组E5完成了适用性信息设置处理。根据本实施例的方法,可以通过设置适用性信息以仅在可能发生错译的日语到英语翻译方向中避免使用范例组E5。
接下来介绍机器翻译处理的具体范例。
首先,假设设置翻译方向,源语言为英语,目标语言为日语(步骤S801)。接下来,接收英语的源语言输入I“My son had a nosebleed this morning.”(在下文中称为“英语输入1”)(步骤S802处的“是”)。
然后,范例组搜索单元102搜索范例存储单元121以找到英语范例匹配英语输入1的范例组E4,获得了地址a4处的条目(在下文中称为条目a4)(步骤S803)。
接下来,获得条目d4,其是范例组E4的适用性信息(步骤S805)。因为条目d4的英语到日语单元具有“○”,所以判定英语到日语翻译方向的范例组E4是适用的(步骤S806处的“是”)。然后,输出控制单元105将范例组E4的日语范例作为翻译结果输出(步骤S808)。
输出的日语范例不包括在概念类别“人”之下与英语范例中包括的单词“son”等价的单词。然而在日语中常常可以允许省略句子主语,因此保持了该输入的翻译结果的自然和可靠。
反之,假设在步骤S801中确定的翻译方向是源语言为日语而目标语言为英语,且输入与图2的地址a4处的日语范例J相同的日语源语言输入I(在下文中称为日语输入1)。因为条目d4的日语到英语单元示出的是“×”,所以在日语到英语的翻译方向不使用范例组E4(步骤S806处的“否”)。
以上功能避免了可能会由采用包括了日语输入1中不包括的概念“人”下的单词“son”的英语范例而引起的错译。
利用这种功能,即使在输入了与范例组E6中包括的语言范例匹配或类似的语句时,也针对每种翻译方向判断范例组E6的适用性。由此可以避免错译。
换言之,在要把匹配图2中地址a6处的条目(在下文中称为条目a6)中包括的日语范例J的输入语句翻译成英语或汉语时,参考条目d6的内容可以判定范例组E6是不适用的。因此,可以避免这样的情形:虽然日语范例J不包含等价词组,但选择了例如包括词组“for each car”的英语范例E,从而输出了不适合表达环境的错译。
另一方面,当要把条目a6中包括的英语范例E“10 yuan for each carper hour.”或与汉语范例C匹配的任何语句翻译成另一种语言时,不限制范例组E6的使用。
以同样的方式,在输入了与范例组E5的范例匹配的语句或类似语句时,针对每种翻译方向判断范例组E5的适用性。由此可以避免错译。
更具体地说,在输入了与图2中地址a5处的条目(在下文中称为条目a5)包括的日语范例J匹配的语句时,参考条目d5的内容判定范例组E5不适用。通过这种方式可以避免这样的情形:选择了询问球拍租金的英语范例E,但日语范例J未指出该工具为球拍,从而输出不适合表述的错译输出。
另一方面,在输入了与条目a5的英语范例E“How much does it costto rent a racket?”匹配的语句时,则不限制范例组E5的使用。
根据第一实施例的机器翻译装置比较不同语言范例的概念类别,当范例不匹配时,该装置基于概念类别的关系根据翻译方向判断范例的适用性。于是,仅能够使用适用的范例,因此,可以进行基于语料库的机器翻译而不会丢失语句的可靠性或自然性。
在以上描述中,只是在概念类别的数量增加的翻译方向中限制范例组的适用性。不过,可以配置该结构,通过去除与源语言范例中不包括的任何概念类别相对应的词组来创建新的范例组。这种处理使得即使在开始受限的翻译方向中也能够进行翻译。可以在开始时将该处理作为适用性信息设置处理的一部分,或者作为机器翻译处理的一部分执行该处理。
在图9中,机器翻译装置900包括范例存储单元121、词库存储单元122、接收单元101、范例组搜索单元102、概念获得单元103、判断单元104、范例添加单元906和输出控制单元105。
该变型范例与第一实施例的不同之处在于增加了范例添加单元906。范例添加单元906将从被判定为不适用的范例组新创建的范例组添加到范例存储单元121中。
根据以上方法,例如,因为图2中的条目a6的日语范例J不包括概念类别“运输工具”,因此对从日语到英语或汉语的翻译不采用该范例组。
相反,根据该变型范例的范例添加单元906从英语范例E中去除对应于概念类别“运输工具”的词组“for each car”,以获得的新范例“10 yuanper hour.”。然后,范例添加单元906将该范例添加到范例存储单元121,并将日语到英语翻译方向的适用性信息设置为“○”。通过这种方式,可以在根据第一实施例的方法限制的日语到英语方向上实现翻译。
此外,在概念类别之间具有超类-子类关系时,根据第一实施例,在概念变得更详细的翻译方向上(即从超类概念到子类概念的方向)限制范例组的应用。相反,可以配置该结构,通过用与较高概念类别相对应的词组替换与较低概念类别相对应的词组来创建范例组,从而可以在该方向上实现翻译。
例如,在根据第一实施例的方法中,不将图2中的条目a5用于日语到英语的翻译,因为英语范例E“How much does it cost to rent a racket?”中的概念类别“体育用品”是日语范例J中的概念类别“工具”的子类概念。
相反,根据变型范例的范例添加单元906通过用与超类概念相对应的单词“工具”替代英语范例E中与概念类别“体育用品”相对应的单词“racket”来创建范例组。然后,范例添加单元906将该范例组添加到范例存储单元121,并将日语到英语翻译方向的适用性信息定义为“○”。通过这种方式,可以在根据第一实施例的方法限制的日语到英语翻译方向上实现翻译。
基于语料库的翻译的一个缺点在于不能翻译所有输入的语句,因为语句的变化是无穷的。由于其翻译系统的原理,可翻译的语句是有限的。为了克服这个缺点,当源语言语句和语料库中存储的任何范例组的源语言范例之间有任何差异时,通过参考多语言词典等用适当的词组替换不同的部分。由此获得翻译结果。具体而言,用参考多语言词典等获得的已翻译单词或词组取代与范例组目标语言不同的部分,从而即使在输入语句包括与语料库中任何语句均不同的部分时仍可以获得正确的翻译结果。在下文中将这种技术称为译文编辑功能。
另一方面,在要处理包括基于寓言的词组、成语或固定词组的范例组时,根据常规技术的译文编辑功能有时会通过编辑不应替换的词组来进行错译。
根据第二实施例的机器翻译装置比较不同语言范例中包括的词组的概念类别,在差异比小于等于预定值时禁止译文编辑功能。
在图10中,机器翻译装置1000包括范例存储单元121、词库存储单元122、接收单元101、范例组搜索单元102、概念获得单元103、判断单元1004、译文编辑单元1007和输出控制单元105。
第二实施例与第一实施例的不同之处在于增加了译文编辑单元1007且改变了判断单元1004的功能。该结构和功能的其余部分与图1的方框图所示的根据第一实施例的机器翻译装置100相同。因此,为相同的结构元件分配相同的附图标记并省略其描述。
判断单元1004与根据第一实施例的判断单元104的不同之处是基于范例组中不同语言范例中包括的概念类别比来判断是否应该编辑译文的功能。
更具体地说,判断单元1004判断不匹配概念与源语言范例或目标语言范例中包括的概念类别之比是否大于预定的阈值。当其更大时,判断单元1004判定不能编辑译文。这意味着,如果不匹配概念类别的比例大时,将范例组判定为包括自由翻译范例,例如基于寓言的词组,因此不应编辑该译文。
判断单元1004维护向其添加了是否应编辑译文的判断结果的适用性信息。如图11所示,根据本实施例包括了用于判断是否应编辑译文的列。在该译文编辑列中,在可以编辑译文时记录符号“○”,但在不可以编辑译文时记录符号“×”。
译文编辑单元1007基于源语言输入和范例组的源语言范例之间的差异,响应于源语言的语句输入,编辑范例组搜索单元102从范例存储单元121获得的范例组的目标语言范例,并创建源语言输入的翻译语句。
可以用和常规基于范例的机器翻译处理相同的方式实现由译文编辑单元1007执行的处理,其使用表示源语言输入和范例组源语言范例中的单词之间的对应关系或其间的差异的对准、范例组的源语言范例和目标语言范例之间的对准或差异、以及源语言单词到目标语言单词的词典。
此外,译文编辑单元1007参考与在机器翻译处理期间获得的范例组相对应的适用性信息的译文编辑列。当值表示出“×”时,不使用译文编辑功能。
接下来,参考图12介绍由根据第二实施例的机器翻译装置1000执行的适用性判断处理。适用性信息设置处理的整个流程与图6所示的相同,因此省略其介绍。
步骤S1201到S1205中判断是否有可用范例、获得概念类别以及判断不匹配概念的处理与根据第一实施例的机器翻译装置100执行的步骤S701到S705的处理相同,因此省略其介绍。
在有不匹配概念时(步骤S1205处的“是”),判断单元1004计算不匹配概念与源语言范例或目标语言范例中的概念类别之比(步骤S1206)。
接下来,判断单元1004判断该比值是否大于预定的阈值(步骤S1207)。当它更大时(步骤S1207处的“是”),在条目D的对应翻译方向的单元中输入符号“○”,并在译文编辑列的单元中输入符号“×”(步骤S1208)。
当该比值不大于预定的阈值时(步骤S1207处的“否”),判断单元1004在条目D的译文编辑列的对应单元中输入符号“○”(步骤S1209)。如果是这种情况,则根据步骤S1210到S1213的后续处理在翻译方向的单元中输入值。
步骤S1210到S1214的处理与根据第一实施例的机器翻译装置100在步骤S706到S710执行的处理相同,因此省略其介绍。
参考图13介绍由根据第二实施例的机器翻译装置1000执行的机器翻译处理。
步骤S1301到S1307中接收输入语句、搜索范例组、判断适用性信息和判断处理完成的处理与根据第一实施例的机器翻译装置100在步骤S801到S807执行的处理相同,因此省略其介绍。
当在与设置了适用性信息的翻译方向相对应的单元中输入了“○”时(步骤S1306处的“是”),译文编辑单元1007判断在译文编辑列的单元中是否输入了“○”(步骤S1308)。
当在译文编辑列的单元中输入了“○”时(步骤S1308处的“是”),译文编辑单元1007执行译文编辑处理(步骤S1309)。如果所接收的源语言输入I与源语言范例匹配,则无需执行译文编辑处理。
译文编辑处理之后,或者在步骤S1308处判定译文编辑列的单元中未输入“○”时(步骤S1308处的“否”),输出控制单元105将候选范例组E的目标语言范例作为翻译结果输出(步骤S1310)。
接下来,介绍由根据该实施例的机器翻译装置1000执行的处理的具体范例。首先论述适用性信息设置处理的特定范例。
假设输入图2中地址a7处的条目(在下文中称为“条目a7”)的范例组作为含基于寓言的词组的范例组(在下文中称为“范例组E7”)。在适用性信息设置处理中,相对于范例组E7创建图4的地址c7处的条目(在下文中称为“条目c7”),还创建图5中地址d7处的条目(在下文中称为“条目d7”)。
已知范例组E7的汉语范例C是基于寓言的词组。另一方面,范例组E7的日语范例J是从该基于寓言的词组自由翻译的语句。因此从汉语到日语的翻译不会出现错误。另一方面,当输入了也是从同一基于寓言的词组翻译的不同语句时,有可能可以通过基于日语语句和日语范例J之间的差异的译文编辑功能,对被认为未编辑的汉语基于寓言的词组进行编辑。
在该范例中,图4中条目c7的日语范例概念类别列表J中没有概念类别与汉语范例概念类别列表C的任何概念类别匹配。因此,判定不能使用译文编辑功能(步骤S1207处的“是”),结果在条目d7的译文编辑单元中输入了符号“×”(步骤S1208)。
接下来,参考图14描述通过不允许编辑译文来避免错译的具体范例。
例如,输入日语语句1401作为机器翻译处理中的源语言输入I。该日语语句1401与图2中地址a7处的日语范例J仅有两个单词不同。常规基于范例的机器翻译常常执行译文编辑处理以弥补该差异。
在此假设,例如,基于范例组E7的日语范例J和汉语范例C之间的语句结构匹配创建如图14所示的对准1402到1405。对准1402到1405中使用的符号“/”表示符号左边为日语词组,符号右边为汉语词组,两个词组彼此关联。
在图14中,作为日语语句1401和日语范例J之间的差异获得的日语单词1406和1407分别对应于汉语单词1408和1409。于是,利用常规技术,可以用单词1408和1409替换图14中范例组E7的汉语范例C中的单词1410和1411,从而以汉语翻译1412结束。
换言之,因为汉语范例C包括基于寓言的词组,如果根据常规技术采用译文编辑功能就有可能导致错译。另一方面,根据第二实施例基于范例组的范例之间的语义相似性适当地判断是否应执行译文编辑。因此可以防止对输入语句进行错译。
在根据第三实施例的机器翻译装置中,这样配置范例存储单元121,使得能够输入新范例组,且在输入范例组以向用户呈现判断结果时判断范例组的适用性。
如图15所示,机器翻译装置1500包括范例存储单元121、词库存储单元122、接收单元1501、范例组搜索单元102、概念获得单元103、判断单元104和输出控制单元1505。
第三实施例与第一实施例在接收单元1501和输出控制单元1505的功能上不同。机器翻译装置1500的其余结构和功能与图1的方框图所示的根据第一实施例的机器翻译装置100相同。因此,将相同的附图标记分配给相同的组件,并省略其介绍。
接收单元1501与根据第一实施例的接收单元101的不同之处在于,除了接收源语言输入之外,还把接收单元1501配置成接收输入的候选范例组以进入范例存储单元121中。接收单元1501可以接收从键盘或任何其他接口(未示出)输入的文本。
输出控制单元1505与根据第一实施例的输出控制单元105的不同之处在于,输出控制单元1505具备将判断所接收的候选范例组的适用性的结果呈现给用户的功能。
接下来,参考图16介绍由根据第三实施例的机器翻译装置1500执行的适用性信息呈现处理。适用性信息呈现处理表示判断所接收的候选范例组的适用性并将判断结果呈现给用户的处理。
首先,接收单元1501接收用户输入的候选范例组(步骤S1601)。
步骤S1602到S1607的条目产生处理、概念类别提取处理和适用性判断处理与根据第一实施例的机器翻译装置100在步骤S602到S607执行的处理相同,因此省略其介绍。
在适用性判断处理之后,输出控制单元1505在显示装置(未示出)上呈现适用性信息(步骤S1608),终止适用性信息呈现处理。
如图17所示,在判定输入的范例组不适用时,呈现警告信息,以表示该范例组的使用可能受到控制。在该图中,显示出下划线1701和1702以示出单词之间的对应关系,基于其判定使用受到控制。
根据第三实施例的机器翻译装置通知正在创建范例组中的条目的用户在哪个翻译方向上可以或不可以使用该条目的范例组。这引起用户的注意并给了用户修改范例组的机会。
接下来,参考图18介绍根据第一到第三实施例中的任一个的机器翻译装置的硬件结构。
根据第一到第三实施例中的任一个的机器翻译装置包括诸如中央处理单元(CPU)51之类的控制装置、诸如只读存储器(ROM)52和RAM 53之类的储存装置、建立与网络的连接以进行通信的通信接口54以及连接所有这些组件的总线61。
预先将根据第一到第三实施例的任一个的机器翻译装置执行的机器翻译程序加载到ROM 52等中。
可以将根据第一到第三实施例的任一个的机器翻译装置执行的机器翻译程序以可安装或可执行形式的文件记录在计算机可读存储介质上,例如只读光盘(CD-ROM)、软盘(FD)、可记录光盘(CE-R)和数字多用盘(DVD)。
此外,可以将根据第一到第三实施例的任一个的机器翻译装置执行的机器翻译程序存储在连接到诸如因特网之类的网络上的计算机中,从而可以经由网络下载程序。或者,可以经由诸如因特网之类的网络提供或分发由根据第一到第三实施例的任一个的机器翻译装置执行的机器翻译程序。
将根据第一到第三实施例的任一个的机器翻译装置执行的机器翻译程序形成为包括以上单元(接收单元、范例组搜索单元、概念获得单元、判断单元和输出控制单元)的模块。作为实际的硬件结构,CPU 51从ROM 52读取机器翻译程序并执行该程序。然后在主存储装置上加载并生成所有这些单元。

Claims (10)

1、一种机器翻译装置,其包括:
范例存储单元,其存储范例组,其中,以包括第一语言和第二语言的至少两种语言来描述所述范例组中的范例,所述范例具有尽可能等价的含义且彼此相关联;
概念存储单元,其彼此相关联地存储所述第一语言词组、所述第二语言词组以及概念,所述概念表示所述第一语言词组和所述第二语言词组共有的含义;
第一概念获得单元,其从所述概念存储单元获得第一概念,所述第一概念对应于所述范例存储单元中存储的所述范例组的所述第一语言范例中包括的词组;
第二概念获得单元,其从所述概念存储单元获得第二概念,所述第二概念对应于所述范例存储单元中存储的所述范例组的所述第二语言范例中包括的词组;
判断单元,其判断所述第一概念和所述第二概念之间是否有任何不匹配概念,并在有所述不匹配概念时,判定包括所述不匹配概念的范例组不适用;
接收单元,其接收所述第一语言的输入语句;
范例组搜索单元,其搜索包括与所述输入语句类似或匹配的所述第一语言范例的任何范例组;
删除单元,其从所述范例组搜索单元搜索的所述多个范例组中删除被判定为不适用的所述范例组;以及
输出控制单元,其输出在删除了被判定为不适用的所述范例组的所述多个范例组中包括的所述第二语言范例作为翻译结果。
2、根据权利要求1所述的装置,其中,在有所述不匹配概念时且在所述不匹配概念仅包括在所述第二概念中时,所述判断单元判定在从所述第一语言到所述第二语言的翻译方向上所述范例组不适用。
3、根据权利要求1所述的装置,其中,在有所述不匹配概念时且在所述不匹配概念仅包括在所述第一概念中时,所述判断单元判定在从所述第一语言到所述第二语言的翻译方向上所述范例组适用。
4、根据权利要求1所述的装置,其中,在所述第一概念的含义与所述第二概念的含义之间的语义距离大于预定的第一阈值时,所述判断单元判定所述第一概念不匹配所述第二概念。
5、根据权利要求1所述的装置,其中
所述概念存储单元彼此相关联地存储所述第一语言词组、所述第二语言词组、所述概念以及表示所述概念的含义子类的子类概念;以及
在有所述不匹配概念时,所述判断单元从所述概念存储单元获得与所述第一概念中包括的所述不匹配概念相对应的所述子类概念,并且在所获得的子类概念匹配所述第二概念中包括的所述不匹配概念时,判定在从所述第一语言到所述第二语言的所述翻译方向上所述范例组不适用。
6、根据权利要求5所述的装置,还包括:
添加单元,其从所述概念存储单元获得与所述第一概念中包括的所述不匹配概念相对应的所述子类概念,并在所获得的子类概念匹配所述第二概念中包括的所述不匹配概念时,通过用高于所述子类概念的概念替换所述不匹配概念,来创建包括所述第二语言范例的范例组,并将所述范例组添加到所述范例存储单元中,其中
所述判断单元还判定在从所述第一语言到所述第二语言的翻译方向上所述添加的范例组适用。
7、根据权利要求5所述的装置,其中,在有所述不匹配概念时,所述判断单元从所述概念存储单元获得与所述第二概念中包括的所述不匹配概念相对应的所述子类概念,并且在所获得的子类概念匹配所述第一概念中包括的所述不匹配概念时,判定在从所述第一语言到所述第二语言的翻译方向上所述范例组适用。
8、根据权利要求1所述的装置,其中
所述接收单元还接收输入的范例组;
所述第一概念获得单元针对所接收的范例组从所述概念存储单元获得所述第一概念;
所述第二概念获得单元针对所接收的范例组从所述概念存储单元获得所述第二概念;
所述判断单元判断在所接收的范例组中是否有所述不匹配概念,并在有所述不匹配概念时,判定所述范例组不适用;以及
所述输出控制单元输出判断所接收的范例组的适用性的结果。
9、根据权利要求1所述的装置,还包括:
编辑单元,其能够基于所述输入语句与所述搜索到的范例组中包括的所述第一语言范例之间的差异部分,编辑搜索获得的所述范例组中包括的所述第二语言范例,其中
所述判断单元将比值与预定的第二阈值进行比较,在所述比值大于所述第二阈值时,判定不能编辑所述范例组,其中所述比值为所述第一概念或所述第二概念与所述不匹配概念的比值;
当所述范例组搜索单元找到包括与所述输入语句类似的所述第一语言范例的所述范例组时且当所述判断单元未判定不能编辑所述范例组时,所述编辑单元编辑所述范例组中包括的所述第二语言范例;以及
范例翻译单元获得由所述编辑单元编辑的所述第二语言范例作为翻译结果。
10、一种机器翻译方法,其包括:
从概念存储单元获得概念作为第一概念,所述概念对应于范例存储单元中存储的范例组的第一语言范例中包括的词组,所述概念存储单元彼此关联地存储所述第一语言词组、第二语言词组以及概念,所述概念表示由所述第一语言词组和所述第二语言词组共有的含义,所述范例存储单元存储所述范例组,其中以包括所述第一语言和所述第二语言的至少两种语言来描述所述范例组中的范例,所述范例具有尽可能等价的含义且彼此相关联;
从所述概念存储单元获得概念作为第二概念,所述概念对应于所述范例存储单元中存储的所述范例组的所述第二语言范例中包括的词组;
判断所述第一概念和所述第二概念之间是否有任何不匹配概念;
在有所述不匹配概念时,判定具有所述不匹配概念的所述范例组不适用;
接收所述第一语言的输入语句;
搜索包括与所述输入语句类似或匹配的所述第一语言范例的任何范例组;
从所搜索的多个范例组中删除被判定为不适用的所述范例组;以及
输出在删除了被判定为不适用的所述范例组的所述多个范例组中包括的所述第二语言范例作为翻译结果。
CNA2008101295813A 2007-07-03 2008-07-02 用于机器翻译的装置和方法 Pending CN101339547A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2007175379A JP5235344B2 (ja) 2007-07-03 2007-07-03 機械翻訳を行う装置、方法およびプログラム
JP175379/2007 2007-07-03

Publications (1)

Publication Number Publication Date
CN101339547A true CN101339547A (zh) 2009-01-07

Family

ID=40213617

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2008101295813A Pending CN101339547A (zh) 2007-07-03 2008-07-02 用于机器翻译的装置和方法

Country Status (3)

Country Link
US (1) US8209166B2 (zh)
JP (1) JP5235344B2 (zh)
CN (1) CN101339547A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103885940A (zh) * 2012-12-19 2014-06-25 新疆信息产业有限责任公司 基于网络服务的多语种词典翻译方法
CN105320650A (zh) * 2014-07-31 2016-02-10 崔晓光 一种机器翻译方法及其系统
CN105912534A (zh) * 2016-05-09 2016-08-31 珠海市魅族科技有限公司 一种翻译方法和装置

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5112116B2 (ja) * 2008-03-07 2013-01-09 株式会社東芝 機械翻訳する装置、方法およびプログラム
TWI376656B (en) * 2008-09-11 2012-11-11 Shing Lung Chen Foreign-language learning method utilizing an original language to review corresponding foreign languages and foreign-language learning database system thereof
US8805669B2 (en) * 2010-07-13 2014-08-12 Dublin City University Method of and a system for translation
TW201214155A (en) * 2010-09-21 2012-04-01 Inventec Corp Article based paragraphic online translating system and method thereof
JP5372110B2 (ja) * 2011-10-28 2013-12-18 シャープ株式会社 情報出力装置、情報出力方法、及びコンピュータプログラム
US9128915B2 (en) * 2012-08-03 2015-09-08 Oracle International Corporation System and method for utilizing multiple encodings to identify similar language characters
WO2014098640A1 (en) * 2012-12-19 2014-06-26 Abbyy Infopoisk Llc Translation and dictionary selection by context
CN103577399B (zh) * 2013-11-05 2018-01-23 北京百度网讯科技有限公司 双语语料库的数据扩充方法和装置
JP5763830B1 (ja) * 2014-12-25 2015-08-12 パナソニック株式会社 翻訳装置、翻訳方法、および翻訳プログラム
CN107688397B (zh) * 2016-08-03 2022-10-21 北京搜狗科技发展有限公司 一种输入方法、系统和用于输入的装置
KR20190047685A (ko) * 2016-09-09 2019-05-08 파나소닉 아이피 매니지먼트 가부시키가이샤 번역 장치 및 번역 방법
CN109791572A (zh) * 2017-02-07 2019-05-21 松下知识产权经营株式会社 翻译装置以及翻译方法
CN114757214B (zh) * 2022-05-12 2023-01-31 北京百度网讯科技有限公司 用于优化翻译模型的样本语料的选取方法、相关装置

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL112385A (en) * 1994-01-21 1998-08-16 Flamemag International Gie Process for preparing magnesium hydroxide for extinguishing flames
JPH07334506A (ja) * 1994-06-14 1995-12-22 Nec Field Service Ltd 機械翻訳装置
US6516296B1 (en) * 1995-11-27 2003-02-04 Fujitsu Limited Translating apparatus, dictionary search apparatus, and translating method
JPH09251462A (ja) * 1996-03-18 1997-09-22 Sharp Corp 機械翻訳装置
US6442524B1 (en) * 1999-01-29 2002-08-27 Sony Corporation Analyzing inflectional morphology in a spoken language translation system
JP2000250913A (ja) * 1999-02-25 2000-09-14 Nippon Telegr & Teleph Corp <Ntt> 実例型自然言語翻訳方法、対訳用例集作成方法および装置とそのプログラムを記録した記録媒体
US6330530B1 (en) * 1999-10-18 2001-12-11 Sony Corporation Method and system for transforming a source language linguistic structure into a target language linguistic structure based on example linguistic feature structures
JP3985066B2 (ja) 2000-06-20 2007-10-03 沖電気工業株式会社 機械翻訳装置
US20020072914A1 (en) * 2000-12-08 2002-06-13 Hiyan Alshawi Method and apparatus for creation and user-customization of speech-enabled services
US6885985B2 (en) * 2000-12-18 2005-04-26 Xerox Corporation Terminology translation for unaligned comparable corpora using category based translation probabilities
US20020173946A1 (en) * 2001-03-28 2002-11-21 Christy Samuel T. Translation and communication of a digital message using a pivot language
US7050964B2 (en) * 2001-06-01 2006-05-23 Microsoft Corporation Scaleable machine translation system
US7283949B2 (en) * 2003-04-04 2007-10-16 International Business Machines Corporation System, method and program product for bidirectional text translation
JP4410486B2 (ja) * 2003-05-12 2010-02-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 機械翻訳装置及びプログラム
US7346487B2 (en) * 2003-07-23 2008-03-18 Microsoft Corporation Method and apparatus for identifying translations
US7539619B1 (en) * 2003-09-05 2009-05-26 Spoken Translation Ind. Speech-enabled language translation system and method enabling interactive user supervision of translation and speech recognition accuracy
JP4050755B2 (ja) * 2005-03-30 2008-02-20 株式会社東芝 コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
JP4559946B2 (ja) * 2005-09-29 2010-10-13 株式会社東芝 入力装置、入力方法および入力プログラム
JP4047885B2 (ja) * 2005-10-27 2008-02-13 株式会社東芝 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
US8195447B2 (en) * 2006-10-10 2012-06-05 Abbyy Software Ltd. Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US20080133245A1 (en) * 2006-12-04 2008-06-05 Sehda, Inc. Methods for speech-to-speech translation

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103885940A (zh) * 2012-12-19 2014-06-25 新疆信息产业有限责任公司 基于网络服务的多语种词典翻译方法
CN105320650A (zh) * 2014-07-31 2016-02-10 崔晓光 一种机器翻译方法及其系统
CN105912534A (zh) * 2016-05-09 2016-08-31 珠海市魅族科技有限公司 一种翻译方法和装置

Also Published As

Publication number Publication date
US8209166B2 (en) 2012-06-26
US20090012776A1 (en) 2009-01-08
JP2009015512A (ja) 2009-01-22
JP5235344B2 (ja) 2013-07-10

Similar Documents

Publication Publication Date Title
CN101339547A (zh) 用于机器翻译的装置和方法
Samih et al. Multilingual code-switching identification via lstm recurrent neural networks
JP4404211B2 (ja) マルチリンガル翻訳メモリ、翻訳方法および翻訳プログラム
JP6727610B2 (ja) 文脈解析装置及びそのためのコンピュータプログラム
Ekbal et al. Language independent named entity recognition in indian languages
US20070118351A1 (en) Apparatus, method and computer program product for translating speech input using example
US8812296B2 (en) Method and system for natural language dictionary generation
JP2007257644A (ja) 訳語候補文字列予測に基づく訳語取得のためのプログラム、方法および装置
KR20160008480A (ko) 명칭을 강인하게 태깅하는 방법 및 시스템
KR101509727B1 (ko) 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법
CN101320366A (zh) 用于机器翻译的装置和方法
JP2010519655A (ja) 名前照合システムの名前インデックス付け
CN107148624A (zh) 预处理文本的方法以及用于执行该方法的预处理系统
González et al. Siamese hierarchical attention networks for extractive summarization
Alsayadi et al. Integrating semantic features for enhancing arabic named entity recognition
Salah et al. Arabic rule-based named entity recognition systems progress and challenges
JP2007025939A (ja) 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム
US20090063127A1 (en) Apparatus, method, and computer program product for creating data for learning word translation
US20060136147A1 (en) Biological relationship event extraction system and method for processing biological information
KR20140056715A (ko) 계층적 카테고리를 기초로 하는 감성 분석을 위한 장치 및 이를 위한 방법
März et al. Data centric domain adaptation for historical text with OCR errors
Mutuvi et al. Analyzing the impact of tokenization on multilingual epidemic surveillance in low-resource languages
Verulkar et al. Transliterated search of Hindi lyrics
Sikdar et al. Anaphora Resolution for Bengali: An Experiment with Domain Adaptation
US20230316007A1 (en) Detection and correction of mis-translation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20090107