CN103729347A - 机器翻译装置、方法及程序 - Google Patents

机器翻译装置、方法及程序 Download PDF

Info

Publication number
CN103729347A
CN103729347A CN201310463708.6A CN201310463708A CN103729347A CN 103729347 A CN103729347 A CN 103729347A CN 201310463708 A CN201310463708 A CN 201310463708A CN 103729347 A CN103729347 A CN 103729347A
Authority
CN
China
Prior art keywords
word
translation
mentioned
translate
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310463708.6A
Other languages
English (en)
Inventor
田中浩之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of CN103729347A publication Critical patent/CN103729347A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供机器翻译装置、方法及程序。机器翻译装置包括:翻译部,将第1语言的原文翻译为第2语言的译文;译词候选取得部,对于与译文中的第1译词对应的原文中的原词,取得作为该原词的翻译的不同于该第1译词的一个以上的第2译词,将该第1译词及该第2译词作为译词候选;流畅度计算部,按译词候选计算表示在译文中的第1译词的插入位置插入译词候选时生成自然译文的合适度的流畅度;逆向翻译部,按译词候选获得译词候选向第1语言的逆向翻译结果即一个以上的逆向翻译词;类似度计算部,按逆向翻译词计算原词和逆向翻译词在第1语言中的意思的类似度;和译词选择部,根据类似度和流畅度,从译词候选选择用于置换第1译词的校正译词。

Description

机器翻译装置、方法及程序
技术领域
本发明的实施方式涉及将第1语言翻译为第2语言的机器翻译装置、方法及程序。
背景技术
近年,伴随计算机的高性能化、宽带基础设施的迅速普及,将第1语言的原文翻译为第2语言的译文的大量机器翻译装置及机器翻译业务得到普及。一般地说,机器翻译中,按第1语言的单词及第1原词的节单位保持多个第2语言的译词候选。这样的机器翻译中,根据输入的原文,考虑原文侧的语句和译文侧的语句的意思同一性和译文流畅性来选择适当的译词是重要的。
作为选择适当的译词的方法,有统计库翻译方式,但是必须准备大规模的对译语料库。作为不需要这样的大规模对译语料库而考虑意思的同一性的方法,例如有采用原文侧的语句和译文侧的语句的各自的共现(co-occurrence)词的方法。
专利文献1:日本特开2002-351872号公报
发明内容
但是,上述方法中,必须准备原文及译文的双方的共现词列表,而且仅仅以共现为线索,因此未考虑全文的流畅性,无法选择流畅性高的译词。
本发明为了解决上述的问题而提出,目的是提供可生成流畅性高的译文的机器翻译装置、方法及程序。
本实施方式的机器翻译装置包括翻译部、译词候选取得部、流畅度计算部、逆向翻译部、类似度计算部及译词选择部。翻译部将第1语言的字符串即原文翻译为第2语言的字符串即译文。译词候选取得部对于与上述译文中的第1译词对应的上述原文中的原词,取得作为该原词的翻译的不同于该第1译词的一个以上的第2译词,将该第1译词及该第2译词作为译词候选。流畅度计算部按每个译词候选,计算表示在上述译文中的上述第1译词的插入位置插入上述译词候选时生成自然译文的合适度的流畅度。逆向翻译部按每个译词候选,获得上述译词候选向上述第1语言的逆向翻译结果即一个以上的逆向翻译词。类似度计算部按每个逆向翻译词,计算上述原词和上述逆向翻译词在上述第1语言中的意思的类似度。译词选择部根据上述类似度和上述流畅度,从上述译词候选选择用于置换上述第1译词的校正译词。
附图说明
图1是第1实施方式的机器翻译装置的方框图。
图2是在翻译词典数据库存储的表的一例的示图。
图3是在流畅度数据库存储的一例的示图。
图4是机器翻译装置的工作的流程图。
图5是机器翻译装置的译词选择处理的流程图。
图6是取得部取得的原文的一例的示图。
图7是翻译部生成的译文的一例的示图。
图8是译词候选取得部中的译词候选的提取结果的一例的示图。
图9是第1实施方式中的流畅度计算部的流畅度的计算结果的一例示图。
图10是第1实施方式中的逆向翻译部的逆向翻译结果的一例示图。
图11是第1实施方式中的类似度计算部的类似度的计算结果的一例示图。
图12是第1实施方式中的译词选择部的判定得分的一例示图。
图13是第2实施方式的机器翻译装置的方框图。
图14是第2实施方式中的流畅度计算部的流畅度的计算结果的一例示图。
图15是第2实施方式中的逆向翻译部的逆向翻译结果的一例示图。
图16是第2实施方式中的类似度计算部的类似度的计算结果的一例示图。
图17是第2实施方式中的译词选择部的判定得分的一例示图。
标号说明:
100,1300…机器翻译装置,101…取得部,102…翻译部,103…译词候选取得部,104…流畅度计算部,105…逆向翻译部,106…类似度计算部,107…译词选择部,108…输出部,109…翻译词典数据库,110…流畅度数据库,111…类似度数据库,200…翻译词典,201…原词,201…原文,202…译词,300,800,900,1000,1100,1200…表,301…前出字,302…后出字,303…译词,304,901…流畅度,801…译词候选,1001…逆向翻译词,1101…类似度,1201…判定得分,1301…译词候选取得部。
具体实施方式
以下,参照附图,详细说明本实施方式的机器翻译装置、方法及程序。另外,以下的实施方式中,附上同一参照符号的部分进行同样的工作,重复的说明适宜省略。
本实施方式中,以作为原文的第1语言是英语,作为译文的第2语言是日语的场合为例进行说明,但是,翻译处理的对象语言不限于这2种语言,可以以全部语言为对象。另外,以下,将从第2语言到第1原词的翻译称为逆向翻译。
(第1实施方式)
参照图1说明第1实施方式的机器翻译装置。
第1实施方式的机器翻译装置100包括取得部101、翻译部102、译词候选取得部103、流畅度计算部104、逆向翻译部105、类似度计算部106、译词选择部107、输出部108、翻译词典数据库109、流畅度数据库110及类似度数据库111。
取得部101从外部取得作为翻译对象的第1语言的原文。原文的取得可以采用接收键盘、指示器装置、手写文字识别、OCR、声音识别等一般采用的来自用户的输入的各种方法。或,也可以不管用户的输入,设定成从外部依次取得原文。
翻译部102从取得部101接收原文,参照在后述的翻译词典数据库109存储的翻译词典,将原文翻译为第2语言的字符串,获得译文。翻译处理采用转换(transfer)方式、例句库方式、统计库方式、中间语言方式等一般方法即可,因此这里的说明省略。
译词候选取得部103从翻译部102接收译文,向翻译部102询问译文中的处理对象的译词。然后,取得与译词对应的第1语言的语句(以下称为原词)的翻译,即与处理对象的译词不同的一个以上的第2语言的译词,与处理对象的译词一起作为译词候选。
流畅度计算部104从译词候选取得部103接收一个以上的译词候选,参照后述的流畅度数据库110,按每个译词候选计算流畅度。流畅度表示作为第2语言而生成的自然译文的合适度。
本实施方式中的流畅度的计算说明了流畅度计算部104从流畅度数据库110取得预先计算的值的例,但是,例如,也可以对包含前后译词的例句的频率进行计数,除以其总数来计算概率。另外,也可以采用N-gram(N元)语言模型、PLSA(Probabilistic Latent Semantic Analysis,概率潜在语义分析)、LDA(Latent Dirichlet Allocation,隐含狄利克雷分布)等的一般公知的方法来计算流畅度。另外,也可以不预先计算流畅度,而准备第2语言的例句语料库,在每次有计算请求时进行计算。
逆向翻译部105从译词候选取得部103接收译词候选、原词及译文。逆向翻译部105将各译词候选逆向翻译为第1语言,将逆向翻译结果作为一个以上的逆向翻译词获得。作为逆向翻译处理,也可以应用采用逆向翻译词典的方法,或者采用翻译部102所用的翻译词典,将某译词候选在译词列表中持有的词典条目用作逆向翻译结果的方法。另外,也可以利用将第2语言翻译为第1语言的外部的翻译引擎,获得逆向翻译结果,将逆向翻译结果向逆向翻译词追加。另外,不限于这些方法,也可以采用其他方法。
类似度计算部106从逆向翻译部105接收一个以上的逆向翻译词、原词及译文,参照后述的类似度数据库111,按每个逆向翻译词,算出原词和逆向翻译词的第1语言的意思的类似度。类似度的计算可以采用计算余弦类似度,或者采用同义词词典(thesaurus),或者采用语境类似度计算或聚类等的方法。
译词选择部107从流畅度计算部104接收译词候选、对应的流畅度及译文,从类似度计算部106接收逆向翻译词和对应的类似度。译词选择部107根据流畅度和类似度,算出判定得分,从译词候选中选择用于置换处理对象的译词的译词即校正译词。校正译词的选择例如将具有最大的判定得分的译词选择为校正译词即可。
输出部108从译词选择部107接收译文及校正译词,向外部输出将译文中的译词置换为校正译词后的校正译文。另外,说明了输出部108从译词选择部107接收译文的例,但是也可以从翻译部102接收译文。
翻译词典数据库109存储第1语言的语句(原词)和作为第1语言的对译的第2语言的语句(译词)的翻译词典。翻译词典将参照图2后述。
流畅度数据库110对应存储可在2个单词间插入的第2语言的语句和插入语句时句子的流畅度。流畅度数据库110将参照图3后述。
类似度数据库111存储第1语言的语句和其他第1语言的语句的类似度。
另外,翻译词典数据库109、流畅度数据库110及类似度数据库111可以包含在机器翻译装置100中,也可以参照外部的数据库。
接着,参照图2说明翻译词典数据库109存储的翻译词典的一例。
图2所示翻译词典200对应存储原词201和译词202。原词201表示第1语言的字符串,译词202表示成为原词201的对译的第2语言的译词。另外,对一个原词201,存在一个以上的译词202。这里,原文201“suggest”与译词202“示唆して”、“提案して”、“勧めて”及“暗示して”这样的译词对应。
接着,参照图3说明流畅度数据库110存储的表的一例。
前出字301、后出字302、译词303及流畅度304分别对应存储在图3所示表300。
前出字301是紧跟在处理对象的译词前出现的词。后出字302是紧跟在处理对象后出现的词。译词303表示可在前出字301和后出字302之间的位置插入的译词。流畅度304表示译词303插入时前出字301、译词303及后出字302的译文的流畅度,与译词303一一对应。
具体地说,在对于前出字301“レストランを”、后出字302“もらえ”可插入的译词中,译词303“探して”与流畅度304“0.84”对应,译词303“教えて”与流畅度304“0.73”对应,译词303“経営して”与流畅度304“0.64”等对应。即,作为译文,表示“レストランを教えてもらえ”的译文的流畅度为“0.73”,“レストランを経営してもらえ”的译文的流畅度为“0.64”。
接着,参照图4的流程图说明本实施方式的机器翻译装置100的工作。
步骤S401中,取得部101取得原文S。
步骤S402中,翻译部102将原文S翻译为第2语言,生成译文T。
步骤S403中,对译文T进行译词选择处理。译词选择处理的详细情况将参照图5后述。
步骤S404中,输出部108输出校正译文M。以上,机器翻译装置100的工作结束。
接着,参照图5说明步骤S403的译词选择处理。
步骤S501中,译词候选取得部103对于处理对象的译词w,询问译词候选W和对应的原词e,通过参照翻译词典,取得原词e和全部的译词候选W。作为处理对象的译词w的选择方法,例如,预先按每个译词计算译文T的流畅度,将流畅度为阈值以下的译词作为处理对象的译词提取即可。
步骤S502中,译词候选取得部103判定译词候选W是否为多个。译词候选W存在多个时,进入步骤S503及步骤S504,译词候选W不存在多个即译词仅仅一个时处理结束。
步骤S503中,流畅度计算部104按每个译词候选,计算译词候选W的流畅度F。
步骤S504中,逆向翻译部105按每个译词候选,将译词候选W逆向翻译,取得逆向翻译结果即一个以上的逆向翻译词K。
步骤S505中,类似度计算部106计算一个以上的逆向翻译词K和原词e的类似度R。
步骤S506中,译词选择部107用流畅度F和类似度R计算判定得分S。本实施方式中,将流畅度F和类似度R的积设为判定得分,但是也可以采用其他计算方法。
步骤S507中,译词选择部107将判定得分S最高的译词候选W中的译词W’选择为校正译词。以上,译词选择处理结束。
另外,对一个译词进行置换后,再度计算全体译文的流畅度,如果是流畅度在阈值以下的译词,则可以对阈值以下的译词同样反复进行步骤S501到步骤S507为止的处理。这样,可以提高全体译文的流畅度,获得更自然译文。
接着,参照图6到图12说明译词选择处理的工作的具体例。
图6表示取得部101取得的原文。这里,输入“Could you suggest arestaurant with a nice view?”作为原文。
图7表示由翻译部102翻译原文后的翻译结果即译文。即,将原文“Could you suggest a restaurant with a nice view?”翻译为第2语言,获得“よい/眺めの/レストランを/示唆して/もらえませんか?”的译文。这里,“/”表示译词意思的统一分隔,从用“/”分隔的字符串中选择处理对象的译词。
这里,假定处理对象的译词为“示唆して”的情况。译词候选取得部103参照翻译词典数据库109,将译词“示唆して”的原文即“suggest”的其他译词即“提案して”及“勧めて”作为译词候选获得。
接着,译词候选取得部103的译词候选的提取结果如图8所示。
如图8的表800所示,作为原词201“suggest”的译词候选801,可以获得“示唆して”、“提案して”及“勧めて”的3个。
接着,流畅度计算部104对图8所示3个译词候选计算流畅度后的计算结果如图9所示。
图9所示表900对应存储译词候选801和流畅度901。例如,译词候选801“示唆して”与流畅度901“0.13”对应。这里,译词候选的流畅度的计算直接利用在流畅度数据库110存储的流畅度的值,但是也可以采用进行加权等的其他计算算出。
接着,逆向翻译部105将译词候选逆向翻译后的逆向翻译结果如图10所示。
图10所示表1000对应存储译词候选801和逆向翻译词1001。例如,译词候选801为“示唆して”的场合,作为逆向翻译词1001,与“indicate”、“suggest”及“hint”对应。另外,这里,作为逆向翻译词1001,按每个译词候选801获得3个第1语言的单词,但是也可以存储任意数的第1语言的单词。
接着,类似度计算部106计算原词即“suggest”和逆向翻译词的类似度的计算结果如图11所示。
图11所示表1100分别对应存储译词候选801、逆向翻译词1001及类似度1101。例如,对于译词候选801“示唆して”,分别与逆向翻译词1001“indicate”及类似度1101“0.43”对应,与逆向翻译词1001“suggest”及类似度1101“1.0”对应,与逆向翻译词1001“hint”及类似度1101“0.41”对应。另外,逆向翻译词1001的“suggest”与原词“suggest”相同,因此类似度成为“1.0”。
类似度的计算例如从文本语料库的集合计算TF-IDF等的尺度,以一定的顺序排列,生成式(1)那样的单词矢量。
【式1】
w → = ( w 1 , w 2 , w 3 , · · · ) · · · ( 1 )
对生成的单词矢量计算余弦类似度,将算出的值作为类似度获得即可。例如,原词“suggest”和逆向翻译词“indicate”的类似度在a=suggest、b=indicate时,可以用式(2)计算。
【式2】
sim ( a , b ) = a → · b → | a → | · | b → | · · · ( 2 )
接着,译词选择部107算出判定得分的结果如图12所示。
图12所示表1200分别对应存储图11所示译词候选801、逆向翻译词1001及判定得分1201。
这里,译词选择部107,由于逆向翻译词1001“recommend”在判定得分1201“0.23”中得分最高,因此获得译词候选801“勧めて”作为校正译词。因此,将译文“よい眺めのレストランを示唆してもらえませんか?”中原来的译词即“示唆して”置换为“勧めて”。
最终,输出部108将“よい眺めのレストランを勧めてもらえませんか?”作为校正译文输出。
根据以上所示的第1实施方式,对第1语言的原文进行机器翻译时,算出作为第2语言的译文所包含的处理对象的译词的第2语言的流畅度,算出与译词对应的原词和将译词逆向翻译后的第1语言的词作为第1语言的类似度,根据基于流畅度和类似度算出的单词的得分来选择适当的译词,从而可以生成满足译文流畅性及译文与原文意思的同一性的两方的译文。
(第2实施方式)
第1实施方式中,将翻译词典所包含的词作为译词候选,但是第2实施方式中,不同点在于还从流畅度数据库取得译词候选。这样,可以选择还考虑了第2语言中的译文的流畅性的译词候选,生成更自然的译文。
参照图13的方框图说明第2实施方式的机器翻译装置。
第2实施方式的机器翻译装置1300包括:取得部101、翻译部102、译词候选取得部1301、流畅度计算部104、逆向翻译部105、类似度计算部106、译词选择部107、输出部108、翻译词典数据库109、流畅度数据库110及类似度数据库111。
对于取得部101、翻译部102、流畅度计算部104、逆向翻译部105、类似度计算部106、译词选择部107、输出部108、翻译词典数据库109、流畅度数据库110及类似度数据库111,进行与第1实施方式同样的处理,因此这里的说明省略。
译词候选取得部1301进行与第1实施方式的译词候选取得部103大致同样的工作,但是不同点在于从流畅度数据库110取得译词,向译词候选追加。例如,从流畅度数据库110插入前出字及后出字的译词中,按流畅度从高到低的顺序,将规定数的译词追加为译词候选即可。
接着,参照图5及图14到图17说明第2实施方式的译词候选取得部1301的处理的具体例。
译词候选取得部1301除了从翻译词典数据库109取得的译词外,从流畅度数据库110按流畅度从高到低的顺序提取译词。这里,从图3所示表300按流畅度从高到低的顺序取得3个译词,即“探して(流畅度:0.84)”、“教えて(流畅度:0.73)”及“経営して(流畅度:0.64)”。
图14表示流畅度计算部104中的译词候选的流畅度的计算结果。如图14所示,对从流畅度数据库110新取得的3个译词候选也取得流畅度。
图15是表示对逆向翻译部105中的6个译词候选进行逆向翻译的结果的表。
例如,逆向翻译部105将新取得的译词候选即“探して”逆向翻译,作为逆向翻译结果,获得“seek”、“search”及“look for”。
图16是表示类似度计算部106中的类似度的计算结果的表。
类似度是与原文中的“suggest”的类似度。另外,由于是根据译文中的流畅度选择的词,因此从流畅度数据库110取得的译词候选的类似度与从翻译词典取得的译词候选的类似度相比,有成为更小值的倾向。
图17是译词选择部107中算出判定得分的结果。
判定得分采用与第1实施方式同样的方法算出即可。这里,与译词候选801“教えて”对应的逆向翻译结果的逆向翻译词“tell”的判定得分“0.32”是最高值,因此将译词候选801“教えて”选择为校正译词,将原来的译词“示唆して”置换为“教えて”。
根据以上所示的第2实施方式,通过根据译文的流畅度从流畅度数据库追加新的译词候选,可以在满足译文与原文的意思的同一性的同时,生成译文流畅性更高的译文。
上述的实施方式中表示的处理顺序所示的指示可以根据作为软件的程序而执行。通用的计算机系统通过预先存储该程序并读入该程序,可以获得与上述机器翻译装置的效果同样的效果。上述的实施方式记述的指示作为可以由计算机执行的程序,记录在磁盘(软盘、硬盘等)、光盘(CD-ROM,CD-R,CD-RW,DVD-ROM,DVD±R,DVD±RW,Blu-ray(注册商标)Disc等)、半导体存储器或类似的记录介质。只要是计算机或嵌入系统可读取的记录介质,则其存储形式可以是任意形态。计算机若从该记录介质读入程序,根据该程序,由CPU执行程序记述的指示,则可以实现与上述实施方式的机器翻译装置同样的工作。当然,计算机取得或读入程序时也可以通过网络取得或读入。
另外,根据从记录介质安装到计算机或者嵌入系统的程序的指示,在计算机上运行的OS(操作系统)、数据库管理软件、网络等的MW(中间件)等也可以执行用于实现本实施方式的各处理的一部分。
而且,本实施方式中的记录介质不限于与计算机或者嵌入系统独立的介质,也包含下载由LAN、因特网等传达的程序后存储或暂时存储的记录介质。
另外,记录介质不限于一个,从多个介质执行本实施方式中的处理的场合,本实施方式中的记录介质中包含的介质构成也可以是任意的构成。
另外,本实施方式中的计算机或嵌入系统根据记录介质存储的程序来执行本实施方式中的各处理,可以是个人电脑、微电脑等的一个组成的装置或者将多个装置网络连接而成的系统等的任意构成。
另外,本实施方式中的计算机不限于个人电脑,也包含信息处理设备所包含的运算处理装置、微电脑等,统称为可以通过程序实现本实施方式中的功能的设备、装置。
虽然说明了本发明的几个实施方式,但是这些实施方式只是例示,而不是限定发明的范围。这些新实施方式可以各种形态实施,在不脱离发明的要旨的范围,可以进行各种省略、置换、变更。这些实施方式及其变形是发明的范围和要旨所包含的,也是权利要求的范围记载的发明及其等同的范围所包含的。

Claims (7)

1.一种机器翻译装置,其特征在于,具备:
翻译部,其将第1语言的字符串即原文翻译为第2语言的字符串即译文;
译词候选取得部,其对于与上述译文中的第1译词对应的上述原文中的原词,取得作为该原词的翻译的不同于该第1译词的一个以上的第2译词,将该第1译词及该第2译词作为译词候选;
流畅度计算部,其按每个译词候选,计算表示在上述译文中的上述第1译词的插入位置插入上述译词候选时生成自然译文的合适度的流畅度;
逆向翻译部,其按每个译词候选,获得上述译词候选向上述第1语言的逆向翻译结果即一个以上的逆向翻译词;
类似度计算部,其按每个逆向翻译词,计算上述原词和上述逆向翻译词在上述第1语言中的意思的类似度;和
译词选择部,其根据上述类似度和上述流畅度,从上述译词候选选择用于置换上述第1译词的校正译词。
2.根据权利要求1所述的机器翻译装置,其特征在于,
上述译词候选取得部将上述第2语言的词插入上述译文的上述第1译词的位置时的流畅度为阈值以上的词,追加为新译词候选。
3.根据权利要求1或2所述的机器翻译装置,其特征在于,
上述流畅度计算部采用N-gram语言模型计算上述流畅度。
4.根据权利要求1到3的任一项所述的机器翻译装置,其特征在于,
上述逆向翻译部按每个上述译词候选,提取一个以上作为该译词候选的词的对译而包含的第1语言的单词,将提取的一个以上的第1语言的单词作为逆向翻译词而获得。
5.根据权利要求1到4的任一项所述的机器翻译装置,其特征在于,
上述逆向翻译部从外部取得将上述译词候选翻译为上述第1语言的单词的翻译结果,将该翻译结果向上述逆向翻译词追加。
6.一种机器翻译方法,其特征在于,包括以下步骤:
将第1语言的字符串即原文翻译为第2语言的字符串即译文;
对于与上述译文中的第1译词对应的上述原文中的原词,取得作为该原词的翻译的不同于该第1译词的一个以上的第2译词,将该第1译词及该第2译词作为译词候选;
按每个译词候选,计算表示在上述译文中的上述第1译词的插入位置插入上述译词候选时生成自然译文的合适度的流畅度;
按每个译词候选,获得上述译词候选向上述第1语言的逆向翻译结果即一个以上的逆向翻译词;
按每个逆向翻译词,计算上述原词和上述逆向翻译词在上述第1语言中的意思的类似度;和
根据上述类似度和上述流畅度,从上述译词候选选择用于置换上述第1译词的校正译词。
7.一种机器翻译程序,使计算机起到以下单元的功能:
翻译部,其将第1语言的字符串即原文翻译为第2语言的字符串即译文;
译词候选取得单元,其对于与上述译文中的第1译词对应的上述原文中的原词,取得作为该原词的翻译的不同于该第1译词的一个以上的第2译词,将该第1译词及该第2译词作为译词候选;
流畅度计算单元,其按每个译词候选,计算表示在上述译文中的上述第1译词的插入位置插入上述译词候选时生成自然译文的合适度的流畅度;
逆向翻译单元,其按每个译词候选,获得上述译词候选向上述第1语言的逆向翻译结果即一个以上的逆向翻译词;
类似度计算单元,其按每个逆向翻译词,计算上述原词和上述逆向翻译词在上述第1语言中的意思的类似度;和
译词选择单元,其根据上述类似度和上述流畅度,从上述译词候选选择用于置换上述第1译词的校正译词。
CN201310463708.6A 2012-10-10 2013-10-08 机器翻译装置、方法及程序 Pending CN103729347A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP225387/2012 2012-10-10
JP2012225387A JP2014078132A (ja) 2012-10-10 2012-10-10 機械翻訳装置、方法およびプログラム

Publications (1)

Publication Number Publication Date
CN103729347A true CN103729347A (zh) 2014-04-16

Family

ID=50433383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310463708.6A Pending CN103729347A (zh) 2012-10-10 2013-10-08 机器翻译装置、方法及程序

Country Status (3)

Country Link
US (1) US9208149B2 (zh)
JP (1) JP2014078132A (zh)
CN (1) CN103729347A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038158A (zh) * 2016-02-01 2017-08-11 松下知识产权经营株式会社 对译语料库制作方法、装置、程序以及机器翻译系统
CN107704456A (zh) * 2016-08-09 2018-02-16 松下知识产权经营株式会社 识别控制方法以及识别控制装置
CN107798386A (zh) * 2016-09-01 2018-03-13 微软技术许可有限责任公司 基于未标注数据的多过程协同训练
CN108932231A (zh) * 2017-05-26 2018-12-04 华为技术有限公司 机器翻译方法及装置
CN109033091A (zh) * 2017-06-08 2018-12-18 松下知识产权经营株式会社 翻译信息提供方法、程序以及装置
CN109255129A (zh) * 2017-07-14 2019-01-22 松下电器(美国)知识产权公司 翻译方法、翻译装置以及翻译程序
CN113191163A (zh) * 2021-05-21 2021-07-30 北京有竹居网络技术有限公司 一种翻译方法、翻译装置、翻译设备以及存储介质

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016071439A (ja) 2014-09-26 2016-05-09 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 翻訳方法及び翻訳システム
US9836457B2 (en) 2015-05-25 2017-12-05 Panasonic Intellectual Property Corporation Of America Machine translation method for performing translation between languages
US10185713B1 (en) * 2015-09-28 2019-01-22 Amazon Technologies, Inc. Optimized statistical machine translation system with rapid adaptation capability
US10409919B2 (en) * 2015-09-28 2019-09-10 Konica Minolta Laboratory U.S.A., Inc. Language translation for display device
US10268684B1 (en) 2015-09-28 2019-04-23 Amazon Technologies, Inc. Optimized statistical machine translation system with rapid adaptation capability
JP6471074B2 (ja) * 2015-09-30 2019-02-13 株式会社東芝 機械翻訳装置、方法及びプログラム
CN105446962B (zh) * 2015-12-30 2018-08-10 语联网(武汉)信息技术有限公司 原文和译文的对齐方法和装置
CN107818086B (zh) * 2016-09-13 2021-08-10 株式会社东芝 机器翻译方法和装置
KR102637337B1 (ko) * 2016-12-09 2024-02-16 삼성전자주식회사 자동 통역 방법 및 장치, 및 기계 번역 방법
WO2019107625A1 (ko) * 2017-11-30 2019-06-06 주식회사 시스트란인터내셔널 기계 번역 방법 및 이를 위한 장치
JP2019121241A (ja) * 2018-01-09 2019-07-22 パナソニックIpマネジメント株式会社 翻訳装置、翻訳方法、及びプログラム
US10936827B1 (en) * 2018-10-24 2021-03-02 Amazon Technologies, Inc. Machine evaluation of translation accuracy
WO2020246175A1 (ja) * 2019-06-04 2020-12-10 パナソニックIpマネジメント株式会社 翻訳装置
US11095578B2 (en) 2019-12-11 2021-08-17 International Business Machines Corporation Technology for chat bot translation
CN111553174A (zh) * 2020-04-02 2020-08-18 腾讯科技(深圳)有限公司 基于人工智能的句子翻译方法、装置
KR102409001B1 (ko) * 2020-07-08 2022-06-14 이은숙 번역 및 감수 효율화 기능을 제공하는 컴퓨터 프로그램
KR102653880B1 (ko) * 2022-12-19 2024-04-03 주식회사 트위그팜 번역 품질 평가 장치 및 방법

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030125928A1 (en) * 2001-12-28 2003-07-03 Ki-Young Lee Method for retrieving similar sentence in translation aid system
CN101154219A (zh) * 2006-09-26 2008-04-02 株式会社东芝 用于机器翻译的方法、装置和系统
CN101452446A (zh) * 2007-12-07 2009-06-10 株式会社东芝 目标语言单词变形的方法及装置
CN101520777A (zh) * 2008-02-28 2009-09-02 株式会社东芝 用于机器翻译的设备和方法
CN101526937A (zh) * 2008-03-07 2009-09-09 株式会社东芝 机器翻译设备和方法
CN102043774A (zh) * 2011-01-13 2011-05-04 北京交通大学 机器翻译测评装置和方法
CN102549569A (zh) * 2009-10-05 2012-07-04 株式会社东芝 相似内容搜索设备和程序

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2892548B2 (ja) * 1992-05-25 1999-05-17 シャープ株式会社 自動翻訳装置
JP2002351872A (ja) 2001-05-22 2002-12-06 Nippon Telegr & Teleph Corp <Ntt> 自然言語翻訳候補選択方法、装置、プログラム、および同プログラムを記録した記録媒体
US7191115B2 (en) * 2001-06-20 2007-03-13 Microsoft Corporation Statistical method and apparatus for learning translation relationships among words
US7447623B2 (en) * 2001-10-29 2008-11-04 British Telecommunications Public Limited Company Machine translation
US8185377B2 (en) * 2007-08-11 2012-05-22 Microsoft Corporation Diagnostic evaluation of machine translators
US8594992B2 (en) * 2008-06-09 2013-11-26 National Research Council Of Canada Method and system for using alignment means in matching translation
KR101682207B1 (ko) * 2010-08-23 2016-12-12 에스케이플래닛 주식회사 토큰 분리 및 번역 과정을 통합한 통합 디코딩 장치 및 그 방법

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030125928A1 (en) * 2001-12-28 2003-07-03 Ki-Young Lee Method for retrieving similar sentence in translation aid system
CN101154219A (zh) * 2006-09-26 2008-04-02 株式会社东芝 用于机器翻译的方法、装置和系统
CN101452446A (zh) * 2007-12-07 2009-06-10 株式会社东芝 目标语言单词变形的方法及装置
CN101520777A (zh) * 2008-02-28 2009-09-02 株式会社东芝 用于机器翻译的设备和方法
CN101526937A (zh) * 2008-03-07 2009-09-09 株式会社东芝 机器翻译设备和方法
CN102549569A (zh) * 2009-10-05 2012-07-04 株式会社东芝 相似内容搜索设备和程序
CN102043774A (zh) * 2011-01-13 2011-05-04 北京交通大学 机器翻译测评装置和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘群: "机器翻译研究新进展", 《当代语言学》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038158A (zh) * 2016-02-01 2017-08-11 松下知识产权经营株式会社 对译语料库制作方法、装置、程序以及机器翻译系统
CN107038158B (zh) * 2016-02-01 2021-12-03 松下知识产权经营株式会社 对译语料库制作方法、装置、记录介质以及机器翻译系统
CN107704456A (zh) * 2016-08-09 2018-02-16 松下知识产权经营株式会社 识别控制方法以及识别控制装置
CN107704456B (zh) * 2016-08-09 2023-08-29 松下知识产权经营株式会社 识别控制方法以及识别控制装置
CN107798386A (zh) * 2016-09-01 2018-03-13 微软技术许可有限责任公司 基于未标注数据的多过程协同训练
CN108932231A (zh) * 2017-05-26 2018-12-04 华为技术有限公司 机器翻译方法及装置
CN109033091A (zh) * 2017-06-08 2018-12-18 松下知识产权经营株式会社 翻译信息提供方法、程序以及装置
CN109255129A (zh) * 2017-07-14 2019-01-22 松下电器(美国)知识产权公司 翻译方法、翻译装置以及翻译程序
CN109255129B (zh) * 2017-07-14 2023-11-07 松下电器(美国)知识产权公司 翻译方法、翻译装置以及记录介质
CN113191163A (zh) * 2021-05-21 2021-07-30 北京有竹居网络技术有限公司 一种翻译方法、翻译装置、翻译设备以及存储介质
WO2022242535A1 (zh) * 2021-05-21 2022-11-24 北京有竹居网络技术有限公司 一种翻译方法、翻译装置、翻译设备以及存储介质

Also Published As

Publication number Publication date
US9208149B2 (en) 2015-12-08
JP2014078132A (ja) 2014-05-01
US20140100843A1 (en) 2014-04-10

Similar Documents

Publication Publication Date Title
CN103729347A (zh) 机器翻译装置、方法及程序
Shoufan et al. Natural language processing for dialectical Arabic: A survey
Hogenboom et al. Multi-lingual support for lexicon-based sentiment analysis guided by semantics
US9652454B2 (en) Phrase-based dictionary extraction and translation quality evaluation
Gouws et al. Unsupervised mining of lexical variants from noisy text
El-Haj et al. Creating language resources for under-resourced languages: methodologies, and experiments with Arabic
CN105988990B (zh) 汉语零指代消解装置和方法、模型训练方法和存储介质
US20070055493A1 (en) String matching method and system and computer-readable recording medium storing the string matching method
Savoy Authorship attribution: A comparative study of three text corpora and three languages
WO2012039686A1 (en) Methods and systems for automated text correction
CN103020230A (zh) 一种语义模糊匹配方法
KR101573854B1 (ko) 관계어 기반 확률추정 방법을 이용한 통계적 문맥의존 철자오류 교정 장치 및 방법
CN104750820A (zh) 一种语料库的过滤方法及装置
KR101664258B1 (ko) 텍스트 전처리 방법 및 이를 수행하는 전처리 시스템
Zhu et al. Semantic parser enhancement for dialogue domain extension with little data
Zakraoui et al. Arabic machine translation: A survey with challenges and future directions
Küçük Automatic compilation of language resources for named entity recognition in Turkish by utilizing Wikipedia article titles
US8244732B2 (en) Named entity marking apparatus, named entity marking method, and computer readable medium thereof
JP5812534B2 (ja) 質問応答装置、方法、及びプログラム
JP2006338261A (ja) 翻訳装置、翻訳方法及び翻訳プログラム
JP2011227749A (ja) 略語完全語復元装置とその方法と、プログラム
JP2018072979A (ja) 対訳文抽出装置、対訳文抽出方法およびプログラム
Melero et al. Holaaa!! writin like u talk is kewl but kinda hard 4 NLP
CN105095194A (zh) 抽取姓名词典和翻译规则表的方法和设备
Bansal et al. How low is too low? A computational perspective on extremely low-resource languages

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140416