JP2008176536A - Device, method and program for mechanically translating input original language sentence to target language - Google Patents

Device, method and program for mechanically translating input original language sentence to target language Download PDF

Info

Publication number
JP2008176536A
JP2008176536A JP2007008899A JP2007008899A JP2008176536A JP 2008176536 A JP2008176536 A JP 2008176536A JP 2007008899 A JP2007008899 A JP 2007008899A JP 2007008899 A JP2007008899 A JP 2007008899A JP 2008176536 A JP2008176536 A JP 2008176536A
Authority
JP
Japan
Prior art keywords
translation
word
language
language sentence
storage unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007008899A
Other languages
Japanese (ja)
Other versions
JP5002271B2 (en
Inventor
Kazuhiro Kimura
和広 木村
Satoshi Kamaya
聡史 釜谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2007008899A priority Critical patent/JP5002271B2/en
Publication of JP2008176536A publication Critical patent/JP2008176536A/en
Application granted granted Critical
Publication of JP5002271B2 publication Critical patent/JP5002271B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a mechanical translation device improved in translation accuracy of voice translation. <P>SOLUTION: The device comprises: an example storage part 123 storing an example of a first language in association with an example of a second language; an example translation part 104 acquiring an example of the second language corresponding to an input first language sentence from the example storage part 123; a rule translation part 103 translating the first language sentence to the second language based on a predetermined rule; a selection part 102 selecting the most probable translation result from the translation result of the example translation part 104 and the translation result of the rule translation part 103; a cache memory 122 storing a correspondence between a first word contained in the first language sentence and a second word contained in the selected translation result; and an output part 105 outputting the selected translation result. The rule translation part 103 further acquires a second word corresponding to the first word from the cache memory 122 and substitutes a second word obtained by converting the first word by the acquired second word. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

この発明は、複数の翻訳方式によって、入力された原言語文を翻訳の目的言語に機械翻訳する装置、方法およびプログラムに関するものである。   The present invention relates to an apparatus, a method, and a program for machine-translating an input source language sentence into a target language for translation by a plurality of translation methods.

従来、機械翻訳は、文型の限られた技術文書等に適用領域が限られていた。しかし、近年の機械翻訳技術の進展により、Web文書等の幅広い分野の文書を扱えるようになり、さらに音声認識技術との融合により、人間の発話を実世界・実時間で翻訳する音声翻訳器(通訳器)の実用化が期待される状況になってきた。ところが、音声翻訳器の実用化に関しては、話し言葉を扱う性格上、言葉の省略や助詞等の脱落、句や文の倒置、言い直し、不要語句の挿入など、これまで書き言葉にはあまり現れなかった言語現象に対応していく必要があり、克服すべき課題も多い。   Conventionally, the application area of machine translation is limited to technical documents with limited sentence patterns. However, with recent advances in machine translation technology, it has become possible to handle documents in a wide range of fields such as Web documents. Furthermore, by integrating with speech recognition technology, a speech translator that translates human speech in real world and real time ( (Interpreters) are expected to be put into practical use. However, with regard to the practical use of speech translators, due to the nature of handling spoken language, words such as omission of words, omission of particles, inversion of phrases and sentences, rephrasing, insertion of unnecessary words, etc. have not so much appeared so far. It is necessary to cope with language phenomena, and there are many problems to be overcome.

これらの課題に対し有用な解として、入力文を事前に準備された対訳用例データベースと照合し、照合した全体もしくは部分に対応する訳文を出力することで、翻訳品質を向上させる用例主導型翻訳方式(EBMT:Example Based Machine Translation)が提案されている。しかし、どのような入力文に対しても照合できるような巨大な対訳用例データベースを開発するコストは膨大であり、EBMTだけであらゆる入力に対する翻訳を行うことはできない。   A useful solution to these problems is an example-driven translation method that improves the translation quality by collating the input sentence with a prepared bilingual example database and outputting the translation corresponding to the whole or part of the collation. (EBMT: Example Based Machine Translation) has been proposed. However, the cost of developing a huge parallel translation example database that can be collated for any input sentence is enormous, and EBMT alone cannot translate any input.

このため、従来から用いられてきた、翻訳規則に従って翻訳する規則主導型翻訳方式(RBMT:Ruled Based Machine Translation)を併用することでカバレージを高め、さらに両方式の長所を活かして、最終的な訳出性能を向上させるハイブリッド翻訳方式(Hybrid MT)が提案されている。   For this reason, using the rule-based translation method (RBMT: Ruled Based Machine Translation) that translates in accordance with the translation rules, which has been used in the past, the coverage is enhanced and the advantages of both methods are further utilized for the final translation. A hybrid translation system (Hybrid MT) that improves performance has been proposed.

Hybrid MTでは、EBMTとRBMTの訳出方法の違いに伴い、同一発話者の同一単語の訳語が異なる場合や、待遇表現等で丁寧度に差が現れる場合など、一連の会話の中で一貫した口調で訳出することができない場合がある。   In Hybrid MT, consistent tone in a series of conversations, such as when the translation of the same word of the same speaker is different due to the difference in the translation method of EBMT and RBMT, or when the difference in politeness appears in the treatment expression, etc. May not be available for translation.

一例として、(1)スキーの板とスキー靴を借りたいことを表す日本語の文(板と靴を借りたいのですが。)が入力されて、EBMTにより「I'd like to rent skis and boots.」が出力され、さらに(2)別のスキー靴を見たいことを表す日本語の文(別の靴を見せてください。)が入力されて、RBMTにより「Please show me different shoes.」が出力された場合について説明する。   As an example, (1) A Japanese sentence (I want to rent a board and shoes) that indicates that I want to rent a ski board and ski boots is entered, and EBMT “I'd like to rent skis and "boots." is output, and (2) a Japanese sentence indicating that you want to see another ski shoe (please show another shoe) is input, and "Please show me different shoes." The case where is output will be described.

この例は、入力(1)に対しては、対訳用例データベースに当該例文が登録されていたため、EBMTにより翻訳が行われたことを示している。この結果、「靴」の訳語としては、発話文脈に最適な「boots」が選択されている。一方、引き続き発話された入力(2)では、類似例文が対訳用例データベースに存在せず、この結果、RBMTにより翻訳が行われたことを示している。   In this example, for the input (1), since the example sentence is registered in the parallel translation example database, the translation is performed by EBMT. As a result, “boots” that is optimal for the utterance context is selected as the translation of “shoes”. On the other hand, in the continuously spoken input (2), the similar example sentence does not exist in the parallel translation example database, and as a result, the translation is performed by the RBMT.

RBMTでは、通常、多くの文脈で最適と思われる訳語が選択される。この結果、「靴」の訳語としては「shoes」が選択されている。このように、一連の会話であるにも拘わらず、内部で用いられた翻訳方式の違いにより、同一の単語に対する訳語が異なる場合が生じうる。出力を聞いた聞き手は、第1文では、スキー靴を思い浮かべていたのに、第2文では、「shoes(短靴)」と言い換えられるため、発話者の意図を汲むのに戸惑いを覚えることになる。   In RBMT, a translation that is usually considered optimal in many contexts is selected. As a result, “shoes” is selected as the translation of “shoes”. As described above, there may be a case where the translated words for the same word are different due to the difference in the translation method used internally, despite the series of conversations. In the first sentence, the listener who heard the output thought of ski boots, but in the second sentence it could be paraphrased as “shoes”, so he felt embarrassed to draw the intention of the speaker. Become.

上記課題に関連する技術として、特許文献1では、プロの翻訳者等が、マニュアル文等を翻訳する際に、機械翻訳装置(RBMT)と翻訳メモリ装置(EBMT)とを併用し、対話的に翻訳文を作成する過程を支援するシステムが提案されている。   As a technique related to the above problem, in Patent Document 1, a professional translator or the like uses a machine translation device (RBMT) and a translation memory device (EBMT) in an interactive manner when translating a manual sentence or the like. Systems that support the process of creating translations have been proposed.

特許文献1では、データ互換処理部なる機構によって、RBMTの結果を人手により修正の上、EBMTの例文に追加する、あるいは、EBMTの例文を解析して得られる対訳パターンもしくは対訳辞書をRBMTの辞書に追加する、という処理を行っている。これにより、RBMTとEBMTの翻訳結果を同一のデータ構造で扱えるようになる。   In Patent Document 1, the RBMT result is manually corrected and added to an EBMT example sentence by a mechanism that is a data compatibility processing unit, or a bilingual pattern or a bilingual dictionary obtained by analyzing the EBMT example sentence is an RBMT dictionary. To add to. As a result, the translation result of RBMT and EBMT can be handled with the same data structure.

この結果、翻訳メモリに「靴」の訳語が「boots」として数多く現れていれば、機械翻訳用辞書に訳語「boots」が追加される。その結果、RBMTでも、「靴」の訳語として「boots」を得ることができる。   As a result, if many translations of “shoes” appear as “boots” in the translation memory, the translation “boots” is added to the machine translation dictionary. As a result, RBMT can also obtain “boots” as a translation of “shoes”.

特開2002−278964号公報JP 2002-278964 A

しかしながら、特許文献1の方法では、EBMTが潜在的に持つ対訳情報を直接RBMT側に登録するため、対訳情報が不揮発性になるという問題がある。すなわち、入力文脈に依らず、ある入力語の訳語が特定のものに固定化するという傾向がある。これは、特許文献1が想定している翻訳支援環境で、プロの翻訳者等が、自己の過去の翻訳結果を有効利用して翻訳効率を高めるという目的には好適である。   However, the method disclosed in Patent Document 1 has a problem in that the parallel translation information becomes non-volatile because the translation information potentially possessed by the EBMT is directly registered on the RBMT side. That is, there is a tendency that the translation of a certain input word is fixed to a specific one regardless of the input context. This is suitable for the purpose of improving translation efficiency by effectively using a past translation result of a professional translator or the like in a translation support environment assumed in Patent Document 1.

しかし、会話支援環境で使用される音声翻訳装置はさまざまな場面で使用されることが想定され、場面毎に最適な訳語は異なるため、訳語が固定化することにより翻訳精度が低下するという不都合が生じる。   However, the speech translation device used in the conversation support environment is assumed to be used in various scenes, and the optimal translation differs from scene to scene. Arise.

例えば、レンタルスキーの店での会話文では、「靴」を「boots」と訳出すべきだが、シューズショップでの使用場面を想定すれば、通常「shoes」と訳出すべきである。ところが、特許文献1の方法により「靴」の訳語として「boots」が登録された場合、シューズショップでの会話文に対しても「boots」と訳出されるため、翻訳精度が低下する。   For example, in a conversation sentence at a rental ski store, “shoes” should be translated as “boots”, but if used in a shoe shop, it should normally be translated as “shoes”. However, when “boots” is registered as a translated word of “shoes” by the method of Patent Document 1, “boots” is also translated into a conversation sentence in a shoe shop, and translation accuracy decreases.

本発明は、上記に鑑みてなされたものであって、多数の文脈が想定される音声翻訳での翻訳精度を向上させることができる装置、方法およびプログラムを提供することを目的とする。   The present invention has been made in view of the above, and an object of the present invention is to provide an apparatus, a method, and a program that can improve translation accuracy in speech translation in which many contexts are assumed.

上述した課題を解決し、目的を達成するために、本発明は、第1言語の用例と、前記第1言語の用例を翻訳した第2言語の用例とを対応づけて記憶する用例記憶部と、第1言語による第1単語と、第2言語による第2単語とを対応づけた単語辞書を記憶する辞書記憶部と、第1言語による第1言語文の入力を受付ける入力受付部と、前記第1言語文に対応する前記第2言語の用例を前記用例記憶部から取得することにより、前記第1言語文を第2言語に用例翻訳する用例翻訳部と、前記第1言語文に含まれる前記第1単語に対応する前記第2単語を前記辞書記憶部から取得し、予め定められた規則に基づいて、前記第1言語文に含まれる前記第1単語を、取得した前記第2単語に変換することにより、前記第1言語文を第2言語に規則翻訳する規則翻訳部と、前記用例翻訳部の翻訳結果と前記規則翻訳部の翻訳結果とのうち、最も確からしい翻訳結果を選択する選択部と、前記第1言語文に含まれる前記第1単語と、選択された翻訳結果に含まれる前記第2単語との間の対応関係を記憶する対応記憶部と、選択された翻訳結果を出力する出力部と、を備え、前記規則翻訳部は、さらに、他の第1言語文を第2言語に規則翻訳し、かつ、前記他の第1言語文に含まれる前記第1単語のそれぞれについて、前記第1単語に対応する前記第2単語を前記対応記憶部から取得し、取得した前記第2単語で前記第1単語を規則翻訳した前記第2単語を置換すること、を特徴とする。   In order to solve the above-described problems and achieve the object, the present invention includes an example storage unit that stores an example of the first language and an example of the second language in which the example of the first language is translated in association with each other. A dictionary storage unit that stores a word dictionary in which a first word in a first language and a second word in a second language are associated with each other, an input receiving unit that receives an input of a first language sentence in a first language, An example translation unit for example-translating the first language sentence into a second language by acquiring an example of the second language corresponding to the first language sentence from the example storage unit, and included in the first language sentence The second word corresponding to the first word is acquired from the dictionary storage unit, and the first word included in the first language sentence is acquired as the acquired second word based on a predetermined rule. Translating the first language sentence into a second language by conversion A rule translation unit; a selection unit that selects a most likely translation result among a translation result of the example translation unit and a translation result of the rule translation unit; and the first word included in the first language sentence; A correspondence storage unit that stores a correspondence relationship between the second word included in the selected translation result, and an output unit that outputs the selected translation result, and the rule translation unit further includes: The first language sentence of the first rule is translated into a second language, and for each of the first words included in the other first language sentence, the second word corresponding to the first word is stored in the correspondence storage unit. And the second word obtained by regular translation of the first word is replaced with the acquired second word.

また、本発明は、上記装置を実行することができる方法およびプログラムである。   Further, the present invention is a method and program capable of executing the above-described apparatus.

本発明によれば、内部的に異なる翻訳方式が用いられていても、翻訳結果の整合性がとれるので、翻訳精度を向上させることができ、聞き手に不自然な印象を与えることがないという効果を奏する。   According to the present invention, even if different translation methods are used internally, the consistency of the translation result can be obtained, so that the translation accuracy can be improved, and an unnatural impression is not given to the listener. Play.

以下に添付図面を参照して、この発明にかかる装置、方法およびプログラムの最良な実施の形態を詳細に説明する。   Exemplary embodiments of an apparatus, a method, and a program according to the present invention will be described below in detail with reference to the accompanying drawings.

本実施の形態にかかる機械翻訳装置は、ハイブリッド翻訳方式を構成する規則翻訳および用例翻訳のそれぞれの翻訳結果から得られる付加情報をキャッシュメモリに保存し、以降の翻訳処理で付加情報を参照して翻訳の精度を向上させるものである。   The machine translation apparatus according to the present embodiment stores additional information obtained from the translation results of rule translation and example translation constituting the hybrid translation system in a cache memory, and refers to the additional information in the subsequent translation processing. It improves the accuracy of translation.

なお、以下では、日本語と英語との間の機械翻訳を前提として説明するが、翻訳の原言語および目的言語の組み合わせはこれに限るものではなく、あらゆる言語の組み合わせについて適用することができる。   In the following, description will be made on the premise of machine translation between Japanese and English, but the combination of the source language and the target language of translation is not limited to this, and any combination of languages can be applied.

図1は、本実施の形態にかかる機械翻訳装置100の構成を示すブロック図である。同図に示すように、機械翻訳装置100は、辞書記憶部121と、キャッシュメモリ122と、用例記憶部123と、入力受付部101と、翻訳制御部102と、規則翻訳部103と、用例翻訳部104と、出力部105と、を備えている。   FIG. 1 is a block diagram showing a configuration of a machine translation apparatus 100 according to the present embodiment. As shown in the figure, the machine translation apparatus 100 includes a dictionary storage unit 121, a cache memory 122, an example storage unit 123, an input reception unit 101, a translation control unit 102, a rule translation unit 103, and an example translation. Unit 104 and output unit 105.

辞書記憶部121は、原言語の単語と目的言語の単語とを対応づけた翻訳辞書を格納するものである。辞書記憶部121は、後述する規則翻訳部103が翻訳する際に参照する。図2は、辞書記憶部121に格納された翻訳辞書のデータ構造の一例を示す説明図である。同図の例では、翻訳辞書には、日本語の単語と、日本語の単語の丁寧度と、英語の単語と、英語の単語の丁寧度と、画面とが対応づけられて格納されている。   The dictionary storage unit 121 stores a translation dictionary in which words in the source language are associated with words in the target language. The dictionary storage unit 121 is referred to when the rule translation unit 103 to be described later translates. FIG. 2 is an explanatory diagram showing an example of the data structure of the translation dictionary stored in the dictionary storage unit 121. In the example of the figure, the translation dictionary stores Japanese words, Japanese word politeness, English words, English word politeness, and screens in association with each other. .

なお、丁寧度とは、各単語の意味内容の丁寧さの程度を表すものである。例えば、同図に示すように、英単語「visit」に対する日本語の訳語としては、2つの日本語(「行く」、「伺う」)が存在するが、それぞれ丁寧さの程度が異なるため、丁寧度の値(「3」、「4」)が異なっている。丁寧度は、後述するキャッシュメモリ122内の丁寧度と一致する訳語を選択するために参照される。   The politeness indicates the degree of politeness of the meaning content of each word. For example, as shown in the figure, there are two Japanese translations for the English word “visit” (“go” and “listen”), but each has a different level of politeness. The degree values (“3”, “4”) are different. The politeness is referred to select a translated word that matches the politeness in the cache memory 122 described later.

また、場面とは、訳語が使用される場面を表す情報であり、対応する訳語が複数存在するときに、場面を参照することにより適切な訳語を選択するために用いられる。   The scene is information representing a scene where the translation is used, and is used to select an appropriate translation by referring to the scene when there are a plurality of corresponding translations.

キャッシュメモリ122は、入力された原言語による文である原文と、原文の目的言語による翻訳結果(訳文)との間の単語の対応関係や、場面に関する場面情報、丁寧度などの翻訳に関する付加情報などを一時的に記憶する記憶部であり、RAM(Random Access Memory)によって構成される。なお、キャッシュメモリ122を、HDD(Hard Disk Drive)、光ディスク、メモリカードなどの、その他一般的に利用されている記憶媒体により構成してもよい。また、キャッシュメモリ122には付加情報等が時系列順に追記され、記憶された情報は、一連の対話に関する翻訳処理が終了すると初期化される。   The cache memory 122 includes additional information relating to translation such as correspondence between words between a source sentence that is a sentence in the input source language and a translation result (translation) in the target language of the source sentence, scene information about a scene, politeness, etc. Are temporarily stored, and are configured by a RAM (Random Access Memory). Note that the cache memory 122 may be configured by other commonly used storage media such as an HDD (Hard Disk Drive), an optical disk, and a memory card. Further, additional information and the like are added to the cache memory 122 in chronological order, and the stored information is initialized when the translation processing related to a series of dialogs is completed.

図3は、キャッシュメモリ122に記憶される情報の一例を示す説明図である。なお、同図は、上述の例のように、スキーの板とスキー靴を借りたいことを表す日本語の文(板と靴を借りたいのですが。)が入力されたときの処理結果を登録した状態を示している。   FIG. 3 is an explanatory diagram illustrating an example of information stored in the cache memory 122. The figure shows the processing result when a Japanese sentence (I want to rent a board and shoes) is input, as shown in the above example. The registered state is shown.

同図に示すように、キャッシュメモリ122内には、識別情報と、付加情報とが格納されている。識別情報は、入力文を一意に識別するIDと、翻訳の方向と、翻訳の方式とを含んでいる。   As shown in the figure, identification information and additional information are stored in the cache memory 122. The identification information includes an ID for uniquely identifying the input sentence, a translation direction, and a translation method.

IDは、ユーザIDやユーザ名などの「発話者の識別情報」、記号「#」、および発話者ごとの発話順序を表す「順番号」を付加した形式で表される。同図では、例えば、日本語の発話者「S」の1番目および2番目の発話に対応したIDである「S#1」、「S#2」が登録されている。   The ID is expressed in a format to which “speaker identification information” such as a user ID and a user name, a symbol “#”, and a “order number” indicating the utterance order for each speaker are added. In the figure, for example, “S # 1” and “S # 2” that are IDs corresponding to the first and second utterances of the Japanese speaker “S” are registered.

方向には、本実施の形態では、日英翻訳の場合「JE」が、英日翻訳の場合「EJ」が設定される。方式には、後述する選択部102aにより選択された翻訳結果を生成した翻訳の方式を設定し、用例主導型翻訳方式の場合は「EB」が、規則主導型翻訳方式の場合は「RB」が設定される。   In this embodiment, “JE” is set for Japanese-English translation and “EJ” is set for English-Japanese translation. In the method, the method of translation that generated the translation result selected by the selection unit 102a described later is set, and “EB” is used for the example-driven translation method, and “RB” is used for the rule-driven translation method. Is set.

同図の最初のレコードに示すように、EBMTにより「I'd like to rent skis and boots.」が出力される上述の例に対しては、ID=「S#1」、翻訳方向は日英(JE)、使用された翻訳方式は用例主導型(EB)が設定される。   As shown in the first record of the figure, for the above example in which “I'd like to rent skis and boots.” Is output by EBMT, ID = “S # 1” and the translation direction is Japanese-English. (JE), the example translation type (EB) is set as the translation method used.

付加情報は、規則翻訳部103および用例翻訳部104が共通して翻訳結果と共に出力する情報であり、場面情報、アラインメント情報、丁寧度、および確信度を含む。   The additional information is information that the rule translation unit 103 and the example translation unit 104 commonly output together with the translation result, and includes scene information, alignment information, politeness, and certainty.

場面情報は、用例主導型翻訳方式で翻訳したときに出力される情報であり、用例翻訳時に検索された用例が使用される場面を示す情報である。上述の例に対しては、場面情報として「ski」が設定される。後述するように、場面情報は用例記憶部123に各用例と共に格納されている。   The scene information is information that is output when the example-driven translation method is used for translation, and is information that indicates a scene in which the example searched during example translation is used. For the above example, “ski” is set as the scene information. As will be described later, the scene information is stored in the example storage unit 123 together with each example.

なお、用例記憶部123に場面情報が記憶されていない場合は空の値(null)が設定される。また、規則主導型翻訳方式でも、文に含まれる単語の場面などから入力された発話の使用場面を特定し、場面情報を出力するように構成してもよい。   Note that when no scene information is stored in the example storage unit 123, an empty value (null) is set. The rule-driven translation method may also be configured to specify a use scene of an utterance input from a scene of a word included in a sentence and output scene information.

アラインメント情報は、原文と訳文の各構成要素間の対応付けを示す情報である。構成要素とは、単語などの形態素や、複数の形態素を含む形態素列を表す。同図では、矢印の左に日本語の構成要素を、矢印の右に英語の構成要素を指定することにより、矢印の両側の構成要素が対応づけられていることが示されている。   The alignment information is information indicating the correspondence between the constituent elements of the original sentence and the translated sentence. The component represents a morpheme such as a word or a morpheme string including a plurality of morphemes. In the figure, it is shown that the constituent elements on both sides of the arrow are associated by designating the Japanese constituent element to the left of the arrow and the English constituent element to the right of the arrow.

例えば、上述の例に対しては、原文中のスキー板を意味する形態素(板)が訳文中の形態素「ski」に対応することが示されている。また、原文中の形態素列(たい+の+です+が)が訳文中の形態素列「would+like+to」に対応することが示されている。   For example, for the above-described example, it is shown that a morpheme (board) that means a ski in the original corresponds to a morpheme “ski” in the translation. In addition, it is shown that the morpheme string in the original sentence (Ta + +) is corresponding to the morpheme string “wool + like + to” in the translated sentence.

また、アラインメント情報には、さらに訳語の属性情報が付加されるように構成してもよい。例えば同図では、「ski(pl)」のように、訳語(ski)が複数形(pl)であることを示す属性情報を括弧内に指定する例が示されている。   Moreover, you may comprise so that the attribute information of a translation word may be added to alignment information. For example, in the figure, an example is shown in which attribute information indicating that the translated word (ski) is plural (pl) is specified in parentheses, such as “ski (pl)”.

丁寧度は、訳文の意味内容の丁寧さの程度を表すものである。キャッシュメモリ122内の丁寧度は、用例翻訳の翻訳結果が選択されたときに、用例に対応する丁寧度が用例記憶部123から取得されて設定される。   The politeness indicates the degree of politeness of the meaning content of the translation. The politeness in the cache memory 122 is set by acquiring the politeness corresponding to the example from the example storage unit 123 when the translation result of the example translation is selected.

確信度は、翻訳結果の確からしさを表す0〜1の数値である。値が大きいほど翻訳結果が信頼できることを表す。確信度の算出方法の詳細については後述する。   The certainty factor is a numerical value of 0 to 1 representing the certainty of the translation result. The larger the value, the more reliable the translation result. Details of the certainty factor calculation method will be described later.

用例記憶部123は、原言語の文の用例と、目的言語の文の用例とを対応づけて格納するものである。図4は、用例記憶部123に記憶された用例のデータ構造の一例を示す説明図である。   The example storage unit 123 stores an example of a source language sentence and an example of a target language sentence in association with each other. FIG. 4 is an explanatory diagram showing an example of the data structure of the example stored in the example storage unit 123. As shown in FIG.

同図に示すように、用例記憶部123には、日本語用例と、英語用例と、場面情報と、日本語用例と英語用例内の各構成要素間の対応付けを示す情報であるアラインメント情報と、丁寧度とを対応づけて格納している。   As shown in the figure, the example storage unit 123 includes a Japanese example, an English example, scene information, and alignment information that is information indicating associations between components in the Japanese example and the English example. The politeness is stored in association with each other.

アラインメント情報は、用例記憶部123に用例を登録するときに、構成要素の対応付けを事前に解析して得られた情報を設定する。なお、アラインメント情報を用例記憶部123に保存せず、用例翻訳部104が翻訳したときにアラインメント情報を生成するように構成してもよい。しかし、アラインメント情報生成処理の精度の観点から、人手による検証を経たものが事前に付与されていることが望ましい。   As the alignment information, information obtained by analyzing the association of the components in advance when the example is registered in the example storage unit 123 is set. The alignment information may not be stored in the example storage unit 123 but may be configured to generate alignment information when the example translation unit 104 translates. However, from the viewpoint of the accuracy of the alignment information generation process, it is desirable that the information subjected to manual verification is given in advance.

丁寧度は、上述のように、訳文の意味内容の丁寧さの程度を表すものである。同図では、「それをやってください」を意味する日本語に対し、丁寧度が異なる7つの訳文が設定されている例が示されている。丁寧度は、各訳出でほぼ同等の値となるように用例または訳語を選択するために参照される。これにより、口調の一貫性を保つことが可能となる。   As described above, the politeness indicates the degree of politeness of the meaning content of the translation. The figure shows an example in which seven translations with different politeness are set for Japanese meaning "Please do it". The politeness is referred to select an example or translation so that each translation has an approximately equivalent value. This makes it possible to maintain the consistency of tone.

なお、辞書記憶部121および用例記憶部123は、HDD(Hard Disk Drive)、光ディスク、メモリカード、RAMなどの一般的に利用されているあらゆる記憶媒体により構成することができる。   The dictionary storage unit 121 and the example storage unit 123 can be configured by any commonly used storage medium such as an HDD (Hard Disk Drive), an optical disk, a memory card, and a RAM.

入力受付部101は、音声認識、手書き文字認識、キー入力等により原文の入力を受付けるものである。   The input receiving unit 101 receives input of the original text by voice recognition, handwritten character recognition, key input, or the like.

翻訳制御部102は、規則翻訳部103および用例翻訳部104を駆動し、両者がそれぞれ出力した翻訳結果から、最終的な翻訳結果を選択する処理を制御するものであり、選択部102aを備えている。   The translation control unit 102 drives the rule translation unit 103 and the example translation unit 104, and controls the process of selecting the final translation result from the translation results output by both, and includes a selection unit 102a. Yes.

選択部102aは、規則翻訳部103および用例翻訳部104がそれぞれ出力した翻訳結果のうち、翻訳結果とともにそれぞれ出力された確信度が大きい翻訳結果を、最終的な翻訳結果として選択するものである。   The selection unit 102a selects, as a final translation result, a translation result having a high degree of certainty output together with the translation result from the translation results output by the rule translation unit 103 and the example translation unit 104, respectively.

また、翻訳制御部102は、選択した翻訳結果について付加情報および対応する識別情報を生成し、生成した付加情報および識別情報をキャッシュメモリ122に登録する。付加情報および識別情報の生成方法については後述する。   The translation control unit 102 generates additional information and corresponding identification information for the selected translation result, and registers the generated additional information and identification information in the cache memory 122. A method of generating additional information and identification information will be described later.

規則翻訳部103は、辞書記憶部121に格納された辞書情報や、予め定められた翻訳規則を参照して、原文を目的言語に翻訳する規則主導型翻訳方式の翻訳部である。具体的には、規則翻訳部103は、まず入力された原文に対して、形態素解析、統語解析、依存構造解析などの通常の文解析処理を行い、原文の意味構造を反映した依存構造木を生成する。そして、規則翻訳部103は、辞書記憶部121および所定の翻訳規則を参照しながら、依存構造木を目的言語の依存構造木に変換するトランスファー処理を行う。最後に、規則翻訳部103は、目的言語の依存構造木から目的言語による訳文を生成する。   The rule translation unit 103 is a rule-driven translation method translation unit that translates an original text into a target language with reference to dictionary information stored in the dictionary storage unit 121 and a predetermined translation rule. Specifically, the rule translation unit 103 first performs normal sentence analysis processing such as morphological analysis, syntactic analysis, and dependency structure analysis on the input original sentence, and generates a dependency structure tree reflecting the semantic structure of the original sentence. Generate. Then, the rule translation unit 103 performs a transfer process for converting the dependency structure tree into the target language dependency structure tree while referring to the dictionary storage unit 121 and a predetermined translation rule. Finally, the rule translation unit 103 generates a translation in the target language from the dependency structure tree of the target language.

また、規則翻訳部103は、変換前後の各依存構造木の要素の対応から、原文と訳文の各構成要素間のアラインメント情報を生成する。   Further, the rule translation unit 103 generates alignment information between each component of the original sentence and the translated sentence from the correspondence between the elements of each dependency structure tree before and after the conversion.

用例翻訳部104は、原文を用例記憶部123内の用例と照合し、一致または類似する用例に対応する目的言語の用例を選択することにより翻訳を行う用例主導方式の翻訳部である。   The example translation unit 104 is an example-driven translation unit that performs translation by comparing an original sentence with an example in the example storage unit 123 and selecting an example of a target language corresponding to a matching or similar example.

なお、規則翻訳部103および用例翻訳部104は、翻訳結果を出力すると共に、翻訳結果の確信度、原文と訳文の各構成要素間の対応付け(アラインメント情報)などを含む上述の付加情報を出力する。   Note that the rule translation unit 103 and the example translation unit 104 output the translation result, and also output the above-described additional information including the certainty of the translation result and the correspondence (alignment information) between each component of the original sentence and the translated sentence. To do.

出力部105は、翻訳制御部102が選択した翻訳結果を音声合成してユーザに出力するものである。なお、出力部105は、翻訳結果をディスプレイ等によりユーザに提示するように構成してもよい。   The output unit 105 synthesizes the translation result selected by the translation control unit 102 and outputs it to the user. Note that the output unit 105 may be configured to present the translation result to the user via a display or the like.

次に、このように構成された本実施の形態にかかる機械翻訳装置100による機械翻訳処理について説明する。図5は、本実施の形態における機械翻訳処理の全体の流れを示すフローチャートである。   Next, a machine translation process performed by the machine translation apparatus 100 according to the present embodiment configured as described above will be described. FIG. 5 is a flowchart showing the overall flow of the machine translation process in the present embodiment.

まず、入力受付部101が、原文の入力を受付ける(ステップS501)。次に、規則翻訳部103による規則翻訳処理(ステップS502)、および用例翻訳部104による用例翻訳処理(ステップS503)が行われる。なお、規則翻訳処理と用例翻訳処理の処理順序はこれに限られず、先に用例翻訳処理を実行してもよいし、並行して処理するように構成してもよい。規則翻訳処理と用例翻訳処理の詳細については後述する。   First, the input receiving unit 101 receives an input of the original text (step S501). Next, rule translation processing (step S502) by the rule translation unit 103 and example translation processing (step S503) by the example translation unit 104 are performed. Note that the processing order of the rule translation process and the example translation process is not limited to this, and the example translation process may be executed first or may be configured to process in parallel. Details of the rule translation process and the example translation process will be described later.

次に、選択部102aが、規則翻訳処理による翻訳結果と、用例翻訳処理による翻訳結果のそれぞれの確信度を比較し、確信度が高い翻訳結果を選択する(ステップS504)。   Next, the selection unit 102a compares the certainty factors of the translation result by the rule translation process and the translation result by the example translation process, and selects a translation result having a high certainty factor (step S504).

次に、翻訳制御部102が、選択した翻訳結果の付加情報および識別情報を生成し、生成した付加情報に識別情報を付与してキャッシュメモリ122に登録する(ステップS505)。具体的には、翻訳制御部102は、以下のようにして付加情報および識別情報を生成する。   Next, the translation control unit 102 generates additional information and identification information of the selected translation result, adds the identification information to the generated additional information, and registers it in the cache memory 122 (step S505). Specifically, the translation control unit 102 generates additional information and identification information as follows.

まず、翻訳制御部102は、識別情報のうちIDを、ユーザにより指定または入力されたユーザIDと、RAMなどの記憶部(図示せず)で管理するユーザごとの発話順序とから生成する。また、翻訳制御部102は、ユーザにより指定された翻訳方向を識別情報の方向として設定する。あるいは、音声翻訳システムであれば、発声者を識別する話者認識技術を用いて自動生成されるユーザIDや、発声言語の言語種を判別する言語識別技術により得られる翻訳方向から設定してもよい。また、翻訳制御部102は、翻訳制御部102自身が選択した翻訳方式を識別情報の方式として設定する。   First, the translation control unit 102 generates an ID of the identification information from a user ID specified or input by the user and an utterance order for each user managed by a storage unit (not shown) such as a RAM. Also, the translation control unit 102 sets the translation direction specified by the user as the direction of the identification information. Alternatively, in the case of a speech translation system, a user ID that is automatically generated using a speaker recognition technique for identifying a speaker or a translation direction obtained by a language identification technique for determining the language type of a utterance language may be set. Good. The translation control unit 102 sets the translation method selected by the translation control unit 102 itself as the identification information method.

付加情報のうち場面情報は、方式として用例主導型が選択された場合に、用例記憶部123から取得された場面情報が設定される。アラインメント情報は、用例主導型を選択した場合は用例記憶部123から取得したアラインメント情報が設定され、規則主導型を選択した場合は、規則翻訳部103が生成したアラインメント情報が設定される。   Of the additional information, the scene information acquired from the example storage unit 123 is set as the scene information when the example-driven type is selected as the method. As the alignment information, the alignment information acquired from the example storage unit 123 is set when the example-driven type is selected, and the alignment information generated by the rule translation unit 103 is set when the rule-driven type is selected.

丁寧度は、原則として用例主導型が選択された場合に、用例記憶部123から取得された丁寧度が設定される。なお、キャッシュメモリ122の丁寧度を参照し、規則翻訳時に丁寧度が一致する訳語を選択したときは、参照した丁寧度が引き継がれて設定される場合がある。確信度は、規則翻訳部103および用例翻訳部104がそれぞれ出力した確信度が設定される。   As a rule, the politeness obtained from the example storage unit 123 is set when the example-driven type is selected. In addition, referring to the politeness of the cache memory 122 and selecting a translated word having the same politeness during rule translation, the referenced politeness may be inherited and set. As the certainty factor, the certainty factor output by the rule translation unit 103 and the example translation unit 104 is set.

最後に、出力部105が、翻訳制御部102により選択された翻訳結果を音声合成してスピーカ等(図示せず)に出力し(ステップS506)、機械翻訳処理を終了する。   Finally, the output unit 105 synthesizes the translation result selected by the translation control unit 102 and outputs it to a speaker or the like (not shown) (step S506), and the machine translation process ends.

次に、ステップS502の規則翻訳処理の詳細について説明する。図6は、本実施の形態における規則翻訳処理の全体の流れを示すフローチャートである。   Next, details of the rule translation process in step S502 will be described. FIG. 6 is a flowchart showing the overall flow of rule translation processing in the present embodiment.

まず、規則翻訳部103は、入力された原文を解析して依存構造木を生成する(ステップS601)。上述のように、規則翻訳部103は、従来から用いられている形態素解析、統語解析、および依存構造解析等の文解析処理を実行することにより依存構造木を生成する。   First, the rule translation unit 103 analyzes the input original text and generates a dependency structure tree (step S601). As described above, the rule translation unit 103 generates a dependency structure tree by executing sentence analysis processes such as morphological analysis, syntactic analysis, and dependency structure analysis that have been conventionally used.

次に、規則翻訳部103は、生成した依存構造木を目的言語の依存構造木にトランスファーする(ステップS602)。この処理は、従来から用いられている機械翻訳のトランスファー方式における処理と同様である。   Next, the rule translation unit 103 transfers the generated dependency structure tree to the target language dependency structure tree (step S602). This process is the same as the process in the machine translation transfer system used conventionally.

この後、規則翻訳部103は、キャッシュメモリ122の内容を適用して依存構造木内の単語を変更するキャッシュ適用処理を実行する(ステップS603〜ステップS607)。規則翻訳のキャッシュ適用処理では、基本的に時系列順に並んだキャッシュメモリ122内のレコードを遡及検索し、適用可能な付加情報が検索された場合に、検索された付加情報を用いて目的言語の依存構造木を修正する。遡及検索の範囲および適用方法は、付加情報の種類によって異なる。以下、ステップS603〜ステップS607のキャッシュ適用処理について説明する。   Thereafter, the rule translation unit 103 executes a cache application process for changing the words in the dependency structure tree by applying the contents of the cache memory 122 (steps S603 to S607). In the rule translation cache application process, records in the cache memory 122 that are basically arranged in chronological order are retrospectively searched, and when applicable additional information is searched, using the searched additional information, Modify the dependency tree. The scope and application method of retrospective search differ depending on the type of additional information. Hereinafter, the cache application process in steps S603 to S607 will be described.

まず、規則翻訳部103は、キャッシュメモリ122からアラインメント情報を取得し(ステップS603)、取得したアラインメント情報に、依存構造木内の単語が含まれているか否かを判断する(ステップS604)。   First, the rule translation unit 103 acquires alignment information from the cache memory 122 (step S603), and determines whether or not the acquired alignment information includes a word in the dependency structure tree (step S604).

含まれている場合は(ステップS604:YES)、規則翻訳部103は、アラインメント情報内の単語で依存構造木内の単語を変更する(ステップS605)。具体的には、以下のようにしてアラインメント情報の適用を行う。   If it is included (step S604: YES), the rule translation unit 103 changes the word in the dependency structure tree with the word in the alignment information (step S605). Specifically, alignment information is applied as follows.

まず、規則翻訳部103は、取得したアラインメント情報のうち、発話者が同一、または、翻訳方向が逆方向かつ翻訳方式が用例主導型(EB)である範囲を探索する。探索キーは、発話者が同一の場合は原言語の形態素もしくは形態素列とする。また、翻訳方向が逆方向の場合は、訳語側の形態素もしくは形態素列を探索キーとする。   First, the rule translation unit 103 searches the acquired alignment information for a range in which the speaker is the same, or the translation direction is the reverse direction and the translation method is the example initiative type (EB). The search key is a morpheme or morpheme string in the source language when the speakers are the same. When the translation direction is the reverse direction, the translated word side morpheme or morpheme string is used as a search key.

例えば、キャッシュメモリ122に図3のID=「S#1」および「H#1」に示すような情報が格納されており、上述の例と同様に、発話者(S)が、別のスキー靴を見たいことを表す日本語の文(別の靴を見せてください。)が入力したとする(ID=「S#2」)。この場合、翻訳方向が逆方向かつ翻訳方式がEBであるレコードは存在しないため、探索範囲は発話者が同一であるID=「S#1」のレコードのみとなる。   For example, information as shown in ID = “S # 1” and “H # 1” in FIG. 3 is stored in the cache memory 122, and the speaker (S) is in a different skiing manner as in the above example. Assume that a Japanese sentence indicating that you want to see shoes (please show me another shoe) is entered (ID = “S # 2”). In this case, since there is no record in which the translation direction is the reverse direction and the translation method is EB, the search range is only the record of ID = “S # 1” with the same speaker.

ID=「S#2」に対応する原文に対しては、当該原文内の単語の1つであり、スキー靴を意味する日本語(靴)を含むアラインメント情報(靴→boot(pl))がキャッシュメモリ122内に存在する。したがって、例えば、規則翻訳で当該単語(靴)の訳語として「shoe(pl)」が選択されていた場合、アラインメント情報に従って訳語を「boot(pl)」に変更する。   For the original text corresponding to ID = “S # 2”, alignment information (shoes → boot (pl)) which is one of the words in the original text and includes Japanese (shoes) meaning ski boots. It exists in the cache memory 122. Therefore, for example, when “shoe (pl)” is selected as the translation of the word (shoes) in the rule translation, the translation is changed to “boot (pl)” according to the alignment information.

なお、このとき、訳語の属性情報(pl等)も継承される。例えば、用例主導型で「靴を片方なくしました。」を意味する日本語が入力され、用例翻訳により訳語「I've lost a boot.」が出力された後、規則主導型で「靴」を意味する日本語を翻訳する場合は、通常の訳語である「boot(pl)」の代わりに単数形の「boot(sg)」が選択される。   At this time, the translation attribute information (such as pl) is also inherited. For example, the Japanese word meaning “I lost one shoe” was input in the example-driven type, the translated word “I've lost a boot.” Was output by the example translation, and then the rule-driven type “Shoes” When translating Japanese meaning, the singular "boot (sg)" is selected instead of the normal translation "boot (pl)".

ステップS604で、アラインメント情報に依存構造木内の単語が含まれていないと判断された場合(ステップS604:NO)、または、アラインメント情報の適用後(ステップS605)、規則翻訳部103は、場面情報および丁寧度の適用を行う。すなわち、規則翻訳部103は、キャッシュメモリ122から場面情報および丁寧度を取得し(ステップS606)、依存構造木内の単語を、場面情報および丁寧度が一致する単語に変更する(ステップS607)。場面情報の適用、および丁寧度の適用は以下のように行う。   If it is determined in step S604 that the alignment information does not include a word in the dependency structure tree (step S604: NO), or after the alignment information is applied (step S605), the rule translation unit 103 Apply politeness. That is, the rule translation unit 103 acquires the scene information and the politeness from the cache memory 122 (Step S606), and changes the word in the dependency structure tree to a word that matches the scene information and the politeness (Step S607). Scene information and politeness are applied as follows.

まず、場面情報の適用について説明する。場面情報は、翻訳方式が用例主導型(EB)である範囲で検索し、最初に検索された場面情報、すなわち最新の場面情報を現在の発話の場面であると仮定する。そして、訳語候補の中に、当該の場面情報に適合する訳語が存在すれば、それを第1優先の訳語(第1訳語)に変更する。   First, application of scene information will be described. The scene information is searched in a range where the translation method is an example-driven type (EB), and the first searched scene information, that is, the latest scene information is assumed to be the scene of the current utterance. If there is a translation that matches the scene information in the translation candidate, it is changed to the first priority translation (first translation).

例えば、「服」を意味する日本語に対する通常の第1訳語は「dress」であるが、使用場面「スキー」では、「ski wear」が第1訳語に変更される。従って、キャッシュメモリ122に図3に示すような情報が格納されていた場合であって、その後に入力された日本語の原文中に「服」を意味する単語が現れた場合、その単語の訳語は「ski wear」に変更される。   For example, the normal first translation for Japanese meaning “clothes” is “dress”, but “ski wear” is changed to the first translation in the usage scene “ski”. Therefore, if the information as shown in FIG. 3 is stored in the cache memory 122 and a word meaning “clothes” appears in the input Japanese text after that, the translation of the word Will be changed to “ski wear”.

次に、丁寧度の適用について図7を用いて説明する。図7は、キャッシュメモリ122に記憶される情報の別の例を示す説明図である。   Next, application of politeness will be described with reference to FIG. FIG. 7 is an explanatory diagram showing another example of information stored in the cache memory 122.

丁寧度の探索では、発話者が同一である範囲で探索する。丁寧度を対話相手に合わせることは無意味だからである。ここで、例えば、先行発話として「My name is Brown.」が入力され、用例翻訳により対応する日本語(私はブラウンと申します。)が出力され、キャッシュメモリ122に図7に示すような情報が格納されたことを仮定する。   In the politeness search, the search is performed in a range where the speakers are the same. This is because it is meaningless to adjust the politeness to the conversation partner. Here, for example, “My name is Brown.” Is input as the preceding utterance, and the corresponding Japanese (I am Brown) is output by example translation, and the information as shown in FIG. Is stored.

この状態で、同一発話者が、「I'll visit tomorrow.」と発話した場合、探索範囲は、ID=「S#1」となり、丁寧度4が取得される。なお、丁寧度4は、英日翻訳では謙譲語の使用を表すものとする。   In this state, when the same speaker speaks “I'll visit tomorrow.”, The search range is ID = “S # 1”, and the politeness 4 is acquired. A politeness level of 4 represents the use of a humble word in English-Japanese translation.

ここで、例えば、図2に示すような辞書記憶部121を参照し、「visit」の訳語として丁寧度3の日本語(行く)が選択されていたとすると、当該日本語は、取得した丁寧度と一致する丁寧度(4)に対応する別の日本語(伺う)に変更される。   Here, for example, referring to the dictionary storage unit 121 as shown in FIG. 2, if Japanese (going) with politeness 3 is selected as the translated word of “visit”, the Japanese is the acquired politeness. Will be changed to another Japanese (asking) corresponding to the politeness (4) that matches.

図6に戻り、上述のようなキャッシュ適用処理(ステップS603〜ステップS607)が終了すると、規則翻訳部103は、目的言語の依存構造木から訳文を生成する(ステップS608)。すなわち、規則翻訳部103は、従来から用いられている機械翻訳のトランスファー方式における処理と同様に、構文生成・形態素生成処理を実行して目的言語の訳文を生成する。   Returning to FIG. 6, when the above-described cache application processing (step S603 to step S607) ends, the rule translation unit 103 generates a translation from the dependency structure tree of the target language (step S608). That is, the rule translation unit 103 executes a syntax generation / morpheme generation process to generate a target language translation in the same manner as in a conventionally used machine translation transfer system.

次に、規則翻訳部103は、生成した訳文と原文との対応からアラインメント情報を生成する(ステップS609)。具体的には、規則翻訳部103は、トランスファー時に変換された原言語の依存構造木および目的言語の依存構造木の間の対応関係に、キャッシュ適用処理により得られた新たな対応関係を反映した最終結果をアラインメント情報として生成する。   Next, the rule translation unit 103 generates alignment information from the correspondence between the generated translated text and the original text (step S609). Specifically, the rule translation unit 103 reflects the new correspondence obtained by the cache application process in the correspondence between the dependency structure tree of the source language and the dependency structure tree of the target language converted at the time of transfer. Is generated as alignment information.

次に、規則翻訳部103は、規則翻訳で得られた翻訳結果の確信度を算出する(ステップS610)。確信度は、1より小さい特定値を最大値とし(用例主導翻訳では最大値1)、係り受けの曖昧性の多さや訳語の曖昧性の多さに応じた点数を減じることにより算出する。なお、キャッシュ適用により訳語の曖昧性等が減じられれば、その分ペナルティは小さくなる。   Next, the rule translation unit 103 calculates a certainty factor of the translation result obtained by the rule translation (step S610). The certainty factor is calculated by setting a specific value smaller than 1 as the maximum value (maximum value 1 in the case of example-driven translation) and subtracting the number of points according to the degree of ambiguity of the dependency and the ambiguity of the translation word. If the ambiguity of the translation is reduced by applying the cache, the penalty will be reduced accordingly.

具体的には、規則翻訳部103は、以下の(1)式により規則主導翻訳における確信度Crを算出する。ここで、α、βは、0<α、β<1を満たす定数、Nは全構成語数、Nsは構文的曖昧性の数、Ntwは訳語に曖昧性を持つ語の数を意味する。

Figure 2008176536
Specifically, rule translation unit 103 calculates the certainty factor C r in rule-driven translation by the following equation (1). Here, α and β are constants satisfying 0 <α and β <1, N is the total number of constituent words, N s is the number of syntactic ambiguity, and N tw is the number of words having ambiguity in the translated word. .
Figure 2008176536

なお、αは、規則主導翻訳における上限値を定める定数であり、βは、訳語の曖昧性に関するペナルティの上限値を定める定数である。   Α is a constant that defines an upper limit value in rule-driven translation, and β is a constant that defines an upper limit value of a penalty related to the ambiguity of the translated word.

次に、規則翻訳部103は、訳文および付加情報を出力する(ステップS611)。なお、付加情報のうちアラインメント情報は、ステップS609で生成したアラインメント情報を出力する。付加情報のうち場面情報および丁寧度は、原則として規則翻訳では出力しないが、キャッシュメモリ122を参照して場面情報または丁寧度が一致する訳語に変更した場合は、参照元のレコードと同一の場面情報または丁寧度を設定してもよい。また、原文に含まれる単語に対応する場面や丁寧度を辞書記憶部121から取得し、取得した場面や丁寧度を設定するように構成してもよい。   Next, the rule translation unit 103 outputs a translation and additional information (step S611). Of the additional information, the alignment information is output from the alignment information generated in step S609. Of the additional information, the scene information and the politeness are not output by rule translation in principle. However, when the cache memory 122 is referred to and the translated information matches the scene information or the politeness, the same scene as the record of the reference source Information or politeness may be set. Further, a scene and politeness corresponding to a word included in the original sentence may be acquired from the dictionary storage unit 121, and the acquired scene and politeness may be set.

次に、ステップS503の用例翻訳処理の詳細について説明する。図8は、本実施の形態における用例翻訳処理の全体の流れを示すフローチャートである。   Next, details of the example translation process in step S503 will be described. FIG. 8 is a flowchart showing the overall flow of the example translation process in the present embodiment.

まず、用例翻訳部104は、原文と類似する文に対応する目的言語の用例を用例記憶部123から検索する(ステップS801)。このように、用例の検索は類似文検索の手法により行い、完全一致しなくとも、一定の確信度とともに類似する用例が順序づけられて取得されるものとする。なお、完全一致の場合に確信度として1が設定される。   First, the example translation unit 104 searches the example storage unit 123 for an example of a target language corresponding to a sentence similar to the original sentence (step S801). As described above, the example search is performed by the similar sentence search method, and similar examples are obtained in order with a certain degree of certainty even if they do not completely match. In the case of a perfect match, 1 is set as the certainty factor.

また、同図には図示しないが、検索に失敗した場合、または所定の閾値以下の確信度しか得られなかった場合は、空の翻訳結果、および空の付加情報を出力して終了する。   Although not shown in the figure, if the search fails or if only a certain degree of certainty is obtained, a blank translation result and blank additional information are output and the process ends.

検索が成功した場合、キャッシュメモリ122を参照して用例の変更を行うキャッシュ適用処理を実行する(ステップS802〜ステップS803)。用例翻訳のキャッシュ適用処理では、基本的に丁寧度以外の変更処理は行わない。対訳用例は、使用場面を想定した上での最適解釈が既に行われた結果だからである。一方、丁寧度は、話者と聞き手の関係に基づいて動的に決定されるものであり、文脈から獲得する必要があるからである。なお、常に最大限の丁寧度で出力する戦略もあるが、慇懃無礼となる場合があるという問題が生じうる。   When the search is successful, a cache application process for changing the example is executed with reference to the cache memory 122 (steps S802 to S803). In the example application cache application process, basically no change process other than the politeness is performed. This is because the bilingual example is the result of the optimal interpretation already taking into account the usage situation. On the other hand, the politeness is dynamically determined based on the relationship between the speaker and the listener, and needs to be acquired from the context. Although there is a strategy that always outputs with maximum politeness, there may be a problem that it may be rude.

丁寧度は、多くの場合、現在翻訳対象となっている原文からも獲得することができるが、対象とする言語対によっては、必ずしも一意に対応するとは限らない。例えば、「質問してよろしいですか?」を意味する日本語の原文に対し、先行文脈が存在しない場合は、異なる丁寧度を有する「May I ask a question?」、および「I wonder if I might ask a question.」の2つの英語の訳文が対応づけられる。   In many cases, the politeness can also be obtained from the original text that is currently being translated. However, depending on the target language pair, the politeness does not always correspond uniquely. For example, if there is no preceding context for a Japanese text meaning "Are you sure you want to ask?", "May I ask a question?" And "I wonder if I might" Two English translations of "ask a question."

実際、特に慣用的表現のように、同一の原文に対し丁寧度のみ異なる複数の訳文が用例記憶部123に登録されていることも多い。このような場合、キャッシュ適用処理により、先行文脈を参照すること、すなわちキャッシュメモリ122を参照することで、複数の訳文のうち、丁寧度が一致するいずれか1つを選択して翻訳結果とする。   Actually, there are many cases where a plurality of translated sentences differing only in politeness for the same original sentence are registered in the example storage unit 123, particularly as in an idiomatic expression. In such a case, by referring to the preceding context by the cache application process, that is, referring to the cache memory 122, one of a plurality of translated sentences having the same politeness is selected as a translation result. .

次に、用例翻訳部104は、選択した用例と、原文との相違部分を検出して単語の置換を行う(ステップS803)。例えば、原文が「コップを1つください。」であり、検索された用例が「お皿を2枚ください。」であった場合、アラインメント情報の「お皿→dish(pl)」、および「2枚→two」を、それぞれ「コップ→glass(sg)」、「1つ→a」に変更するとともに、訳文の対応部分の単語をそれぞれ変更する。   Next, the example translation unit 104 detects a difference between the selected example and the original text, and performs word replacement (step S803). For example, if the original text is "Please give me a glass" and the searched example is "Please give me two dishes", the alignment information "Plate → dish (pl)" and "2 “Sheet → two” is changed to “cup → glass (sg)” and “one → a”, respectively, and the corresponding part of the translation is changed.

次に、用例翻訳部104は、翻訳結果の最終的な確信度を算出する(ステップS805)。確信度は、用例検索時に得られた値を最大値とし、単語置換の多さや置換単語間の意味的距離に応じた点数を減じることにより確定する。   Next, the example translation unit 104 calculates the final certainty of the translation result (step S805). The certainty factor is determined by setting the value obtained during the example search as a maximum value and subtracting the number of points according to the number of word replacements and the semantic distance between replacement words.

具体的には、用例翻訳部104は、以下の(2)式により用例主導翻訳における確信度Ceを算出する。ここで、Siは、入力文内の単語(入力単語)と用例内の単語(用例単語)の対応付けにおける、入力単語と用例単語との類似度を表し、0<=Si<=1を満たすものとする。

Figure 2008176536
Specifically, the example-based translation unit 104 calculates the certainty factor C e in the example driven translated by the following equation (2). Here, S i represents the similarity between the input word and the example word in the correspondence between the word in the input sentence (input word) and the word in the example (example word), and 0 <= S i ≦ = 1 Shall be satisfied.
Figure 2008176536

なお、入力単語と用例単語との類似度は、単語間の階層関係を格納したシソーラス(図示せず)を参照し、両者間の階層数が小さいほど類似度を高く算出する方法などの、従来から用いられているあらゆる類似度算出方法を適用できる。   Note that the similarity between the input word and the example word is determined by referring to a thesaurus (not shown) that stores the hierarchical relationship between words, and a method of calculating the similarity higher as the number of hierarchies between the two is smaller. Any similarity calculation method used can be applied.

次に、用例翻訳部104は、訳文および付加情報を出力する(ステップS806)。なお、付加情報に含まれる場面情報、アラインメント情報、および丁寧度は、選択した用例に対応する情報をそれぞれ用例記憶部123から取得して出力する。   Next, the example translation part 104 outputs a translation and additional information (step S806). The scene information, the alignment information, and the politeness included in the additional information are obtained by outputting information corresponding to the selected example from the example storage unit 123, respectively.

次に、本実施の形態による機械翻訳処理の具体例について説明する。以下では、キャッシュメモリ122に図3に示すような情報が格納されており、「別の靴を見せてください。」を意味する日本語が入力された場合を例に説明する。   Next, a specific example of machine translation processing according to this embodiment will be described. In the following, a case where information as shown in FIG. 3 is stored in the cache memory 122 and Japanese meaning “Please show me another shoe” is input will be described as an example.

この原文に対し、規則翻訳部103および用例翻訳部104は、それぞれ規則翻訳処理(ステップS502)、および用例翻訳処理(ステップS503)を実行する。図9は、このときの規則翻訳処理により生成された依存構造木の一例を示す説明図である。また、図10は、このときの用例翻訳処理により選択された用例と入力文との対応の一例を示す説明図である。   The rule translation unit 103 and the example translation unit 104 perform rule translation processing (step S502) and example translation processing (step S503), respectively, on the original text. FIG. 9 is an explanatory diagram showing an example of the dependency structure tree generated by the rule translation process at this time. FIG. 10 is an explanatory diagram showing an example of the correspondence between the example selected by the example translation processing at this time and the input sentence.

規則翻訳部103が依存構造木を生成した時点では、全構成語(構成語数N=3)のうち、すべての構成語に複数の訳語候補が存在する(Ntw=3)。一方、構文的曖昧性は存在しない(Ns=1)。したがって、α=0.9、β=0.3として、この時点の確信度Crを上述の(1)式で算出すると、Cr=0.9*(1−0.3*3/3)=0.63となる。 At the time when the rule translation unit 103 generates the dependency structure tree, among all the constituent words (the number of constituent words N = 3), there are a plurality of translation word candidates for all the constituent words (N tw = 3). On the other hand, there is no syntactic ambiguity (N s = 1). Therefore, when α = 0.9 and β = 0.3, and the certainty factor C r at this time is calculated by the above-described equation (1), C r = 0.9 * (1−0.3 * 3/3) ) = 0.63.

この後、ステップS605でアラインメント情報の適用を行うと、ノード901の訳語の曖昧性が解消され、Ntw=2となるため、確信度はCr=0.9*(1−0.3*2/3)=0.72に上昇する。ステップS610ではこの値が規則翻訳の翻訳結果の確信度として算出される。このように本実施の形態によれば、キャッシュメモリ122を参照することにより、規則翻訳の精度を向上させることができる。 Thereafter, when the alignment information is applied in step S605, the ambiguity of the translated word of the node 901 is resolved and N tw = 2, so the certainty factor is C r = 0.9 * (1-0.3 *). 2/3) = 0.72. In step S610, this value is calculated as the certainty factor of the translation result of the rule translation. Thus, according to the present embodiment, the accuracy of rule translation can be improved by referring to the cache memory 122.

一方、用例翻訳処理では、図10に示すように、入力文1010に対して完全一致する用例が検索されず、類似する原言語用例1011と、原言語用例1011に対応する目的言語用例1012とが検索されたものとする。   On the other hand, in the example translation process, as shown in FIG. 10, an example that exactly matches the input sentence 1010 is not searched, and a similar source language example 1011 and a target language example 1012 corresponding to the source language example 1011 are obtained. Suppose that it was searched.

なお、この場合、用例翻訳部104は、入力文1010と原言語用例1011とで一致する要素1001および要素1002は置換しないが、相違部分である要素1004に対応する要素1007を要素1003に相当する英語の訳語に置換する(ステップS804)。同様に、用例翻訳部104は、相違部分である要素1006に対応する要素1008を要素1005に相当する英語の訳語に置換する(ステップS804)。   In this case, the example translation unit 104 does not replace the element 1001 and the element 1002 that match in the input sentence 1010 and the source language example 1011, but the element 1007 corresponding to the element 1004 that is a different part corresponds to the element 1003. Replacement with English translation (step S804). Similarly, the example translation unit 104 replaces the element 1008 corresponding to the element 1006 which is a different part with an English translation corresponding to the element 1005 (step S804).

用例翻訳部104は、上述の(2)式により用例翻訳の翻訳結果の確信度Ceを算出する(ステップS805)。図10の例では、要素1001(別の)と要素1002(別の)とは完全一致するため類似度は1である。また、要素1003(靴を)と要素1004(人を)との類似度が0.2、要素1005(見せてください)と要素1006(呼んでください)の類似度が0.1であったとすると、(2)式より、確信度として、Ce=(1+0.2+0.1)/3=0.43が得られる。 Example translation unit 104 calculates the certainty factor C e of example translation of the translation result by the above formula (2) (step S805). In the example of FIG. 10, the element 1001 (other) and the element 1002 (other) completely coincide with each other, so the similarity is 1. Also, if the similarity between the element 1003 (shoe) and the element 1004 (person) is 0.2, and the similarity between the element 1005 (show me) and the element 1006 (please call) is 0.1 From Equation (2), C e = (1 + 0.2 + 0.1) /3=0.43 is obtained as the certainty factor.

なお、用例翻訳ではキャッシュ適用処理で適合する情報が存在しなかったものとすると、最終的な確信度は0.43のままとなる。このようにして得られた規則翻訳の確信度0.72と用例翻訳の確信度0.43とを比較することにより、選択部102aが、最終的に確信度の大きい規則翻訳の翻訳結果を選択する(ステップS504)。また、翻訳制御部102が、選択された規則翻訳の翻訳結果の付加情報をキャッシュメモリ122に登録する(ステップS505)。   In the example translation, if there is no matching information in the cache application process, the final certainty factor remains 0.43. By comparing the certainty factor 0.72 of the rule translation thus obtained with the certainty factor 0.43 of the example translation, the selection unit 102a finally selects the translation result of the rule translation having a high certainty factor. (Step S504). In addition, the translation control unit 102 registers additional information as a translation result of the selected rule translation in the cache memory 122 (step S505).

このように、本実施の形態にかかる機械翻訳装置では、規則翻訳および用例翻訳のそれぞれの翻訳結果から得られる単語の対応関係や場面情報、丁寧度などの付加情報をキャッシュメモリに保存し、以降の翻訳処理で付加情報を参照して翻訳の精度を向上させることができる。   As described above, in the machine translation device according to the present embodiment, additional information such as word correspondence, scene information, and politeness obtained from the translation results of rule translation and example translation is stored in the cache memory. The translation accuracy can be improved by referring to the additional information in the translation process.

図11は、本実施の形態にかかる機械翻訳装置のハードウェア構成を示す説明図である。   FIG. 11 is an explanatory diagram of a hardware configuration of the machine translation apparatus according to the present embodiment.

本実施の形態にかかる機械翻訳装置は、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、各部を接続するバス61を備えている。   The machine translation apparatus according to this embodiment includes a communication I / O that communicates with a control device such as a CPU (Central Processing Unit) 51 and a storage device such as a ROM (Read Only Memory) 52 and a RAM 53 by connecting to a network. F54 and a bus 61 for connecting each part are provided.

本実施の形態にかかる機械翻訳装置で実行される機械翻訳プログラムは、ROM52等に予め組み込まれて提供される。   The machine translation program executed by the machine translation apparatus according to the present embodiment is provided by being incorporated in advance in the ROM 52 or the like.

本実施の形態にかかる機械翻訳装置で実行される機械翻訳プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。   The machine translation program executed by the machine translation apparatus according to the present embodiment is a file in an installable format or an executable format, and is a CD-ROM (Compact Disk Read Only Memory), a flexible disk (FD), a CD-R. (Compact Disk Recordable), DVD (Digital Versatile Disk) or the like may be provided by being recorded on a computer-readable recording medium.

さらに、本実施の形態にかかる機械翻訳装置で実行される機械翻訳プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施の形態にかかる機械翻訳装置で実行される機械翻訳プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。   Furthermore, the machine translation program executed by the machine translation apparatus according to the present embodiment may be provided by being stored on a computer connected to a network such as the Internet and downloaded via the network. . The machine translation program executed by the machine translation apparatus according to the present embodiment may be provided or distributed via a network such as the Internet.

本実施の形態にかかる機械翻訳装置で実行される機械翻訳プログラムは、上述した各部(入力受付部、翻訳制御部、規則翻訳部、用例翻訳部、出力部)を含むモジュール構成となっており、実際のハードウェアとしてはCPU51が上記ROM52から機械翻訳プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、各部が主記憶装置上に生成されるようになっている。   The machine translation program executed by the machine translation apparatus according to the present embodiment has a module configuration including the above-described units (input reception unit, translation control unit, rule translation unit, example translation unit, output unit), As actual hardware, the CPU 51 reads out the machine translation program from the ROM 52 and executes the machine translation program, so that each unit is loaded on the main storage device, and each unit is generated on the main storage device.

以上のように、本発明にかかる機械翻訳する装置、方法およびプログラムは、複数の翻訳方式を組み合わせて原言語文を目的言語に翻訳する機械翻訳装置、方法およびプログラムに適している。   As described above, the machine translation apparatus, method, and program according to the present invention are suitable for a machine translation apparatus, method, and program that translate a source language sentence into a target language by combining a plurality of translation methods.

本実施の形態にかかる機械翻訳装置の構成を示すブロック図である。It is a block diagram which shows the structure of the machine translation apparatus concerning this Embodiment. 辞書記憶部に格納された翻訳辞書のデータ構造の一例を示す説明図である。It is explanatory drawing which shows an example of the data structure of the translation dictionary stored in the dictionary memory | storage part. キャッシュメモリに記憶される情報の一例を示す説明図である。It is explanatory drawing which shows an example of the information memorize | stored in a cache memory. 用例記憶部に記憶された用例のデータ構造の一例を示す説明図である。It is explanatory drawing which shows an example of the data structure of the example memorize | stored in the example storage part. 本実施の形態における機械翻訳処理の全体の流れを示すフローチャートである。It is a flowchart which shows the whole flow of the machine translation process in this Embodiment. 本実施の形態における規則翻訳処理の全体の流れを示すフローチャートである。It is a flowchart which shows the whole flow of the rule translation process in this Embodiment. キャッシュメモリに記憶される情報の別の例を示す説明図である。It is explanatory drawing which shows another example of the information memorize | stored in a cache memory. 本実施の形態における用例翻訳処理の全体の流れを示すフローチャートである。It is a flowchart which shows the whole flow of the example translation process in this Embodiment. 規則翻訳処理により生成された依存構造木の一例を示す説明図である。It is explanatory drawing which shows an example of the dependence structure tree produced | generated by the rule translation process. 用例翻訳処理により選択された用例と入力文との対応の一例を示す説明図である。It is explanatory drawing which shows an example of a response | compatibility with the example selected by the example translation process, and an input sentence. 本実施の形態にかかる機械翻訳装置のハードウェア構成を示す説明図である。It is explanatory drawing which shows the hardware constitutions of the machine translation apparatus concerning this Embodiment.

符号の説明Explanation of symbols

51 CPU
52 ROM
53 RAM
54 通信I/F
61 バス
100 機械翻訳装置
101 入力受付部
102 翻訳制御部
102a 選択部
103 規則翻訳部
104 用例翻訳部
105 出力部
121 辞書記憶部
122 キャッシュメモリ
123 用例記憶部
901 ノード
1001、1002、1003、1004、1005、1006、1007、1008 要素
1010 入力文
1011 原言語用例
1012 目的言語用例
51 CPU
52 ROM
53 RAM
54 Communication I / F
61 Bus 100 Machine Translation Device 101 Input Accepting Unit 102 Translation Control Unit 102a Selection Unit 103 Rule Translation Unit 104 Example Translation Unit 105 Output Unit 121 Dictionary Storage Unit 122 Cache Memory 123 Example Storage Unit 901 Nodes 1001, 1002, 1003, 1004, 1005 , 1006, 1007, 1008 Element 1010 Input sentence 1011 Example for source language 1012 Example for target language

Claims (12)

第1言語の用例と、前記第1言語の用例を翻訳した第2言語の用例とを対応づけて記憶する用例記憶部と、
第1言語による第1単語と、第2言語による第2単語とを対応づけた単語辞書を記憶する辞書記憶部と、
第1言語による第1言語文の入力を受付ける入力受付部と、
前記第1言語文に対応する前記第2言語の用例を前記用例記憶部から取得することにより、前記第1言語文を第2言語に用例翻訳する用例翻訳部と、
前記第1言語文に含まれる前記第1単語に対応する前記第2単語を前記辞書記憶部から取得し、予め定められた規則に基づいて、前記第1言語文に含まれる前記第1単語を、取得した前記第2単語に変換することにより、前記第1言語文を第2言語に規則翻訳する規則翻訳部と、
前記用例翻訳部の翻訳結果と前記規則翻訳部の翻訳結果とのうち、最も確からしい翻訳結果を選択する選択部と、
前記第1言語文に含まれる前記第1単語と、選択された翻訳結果に含まれる前記第2単語との間の対応関係を記憶する対応記憶部と、
選択された翻訳結果を出力する出力部と、を備え、
前記規則翻訳部は、さらに、他の第1言語文を第2言語に規則翻訳し、かつ、前記他の第1言語文に含まれる前記第1単語のそれぞれについて、前記第1単語に対応する前記第2単語を前記対応記憶部から取得し、取得した前記第2単語で前記第1単語を規則翻訳した前記第2単語を置換すること、
を特徴とする機械翻訳装置。
An example storage unit for storing an example of the first language and an example of the second language obtained by translating the example of the first language in association with each other;
A dictionary storage unit for storing a word dictionary in which the first word in the first language is associated with the second word in the second language;
An input receiving unit for receiving an input of a first language sentence in a first language;
An example translation unit for example-translating the first language sentence into a second language by obtaining an example of the second language corresponding to the first language sentence from the example storage unit;
The second word corresponding to the first word included in the first language sentence is acquired from the dictionary storage unit, and the first word included in the first language sentence is determined based on a predetermined rule. A rule translation unit that translates the first language sentence into a second language by converting the acquired second word;
Among the translation results of the example translation unit and the translation results of the rule translation unit, a selection unit that selects the most probable translation result;
A correspondence storage unit that stores a correspondence relationship between the first word included in the first language sentence and the second word included in the selected translation result;
An output unit for outputting the selected translation result,
The rule translation unit further performs rule translation of another first language sentence into a second language and corresponds to the first word for each of the first words included in the other first language sentence. Obtaining the second word from the correspondence storage unit and replacing the second word obtained by regular translation of the first word with the obtained second word;
Machine translation device characterized by the above.
前記辞書記憶部は、前記第1単語と、前記第2単語と、前記第2単語を使用する場面を表す第1場面情報とを対応づけた単語辞書を記憶し、
前記対応記憶部は、前記第1言語文を使用する場面を表す第2場面情報をさらに記憶し、
前記規則翻訳部は、前記第2場面情報を前記対応記憶部から取得し、前記第1言語文に含まれる前記第1単語と、取得した前記第2場面情報と一致する前記第1場面情報とに対応づけられた前記第2単語を前記辞書記憶部から取得し、前記規則に基づいて、前記第1言語文に含まれる前記第1単語を、取得した前記第2単語に変換することにより、前記第1言語文を第2言語に規則翻訳すること、
を特徴とする請求項1に記載の機械翻訳装置。
The dictionary storage unit stores a word dictionary that associates the first word, the second word, and first scene information representing a scene using the second word,
The correspondence storage unit further stores second scene information representing a scene using the first language sentence,
The rule translation unit acquires the second scene information from the correspondence storage unit, the first word included in the first language sentence, and the first scene information that matches the acquired second scene information; By acquiring the second word associated with the first word included in the first language sentence based on the rules, and converting the first word into the acquired second word, Regularly translating the first language sentence into a second language;
The machine translation apparatus according to claim 1.
前記対応記憶部は、前記第2場面情報を前記対応関係と対応づけて記憶し、
前記規則翻訳部は、最後に記憶された前記対応関係に対応づけられた前記第2場面情報を前記対応記憶部から取得し、前記第1言語文に含まれる前記第1単語と、取得した前記第2場面情報と一致する前記第1場面情報とに対応づけられた前記第2単語を前記辞書記憶部から取得し、前記規則に基づいて、前記第1言語文に含まれる前記第1単語を、取得した前記第2単語に変換することにより、前記第1言語文を第2言語に規則翻訳すること、
を特徴とする請求項2に記載の機械翻訳装置。
The correspondence storage unit stores the second scene information in association with the correspondence relationship,
The rule translation unit acquires the second scene information associated with the correspondence stored last, from the correspondence storage unit, and the first word included in the first language sentence and the acquired The second word associated with the first scene information that matches the second scene information is acquired from the dictionary storage unit, and the first word included in the first language sentence is obtained based on the rules. Translating the first language sentence into a second language by converting it into the acquired second word;
The machine translation apparatus according to claim 2.
前記辞書記憶部は、前記第1単語と、前記第2単語と、前記第2単語の意味内容の丁寧さの程度を表す第1丁寧度とを対応づけた単語辞書を記憶し、
前記対応記憶部は、前記第1言語文の意味内容の丁寧さの程度を表す第2丁寧度をさらに記憶し、
前記規則翻訳部は、前記第2丁寧度を前記対応記憶部から取得し、前記第1言語文に含まれる前記第1単語と、取得した前記第2丁寧度と一致する前記第1丁寧度とに対応づけられた前記第2単語を前記辞書記憶部から取得し、前記規則に基づいて、前記第1言語文に含まれる前記第1単語を、取得した前記第2単語に変換することにより、前記第1言語文を第2言語に規則翻訳すること、
を特徴とする請求項1に記載の機械翻訳装置。
The dictionary storage unit stores a word dictionary that associates the first word, the second word, and a first politeness level indicating the degree of politeness of the semantic content of the second word;
The correspondence storage unit further stores a second politeness level indicating the degree of politeness of the semantic content of the first language sentence;
The rule translation unit acquires the second politeness from the correspondence storage unit, the first word included in the first language sentence, and the first politeness that matches the acquired second politeness By acquiring the second word associated with the first word included in the first language sentence based on the rules, and converting the first word into the acquired second word, Regularly translating the first language sentence into a second language;
The machine translation apparatus according to claim 1.
前記対応記憶部は、前記第2丁寧度と、前記第1言語文の発話者を識別する識別情報とを対応づけて記憶し、
前記入力部は、前記第1言語文とともに、前記第1言語文の発話者の前記識別情報の入力を受付け、
前記規則翻訳部は、受付けた前記識別情報に対応づけられた前記第2丁寧度を前記対応記憶部から取得し、前記第1言語文に含まれる前記第1単語と、取得した前記第2丁寧度と一致する前記第1丁寧度とに対応づけられた前記第2単語を前記辞書記憶部から取得し、前記規則に基づいて、前記第1言語文に含まれる前記第1単語を、取得した前記第2単語に変換することにより、前記第1言語文を第2言語に規則翻訳すること、
を特徴とする請求項4に記載の機械翻訳装置。
The correspondence storage unit stores the second politeness and identification information for identifying a speaker of the first language sentence in association with each other,
The input unit receives the input of the identification information of a speaker of the first language sentence together with the first language sentence,
The rule translation unit acquires the second politeness level associated with the received identification information from the correspondence storage unit, and acquires the first word included in the first language sentence and the acquired second politeness. The second word associated with the first politeness that matches the degree is acquired from the dictionary storage unit, and the first word included in the first language sentence is acquired based on the rules Translating the first language sentence into a second language by converting to the second word;
The machine translation apparatus according to claim 4.
前記入力受付部は、さらに、第2言語による第2言語文の入力を受付け、
前記規則翻訳部は、さらに、前記第2言語文に含まれる前記第2単語に対応する前記第1単語を前記辞書記憶部から取得し、前記規則に基づいて、前記第2言語文に含まれる前記第2単語を、取得した前記第1単語に変換することにより、前記第2言語文を第1言語に規則翻訳し、前記第2言語文に含まれる前記第2単語のそれぞれについて、前記第2単語に対応する前記第1単語を前記対応記憶部から取得し、取得した前記第1単語で前記第2単語を規則翻訳した前記第1単語を置換すること、
を特徴とする請求項1に記載の機械翻訳装置。
The input receiving unit further receives an input of a second language sentence in a second language,
The rule translation unit further acquires the first word corresponding to the second word included in the second language sentence from the dictionary storage unit, and is included in the second language sentence based on the rule. By converting the second word into the acquired first word, the second language sentence is regularly translated into the first language, and each of the second words included in the second language sentence is converted into the first word. Obtaining the first word corresponding to two words from the correspondence storage unit, replacing the first word obtained by regular translation of the second word with the obtained first word;
The machine translation apparatus according to claim 1.
前記用例翻訳部は、前記第2言語文に対応する前記第1言語の用例を前記用例記憶部から取得することにより、前記第2言語文を第1言語に用例翻訳し、
前記選択部は、さらに、前記第2言語文に対する前記用例翻訳部の翻訳結果と、前記第2言語文に対する前記規則翻訳部の翻訳結果とのうち、最も確からしい翻訳結果を選択し、
前記対応記憶部は、さらに、前記第2言語文に含まれる前記第2単語と、選択された翻訳結果に含まれる前記第1単語との間の対応関係を記憶すること、
を特徴とする請求項6に記載の機械翻訳装置。
The example translation unit obtains an example of the first language corresponding to the second language sentence from the example storage unit, thereby translating the second language sentence to the first language.
The selection unit further selects the most probable translation result from the translation result of the example translation unit for the second language sentence and the translation result of the rule translation unit for the second language sentence,
The correspondence storage unit further stores a correspondence relationship between the second word included in the second language sentence and the first word included in the selected translation result;
The machine translation apparatus according to claim 6.
前記用例記憶部は、前記第1言語の用例と、前記第2言語の用例と、前記第2言語の用例の意味内容の丁寧さの程度を表す第1丁寧度とを対応づけて記憶し、
前記対応記憶部は、前記第1言語文の意味内容の丁寧さの程度を表す第2丁寧度をさらに記憶し、
前記用例翻訳部は、前記第2丁寧度を前記対応記憶部から取得し、取得した前記第2丁寧度と一致する前記第1丁寧度と、前記第1言語文と、に対応づけられた前記第2言語の用例を前記用例記憶部から取得すること、
を特徴とする請求項1に記載の機械翻訳装置。
The example storage unit stores the first language example, the second language example, and the first politeness indicating the degree of politeness of the semantic content of the second language example in association with each other,
The correspondence storage unit further stores a second politeness level indicating the degree of politeness of the semantic content of the first language sentence;
The example translation unit acquires the second politeness from the correspondence storage unit and associates the first politeness that matches the acquired second politeness with the first language sentence. Obtaining an example of the second language from the example storage unit;
The machine translation apparatus according to claim 1.
前記対応記憶部は、前記第2丁寧度と、前記第1言語文の発話者を識別する識別情報とを対応づけて記憶し、
前記入力部は、前記第1言語文とともに、前記第1言語文の発話者の前記識別情報の入力を受付け、
前記用例翻訳部は、受付けた前記識別情報に対応づけられた前記第2丁寧度を前記対応記憶部から取得し、取得した前記第2丁寧度と一致する前記第1丁寧度と、前記第1言語文と、に対応づけられた前記第2言語の用例を前記用例記憶部から取得すること、
を特徴とする請求項8に記載の機械翻訳装置。
The correspondence storage unit stores the second politeness and identification information for identifying a speaker of the first language sentence in association with each other,
The input unit receives the input of the identification information of a speaker of the first language sentence together with the first language sentence,
The example translation unit acquires the second politeness associated with the received identification information from the correspondence storage unit, the first politeness that matches the acquired second politeness, and the first Obtaining an example of the second language associated with a language sentence from the example storage unit;
The machine translation apparatus according to claim 8.
前記用例翻訳部は、さらに、翻訳結果の確からしさを表す第1確信度を算出し、
前記規則翻訳部は、さらに、翻訳結果の確からしさを表す第2確信度を算出し、
前記選択部は、前記第1確信度が前記第2確信度より大きいときは前記用例翻訳部の翻訳結果を選択し、前記第1確信度が前記第2確信度より小さいときは前記規則翻訳部の翻訳結果を選択すること、
を特徴とする請求項1に記載の機械翻訳装置。
The example translation unit further calculates a first certainty factor representing the certainty of the translation result,
The rule translation unit further calculates a second certainty factor representing the certainty of the translation result,
The selection unit selects a translation result of the example translation unit when the first certainty factor is larger than the second certainty factor, and the rule translation unit when the first certainty factor is smaller than the second certainty factor. Selecting translation results for
The machine translation apparatus according to claim 1.
入力受付部によって、第1言語による第1言語文の入力を受付ける第1入力受付ステップと、
用例翻訳部によって、第1言語の用例と、前記第1言語の用例を翻訳した第2言語の用例とを対応づけて記憶する用例記憶部から、前記第1言語文に対応する前記第2言語の用例を取得することにより、前記第1言語文を第2言語に用例翻訳する用例翻訳ステップと、
規則翻訳部によって、第1言語による第1単語と、第2言語による第2単語とを対応づけた単語辞書を記憶する辞書記憶部から、前記第1言語文に含まれる前記第1単語に対応する前記第2単語を取得し、予め定められた規則に基づいて、前記第1言語文に含まれる前記第1単語を、取得した前記第2単語に変換することにより、前記第1言語文を第2言語に規則翻訳する第1規則翻訳ステップと、
選択部によって、前記用例翻訳ステップの翻訳結果と前記規則翻訳ステップの翻訳結果とのうち、最も確からしい翻訳結果を選択し、前記第1言語文に含まれる前記第1単語と、選択した翻訳結果に含まれる前記第2単語との間の対応関係を対応記憶部に記憶する選択ステップと、
出力部によって、選択された翻訳結果を出力する出力ステップと、
入力受付部によって、前記第1言語文の入力をさらに受付ける第2入力受付ステップと、
用例翻訳部によって、前記用例記憶部から、前記第2入力受付ステップにより受付けられた前記第1言語文に対応する前記第2言語の用例を取得することにより、前記第1言語文を第2言語に用例翻訳する第2用例翻訳ステップと、
規則翻訳部によって、前記辞書記憶部から、前記第2入力受付ステップにより受付けられた前記第1言語文に含まれる前記第1単語に対応する前記第2単語を取得し、前記規則に基づいて、前記第1言語文に含まれる前記第1単語を、取得した前記第2単語に変換することにより、前記第1言語文を第2言語に規則翻訳する第2規則翻訳ステップと、
規則翻訳部によって、前記第2入力受付ステップにより受付けられた前記第1言語文に含まれる前記第1単語のそれぞれについて、前記第1単語に対応する前記第2単語を前記対応記憶部から取得し、取得した前記第2単語で前記第1単語を規則翻訳した前記第2単語を置換する置換ステップと、
を備えたことを特徴とする機械翻訳方法。
A first input receiving step of receiving an input of a first language sentence in a first language by an input receiving unit;
The second language corresponding to the first language sentence from the example storage unit that stores the example of the first language and the example of the second language translated from the example of the first language by the example translation unit An example translation step of translating the first language sentence into a second language by obtaining an example of
Corresponding to the first word included in the first language sentence from the dictionary storage unit that stores the word dictionary in which the first word in the first language and the second word in the second language are associated by the rule translation unit The second word is acquired, and the first language sentence is converted into the acquired second word by converting the first word included in the first language sentence based on a predetermined rule. A first rule translation step for rule translation into a second language;
The selection unit selects the most likely translation result from the translation result of the example translation step and the translation result of the rule translation step, the first word included in the first language sentence, and the selected translation result A selection step of storing a correspondence relationship between the second word included in the correspondence storage unit;
An output step for outputting the selected translation result by the output unit; and
A second input receiving step of further receiving an input of the first language sentence by an input receiving unit;
The example translation unit obtains the second language example corresponding to the first language sentence received by the second input receiving step from the example storage unit, thereby converting the first language sentence into the second language. A second example translation step for translating the example into
The rule translation unit obtains the second word corresponding to the first word contained in the first language sentence accepted by the second input acceptance step from the dictionary storage unit, and based on the rule, A second rule translation step of translating the first language sentence into a second language by converting the first word contained in the first language sentence into the acquired second word;
The rule translation unit obtains the second word corresponding to the first word from the correspondence storage unit for each of the first words included in the first language sentence received in the second input reception step. Replacing the second word obtained by regular translation of the first word with the acquired second word;
A machine translation method comprising:
第1言語による第1言語文の入力を受付ける第1入力受付手順と、
第1言語の用例と、前記第1言語の用例を翻訳した第2言語の用例とを対応づけて記憶する用例記憶部から、前記第1言語文に対応する前記第2言語の用例を取得することにより、前記第1言語文を第2言語に用例翻訳する用例翻訳手順と、
第1言語による第1単語と、第2言語による第2単語とを対応づけた単語辞書を記憶する辞書記憶部から、前記第1言語文に含まれる前記第1単語に対応する前記第2単語を取得し、予め定められた規則に基づいて、前記第1言語文に含まれる前記第1単語を、取得した前記第2単語に変換することにより、前記第1言語文を第2言語に規則翻訳する第1規則翻訳手順と、
前記用例翻訳手順の翻訳結果と前記規則翻訳手順の翻訳結果とのうち、最も確からしい翻訳結果を選択し、前記第1言語文に含まれる前記第1単語と、選択した翻訳結果に含まれる前記第2単語との間の対応関係を対応記憶部に記憶する選択手順と、
選択された翻訳結果を出力する出力手順と、
前記第1言語文の入力をさらに受付ける第2入力受付手順と、
前記用例記憶部から、前記第2入力受付手順により受付けられた前記第1言語文に対応する前記第2言語の用例を取得することにより、前記第1言語文を第2言語に用例翻訳する第2用例翻訳手順と、
前記辞書記憶部から、前記第2入力受付手順により受付けられた前記第1言語文に含まれる前記第1単語に対応する前記第2単語を取得し、前記規則に基づいて、前記第1言語文に含まれる前記第1単語を、取得した前記第2単語に変換することにより、前記第1言語文を第2言語に規則翻訳する第2規則翻訳手順と、
前記第2入力受付手順により受付けられた前記第1言語文に含まれる前記第1単語のそれぞれについて、前記第1単語に対応する前記第2単語を前記対応記憶部から取得し、取得した前記第2単語で前記第1単語を規則翻訳した前記第2単語を置換する置換手順と、
をコンピュータに実行させる機械翻訳プログラム。
A first input acceptance procedure for accepting input of a first language sentence in a first language;
An example of the second language corresponding to the first language sentence is acquired from an example storage unit that stores an example of the first language and an example of the second language translated from the example of the first language. An example translation procedure for example-translating the first language sentence into a second language;
The second word corresponding to the first word included in the first language sentence from a dictionary storage unit that stores a word dictionary in which the first word in the first language is associated with the second word in the second language And converting the first word contained in the first language sentence into the acquired second word based on a predetermined rule, thereby converting the first language sentence into a second language. A first rule translation procedure to translate;
The most probable translation result is selected from the translation result of the example translation procedure and the translation result of the rule translation procedure, and the first word included in the first language sentence and the translation result included in the selected translation result A selection procedure for storing the correspondence relationship with the second word in the correspondence storage unit;
An output procedure for outputting the selected translation result;
A second input receiving procedure for further receiving input of the first language sentence;
A second example of translating the first language sentence into a second language is obtained by obtaining an example of the second language corresponding to the first language sentence accepted by the second input acceptance procedure from the example storage unit. 2 example translation procedures;
The second word corresponding to the first word included in the first language sentence accepted by the second input acceptance procedure is acquired from the dictionary storage unit, and the first language sentence is obtained based on the rules. A second rule translation procedure for rule-translating the first language sentence into a second language by converting the first word contained in the acquired second word;
For each of the first words included in the first language sentence accepted by the second input acceptance procedure, the second word corresponding to the first word is obtained from the correspondence storage unit, and the obtained second word A replacement procedure for replacing the second word obtained by regular translation of the first word with two words;
Machine translation program that causes a computer to execute
JP2007008899A 2007-01-18 2007-01-18 Apparatus, method, and program for machine translation of input source language sentence into target language Active JP5002271B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007008899A JP5002271B2 (en) 2007-01-18 2007-01-18 Apparatus, method, and program for machine translation of input source language sentence into target language

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007008899A JP5002271B2 (en) 2007-01-18 2007-01-18 Apparatus, method, and program for machine translation of input source language sentence into target language

Publications (2)

Publication Number Publication Date
JP2008176536A true JP2008176536A (en) 2008-07-31
JP5002271B2 JP5002271B2 (en) 2012-08-15

Family

ID=39703515

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007008899A Active JP5002271B2 (en) 2007-01-18 2007-01-18 Apparatus, method, and program for machine translation of input source language sentence into target language

Country Status (1)

Country Link
JP (1) JP5002271B2 (en)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010044180A1 (en) * 2008-10-15 2010-04-22 日本電気株式会社 Information processing device
JP2011095802A (en) * 2009-10-27 2011-05-12 Toshiba Corp Machine translation device and program
JP2012230460A (en) * 2011-04-25 2012-11-22 Toshiba Corp Machine translation system, method, and program
US8655641B2 (en) 2009-08-04 2014-02-18 Kabushiki Kaisha Toshiba Machine translation apparatus and non-transitory computer readable medium
KR101377459B1 (en) 2009-12-21 2014-03-26 한국전자통신연구원 Apparatus for interpreting using utterance similarity measure and method thereof
WO2019111346A1 (en) * 2017-12-06 2019-06-13 ソースネクスト株式会社 Full-duplex speech translation system, full-duplex speech translation method, and program
CN110909552A (en) * 2018-09-14 2020-03-24 阿里巴巴集团控股有限公司 Translation method and device
USD897307S1 (en) 2018-05-25 2020-09-29 Sourcenext Corporation Translator
CN112215016A (en) * 2017-01-17 2021-01-12 乐夫兰度株式会社 Multi-language communication system and multi-language communication providing method

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004038406A (en) * 2002-07-01 2004-02-05 Advanced Telecommunication Research Institute International Method for selecting best translation from plulal translation results, method for generating regression tree data for the selection, best translation selection type machine translation program, regression tree generation program, and storage medium with regression tree data

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004038406A (en) * 2002-07-01 2004-02-05 Advanced Telecommunication Research Institute International Method for selecting best translation from plulal translation results, method for generating regression tree data for the selection, best translation selection type machine translation program, regression tree generation program, and storage medium with regression tree data

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010044180A1 (en) * 2008-10-15 2010-04-22 日本電気株式会社 Information processing device
US8655641B2 (en) 2009-08-04 2014-02-18 Kabushiki Kaisha Toshiba Machine translation apparatus and non-transitory computer readable medium
JP2011095802A (en) * 2009-10-27 2011-05-12 Toshiba Corp Machine translation device and program
KR101377459B1 (en) 2009-12-21 2014-03-26 한국전자통신연구원 Apparatus for interpreting using utterance similarity measure and method thereof
JP2012230460A (en) * 2011-04-25 2012-11-22 Toshiba Corp Machine translation system, method, and program
CN112215016A (en) * 2017-01-17 2021-01-12 乐夫兰度株式会社 Multi-language communication system and multi-language communication providing method
WO2019111346A1 (en) * 2017-12-06 2019-06-13 ソースネクスト株式会社 Full-duplex speech translation system, full-duplex speech translation method, and program
JPWO2019111346A1 (en) * 2017-12-06 2020-10-22 ソースネクスト株式会社 Two-way speech translation system, two-way speech translation method and program
USD897307S1 (en) 2018-05-25 2020-09-29 Sourcenext Corporation Translator
CN110909552A (en) * 2018-09-14 2020-03-24 阿里巴巴集团控股有限公司 Translation method and device
CN110909552B (en) * 2018-09-14 2023-05-30 阿里巴巴集团控股有限公司 Translation method and device

Also Published As

Publication number Publication date
JP5002271B2 (en) 2012-08-15

Similar Documents

Publication Publication Date Title
JP5002271B2 (en) Apparatus, method, and program for machine translation of input source language sentence into target language
US8924195B2 (en) Apparatus and method for machine translation
JP4050755B2 (en) Communication support device, communication support method, and communication support program
US8886514B2 (en) Means and a method for training a statistical machine translation system utilizing a posterior probability in an N-best translation list
US6233544B1 (en) Method and apparatus for language translation
US8131536B2 (en) Extraction-empowered machine translation
JP2745370B2 (en) Machine translation method and machine translation device
JP5319655B2 (en) Information processing apparatus, information processing method, program, and computer-readable recording medium recording the program
US20080306728A1 (en) Apparatus, method, and computer program product for machine translation
JP5235344B2 (en) Apparatus, method and program for machine translation
JP2004199427A (en) Device, method and program for associating parallel dependency structure and recording medium with the program recorded thereon
KR100530154B1 (en) Method and Apparatus for developing a transfer dictionary used in transfer-based machine translation system
CN1971554A (en) Apparatus, method and for translating speech input using example
WO2003056450A1 (en) Syntax analysis method and apparatus
WO2003083708A2 (en) Machine translation
JP2000353161A (en) Method and device for controlling style in generation of natural language
JP2009075791A (en) Device, method, program, and system for machine translation
CN100429648C (en) Automatic segmentation of texts comprising chunsk without separators
García-Martínez et al. Addressing data sparsity for neural machine translation between morphologically rich languages
US20090216522A1 (en) Apparatus, method, and computer program product for determing parts-of-speech in chinese
Granell et al. Multimodality, interactivity, and crowdsourcing for document transcription
Pinnis et al. Developing a neural machine translation service for the 2017-2018 european union presidency
AiTi et al. Input normalization for an english-to-chinese sms translation system
WO2009144890A1 (en) Pre-translation rephrasing rule generating system
WO2024004184A1 (en) Generation device, generation method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120424

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120521

R151 Written notification of patent or utility model registration

Ref document number: 5002271

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150525

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350