JP2017199363A - Machine translation device and computer program for machine translation - Google Patents
Machine translation device and computer program for machine translation Download PDFInfo
- Publication number
- JP2017199363A JP2017199363A JP2017077021A JP2017077021A JP2017199363A JP 2017199363 A JP2017199363 A JP 2017199363A JP 2017077021 A JP2017077021 A JP 2017077021A JP 2017077021 A JP2017077021 A JP 2017077021A JP 2017199363 A JP2017199363 A JP 2017199363A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- translation
- tag
- meta information
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013519 translation Methods 0.000 title claims abstract description 319
- 238000004590 computer program Methods 0.000 title claims description 9
- 238000004458 analytical method Methods 0.000 claims description 77
- 230000006870 function Effects 0.000 claims description 12
- 238000003780 insertion Methods 0.000 claims description 12
- 230000037431 insertion Effects 0.000 claims description 12
- 230000000877 morphologic effect Effects 0.000 claims description 8
- 230000014616 translation Effects 0.000 description 295
- 238000012545 processing Methods 0.000 description 73
- 238000013528 artificial neural network Methods 0.000 description 44
- 238000000034 method Methods 0.000 description 33
- 238000013500 data storage Methods 0.000 description 25
- 230000015654 memory Effects 0.000 description 16
- 230000008569 process Effects 0.000 description 16
- 230000008707 rearrangement Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 9
- 238000012550 audit Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000000926 separation method Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000013179 statistical model Methods 0.000 description 3
- 241000220225 Malus Species 0.000 description 2
- 235000021016 apples Nutrition 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000006227 byproduct Substances 0.000 description 1
- 238000004587 chromatography analysis Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
この発明は機械翻訳装置に関し、特に、翻訳原文の相違を的確に翻訳文に反映させ、高精度な翻訳が可能な機械翻訳装置及び機械翻訳のためのコンピュータプログラムに関する。 The present invention relates to a machine translation apparatus, and more particularly, to a machine translation apparatus capable of accurately reflecting a difference in a translation original sentence in a translated sentence and performing a highly accurate translation, and a computer program for machine translation.
統計的機械翻訳には、様々な種類があるが、機械翻訳方式として有力視されている方式に、句に基づく(フレーズベース)統計機械翻訳(Phrase based Statistical Machine Translation:PBSMT)がある。PBSMTは、原文をフレーズと呼ばれる数単語の連鎖に分割し、各連鎖を相手方言語のフレーズに翻訳した後で、翻訳されたフレーズを並替える(非特許文献1)。ここでいうフレーズとは、言語学でいうフレーズとは異なり、単に単語の連鎖のことをいう。フレーズ単位の翻訳の学習は、対訳データから自動的に行える。例えば、英日翻訳においては、「Hello !」は「こんにちは !」又は「もしもし 。」等に自動で対応できる。以下の説明では、翻訳の原文を日本語、翻訳文を英語として説明するが、他の言語についても同様である。 There are various types of statistical machine translation, and a phrase-based (phrase-based) statistical machine translation (PBSMT) is one of the most promising machine translation systems. PBSMT divides the original text into a chain of several words called phrases, translates each chain into a phrase in the partner language, and rearranges the translated phrases (Non-Patent Document 1). The phrase used here is different from the phrase used in linguistics and simply refers to a chain of words. Phrase-based translation can be learned automatically from parallel translation data. For example, in the English-Japanese translation, "Hello!" Is can be dealt with automatically "Hello!" Or "Hello." And the like. In the following description, the original translation is described in Japanese and the translation is in English, but the same applies to other languages.
PBSMTは高速で、特に構造が似た言語間では、高精度で機械翻訳できる。さらに、最近の進展として、原文のフレーズを相手方言語の語順に近くなるように予め語順変換してからPBSMTを適用することにより、英語と日本語、中国語と日本語のように、語順が大きく異なる言語間でも、高精度な翻訳が可能になった。このように語順を変換してから翻訳する技術を「事前並替」と呼ぶ。事前並替方式については、後掲の特許文献1に記載されている。 PBSMT is fast and can perform machine translation with high accuracy, especially between languages with similar structures. Furthermore, as a recent development, by applying the PBSMT after converting the original phrases so that the phrases in the original language are close to the word order of the counterpart language, the word order becomes larger, such as English and Japanese, and Chinese and Japanese. Translation between different languages is now possible with high accuracy. This technique of translating after changing the word order is referred to as “pre-ordering”. The prior rearrangement method is described in Patent Document 1 described later.
PBSMTの学習では、フレーズテーブルが作成される。フレーズテーブルは、多数のフレーズペアを収容する。フレーズペアは、2つの言語で互いに対訳となっているフレーズ同士の組み合わせである。 In the PBSMT learning, a phrase table is created. The phrase table contains a large number of phrase pairs. A phrase pair is a combination of phrases that are mutually translated in two languages.
フレーズテーブルの学習では、多数の対訳を含む対訳コーパスが使用される。対訳とは、例えば図1に示す文のペア30であり、互いに相手の翻訳となっているような2つの言語の文の組み合わせである。PBSMTの学習の主要な部分は、このペアを構成する単語の連鎖からなるフレーズの対応関係を抽出し、フレーズペアを作成することである。
In learning the phrase table, a bilingual corpus including a large number of bilingual translations is used. The bilingual translation is, for example, the
PBSMTの学習において、対訳コーパスの各対訳の原文と翻訳文の双方に、文頭又は文末を表す記号を挿入して学習し、翻訳時に原文に同じ記号を挿入することにより、翻訳精度が上がることが知られている。例えば、図1を参照して、対訳文32のうち、原文の先頭及び翻訳文の先頭にいずれも文頭を表すタグ<s>40、44を付与し、それぞれの文末に文末を表すタグ</s>42、46を付与する。このように文頭と文末にそれぞれタグ<s>及び</s>を付与した対訳文を学習で使用し、翻訳時にも原文に対して同様のタグを付すことにより、PBSMTの翻訳性能は向上する。これは以下の様な理由による。
In PBSMT learning, the translation accuracy can be improved by inserting a symbol representing the beginning or end of the sentence into both the original and translated sentences of each bilingual corpus and inserting the same symbol into the original sentence at the time of translation. Are known. For example, referring to FIG. 1, in
PBSMTの学習では、文頭及び文末に付されたタグも1単語として処理される。その結果、フレーズ同士の対応付がより的確に行える。上記の例では、原文(日本語)で「これ」が文頭に出現するときには、原文の「<s> これ」が翻訳文(英語)の「<s> This」と対応づけられる。原文の文中(文頭でない場所)に「これ」が出現するときには、翻訳文の「this」が対応付けられる。すなわち、原文と翻訳文とで対になるフレーズ(フレーズペア)であっても、対訳文においてそれらが出現する位置が異なる場合を適切に区別して扱えるからである。すなわち、単語の位置を示すための補助情報としてタグを付すことで、結果的にフレーズの対応付けが適切に行えるという効果が得られる。 In learning of PBSMT, tags attached to the beginning and end of sentences are also processed as one word. As a result, the correspondence between phrases can be performed more accurately. In the above example, when “this” appears at the beginning of the sentence in the original sentence (Japanese), “<s> this” in the original sentence is associated with “<s> This” in the translated sentence (English). When “this” appears in the original sentence (a place other than the beginning of the sentence), the translated sentence “this” is associated. That is, even if phrases (phrase pairs) are paired in the original sentence and the translated sentence, cases where the positions where they appear in the parallel sentence are different can be appropriately distinguished and handled. That is, by attaching a tag as auxiliary information for indicating the position of a word, an effect that phrases can be appropriately associated as a result is obtained.
以上のようにPBSMTは高速でかつ高精度に機械翻訳を行える。しかし、依然としてPBSMTには改善すべき余地がある。PBSMTの課題の一つは、仮に上記したような文頭及び文末を示すタグを付したとしても、フレーズの範囲を超えた情報を翻訳に導入し難いという点である。以下、具体的な問題点を挙げる。 As described above, PBSMT can perform machine translation at high speed and with high accuracy. However, there is still room for improvement in PBSMT. One of the problems of PBSMT is that it is difficult to introduce information beyond the range of phrases into the translation even if tags indicating the beginning and end of the sentence are added. Specific problems are listed below.
(1)原文の文法的なタイプによる訳し分けが困難である。 (1) Difficult to translate the original text by grammatical type.
従来のPBSMTでは原文の文法的なタイプが異なる場合に、それを的確に訳し分けることが難しいという問題もある。この理由としては以下の様な事情が考えられる。 In the conventional PBSMT, when the grammatical type of the original text is different, it is difficult to accurately translate it. The reasons for this are as follows.
日英翻訳で、図2の上段に示すように、「監査の結果」という名詞句60を英語に翻訳する場合を考える。PBSMTではまずこの原文を英語に近い語順に語順変換62して「結果 の 監査」という単語列64を得る。この単語列64に対してタグ付与処理66を行い、文頭に開始タグ<s>、文末に終了タグ</s>を、それぞれ付与する。この結果、単語列68が得られる。この単語列68に対してPBSMTによる翻訳70を適用した場合、"As a result of the audit"という副詞句72が名詞句60の訳文として得られてしまう。すなわち、名詞句60を翻訳した結果が、名詞句ではなく副詞句72になってしまうことがあるという問題がある。
Consider the case where the
同様の例として図2の下段に示すような例が考えられる。この例は、「Webサーバーのサービスは動作中か?」という疑問文80を英語に翻訳する例である。この疑問文80を語順変換82して、「の Web サーバー サービス は 動作 中 か ?」という単語列84が得られる。この単語列に対してタグ付与処理86を行うことで「<s> の Web サーバー サービス は 動作 中 か ? </s>」という単語列88が得られる。単語列88に対してPBSMTによる翻訳90を適用することで"the web server service running ?"という、疑問文とも平叙文ともつかない訳文92が得られてしまう。
As a similar example, the example shown in the lower part of FIG. 2 can be considered. This example is an example of translating the
このような問題が生じるのは以下の様な理由による。 Such a problem occurs for the following reason.
日英翻訳で、学習に用いるタグ付対訳文が以下のような疑問文である場合を考える。
<s> Web サーバー の サービス は 動作 中 か ? </s>
<s> Is the Web server service is running ? </s>
一方、学習に用いる対訳文として次のような平叙文もあり得る。
<s> Web サーバー の サービス は 動作 中 です 。 </s>
<s> The Web server service is running . </s>
両者の表記上の差はごくわずかである。
Consider a case where the tagged translation used for learning is a question sentence such as the following in Japanese-English translation.
<s> Is the Web server service running? </ s>
<s> Is the Web server service is running? </ s>
On the other hand, the following translated text may be used as a parallel translation used for learning.
<s> Web server service is running. </ s>
<s> The Web server service is running. </ s>
The difference in notation between the two is negligible.
語順変換した場合には、これらペアはそれぞれ以下のようになる。
<s> の Web サーバー サービス は 動作 中 か ? </s>
<s> Is the Web server service is running ? </s>
<s> の Web サーバー サービス は 動作 中 です 。 </s>
<s> The Web server service is running . </s>
両者の表記上の差はごくわずかである。したがって、こうした対訳データを用いた場合には、フレーズテーブルに関して適切な学習ができない。具体的には、同一の日本語フレーズである「<s> の Web サーバー」というフレーズが、上記した2つの対訳において、一方では「<s> The Web server service is」に対応し、他方では「<s> Is the Web server service」に対応している。このため、このフレーズの範囲内では「<s> の Web サーバー」の訳としていずれを選択したらよいかが決定できない。その結果として、頻度が大きい平叙文の方が常に使われることになり、疑問文の翻訳に失敗する。
When the word order is converted, these pairs are as follows.
Is the <s> web server service running? </ s>
<s> Is the Web server service is running? </ s>
<s> web server service is running. </ s>
<s> The Web server service is running. </ s>
The difference in notation between the two is negligible. Therefore, when such parallel translation data is used, appropriate learning cannot be performed with respect to the phrase table. Specifically, the phrase “<s> Web server”, which is the same Japanese phrase, corresponds to “<s> The Web server service is” on one side and “ <s> Is the Web server service ”. For this reason, it is impossible to determine which one should be selected as the translation of “<s> Web server” within the range of this phrase. As a result, the plain text with higher frequency is always used, and the translation of the question text fails.
こうした問題を解決するための提案が非特許文献2に開示されている。非特許文献2は、PBSMTで使用するモデルとして、疑問文である対訳文から得られたモデルと、疑問文以外の対訳文から作成されたモデルとを線形補間したモデルを提案している。 A proposal for solving these problems is disclosed in Non-Patent Document 2. Non-Patent Document 2 proposes a model obtained by linearly interpolating a model obtained from a bilingual sentence that is a question sentence and a model created from a bilingual sentence other than the question sentence as a model used in PBSMT.
一方、別の方策として、疑問文は疑問文として翻訳し、名詞句は名詞句として翻訳するために、疑問文のための翻訳エンジンと、名詞句のための翻訳エンジンとを別々に構築することが考えられる。そのような方式による翻訳装置の典型的な例を図3に示す。 On the other hand, as another measure, in order to translate question sentences as question sentences and noun phrases as noun phrases, separate translation engine for question sentences and translation engine for noun phrases Can be considered. A typical example of such a translation apparatus is shown in FIG.
図3を参照して、対訳コーパス110を準備する。モデル学習部114が、この対訳コーパス110を使用して、文法タイプ別の翻訳のための複数のモデル112の学習を行う。モデル学習部114は、この対訳コーパスの各対訳文をそれらの文法タイプ(疑問文、平叙文、名詞句等)にしたがって複数の部分コーパス130に分割する。モデル学習部114はさらに、これらの部分コーパス130を用いて、従来と同様の手法によりPBSMTのための学習132を行って、翻訳用の複数のモデル112を構築する。これらモデル112の各々はフレーズテーブルを含み、それぞれ特定の文法タイプの翻訳に適した構成となる。これらモデルをそれぞれ別々の機械翻訳装置にモデルとして組み込むことにより、各文法タイプに適した翻訳エンジンが得られる。例えば、名詞句用のモデルを機械翻訳装置120に組み込むことにより、機械翻訳装置120は名詞句の翻訳のための専用の翻訳エンジンとなる。
Referring to FIG. 3, a
翻訳時には、入力文118の文法タイプにしたがって、文法タイプ別の複数の翻訳エンジンのうちで適切な翻訳エンジンを使用する。例えば名詞句用の機械翻訳装置120は、入力文118を形態素解析する形態素解析部140と、原文に対する事前並替を行うために、形態素解析部140から出力される形態素列に対して構文解析を行う構文解析部142と、構文解析部142による構文解析結果を用い、英語の語順に近い語順となるように入力文118の単語を並替える事前並替部144と、語順が並替えられた入力文118の文頭及び文末にそれぞれ開始タグ<s>及び終了</s>を付与するタグ付与部146と、語順が変換され、タグが付された入力文118に対してPBSMTを行い、翻訳文122を出力するPBSMT装置148とを含む。
At the time of translation, an appropriate translation engine is used among a plurality of translation engines for each grammar type according to the grammar type of the
図4に、図3に示すタグ付与部146を実現するコンピュータプログラムの制御構造をフローチャート形式で示す。図4を参照して、このプログラムは、親ルーチンから入力文(単語列)を引数として呼び出される。このプログラムは、文字列を格納する変数STRを宣言するステップ160と、開始タグ<s>と入力文(単語列)と終了タグ</s>をこの順に連結して変数STRに格納し、変数STRを戻り値として親ルーチンに制御を復帰させるステップ162とを含む。
FIG. 4 is a flowchart showing the control structure of the computer program that implements the
このような方法を用いることにより、例えば名詞句用の翻訳エンジンが構築できる。学習には、例えば科学技術論文及び特許文献のタイトルだけからなる対訳コーパスを用いることができ、それによってタイトル専用の翻訳エンジンを作ることが可能になる。 By using such a method, for example, a translation engine for a noun phrase can be constructed. For learning, for example, a bilingual corpus consisting only of titles of scientific and technical papers and patent documents can be used, thereby making it possible to create a translation engine dedicated to the titles.
しかし、上記した方法では、疑問文のタイプ別に対訳コーパス110を分割して翻訳エンジンを構築する必要がある。その結果、翻訳エンジンの学習に用いられる対訳データの量が減少する。学習に用いる対訳データの量が翻訳エンジンの精度に大きな影響を与えることは既に知られており、文法タイプ別に構築された翻訳エンジンの翻訳性能が低下する。さらに、複数の翻訳エンジンを使用するため、運用コストが高くなるという問題もある。
However, in the above-described method, it is necessary to divide the
従来の技術では、文法タイプ別に適切な翻訳ができないだけではなく、場面による訳し分けができないという問題もある。例えば英語の「Hello」は、対面のときには「こんにちは」と訳せばよいが、電話での会話のときには「もしもし」と訳す必要がある。従来のPBSMTでは、図3に示すような方策を採らない限り、このような訳し分けはできない。 In the conventional technology, there is a problem that not only proper translation for each grammar type but also translation by scene cannot be performed. For example, in English, "Hello" is, at the time of face-to-face may be being interpreted as "Hello," but, at the time of the conversation on the phone, it is necessary to translate as "Hello". In the conventional PBSMT, such a translation cannot be made unless the measures shown in FIG. 3 are taken.
従来の技術ではまた、話者による訳し分けもできないという問題がある。例えば、医療翻訳において、患者と看護師とでは、同一の文であっても適切に訳し分けることが必要な場合がある。例を挙げれば、「薬を飲みます」を英語に訳すとき、患者が話者である場合には「I」を主語とする必要があるが、看護師が話者である場合には「You」を主語とする必要がある。従来のPBSMTでは、図3に示す様な方策を採らない限り、このような話者による訳し分けもできない。 The conventional technology also has a problem that it cannot be divided by a speaker. For example, in medical translation, it may be necessary for a patient and a nurse to properly translate even the same sentence. For example, when translating “take a drug” into English, if the patient is a speaker, the subject must be “I”, but if the nurse is a speaker, "Must be the subject. In the conventional PBSMT, such a translation by a speaker cannot be performed unless a measure as shown in FIG. 3 is taken.
さらに、従来のPBSMTでは、文脈による訳し分けができないという問題がある。例えば日本語の「はい」を英語に訳すときを考える。「あなたはりんごが好きですか?」「はい」という文脈であれば、「はい」は「Yes」と訳し、「あなたはりんごがすきじゃないですか?」という文脈であれば「はい」は「No」と訳す必要がある。従来のPBSTMではこのような文脈による訳し分けはできなかった。図3のような方策をとろうとしても、文脈が無数に考えられることから実現はほぼ不可能である。 Furthermore, the conventional PBSMT has a problem that it cannot be divided according to context. For example, consider the case of translating Japanese “yes” into English. In the context of “Do you like apples?” Or “Yes”, “Yes” translates to “Yes”, and in the context of “Do you like apples?” It is necessary to translate “No”. In conventional PBSTM, it was impossible to make a translation according to this context. Even if the measure as shown in FIG. 3 is taken, it is almost impossible to realize it because there are countless contexts.
上記したような、文法タイプ別の訳し分け、場面による訳し分け、話者による訳し分け、文脈による訳し分けが困難であるという問題は、結局のところ、精度の高い翻訳のために必要な、原文を超える範囲の情報が不足していることを意味している。そうした情報を機械翻訳装置に入力することは可能かもしれないが、そのために複雑な処理を行って翻訳のコストを高くすることは好ましくない。 The above-mentioned problems of translation by grammar type, translation by scene, translation by speaker, and translation by context are, after all, a problem that is necessary for accurate translation. This means that there is a shortage of information that exceeds. Although it may be possible to input such information to the machine translation device, it is not preferable to increase the cost of translation by performing complicated processing.
さらに、上記したような問題は、PBSMT以外の翻訳方式を採用した場合にも存在する。例えばLSTM(Long Short-Term Memory)を用いた機械翻訳(非特許文献3を参照)についても同様の問題が存在する。 Further, the above-described problem exists even when a translation method other than PBSMT is adopted. For example, a similar problem exists in machine translation using LSTM (Long Short-Term Memory) (see Non-Patent Document 3).
したがって、原文を超える範囲の情報にしたがって適切に原文を訳し分けられる機械翻訳装置が望まれている。 Therefore, a machine translation device that appropriately translates and separates the original text according to information in a range exceeding the original text is desired.
本発明の第1の局面に係る機械翻訳装置は、翻訳に関するメタ情報を特定するためのメタ情報特定手段と、翻訳の原文の所定位置に、メタ情報特定手段により特定されたメタ情報に対応するタグを挿入するためのメタ情報対応タグ挿入手段と、タグが付された原文を入力として受ける機械翻訳装置とを含む。メタ情報としては、予め定められた複数種類が規定されている。メタ情報対応タグ挿入手段は、メタ情報の種類に応じてタグを選択する。 The machine translation device according to the first aspect of the present invention corresponds to meta information specifying means for specifying meta information related to translation, and meta information specified by the meta information specifying means at a predetermined position of the original text of translation. It includes a meta information corresponding tag insertion means for inserting a tag, and a machine translation device that receives the original text with the tag as an input. As the meta information, a plurality of predetermined types are defined. The meta information corresponding tag insertion means selects a tag according to the type of meta information.
好ましくは、メタ情報対応タグ挿入手段は、原文のうちでメタ情報を用いた翻訳を行う範囲を特定するために、当該範囲の先頭位置及び終了位置に、メタ情報に対応する第1のタグ及び第2のタグをそれぞれ挿入するための範囲特定タグ挿入手段を含む。 Preferably, the meta information corresponding tag insertion means specifies a first tag corresponding to the meta information and a start position and an end position of the range in order to specify a range in which translation using meta information is performed in the original text. Range specifying tag insertion means for inserting each second tag is included.
好ましくは、メタ情報特定手段は、原文を形態素解析するための形態素解析手段と、形態素解析手段により形態素解析された原文の構文解析を行うための構文解析手段と、構文解析手段による原文の構文解析結果により得られた、原文の文法タイプを示す情報を、当該原文のメタ情報として出力するための文法タイプ出力手段とを含む。 Preferably, the meta information specifying unit includes a morpheme analyzing unit for performing morphological analysis of the original sentence, a syntax analyzing unit for performing syntax analysis of the original sentence analyzed by the morpheme analyzing unit, and a syntax analysis of the original sentence by the syntax analyzing unit. Grammar type output means for outputting information indicating the grammatical type of the original sentence obtained as a result as meta information of the original sentence.
より好ましくは、原文には、当該原文に関するメタ情報が付されている。メタ情報特定手段は、原文に付されているメタ情報を原文から分離してメタ情報対応タグ挿入手段に与えるためのメタ情報分離手段を含む。 More preferably, meta information relating to the original text is attached to the original text. The meta information specifying means includes meta information separating means for separating the meta information attached to the original text from the original text and giving it to the meta information corresponding tag inserting means.
さらに好ましくは、メタ情報は、原文の文法タイプ、原文が発話される場面に関する場面情報、原文を発話する話者に関する話者情報、原文に先行して機械翻訳手段により翻訳された文である先行原文の文法タイプ、及び翻訳先の言語を特定する言語情報からなるグループから選択される。 More preferably, the meta information is a grammatical type of the original sentence, scene information about a scene in which the original sentence is uttered, speaker information about a speaker who utters the original sentence, and a sentence preceded by the machine translation means. It is selected from the group consisting of the grammatical type of the original text and the linguistic information specifying the language of the translation destination.
より好ましくは、機械翻訳手段は、句に基づく機械翻訳手段である。 More preferably, the machine translation means is a phrase-based machine translation means.
さらに好ましくは、メタ情報特定手段は、翻訳の原文の翻訳先言語をメタ情報として特定するための手段を含み、メタ情報対応タグ挿入手段は、メタ情報により特定される翻訳言語を示すタグを原文の所定位置に挿入するための手段を含む。 More preferably, the meta information specifying unit includes a unit for specifying a translation destination language of the original text of the translation as meta information, and the meta information corresponding tag insertion unit includes a tag indicating the translation language specified by the meta information in the original text. Means for insertion at a predetermined position.
本発明の第2の局面に係るコンピュータプログラムは、コンピュータを、上記したいずれかの機械翻訳装置として機能させる。 A computer program according to the second aspect of the present invention causes a computer to function as any of the machine translation devices described above.
以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。 In the following description and drawings, the same parts are denoted by the same reference numerals. Therefore, detailed description thereof will not be repeated.
[基本的な考え方]
以下に説明する各実施の形態は、フレーズの範囲を超えたメタ情報を原文に付与することにより、翻訳時にそのメタ情報を参照して適切な訳し分けをする。メタ情報として、以下の実施の形態では原文に付すタグを用いる。複数種類のタグを準備し、原文の文法タイプにより(第1の実施の形態)、場面又は話者により(第2の実施の形態)、前文脈により(第3の実施の形態)、又は翻訳先の言語により(第4の実施の形態)、異なるタグを原文に付すことにより、適切な訳し分けが行える。学習においても同様のタグ付けをして、フレーズテーブルを含む、翻訳のためのモデルの学習をする必要がある。
[basic way of thinking]
In each embodiment described below, meta information that exceeds the range of a phrase is given to the original text, so that the meta information is appropriately translated by referring to the meta information at the time of translation. As meta information, tags attached to the original text are used in the following embodiments. Prepare multiple types of tags, according to the grammatical type of the original text (first embodiment), according to a scene or speaker (second embodiment), according to the previous context (third embodiment), or translated Appropriate translation can be done by attaching different tags to the original text according to the previous language (fourth embodiment). In learning, it is necessary to perform the same tagging and learn a model for translation including a phrase table.
なお、以下の第1〜第3の実施の形態では、入力文に対して事前並替を行った後、入力文の文頭と文末に、メタ情報を表すタグを付している。事前並替とは、翻訳に先立って、原文の語順を翻訳先の言語の語順に近い語順に変換することをいう。事前並替により、統計的翻訳装置では翻訳精度が高まることが知られている(非特許文献1の155ページ〜159ページ)。しかし本発明はそのような実施の形態には限定されない。例えば事前並替を行わないようなPBSMTにおいて、上記したメタ情報を用いることも可能である。また、PBSMTに対してメタ情報を適用することにより最も大きな効果が得られるが、言語モデルの構築にメタ情報が利用されることになるため、PBSMT以外の一般の統計的翻訳装置に対しても効果があると考えられる。第4の実施の形態は、PBSMTを使用したものではなく、いわゆるディープニューラルネットワーク(DNN)の一種であるLSTMを使用したSequence-to-Sequence型の翻訳を行うシステムである。以下の実施の形態では、入力文の文法タイプ、話者又は相手に関する情報、場面に関する情報、文脈に関する情報、及び翻訳先の言語を特定する情報等をメタ情報として用いている。しかし、メタ情報はこれらには限定されず、翻訳に有用な情報であればどのような情報を用いてもよい。 In the following first to third embodiments, after performing pre-ordering on the input sentence, tags representing meta information are attached to the beginning and end of the input sentence. Prior rearrangement means that prior to translation, the word order of the original text is converted into a word order that is close to the word order of the language of the translation destination. It is known that the translation accuracy is improved in the statistical translation device by the prior rearrangement (pages 155 to 159 of Non-Patent Document 1). However, the present invention is not limited to such an embodiment. For example, the above-described meta information can be used in PBSMT that does not perform pre-ordering. Moreover, the greatest effect can be obtained by applying meta information to PBSMT. However, since meta information is used to construct a language model, it can be applied to general statistical translation devices other than PBSMT. It is considered effective. The fourth embodiment is a system that performs Sequence-to-Sequence type translation using LSTM, which is a kind of so-called deep neural network (DNN), instead of using PBSMT. In the following embodiments, the grammatical type of the input sentence, the information about the speaker or the other party, the information about the scene, the information about the context, the information specifying the language of the translation destination, etc. are used as the meta information. However, the meta information is not limited to these, and any information that is useful for translation may be used.
なお、事前並替のための手法として、非特許文献1には、人手で並替ルールを作成する手法、並替モデルをコーパスから学習する手法、及び並替のための構文解析器自体を自動的に学習する手法が紹介されている。以下に述べる第1〜第3の各実施の形態では、これら手法のいずれを使用してもよい。また、以下の第1〜第3の実施の形態ではいずれも事前並替を行っているが、事前並替を行わなくても、メタ情報を利用しない翻訳よりも翻訳精度を向上させることが期待できる。 In addition, as a method for prior rearrangement, Non-Patent Document 1 automatically includes a method for manually creating a rearrangement rule, a method for learning a rearrangement model from a corpus, and a parser for rearrangement itself. The method of learning is introduced. In each of the first to third embodiments described below, any of these methods may be used. Also, in the following first to third embodiments, pre-ordering is performed in all cases, but it is expected that the translation accuracy will be improved compared to translation that does not use meta-information without performing pre-ordering. it can.
[第1の実施の形態]
第1の実施の形態に係るPBSMTシステムは、PBMSTを行う装置であって、メタ情報としての入力の文法タイプを表すために複数種類のタグを使用する。学習時に、対訳の原文が名詞句であれば、事前並替を行った後の単語列の文頭に開始タグ<NP>を付し、文末に終了タグ</NP>を付してPBSMTの学習を行う。対訳の原文が疑問文であれば、事前並替を行った後の単語列の文頭に開始タグ<SQ>を、文末に終了タグ</SQ>を付して学習を行う。翻訳時には、事前並替を行った入力文に対して、構文解析の結果として得られる文法タイプにしたがったタグを学習時と同様に付してPBSMTを行う。
[First Embodiment]
The PBSMT system according to the first embodiment is a device that performs PBMST, and uses a plurality of types of tags to represent the grammatical type of input as meta information. If the original text of the translation is a noun phrase during learning, PBSMT learns by adding a start tag <NP> to the beginning of the word string after pre-sorting and an end tag </ NP> at the end of the sentence. I do. If the original text of the parallel translation is a question sentence, learning is performed with the start tag <SQ> at the beginning of the word string after the pre-sorting and the end tag </ SQ> at the end of the sentence. At the time of translation, PBSMT is applied to the input sentence that has been rearranged in advance, with tags according to the grammatical type obtained as a result of the syntax analysis being added in the same manner as in the learning.
例えば図5の上段を参照して、翻訳への入力が「監査の結果」という名詞句60である場合を考える。語順変換62を行うことにより「結果 の 監査」という単語列64が得られる。この単語列64に上記した文法タイプ別のタグ付与処理180を行う。名詞句に対するタグはここでは<NP>とすることにすると、「<NP> 結果 の 監査 </NP>」という単語列182が得られる。この単語列182に対してPBSMTによる翻訳184を適用することで"results of the audit"という単語列186が翻訳結果として得られる。
For example, referring to the upper part of FIG. 5, consider a case where the input to the translation is a
同様の例を図5の下段に示す。入力が「Webサーバーのサービスは動作中か?」という疑問文80である場合を考える。この疑問文80に語順変換82を適用することで単語列84が得られる。この単語列に対して文法タイプ別のタグ付与処理190を行う。ここでは疑問文に対応するタグとして<SQ>を用いる。その結果、文頭にタグ<SQ>が、文末にタグ</SQ>が、それぞれ付された単語列192が得られる。この単語列192に対してPBSMTによる翻訳194を行うことにより、「Is the web server service running?」という翻訳文196が得られる。
A similar example is shown in the lower part of FIG. Consider a case where the input is a
なお、事前並替を行う場合には、原文の構文解析木において、位置を交換すべきノードを選択してそれらの位置を交換することが必要になる。そのために、事前並替を利用する場合には前もって原文の構文解析を行う。構文解析の副産物として、原文の文法タイプが得られる。以下の実施の形態では、この文法タイプをタグの種類の判定に利用する。 In the case of performing pre-ordering, it is necessary to select nodes whose positions should be exchanged in the original sentence parsing tree and exchange their positions. Therefore, when using pre-ordering, the original text is analyzed in advance. The textual grammar type is obtained as a by-product of parsing. In the following embodiment, this grammar type is used to determine the tag type.
〈構成〉
図6を参照して、この実施の形態に係るPBSMTシステム210は、対訳コーパス220に含まれる対訳データを学習データとして、上記した文法タイプ別のタグ付与を行うことによって、フレーズテーブルを含む翻訳のための統計的モデルの学習を行い、モデル記憶部222に出力するための学習処理部224と、入力文226が与えられると、モデル記憶部222に記憶された翻訳のためのモデルを用いた、PBSMTを行って翻訳文228を出力するための機械翻訳装置230とを含む。
<Constitution>
Referring to FIG. 6, the
文法タイプを用いた学習処理部224は、対訳コーパス220に含まれる対訳文を読出し、各対訳文を原文と翻訳文とに分離する対訳文読出部250と、対訳文読出部250が出力する各対訳文の原文に対して、当該原文の文法タイプを特定し、文法タイプにしたがったタグ付与を行う原文処理部252と、対訳文読出部250が出力する各対訳文の翻訳文に対して、従来と同様の手法によりタグを付与して出力する翻訳文処理部254と、原文処理部252により出力される、文法にしたがったタグ付けがされた原文と、翻訳文処理部254が出力する、従来と同様のタグ付けがされた翻訳文とを対にした対訳データをモデルの学習データとして記憶する学習データ記憶部256と、学習データ記憶部256に記憶された学習データを用いて翻訳のための統計的モデルの学習を従来と同様に行い、モデル記憶部222に格納するためのモデル学習部258とを含む。モデル学習部258の機能自体は従来と同様だが、原文に文法タイプにしたがったタグ付けが付されているため、モデル記憶部222に記憶されるモデルは従来と異なる。
The
原文処理部252は、対訳文読出部250から与えられる原文に対して形態素解析を行い、形態素列を出力する形態素解析部260と、形態素解析部260が出力する形態素列に対して構文解析を行い、同時に文法タイプを判定して、構文解析結果と文法タイプとを別個に出力する文法タイプ判定部262と、文法タイプ判定部262が出力する構文解析結果を使用し、入力された原文に含まれる単語列の語順を、翻訳に先立って翻訳先の言語の語順に近い語順に並替えて出力する事前並替部264と、事前並替部264が出力する、語順が変換された単語列の文頭及び文末に、文法タイプ判定部262から受けた文法タイプに応じた開始タグ及び終了タグを付した単語列を学習データ記憶部256に出力する文法タイプ別タグ付与部266とを含む。
The source
図6に示す文法タイプ別タグ付与部266を実現するコンピュータプログラムの制御構造の一例を、図7にフローチャート形式で示す。図7を参照して、このプログラムは、入力単語列と文法タイプとを引数として受けた親ルーチンから呼出され、文法タイプに応じた開始タグが文頭に、文法タイプに応じた終了タグを文末に付した単語列を戻り値として返す。このプログラムは、文字列操作に用いる文字列形の変数STRを宣言するステップ160と、引数として受け取った文法タイプに応じた開始タグ及び終了タグを選択するステップ300と、変数STRとして、ステップ300で選択した開始タグと、引数として受け取った入力単語列と、ステップ300で選択した終了タグとを連結し、STRを戻り値としてこのルーチンを終了するステップ302とを含む。
An example of a control structure of a computer program that realizes the grammatical type
ステップ300で文法タイプに応じた開始タグ及び終了タグを選択するために、このルーチン中に文法タイプとタグとを対応付けて記述してよいし、別にルックアップテーブルをメモリに記憶しておき、文法タイプをキーとしてルックアップテーブルから開始タグ及び終了タグを読出すようにしてもよい。
In order to select the start tag and the end tag according to the grammar type in
翻訳文処理部254は、従来のPBSMTで使用されている翻訳文処理部と同じであり、対訳文読出部250から対訳文の訳文を受けて、訳文を構成する単語列の先頭及び終了に従来と同じ開始タグ及び終了タグを付して学習データ記憶部256に出力するタグ付与部274を含む。
The translated
機械翻訳装置230は、入力文226に対して形態素解析を行う形態素解析部280と、形態素解析部280が出力する形態素列に対して構文解析を行い、構文解析結果の結果から入力文226の文法タイプを判定して構文解析結果と入力文226の文法タイプとを出力する文法タイプ判定部282と、文法タイプ判定部282から構文解析結果を受け、翻訳の事前に、翻訳言語の語順に近い語順に単語を並替えて得られる単語列を出力する事前並替部284と、事前並替部284が出力する単語列と、文法タイプ判定部282が出力する文法タイプとを受け、事前並替部284が出力する単語列の文頭に文法タイプに応じた開始タグを、文末に同じ文法タイプに応じた終了タグを、それぞれ付与して出力する文法タイプ別タグ付与部286と、文法タイプ別タグ付与部286が出力する、タグが付された単語列を入力としてPBSMTを実行して翻訳文228を出力するPBSMT装置288とを含む。
The
文法タイプ別タグ付与部286は、文法タイプ別タグ付与部266と同じ機能を持ち、本実施の形態では文法タイプ別タグ付与部266と同一の構成を持つ。
The grammatical type
〈動作〉
図6及び図7に示す構成を有するPBSMTシステム210は以下のように動作する。PBSMTシステム210の動作フェイズは大きく分けて2つある。第1はモデル記憶部222の学習フェイズ、第2は機械翻訳装置230によるテスト又は翻訳フェイズである。なお、モデルの学習において、学習データからモデルを直接学習する方式もあるし、学習データからモデルを学習した後、モデルに与える素性の重みを最適化する方式もある。いずれの方式に対しても、本実施の形態は有効である。
<Operation>
The
予め、対訳コーパス220に多数の対訳文が記憶される。ここで準備される対訳文は、いずれもフレーズアライメントが済んでいるものとする。
A large number of parallel translation sentences are stored in the
対訳文読出部250は、対訳コーパス220から順番に各対訳文を読出し、原文を原文処理部252の形態素解析部260に与え、訳文を翻訳文処理部254のタグ付与部274に与える。
The parallel
形態素解析部260は、対訳文読出部250から与えられる原文に対して形態素解析を行い、形態素列を出力する。文法タイプ判定部262は、形態素解析部260が出力する形態素列に対して構文解析を行い、同時に文法タイプを判定して、構文解析結果と文法タイプとを別個に出力する。事前並替部264は、文法タイプ判定部262が出力する構文解析結果を使用し、入力された原文に含まれる単語列の語順を、翻訳に先立って翻訳先の言語の語順に近い語順に並替えて出力する。文法タイプ別タグ付与部266は、事前並替部264が出力する、語順が変換された単語列の文頭及び文末に、文法タイプ判定部262から受けた文法タイプに応じた開始タグ及び終了タグを付した単語列を学習データ記憶部256に出力する。
The
翻訳文処理部254のタグ付与部274は、対訳文のうちの翻訳文を構成する単語列の先頭及び終了に従来と同じ開始タグ及び終了タグを付して学習データ記憶部256に出力する。
The
学習データ記憶部256は、文法タイプ別タグ付与部266が出力する、文法タイプ別のタグが付与された原文と、タグ付与部274が出力する、従来と同様のタグが付与された訳文とを対にして記憶する。モデル学習部258は、学習データ記憶部256に記憶された学習データを用いてモデルの学習を行い、そのパラメータをモデル記憶部222に記憶する。
The learning
翻訳時には、機械翻訳装置230は以下のように動作する。
At the time of translation, the
学習が済んだモデルを記憶したモデル記憶部222は、機械翻訳装置230から参照可能なように機械翻訳装置230に接続される。この接続は、機械翻訳装置230を実現するコンピュータのハードディスクにモデルを記憶させた後、メモリに展開することによってコンピュータのCPUからモデルが読み出せるようにすることで実現してもよいし、ネットワークによりコンピュータをモデル記憶部222に接続し、ネットワークを介してコンピュータの内部記憶装置にモデルを記憶するようにして実現してもよい。
The
入力文226が与えられたことに応答して、形態素解析部280は入力文226に対する形態素解析を行って、得られた形態素列を文法タイプ判定部282に与える。形態素解析部280の形態素解析処理は、入力文226の入力の後に特定のコードの入力を受けたことをトリガーとして開始してもよいし、入力文226の入力とは独立に、翻訳開始を指示する何らかのコマンドの入力をユーザから受けたことに応答して開始してもよい。
In response to the
文法タイプ判定部282は、形態素解析部280が出力する形態素列に対して文法タイプ判定部262と同様の構文解析を行ってその結果を用いて入力文226の文法タイプを判定し、構文解析結果を事前並替部284に与え、文法タイプを文法タイプ別タグ付与部286に与える。
The grammatical
事前並替部284は、文法タイプ判定部282から与えられる、入力文226の構文解析結果に対し、翻訳先言語の語順に近い語順になるように、入力文226を構成する単語の語順を翻訳に先立って変換し、文法タイプ別タグ付与部286に与える。
The
文法タイプ別タグ付与部286は、事前並替部284から受けた、語順を変換した後の単語列の文頭に、文法タイプ判定部282から受けた文法タイプに応じた開始タグを付し、文末に、同じく文法タイプ判定部282から受けた文法タイプに応じた終了タグを付す。文法タイプ別タグ付与部286は、このように文法タイプ別のタグ付がされた単語列をPBSMT装置288に翻訳の原文として与える。
The grammatical type
PBSMT装置288は、文法タイプ別タグ付与部286から与えられた単語列を翻訳の原文として、モデル記憶部222に記憶されたモデルを参照しながらPBSMTを行い、翻訳文228を出力する。
The
〈本実施の形態の効果〉
上記第1の実施の形態に係るPBSMTシステム210によれば、文法タイプによって異なるタグが文頭および文末に付与される。PBSMTでは、フレーズを構成する単語としてこれらタグも考慮される。そのため、同じフレーズであっても文頭にある場合と文中にある場合とを互いに区別できる。また、肯定文と疑問文とがタグにより区別できるようになるため、肯定文から得られるフレーズペアと疑問文から得られるフレーズペアとは、互いに異なるタグを含む。そのため、フレーズテーブルの学習が的確に行える。その結果、翻訳精度が向上する。しかもこの場合、PBSMT装置自体の構成は全く変える必要がない。したがって、簡単な構成により機械翻訳の精度を向上できる。
<Effects of the present embodiment>
According to the
なお、上記した第1の実施の形態では、事前並替を行うために構文解析が必要であり、構文解析の結果得られる文法タイプをタグの判定に利用している。しかし本発明はそのような実施の形態には限定されない。事前並替を行わない場合には、別途、原文の文法タイプを決定可能な分類器を機械学習により構築し、その分類器を活用してもよい。 In the first embodiment described above, syntax analysis is necessary to perform pre-ordering, and a grammar type obtained as a result of syntax analysis is used for tag determination. However, the present invention is not limited to such an embodiment. If pre-sorting is not performed, a classifier that can determine the grammatical type of the original text may be separately constructed by machine learning, and the classifier may be used.
[第2の実施の形態]
上記第1の実施の形態では、文法タイプにより異なるタグをメタ情報として原文に付与している。そのために第1の実施の形態では、学習時及び翻訳時に原文に対して行われる構文解析の結果から得られる文法タイプを用いる。しかし本発明はそのような実施の形態には限定されない。例えば、メタ情報を表すタグを予め原文に付与するようにしてもよい。第2の実施の形態はそのような翻訳システムに関する。この実施の形態でも、機械翻訳の方式としてはPBSMTを使用する。
[Second Embodiment]
In the first embodiment, different tags depending on the grammar type are given to the original text as meta information. Therefore, in the first embodiment, a grammar type obtained from the result of syntax analysis performed on the original text at the time of learning and translation is used. However, the present invention is not limited to such an embodiment. For example, a tag representing meta information may be added to the original text in advance. The second embodiment relates to such a translation system. Also in this embodiment, PBSMT is used as a machine translation system.
〈構成〉
図8に、第2の実施の形態に係るPBSMTシステム320の機能的構成を示す。図8を参照して、PBSMTシステム320は、メタ情報が付された対訳文からなるメタ情報付対訳コーパス240を用いてPBSMTのためのモデルの学習を行い、モデルのパラメータをモデル記憶部342に記憶させる、メタ情報を用いた学習処理部340と、モデル記憶部342に記憶されたモデルパラメータを用い、メタ情報付入力文344に対する機械翻訳を行って翻訳文346を出力する機械翻訳装置348とを含む。
<Constitution>
FIG. 8 shows a functional configuration of the
学習処理部340は、対訳文読出部250と、対訳文読出部250から対訳文の原文を受け取って、メタ情報に応じたタグを付して出力する原文処理部360と、対訳文読出部250から対訳文の訳文を受け取って従来と同様のタグを付与して出力する、図6と同じ翻訳文処理部254と、原文処理部360から出力されたメタ情報に応じたタグが付与された原文の単語列と、翻訳文処理部254から出力された、従来と同様のタグが付された訳文とを互いに対応づけて記憶する学習データ記憶部362と、学習データ記憶部362に記憶された学習データを用いてPBSMTのためのモデルの学習を行ってモデルパラメータをモデル記憶部342に記憶させるためのモデル学習部364とを含む。
The
原文処理部360は、第1の実施の形態と同様の形態素解析部260と、第1の実施の形態の文法タイプ判定部262と同様の構文解析処理を行う構文解析部372と、事前並替部264と、対訳文読出部250から受け取った原文からメタ情報を分離するメタ情報分離部370と、事前並替部264から受け取った事前並替後の単語列の文頭及び文末に、メタ情報分離部370から与えられたメタ情報に対応するタグを付与して学習データ記憶部362に出力するタグ付与部374とを含む。
The source
メタ情報としては、話者、話者の性別、話者の年齢又は職業を示す情報、相手、相手の性別、相手の年齢又は職業を示す情報、話者と相手の関係を示す情報等が考えられる。場面を示す情報としては、例えば対面/電話/TV会議等が考えられる。予めメタ情報付対訳コーパス240に記憶された対訳文の各々にメタ情報を付与しておくことにより、メタ情報を含む単語列に対する統計的なモデルの学習を行える。
Meta information may include information about the speaker, the gender of the speaker, information indicating the age or occupation of the speaker, the other party, the gender of the other party, information indicating the age or occupation of the other party, and information indicating the relationship between the speaker and the other party. It is done. As information indicating a scene, for example, face-to-face / phone / TV conference can be considered. By assigning meta information to each bilingual sentence stored in the
機械翻訳装置348は、メタ情報が付されたメタ情報付入力文344のうち、単語列を受ける形態素解析部280と、形態素解析部280が出力する形態素列に対して構文解析を行う構文解析部382と、構文解析部382による構文解析結果を用いて入力文を構成する単語列を翻訳先言語の単語列の順序に近く並替えるための事前並替部284と、メタ情報付入力文344からメタ情報を分離するメタ情報分離部380と、事前並替部284から与えられる、事前並替された単語列の文頭及び文末に、メタ情報分離部380が出力するメタ情報に応じた種類のタグを付与して出力するメタ情報別タグ付与部384と、メタ情報別タグ付与部384が出力するメタ情報別のタグが付された単語列を入力とし、モデル記憶部342に記憶されたモデルパラメータに基づく機械翻訳用のモデルを用いてPBSMTを行って翻訳文346を出力するPBSMT装置288とを含む。
The
〈動作〉
図6に示す第1の実施の形態では、学習時、文法タイプ判定部262により判定された文法タイプを用いて文法タイプ別のタグを単語列に付与している。この第2の実施の形態では、第1の実施の形態とは異なり、学習時、メタ情報分離部370が予めメタ情報が付された対訳文からメタ情報を分離し、タグ付与部374がメタ情報により異なるタグを単語列に付与する。メタ情報として何を用いるかを予め決定しておき、そのメタ情報を学習のための対訳文に付与することで、効率的にメタ情報を用いた機械翻訳のためのモデル学習が行える。
<Operation>
In the first embodiment shown in FIG. 6, at the time of learning, a tag for each grammar type is assigned to a word string using the grammar type determined by the grammar
翻訳時にも同様で、入力文344にはメタ情報が付与されている。メタ情報分離部380がこのメタ情報を分離し、メタ情報別タグ付与部384に与える。メタ情報別タグ付与部384はメタ情報により異なるタグを原文の単語列に付与してPBSMT装置288に入力する。学習時に使用された種類のメタ情報を入力文344に付与しておくことで、メタ情報に応じた適切な翻訳文346が得られる。
The same applies to translation, and meta information is given to the
構文解析の結果得られる文法タイプと同様、原文を分析することにより得られるメタ情報を用いる場合には、学習時の対訳コーパス220内の対訳文及び翻訳時の入力文344にメタ情報を付しておく必要はない。
Similar to the grammatical type obtained as a result of parsing, when using meta information obtained by analyzing the original sentence, meta information is attached to the bilingual sentence in the
[第3の実施の形態]
第1の実施の形態では、原文に対する構文解析の結果から判定される文法タイプ情報に基づいてタグを選択している。第2の実施の形態では、予め原文に付与されているメタ情報又は原文を解析することで得られるメタ情報に基づいてタグを選択している。以下に説明する第3の実施の形態では、メタ情報に相当する情報として1つ前の文の文法タイプを文脈情報として記憶しておき、原文にはこの文脈情報に応じて異なるタグを付与する。こうした仕組みにより、文脈に応じて原文を訳し分けることが可能になる。
[Third Embodiment]
In the first embodiment, a tag is selected based on grammar type information determined from the result of parsing the original sentence. In the second embodiment, a tag is selected based on meta information given in advance to the original text or meta information obtained by analyzing the original text. In the third embodiment described below, the grammar type of the previous sentence is stored as context information as information corresponding to the meta information, and different tags are assigned to the original sentence according to the context information. . This mechanism makes it possible to translate the original text according to the context.
〈構成〉
図9を参照して、この第3の実施の形態に係るPBSMTシステム400は、対訳コーパス220の中の対訳文を用いて機械翻訳のためのモデルの学習を行い、モデルパラメータ等をモデル記憶部410に記憶させるための学習処理部412と、入力文226に対して、モデル記憶部410に記憶されたモデルパラメータ等により構成される翻訳用のモデルを用いてPBSMTを行って翻訳文414を出力する機械翻訳装置416とを含む。
<Constitution>
Referring to FIG. 9,
学習処理部412は、図6と同じ対訳文読出部250と、対訳文読出部250から対訳の原文を受けて、その文の文脈に応じて異なる開始タグ及び終了タグを原文の文頭及び文末にそれぞれ付与して出力する原文処理部440と、対訳文読出部250から与えられる、対訳文の訳文にタグを付与して出力する、図6と同じ翻訳文処理部254と、原文処理部440が出力する、タグが付与された原文の単語列と、翻訳文処理部254が出力する、従来と同様のタグが付与された訳文とを互いに対応づけて、学習データとして記憶するための学習データ記憶部442と、学習データ記憶部442に記憶された学習データを用いてPBSMTのためのモデルの学習を行い、モデルパラメータ等をモデル記憶部410に記憶させるためのモデル学習部444とを含む。
The
原文処理部440は、形態素解析部260と、構文解析部372と、事前並替部264と、構文解析部372による構文解析結果に基づいて、処理中の原文が否定疑問文か否かを表す情報を文脈情報として記憶する文脈情報記憶部450と、文脈情報記憶部450に記憶された文脈情報を一文の処理後にシフトして記憶し、先行する原文から得られた文脈情報として出力する一文前文脈情報記憶部452と、事前並替部264から出力される事前並替後の原文の単語列に対し、一文前文脈情報記憶部452に記憶された一文前の文脈情報に応じて異なるタグを付与して学習データ記憶部442に出力するためのタグ付与部454とを含む。
The original
機械翻訳装置416は、図8に示す形態素解析部280、構文解析部382、及び事前並替部284と、構文解析部382の出力から得られる、入力文226が否定疑問文か否かを示す文脈情報を記憶するための文脈情報記憶部470と、機械翻訳装置416が一文を処理するたびに文脈情報記憶部470に記憶されている文脈情報を一文前の文脈情報としてシフトして記憶し出力するための一文前文脈情報記憶部472と、事前並替部284により並替された入力文226の単語列の文頭及び文末に、一文前文脈情報記憶部472に記憶されている一文前の文脈情報に応じて異なるタグを付与して出力するタグ付与部474と、タグ付与部474が出力するタグ付の単語列を入力として、モデル記憶部410に記憶された翻訳のモデルパラメータ等を参照してPBSMTを行って翻訳文414を出力するためのPBSMT装置288とを含む。
The
〈動作〉
PBSMTシステム400は以下のように動作する。
<Operation>
The
モデルの学習時には、対訳文読出部250は対訳コーパス220から一つずつ対訳文を取出し、原文を原文処理部440の形態素解析部260に、訳文を翻訳文処理部254のタグ付与部274に、それぞれ与える。この実施の形態では、文脈により異なるタグを原文に付す。したがって対訳コーパス220に記憶された対訳文は順序付けされており、対訳文読出部250は、対訳コーパス220から順序にしたがって対訳文を読出さなければならない。
When learning the model, the bilingual
形態素解析部260及び構文解析部372はそれぞれ原文に対して形態素解析及び構文解析をし、構文解析結果は事前並替部264に与えられる。構文解析部372は、構文解析の結果から、その文が否定疑問文か否かを示す文脈情報を出力する。文脈情報記憶部450は、この文脈情報を記憶する。事前並替部264は原文の単語列に対して構文解析部372による構文解析結果を用いた事前並替を行って並替後の単語列をタグ付与部454に与える。タグ付与部454は、事前並替部264から出力された単語列に対し、一文前文脈情報記憶部452に記憶された一文前の文脈情報により異なる開始タグ及び終了タグを文頭及び文末にそれぞれ付与してタグ付与部454に与える。最初の文を処理する場合には、一文前文脈情報記憶部452には何も記憶されていないため、一文前は平叙文であったと仮定する。
The
こうした処理をする場合、全く異なる文書から抽出された文を続けて処理する場合には、先行する文書の最後の文から得た文脈情報を、次の文書の最初の文の文脈情報として利用するのは好ましくない。したがって、文書が変わるたびに一文前文脈情報記憶部452に記憶される文脈情報はクリアする必要がある。
When performing such processing, when processing a sentence extracted from a completely different document, the context information obtained from the last sentence of the preceding document is used as the context information of the first sentence of the next document. Is not preferred. Therefore, it is necessary to clear the context information stored in the previous sentence context
翻訳文処理部254は、従来と同様のタグを対訳の訳文に付与して出力する。学習データ記憶部442は、タグ付与部454から出力される、一文前の文脈情報が付された事前並替後の原文の単語列と、タグ付与部274から出力される訳文の単語列とを互いに対応付けて記憶する。
The translated
学習データが学習データ記憶部442において利用可能になると、モデル学習部444はこの学習データを使用して翻訳用のモデルの学習を開始する。学習されたモデルのモデルパラメータ等はモデル記憶部410に記憶される。
When the learning data becomes available in the learning
入力文226の翻訳時には、機械翻訳装置416は以下のように動作する。なお、翻訳時にも文脈情報を使用するため、機械翻訳装置416に与えられる入力文226は、文書中で文が出現する順序にしたがって機械翻訳装置416に与えなければならない。
When translating the
形態素解析部280は、入力文226が与えられると形態素解析をし、得られる形態素列を構文解析部382に与える。構文解析部382は、この形態素列に対して構文解析を行い、構文解析結果を事前並替部284に出力する。この構文解析結果には、その文が否定疑問文か否かを示す情報が含まれる。文脈情報記憶部470はこの情報を記憶する。事前並替部284は、構文解析部382から与えられる構文解析結果を用いて入力文226を構成する単語列の順序を、翻訳先言語の単語列の順番に近くなるように翻訳に先立って並替えてタグ付与部474に与える。タグ付与部474は、一文前文脈情報記憶部472に記憶されている一文前の文脈情報を読出し、その文脈情報に応じて異なる開始タグ及び終了タグを入力された単語列の文頭及び文末に付与して出力する。
When the
PBSMT装置288は、タグ付与部474から出力される、タグ付の単語列に対し、モデル記憶部410に記憶されたモデルパラメータ等からなる翻訳用のモデルを適用することによりPBSMTを行って翻訳文414を出力する。翻訳文414の出力が完了すると、文脈情報記憶部470に記憶されていた文脈情報が一文前文脈情報記憶部472にシフトされ、一文前の文脈情報として利用可能になる。
The
〈本実施の形態の効果〉
本実施の形態によれば、翻訳フェイズでは、一文前の原文が否定疑問文か否か等を示す文脈情報が一文前文脈情報記憶部472に記憶されている。この文脈情報に応じたタグを単語列に付与してPBSMT装置288への入力とすることにより、一文前が否定疑問文である場合とそうでない場合等の文脈に応じて適切に訳し分けることが可能になる。
<Effects of the present embodiment>
According to the present embodiment, in the translation phase, context information indicating whether or not the previous sentence is a negative question sentence is stored in the previous sentence context
なお、この第3の実施の形態では、一文前が否定疑問文か否かのみを文脈情報として用いている。しかし本発明はそのような実施の形態には限定されない。ある文の前に存在する一連の文をひとまとめにしてクラス分けし、クラスに応じたタグを後続する文に付与するようにしてもよい。クラスとしては、肯定/否定、疑問/平叙等を使用できるし、これらを組み合わせても使用できる。 In the third embodiment, only whether or not the previous sentence is a negative question sentence is used as context information. However, the present invention is not limited to such an embodiment. A series of sentences existing before a certain sentence may be grouped together, and a tag corresponding to the class may be assigned to the subsequent sentence. As a class, affirmation / denial, question / phrase, etc. can be used, or a combination of these can be used.
上記した各実施の形態では、機械翻訳エンジンとしてはPBSMTを利用している。しかし本発明はそのような実施の形態には限定されない。それ以外の機械翻訳方式であっても、対訳文を統計処理することにより学習するモデルを用いる機械翻訳方式であれば上記各実施の形態と同様の効果が得られる。 In each of the above-described embodiments, PBSMT is used as the machine translation engine. However, the present invention is not limited to such an embodiment. Even with other machine translation systems, the same effects as those of the above embodiments can be obtained as long as the machine translation system uses a model that learns by statistically processing parallel translations.
なお、上記第1〜第3の実施の形態ではメタ情報を表すタグを原文の文頭と文末とに付している。しかし本発明はそのような位置にメタ情報を付する実施の形態には限定されない。要は、メタ情報により訳し分ける部分が特定できるようにタグを付与すればよい。その場合には、訳し分けを行う必要がある部分が原文に相当することになる。以下に述べる第4の実施の形態がそのような例に当たる。 In the first to third embodiments, tags representing meta information are attached to the beginning and end of a sentence. However, the present invention is not limited to an embodiment in which meta information is attached to such a position. In short, it is only necessary to add a tag so that a part to be translated can be specified by meta information. In that case, the portion that needs to be translated corresponds to the original text. The fourth embodiment described below corresponds to such an example.
[第4の実施の形態]
〈構成〉
以下の第4の実施の形態において説明するように、あるタグが付された後、次のタグに遭遇した場合には、前のタグによるメタ情報が影響を及ぼす範囲が終了したものと考えられ、その場合にはメタ情報の終了タグを省略できる。また、翻訳対象の文の末尾に到達した場合に、メタ情報の影響が及ぶ範囲が終わったものと解釈することにより、同様に終了タグを省略できる。
[Fourth Embodiment]
<Constitution>
As described in the fourth embodiment below, when a next tag is encountered after a certain tag is attached, it is considered that the range in which the meta information by the previous tag affects has ended. In that case, the end tag of the meta information can be omitted. Further, when the end of the sentence to be translated is reached, the end tag can be similarly omitted by interpreting that the range affected by the meta information is over.
第1の実施の形態では、原文に対する構文解析の結果から判定される文法タイプ情報に基づいてタグを選択している。第2の実施の形態では、予め原文に付与されているメタ情報又は原文を解析することで得られるメタ情報に基づいてタグを選択している。第3の実施の形態では、メタ情報に相当する情報として1つ前の文の文法タイプを文脈情報として記憶しておき、原文にはこの文脈情報に応じて異なるタグを付与している。以下に説明する第4の実施の形態では、メタ情報として、翻訳先の言語を特定するタグを原文の先頭に付与している。モデルの学習時、対訳の一方に、対訳の他方の言語を特定するメタ情報を付与して学習を行い、翻訳時に入力原文の先頭に翻訳先の言語を特定するメタ情報を付与することで、1つのモデルを用いて複数の言語への訳し分けを行うことができる。 In the first embodiment, a tag is selected based on grammar type information determined from the result of parsing the original sentence. In the second embodiment, a tag is selected based on meta information given in advance to the original text or meta information obtained by analyzing the original text. In the third embodiment, the grammar type of the previous sentence is stored as context information as information corresponding to the meta information, and different tags are assigned to the original sentence according to the context information. In the fourth embodiment described below, a tag for specifying the language of the translation destination is added to the head of the original text as meta information. When learning the model, by adding meta information that specifies the other language of the parallel translation to one of the parallel translations, and by adding meta information that specifies the language of the translation destination at the beginning of the input source text at the time of translation, Translation into a plurality of languages can be performed using one model.
図10を参照して、この実施の形態に係る翻訳システム500は、多数の言語の組み合わせに関する対訳を含むマルチリンガル対訳コーパス510と、マルチリンガル対訳コーパス510から各対訳を読出して、Sequence-to-Sequence型の翻訳を行うNNの学習を行う学習処理部512と、学習処理部512により学習が行われたNNのパラメータを記憶するNNパラメータ記憶部514とを含む。本実施の形態では、マルチリンガル対訳コーパス510に記憶されている各対訳にはその言語を示す情報は付されていないものとする。本実施の形態で使用するNNは、非特許文献3に記載されたLSTMを用いるものと同様の構成を持つ。
Referring to FIG. 10, translation system 500 according to the present embodiment reads a multilingual
学習処理部512は、マルチリンガル対訳コーパス510から各対訳を読出す対訳文読出部540と、対訳文読出部540により読出された対訳のうち、第1文の先頭に第2文の言語を示すタグを付して出力する第1文処理部542と、対訳文読出部540に読出された対訳のうち、第2文の先頭に第1文の言語を示すタグを付して出力する第2文処理部544と、第1文処理部542の出力する第1文と第2文処理部544の出力する第2文とをペアにして学習データを生成し出力する学習データ生成部546と、出力された学習データを記憶する学習データ記憶部548と、学習データ記憶部548に記憶された各対訳データを用いてNN552の学習を行うNN学習部550とを含む。
The
この実施の形態において、マルチリンガル対訳コーパス510が記憶している対訳の各々は、ある言語の文と、別のある言語の文とが対になったものである。しかし本発明はそのような実施の形態には限定されない。例えば3個以上の言語で互いに訳文になっている訳文グループを集めたコーパスでもよい。そうした場合には、例えば対訳文読出部540がそれら訳文グループのうちから任意の2つの文を対訳として選択し第1文処理部542及び第2文処理部544に与えるようにすればよい。したがって、本実施の形態で使用されるタグは少なくとも2種類以上となり、マルチリンガル対訳コーパス510に記憶されている対訳の文の言語の数だけ存在することになる。
In this embodiment, each of the translations stored in the multilingual
第1文処理部542は、対訳文読出部540が読出した対訳のうち、第1文の言語を識別し、その言語を特定する情報を出力する言語識別部580を含む。第2文処理部544は、同様に、第2文の言語を識別し、その言語を特定する情報を出力する言語識別部590を含む。第1文処理部542は、対訳文読出部540が読出した対訳の第1文に、言語識別部590が出力した第2文の言語を示すタグを付して出力するタグ付与部582をさらに含む。第2文処理部544も同様に、対訳文読出部540が読出した対訳の第2文に、言語識別部580が出力した第1文の言語を示すタグを付して出力するタグ付与部592をさらに含む。
The first
図10に示すタグ付与部582とタグ付与部592とは同じ構成を持ち、いずれも本実施の形態ではコンピュータプログラムにより実現される。図11を参照して、例えばタグ付与部582を実現するプログラムは、変数STRを宣言するステップ630と、処理対象の対訳の第1文を対訳文読出部540の出力が格納されたメモリロケーションから読出すステップ632と、第2文の言語を示す言語タグを言語識別部590の出力が格納されたメモリロケーションから読出すステップ634と、ステップ634で読出した言語タグ、ステップ632で読出した第1文、及び文末を示す記号<EOS>を結合した文字列を変数STRに代入するステップ636と、変数STRの格納内容を学習データ生成部546に出力するステップ638とを含む。
The
タグ付与部592を実現するプログラムでは、図11において第1文を第2文と読替え、第2文を第1文と読替えればよい。
In the program that implements the
図10を参照して、学習データ生成部546は、上記第1文処理部542の出力及び第2文処理部544の出力から学習データを生成する。具体的には学習データ生成部546は、第1文処理部542の出力を原文、第2文処理部544の出力を訳文とする学習データと、第2文処理部544の出力を原文、第1文処理部542の出力を訳文とする学習データとを生成し学習データ記憶部548に格納する。学習データ生成部546により、処理対象の対訳について、第1文及び第2文の言語の組み合わせに関する双方向の学習データが準備できる。
Referring to FIG. 10, learning
NN学習部550は、学習データ記憶部548に記憶されている学習データを用いてNN552の学習を行う機能を持つ。この学習は、非特許文献3に記載された技術と同様に行うことができる。
The
具体的に、非特許文献3に記載された学習の概要は以下のようなものである。学習用の対訳の原文が単語A、B、Cを含み、翻訳文がW、X、Y、Zを含むものとする。これらの末尾にはいずれも文末記号<EOS>が付されている。図12を参照して、例えば最初に入力文の単語A、B、及びCをそれぞれ順番にNNへの入力とし、これらをそれぞれ教師信号として誤差逆伝播法によりNNの学習を行う。入力文の終わりを示す記号<EOS>に対しては、翻訳文の単語の先頭Wを教師信号としてNNの学習を行う。以下、翻訳文の単語X、Y、Zを入力とし、その次の単語Y、Z及び翻訳文の終了を示す記号<EOS>を教師信号としてNNの学習を行う。こうした処理を全ての対訳文について行う。 Specifically, the outline of learning described in Non-Patent Document 3 is as follows. It is assumed that the original text of the parallel translation for learning includes words A, B, and C, and the translated text includes W, X, Y, and Z. All of these end with a sentence ending symbol <EOS>. Referring to FIG. 12, for example, first, words A, B, and C of an input sentence are input to NN in order, and NN is learned by back propagation using these as teacher signals. For the symbol <EOS> indicating the end of the input sentence, NN learning is performed using the beginning W of the word of the translated sentence as a teacher signal. In the following, NN learning is performed using words X, Y, and Z of the translated sentence as inputs, and using the next word Y, Z and the symbol <EOS> indicating the end of the translated sentence as a teacher signal. This process is performed for all parallel translations.
本実施の形態でNN学習部550がNN552に対して行う学習もこれと全く同じである。違う点は、入力される各文の先頭に対訳の相手側の言語を示すタグが付されている点だけである。
The learning performed by the
図10に戻って、NNを用いる機械翻訳装置518は、入力文516に対してNNを用いた機械翻訳を行い、翻訳文520を出力するためのものである。機械翻訳装置518は、翻訳先の言語を決定するために、ユーザの入力を対話形式で受け付ける入出力装置600と、入出力装置600により入力された翻訳先の言語を示すタグを記憶するターゲット言語記憶部602と、ターゲット言語記憶部602に接続され、入力文516を受けてその先頭にターゲット言語記憶部602から読出したタグを、末尾に文末記号<EOS>を、それぞれ付して出力するタグ付与部604と、タグ付与部604の出力するタグ付きの入力文516に対し、NNパラメータ記憶部514に記憶されたパラメータを持つ、NN552と同様の構成のNNにより翻訳を行って翻訳文520を出力するためのNNによる翻訳エンジン606とを含む。
Returning to FIG. 10, the
本実施の形態では、入出力装置600を用いてユーザが翻訳先の言語を指定する構成になっているが、本発明はそのような実施の形態には限定されない。例えば機械翻訳装置518が組み込まれた装置(スマートフォン、コンピュータ等)に設定された、ユーザインターフェイスの言語として選択された言語を用いるようにしてもよい。
In this embodiment, the user designates a language to be translated using the input /
〈動作〉
以上に構成を説明した翻訳システム500は以下のように動作する。翻訳システム500の動作には2つのフェイズがある。第1はNNの学習フェイズであり、第2は機械翻訳装置518による翻訳フェイズである。
<Operation>
The translation system 500 whose configuration has been described above operates as follows. There are two phases in the operation of translation system 500. The first is an NN learning phase, and the second is a translation phase by the
学習の際、翻訳システム500の学習処理部512は以下のように動作する。予めマルチリンガル対訳コーパス510には多数の言語の組み合わせに関する多数の対訳が格納されている。対訳文読出部540は、マルチリンガル対訳コーパス510から順番に対訳を取出し、各対訳の第1文を第1文処理部542に、第2文を第2文処理部544に与える。第1文処理部542の言語識別部580は、第1文の言語を識別し、その言語を示すタグを所定のメモリロケーションに格納する。第2文処理部544の言語識別部590は、同様にして第2文の言語を識別し、その言語を示すタグを所定のメモリロケーションに記憶するタグ付与部582は、対訳文読出部540から対訳の第1文を受け取ると、言語識別部590により識別された言語のタグを所定のメモリロケーションから読出し、第1文の先頭にそのタグを、末尾に文末記号<EOS>を、それぞれ付して学習データ生成部546に出力する。タグ付与部592も同様に、対訳文読出部540から対訳の第2文を受け取ると、第1文の言語を示すタグを所定のメモリロケーションから読出し、第2文の先頭にそのタグを、末尾に文末記号<EOS>を、それぞれ付して学習データ生成部546に与える。
During learning, the
学習データ生成部546は、タグ付与部582から受けた第1文を原文、タグ付与部592から受けた第2文を翻訳文とする学習データと、タグ付与部592から受けた第2文を原文、タグ付与部582から受けた第1文を翻訳文とする学習データとを生成し、学習データ記憶部548に格納する。対訳文読出部540、第1文処理部542、第2文処理部544、及び学習データ生成部546はこのようにして多数の学習データを生成し学習データ記憶部548に蓄積する。
The learning
学習データ記憶部548に十分な数の学習データが生成されると、NN学習部550がその学習データを用いてNN552の学習を行う。この学習方法については前述したとおりである。学習においてNN552のパラメータがある終了条件を満たすとNN552の学習が終わり、そのときのNN552の機能を定めるパラメータがNNパラメータ記憶部514に記憶され、NNの学習が終わる。このパラメータは翻訳エンジン606に含まれるNNに設定される。
When a sufficient number of learning data is generated in the learning
翻訳時には機械翻訳装置518は以下のように動作する。翻訳に先立ち、ユーザは入出力装置600を操作して翻訳先の言語を指定する。ターゲット言語記憶部602は、指定された言語を示すタグを保存する。
During translation, the
入力文516が機械翻訳装置518に入力され、翻訳が要求されると、タグ付与部604はターゲット言語記憶部602から翻訳先の言語を示すタグを読出し、入力文516の先頭にそのタグを付与する。さらにタグ付与部604は、入力文516の末尾に文末記号<EOS>を付与して翻訳エンジン606に入力する。
When the
翻訳エンジン606は、学習によるパラメータが設定されたNNに、入力された入力文516の各単語を順番に入力として与える。入力として入力文516の末尾の文末記号<EOS>が与えられたときにNNの出力に得られた単語が翻訳文の先頭の単語となる。以後、そのようにして得られた単語をNNの入力に与え、得られた出力を逐次接続していくことで入力文516に対する翻訳の単語列が得られる。NNの出力として文末記号<EOS>が得られた時点で翻訳エンジン606は翻訳を終了し、それまでに得られた単語列を連結して翻訳文520として出力する。
The
〈本実施の形態の効果〉
上記第4の実施の形態に係る翻訳システム500によれば、翻訳先の言語によって異なるタグが文頭に付与される。NNでは、翻訳エンジンであるNNへの入力単語としてこれらタグも考慮される。そのため、こうしたタグを用いて複数の言語の対訳により学習したNNでは、1つのNNで複数の言語間の翻訳が行えるようになる。複数の言語が共通した性質を持つ場合、そのうちのある特定の言語の文を含む対訳の数が少なかったとしても、それ以外で共通した性質を持つ言語の対訳を用いた学習により、そうした特定の言語の翻訳精度も向上することが期待できる。しかもこの場合、NNによる翻訳エンジン自体の構成は全く変える必要がなく、学習時及び翻訳時の前処理として各文の先頭に翻訳先の言語を示すタグを付すだけである。したがって、簡単な構成により機械翻訳の精度を向上できる。
<Effects of the present embodiment>
According to the translation system 500 according to the fourth embodiment, different tags are given to the sentence heads depending on the language of the translation destination. In the NN, these tags are also considered as input words to the translation engine NN. Therefore, in an NN learned by parallel translation of a plurality of languages using such tags, a single NN can perform translation between the plurality of languages. When multiple languages have a common property, even if there are a small number of parallel translations that contain sentences in a particular language, such specific language can be learned by learning with parallel translations of languages that have other common properties. The language translation accuracy can also be improved. In addition, in this case, there is no need to change the configuration of the translation engine itself by the NN, and only a tag indicating the language of the translation destination is added to the head of each sentence as preprocessing at the time of learning and translation. Therefore, the accuracy of machine translation can be improved with a simple configuration.
なお、上記した第4の実施の形態では、学習時、対訳の第1文と第2文との双方について言語識別部で言語を識別している。マルチリンガル対訳コーパス510に格納された各対訳に、それら言語を特定する情報が付されている場合には、言語識別部を設ける必要はなく、付された情報を用いて翻訳先の言語を示すタグを特定すればよい。マルチリンガル対訳コーパス510の各対訳の文の先頭に、対になっている相手の文の言語を示すタグを付すような前処理を行っていてもよい。
In the above-described fourth embodiment, at the time of learning, the language identifying unit identifies the language for both the first sentence and the second sentence of the parallel translation. If each bilingual translation stored in the multilingual
上記した実施の形態では、翻訳エンジンとしてLSTMによるNNを用いている。しかし本発明はそのような実施の形態には限定されない。LSTM以外のセルを利用したRNNを用いた場合でも、同様の学習を行えばよいので、第4の実施の形態と同様の効果が期待できる。 In the above-described embodiment, LSTM NN is used as a translation engine. However, the present invention is not limited to such an embodiment. Even when an RNN using a cell other than LSTM is used, the same learning as that of the fourth embodiment can be expected because similar learning is performed.
[コンピュータによる実現]
上記実施の形態に係る機械翻訳システム、学習処理部、及び機械翻訳装置は、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図13はこのコンピュータシステム930の外観を示し、図14はコンピュータシステム930の内部構成を示す。
[Realization by computer]
The machine translation system, the learning processing unit, and the machine translation apparatus according to the above embodiments can be realized by computer hardware and a computer program executed on the computer hardware. FIG. 13 shows the external appearance of the
図13を参照して、このコンピュータシステム930は、メモリポート952及びDVD(Digital Versatile Disc)ドライブ950を有するコンピュータ940と、キーボード946と、マウス948と、モニタ942とを含む。
Referring to FIG. 13, the
図14を参照して、コンピュータ940は、メモリポート952及びDVDドライブ950に加えて、CPU(中央処理装置)956と、CPU956、メモリポート952及びDVDドライブ950に接続されたバス966と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)958と、バス966に接続され、プログラム命令、システムプログラム、及び作業データ等を記憶するランダムアクセスメモリ(RAM)960とを含む。コンピュータシステム930はさらに、他端末との通信を可能とするネットワークへの接続を提供するネットワークインターフェイス(I/F)944を含む。ネットワークI/F944は、インターネット968に接続されてもよい。
14, in addition to the
コンピュータシステム930を上記した各実施の形態の機械翻訳システム、学習処理部、又は機械翻訳装置を構成する各機能部として機能させるためのコンピュータプログラムは、DVDドライブ950又はメモリポート952に装着されるDVD962又はリムーバブルメモリ964に記憶され、さらにハードディスク954に転送される。又は、プログラムはネットワークI/F944を通じてコンピュータ940に送信されハードディスク954に記憶されてもよい。プログラムは実行の際にRAM960にロードされる。DVD962から、リムーバブルメモリ964から、又はネットワークI/F944を介して、直接にRAM960にプログラムをロードしてもよい。
A computer program for causing the
このプログラムは、コンピュータ940を、上記各実施の形態に係る機械翻訳システム、学習処理部、又は機械翻訳装置の各機能部として機能させるための複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ940上で動作するオペレーティングシステム(OS)若しくはサードパーティのプログラム、又は、コンピュータ940にインストールされる各種プログラミングツールキットのモジュールにより提供される。したがって、このプログラムはこの実施の形態の機械翻訳システム、学習処理部、又は機械翻訳装置を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット内の適切なプログラムツールを呼出すことにより、上記した機械翻訳システム、学習処理部、又は機械翻訳装置としての機能を実現する命令のみを含んでいればよい。コンピュータシステム930の動作は周知である。したがってここでは繰返さない。
This program includes a plurality of instructions for causing the
なお、各種のコーパスは、上記実施の形態ではハードディスク954に記憶され、適宜RAM960に展開される。翻訳のためのモデルパラメータ等はいずれもRAM960に記憶される。最終的に最適化されたモデルパラメータ等はRAM960からハードディスク954、DVD962又はリムーバブルメモリ964に格納される。またはモデルパラメータはネットワークI/F944を介して別の装置に送信してもよいし、別の装置から受信してもよい。
Note that various corpora are stored in the
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。 The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each claim of the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are included. Including.
62、82 語順変換
64、68、84、88、182、192 単語列
66、86、180、190 タグ付与処理
110、220 対訳コーパス
114、258、364、444 モデル学習部
118、226、344、516 入力文
120、230、348、416、518 機械翻訳装置
122、228、346、414、520 翻訳文
140、260、280 形態素解析部
142、372,382 構文解析部
144、264、284 事前並替部
146、274、374、454、474、582、592、604 タグ付与部
148、288 PBSMT装置
184、194 PBSMTによる翻訳
210、320、400 PBSMTシステム
222、342、410 モデル記憶部
240 メタ情報付対訳コーパス
250、540 対訳文読出部
252、360、440 原文処理部
254 翻訳文処理部
256、362、442 学習データ記憶部
262、282 文法タイプ判定部(構文解析部)
266、286 文法タイプ別タグ付与部
224、340、412、512 学習処理部
370、380 メタ情報分離部
384 メタ情報別タグ付与部
450、470 文脈情報記憶部
452、472 一文前文脈情報記憶部
510 マルチリンガル対訳コーパス
514 NNパラメータ記憶部
542 第1文処理部
544 第2文処理部
546 学習データ生成部
548 学習データ記憶部
550 NN学習部
552 NN
602 ターゲット言語記憶部
606 NNによる翻訳エンジン
62, 82
266, 286 Tag assignment unit by
602 Target
Claims (8)
翻訳の原文の所定位置に、前記メタ情報特定手段により特定されたメタ情報に対応するタグを挿入するためのメタ情報対応タグ挿入手段と、
前記タグが付された前記原文を入力として受ける機械翻訳装置とを含み、
前記メタ情報としては、予め定められた複数種類が規定されており、前記メタ情報対応タグ挿入手段は、前記メタ情報の種類に応じて前記タグを選択する、機械翻訳装置。 Meta-information specifying means for specifying meta-information about translation;
Meta information corresponding tag insertion means for inserting a tag corresponding to the meta information specified by the meta information specifying means at a predetermined position of the original text of translation;
A machine translation device that receives as input the original text with the tag attached,
A plurality of predetermined types are defined as the meta information, and the meta information corresponding tag insertion unit selects the tag according to the type of the meta information.
前記原文を形態素解析するための形態素解析手段と、
前記形態素解析手段により形態素解析された前記原文の構文解析を行うための構文解析手段と、
前記構文解析手段による前記原文の構文解析結果により得られた、前記原文の文法タイプを示す情報を、当該原文の前記メタ情報として出力するための文法タイプ出力手段とを含む、請求項1又は請求項2に記載の機械翻訳装置。 The meta information specifying means includes:
Morphological analysis means for morphological analysis of the original text;
Syntax analysis means for performing syntax analysis of the original text that has been morphologically analyzed by the morpheme analysis means;
The grammar type output means for outputting, as the meta information of the original sentence, information indicating the grammatical type of the original sentence, obtained from the result of syntactic analysis of the original sentence by the syntactic analysis means. Item 3. The machine translation device according to Item 2.
前記メタ情報特定手段は、前記原文に付されている前記メタ情報を前記原文から分離して前記メタ情報対応タグ挿入手段に与えるためのメタ情報分離手段を含む、請求項1又は請求項2に記載の機械翻訳装置。 The original text has the meta information related to the translation of the original text,
The meta information specifying means includes meta information separating means for separating the meta information attached to the original text from the original text and supplying the meta information corresponding tag insertion means to the meta information corresponding tag inserting means. The machine translation device described.
前記メタ情報対応タグ挿入手段は、前記メタ情報により特定される前記翻訳言語を示すタグを前記原文の所定位置に挿入するための手段を含む、請求項1に記載の機械翻訳装置。 The meta information specifying means includes means for specifying a translation destination language of the original text of the translation as meta information,
The machine translation device according to claim 1, wherein the meta information corresponding tag insertion means includes means for inserting a tag indicating the translation language specified by the meta information into a predetermined position of the original text.
A computer program that causes a computer to function as the machine translation device according to any one of claims 1 to 7.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/490,263 US20170308526A1 (en) | 2016-04-21 | 2017-04-18 | Compcuter Implemented machine translation apparatus and machine translation method |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016085262 | 2016-04-21 | ||
JP2016085262 | 2016-04-21 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017199363A true JP2017199363A (en) | 2017-11-02 |
Family
ID=60238405
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017077021A Pending JP2017199363A (en) | 2016-04-21 | 2017-04-07 | Machine translation device and computer program for machine translation |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2017199363A (en) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018195012A (en) * | 2017-05-16 | 2018-12-06 | 富士通株式会社 | Learning program, leaning method, learning device, and conversion parameter creating method |
WO2019225028A1 (en) * | 2018-05-25 | 2019-11-28 | パナソニックIpマネジメント株式会社 | Translation device, system, method, program, and learning method |
CN111291575A (en) * | 2020-02-28 | 2020-06-16 | 北京字节跳动网络技术有限公司 | Text processing method and device, electronic equipment and storage medium |
WO2020194809A1 (en) * | 2019-03-25 | 2020-10-01 | 株式会社日立製作所 | Anomaly sensing system |
KR102406251B1 (en) * | 2021-11-18 | 2022-06-07 | 염종명 | Machine translation and coding method to improve translation quality in localization |
US11669695B2 (en) | 2019-03-29 | 2023-06-06 | Fujitsu Limited | Translation method, learning method, and non-transitory computer-readable storage medium for storing translation program to translate a named entity based on an attention score using neural network |
KR102640886B1 (en) * | 2023-08-01 | 2024-02-27 | 주식회사 페이브 | Method and electronic device for generating multilingual website content |
KR102640887B1 (en) * | 2023-09-06 | 2024-02-27 | 주식회사 페이브 | Method and electronic device for generating multilingual website content |
KR102654947B1 (en) * | 2023-07-17 | 2024-04-05 | 주식회사 페이브 | Method and electronic device for generating multilingual website content |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07282061A (en) * | 1994-04-15 | 1995-10-27 | Sharp Corp | Machine translation device |
JP2000137717A (en) * | 1998-11-04 | 2000-05-16 | Atr Interpreting Telecommunications Res Lab | Machine translation processor |
JP2002041512A (en) * | 2000-07-26 | 2002-02-08 | Oki Electric Ind Co Ltd | Device and method for natural language processing |
JP2004199519A (en) * | 2002-12-19 | 2004-07-15 | Fujitsu Ltd | Mechanical translation method, mechanical translation device, and mechanical translation program |
JP2012185622A (en) * | 2011-03-04 | 2012-09-27 | National Institute Of Information & Communication Technology | Bilingual phrase learning device, phrase-based statistical machine translation device, bilingual phrase learning method and bilingual phrase production method |
JP2014016475A (en) * | 2012-07-09 | 2014-01-30 | National Institute Of Information & Communication Technology | Voice processing system and terminal device |
JP2016164707A (en) * | 2015-03-06 | 2016-09-08 | 国立研究開発法人情報通信研究機構 | Automatic translation device and translation model learning device |
-
2017
- 2017-04-07 JP JP2017077021A patent/JP2017199363A/en active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07282061A (en) * | 1994-04-15 | 1995-10-27 | Sharp Corp | Machine translation device |
JP2000137717A (en) * | 1998-11-04 | 2000-05-16 | Atr Interpreting Telecommunications Res Lab | Machine translation processor |
JP2002041512A (en) * | 2000-07-26 | 2002-02-08 | Oki Electric Ind Co Ltd | Device and method for natural language processing |
JP2004199519A (en) * | 2002-12-19 | 2004-07-15 | Fujitsu Ltd | Mechanical translation method, mechanical translation device, and mechanical translation program |
JP2012185622A (en) * | 2011-03-04 | 2012-09-27 | National Institute Of Information & Communication Technology | Bilingual phrase learning device, phrase-based statistical machine translation device, bilingual phrase learning method and bilingual phrase production method |
JP2014016475A (en) * | 2012-07-09 | 2014-01-30 | National Institute Of Information & Communication Technology | Voice processing system and terminal device |
JP2016164707A (en) * | 2015-03-06 | 2016-09-08 | 国立研究開発法人情報通信研究機構 | Automatic translation device and translation model learning device |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018195012A (en) * | 2017-05-16 | 2018-12-06 | 富士通株式会社 | Learning program, leaning method, learning device, and conversion parameter creating method |
WO2019225028A1 (en) * | 2018-05-25 | 2019-11-28 | パナソニックIpマネジメント株式会社 | Translation device, system, method, program, and learning method |
WO2020194809A1 (en) * | 2019-03-25 | 2020-10-01 | 株式会社日立製作所 | Anomaly sensing system |
JP2020160608A (en) * | 2019-03-25 | 2020-10-01 | 株式会社日立製作所 | Abnormality detection system |
US11669695B2 (en) | 2019-03-29 | 2023-06-06 | Fujitsu Limited | Translation method, learning method, and non-transitory computer-readable storage medium for storing translation program to translate a named entity based on an attention score using neural network |
CN111291575A (en) * | 2020-02-28 | 2020-06-16 | 北京字节跳动网络技术有限公司 | Text processing method and device, electronic equipment and storage medium |
KR102406251B1 (en) * | 2021-11-18 | 2022-06-07 | 염종명 | Machine translation and coding method to improve translation quality in localization |
KR102654947B1 (en) * | 2023-07-17 | 2024-04-05 | 주식회사 페이브 | Method and electronic device for generating multilingual website content |
KR102640886B1 (en) * | 2023-08-01 | 2024-02-27 | 주식회사 페이브 | Method and electronic device for generating multilingual website content |
KR102640887B1 (en) * | 2023-09-06 | 2024-02-27 | 주식회사 페이브 | Method and electronic device for generating multilingual website content |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2017199363A (en) | Machine translation device and computer program for machine translation | |
JP4635659B2 (en) | Question answering system, data retrieval method, and computer program | |
KR101762866B1 (en) | Statistical translation apparatus by separating syntactic translation model from lexical translation model and statistical translation method | |
US20170308526A1 (en) | Compcuter Implemented machine translation apparatus and machine translation method | |
EP1306775A1 (en) | Machine translation | |
EP1351158A1 (en) | Machine translation | |
KR100530154B1 (en) | Method and Apparatus for developing a transfer dictionary used in transfer-based machine translation system | |
EP1349079A1 (en) | Machine translation | |
US20080306728A1 (en) | Apparatus, method, and computer program product for machine translation | |
JP2000353161A (en) | Method and device for controlling style in generation of natural language | |
JP2005507524A (en) | Machine translation | |
JP6952967B2 (en) | Automatic translator | |
KR20040024619A (en) | Third language text generating algorithm by multi-lingual text inputting and device and program therefor | |
Alkım et al. | Machine translation infrastructure for Turkic languages (MT-Turk) | |
US11664010B2 (en) | Natural language domain corpus data set creation based on enhanced root utterances | |
JP2005284723A (en) | Natural language processing system, natural language processing method, and computer program | |
JP4007413B2 (en) | Natural language processing system, natural language processing method, and computer program | |
KR102143158B1 (en) | Information processing system using Korean parcing | |
JP4114526B2 (en) | Machine translation system, machine translation method, and computer program | |
KR101670995B1 (en) | Statistical Machine Translation System based on Word Reordering and Morpheme Difference and Method thereof | |
Alansary et al. | The universal networking language in action in English-Arabic machine translation | |
US20130080144A1 (en) | Machine translation apparatus, a method and a non-transitory computer readable medium thereof | |
JP2715875B2 (en) | Multilingual summary generator | |
JP2007317140A (en) | Device and method for analyzing sentence matching rate and device and method for translating language | |
Underspecifie | The DI values of the headword candidates with no CombiDic headword tags are displayed in a dot chart in Figure 5 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20170410 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200311 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210226 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210330 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20211005 |