JP2012053858A - Machine translation device and machine translation program - Google Patents
Machine translation device and machine translation program Download PDFInfo
- Publication number
- JP2012053858A JP2012053858A JP2010198136A JP2010198136A JP2012053858A JP 2012053858 A JP2012053858 A JP 2012053858A JP 2010198136 A JP2010198136 A JP 2010198136A JP 2010198136 A JP2010198136 A JP 2010198136A JP 2012053858 A JP2012053858 A JP 2012053858A
- Authority
- JP
- Japan
- Prior art keywords
- translation
- dictionary
- word
- language
- technical term
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明の実施形態は、自然言語処理技術に関わり、より詳しくは、自然言語文書を処理し第一言語を第二言語に翻訳する機械翻訳装置及び機械翻訳プログラムに関する。 Embodiments described herein relate generally to a natural language processing technique, and more particularly, to a machine translation apparatus and a machine translation program that process a natural language document and translate a first language into a second language.
機械翻訳が一般に普及するようになった近年、機械翻訳に期待される質のレベルも高まっている。この一つの取り組みとして、それぞれの分野にあった翻訳を行うことが挙げられる。機械翻訳処理においては、翻訳する文書の分野の用語を用いた翻訳結果を得るために、分野にかかわらず使用する標準辞書以外に、該当する分野の専門用語辞書、またはユーザが必要に応じて登録して構築されたユーザ辞書を併用して翻訳を行っている。こうした専門用語辞書の重要性は各方面で強調されている。これは、人間の翻訳家は、膨大な専門用語に関する翻訳の知識をすべて保持しているわけではなく、専門用語を知らずに人間の翻訳家が特許を翻訳すると、専門用語の訳を間違えてしまうことがあるからである。 In recent years when machine translation has become popular, the level of quality expected of machine translation has also increased. As one of these efforts, there is a translation that suits each field. In machine translation processing, in order to obtain translation results using terms in the field of the document to be translated, in addition to the standard dictionary used regardless of the field, a technical term dictionary in the corresponding field or registered as required by the user Translation is performed using a user dictionary constructed in the same way. The importance of such terminology dictionaries is emphasized in various areas. This is because human translators do not have all the knowledge of translations related to vast terminology, and if human translators translate patents without knowing the terminology, they will mistranslate the terminology Because there are things.
一方、専門用語辞書は豊富な見出しを揃えているが、複数解釈が可能な文字列が見出し語(通常複合語)となっているものがある、そのため、その見出し語(通常複合語)を辞書登録することでその形態素の解釈が優先され、構文の解析に失敗し、解析結果の悪化を招くことがある。特に英語では、同一形態で複数の品詞を有する語が多く存在するため、第一言語が英語の場合、このような現象が起きやすい。こうした場合、従来では以下のいずれかの方法で対処していた。 On the other hand, technical term dictionaries have abundant headings, but some character strings that can be interpreted multiple times become headwords (usually compound words). By registering, the interpretation of the morpheme is given priority, the syntax analysis may fail, and the analysis result may be deteriorated. Particularly in English, since there are many words having the same form and having a plurality of parts of speech, such a phenomenon is likely to occur when the first language is English. In such a case, conventionally, one of the following methods has been used.
第一の方法として、目視チェックにより、解析に失敗した文の中で解析の失敗の原因となっている見出し語を特定し、その見出し語を棄却して翻訳することである。これにより、解析に成功する可能性が生じる。典型的には複数の単語からなる見出し語を、個々に区切って解析し直すことである。 The first method is to identify a headword that causes a failure of analysis in a sentence that fails to be analyzed by visual check, and to reject the headword and translate it. This creates the possibility of successful analysis. Typically, a headword composed of a plurality of words is individually divided and reanalyzed.
第二の方法として、複数の専門用語辞書を指定し、最も優先度の高い辞書で解析に失敗した場合に、解析の失敗となった見出し語がそれより優先度の低い辞書に異なる品詞で登録されているかを順に検索する。そして、解析の失敗となった見出し語が存在した場合、その品詞で翻訳し、成功するとその優先度の低い辞書の訳語を用いて訳文を生成する。一方、そのような候補が見つからなかった場合、その見出し語部分を未知語として扱い、訳文には、第一言語そのままの文字列を挿入することとしている。 The second method is to specify multiple technical term dictionaries, and if the analysis fails with the highest priority dictionary, the entry word that failed to be analyzed is registered with a different part of speech in the lower priority dictionary. Search in order. If there is a headword that has failed in the analysis, the translation is performed using the part of speech, and if successful, a translated sentence is generated using a translation of a dictionary with a low priority. On the other hand, if such a candidate is not found, the headword part is treated as an unknown word, and the character string as it is in the first language is inserted into the translated sentence.
特定の見出し語(形態素)による解析失敗を回避するには、このように複数の辞書の切り替えが行われるわけであるが、この切り替えを自動化したものがある。具体的には、現在選択されている専門用語辞書の変換履歴、現在選択されている専門用語辞書、次に優先度の高い専門用語辞書の順に使用する翻訳辞書を自動的に切り替えていく。 In order to avoid an analysis failure due to a specific headword (morpheme), a plurality of dictionaries are switched in this way. Specifically, the translation dictionary used in the order of the conversion history of the currently selected technical term dictionary, the currently selected technical term dictionary, and the technical term dictionary with the next highest priority is automatically switched.
しかし、第一の方法では、機械翻訳において解析の失敗の原因となっている見出し語を特定することは、少なくとも第一言語の知識が必要であり、容易ではない。機械翻訳における失敗の傾向と人間翻訳における失敗の傾向は異なり、検出には一定のスキルを要する。また、仮にそのような見出し語が特定できたとして、その見出し語を少なくとも、同一文書内では棄却するものとして登録すると、その文書内でそれ以降に出現する文においてはその見出し語と品詞で解析が成功することがあっても使われないことになる。逆に、登録しない場合に、その文書内でそれ以降に出現する文においてその見出し語と品詞で失敗すれば、再度同じように棄却の命令を出す必要があり、作業の無駄が発生する。 However, in the first method, it is not easy to specify a headword that causes a failure in analysis in machine translation because at least knowledge of the first language is required. The tendency of failure in machine translation differs from the tendency of failure in human translation, and detection requires a certain skill. Also, assuming that such a headword can be identified, if the headword is registered as at least rejected in the same document, the sentence that appears later in the document is analyzed with the headword and part of speech. Will not be used even if it succeeds. On the other hand, if not registered, if the headword and the part of speech fail in a sentence that appears later in the document, it is necessary to issue a rejection command in the same manner, resulting in a waste of work.
また、解析には成功するとしても、単に優先させないと、選択した専門辞書の分野の訳語ではなくなり、代わりに標準辞書の訳語が採用されることになり、用語の統一が不十分になる。つまり、専門用語が使われるか否かは、解析に失敗するか否かによることになってしまう。そして、最悪の場合、第一言語のままになり、第二言語しか解しないユーザにとっては、文の理解に苦しむことになる。 Moreover, even if the analysis is successful, if it is not given priority, it will not be a translation in the field of the selected specialized dictionary, and instead a translation from the standard dictionary will be adopted, resulting in insufficient term unification. In other words, whether or not technical terms are used depends on whether or not the analysis fails. In the worst case, the user remains in the first language, and suffers from understanding the sentence for the user who understands only the second language.
選択した専門用語辞書を単純に適用した場合に起こる解析の失敗を回避しつつ、その専門用語辞書を最大限利用して、該当する専門分野の用語に統一を図った訳文を生成することのできる機械翻訳装置及び機械翻訳プログラムを提供することである。 Can avoid the failure of analysis that occurs when the selected technical term dictionary is simply applied, and can create a translation that uses the technical term dictionary as much as possible to unify the terms in the relevant technical field. A machine translation apparatus and a machine translation program are provided.
実施形態の機械翻訳装置は、単語単位の第一言語と第二言語との対訳情報を記憶装置に格納した翻訳辞書部と、複数の単語列からなる第一言語の専門用語の見出し語及びその訳語を対訳情報として記憶装置に格納した専門用語辞書部とを有する。専門用語調整手段は、前記翻訳辞書部の翻訳辞書情報及び前記専門用語辞書部の対訳情報を用いて構文解析を行い、前記専門用語辞書の見出し語が原因で構文解析に失敗したときは、その見出し語及びその訳語を単語単位に分解して辞書引きを行い、単語単位に分割したその見出し語の訳語候補のいずれかが、単語単位に分割した訳語に対応しているかどうかを判定し、対応しているものがあるときは、得られた訳文中のその見出し語の訳語に相当する部分をその訳語候補に置き換える。 A machine translation device according to an embodiment includes a translation dictionary unit that stores parallel translation information of a first language and a second language in a word unit in a storage device, a headword of a technical term of a first language composed of a plurality of word strings, and A technical term dictionary unit that stores translated words as parallel translation information in a storage device. The technical term adjustment means performs a syntax analysis using the translation dictionary information of the translation dictionary unit and the parallel translation information of the technical term dictionary unit, and when the syntax analysis fails due to a headword in the technical term dictionary, The headword and its translation are dissected into words and a dictionary is searched to determine whether any of the candidate translations of the headword divided into words corresponds to the translation divided into words. If there is something that is translated, the portion corresponding to the translation of the headword in the obtained translation is replaced with the translation candidate.
以下、実施形態を図面に基づいて説明する。図1は、実施形態に係る機械翻訳装置の一例の機能ブロック構成図、図2は実施形態に係る機械翻訳装置のハードウェア構成を示すブロック構成図である。 Hereinafter, embodiments will be described with reference to the drawings. FIG. 1 is a functional block configuration diagram of an example of a machine translation apparatus according to the embodiment, and FIG. 2 is a block configuration diagram illustrating a hardware configuration of the machine translation apparatus according to the embodiment.
図2において、機械翻訳装置11は、例えば一般的なコンピュータに機械翻訳プログラムなどのソフトウェアプログラムがインストールされ、そのソフトウェアプログラムが演算制御装置12のプロセッサ13において実行されることにより実現される。
In FIG. 2, the
演算制御装置12は機械翻訳に関する各種演算を行うものであり、演算制御装置12はプロセッサ13とメモリ14とを有し、メモリ14には機械翻訳・校正支援のプログラム15が記憶され、プロセッサ13により処理が実行される際には作業エリア16が用いられる。演算制御装置12の演算結果等は出力装置である表示装置17に表示・出力される。なお、出力装置として表示装置17を示しているが、出力装置としては、表示装置17だけではなく、印字機等の印刷装置、磁気テープ、磁気ディスク、光ディスク等のコンピュータ可読媒体への出力装置や、他のメディアに文書を送信する送信装置等を採用することもできる。
The arithmetic and
入力装置18は演算制御装置12に情報を入力するものであり、例えば、マウス19、キーボード20、ディスクドライブ21から構成され、また、OCR(光学式文字読み取り装置)や、磁気テープ、磁気ディスク、光ディスク等、コンピュータ可読媒体からの読み込み装置を採用することも可能である。
The
例えば、入力装置18であるマウス19やキーボード20は、表示装置17を介して演算制御装置12に各種指令を入力し、キーボード20、ディスクドライブ21は機械翻訳・校正支援対象の文書を入力する。すなわち、ディスクドライブ21は機械翻訳・校正支援対象の文書のファイルを記憶媒体に入出力するものである。さらに、演算制御装置12の演算結果や機械翻訳・校正支援に必要な知識・規則を蓄積した翻訳辞書等を記憶するハードディスクドライブ(HDD)22が設けられている。
For example, the
図1において、図1に示す演算制御装置12内の各機能ブロックは、上述の機械翻訳プログラムを構成する各プログラムに対応する。すなわち、プロセッサ13が機械翻訳プログラムを構成する各プログラムを実行することで、演算制御装置12は、各機能ブロックとして機能することとなる。また、記憶装置25の各ブロックは、演算制御装置12内のメモリ14及びハードディスクドライブ22の記憶領域に対応する。
In FIG. 1, each functional block in the arithmetic and
入力装置18は、翻訳対象となる第一言語文書の電子データを入力するものであり、ユーザの入力操作に基づいて翻訳対象となる第一言語文書の電子データを入力する。入力装置18によって入力された翻訳対象となる第一言語文書は、演算制御装置12の入力処理部23により入力処理されて取り込まれ、制御部24を介して記憶装置25の文書記憶部26に記憶される。また、入力装置18は、入力処理部23を介して制御部24に対して各種コマンドを与える。制御部24は、入力処理部23、出力処理部33、文書解析手段28、専門用語調整手段30を制御するとともに、記憶装置25とのデータの授受の制御も行う。
The
記憶装置25には、翻訳辞書部27及び専門用語辞書部34が記憶されている。翻訳辞書部27は、文書解析手段28が翻訳対象となる第一言語文書を解析する際に用いる各種辞書データを格納しており、第一言語から第二言語への翻訳を行うための辞書、及び第二言語から第一言語への翻訳を行うための辞書を格納している。
The
すなわち、第一言語から第二言語への翻訳を行うための辞書は語尾等に変化のある単語・熟語をその原形に変換するための第一言語活用変化辞書27a、第一言語を解析するための文法が記憶された第一言語解析文法辞書27b、第一言語の単語・熟語に対応する第二言語の訳語がその品詞情報と共に記憶される第一言語単語・熟語辞書27c、第一言語から第二言語への変換情報が記憶された第一言語変換文法辞書27d、第二言語の文の構造を決定する第二言語生成文法辞書27e、さらに語尾等の語形を変化させて翻訳文を完成させる第二言語形態素生成文法辞書27fを格納している。
That is, the dictionary for translating from the first language to the second language is a first language
それらに加え、第二言語活用変化辞書27h、第二言語を解析するための文法が記憶された第二言語解析文法辞書27i、第二言語の単語・熟語に対応する第一言語の訳語が、その品詞情報と共に記憶される第二言語単語・熟語辞書27j、第二言語から第一言語への変換情報が記憶された第二言語変換文法辞書27k、第一言語の文の構造を決定する第一言語生成文法辞書27l、さらに語尾等の語形を変化させて翻訳文を完成させる第一言語形態素生成文法辞書27m等を格納している。
In addition to them, the second language
また、専門用語辞書部34には、複数の単語列からなる第一言語の専門用語及びその訳語を対訳情報とした専門用語辞書が記憶されている。
The technical
文書解析手段28は、制御部24からの指示に従って、記憶装置25の翻訳辞書部27の翻訳辞書情報及び専門用語辞書部34の対訳情報を用いて、入力装置18によって入力され文書記憶部26に記憶された翻訳対象となる第一言語文書の形態素解析を行い、形態素の属性情報及び訳語情報を解析情報として記憶装置25の解析情報記憶部29に記憶する。
The document analysis means 28 is input to the
それとともに、構文解析を行い構文解析が成功したときは、解析情報の訳語情報に基づき訳文を生成する。一方、専門用語辞書部34の専門用語辞書の見出し語が使われずに構文解析に失敗したときは不完全な状態で訳文を生成し、専門用語辞書部34の専門用語辞書の見出し語が使われて構文解析に失敗したときはその見出しを棄却して訳文を得る。また、文書解析手段28の解析結果や訳文は、必要に応じて、制御部24及び出力処理部33を介して表示装置17に表示・出力される。
At the same time, when the syntax analysis is performed and the syntax analysis is successful, a translation is generated based on the translation information of the analysis information. On the other hand, if syntax analysis fails without using the technical term dictionary entry word in the technical
専門用語調整手段30は、構文解析が失敗した際に失敗の原因となる専門用語辞書の見出し語を検出し、見出し語及びその訳語を単語単位に分解して、第一言語と第二言語間で単語レベルの対応関係を抽出する。すなわち、専門用語調整手段30は、文書解析手段28が専門用語辞書部34の見出し語の棄却により訳文を得たときは、その見出し語及び訳語を単語単位に分解して辞書引きを行い、単語単位に分割した第一言語の見出し語の訳語候補のいずれかが単語単位に分割した見出し語の訳語に一致しているかどうかを判定する。そして、一致しているものがあるときは、文書解析手段30で得られた訳文中のその見出し語の訳語に相当する部分をその訳語候補に置き換える。その結果を、必要に応じて、制御部24及び出力処理部33を介して表示装置17に表示・出力する。
The technical term adjustment means 30 detects a headword of the technical term dictionary that causes the failure when the parsing fails, decomposes the headword and its translation into a word unit, and between the first language and the second language To extract the word level correspondence. In other words, when the
出力処理部33は、制御部24を介して供給された第一言語文書の対訳文書、解析結果、構文解析失敗箇所、専門用語調整後の新たな翻訳結果を表示装置17に出力処理するものであり、これにより、表示装置17の表示画面上に翻訳情報画面が表示される。また、出力処理部33は制御部24への各種コマンドに対する制御部24からの応答を表示する。
The
以下の説明では、英語を第一言語とし日本語を第二言語とした場合を一例として説明する。また、図3は、以下の説明で使用する翻訳対象となる第一言語文書の一例の説明図であり、文番号1から文番号3は翻訳対象となる第一言語の文の一例、文番号4は後の説明で使用する第一言語の文の一例である。なお、これらの文は、説明のための一例であるので文同士に連関性はない。
In the following description, the case where English is the first language and Japanese is the second language will be described as an example. FIG. 3 is an explanatory diagram of an example of a first language document to be translated used in the following description.
また、以下の説明で使用する専門用語辞書としては、「化学辞書」が選択されているものとする。この専門用語辞書には、図3の文番号1の文にあるような文を念頭に置き、”mixed solution”という見出し語が、品詞を「名詞」、訳語を「混合溶液」として登録されているものとする。ここでは、説明を簡単化するため、標準辞書以外に用いる専門用語辞書は1つとし、ユーザ辞書には何も登録されていないこととする。なお、複合語の登録内容をできるだけ利用するという意味では、1つの専門用語辞書に限らず、ユーザ辞書についてもいえるので、「専門用語辞書」というものを、複合語を見出し語として登録可能なユーザ辞書をも含むものとして実施しても構わない。
In addition, it is assumed that “chemical dictionary” is selected as the technical term dictionary used in the following description. In this technical vocabulary dictionary, the sentence like
図4は、図1の実施形態に係る機械翻訳装置の処理内容の一例を示すフローチャートである。まず、制御部24は、入力装置18から入力処理部23を介して入力された翻訳対象となる第一言語文書を記憶する(S1)。すなわち、翻訳対象となる第一言語を文書記憶部26に記憶する。
FIG. 4 is a flowchart showing an example of processing contents of the machine translation apparatus according to the embodiment of FIG. First, the
次に、制御部24は文書解析手段28を起動し、文書解析手段28は起動されると、文書記憶部26から第一言語の文書及び専門用語辞書部34の専門用語辞書を読み出し、第一言語の文書の各文をそれぞれ形態素に分割し、品詞などの属性情報を得る(S2)。これは、翻訳対象となる第一言語の文書の各文の統語的特徴を得るためである。ステップS2においては、翻訳辞書部27の第一言語から第二言語への翻訳を行うための辞書、具体的には第一言語活用変化辞書27aと第一言語解析文法辞書27bの照合により、各単語につき、品詞、原形、属性が付与され、また、各形態素がどのような関係を有するかを示す文構造(係り受け関係)を得る。
Next, the
次に、文書解析手段28は、第一言語単語・熟語辞書27cを用いて、それぞれの形態素に対して翻訳辞書部27内に定義している訳語情報を得る(S3)。さらに、構文解析を行い(S4)、構文解析に成功したかどうかを判定する(S5)。
Next, the document analysis means 28 uses the first language word /
文書解析手段28は、構文解析に成功すれば、第一言語変換文法辞書27d、第二言語生成文法辞書27e、第二言語形態素生成文法辞書27fを用いて、第二言語の構造に変換し訳語の形態素生成を行い訳文を得る(S6)。
If the syntax analysis is successful, the
一方、文書解析手段28は、ステップS5の判定で、成功でない(失敗である)と判定したときは、失敗の原因が専門用語辞書に登録されている語であるか否かにあるかの可能性を探るために、形態素解析結果の中に、専門用語辞書由来の見出し語が使われているかどうかを調べる(S7)。専門用語辞書由来の見出し語が使われていない場合は、構文解析に失敗した不完全な状態で生成できる訳文を得る(S6)。一方、専門用語辞書由来の見出し語が使われている場合は、該当する見出し語を形態素解析において棄却する(S8)。そして、ステップS4に戻り再度構文解析を行う。
On the other hand, when the
なお、問題となる形態素が複数ある場合は、全部を一気に候補から削除するのではなく、徐々に候補から落としていく。つまり、問題のない形態素はなるべく利用することとする。さて、ここで、ステップS5の判定で、再度失敗と判定されたときは、構文解析に失敗した不完全な状態で、生成できる訳文を得る(S6)。 When there are a plurality of problematic morphemes, all of them are gradually deleted from the candidates instead of being deleted from the candidates all at once. In other words, morphemes that have no problem are used as much as possible. Now, if it is determined again as a failure in the determination in step S5, a translation that can be generated in an incomplete state in which parsing has failed is obtained (S6).
ここで、ここまでのステップS1〜ステップS8の処理の具体例について説明する。ステップS1〜ステップS8の処理で得られた形態素解析情報、訳語情報、係り受け関係、翻訳結果は、制御部24により解析情報記憶部29に記憶される。図3の文番号2の場合に、解析情報記憶部29に記憶される形態素解析情報の一例を図5に示す。
Here, the specific example of the process of step S1-step S8 so far is demonstrated. The morpheme analysis information, the translation information, the dependency relationship, and the translation result obtained by the processes in steps S1 to S8 are stored in the analysis
図5は、図3の文番号2の文に対して図4のステップS1〜ステップS8の処理を行った後の形態素解析情報の一例を示す説明図である。図5に示すように、文番号2の文は10個の形態素に分割され、英語品詞、原形、活用形、日本語訳語、日本語品詞、出典辞書名の項目を有している。なお、日本語訳語は複数可能である場合、頻度が高い順に格納されている。例えば、solutionには、「解」と「溶液」との2つの訳語が格納されていることがわかる。また、solution以外の訳語については説明の簡単化のために、1つの訳語しか挙げていない。
FIG. 5 is an explanatory diagram showing an example of morpheme analysis information after the processing of step S1 to step S8 in FIG. 4 is performed on the sentence with
文番号2の文において、構文解析に最初に採用する形態素列としては、専門用語辞書の見出し語(ここでは番号10の”mixed solution”)を含んだものとなる。すなわち、1−2−3−4−5−6−10となる。これを品詞の並びとして書き表すと、「冠詞(1)+名詞(2)+動詞(3)+前置詞(4)+冠詞(5)+副詞(6)+名詞(10)」となる。
In the sentence of
構文解析を行う際は、「冠詞(1)+名詞(2)」は名詞句として纏め上げることができる。この名詞句は次の動詞(3)の主語ととらえれば接続可能である。また、動詞(3)+前置詞(4)も接続可能である。前置詞(4)の後ろは名詞句が後続することが期待される。名詞句の冒頭の品詞は冠詞が可能であるので、次の冠詞(5)も問題ない。残った2つの形態素で名詞句を構成することが期待されるが、副詞は名詞を修飾し得ない。従って、「副詞(6)+名詞(10)」は名詞句とは認定されない。このようにして、これら2つの形態素が文において果たす役割が解析では不明となり、結果として構文解析は失敗する。 When parsing, “article (1) + noun (2)” can be summarized as a noun phrase. This noun phrase can be connected if it is taken as the subject of the next verb (3). Also, verb (3) + preposition (4) can be connected. It is expected that a noun phrase follows the preposition (4). Since the part of speech at the beginning of a noun phrase can be an article, the following article (5) is not a problem. Although the remaining two morphemes are expected to form a noun phrase, adverbs cannot modify nouns. Therefore, “adverb (6) + noun (10)” is not recognized as a noun phrase. In this way, the role that these two morphemes play in the sentence is unknown in the analysis, and as a result, the parsing fails.
専門用語辞書の見出し語(”mixed solution”)を含んだ場合には、構文解析に失敗するので、名詞(10)の”mixed solution”を候補から外し(S7、S8)、再度構文解析を行う(S4)。 If the technical term dictionary entry (“mixed solution”) is included, the syntax analysis fails, so the “mixed solution” of the noun (10) is excluded from the candidates (S7, S8), and the syntax analysis is performed again. (S4).
この再度の構文解析に用いられる形態素列は、番号で表すと、1−2−4−5−6−7−9、または、1−2−3−4−5−6−8−9である。品詞で表すとそれぞれ、「冠詞(1)+名詞(2)+動詞(3)+前置詞(4)+冠詞(5)+副詞(6)+動詞過去形(7)+名詞(9)」、または、「冠詞(1)+名詞(2)+動詞(3)+前置詞(4)+冠詞(5)+副詞(6)+動詞過去分詞形(8)+名詞(9)」となる。 The morpheme sequence used for this second parsing is 1-2-4-5-6-7-9 or 1-2-3-4-5-6-8-9 in number. . When expressed in parts of speech, “article (1) + noun (2) + verb (3) + preposition (4) + article (5) + adverb (6) + verb past tense (7) + noun (9)”, Or, “article (1) + noun (2) + verb (3) + preposition (4) + article (5) + adverb (6) + verb past participle form (8) + noun (9)”.
最初の候補では解析不能となっていた、冠詞(5)の後続部分に着目すると、英語文法により、前者の「副詞+動詞過去形+名詞」は名詞句を構成し得ないが、後者の「副詞+動詞過去分詞形+名詞」は名詞句を構成し得るので、「冠詞(1)+名詞(2)+動詞(3)+前置詞(4)+冠詞(5)+副詞(6)+動詞過去分詞形(8)+名詞(9)」を採用し構文解析を成功させることができる。 Focusing on the subsequent part of article (5), which was impossible to analyze in the first candidate, the former “adverb + verb past tense + noun” cannot constitute a noun phrase by the English grammar, but the latter “ Adverb + verb past participle + noun can constitute a noun phrase, so "article (1) + noun (2) + verb (3) + preposition (4) + article (5) + adverb (6) + verb The past participle form (8) + noun (9) "can be adopted to succeed in the parsing.
図6は図3の文番号2の文に対して構文解析を行った場合の解析結果の一例を示す説明図である。図6に示すように、形態素列が1−2−3−4−5−6−8−9のときに構文解析に成功する。これにより、文番号2の訳文として、図5に示した情報を用いて「反応は入念に混ぜた解の中で続く。」が得られる。
FIG. 6 is an explanatory diagram showing an example of the analysis result when the syntax analysis is performed on the sentence with
次に、ステップS5で訳文を得たのは専門用語の棄却によるものかどうかを判定する(S9)。専門用語の棄却によるものでない場合には処理を終了する。専門用語の棄却によるものである場合には、ステップS6で得られた訳文「反応は入念に混ぜた解の中で続く。」の調整を以下の処理で行う。 Next, it is determined whether the translation is obtained in step S5 due to rejection of the technical term (S9). If it is not due to rejection of technical terms, the process is terminated. If it is due to rejection of the technical terms, adjustment of the translated sentence “Reaction continues in a carefully mixed solution” obtained in step S6 is performed by the following processing.
制御部24は専門用語調整手段30を起動する。専門用語調整手段30は起動されると、見出し語、訳語をそれぞれ形態素に分割し、品詞などの属性情報を得る(S10)。
The
文番号2の文の場合、問題となっていた見出し語は”mixed solution”(訳語「混合溶液」、品詞「名詞」)である。第一言語単語・熟語辞書27c、第二言語単語・熟語辞書27jを用いて、見出し語及びその訳語の各形態素に対して辞書引きを行い、訳語を得る(S11)。すなわち、その見出し語及び訳語を単語単位に分解して辞書引きを行う。
In the case of sentence No. 2, the headword in question is “mixed solution” (translation “mixed solution”, part of speech “noun”). Using the first language word /
見出し語部分の「mixed solution」については、図5に示すようにmixed (<mix)とsolutionに分解でき、訳語としてそれぞれ、「混ぜる」と「解、溶液」がある。一方、訳語「混合溶液」は「混合」と「溶液」からなる複合語と形態素解析されると、「混合」はサ変名詞、「溶液」は名詞と判断される。第二言語単語・熟語辞書27jには、「混合」の動詞訳語として”mix, blend, mingle”、名詞訳語としてmixing, mixtureがあり、「溶液」の訳語として、”solution”が入っているものとする。
The “mixed solution” in the headword part can be decomposed into mixed (<mix) and solution as shown in FIG. 5, and there are “mixed” and “solution, solution” as translations, respectively. On the other hand, when the translated word “mixed solution” is analyzed with a compound word consisting of “mixed” and “solution” and morphological analysis, it is determined that “mixed” is a sane noun and “solution” is a noun. The second language word /
ここで、以上の説明では、”mixed”と「混合」とが対応することを、「混合」の英語訳語に”mix”があることをもって判断したが、次のケースにもこのような対応関係をみてとることができる。すなわち、標準辞書のmixの第一訳語が「混ぜる」、第二訳語またはそれ以降の訳語に「混合する」がある場合にも、”mixed”と「混合」とが対応すると判断できる。これによりmixと混合するとが対応することがわかり、サ変名詞の性質から”mixed”と「混合」が対応することを導くことができる。 Here, in the above explanation, it was determined that “mixed” corresponds to “mixed” based on the fact that “mix” is in the English translation of “mixed”. You can take a look. That is, it can be determined that “mixed” corresponds to “mixed” even when the first translation of the standard dictionary mix is “mixed” and the second translated word or later is “mixed”. As a result, it can be seen that “mixed” corresponds to “mixed”, and the “mixed” and “mixed” can be derived from the nature of the weird variable noun.
ステップS11での辞書引きが終わると、第一言語の見出し語の各形態素が対応する第二言語の訳語の形態素の辞書引き結果の訳語候補のいずれかと、内容語に関して一致しているかを判定する(S12)。 When the dictionary lookup in step S11 ends, it is determined whether each morpheme of the first language entry word matches one of the translation word candidates of the dictionary lookup result of the corresponding second language translation word in terms of the content word. (S12).
この判定により、「混合」の第一言語への訳語候補の中に、動詞”mix”があり、また、「溶液」については、第一言語への訳語候補の中に名詞”solution”があり、solutionの第二言語への訳語の中に「溶液」があることがわかるので、”mixed”と「混合(する)」、”solution”と「溶液」が単語レベルで対応していることがわかる。 As a result of this determination, the verb “mix” is included in the translation candidate for the first language of “mixed”, and the noun “solution” is included in the translation candidate for the first language for “solution”. , You can see that “solution” is in the second language translation of solution, so “mixed” and “mixed”, “solution” and “solution” correspond at the word level. Recognize.
そこで、一旦、標準辞書の訳語で生成した訳文の中の問題の単語列の訳の部分をこれらの用語に置き換える。すなわち、ステップS6で得られた訳文の中で、ステップS12で一致を見た部分について訳語を置き換える(S13)。 Therefore, the translation part of the problematic word string in the translation generated by the translation of the standard dictionary is replaced with these terms. That is, in the translated text obtained in step S6, the translated word is replaced with respect to the part that has been matched in step S12 (S13).
これは、「反応は入念に混ぜた解の中で続く。」においては、“mixed solution”に対応する「混ぜた解」を「混合した溶液」と置き換えることを意味する。最終的な訳文として、「反応は入念に混合した溶液の中で続く。」を得て、処理は終了する。こうして選択した化学分野にあった用語を用いた訳文が生成されることになる。 This means that in “the reaction continues in a carefully mixed solution”, the “mixed solution” corresponding to the “mixed solution” is replaced with the “mixed solution”. As a final translation, the process ends with "The reaction continues in a carefully mixed solution." In this way, a translation using terms that match the selected chemical field is generated.
以上の説明では、図3の文番号2の文のケースを見たが、同じく文番号3の文も”mixed solution”を名詞として採用することで構文解析の失敗を招く。なお、文番号3の文の場合は、mixedは文の主動詞として機能している。
In the above description, the case of the sentence with
一方、文番号4の文は化学分野以外の文書からの文である。従って、「化学専門用語辞書」は選択されていない。この文は、”mixed solution”は名詞と扱っても構文解析に成功するケースであり、solutionは「解、解決策」といった意味に解釈されるべきものである。このように、文番号4は、化学専門用語辞書にある訳語の調整がかからないことになるので、solutionには、標準辞書の訳語が用いられてsolutionを「解」とするのに対し、文番号1〜3については「化学専門用語辞書」の情報より、すべて「溶液」と調整可能なことから、分野に応じた訳文を出力可能である。
On the other hand, the sentence with
次に、実施形態に係る機械翻訳装置の他の一例を説明する。図7は、実施形態に係る機械翻訳装置の他の一例の機能ブロック構成図である。この他の一例は、図1に示した一例に対し、副専門用語作成手段31及び副専門用語辞書部32を追加して設けたものである。図1と同一要素には同一符号を付し重複する説明は省略する。
Next, another example of the machine translation apparatus according to the embodiment will be described. FIG. 7 is a functional block configuration diagram of another example of the machine translation device according to the embodiment. In another example, a sub technical
副専門用語作成手段31は、専門用語辞書部34のすべての見出し語について、予め単語単位に分解した第一言語の見出し語の訳語候補のリストを作成するものであり、副専門用語辞書部32は、副専門用語作成手段31で作成された見出し語の訳語候補のリストを格納するものである。
The sub-technical
図8は、副専門用語作成手段31での見出し語の訳語候補のリスト作成の処理内容の一例を示すフローチャートである。副専門用語作成手段31は、選択された専門用語辞書のすべての見出し語と訳語との対について、図8に示すように、図4のステップS10、S11、S12と同じ処理(C1、C2、C3)を行う。
FIG. 8 is a flowchart showing an example of processing contents for creating a list of candidate translations of headwords in the sub technical
すなわち、見出し語、訳語をそれぞれ形態素に分割し、品詞などの属性情報を得る(C1)。次に、翻訳辞書部27の第一言語単語・熟語辞書27c、第二言語単語・熟語辞書27jを用いて、見出し語及びその訳語の各形態素に対して辞書引きを行い、訳語を得る(C2)。そして、第一言語の見出し語の各形態素が対応する第二言語の訳語の形態素の辞書引き結果の訳語候補のいずれかと、内容語に関して一致しているかを判定する(C3)。
That is, the headword and the translation are each divided into morphemes to obtain attribute information such as part of speech (C1). Next, using the first language word /
判定した結果、一致した対を品詞とともに副専門用語辞書部32に記憶する(C4)。そして、次に見出し語はあるかどうかを判定し(C5)、見出し語があるときはステップC1に戻り、ステップC1〜ステップC5の処理を繰り返し行う。これにより、見出し語について第一言語の単語とその品詞、対応する訳語のリストが作成され、副専門用語辞書部32に蓄積される。副専門用語辞書部32に蓄積されたリストは本来の専門用語辞書部34を補う補完的な辞書とみなすことができる。
As a result of the determination, the matched pair is stored in the
図9は、図7の実施形態に係る機械翻訳装置の処理内容の一例を示すフローチャートである。図4に示した処理内容に対し、ステップS12でNOと判定された後に新たな処理であるステップS14〜ステップS17が追加されている。 FIG. 9 is a flowchart showing an example of processing contents of the machine translation apparatus according to the embodiment of FIG. Steps S14 to S17, which are new processes, are added to the processing contents shown in FIG. 4 after it is determined NO in step S12.
すなわち、専門用語調整手段30は、第一言語の見出し語の各形態素が対応する第二言語の訳語の形態素の辞書引き結果の訳語候補のいずれかと、内容語に関して一致していないときは、棄却した見出し語相当箇所の構文解析に成功した単語・品詞が正規の専門用語辞書に登録されているか否かを判定する(S14)。つまり、単語単位に分割した第一言語の見出し語の訳語候補のいずれかが単語単位に分割した見出し語の訳語に一致していないときは、単語単位に分解した第一言語の見出し語の訳語が専門用語辞書部34にあるかどうかを判定する。
That is, the technical term adjustment means 30 rejects, when the content word does not match any of the translation word candidates of the dictionary lookup result of the morpheme of the second language translation corresponding to each morpheme of the first language entry word. It is determined whether or not the words / parts of speech that have been successfully parsed in the headword equivalent portion are registered in the regular technical term dictionary (S14). In other words, if any of the translation candidates of the first language entry word divided into word units does not match the translation of the entry word divided into word units, the translation of the first language entry word decomposed into word units Is in the technical
専門用語辞書に登録されているときは、ステップS6で得られた訳文の中でステップS14で得られた部分について訳語を置き換える(S15)。つまり、文書解析手段28で得られた訳文中のその見出し語の単語単位の訳語に相当する部分をその専門用語辞書部34の訳語に置き換える。
When it is registered in the technical term dictionary, the translated word is replaced for the part obtained in step S14 in the translated sentence obtained in step S6 (S15). That is, the portion corresponding to the word-by-word translation of the entry word in the translation obtained by the
一方、ステップS14の判定で、専門用語辞書に登録されていないときは、棄却した見出し語相当箇所の構文解析に成功した単語・品詞が副専門用語辞書に登録されているか否かを判定する(S16)。つまり、単語単位に分解した第一言語の見出し語の訳語が副専門用語辞書部32にあるかどうかを判定する。
On the other hand, if it is determined in step S14 that it is not registered in the technical term dictionary, it is determined whether a word / part of speech that has been successfully parsed in the rejected headword equivalent part is registered in the sub-terminology dictionary ( S16). That is, it is determined whether or not the translation of the first language headword decomposed into word units is in the
副専門用語辞書に登録されているときは、ステップS6で得られた訳文の中でステップS16で得られた部分について訳語を置き換える(S17)。つまり、文書解析手段28で得られた訳文中のその見出し語の単語単位の訳語に相当する部分をその副専門用語辞書部32の訳語に置き換える。
If it is registered in the sub-terminology dictionary, the translated word is replaced for the part obtained in step S16 in the translated sentence obtained in step S6 (S17). That is, the part corresponding to the word-by-word translation of the entry word in the translation obtained by the
いま、専門用語辞書部34から選択された専門用語辞書の分野は「コンピュータ」とし、翻訳対象の例文として”These formulas, including both physical and virtual channels, are also permitted.”を用いる。また、このコンピュータ用語辞書には、見出し語”virtual channel”が、訳語「VC」、品詞「名詞」として登録されているものとする。
Now, the field of the technical term dictionary selected from the technical
この見出し語”virtual channel”を優先的に用いて構文解析を行うと構文解析に失敗することになる。これは、構成要素となっている”physical and virtual channels”に着目してみると、複数形の”virtual channels”を名詞として扱うことで、physical (形容詞) +and (接続詞)+virtual channels (名詞)という品詞列となるが、この品詞列は英語では構成要素となり得ないがゆえに矛盾が生じるためである。 If the headline “virtual channel” is preferentially used for syntax analysis, the syntax analysis will fail. Focusing on the “physical and virtual channels” that are constituent elements, the plural “virtual channels” are treated as nouns, and they are called physical (adjective) + and (connective) + virtual channels (noun). This is because the part-of-speech string cannot be a constituent element in English, and therefore there is a contradiction.
見出し語”virtual channel”を名詞とはせずに、”virtual channel”を単語レベルで”形容詞+名詞”とすれば、[[形容詞+接続詞+形容詞]+名詞]となり、構文解析に成功する。専門用語辞書の訳語調整のために、図4のステップS12で”virtual channel”とVCとの対応関係を取ろうとするが、対応がとれないものとする。 If the heading word “virtual channel” is not a noun and the word “virtual channel” is “adjective + noun” at the word level, then [[adjective + conjunction + adjective] + noun] is obtained and the parsing is successful. In order to adjust the translation of the technical term dictionary, it is assumed that the correspondence relationship between the “virtual channel” and the VC is taken in step S12 of FIG.
”virtual channel”は2単語からなるが、日本語としてのVCはVとCとよりなるともみなせるがVやC自体では意味を持たないからである。一方、このコンピュータ辞書の他の登録語として、”virtual domain”(訳語「バーチャル・ドメイン」、品詞「名詞」)や”virtual memory”(訳語「バーチャル・メモリ」、品詞「名詞」)があるとすれば、図8のステップC1〜ステップC5の過程で見出し語virtual、訳語「バーチャル」、品詞「形容詞」が獲得され、コンピュータの副専門用語辞書に格納されることになる。 This is because “virtual channel” consists of two words, but VC in Japanese can be regarded as consisting of V and C, but V and C itself have no meaning. On the other hand, other registered words of this computer dictionary include “virtual domain” (translation “virtual domain”, part of speech “noun”) and “virtual memory” (translation “virtual memory”, part of speech “noun”). Then, the headword virtual, the translation “virtual”, and the part of speech “adjective” are acquired in the process of step C1 to step C5 in FIG. 8 and stored in the sub-terminology dictionary of the computer.
まず、図9のステップS14では、棄却した見出し語相当箇所の構文解析に成功した単語・品詞が正規の専門用語辞書に登録されているか否かの判定する。この場合、”virtual channel”の”channel”が正規の専門用語辞書に、訳語「チャネル」、品詞「名詞」と登録されているとすれば、ステップS15において、上記例文のchannelの訳語を「チャネル」とする。 First, in step S14 of FIG. 9, it is determined whether or not a word / part of speech that has been successfully parsed in the rejected headword equivalent portion is registered in a regular technical term dictionary. In this case, if “channel” of “virtual channel” is registered in the regular technical term dictionary with the translated word “channel” and the part of speech “noun”, the translated word of the above-mentioned example channel is “channel” in step S15. "
一方、virtualは、正規の専門用語辞書に登録されていないとすれば、ステップS16に進み、今度は副専門用語辞書が検索される。すると前提条件の説明にあるように、virtualが副専門用語辞書に登録されていることが分かり、訳語「バーチャル」とする(S17)。このようにして、標準辞書には、virtual(形容詞)の訳語として「事実上の」、「仮想の」が、channel(名詞)の訳語として「チャンネル」が登録されていたとしても、ステップS14〜ステップS17の処理により、コンピュータの専門用語を用いた訳文を得ることができる。 On the other hand, if virtual is not registered in the regular technical term dictionary, the process proceeds to step S16, and this time, the sub technical term dictionary is searched. Then, as described in the preconditions, it can be seen that virtual is registered in the sub-terminology dictionary, and the translation is “virtual” (S17). In this way, even if “virtual” and “virtual” are registered as translations of virtual (adjective) and “channel” is registered as a translation of channel (noun) in the standard dictionary, steps S14 to S14 are performed. Through the processing in step S17, a translation using computer technical terms can be obtained.
次に、実施形態に係る機械翻訳装置の別の他の一例を説明する。図10は、実施形態に係る機械翻訳装置の別の他の一例の機能ブロック構成図である。この別の他の一例は、図7に示した他の一例に対し、構文解析失敗原因判別手段35及び構文解析失敗環境知識記憶部36を追加して設けたものである。図7と同一要素には同一符号を付し重複する説明は省略する。
Next, another example of the machine translation apparatus according to the embodiment will be described. FIG. 10 is a functional block configuration diagram of another example of the machine translation apparatus according to the embodiment. Another example of this is obtained by adding a syntax analysis failure cause determination means 35 and a syntax analysis failure environment
構文解析失敗原因判別手段35は、文書解析手段28による図4のステップS5で構文解析に失敗した原因の追究を行うものである。構文解析失敗環境知識部36には、第一言語の単語の品詞の並びで構文解析が失敗する環境知識が格納されている。構文解析失敗原因判別手段35は、構文解析に失敗した見出し語の登録品詞及びその見出し語を構成する複数の単語の品詞を並べた構成品詞に基づき、構文解析失敗環境知識部36の構文解析失敗環境知識を参照して構文解析失敗原因を判別する。
The syntax analysis failure cause determination means 35 searches the cause of the failure in the syntax analysis in step S5 of FIG. 4 by the document analysis means 28. The parsing failure
図11は構文解析失敗環境知識部36に格納された構文解析失敗環境知識の説明図である。構文解析失敗環境知識は、見出し語の「構成品詞」、「登録品詞」、「構文解析が失敗する環境」、「登録品詞による品詞列」からなる。
FIG. 11 is an explanatory diagram of syntax analysis failure environment knowledge stored in the syntax analysis failure
例えば、タイプ1では見出し語が2個の単語列からなり、その2個の単語の構成品詞が「形容詞+名詞」であり、一つの見出し語として登録品詞が「名詞」として登録された場合を示している。この場合、見出し語を一つの形態素(一つの単語)として取り扱った場合には、品詞は「名詞」として取り扱われる。従って、「構文解析が失敗する環境」に示すように、「形容詞and/or形容詞 名詞」といった語の並びは、本来は正しい品詞列であるが、「形容詞 名詞」が一つの形態素の「名詞」として取り扱われると、「登録品詞による品詞列」に示すように、「形容詞and名詞」となり、構文解析に失敗する品詞列となる。
For example, in
構文解析失敗原因判別手段35は、このような構文解析失敗環境知識に基づき、構文解析に失敗した原因を判別する。例えば、「登録品詞による品詞列」に示す「形容詞and名詞」で、構文解析に失敗した場合には、見出し語の登録品詞である「名詞」に代えて、見出し語の構成品詞「形容詞+名詞」として、再度構文解析を行う。そうすると、「構文解析が失敗する環境」に示す「形容詞and/or形容詞 名詞」の並びになり、構文解析に成功する。これにより、構文解析の失敗原因は、専門用語辞書の見出し語であることと判別される。 The syntax analysis failure cause determination means 35 determines the cause of the failure in the syntax analysis based on such syntax analysis failure environment knowledge. For example, in the case of “adjective and noun” shown in “part of speech with registered part of speech”, if the parsing fails, the constituent part of speech of the headword “adjective + noun” will be used instead of “noun” which is the registered part of speech of the headword ”And parse again. Then, the "adjective and / or adjective nouns" shown in "Environment where parsing fails" will succeed, and the parsing will succeed. Thereby, it is determined that the cause of the syntax analysis failure is a headword in the technical term dictionary.
図11に示した構文解析失敗環境知識部36に格納された構文解析失敗環境知識の各タイプ1〜6について、構文解析に失敗する一例を以下に示す。
An example in which syntax analysis fails for each
(1)タイプ1
(a)administrative personnel (監理担当官)
構文解析に失敗する単語列: scientific, technical and administrative personnel
(b)private interests(私益)
構文解析に失敗する単語列: sectarian or private interests
(2)タイプ2
(a)punitive laws(刑罰法規)
構文解析に失敗する単語列:excessively punitive laws
(b)toxic dose (中毒量)
構文解析に失敗する単語列:overtly toxic dose
(3)タイプ3
(a)aggregate basis (一括基準)
構文解析に失敗する単語列:on a weighted, aggregate basis
(4)タイプ4
(a)earned capital (増殖資本)
構文解析に失敗する単語列:They earned capital.
(5)タイプ5
(a)shift operations (交代制)
構文解析に失敗する単語列:They would shift operations to a country.
(6)タイプ6
(a)anode effects (陽極効果)
構文解析に失敗する単語列:The impact of the electrons with the anode effects generation of x-ray radiation.
図12は、構文解析失敗原因判別手段35の処理内容の一例を示すフローチャートである。図4のステップS5で構文解析に失敗し、その原因を追究する際には、構文解析失敗原因判別手段35が起動される。構文解析失敗原因判別手段35は、まず、構文解析失敗環境知識の「登録品詞による品詞列」に該当するかどうかを判定する(D1)。「登録品詞による品詞列」に該当する場合には、注目する語(専門用語辞書の見出し語)は構文解析失敗環境知識の「構成品詞」に該当するか否かを判定する(D2)。構文解析失敗環境知識の「構成品詞」に該当する場合には、その「構成品詞」を用いて、再度構文解析を行う(D3)。そして、構文解析に成功するかどうかを判定し(D4)、構文解析に成功する場合には失敗の原因判明を行う(D5)。すなわち、注目する語(専門用語辞書の見出し語)の登録品詞が原因であると判別する。
(1)
(A) administrative personnel
Word strings that fail parsing: scientific, technical and administrative personnel
(B) Private interests
Word strings that fail parsing: sectarian or private interests
(2)
(A) punitive laws
Word strings that fail parsing: excessively punitive laws
(B) Toxic dose
Words that fail parsing: overtly toxic dose
(3)
(A) aggregate basis
Word strings that fail parsing: on a weighted, aggregate basis
(4)
(A) Earned capital
Word strings that fail parsing: They earned capital .
(5)
(A) shift operations
Word strings that fail parsing: They would shift operations to a country.
(6)
(A) anode effects
Word strings that fail parsing: The impact of the electrons with the anode effects generation of x-ray radiation.
FIG. 12 is a flowchart showing an example of processing contents of the syntax analysis failure cause determination means 35. When the syntax analysis fails in step S5 of FIG. 4 and the cause is investigated, the syntax analysis failure cause determination means 35 is activated. The syntax analysis failure cause determination means 35 first determines whether or not it corresponds to the “part of speech string by registered part of speech” of the syntax analysis failure environment knowledge (D1). When it corresponds to “part of speech string by registered part of speech”, it is determined whether or not the focused word (entry word of technical term dictionary) corresponds to “component part of speech” of syntax analysis failure environment knowledge (D2). When it falls under the “component part of speech” of the syntax analysis failure environmental knowledge, the syntax analysis is performed again using the “component part of speech” (D3). Then, it is determined whether the syntax analysis is successful (D4). If the syntax analysis is successful, the cause of the failure is determined (D5). That is, it is determined that the registered part-of-speech of the word of interest (keyword in the technical term dictionary) is the cause.
ステップD1、D2、D4の判定で、判定結果がNOのときは、多品詞の有無のチェックや構成要素の仕切り直しなど、通常の構文解析失敗の原因追究の方法を用いる(D6)。そして、別の候補を用いると、構文解析に成功するかどうかを判定し(D7)、構文解析に成功する場合には失敗の原因判明を行う(D8)。一方、構文解析に失敗したときは、別の候補が残っているかどうかを判定し(D9)、別の候補が残っている場合にはステップD7に戻り、別の候補が残っていない場合には失敗の原因不明とし(D10)、処理を終了する。 If the result of determination in steps D1, D2, and D4 is NO, a normal method for investigating the cause of failure in parsing, such as checking for the presence or absence of multiple parts of speech or repartitioning of components, is used (D6). When another candidate is used, it is determined whether or not the syntax analysis is successful (D7). If the syntax analysis is successful, the cause of the failure is determined (D8). On the other hand, when the parsing fails, it is determined whether another candidate remains (D9). If another candidate remains, the process returns to step D7, and if no other candidate remains, The cause of failure is unknown (D10), and the process is terminated.
このように、構文解析失敗環境知識に該当するものがあるかどうかをステップD1、D2において判定し、これによりステップD4で構文解析に成功すれば、構文解析失敗時と成功時の違いから構文解析の原因を突き止めることができる。 In this way, it is determined in Steps D1 and D2 whether or not there is a syntax analysis failure environment knowledge, and if the syntax analysis succeeds in Step D4, the syntax analysis is performed based on the difference between the syntax analysis failure time and the success time. The cause of this can be determined.
ステップD4において、この構文解析失敗環境知識では、構文解析の成功を導けなかった場合は、通常の構文解析解明の方法をとる(ステップD6)。ここでは、可能な候補を構文解析が成功するまで、あるいはすべての候補を試すまで(ステップD7、D9)のループ処理となる。ステップD7、D9は、候補数が多いほど時間を要する部分である。従って、構文解析失敗環境知識の導入により、構文解析失敗の場合にステップD5に進むことができれば、これらのステップD7、D9の処理は不必要となり、効率化につながることになる。 In step D4, if the parsing failure environment knowledge does not lead to successful parsing, a normal parsing and elucidation method is used (step D6). Here, the loop processing is performed until the parsing of possible candidates succeeds or until all candidates are tried (steps D7 and D9). Steps D7 and D9 are portions that require more time as the number of candidates increases. Therefore, if it is possible to proceed to step D5 in the case of syntax analysis failure due to the introduction of syntax analysis failure environment knowledge, the processing of these steps D7 and D9 becomes unnecessary, leading to efficiency.
なお、この構文解析失敗環境知識は辞書構築の支援にも利用できる。図13はコーパス検索結果の一例の説明図である。例えば、ユーザが”toxic dose”に対して名詞で訳語「中毒量」と登録しようとすると、toxicは形容詞、doseは名詞であるので、図11のタイプ1、2、3に該当する。そうすると、例えば、該当する分野のコーパスをシステムに与えれば、タイプ1の形態素解析が失敗する環境である「形容詞 and/or 形容詞 名詞」、タイプ2の形態素解析が失敗する環境である「副詞 形容詞 名詞」、タイプ3の形態素解析が失敗する環境である「形容詞, 形容詞 名詞」がそのコーパスに出現するかを調べることができる。
This parsing failure environment knowledge can also be used to support dictionary construction. FIG. 13 is an explanatory diagram of an example of a corpus search result. For example, when the user tries to register the translation word “addictive dose” as a noun for “toxic dose”, toxic is an adjective and dose is a noun, which corresponds to
その箇所をKWIC(keyword in context)のような形でユーザに提示すれば、ユーザは必要性を判断することができる。この過程で、例えば”potentially (副詞) toxic dose”というタイプ2の形態素解析が失敗する環境に相当する語の並びがこのコーパスに少なからず出現することが分かれば、”toxic dose”と2語の複合語の登録のほかに、”potentially toxic dose”を登録する必要性があると判断できる。
If the location is presented to the user in the form of KWIC (keyword in context), the user can determine the necessity. In this process, for example, if you know that the word sequence corresponding to the environment where the
一般に、このように長めの単語列で登録すれば、構文解析に失敗する可能性は相対的に低くなる。以上のような形で、辞書構築を支援すれば、内容面だけではなく、形態素の観点からも翻訳しようとする文書に適した用語が辞書に登録されることになる。つまり、このことは、”形容詞+名詞”を”名詞”で登録することに、図11のタイプ1、2、3のような危険性があるとしても、タイプ1、2、3それぞれの形態素解析が失敗する環境が、翻訳しようとしている文書にそもそも生起しないのであれば、問題は生じないということを意味している。ここで、翻訳は一括で行っても、または1文1文対話的に行ってもよい。
In general, if such a long word string is registered, the possibility of failure in parsing becomes relatively low. If dictionary construction is supported in the above manner, terms suitable for a document to be translated are registered in the dictionary not only from the viewpoint of contents but also from the viewpoint of morphemes. In other words, this means that the registration of “adjective + noun” as “noun” has morphological analysis of
次に、実施形態に係る機械翻訳装置のさらに別の他の一例を説明する。図14は、実施形態に係る機械翻訳装置のさらに別の他の一例の機能ブロック構成図である。この別の他の一例は、図10に示した別の他の一例に対し、参考情報表示手段37を追加して設けたものである。図10と同一要素には同一符号を付し重複する説明は省略する。 Next, still another example of the machine translation apparatus according to the embodiment will be described. FIG. 14 is a functional block configuration diagram of still another example of the machine translation apparatus according to the embodiment. Another example of this is provided by adding reference information display means 37 to another example shown in FIG. The same elements as those in FIG. 10 are denoted by the same reference numerals, and redundant description is omitted.
参考情報表示手段37は、専門用語調整手段30にて文書解析手段28で得られた訳文中の専門用語の見出し語を調整する際に、専門用語辞書の見出し語の訳語を表示するものである。 The reference information display means 37 displays the translation of the headword in the technical term dictionary when the technical term adjustment means 30 adjusts the headword of the technical term in the translation obtained by the document analysis means 28. .
前述したように、翻訳は一括で行っても、または1文1文対話的に行ってもよいが、一括翻訳の場合は、翻訳を行う下準備として、専門用語辞書の使用の有無によって、構文解析に失敗する可能性のある箇所を予め検出しておき、2段階に分けて翻訳処理を行うことも可能である。 As described above, the translation may be performed in a batch or interactively in a sentence, but in the case of batch translation, the syntax depends on the use of a technical term dictionary as a preparation for translation. It is also possible to detect in advance a part that may fail in the analysis and perform translation processing in two stages.
すなわち、専門用語辞書の使用の有無によって、構文解析に失敗する可能性のある箇所を予め検出しておき、図9のステップS12でNOとなるようなケース、つまり、選択した専門用語辞書の語を訳に使用することができなかったものをリストアップし、それらに関してユーザにどのような訳とすべきか、問い合わせ、得られた情報を翻訳辞書部の該当する専門用語辞書の第一言語単語・熟語辞書等に反映させておく。これにより、本番の翻訳処理では、スムーズに翻訳を行うことができる。 That is, a case in which a part that may fail in the syntax analysis is detected in advance depending on whether or not the technical term dictionary is used, and the result in step S12 of FIG. 9 is NO, that is, a word in the selected technical term dictionary. Lists the items that could not be used for translation, inquires about what the user should translate with respect to them, and asks the obtained information for the first language word in the corresponding technical term dictionary in the translation dictionary section. It is reflected in the idiom dictionary. Thereby, in the actual translation process, translation can be performed smoothly.
例えば、使用する専門用語辞書の中に、”private interests”が名詞「私益」で登録されており、これを単純に優先させると構文解析に失敗する文に遭遇し(例えば”Education serves both public and private interests.”)、システムが判断して、privateとinterestsを2単語として扱い、構文解析を成功させ、さらに専門用語辞書の訳語を活用すべく、”private interest”と「私益」をそれぞれより小さい単位に分解して、それらの間の対応関係を取ることを試みるがそれができなかった場合、”private interests”は標準辞書の訳を使うことになる。 For example, in the terminology dictionary used, “private interests” is registered with the noun “private interest”, and when this is simply given priority, a sentence that fails parsing is encountered (eg “Education serves both public and private interests. ”), the system determines that private and interests are treated as two words, parsing is successful, and the translation of the terminology dictionary is used to make“ private interest ”and“ private interest ”smaller. If you try to break down into units and take correspondences between them, but you are unable to do so, “private interests” will use the standard dictionary translation.
こうしてこの部分の訳は、publicから「公的な」、privateから「私的な」、interestsから「利益」を得て、例えば「公的・私的な利益」となる。このとき、制御部24は、参考情報表示手段37を起動し、”private interests”「私益」が選択している専門用語辞書に存在することを参考情報としてユーザに提示して、ユーザにどのような訳とすべきか、問い合わせる。
Thus, the translation of this part is "public" from public, "private" from private, "profit" from interests, for example, "public / private profit". At this time, the
図15はその画面の一例の説明図である。これにより、ユーザは、”public and private interests”を手動で「公益・私益」と修正したり、または、”pubic and private interests”を名詞「公益・私益」として、使用中の専門用語辞書に登録する際に助けになる。 FIG. 15 is an explanatory diagram of an example of the screen. This allows the user to manually modify “public and private interests” as “public and private interests” or register “pubic and private interests” as a noun “public and private interests” in the vocabulary dictionary in use. To help you.
実施形態によれば、主に4点の効果が期待できる。第一に、構文解析の失敗を回避しつつ、専門用語辞書の用語に統一を図った訳文を生成することができる。第二に、ある箇所で構文解析の失敗を招いた見出し語を文書全体を通して棄却するのではなく、失敗した箇所のみ棄却することができ、柔軟な翻訳ができる。したがって、人間が、そのような見出し語を棄却すべき見出し語を格納した辞書に登録すべきかどうかを判断する手間を省くことができる。第三に、構文解析の失敗の原因追究にあたり、専門用語辞書の使用の有無が原因であるものはかなりの部分、自動的に検出されるので機械翻訳の訳文の見直し作業を軽減することができる。第四に、翻訳しようとしている分野の文書において現在は未登録であるが、解析上当該辞書に登録が望まれる語を登録するようユーザに促すことにより、質の高い辞書構築に寄与する。 According to the embodiment, mainly four effects can be expected. First, it is possible to generate a translation in which the terms of the technical term dictionary are unified while avoiding failure in parsing. Secondly, the headword that caused the parsing failure in a certain part is not rejected throughout the document, but only the failed part can be rejected, and flexible translation can be performed. Therefore, it is possible to save labor for a person to determine whether or not to register such a headword in a dictionary storing headwords to be rejected. Thirdly, in pursuing the cause of failure in parsing, a significant part of what is caused by the use of a terminology dictionary is automatically detected, so the work of reviewing the translation of machine translation can be reduced. . Fourth, it is currently unregistered in the document in the field to be translated, but it contributes to the construction of a high-quality dictionary by prompting the user to register words that are desired to be registered in the dictionary for analysis.
以上の説明では、英日翻訳の場合を中心に説明してきたが、他の言語対にも応用することができる。また、いくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。 In the above description, the case of English-Japanese translation has been mainly explained, but it can be applied to other language pairs. Moreover, although some embodiment was described, these embodiment is shown as an example and is not intending limiting the range of invention. These novel embodiments can be implemented in various other forms, and various omissions, replacements, and changes can be made without departing from the scope of the invention. These embodiments and modifications thereof are included in the scope and gist of the invention, and are included in the invention described in the claims and the equivalents thereof.
11…機械翻訳装置、12…演算制御装置、13…プロセッサ、14…メモリ、15…プログラム、16…作業エリア、17…表示装置、18…入力装置、19…マウス、20…キーボード、21…ディスクドライブ、22…ハードディスクドライブ(HDD)、23…入力処理部、24…制御部、25…記憶装置、26…文書記憶部、27…翻訳辞書部、28…文書解析手段、29…解析情報記憶部、30…専門用語調整手段、31…副専門用語作成手段、32…副専門用語辞書部、33…出力処理部、34…専門用語辞書部、35…構文解析失敗原因判別手段、36…構文解析失敗環境知識記憶部、37…参考情報表示手段
DESCRIPTION OF
Claims (5)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010198136A JP5185343B2 (en) | 2010-09-03 | 2010-09-03 | Machine translation apparatus and machine translation program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010198136A JP5185343B2 (en) | 2010-09-03 | 2010-09-03 | Machine translation apparatus and machine translation program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012053858A true JP2012053858A (en) | 2012-03-15 |
JP5185343B2 JP5185343B2 (en) | 2013-04-17 |
Family
ID=45907057
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010198136A Active JP5185343B2 (en) | 2010-09-03 | 2010-09-03 | Machine translation apparatus and machine translation program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5185343B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108022593A (en) * | 2018-01-16 | 2018-05-11 | 成都福兰特电子技术股份有限公司 | A kind of high sensitivity speech recognition system and its control method |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11132517B2 (en) * | 2019-06-25 | 2021-09-28 | Lenovo (Singapore) Pte. Ltd. | User interface for natural language translation using user provided attributes |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0512332A (en) * | 1991-07-04 | 1993-01-22 | Sanyo Electric Co Ltd | Translation processor |
JPH05128145A (en) * | 1991-11-06 | 1993-05-25 | Ricoh Co Ltd | Machine translation system |
-
2010
- 2010-09-03 JP JP2010198136A patent/JP5185343B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0512332A (en) * | 1991-07-04 | 1993-01-22 | Sanyo Electric Co Ltd | Translation processor |
JPH05128145A (en) * | 1991-11-06 | 1993-05-25 | Ricoh Co Ltd | Machine translation system |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108022593A (en) * | 2018-01-16 | 2018-05-11 | 成都福兰特电子技术股份有限公司 | A kind of high sensitivity speech recognition system and its control method |
Also Published As
Publication number | Publication date |
---|---|
JP5185343B2 (en) | 2013-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8959011B2 (en) | Indicating and correcting errors in machine translation systems | |
US7774193B2 (en) | Proofing of word collocation errors based on a comparison with collocations in a corpus | |
Miłkowski | Developing an open‐source, rule‐based proofreading tool | |
US8655641B2 (en) | Machine translation apparatus and non-transitory computer readable medium | |
WO2003065245A1 (en) | Translating method, translated sentence outputting method, recording medium, program, and computer device | |
KR100530154B1 (en) | Method and Apparatus for developing a transfer dictionary used in transfer-based machine translation system | |
US20070061131A1 (en) | Japanese virtual dictionary | |
JP2008108209A (en) | Technique for enhancing precision of machine translation | |
JP2020190970A (en) | Document processing device, method therefor, and program | |
JP5185343B2 (en) | Machine translation apparatus and machine translation program | |
JP2007518164A (en) | Automatic translation apparatus, automatic translation method using the automatic translation apparatus, and recording medium on which the automatic translation apparatus is recorded | |
US7620541B2 (en) | Critiquing clitic pronoun ordering in french | |
JP2000259635A (en) | Translation device, translation method and recording medium storing translation program | |
US7983899B2 (en) | Apparatus for and method of analyzing chinese | |
JP4845921B2 (en) | Machine translation apparatus, machine translation program, and machine translation method | |
JP4843596B2 (en) | Machine translation apparatus and machine translation program | |
WO2009144890A1 (en) | Pre-translation rephrasing rule generating system | |
JP4033089B2 (en) | Natural language processing system, natural language processing method, and computer program | |
JP4016037B2 (en) | Machine translation program, machine translation device | |
Tapaswi | An efficient part-of-speech tagger rule-based approach of Sanskrit language analysis | |
JP3197110B2 (en) | Natural language analyzer and machine translator | |
JP2010170306A (en) | System for determining aptitude for reversibility in parallel translation, and machine translation system | |
JP2008027458A (en) | Machine translation program, and machine translation apparatus | |
Miłkowski | Developing an Open-source, Rule-based Proofreading Tool Final draft. For the published version, see: Miłkowski, Marcin. 2010.“Developing an Open-source, Rule-based Proofreading Tool.” Software: Practice and Experience 40 (7): 543–566. doi: 10.1002/spe. 971. | |
SKADIĽA et al. | RECENT ADVANCES IN THE DEVELOPMENT AND SHARING OF LANGUAGE RESOURCES AND TOOLS FOR LATVIAN ANDREJS VASIĻJEVS, TATIANA GORNOSTAY |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120928 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121009 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121206 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121225 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130117 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5185343 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160125 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |