JP2012053858A - Machine translation device and machine translation program - Google Patents

Machine translation device and machine translation program Download PDF

Info

Publication number
JP2012053858A
JP2012053858A JP2010198136A JP2010198136A JP2012053858A JP 2012053858 A JP2012053858 A JP 2012053858A JP 2010198136 A JP2010198136 A JP 2010198136A JP 2010198136 A JP2010198136 A JP 2010198136A JP 2012053858 A JP2012053858 A JP 2012053858A
Authority
JP
Japan
Prior art keywords
translation
dictionary
word
language
technical term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010198136A
Other languages
Japanese (ja)
Other versions
JP5185343B2 (en
Inventor
Miwako Shimazu
美和子 島津
Yumiko Yoshimura
裕美子 吉村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2010198136A priority Critical patent/JP5185343B2/en
Publication of JP2012053858A publication Critical patent/JP2012053858A/en
Application granted granted Critical
Publication of JP5185343B2 publication Critical patent/JP5185343B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To create a translation in which the terms of a relevant technical field are standardized.SOLUTION: The morphemic analysis of a document in first language is performed by using translation dictionary information of a translation dictionary section and parallel translation information of a technical term dictionary section, attribute information of morphemes and translation word information are acquired as analytic information, and a translation is created based on the translation word information. In this case, when syntax analysis fails due to the use of the entry words of a technical term dictionary, the entry words are rejected and the translation is obtained. When the translation is obtained by rejecting the entry words of the technical term dictionary, it is determined whether or not any of the translation word candidates of the entry words in the first language divided into word units is matched with the translation words of the entry words divided into word units, and when there is any matched translation word candidate, the section which is equivalent to the translation words of the entry words in the translation obtained by document analyzing means is replaced with the translation word candidate.

Description

本発明の実施形態は、自然言語処理技術に関わり、より詳しくは、自然言語文書を処理し第一言語を第二言語に翻訳する機械翻訳装置及び機械翻訳プログラムに関する。   Embodiments described herein relate generally to a natural language processing technique, and more particularly, to a machine translation apparatus and a machine translation program that process a natural language document and translate a first language into a second language.

機械翻訳が一般に普及するようになった近年、機械翻訳に期待される質のレベルも高まっている。この一つの取り組みとして、それぞれの分野にあった翻訳を行うことが挙げられる。機械翻訳処理においては、翻訳する文書の分野の用語を用いた翻訳結果を得るために、分野にかかわらず使用する標準辞書以外に、該当する分野の専門用語辞書、またはユーザが必要に応じて登録して構築されたユーザ辞書を併用して翻訳を行っている。こうした専門用語辞書の重要性は各方面で強調されている。これは、人間の翻訳家は、膨大な専門用語に関する翻訳の知識をすべて保持しているわけではなく、専門用語を知らずに人間の翻訳家が特許を翻訳すると、専門用語の訳を間違えてしまうことがあるからである。   In recent years when machine translation has become popular, the level of quality expected of machine translation has also increased. As one of these efforts, there is a translation that suits each field. In machine translation processing, in order to obtain translation results using terms in the field of the document to be translated, in addition to the standard dictionary used regardless of the field, a technical term dictionary in the corresponding field or registered as required by the user Translation is performed using a user dictionary constructed in the same way. The importance of such terminology dictionaries is emphasized in various areas. This is because human translators do not have all the knowledge of translations related to vast terminology, and if human translators translate patents without knowing the terminology, they will mistranslate the terminology Because there are things.

一方、専門用語辞書は豊富な見出しを揃えているが、複数解釈が可能な文字列が見出し語(通常複合語)となっているものがある、そのため、その見出し語(通常複合語)を辞書登録することでその形態素の解釈が優先され、構文の解析に失敗し、解析結果の悪化を招くことがある。特に英語では、同一形態で複数の品詞を有する語が多く存在するため、第一言語が英語の場合、このような現象が起きやすい。こうした場合、従来では以下のいずれかの方法で対処していた。   On the other hand, technical term dictionaries have abundant headings, but some character strings that can be interpreted multiple times become headwords (usually compound words). By registering, the interpretation of the morpheme is given priority, the syntax analysis may fail, and the analysis result may be deteriorated. Particularly in English, since there are many words having the same form and having a plurality of parts of speech, such a phenomenon is likely to occur when the first language is English. In such a case, conventionally, one of the following methods has been used.

第一の方法として、目視チェックにより、解析に失敗した文の中で解析の失敗の原因となっている見出し語を特定し、その見出し語を棄却して翻訳することである。これにより、解析に成功する可能性が生じる。典型的には複数の単語からなる見出し語を、個々に区切って解析し直すことである。   The first method is to identify a headword that causes a failure of analysis in a sentence that fails to be analyzed by visual check, and to reject the headword and translate it. This creates the possibility of successful analysis. Typically, a headword composed of a plurality of words is individually divided and reanalyzed.

第二の方法として、複数の専門用語辞書を指定し、最も優先度の高い辞書で解析に失敗した場合に、解析の失敗となった見出し語がそれより優先度の低い辞書に異なる品詞で登録されているかを順に検索する。そして、解析の失敗となった見出し語が存在した場合、その品詞で翻訳し、成功するとその優先度の低い辞書の訳語を用いて訳文を生成する。一方、そのような候補が見つからなかった場合、その見出し語部分を未知語として扱い、訳文には、第一言語そのままの文字列を挿入することとしている。   The second method is to specify multiple technical term dictionaries, and if the analysis fails with the highest priority dictionary, the entry word that failed to be analyzed is registered with a different part of speech in the lower priority dictionary. Search in order. If there is a headword that has failed in the analysis, the translation is performed using the part of speech, and if successful, a translated sentence is generated using a translation of a dictionary with a low priority. On the other hand, if such a candidate is not found, the headword part is treated as an unknown word, and the character string as it is in the first language is inserted into the translated sentence.

特定の見出し語(形態素)による解析失敗を回避するには、このように複数の辞書の切り替えが行われるわけであるが、この切り替えを自動化したものがある。具体的には、現在選択されている専門用語辞書の変換履歴、現在選択されている専門用語辞書、次に優先度の高い専門用語辞書の順に使用する翻訳辞書を自動的に切り替えていく。   In order to avoid an analysis failure due to a specific headword (morpheme), a plurality of dictionaries are switched in this way. Specifically, the translation dictionary used in the order of the conversion history of the currently selected technical term dictionary, the currently selected technical term dictionary, and the technical term dictionary with the next highest priority is automatically switched.

しかし、第一の方法では、機械翻訳において解析の失敗の原因となっている見出し語を特定することは、少なくとも第一言語の知識が必要であり、容易ではない。機械翻訳における失敗の傾向と人間翻訳における失敗の傾向は異なり、検出には一定のスキルを要する。また、仮にそのような見出し語が特定できたとして、その見出し語を少なくとも、同一文書内では棄却するものとして登録すると、その文書内でそれ以降に出現する文においてはその見出し語と品詞で解析が成功することがあっても使われないことになる。逆に、登録しない場合に、その文書内でそれ以降に出現する文においてその見出し語と品詞で失敗すれば、再度同じように棄却の命令を出す必要があり、作業の無駄が発生する。   However, in the first method, it is not easy to specify a headword that causes a failure in analysis in machine translation because at least knowledge of the first language is required. The tendency of failure in machine translation differs from the tendency of failure in human translation, and detection requires a certain skill. Also, assuming that such a headword can be identified, if the headword is registered as at least rejected in the same document, the sentence that appears later in the document is analyzed with the headword and part of speech. Will not be used even if it succeeds. On the other hand, if not registered, if the headword and the part of speech fail in a sentence that appears later in the document, it is necessary to issue a rejection command in the same manner, resulting in a waste of work.

また、解析には成功するとしても、単に優先させないと、選択した専門辞書の分野の訳語ではなくなり、代わりに標準辞書の訳語が採用されることになり、用語の統一が不十分になる。つまり、専門用語が使われるか否かは、解析に失敗するか否かによることになってしまう。そして、最悪の場合、第一言語のままになり、第二言語しか解しないユーザにとっては、文の理解に苦しむことになる。   Moreover, even if the analysis is successful, if it is not given priority, it will not be a translation in the field of the selected specialized dictionary, and instead a translation from the standard dictionary will be adopted, resulting in insufficient term unification. In other words, whether or not technical terms are used depends on whether or not the analysis fails. In the worst case, the user remains in the first language, and suffers from understanding the sentence for the user who understands only the second language.

特許第2807586号公報Japanese Patent No. 2807586 特開2000−3364号公報JP 2000-3364 A

選択した専門用語辞書を単純に適用した場合に起こる解析の失敗を回避しつつ、その専門用語辞書を最大限利用して、該当する専門分野の用語に統一を図った訳文を生成することのできる機械翻訳装置及び機械翻訳プログラムを提供することである。   Can avoid the failure of analysis that occurs when the selected technical term dictionary is simply applied, and can create a translation that uses the technical term dictionary as much as possible to unify the terms in the relevant technical field. A machine translation apparatus and a machine translation program are provided.

実施形態の機械翻訳装置は、単語単位の第一言語と第二言語との対訳情報を記憶装置に格納した翻訳辞書部と、複数の単語列からなる第一言語の専門用語の見出し語及びその訳語を対訳情報として記憶装置に格納した専門用語辞書部とを有する。専門用語調整手段は、前記翻訳辞書部の翻訳辞書情報及び前記専門用語辞書部の対訳情報を用いて構文解析を行い、前記専門用語辞書の見出し語が原因で構文解析に失敗したときは、その見出し語及びその訳語を単語単位に分解して辞書引きを行い、単語単位に分割したその見出し語の訳語候補のいずれかが、単語単位に分割した訳語に対応しているかどうかを判定し、対応しているものがあるときは、得られた訳文中のその見出し語の訳語に相当する部分をその訳語候補に置き換える。   A machine translation device according to an embodiment includes a translation dictionary unit that stores parallel translation information of a first language and a second language in a word unit in a storage device, a headword of a technical term of a first language composed of a plurality of word strings, and A technical term dictionary unit that stores translated words as parallel translation information in a storage device. The technical term adjustment means performs a syntax analysis using the translation dictionary information of the translation dictionary unit and the parallel translation information of the technical term dictionary unit, and when the syntax analysis fails due to a headword in the technical term dictionary, The headword and its translation are dissected into words and a dictionary is searched to determine whether any of the candidate translations of the headword divided into words corresponds to the translation divided into words. If there is something that is translated, the portion corresponding to the translation of the headword in the obtained translation is replaced with the translation candidate.

実施形態に係る機械翻訳装置の一例の機能ブロック構成図。The functional block block diagram of an example of the machine translation apparatus which concerns on embodiment. 実施形態に係る機械翻訳装置のハードウェア構成を示すブロック構成図。The block block diagram which shows the hardware constitutions of the machine translation apparatus which concerns on embodiment. 翻訳対象となる第一言語文書の一例の説明図。Explanatory drawing of an example of the 1st language document used as translation object. 図1の実施形態に係る機械翻訳装置の処理内容の一例を示すフローチャート。The flowchart which shows an example of the processing content of the machine translation apparatus which concerns on embodiment of FIG. 図3の文番号2の文に対して図4のステップS1〜ステップS8の処理を行った後の形態素解析情報の一例を示す説明図。Explanatory drawing which shows an example of the morpheme analysis information after performing the process of step S1-step S8 of FIG. 4 with respect to the sentence of the sentence number 2 of FIG. 図3の文番号2の文に対して構文解析を行った場合の解析結果の一例を示す説明図。Explanatory drawing which shows an example of the analysis result at the time of performing a syntax analysis with respect to the sentence of the sentence number 2 of FIG. 実施形態に係る機械翻訳装置の他の一例の機能ブロック構成図Functional block configuration diagram of another example of the machine translation device according to the embodiment 実施形態における副専門用語作成手段での見出し語の訳語候補のリスト作成の処理内容の一例を示すフローチャート。The flowchart which shows an example of the processing content of the list creation of the translation word candidate of the headword in the sub technical term creation means in embodiment. 図7の実施形態に係る機械翻訳装置の処理内容の一例を示すフローチャート。The flowchart which shows an example of the processing content of the machine translation apparatus which concerns on embodiment of FIG. 実施形態に係る機械翻訳装置の別の他の一例の機能ブロック構成図。The functional block block diagram of another example of the machine translation apparatus which concerns on embodiment. 実施形態における構文解析失敗環境知識部に格納された構文解析失敗環境知識の説明図。Explanatory drawing of the syntax analysis failure environment knowledge stored in the syntax analysis failure environment knowledge part in embodiment. 実施形態における構文解析失敗原因判別手段の処理内容の一例を示すフローチャート。The flowchart which shows an example of the processing content of the syntax analysis failure cause determination means in embodiment. 実施形態におけるコーパス検索結果の一例を示す説明図。Explanatory drawing which shows an example of the corpus search result in embodiment. 実施形態に係る機械翻訳装置のさらに別の他の一例の機能ブロック構成図。The functional block block diagram of another example of the machine translation apparatus which concerns on embodiment. 実施形態における参考情報表示手段による参考情報を表示した画面の一例の説明図。Explanatory drawing of an example of the screen which displayed the reference information by the reference information display means in embodiment.

以下、実施形態を図面に基づいて説明する。図1は、実施形態に係る機械翻訳装置の一例の機能ブロック構成図、図2は実施形態に係る機械翻訳装置のハードウェア構成を示すブロック構成図である。   Hereinafter, embodiments will be described with reference to the drawings. FIG. 1 is a functional block configuration diagram of an example of a machine translation apparatus according to the embodiment, and FIG. 2 is a block configuration diagram illustrating a hardware configuration of the machine translation apparatus according to the embodiment.

図2において、機械翻訳装置11は、例えば一般的なコンピュータに機械翻訳プログラムなどのソフトウェアプログラムがインストールされ、そのソフトウェアプログラムが演算制御装置12のプロセッサ13において実行されることにより実現される。   In FIG. 2, the machine translation device 11 is realized by installing a software program such as a machine translation program in a general computer and executing the software program in the processor 13 of the arithmetic control device 12.

演算制御装置12は機械翻訳に関する各種演算を行うものであり、演算制御装置12はプロセッサ13とメモリ14とを有し、メモリ14には機械翻訳・校正支援のプログラム15が記憶され、プロセッサ13により処理が実行される際には作業エリア16が用いられる。演算制御装置12の演算結果等は出力装置である表示装置17に表示・出力される。なお、出力装置として表示装置17を示しているが、出力装置としては、表示装置17だけではなく、印字機等の印刷装置、磁気テープ、磁気ディスク、光ディスク等のコンピュータ可読媒体への出力装置や、他のメディアに文書を送信する送信装置等を採用することもできる。   The arithmetic and control unit 12 performs various calculations related to machine translation. The arithmetic and control unit 12 includes a processor 13 and a memory 14. The memory 14 stores a machine translation / proofreading support program 15. The work area 16 is used when processing is executed. The calculation results of the calculation control device 12 are displayed / output on the display device 17 which is an output device. Although the display device 17 is shown as an output device, the output device is not limited to the display device 17, but is a printing device such as a printing machine, an output device to a computer-readable medium such as a magnetic tape, a magnetic disk, or an optical disk. It is also possible to employ a transmission device that transmits a document to other media.

入力装置18は演算制御装置12に情報を入力するものであり、例えば、マウス19、キーボード20、ディスクドライブ21から構成され、また、OCR(光学式文字読み取り装置)や、磁気テープ、磁気ディスク、光ディスク等、コンピュータ可読媒体からの読み込み装置を採用することも可能である。   The input device 18 is used to input information to the arithmetic control device 12, and is composed of, for example, a mouse 19, a keyboard 20, and a disk drive 21, and also an OCR (optical character reader), magnetic tape, magnetic disk, It is also possible to employ a reading device from a computer-readable medium such as an optical disk.

例えば、入力装置18であるマウス19やキーボード20は、表示装置17を介して演算制御装置12に各種指令を入力し、キーボード20、ディスクドライブ21は機械翻訳・校正支援対象の文書を入力する。すなわち、ディスクドライブ21は機械翻訳・校正支援対象の文書のファイルを記憶媒体に入出力するものである。さらに、演算制御装置12の演算結果や機械翻訳・校正支援に必要な知識・規則を蓄積した翻訳辞書等を記憶するハードディスクドライブ(HDD)22が設けられている。   For example, the mouse 19 and the keyboard 20 as the input device 18 input various commands to the arithmetic control device 12 via the display device 17, and the keyboard 20 and the disk drive 21 input a document to be supported for machine translation / proofreading. That is, the disk drive 21 inputs / outputs a file of a machine translation / proofreading support target document to / from a storage medium. Further, a hard disk drive (HDD) 22 is provided for storing a calculation result of the calculation control device 12 and a translation dictionary storing knowledge and rules necessary for machine translation / proofreading support.

図1において、図1に示す演算制御装置12内の各機能ブロックは、上述の機械翻訳プログラムを構成する各プログラムに対応する。すなわち、プロセッサ13が機械翻訳プログラムを構成する各プログラムを実行することで、演算制御装置12は、各機能ブロックとして機能することとなる。また、記憶装置25の各ブロックは、演算制御装置12内のメモリ14及びハードディスクドライブ22の記憶領域に対応する。   In FIG. 1, each functional block in the arithmetic and control unit 12 shown in FIG. 1 corresponds to each program constituting the above-described machine translation program. That is, when the processor 13 executes each program constituting the machine translation program, the arithmetic control device 12 functions as each functional block. Each block of the storage device 25 corresponds to a storage area of the memory 14 and the hard disk drive 22 in the arithmetic control device 12.

入力装置18は、翻訳対象となる第一言語文書の電子データを入力するものであり、ユーザの入力操作に基づいて翻訳対象となる第一言語文書の電子データを入力する。入力装置18によって入力された翻訳対象となる第一言語文書は、演算制御装置12の入力処理部23により入力処理されて取り込まれ、制御部24を介して記憶装置25の文書記憶部26に記憶される。また、入力装置18は、入力処理部23を介して制御部24に対して各種コマンドを与える。制御部24は、入力処理部23、出力処理部33、文書解析手段28、専門用語調整手段30を制御するとともに、記憶装置25とのデータの授受の制御も行う。   The input device 18 inputs electronic data of a first language document to be translated, and inputs electronic data of the first language document to be translated based on a user input operation. The first language document to be translated input by the input device 18 is input and captured by the input processing unit 23 of the arithmetic control device 12 and stored in the document storage unit 26 of the storage device 25 via the control unit 24. Is done. The input device 18 gives various commands to the control unit 24 via the input processing unit 23. The control unit 24 controls the input processing unit 23, the output processing unit 33, the document analysis unit 28, and the technical term adjustment unit 30, and also controls data exchange with the storage device 25.

記憶装置25には、翻訳辞書部27及び専門用語辞書部34が記憶されている。翻訳辞書部27は、文書解析手段28が翻訳対象となる第一言語文書を解析する際に用いる各種辞書データを格納しており、第一言語から第二言語への翻訳を行うための辞書、及び第二言語から第一言語への翻訳を行うための辞書を格納している。   The storage device 25 stores a translation dictionary unit 27 and a technical term dictionary unit 34. The translation dictionary unit 27 stores various dictionary data used when the document analysis unit 28 analyzes the first language document to be translated, a dictionary for translating from the first language to the second language, And a dictionary for translating from the second language to the first language.

すなわち、第一言語から第二言語への翻訳を行うための辞書は語尾等に変化のある単語・熟語をその原形に変換するための第一言語活用変化辞書27a、第一言語を解析するための文法が記憶された第一言語解析文法辞書27b、第一言語の単語・熟語に対応する第二言語の訳語がその品詞情報と共に記憶される第一言語単語・熟語辞書27c、第一言語から第二言語への変換情報が記憶された第一言語変換文法辞書27d、第二言語の文の構造を決定する第二言語生成文法辞書27e、さらに語尾等の語形を変化させて翻訳文を完成させる第二言語形態素生成文法辞書27fを格納している。   That is, the dictionary for translating from the first language to the second language is a first language utilization change dictionary 27a for converting a word / idiom having a change in the ending to its original form, for analyzing the first language. The first language analysis grammar dictionary 27b storing the grammar of the first language, the first language word / idiom dictionary 27c in which the translation of the second language corresponding to the first language word / idiom together with the part of speech information is stored, The first language conversion grammar dictionary 27d storing the conversion information to the second language, the second language generation grammar dictionary 27e for determining the structure of the sentence in the second language, and further changing the word form such as the ending and completing the translated sentence The second language morpheme generation grammar dictionary 27f to be stored is stored.

それらに加え、第二言語活用変化辞書27h、第二言語を解析するための文法が記憶された第二言語解析文法辞書27i、第二言語の単語・熟語に対応する第一言語の訳語が、その品詞情報と共に記憶される第二言語単語・熟語辞書27j、第二言語から第一言語への変換情報が記憶された第二言語変換文法辞書27k、第一言語の文の構造を決定する第一言語生成文法辞書27l、さらに語尾等の語形を変化させて翻訳文を完成させる第一言語形態素生成文法辞書27m等を格納している。   In addition to them, the second language utilization change dictionary 27h, the second language analysis grammar dictionary 27i in which the grammar for analyzing the second language is stored, and the translation of the first language corresponding to the second language word / idiom, The second language word / idiom dictionary 27j stored together with the part of speech information, the second language conversion grammar dictionary 27k stored with the conversion information from the second language to the first language, and the first language sentence structure are determined. A one-language generation grammar dictionary 27l and a first language morpheme generation grammar dictionary 27m for changing a word form such as a ending and completing a translated sentence are stored.

また、専門用語辞書部34には、複数の単語列からなる第一言語の専門用語及びその訳語を対訳情報とした専門用語辞書が記憶されている。   The technical term dictionary unit 34 stores a technical term dictionary of a first language composed of a plurality of word strings and a technical term dictionary using the translated words as parallel translation information.

文書解析手段28は、制御部24からの指示に従って、記憶装置25の翻訳辞書部27の翻訳辞書情報及び専門用語辞書部34の対訳情報を用いて、入力装置18によって入力され文書記憶部26に記憶された翻訳対象となる第一言語文書の形態素解析を行い、形態素の属性情報及び訳語情報を解析情報として記憶装置25の解析情報記憶部29に記憶する。   The document analysis means 28 is input to the document storage unit 26 by the input device 18 using the translation dictionary information of the translation dictionary unit 27 of the storage device 25 and the parallel translation information of the technical term dictionary unit 34 in accordance with an instruction from the control unit 24. The morpheme analysis of the stored first language document to be translated is performed, and the attribute information and the translated word information of the morpheme are stored in the analysis information storage unit 29 of the storage device 25 as analysis information.

それとともに、構文解析を行い構文解析が成功したときは、解析情報の訳語情報に基づき訳文を生成する。一方、専門用語辞書部34の専門用語辞書の見出し語が使われずに構文解析に失敗したときは不完全な状態で訳文を生成し、専門用語辞書部34の専門用語辞書の見出し語が使われて構文解析に失敗したときはその見出しを棄却して訳文を得る。また、文書解析手段28の解析結果や訳文は、必要に応じて、制御部24及び出力処理部33を介して表示装置17に表示・出力される。   At the same time, when the syntax analysis is performed and the syntax analysis is successful, a translation is generated based on the translation information of the analysis information. On the other hand, if syntax analysis fails without using the technical term dictionary entry word in the technical term dictionary unit 34, a translation is generated in an incomplete state, and the technical term dictionary entry word in the technical term dictionary unit 34 is used. If the parsing fails, the headline is rejected and a translation is obtained. Moreover, the analysis result and the translation of the document analysis means 28 are displayed / output on the display device 17 via the control unit 24 and the output processing unit 33 as necessary.

専門用語調整手段30は、構文解析が失敗した際に失敗の原因となる専門用語辞書の見出し語を検出し、見出し語及びその訳語を単語単位に分解して、第一言語と第二言語間で単語レベルの対応関係を抽出する。すなわち、専門用語調整手段30は、文書解析手段28が専門用語辞書部34の見出し語の棄却により訳文を得たときは、その見出し語及び訳語を単語単位に分解して辞書引きを行い、単語単位に分割した第一言語の見出し語の訳語候補のいずれかが単語単位に分割した見出し語の訳語に一致しているかどうかを判定する。そして、一致しているものがあるときは、文書解析手段30で得られた訳文中のその見出し語の訳語に相当する部分をその訳語候補に置き換える。その結果を、必要に応じて、制御部24及び出力処理部33を介して表示装置17に表示・出力する。   The technical term adjustment means 30 detects a headword of the technical term dictionary that causes the failure when the parsing fails, decomposes the headword and its translation into a word unit, and between the first language and the second language To extract the word level correspondence. In other words, when the document analysis unit 28 obtains a translation by rejecting the headword in the technical term dictionary unit 34, the technical term adjustment unit 30 decomposes the headword and the translation into words and performs a dictionary lookup. It is determined whether any of the translation candidates of the first word headword divided into units matches the translation of the headword divided into word units. If there is a match, the part corresponding to the translation of the headword in the translation obtained by the document analysis means 30 is replaced with the translation candidate. The result is displayed / output on the display device 17 via the control unit 24 and the output processing unit 33 as necessary.

出力処理部33は、制御部24を介して供給された第一言語文書の対訳文書、解析結果、構文解析失敗箇所、専門用語調整後の新たな翻訳結果を表示装置17に出力処理するものであり、これにより、表示装置17の表示画面上に翻訳情報画面が表示される。また、出力処理部33は制御部24への各種コマンドに対する制御部24からの応答を表示する。   The output processing unit 33 outputs the bilingual document of the first language document, the analysis result, the syntax analysis failure location, and the new translation result after the technical term adjustment to the display device 17 supplied via the control unit 24. Thus, the translation information screen is displayed on the display screen of the display device 17. The output processing unit 33 displays responses from the control unit 24 to various commands to the control unit 24.

以下の説明では、英語を第一言語とし日本語を第二言語とした場合を一例として説明する。また、図3は、以下の説明で使用する翻訳対象となる第一言語文書の一例の説明図であり、文番号1から文番号3は翻訳対象となる第一言語の文の一例、文番号4は後の説明で使用する第一言語の文の一例である。なお、これらの文は、説明のための一例であるので文同士に連関性はない。   In the following description, the case where English is the first language and Japanese is the second language will be described as an example. FIG. 3 is an explanatory diagram of an example of a first language document to be translated used in the following description. Sentence numbers 1 to 3 are examples of sentences in the first language to be translated, sentence numbers. 4 is an example of a sentence in the first language used in later explanation. Since these sentences are examples for explanation, the sentences are not related to each other.

また、以下の説明で使用する専門用語辞書としては、「化学辞書」が選択されているものとする。この専門用語辞書には、図3の文番号1の文にあるような文を念頭に置き、”mixed solution”という見出し語が、品詞を「名詞」、訳語を「混合溶液」として登録されているものとする。ここでは、説明を簡単化するため、標準辞書以外に用いる専門用語辞書は1つとし、ユーザ辞書には何も登録されていないこととする。なお、複合語の登録内容をできるだけ利用するという意味では、1つの専門用語辞書に限らず、ユーザ辞書についてもいえるので、「専門用語辞書」というものを、複合語を見出し語として登録可能なユーザ辞書をも含むものとして実施しても構わない。   In addition, it is assumed that “chemical dictionary” is selected as the technical term dictionary used in the following description. In this technical vocabulary dictionary, the sentence like sentence 1 in FIG. 3 is stored in mind, and the headword “mixed solution” is registered as “noun” as part of speech and “mixed solution” as translation. It shall be. Here, in order to simplify the explanation, it is assumed that there is one technical term dictionary other than the standard dictionary and nothing is registered in the user dictionary. In addition, in terms of using compound word registration content as much as possible, it can be applied not only to one technical term dictionary but also to a user dictionary. It may be implemented as including a dictionary.

図4は、図1の実施形態に係る機械翻訳装置の処理内容の一例を示すフローチャートである。まず、制御部24は、入力装置18から入力処理部23を介して入力された翻訳対象となる第一言語文書を記憶する(S1)。すなわち、翻訳対象となる第一言語を文書記憶部26に記憶する。   FIG. 4 is a flowchart showing an example of processing contents of the machine translation apparatus according to the embodiment of FIG. First, the control part 24 memorize | stores the 1st language document used as the translation object input via the input process part 23 from the input device 18 (S1). That is, the first language to be translated is stored in the document storage unit 26.

次に、制御部24は文書解析手段28を起動し、文書解析手段28は起動されると、文書記憶部26から第一言語の文書及び専門用語辞書部34の専門用語辞書を読み出し、第一言語の文書の各文をそれぞれ形態素に分割し、品詞などの属性情報を得る(S2)。これは、翻訳対象となる第一言語の文書の各文の統語的特徴を得るためである。ステップS2においては、翻訳辞書部27の第一言語から第二言語への翻訳を行うための辞書、具体的には第一言語活用変化辞書27aと第一言語解析文法辞書27bの照合により、各単語につき、品詞、原形、属性が付与され、また、各形態素がどのような関係を有するかを示す文構造(係り受け関係)を得る。   Next, the control unit 24 activates the document analysis unit 28. When the document analysis unit 28 is activated, the document 24 is read from the document storage unit 26 and the technical term dictionary of the technical term dictionary unit 34 is read out. Each sentence of the language document is divided into morphemes, and attribute information such as part of speech is obtained (S2). This is to obtain syntactic features of each sentence of the first language document to be translated. In step S2, the dictionary for translation from the first language to the second language of the translation dictionary unit 27, specifically, the collation of the first language utilization change dictionary 27a and the first language analysis grammar dictionary 27b, Part of speech, original form, and attribute are assigned to each word, and a sentence structure (dependency relationship) indicating what relationship each morpheme has is obtained.

次に、文書解析手段28は、第一言語単語・熟語辞書27cを用いて、それぞれの形態素に対して翻訳辞書部27内に定義している訳語情報を得る(S3)。さらに、構文解析を行い(S4)、構文解析に成功したかどうかを判定する(S5)。   Next, the document analysis means 28 uses the first language word / idiom dictionary 27c to obtain translation information defined in the translation dictionary unit 27 for each morpheme (S3). Further, syntax analysis is performed (S4), and it is determined whether the syntax analysis is successful (S5).

文書解析手段28は、構文解析に成功すれば、第一言語変換文法辞書27d、第二言語生成文法辞書27e、第二言語形態素生成文法辞書27fを用いて、第二言語の構造に変換し訳語の形態素生成を行い訳文を得る(S6)。   If the syntax analysis is successful, the document analysis unit 28 converts the structure into the second language using the first language conversion grammar dictionary 27d, the second language generation grammar dictionary 27e, and the second language morpheme generation grammar dictionary 27f. The morpheme is generated to obtain a translation (S6).

一方、文書解析手段28は、ステップS5の判定で、成功でない(失敗である)と判定したときは、失敗の原因が専門用語辞書に登録されている語であるか否かにあるかの可能性を探るために、形態素解析結果の中に、専門用語辞書由来の見出し語が使われているかどうかを調べる(S7)。専門用語辞書由来の見出し語が使われていない場合は、構文解析に失敗した不完全な状態で生成できる訳文を得る(S6)。一方、専門用語辞書由来の見出し語が使われている場合は、該当する見出し語を形態素解析において棄却する(S8)。そして、ステップS4に戻り再度構文解析を行う。   On the other hand, when the document analysis unit 28 determines that the result of the determination in step S5 is not successful (failure), it is possible whether the cause of the failure is a word registered in the technical term dictionary. In order to investigate the nature, it is checked whether or not a headword derived from the technical term dictionary is used in the morphological analysis result (S7). When a headword derived from the technical term dictionary is not used, a translation that can be generated in an incomplete state in which parsing has failed is obtained (S6). On the other hand, when a headword derived from the technical term dictionary is used, the headword is rejected in the morphological analysis (S8). Then, the process returns to step S4 and the syntax analysis is performed again.

なお、問題となる形態素が複数ある場合は、全部を一気に候補から削除するのではなく、徐々に候補から落としていく。つまり、問題のない形態素はなるべく利用することとする。さて、ここで、ステップS5の判定で、再度失敗と判定されたときは、構文解析に失敗した不完全な状態で、生成できる訳文を得る(S6)。   When there are a plurality of problematic morphemes, all of them are gradually deleted from the candidates instead of being deleted from the candidates all at once. In other words, morphemes that have no problem are used as much as possible. Now, if it is determined again as a failure in the determination in step S5, a translation that can be generated in an incomplete state in which parsing has failed is obtained (S6).

ここで、ここまでのステップS1〜ステップS8の処理の具体例について説明する。ステップS1〜ステップS8の処理で得られた形態素解析情報、訳語情報、係り受け関係、翻訳結果は、制御部24により解析情報記憶部29に記憶される。図3の文番号2の場合に、解析情報記憶部29に記憶される形態素解析情報の一例を図5に示す。   Here, the specific example of the process of step S1-step S8 so far is demonstrated. The morpheme analysis information, the translation information, the dependency relationship, and the translation result obtained by the processes in steps S1 to S8 are stored in the analysis information storage unit 29 by the control unit 24. FIG. 5 shows an example of morpheme analysis information stored in the analysis information storage unit 29 in the case of sentence number 2 in FIG.

図5は、図3の文番号2の文に対して図4のステップS1〜ステップS8の処理を行った後の形態素解析情報の一例を示す説明図である。図5に示すように、文番号2の文は10個の形態素に分割され、英語品詞、原形、活用形、日本語訳語、日本語品詞、出典辞書名の項目を有している。なお、日本語訳語は複数可能である場合、頻度が高い順に格納されている。例えば、solutionには、「解」と「溶液」との2つの訳語が格納されていることがわかる。また、solution以外の訳語については説明の簡単化のために、1つの訳語しか挙げていない。   FIG. 5 is an explanatory diagram showing an example of morpheme analysis information after the processing of step S1 to step S8 in FIG. 4 is performed on the sentence with sentence number 2 in FIG. As shown in FIG. 5, the sentence of sentence number 2 is divided into 10 morphemes and has items of English part of speech, original form, inflection form, Japanese translation, Japanese part of speech, and source dictionary name. When a plurality of Japanese translations are possible, they are stored in descending order of frequency. For example, it can be seen that two translations of “solution” and “solution” are stored in solution. For translations other than solution, only one translation is listed for simplicity of explanation.

文番号2の文において、構文解析に最初に採用する形態素列としては、専門用語辞書の見出し語(ここでは番号10の”mixed solution”)を含んだものとなる。すなわち、1−2−3−4−5−6−10となる。これを品詞の並びとして書き表すと、「冠詞(1)+名詞(2)+動詞(3)+前置詞(4)+冠詞(5)+副詞(6)+名詞(10)」となる。   In the sentence of sentence number 2, the morpheme sequence that is first adopted for the syntax analysis includes the headword of the technical term dictionary (here, “mixed solution” of number 10). That is, 1-2-3-4-5-6-10. When this is expressed as an arrangement of parts of speech, it becomes “article (1) + noun (2) + verb (3) + preposition (4) + article (5) + adverb (6) + noun (10)”.

構文解析を行う際は、「冠詞(1)+名詞(2)」は名詞句として纏め上げることができる。この名詞句は次の動詞(3)の主語ととらえれば接続可能である。また、動詞(3)+前置詞(4)も接続可能である。前置詞(4)の後ろは名詞句が後続することが期待される。名詞句の冒頭の品詞は冠詞が可能であるので、次の冠詞(5)も問題ない。残った2つの形態素で名詞句を構成することが期待されるが、副詞は名詞を修飾し得ない。従って、「副詞(6)+名詞(10)」は名詞句とは認定されない。このようにして、これら2つの形態素が文において果たす役割が解析では不明となり、結果として構文解析は失敗する。   When parsing, “article (1) + noun (2)” can be summarized as a noun phrase. This noun phrase can be connected if it is taken as the subject of the next verb (3). Also, verb (3) + preposition (4) can be connected. It is expected that a noun phrase follows the preposition (4). Since the part of speech at the beginning of a noun phrase can be an article, the following article (5) is not a problem. Although the remaining two morphemes are expected to form a noun phrase, adverbs cannot modify nouns. Therefore, “adverb (6) + noun (10)” is not recognized as a noun phrase. In this way, the role that these two morphemes play in the sentence is unknown in the analysis, and as a result, the parsing fails.

専門用語辞書の見出し語(”mixed solution”)を含んだ場合には、構文解析に失敗するので、名詞(10)の”mixed solution”を候補から外し(S7、S8)、再度構文解析を行う(S4)。   If the technical term dictionary entry (“mixed solution”) is included, the syntax analysis fails, so the “mixed solution” of the noun (10) is excluded from the candidates (S7, S8), and the syntax analysis is performed again. (S4).

この再度の構文解析に用いられる形態素列は、番号で表すと、1−2−4−5−6−7−9、または、1−2−3−4−5−6−8−9である。品詞で表すとそれぞれ、「冠詞(1)+名詞(2)+動詞(3)+前置詞(4)+冠詞(5)+副詞(6)+動詞過去形(7)+名詞(9)」、または、「冠詞(1)+名詞(2)+動詞(3)+前置詞(4)+冠詞(5)+副詞(6)+動詞過去分詞形(8)+名詞(9)」となる。   The morpheme sequence used for this second parsing is 1-2-4-5-6-7-9 or 1-2-3-4-5-6-8-9 in number. . When expressed in parts of speech, “article (1) + noun (2) + verb (3) + preposition (4) + article (5) + adverb (6) + verb past tense (7) + noun (9)”, Or, “article (1) + noun (2) + verb (3) + preposition (4) + article (5) + adverb (6) + verb past participle form (8) + noun (9)”.

最初の候補では解析不能となっていた、冠詞(5)の後続部分に着目すると、英語文法により、前者の「副詞+動詞過去形+名詞」は名詞句を構成し得ないが、後者の「副詞+動詞過去分詞形+名詞」は名詞句を構成し得るので、「冠詞(1)+名詞(2)+動詞(3)+前置詞(4)+冠詞(5)+副詞(6)+動詞過去分詞形(8)+名詞(9)」を採用し構文解析を成功させることができる。   Focusing on the subsequent part of article (5), which was impossible to analyze in the first candidate, the former “adverb + verb past tense + noun” cannot constitute a noun phrase by the English grammar, but the latter “ Adverb + verb past participle + noun can constitute a noun phrase, so "article (1) + noun (2) + verb (3) + preposition (4) + article (5) + adverb (6) + verb The past participle form (8) + noun (9) "can be adopted to succeed in the parsing.

図6は図3の文番号2の文に対して構文解析を行った場合の解析結果の一例を示す説明図である。図6に示すように、形態素列が1−2−3−4−5−6−8−9のときに構文解析に成功する。これにより、文番号2の訳文として、図5に示した情報を用いて「反応は入念に混ぜた解の中で続く。」が得られる。   FIG. 6 is an explanatory diagram showing an example of the analysis result when the syntax analysis is performed on the sentence with sentence number 2 in FIG. As shown in FIG. 6, the parsing succeeds when the morpheme string is 1-2-3-4-5-6-8-9. As a result, “the reaction continues in a carefully mixed solution” is obtained as the translated sentence of sentence number 2 using the information shown in FIG.

次に、ステップS5で訳文を得たのは専門用語の棄却によるものかどうかを判定する(S9)。専門用語の棄却によるものでない場合には処理を終了する。専門用語の棄却によるものである場合には、ステップS6で得られた訳文「反応は入念に混ぜた解の中で続く。」の調整を以下の処理で行う。   Next, it is determined whether the translation is obtained in step S5 due to rejection of the technical term (S9). If it is not due to rejection of technical terms, the process is terminated. If it is due to rejection of the technical terms, adjustment of the translated sentence “Reaction continues in a carefully mixed solution” obtained in step S6 is performed by the following processing.

制御部24は専門用語調整手段30を起動する。専門用語調整手段30は起動されると、見出し語、訳語をそれぞれ形態素に分割し、品詞などの属性情報を得る(S10)。   The control unit 24 activates the technical term adjustment means 30. When the technical term adjustment means 30 is activated, the headword and the translation are each divided into morphemes to obtain attribute information such as part of speech (S10).

文番号2の文の場合、問題となっていた見出し語は”mixed solution”(訳語「混合溶液」、品詞「名詞」)である。第一言語単語・熟語辞書27c、第二言語単語・熟語辞書27jを用いて、見出し語及びその訳語の各形態素に対して辞書引きを行い、訳語を得る(S11)。すなわち、その見出し語及び訳語を単語単位に分解して辞書引きを行う。   In the case of sentence No. 2, the headword in question is “mixed solution” (translation “mixed solution”, part of speech “noun”). Using the first language word / idiom dictionary 27c and the second language word / idiom dictionary 27j, dictionary lookup is performed for each morpheme of the headword and its translation word to obtain a translation (S11). That is, the headword and the translated word are decomposed into word units to perform dictionary lookup.

見出し語部分の「mixed solution」については、図5に示すようにmixed (<mix)とsolutionに分解でき、訳語としてそれぞれ、「混ぜる」と「解、溶液」がある。一方、訳語「混合溶液」は「混合」と「溶液」からなる複合語と形態素解析されると、「混合」はサ変名詞、「溶液」は名詞と判断される。第二言語単語・熟語辞書27jには、「混合」の動詞訳語として”mix, blend, mingle”、名詞訳語としてmixing, mixtureがあり、「溶液」の訳語として、”solution”が入っているものとする。   The “mixed solution” in the headword part can be decomposed into mixed (<mix) and solution as shown in FIG. 5, and there are “mixed” and “solution, solution” as translations, respectively. On the other hand, when the translated word “mixed solution” is analyzed with a compound word consisting of “mixed” and “solution” and morphological analysis, it is determined that “mixed” is a sane noun and “solution” is a noun. The second language word / idiom dictionary 27j has "mix, blend, mingle" as a verb translation of "mix", mixing, mixture as a noun translation, and "solution" as a translation of "solution" And

ここで、以上の説明では、”mixed”と「混合」とが対応することを、「混合」の英語訳語に”mix”があることをもって判断したが、次のケースにもこのような対応関係をみてとることができる。すなわち、標準辞書のmixの第一訳語が「混ぜる」、第二訳語またはそれ以降の訳語に「混合する」がある場合にも、”mixed”と「混合」とが対応すると判断できる。これによりmixと混合するとが対応することがわかり、サ変名詞の性質から”mixed”と「混合」が対応することを導くことができる。   Here, in the above explanation, it was determined that “mixed” corresponds to “mixed” based on the fact that “mix” is in the English translation of “mixed”. You can take a look. That is, it can be determined that “mixed” corresponds to “mixed” even when the first translation of the standard dictionary mix is “mixed” and the second translated word or later is “mixed”. As a result, it can be seen that “mixed” corresponds to “mixed”, and the “mixed” and “mixed” can be derived from the nature of the weird variable noun.

ステップS11での辞書引きが終わると、第一言語の見出し語の各形態素が対応する第二言語の訳語の形態素の辞書引き結果の訳語候補のいずれかと、内容語に関して一致しているかを判定する(S12)。   When the dictionary lookup in step S11 ends, it is determined whether each morpheme of the first language entry word matches one of the translation word candidates of the dictionary lookup result of the corresponding second language translation word in terms of the content word. (S12).

この判定により、「混合」の第一言語への訳語候補の中に、動詞”mix”があり、また、「溶液」については、第一言語への訳語候補の中に名詞”solution”があり、solutionの第二言語への訳語の中に「溶液」があることがわかるので、”mixed”と「混合(する)」、”solution”と「溶液」が単語レベルで対応していることがわかる。   As a result of this determination, the verb “mix” is included in the translation candidate for the first language of “mixed”, and the noun “solution” is included in the translation candidate for the first language for “solution”. , You can see that “solution” is in the second language translation of solution, so “mixed” and “mixed”, “solution” and “solution” correspond at the word level. Recognize.

そこで、一旦、標準辞書の訳語で生成した訳文の中の問題の単語列の訳の部分をこれらの用語に置き換える。すなわち、ステップS6で得られた訳文の中で、ステップS12で一致を見た部分について訳語を置き換える(S13)。   Therefore, the translation part of the problematic word string in the translation generated by the translation of the standard dictionary is replaced with these terms. That is, in the translated text obtained in step S6, the translated word is replaced with respect to the part that has been matched in step S12 (S13).

これは、「反応は入念に混ぜた解の中で続く。」においては、“mixed solution”に対応する「混ぜた解」を「混合した溶液」と置き換えることを意味する。最終的な訳文として、「反応は入念に混合した溶液の中で続く。」を得て、処理は終了する。こうして選択した化学分野にあった用語を用いた訳文が生成されることになる。   This means that in “the reaction continues in a carefully mixed solution”, the “mixed solution” corresponding to the “mixed solution” is replaced with the “mixed solution”. As a final translation, the process ends with "The reaction continues in a carefully mixed solution." In this way, a translation using terms that match the selected chemical field is generated.

以上の説明では、図3の文番号2の文のケースを見たが、同じく文番号3の文も”mixed solution”を名詞として採用することで構文解析の失敗を招く。なお、文番号3の文の場合は、mixedは文の主動詞として機能している。   In the above description, the case of the sentence with sentence number 2 in FIG. 3 was seen. Similarly, the sentence with sentence number 3 also causes a failure in parsing by adopting “mixed solution” as a noun. In the case of the sentence with sentence number 3, mixed functions as the main verb of the sentence.

一方、文番号4の文は化学分野以外の文書からの文である。従って、「化学専門用語辞書」は選択されていない。この文は、”mixed solution”は名詞と扱っても構文解析に成功するケースであり、solutionは「解、解決策」といった意味に解釈されるべきものである。このように、文番号4は、化学専門用語辞書にある訳語の調整がかからないことになるので、solutionには、標準辞書の訳語が用いられてsolutionを「解」とするのに対し、文番号1〜3については「化学専門用語辞書」の情報より、すべて「溶液」と調整可能なことから、分野に応じた訳文を出力可能である。   On the other hand, the sentence with sentence number 4 is a sentence from a document outside the chemical field. Therefore, the “chemical terminology dictionary” is not selected. In this sentence, “mixed solution” is a case where parsing succeeds even if it is treated as a noun, and solution should be interpreted as meaning “solution, solution”. Thus, sentence number 4 does not require adjustment of the translation in the chemical terminology dictionary, so the translation of the standard dictionary is used for solution and the solution is “solution”. 1 to 3 can be adjusted to “solution” based on the information in the “chemical terminology dictionary”, so that a translation corresponding to the field can be output.

次に、実施形態に係る機械翻訳装置の他の一例を説明する。図7は、実施形態に係る機械翻訳装置の他の一例の機能ブロック構成図である。この他の一例は、図1に示した一例に対し、副専門用語作成手段31及び副専門用語辞書部32を追加して設けたものである。図1と同一要素には同一符号を付し重複する説明は省略する。   Next, another example of the machine translation apparatus according to the embodiment will be described. FIG. 7 is a functional block configuration diagram of another example of the machine translation device according to the embodiment. In another example, a sub technical term creating means 31 and a sub technical term dictionary unit 32 are added to the example shown in FIG. The same elements as those in FIG. 1 are denoted by the same reference numerals, and redundant description is omitted.

副専門用語作成手段31は、専門用語辞書部34のすべての見出し語について、予め単語単位に分解した第一言語の見出し語の訳語候補のリストを作成するものであり、副専門用語辞書部32は、副専門用語作成手段31で作成された見出し語の訳語候補のリストを格納するものである。   The sub-technical term creating means 31 creates a list of candidate translations of the first language headwords that have been decomposed into units of words for all headwords in the technical term dictionary unit 34. Stores a list of candidate translations of headwords created by the sub-technical term creation means 31.

図8は、副専門用語作成手段31での見出し語の訳語候補のリスト作成の処理内容の一例を示すフローチャートである。副専門用語作成手段31は、選択された専門用語辞書のすべての見出し語と訳語との対について、図8に示すように、図4のステップS10、S11、S12と同じ処理(C1、C2、C3)を行う。   FIG. 8 is a flowchart showing an example of processing contents for creating a list of candidate translations of headwords in the sub technical term creating means 31. As shown in FIG. 8, the sub-technical term creating means 31 performs the same processing (C1, C2,...) As shown in FIG. 8 for all headword / translation pairs of the selected technical term dictionary. C3) is performed.

すなわち、見出し語、訳語をそれぞれ形態素に分割し、品詞などの属性情報を得る(C1)。次に、翻訳辞書部27の第一言語単語・熟語辞書27c、第二言語単語・熟語辞書27jを用いて、見出し語及びその訳語の各形態素に対して辞書引きを行い、訳語を得る(C2)。そして、第一言語の見出し語の各形態素が対応する第二言語の訳語の形態素の辞書引き結果の訳語候補のいずれかと、内容語に関して一致しているかを判定する(C3)。   That is, the headword and the translation are each divided into morphemes to obtain attribute information such as part of speech (C1). Next, using the first language word / idiom dictionary 27c and the second language word / idiom dictionary 27j of the translation dictionary unit 27, dictionary lookup is performed for each morpheme of the headword and its translation word to obtain a translation (C2 ). Then, it is determined whether each morpheme of the first language entry word matches with any one of the translation word candidates of the dictionary lookup result of the corresponding morpheme of the second language translation word (C3).

判定した結果、一致した対を品詞とともに副専門用語辞書部32に記憶する(C4)。そして、次に見出し語はあるかどうかを判定し(C5)、見出し語があるときはステップC1に戻り、ステップC1〜ステップC5の処理を繰り返し行う。これにより、見出し語について第一言語の単語とその品詞、対応する訳語のリストが作成され、副専門用語辞書部32に蓄積される。副専門用語辞書部32に蓄積されたリストは本来の専門用語辞書部34を補う補完的な辞書とみなすことができる。   As a result of the determination, the matched pair is stored in the sub-terminology dictionary unit 32 together with the part of speech (C4). Then, it is determined whether or not there is a headword (C5). If there is a headword, the process returns to step C1 and the processes of steps C1 to C5 are repeated. As a result, a list of words in the first language, their parts of speech, and the corresponding translated words is created for the headword and stored in the sub-terminology dictionary unit 32. The list stored in the sub-terminology dictionary unit 32 can be regarded as a complementary dictionary that supplements the original technical term dictionary unit 34.

図9は、図7の実施形態に係る機械翻訳装置の処理内容の一例を示すフローチャートである。図4に示した処理内容に対し、ステップS12でNOと判定された後に新たな処理であるステップS14〜ステップS17が追加されている。   FIG. 9 is a flowchart showing an example of processing contents of the machine translation apparatus according to the embodiment of FIG. Steps S14 to S17, which are new processes, are added to the processing contents shown in FIG. 4 after it is determined NO in step S12.

すなわち、専門用語調整手段30は、第一言語の見出し語の各形態素が対応する第二言語の訳語の形態素の辞書引き結果の訳語候補のいずれかと、内容語に関して一致していないときは、棄却した見出し語相当箇所の構文解析に成功した単語・品詞が正規の専門用語辞書に登録されているか否かを判定する(S14)。つまり、単語単位に分割した第一言語の見出し語の訳語候補のいずれかが単語単位に分割した見出し語の訳語に一致していないときは、単語単位に分解した第一言語の見出し語の訳語が専門用語辞書部34にあるかどうかを判定する。   That is, the technical term adjustment means 30 rejects, when the content word does not match any of the translation word candidates of the dictionary lookup result of the morpheme of the second language translation corresponding to each morpheme of the first language entry word. It is determined whether or not the words / parts of speech that have been successfully parsed in the headword equivalent portion are registered in the regular technical term dictionary (S14). In other words, if any of the translation candidates of the first language entry word divided into word units does not match the translation of the entry word divided into word units, the translation of the first language entry word decomposed into word units Is in the technical term dictionary unit 34.

専門用語辞書に登録されているときは、ステップS6で得られた訳文の中でステップS14で得られた部分について訳語を置き換える(S15)。つまり、文書解析手段28で得られた訳文中のその見出し語の単語単位の訳語に相当する部分をその専門用語辞書部34の訳語に置き換える。   When it is registered in the technical term dictionary, the translated word is replaced for the part obtained in step S14 in the translated sentence obtained in step S6 (S15). That is, the portion corresponding to the word-by-word translation of the entry word in the translation obtained by the document analysis unit 28 is replaced with the translation of the technical term dictionary unit 34.

一方、ステップS14の判定で、専門用語辞書に登録されていないときは、棄却した見出し語相当箇所の構文解析に成功した単語・品詞が副専門用語辞書に登録されているか否かを判定する(S16)。つまり、単語単位に分解した第一言語の見出し語の訳語が副専門用語辞書部32にあるかどうかを判定する。   On the other hand, if it is determined in step S14 that it is not registered in the technical term dictionary, it is determined whether a word / part of speech that has been successfully parsed in the rejected headword equivalent part is registered in the sub-terminology dictionary ( S16). That is, it is determined whether or not the translation of the first language headword decomposed into word units is in the sub-terminology dictionary unit 32.

副専門用語辞書に登録されているときは、ステップS6で得られた訳文の中でステップS16で得られた部分について訳語を置き換える(S17)。つまり、文書解析手段28で得られた訳文中のその見出し語の単語単位の訳語に相当する部分をその副専門用語辞書部32の訳語に置き換える。   If it is registered in the sub-terminology dictionary, the translated word is replaced for the part obtained in step S16 in the translated sentence obtained in step S6 (S17). That is, the part corresponding to the word-by-word translation of the entry word in the translation obtained by the document analysis unit 28 is replaced with the translation of the sub-terminology dictionary unit 32.

いま、専門用語辞書部34から選択された専門用語辞書の分野は「コンピュータ」とし、翻訳対象の例文として”These formulas, including both physical and virtual channels, are also permitted.”を用いる。また、このコンピュータ用語辞書には、見出し語”virtual channel”が、訳語「VC」、品詞「名詞」として登録されているものとする。   Now, the field of the technical term dictionary selected from the technical term dictionary unit 34 is “computer”, and “These formulas, including both physical and virtual channels, are also permitted” is used as an example sentence to be translated. In this computer terminology dictionary, the headword “virtual channel” is registered as a translated word “VC” and a part of speech “noun”.

この見出し語”virtual channel”を優先的に用いて構文解析を行うと構文解析に失敗することになる。これは、構成要素となっている”physical and virtual channels”に着目してみると、複数形の”virtual channels”を名詞として扱うことで、physical (形容詞) +and (接続詞)+virtual channels (名詞)という品詞列となるが、この品詞列は英語では構成要素となり得ないがゆえに矛盾が生じるためである。   If the headline “virtual channel” is preferentially used for syntax analysis, the syntax analysis will fail. Focusing on the “physical and virtual channels” that are constituent elements, the plural “virtual channels” are treated as nouns, and they are called physical (adjective) + and (connective) + virtual channels (noun). This is because the part-of-speech string cannot be a constituent element in English, and therefore there is a contradiction.

見出し語”virtual channel”を名詞とはせずに、”virtual channel”を単語レベルで”形容詞+名詞”とすれば、[[形容詞+接続詞+形容詞]+名詞]となり、構文解析に成功する。専門用語辞書の訳語調整のために、図4のステップS12で”virtual channel”とVCとの対応関係を取ろうとするが、対応がとれないものとする。   If the heading word “virtual channel” is not a noun and the word “virtual channel” is “adjective + noun” at the word level, then [[adjective + conjunction + adjective] + noun] is obtained and the parsing is successful. In order to adjust the translation of the technical term dictionary, it is assumed that the correspondence relationship between the “virtual channel” and the VC is taken in step S12 of FIG.

”virtual channel”は2単語からなるが、日本語としてのVCはVとCとよりなるともみなせるがVやC自体では意味を持たないからである。一方、このコンピュータ辞書の他の登録語として、”virtual domain”(訳語「バーチャル・ドメイン」、品詞「名詞」)や”virtual memory”(訳語「バーチャル・メモリ」、品詞「名詞」)があるとすれば、図8のステップC1〜ステップC5の過程で見出し語virtual、訳語「バーチャル」、品詞「形容詞」が獲得され、コンピュータの副専門用語辞書に格納されることになる。   This is because “virtual channel” consists of two words, but VC in Japanese can be regarded as consisting of V and C, but V and C itself have no meaning. On the other hand, other registered words of this computer dictionary include “virtual domain” (translation “virtual domain”, part of speech “noun”) and “virtual memory” (translation “virtual memory”, part of speech “noun”). Then, the headword virtual, the translation “virtual”, and the part of speech “adjective” are acquired in the process of step C1 to step C5 in FIG. 8 and stored in the sub-terminology dictionary of the computer.

まず、図9のステップS14では、棄却した見出し語相当箇所の構文解析に成功した単語・品詞が正規の専門用語辞書に登録されているか否かの判定する。この場合、”virtual channel”の”channel”が正規の専門用語辞書に、訳語「チャネル」、品詞「名詞」と登録されているとすれば、ステップS15において、上記例文のchannelの訳語を「チャネル」とする。   First, in step S14 of FIG. 9, it is determined whether or not a word / part of speech that has been successfully parsed in the rejected headword equivalent portion is registered in a regular technical term dictionary. In this case, if “channel” of “virtual channel” is registered in the regular technical term dictionary with the translated word “channel” and the part of speech “noun”, the translated word of the above-mentioned example channel is “channel” in step S15. "

一方、virtualは、正規の専門用語辞書に登録されていないとすれば、ステップS16に進み、今度は副専門用語辞書が検索される。すると前提条件の説明にあるように、virtualが副専門用語辞書に登録されていることが分かり、訳語「バーチャル」とする(S17)。このようにして、標準辞書には、virtual(形容詞)の訳語として「事実上の」、「仮想の」が、channel(名詞)の訳語として「チャンネル」が登録されていたとしても、ステップS14〜ステップS17の処理により、コンピュータの専門用語を用いた訳文を得ることができる。   On the other hand, if virtual is not registered in the regular technical term dictionary, the process proceeds to step S16, and this time, the sub technical term dictionary is searched. Then, as described in the preconditions, it can be seen that virtual is registered in the sub-terminology dictionary, and the translation is “virtual” (S17). In this way, even if “virtual” and “virtual” are registered as translations of virtual (adjective) and “channel” is registered as a translation of channel (noun) in the standard dictionary, steps S14 to S14 are performed. Through the processing in step S17, a translation using computer technical terms can be obtained.

次に、実施形態に係る機械翻訳装置の別の他の一例を説明する。図10は、実施形態に係る機械翻訳装置の別の他の一例の機能ブロック構成図である。この別の他の一例は、図7に示した他の一例に対し、構文解析失敗原因判別手段35及び構文解析失敗環境知識記憶部36を追加して設けたものである。図7と同一要素には同一符号を付し重複する説明は省略する。   Next, another example of the machine translation apparatus according to the embodiment will be described. FIG. 10 is a functional block configuration diagram of another example of the machine translation apparatus according to the embodiment. Another example of this is obtained by adding a syntax analysis failure cause determination means 35 and a syntax analysis failure environment knowledge storage unit 36 to the other example shown in FIG. The same elements as those in FIG.

構文解析失敗原因判別手段35は、文書解析手段28による図4のステップS5で構文解析に失敗した原因の追究を行うものである。構文解析失敗環境知識部36には、第一言語の単語の品詞の並びで構文解析が失敗する環境知識が格納されている。構文解析失敗原因判別手段35は、構文解析に失敗した見出し語の登録品詞及びその見出し語を構成する複数の単語の品詞を並べた構成品詞に基づき、構文解析失敗環境知識部36の構文解析失敗環境知識を参照して構文解析失敗原因を判別する。   The syntax analysis failure cause determination means 35 searches the cause of the failure in the syntax analysis in step S5 of FIG. 4 by the document analysis means 28. The parsing failure environmental knowledge section 36 stores environmental knowledge in which parsing fails with a sequence of parts of speech of words in the first language. The syntax analysis failure cause determination means 35 is based on the registered part-of-speech of the headword that has failed in the syntax analysis and the constituent part-of-speech in which the parts of speech of the plurality of words constituting the headword are arranged. Determine the cause of parsing failure by referring to environmental knowledge.

図11は構文解析失敗環境知識部36に格納された構文解析失敗環境知識の説明図である。構文解析失敗環境知識は、見出し語の「構成品詞」、「登録品詞」、「構文解析が失敗する環境」、「登録品詞による品詞列」からなる。   FIG. 11 is an explanatory diagram of syntax analysis failure environment knowledge stored in the syntax analysis failure environment knowledge unit 36. The syntax analysis failure environment knowledge is composed of the entry words “component part of speech”, “registered part of speech”, “environment in which syntax analysis fails”, and “part of speech string with registered part of speech”.

例えば、タイプ1では見出し語が2個の単語列からなり、その2個の単語の構成品詞が「形容詞+名詞」であり、一つの見出し語として登録品詞が「名詞」として登録された場合を示している。この場合、見出し語を一つの形態素(一つの単語)として取り扱った場合には、品詞は「名詞」として取り扱われる。従って、「構文解析が失敗する環境」に示すように、「形容詞and/or形容詞 名詞」といった語の並びは、本来は正しい品詞列であるが、「形容詞 名詞」が一つの形態素の「名詞」として取り扱われると、「登録品詞による品詞列」に示すように、「形容詞and名詞」となり、構文解析に失敗する品詞列となる。   For example, in Type 1, the headword is composed of two word strings, the part of speech of the two words is “adjective + noun”, and the registered part of speech is registered as “noun” as one headword. Show. In this case, when the headword is handled as one morpheme (one word), the part of speech is handled as a “noun”. Therefore, as shown in "Environment where parsing fails", the sequence of words such as "adjective and / or adjective noun" is originally a correct part-of-speech sequence, but "adjective noun" is a "noun" of one morpheme. As shown in “Part of speech string with registered part of speech”, it becomes “adjective and noun”, resulting in a part of speech string that fails parsing.

構文解析失敗原因判別手段35は、このような構文解析失敗環境知識に基づき、構文解析に失敗した原因を判別する。例えば、「登録品詞による品詞列」に示す「形容詞and名詞」で、構文解析に失敗した場合には、見出し語の登録品詞である「名詞」に代えて、見出し語の構成品詞「形容詞+名詞」として、再度構文解析を行う。そうすると、「構文解析が失敗する環境」に示す「形容詞and/or形容詞 名詞」の並びになり、構文解析に成功する。これにより、構文解析の失敗原因は、専門用語辞書の見出し語であることと判別される。   The syntax analysis failure cause determination means 35 determines the cause of the failure in the syntax analysis based on such syntax analysis failure environment knowledge. For example, in the case of “adjective and noun” shown in “part of speech with registered part of speech”, if the parsing fails, the constituent part of speech of the headword “adjective + noun” will be used instead of “noun” which is the registered part of speech of the headword ”And parse again. Then, the "adjective and / or adjective nouns" shown in "Environment where parsing fails" will succeed, and the parsing will succeed. Thereby, it is determined that the cause of the syntax analysis failure is a headword in the technical term dictionary.

図11に示した構文解析失敗環境知識部36に格納された構文解析失敗環境知識の各タイプ1〜6について、構文解析に失敗する一例を以下に示す。   An example in which syntax analysis fails for each type 1 to 6 of syntax analysis failure environment knowledge stored in the syntax analysis failure environment knowledge unit 36 shown in FIG.

(1)タイプ1
(a)administrative personnel (監理担当官)
構文解析に失敗する単語列: scientific, technical and administrative personnel
(b)private interests(私益)
構文解析に失敗する単語列: sectarian or private interests
(2)タイプ2
(a)punitive laws(刑罰法規)
構文解析に失敗する単語列:excessively punitive laws
(b)toxic dose (中毒量)
構文解析に失敗する単語列:overtly toxic dose
(3)タイプ3
(a)aggregate basis (一括基準)
構文解析に失敗する単語列:on a weighted, aggregate basis
(4)タイプ4
(a)earned capital (増殖資本)
構文解析に失敗する単語列:They earned capital.
(5)タイプ5
(a)shift operations (交代制)
構文解析に失敗する単語列:They would shift operations to a country.
(6)タイプ6
(a)anode effects (陽極効果)
構文解析に失敗する単語列:The impact of the electrons with the anode effects generation of x-ray radiation.
図12は、構文解析失敗原因判別手段35の処理内容の一例を示すフローチャートである。図4のステップS5で構文解析に失敗し、その原因を追究する際には、構文解析失敗原因判別手段35が起動される。構文解析失敗原因判別手段35は、まず、構文解析失敗環境知識の「登録品詞による品詞列」に該当するかどうかを判定する(D1)。「登録品詞による品詞列」に該当する場合には、注目する語(専門用語辞書の見出し語)は構文解析失敗環境知識の「構成品詞」に該当するか否かを判定する(D2)。構文解析失敗環境知識の「構成品詞」に該当する場合には、その「構成品詞」を用いて、再度構文解析を行う(D3)。そして、構文解析に成功するかどうかを判定し(D4)、構文解析に成功する場合には失敗の原因判明を行う(D5)。すなわち、注目する語(専門用語辞書の見出し語)の登録品詞が原因であると判別する。
(1) Type 1
(A) administrative personnel
Word strings that fail parsing: scientific, technical and administrative personnel
(B) Private interests
Word strings that fail parsing: sectarian or private interests
(2) Type 2
(A) punitive laws
Word strings that fail parsing: excessively punitive laws
(B) Toxic dose
Words that fail parsing: overtly toxic dose
(3) Type 3
(A) aggregate basis
Word strings that fail parsing: on a weighted, aggregate basis
(4) Type 4
(A) Earned capital
Word strings that fail parsing: They earned capital .
(5) Type 5
(A) shift operations
Word strings that fail parsing: They would shift operations to a country.
(6) Type 6
(A) anode effects
Word strings that fail parsing: The impact of the electrons with the anode effects generation of x-ray radiation.
FIG. 12 is a flowchart showing an example of processing contents of the syntax analysis failure cause determination means 35. When the syntax analysis fails in step S5 of FIG. 4 and the cause is investigated, the syntax analysis failure cause determination means 35 is activated. The syntax analysis failure cause determination means 35 first determines whether or not it corresponds to the “part of speech string by registered part of speech” of the syntax analysis failure environment knowledge (D1). When it corresponds to “part of speech string by registered part of speech”, it is determined whether or not the focused word (entry word of technical term dictionary) corresponds to “component part of speech” of syntax analysis failure environment knowledge (D2). When it falls under the “component part of speech” of the syntax analysis failure environmental knowledge, the syntax analysis is performed again using the “component part of speech” (D3). Then, it is determined whether the syntax analysis is successful (D4). If the syntax analysis is successful, the cause of the failure is determined (D5). That is, it is determined that the registered part-of-speech of the word of interest (keyword in the technical term dictionary) is the cause.

ステップD1、D2、D4の判定で、判定結果がNOのときは、多品詞の有無のチェックや構成要素の仕切り直しなど、通常の構文解析失敗の原因追究の方法を用いる(D6)。そして、別の候補を用いると、構文解析に成功するかどうかを判定し(D7)、構文解析に成功する場合には失敗の原因判明を行う(D8)。一方、構文解析に失敗したときは、別の候補が残っているかどうかを判定し(D9)、別の候補が残っている場合にはステップD7に戻り、別の候補が残っていない場合には失敗の原因不明とし(D10)、処理を終了する。   If the result of determination in steps D1, D2, and D4 is NO, a normal method for investigating the cause of failure in parsing, such as checking for the presence or absence of multiple parts of speech or repartitioning of components, is used (D6). When another candidate is used, it is determined whether or not the syntax analysis is successful (D7). If the syntax analysis is successful, the cause of the failure is determined (D8). On the other hand, when the parsing fails, it is determined whether another candidate remains (D9). If another candidate remains, the process returns to step D7, and if no other candidate remains, The cause of failure is unknown (D10), and the process is terminated.

このように、構文解析失敗環境知識に該当するものがあるかどうかをステップD1、D2において判定し、これによりステップD4で構文解析に成功すれば、構文解析失敗時と成功時の違いから構文解析の原因を突き止めることができる。 In this way, it is determined in Steps D1 and D2 whether or not there is a syntax analysis failure environment knowledge, and if the syntax analysis succeeds in Step D4, the syntax analysis is performed based on the difference between the syntax analysis failure time and the success time. The cause of this can be determined.

ステップD4において、この構文解析失敗環境知識では、構文解析の成功を導けなかった場合は、通常の構文解析解明の方法をとる(ステップD6)。ここでは、可能な候補を構文解析が成功するまで、あるいはすべての候補を試すまで(ステップD7、D9)のループ処理となる。ステップD7、D9は、候補数が多いほど時間を要する部分である。従って、構文解析失敗環境知識の導入により、構文解析失敗の場合にステップD5に進むことができれば、これらのステップD7、D9の処理は不必要となり、効率化につながることになる。   In step D4, if the parsing failure environment knowledge does not lead to successful parsing, a normal parsing and elucidation method is used (step D6). Here, the loop processing is performed until the parsing of possible candidates succeeds or until all candidates are tried (steps D7 and D9). Steps D7 and D9 are portions that require more time as the number of candidates increases. Therefore, if it is possible to proceed to step D5 in the case of syntax analysis failure due to the introduction of syntax analysis failure environment knowledge, the processing of these steps D7 and D9 becomes unnecessary, leading to efficiency.

なお、この構文解析失敗環境知識は辞書構築の支援にも利用できる。図13はコーパス検索結果の一例の説明図である。例えば、ユーザが”toxic dose”に対して名詞で訳語「中毒量」と登録しようとすると、toxicは形容詞、doseは名詞であるので、図11のタイプ1、2、3に該当する。そうすると、例えば、該当する分野のコーパスをシステムに与えれば、タイプ1の形態素解析が失敗する環境である「形容詞 and/or 形容詞 名詞」、タイプ2の形態素解析が失敗する環境である「副詞 形容詞 名詞」、タイプ3の形態素解析が失敗する環境である「形容詞, 形容詞 名詞」がそのコーパスに出現するかを調べることができる。   This parsing failure environment knowledge can also be used to support dictionary construction. FIG. 13 is an explanatory diagram of an example of a corpus search result. For example, when the user tries to register the translation word “addictive dose” as a noun for “toxic dose”, toxic is an adjective and dose is a noun, which corresponds to types 1, 2, and 3 in FIG. Then, for example, if the corpus of the corresponding field is given to the system, “adjective and / or adjective noun” is an environment where type 1 morphological analysis fails, and “adverb adjective noun is an environment where type 2 morphological analysis fails. It is possible to examine whether or not “adjective, adjective noun”, which is an environment in which type 3 morphological analysis fails, appears in the corpus.

その箇所をKWIC(keyword in context)のような形でユーザに提示すれば、ユーザは必要性を判断することができる。この過程で、例えば”potentially (副詞) toxic dose”というタイプ2の形態素解析が失敗する環境に相当する語の並びがこのコーパスに少なからず出現することが分かれば、”toxic dose”と2語の複合語の登録のほかに、”potentially toxic dose”を登録する必要性があると判断できる。   If the location is presented to the user in the form of KWIC (keyword in context), the user can determine the necessity. In this process, for example, if you know that the word sequence corresponding to the environment where the type 2 morphological analysis of “potentially (adverb) toxic dose” fails appears in this corpus, “toxic dose” and two words In addition to registering compound words, it can be judged that it is necessary to register “potentially toxic dose”.

一般に、このように長めの単語列で登録すれば、構文解析に失敗する可能性は相対的に低くなる。以上のような形で、辞書構築を支援すれば、内容面だけではなく、形態素の観点からも翻訳しようとする文書に適した用語が辞書に登録されることになる。つまり、このことは、”形容詞+名詞”を”名詞”で登録することに、図11のタイプ1、2、3のような危険性があるとしても、タイプ1、2、3それぞれの形態素解析が失敗する環境が、翻訳しようとしている文書にそもそも生起しないのであれば、問題は生じないということを意味している。ここで、翻訳は一括で行っても、または1文1文対話的に行ってもよい。   In general, if such a long word string is registered, the possibility of failure in parsing becomes relatively low. If dictionary construction is supported in the above manner, terms suitable for a document to be translated are registered in the dictionary not only from the viewpoint of contents but also from the viewpoint of morphemes. In other words, this means that the registration of “adjective + noun” as “noun” has morphological analysis of types 1, 2, and 3 even if there is a risk of types 1, 2, and 3 in FIG. Means that if the environment fails, it doesn't happen to the document you are trying to translate in the first place. Here, the translation may be performed in a batch or may be performed interactively in a sentence.

次に、実施形態に係る機械翻訳装置のさらに別の他の一例を説明する。図14は、実施形態に係る機械翻訳装置のさらに別の他の一例の機能ブロック構成図である。この別の他の一例は、図10に示した別の他の一例に対し、参考情報表示手段37を追加して設けたものである。図10と同一要素には同一符号を付し重複する説明は省略する。   Next, still another example of the machine translation apparatus according to the embodiment will be described. FIG. 14 is a functional block configuration diagram of still another example of the machine translation apparatus according to the embodiment. Another example of this is provided by adding reference information display means 37 to another example shown in FIG. The same elements as those in FIG. 10 are denoted by the same reference numerals, and redundant description is omitted.

参考情報表示手段37は、専門用語調整手段30にて文書解析手段28で得られた訳文中の専門用語の見出し語を調整する際に、専門用語辞書の見出し語の訳語を表示するものである。   The reference information display means 37 displays the translation of the headword in the technical term dictionary when the technical term adjustment means 30 adjusts the headword of the technical term in the translation obtained by the document analysis means 28. .

前述したように、翻訳は一括で行っても、または1文1文対話的に行ってもよいが、一括翻訳の場合は、翻訳を行う下準備として、専門用語辞書の使用の有無によって、構文解析に失敗する可能性のある箇所を予め検出しておき、2段階に分けて翻訳処理を行うことも可能である。   As described above, the translation may be performed in a batch or interactively in a sentence, but in the case of batch translation, the syntax depends on the use of a technical term dictionary as a preparation for translation. It is also possible to detect in advance a part that may fail in the analysis and perform translation processing in two stages.

すなわち、専門用語辞書の使用の有無によって、構文解析に失敗する可能性のある箇所を予め検出しておき、図9のステップS12でNOとなるようなケース、つまり、選択した専門用語辞書の語を訳に使用することができなかったものをリストアップし、それらに関してユーザにどのような訳とすべきか、問い合わせ、得られた情報を翻訳辞書部の該当する専門用語辞書の第一言語単語・熟語辞書等に反映させておく。これにより、本番の翻訳処理では、スムーズに翻訳を行うことができる。   That is, a case in which a part that may fail in the syntax analysis is detected in advance depending on whether or not the technical term dictionary is used, and the result in step S12 of FIG. 9 is NO, that is, a word in the selected technical term dictionary. Lists the items that could not be used for translation, inquires about what the user should translate with respect to them, and asks the obtained information for the first language word in the corresponding technical term dictionary in the translation dictionary section. It is reflected in the idiom dictionary. Thereby, in the actual translation process, translation can be performed smoothly.

例えば、使用する専門用語辞書の中に、”private interests”が名詞「私益」で登録されており、これを単純に優先させると構文解析に失敗する文に遭遇し(例えば”Education serves both public and private interests.”)、システムが判断して、privateとinterestsを2単語として扱い、構文解析を成功させ、さらに専門用語辞書の訳語を活用すべく、”private interest”と「私益」をそれぞれより小さい単位に分解して、それらの間の対応関係を取ることを試みるがそれができなかった場合、”private interests”は標準辞書の訳を使うことになる。   For example, in the terminology dictionary used, “private interests” is registered with the noun “private interest”, and when this is simply given priority, a sentence that fails parsing is encountered (eg “Education serves both public and private interests. ”), the system determines that private and interests are treated as two words, parsing is successful, and the translation of the terminology dictionary is used to make“ private interest ”and“ private interest ”smaller. If you try to break down into units and take correspondences between them, but you are unable to do so, “private interests” will use the standard dictionary translation.

こうしてこの部分の訳は、publicから「公的な」、privateから「私的な」、interestsから「利益」を得て、例えば「公的・私的な利益」となる。このとき、制御部24は、参考情報表示手段37を起動し、”private interests”「私益」が選択している専門用語辞書に存在することを参考情報としてユーザに提示して、ユーザにどのような訳とすべきか、問い合わせる。   Thus, the translation of this part is "public" from public, "private" from private, "profit" from interests, for example, "public / private profit". At this time, the control unit 24 activates the reference information display means 37 and presents to the user as reference information that “private interests” and “private interest” are present in the selected technical term dictionary, and how to Inquire about what should be translated.

図15はその画面の一例の説明図である。これにより、ユーザは、”public and private interests”を手動で「公益・私益」と修正したり、または、”pubic and private interests”を名詞「公益・私益」として、使用中の専門用語辞書に登録する際に助けになる。   FIG. 15 is an explanatory diagram of an example of the screen. This allows the user to manually modify “public and private interests” as “public and private interests” or register “pubic and private interests” as a noun “public and private interests” in the vocabulary dictionary in use. To help you.

実施形態によれば、主に4点の効果が期待できる。第一に、構文解析の失敗を回避しつつ、専門用語辞書の用語に統一を図った訳文を生成することができる。第二に、ある箇所で構文解析の失敗を招いた見出し語を文書全体を通して棄却するのではなく、失敗した箇所のみ棄却することができ、柔軟な翻訳ができる。したがって、人間が、そのような見出し語を棄却すべき見出し語を格納した辞書に登録すべきかどうかを判断する手間を省くことができる。第三に、構文解析の失敗の原因追究にあたり、専門用語辞書の使用の有無が原因であるものはかなりの部分、自動的に検出されるので機械翻訳の訳文の見直し作業を軽減することができる。第四に、翻訳しようとしている分野の文書において現在は未登録であるが、解析上当該辞書に登録が望まれる語を登録するようユーザに促すことにより、質の高い辞書構築に寄与する。   According to the embodiment, mainly four effects can be expected. First, it is possible to generate a translation in which the terms of the technical term dictionary are unified while avoiding failure in parsing. Secondly, the headword that caused the parsing failure in a certain part is not rejected throughout the document, but only the failed part can be rejected, and flexible translation can be performed. Therefore, it is possible to save labor for a person to determine whether or not to register such a headword in a dictionary storing headwords to be rejected. Thirdly, in pursuing the cause of failure in parsing, a significant part of what is caused by the use of a terminology dictionary is automatically detected, so the work of reviewing the translation of machine translation can be reduced. . Fourth, it is currently unregistered in the document in the field to be translated, but it contributes to the construction of a high-quality dictionary by prompting the user to register words that are desired to be registered in the dictionary for analysis.

以上の説明では、英日翻訳の場合を中心に説明してきたが、他の言語対にも応用することができる。また、いくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。   In the above description, the case of English-Japanese translation has been mainly explained, but it can be applied to other language pairs. Moreover, although some embodiment was described, these embodiment is shown as an example and is not intending limiting the range of invention. These novel embodiments can be implemented in various other forms, and various omissions, replacements, and changes can be made without departing from the scope of the invention. These embodiments and modifications thereof are included in the scope and gist of the invention, and are included in the invention described in the claims and the equivalents thereof.

11…機械翻訳装置、12…演算制御装置、13…プロセッサ、14…メモリ、15…プログラム、16…作業エリア、17…表示装置、18…入力装置、19…マウス、20…キーボード、21…ディスクドライブ、22…ハードディスクドライブ(HDD)、23…入力処理部、24…制御部、25…記憶装置、26…文書記憶部、27…翻訳辞書部、28…文書解析手段、29…解析情報記憶部、30…専門用語調整手段、31…副専門用語作成手段、32…副専門用語辞書部、33…出力処理部、34…専門用語辞書部、35…構文解析失敗原因判別手段、36…構文解析失敗環境知識記憶部、37…参考情報表示手段 DESCRIPTION OF SYMBOLS 11 ... Machine translation apparatus, 12 ... Calculation control apparatus, 13 ... Processor, 14 ... Memory, 15 ... Program, 16 ... Work area, 17 ... Display device, 18 ... Input device, 19 ... Mouse, 20 ... Keyboard, 21 ... Disk Drive, 22... Hard disk drive (HDD), 2 3 .. Input processing unit, 2 4... Control unit, 25... Storage device, 26 ... Document storage unit, 27. , 30 ... Technical term adjustment means, 31 ... Sub technical term creation means, 32 ... Sub technical term dictionary part, 33 ... Output processing part, 34 ... Technical term dictionary part, 35 ... Syntax analysis failure cause determination means, 36 ... Syntax analysis Failure environment knowledge storage unit, 37 ... reference information display means

Claims (5)

単語単位の第一言語と第二言語との対訳情報を記憶装置に格納した翻訳辞書部と、複数の単語列からなる第一言語の専門用語の見出し語及びその訳語を対訳情報として記憶装置に格納した専門用語辞書部と、前記翻訳辞書部の翻訳辞書情報及び前記専門用語辞書部の対訳情報を用いて構文解析を行い、前記専門用語辞書の見出し語が原因で構文解析に失敗したときは、その見出し語及びその訳語を単語単位に分解して辞書引きを行い、単語単位に分割したその見出し語の訳語候補のいずれかが、単語単位に分割した訳語に対応しているかどうかを判定し、対応しているものがあるときは、得られた訳文中のその見出し語の訳語に相当する部分をその訳語候補に置き換える専門用語調整手段とを備えた機械翻訳装置。 Translation dictionary unit storing bilingual information of first language and second language in word unit in storage device, headword of technical term of first language consisting of plural word strings and its translation word as bilingual information in storage device When the syntactic analysis is performed using the stored technical term dictionary part, the translation dictionary information of the translation dictionary part and the parallel translation information of the technical term dictionary part, and the syntax analysis fails due to the entry word of the technical term dictionary Then, the headword and its translation are disassembled into words and a dictionary is searched to determine whether any of the candidate translations of the headword divided into words corresponds to the translation into words. A machine translation device comprising technical term adjustment means for replacing a part corresponding to the translation of the headword in the obtained translation with the translation candidate when there is a corresponding one. 前記専門用語辞書部のすべての見出し語について、予め単語単位に分解した第一言語の見出し語の訳語候補のリストを格納した副専門用語辞書部を備え、前記専門用語調整手段は、単語単位に分割した第一言語の見出し語の訳語候補のいずれかが単語単位に分割した見出し語の訳語に一致していないときは、単語単位に分解した第一言語の見出し語の訳語が前記専門用語辞書部にあるかどうかを判定し、前記専門用語辞書部にあるときは前記訳文中のその見出し語の単語単位の訳語に相当する部分をその専門用語辞書部の訳語に置き換え、前記専門用語辞書部にないときは、単語単位に分解した第一言語の見出し語の訳語が前記副専門用語辞書部にあるかどうかを判定し、前記副専門用語辞書部にあるときは前記訳文中のその見出し語の単語単位の訳語に相当する部分をその副専門用語辞書部の訳語に置き換えることを特徴とする請求項1記載の機械翻訳装置。 A sub-terminology dictionary unit that stores a list of candidate translations of first-word headwords that have been decomposed into word units in advance for all headwords in the technical term dictionary unit, and the terminology adjustment means includes word units If any of the translation candidates of the divided first language headword does not match the translated word headword, the translation of the first language headword divided into word units is the terminology dictionary. And if it is in the technical term dictionary part, the part corresponding to the word-by-word translation of the headword in the translation is replaced with the translation of the technical term dictionary part, and the technical term dictionary part If it is not, it is determined whether the translation of the headword in the first language decomposed into words is in the sub-terminology dictionary part, and if it is in the sub-terminology dictionary part, the headword in the translation The word Machine translation apparatus according to claim 1, wherein the replacing the portion corresponding to the position of translation in the translation of the sub terminology dictionary unit. 第一言語の単語の品詞の並びで構文解析が失敗する環境知識を格納した構文解析失敗環境知識部と、前記見出し語の登録品詞及び前記見出し語を構成する複数の単語の品詞を並べた構成品詞に基づき前記構文解析失敗環境知識部の構文解析失敗環境知識を参照して構文解析失敗原因を判別する構文解析失敗原因判別手段とを備えたことを特徴とする請求項1または2記載の機械翻訳装置。 A configuration in which environment analysis failure knowledge storage section storing environmental knowledge in which parsing fails due to an arrangement of parts of speech of words in the first language, and a registered part of speech of the headword and parts of speech of a plurality of words constituting the headword 3. The machine according to claim 1, further comprising: a syntax analysis failure cause determination means for determining a cause of the syntax analysis failure by referring to the syntax analysis failure environment knowledge of the syntax analysis failure environment knowledge section based on the part of speech. Translation device. 前記専門用語調整手段にて前記訳文中を調整する際に、前記専門用語辞書の見出し語の訳語を表示する参考情報表示手段を備えたことを特徴とする請求項1乃至3のいずれか1項に記載の機械翻訳装置。 The reference information display means for displaying the translation of the headword of the technical term dictionary when the technical term adjustment means adjusts the translation is provided. The machine translation device described in 1. 記憶装置に、機械翻訳プログラムと、翻訳対象となる第一言語文書を第二言語に翻訳する際の翻訳処理に用いる知識情報及び単語単位の第一言語と第二言語との対訳情報を翻訳辞書情報として格納した翻訳辞書部と、複数の単語列からなる第一言語の専門用語及びその訳語を対訳情報として格納した専門用語辞書部とを記憶させておき、コンピュータに、前記翻訳辞書部の翻訳辞書情報及び前記専門用語辞書部の対訳情報を用いて前記第一言語文書の形態素解析を行い形態素の属性情報及び訳語情報を解析情報として記憶装置の解析情報記憶部に記憶する機能と、前記第一言語文書の構文解析を行い構文解析が成功したときは訳語情報に基づき訳文を生成する機能と、前記専門用語辞書の見出し語が使われずに構文解析に失敗したときは不完全な状態で訳文を生成する機能と、前記専門用語辞書の見出し語が使われて構文解析に失敗したときはその見出しを棄却して訳文を生成する機能と、前記専門用語辞書の見出し語の棄却により訳文を得たときはその見出し語及び訳語を単語単位に分解して辞書引きを行い単語単位に分割した第一言語の見出し語の訳語候補のいずれかが単語単位に分割した見出し語の訳語に一致しているかどうかを判定する機能と、一致しているものがあるときは前記訳文中のその見出し語の訳語に相当する部分をその訳語候補に置き換える機能とを実現させるための機械翻訳プログラム。 Translation dictionary for machine translation program, knowledge information used for translation processing when translating first language document to be translated into second language, and bilingual information between first language and second language in word units A translation dictionary part stored as information and a technical term dictionary part containing a first language technical term consisting of a plurality of word strings and their translations as parallel translation information are stored, and the computer translates the translation dictionary part A function of performing morphological analysis of the first language document using dictionary information and bilingual information of the technical term dictionary unit, and storing attribute information and translated word information of the morpheme as analysis information in an analysis information storage unit of the storage device; A function that generates a translated sentence based on the translated word information when the parsing is successful after parsing a single language document, and is incomplete when the parsing fails because the entry word of the technical term dictionary is not used. A function for generating a translated sentence in an unsatisfactory state, a function for generating a translated sentence by rejecting the heading when the headword of the technical term dictionary is used and parsing fails, and rejecting the headword of the technical term dictionary When the translation is obtained by the above, the translation of the entry word that any of the translation candidates of the entry word of the first language divided into word units by decomposing the entry word and the translation word into word units and dividing it into word units A machine translation program for realizing a function for determining whether or not there is a match and a function for replacing a part corresponding to the translation of the headword in the translation with the translation candidate when there is a match .
JP2010198136A 2010-09-03 2010-09-03 Machine translation apparatus and machine translation program Active JP5185343B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010198136A JP5185343B2 (en) 2010-09-03 2010-09-03 Machine translation apparatus and machine translation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010198136A JP5185343B2 (en) 2010-09-03 2010-09-03 Machine translation apparatus and machine translation program

Publications (2)

Publication Number Publication Date
JP2012053858A true JP2012053858A (en) 2012-03-15
JP5185343B2 JP5185343B2 (en) 2013-04-17

Family

ID=45907057

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010198136A Active JP5185343B2 (en) 2010-09-03 2010-09-03 Machine translation apparatus and machine translation program

Country Status (1)

Country Link
JP (1) JP5185343B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108022593A (en) * 2018-01-16 2018-05-11 成都福兰特电子技术股份有限公司 A kind of high sensitivity speech recognition system and its control method

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11132517B2 (en) * 2019-06-25 2021-09-28 Lenovo (Singapore) Pte. Ltd. User interface for natural language translation using user provided attributes

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0512332A (en) * 1991-07-04 1993-01-22 Sanyo Electric Co Ltd Translation processor
JPH05128145A (en) * 1991-11-06 1993-05-25 Ricoh Co Ltd Machine translation system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0512332A (en) * 1991-07-04 1993-01-22 Sanyo Electric Co Ltd Translation processor
JPH05128145A (en) * 1991-11-06 1993-05-25 Ricoh Co Ltd Machine translation system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108022593A (en) * 2018-01-16 2018-05-11 成都福兰特电子技术股份有限公司 A kind of high sensitivity speech recognition system and its control method

Also Published As

Publication number Publication date
JP5185343B2 (en) 2013-04-17

Similar Documents

Publication Publication Date Title
US8959011B2 (en) Indicating and correcting errors in machine translation systems
US7774193B2 (en) Proofing of word collocation errors based on a comparison with collocations in a corpus
Miłkowski Developing an open‐source, rule‐based proofreading tool
US8655641B2 (en) Machine translation apparatus and non-transitory computer readable medium
WO2003065245A1 (en) Translating method, translated sentence outputting method, recording medium, program, and computer device
KR100530154B1 (en) Method and Apparatus for developing a transfer dictionary used in transfer-based machine translation system
US20070061131A1 (en) Japanese virtual dictionary
JP2008108209A (en) Technique for enhancing precision of machine translation
JP2020190970A (en) Document processing device, method therefor, and program
JP5185343B2 (en) Machine translation apparatus and machine translation program
JP2007518164A (en) Automatic translation apparatus, automatic translation method using the automatic translation apparatus, and recording medium on which the automatic translation apparatus is recorded
US7620541B2 (en) Critiquing clitic pronoun ordering in french
JP2000259635A (en) Translation device, translation method and recording medium storing translation program
US7983899B2 (en) Apparatus for and method of analyzing chinese
JP4845921B2 (en) Machine translation apparatus, machine translation program, and machine translation method
JP4843596B2 (en) Machine translation apparatus and machine translation program
WO2009144890A1 (en) Pre-translation rephrasing rule generating system
JP4033089B2 (en) Natural language processing system, natural language processing method, and computer program
JP4016037B2 (en) Machine translation program, machine translation device
Tapaswi An efficient part-of-speech tagger rule-based approach of Sanskrit language analysis
JP3197110B2 (en) Natural language analyzer and machine translator
JP2010170306A (en) System for determining aptitude for reversibility in parallel translation, and machine translation system
JP2008027458A (en) Machine translation program, and machine translation apparatus
Miłkowski Developing an Open-source, Rule-based Proofreading Tool Final draft. For the published version, see: Miłkowski, Marcin. 2010.“Developing an Open-source, Rule-based Proofreading Tool.” Software: Practice and Experience 40 (7): 543–566. doi: 10.1002/spe. 971.
SKADIĽA et al. RECENT ADVANCES IN THE DEVELOPMENT AND SHARING OF LANGUAGE RESOURCES AND TOOLS FOR LATVIAN ANDREJS VASIĻJEVS, TATIANA GORNOSTAY

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120928

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121009

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121225

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130117

R150 Certificate of patent or registration of utility model

Ref document number: 5185343

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160125

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350