JP2010272079A - Machine translation device, method, and program - Google Patents

Machine translation device, method, and program Download PDF

Info

Publication number
JP2010272079A
JP2010272079A JP2009125721A JP2009125721A JP2010272079A JP 2010272079 A JP2010272079 A JP 2010272079A JP 2009125721 A JP2009125721 A JP 2009125721A JP 2009125721 A JP2009125721 A JP 2009125721A JP 2010272079 A JP2010272079 A JP 2010272079A
Authority
JP
Japan
Prior art keywords
abbreviation
translation
unit
language
original text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009125721A
Other languages
Japanese (ja)
Other versions
JP4951023B2 (en
Inventor
Akira Sasaki
晶 佐々木
Yumiko Yoshimura
裕美子 吉村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2009125721A priority Critical patent/JP4951023B2/en
Publication of JP2010272079A publication Critical patent/JP2010272079A/en
Application granted granted Critical
Publication of JP4951023B2 publication Critical patent/JP4951023B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To perform translation, when a specific term in original text data is witten down with the abbreviation of the term, by selecting a translation candidate wherein the abbreviation generated from a plurality of translation candidates of the term, and the abbreviation written in a text agree. <P>SOLUTION: A term/abbreviation extraction part 26 refers to an analysis result of the original text data accepted by an input part 22 and analyzed by an original text analysis/translation part 25 by referring to a dictionary part 31, and extracts an abbreviation and a term of an expanded expression corresponding to the abbreviation from the original text, and a generated abbreviation selection part 28 compares generated abbreviations generated by an abbreviation generation part 27 with the extracted abbreviation extracted from original text data by the term/abbreviation extraction part 26 to select a generated abbreviation completely coinciding the extracted abbreviation, and the original text analysis/translation part 25 uses a translation candidate in the second language, from which the selected abbreviation has been generated by the abbreviation generation part 27, as a translation result. <P>COPYRIGHT: (C)2011,JPO&INPIT

Description

本発明は、翻訳対象の第一言語の原文を第二言語の訳文に翻訳する機械翻訳装置、方法及びプログラムに関する。   The present invention relates to a machine translation apparatus, method, and program for translating an original sentence in a first language to be translated into a translated sentence in a second language.

国際化の進行に伴い、外国語を用いた迅速な情報交換へのニーズが高まっており、機械翻訳は、かかる情報交換のツールとして大いに期待されている。現在の機械翻訳技術による翻訳結果は、人手による手直しが全く不要なレベルにあるとはいえず、翻訳結果の手直しに多大な手間と時間がかかっている。   With the progress of internationalization, the need for quick information exchange using foreign languages is increasing, and machine translation is highly expected as a tool for such information exchange. The result of translation by the current machine translation technology is not at a level that requires manual correction, and it takes a lot of time and effort to correct the translation result.

特に、原文中の特定の用語に対してその語の補足説明が併記されている場合、翻訳結果に不自然さが生じたり、原文の解釈がおかしくなってしまう場合があった。例えば、「これは、光学式文字読取装置(optical character reader)です。」という原文を従来の方法で翻訳すると、”This is an optical character reader(optical character reader).”などと、用語の冗長な繰り返しになってしまう。   In particular, if a specific term in the original text is accompanied by a supplementary explanation of the word, the translation result may be unnatural or the original text may be interpreted incorrectly. For example, if the original text “This is an optical character reader” is translated in the conventional way, the term “This is an optical character reader (optical character reader).” It will be repeated.

これに対して、ある用語の略語訳と展開訳との2種類の訳語が辞書に登録してある場合、どちらの訳語を使用するかをユーザに選択させたり、条件に応じて2種類の訳語を使い分けるようにしたものがある(例えば、特許文献1参照)。また、”Security Protocol Council (SPC) Information”というような語を従来の方法で翻訳すると、"protocol"を動詞と解釈して、「安全は、評議会(SPC)情報を立案する」という翻訳結果となってしまう場合があった。これに対して、括弧書き中の文字列が括弧書きよりも前に存在する幾つかの単語の先頭の文字であるとき、当該単語部分を名詞句として扱い、原文の構文を解析するようにしたものがある(例えば、特許文献2参照)。この提案によると、原文”Security Protocol Council (SPC) Information”に対して「安全議定所評議会(SPC)情報」という正しい翻訳結果が得られる。   On the other hand, when two types of translations of an abbreviation and an expanded translation of a term are registered in the dictionary, the user can select which translation to use, or two types of translations depending on conditions There is one that uses differently (see, for example, Patent Document 1). Also, when a word such as “Security Protocol Council (SPC) Information” is translated by the conventional method, “protocol” is interpreted as a verb, and the result of translation is “Safety is planning Council (SPC) information”. There was a case that became. On the other hand, when the character string in parentheses is the first character of some words existing before the parentheses, the word part is treated as a noun phrase and the syntax of the original text is analyzed. There are some (see, for example, Patent Document 2). According to this proposal, the correct translation result of “Safety Council Council (SPC) Information” is obtained for the original “Security Protocol Council (SPC) Information”.

特開平06−309356号公報Japanese Patent Laid-Open No. 06-309356 特開平11−66068号公報JP 11-66068 A

しかしながら、原文中の特定の用語に対してその語の略語(アルファベット表記)が併記されており、その語が辞書に登録されておらず、訳し方が複数ある場合には、その用語の英訳結果が併記されている略語にそぐわなくなる場合がある。例えば、以下の原文を翻訳した場合を考える。   However, if an abbreviation (alphabet) of the word is written for a specific term in the original text, the word is not registered in the dictionary, and there are multiple ways to translate it, the English translation result of the term May not match the abbreviations that are written together. For example, consider a case where the following original text is translated.

原文1:この文書では、Solarisのインストール時更新(ITU)またはドライバ更新(DU)に関する問題について記載しています。   Original 1: This document describes issues with Solaris installation update (ITU) or driver update (DU).

従来の翻訳結果1:This document has described the problem on updating (ITU) at the time of installation or the renewal of a driver (DU) of Solaris.
いま、ITU、DUが辞書に登録されていないと、「インストール時更新(ITU)」が” updating (ITU) at the time of installation”になり、「ドライバ更新(DU)」が” the renewal of a driver (DU)”となり、各語の訳語が対応する略語と合致しない翻訳結果となってしまう。
Previous translation result 1: This document has described the problem on updating (ITU) at the time of installation or the renewal of a driver (DU) of Solaris.
If ITU and DU are not registered in the dictionary, “Updating on Installation (ITU)” becomes “update (ITU) at the time of installation” and “Driver Update (DU)” becomes “the renewal of a” driver (DU) ”, and the translation of each word does not match the corresponding abbreviation.

上記の例文はコンピュータ分野の文であるが、コンピュータ分野のような技術革新の盛んな分野では新しい用語が頻繁に発生するため、新語の訳語が辞書に登録されていない場合が多くある。このような場合、訳語が辞書に登録済みであることを前提としている特許文献1の技術を利用することはできない。また、上述した特許文献2を適用して、仮に、括弧の前の語の品詞を名詞に限定して原文の構文を絞り込めたところで、訳文を作成するにあたって採用される訳語や訳出方法に関する知識情報の選択に関して、括弧の中の語とのバランスは考慮されていないため、最終的な訳文は括弧内の略語に関する情報とは無関係に決定されてしまう。   Although the above example sentences are sentences in the computer field, new terms frequently occur in fields such as the computer field where technological innovation is thriving. Therefore, there are many cases where translated words of new words are not registered in the dictionary. In such a case, it is not possible to use the technique of Patent Document 1 on the assumption that the translated word is already registered in the dictionary. In addition, by applying the above-mentioned Patent Document 2, if the part of speech of the word before the parenthesis is limited to nouns and the syntax of the original sentence is narrowed down, knowledge on the translation and the translation method employed in creating the translation Since the balance with the words in the parentheses is not considered in selecting the information, the final translation is determined independently of the information on the abbreviations in the parentheses.

本発明の目的は、原文中の特定の用語に対してその語の略語が併記されている場合、用語の複数ある翻訳候補から生成した略語と、文中に記載された略語とが一致する翻訳候補を選択して翻訳を行う機械翻訳装置、方法及びプログラムを提供することである。   An object of the present invention is to provide a translation candidate in which an abbreviation generated from a plurality of translation candidates of a term and an abbreviation described in the sentence match when the abbreviation of the word is written together with a specific term in the original text Machine translation apparatus, method, and program for performing translation by selecting an item.

本発明の機械翻訳装置は、機械翻訳プログラム及び辞書部を記憶した記憶装置と、翻訳対象の第一言語の原文データを入力する入力装置と、翻訳後の第二言語の訳文データを出力する出力装置と、前記機械翻訳プログラムを演算実行する演算制御装置とを備えた機械翻訳装置において、前記第一言語を前記第二言語に翻訳及び言語解析するための語彙・規則が格納された辞書部と、前記入力装置から入力された第一言語の原文データを受け付け前記記憶装置に記憶させる入力部と、前記辞書部を参照して前記入力部で受け付けた原文データを言語解析するとともに翻訳を行う原文解析・翻訳部と、前記原文解析・翻訳部による原文データの言語解析結果を参照して原文データから略語とそれに対応する展開表記の用語とを抽出し、抽出した略語に対応する展開表記の用語を前記原文解析・翻訳部で翻訳させる用語・略語抽出部と、前記用語・略語抽出部によって抽出され前記原文解析・翻訳部で翻訳された前記展開表記の用語の第二言語の翻訳候補から略語を生成する略語生成部と、前記略語生成部によって生成された生成略語と前記用語・略語抽出部が原文データから抽出した抽出略語とを比較して一致度が100%の生成略語を選択する生成略語選択部と、前記生成略語選択部で一致度が100%の生成略語が選択されたときは、前記原文解析・翻訳部は、前記略語生成部が生成の元とした第二言語の翻訳候補を翻訳結果に採用することを特徴とする。   The machine translation device of the present invention includes a storage device that stores a machine translation program and a dictionary unit, an input device that inputs original text data of a first language to be translated, and an output that outputs translated text data of a second language after translation In a machine translation device comprising an apparatus and an arithmetic control device for computing and executing the machine translation program, a dictionary unit storing vocabulary / rules for translating and analyzing the first language into the second language; An input unit that accepts original text data in the first language input from the input device and stores it in the storage device; and an original text that performs language analysis and translation of the original text data received by the input unit with reference to the dictionary unit An abbreviation and a corresponding expanded notation term are extracted from the original text data with reference to the analysis / translation section and the language analysis result of the original text data by the original text analysis / translation section, and the extracted abbreviation A term / abbreviation extraction unit that translates the expanded notation term corresponding to the original sentence analysis / translation part, and the expansion notation term extracted by the term / abbreviation extraction part and translated by the original sentence analysis / translation part The abbreviation generation unit that generates abbreviations from bilingual translation candidates, the abbreviation generated by the abbreviation generation unit, and the extracted abbreviations extracted from the original text data by the term / abbreviation extraction unit are compared, and the degree of coincidence is 100% When a generation abbreviation selection unit that selects a generation abbreviation and a generation abbreviation with a degree of coincidence of 100% is selected by the generation abbreviation selection unit, the source text analysis / translation unit The second language translation candidate is adopted as the translation result.

本発明によれば、原文データ中の特定の用語に対して、その用語の略語が併記されている場合、用語の複数の翻訳候補から生成された生成略語と原文データから抽出された抽出略語とが一致する翻訳候補を選択するので、特定の用語に対して併記されている略語に合致した翻訳結果を得ることができる。   According to the present invention, when an abbreviation of a term is written together with a specific term in the original text data, a generated abbreviation generated from a plurality of translation candidates of the term and an extracted abbreviation extracted from the original text data Is selected, a translation result that matches an abbreviation written together for a specific term can be obtained.

また、用語の複数の翻訳候補から生成された生成略語と原文データから抽出された抽出略語とが一致しない場合には、一致度が100%未満の生成略語の元となる用語の単語を総当たりに組み合わせて、そこから抽出された略語を生成するので、文中の略語が通常の翻訳知識を使って生成した略語候補とは一致し難い場合でも、通常の翻訳知識とは異なる知識を使用して翻訳候補を作成することができる。   In addition, if the generated abbreviations generated from a plurality of translation candidates for terms and the extracted abbreviations extracted from the original text data do not match, the word of the term that is the source of the generated abbreviation with a matching degree of less than 100% is brute force To generate abbreviations extracted from the abbreviations, so even if abbreviations in a sentence are difficult to match with abbreviation candidates generated using ordinary translation knowledge, use a different knowledge from ordinary translation knowledge. Can create translation candidates.

また、原文データから抽出した用語と、生成略語の元となった翻訳候補とを辞書部に登録するので、以降の文書中で同じ用語が出現した場合、訳語の統一を容易に図ることができる。   In addition, since the term extracted from the original text data and the translation candidate that is the origin of the generated abbreviation are registered in the dictionary part, if the same term appears in subsequent documents, the translation can be easily unified. .

本発明の実施の形態に係わる機械翻訳装置11の機能ブロック図。The functional block diagram of the machine translation apparatus 11 concerning embodiment of this invention. 本発明の実施の形態に係わる機械翻訳装置のハードウエア構成を示すブロック構成図。The block block diagram which shows the hardware constitutions of the machine translation apparatus concerning embodiment of this invention. 本発明の実施の形態に係わる機械翻訳装置の処理内容を示すフローチャート。The flowchart which shows the processing content of the machine translation apparatus concerning embodiment of this invention. 図3のステップS308の略語用処理の内容を示すフローチャート。The flowchart which shows the content of the process for abbreviations of step S308 of FIG. 図3のステップS305の原文解析処理にて原文1を解析して得られた構文ツリー構造の説明図。FIG. 4 is an explanatory diagram of a syntax tree structure obtained by analyzing the original sentence 1 in the original sentence analyzing process in step S305 of FIG. 3.

以下、本発明の実施の形態を説明する。図1は本発明の実施の形態に係わる機械翻訳装置11の機能ブロック図、図2は本発明の実施の形態に係わる機械翻訳装置のハードウエア構成を示すブロック構成図である。   Embodiments of the present invention will be described below. FIG. 1 is a functional block diagram of a machine translation apparatus 11 according to the embodiment of the present invention, and FIG. 2 is a block configuration diagram showing a hardware configuration of the machine translation apparatus according to the embodiment of the present invention.

まず、本発明の実施の形態に係わる機械翻訳装置のハードウエア構成について説明する。図2において、本発明による機械翻訳装置11は、本発明による機械翻訳プログラムが例えば一般的なコンピュータにインストールされ、そのプログラムが演算制御装置12のプロセッサ18において実行されることにより実現される。   First, the hardware configuration of the machine translation apparatus according to the embodiment of the present invention will be described. In FIG. 2, the machine translation apparatus 11 according to the present invention is realized by installing the machine translation program according to the present invention on, for example, a general computer and executing the program in the processor 18 of the arithmetic and control unit 12.

演算制御装置12には、表示装置13、マウス14、キーボード15、ディスクドライブ16及び補助記憶装置17が接続されている。表示装置13は、演算制御装置12の演算結果等を表示するものであり、マウス14やキーボード15等の入力装置は、表示装置13を介して演算制御装置12に対する各種指令の入力に用いられる。また、キーボード15から翻訳対象の第一言語の原文文書を入力することも可能である。ディスクドライブ16は、翻訳対象の第一言語の原文文書などのファイルを記憶媒体に入出力するものであり、翻訳対象の第一言語の原文文書を入力する入力装置としても使用される。   A display device 13, a mouse 14, a keyboard 15, a disk drive 16 and an auxiliary storage device 17 are connected to the arithmetic control device 12. The display device 13 displays calculation results of the calculation control device 12 and the like, and input devices such as a mouse 14 and a keyboard 15 are used for inputting various commands to the calculation control device 12 via the display device 13. It is also possible to input an original document of the first language to be translated from the keyboard 15. The disk drive 16 inputs / outputs a file such as an original document of a first language to be translated to a storage medium, and is also used as an input device for inputting the original document of the first language to be translated.

補助記憶装置17は、演算制御装置12の演算結果や翻訳辞書等を記憶するものであり、例えば、複数個のハードディスクドライブ(HDD)で構成される。演算制御装置12は、プロセッサ18とメモリ19とを含んで構成されている。メモリ19には、データ検索に関連するプログラム20が記憶されると共に、プロセッサ18により演算処理が実行される際に使用される作業エリア21が設けられている。   The auxiliary storage device 17 stores calculation results of the calculation control device 12, a translation dictionary, and the like, and includes, for example, a plurality of hard disk drives (HDDs). The arithmetic and control unit 12 includes a processor 18 and a memory 19. The memory 19 stores a program 20 related to data retrieval and a work area 21 used when arithmetic processing is executed by the processor 18.

次に、本発明の実施の形態に係わる機械翻訳装置11の機能構成について説明する。図1に示す演算制御装置12内の各機能ブロックは、図2に示すプロセッサ18がプログラム20を実行することで、演算制御装置12は各機能ブロックとして機能することとなる。   Next, a functional configuration of the machine translation apparatus 11 according to the embodiment of the present invention will be described. Each functional block in the arithmetic control device 12 shown in FIG. 1 functions as each functional block when the processor 18 shown in FIG. 2 executes the program 20.

図1において、入力部22は翻訳対象となる第一言語の原文データの入力を受け付けるものである。例えば、原文データがユーザ自身によりキーボード15等から直接入力されたり、記憶媒体を介してディスクドライブ16から入力されたときに、原文データを演算制御装置12内のメモリ19や記憶装置17内に入力し記憶するものである。   In FIG. 1, an input unit 22 receives input of original text data in a first language to be translated. For example, when original text data is directly input by the user from the keyboard 15 or the like, or input from the disk drive 16 via a storage medium, the original text data is input to the memory 19 or the storage device 17 in the arithmetic control device 12. To remember.

文分割部23は、入力部22から入力された原文データの原文を文単位に分割し、メモリ19の作業エリア21に格納するものである。1文単位で分割された原文は、制御部24に受け渡される。制御部24は、原文解析・翻訳部25、用語・略語抽出部26、略語生成部27、生成略語選択部28、翻訳予備候補生成部29、辞書登録部30、出力部32を制御するものである。   The sentence division unit 23 divides the original sentence of the original sentence data input from the input unit 22 into sentence units, and stores it in the work area 21 of the memory 19. The original text divided in units of one sentence is delivered to the control unit 24. The control unit 24 controls the source text analysis / translation unit 25, the term / abbreviation extraction unit 26, the abbreviation generation unit 27, the generation abbreviation selection unit 28, the translation preliminary candidate generation unit 29, the dictionary registration unit 30, and the output unit 32. is there.

原文解析・翻訳部25は、入力部22から入力され、文分割部23によって1文単位に分割された原文に対して、辞書部31を参照しながら文の解析を行うものである。また、略語生成部27で略語を生成する元となる第二言語の翻訳候補の生成も行い、最終的な第二言語による訳文の生成も行う。   The original sentence analysis / translation unit 25 analyzes a sentence with reference to the dictionary unit 31 for the original sentence input from the input unit 22 and divided into one sentence unit by the sentence division unit 23. The abbreviation generation unit 27 also generates a translation candidate for the second language, which is a source for generating the abbreviation, and also generates a final translation in the second language.

用語・略語抽出部26は、文分割部23にて1文単位に分割された原文に対して、原文解析・翻訳部25で得られた解析結果を基にして、原文中の特定の用語とそれに対応している略語とを抽出するものである。   The term / abbreviation extracting unit 26 applies a specific term in the original sentence to the original sentence divided by the sentence dividing unit 23 on the basis of the analysis result obtained by the original sentence analyzing / translating unit 25. The abbreviation corresponding to it is extracted.

略語生成部27は、用語・略語抽出部26にて抽出された第一言語の用語に対して、原文解析・翻訳部25によって得られた第二言語の翻訳候補から略語を生成するものである。   The abbreviation generation unit 27 generates abbreviations from the second language translation candidates obtained by the source text analysis / translation unit 25 for the first language terms extracted by the term / abbreviation extraction unit 26. .

生成略語選択部28は、略語生成部27にて生成された略語と、用語・略語抽出部26にて原文から抽出された略語とを比較して、一致度の高い生成略語の選択を行うものである。なお、詳細は後述するが、生成略語選択部28で選択された生成略語の元となっている翻訳候補が原文解析・翻訳部25によって最終的な翻訳結果として選択される。   The generation abbreviation selection unit 28 compares the abbreviation generated by the abbreviation generation unit 27 with the abbreviation extracted from the original text by the term / abbreviation extraction unit 26 and selects a generation abbreviation having a high degree of coincidence. It is. Although details will be described later, a translation candidate that is a source of the generated abbreviation selected by the generated abbreviation selection unit 28 is selected as a final translation result by the original text analysis / translation unit 25.

翻訳予備候補生成部29は、略語生成部27にて生成された略語と、用語・略語抽出部26にて原文から抽出された略語との一致度が100%に満たない場合に、原文から抽出された略語に100%一致するような翻訳の予備候補を生成するものである。一致度とは、略語を構成する文字列が一致する割合をいう。例えば、略語の文字数が3文字で、3文字とも一致する場合は一致度100%であり、2文字が一致する場合は66%である。   The preliminary translation candidate generation unit 29 extracts the abbreviation generated by the abbreviation generation unit 27 and the abbreviation extracted from the original text by the term / abbreviation extraction unit 26 from the original text when the degree of coincidence is less than 100%. Preliminary translation candidates that match 100% with the abbreviations generated are generated. The degree of coincidence refers to the rate at which character strings constituting abbreviations coincide. For example, if the number of abbreviations is 3 and all 3 characters match, the matching degree is 100%, and if 2 characters match, it is 66%.

辞書登録部30は、生成略語選択部28にて選択された生成略語の元となった第二言語の翻訳候補と、用語・略語抽出部26にて抽出された第一言語の用語とを辞書部17の語彙部31aに登録するものである。   The dictionary registration unit 30 is a dictionary of translation candidates in the second language, which are the basis of the generated abbreviation selected by the generated abbreviation selection unit 28, and terms in the first language extracted by the term / abbreviation extraction unit 26. It is registered in the vocabulary part 31a of the part 17.

辞書部31は、入力した第一言語の原文の解析及び第二言語への翻訳に必要な語彙・規則を格納するものであり、記憶装置17内に形成されている。翻訳に必要な語彙・規則は、辞書部31の語彙部31a、形態素解析処理部31b、構文解析部31c、変換規則部31d、生成規則部31eに格納されている。   The dictionary unit 31 stores vocabulary and rules necessary for analyzing the input original text of the first language and translating it into the second language, and is formed in the storage device 17. Vocabulary / rules necessary for translation are stored in the vocabulary part 31a, the morphological analysis processing part 31b, the syntax analysis part 31c, the conversion rule part 31d, and the generation rule part 31e of the dictionary part 31.

出力部32は、原文解析・翻訳部25によって生成された翻訳の結果を出力装置に出力するものである。例えば、出力装置としての表示装置13に表示出力する。出力装置は表示装置13だけでなく、表示装置13による出力に代え、あるいは、表示装置13による出力に加えて、音声により音声出力装置に出力するようにしてもよいし、印刷装置に印刷出力するようにしてもよいし、ディスクドライブ16を介して記録媒体に出力するようにしてもよい。   The output unit 32 outputs the result of translation generated by the original text analysis / translation unit 25 to the output device. For example, display is output to the display device 13 as an output device. The output device is not limited to the display device 13 and may be output to the voice output device by voice instead of the output from the display device 13 or in addition to the output from the display device 13 or printed out to the printing device. Alternatively, it may be output to a recording medium via the disk drive 16.

次に、本発明の実施の形態に係わる機械翻訳装置11での翻訳処理の流れについて、日英翻訳を例にして、図3及び図4を参照して説明する。なお、日英翻訳ではなく、英日翻訳及び他の言語間での翻訳、例えば中日翻訳や日中翻訳にも適用可能であることは言うまでもない。   Next, the flow of translation processing in the machine translation apparatus 11 according to the embodiment of the present invention will be described with reference to FIGS. 3 and 4 by taking Japanese-English translation as an example. Needless to say, the present invention can be applied not only to Japanese-English translation but also to English-Japanese translation and translation between other languages, such as Chinese-Japanese translation and Japanese-Chinese translation.

図3は本発明の実施の形態に係わる機械翻訳装置の処理内容を示すフローチャートである。ユーザが入力装置から翻訳対象の第一言語の原文データを入力すると、まず、入力部22は原文データを受け付ける(S301)。入力された原文データは、メモリ19または記憶装置17に記憶される。次に、文分割部23は、メモリ19または記憶装置17から原文データを読み出して原文を1文単位に分割する(S302)。分割された原文の各1文に対して、制御部24は、変数Iに「1」をセットし(S303)、I番目の原文1文を取り出す(S304)。I番目の原文1文はメモリ19の作業エリア21に取り出される。   FIG. 3 is a flowchart showing the processing contents of the machine translation apparatus according to the embodiment of the present invention. When the user inputs the original text data of the first language to be translated from the input device, first, the input unit 22 receives the original text data (S301). The input original text data is stored in the memory 19 or the storage device 17. Next, the sentence division unit 23 reads the original text data from the memory 19 or the storage device 17 and divides the original sentence into one sentence unit (S302). For each sentence of the divided original sentence, the control unit 24 sets “1” to the variable I (S303), and takes out the I-th original sentence (S304). The I-th original sentence is taken out to the work area 21 of the memory 19.

次に、取り出されたI番目の原文1文に対して、原文解析・翻訳部25は、辞書部31を参照して原文解析処理を行う(S305)。すなわち、原文解析・翻訳部25が語彙部31a及び形態素解析規則部31bを参照して原文1文の形態素解析処理を行い、構文解析規則部31cを参照して構文解析処理を行い、原文1文を構成する各語の品詞、構文に関する情報を取得する。なお、ここで用いる構文解析処理その他の技術は、本発明に固有のものではなく、言語処理に関わる一般的な技術である。   Next, the original text analysis / translation unit 25 performs the original text analysis process with reference to the dictionary unit 31 with respect to the extracted I-th original text (S305). That is, the source text analysis / translation unit 25 performs a morpheme analysis process of one original sentence with reference to the vocabulary part 31a and the morpheme analysis rule part 31b, and performs a syntax analysis process with reference to the syntax analysis rule part 31c. Get information on part of speech and syntax of each word that makes up. The parsing process and other techniques used here are not specific to the present invention, but are general techniques related to language processing.

続いて、原文解析・翻訳部25による原文解析結果を用いて、用語・略語抽出部26が用語とその略語の関係にある可能性のある用語・略語候補の抽出を試みて(S306)、用語・略語候補があるかどうかを判定する(S307)。用語・略語抽出部26は、この略語・候補の有無判定で、用語・略語候補があると判定した場合は、用語・略語候補をメモリ19の用語・略語候補記憶エリアに記憶する。そして、その用語・略語候補について略語用処理を行い(S308)、用語・略語候補を含めたI番目の原文1文の翻訳処理を行う。略語用処理の詳細については後述する。   Subsequently, using the original text analysis result by the original text analysis / translation unit 25, the term / abbreviation extraction unit 26 tries to extract a term / abbreviation candidate that may be related to the term and the abbreviation (S306). It is determined whether there are abbreviation candidates (S307). The term / abbreviation extraction unit 26 stores the term / abbreviation candidate in the term / abbreviation candidate storage area of the memory 19 when it is determined in this abbreviation / candidate presence / absence determination that there is a term / abbreviation candidate. Then, an abbreviation process is performed for the term / abbreviation candidate (S308), and a translation process for the I-th original sentence including the term / abbreviation candidate is performed. Details of the abbreviation processing will be described later.

一方、ステップS307の判定で、用語・略語候補はないと判定した場合は、ステップS308の略語用処理を省略してステップS309に移行し、原文解析・翻訳部25によるI番目の原文1文の翻訳処理が行われる(S309)。   On the other hand, if it is determined in step S307 that there is no term / abbreviation candidate, the process for abbreviations in step S308 is omitted, and the process proceeds to step S309. Translation processing is performed (S309).

そして、原文のすべての文について処理が終了したかどうか、つまり全原文処理が終了したかどうかを判定し(S310)、原文のすべての文に対する処理が終了している場合は処理を終了し、原文のすべての文に対する処理が終了していない場合には、変数Iに「1」を加算して(I=I+1)とし(S311)、ステップS304に戻る。   Then, it is determined whether or not processing has been completed for all sentences of the original text, that is, whether or not all text processing has been completed (S310). If processing for all sentences of the original text has been completed, the processing is terminated. If the processing for all the original sentences has not been completed, “1” is added to the variable I (I = I + 1) (S311), and the process returns to step S304.

図4は、図3のステップS308の略語用処理の内容を示すフローチャートである。原文解析・翻訳部25は、用語・略語抽出部26によって抽出された用語・略語候補を取り出し(S401)、まず、抽出された抽出用語の翻訳候補を作成する(S402)。すなわち、原文解析・翻訳部25は、用語・略語候補をメモリ19の作業エリア21に取り出し、抽出用語に対して語彙部31a及び変換規則部31dを参照し、抽出用語を訳文言語へ変換するために訳語及び変換規則の候補を取得し、抽出用語に対する翻訳候補を作成する。   FIG. 4 is a flowchart showing the contents of the abbreviation process in step S308 of FIG. The source text analysis / translation unit 25 extracts the term / abbreviation candidates extracted by the term / abbreviation extraction unit 26 (S401), and first creates translation candidates for the extracted extracted terms (S402). In other words, the source text analysis / translation unit 25 takes out the term / abbreviation candidates into the work area 21 of the memory 19, refers to the vocabulary unit 31 a and the conversion rule unit 31 d for the extracted terms, and converts the extracted terms into the target language. 2. Obtain translation words and conversion rule candidates, and create translation candidates for the extracted terms.

そして、作成された翻訳候補の1つに対して、制御部24は、変数Jに「1」をセットし(S403)、J番目の翻訳候補を取り出す(S404)。ここで、原文解析・翻訳部25にて用いる翻訳処理の技術は、本発明に固有のものではなく、機械翻訳に関わる一般的な技術である。原文解析・翻訳部25での翻訳処理の具体的な内容については、後に例を用いて詳細に説明する。   Then, for one of the created translation candidates, the control unit 24 sets “1” to the variable J (S403), and takes out the Jth translation candidate (S404). Here, the translation processing technique used in the original text analysis / translation unit 25 is not unique to the present invention, but is a general technique related to machine translation. Specific contents of the translation processing in the original text analysis / translation unit 25 will be described in detail later using an example.

原文解析・翻訳部25にて作成された抽出用語の翻訳結果に対して、略語生成部27は略語候補を作成する(S405)。略語候補作成の具体例については、後に例を用いて詳細に説明する。   The abbreviation generation unit 27 generates abbreviation candidates for the translation result of the extracted term created by the original text analysis / translation unit 25 (S405). Specific examples of abbreviation candidate creation will be described in detail later using examples.

続いて、生成略語選択部28は、用語・略語抽出部26によって抽出された原文中の抽出略語と、略語生成部27によって生成された生成略語とを比較する(S406)。そして、生成略語選択部28は、J番目の翻訳結果に対して求められた一致度Ajを計算し、一つ前のJ−1番目の翻訳結果に対して求められた一致度Aj−1以上かどうかを判定する(S407)。生成略語選択部28は、J番目の翻訳結果に対する一致度Aj以上の場合は、メモリ19内の最大一致度候補記憶エリアに最大の一致度Amaxとして記憶する(S408)。一方、J番目の翻訳結果に対する一致度Aj未満の場合にはステップS409の処理に移行する。生成略語候補が複数ある場合は、各略語候補に対して、用語・略語抽出部26によって抽出された略語との一致度Ajを計算するので、最大の一致度Amaxが記憶されることになる。   Subsequently, the generation abbreviation selection unit 28 compares the extracted abbreviations in the original text extracted by the term / abbreviation extraction unit 26 with the generation abbreviations generated by the abbreviation generation unit 27 (S406). Then, the generation abbreviation selection unit 28 calculates the degree of coincidence Aj obtained for the Jth translation result and is equal to or higher than the degree of coincidence Aj-1 obtained for the previous J-1th translation result. It is determined whether or not (S407). The generation abbreviation selection unit 28 stores the maximum matching score Amax in the maximum matching score candidate storage area in the memory 19 when the matching score Aj for the J-th translation result is equal to or higher (S408). On the other hand, if the degree of coincidence with the J-th translation result is less than Aj, the process proceeds to step S409. When there are a plurality of generated abbreviation candidates, the degree of coincidence Aj with the abbreviation extracted by the term / abbreviation extraction unit 26 is calculated for each abbreviation candidate, so that the maximum degree of coincidence Amax is stored.

続いて、制御部24は、全ての翻訳候補の処理が終了したかどうかを判断し(S409)、未処理の翻訳候補がある場合には、ステップS404に戻る(S410)。未処理の翻訳候補がない場合には、生成略語選択部28は、最大の一致度Amaxが100%かどうかを判断し(S411)、最大の一致度Amaxが100%であるときは、一致度が100%である生成略語を選択する。原文解析・翻訳部25は、一致度が100%の生成略語の翻訳候補を最終翻訳結果とする(S413)。すなわち、生成略語選択部28で一致度が100%の生成略語が選択されたときは、原文解析・翻訳部25は、略語生成部27が生成の元とした第二言語の翻訳候補を翻訳結果に使用する。   Subsequently, the control unit 24 determines whether or not the processing of all the translation candidates has been completed (S409), and if there is an unprocessed translation candidate, returns to step S404 (S410). If there is no unprocessed translation candidate, the generation abbreviation selection unit 28 determines whether or not the maximum matching degree Amax is 100% (S411), and when the maximum matching degree Amax is 100%, the matching degree Select a production abbreviation that is 100%. The source text analysis / translation unit 25 sets the translation candidate of the generated abbreviation having a matching degree of 100% as the final translation result (S413). That is, when a generation abbreviation with 100% coincidence is selected by the generation abbreviation selection unit 28, the source text analysis / translation unit 25 translates a translation candidate of the second language that is generated by the abbreviation generation unit 27 as a translation result. Used for.

一方、生成略語選択部28は、最大の一致度Amaxが100%に満たない場合には翻訳予備候補生成部29を起動する。翻訳予備候補生成部29は、一致度が100%未満の略語生成部27によって生成された生成略語の元となる用語の単語を総当たりに組み合わせて、そこから抽出された略語を生成し、一致度が最大一致度となる略語の元となる用語を翻訳の予備候補として生成し、メモリ19内の翻訳予備候補記憶エリアに記憶する(S412)。   On the other hand, the generation abbreviation selection unit 28 activates the translation preliminary candidate generation unit 29 when the maximum matching degree Amax is less than 100%. The preliminary translation candidate generation unit 29 generates abbreviations extracted from the combined abbreviations by combining the words of the terms that are the source of the generated abbreviations generated by the abbreviation generation unit 27 having a matching degree of less than 100%. The term that is the source of the abbreviation with the highest degree of coincidence is generated as a preliminary translation candidate and stored in the preliminary translation candidate storage area in the memory 19 (S412).

生成略語選択部28は、翻訳予備候補生成部29によって生成された翻訳予備候補の略語の中から一致度100%の略語があるかどうかを判定し(S414)、一致度100%の略語があるときは、原文解析・翻訳部25は、その翻訳候補を最終翻訳結果とする(S413)。一方、ステップS414の判定で、一致度が100%である略語がないときは、一致度100%の略語がない旨を表示装置13に表示出力する(S415)。例えば、一致度100%未満の略語のうち最大一致度の略語を表示したり、一致度100%未満の略語のすべてを一覧表示したり、一致度100%未満の略語の所定割合以上の略語を一覧表示したりする。   The generation abbreviation selection unit 28 determines whether or not there is an abbreviation having a matching degree of 100% among the abbreviations of the translation preliminary candidate generated by the translation preliminary candidate generating part 29 (S414), and there is an abbreviation having a matching degree of 100%. At that time, the source text analysis / translation unit 25 sets the translation candidate as the final translation result (S413). On the other hand, if it is determined in step S414 that there is no abbreviation having a matching degree of 100%, a message indicating that there is no abbreviation having a matching degree of 100% is displayed on the display device 13 (S415). For example, the abbreviations with the maximum matching degree among the abbreviations with a matching degree of less than 100% are displayed, all the abbreviations with a matching degree of less than 100% are displayed as a list, or abbreviations with a predetermined ratio or more of abbreviations with a matching degree of less than 100% Or display a list.

次に、図3のステップS305の原文解析からステップS308の略語用処理について、下記の原文1を例にとり詳細に説明する。   Next, the original text analysis in step S305 to the abbreviation processing in step S308 will be described in detail with reference to the following original text 1.

原文1:この文書では、Solarisのインストール時更新(ITU)またはドライバ更新(DU)に関する問題について記載しています。   Original 1: This document describes issues with Solaris installation update (ITU) or driver update (DU).

図5は、図3のステップS305の原文解析処理にて原文1を解析して得られた構文ツリー構造の説明図である。用語・略語抽出部26は、原文解析・翻訳部25による図5に示す原文解析結果を用いて、その略語の関係にある可能性のある語を抽出する(S306)。   FIG. 5 is an explanatory diagram of a syntax tree structure obtained by analyzing the original sentence 1 in the original sentence analyzing process in step S305 of FIG. The term / abbreviation extraction unit 26 uses the original text analysis result shown in FIG. 5 by the original text analysis / translation unit 25 to extract words that may be related to the abbreviation (S306).

用語とその略語の関係にあるかどうかは、以下の条件に基づいて判断する。例えば、「名詞句とその直後に続く修飾句が挿入を示す文字列を含んでおり、かつ、挿入を示す文字列を除く修飾句を構成する文字が翻訳対象の言語の略語を表記する文字列で構成されている」という条件である。挿入を示す文字列とは、各種括弧、ダッシュ、カンマ、コロン、「すなわち」等の文字や語句である。   Whether or not there is a relationship between a term and its abbreviation is determined based on the following conditions. For example, “a character string in which a noun phrase and a modification phrase immediately following it include a character string indicating insertion, and characters constituting the modification phrase excluding the character string indicating insertion represent an abbreviation of the language to be translated It is a condition of “consisting of”. The character string indicating insertion is a character or a phrase such as various parentheses, dashes, commas, colons, or “that is”.

原文1の例では、名詞句「インストール時更新」の直後に続く「(ITU)」が丸括弧を含み、丸括弧以外の文字が翻訳対象言語である英語を構成するアルファベット文字だけから構成されており、かつ、英語の略語を表記する大文字だけから構成されている。名詞句「ドライバ更新」と「(DU)」も同じ条件を満足している。これらの点から、「インストール時更新」と「(ITU)」、「ドライバ更新」と「(DU)」が用語とその略語の関係にある可能性のある語として抽出される。   In the example of the original text 1, “(ITU)” immediately after the noun phrase “update at installation” includes parentheses, and characters other than the parentheses are composed only of alphabetic characters constituting English as a translation target language. And consist only of uppercase letters representing English abbreviations. The noun phrases “driver update” and “(DU)” satisfy the same condition. From these points, “update at installation” and “(ITU)”, “driver update” and “(DU)” are extracted as terms that may be related to terms and their abbreviations.

なお、名詞句と判断する範囲については、名詞の連続部分、形容詞+名詞、など、複数の候補があり得る。原文1の例では、「Solarisのインストール時更新」を名詞句と判断する候補もあり得る。この候補に関する翻訳候補作成方法の説明は省略するが、抽出された略語との一致度は、他の名詞句よりも小さくなる。これは、名詞句の先頭に”Solaris”という語があるため、生成される略語の先頭部分に、抽出された略語にはない”S”というアルファベットが含まれるからである。   In addition, about the range judged as a noun phrase, there can be a plurality of candidates such as a continuous part of a noun, an adjective + a noun. In the example of the original sentence 1, there may be a candidate for determining “update at the time of installing Solaris” as a noun phrase. Although description of the translation candidate creation method regarding this candidate is omitted, the degree of coincidence with the extracted abbreviation is smaller than that of other noun phrases. This is because there is a word “Solaris” at the beginning of the noun phrase, and therefore, an alphabet “S” that is not in the extracted abbreviation is included in the head part of the generated abbreviation.

用語・略語抽出部26は、用語とその略語の関係にある可能性のある用語・略語候補の抽出を試みた後(S306)、用語・略語候補があるかどうかを判定する(S307)。そして、用語・略語候補があるときは、図3のステップS308の略語用処理に移行する。   The term / abbreviation extraction unit 26 attempts to extract a term / abbreviation candidate that may be related to a term and the abbreviation (S306), and then determines whether there is a term / abbreviation candidate (S307). When there are term / abbreviation candidates, the process proceeds to the abbreviation process in step S308 in FIG.

略語用処理では、原文解析・翻訳部25は、用語・略語抽出部26によって抽出された用語・略語候補を取り出し(S401)、抽出された抽出用語の翻訳候補を作成する(S402)。すなわち、原文解析・翻訳部25は、語彙部31a及び変換規則部31dを参照して、「インストール時更新」及び「ドライバ更新」の翻訳候補を作成する(S402)。   In the abbreviation processing, the source text analysis / translation unit 25 extracts the term / abbreviation candidate extracted by the term / abbreviation extraction unit 26 (S401), and creates a translation candidate for the extracted extracted term (S402). That is, the source text analysis / translation unit 25 refers to the vocabulary unit 31a and the conversion rule unit 31d to create translation candidates for “update at installation” and “driver update” (S402).

以下において、「インストール時更新」の翻訳を例にして、原文解析・翻訳部25での翻訳候補作成処理の詳細について説明する。語彙部31a及び変換規則部31dに格納されている「インストール時更新」に関する訳語候補と変換規則は以下の通りであるとする。   In the following, the translation candidate creation process in the original sentence analysis / translation unit 25 will be described in detail by taking the translation of “update at installation” as an example. It is assumed that the translation candidates and conversion rules relating to “update at installation” stored in the vocabulary part 31a and the conversion rule part 31d are as follows.

インストール=installation, install, installing
時=at the time of, time,
変換規則1:名詞「時」の訳出語順:at the time of 名詞
変換規則2:名詞「時」の訳出語順:名詞 time
更新=renewal, update, updating,
これらの訳語候補と変換規則を総当りで組み合わせると、以下のように、3*2*3=18通りの翻訳候補が得られる(S402)。
1-1-1. renewal at the time of installation
1-1-2. renewal at the time of install
1-1-3. renewal at the time of installing
2-1-1. update at the time of installation
2-1-2. update at the time of install
2-1-3. update at the time of installing
3-1-1. updating at the time of installation
3-1-2. updating at the time of install
3-1-3. updating at the time of installing
1-2-1. installation time renewal
1-2-2. install time renewal
1-2-3. installing time renewal
2-2-1. installation time update
2-2-2. install time update
2-2-3. installing time update
3-2-1. installation time updating
3-2-2. install time updating
3-2-3. installing time updating
これらの各翻訳候補から生成される略語は以下のようになる(S405)。
1-1-1. RTI
1-1-2. RTI
1-1-3. RTI
2-1-1. UTI
2-1-2. UTI
2-1-3. UTI
3-1-1. UTI
3-1-2. UTI
3-1-3. UTI
1-2-1. ITR
1-2-2. ITR
1-2-3. ITR
2-2-1. ITU
2-2-2. ITU
2-2-3. ITU
3-2-1. ITU
3-2-2. ITU
3-2-3. ITU
つまり、略語は、RTI、UTI、ITR、ITUの4種類が得られる。
Installation = installation, install, installing
At the time of, time,
Conversion rule 1: Translation order of noun “time”: at the time of noun Conversion rule 2: Translation order of noun “time”: Noun time
Update = renewal, update, updating,
When these translation word candidates and conversion rules are combined in a brute force manner, 3 * 2 * 3 = 18 translation candidates are obtained as follows (S402).
1-1-1. Renewal at the time of installation
1-1-2.renewal at the time of install
1-1-3.renewal at the time of installing
2-1-1.update at the time of installation
2-1-2.update at the time of install
2-1-3.update at the time of installing
3-1-1. Updating at the time of installation
3-1-2. Updating at the time of install
3-1-3. Updating at the time of installing
1-2-1. Installation time renewal
1-2-2.install time renewal
1-2-3.installing time renewal
2-2-1. Installation time update
2-2-2.install time update
2-2-3.installing time update
3-2-1. Installation time updating
3-2-2.install time updating
3-2-3. Installing time updating
Abbreviations generated from these translation candidates are as follows (S405).
1-1-1. RTI
1-1-2. RTI
1-1-3. RTI
2-1-1. UTI
2-1-2. UTI
2-1-3. UTI
3-1-1. UTI
3-1-2. UTI
3-1-3. UTI
1-2-1. ITR
1-2-2. ITR
1-2-3. ITR
2-2-1. ITU
2-2-2. ITU
2-2-3. ITU
3-2-1. ITU
3-2-2. ITU
3-2-3. ITU
That is, four types of abbreviations are obtained: RTI, UTI, ITR, and ITU.

ここで、略語の一般的な生成方法に関して説明しておく。略語は、上記のような合成語の場合、用語を構成する語のうち、冠詞、前置詞、接続詞などを除いた自立語の頭文字を大文字にしたもので基本的に構成される。   Here, a general method for generating abbreviations will be described. In the case of a compound word as described above, an abbreviation is basically configured by capitalizing the initial letters of independent words excluding articles, prepositions, conjunctions, etc. among the words constituting the term.

頭文字が同一になる複数の用語がある場合などには、合成語を構成する1語について2番目の文字も略語の一部とする場合もある。例えば、doctor of dental surgery(歯科医師)とdoctor of dental science(歯学博士)の場合、前者の略語をDDS後者をDDScなどとする。   When there are a plurality of terms having the same initial letter, the second character may be part of the abbreviation for one word constituting the compound word. For example, in the case of doctor of dental surgery and doctor of dental science, the former abbreviation is DDS and the latter is DDSc.

また、単語が”ex”で始まる語の場合、頭文字の”E”ではなく、”X”が使われる場合もある。例えば、Extensible Markup Language(拡張可能マークアップ言語)の略語はXMLとなる。その他、”trans”、”cross”で始まる語の場合もXを使用するなどの例外的規則もある。1単語から構成される単独語の場合には、一般的に、その単語を構成する各音節の最初の数文字から構成される。略語生成部27が略語を生成する場合には、上記の他、様々な規則が考慮される。   In addition, when the word starts with “ex”, “X” may be used instead of the initial “E”. For example, the abbreviation for Extensible Markup Language is XML. In addition, there are exceptional rules such as using X for words starting with “trans” or “cross”. In the case of a single word composed of one word, it is generally composed of the first few letters of each syllable constituting the word. When the abbreviation generation unit 27 generates an abbreviation, various rules other than the above are considered.

これらの生成された各略語候補と、原文から抽出された略語ITUとの一致度を計算すると、2-2-1〜3-2-3のITUが一致度100%となり、最も一致度が高くなる。なお、一致度の計算には、略語を構成する文字列が一致する割合に加えて、文字数、文字種、出現順などを考慮するようにしても良い。一致度の計算結果に基づき、「インストール時更新」に関する翻訳候補は以下に決定される。
2-2-1. installation time update
2-2-2. install time update
2-2-3. installing time update
3-2-1. installation time updating
3-2-2. install time updating
3-2-3. installing time updating
この場合のように候補が複数ある場合には、訳語を構成する各語の翻訳規則、辞書に登録されている順番などを元に翻訳候補を1つに絞る。この例の場合、利用できる翻訳規則が特にないため、辞書に登録されている順番を元にして、翻訳結果を「2-2-1. installation time update」に決定する。
When the degree of coincidence between these generated abbreviation candidates and the abbreviation ITU extracted from the original text is calculated, the ITUs of 2-2-1 to 3-2-3 become 100% coincidence, and the degree of coincidence is the highest. Become. In calculating the degree of coincidence, the number of characters, the character type, the order of appearance, and the like may be taken into consideration in addition to the proportion of the character strings constituting the abbreviations. Based on the calculation result of the degree of coincidence, translation candidates for “update at installation” are determined as follows.
2-2-1. Installation time update
2-2-2.install time update
2-2-3.installing time update
3-2-1. Installation time updating
3-2-2.install time updating
3-2-3. Installing time updating
When there are a plurality of candidates as in this case, the translation candidates are narrowed down to one based on the translation rule of each word constituting the translated word, the order registered in the dictionary, and the like. In this example, since there is no particular translation rule that can be used, the translation result is determined as “2-2-1. Installation time update” based on the order registered in the dictionary.

以上説明したように、本発明の実施の形態に係わる機械翻訳装置を用いると、「インストール時更新」の訳語は”install time update”に決定され、「インストール時更新(ITU)」の翻訳結果は”install time update(ITU)”となり、用語の翻訳結果と略語とが合致した翻訳結果を得ることができる。   As described above, when the machine translation apparatus according to the embodiment of the present invention is used, the translation of “update at installation” is determined as “install time update”, and the translation result of “update at installation (ITU)” is It becomes “install time update (ITU)”, and a translation result in which the translation result of the term matches the abbreviation can be obtained.

次に、生成された各略語候補と、原文から抽出された略語との一致度が100%に満たない場合には、翻訳予備候補生成部29によって、一致度が100%未満の生成略語の元となる用語の単語を総当たりに組み合わせて、そこから抽出された略語を生成し、一致度が最大一致度となる略語の元となる用語を翻訳の予備候補として生成する。そして、生成略語選択部28は、翻訳予備候補生成部29によって生成された翻訳予備候補の略語の中から一致度が100%の略語を選択する。   Next, when the degree of coincidence between each generated abbreviation candidate and the abbreviation extracted from the original text is less than 100%, the translation preliminary candidate generation unit 29 generates a source of a generated abbreviation having a degree of coincidence of less than 100%. The abbreviations extracted from the abbreviations having the highest matching score are generated as preliminary translation candidates. Then, the generation abbreviation selection unit 28 selects an abbreviation having a matching degree of 100% from the abbreviations of the translation preliminary candidate generated by the translation preliminary candidate generation unit 29.

例えば、以下のような原文2である場合を考える。この場合、原文2から抽出された用語・略語は、2個の用語1、2及び2個の略語1、2である。
原文2:歯科医師(DDS)、歯科博士(DDSc)
原文2から抽出された用語1:歯科医師
原文2から抽出された略語1:DDS
原文2から抽出された用語2:歯学博士
原文2から抽出された略語2:DDSc
略語生成部27により、用語1から生成された最も一致度の高い略語1は、DS(Dental Surgeon), DS(Dentistry Surgeon), DD(Dental Doctor), DD(Dentistry Doctor), DD(Doctor of Dentistry)であり、生成略語DS、DDと、原文2から抽出された略語1「DDS」との一致度は66%である。また、用語2から生成された最も一致度の高い略語2は、DDSc(Doctor of Dental Science)であり、生成略語DDScと、原文2から抽出された略語2「DDSc」との一致度100%である。
For example, consider the case where the original text 2 is as follows. In this case, the terms and abbreviations extracted from the original sentence 2 are two terms 1 and 2 and two abbreviations 1 and 2.
Original 2: Dentist (DDS), Dentist (DDSc)
Term 1 extracted from source text 1: Dentist Abbreviation extracted from source text 1: DDS
Term 2: extracted from source 2: Doctor of Dentistry Abbreviation: 2, extracted from source 2: DDSc
The abbreviation 1 with the highest degree of coincidence generated from the term 1 by the abbreviation generator 27 is DS (Dental Surgeon), DS (Dentistry Surgeon), DD (Dental Doctor), DD (Dentistry Doctor), DD (Doctor of Dentistry The degree of coincidence between the generated abbreviations DS and DD and the abbreviation 1 “DDS” extracted from the original sentence 2 is 66%. The most abbreviated abbreviation 2 generated from term 2 is DDSc (Doctor of Dental Science), and the abbreviation 2 “DDSc” extracted from original sentence 2 is 100% coincident. is there.

原文2の用例1の生成略語DS、DDは一致度66%であるので、翻訳予備候補生成に際しては、翻訳予備候補生成部29は、略語生成部27の生成した生成略語DS、DDの元となる単語{DS(Dental Surgeon), DS(Dentistry Surgeon),DD(Dental Doctor), DD(Dentistry Doctor), DD(Doctor of Dentistry)}を総当りで組み合わせて、そこから抽出された略語「DDS」が生成できる組み合わせを選択する。   Since the generation abbreviations DS and DD in Example 1 of the original sentence 2 have a degree of coincidence of 66%, the translation preliminary candidate generation unit 29 determines the source of the generation abbreviations DS and DD generated by the abbreviation generation unit 27. The abbreviation “DDS” extracted from a combination of the words {DS (Dental Surgeon), DS (Dentistry Surgeon), DD (Dental Doctor), DD (Dentistry Doctor), DD (Doctor of Dentistry)} Select combinations that can generate.

これにより、「Doctor of Dental Surgeon」、「Doctor of Dentistry Surgeon」、「Dentistry Doctor Surgeon」が翻訳予備候補として生成される。組み合わせが複数ある場合には、合成語として辞書部31に登録されている組み合わせを含むかどうか、辞書部31に登録されている順番、インターネット検索による検索結果の件数などを基準として、生成された候補の優先順位を決めることもできる。   Accordingly, “Doctor of Dental Surgeon”, “Doctor of Dentistry Surgeon”, and “Dentistry Doctor Surgeon” are generated as translation preliminary candidates. When there are a plurality of combinations, it is generated based on whether or not a combination registered in the dictionary unit 31 as a composite word is included, the order registered in the dictionary unit 31, the number of search results by Internet search, etc. Candidate priorities can also be determined.

このようにして、一致度が100%に満たない場合であっても、生成された翻訳予備候補がある場合には、翻訳予備候補としてユーザに提供できる。この場合、翻訳予備候補が存在することを、例えば訳文の末尾に特定の記号を表示することによって、ユーザに告知するようなユーザインターフェースを設けることもできる。   In this way, even when the degree of coincidence is less than 100%, if there is a generated translation preliminary candidate, it can be provided to the user as a translation preliminary candidate. In this case, it is possible to provide a user interface that notifies the user that there is a translation preliminary candidate, for example, by displaying a specific symbol at the end of the translation.

本発明の実施の形態によれば、原文中の特定の用語に対して、その用語の略語が併記されている場合、例えば、「インストール時更新(ITU)」という表記に関し、用語の複数の翻訳候補から生成された生成略語(RTI、UTI、ITR、ITU)と、原文から抽出された抽出略語(ITU)とが一致する翻訳候補”install time update”を選択するので、特定の用語「インストール時更新」に対して併記されている略語(ITU)に合致した翻訳結果を得ることができる。   According to an embodiment of the present invention, when an abbreviation of a term is written together with a specific term in the original text, for example, with respect to the notation of “update at installation (ITU)”, a plurality of translations of the term Select the translation candidate “install time update” where the generated abbreviation (RTI, UTI, ITR, ITU) generated from the candidate matches the extracted abbreviation (ITU) extracted from the original text. A translation result that matches the abbreviation (ITU) written together with “update” can be obtained.

また、用語の複数の翻訳候補から生成された生成略語と原文から抽出された抽出略語とが一致しない場合には、一致度が100%未満の生成略語の元となる用語の単語を総当たりに組み合わせて、そこから抽出された略語を生成するので、文中の略語が通常の翻訳知識を使って生成した略語候補とは一致し難い場合でも、通常の翻訳知識とは異なる知識を使用して翻訳候補を作成することができる。   Also, if the generated abbreviations generated from a plurality of translation candidates for terms and the extracted abbreviations extracted from the original text do not match, the word of the term that is the source of the generated abbreviation with a matching degree of less than 100% Since the abbreviations extracted from the combination are generated in combination, even if the abbreviations in the sentence are difficult to match with the abbreviation candidates generated using normal translation knowledge, translation is performed using knowledge different from normal translation knowledge Candidates can be created.

さらに、辞書登録部30により、原文から抽出した用語と、生成略語の元となった翻訳候補とを辞書部31に登録するので、以降の文書中で同じ用語が出現した場合、訳語の統一を容易に図ることができる。   Furthermore, since the dictionary registration unit 30 registers the term extracted from the original text and the translation candidate that is the source of the generated abbreviation in the dictionary unit 31, if the same term appears in subsequent documents, the translation word is unified. It can be easily achieved.

11…機械翻訳装置、12…演算制御装置、13…表示装置、14…マウス、15…キーボード、16…ディスクドライブ、17…補助記憶装置、18…プロセッサ、19…メモリ、20…プログラム、21…作業エリア、22…入力部、23…文分割部、24…制御部、25…原文解析・翻訳部、26…用語・略語抽出部、27…略語生成部、28…生成略語選択部、29…翻訳予備候補生成部、30…辞書登録部、31…辞書部、32…辞書登録部 DESCRIPTION OF SYMBOLS 11 ... Machine translation apparatus, 12 ... Calculation control apparatus, 13 ... Display apparatus, 14 ... Mouse, 15 ... Keyboard, 16 ... Disk drive, 17 ... Auxiliary storage device, 18 ... Processor, 19 ... Memory, 20 ... Program, 21 ... Work area 22 ... Input unit 23 ... Sentence division unit 24 ... Control unit 25 ... Original text analysis / translation unit 26 ... Term / abbreviation extraction unit 27 ... Abbreviation generation unit 28 ... Generation abbreviation selection unit 29 ... Preliminary translation candidate generation unit 30 ... Dictionary registration unit 31 ... Dictionary unit 32 ... Dictionary registration unit

Claims (5)

機械翻訳プログラム及び辞書部を記憶した記憶装置と、翻訳対象の第一言語の原文データを入力する入力装置と、翻訳後の第二言語の訳文データを出力する出力装置と、前記機械翻訳プログラムを演算実行する演算制御装置とを備えた機械翻訳装置において、
前記第一言語を前記第二言語に翻訳及び言語解析するための語彙・規則が格納された辞書部と、
前記入力装置から入力された第一言語の原文データを受け付け前記記憶装置に記憶させる入力部と、
前記辞書部を参照して前記入力部で受け付けた原文データを言語解析するとともに翻訳を行う原文解析・翻訳部と、
前記原文解析・翻訳部による原文データの言語解析結果を参照して原文から略語とそれに対応する展開表記の用語とを抽出し、抽出した展開表記の用語を前記原文解析・翻訳部で翻訳させる用語・略語抽出部と、
前記用語・略語抽出部によって抽出され前記原文解析・翻訳部で翻訳された前記展開表記の用語の第二言語の翻訳候補から略語を生成する略語生成部と、
前記略語生成部によって生成された生成略語と前記用語・略語抽出部が原文データから抽出した抽出略語とを比較して一致度が100%の生成略語を選択する生成略語選択部と、
前記生成略語選択部で一致度が100%の生成略語が選択されたときは、前記原文解析・翻訳部は、前記略語生成部が生成の元とした第二言語の翻訳候補を翻訳結果に採用することを特徴とする機械翻訳装置。
A storage device storing a machine translation program and a dictionary unit, an input device for inputting original text data of a first language to be translated, an output device for outputting translated text data of a second language after translation, and the machine translation program In a machine translation device provided with an arithmetic control device for performing arithmetic operations,
A dictionary unit storing vocabulary and rules for translating and analyzing the first language into the second language;
An input unit that accepts original text data in a first language input from the input device and stores the original data in the storage device;
A source text analysis / translation unit that performs language analysis and translation of the source text data received by the input unit with reference to the dictionary unit;
Terms that extract abbreviations and corresponding expanded notation terms from the original text with reference to the language analysis results of the original text data by the original text analysis / translation unit, and translate the extracted expanded notation terms in the original text analysis / translation unit An abbreviation extraction unit;
An abbreviation generator for generating abbreviations from second language translation candidates of the expanded notation term extracted by the term / abbreviation extraction unit and translated by the source text analysis / translation unit;
A generation abbreviation selection unit that compares a generation abbreviation generated by the abbreviation generation unit with an extraction abbreviation extracted from original text data by the term / abbreviation extraction unit and selects a generation abbreviation having a degree of coincidence of 100%;
When a generation abbreviation with 100% coincidence is selected by the generation abbreviation selection unit, the source text analysis / translation unit adopts a translation candidate of a second language that is generated by the abbreviation generation unit as a translation result. A machine translation apparatus characterized by:
前記略語生成部によって生成された生成略語と、前記用語・略語抽出部が原文データから抽出した抽出略語との一致度が100%でないときは、一致度が100%未満の前記略語生成部によって生成された生成略語の元となる第二言語の翻訳候補の単語を総当たりに組み合わせて、そこから抽出された略語を生成し、一致度が最大一致度となる略語の元となる用語を翻訳の予備候補として生成する翻訳予備候補生成部を設け、前記生成略語選択部は、前記翻訳予備候補生成部によって生成された翻訳予備候補の略語の中から一致度が100%の略語を選択することを特徴とする請求項1記載の機械翻訳装置。   When the coincidence between the generated abbreviation generated by the abbreviation generation unit and the extracted abbreviation extracted from the original text data by the term / abbreviation extraction unit is not 100%, it is generated by the abbreviation generation unit having a coincidence degree of less than 100% The second language translation candidate words that are the source of the generated abbreviations are combined in a brute force manner to generate abbreviations extracted from them, and the term that is the source of the abbreviation with the highest matching score is translated. A preliminary translation candidate generation unit for generating as a preliminary candidate is provided, and the generation abbreviation selection unit selects an abbreviation having a matching degree of 100% from the abbreviations of the preliminary translation candidate generated by the preliminary translation candidate generation unit. The machine translation apparatus according to claim 1, wherein the machine translation apparatus is a machine translation device. 前記用語・略語抽出部が原文データから抽出した展開表記の用語と、前記生成訳語選択部によって選択された生成略語の元となった翻訳候補とを前記辞書部に登録する辞書登録部を設けたことを特徴とする請求項1または請求項2に記載の機械翻訳装置。   A dictionary registration unit is provided for registering the expanded notation term extracted from the original text data by the term / abbreviation extraction unit and the translation candidate that is the source of the generated abbreviation selected by the generated translation selection unit in the dictionary unit. The machine translation apparatus according to claim 1, wherein the machine translation apparatus is a machine translation apparatus. 翻訳対象の第一言語の原文データを入力装置から入力し、演算制御装置により記憶装置に記憶された機械翻訳プログラムを演算実行し、前記記憶装置に記憶された辞書部を参照して翻訳処理を行い、翻訳後の第二言語の訳文データを出力装置から出力する機械翻訳方法において、
前記辞書部に前記第一言語を前記第二言語に翻訳及び言語解析するための語彙・規則を予め格納しておき、
前記入力装置から入力された第一言語の原文データを受け付け前記記憶装置に記憶させ、
前記辞書部を参照して前記入力部で受け付けた原文データを言語解析するとともに翻訳を行い、
前記原文データの言語解析結果を参照して原文から略語とそれに対応する展開表記の用語とを抽出し、
抽出した展開表記の用語を翻訳し、
翻訳された前記展開表記の用語の第二言語の翻訳候補から略語を生成し、
生成された生成略語と原文データから抽出した抽出略語とを比較して一致度が100%の生成略語を選択し、
一致度が100%の生成略語が選択されたときは生成の元とした第二言語の翻訳候補を翻訳結果に採用することを特徴とする機械翻訳方法。
The original text data of the first language to be translated is input from the input device, the machine translation program stored in the storage device is calculated and executed by the calculation control device, and the translation processing is performed with reference to the dictionary unit stored in the storage device. In a machine translation method for outputting translated data of a second language after translation from an output device,
Preliminarily storing vocabulary and rules for translating and analyzing the first language into the second language in the dictionary unit,
Receiving the original text data of the first language input from the input device and storing it in the storage device;
Language analysis and translation of the original text data received by the input unit with reference to the dictionary unit,
Extracting abbreviations and corresponding expanded notation terms from the original text with reference to the language analysis results of the original text data,
Translate the extracted expanded terminology,
An abbreviation is generated from a translation candidate in the second language of the translated term of the translated notation,
Compare the generated generation abbreviation with the extracted abbreviation extracted from the original text data, select a generation abbreviation with 100% match,
A machine translation method characterized in that, when a generation abbreviation having a degree of coincidence of 100% is selected, a translation candidate of a second language as a generation source is adopted as a translation result.
機械翻訳プログラム及び辞書部を記憶した記憶装置と、翻訳対象の第一言語の原文データを入力する入力装置と、翻訳後の第二言語の訳文データを出力する出力装置と、前記機械翻訳プログラムを演算実行する演算制御装置とを備えた機械翻訳装置として機能させるためのコンピュータにおいて、
前記辞書部に前記第一言語を前記第二言語に翻訳及び言語解析するための語彙・規則を予め格納しておき、
コンピュータに、前記入力装置から入力された第一言語の原文データを受け付け前記記憶装置に記憶させる手順と、
前記辞書部を参照して前記入力部で受け付けた原文データを言語解析するとともに翻訳を行う手順と、
前記原文データの言語解析結果を参照して原文から略語とそれに対応する展開表記の用語とを抽出する手順と、
抽出した展開表記の用語を翻訳させる手順と、
翻訳された前記展開表記の用語の第二言語の翻訳候補から略語を生成する手順と、
生成された生成略語と原文データから抽出した抽出略語とを比較して一致度が100%の生成略語を選択する手順と、
一致度が100%の生成略語が選択されたときは生成の元とした第二言語の翻訳候補を翻訳結果に採用する手順とを実行させるためのプログラム。
A storage device storing a machine translation program and a dictionary unit, an input device for inputting original text data of a first language to be translated, an output device for outputting translated text data of a second language after translation, and the machine translation program In a computer for functioning as a machine translation device provided with an arithmetic control device for performing arithmetic operations,
Preliminarily storing vocabulary and rules for translating and analyzing the first language into the second language in the dictionary unit,
A procedure for accepting original text data in a first language input from the input device to a computer and storing it in the storage device;
A procedure for performing language analysis and translation of the original text data received by the input unit with reference to the dictionary unit,
A procedure for extracting abbreviations and corresponding expansion notation terms from the original text with reference to the language analysis results of the original text data;
A procedure for translating the extracted expanded terminology,
Generating abbreviations from translation candidates in the second language of the translated terms of the expression,
Comparing the generated generation abbreviation with the extracted abbreviation extracted from the original text data and selecting a generation abbreviation with a degree of match of 100%;
A program for executing, when a generation abbreviation having a coincidence degree of 100% is selected, a procedure for adopting a translation candidate of a second language as a generation source as a translation result.
JP2009125721A 2009-05-25 2009-05-25 Machine translation apparatus, method and program Expired - Fee Related JP4951023B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009125721A JP4951023B2 (en) 2009-05-25 2009-05-25 Machine translation apparatus, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009125721A JP4951023B2 (en) 2009-05-25 2009-05-25 Machine translation apparatus, method and program

Publications (2)

Publication Number Publication Date
JP2010272079A true JP2010272079A (en) 2010-12-02
JP4951023B2 JP4951023B2 (en) 2012-06-13

Family

ID=43420022

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009125721A Expired - Fee Related JP4951023B2 (en) 2009-05-25 2009-05-25 Machine translation apparatus, method and program

Country Status (1)

Country Link
JP (1) JP4951023B2 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0954775A (en) * 1995-08-14 1997-02-25 Toshiba Corp Translating method and machine translation system
JPH1166068A (en) * 1997-08-20 1999-03-09 Matsushita Electric Ind Co Ltd Machine translation device/method and recording medium with recorded machine translation program
JPH11238062A (en) * 1998-02-20 1999-08-31 Nec Corp Machine translating method/device and machine-readable medium to record program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0954775A (en) * 1995-08-14 1997-02-25 Toshiba Corp Translating method and machine translation system
JPH1166068A (en) * 1997-08-20 1999-03-09 Matsushita Electric Ind Co Ltd Machine translation device/method and recording medium with recorded machine translation program
JPH11238062A (en) * 1998-02-20 1999-08-31 Nec Corp Machine translating method/device and machine-readable medium to record program

Also Published As

Publication number Publication date
JP4951023B2 (en) 2012-06-13

Similar Documents

Publication Publication Date Title
JP2654001B2 (en) Machine translation method
EP1482414B1 (en) Translating method for emphasised words
JP4319860B2 (en) Method and apparatus for developing a transfer dictionary for use in a transfer-based machine translation system
JPH1011447A (en) Translation method and system based upon pattern
JPS61255469A (en) Language generating device
JPWO2008146583A1 (en) Dictionary registration system, dictionary registration method, and dictionary registration program
JP2004220616A (en) Machine translation system for simultaneously displaying and editing three or more parallel translation screens
JP4886244B2 (en) Machine translation apparatus and machine translation program
JP2007072594A (en) Translation device, translation method, translation program and medium
JP4951023B2 (en) Machine translation apparatus, method and program
JP4875040B2 (en) Machine translation system and machine translation program
WO2009144890A1 (en) Pre-translation rephrasing rule generating system
JP4881399B2 (en) Bilingual information creation device, machine translation device, and program
JP3961858B2 (en) Transliteration device and program thereof
JP2006024114A (en) Mechanical translation device and mechanical translation computer program
JP2006011842A (en) Translation device and translation program
JP5746921B2 (en) Machine translation apparatus, method and program
US20130080144A1 (en) Machine translation apparatus, a method and a non-transitory computer readable medium thereof
JP2928246B2 (en) Translation support device
JP3069532B2 (en) Kana-kanji conversion method and device, and computer-readable recording medium storing a program for causing a computer to execute the kana-kanji conversion method
JP2006031511A (en) Translation model generation system and method thereof
JPH11259474A (en) Machine translation system and machine translating method
JPS6180361A (en) Translation display system
JPWO2008123081A1 (en) Character data processing method, computer program, and character data processing system
JPH0778166A (en) Translating method and machine translation system

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120214

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120309

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150316

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4951023

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees