JP2005216127A - Machine translation method and machine translation device - Google Patents

Machine translation method and machine translation device Download PDF

Info

Publication number
JP2005216127A
JP2005216127A JP2004023914A JP2004023914A JP2005216127A JP 2005216127 A JP2005216127 A JP 2005216127A JP 2004023914 A JP2004023914 A JP 2004023914A JP 2004023914 A JP2004023914 A JP 2004023914A JP 2005216127 A JP2005216127 A JP 2005216127A
Authority
JP
Japan
Prior art keywords
translation
text
word
dependency
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004023914A
Other languages
Japanese (ja)
Other versions
JP3921543B2 (en
Inventor
Seiki Uchimoto
清貴 内元
Hitoshi Isahara
均 井佐原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2004023914A priority Critical patent/JP3921543B2/en
Publication of JP2005216127A publication Critical patent/JP2005216127A/en
Application granted granted Critical
Publication of JP3921543B2 publication Critical patent/JP3921543B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a machine translation device and method capable of outputting a suitable text of a translation destination language even in case that a translation source language or the translation destination language does not have a sufficient environment such as corpus, or a text to be inputted is inaccurate. <P>SOLUTION: When a text 31 of the translation source language is inputted to the mechanical translation device 30, a characteristic word extraction part 50 extracts characteristic words 33 from the input text. A parallel translation selection part 60 selects an optimum translation 34 of each characteristic word 33. Further, a plurality of translations 34 are inputted to a text generation part 70, whereby a most natural generation text 35 containing the translated words can be obtained. A text 32 of the translation destination language is outputted from an output part 80. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

本発明は機械翻訳の方法および装置に関する。特に、翻訳元言語のテキストを入力し、翻訳先言語のテキストを出力するまでの処理手法に係る技術である。   The present invention relates to a machine translation method and apparatus. In particular, this is a technique related to a processing method from inputting a text in a translation source language to outputting a text in a translation destination language.

従来の機械翻訳方法においては、例えば特許文献1に開示される機械翻訳の手法が知られている。該特許文献でも開示されているように従来の機械翻訳方法は、例えば日本語から英語への翻訳を行う場合に、日本語の解析を行って、文の意味構造を導出する。
この意味構造は木構造や意味ネットワークで表現できる。そして、生成された意味ネットワークを解析し、適切な訳語を選択して目的とする訳文を生成する処理を行っているものがある。
As a conventional machine translation method, for example, a machine translation method disclosed in Patent Document 1 is known. As disclosed in the patent document, the conventional machine translation method analyzes the Japanese to derive the semantic structure of the sentence when, for example, translation from Japanese to English is performed.
This semantic structure can be expressed by a tree structure or a semantic network. Some of them analyze the generated semantic network, select an appropriate translation, and generate a target translation.

ここで、意味ネットワークは意味記号を付加したノードと、ノード間の関係情報を付加したアークとによって記述されており、各ノードには翻訳文を生成する際に必要な文生成規則が付加される。生成時には文生成規則に基づき、英語の単語とその文法属性とを検索し、次にアークの情報と整合する単語、品詞、文型をそれぞれ決定する処理を行う。   Here, the semantic network is described by a node to which a semantic symbol is added and an arc to which relation information between the nodes is added, and a sentence generation rule necessary for generating a translated sentence is added to each node. . At the time of generation, an English word and its grammatical attribute are searched based on a sentence generation rule, and then a process for determining a word, a part of speech, and a sentence pattern that match the arc information is performed.

特公平8−33895号公報Japanese Patent Publication No. 8-33895

また、近年、大量のコーパスが利用可能となり、自然な表層文を生成する目的にもコーパスが利用されるようになってきている。その典型例の1つが機械翻訳に用いられる言語モデルであり、例えば非特許文献1で開示されている。
ここで示される統計的機械翻訳では、原言語で書かれたテキストをS、目的言語で書かれたテキストをTとして、Sが与えられたときにTを生成する確率Pが最大になるようなテキストを最適な翻訳として出力する。
この時用いられるモデルとしては、単語や句を原言語から目的言語に置き換えるための翻訳モデルと、置き換えた単語や句を目的言語側で尤もらしい順序に並べ替えるための言語モデルがある。
In recent years, a large amount of corpus has become available, and the corpus has also been used for the purpose of generating natural surface sentences. One typical example is a language model used for machine translation, which is disclosed in Non-Patent Document 1, for example.
In the statistical machine translation shown here, it is assumed that the text P written in the source language is S, the text written in the target language is T, and the probability P of generating T when S is given is maximized. Output text as an optimal translation.
The models used at this time include a translation model for replacing words and phrases from the original language to the target language, and a language model for rearranging the replaced words and phrases in a reasonable order on the target language side.

Brown,P.F., Cocke,J., Piera,S.A.D., Pietra,V.J.D., Jelinek,F., Lalfferty,J.D., Mercer,R.L., and Roossin,P.S.(1990). "A Statistical Approach to MachineTranslation." Computational lingustics,16(2),79-85Brown, PF, Cocke, J., Piera, SAD, Pietra, VJD, Jelinek, F., Lalfferty, JD, Mercer, RL, and Roossin, PS (1990). "A Statistical Approach to MachineTranslation." Computational lingustics, 16 (2), 79-85

このような従来の統計的機械翻訳の手法では、与えられた語の集合を並べ換えると自然な文を生成できるという仮定がある。つまり、自然な文を生成するための語の集合は翻訳モデルにより過不足なく生成されることが前提となっている。
しかし、この前提のためには大規模な対訳コーパスが必要であり、日本語などの比較的コーパスが整備された言語が原言語であっても、対象言語との対訳コーパスの状況、対象言語におけるコーパスの状況によっては、上記従来の手法では十分な翻訳精度の向上が望めない問題があった。
In such a conventional statistical machine translation technique, there is an assumption that a natural sentence can be generated by rearranging a given set of words. In other words, it is assumed that a set of words for generating a natural sentence is generated without excess or deficiency by a translation model.
However, a large-scale bilingual corpus is necessary for this premise, and even if the source language is a relatively well-developed language such as Japanese, the status of the bilingual corpus with the target language, Depending on the state of the corpus, there is a problem that the above-described conventional method cannot be expected to sufficiently improve the translation accuracy.

また、特に話し言葉や、文法的な誤り、記述上の誤りなど原言語の表現が不適切な場合に、これら従来の方法では正しい意味構造の解析や翻訳モデルの作用が不可能であり、全く誤った翻訳結果を出力してしまうことがある。   Also, especially when the source language expression is inappropriate, such as spoken language, grammatical errors, and descriptive errors, these conventional methods do not allow correct semantic structure analysis or translation model action, and are completely incorrect. The translation result may be output.

本発明は、上記従来技術の有する問題点に鑑みて創出されたものであり、その目的は、翻訳元言語又は翻訳先言語に十分なコーパス等の環境が整っていない場合や、入力するテキストが不正確な場合にも、好適な翻訳先言語のテキストを出力可能な機械翻訳方法及び装置を提供することである。   The present invention was created in view of the above-described problems of the prior art. The purpose of the present invention is when there is not enough environment such as a corpus for a source language or a target language, or when a text to be input is not prepared. It is an object of the present invention to provide a machine translation method and apparatus capable of outputting a text in a suitable target language even when inaccurate.

本発明は、上記の課題を解決するために、次のような機械翻訳方法を創出する。
すなわち、本発明は所定の翻訳元言語で記述される翻訳元テキストを翻訳先言語で記述される翻訳先テキストに機械翻訳する方法であって、翻訳元テキストを入力ステップにおいて入力する。
入力された翻訳元テキストから、特徴的な意味を有する特徴語を抽出する特徴語抽出ステップ、該特徴語を、翻訳先言語で表現される訳語に翻訳する訳語選択ステップにより、翻訳元テキストの特徴的単語訳語となる特徴後の訳語を得る。
In order to solve the above problems, the present invention creates the following machine translation method.
That is, the present invention is a method for machine translation of a translation source text described in a predetermined translation source language into a translation destination text described in a translation destination language, and the translation source text is input in an input step.
A feature word extraction step for extracting a feature word having a characteristic meaning from the input translation source text, and a feature selection step for translating the feature word into a translation word expressed in the translation destination language. The post-feature translation that becomes the target word translation is obtained.

そして、訳語から所定の生成規則に基づいて文字単位候補を生成する文字単位候補生成ステップと、該各文字単位間の依存関係を仮定して単数又は複数の翻訳先テキスト候補を生成する翻訳先テキスト候補生成ステップと、該翻訳先テキスト候補が少なくとも複数の場合に各翻訳先テキスト候補を評価する評価ステップとから成る。出力ステップでは、該評価結果に関連して、少なくとも翻訳先テキスト候補のうち1つを出力する。   Then, a character unit candidate generation step for generating character unit candidates from the translated words based on a predetermined generation rule, and a translation destination text for generating one or a plurality of translation destination text candidates on the assumption of the dependency between the character units A candidate generation step and an evaluation step of evaluating each translation destination text candidate when there are at least a plurality of translation destination text candidates. In the output step, at least one of the translation destination text candidates is output in relation to the evaluation result.

また、請求項2に係る機械翻訳方法は、前記特徴語抽出ステップで抽出された特徴語のうち、該特徴語間の依存関係情報を抽出する依存関係抽出ステップを備え、該依存関係情報を有する特徴語から生成された文字単位候補については、前記翻訳先テキスト候補生成ステップにおいて、該依存関係情報を用いて翻訳先テキスト候補を生成することを特徴とする。   The machine translation method according to claim 2 further includes a dependency extraction step for extracting dependency relationship information between the feature words out of the feature words extracted in the feature word extraction step, and has the dependency relationship information. For the character unit candidate generated from the feature word, a translation destination text candidate is generated using the dependency relationship information in the translation destination text candidate generation step.

あるいは、請求項3に係る機械翻訳方法は、前記特徴語抽出ステップで抽出された特徴語のうち、該特徴語間の依存関係情報を抽出する依存関係抽出ステップを備え、前記評価ステップにおいて、該依存関係情報と、前記翻訳先テキスト候補における当該依存関係との比較を行い、依存関係の同一性が高い翻訳先テキスト候補の評価を高くすることを特徴とする。   Alternatively, the machine translation method according to claim 3 includes a dependency extraction step for extracting dependency relationship information between the feature words out of the feature words extracted in the feature word extraction step, and in the evaluation step, The dependency relationship information is compared with the dependency relationship in the translation destination text candidate, and the evaluation of the translation destination text candidate having high dependency relationship is made high.

ここで、文字単位候補生成ステップで用いる生成規則が、前記訳語を含む文・語句を翻訳先言語で記述された複数の文章を含むデータベースから抽出し、当該訳語と該文・語句との関係を自動獲得した規則である構成とすることもできる。   Here, the generation rule used in the character unit candidate generation step is to extract a sentence / phrase including the translated word from a database including a plurality of sentences described in the translation target language, and to determine the relationship between the translated word and the sentence / phrase. It is also possible to adopt a configuration that is an automatically acquired rule.

本発明は、次のような機械翻訳装置を提供してもよい。
すなわち、所定の翻訳元言語で記述される翻訳元テキストを翻訳先言語で記述される翻訳先テキストに機械翻訳する機械翻訳装置である。
そして、請求項5に記載の機械翻訳装置は、(1)翻訳元テキストを入力する入力手段、(2)該翻訳元テキストから、特徴的な意味を有する特徴語を抽出する特徴語抽出手段、(3)該特徴語を、翻訳先言語で表現される訳語に翻訳する訳語選択手段、(4)該訳語から所定の生成規則に基づいて文字単位候補を生成する文字単位候補生成手段、(5)該各文字単位間の依存関係を仮定して単数又は複数の翻訳先テキスト候補を生成する翻訳先テキスト候補生成手段、(6)該翻訳先テキスト候補が少なくとも複数の場合に各翻訳先テキスト候補の評価値を算出する評価手段、(7)該評価値に関連して、少なくとも翻訳先テキスト候補のうち1つを出力する出力手段を備えたことを特徴とする。
The present invention may provide the following machine translation apparatus.
That is, the machine translation device performs machine translation of a translation source text described in a predetermined translation source language into a translation destination text described in a translation destination language.
The machine translation device according to claim 5 includes (1) an input unit for inputting a translation source text, and (2) a feature word extraction unit for extracting a feature word having a characteristic meaning from the translation source text. (3) a translation selection unit that translates the feature word into a translation expressed in the target language; (4) a character unit candidate generation unit that generates a character unit candidate from the translation based on a predetermined generation rule; ) Translation destination text candidate generation means for generating one or a plurality of translation destination text candidates on the assumption of the dependence between the character units; (6) Each translation destination text candidate when there are at least a plurality of translation destination text candidates (7) In relation to the evaluation value, there is provided an output means for outputting at least one of the translation destination text candidates.

請求項6に係る機械翻訳装置は、前記特徴語抽出手段で抽出された特徴語のうち、該特徴語間の依存関係情報を抽出する依存関係抽出手段を備え、該依存関係情報を有する特徴語から生成された文字単位候補については、前記翻訳先テキスト候補生成手段において、該依存関係情報を用いて翻訳先テキスト候補を生成することができる。   The machine translation device according to claim 6 is provided with dependency relationship extraction means for extracting dependency relationship information between feature words out of the feature words extracted by the feature word extraction means, and the feature words having the dependency relationship information For the character unit candidate generated from the above, the translation destination text candidate generation means can generate a translation destination text candidate using the dependency relationship information.

また、請求項7に係る機械翻訳装置においては、前記特徴語抽出手段で抽出された特徴語のうち、該特徴語間の依存関係情報を抽出する依存関係抽出手段を備え、前記評価手段において、該依存関係情報と、前記翻訳先テキスト候補における当該依存関係との比較を行い、依存関係の同一性が高い翻訳先テキスト候補の評価値を高くする構成をとる。   Further, in the machine translation device according to claim 7, the machine translation device includes a dependency relationship extraction unit that extracts dependency relationship information between the feature words out of the feature words extracted by the feature word extraction unit, and the evaluation unit includes: The dependency relationship information is compared with the dependency relationship in the translation destination text candidate, and the evaluation value of the translation destination text candidate having high dependency relationship is increased.

前記文字単位候補生成手段で用いる生成規則が、前記訳語を含む文・語句を、翻訳先言語で記述された複数の文章を含むデータベースから抽出し、当該訳語と該文・語句との関係を自動獲得した規則である構成でもよい。   The generation rule used by the character unit candidate generating means extracts a sentence / phrase including the translated word from a database including a plurality of sentences described in the translation destination language, and automatically determines the relationship between the translated word and the sentence / phrase. The configuration may be an acquired rule.

以上の発明により次の効果を奏する。
すなわち、請求項1ないし4に記載の機械翻訳方法によれば、新しい機械翻訳方法を創出することで、翻訳元言語と翻訳先言語に十分なコーパス(特に対訳コーパス)が整っていない場合でも、高精度な機械翻訳方法を容易に構成することができる。
また、入力するテキストから特徴語を抽出するため、文法的に不正確なテキストを入力しても、自然で理解のしやすい翻訳を実現することができる。同時に得られた翻訳先テキストは、特徴語を確実に押さえているため、大意を掴みやすい。従来の翻訳技術では、文法的な誤りの他に、意味の捉えにくい翻訳結果を出力する場合が少なくなかったが、本方法では好適なテキストを得ることができる。
The following effects are produced by the above invention.
That is, according to the machine translation method according to claims 1 to 4, by creating a new machine translation method, even when there is not a sufficient corpus (particularly a parallel corpus) in the source language and the target language, A highly accurate machine translation method can be easily configured.
In addition, because feature words are extracted from the text to be input, it is possible to achieve natural and easy-to-understand translation even if grammatically incorrect text is input. The translated text obtained at the same time is easy to grasp the meaning because the feature word is surely suppressed. Conventional translation techniques often output translation results that are difficult to grasp in addition to grammatical errors, but this method can provide a suitable text.

特に、請求項2及び3に記載の機械翻訳方法では、翻訳元言語テキストにおける依存関係を、翻訳先言語の生成ステップで用いることができるので、高精度な翻訳に寄与することができる。   In particular, in the machine translation method according to claims 2 and 3, since the dependency relationship in the translation source language text can be used in the generation step of the translation destination language, it can contribute to highly accurate translation.

また、本発明の請求項5ないし8に記載の機械翻訳装置によれば、新しい機械翻訳手法を導入することで、翻訳元言語と翻訳先言語に十分なコーパス(特に対訳コーパス)が整っていない場合でも、高精度な機械翻訳装置を提供することができる。
また、入力するテキストから特徴語を抽出するため、文法的に不正確なテキストを入力しても、自然で理解のしやすい翻訳を実現することができる。
In addition, according to the machine translation apparatus according to claims 5 to 8 of the present invention, a sufficient corpus (particularly a bilingual corpus) is not prepared for the source language and the destination language by introducing a new machine translation method. Even in this case, a highly accurate machine translation apparatus can be provided.
In addition, because feature words are extracted from the text to be input, it is possible to achieve natural and easy-to-understand translation even if grammatically incorrect text is input.

特に、請求項6及び7に記載の機械翻訳装置では、翻訳元言語テキストにおける依存関係を、翻訳先言語の生成ステップで用いることができるので、高精度な翻訳に寄与することができる。   In particular, in the machine translation device according to claims 6 and 7, the dependency relationship in the translation source language text can be used in the generation step of the translation destination language, which can contribute to highly accurate translation.

このような機械翻訳装置は、特に口語を入力したものや、記事のタイトルなど文法的に正確でない翻訳元言語の文章を翻訳する際に適している。得られる結果は大意が分かりやすい翻訳先テキストである。
また、本実施例で示した日本語・英語間のようなコーパス環境の整った言語間はもとより、地域性の強い言語や、発展途上国の固有言語など、コーパスが未整備な言語に翻訳する際にも、実際的な機械翻訳結果を生成することができる。
Such a machine translation apparatus is particularly suitable for translating sentences in a translation source language that is not grammatically accurate, such as an input of colloquial language or an article title. The result obtained is a translated text that is easy to understand.
Moreover, in addition to the languages with a well-developed corpus environment such as between Japanese and English as shown in this example, the language is translated into languages that are not well-developed, such as languages with strong locality and native languages of developing countries. In some cases, practical machine translation results can be generated.

以下、本発明の最良と考えられる実施形態を、図面に示す実施例を基に説明する。なお、実施形態は下記に限定されるものではない。
図1には本発明による第1実施例の機械翻訳方法のフローチャートを示す。図のように、翻訳元言語である日本語のテキスト(1)を入力し、該テキスト(1)中の特徴的単語を抽出(2)する。抽出された特徴的単語は特徴的単語データ(6)として記録する。なお、本発明はいかなる言語をも対象とするので、本発明は単語として分類できるものに限らず、単語、語句など広く含む特徴語を抽出し、後段の処理を行ってもよい。
DESCRIPTION OF EXEMPLARY EMBODIMENTS Hereinafter, the best mode for carrying out the invention will be described based on examples shown in the drawings. The embodiment is not limited to the following.
FIG. 1 shows a flowchart of a machine translation method according to the first embodiment of the present invention. As shown in the figure, Japanese text (1) as a translation source language is input, and characteristic words in the text (1) are extracted (2). The extracted characteristic word is recorded as characteristic word data (6). Note that since the present invention targets any language, the present invention is not limited to those that can be classified as words, and feature words that include a wide range of words, phrases, and the like may be extracted, and subsequent processing may be performed.

次に、翻訳元言語と翻訳先言語の辞書データ(7)を用いて特徴的単語の最適な訳語を選択(3)する。これにより、翻訳先言語の特徴的単語が生成され特徴的単語訳語データ(8)として記録する
さらに、特徴的単語訳語データ(8)を用い、翻訳先言語のテキストを生成(4)する。このように特徴的単語訳語から、自然な英語テキスト(5)を生成することで機械翻訳を行うプロセスは、従来創出されていない、本発明の最大の特徴である。
Next, the optimal translation of the characteristic word is selected (3) using dictionary data (7) of the translation source language and the translation destination language. Thereby, a characteristic word in the translation destination language is generated and recorded as characteristic word translation data (8). Further, a text in the translation destination language is generated (4) using the characteristic word translation data (8). The process of performing machine translation by generating natural English text (5) from the characteristic word translation as described above is the greatest feature of the present invention that has not been created so far.

テキスト生成(4)は、特徴的単語訳語から所定の生成規則に基づいて文字単位候補を生成し、その各文字単位間の依存関係を仮定して単数又は複数の翻訳先テキスト候補を生成する。さらに、翻訳先テキスト候補を評価して最も適当と判断される英文テキスト(5)を出力する。   In the text generation (4), character unit candidates are generated from characteristic word translations based on a predetermined generation rule, and one or a plurality of translation destination text candidates are generated assuming a dependency relationship between the character units. Furthermore, the English text (5) judged to be the most appropriate by evaluating the translation destination text candidate is output.

また、本発明では図2に示すような第2実施例の機械翻訳方法を提供することができる。翻訳元言語である日本語のテキスト(10)を入力し、該テキスト(10)中の特徴的な単語を抽出(11)する。抽出された特徴的単語は特徴的単語データ(16)として記録する。   Further, the present invention can provide the machine translation method of the second embodiment as shown in FIG. A Japanese text (10) as a source language is input, and characteristic words in the text (10) are extracted (11). The extracted characteristic words are recorded as characteristic word data (16).

特徴的単語抽出時に、各単語間の依存関係を抽出(12)する。該単語間依存関係データ(17)を記録する。
そして、翻訳元言語と翻訳先言語の辞書データ(18)を用いて特徴的単語の最適な訳語を選択(13)する。これにより、翻訳先言語の特徴的単語が生成され特徴的単語訳語及び前述の依存関係のデータ(19)を記録する
さらに、該データ(19)を用い、翻訳先言語のテキストを生成(14)する。このように特徴的単語訳語から、自然な英語テキスト(15)を生成する。
At the time of extracting characteristic words, dependency relationships between the words are extracted (12). The inter-word dependency data (17) is recorded.
Then, the optimal translation of the characteristic word is selected (13) using the dictionary data (18) of the translation source language and the translation destination language. As a result, a characteristic word in the translation destination language is generated and the characteristic word translation and the dependency data (19) are recorded. Further, using the data (19), a text in the translation destination language is generated (14). To do. Thus, a natural English text (15) is generated from the characteristic word translation.

テキスト生成(14)は、特徴的単語訳語から所定の生成規則に基づいて文字単位候補を生成し、その各文字単位間の依存関係を仮定して単数又は複数の翻訳先テキスト候補を生成する。上記で特徴的単語の依存関係が記録されている場合には、その依存関係を元に翻訳先テキスト候補を生成することで、依存関係に誤りのない高精度な翻訳先テキストが生成できる。
さらに、翻訳先テキスト候補を評価して最も適当と判断される英文テキスト(5)を出力する。
In the text generation (14), character unit candidates are generated from characteristic word translations based on a predetermined generation rule, and one or a plurality of translation destination text candidates are generated assuming a dependency relationship between the character units. When dependency relationships of characteristic words are recorded as described above, by generating translation destination text candidates based on the dependency relationships, it is possible to generate a highly accurate translation destination text with no error in dependency relationships.
Furthermore, the English text (5) judged to be the most appropriate by evaluating the translation destination text candidate is output.

本発明の第3実施例としては、上記第2実施例のテキスト生成(14)における処理を一部変更し、記録した単語間依存関係(17)に関わらず、特徴的単語訳語から所定の生成規則に基づいて文字単位候補を生成し、その各文字単位間の依存関係を仮定して単数又は複数の翻訳先テキスト候補を生成する。
その上で、翻訳先テキスト候補を評価する際に、上記単語間依存関係との同一性を調べ、その値が高い英語テキストを出力する。
As a third embodiment of the present invention, a part of the processing in the text generation (14) of the second embodiment is changed, and a predetermined generation is performed from a characteristic word translation regardless of the recorded inter-word dependency (17). Character unit candidates are generated based on the rules, and one or a plurality of translation destination text candidates are generated assuming a dependency relationship between the character units.
Then, when evaluating the translation destination text candidate, the identity with the inter-word dependency is checked, and an English text having a high value is output.

以上に述べたような機械翻訳方法を実現する機械翻訳装置の構成を図3に示す。本装置(30)は、例えばある新聞記事「官邸前などでドゥダエフ政権部隊と激しい市街戦を展開している。」という日本語テキスト(31)を入力すると、入力部(40)で装置(30)内への取り込み処理を行い、特徴的単語抽出部(50)において「官邸」「ドゥダエフ」「部隊」「激しい」「戦」「展開」を日本語テキスト(31)から抽出する。   FIG. 3 shows the configuration of a machine translation apparatus that implements the machine translation method as described above. For example, when the Japanese text (31) is input to the device (30) such as a newspaper article “A fierce urban battle is being conducted with the Dudaev administration unit in front of the official residence, etc.”, the device (30) is input to the device (30). ), And in the characteristic word extraction unit (50), “official residence”, “Dudaev”, “unit”, “violent”, “war” and “development” are extracted from the Japanese text (31).

さらに訳語選択部(60)で各特徴的単語の最適な訳語、ここでは「palace」「Dudayev」、「troops」、「fierce」、「battle」、「engage」を選択する。
選択された特徴的単語訳語を、テキスト生成部(70)において適切な単語間の補完を行いながらテキスト生成(35)し、出力部(80)から英語テキスト(32)を出力する。
次に各部(40)ないし(80)の詳細を説述する。
Further, an optimal translation of each characteristic word, here “palace”, “Dudayev”, “troops”, “fierce”, “battle”, “engage” is selected by the translation selection unit (60).
The selected characteristic word translation is generated (35) while complementing appropriate words in the text generator (70), and the English text (32) is output from the output unit (80).
Next, details of each part (40) to (80) will be described.

入力部(40)は図4に示すようにCPU(41)とそれに接続されたスキャナ(42)や、CDドライブ、ハードディスクドライブ、MOドライブ、フロッピー(登録商標)ディスクドライブなどの外部記憶装置(43)等から構成される。また、CPU(41)の動作に伴い、必要に応じて公知のメモリを用いることもできる。
スキャナ(42)を備える場合にはCPU(41)において文字認識処理を行い、テキストデータに変換して外部記憶装置(43)に記録する。外部記憶装置(43)から直接日本語テキスト(31)のデータを読み出す場合にも、CPU(41)において本装置(30)で処理可能な形式にデータ変換を行うこともできる。
As shown in FIG. 4, the input unit (40) includes a CPU (41) and a scanner (42) connected thereto, an external storage device (43) such as a CD drive, a hard disk drive, an MO drive, and a floppy (registered trademark) disk drive. ) Etc. In addition, a known memory can be used as necessary with the operation of the CPU (41).
When the scanner (42) is provided, the CPU (41) performs character recognition processing, converts it into text data, and records it in the external storage device (43). Even when the data of the Japanese text (31) is read directly from the external storage device (43), the data can be converted into a format that can be processed by the device (30) in the CPU (41).

また、本発明はインターネットやイントラネットのネットワーク(44)を介して他のコンピュータサーバー等からテキストデータを受信することも可能である。
入力部(40)により日本語テキスト(31)は図5に示される特徴的単語抽出部(50)に送られる。
Further, the present invention can receive text data from another computer server or the like via the Internet or an intranet network (44).
The input unit (40) sends the Japanese text (31) to the characteristic word extraction unit (50) shown in FIG.

特徴的単語抽出部(50)の構成を図5に示す。ここでもCPU及びメモリが協働して各処理を行う。本特徴的単語抽出部(50)では、入力された日本語テキスト(31)からそのテキストの内容を特徴的に表す特徴語を抽出する。
このような技術は、言語処理において文書を要約する技術や、文書検索などの要素技術として公知の多数の手法が知られており、それらを適宜用いることができるが、ここでは一例として非特許文献2に記載の方法を用いる。
The configuration of the characteristic word extraction unit (50) is shown in FIG. Again, the CPU and the memory cooperate to perform each process. The characteristic word extraction unit (50) extracts characteristic words that characteristically represent the contents of the text from the input Japanese text (31).
As such a technique, a number of techniques known as elemental techniques such as document summarization in language processing and document search are known and can be used as appropriate. The method described in 2 is used.

情報処理学会自然言語処理研究会 1999−NL−133,1999「タームのrepresentativeness」を測る」 久光徹、丹羽芳樹、辻井潤一IPSJ Natural Language Processing Study Group 1999-NL-133, 1999 “Measure the Representativeness of Terms” Toru Hisamitsu, Yoshiki Niwa, Junichi Sakurai

本方法によると、特徴語を選ぶために文書中の単語の話題性もしくは分野代表性(representativeness、本明細書ではこれを特徴性と呼ぶ。)を測ることが可能であり、かつ数値的な評価によるため、本発明の実施に好適である。以下に、簡単に説述する。
まず、本特徴的単語抽出部(50)では、公知の形態素解析技術を用いて、日本語テキスト(31)を形態素解析部(51)において形態素解析する。解析された形態素はメモリ又は図示しない外部記憶装置などに形態素テーブルとして記録する。
According to this method, it is possible to measure topicality or field representativeness (representativeness, referred to as feature in this specification) of a word in a document in order to select a feature word, and to perform numerical evaluation. Therefore, it is suitable for the implementation of the present invention. The following is a brief description.
First, the characteristic word extraction unit (50) performs morphological analysis on the Japanese text (31) in the morpheme analysis unit (51) using a known morphological analysis technique. The analyzed morpheme is recorded as a morpheme table in a memory or an external storage device (not shown).

そして、形態素テーブルから形態素を順次読み出し、その形態素(以下、これを着目タームと呼ぶ)毎に特徴性を測る。
まず文書抽出部(52)において、着目タームWについて、Wを含む文書すべてを任意の文書データベース(56)から抽出する。文書データベース(56)は複数の日本語(翻訳元言語)の文書が含まれたものであり、外部記憶装置などに記憶されている。日本語単言語のコーパスや日英の対訳コーパスの日本語部分を用いてもよい。
Then, the morphemes are sequentially read out from the morpheme table, and the characteristic is measured for each morpheme (hereinafter referred to as “target term”).
First, in the document extraction unit (52), all the documents including W for the target term W are extracted from an arbitrary document database (56). The document database (56) includes a plurality of Japanese (translation source language) documents and is stored in an external storage device or the like. A Japanese monolingual corpus or a Japanese part of a Japanese-English bilingual corpus may be used.

次に、着目タームWが抽出された文書すべての集合における単語分布と、文書データベース(56)に含まれる全文書の単語分布とを、単語分布算出部(53)において算出し、各単語分布間の異なりの度合いを測る。
具体的には異なり度合算出部(54)において次のような計算処理を行う。
Next, the word distribution in the set of all the documents from which the term of interest W is extracted and the word distribution of all the documents included in the document database (56) are calculated by the word distribution calculation unit (53), Measure the degree of difference.
Specifically, the following calculation processing is performed in the degree calculation unit (54).

すなわち、着目タームW、Wを含む文書すべての集合D(W)、全文書の集合D0、D(W)における単語分布PD(W)、D0における単語分布P0として、Wの特徴性Rep(W)を、2つの分布{PD(W),P0}の距離Dist{PD(W),P0}に基づいて定義する。
単語分布間の距離計測方法として、本実施例では対数尤度比を用いている。すなわち、全単語を{W1,…,Wn}、単語wiがD(W)、D0に出現する頻度をそれぞれki、Kiとするとき、PD(W)、P0の距離Dist{PD(W),P0}を、次のように定義する。
That is, interest term W, documents including W all set D (W), all documents in the set D 0, words in D (W) distribution P D (W), as a word distribution P 0 at D 0, W features The characteristic Rep (W) is defined based on the distance Dist {P D (W) , P 0 } of the two distributions {P D (W) , P 0 }.
In this embodiment, a log likelihood ratio is used as a distance measurement method between word distributions. In other words, all words {W 1, ..., W n }, word w i is D (W), respectively the frequency of occurrence in the D 0 k i, when the K i, P D (W) , the P 0 The distance Dist {P D (W) , P 0 } is defined as follows.

Figure 2005216127
ここで、#D(W)は着目タームWについてD(W)の含む単語数、#D0は同様に全文書の含む単語数である。
Figure 2005216127
Here, # D (W) is the number of words that includes the D (W) for focusing term W, # D 0 is the number of words that includes the entire document as well.

数1の定義によると、#D(W)が離れた着目ターム同士の特徴性を有効に比較することが難しいため、数2のように正規化を行った特徴性Rep(W)を定義する。なおB(・)は#D(W)が適切な数となる範囲内(例えば1000≦#D(W)≦20000)で特徴性が精度よく求められるような指数関数を用いた近似関数である。   According to the definition of Equation 1, it is difficult to effectively compare the features of the terms of interest where #D (W) is separated. Therefore, the normalized feature Rep (W) is defined as in Equation 2. . Note that B (•) is an approximate function using an exponential function whose characteristics can be accurately obtained within a range where #D (W) is an appropriate number (for example, 1000 ≦ # D (W) ≦ 20000). .

(数2)
Rep(W)=Dist{PD(W),P0}/B(#D(W))
(Equation 2)
Rep (W) = Dist {P D (W) , P 0 } / B (#D (W))

ここで、「する」などのように著しく#D(W)が大きい場合には、D(W)の抽出数を限定し、#D(W)≦20000を満たすようにすることで、上記近似関数を有効に用いることができると共に計算量を削減できる。   Here, when #D (W) is remarkably large, such as “Yes”, the number of extractions of D (W) is limited so as to satisfy #D (W) ≦ 20000. The function can be used effectively and the amount of calculation can be reduced.

特徴的単語抽出部(50)では以上の方法により特徴性を算出すると共に、所定の閾値に従って、特徴的単語決定部(55)により入力した日本語テキスト(31)の特徴的単語を抽出する。この結果は外部記憶装置に特徴的単語テーブル(33)として保存される。   The characteristic word extraction unit (50) calculates the characteristic by the above method and extracts characteristic words of the Japanese text (31) input by the characteristic word determination unit (55) according to a predetermined threshold. This result is stored in the external storage device as a characteristic word table (33).

次に、図6に示す訳語選択部(60)では、特徴的単語(33)毎に最適な訳語、特徴的単語訳語(34)を選択する処理を行う。単語の翻訳は、通常辞書データベースを参照することにより可能であるが、異なる言語間ではしばしば単語の多義性の問題が生じる。すなわち、ある単語を入力しただけでは、複数の訳語のいずれを選択するべきかが不明であり、最適な訳語の選択は本機械翻訳装置(30)の翻訳精度に影響する極めて重要な技術である。   Next, the translation selection unit (60) shown in FIG. 6 performs a process of selecting an optimal translation and a characteristic word translation (34) for each characteristic word (33). Word translation is usually possible by referring to a dictionary database, but word ambiguity often arises between different languages. That is, it is unclear which of a plurality of translated words should be selected only by inputting a certain word, and the selection of the optimal translated word is a very important technique that affects the translation accuracy of the machine translation device (30). .

このような多義性解消については、公知の優れた技術が多数提案されており、本発明の実施には任意の技術を用いることができるが、ここでは本件出願人らによって非特許文献3及び非特許文献4に開示される次のような訳語選択モデルを用いる例を示す。   For solving such ambiguity, many well-known excellent techniques have been proposed, and any technique can be used for carrying out the present invention. An example using the following translation selection model disclosed in Patent Document 4 will be shown.

電子情報通信学会 言語理解とコミュニケーション研究会 NLC2001-41「翻訳メモリとコーパスを用いた学習に基づく訳語選択」 内元清貴、関根聡、村田真樹、井佐原均 2001年IEICE Technical Committee on Language Understanding and Communication NLC2001-41 “Translation Selection Based on Learning Using Translation Memory and Corpus” Kiyotaka Uchimoto, Satoshi Sekine, Maki Murata, Hitoshi Isahara 2001 「Word Translation based on Machine Learning Models Using Translation Memory and Corpora」 Kiyotaka Uchimoto, Satoshi Sekine, Masaki Murata, and Hitoshi Isahara. SENSEVAL-2, pp.155-158,2001"Word Translation based on Machine Learning Models Using Translation Memory and Corpora" Kiyotaka Uchimoto, Satoshi Sekine, Masaki Murata, and Hitoshi Isahara. SENSEVAL-2, pp.155-158,2001

訳語選択部(60)は特徴的単語テーブル(33)を入力として、まず文字列の類似性判定部(61)において、文字列の類似性に基づく方法で訳語の決定を試みる。
すなわち、該テーブル(33)に含まれる特徴的単語が、対訳辞書データベース(63)において一義的に訳語が選択可能な場合には、該訳語を特徴的単語訳語テーブル(34)に出力する。
The translation selection unit (60) receives the characteristic word table (33) as input, and first attempts to determine a translation by a method based on the similarity of character strings in the similarity determination unit (61) of character strings.
That is, when the characteristic words included in the table (33) can be uniquely selected in the bilingual dictionary database (63), the translated words are output to the characteristic word translation table (34).

また、日本語と英語の対訳コーパスデータベース(本実施例では対訳辞書との明確な区別を設けずに1個のデータベースとする)(63)を参照し、特徴的単語テーブル(33)との類似度を求める。
例えば、特徴的単語として「母」「遠慮」が含まれるとき、対訳コーパスデータベース(63)に含まれる「母に遠慮」「母への遠慮」「献金を遠慮」などとの類似度を求める。
Also, refer to the Japanese-English bilingual corpus database (in this embodiment, one database without any clear distinction from the bilingual dictionary) (63), and similar to the characteristic word table (33) Find the degree.
For example, when “mother” and “refrain” are included as characteristic words, the similarity to “refrain from mother”, “refrain from mother”, “refrain from donation”, etc. included in the parallel corpus database (63) is obtained.

類似度を求める方法は、非特許文献5で開示されるUNIX(登録商標)のdiffコマンドを用いた方法によってもよく、以下の数3で求められる。   A method for obtaining the similarity may be a method using a UNIX (registered trademark) diff command disclosed in Non-Patent Document 5, and is obtained by the following equation (3).

情報処理学会自然言語処理研究会 2001−NL−144,2001 「diffと言語処理」 村田真樹、井佐原均Information Processing Society of Japan Natural Language Processing Study 2001-NL-144, 2001 “diff and Language Processing” Masaki Murata, Hitoshi Isahara

(数3)
類似度=(特徴的単語テーブルと対訳コーパスとのdiffをとったときに一致した文字数)/(対訳コーパスの文字数)
(Equation 3)
Similarity = (number of characters matched when diff between characteristic word table and parallel corpus is taken) / (number of characters in parallel corpus)

ここで対訳コーパスについても、比較する前に機能語・動詞・形容詞の活用部分、サ変動詞をすべて削除する、あるいは該対訳コーパスによっても前述の特徴的単語の抽出を行い、それらの結果と類似度を比較するのが望ましい。
これにより、比較の対象として不適切な文字を多く含む対訳コーパスとの比較を避け、効果的な類似度の算出が可能となる。
Here, the bilingual corpus is also used to delete all the function words, verbs, adjectives, and sub-variants before the comparison, or the bilingual corpus extracts the aforementioned characteristic words, and the similarity to those results. It is desirable to compare
As a result, it is possible to avoid the comparison with a parallel corpus containing many inappropriate characters as a comparison target, and to calculate an effective similarity.

類似度が所定の閾値(対訳コーパス及び特徴的単語テーブルの内容により適宜設定することができる)を超える対訳コーパスを特徴的単語の訳語を含む対訳コーパスとして選択する。
そして、該対訳コーパス中の訳語を特徴的単語訳語テーブル(34)に記録する。対訳コーパス(63)を用いるので、各単語の対訳関係はあらかじめ分かっており、特徴的単語と訳語の関係は機械的に決定できる。
A bilingual corpus whose similarity exceeds a predetermined threshold (which can be set as appropriate depending on the contents of the bilingual corpus and the characteristic word table) is selected as the bilingual corpus including the translation of the characteristic word.
Then, the translated words in the bilingual corpus are recorded in the characteristic word translated word table (34). Since the bilingual corpus (63) is used, the bilingual relationship of each word is known in advance, and the relationship between the characteristic word and the translated word can be determined mechanically.

ところで、対訳辞書・対訳コーパスデータベース(63)に入力される全ての特徴的単語テーブルに類似する文例を備えることは難しく、類似度が閾値以上とならないものが多数残ってしまう場合が考えられる。
そこでさらに、機械学習モデルを用いた類似性判定部(62)を備え、学習したデータ(64)を用いながら最適な訳語の選択を行う。
By the way, it is difficult to provide sentence examples similar to all the characteristic word tables input to the bilingual dictionary / parallel corpus database (63), and there may be many cases where the similarity does not exceed the threshold value.
Therefore, a similarity determination unit (62) using a machine learning model is further provided, and an optimal translation is selected using the learned data (64).

機械学習のモデルとしては、SVM(Support Vector Machine)を用いるが、ME(Maximum Entropy)、DL(Decision List)、SB(Simple Bayes)を用いてもよい。各分類クラスの確信度は基本的に文脈の集合をB、クラスの集合をAとするとき、文脈b(∈B)でクラスa(∈A)となる事象(a,b)の確率分布p(a,b)として求められる。SVMではこのような確率分布は得られないが、便宜的に最適のクラスに対して確率値を1、その他のクラスに対して0とする。   As a machine learning model, SVM (Support Vector Machine) is used, but ME (Maximum Entropy), DL (Decision List), and SB (Simple Bayes) may be used. The certainty of each classification class is basically the probability distribution p of the event (a, b) of class a (εA) in context b (∈B) where B is the set of contexts and A is the set of classes. It is calculated as (a, b). In SVM, such a probability distribution cannot be obtained, but for the sake of convenience, the probability value is set to 1 for the optimum class and 0 for the other classes.

文脈bの素性としては、例えば次のものを用いることができる。
(1)形態素情報
(2)文字n−gram
(3)最大一致となる用例に関する情報
(4)内容語とのその訳語候補の出現頻度
SVMによって、対訳コーパスを用いて機械学習を行い、学習データ(64)として記録する。
As the feature of the context b, for example, the following can be used.
(1) Morphological information (2) Character n-gram
(3) Information on the example that is the largest match (4) Frequency of appearance of the candidate word with the content word Machine learning is performed using the bilingual corpus by SVM and recorded as learning data (64).

特徴的単語について対訳辞書データベース(63)から訳語候補を抽出する。そして、訳語候補の素性は英主辞単語、文集合、単語、出現頻度の組み合わせによって表される。機械学習による学習データ(64)を用い、訳語候補から特徴的単語訳語を選択し、特徴的単語訳語テーブル(34)に記録する。
このような訳語選択モデルには公知の手法を任意に用いることが可能であり、上記のような機械学習モデルによるものでなくともよい。
Translated word candidates are extracted from the bilingual dictionary database (63) for characteristic words. The feature of the translation candidate is represented by a combination of English main word, sentence set, word, and appearance frequency. Using the learning data (64) by machine learning, a characteristic word translation is selected from the translation candidates and recorded in the characteristic word translation table (34).
A known technique can be arbitrarily used for such a translation selection model, and it is not necessary to use a machine learning model as described above.

ここで、特徴的単語の訳語を選択する際に、固有表現などが抽出されて対訳辞書データベースに訳語がない場合が想定される。このとき、訳語選択モデルに問い合わせ処理を行う処理部を設けてユーザーに問い合わせを行ってユーザが与えるようにしてもよい。
これを自動化する方法としては、非特許文献6に開示されるように、単に翻訳元言語の発音に従って、一定のルールにより翻訳先言語の文字に置き換える(音訳する)こともできるし、提案されているモデルを用いることもできる。ここで提案されているのは、人名や組織名などで、まず音訳を行ったり、適当な訳語で翻訳して訳語候補を作成し、その候補の中から所定のテキストデータベースに出現する頻度の高いものを訳語として選択するものである。テキストデータベースとしては、例えばインターネットのWeb情報などを利用することができる。
Here, it is assumed that when a translation of a characteristic word is selected, a specific expression or the like is extracted and there is no translation in the parallel translation dictionary database. At this time, a processing unit for performing an inquiry process may be provided in the translated word selection model to inquire the user and give it to the user.
As a method for automating this, as disclosed in Non-Patent Document 6, it is possible to simply replace (transliterate) characters in the target language in accordance with certain rules according to the pronunciation of the source language, or proposed. It is also possible to use a model. What is proposed here is the name of the person or organization, first transliteration or translation with appropriate translations to create translation candidates, and frequently appearing in the specified text database from the candidates A thing is selected as a translated word. As the text database, for example, Web information on the Internet can be used.

次に、以上により形成された特徴的単語訳語テーブル(34)を、テキスト生成部(70)に入力し、英語テキストを生成する。
いくつかの単語を入力し、その単語を含むテキストを生成する方法としては次のような手法がある。すなわち、本件出願人が特許文献2で開示するテキスト生成方法を、翻訳先言語である英語に適用して用いる。
Next, the characteristic word translation table (34) formed as described above is input to the text generation unit (70) to generate English text.
There are the following methods for inputting several words and generating text including the words. That is, the text generation method disclosed in Patent Document 2 by the applicant of the present application is applied to English as the translation destination language.

特開2003−271592号公報JP 2003-271582 A

本テキスト生成部(70)の具体的な構成例として図7に示す各部を備える。テキスト生成部(70)は、例えばCPUとメモリ、ハードディスクなどの外部記憶媒体を備えるパーソナルコンピュータなどにより構成することができ、主な処理をCPUにおいて行い、処理の結果を随時メモリ、外部記憶媒体に記録する。   As a specific configuration example of the text generation unit (70), each unit shown in FIG. 7 is provided. The text generation unit (70) can be configured by, for example, a personal computer including a CPU and an external storage medium such as a memory and a hard disk, and the main processing is performed by the CPU, and the processing results are stored in the memory and the external storage medium as needed. Record.

本実施例で、入力された特徴的単語訳語(34)は2つの処理に用いられる。その1つは単語列生成規則獲得部(71)であり、もう1つは単語列候補生成部(72)である。
このとき、特徴的単語訳語(34)は単語列の主辞となる内容語であると定義する。また、内容語は、その語の品詞が、動詞、形容詞、名詞、指示詞、副詞、接続詞、連体詞、感動詞、未定義語である形態素の見出し語であるとし、それ以外の形態素の見出し語を機能語とする。
In this embodiment, the input characteristic word translation (34) is used for two processes. One of them is a word string generation rule acquisition unit (71), and the other is a word string candidate generation unit (72).
At this time, the characteristic word translation (34) is defined as a content word that is the main word of the word string. A content word is a morpheme entry word whose part of speech is a verb, adjective, noun, directive, adverb, conjunction, conjunction, excitement, or undefined word, and any other morpheme entry word. Is a function word.

単語列生成規則獲得部(71)では、特徴的単語訳語(34)が与えられたとき、それぞれを含む文を英語コーパス(75)から検索し、形態素解析、構文解析(係り受け解析) をする。そして、そこから特徴的単語訳語(34)を含む単語列を抽出して、特徴的単語訳語から単語列を生成する単語列生成規則(76)を獲得し、記録する。例えば、「palace」→「at the palace」、「palace」→「in the palace」、「battle」→「battles」、「engage」→「They are engaged in」、「engage」→「I engaged」などの単語列生成規則(76)を獲得し、記録する。   When the characteristic word translation (34) is given, the word string generation rule acquisition unit (71) searches the English corpus (75) for a sentence including each and performs morphological analysis and syntax analysis (dependency analysis). . Then, a word string including the characteristic word translation (34) is extracted therefrom, and a word string generation rule (76) for generating a word string from the characteristic word translation is acquired and recorded. For example, “palace” → “at the palace”, “palace” → “in the palace”, “battle” → “battles”, “engage” → “They are engaged in”, “engage” → “I engaged”, etc. The word string generation rule (76) is acquired and recorded.

ここで、生成規則の自動獲得には次の手法を用いる。特徴的単語訳語の集合をVとし、特徴的単語訳語k(∈V) から単語列を生成する規則の集合をRk とするとき、規則rk(∈Rk) は次の形式で表現されるものと定義する。
k → hk m*
hk は特徴的単語訳語を含む主辞形態素、m*は同じ単語列内でhkに連続する任意個の形態素とする。特徴的単語訳語が与えられると、この形式を満たす規則を翻訳先言語のコーパス(75)から自動獲得する。
Here, the following method is used for automatic acquisition of generation rules. When the set of characteristic word translations is V and the set of rules for generating word strings from the characteristic word translation k (∈V) is Rk, the rule rk (∈Rk) is expressed in the form Define.
k → hk m *
hk is a main morpheme including a characteristic word translation, and m * is an arbitrary number of morphemes continuing to hk in the same word string. When a characteristic word translation is given, a rule satisfying this format is automatically obtained from the corpus (75) of the translation destination language.

一方、単語列候補生成部(72)では、単語列生成規則(76)を参照しながら、入力された特徴的単語訳語(34)から出力する英語テキスト(32)を構成する単語列の候補を生成する。
例えば、「palace」では自然なテキストを構成する単語列とはなりにくいが、「at the palace」あるいは「in the palace」のように「palace」という単語と極めて密接な関連性を有する語句を付加し、後段の処理によるテキスト生成に備える。
On the other hand, the word string candidate generation unit (72) refers to the word string generation rule (76) and selects word string candidates constituting the English text (32) to be output from the input characteristic word translation (34). Generate.
For example, “palace” is unlikely to be a word string that makes up natural text, but it adds words that are very closely related to the word “palace”, such as “at the palace” or “in the palace”. In preparation for text generation by subsequent processing.

本実施例のように、単語列生成規則獲得部(71)によりコーパス(75)から入力する特徴的単語訳語(34)の単語列規則を生成することで、最小限の計算量で効果的に単語列生成規則を得ることができ、処理速度の向上に寄与する。   As in this embodiment, the word string rule for the characteristic word translation (34) input from the corpus (75) is generated by the word string generation rule acquisition unit (71), thereby effectively reducing the amount of calculation. A word string generation rule can be obtained, which contributes to an improvement in processing speed.

もっとも、必ずしも特徴的単語訳語(34)に関連する語句をコーパスから抽出する構成を取る必然性はなく、計算能力に応じて任意の語句を入力された特徴的単語訳語(34)の前後に付加してもよい。あるいは、本装置(30)内に備える対訳辞書データベース(63)に含まれる慣用表現の情報から単語列を生成することもできる。上記「palace」→「at the palace」などは対訳辞書データベースに記載される表現であり、単語列の候補として生成することができる。   However, it is not always necessary to extract a phrase related to the characteristic word translation (34) from the corpus, and an arbitrary word or phrase is added before or after the inputted characteristic word translation (34) according to the calculation ability. May be. Alternatively, it is also possible to generate a word string from the information of common expressions included in the bilingual dictionary database (63) provided in the device (30). The above “palace” → “at the palace” and the like are expressions described in the bilingual dictionary database, and can be generated as word string candidates.

また、日本語など主格を多く省略する言語を入力した場合には、「engage」→「They are engaged in」などのように主語を補って単語列候補を生成することができる。このとき、日本語などの多くの言語では主格が明らかな時や、形式主語であるときに省略されることに着目し、入力に主格が何であるかの情報だけでなく、主格がないという情報を用いることで、「engage」→「He is engaged in」を生成せず、「engage」→「They are engaged in」を生成するようにすることもできる。   When a language that omits many principals such as Japanese is input, word string candidates can be generated by supplementing the subject such as “engage” → “They are engaged in”. At this time, focusing on the fact that in many languages, such as Japanese, the main character is obvious or omitted when it is a formal subject, not only information about what the main character is in the input, but also information that there is no main character It is also possible to generate “engage” → “They are engaged in” without generating “engage” → “He is engaged in”.

次に、テキスト候補生成部(73)においてテキスト候補を生成する。テキスト候補はグラフあるいは木の形で表現する。ここでは特徴的単語訳語(34)のうち、「palace」「troops」「engage」の3語の関係を例として説述する。
すなわち、図12のように、各単語列候補(34aないし34f)の間に係り受けの関係を仮定して、テキスト候補1(35')、テキスト候補2(35' ')のような単語列を単位とした依存構造木の形でテキスト候補を生成する。このとき、3語の場合に全ての係り受け関係はR!×2=12通りであるが、翻訳先言語の文法・特性に合わせて語順の固定などにより候補の数を削減することができる。
Next, a text candidate is generated in the text candidate generation unit (73). Text candidates are expressed as graphs or trees. Here, the relationship of three words “palace”, “troops” and “engage” in the characteristic word translation (34) will be described as an example.
That is, as shown in FIG. 12, assuming a dependency relationship between word string candidates (34a to 34f), word strings such as text candidate 1 (35 ′) and text candidate 2 (35 ′ ′). Text candidates are generated in the form of a dependency structure tree in units of. At this time, in the case of 3 words, all dependency relationships are R! Although x2 = 12, the number of candidates can be reduced by fixing the word order according to the grammar and characteristics of the translation target language.

生成されたテキスト候補(35'など)は、評価部(74)でコーパスから学習した特徴的単語訳語生成モデル(77)や言語モデル(78)を用いて順序付けされる。
以下、特徴的単語訳語生成モデル(77)と、言語モデル(78)として形態素モデル及び係り受けモデルについて説述する。
The generated text candidates (35 ′ and the like) are ordered using the characteristic word translation generation model (77) and language model (78) learned from the corpus by the evaluation unit (74).
Hereinafter, the morpheme model and the dependency model will be described as the characteristic word translation generation model (77) and the language model (78).

特徴的単語訳語生成モデルでは、次の5種類の情報を素性として用いたモデル(KM1ないし5)を考える。以下で、特徴的単語訳語の集合Vは、ある回数以上コーパスに出現した主辞単語の集合とし、単語列は前記で表現されるものと仮定する。また、各特徴的単語訳語は独立であり、与えられたテキストが単語列w1・・・wm からなるとき、特徴的単語訳語ki は単語wj(1≦j≦m) に対応していると仮定する。図13にモデルの説明図を示す。   In the characteristic word translation generation model, a model (KM1 to KM5) using the following five types of information as features is considered. In the following, it is assumed that the set V of characteristic word translations is a set of main words that have appeared in the corpus more than a certain number of times, and the word string is expressed as described above. Also, each characteristic word translation is independent, and it is assumed that the characteristic word translation ki corresponds to the word wj (1 ≦ j ≦ m) when the given text consists of the word string w1 ... wm. To do. FIG. 13 shows an explanatory diagram of the model.

[KM1]
前方の二単語を考慮(trigram)
ki は前方の二単語wj-1 とwj-2 のみに依存すると仮定する。

Figure 2005216127
[KM1]
Consider two words in front (trigram)
Suppose that ki depends only on the two preceding words wj-1 and wj-2.
Figure 2005216127

[KM2]
後方の二単語を考慮(後方trigram)
ki は後方の二単語wj+1 とwj+2 のみに依存すると仮定する。

Figure 2005216127
[KM2]
Consider backward two words (backward trigram)
Suppose ki depends only on the back two words wj + 1 and wj + 2.
Figure 2005216127

[KM3]
係り単語列を考慮(係り単語列)
ki を含む単語列に係る単語列がある場合、ki はそのうち最も文末側の単語列の末尾から二単語wl とwl-1 のみに依存すると仮定する(図13参照) 。

Figure 2005216127
[KM3]
Consider dependency word strings (relation word strings)
If there is a word string related to a word string including ki, it is assumed that ki depends only on the two words wl and wl-1 from the end of the word string at the end of the sentence (see FIG. 13).
Figure 2005216127

[KM4]
受け単語列を考慮(受け単語列)
ki を含む単語列を受ける単語列がある場合、ki はその単語列内の主辞単語から二単語ws とws+1 のみに依存すると仮定する(図13参照) 。

Figure 2005216127
[KM4]
Consider received word string (received word string)
If there is a word string that receives a word string containing ki, it is assumed that ki depends only on two words ws and ws + 1 from the main word in the word string (see FIG. 13).
Figure 2005216127

[KM5]
係り単語列を最大二単語列考慮(係り二単語列)
ki を含む単語列に係る単語列がある場合、ki は、そのうち最も文末側の単語列の末尾から二単語wl 、wl-1 と、最も文頭側の単語列の末尾から二単語wh 、wh-1 のみに依存すると仮定する(図13参照) 。

Figure 2005216127
[KM5]
Dependency word strings are considered up to two word strings (related two word strings)
If there is a word sequence related to a word sequence that includes ki, then ki is the two words wl and wl-1 from the end of the word sequence at the end of the sentence, and the two words wh and wh- Assume that it depends only on 1 (see FIG. 13).
Figure 2005216127

次に、形態素モデル(MM)について示す。形態素に付与するべき文法的属性がl 個あると仮定する。テキストつまり文字列が与えられたとき、その文字列が形態素であり、かつj(1≦j≦l) 番目の文法的属性を持つとしたときの尤もらしさを確率値として求めるモデルを用いる。
テキストT が与えられたとき、順序付き形態素集合M が得られる確率は、各形態素mi(1≦i≦n) が独立であると仮定し、

Figure 2005216127
と表す。ここで、mi は1 からl までのいずれかの文法的属性を表わす。 Next, a morpheme model (MM) is shown. Suppose that there are l grammatical attributes that should be attached to a morpheme. When a text, that is, a character string is given, a model is used that obtains a probability value of the likelihood that the character string is a morpheme and has the j (1 ≦ j ≦ l) th grammatical attribute.
Given the text T 1, the probability that an ordered morpheme set M 1 is obtained assumes that each morpheme mi (1 ≦ i ≦ n) is independent,
Figure 2005216127
It expresses. Here, mi represents any grammatical attribute from 1 to l.

一方、係り受けモデル(DM)は、テキストTと順序付き形態素集合Mが与えられたとき、各単語列に対する係り受けの順序付き集合Dが得られる確率は、各々の係り受けd1・・・dn が独立であると仮定し、

Figure 2005216127
と表わす。 On the other hand, in the dependency model (DM), when the text T and the ordered morpheme set M are given, the probability of obtaining the dependency ordered set D for each word string is the dependency d1. Is independent, and
Figure 2005216127
It expresses.

例えば、「palace troops fierce battle engage」の5つの特徴的単語訳語から「They are engaged in fierce battles with troops at the palace」と「I engaged the palace's troops in fierce battles.」の2つの候補が生成されたとする。係り受けモデルにより、このうち尤もらしい係り受け構造を持つ候補が優先される。   For example, two candidates of "They are engaged in fierce battles with troops at the palace" and "I engaged the palace's troops in fierce battles." Were generated from five characteristic word translations of "palace troops fierce battle engage." To do. Of the candidates, a candidate having a reasonable dependency structure is prioritized by the dependency model.

以上に示すような各モデルを用い、本発明では評価部(74)においてテキスト候補(35'など)に評価付けを行う。
そして、評価値が最大あるいは閾値を超えるテキスト候補、あるいは評価値の上位N個を表層文に変換して出力する。
Using each model as described above, in the present invention, the evaluation unit (74) evaluates the text candidates (35 ′, etc.).
Then, the text candidate whose evaluation value is the maximum or exceeds the threshold or the top N evaluation values is converted into a surface sentence and output.

出力部(80)における出力方法としては、モニタによる表示の他、音声合成を用いた発声、翻訳システムなど他の言語処理システムへのデータ出力などが可能である。また、ネットワーク接続された他のコンピュータなどにテキストデータを送出してもよい。   As an output method in the output unit (80), in addition to display on a monitor, utterance using speech synthesis, data output to other language processing systems such as a translation system, and the like are possible. In addition, text data may be sent to another computer connected to the network.

以上に示した実施例では、特徴的単語訳語の前後に語句を付加する構成を主としているが、本発明の実施においては特徴的単語訳語(主辞単語に相当するもの)そのものを補完する構成をとることもできる。前述の通り、「engage」を補完するときに、語句を付加して「They are engaged」と補完する構成を示したが、新たに「They」を補完することができる。   In the embodiment described above, a configuration in which a phrase is added before and after the characteristic word translation is mainly used. However, in the implementation of the present invention, a configuration in which the characteristic word translation (corresponding to the main word) itself is complemented. You can also. As described above, when “engage” is supplemented, a phrase is added to complement “They are engaged”, but “They” can be newly supplemented.

具体的には、図7の構成に図14の要素を追加する。すなわち、特徴的単語訳語(34)を係り受け関係語抽出部(79)にも入力し、該部(79)ではコーパス(75)から該特徴的単語訳語(34)と係り受け関係にある単語を抽出する。
そして、単語を新たな特徴的単語訳語として加え、もともと入力された特徴的単語訳語(34)と合わせて単語列候補生成部(72)における処理を行う。
Specifically, the elements of FIG. 14 are added to the configuration of FIG. That is, the characteristic word translation (34) is also input to the dependency related word extraction unit (79), and the word (79) has a dependency relationship with the characteristic word translation (34) from the corpus (75). To extract.
Then, the word is added as a new characteristic word translation, and the word string candidate generation unit (72) performs processing together with the originally input characteristic word translation (34).

例えば、「They are engaged at the palace」そのものがコーパス(75)に無くとも、「they are engaged」と「they are at the palace」という係り受け関係がそれぞれコーパス(75)にあれば、それらに共通する単語「they」を新たに特徴的単語訳語として追加することによって、単語列候補生成部(72)によって「They are engaged at the palace」が生成できるようになる。   For example, even if “They are engaged at the palace” itself is not in the corpus (75), if the dependency relationships “they are engaged” and “they are at the palace” are in the corpus (75), they are common to them. By adding the word “they” to be newly added as a characteristic word translation, the word string candidate generation unit (72) can generate “They are engaged at the palace”.

本構成は、計量が少なく高速な特徴的単語訳語の追加が可能であるが、本発明では必ずしもコーパスから係り受け関係にある単語を抽出することに限らず、任意の特徴的単語訳語の候補を追加し、その中から評価部(74)における評価が結果的に最も高くなるものを出力してもよい。
これによって、特徴的単語訳語にテキストの意味を決定する重要な単語が、翻訳元言語の表現特性などにより欠落していたとしても、有意な翻訳先言語のテキストが出力できるようになる。
In this configuration, it is possible to add characteristic word translations with little metric, but in the present invention, it is not always necessary to extract words having dependency relations from the corpus, and arbitrary characteristic word translation candidates can be selected. It is possible to add and output the one that results in the highest evaluation in the evaluation unit (74).
As a result, even if an important word that determines the meaning of the text as a characteristic word translation is missing due to the expression characteristics of the translation source language, a significant translation destination language text can be output.

本発明の機械翻訳方法において、さらに高精度な翻訳を実現する方法として、翻訳元言語テキスト(日本語テキスト(31))の単語の依存関係を、生成にも利用することが考えられる。以下、別実施例として説述する。   In the machine translation method of the present invention, as a method for realizing a more accurate translation, it is conceivable to use the dependency relationship of the words of the source language text (Japanese text (31)) for generation. Hereinafter, this will be described as another embodiment.

具体的には図3の機械翻訳装置における特徴的単語抽出部(50)を、図8に示す依存関係を解析し、それをテーブルとして記録可能な特徴的単語抽出部(50')に置き換える。同様に、訳語選択部(60)は特徴的単語訳語の依存関係に変換可能な図9に示す訳語選択部(60')に、テキスト生成部(70)は単語訳語の依存関係を用いてテキスト生成が可能な図11又は図12のテキスト生成部(70')(70'')にそれぞれ置き換える。ここに述べた新たな機能以外の構成は上記実施例と同様であって、ここでは省略する。   Specifically, the characteristic word extraction unit (50) in the machine translation apparatus of FIG. 3 is replaced with a characteristic word extraction unit (50 ′) that analyzes the dependency shown in FIG. 8 and can be recorded as a table. Similarly, the translation selection unit (60) can convert the dependency to the characteristic word translation dependency, and the text generation unit (70) uses the word translation dependency to convert the text into the translation selection unit (60 ') shown in FIG. The text generators (70 ′) and (70 ″) shown in FIG. 11 or FIG. Configurations other than the new functions described here are the same as those in the above embodiment, and are omitted here.

図8において、「官邸前などでドゥダエフ政権部隊と激しい市街戦を展開している。」という日本語テキスト(31)を入力する。依存関係解析部(57)では、公知の依存関係(係り受け関係)の解析方法を用いて、図15のように「官邸前などで」(80)「ドゥダエフ政権部隊と」(81)「激しい」(82)「市街戦を」(83)「展開している」(84)が依存関係(85)を有していることがわかる。ここで一般に依存関係解析部(57)における構文解析処理にはあらかじめ形態素解析を行うことが必要であり、形態素解析部(51)における解析結果を用いる。   In FIG. 8, a Japanese text (31) is input that “A fierce city battle is being developed with the Dudaev administration unit in front of the official residence”. In the dependency relationship analysis unit (57), using a known dependency relationship (dependency relationship) analysis method, as shown in FIG. 15, “In front of the official residence” (80) “With the Dudaev administration unit” (81) “Intense” It can be seen that “(82)“ A city battle ”(83)“ Developing ”(84) has a dependency (85). Here, it is generally necessary to perform morpheme analysis in advance for the parsing process in the dependency analysis unit (57), and the analysis result in the morpheme analysis unit (51) is used.

前述の処理により特徴語決定部(55)で決定された特徴的単語間の依存関係のみをとると、単語間依存関係抽出部(58)では、図16のように「官邸」(86)「部隊」(87)「激しい」(89)「戦」(90)の依存関係(91)が抽出される。
抽出された特徴的単語間の依存関係は単語間依存関係テーブル(36)として外部記憶装置やメモリなどに記録する。
When only the dependency relationship between the characteristic words determined by the feature word determination unit (55) by the above-described processing is taken, the inter-word dependency relationship extraction unit (58) performs “government” (86) “ The dependency (91) of “unit” (87), “violent” (89), “war” (90) is extracted.
The dependency relationship between the extracted characteristic words is recorded in an external storage device or a memory as an interword dependency table (36).

次に、図9の訳語選択部(60')では特徴的単語(33)と特徴的単語訳語(34)の関係から、日本語の単語間依存関係テーブル(36)を、英語の単語訳語間依存関係テーブル(37)に変換する。
具体的には、依存関係変換部(65)を設け、対訳辞書データベース(63)で一義的に決定できる単語、例えば部隊とtroopsのように対訳関係が明確な単語はそのまま依存関係テーブルの語を置き換える。一方、機械学習モデルを用いて訳語を選択したもの、例えば展開とengageなどのように多義性が生じるものは機械学習モデルによる類似性判定部(62)の判定結果を用いて単語訳語間依存関係テーブル(37)に記録する。
Next, in the translation selection unit (60 ′) of FIG. 9, from the relationship between the characteristic word (33) and the characteristic word translation (34), the Japanese inter-word dependency relationship table (36) is converted into the English word translation between Convert to dependency table (37).
Specifically, a dependency conversion unit (65) is provided, and words that can be uniquely determined in the bilingual dictionary database (63), such as words having a clear bilingual relationship such as troops and troops, are directly used as words in the dependency table. replace. On the other hand, when a translation is selected using a machine learning model, for example, a case where ambiguity such as expansion and engagement occurs, the dependency between word translations using the determination result of the similarity determination unit (62) based on the machine learning model Record in table (37).

これにより生成された単語訳語間依存関係テーブル(37)は図17のように、「palace」(92)「troops」(93)「fierce」(94)「battle」(95)「engage」(96)に置き換えられた上で、依存関係(97)が記録される。
ここで、固有名詞も特徴的単語とすると、図15でドゥダエフが抽出され、図18のように「Dudayev」(98)も追加することができる。
As shown in FIG. 17, the generated word translation dependency table (37) is “palace” (92) “troops” (93) “fierce” (94) “battle” (95) “engage” (96 ) And the dependency (97) is recorded.
Here, if the proper noun is also a characteristic word, Dudaev is extracted in FIG. 15, and “Dudayev” (98) can also be added as shown in FIG.

図10のテキスト生成部(70')ではテキスト候補生成部(73)に抽出した単語訳語間依存関係テーブル(37)を入力して、上述の係り受け関係の仮定を行わず、係り受け関係を決定する。
もちろん、単語訳語間依存関係テーブル(37)に依存関係の情報がない訳語間についてはテキスト候補生成部(73)において係り受け関係の仮定を行うこともできる。
In the text generation unit (70 ′) of FIG. 10, the extracted word dependency relationship table (37) is input to the text candidate generation unit (73), and the dependency relationship is not assumed without performing the above-described dependency relationship assumption. decide.
Of course, it is also possible to make a dependency relationship assumption in the text candidate generation unit (73) between translations for which there is no dependency information in the inter-word translation dependency table (37).

本構成によると、テキスト候補が高精度に生成できるため、評価部(74)では単語列候補生成部(72)・テキスト候補生成部(73)の生成結果をより厳密に評価することができる。   According to this configuration, since the text candidates can be generated with high accuracy, the evaluation unit (74) can more strictly evaluate the generation results of the word string candidate generation unit (72) and the text candidate generation unit (73).

一方、図11のテキスト生成部(70'')では評価部(74)に抽出した単語訳語間依存関係テーブル(37)を入力して、テキスト候補の評価に用いることができる。
ここで、評価部(74)は上述の言語モデル(78)により、各単語列に対する係り受けの順序に係る確率を用いるが、単語訳語間で単語訳語間依存関係テーブル(37)に記録された係り受け関係については、確率値を最大に設定し、当該テキスト候補の評価に用いる。
On the other hand, the text generation unit (70 ″) in FIG. 11 can input the extracted word translation dependency table (37) into the evaluation unit (74) and use it for evaluation of text candidates.
Here, the evaluation unit (74) uses the probability related to the dependency order for each word string according to the language model (78) described above, but is recorded in the inter-word translation dependency table (37) between the word translations. For the dependency relationship, the probability value is set to the maximum and used for the evaluation of the text candidate.

本構成によると、仮に単語訳語間の依存関係の一部に解析誤差が生じた場合にも、テキスト候補生成部(73)ではそれにとらわれない候補の生成が可能なため、著しく不自然な係り受け関係は評価部(74)において相対的に低い評価とすることができ、本発明の特徴である自然な英語テキスト(32)の生成に寄与する。   According to this configuration, even if an analysis error occurs in a part of the dependency relationship between word translations, the text candidate generation unit (73) can generate a candidate that is not limited to this, so that it is extremely unnatural. The relationship can be a relatively low evaluation in the evaluation unit (74), which contributes to the generation of natural English text (32) that is a feature of the present invention.

本発明は以上の構成により実現されるものであるが、特徴的単語の抽出処理、訳語の選択処理、いくつかのキーワードからテキストを生成する処理はいずれも公知のあるいは今後提供される言語処理技術を用いることができる。そして、各処理の高精度化に伴ってさらに翻訳精度の向上が期待されるものである。   The present invention is realized by the above-described configuration. However, a characteristic word extraction process, a translation selection process, and a process for generating text from several keywords are all known or will be provided in the future. Can be used. Further, as the accuracy of each process increases, further improvement in translation accuracy is expected.

上記では説明の便宜のために、各部(40)(50)(60)(70)(80)を別個に説述したが、これらは一体的に例えば1台のパーソナルコンピュータによって提供することができる。特に、CPU、メモリ、入出力装置、ネットワークに接続するためのネットワークアダプタ(図示していない)、外部記憶装置などは共用することが望ましく、装置の簡略化に寄与することができる。   In the above, for convenience of explanation, the respective units (40), (50), (60), (70), and (80) have been described separately. However, they can be integrally provided by, for example, one personal computer. . In particular, it is desirable to share a CPU, a memory, an input / output device, a network adapter (not shown) for connecting to a network, an external storage device, and the like, which can contribute to simplification of the device.

外部記憶装置に記録される文書データベース(56)、対訳辞書・対訳コーパスデータベース(63)、コーパス(75)はいずれも同一のデータベースの一部又は全部を用いることが可能である。
また、これらは外部記憶装置上に記録される場合にとどまらず、ネットワーク上の複数のサーバーに記録されたものを収集するように構成してもよい。
The document database (56), the bilingual dictionary / translation corpus database (63), and the corpus (75) recorded in the external storage device can use all or part of the same database.
These are not limited to being recorded on the external storage device, but may be configured to collect those recorded on a plurality of servers on the network.

本発明による機械翻訳方法のフローチャートである。It is a flowchart of the machine translation method by this invention. 本発明による機械翻訳方法(別実施例)のフローチャートである。5 is a flowchart of a machine translation method (another embodiment) according to the present invention. 本発明による機械翻訳装置の全体構成図である。1 is an overall configuration diagram of a machine translation apparatus according to the present invention. 本発明における入力部の構成図である。It is a block diagram of the input part in this invention. 本発明における特徴的単語抽出部の構成図である。It is a block diagram of the characteristic word extraction part in this invention. 本発明における訳語選択部の構成図である。It is a block diagram of the translation word selection part in this invention. 本発明におけるテキスト生成部の構成図である。It is a block diagram of the text production | generation part in this invention. 本発明における特徴的単語抽出部(別実施例)の構成図である。It is a block diagram of the characteristic word extraction part (another Example) in this invention. 本発明における訳語選択部(別実施例)の構成図である。It is a block diagram of the translation word selection part (another Example) in this invention. 本発明におけるテキスト生成部(別実施例)の構成図である。It is a block diagram of the text production | generation part (another Example) in this invention. 本発明におけるテキスト生成部(別実施例)の構成図である。It is a block diagram of the text production | generation part (another Example) in this invention. 特徴的単語訳語からのテキスト生成の例を示す説明図である。It is explanatory drawing which shows the example of the text production | generation from a characteristic word translation. 特徴的単語訳語と単語列との関係を示す説明図である。It is explanatory drawing which shows the relationship between a characteristic word translation and a word string. 本発明に係る係り受け関係語抽出部の構成図である。It is a block diagram of the dependency related word extraction part which concerns on this invention. 依存関係解析部における依存関係の解析結果を示す構造木である。It is a structure tree which shows the analysis result of the dependency relationship in a dependency relationship analysis part. 単語間依存関係抽出部における単語間依存関係テーブルの内容である。It is the content of the inter-word dependency relationship table in the inter-word dependency extraction unit. 依存関係変換部において変換された単語間依存関係テーブルの内容である。It is the content of the inter-word dependency table converted by the dependency conversion unit. 同、固有名詞を特徴的単語とした時の単語間依存関係テーブルの内容である。This is the content of the inter-word dependency table when the proper noun is a characteristic word.

符号の説明Explanation of symbols

30 機械翻訳装置
31 日本語テキスト
32 英語テキスト
33 特徴的単語
34 特徴的単語訳語
35 生成テキスト
40 入力部
50 特徴的単語抽出部
60 訳語選択部
70 テキスト生成部
80 出力部

DESCRIPTION OF SYMBOLS 30 Machine translation apparatus 31 Japanese text 32 English text 33 Characteristic word 34 Characteristic word translation 35 Generation text 40 Input part 50 Characteristic word extraction part 60 Translation word selection part 70 Text generation part 80 Output part

Claims (8)

所定の翻訳元言語で記述される翻訳元テキストを翻訳先言語で記述される翻訳先テキストに機械翻訳する方法であって、
翻訳元テキストを入力する入力ステップ、
該翻訳元テキストから、特徴的な意味を有する特徴語を抽出する特徴語抽出ステップ、
該特徴語を、翻訳先言語で表現される訳語に翻訳する訳語選択ステップ、
該訳語から所定の生成規則に基づいて文字単位候補を生成する文字単位候補生成ステップ、
該各文字単位間の依存関係を仮定して単数又は複数の翻訳先テキスト候補を生成する翻訳先テキスト候補生成ステップ、
該翻訳先テキスト候補が少なくとも複数の場合に各翻訳先テキスト候補を評価する評価ステップ、
該評価結果に関連して、少なくとも翻訳先テキスト候補のうち1つを出力する出力ステップ
の各ステップを有することを特徴とする機械翻訳方法。
A method of machine-translating a source text described in a predetermined source language into a destination text described in a target language,
Input step to enter the source text,
A feature word extraction step of extracting a feature word having a characteristic meaning from the translation source text;
A translation selection step for translating the feature word into a translation expressed in the target language;
A character unit candidate generation step for generating a character unit candidate from the translated word based on a predetermined generation rule;
A translation destination text candidate generation step for generating one or a plurality of translation destination text candidates assuming the dependency between the character units;
An evaluation step of evaluating each translation destination text candidate when there are at least a plurality of translation destination text candidates;
A machine translation method comprising the steps of outputting at least one of translation destination text candidates in relation to the evaluation result.
前記機械翻訳方法において、
前記特徴語抽出ステップで抽出された特徴語のうち、該特徴語間の依存関係情報を抽出する依存関係抽出ステップを備え、
該依存関係情報を有する特徴語から生成された文字単位候補については、前記翻訳先テキスト候補生成ステップにおいて、該依存関係情報を用いて翻訳先テキスト候補を生成する
ことを特徴とする請求項1に記載の機械翻訳方法。
In the machine translation method,
Of the feature words extracted in the feature word extraction step, a dependency relationship extraction step for extracting dependency relationship information between the feature words is provided,
The candidate text candidate generated from the feature word having the dependency relationship information is generated by using the dependency relationship information in the translation destination text candidate generation step. The machine translation method described.
前記機械翻訳方法において、
前記特徴語抽出ステップで抽出された特徴語のうち、該特徴語間の依存関係情報を抽出する依存関係抽出ステップを備え、
前記評価ステップにおいて、
該依存関係情報と、前記翻訳先テキスト候補における当該依存関係との比較を行い、依存関係の同一性が高い翻訳先テキスト候補の評価を高くする
ことを特徴とする請求項1に記載の機械翻訳方法。
In the machine translation method,
Of the feature words extracted in the feature word extraction step, a dependency relationship extraction step for extracting dependency relationship information between the feature words is provided,
In the evaluation step,
2. The machine translation according to claim 1, wherein the dependency relation information is compared with the dependency relation in the translation destination text candidate, and the evaluation of the translation destination text candidate having high dependency relation is made high. Method.
前記文字単位候補生成ステップで用いる生成規則が、
前記訳語を含む文・語句を、翻訳先言語で記述された複数の文章を含むデータベースから抽出し、当該訳語と該文・語句との関係を自動獲得した規則である
請求項1ないし3に記載の機械翻訳方法。
The generation rule used in the character unit candidate generation step is:
4. A rule in which a sentence / phrase including the translated word is extracted from a database including a plurality of sentences described in a translation destination language, and a relationship between the translated word and the sentence / phrase is automatically acquired. Machine translation method.
所定の翻訳元言語で記述される翻訳元テキストを翻訳先言語で記述される翻訳先テキストに機械翻訳する機械翻訳装置であって、
翻訳元テキストを入力する入力手段、
該翻訳元テキストから、特徴的な意味を有する特徴語を抽出する特徴語抽出手段、
該特徴語を、翻訳先言語で表現される訳語に翻訳する訳語選択手段、
該訳語から所定の生成規則に基づいて文字単位候補を生成する文字単位候補生成手段、
該各文字単位間の依存関係を仮定して単数又は複数の翻訳先テキスト候補を生成する翻訳先テキスト候補生成手段、
該翻訳先テキスト候補が少なくとも複数の場合に各翻訳先テキスト候補の評価値を算出する評価手段、
該評価値に関連して、少なくとも翻訳先テキスト候補のうち1つを出力する出力手段
を備えたことを特徴とする機械翻訳装置。
A machine translation device that machine translates a translation source text described in a predetermined translation source language into a translation destination text described in a translation destination language,
Input means for entering the source text,
Feature word extraction means for extracting a feature word having a characteristic meaning from the translation source text;
A translation selection means for translating the feature word into a translation expressed in the target language;
A character unit candidate generating means for generating a character unit candidate from the translated word based on a predetermined generation rule;
Translation destination text candidate generation means for generating one or a plurality of translation destination text candidates assuming the dependency between the character units;
An evaluation means for calculating an evaluation value of each translation destination text candidate when there are at least a plurality of translation destination text candidates;
A machine translation apparatus comprising output means for outputting at least one of translation destination text candidates in relation to the evaluation value.
前記機械翻訳装置において、
前記特徴語抽出手段で抽出された特徴語のうち、該特徴語間の依存関係情報を抽出する依存関係抽出手段を備え、
該依存関係情報を有する特徴語から生成された文字単位候補については、前記翻訳先テキスト候補生成手段において、該依存関係情報を用いて翻訳先テキスト候補を生成する
ことを特徴とする請求項5に記載の機械翻訳装置。
In the machine translation device,
Among the feature words extracted by the feature word extraction unit, the system includes a dependency relationship extraction unit that extracts dependency relationship information between the feature words.
6. The translation destination text candidate is generated using the dependency relation information in the translation destination text candidate generation means for the character unit candidate generated from the feature word having the dependency relation information. The machine translation device described.
前記機械翻訳装置において、
前記特徴語抽出手段で抽出された特徴語のうち、該特徴語間の依存関係情報を抽出する依存関係抽出手段を備え、
前記評価手段において、
該依存関係情報と、前記翻訳先テキスト候補における当該依存関係との比較を行い、依存関係の同一性が高い翻訳先テキスト候補の評価値を高くする
ことを特徴とする請求項5に記載の機械翻訳装置。
In the machine translation device,
Among the feature words extracted by the feature word extraction means, the apparatus includes dependency extraction means for extracting dependency relationship information between the feature words,
In the evaluation means,
6. The machine according to claim 5, wherein the dependency relationship information is compared with the dependency relationship in the translation destination text candidate, and the evaluation value of the translation destination text candidate having a high dependency relationship is increased. Translation device.
前記文字単位候補生成手段で用いる生成規則が、
前記訳語を含む文・語句を、翻訳先言語で記述された複数の文章を含むデータベースから抽出し、当該訳語と該文・語句との関係を自動獲得した規則である
請求項5ないし7に記載の機械翻訳装置。

The generation rule used by the character unit candidate generation means is
8. The rule according to claim 5, wherein the sentence / phrase including the translated word is extracted from a database including a plurality of sentences described in a translation destination language, and the relationship between the translated word and the sentence / phrase is automatically acquired. Machine translation device.

JP2004023914A 2004-01-30 2004-01-30 Machine translation device Expired - Lifetime JP3921543B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004023914A JP3921543B2 (en) 2004-01-30 2004-01-30 Machine translation device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004023914A JP3921543B2 (en) 2004-01-30 2004-01-30 Machine translation device

Publications (2)

Publication Number Publication Date
JP2005216127A true JP2005216127A (en) 2005-08-11
JP3921543B2 JP3921543B2 (en) 2007-05-30

Family

ID=34906775

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004023914A Expired - Lifetime JP3921543B2 (en) 2004-01-30 2004-01-30 Machine translation device

Country Status (1)

Country Link
JP (1) JP3921543B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013540304A (en) * 2010-08-26 2013-10-31 グーグル・インコーポレーテッド Input text string conversion
JP2016173617A (en) * 2015-03-16 2016-09-29 富士ゼロックス株式会社 Information processing device and information processing program

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013540304A (en) * 2010-08-26 2013-10-31 グーグル・インコーポレーテッド Input text string conversion
US10133737B2 (en) 2010-08-26 2018-11-20 Google Llc Conversion of input text strings
JP2016173617A (en) * 2015-03-16 2016-09-29 富士ゼロックス株式会社 Information processing device and information processing program

Also Published As

Publication number Publication date
JP3921543B2 (en) 2007-05-30

Similar Documents

Publication Publication Date Title
JP3906356B2 (en) Syntax analysis method and apparatus
CN106537370B (en) Method and system for robust tagging of named entities in the presence of source and translation errors
JP2745370B2 (en) Machine translation method and machine translation device
US8131536B2 (en) Extraction-empowered machine translation
KR101084786B1 (en) Linguistically informed statistical models of constituent structure for ordering in sentence realization for a natural language generation system
Tiedemann Recycling translations: Extraction of lexical data from parallel corpora and their application in natural language processing
WO2016127677A1 (en) Address structuring method and device
US20130103390A1 (en) Method and apparatus for paraphrase acquisition
JP2005216126A (en) Text generation method and text generation device of other language
JP2000132550A (en) Chinese generating device for machine translation
WO2016138773A1 (en) Address knowledge processing method and device based on graphs
US10394961B2 (en) Foreign language sentence creation support apparatus, method, and program
King Practical Natural Language Processing for Low-Resource Languages.
JP2011118689A (en) Retrieval method and system
JP2006065387A (en) Text sentence search device, method, and program
Abdurakhmonova et al. UZBEK ELECTRONIC CORPUS AS A TOOL FOR LINGUISTIC ANALYSIS
Das et al. A survey of the model transfer approaches to cross-lingual dependency parsing
EP1503295A1 (en) Text generation method and text generation device
Kuo et al. A phonetic similarity model for automatic extraction of transliteration pairs
Saloot et al. Toward tweets normalization using maximum entropy
JP2018072979A (en) Parallel translation sentence extraction device, parallel translation sentence extraction method and program
JP3921543B2 (en) Machine translation device
JP5298834B2 (en) Example sentence matching translation apparatus, program, and phrase translation apparatus including the translation apparatus
Strankale et al. Automatic Word Sense Mapping from Princeton WordNet to Latvian WordNet.
Khenglawt Machine translation and its approaches

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060815

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061016

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061031

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070116

R150 Certificate of patent or registration of utility model

Ref document number: 3921543

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term