JP3919732B2

JP3919732B2 - 機械翻訳装置及び機械翻訳プログラム

Info

Publication number: JP3919732B2
Application number: JP2003368241A
Authority: JP
Inventors: 英治荒牧; 禎夫黒橋; 英輝田中; 秀紀柏岡
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2003-10-29
Filing date: 2003-10-29
Publication date: 2007-05-30
Anticipated expiration: 2023-10-29
Also published as: JP2005135039A

Description

この発明は用例ベースの機械翻訳装置に関し、特に、入力文と用例文との一致がない場合にも、利用可能な知識を用例から獲得して適切な翻訳を行なうことが可能な機械翻訳装置に関する。

［用語の定義］
最初に、本明細書で使用する用語について定義する。

＜内容語＞
内容語とは、強い意味を持つ語のことをいう。日本語、英語以外の言語でも同様である。本明細書では、品詞によって次の語を内容語とする。すなわち、日本語では形式名詞、助詞、又は助動詞以外の品詞を持つ語のことをいい、英語では、前置詞、冠詞、又はｔｏ‐不定詞以外の品詞を持つ語のことを言う。

＜機能語＞
機能語とは、強い意味を持たない語のことを言う。日本語、英語以外の言語でも同様である。本明細書では、品詞によって次の語を機能語とする。すなわち、日本語では形式名詞、助詞、又は助動詞の品詞を持つ語のことをいい、英語では前置詞、冠詞、又はｔｏ‐不定詞の品詞を持つ語のことをいう。

＜文節＞
本明細書でいう「文節」とは、一般に使用される「文節」という語と同様の単位であり、１個以上の内容語及び０個又は１個以上の機能語から構成されるもののことをいう。文節は日本語に特有の概念である。

＜句＞
本明細書でいう「句」とは、日本語では文節と同様の概念を言う。文節は日本語に特有の概念なので、本明細書では日本語の文節を「句」とも呼ぶ。英語では、次の手順によって語をまとめた単位を句と呼ぶ。

１）機能語を、後続する内容語にまとめる。

２）複合名詞を構成する名詞は一つの句にまとめる。

３）助動詞を主動詞にまとめる。

＜統語解析（パース）＞
統語解析処理とは、ある言語の文を木構造に解析する処理のことをいう。通常、英語の文は語を単位とした木構造となり、日本語の文は文節を単位とした木構造となる。

＜用言＞
本明細書では「用言」という語は、弱い意味での動詞表現である「複合辞」（「〜として」、「〜に対して」等）を除いた動詞を含む句と、統語解析で得られた木構造上で子供を持つ形容詞を含む句のことをいう。

＜用例＞
本明細書では、用例とは、上記した「句」を最小単位として互いに対応付けられた対訳文のことをいう。対訳文は、予め句を単位に木構造に統語解析されている。

＜用例データベース＞
用例を多数含むデータベースを用例データベース（用例ＤＢ）と呼ぶ。図１２に従来の用例ＤＢの例を示す。図１２を参照して、用例ＤＢ３１２は、複数の用例３２０，３２２、…を含む。

用例３２０は、日本語の文３４０と、その英語の訳文３４２とを含む。日本語の文３４０も英語の文３４２も木構造に統語解析されており、かつ句同士が対応付けられている。図１２において、木構造は同じ言語の文中の句同士を結ぶ線により示されており、句同士の対応は、日本語文の句と英語文の句との間の２本線により示されている。

同様に用例３２２も、日本語の文３５０と英語の訳文３５２とを含む。各文は木構造に統語解析されており、かつ日本語の文３５０と英語の訳文３５２との対応する句同士は２本線で結んで示されている。

‐従来技術‐
用例ベース翻訳とは、予めある言語（例えば日本語）の文と、その文を別の言語（例えば英語）に翻訳した文とが対になった翻訳用例（以下「用例」と呼ぶ。）を多数格納した用例ＤＢを準備しておき、入力文が与えられると、この入力文と類似した文を含む用例を用例ＤＢから探し出し、その用例に含まれる翻訳を組合せて翻訳を行なう機械翻訳手法である。

用例ベース翻訳については、数多くの研究が行なわれてきた。しかし、未だ用例ベース翻訳システムで本格的なものは完成していない。その大きな理由の一つとして、用例の不足が挙げられている。

従来の用例ベース翻訳に、特開２００３−６１９３号公報において開示されたものがある。この公報に開示された機械翻訳装置では、用例ＤＢから入力文に最も類似した文を含む用例を検索する。検索された用例のうち、翻訳文について、入力文との相違部分に相当する部分を変数に置換えて翻訳パタンを生成する。この変数に対応する部分を単語辞書から検索した単語で置換することにより入力文の翻訳文を生成する。

特開２００３−００６１９３号公報

特許文献１に記載の機械翻訳装置でのように入力文と最も類似した文を検索し、その文のみに基づいて翻訳する場合、旅行会話又はマニュアルなど、狭いドメインの文の翻訳であればかなりの精度で翻訳することが可能である。しかし、一般的な翻訳を行なう場合には用例の数が足りなくなってしまい、検索した用例が実は入力文に類似したものではないという場合が生ずるおそれがある。

これを解決するための一手法として、入力文を統語解析して句を単位とした木構造に変換し、句ごとに一致する用例を用例ＤＢから取り出してこれらを組合せることにより訳文を生成するものがある。この手法でも、図１２に示される用例ＤＢ３１２が使用される。

従来手法では、図１３に示すように、まず入力文３６０を統語解析し、句単位の木構造３６２を作成する。次に図１４に示すように、これら木構造３６２の句ごとに、その句と一致する句を持つ用例３７０，３７２，３７４を用例ＤＢ３１２から選択する。ここでの一致とは内容語（の原形）が一致することを意味し、機能語については一致しなくてもよいものとする。一致の条件を満たす用例が複数個ある場合には、何らかの基準によりそのうちの一つを選択する。基準としては、例えば一致部分の大きさ、周辺の類似などが考えられる。

さらに図１５を参照して、このように抽出された用例の一致部分に対応する英語句を組合せて英語の木構造３８０を生成する。この場合、入力文の木構造３６２を手掛かりにして、入力文と同じ親子関係３９０，３９２となるように英語句を組合せる。

最後に、図１６に示すようにこの英語の木構造３８０に含まれる英語句４００、４０２，４０４を直列の語列に変換（直列化）して英語の文４１０を生成する。この際、機能語（冠詞、前置詞）及び屈折（動詞の過去形、三人称単数現在形等）等については、予め準備されたルールを参照して処理する。例えば、図１６に示す例で、日本語の「予定します」（能動態）に対応する「ｉｓｓｃｈｅｄｕｌｅｄ」は受動態であるため、能動態に変換するというルールが適用される。さらに日本語の「〜ます」という表現が未来形であると判定するルール、及び未来形の場合には動詞を「ｗｉｌｌ＋原形」とする、というルールが適用され、結果として「ｗｉｌｌｓｃｈｅｄｕｌｅ」という形に変換される。

この手法では、一つの用例のみを用いるのではなく句単位で一致する用例を使用するので、特許文献１に開示された手法と比較して必要とされる用例の数は少なくてもよいように思われる。しかしこの手法でも、句単位にせよ一致している部分のみを使用するため、用例が多数必要とされるという問題は依然として残っている。

またこの手法では、最終的な直列化の段階で、屈折などを適切に処理するために大量のルール群を必要とする。これらのルール群を作成するためのコストは大きな問題となる。またそれだけでなく、ルール同士の衝突が生じることが多く、翻訳誤りの発生を招くという問題がある。

そこで、本発明の目的は、入力文と一致する用例がなくても、翻訳に利用可能な知識を用例から獲得して翻訳することが可能な用例ベースの機械翻訳装置を提供することである。

本発明の他の目的は、入力文と一致する用例がなくても、翻訳に利用可能な知識を用例から獲得して翻訳することが可能で、かつルール群の作成のためのコストを低減することが可能な用例ベースの機械翻訳装置を提供することである。

本発明の第１の局面にかかる機械翻訳装置は、第１の言語の入力文を句単位で統語解析し、統語解析の結果を示す木構造を出力するための統語解析手段と、第１の言語と第２の言語との対訳文からなる用例を複数個格納した用例データベースとを含む。用例に含まれる対訳文は各々句ごとに予め互いに対応付けられている。対訳文のうち、第２の言語の文の各句は、訳語情報と、当該句に付随する、関係情報及びモダリティ情報を含む付随情報とを含む木構造形式で格納されている。第１の言語の文の各句も、句単位の木構造形式で格納されている。機械翻訳装置はさらに、統語解析手段から木構造を受け、当該木構造に含まれる句ごとに、訳語情報を用例データベースから抽出するための訳語抽出手段と、統語解析手段から木構造を受け、当該木構造の用言パタンと、対訳文のうちの第１の言語の文の用言パタンが一致する用例を用例データベースにおいて検索するための用例検索手段と、訳語抽出手段により抽出された訳語情報と、用例検索手段により検索された用例とに基づいて、入力文の第２の言語の訳文を生成するための訳文生成手段とを含む。

好ましくは、訳文生成手段は、訳語抽出手段により抽出された訳語情報を、用例検索手段により検索された用例の木構造と結合し、第２の言語の木構造を生成するための結合手段と、結合手段により生成された第２の言語の木構造から、語順決定のための所定の規則にしたがって第２の言語に含まれる句を直列に配列し、かつ第２の言語の木構造の付随情報を用いて各句の文法的形態を設定するための直列化手段とを含む。

結合手段は、訳語抽出手段により抽出された各訳語情報で、用例検索手段により検索された用例の木構造中の、当該各訳語情報に対応する訳語情報を置換することで、第２の言語の木構造を生成するための訳語情報置換手段を含んでもよい。

さらに好ましくは、機械翻訳装置は、訳語抽出手段により抽出された訳語情報に対応する句が所定の条件を充足しているときに、当該句の付随情報を抽出するための付随情報抽出手段をさらに含み、結合手段は、付随情報が付随情報抽出手段により抽出されたときには、訳語情報置換手段により生成される第２の言語の木構造中において当該句に対応する句の付随情報を、付随情報抽出手段により抽出された付随情報で置換するための付随情報置換手段をさらに含む。

訳語抽出手段は、統語解析手段から入力文の木構造を受け、当該木構造中の句と内容語が一致する第１の言語の句を含む用例を用例データベースにおいて検索し、検索された用例の、当該第１の言語の句に対応付けられている訳語情報を抽出するための手段を含んでもよい。

好ましくは、付随情報抽出手段は、抽出するための手段により検索された用例の、第１の言語の句の係り先の句が、木構造中で対応する句の係り先の句と一致するときに、当該第１の言語の句の付随情報を抽出するための手段を含む。

さらに好ましくは、付随情報抽出手段は、抽出するための手段により検索された用例の、第１の言語の句の主要語の品詞が、木構造中で対応する句の品詞と一致するときに、当該第１の言語の句の付随情報を抽出するための手段を含む。

本発明の第２の局面は、コンピュータにより実行されると、上記したいずれかの機械翻訳装置として当該コンピュータを動作させるプログラムに関する。

以下、本発明の一実施の形態の機械翻訳装置について説明する。なお、本実施の形態では日本語から英語に翻訳を行なうものを示すが、翻訳言語が日本語と英語に限定されるものではないこと、及び日本語から英語への翻訳に限らずその逆の翻訳に対しても本発明が適用可能なことはいうまでもない。

図１に、本発明の一実施の形態に係る機械翻訳装置２２のブロック図を示す。図１を参照して、この機械翻訳装置２２は、日本語の入力文２０を英語の出力文２４に翻訳する用例ベースのものである。機械翻訳装置２２は、入力文２０を統語解析する際に使用される統語解析辞書３２と、統語解析辞書３２を使用して入力文２０を統語解析し、句を単位とした木構造を出力するための統語解析部３０と、日本語と英語の対訳文からなる用例を多数含む用例ＤＢ３６と、統語解析部３０から出力される木構造に含まれる各句ごとに、その句と内容語が一致した日本語句を用例ＤＢ３６から抽出するための訳語抽出部３８とを含む。

本実施の形態において用いられる用例の構造を図２に示す。図２を参照して、この対訳は、日本語文６０とその翻訳に相当する英語文６２とを含む。日本語文６０の各句と、英語文６２の各句とは対応付けられている。ただし、言語の構造の相違から、対応するもののない句が存在することもある。

本実施の形態で使用される用例ＤＢ３６の特徴は、図２に符号６４で示すように、英語文６２の木構造の各句に次の情報を含ませている点である。

１）訳語情報これは句の内容語列を示す。

２）関係情報これは前置詞及びＴＯ‐不定詞の有無とその種類を示す。

３）モダリティ情報これは助動詞の有無とその種類、及び主動詞の屈折の種類を示す。

例えば、図２において、日本語文６０は「ハイチでは」「今年暮れには」「大統領選挙が」「予定されています。」という４つの句を含む。対応する英語文６２は「ＰｒｅｓｉｄｅｎｔｉａｌＥｌｅｃｔｉｏｎｉｓｓｃｈｅｄｕｌｅｄｉｎＨａｉｔｉａｔｔｈｅｅｎｄｏｆｔｈｉｓｙｅａｒ．」である。この英語文６２は、「ＰｒｅｓｉｄｅｎｔｉａｌＥｌｅｃｔｉｏｎ」、「ｉｓｓｃｈｅｄｕｌｅｄ」、「ｉｎＨａｉｔｉ」、「ａｔｔｈｅｅｎｄｏｆｔｈｉｓｙｅａｒ」という５つの句に分けられている。各句は、訳語情報と関係情報とモダリティ情報とを含む。

例えば、英語文６２の１番目の句「ＰｒｅｓｉｄｅｎｔｉａｌＥｌｅｃｔｉｏｎ」は、関係情報及びモダリティ情報としては何も持たず、訳語情報として「ＰｒｅｓｉｄｅｎｔｉａｌＥｌｅｃｔｉｏｎ」に相当する木構造を格納している。２番目の句「ｉｓｓｃｈｅｄｕｌｅｄ」は、関係情報としては何も持たないが、モダリティ情報として「ｂｅ＋ＶＢＮ（過去分詞形）」を含み、さらに訳語情報として「ｓｃｈｅｄｕｌｅ」を含む。３番目の句は関係情報として「ｔｏ」、訳語情報として「ｈｏｌｄ」、モダリティ情報として「ｂｅ＋ＶＢＮ（過去分詞形）」を含む。以下同様である。

図３は、図１に示す用例ＤＢ３６の構成を示す。図３に示すように、用例ＤＢ３６は、多数の用例８０，８２，…，９０を含む。これら用例の各々は、図２に示す用例と同様の構成をしている。

図１を参照して、機械翻訳装置２２はさらに、訳語抽出部３８が用例ＤＢ３６から訳語を選択できない語があったときに、その語の訳語を調べるために使用する訳語辞書３４を含む。なお、訳語抽出部３８は、入力文の句と一致する日本語句の係り先が、入力文２０と一致するか、品詞が一致している場合に、訳語情報に加えて、以下に述べる関係・モダリティ情報についても用例ＤＢ３６から獲得する機能を持つ。

図４に、訳語抽出部３８の機能を概略的に示す。図４を参照して、入力文が図４の左側に示すような木構造１００で表される「検証する会議が」というものであったとする。これに対応する用例として、入力文の「検証する」という句と一致する日本語句「検証する」を持つ用例１０２を選択する。さらにこの場合、用例１０２の句「検証する」の係り先である「議論」の品詞が入力文の「会議」と同じであるため、訳語情報だけでなく関係情報及びモダリティ情報も用例１０２から抽出する。

再び図１を参照して、機械翻訳装置２２はさらに、統語解析部３０から入力文２０の木構造を受け、後述する「用言パタン」を作成し、同じ用言パタンを持つ用例を用例ＤＢ３６から検索して、その用例に含まれる英語句の関係情報及びモダリティ情報を抽出するための用例検索部４２と、用例検索部４２により同じ用言パタンを持つ用例が複数個検索された場合、そのうちの一つを選択する際に使用するシソーラス４０とを含む。より具体的には、用例検索部４２は、入力文と同じ用言パタンを持つ用例が複数個あった場合、シソーラス４０を参照して、入力文の内容語と、抽出された用例の内容語との間の意味的距離を計算し、意味的に入力文２０に最も近い用例を選択する。用例検索部４２のより詳細な構成については図５を参照して後述する。

機械翻訳装置２２はさらに、用例検索部４２により選択された用例に含まれる英語の木構造にしたがって、訳語抽出部３８により抽出された訳語である英語句を組合せて、英語の木構造を作成するための結合部４４と、結合部４４により作成された英語の木構造から英語句の語順を決定するためのルールを格納したルールベース４６と、ルールベース４６に格納されたルールに基づいて、英語の木構造に含まれる各英語句の語順を決定し、前置詞、屈折などについては英語の木構造に含まれる関係情報及びモダリティ情報を用いてそれらの形態を決定し、出力文２４を生成するための直列化処理部４８とを含む。なお、結合部４４により抽出された関係情報及びモダリティ情報は、訳語抽出部３８が関係情報及びモダリティ情報を抽出した場合には、その情報によって上書きされる。

図５を参照して、図１に示す用例検索部４２は、統語解析部３０から与えられる入力文２０の木構造から用言パタンを作成するための用言パタン作成部１１０と、用言パタン作成部１１０により作成された用言パタンと一致する用言パタンを持つ用例を用例ＤＢ３６から検索し、その用例に含まれる英語句の関係情報及びモダリティ情報を抽出するための用言パタン一致用例検索部１１２と、用言パタン一致用例検索部１１２により複数個の用例が検索された場合に、シソーラス４０を参照して入力文との間の意味的距離を各用例について算出し、意味的距離が最も小さな用例を選択するための用例選択部１１４とを含む。

用言パタンとは、用言と、木構造におけるその親及び子供の情報を品詞に抽象化したものをいう。例えば、図６を参照して、入力文１３０が、「業者と契約するための〜」というものであるとすると、その用言は「契約するための」となり、この用言から図６の右側に示すような用言パタン１３２が作成される。図６に示すように、入力文１３０に含まれる用言「契約するための」は「（用言、連体形）ための」という形に抽象化される。その親「会議を」とその子「業者と」についてもそれぞれ、内容語を品詞に抽象化して「（体言）」と「（体言）と」が得られる。これにより用言パタン１３２が得られる。

訳語抽出部３８と用例検索部４２とによる訳語抽出と用例選択との例をまとめて図７に示す。訳語抽出部３８は、図７の上部に示すように、入力文１５０に含まれる各句１６０、１６２、１６４に対して、それと一致する句１７０、１７２、１７４をそれぞれ含む用例１５２、１５４、及び１５６を選択する。各用例１５２、１５４、及び１５６は、句１７０、１７２、１７４の翻訳である英語句１８０、１８２、及び１８４をそれぞれ含む。訳語抽出部３８は、これら英語句１８０、１８２、及び１８４から、訳語情報を獲得する。図７に示す例では、用例のうち「委員会が」と「会議を」については入力文１５０の対応する句と品詞が一致しているので、関係情報及びモダリティ情報も獲得される。図７では、獲得される情報については二重枠で示してある。

一方、図７の下部を参照して、図１に示す用例検索部４２は、入力文から得られた用言パタン１９０と一致する用言パタンを持つ日本語文２００を持つ用例１９２を検索する。そして、この用例１９２の英語の木構造２０２の各句の関係情報及びモダリティ情報が獲得され、図１に示す結合部４４に与えられる。

図８を参照して、図１に示す結合部４４の機能について説明する。ここでは、訳語抽出部３８により図７に示す３つの用例１５２、１５４、及び１５６が抽出され、用例検索部４２により用例１９２が抽出されたものとする。結合部４４は、用例１５２、１５４、及び１５６に含まれる訳語情報で、図８において曲線の矢印で示されるように用例１９２の英語の木構造２０２中の対応する句の訳語情報を置換することで、訳語情報を用例とを組合せる。なおこの際、訳語抽出部３８により英語句の関係情報及びモダリティ情報が抽出された場合、結合部４４は、用例検索部４２により抽出された関係情報及びモダリティ情報をそれらの情報で上書きする。なお、訳語抽出部３８によっても用例検索部４２によっても関係情報もモダリティ情報も見つけられない場合、結合部４４は所定のルールにしたがって各句に関係情報及びモダリティ情報を付与する。

図１に示すルールベース４６に格納されたルールについて図９を参照して説明する。ルールベース４６は、複数のルール２３０、２３２、２３４、…を含む。図９に示す例では、各ルールは、白抜きの矢印の左側に示す木構造があった場合、その木構造に含まれる句を直列化する際には、白抜きの矢印の右側に示す順序にそれら句を並べることを示す。もちろんルールベース４６は機械可読形式で記述されており、直列化処理部４８に与えられた英語の木構造の中にいずれかのルールの左辺と一致する部分があった場合、そのルールの右辺をその部分に適用する形で英語句を直列化していく。

木構造のパタンは無数にあり得るので、ルールベース４６には単純なルールのみ格納しておき、それら単純なルールを繰返し適用していくことで複雑な木構造も直列化する。その例を図１０に示す。

図１０を参照して、左側の木構造は、図９に示すルールベース４６の中には一致するものがない。しかしこの木構造は、より単純な木構造２４０及び２４２に分解できる。そこで、まず木構造２４０に対して図９に示すルール２３０を適用し、次に木構造２４２に対して図９に示すルール２３２を適用することにより、図１０の右辺に示す形に直列化を行なうことができる。

図１１に、直列化処理部４８がルールベース４６を利用して行なう直列化の例を示す。図１１を参照して、英語の木構造２０２が直列化処理部４８に与えられるものとする。英語の木構造２０２は、英語の句２５０、２５２、及び２５４を含むものとする。英語の木構造２０２は、図９に示すルール２３２の左辺と一致する構造を持つ。そこで、英語の木構造２０２の各句をルール２３２にしたがって並べることにより、図１１の下部に示すように直列化された英語句が得られる。このように直列化された各句に含まれる前置詞、語の屈折等については、各句の関係情報及びモダリティ情報を用いて調整をする。

この機械翻訳装置２２は以下のように動作する。

入力文２０が与えられると、統語解析部３０が統語解析辞書３２を参照しながらこれを統語解析し、日本語の木構造を作成して訳語抽出部３８及び用例検索部４２に与える。

訳語抽出部３８は、用例ＤＢ３６を参照して、日本語の木構造に含まれる日本語句と一致する用例を検索し、訳語情報を得る。このとき、訳語抽出部３８は、用例中の句の係り先が入力文と一致するか、又は品詞が一致している場合には、訳語情報に加えて、用例中の関係情報及びモダリティ情報も獲得する。また訳語抽出部３８は、入力文中の句と一致する日本語句が用例ＤＢ３６中に見出せなかった場合には、訳語辞書３４を参照して訳語情報を得る。

用例検索部４２の用言パタン作成部１１０は、統語解析部３０から与えられた入力文の日本語の木構造を作成する。用言パタン一致用例検索部１１２は、この木構造を受けて、用例ＤＢ３６中でこの木構造の用言パタンと一致する用言パタンを持つ日本語文を含む用例を検索し、その英語の木構造を出力する。検索された用例が複数個ある場合には、図５に示す用例選択部１１４がシソーラス４０を用いてこれらの中で入力文と最も近い意味的距離を持つものを選択する。

図１に示す結合部４４は、図７及び図８を参照して既に説明したように、訳語抽出部３８によって抽出された訳語情報と、用例検索部４２によって選択された英語の木構造とを結合する。これにより、訳文を構成する英語の句が、入力文と同じ親子関係になるように組み合わされる。その結果得られた訳語情報付の英語の木構造を直列化処理部４８に与える。

直列化処理部４８は、与えられた訳語情報付の英語の木構造に対してルールベース４６に含まれるルールを適用して直列化する。このとき、前置詞や語の屈折等については、関係情報又はモダリティ情報又はその双方を用いて調整を行なう。

こうして、入力文２０に対する翻訳として出力文２４が得られる。

このシステムによれば、用言パタンを用いて用例を検索しているので、用例と入力文とが内容語レベルで一致していなくても機能語又は屈折の仕方に関する情報を獲得できる。また、直列化の際の語順等についても、用言パタンによる用例の検索において同時に獲得できる。その結果、必要なルールの数が少なくなり、ルール作成のコストを削減することができる。

なお、上記した機械翻訳装置は、純粋なハードウェアでも、コンピュータハードウェア及び当該コンピュータハードウェア上で実行されるプログラムの組合せでも実現可能である。プログラムで実現する場合、上記した機能を実現するためのすべての命令を当該プログラムが含む必要はない。たとえば、コンピュータハードウェアの上で動作しているオペレーティングシステムにより提供される基本的機能、またはサードパーティにより提供される、実行時に動的にプログラム本体にリンク可能なルーチンについては、それらを呼び出す機能のみを含むようにしてもよい。要するに、コンピュータハードウェア及び当該コンピュータハードウェア上で利用可能な資源を利用して、上記した各機能を実現できるように当該コンピュータを制御することが可能なプログラムであれば、本発明の技術的範囲に含まれる。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。

本発明の一実施の形態にかかる機械翻訳装置２２の機能ブロック図である。用例の構成を示す図である。用例ＤＢ３６の構成を模式的に示す図である。訳語抽出部３８の動作を説明するための図である。用例検索部４２のより詳細な構成を示すブロック図である。用言パタンの作成を説明するための図である。訳語抽出部３８及び用例検索部４２の機能を説明するための図である。結合部４４の機能を説明するための図である。ルールベース４６及び直列化のためのルールの構成を示す図である。ルールの適用方法を説明するための図である。直列化処理部４８の機能を説明するための図である。従来技術で使用される用例ＤＢの構成を模式的に示す図である。従来技術で行なわれる統語解析処理を示す図である。従来技術で行なわれる、入力文と句単位で一致する用例の検索処理の概略を示す図である。従来技術で行なわれる結合処理の概略を説明するための図である。従来技術で行なわれる直列化処理の概略を説明するための図である。

符号の説明

２０入力文、２２機械翻訳装置、２４出力文、３０統語解析部、３２統語解析辞書、３４訳語辞書、３６用例ＤＢ、３８訳語抽出部、４０シソーラス、４２用例検索部、４４結合部、４６ルールベース、４８直列化処理部、１１０用言パタン作成部、１１２用言パタン一致用例検索部、１１４用例選択部

Claims

第１の言語の入力文を句単位で統語解析し、統語解析の結果を示す木構造を出力するための統語解析手段と、
前記第１の言語と第２の言語との対訳文からなる用例を複数個格納した用例データベースとを含む機械翻訳装置であって、
前記用例に含まれる前記対訳文は各々句ごとに予め互いに対応付けられており、かつ前記対訳文のうち、前記第２の言語の文の各句は、訳語情報と、当該句に付随する、関係情報及びモダリティ情報を含む付随情報とを含む木構造形式で格納されており、前記第１の言語の文の各句は、句単位の木構造形式で格納されており、
前記機械翻訳装置はさらに、
前記統語解析手段から前記木構造を受け、当該木構造に含まれる句ごとに、訳語情報を前記用例データベースから抽出するための訳語抽出手段と、
前記統語解析手段から前記木構造を受け、当該木構造の用言パタンと、対訳文のうちの前記第１の言語の文の用言パタンが一致する用例を前記用例データベースにおいて検索するための用例検索手段と、
前記訳語抽出手段により抽出された訳語情報と、前記用例検索手段により検索された用例とに基づいて、前記入力文の前記第２の言語の訳文を生成するための訳文生成手段とを含む、機械翻訳装置。
前記訳文生成手段は、
前記訳語抽出手段により抽出された訳語情報を、前記用例検索手段により検索された用例の木構造と結合し、前記第２の言語の木構造を生成するための結合手段と、
前記結合手段により生成された前記第２の言語の木構造から、語順決定のための所定の規則にしたがって前記第２の言語に含まれる句を直列に配列し、かつ前記第２の言語の木構造の前記付随情報を用いて各句の文法的形態を設定するための直列化手段とを含む、請求項１に記載の機械翻訳装置。
前記結合手段は、前記訳語抽出手段により抽出された各訳語情報で、前記用例検索手段により検索された用例の木構造中の、当該各訳語情報に対応する訳語情報を置換することで、前記第２の言語の木構造を生成するための訳語情報置換手段を含む、請求項１又は請求項２に記載の機械翻訳装置。
前記訳語抽出手段により抽出された訳語情報に対応する句が所定の条件を充足しているときに、当該句の付随情報を抽出するための付随情報抽出手段をさらに含み、
前記結合手段は、前記付随情報が前記付随情報抽出手段により抽出されたときには、前記訳語情報置換手段により生成される前記第２の言語の木構造中において当該句に対応する句の付随情報を、前記付随情報抽出手段により抽出された付随情報で置換するための付随情報置換手段をさらに含む、請求項３に記載の機械翻訳装置。
前記訳語抽出手段は、前記統語解析手段から前記入力文の前記木構造を受け、当該木構造中の句と内容語が一致する前記第１の言語の句を含む用例を前記用例データベースにおいて検索し、検索された用例の、当該第１の言語の句に対応付けられている訳語情報を抽出するための手段を含む、請求項４に記載の機械翻訳装置。
前記付随情報抽出手段は、前記抽出するための手段により検索された用例の、前記第１の言語の句の係り先の句が、前記木構造中の対応する句の係り先の句と一致するときに、当該第１の言語の句の付随情報を抽出するための手段を含む、請求項５に記載の機械翻訳装置。
前記付随情報抽出手段は、前記抽出するための手段により検索された用例の、前記第１の言語の句の主要語の品詞が、前記木構造中の対応する句の品詞と一致するときに、当該第１の言語の句の付随情報を抽出するための手段を含む、請求項５に記載の機械翻訳装置。
コンピュータにより実行されると、当該コンピュータを請求項１〜請求項７のいずれかに記載の機械翻訳装置として動作させる、機械翻訳プログラム。