JP3919732B2 - 機械翻訳装置及び機械翻訳プログラム - Google Patents
機械翻訳装置及び機械翻訳プログラム Download PDFInfo
- Publication number
- JP3919732B2 JP3919732B2 JP2003368241A JP2003368241A JP3919732B2 JP 3919732 B2 JP3919732 B2 JP 3919732B2 JP 2003368241 A JP2003368241 A JP 2003368241A JP 2003368241 A JP2003368241 A JP 2003368241A JP 3919732 B2 JP3919732 B2 JP 3919732B2
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- tree structure
- information
- language
- translation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
この発明は用例ベースの機械翻訳装置に関し、特に、入力文と用例文との一致がない場合にも、利用可能な知識を用例から獲得して適切な翻訳を行なうことが可能な機械翻訳装置に関する。
[用語の定義]
最初に、本明細書で使用する用語について定義する。
最初に、本明細書で使用する用語について定義する。
<内容語>
内容語とは、強い意味を持つ語のことをいう。日本語、英語以外の言語でも同様である。本明細書では、品詞によって次の語を内容語とする。すなわち、日本語では形式名詞、助詞、又は助動詞以外の品詞を持つ語のことをいい、英語では、前置詞、冠詞、又はto‐不定詞以外の品詞を持つ語のことを言う。
内容語とは、強い意味を持つ語のことをいう。日本語、英語以外の言語でも同様である。本明細書では、品詞によって次の語を内容語とする。すなわち、日本語では形式名詞、助詞、又は助動詞以外の品詞を持つ語のことをいい、英語では、前置詞、冠詞、又はto‐不定詞以外の品詞を持つ語のことを言う。
<機能語>
機能語とは、強い意味を持たない語のことを言う。日本語、英語以外の言語でも同様である。本明細書では、品詞によって次の語を機能語とする。すなわち、日本語では形式名詞、助詞、又は助動詞の品詞を持つ語のことをいい、英語では前置詞、冠詞、又はto‐不定詞の品詞を持つ語のことをいう。
機能語とは、強い意味を持たない語のことを言う。日本語、英語以外の言語でも同様である。本明細書では、品詞によって次の語を機能語とする。すなわち、日本語では形式名詞、助詞、又は助動詞の品詞を持つ語のことをいい、英語では前置詞、冠詞、又はto‐不定詞の品詞を持つ語のことをいう。
<文節>
本明細書でいう「文節」とは、一般に使用される「文節」という語と同様の単位であり、1個以上の内容語及び0個又は1個以上の機能語から構成されるもののことをいう。文節は日本語に特有の概念である。
本明細書でいう「文節」とは、一般に使用される「文節」という語と同様の単位であり、1個以上の内容語及び0個又は1個以上の機能語から構成されるもののことをいう。文節は日本語に特有の概念である。
<句>
本明細書でいう「句」とは、日本語では文節と同様の概念を言う。文節は日本語に特有の概念なので、本明細書では日本語の文節を「句」とも呼ぶ。英語では、次の手順によって語をまとめた単位を句と呼ぶ。
本明細書でいう「句」とは、日本語では文節と同様の概念を言う。文節は日本語に特有の概念なので、本明細書では日本語の文節を「句」とも呼ぶ。英語では、次の手順によって語をまとめた単位を句と呼ぶ。
1)機能語を、後続する内容語にまとめる。
2)複合名詞を構成する名詞は一つの句にまとめる。
3)助動詞を主動詞にまとめる。
<統語解析(パース)>
統語解析処理とは、ある言語の文を木構造に解析する処理のことをいう。通常、英語の文は語を単位とした木構造となり、日本語の文は文節を単位とした木構造となる。
統語解析処理とは、ある言語の文を木構造に解析する処理のことをいう。通常、英語の文は語を単位とした木構造となり、日本語の文は文節を単位とした木構造となる。
<用言>
本明細書では「用言」という語は、弱い意味での動詞表現である「複合辞」(「〜として」、「〜に対して」等)を除いた動詞を含む句と、統語解析で得られた木構造上で子供を持つ形容詞を含む句のことをいう。
本明細書では「用言」という語は、弱い意味での動詞表現である「複合辞」(「〜として」、「〜に対して」等)を除いた動詞を含む句と、統語解析で得られた木構造上で子供を持つ形容詞を含む句のことをいう。
<用例>
本明細書では、用例とは、上記した「句」を最小単位として互いに対応付けられた対訳文のことをいう。対訳文は、予め句を単位に木構造に統語解析されている。
本明細書では、用例とは、上記した「句」を最小単位として互いに対応付けられた対訳文のことをいう。対訳文は、予め句を単位に木構造に統語解析されている。
<用例データベース>
用例を多数含むデータベースを用例データベース(用例DB)と呼ぶ。図12に従来の用例DBの例を示す。図12を参照して、用例DB312は、複数の用例320,322、…を含む。
用例を多数含むデータベースを用例データベース(用例DB)と呼ぶ。図12に従来の用例DBの例を示す。図12を参照して、用例DB312は、複数の用例320,322、…を含む。
用例320は、日本語の文340と、その英語の訳文342とを含む。日本語の文340も英語の文342も木構造に統語解析されており、かつ句同士が対応付けられている。図12において、木構造は同じ言語の文中の句同士を結ぶ線により示されており、句同士の対応は、日本語文の句と英語文の句との間の2本線により示されている。
同様に用例322も、日本語の文350と英語の訳文352とを含む。各文は木構造に統語解析されており、かつ日本語の文350と英語の訳文352との対応する句同士は2本線で結んで示されている。
‐従来技術‐
用例ベース翻訳とは、予めある言語(例えば日本語)の文と、その文を別の言語(例えば英語)に翻訳した文とが対になった翻訳用例(以下「用例」と呼ぶ。)を多数格納した用例DBを準備しておき、入力文が与えられると、この入力文と類似した文を含む用例を用例DBから探し出し、その用例に含まれる翻訳を組合せて翻訳を行なう機械翻訳手法である。
用例ベース翻訳とは、予めある言語(例えば日本語)の文と、その文を別の言語(例えば英語)に翻訳した文とが対になった翻訳用例(以下「用例」と呼ぶ。)を多数格納した用例DBを準備しておき、入力文が与えられると、この入力文と類似した文を含む用例を用例DBから探し出し、その用例に含まれる翻訳を組合せて翻訳を行なう機械翻訳手法である。
用例ベース翻訳については、数多くの研究が行なわれてきた。しかし、未だ用例ベース翻訳システムで本格的なものは完成していない。その大きな理由の一つとして、用例の不足が挙げられている。
従来の用例ベース翻訳に、特開2003−6193号公報において開示されたものがある。この公報に開示された機械翻訳装置では、用例DBから入力文に最も類似した文を含む用例を検索する。検索された用例のうち、翻訳文について、入力文との相違部分に相当する部分を変数に置換えて翻訳パタンを生成する。この変数に対応する部分を単語辞書から検索した単語で置換することにより入力文の翻訳文を生成する。
特許文献1に記載の機械翻訳装置でのように入力文と最も類似した文を検索し、その文のみに基づいて翻訳する場合、旅行会話又はマニュアルなど、狭いドメインの文の翻訳であればかなりの精度で翻訳することが可能である。しかし、一般的な翻訳を行なう場合には用例の数が足りなくなってしまい、検索した用例が実は入力文に類似したものではないという場合が生ずるおそれがある。
これを解決するための一手法として、入力文を統語解析して句を単位とした木構造に変換し、句ごとに一致する用例を用例DBから取り出してこれらを組合せることにより訳文を生成するものがある。この手法でも、図12に示される用例DB312が使用される。
従来手法では、図13に示すように、まず入力文360を統語解析し、句単位の木構造362を作成する。次に図14に示すように、これら木構造362の句ごとに、その句と一致する句を持つ用例370,372,374を用例DB312から選択する。ここでの一致とは内容語(の原形)が一致することを意味し、機能語については一致しなくてもよいものとする。一致の条件を満たす用例が複数個ある場合には、何らかの基準によりそのうちの一つを選択する。基準としては、例えば一致部分の大きさ、周辺の類似などが考えられる。
さらに図15を参照して、このように抽出された用例の一致部分に対応する英語句を組合せて英語の木構造380を生成する。この場合、入力文の木構造362を手掛かりにして、入力文と同じ親子関係390,392となるように英語句を組合せる。
最後に、図16に示すようにこの英語の木構造380に含まれる英語句400、402,404を直列の語列に変換(直列化)して英語の文410を生成する。この際、機能語(冠詞、前置詞)及び屈折(動詞の過去形、三人称単数現在形等)等については、予め準備されたルールを参照して処理する。例えば、図16に示す例で、日本語の「予定します」(能動態)に対応する「is scheduled」は受動態であるため、能動態に変換するというルールが適用される。さらに日本語の「〜ます」という表現が未来形であると判定するルール、及び未来形の場合には動詞を「will+原形」とする、というルールが適用され、結果として「will schedule」という形に変換される。
この手法では、一つの用例のみを用いるのではなく句単位で一致する用例を使用するので、特許文献1に開示された手法と比較して必要とされる用例の数は少なくてもよいように思われる。しかしこの手法でも、句単位にせよ一致している部分のみを使用するため、用例が多数必要とされるという問題は依然として残っている。
またこの手法では、最終的な直列化の段階で、屈折などを適切に処理するために大量のルール群を必要とする。これらのルール群を作成するためのコストは大きな問題となる。またそれだけでなく、ルール同士の衝突が生じることが多く、翻訳誤りの発生を招くという問題がある。
そこで、本発明の目的は、入力文と一致する用例がなくても、翻訳に利用可能な知識を用例から獲得して翻訳することが可能な用例ベースの機械翻訳装置を提供することである。
本発明の他の目的は、入力文と一致する用例がなくても、翻訳に利用可能な知識を用例から獲得して翻訳することが可能で、かつルール群の作成のためのコストを低減することが可能な用例ベースの機械翻訳装置を提供することである。
本発明の第1の局面にかかる機械翻訳装置は、第1の言語の入力文を句単位で統語解析し、統語解析の結果を示す木構造を出力するための統語解析手段と、第1の言語と第2の言語との対訳文からなる用例を複数個格納した用例データベースとを含む。用例に含まれる対訳文は各々句ごとに予め互いに対応付けられている。対訳文のうち、第2の言語の文の各句は、訳語情報と、当該句に付随する、関係情報及びモダリティ情報を含む付随情報とを含む木構造形式で格納されている。第1の言語の文の各句も、句単位の木構造形式で格納されている。機械翻訳装置はさらに、統語解析手段から木構造を受け、当該木構造に含まれる句ごとに、訳語情報を用例データベースから抽出するための訳語抽出手段と、統語解析手段から木構造を受け、当該木構造の用言パタンと、対訳文のうちの第1の言語の文の用言パタンが一致する用例を用例データベースにおいて検索するための用例検索手段と、訳語抽出手段により抽出された訳語情報と、用例検索手段により検索された用例とに基づいて、入力文の第2の言語の訳文を生成するための訳文生成手段とを含む。
好ましくは、訳文生成手段は、訳語抽出手段により抽出された訳語情報を、用例検索手段により検索された用例の木構造と結合し、第2の言語の木構造を生成するための結合手段と、結合手段により生成された第2の言語の木構造から、語順決定のための所定の規則にしたがって第2の言語に含まれる句を直列に配列し、かつ第2の言語の木構造の付随情報を用いて各句の文法的形態を設定するための直列化手段とを含む。
結合手段は、訳語抽出手段により抽出された各訳語情報で、用例検索手段により検索された用例の木構造中の、当該各訳語情報に対応する訳語情報を置換することで、第2の言語の木構造を生成するための訳語情報置換手段を含んでもよい。
さらに好ましくは、機械翻訳装置は、訳語抽出手段により抽出された訳語情報に対応する句が所定の条件を充足しているときに、当該句の付随情報を抽出するための付随情報抽出手段をさらに含み、結合手段は、付随情報が付随情報抽出手段により抽出されたときには、訳語情報置換手段により生成される第2の言語の木構造中において当該句に対応する句の付随情報を、付随情報抽出手段により抽出された付随情報で置換するための付随情報置換手段をさらに含む。
訳語抽出手段は、統語解析手段から入力文の木構造を受け、当該木構造中の句と内容語が一致する第1の言語の句を含む用例を用例データベースにおいて検索し、検索された用例の、当該第1の言語の句に対応付けられている訳語情報を抽出するための手段を含んでもよい。
好ましくは、付随情報抽出手段は、抽出するための手段により検索された用例の、第1の言語の句の係り先の句が、木構造中で対応する句の係り先の句と一致するときに、当該第1の言語の句の付随情報を抽出するための手段を含む。
さらに好ましくは、付随情報抽出手段は、抽出するための手段により検索された用例の、第1の言語の句の主要語の品詞が、木構造中で対応する句の品詞と一致するときに、当該第1の言語の句の付随情報を抽出するための手段を含む。
本発明の第2の局面は、コンピュータにより実行されると、上記したいずれかの機械翻訳装置として当該コンピュータを動作させるプログラムに関する。
以下、本発明の一実施の形態の機械翻訳装置について説明する。なお、本実施の形態では日本語から英語に翻訳を行なうものを示すが、翻訳言語が日本語と英語に限定されるものではないこと、及び日本語から英語への翻訳に限らずその逆の翻訳に対しても本発明が適用可能なことはいうまでもない。
図1に、本発明の一実施の形態に係る機械翻訳装置22のブロック図を示す。図1を参照して、この機械翻訳装置22は、日本語の入力文20を英語の出力文24に翻訳する用例ベースのものである。機械翻訳装置22は、入力文20を統語解析する際に使用される統語解析辞書32と、統語解析辞書32を使用して入力文20を統語解析し、句を単位とした木構造を出力するための統語解析部30と、日本語と英語の対訳文からなる用例を多数含む用例DB36と、統語解析部30から出力される木構造に含まれる各句ごとに、その句と内容語が一致した日本語句を用例DB36から抽出するための訳語抽出部38とを含む。
本実施の形態において用いられる用例の構造を図2に示す。図2を参照して、この対訳は、日本語文60とその翻訳に相当する英語文62とを含む。日本語文60の各句と、英語文62の各句とは対応付けられている。ただし、言語の構造の相違から、対応するもののない句が存在することもある。
本実施の形態で使用される用例DB36の特徴は、図2に符号64で示すように、英語文62の木構造の各句に次の情報を含ませている点である。
1)訳語情報 これは句の内容語列を示す。
2)関係情報 これは前置詞及びTO‐不定詞の有無とその種類を示す。
3)モダリティ情報 これは助動詞の有無とその種類、及び主動詞の屈折の種類を示す。
例えば、図2において、日本語文60は「ハイチでは」「今年暮れには」「大統領選挙が」「予定されています。」という4つの句を含む。対応する英語文62は「Presidential Election is scheduled in Haiti at the end of this year.」である。この英語文62は、「Presidential Election」、「is scheduled」、「in Haiti」、「at the end of this year」という5つの句に分けられている。各句は、訳語情報と関係情報とモダリティ情報とを含む。
例えば、英語文62の1番目の句「Presidential Election」は、関係情報及びモダリティ情報としては何も持たず、訳語情報として「Presidential Election」に相当する木構造を格納している。2番目の句「is scheduled」は、関係情報としては何も持たないが、モダリティ情報として「be+VBN(過去分詞形)」を含み、さらに訳語情報として「schedule」を含む。3番目の句は関係情報として「to」、訳語情報として「hold」、モダリティ情報として「be+VBN(過去分詞形)」を含む。以下同様である。
図3は、図1に示す用例DB36の構成を示す。図3に示すように、用例DB36は、多数の用例80,82,…,90を含む。これら用例の各々は、図2に示す用例と同様の構成をしている。
図1を参照して、機械翻訳装置22はさらに、訳語抽出部38が用例DB36から訳語を選択できない語があったときに、その語の訳語を調べるために使用する訳語辞書34を含む。なお、訳語抽出部38は、入力文の句と一致する日本語句の係り先が、入力文20と一致するか、品詞が一致している場合に、訳語情報に加えて、以下に述べる関係・モダリティ情報についても用例DB36から獲得する機能を持つ。
図4に、訳語抽出部38の機能を概略的に示す。図4を参照して、入力文が図4の左側に示すような木構造100で表される「検証する会議が」というものであったとする。これに対応する用例として、入力文の「検証する」という句と一致する日本語句「検証する」を持つ用例102を選択する。さらにこの場合、用例102の句「検証する」の係り先である「議論」の品詞が入力文の「会議」と同じであるため、訳語情報だけでなく関係情報及びモダリティ情報も用例102から抽出する。
再び図1を参照して、機械翻訳装置22はさらに、統語解析部30から入力文20の木構造を受け、後述する「用言パタン」を作成し、同じ用言パタンを持つ用例を用例DB36から検索して、その用例に含まれる英語句の関係情報及びモダリティ情報を抽出するための用例検索部42と、用例検索部42により同じ用言パタンを持つ用例が複数個検索された場合、そのうちの一つを選択する際に使用するシソーラス40とを含む。より具体的には、用例検索部42は、入力文と同じ用言パタンを持つ用例が複数個あった場合、シソーラス40を参照して、入力文の内容語と、抽出された用例の内容語との間の意味的距離を計算し、意味的に入力文20に最も近い用例を選択する。用例検索部42のより詳細な構成については図5を参照して後述する。
機械翻訳装置22はさらに、用例検索部42により選択された用例に含まれる英語の木構造にしたがって、訳語抽出部38により抽出された訳語である英語句を組合せて、英語の木構造を作成するための結合部44と、結合部44により作成された英語の木構造から英語句の語順を決定するためのルールを格納したルールベース46と、ルールベース46に格納されたルールに基づいて、英語の木構造に含まれる各英語句の語順を決定し、前置詞、屈折などについては英語の木構造に含まれる関係情報及びモダリティ情報を用いてそれらの形態を決定し、出力文24を生成するための直列化処理部48とを含む。なお、結合部44により抽出された関係情報及びモダリティ情報は、訳語抽出部38が関係情報及びモダリティ情報を抽出した場合には、その情報によって上書きされる。
図5を参照して、図1に示す用例検索部42は、統語解析部30から与えられる入力文20の木構造から用言パタンを作成するための用言パタン作成部110と、用言パタン作成部110により作成された用言パタンと一致する用言パタンを持つ用例を用例DB36から検索し、その用例に含まれる英語句の関係情報及びモダリティ情報を抽出するための用言パタン一致用例検索部112と、用言パタン一致用例検索部112により複数個の用例が検索された場合に、シソーラス40を参照して入力文との間の意味的距離を各用例について算出し、意味的距離が最も小さな用例を選択するための用例選択部114とを含む。
用言パタンとは、用言と、木構造におけるその親及び子供の情報を品詞に抽象化したものをいう。例えば、図6を参照して、入力文130が、「業者と契約するための〜」というものであるとすると、その用言は「契約するための」となり、この用言から図6の右側に示すような用言パタン132が作成される。図6に示すように、入力文130に含まれる用言「契約するための」は「(用言、連体形)ための」という形に抽象化される。その親「会議を」とその子「業者と」についてもそれぞれ、内容語を品詞に抽象化して「(体言)」と「(体言)と」が得られる。これにより用言パタン132が得られる。
訳語抽出部38と用例検索部42とによる訳語抽出と用例選択との例をまとめて図7に示す。訳語抽出部38は、図7の上部に示すように、入力文150に含まれる各句160、162、164に対して、それと一致する句170、172、174をそれぞれ含む用例152、154、及び156を選択する。各用例152、154、及び156は、句170、172、174の翻訳である英語句180、182、及び184をそれぞれ含む。訳語抽出部38は、これら英語句180、182、及び184から、訳語情報を獲得する。図7に示す例では、用例のうち「委員会が」と「会議を」については入力文150の対応する句と品詞が一致しているので、関係情報及びモダリティ情報も獲得される。図7では、獲得される情報については二重枠で示してある。
一方、図7の下部を参照して、図1に示す用例検索部42は、入力文から得られた用言パタン190と一致する用言パタンを持つ日本語文200を持つ用例192を検索する。そして、この用例192の英語の木構造202の各句の関係情報及びモダリティ情報が獲得され、図1に示す結合部44に与えられる。
図8を参照して、図1に示す結合部44の機能について説明する。ここでは、訳語抽出部38により図7に示す3つの用例152、154、及び156が抽出され、用例検索部42により用例192が抽出されたものとする。結合部44は、用例152、154、及び156に含まれる訳語情報で、図8において曲線の矢印で示されるように用例192の英語の木構造202中の対応する句の訳語情報を置換することで、訳語情報を用例とを組合せる。なおこの際、訳語抽出部38により英語句の関係情報及びモダリティ情報が抽出された場合、結合部44は、用例検索部42により抽出された関係情報及びモダリティ情報をそれらの情報で上書きする。なお、訳語抽出部38によっても用例検索部42によっても関係情報もモダリティ情報も見つけられない場合、結合部44は所定のルールにしたがって各句に関係情報及びモダリティ情報を付与する。
図1に示すルールベース46に格納されたルールについて図9を参照して説明する。ルールベース46は、複数のルール230、232、234、…を含む。図9に示す例では、各ルールは、白抜きの矢印の左側に示す木構造があった場合、その木構造に含まれる句を直列化する際には、白抜きの矢印の右側に示す順序にそれら句を並べることを示す。もちろんルールベース46は機械可読形式で記述されており、直列化処理部48に与えられた英語の木構造の中にいずれかのルールの左辺と一致する部分があった場合、そのルールの右辺をその部分に適用する形で英語句を直列化していく。
木構造のパタンは無数にあり得るので、ルールベース46には単純なルールのみ格納しておき、それら単純なルールを繰返し適用していくことで複雑な木構造も直列化する。その例を図10に示す。
図10を参照して、左側の木構造は、図9に示すルールベース46の中には一致するものがない。しかしこの木構造は、より単純な木構造240及び242に分解できる。そこで、まず木構造240に対して図9に示すルール230を適用し、次に木構造242に対して図9に示すルール232を適用することにより、図10の右辺に示す形に直列化を行なうことができる。
図11に、直列化処理部48がルールベース46を利用して行なう直列化の例を示す。図11を参照して、英語の木構造202が直列化処理部48に与えられるものとする。英語の木構造202は、英語の句250、252、及び254を含むものとする。英語の木構造202は、図9に示すルール232の左辺と一致する構造を持つ。そこで、英語の木構造202の各句をルール232にしたがって並べることにより、図11の下部に示すように直列化された英語句が得られる。このように直列化された各句に含まれる前置詞、語の屈折等については、各句の関係情報及びモダリティ情報を用いて調整をする。
この機械翻訳装置22は以下のように動作する。
入力文20が与えられると、統語解析部30が統語解析辞書32を参照しながらこれを統語解析し、日本語の木構造を作成して訳語抽出部38及び用例検索部42に与える。
訳語抽出部38は、用例DB36を参照して、日本語の木構造に含まれる日本語句と一致する用例を検索し、訳語情報を得る。このとき、訳語抽出部38は、用例中の句の係り先が入力文と一致するか、又は品詞が一致している場合には、訳語情報に加えて、用例中の関係情報及びモダリティ情報も獲得する。また訳語抽出部38は、入力文中の句と一致する日本語句が用例DB36中に見出せなかった場合には、訳語辞書34を参照して訳語情報を得る。
用例検索部42の用言パタン作成部110は、統語解析部30から与えられた入力文の日本語の木構造を作成する。用言パタン一致用例検索部112は、この木構造を受けて、用例DB36中でこの木構造の用言パタンと一致する用言パタンを持つ日本語文を含む用例を検索し、その英語の木構造を出力する。検索された用例が複数個ある場合には、図5に示す用例選択部114がシソーラス40を用いてこれらの中で入力文と最も近い意味的距離を持つものを選択する。
図1に示す結合部44は、図7及び図8を参照して既に説明したように、訳語抽出部38によって抽出された訳語情報と、用例検索部42によって選択された英語の木構造とを結合する。これにより、訳文を構成する英語の句が、入力文と同じ親子関係になるように組み合わされる。その結果得られた訳語情報付の英語の木構造を直列化処理部48に与える。
直列化処理部48は、与えられた訳語情報付の英語の木構造に対してルールベース46に含まれるルールを適用して直列化する。このとき、前置詞や語の屈折等については、関係情報又はモダリティ情報又はその双方を用いて調整を行なう。
こうして、入力文20に対する翻訳として出力文24が得られる。
このシステムによれば、用言パタンを用いて用例を検索しているので、用例と入力文とが内容語レベルで一致していなくても機能語又は屈折の仕方に関する情報を獲得できる。また、直列化の際の語順等についても、用言パタンによる用例の検索において同時に獲得できる。その結果、必要なルールの数が少なくなり、ルール作成のコストを削減することができる。
なお、上記した機械翻訳装置は、純粋なハードウェアでも、コンピュータハードウェア及び当該コンピュータハードウェア上で実行されるプログラムの組合せでも実現可能である。プログラムで実現する場合、上記した機能を実現するためのすべての命令を当該プログラムが含む必要はない。たとえば、コンピュータハードウェアの上で動作しているオペレーティングシステムにより提供される基本的機能、またはサードパーティにより提供される、実行時に動的にプログラム本体にリンク可能なルーチンについては、それらを呼び出す機能のみを含むようにしてもよい。要するに、コンピュータハードウェア及び当該コンピュータハードウェア上で利用可能な資源を利用して、上記した各機能を実現できるように当該コンピュータを制御することが可能なプログラムであれば、本発明の技術的範囲に含まれる。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。
20 入力文、22 機械翻訳装置、24 出力文、30 統語解析部、32 統語解析辞書、34 訳語辞書、36 用例DB、38 訳語抽出部、40 シソーラス、42 用例検索部、44 結合部、46 ルールベース、48 直列化処理部、110 用言パタン作成部、112 用言パタン一致用例検索部、114 用例選択部
Claims (8)
- 第1の言語の入力文を句単位で統語解析し、統語解析の結果を示す木構造を出力するための統語解析手段と、
前記第1の言語と第2の言語との対訳文からなる用例を複数個格納した用例データベースとを含む機械翻訳装置であって、
前記用例に含まれる前記対訳文は各々句ごとに予め互いに対応付けられており、かつ前記対訳文のうち、前記第2の言語の文の各句は、訳語情報と、当該句に付随する、関係情報及びモダリティ情報を含む付随情報とを含む木構造形式で格納されており、前記第1の言語の文の各句は、句単位の木構造形式で格納されており、
前記機械翻訳装置はさらに、
前記統語解析手段から前記木構造を受け、当該木構造に含まれる句ごとに、訳語情報を前記用例データベースから抽出するための訳語抽出手段と、
前記統語解析手段から前記木構造を受け、当該木構造の用言パタンと、対訳文のうちの前記第1の言語の文の用言パタンが一致する用例を前記用例データベースにおいて検索するための用例検索手段と、
前記訳語抽出手段により抽出された訳語情報と、前記用例検索手段により検索された用例とに基づいて、前記入力文の前記第2の言語の訳文を生成するための訳文生成手段とを含む、機械翻訳装置。 - 前記訳文生成手段は、
前記訳語抽出手段により抽出された訳語情報を、前記用例検索手段により検索された用例の木構造と結合し、前記第2の言語の木構造を生成するための結合手段と、
前記結合手段により生成された前記第2の言語の木構造から、語順決定のための所定の規則にしたがって前記第2の言語に含まれる句を直列に配列し、かつ前記第2の言語の木構造の前記付随情報を用いて各句の文法的形態を設定するための直列化手段とを含む、請求項1に記載の機械翻訳装置。 - 前記結合手段は、前記訳語抽出手段により抽出された各訳語情報で、前記用例検索手段により検索された用例の木構造中の、当該各訳語情報に対応する訳語情報を置換することで、前記第2の言語の木構造を生成するための訳語情報置換手段を含む、請求項1又は請求項2に記載の機械翻訳装置。
- 前記訳語抽出手段により抽出された訳語情報に対応する句が所定の条件を充足しているときに、当該句の付随情報を抽出するための付随情報抽出手段をさらに含み、
前記結合手段は、前記付随情報が前記付随情報抽出手段により抽出されたときには、前記訳語情報置換手段により生成される前記第2の言語の木構造中において当該句に対応する句の付随情報を、前記付随情報抽出手段により抽出された付随情報で置換するための付随情報置換手段をさらに含む、請求項3に記載の機械翻訳装置。 - 前記訳語抽出手段は、前記統語解析手段から前記入力文の前記木構造を受け、当該木構造中の句と内容語が一致する前記第1の言語の句を含む用例を前記用例データベースにおいて検索し、検索された用例の、当該第1の言語の句に対応付けられている訳語情報を抽出するための手段を含む、請求項4に記載の機械翻訳装置。
- 前記付随情報抽出手段は、前記抽出するための手段により検索された用例の、前記第1の言語の句の係り先の句が、前記木構造中の対応する句の係り先の句と一致するときに、当該第1の言語の句の付随情報を抽出するための手段を含む、請求項5に記載の機械翻訳装置。
- 前記付随情報抽出手段は、前記抽出するための手段により検索された用例の、前記第1の言語の句の主要語の品詞が、前記木構造中の対応する句の品詞と一致するときに、当該第1の言語の句の付随情報を抽出するための手段を含む、請求項5に記載の機械翻訳装置。
- コンピュータにより実行されると、当該コンピュータを請求項1〜請求項7のいずれかに記載の機械翻訳装置として動作させる、機械翻訳プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003368241A JP3919732B2 (ja) | 2003-10-29 | 2003-10-29 | 機械翻訳装置及び機械翻訳プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003368241A JP3919732B2 (ja) | 2003-10-29 | 2003-10-29 | 機械翻訳装置及び機械翻訳プログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2005135039A JP2005135039A (ja) | 2005-05-26 |
JP2005135039A5 JP2005135039A5 (ja) | 2005-09-08 |
JP3919732B2 true JP3919732B2 (ja) | 2007-05-30 |
Family
ID=34645964
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003368241A Expired - Fee Related JP3919732B2 (ja) | 2003-10-29 | 2003-10-29 | 機械翻訳装置及び機械翻訳プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3919732B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013186673A (ja) * | 2012-03-07 | 2013-09-19 | Nippon Hoso Kyokai <Nhk> | 機械翻訳装置及び機械翻訳プログラム |
JP7168411B2 (ja) * | 2018-10-26 | 2022-11-09 | 株式会社日立製作所 | 情報処理システムおよび情報処理方法 |
JP2023145114A (ja) * | 2022-03-28 | 2023-10-11 | 株式会社バンダイ | 翻訳システム、翻訳装置及びプログラム |
-
2003
- 2003-10-29 JP JP2003368241A patent/JP3919732B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005135039A (ja) | 2005-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pust et al. | Parsing English into abstract meaning representation using syntax-based machine translation | |
JP3114181B2 (ja) | 異言語交信用翻訳方法およびシステム | |
EP1351158A1 (en) | Machine translation | |
KR101818598B1 (ko) | 자동 번역 엔진 서버 및 자동 번역 방법 | |
EP1349079A1 (en) | Machine translation | |
KR100530154B1 (ko) | 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치 | |
JP2003196274A (ja) | 構文解析方法及び装置 | |
JPH0447364A (ja) | 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法 | |
JPS62163173A (ja) | 機械翻訳方法 | |
KR20040102329A (ko) | 기계 번역기를 훈련하기 위한 방법 및 시스템 | |
JPS638864A (ja) | 翻訳装置 | |
Grif et al. | Semantic analyses of text to translate to Russian sign language | |
Rathod | Machine translation of natural language using different approaches | |
WO2015012679A2 (en) | A system and method for interpreting logical connectives in natural language query | |
Garje et al. | Transmuter: an approach to rule-based English to Marathi machine translation | |
JP3919732B2 (ja) | 機械翻訳装置及び機械翻訳プログラム | |
Nguyen et al. | A tree-to-string phrase-based model for statistical machine translation | |
JP3113257B2 (ja) | 機械翻訳装置 | |
Hmeidi et al. | A simple present and past sentences machine translation from Arabic language (AL) to English language | |
KR100194798B1 (ko) | 개념 구조를 이용한 다국어 번역시스템에서 단일의미단어 통합 처리 방법 | |
Almohaimeed et al. | Ar-Spider: Text-to-SQL in Arabic | |
Hegde et al. | Tagging Speech For Words In Low Resourced Monolingual Contexts of Sanskrit Shlokas | |
JP3892227B2 (ja) | 機械翻訳システム | |
Alansary et al. | IAN: An Automatic tool for Natural Language Analysis | |
Rikters | Interactive multi-system machine translation with neural language models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050513 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050513 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070130 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070213 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |