JP4023384B2 - 自然言語翻訳方法及び装置及び自然言語翻訳プログラム - Google Patents
自然言語翻訳方法及び装置及び自然言語翻訳プログラム Download PDFInfo
- Publication number
- JP4023384B2 JP4023384B2 JP2003146323A JP2003146323A JP4023384B2 JP 4023384 B2 JP4023384 B2 JP 4023384B2 JP 2003146323 A JP2003146323 A JP 2003146323A JP 2003146323 A JP2003146323 A JP 2003146323A JP 4023384 B2 JP4023384 B2 JP 4023384B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- target language
- japanese
- analysis
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
【発明の属する技術分野】
本発明は、自然言語翻訳方法及び装置及び自然言語翻訳プログラムに係り、特に、原言語で記述されたテキスト文を目的言語に翻訳する際に、原言語文を書き替えて翻訳を行う自然言語翻訳方法及び装置及び自然言語翻訳プログラムに関する。
【0002】
【従来の技術】
一般的な自然言語翻訳装置は、その入力として主語や目的語といった必須となる格要素及び用言があるテキスト文を対象としている。一方、新聞記事の見出しなどは、動詞などの用言が文末になく、文の形をしていない。これらの翻訳装置を使って、新聞記事の見出し文を翻訳すると、箇条書きの名詞句のように翻訳することはできるが、記事見出しの意味をより正確に伝えるためには、文の形の方が翻訳できる。
【0003】
従来の自然言語翻訳システムで、用言が省略されているときに用言を補完する手段として、単語を分割し、文節ごとにまとめ上げる形態素解析処理、文節間の係り受け関係を決定する係り受け解析処理の結果を使って、用言を補完する技術がある(例えば、特許文献1参照)。
【0004】
また、1つの用言に係る格要素の候補の繰り返される助詞に着目して文中に用言を補完するという技術もある。例えば、「X社は、新社屋の2階に応接室を、3階に会議室を設置する。」という文において、「〜に」と「〜を」の繰り返される助詞に着目して「設置し、」という用言を補完するものである。
【0005】
【特許文献1】
特許第2770555号 「自然言語解析システム」
【0006】
【発明が解決しようとする課題】
しかしながら、上記従来の技術は、形態素解析処理、係り受け解析処理の後で用言を補完する処理を実行している。そのため、係り受け解析による多義が生成されているため、その各々に対して用言の補完処理を行うため、処理が重くなるという問題がある。
【0007】
また、助詞の繰り返しと用言の関係に着目して用言の補完を行う技術においては、補完されるべき用言が文中に存在していることが条件となっている。
【0008】
本発明は、上記の点に鑑みなされたもので、新聞記事の見出し文のように文末に用言が省略されている日本語テキスト文を正しく翻訳するための自然言語翻訳方法及び装置及び自然言語翻訳プログラムを提供することを目的とする。
【0009】
【課題を解決するための手段】
図1は、本発明の原理を説明するための図である。
【0010】
本発明(請求項1)は、形態素解析手段、助詞用言補完手段、係り受け解析手段、意味解析手段、日本語目的言語変換手段、目的言語生成手段を有し、原言語文を書き換えて翻訳を行う装置における自然言語翻訳方法において、
形態素解析手段が、単語と該単語の品詞や意味属性を含む情報を記憶した日本語解析辞書を参照して、入力された日本語で記述されたテキスト文を単語分割し、文節を生成し、単語構造バッファに格納する形態素解析過程(ステップ1)と、
助詞用言補完手段が、単語構造バッファに格納された最終文節を利用して、単語及び文節の情報に対して、入力されたテキスト文の文末の名詞に対する条件と該条件により補完する助詞と用言の補完ルールを記憶した助詞・用言補完テーブルの該補完ルールに従って助詞及び用言を補完し、結果を単語構造バッファに格納する助詞用言補完過程(ステップ2)と、
係り受け解析手段が、単語分割された日本語文の文節間の係り受け関係に必要な情報を記憶した係り受け解析辞書を参照して、助詞及び用言が補完された単語構造バッファの文節構造に対して係り受け関係を決定する係り受け解析過程(ステップ3)と、
意味解析手段が、日本文における用言と格要素の関係を制約する情報と対応する目的言語文の用言と格要素の関係の情報を記憶した意味解析辞書を参照して、係り受け解析過程の解析結果における格要素と用言との間の関係を決定する意味解析過程(ステップ4)と、
日本語目的言語変換手段が、日本語と目的言語の単語の対訳や訳語選択に必要となる情報が記憶された日本語目的言語対照辞書を参照して、意味解析過程の解析結果における日本語単語に対する目的言語の単語を決定する日本語目的言語変換過程(ステップ5)と、
目的言語生成手段が、目的言語文の生成に必要となる単語の形態素情報を記憶した目的言語生成辞書を参照して、日本語目的言語変換過程によって決定された目的言語の単語から目的言語文を生成する目的言語生成過程(ステップ6)と、を行う。
【0011】
図2は、本発明の原理構成図である。
【0012】
本発明(請求項2)は、原言語文を書き換えて翻訳を行う自然言語翻訳装置であって、
入力されたテキスト文の文末の名詞に対する条件と該条件により補完する助詞と用言の補完ルールを記憶した助詞・用言補完テーブル12と、
単語と該単語の品詞や意味属性を含む情報を記憶する日本語解析辞書11と、
単語分割された日本語文の文節間の係り受け関係に必要な情報を記憶する係り受け解析辞書13と、
日本文における用言と格要素の関係を制約する情報と対応する目的言語文の用言と格要素の関係の情報を記憶する意味解析辞書14と、
日本語と目的言語の単語の対訳や訳語選択に必要となる情報を記憶する日本語目的言語対照辞書15と、
目的言語文の生成に必要となる単語の形態素情報を記憶する目的言語生成辞書16と、
日本語文の形態素解析、係り受け解析、意味解析、助詞・用言の補完、日本語と目的言語の単語対訳、目的言語文の生成に必要となる意味属性情報を記憶する意味属性体系辞書17と、
日本語解析辞書11を参照して、入力された日本語で記述されたテキスト文を単語分割し、文節を生成し、単語構造バッファ4に格納する形態素解析手段3と、
単語構造バッファ4に格納された最終文節を利用して単語及び文節の情報に対して、助詞・用言補完テーブルに記憶された補完ルールに従って助詞及び用言を補完し、結果を該単語構造バッファ4に格納する助詞用言補完手段5と、
係り受け辞書13を参照して、助詞及び用言が補完された単語構造バッファ4の文節構造に対して係り受け関係を決定する係り受け解析手段13と、
意味解析辞書14を参照して、係り受け解析手段13の解析結果における格要素と用言との間の関係を決定する意味解析手段7と、
日本語目的言語対照辞書15を参照して、意味解析手段7の解析結果における日本語単語に対する目的言語の単語を決定する日本語言語変換手段8と、
目的言語生成辞書16を参照して、日本語目的言語変換手段8によって決定された目的言語の単語から目的言語文を生成する目的言語生成手段9と、を有する。
【0013】
本発明(請求項3)は、請求項2に記載の自然言語翻訳装置を構成する各手段としてコンピュータを機能させる自然言語翻訳プログラムである。
【0014】
上記のように、本発明によれば、係り受け解析処理の前の早い段階で助詞や用言を補完するので、少ない解析多義に対して適用できる利点があることに加え、用言を補完することにより文の意味が明確になるので、解析により生成される多義を減らすことも可能となる。
【0015】
【発明の実施の形態】
以下、図面と共に本発明の実施の形態を説明する。
【0016】
図3は、本発明の一実施の形態における自然言語翻訳装置の構成図である。
【0017】
同図に示す自然言語翻訳装置は、入力部1、プロセッサ2、記憶部10、出力部18から構成される。
【0018】
入力部1は、例えば、キーボードやファイル読み取り装置等により構成され、翻訳の対象となるテキスト文を入力するために使用する。
【0019】
記憶部10は、日本語解析辞書11、助詞・用言補完テーブル12、係り受け解析辞書13、意味解析辞書14、日本語目的言語対照辞書15、目的言語生成辞書16、及び、意味属性体系辞書17と、を有する。
【0020】
日本語解析辞書11は、日本語の形態素解析に使用する辞書であり、単語と当該単語の品詞や意味属性などの情報を記憶する。
【0021】
助詞・用言補完テーブル12は、日本語文において、助詞と用言を補完するための条件と補完される単語の情報である補完ルールを記憶する。
【0022】
係り受け解析辞書13は、単語分割された日本語文の文節間の係り受け関係の解析に必要な情報を記憶する。
【0023】
意味解析辞書14は、日本語文における用言と格要素の間の関係を制約する情報と対応する目的言語文の用言と格要素の関係の情報を記憶する。
【0024】
日本語目的言語対照辞書15は、日本語と目的言語の単語の対訳や訳語選択に必要となる情報を記憶する。
【0025】
目的言語生成辞書16は、目的言語文の生成に必要となる単語の形態素情報を記憶する。
【0026】
意味属性体系辞書17は、日本語文の形態素解析、係り受け解析、意味解析、助詞・用言の補完、日本語と目的言語の単語対訳の選択、目的言語文の生成に必要となる意味属性情報を記憶する。
【0027】
プロセッサ2は、CPUやROM,RAM等のコンピュータとしての一般的な構成を備えており、上記ROMに記憶された自然言語翻訳プログラムにより指定される処理手順に従って翻訳処理を実行する。この翻訳処理のためのプロセッサ2は、形態素解析部3、単語構造バッファ4、助詞・用言補完部5、係り受け解析部6、意味解析部7、日本語目的言語変換部8、及び、目的言語生成部9と、を備えている。
【0028】
形態素解析部3は、日本語で記述されたテキスト文を、上記の日本語解析辞書11に格納された情報に基づいて単語分割を行い、各単語に品詞や意味属性に関する情報や後述する処理で必要となる情報を付与すると共に、文節構造にまとめ上げ、単語構造バッファ4に記録する。
【0029】
単語構造バッファ4は、形態素解析された結果である単語と文節の情報を保持している。
【0030】
助詞・用言補完部5は、単語構造バッファ4に記憶された単語及び文節の情報に対して、助詞・用言補完テーブル12に記憶された情報を使って書き替えを行い、その結果を再度単語構造バッファ4に記憶する。
【0031】
係り受け解析部6は、単語構造バッファ4に記録された単語及び文節の情報を使い、係り受け解析辞書13に格納された情報に基づいて文節間の係り受けに関する情報を付与する。
【0032】
意味解析部7は、上述した係り受け解析の結果に対して、意味解析辞書14に格納された情報に基づいて用言と格要素の間の関係を決定すると共に、対応する目的言語文における用言と格要素の間の関係を付与する。
【0033】
日本語目的言語変換部8は、上述した意味解析の結果に対して、日本語目的言語対照辞書15に格納された情報に基づいて日本語文の単語に対応する目的言語文の単語を決定する。
【0034】
目的言語生成部9は、上述した日本語目的言語変換の結果に対して、目的言語生成辞書16に格納された情報に基づいて目的言語文を生成する。
【0035】
出力部18は、例えば、ディスプレイやプリンタ、または、ファイル書き込み装置により構成され、上記プロセッサ2の制御の下に、上記目的言語文生成部9により生成された目的言語文等の表示または、印刷または、書き込みを行う。
【0036】
以下に、プロセッサ2の動作を処理の流れに従って説明する。
【0037】
形態素解析部3は、日本語で記述されたテキスト文を、上記日本語解析辞書11に格納された情報に基づいて単語分割を行い、各単語に品詞や意味属性に関する情報や後述する処理で必要となる情報を付与すると共に、文節構造にまとめ上げ、単語構造バッファ4に記録する。
【0038】
ここで解析された結果は、文節<1>から文節<n>で構成される。また、各文節<i>は、単語<i1>から単語<im>で構成される。ここで、i=1,…,nである。単語<ij>は、“一般名詞”、“固有名詞”、“接尾辞”、“動詞”、“格助詞”、“文末記号”などである。ここで、j=1,…,mである。
【0039】
単語の品詞については、例えば、「横尾他、“日英機械翻訳のための単語辞書”、電子情報通信学会、言語理解とコミュニケーション研究会,NLC−97,pp.37−44(1997.7)」を参照することができる。
【0040】
図4は、本発明の一実施の形態における単語構造バッファの一例を示す。
【0041】
助詞・用言補完部5は、単語構造バッファ4に記憶された単語及び文節の情報に対して、助詞・用言補完テーブル12に記憶された情報を使って書き替えを行い、その結果を再度単語構造バッファ4に記録する。
【0042】
図5は、本発明の一実施の形態における助詞・用言補完部の全体処理のフローチャートである。
【0043】
助詞・用言補完部5では、図5に示すように、まず、単語構造バッファ4に格納された文節のうち、最終文節が単一名詞か名詞複合語であるかを判定する(ステップ301)。最終文節が単一名詞でも名詞複合語でもない場合は、本処理の対象外であり、単語構造バッファ4の内容を何も書き替えることなく本処理を終了する。
【0044】
ここで、最終文節が単一名詞か名詞複合語であるかの判定は、以下により行う。但し、最終単語として文末記号「。」がある場合は、それを除いて判定する。まず、最終文節が1つの単語で構成されていて、かつ、その単語が“名詞”である場合は、「単一名詞」であるという条件を満たす。
【0045】
次に、最終文節が複数の単語で構成されている場合、複数の単語の品詞がすべて“接頭語”、“名詞”、“接尾辞”である場合は、「名詞複合語」であるという条件を満たす。これら以外の場合は、「単一名詞」か「名詞複合語」であるという条件を満たさない。
【0046】
次に、最終文節の主名詞を決定する(ステップ302)。主名詞とは、名詞複合語の意味を代表する単語である。単一名詞である場合は、それが主名詞となる。名詞複合語の場合は、以下により主名詞を決定する。名詞複合語の後方から単語を1つずつ取り出していく。その単語が名詞である場合は、それが主名詞となる。その単語が接尾辞である場合、「人」、「年」などの“助数詞型接尾辞”、「山」「駅」などの“固有名詞承接型接尾辞”、「性」「式」などの“連体詞型接尾辞”のように名詞的な意味を持つ接尾辞である場合に、それが主名詞となる。なお、名詞複合語には最低1つの名詞が含まれているので、主名詞がないということはありえない。
【0047】
次に、助詞・用言補完テーブル12に主名詞の条件がマッチする補完ルールがあるかどうかを判定する(ステップ303)。助詞・用言補完テーブル12の条件部401に記述された条件と主名詞とのマッチングは、助詞・用言補完テーブル12に対して、補完ルールの先頭から順番に行ってもよいし、インデックスを使うなどして別の方法によっても構わない。上記マッチングにより条件がマッチする補完ルールがなかった場合は、単語構造バッファ4の内容を何も書き替えることなく本処理を終了する。
【0048】
図6は、本発明の一実施の形態における助詞・用言補完テーブルの構成例を示す。助詞・用言補完テーブル12の条件部401と主名詞のマッチングは以下のようにして行う。条件部401は、表記と品詞と意味属性の条件が記述してあり、その各々が主名詞の表記と品詞と意味属性とすべて合致したときにマッチングが成功する。但し、条件部401に「*」が記述されているときは、その条件については考慮しなくて良いということを示す。
【0049】
表記が合致するとは、完全に一致することである。但し、条件部401の表記の条件として複数の表記が記述されているときは、そのいずれかと主名詞の表記が一致すればよい。
【0050】
品詞が合致するとは、品詞名が一致することである。但し、条件部401の品詞の条件として複数の品詞が記述されているときは、そのいずれかと主名詞の品詞が一致すればよい。
【0051】
意味属性が合致するとは、条件部401の意味属性条件に記述された意味属性が主名詞の意味属性と一致するか、主名詞の意味属性を包含していればよい。但し、条件部401の意味属性の条件として、複数の意味属性が記述されているときは、そのいずれかと主名詞の意味属性が一致するか、そのいずれかに包含されていればよい。また、主名詞の意味属性が複数ある場合は、そのいずれかについて上記の一致か包含関係が成立すればよい。
【0052】
更に、条件部401の意味属性条件として、複数の意味属性が記述され、かつ、主名詞の意味属性が複数のある場合は、いずれかの組み合わせについて上記の一致か包含関係が成立すればよい。
【0053】
なお、上記において、ある意味属性αが別の意味属性βを包含しているとは、名詞の意味属性体系辞書17を示す図7において、意味属性αを頂点とする部分木の中に意味属性βが含まれていることをいう。また、図7では、一部の意味属性の関係のみを例として記述しており、破線で示された部分は途中を省略してある。
【0054】
意味属性については、例えば、「宮崎他、“日英機械翻訳のための意味属性体系”、電子情報通信学会、言語理解とコミュニケーション研究会、NLC−97,pp.29−36(1997,7)」を参照することができる。
【0055】
以上の判定により、条件がマッチする補完ルールがあった場合は、書き替え部402の内容に従って、助詞と用言を補完し、単語構造バッファ4の内容を書き替える(ステップ304)。
【0056】
まず、単語構造バッファ4の最終文節の最終単語の後方に、書き替え部402の助詞部に記述された助詞の表記と品詞とその他の情報を持つ単語を追加する。その他の情報とは、後述する処理で必要とされる情報であって、ここでは、特に規定しない。
【0057】
次に、単語構造バッファ4の最終文節の後方に、文節構造を追加し、書き替え部402の用言部に記述された用言及び助動詞の表記と品詞とその他の情報を持つ単語を追加する。なお、助動詞がない場合もある。
【0058】
なお、書き替える前の単語構造バッファ4の最終単語として文末記号「。」があった場合は、まず、その文末記号を取り除き、書き替え処理を実行した後、単語構造バッファ4の最後の文節の最終単語として文末記号「。」を戻す。
【0059】
次に、プロセッサ2の以降の処理について述べる。
【0060】
係り受け解析部6は、単語構造バッファ4に記録された文節について、係り先の文節と、文節間の関係として“格関係”、“並列関係”、“連体修飾関係”などの係り受け属性を決定する。
【0061】
意味解析部7は、上記係り受け解析部6の結果に対して、意味解析辞書14に格納された情報に基づいて用言と格要素の間の関係を決定すると共に、対応する目的言語文における用言と格要素の間の関係を付与する。
【0062】
日本語目的言語変換部8は、上記意味解析部7の結果に対して、日本語目的言語対照辞書15に格納された情報に基づいて日本語文の単語に対応する目的言語文の単語を決定する。
【0063】
目的言語生成部9は、上記日本語目的言語変換部8の結果に対して、目的言語生成辞書16に格納された情報に基づいて目的言語文を生成する。
【0064】
以下に、目的言語として英語を採った場合の動作例について例文を用いて示す。なお、以下の説明において、“|”は、単語境界を、“‖”は文節境界を表す。
【0065】
第1の例として、「杉山愛、平木理化とペア」が入力されたとして説明する。
【0066】
この文に対して形態素解析部3を実行すると、
「杉山|愛、‖平木|理化|と‖ペア」
となり、その結果を単語構造バッファ4に記録する。その例を図8に示す。
【0067】
続いて、助詞・用言補完部5が図5の処理フローに従って動作する。
【0068】
まず、ステップ301において、最終文節が単一名詞か名詞複合語であるかの判定を行う。この例では、図8から最終文節は「ペア」の1単語であり、それが名詞であることが判定されるので、次に進む。
【0069】
次に、ステップ302において、主名詞を決定する。この例では、最終文節は「ペア」の1単語であるので、「ペア」が主名詞となる。
【0070】
次に、ステップ303において、助詞・用言補完テーブル12に主名詞の条件がマッチする補完ルールがあるかどうかを判定する。この例では、図6に示す助詞・用言補完テーブル12の例において、1番目の補完ルールと条件がマッチする。これは、条件部401の表記「ペア」と主名詞の表記「ペア」が一致し、かつ、条件部401の品詞“一般名詞”と主名詞の品詞“一般名詞”が一致し、かつ、条件部401の意味属性『対』が主名詞の意味属性の1つである『対』と一致するからである。
【0071】
マッチする補完ルールが見つかったので、ステップ304において、書き替え部402の情報に従って書き替え処理を行う。
【0072】
まず、単語構造バッファ4の最終文節の最終単語の後方に、書き替え部402の助詞部に記述された助詞の表記「を」と品詞“格助詞”とその他の情報を持つ単語を追加する。
【0073】
次に、単語構造バッファ4の最終文節の後方に、文節構造を追加し、書き替え部402の用言部に記述された用言の表記「組む」と品詞の“他動詞”とその他の情報を持つ単語を追加する。
【0074】
助詞・用言補完部5の処理が終了した段階での単語構造バッファの情報を図9に示す。
【0075】
以下、係り受け解析部6、意味解析部7、日本語目的言語変換部8、目的言語生成部9の処理を行い、最終的な目的言語文として、
“Ai Sugiyama pairs with Rika Hiraki.”を得て、それを出力部18から出力する。
【0076】
第2の例として、「候補者は5人」が入力されたとして説明する。
【0077】
この文に対して形態素解析部3を実行すると、「候補者|は‖5|人」となり、その結果を単語構造バッファ4に記録する。図10にその情報を示す。
【0078】
続いて、助詞・用言補完部5が図5の処理フローに従って動作する。
【0079】
まず、ステップ301において、最終文節が単一名詞か名詞複合語であるかの判定を行う。この例では、図8から最終文節は、「5|人」の2単語であり、「5」は数量を表す“数詞”という“名詞”であり、「人」は、“助数詞型接尾辞”であり、名詞複合語の条件を満たすので、次に進む。
【0080】
次に、ステップ302において、主名詞を決定する。この例では、最終文節は「5|人」の2単語で構成される名詞複合語である。後方の単語から主名詞の条件を満たすか順次判定を行い、「人」が“助数詞型接尾辞”であるので、この単語「人」が主名詞であると決定される。
【0081】
次に、ステップ303において、助詞・用言補完テーブル12に主名詞の条件がマッチする補完ルールがあるかどうかを判定する。この例では、図6に示す助詞・用言補完テーブル12の例において、2番目の補完ルールと条件がマッチする。これは、条件部401の表記「*」となっていて主名詞の表記について何も規定しておらず、かつ、条件部401の品詞“助数詞型接尾辞”と主名詞の品詞“助数詞型接尾辞”が一致し、かつ、条件部401の意味属性『数量』が主名詞の意味属性の1つである『単位』を包含しているからである。
【0082】
助詞・用言補完テーブル12からマッチする補完ルールが見つかったので、ステップ304において書き替え部402の情報に従って書き替え処理を行う。
【0083】
まず、単語構造バッファ4の最終文節の最終単語の後方に、書き替え部402の助詞部に記述された助詞の表記「に」と品詞“格助詞”とその他の情報を持つ単語を追加する。
【0084】
次に、単語構造バッファ4の最終文節の後方に、文節構造を追加し、書き替え部402の用言部に記述された用言の表記「なる」と品詞“自動詞”とその他の情報を持つ単語を追加する。さらに、助動詞の表記「た」と品詞“助動詞”とその他の情報を持つ単語を追加する。
【0085】
助詞・用言補完部5の処理が終了した段階での単語構造バッファ4の情報を図11に示す。
【0086】
以下、係り受け解析部6、意味解析部7、日本語目的言語変換部8、目的言語生成部9の処理を行い、最終的な目的言語文として
“Candidates reached five people.”
を得て、それを出力部18から出力する。
【0087】
上記の実施の形態では、ROMに組み込まれた自然言語翻訳プログラムをCPUが実行することで翻訳処理を行うように説明したが、上記自然言語翻訳プログラムをCD−ROM等の外部記憶媒体から読み込んだり、ネットワーク上のサイトから通信回線を介してダウンロードしてインストールするようにしてもよい。
【0088】
また、上記の実施の形態では、翻訳の対象となるテキスト文をキーボードまたは、ファイルから入力するように説明したが、テキスト文を引数とし、本実施の形態をサブルーチンまたは、関数のように呼び出したり、ネットワークを経由してテキスト文を受け渡すようにしてもよい。
【0089】
また、同様に、上記の実施例では、翻訳の結果をディスプレイに表示したり、プリンタで印刷したり、ファイルに書き込んだりするように説明したが、サブルーチンまたは、関数の実行結果として翻訳結果を受け取ったり、ネットワークを経由して翻訳結果を引き渡すようにしてもよい。
【0090】
その他、自然言語翻訳装置の種類とその構成、辞書の種類とその構成、形態素解析処理、係り受け解析処理、意味解析処理、日本語目的言語変換処理、目的言語文生成処理の方法や制御手順とその内容についても、本発明の要旨を逸脱しない範囲で種々変形して実施できる。
【0091】
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
【0092】
【発明の効果】
上述のように、本発明によれば、自然言語翻訳装置において、新聞記事の見出し文のように、文末に用言が省略されたテキスト文に対し、翻訳処理の早い段階で解析の多義を増やすことなく、テキスト文の文末の単語にマッチする条件を有した助詞・用言補完ルールにより、適切な助詞及び用言を補完して翻訳することが可能になる。
【図面の簡単な説明】
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明の一実施の形態における自然言語翻訳装置の構成図である。
【図4】本発明の一実施の形態における単語構造バッファの一例である。
【図5】本発明の一実施の形態における助詞・用言補完部の全体処理のフローチャートである。
【図6】本発明の一実施の形態における助詞・用言補完テーブルの構成例である。
【図7】本発明の一実施の形態における名詞の意味属性体系辞書の例である。
【図8】本発明の一実施の形態における第1の例の形態素解析結果を単語構造バッファに記録した例である。
【図9】本発明の一実施の形態における第1の例の助詞・用言補完部の処理が終了した段階での単語構造バッファの例である。
【図10】本発明の一実施の形態における第2の例の形態素解析結果を単語構造バッファに記録した例である。
【図11】本発明の一実施の形態における第2の例の助詞・用言補完部の処理が終了した段階での単語構造バッファの例である。
【符号の説明】
1 入力部
2 プロセッサ
3 形態素解析手段、形態素解析部
4 単語構造バッファ
5 助詞用言補完手段、助詞用言補完部
6 係り受け解析手段、係り受け解析部
7 意味解析手段、意味解析部
8 日本語目的言語変換手段、日本語目的言語変換部
9 目的言語生成手段、目的言語生成部
10 記憶部
11 日本語解析辞書
12 助詞・用言補完テーブル
13 係り受け解析辞書
14 意味解析辞書
15 日本語目的言語対照辞書
16 目的言語生成辞書
17 意味属性体系辞書
18 出力部
401 助詞・用言補完テーブルの条件部
402 助詞・用言補完テーブルの書き替え部
Claims (3)
- 形態素解析手段、助詞用言補完手段、係り受け解析手段、意味解析手段、日本語目的言語変換手段、目的言語生成手段を有し、原言語文を書き換えて翻訳を行う装置における自然言語翻訳方法において、
前記形態素解析手段が、単語と該単語の品詞や意味属性を含む情報を記憶した日本語解析辞書を参照して、入力された日本語で記述されたテキスト文を単語分割し、文節を生成し、単語構造バッファに格納する形態素解析過程と、
前記助詞用言補完手段が、前記単語構造バッファに格納された最終文節を利用して、単語及び文節の情報に対して、入力されたテキスト文の文末の名詞に対する条件と該条件により補完する助詞と用言の補完ルールを記憶した助詞・用言補完テーブルの該補完ルールに従って助詞及び用言を補完し、結果を前記単語構造バッファに格納する助詞用言補完過程と、
前記係り受け解析手段が、単語分割された日本語文の文節間の係り受け関係に必要な情報を記憶した係り受け解析辞書を参照して、助詞及び用言が補完された前記単語構造バッファの文節構造に対して係り受け関係を決定する係り受け解析過程と、
前記意味解析手段が、日本文における用言と格要素の関係を制約する情報と対応する目的言語文の用言と格要素の関係の情報を記憶した意味解析辞書を参照して、前記係り受け解析過程の解析結果における格要素と用言との間の関係を決定する意味解析過程と、
前記日本語目的言語変換手段が、日本語と目的言語の単語の対訳や訳語選択に必要となる情報が記憶された日本語目的言語対照辞書を参照して、前記意味解析過程の解析結果における日本語単語に対する目的言語の単語を決定する日本語目的言語変換過程と、
前記目的言語生成手段が、目的言語文の生成に必要となる単語の形態素情報を記憶した目的言語生成辞書を参照して、前記日本語目的言語変換過程によって決定された前記目的言語の単語から目的言語文を生成する目的言語生成過程と、
を行うことを特徴とする自然言語翻訳方法。 - 原言語文を書き換えて翻訳を行う自然言語翻訳装置であって、
入力されたテキスト文の文末の名詞に対する条件と該条件により補完する助詞と用言の補完ルールを記憶した助詞・用言補完テーブルと、
単語と該単語の品詞や意味属性を含む情報を記憶する日本語解析辞書と、
単語分割された日本語文の文節間の係り受け関係に必要な情報を記憶する係り受け解析辞書と、
日本文における用言と格要素の関係を制約する情報と対応する目的言語文の用言と格要素の関係の情報を記憶する意味解析辞書と、
日本語と目的言語の単語の対訳や訳語選択に必要となる情報を記憶する日本語目的言語対照辞書と、
目的言語文の生成に必要となる単語の形態素情報を記憶する目的言語生成辞書と、
日本語文の形態素解析、係り受け解析、意味解析、助詞・用言の補完、日本語と目的言語の単語対訳、目的言語文の生成に必要となる意味属性情報を記憶する意味属性体系辞書と、
前記日本語解析辞書を参照して、入力された日本語で記述されたテキスト文を単語分割し、文節を生成し、単語構造バッファに格納する形態素解析手段と、
前記単語構造バッファに格納された最終文節を利用して単語及び文節の情報に対して、前記助詞・用言補完テーブルに記憶された前記補完ルールに従って助詞及び用言を補完し、結果を該単語構造バッファに格納する助詞用言補完手段と、
前記係り受け辞書を参照して、助詞及び用言が補完された前記単語構造バッファの文節構造に対して係り受け関係を決定する係り受け解析手段と、
前記意味解析辞書を参照して、前記係り受け解析手段の解析結果における格要素と用言との間の関係を決定する意味解析手段と、
前記日本語目的言語対照辞書を参照して、前記意味解析手段の解析結果における日本語単語に対する目的言語の単語を決定する日本語言語変換手段と、
前記目的言語生成辞書を参照して、前記日本語目的言語変換手段によって決定された前記目的言語の単語から目的言語文を生成する目的言語生成手段と、
を有することを特徴とする自然言語翻訳装置。 - 請求項2に記載の自然言語翻訳装置を構成する各手段としてコンピュータを機能させる自然言語翻訳プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003146323A JP4023384B2 (ja) | 2003-05-23 | 2003-05-23 | 自然言語翻訳方法及び装置及び自然言語翻訳プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003146323A JP4023384B2 (ja) | 2003-05-23 | 2003-05-23 | 自然言語翻訳方法及び装置及び自然言語翻訳プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004348556A JP2004348556A (ja) | 2004-12-09 |
JP4023384B2 true JP4023384B2 (ja) | 2007-12-19 |
Family
ID=33533205
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003146323A Expired - Fee Related JP4023384B2 (ja) | 2003-05-23 | 2003-05-23 | 自然言語翻訳方法及び装置及び自然言語翻訳プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4023384B2 (ja) |
-
2003
- 2003-05-23 JP JP2003146323A patent/JP4023384B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004348556A (ja) | 2004-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Habash et al. | MADA+ TOKAN: A toolkit for Arabic tokenization, diacritization, morphological disambiguation, POS tagging, stemming and lemmatization | |
US9239826B2 (en) | Method and system for generating new entries in natural language dictionary | |
JPH083815B2 (ja) | 自然言語の共起関係辞書保守方法 | |
WO2010046782A2 (en) | Hybrid machine translation | |
JPH05314166A (ja) | 電子化辞書および辞書検索装置 | |
US20040254783A1 (en) | Third language text generating algorithm by multi-lingual text inputting and device and program therefor | |
JPH05120324A (ja) | 言語処理方式 | |
Alkım et al. | Machine translation infrastructure for Turkic languages (MT-Turk) | |
JPH0855123A (ja) | イディオム登録機能を有する機械翻訳装置 | |
Elsheikh | Timeline of the development of Arabic PoS taggers and Morphological analysers | |
JP2003323425A (ja) | 対訳辞書作成装置、翻訳装置、対訳辞書作成プログラム、および翻訳プログラム | |
Sankaravelayuthan et al. | English to tamil machine translation system using parallel corpus | |
JP4023384B2 (ja) | 自然言語翻訳方法及び装置及び自然言語翻訳プログラム | |
JP2005182794A (ja) | 言語的構造を正規化するためのデータ処理方法及び装置 | |
Rajendran | Parsing in tamil: Present state of art | |
Sankaravelayuthan et al. | A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam | |
JP2005149305A (ja) | 自然言語翻訳方法及び装置及びプログラム及び自然言語翻訳プログラムを記録したコンピュータ読み取り可能な記憶媒体 | |
Samir et al. | Training and evaluation of TreeTagger on Amazigh corpus | |
Vasuki et al. | English to Tamil machine translation system using parallel corpus | |
Shokrollahi-Far | Self-Organizing Computational Efficiency in Quranic Grammar | |
JP3389313B2 (ja) | 機械翻訳装置 | |
Salim Elsheikh et al. | TIMELINE OF THE DEVELOPMENT OF ARABIC POS TAGGERS AND MORPHOLOGICALANALYSERS | |
Balcha et al. | Design and Development of Sentence Parser for Afan Oromo Language | |
JP2839419B2 (ja) | イディオム登録機能を持つ機械翻訳装置 | |
JPH0561902A (ja) | 機械翻訳システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050728 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070626 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070822 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070911 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070924 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101012 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101012 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111012 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111012 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121012 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121012 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131012 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |