JP3982726B2 - Translation knowledge learning device and machine translation device - Google Patents

Translation knowledge learning device and machine translation device Download PDF

Info

Publication number
JP3982726B2
JP3982726B2 JP19404498A JP19404498A JP3982726B2 JP 3982726 B2 JP3982726 B2 JP 3982726B2 JP 19404498 A JP19404498 A JP 19404498A JP 19404498 A JP19404498 A JP 19404498A JP 3982726 B2 JP3982726 B2 JP 3982726B2
Authority
JP
Japan
Prior art keywords
dictionary
morpheme
translation
document
translation pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP19404498A
Other languages
Japanese (ja)
Other versions
JP2000029878A (en
Inventor
美穂子 北村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP19404498A priority Critical patent/JP3982726B2/en
Publication of JP2000029878A publication Critical patent/JP2000029878A/en
Application granted granted Critical
Publication of JP3982726B2 publication Critical patent/JP3982726B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、既存の対訳文書から翻訳パターンや文書情報等の翻訳知識を学習する機能を有する翻訳知識学習方法および装置とこの翻訳知識を用いて翻訳処理を行う用例主導方式の機械翻訳方法および装置に関するものである。
【0002】
【従来の技術】
従来、既存の対訳文書を用いて翻訳パターンや文書情報等の翻訳知識を学習する方法としては、例えば次のようなものがあった。
【0003】
文献1:「特開平7−244665 機械翻訳システム用辞書・ルール学習方法及び機械翻訳システム用辞書・ルール学習装置」
文献2:「特開平7−85056 辞書作成支援方法」
【0004】
上記二つの従来技術は、対訳文書から翻訳知識を抽出し、それに基づいて翻訳する機械翻訳方法または装置である。翻訳パターン、文法規則がここでいう翻訳知識に相当する。上記のような機械翻訳装置は一般に用例主導型の機械翻訳装置と呼ばれる。この型の利点は、予め与えられる対訳文書中の目的言語表現が機械翻訳装置の翻訳結果に反映されることである。
【0005】
文献1の技術は、予め学習対象となる対訳文書を読み込んでおき、翻訳対象となる原言語入力文が翻訳される度に、その翻訳結果と対訳文(理想訳文)と比較し、翻訳結果と理想訳文の差異がもっとも小さい理想訳文を用いて、辞書や文法規則を変更していくというものである。これは対訳文書読み込み時に学習処理を行うのではなく、翻訳対象となる原文が入力される度に、対訳文から最適な用例を選択して、その用例から辞書や文法規則を学習するタイプの典型例である。
【0006】
この方法の利点は、用例に特別な加工を施さず、一文単位で翻訳処理に利用するため、一文全体の情報を翻訳処理に利用することである。また、翻訳対象となる原文が入力される時に、辞書や文法規則の追加、修正が行われるため、無駄な辞書や文法規則が作成されずに済み、辞書や文法規則間での副作用も発生しにくい。
【0007】
一方、文献2の技術は、予め対訳文書から翻訳パターンと呼ばれる原言語と目的言語の変換辞書を自動的に作成する辞書学習装置の典型例である。このような装置は、対訳文書から翻訳パターンを抽出することによって、ユーザ辞書などに登録すべき辞書候補を抽出すると共に、その登録候補のデータを編集する際に有用である原文文書情報、訳文文書情報を抽出する。そして、この抽出結果を用いて翻訳することにより、対訳文書中の表現が翻訳結果に反映する。
【0008】
この方法の利点は、用例学習部と翻訳処理部が個別に存在し、かつ、用例はユーザにとって理解しやすい翻訳パターン形式であるため、ユーザは学習部によって作成された辞書を簡単に管理(追加、削除、変更)できることである。更に、その辞書は学習対象となる対訳文書毎に管理することもできる。
【0009】
【発明が解決しようとする課題】
しかしながら、上記の二つの従来技術には、以下の課題が存在する。
文献1の技術は、一文入力する度に最適な用例の検索処理や辞書、文法規則の追加、変更処理が発生するため、翻訳に時間がかかる。更に、一文入力する毎に辞書や文法規則が書き換えられてしまうため、たとえ学習効果による悪影響を発見した場合でも、辞書や文法規則を元に戻すことはできない。更に、ユーザは翻訳結果に対して予測ができないため、ユーザによる辞書追加および修正による訳出向上は困難である(実用的な機械翻訳装置では、機械翻訳装置による自動学習とユーザ支援の協調が欠かせない)。
【0010】
また、対訳文書中に種類の異なった文書(例えば、手紙文、マニュアル)などが混在すると、辞書や文法に表現形式が全く異なった規則や辞書が混在するため、辞書や規則の見通しが悪くなり、副作用が発生し易くなり訳質低下の要因となる。更に、文書全体を用例として格納しているにもかかわらず、翻訳時には一文の情報しか利用しない。
【0011】
一方、文献2の技術では、翻訳処理での利用の有無にかかわらず、かつ、機械翻訳装置がもつ辞書とは無関係に、対訳文書から翻訳パターン辞書を作成する。そのため、ユーザは、翻訳対象となる入力文書に対し、常にユーザ自ら適切な辞書を選択してから翻訳を行う必要がある。仮に全ての辞書を用いて翻訳した場合でも、辞書間での副作用が発生する要因となり、翻訳品質の低下を伴う。
【0012】
また、辞書自動作成の際、対訳文書全体を参照しているのにもかかわらず、ある原言語の単語がどの単語に対応するか、その単語に翻訳される時の条件は何かという翻訳に関する局所的な知識は抽出しても、例えば、その単語が対訳文書中に何回出現しているか、また、対訳文書はどんな種類か、等の対訳文書全体に関する知識は抽出しない。
【0013】
このような点から、ユーザが翻訳知識を管理し易く、かつ、翻訳品質を向上させることのできる翻訳知識学習方法および装置、機械翻訳方法および装置の実現が望まれていた。
【0014】
【課題を解決するための手段】
本発明は、前述の課題を解決するため次の構成を採用する
【0015】
〈構成
自然言語による原言語と目的言語からなる対訳文書を入力する対訳文書入力部と、前記対訳文書入力部で入力された対訳文書から、前記原言語と目的言語それぞれの形態素と当該形態素の出現回数を抽出する語彙知識学習部と、翻訳処理に用いるための予め設けられた形態素辞書・文法規則における当該文法規則に基づいて、前記対訳文書入力部で入力された文書から新たな文法規則を生成すると共に、前記語彙知識学習部で抽出した形態素と当該形態素の出現回数に基づいて形態素頻度辞書を求め、これら形態素頻度辞書新たな文法規則とを前記形態素辞書・文法規則に追加する文書環境学習部とを備えたことを特徴とする翻訳知識学習装置。
【0016】
〈構成
自然言語による原言語と目的言語からなる対訳文書を入力する対訳文書入力部と、前記対訳文書入力部で入力された対訳文書から、前記原言語と目的言語それぞれの形態素と当該形態素の出現回数および翻訳パターンと当該翻訳パターンの出現回数を抽出する語彙知識学習部と、翻訳処理に用いるための予め設けられた形態素辞書・文法規則における当該文法規則に基づいて、前記対訳文書入力部で入力された文書から新たな文法規則を生成すると共に、前記語彙知識学習部で抽出した形態素と当該形態素の出現回数および翻訳パターンと当該翻訳パターンの出現回数に基づいて形態素頻度辞書および翻訳パターン辞書を求め、これら形態素頻度辞書新たな文法規則とを前記形態素辞書・文法規則に追加し、かつ、前記翻訳パターン辞書を翻訳パターン学習辞書に登録する文書環境学習部と、前記文書環境学習部から前記形態素頻度辞書新たな文法規則が追加された形態素辞書・文法規則と、前記翻訳パターン学習辞書とを用いて、原言語の文書を目的言語の文書に翻訳する翻訳エンジン部とを備えたことを特徴とする機械翻訳装置。
【0017】
〈構成3〉
自然言語による原言語の文書と目的言語の文書から成る対訳文書を入力する対訳文書入力部と、文を構成する多数の形態素を含む翻訳用形態素辞書及び文法規則が格納されている記憶部と、原言語と目的言語の語句を対応させた翻訳パターンを含む翻訳用パターン辞書とを備える翻訳知識学習装置であって、入力された前記原言語の文書及び前記目的言語の文書を前記文法規則に基づいてそれぞれ形態素に区分すべく解析し、各形態素に該形態素の前記文書で出現する数を示す出現回数を対応させた原言語の形態素頻度辞書及び目的言語の形態素頻度辞書を生成すると共に、前記両文書の語句を対応させた翻訳パターンに該翻訳パターンの出現する数を示す出現回数を対応させた翻訳パターン辞書を生成する語彙知識学習部と、対訳文書毎に前記原言語の形態素頻度辞書と前記目的言語の形態素頻度辞書及び前記翻訳パターン辞書を格納するための他の記憶部と、前記生成した原言語の形態素頻度辞書及び前記生成した目的言語の形態素頻度辞書の少なくとも一方に対し前記他の記憶部の中から共通する形態素の数が所定数以上の他の対訳文書の形態素頻度辞書を一以上判定し、前記生成した各形態素頻度辞書中の各形態素にその出現回数に重み付け係数を剰算した重み回数値を付与すると共に前記生成した翻訳パターン辞書中の各翻訳パターンにその出現回数に重み付け係数を剰算した重み回数値を付与し、前記生成した各形態素頻度辞書中の形態素の重み回数値が前記他の対訳文書の各形態素頻度辞書中の同一の形態素の出現回数より小さいと該重み回数値を該出現回数に変更した上で前記生成した各形態素頻度辞書中の各形態素及び出現回数と重み回数値により前記翻訳用形態素辞書を更新し、前記生成した翻訳パターン辞書中の翻訳パターンの重み回数値が前記他の対訳文書の翻訳パターン辞書中の同一の翻訳パターンの出現回数より小さいと該重み回数値を該出現回数に変更した上で前記生成した各翻訳パターン辞書中の各翻訳パターン及び出現回数と重み回数値により前記翻訳用パターン辞書を更新する文書環境学習部とを含むことを特徴とする翻訳知識学習装置。
【0018】
〈構成4〉
自然言語による原言語の文書と目的言語の文書から成る対訳文書を入力する対訳文書入力部と、文を構成する多数の形態素を含む翻訳用形態素辞書及び文法規則が格納されている記憶部と、原言語と目的言語の語句を対応させた翻訳パターンを含む翻訳用パターン辞書とを備える機械翻訳装置であって、入力された前記原言語の文書及び前記目的言語の文書を前記文法規則に基づいてそれぞれ形態素に区分すべく解析し、各形態素に該形態素の前記文書で出現する数を示す出現回数を対応させた原言語の形態素頻度辞書及び目的言語の形態素頻度辞書を生成すると共に、前記両文書の語句を対応させた翻訳パターンに該翻訳パターンの出現する数を示す出現回数を対応させた翻訳パターン辞書を生成する語彙知識学習部と、対訳文書毎に前記原言語の形態素頻度辞書と前記目的言語の形態素頻度辞書及び前記翻訳パターン辞書を格納するための他の記憶部と、前記生成した原言語の形態素頻度辞書及び前記生成した目的言語の形態素頻度辞書の少なくとも一方に対し前記他の記憶部の中から共通する形態素の数が所定数以上の他の対訳文書の形態素頻度辞書を一以上判定し、前記生成した各形態素頻度辞書中の各形態素にその出現回数に重み付け係数を剰算した重み回数値を付与すると共に前記生成した翻訳パターン辞書中の各翻訳パターンにその出現回数に重み付け係数を剰算した重み回数値を付与し、前記生成した各形態素頻度辞書中の形態素の重み回数値が前記他の対訳文書の各形態素頻度辞書中の同一の形態素の出現回数より小さいと該重み回数値を該出現回数に変更した上で前記生成した各形態素頻度辞書中の各形態素及び出現回数と重み回数値により前記翻訳用形態素辞書を更新し、前記生成した翻訳パターン辞書中の翻訳パターンの重み回数値が前記他の対訳文書の翻訳パターン辞書中の同一の翻訳パターンの出現回数より小さいと該重み回数値を該出現回数に変更した上で前記生成した各翻訳パターン辞書中の各翻訳パターン及び出現回数と重み回数値により前記翻訳用パターン辞書を更新する文書環境学習部と、原言語の翻訳すべき文書が入力されると、前記翻訳用パターン辞書と前記翻訳用形態素辞書及び前記文法規則に基づいて前記翻訳すべき文書を目的言語の文書に翻訳する翻訳エンジン部とを含むことを特徴とする機械翻訳装置。
【0019】
〈構成
自然言語による原言語と目的言語からなる対訳文書を入力する対訳文書入力部と、原言語から目的言語への翻訳処理で用いるための、予め設けられた形態素解析情報と文法規則とを示す形態素辞書・文法規則と、対訳文書別の形態素の出現回数と翻訳パターンとを示す対訳文書別形態素頻度辞書・翻訳パターン辞書と、前記形態素辞書・文法規則を用いて、前記対訳文書から形態素とその出現回数およびその翻訳パターンとその出現回数を抽出し、これら抽出した情報を辞書情報として前記対訳文書別形態素頻度辞書・翻訳パターン辞書に出力する語彙知識学習部と、前記対訳文書別形態素頻度辞書・翻訳パターン辞書の中から、前記抽出した情報に基づいて最適辞書を選出し、この最適辞書と当該抽出した情報とをマージし、その結果得られた形態素頻度辞書と、前記形態素辞書・文法規則における文法規則に基づいて前記対訳文書から抽出した文法規則とを対訳文書別文書環境設定ファイルとして出力する文書環境学習部と、前記対訳文書別形態素頻度辞書・翻訳パターン辞書と対訳文書別文書環境設定ファイルとに基づき、形態素頻度辞書と文法規則とを作成して形態素辞書・文法規則への追加情報として出力する環境適応辞書構築部とを備えたことを特徴とする翻訳知識学習装置。
【0020】
〈構成
請求項に記載の翻訳知識学習装置において、対訳文書別形態素頻度辞書・翻訳パターン辞書と対訳文書別文書環境設定ファイルとを編集する辞書/環境設定ファイル編集部を備えたことを特徴とする翻訳知識学習装置。
【0021】
〈構成
自然言語による原言語と目的言語からなる対訳文書を入力する対訳文書入力部と、原言語から目的言語への翻訳処理で用いるための、予め設けられた形態素解析情報と文法規則とを示す形態素辞書・文法規則と、対訳文書別の形態素の出現回数と翻訳パターンとを示す対訳文書別形態素頻度辞書・翻訳パターン辞書と、前記形態素辞書・文法規則を用いて、前記対訳文書から形態素とその出現回数およびその翻訳パターンとその出現回数を抽出し、これら抽出した情報を辞書情報として前記対訳文書別形態素頻度辞書・翻訳パターン辞書に出力する語彙知識学習部と、前記対訳文書別形態素頻度辞書・翻訳パターン辞書の中から、前記抽出した情報に基づいて最適辞書を選出し、この最適辞書と当該抽出した情報とをマージし、その結果得られた形態素頻度辞書と、前記形態素辞書・文法規則における文法規則に基づいて前記対訳文書から抽出した文法規則とを対訳文書別文書環境設定ファイルとして出力する文書環境学習部と、前記対訳文書別形態素頻度辞書・翻訳パターン辞書と対訳文書別文書環境設定ファイルとに基づき、形態素頻度辞書と文法規則とを作成して形態素辞書・文法規則への追加情報として出力すると共に、翻訳パターン辞書を作成し、当該翻訳パターン辞書を翻訳パターン学習辞書として出力する環境適応辞書構築部と、前記環境適応辞書構築部によって形態素頻度辞書と文法規則とが追加された前記形態素辞書・文法規則と、前記翻訳パターン学習辞書を用いて原言語の文書を目的言語の文書に翻訳する翻訳エンジン部とを備えたことを特徴とする機械翻訳装置。
【0022】
〈構成
構成に記載の機械翻訳装置において、対訳文書別形態素頻度辞書・翻訳パターン辞書と対訳文書別文書環境設定ファイルと翻訳パターン学習辞書とを編集する辞書/環境設定ファイル編集部を備えたことを特徴とする機械翻訳装置。
【0023】
【発明の実施の形態】
以下、本発明の実施の形態を図面を用いて詳細に説明する。
《具体例1》
〈構成〉
図1は本発明の機械翻訳方法の具体例1を示すフローチャートであるが、この説明に先立ち、本発明の具体例1による機械翻訳装置の構成を説明する。
【0024】
図2は、本発明の具体例1による機械翻訳装置の構成図である。
本発明の機械翻訳装置はコンピュータでその機能が実現され、本装置は大きく分けて、入出力部1、学習エンジン部2、翻訳エンジン部3と、形態素辞書・文法規則4、対訳文書別形態素頻度辞書・翻訳パターン辞書5、翻訳パターン学習辞書6から構成されている。
【0025】
入出力部1は、コンピュータにおけるキーボードやディスプレイといった一般的な入出力装置や入出力端子あるいはネットワーク等からなり、対訳文書入力部11、原言語文入力部12、目的言語文出力部13から構成されている。
【0026】
対訳文書入力部11は、自然言語による原言語と目的言語からなる対訳文書を入力する機能部である。原言語文入力部12は、翻訳エンジン部3における原言語文を入力するための機能部である。目的言語文出力部13は、翻訳エンジン部3によって翻訳された目的言語文を出力するための機能部である。
【0027】
学習エンジン部2は、翻訳知識の学習を行う機能部で、語彙知識学習部21、文書環境学習部22、形態素頻度辞書・翻訳パターン辞書23の記憶装置から構成されている。
【0028】
語彙知識学習部21は、形態素辞書・文法規則4を参照して、対訳文書入力部11で入力された対訳文書から形態素とその出現回数およびその翻訳パターンとその出現回数を抽出し、形態素頻度辞書・翻訳パターン辞書23を作成する機能を有している。
【0029】
文書環境学習部22は、形態素頻度辞書・翻訳パターン辞書23と、対訳文書別形態素頻度辞書・翻訳パターン辞書5を参照して、翻訳パターン学習辞書6を作成すると共に、形態素辞書・文法規則4に情報を追加する機能を有している。即ち、文書環境学習部22は、対訳文書別形態素頻度辞書・翻訳パターン辞書5の中から、形態素頻度辞書・翻訳パターン辞書23との形態素の出現回数に基づいて最適辞書を選出し、この最適辞書と、形態素頻度辞書・翻訳パターン辞書23とマージし、その結果得られた形態素頻度知識を形態素辞書・文法規則4に新たに追加すると共に、形態素辞書・文法規則4における文法規則に基づいて対訳文書から抽出した文法知識を新たに形態素辞書・文法規則4に追加する機能を有している。
【0030】
翻訳エンジン部3は、形態素辞書・文法規則4と翻訳パターン学習辞書6とを参照して、原言語文入力部12から入力された原言語文を翻訳し、目的言語文出力部13に出力する機能を有している。
【0031】
形態素辞書・文法規則4は、学習エンジン部2と翻訳エンジン部3と共通で用いるデータベースであり、学習エンジン部2で得られた翻訳知識が追加され、この追加された情報を含めて翻訳エンジン部3が翻訳を行うためのものである。
【0032】
対訳文書別形態素頻度辞書・翻訳パターン辞書5は学習対象となる対訳文書毎に、複数の形態素頻度辞書・翻訳パターン辞書を格納するデータベースである。
【0033】
翻訳パターン学習辞書6は、文書環境学習部22によって作成され、翻訳処理時に翻訳エンジン部3が用いる辞書である。
【0034】
尚、上記構成において、学習エンジン部2における語彙知識学習部21および文書環境学習部22と、翻訳エンジン部3は、この機能に対応したプログラムとこれを実行するためのCPUやメモリ等によって、その機能を実現している。また、上記の形態素頻度辞書・翻訳パターン辞書23、形態素辞書・文法規則4、対訳文書別形態素頻度辞書・翻訳パターン辞書5、翻訳パターン学習辞書6は、主記憶装置上に一時的に作成されるデータベース、あるいは補助記憶装置内に格納されるデータベースである。
【0035】
〈動作〉
以下、図1のフローチャートを用いて本具体例の動作を説明する。
【0036】
本具体例の対訳文書とは、日本語と英語の文対応が既についた文書とする。
ユーザが、英語文書system.en、日本語文書system.jaからなる対訳文書を入力し、英文“This command pushes modules on and/or pops modules of the stream.”を翻訳する場合を例に挙げて説明する。尚、system.enの“system”は文書名を表し、また、system.enの“.en”は英語文書を、system.jaの“.ja”は日本語文書を示す識別子である。
【0037】
図13は、system.enとsystem.jaの例を示す図である。
図示のように、文の対応を示すタグがen=1,2,…,sと、ja=1,2,…,s(sは対訳文数)として記されているのがわかる。
【0038】
先ず、ユーザが対訳文書入力部11より、対訳文書system.en、system.jaを入力する(ステップS1)と、対訳文書は学習エンジン部2の語彙知識学習部21に渡される。
【0039】
語彙知識学習部21では、翻訳パターン、および、原言語文と目的言語文を構成する全形態素とその出現回数を対訳文書から自動抽出し、その結果を形態素頻度辞書・翻訳パターン辞書23として記憶装置に格納する(ステップS2)。
【0040】
また、本具体例における形態素解析処理は、形態素辞書・文法規則4を用いる。この理由は、学習エンジン部2と翻訳エンジン部3の形態素単位のずれによる翻訳品質低下を防止するためである。
【0041】
図14は、本具体例における語彙知識学習処理後の形態素頻度辞書23の例を示す図である。
図15は、翻訳パターン辞書23の例を示す図である。
【0042】
両図に示すように、フィールドセパレータをタブとして、第1フィールドには形態素(図14)または翻訳パターン(図15)が格納され、第2フィールドにはその出現回数が格納されている。尚、図15において、*NPは名詞句、*VPは動詞句を意味している。
【0043】
次に、文書環境学習部22では、この形態素頻度辞書・翻訳パターン辞書23と対訳文書別形態素頻度辞書・翻訳パターン辞書5から、翻訳パターン学習辞書6の作成、および、形態素辞書・文法規則4への情報追加を行う(ステップS3)。
【0044】
図3は、文書環境学習部22の動作を説明するフローチャートである。
先ず、語彙知識学習部21で作成された形態素頻度辞書・翻訳パターン辞書23と類似する辞書を既存の対訳文書別形態素頻度辞書・翻訳パターン辞書5から選択する処理である最適辞書選択処理(ステップS31)を行う。
【0045】
図4は、最適辞書選択処理の動作を説明するフローチャートである。
先ず、形態素頻度辞書23(英語、日本語どちらの形態素頻度辞書でもよい。またその両方を用いても良い。本具体例では英語形態素頻度辞書を用いる)から高頻度に出現する形態素上位n語を抽出し、ワークテーブルWT1に格納する(ステップS41)(nは1以上の自然数である。本具体例ではn=50とする)。
【0046】
次に、全ての対訳文書別形態素頻度辞書5に対して処理が終了していなければ(ステップS42)、その中の形態素頻度辞書のうちの一つをワークテーブルWT2に格納し(ステップS43)、ステップS41の処理と同様に、高頻度に出現する形態素上位n語を抽出し、ワークテーブルWT3に格納する(ステップS44)。
【0047】
次に、WT1とWT3に格納されている形態素で共通の形態素の数xを求め(ステップS45)、xをnで割った値が閾値yより大きければ、その辞書を最適辞書と認定し、ワークテーブルWT0にその辞書名を格納する(ステップS46)。尚、yは0以上1以下の数である。本具体例ではy=0.8とする。
【0048】
ステップS42において、全ての対訳文書別形態素頻度辞書5について、上記処理(ステップS43〜ステップS46)を繰り返したと判定した場合は、本処理を終了し、学習辞書構築処理に進む(ステップS32)。
【0049】
図16は、最適辞書選択処理後の本具体例におけるWT0の例を示す図である。
本具体例では、“os.dic、unix.dic、users_guide.dic”という名前の辞書が、対訳文書system.en,system.jaから作成された辞書と類似することを示している。
【0050】
次に学習辞書構築処理に進む(ステップS32)。
図5および図6は、学習辞書構築処理の動作を説明するフローチャートである。
先ず、ワークテーブルWT1〜6を初期化し(ステップS501)、英語形態素頻度辞書23をWT1に、日本語形態素頻度辞書23をWT2に、翻訳パターン辞書23をWT3に格納する(ステップS502)。但し、ワークテーブルWT1〜WT3に格納する場合、形態素頻度辞書23及び翻訳パターン辞書23の出現回数の値に重み係数αをかけた値を重み回数として格納する。ここで、重み係数αは、既存辞書(対訳文書別形態素頻度辞書・翻訳パターン辞書5)を1とした場合、今回入力した文書による辞書(形態素頻度辞書・翻訳パターン辞書23)をどれだけ優先するかの優位度を示す数値であり、通常1以上の値が与えられる(本具体例ではα=2とする)。
【0051】
次に、WT0に格納されている全ての辞書について処理が終了していなければ(ステップS503)、辞書名、例えば、os.dicをWT0から取り出し、その辞書名に対応する英語形態素頻度辞書5をWT4に、日本語形態素頻度辞書5をWT5に、翻訳パターン辞書5をWT6に格納する(ステップS504)。
【0052】
次に、WT4に格納されている英語形態素頻度辞書5の全ての形態素について処理が終了していなければ(ステップS505)、未処理の形態素とその出現回数の組を一つ取り出す(ステップS506)。取り出した形態素がWT1に登録されていれば(ステップS507)、WT1の英語形態素頻度辞書23の形態素の重み回数値と、取り出した各形態素の出現回数を比較し、取り出した形態素の方が大きければWT1の英語形態素頻度辞書23の重み回数値を、取り出した形態素の出現回数に変更し、取り出した形態素の方が小さければ何もしない(ステップS508)。
【0053】
一方、ステップS507において登録されていなければ、取り出した形態素とその出現回数をWTlの英語形態素頻度辞書23に新たに登録する(ステップS509
【0054】
全ての形態素に対してステップS506〜ステップS509の処理を繰り返し行った後(ステップS505)、日本語形態素頻度辞書23、5が格納されているWT2とWT5(ステップS510〜ステップS514)、そして、翻訳パターン辞書23、5が格納されたWT3とWT6(ステップS601〜ステップS605)についても同様の処理を行う。
【0055】
ステップS601において、WT6の全ての翻訳パターンに対して処理が終了すれば、ステップS503に戻り、WT0に格納されている残りの辞書名に対して同様の処理を繰り返し行った後(ステップS504〜S514およびステップS601〜S605)、次の処理に進む。
【0056】
次に、WT1に登録されている全ての形態素とその出現回数等を英語形態素辞書4として更新登録し(ステップS606)、WT2に登録されている全ての形態素とその出現回数等を日本語形態素辞書4として更新登録する(ステップS607)。
【0057】
即ち、形態素辞書既に形態素が存在すれば、該形態素に対応させてWT1またはWT2の出現回数を登録する。形態素が存在しない場合は、形態素辞書4にWT1またはWT2の新たな形態素及び対応する出現回数を登録する。
【0058】
一方、WT1またはWT2に存在せず、形態素辞書に存在する形態素の出現回数値には、デフォルト値dを与える(本具体例ではd=1とする)。
【0059】
図17は、本具体例での学習辞書構築処理前後の英語形態素頻度辞書23の例を示す図である。
処理前は、出現回数(“,”をフィールドセパレータとする第3フィールド)には“−”が登録されているが、処理後では、1以上の数値が登録されているのがわかる。
【0060】
次に、WT3に登録されている全ての翻訳パターンとその出現回数等を翻訳パターン学習辞書6に登録する(ステップS608)。
【0061】
図18は、本具体例での学習辞書構築処理後の翻訳パターン学習辞書の例を示す図である。
図示のように、“翻訳パターン,出現回数”のフォーマットで翻訳パターン学習辞書が作成されているのがわかる。
【0062】
次に、文法知識抽出処理に進む(ステップS33)。
図7は、文法知識抽出処理の動作を説明するフローチャートである。
先ず、ワークテーブルWT1〜5を初期化し(ステップS71)、対訳文書入力部11によって入力された日本語文書、英語文書を各言語の形態素辞書・文法規則4を用いて形態素解析(ステップS72)、および構文解析を行う(ステップS73)。
【0063】
次に、この形態素解析結果および構文解析結果から日本語文末表現、受身傾向、疑問傾向、句読点表現、接続詞訳(例:if、and、ofの訳)に関する知識を抽出する(ステップS74)。ここでの処理は、以下のようになる。
【0064】
例えば、日本語文末表現の知識抽出処理では、日本語文末表現候補として、予め「肯定ダ形:だ,です,である,であります」、「肯定スル形:する,します」、「否定ダ形:ではない,ではありません」、「否定スル形:しない,しません」、「命令肯定形:しなさい,して下さい,しましょう」、「命令否定形:しない,してはいけない,しないで下さい,してはいけません」を持っている。
【0065】
日本語形態素解析結果から用言性接尾辞を全て抽出し、上記の候補から、出現回数の最も多い文末表現(用言性接尾辞)をWT1に格納する。一方、受身傾向、疑問傾向は、日本語構文解析結果から文全体に対する受身形および疑問文の割合を計算し、閾値以上の値であれば、その傾向が強いと判断し、WT1にその結果を格納する。句読点表現は、対訳文書中に、“.,”または、“。、”のいずれが用いられているかを日本語形態素結果から判断し、WT1にその結果を格納する。
【0066】
接続詞訳は、英語形態素解析において対象となる接続詞(例えば“if”)が存在する英文とその対訳日本語文の形態素解析結果を抽出し、“if”に対応する日本語訳を抽出し、WT1に格納する。例えば、“if”を含む英語文に対応する日本語文に「もし〜ならば」が含まれていれば、「もし〜ならば」を格納し、「〜と」が含まれていれば、「〜と」を格納する。また、複数存在する場合は、その全てを格納する。
【0067】
図19は、本具体例における文法知識抽出処理後のWT1の例を示す図である。
ここではフィールドセパレータをタブとして、第1フィールドには属性が、第2フィールドにはその属性値(抽出結果)が示されている。例えば、日本語文末表現の肯定スル形(koute_da)には、「します」が格納されているのがわかる。尚、“passive_tendency high”とは、受身傾向が強いことを表し、“interrogative low”とは、疑問傾向が低いといったことを示している。
【0068】
文法情報抽出処理を終了した後、WT1の値を文法規則4に追加する(ステップS75)。文法規則4では、WT1の値に応じて、以降の翻訳処理(ステップS4)で適用される文法規則が変更されるようになっている。
【0069】
次に、語彙知識学習部21で自動作成された形態素頻度辞書・翻訳パターン辞書23を対訳文書ファイル名の識別子“.en”,“.ja”を除いたものに“.dic”を付与したものを辞書名として、対訳文書別形態素頻度辞書・翻訳パターン辞書5として記憶装置に格納する(ステップS34)。本具体例の場合は、入力対訳文書のファイル名は、system.en,system.jaであるので、格納される辞書の名前はsystem.dicとなる。ここで文書環境学習処理(ステップS3)が終了する。
【0070】
次に、翻訳処理に入る。
図8は、翻訳処理の動作を説明するフローチャートを示す。
先ず、翻訳対象の英文“This command pushes modules on and/of pops modules off the stream.”を原言語文入力部12により入力する(ステップS81)。
【0071】
翻訳エンジン部3は、入力文書を一文単位に区切り(ステップS82)、一文毎に、形態素解析処理(ステップS84)、構文・翻訳パターン解析処理(ステップS85)、形態素生成処理(ステップS86)を行い、翻訳結果を目的言語文出力部13により出力する(ステップS87)。そして、全ての原言語文に対して処理したら(ステップS83)、翻訳処理を終了する。
【0072】
即ち、原言語文形態素解析処理(ステップS84)および目的言語文形態素生成処理(ステップS86)では、学習エンジン部2により抽出された形態素の出現回数の値(形態素辞書・文法規則4に格納されている値)を参照し、一方、構文・翻訳パターン解析処理(ステップS85)では、学習エンジン部2により抽出された翻訳パターンおよび出現回数の値(翻訳パターン学習辞書6の値)を参照して、対訳文書の表現が反映された翻訳結果を得る。
【0073】
図20は、本具体例における原文入力画面例と翻訳結果出力画面例を示す図である。
図において、原文入力画面例を(a)に、翻訳結果出力画面例を(c)に示す。また、(b)にこの入力文における学習なしの翻訳結果出力画面例を示す。学習効果が(b)、(c)の例から読み取れる。
【0074】
〈効果〉
以上のように、具体例1によれば以下の効果を有する。
●学習知識は、図18、図17に示すように、翻訳パターン、形態素出現回数等というユーザにとって分かりやすい形式であるため、ユーザは翻訳知識の管理がし易く、かつ、翻訳結果の予測もし易い。
●例えば、ある学習用文書からはsystem.dicが得られるといったように、複数の学習用文書が存在した場合は、各学習用文書に応じて学習知識を分類して管理することができ、再利用も可能である。
●翻訳エンジン部3で用いられる形態素辞書・文法規則4は、学習エンジン部2で用いられる形態素辞書・文法規則4に学習エンジン部2で獲得された知識を追加したものである、従って、各エンジンの核となる言語知識は共通であるため、副作用が起こりにくい。
●学習エンジン部2で獲得した翻訳知識は、翻訳処理で用いる形態素辞書・文法規則4に追加するが、書き換えてしまうのではないため、元の辞書の状態に簡単に復元することができる。
●学習エンジン部2は、対訳文書から原言語と目的言語の単語間の対応といった辞書的な知識を獲得するだけでなく、その対訳文書全体を参照することによって得られる知識(例えば、出現頻度等)も獲得し、その結果を翻訳処理に利用する。
【0075】
《具体例2》
〈構成〉
図9は、本発明の機械翻訳装置の具体例2のブロック図である。
【0076】
具体例2の装置は、大きく分けて、入出力部100、学習エンジン部200、環境適応辞書構築部300、翻訳エンジン部400と、形態素辞書・文法規則500と、対訳文書別形態素頻度辞書・翻訳パターン辞書600と、対訳文書別文書環境設定ファイル700、翻訳パターン学習辞書800からなる。
【0077】
入出力部100は、対訳文書入力部101、原言語文入力部102、目的言語文出力部103と辞書/環境設定ファイル編集部104から構成されている。ここで、対訳文書入力部101、原言語文入力部102および目的言語文出力部103は、具体例1における入出力部11〜目的言語文出力部13と同様である。
【0078】
また、辞書/環境設定ファイル編集部104は、対訳文書別形態素頻度辞書・翻訳パターン辞書600、対訳文書別文書環境設定ファイル700および翻訳パターン学習辞書800の編集を行うための機能部であり、具体的には、ディスプレイやキーボード等の入出力装置から構成されている。
【0079】
学習エンジン部200は、語彙知識学習部201、文書環境学習部202から構成される。語彙知識学習部201は、対訳文書入力部101から入力された対訳文書に対して、形態素辞書・文法規則500を参照して、形態素とその出現回数およびその翻訳パターンとその出現回数を抽出し、この抽出結果を対訳文書別形態素頻度辞書・翻訳パターン辞書600に格納する機能を有している。また、文書環境学習部202は、対訳文書別形態素頻度辞書・翻訳パターン辞書600の中から、語彙知識学習部201で抽出した知識に基づいて最適辞書を選出し、この最適辞書と抽出した知識とをマージし、その結果得られた形態素頻度知識と、形態素辞書・文法規則500における文法規則に基づいて対訳文書から抽出した文法知識とを対訳文書別文書環境設定ファイル700として出力する機能を有している。
【0080】
環境適応辞書構築部300は、対訳文書別形態素頻度辞書・翻訳パターン辞書600と、対訳文書別環境設定ファイル700を参照して、翻訳パターン学習辞書800を作成すると共に、形態素頻度知識と文法知識とを作成し、これら知識を形態素辞書・文法規則500へ追加する機能を有している。
【0081】
翻訳エンジン部400は、形態素辞書・文法規則500と翻訳パターン学習辞書800を参照して翻訳処理を行う機能部である。
【0082】
辞書/環境設定ファイル編集部104は、ユーザが対訳文書別形態素頻度辞書・翻訳パターン辞書600、対訳文書別文書環境設定ファイル700および翻訳パターン学習辞書800を参照したり、編集(追加、削除、修正)したりする機能を提供するもので、具体的にはディスプレイやキーボードといった入出力装置から構成されている。
【0083】
〈動作〉
本具体例と具体例1との大きな相違点は三点ある。第一は学習エンジン部200の文書環境学習部202が、文書環境設定ファイル700を出力すること、第二は、新たに環境適応辞書構築部300が存在し、形態素頻度辞書・翻訳パターン辞書600と文書環境設定ファイル700を元に、形態素辞書・文法規則500および翻訳パターン学習辞書800を構築すること、第三は、学習により獲得された各辞書600、800並びに対訳文書別文書環境設定ファイル700を、辞書/環境設定ファイル編集部104によって参照、編集できることである。
【0084】
図10は具体例2の動作を説明するフローチャートである。
具体例2も具体例1と同様の例を用いて説明する。
先ず、ユーザが対訳文書入力部101により対訳文書system.en、system.jaを入力する(ステップS1001)と、対訳文書は学習エンジン部200の語彙知識学習部201に渡され、語彙知識学習処理を行う(ステップS1002)。
【0085】
語彙知識学習処理は具体例1に準じるが、その学習結果は、具体例1のように形態素頻度辞書・翻訳パターン辞書として学習エンジン部2内に保持するのではなく、対訳文書別形態素頻度辞書・翻訳パターン辞書600に格納する。尚、格納方法は、具体例1の文書環境学習処理(ステップS3)の辞書格納処理(ステップS34)に準じる。
【0086】
次に文書環境学習処理を行う(ステップS1003)。
図11は、具体例2における文書環境学習部202の動作を説明するフローチャートである。
【0087】
先ず、最適辞書選択処理(ステップS1101)、文法知識抽出処理(ステップS1102)を行う。これらの処理も具体例1に準じる。その結果、最適辞書選択処理の結果がWT0に、文法知識抽出処理の結果がWT1に格納されていることになる。
【0088】
WT0の結果は一つの値にまとめられ、WT1の結果と共に対訳文書別文書環境設定ファイル700に格納される(ステップS1103)。尚、文書環境設定ファイル名は、学習対象の対訳文書のファイル名の識別子を取り除き、“.env”を付与したものとする。
【0089】
図21に本具体例による文書環境設定ファイルの例を示す。
図示のように、具体例2では、具体例1の図19に示した状態に最適辞書の項目use_dicと、その値“os.dic、unix.dic、users_guide.dic”が追加されている。
【0090】
次に、環境適応辞書構築処理を行う(ステップS1004)。
図12は、具体例2における環境適応辞書構築部300の動作を説明するフローチャートである。
【0091】
先ず、ワークテーブルWT0の初期化を行った後(ステップS1201)、環境設定ファイル700に設定されている対訳文書別形態素頻度辞書・翻訳パターン辞書ファイル名(ここではsystem.envの属性use_dicの値)を具体例1のWT0と同様の形式に従ってWT0に格納し(ステップS1202)、次に、学習辞書構築処理(ステップS1203)、文法知識設定処理(ステップS1204)を行う。学習辞書構築処理、文法知識設定処理は、いずれも具体例1に準じる。
【0092】
ユーザは、この時点において、対訳文書別環境設定ファイル700の参照・編集(ステップS1005、ステップS1006)、および、対訳文書別形態素頻度辞書・翻訳パターン辞書600、翻訳パターン学習辞書800の参照・編集(ステップS1007、ステップS1008)を、辞書/環境設定ファイル編集部104によって行うことができる。
【0093】
編集処理の終了後、具体例1と同様に翻訳処理を行い、目的言語文出力部103で翻訳結果を出力する(ステップS1009)。
【0094】
〈効果〉
具体例2では具体例1に加えて更に以下の効果を有する。
●学習エンジン部200と翻訳エンジン部400が明確に分離され、かつ、学習エンジン部200で獲得される翻訳知識を対訳文書別文書環境設定ファイル700としてユーザに開示する方法を提供することにより、ユーザは、その結果をみて、翻訳結果を予測することができる。
【0095】
●ユーザは、上記の予測に基づき、対訳文書別文書環境設定ファイル700、対訳文書別形態素頻度辞書・翻訳パターン辞書600および翻訳パターン学習辞書800を、辞書/環境設定ファイル編集部104を用いて、自分の好みに応じて変更することができる。つまり、学習によって獲得した翻訳知識を加工して、更に質の高い翻訳環境を構築することができる。
【0096】
●具体例1では、文書環境を学習するために、対訳文書を入力した後、翻訳処理を実行する必要があったが、具体例2では、環境設定ファイルも辞書と同様に格納しておけるので、一度、環境設定ファイルを作成しておけば、再翻訳の際、対訳文書の入力は不要になる。
【0097】
《利用形態》
上述した具体例1、2は、以下のように変形(あるいは応用)することができる。
●学習エンジン部2,200や具体例2における環境適応辞書構築部300は、翻訳エンジン部3,400とは切り放して機能することも可能である。また、学習エンジン部2,200だけ、または、学習エンジン部2,200と環境適応辞書構築部300とをセットにして、翻訳知識学習装置とすることができる。
【0098】
●文書環境学習部22,202が抽出する文法知識として、日本語文末情報等を挙げたが、if以外の接続詞の訳や、体言止め傾向など、その他の情報も抽出し、翻訳処理に利用することもできる。
【0099】
●具体例1で説明した各種パラメータ(例えば、重み係数αや最適辞書選択処理での閾値y)は、ユーザによるパラメータ設定機能を設けることにより、ユーザの好みに応じた設定ができる。
【0100】
●対訳文書ではなく、単言語文書が入力された場合、翻訳パターン辞書の構築はできないが、形態素頻度辞書や文書環境情報の一部は学習可能である。範囲を限定すれば、単言語文書の入力においても本装置の一部は機能する。
【0101】
●英日翻訳を例に挙げて説明したが、日英翻訳でも、英語、日本語以外の二言語間でも、本装置は応用可能である。
【0102】
●具体例2では、翻訳対象となる原言語文書の翻訳環境設定ファイルが、対訳文書別文書環境設定ファイル700に存在している場合、環境適応辞書構築処理から処理を開始することができる。その場合、ユーザは、対訳文書を入力するのではなく、環境設定ファイル名を入力する。これにより、そのファイル名が環境適応辞書構築部300に渡され、環境適応辞書構築処理が開始される。
【0103】
●ユーザによる辞書や環境設定ファイルの編集は具体例2のフローチャートに示した動作に限定されるものではなく、いつでも編集することが可能である。
【0104】
●具体例2では、語彙知識学習処理と文書環境学習処理を直列的に処理したが並列的に処理することも可能である。
【図面の簡単な説明】
【図1】本発明の機械翻訳装置の具体例1の構成図である。
【図2】本発明の機械翻訳装置の具体例1の全体の動作を示すフローチャートである。
【図3】本発明の機械翻訳装置の具体例1における文書環境学習処理の動作を示すフローチャートである。
【図4】本発明の機械翻訳装置の具体例1における最適辞書選択処理の動作を示すフローチャートである。
【図5】本発明の機械翻訳装置の具体例1における学習辞書構築処理の動作を示すフローチャート(その1)である。
【図6】本発明の機械翻訳装置の具体例1における学習辞書構築処理の動作を示すフローチャート(その2)である。
【図7】本発明の機械翻訳装置の具体例1における文法知識抽出処理の動作を示すフローチャートである。
【図8】本発明の機械翻訳装置の具体例1における翻訳処理の動作を示すフローチャートである。
【図9】本発明の機械翻訳装置の具体例2の構成図である。
【図10】本発明の機械翻訳装置の具体例2の動作を示すフローチャートである。
【図11】本発明の機械翻訳装置の具体例2における文書環境学習処理を示すフローチャートである。
【図12】本発明の機械翻訳装置の具体例2における環境適応辞書構築処理を示すフローチャートである。
【図13】本発明の機械翻訳装置における対訳文書の例を示す説明図である。
【図14】本発明の機械翻訳装置の具体例1における語彙知識学習処理後の形態素頻度辞書の説明図である。
【図15】本発明の機械翻訳装置の具体例1における語彙知識学習処理後の翻訳パターン辞書の説明図である。
【図16】本発明の機械翻訳装置の具体例1における最適辞書選択後のワークテーブルWT0の説明図である。
【図17】本発明の機械翻訳装置の具体例1における学習辞書構築処理後の英語形態素辞書の説明図である。
【図18】本発明の機械翻訳装置の具体例1における学習辞書構築処理後の翻訳パターン学習辞書の説明図である。
【図19】本発明の機械翻訳装置の具体例1における文法知識抽出後のワークテーブルWT1の説明図である。
【図20】本発明の機械翻訳装置の具体例1における翻訳処理結果の説明図である。
【図21】本発明の機械翻訳装置の具体例2における環境設定ファイルの説明図である。
【符号の説明】
2,200 学習エンジン部
3,400 翻訳エンジン部
4,500 形態素辞書・文法規則
5,600 対訳文書別形態素頻度辞書・翻訳パターン辞書
6,800 翻訳パターン学習辞書
11,101 対訳文書入力部
15,600 対訳文書別形態素頻度辞書・翻訳パターン辞書
21,201 語彙知識学習部
22,202 文書環境学習部
23 形態素頻度辞書・翻訳パターン辞書
104 辞書/環境設定ファイル編集部
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a translation knowledge learning method and apparatus having a function of learning translation knowledge such as a translation pattern and document information from an existing bilingual document, and an example-driven machine translation method and apparatus for performing translation processing using this translation knowledge It is about.
[0002]
[Prior art]
Conventionally, as a method for learning translation knowledge such as a translation pattern and document information using an existing parallel translation document, for example, there is the following method.
[0003]
Literature 1: “Japanese Dictionary / Rule Learning Method for Machine Translation System and Dictionary / Rule Learning Device for Machine Translation System”
Reference 2: “Japanese Laid-Open Patent Publication No. 7-85056 Dictionary Creation Support Method”
[0004]
The above two conventional techniques are machine translation methods or apparatuses that extract translation knowledge from a bilingual document and translate based on the translation knowledge. Translation patterns and grammatical rules correspond to the translation knowledge here. The machine translation apparatus as described above is generally called an example-driven machine translation apparatus. The advantage of this type is that the target language expression in the bilingual document given in advance is reflected in the translation result of the machine translation device.
[0005]
The technique of Document 1 reads a bilingual document to be learned in advance, and compares the translation result with the bilingual sentence (ideal translation) each time the source language input sentence to be translated is translated. The dictionary and grammatical rules are changed using the ideal translation with the smallest difference in the ideal translation. This is not a learning process at the time of reading a bilingual document, but it is typical of the type in which an optimal example is selected from a bilingual sentence each time an original sentence to be translated is input, and a dictionary and grammar rules are learned from that example. It is an example.
[0006]
The advantage of this method is that, since no special processing is applied to the example, it is used for translation processing in units of one sentence, so that information of one sentence is used for translation processing. Also, because the dictionary and grammar rules are added and modified when the original text to be translated is input, it is not necessary to create useless dictionaries and grammar rules, and there are side effects between dictionaries and grammar rules. Hateful.
[0007]
On the other hand, the technique of Document 2 is a typical example of a dictionary learning device that automatically creates a conversion dictionary between a source language and a target language called a translation pattern from a parallel translation document in advance. Such an apparatus extracts a candidate for dictionary to be registered in a user dictionary or the like by extracting a translation pattern from a bilingual document, and at the same time, edits the data of the registration candidate, original document information and translated document Extract information. Then, by translating using this extraction result, the expression in the bilingual document is reflected in the translation result.
[0008]
The advantage of this method is that the example learning unit and the translation processing unit exist separately, and the example is a translation pattern format that is easy for the user to understand, so the user can easily manage (add to) the dictionary created by the learning unit. , Delete, change). Further, the dictionary can be managed for each bilingual document to be learned.
[0009]
[Problems to be solved by the invention]
However, the above two conventional techniques have the following problems.
The technique of Document 1 takes time to translate because a search process for an optimal example, addition of a dictionary, and grammar rules are added and changed each time a sentence is input. Furthermore, since the dictionary and grammar rules are rewritten every time a sentence is input, even if an adverse effect due to the learning effect is found, the dictionary and grammar rules cannot be restored. Furthermore, since the user cannot predict the translation result, it is difficult to improve the translation by adding and correcting the dictionary by the user (in a practical machine translation device, automatic learning by the machine translation device and cooperation of user support are indispensable) Absent).
[0010]
Also, if different types of documents (for example, letters, manuals, etc.) are mixed in the bilingual document, rules and dictionaries with completely different representation formats and dictionaries are mixed in the dictionary and grammar, resulting in poor visibility of the dictionary and rules. Side effects are likely to occur, causing a reduction in translation quality. Furthermore, even though the entire document is stored as an example, only one sentence of information is used during translation.
[0011]
On the other hand, in the technique of Document 2, a translation pattern dictionary is created from a bilingual document regardless of whether or not it is used for translation processing and regardless of the dictionary that the machine translation apparatus has. For this reason, the user must always select an appropriate dictionary for the input document to be translated before performing translation. Even if all the dictionaries are used for translation, it causes a side effect between dictionaries, resulting in a decrease in translation quality.
[0012]
In addition, when automatically creating a dictionary, it refers to which translation a word in a source language corresponds to, and what is the condition when it is translated into that word, even though the entire bilingual document is referenced. Even if the local knowledge is extracted, for example, the knowledge about the entire bilingual document such as how many times the word appears in the bilingual document and what kind of bilingual document is not extracted.
[0013]
In view of the above, it has been desired to realize a translation knowledge learning method and apparatus, and a machine translation method and apparatus that allow a user to easily manage translation knowledge and improve translation quality.
[0014]
[Means for Solving the Problems]
  The present invention employs the following configuration in order to solve the above-described problems..
[0015]
<Constitution1>
  A bilingual document input unit for inputting a bilingual document composed of a source language and a target language in a natural language; and a bilingual document input in the bilingual document input unit, the morpheme of each of the source language and the target language and the number of appearances of the morpheme Based on the lexical knowledge learning unit to be extracted and the grammatical rules and grammatical rules provided in advance for use in translation processing, from the document input in the bilingual document input unitGenerate new grammar rulesAnd the morpheme frequency based on the morpheme extracted by the vocabulary knowledge learning unit and the number of appearances of the morphemedictionaryFind these morpheme frequenciesdictionaryWhenNew grammar rulesA translation knowledge learning apparatus comprising: a document environment learning unit that adds the above to the morpheme dictionary / grammar rule.
[0016]
<Constitution2>
  A bilingual document input unit for inputting a bilingual document composed of a source language and a target language in a natural language; a bilingual document input by the bilingual document input unit; Vocabulary knowledge learning unit that extracts the translation pattern and the number of appearances of the translation pattern, and input from the bilingual document input unit based on the grammar rule in a morpheme dictionary / grammar rule provided in advance for use in translation processing From documentGenerate new grammar rulesAnd the morpheme frequency based on the morpheme extracted by the vocabulary knowledge learning unit, the number of appearances of the morpheme, the translation pattern, and the number of appearances of the translation patterndictionaryAnd translation patternsdictionaryFind these morpheme frequenciesdictionaryWhenNew grammar rulesTo the morpheme dictionary / grammar rules, and the translation patterndictionaryA document environment learning unit for registering an image in a translation pattern learning dictionary, and the morpheme frequency from the document environment learning unitdictionaryWhenNew grammar rulesA machine translation apparatus comprising: a translation engine unit that translates a source language document into a target language document by using the morpheme dictionary / grammar rule to which is added and the translation pattern learning dictionary.
[0017]
<Configuration 3>
  A bilingual document input unit for inputting a bilingual document consisting of a source language document and a target language document in natural language, a translation morpheme dictionary including a large number of morphemes constituting a sentence, and a storage unit storing grammar rules; A translation knowledge learning apparatus comprising a translation pattern dictionary including a translation pattern in which a source language and a target language phrase are associated with each other, wherein the input source language document and the target language document are based on the grammar rules. Each morpheme is analyzed to generate a source language morpheme frequency dictionary and a target language morpheme frequency dictionary in which each morpheme is associated with the number of appearances indicating the number of occurrences of the morpheme in the document. A vocabulary knowledge learning unit that generates a translation pattern dictionary in which the number of appearances indicating the number of appearances of the translation pattern is associated with a translation pattern in which a word of the document is associated, and for each bilingual document A source language morpheme frequency dictionary, another storage unit for storing the target language morpheme frequency dictionary and the translation pattern dictionary, the generated source language morpheme frequency dictionary, and the generated target language morpheme frequency dictionary One or more morpheme frequency dictionaries of other bilingual documents in which the number of morphemes in common among the other storage units is at least a predetermined number or more are determined for each morpheme in each of the generated morpheme frequency dictionaries. Each of the generated morphemes is given a weight number value obtained by adding a weighting coefficient to the number of appearances, and a weight number value obtained by adding a weighting coefficient to each appearance number in the generated translation pattern dictionary. If the weight count value of the morpheme in the frequency dictionary is smaller than the appearance count of the same morpheme in each morpheme frequency dictionary of the other bilingual document, the weight count value is changed to the appearance count Then, the morpheme dictionary for translation is updated with each morpheme in each of the generated morpheme frequency dictionaries and the number of appearances and the number of weights, and the number of times of the weight of the translation pattern in the generated translation pattern dictionary is the other bilingual translation. If it is smaller than the number of appearances of the same translation pattern in the translation pattern dictionary of the document, the weight number value is changed to the number of appearances, and then each translation pattern in the generated translation pattern dictionary and the number of appearances and the weight number value are used. A translation knowledge learning apparatus comprising: a document environment learning unit for updating the translation pattern dictionary.
[0018]
<Configuration 4>
  A bilingual document input unit for inputting a bilingual document consisting of a source language document and a target language document in natural language, a translation morpheme dictionary including a large number of morphemes constituting a sentence, and a storage unit storing grammar rules; A machine translation apparatus comprising a translation pattern dictionary including a translation pattern in which a source language and a target language word are associated with each other, and the input source language document and the target language document are based on the grammar rules. Analyzing each morpheme to classify it, generating a morpheme frequency dictionary in the source language and a morpheme frequency dictionary in the target language in which the number of appearances indicating the number of appearances of the morpheme in the document is generated, and the both documents A vocabulary knowledge learning unit that generates a translation pattern dictionary in which the number of appearances indicating the number of appearances of the translation pattern is associated with the translation pattern corresponding to A morpheme frequency dictionary of the language, another storage unit for storing the morpheme frequency dictionary of the target language and the translation pattern dictionary, at least the generated morpheme frequency dictionary of the source language and the generated morpheme frequency dictionary of the target language On the other hand, one or more morpheme frequency dictionaries of other parallel translation documents having a common number of morphemes from the other storage unit are determined, and the number of appearances of each morpheme in each of the generated morpheme frequency dictionaries Each of the generated morpheme frequency dictionaries is assigned a weight number value obtained by adding a weighting coefficient to each translation pattern in the generated translation pattern dictionary The weight count value is changed to the appearance count when the weight count value of the morpheme is smaller than the appearance count of the same morpheme in each morpheme frequency dictionary of the other bilingual document The morpheme dictionary for translation is updated with each morpheme in each of the generated morpheme frequency dictionaries and the number of appearances and the number of weights, and the weight number value of the translation pattern in the generated translation pattern dictionary is the value of the other bilingual document. If the number of appearances of the same translation pattern in the translation pattern dictionary is smaller than the number of appearances, the weight number value is changed to the number of appearances, and the translation is performed according to each translation pattern, the number of appearances and the weight number value in the generated translation pattern dictionary. A document environment learning unit for updating a pattern dictionary, and when a document to be translated in a source language is input, the translation pattern dictionary, the translation morpheme dictionary, and the document to be translated based on the grammar rules A machine translation apparatus comprising: a translation engine unit for translating into a language document.
[0019]
<Constitution5>
  A bilingual document input unit for inputting a bilingual document composed of a source language and a target language in a natural language, and a morpheme dictionary indicating morpheme analysis information and grammar rules provided in advance for use in translation processing from the source language to the target language・ Grammar rulesPartA morpheme frequency dictionary / translation pattern dictionary for each bilingual document indicating the number of appearances and translation patterns of each morpheme for each bilingual document, and a morpheme, its number of appearances and its translation from the bilingual document using the morpheme dictionary / grammar rule Extract patterns and their number of appearances, and extract theseinformationThe lexical knowledge learning unit for outputting to the bilingual document-specific morpheme frequency dictionary / translation pattern dictionary as dictionary information and the bilingual document-specific morpheme frequency dictionary / translation pattern dictionaryinformationThe optimal dictionary is selected based on theinformationAnd the resulting morpheme frequencydictionaryAnd a grammar extracted from the bilingual document based on the grammatical rules in the morpheme dictionary / grammatical rulesRulesBased on the document environment learning unit that outputs the document environment setting file for each bilingual document, the morpheme frequency dictionary / translation pattern dictionary for each bilingual document, and the document environment setting file for each bilingual documentdictionaryAnd grammarRulesAnd createShapeA translation knowledge learning apparatus comprising: an environment adaptive dictionary construction unit that outputs information as additional information to an elementary dictionary and grammatical rules.
[0020]
<Constitution6>
  Claim5The translation knowledge learning device according to claim 1, further comprising a dictionary / environment setting file editing unit for editing the bilingual document-specific morpheme frequency dictionary / translation pattern dictionary and the bilingual document-specific document environment setting file. .
[0021]
<Constitution7>
  A bilingual document input unit for inputting a bilingual document composed of a source language and a target language in a natural language, and a morpheme dictionary indicating morpheme analysis information and grammar rules provided in advance for use in translation processing from the source language to the target language・ Grammar rulesPartA morpheme frequency dictionary / translation pattern dictionary for each bilingual document indicating the number of appearances and translation patterns of each morpheme for each bilingual document, and the morpheme, its number of appearances, and its translation from the bilingual document Extract patterns and their number of appearances, and extract theseinformationThe lexical knowledge learning unit for outputting to the bilingual document-specific morpheme frequency dictionary / translation pattern dictionary as dictionary information and the bilingual document-specific morpheme frequency dictionary / translation pattern dictionaryinformationThe optimal dictionary is selected based on theinformationAnd the resulting morpheme frequencydictionaryAnd a grammar extracted from the bilingual document based on the grammatical rules in the morpheme dictionary / grammatical rulesRulesBased on the document environment learning unit that outputs the document environment setting file for each bilingual document, the morpheme frequency dictionary / translation pattern dictionary for each bilingual document, and the document environment setting file for each bilingual documentdictionaryAnd grammarRulesAnd createShapeOutput as additional information to the lexicon and grammar rules and translation patternsdictionaryCreate the translation patterndictionaryIs generated as a translation pattern learning dictionary, and the morpheme frequency is generated by the environment adaptive dictionary construction unit.dictionaryAnd grammarRulesAnd a translation engine unit that translates a source language document into a target language document using the translation pattern learning dictionary.
[0022]
<Constitution8>
  Constitution7The machine translation apparatus according to claim 1, further comprising a dictionary / environment setting file editing unit for editing the bilingual document-specific morpheme frequency dictionary / translation pattern dictionary, the bilingual document-specific document environment setting file, and the translation pattern learning dictionary. Machine translation device.
[0023]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
<< Specific Example 1 >>
<Constitution>
FIG. 1 is a flowchart showing a specific example 1 of the machine translation method of the present invention. Prior to this description, the configuration of the machine translation apparatus according to the specific example 1 of the present invention will be described.
[0024]
FIG. 2 is a configuration diagram of the machine translation apparatus according to the first embodiment of the present invention.
The function of the machine translation apparatus of the present invention is realized by a computer, and this apparatus is roughly divided into an input / output unit 1, a learning engine unit 2, a translation engine unit 3, a morpheme dictionary / grammar rule 4, a morpheme frequency for each bilingual document. It comprises a dictionary / translation pattern dictionary 5 and a translation pattern learning dictionary 6.
[0025]
The input / output unit 1 includes a general input / output device such as a keyboard and a display in a computer, an input / output terminal, a network, and the like, and includes a bilingual document input unit 11, a source language sentence input unit 12, and a target language sentence output unit 13. ing.
[0026]
The bilingual document input unit 11 is a functional unit that inputs a bilingual document composed of a source language and a target language in a natural language. The source language sentence input unit 12 is a functional unit for inputting source language sentences in the translation engine unit 3. The target language sentence output unit 13 is a functional unit for outputting the target language sentence translated by the translation engine unit 3.
[0027]
  The learning engine unit 2 is a functional unit that learns translation knowledge, such as a vocabulary knowledge learning unit 21, a document environment learning unit 22, a morpheme frequency dictionary / translation pattern dictionary 23.Storage deviceIt is composed of
[0028]
The vocabulary knowledge learning unit 21 refers to the morpheme dictionary / grammar rule 4 and extracts the morpheme, its number of appearances, its translation pattern, and its number of appearances from the bilingual document input by the bilingual document input unit 11, It has a function of creating a translation pattern dictionary 23.
[0029]
The document environment learning unit 22 creates a translation pattern learning dictionary 6 with reference to the morpheme frequency dictionary / translation pattern dictionary 23 and the bilingual document-specific morpheme frequency dictionary / translation pattern dictionary 5, and creates a morpheme dictionary / grammar rule 4. It has a function to add information. That is, the document environment learning unit 22 selects an optimum dictionary from the bilingual document-specific morpheme frequency dictionary / translation pattern dictionary 5 based on the number of appearances of the morpheme with the morpheme frequency dictionary / translation pattern dictionary 23, and this optimum dictionary. Are merged with the morpheme frequency dictionary / translation pattern dictionary 23, and the morpheme frequency knowledge obtained as a result is newly added to the morpheme dictionary / grammar rule 4 and the bilingual document based on the grammatical rule in the morpheme dictionary / grammar rule 4 It has a function of newly adding the grammatical knowledge extracted from the morpheme dictionary / grammar rule 4.
[0030]
The translation engine unit 3 translates the source language sentence input from the source language sentence input unit 12 with reference to the morpheme dictionary / grammar rule 4 and the translation pattern learning dictionary 6 and outputs it to the target language sentence output unit 13. It has a function.
[0031]
The morpheme dictionary / grammar rule 4 is a database used in common with the learning engine unit 2 and the translation engine unit 3. Translation knowledge obtained by the learning engine unit 2 is added, and the translation engine unit including the added information is added. 3 is for translation.
[0032]
The bilingual document-specific morpheme frequency dictionary / translation pattern dictionary 5 is a database that stores a plurality of morpheme frequency dictionaries / translation pattern dictionaries for each bilingual document to be learned.
[0033]
The translation pattern learning dictionary 6 is a dictionary created by the document environment learning unit 22 and used by the translation engine unit 3 during translation processing.
[0034]
In the above-described configuration, the vocabulary knowledge learning unit 21 and the document environment learning unit 22 in the learning engine unit 2 and the translation engine unit 3 include a program corresponding to this function and a CPU or memory for executing the program. The function is realized. The morpheme frequency dictionary / translation pattern dictionary 23, the morpheme dictionary / grammar rule 4, the bilingual document-specific morpheme frequency dictionary / translation pattern dictionary 5, and the translation pattern learning dictionary 6 are temporarily created on the main memory. A database or a database stored in an auxiliary storage device.
[0035]
<Operation>
Hereinafter, the operation of this example will be described with reference to the flowchart of FIG.
[0036]
The bilingual document in this specific example is a document that already has Japanese and English sentences.
The user can use the English document system. en, Japanese document system. A case where a bilingual document consisting of ja is inputted and an English sentence “This command pushes modules on and / or pops modules of the stream” is translated will be described as an example. In addition, system. en's "system" represents the document name, and system. en's ".en" is an English document, system. “ja” of ja is an identifier indicating a Japanese document.
[0037]
FIG. 13 shows a system. en and system. It is a figure which shows the example of ja.
As shown in the figure, it can be seen that tags indicating correspondence between sentences are written as en = 1, 2,..., S and ja = 1, 2,..., S (s is the number of translated sentences).
[0038]
First, the user inputs a bilingual document system. en, system. When ja is input (step S1), the bilingual document is transferred to the vocabulary knowledge learning unit 21 of the learning engine unit 2.
[0039]
  The vocabulary knowledge learning unit 21 automatically extracts a translation pattern, all morphemes constituting the source language sentence and the target language sentence, and the number of appearances from the bilingual document, and the result is a morpheme frequency dictionary / translation pattern dictionary 23.As storage(Step S2).
[0040]
Further, the morpheme analysis process in this specific example uses a morpheme dictionary / grammar rule 4. The reason for this is to prevent deterioration in translation quality due to a morpheme unit shift between the learning engine unit 2 and the translation engine unit 3.
[0041]
FIG. 14 is a diagram showing an example of the morpheme frequency dictionary 23 after the vocabulary knowledge learning process in this specific example.
FIG. 15 is a diagram illustrating an example of the translation pattern dictionary 23.
[0042]
As shown in both figures, with the field separator as a tab, the first field stores morphemes (FIG. 14) or translation patterns (FIG. 15), and the second field stores the number of appearances. In FIG. 15, * NP means a noun phrase and * VP means a verb phrase.
[0043]
Next, the document environment learning unit 22 creates the translation pattern learning dictionary 6 from the morpheme frequency dictionary / translation pattern dictionary 23 and the bilingual document-specific morpheme frequency dictionary / translation pattern dictionary 5, and moves to the morpheme dictionary / grammar rule 4. Is added (step S3).
[0044]
FIG. 3 is a flowchart for explaining the operation of the document environment learning unit 22.
First, an optimal dictionary selection process, which is a process of selecting a dictionary similar to the morpheme frequency dictionary / translation pattern dictionary 23 created by the vocabulary knowledge learning unit 21 from the existing bilingual document-specific morpheme frequency dictionary / translation pattern dictionary 5 (step S31). )I do.
[0045]
FIG. 4 is a flowchart for explaining the operation of the optimum dictionary selection process.
First, morpheme top n words appearing frequently from the morpheme frequency dictionary 23 (which may be either English or Japanese morpheme frequency dictionary, or both may be used. In this example, the English morpheme frequency dictionary is used). Extracted and stored in the work table WT1 (step S41) (n is a natural number of 1 or more. In this specific example, n = 50).
[0046]
Next, if the processing has not been completed for all the bilingual document-specific morpheme frequency dictionaries 5 (step S42), one of the morpheme frequency dictionaries is stored in the work table WT2 (step S43). Similar to the processing in step S41, the top morpheme n words that appear frequently are extracted and stored in the work table WT3 (step S44).
[0047]
Next, the number x of common morphemes stored in WT1 and WT3 is obtained (step S45). If the value obtained by dividing x by n is larger than the threshold value y, the dictionary is recognized as the optimum dictionary, The dictionary name is stored in the table WT0 (step S46). Here, y is a number from 0 to 1. In this specific example, y = 0.8.
[0048]
If it is determined in step S42 that the above-described processing (steps S43 to S46) has been repeated for all bilingual document-specific morpheme frequency dictionaries 5, the present processing is terminated and the processing proceeds to learning dictionary construction processing (step S32).
[0049]
FIG. 16 is a diagram illustrating an example of WT0 in this specific example after the optimum dictionary selection processing.
In this specific example, a dictionary named “os.dic, unix.dic, users_guide.dic” is stored in the bilingual document system. en, system. It is similar to a dictionary created from ja.
[0050]
  Next, the process proceeds to a learning dictionary construction process (step S32).
  5 and 6 are flowcharts for explaining the operation of the learning dictionary construction process.
  First, the work tables WT1 to 6 are initialized (step S501), the English morpheme frequency dictionary 23 is stored in WT1, the Japanese morpheme frequency dictionary 23 is stored in WT2, and the translation pattern dictionary 23 is stored in WT3 (step S502). However, when storing in the work tables WT1 to WT3, the morpheme frequency dictionary 23And the translation pattern dictionary 23The value of the number of occurrences multiplied by the weighting factor αweightTimesvalueStore as. Here, when the existing dictionary (translation document-specific morpheme frequency dictionary / translation pattern dictionary 5) is set to 1, the weighting factor α gives priority to the dictionary (morpheme frequency dictionary / translation pattern dictionary 23) based on the currently input document. Is a numerical value indicating the degree of superiority, and is usually a value of 1 or more (in this specific example, α = 2).
[0051]
  Next, if the processing has not been completed for all the dictionaries stored in WT0 (step S503), the dictionary nameFor example, os. dic to WRetrieved from T0 and its dictionary nameCorresponding toThe English morpheme frequency dictionary 5 is stored in WT4, the Japanese morpheme frequency dictionary 5 is stored in WT5, and the translation pattern dictionary 5 is stored in WT6 (step S504).
[0052]
  Next, it is stored in WT4English morpheme frequency dictionary 5If processing has not been completed for all morphemes (step S505),RawMorphology and the number of appearancesSet ofIs extracted (step S506). If the extracted morpheme is registered in WT1 (step S507), WT1Morpheme weight count value in the English morpheme frequency dictionary 23And the appearance times of each extracted morphemeNumberIf the extracted morpheme is larger, WT1Weight value of English morpheme frequency dictionary 23The appearance times of the extracted morphemesTo numberIf the changed and extracted morpheme is smaller, nothing is done (step S508).
[0053]
  On the other hand, if it is not registered in step S507, the extracted morpheme and its appearance times are displayed.NumberWTlNew English Morphological Frequency Dictionary 23(Step S509
[0054]
  After repeating the processing of step S506 to step S509 for all morphemes (step S505), the Japanese morpheme frequency dictionary23, 5WT2 and WT5 (steps S510 to S514), and a translation pattern dictionary23, 5The same processing is performed for WT3 and WT6 (steps S601 to S605) in which is stored.
[0055]
  In step S601, if the processing is completed for all the translation patterns of WT6, the process returns to step S503 and is stored in WT0.remainingAfter repeating the same process for the dictionary name (steps S504 to S514 and steps S601 to S605), the process proceeds to the next process.
[0056]
  Next, all the morphemes registered in WT1 and their occurrence timesNumber etc.English morpheme dictionaryUpdated as 4Register (step S606), all morphemes registered in WT2 and their appearance timesNumber etc.Japanese morpheme dictionaryUpdated as 4Registration is performed (step S607).
[0057]
  That is, Morpheme dictionary4InalreadyIf morphemes exist,Corresponding to the morphemeAppearance times of WT1 or WT2Register numberTo do. If there is no morpheme,In the morpheme dictionary 4WT1 or WT2New morphemes and correspondingAppearance timesRegister numberTo do.
[0058]
On the other hand, a default value d is given to the appearance count value of a morpheme that does not exist in WT1 or WT2 and exists in the morpheme dictionary (d = 1 in this specific example).
[0059]
  FIG. 17 shows an English morpheme before and after the learning dictionary construction process in this specific example.frequencydictionary23It is a figure which shows the example of.
  Before processing, appearance timesnumber("-" Is registered in (third field with "," as a field separator), but it can be seen that a numerical value of 1 or more is registered after processing.
[0060]
  Next, all the translation patterns registered in WT3 and their occurrence timesNumber etc.It is registered in the translation pattern learning dictionary 6 (step S608).
[0061]
  FIG. 18 is a diagram showing an example of the translation pattern learning dictionary after the learning dictionary construction processing in this specific example.
  As shown, “Translation pattern, appearance timesnumber"It can be seen that a translation pattern learning dictionary is created in the format.
[0062]
Next, grammarknowledgeProceed to the extraction process (step S33).
Figure 7 shows the grammarknowledgeIt is a flowchart explaining the operation | movement of an extraction process.
First, the work tables WT1 to WT5 are initialized (step S71), and the Japanese document and English document input by the bilingual document input unit 11 are converted into morpheme dictionaries / grammar rules for each language.Rule 4Is used to perform morphological analysis (step S72) and syntactic analysis (step S73).
[0063]
Next, from this morphological analysis result and syntactic analysis result, Japanese sentence ending expression, passive tendency, question tendency, punctuation expression, conjunction translation (eg, translation of if, and, of)knowledgeIs extracted (step S74). The processing here is as follows.
[0064]
For example, Japanese sentence ending expressionknowledgeIn the extraction process, “Affirmative form: is, is, is”, “Affirmative form: is, is”, “Negative form is not:” , “Negative Sul: Do not do, do not”, “Instruction affirmative: Do, do, let's do”, “Negative negation: Do, do, do, do not, do” "have.
[0065]
All the prescriptive suffixes are extracted from the result of Japanese morphological analysis, and the sentence end expression (prescriptive suffix) having the highest number of appearances is stored in WT1 from the above candidates. On the other hand, for the passive tendency and question tendency, the ratio of passive form and question sentence to the whole sentence is calculated from the Japanese parsing result. If the value is equal to or greater than the threshold value, it is determined that the tendency is strong. Is stored. In the punctuation mark expression, it is determined from the Japanese morpheme result whether “.,” Or “.,” Is used in the bilingual document, and the result is stored in WT1.
[0066]
Conjunction translation extracts the morphological analysis result of the English sentence in which the conjunction (for example, “if”) that is the target in the English morphological analysis and the bilingual Japanese sentence thereof, extracts the Japanese translation corresponding to “if”, and sends it to WT1. Store. For example, if a Japanese sentence corresponding to an English sentence including “if” contains “if if”, “if if” is stored, and if “to and” are included, “ Store "~". If there are a plurality, all of them are stored.
[0067]
FIG. 19 shows the grammar in this example.knowledgeIt is a figure which shows the example of WT1 after an extraction process.
Here we ’re going to use the field separatortabIn the first field, the attribute is shown, and in the second field, the attribute value (extraction result) is shown. For example, it can be seen that “Shi” is stored in the positive sul form (kout_da) of the Japanese sentence end expression. Note that “passive_tendency high” indicates that the passive tendency is strong, and “interactive low” indicates that the question tendency is low.
[0068]
After completing the grammar information extraction process, the value of WT1 is set to the grammar rule.Rule 4(Step S75). Grammar rulesRule 4Then, depending on the value of WT1, the subsequent translation process (stepS4) Is applied to change the grammar rules.
[0069]
  Next, the morphological frequency dictionary / translation pattern dictionary 23 automatically created by the vocabulary knowledge learning unit 21 is obtained by adding “.dic” to the bilingual document file name identifiers “.en” and “.ja”. As the dictionary name, the bilingual document-specific morpheme frequency dictionary / translation pattern dictionary 5As storage(Step S34). In the case of this specific example, the file name of the input parallel translation document is system. en, system. ja, the name of the dictionary to be stored is system. dic. Here, the document environment learning process (step S3) ends.
[0070]
Next, the translation process is started.
FIG. 8 shows a flowchart for explaining the operation of the translation process.
First, an English sentence to be translated “This command pushes modules on and / of pops modules off the stream.” Is input by the source language sentence input unit 12 (step S81).
[0071]
The translation engine unit 3 divides the input document into sentence units (step S82), and performs morpheme analysis processing (step S84), syntax / translation pattern analysis processing (step S85), and morpheme generation processing (step S86) for each sentence. The translation result is output by the target language sentence output unit 13 (step S87). When all the source language sentences are processed (step S83), the translation process is terminated.
[0072]
That is, in the source language sentence morpheme analysis process (step S84) and the target language sentence morpheme generation process (step S86), the value of the number of appearances of the morpheme extracted by the learning engine unit 2 (stored in the morpheme dictionary / grammar rule 4). On the other hand, in the syntax / translation pattern analysis process (step S85), the translation pattern extracted by the learning engine unit 2 and the value of the number of appearances (value of the translation pattern learning dictionary 6) are referred to. A translation result reflecting the expression of the bilingual document is obtained.
[0073]
FIG. 20 is a diagram illustrating an example of an original text input screen and an example of a translation result output screen in this specific example.
In the figure,Example of original text input screen(A)In the example of translation result output screenShown in (c). Also, (b) shows an example of a translation result output screen without learning in this input sentence. The learning effect can be read from the examples (b) and (c).
[0074]
<effect>
As described above, Example 1 has the following effects.
As shown in FIG. 18 and FIG. 17, the learning knowledge is in a format that is easy for the user to understand, such as the translation pattern and the number of morpheme occurrences, so that the user can easily manage the translation knowledge and also predict the translation result. .
● For example, from a learning document, system. When there are a plurality of learning documents such that dic is obtained, learning knowledge can be classified and managed according to each learning document, and can be reused.
● Morphological dictionaries and grammar rules used in the translation engine section 34 isMorphological dictionary and grammar rules used in the learning engine 2Rule 4Since the knowledge acquired by the learning engine unit 2 is added to the learning engine unit 2, and the language knowledge that is the core of each engine is common, side effects are unlikely to occur.
● The translation knowledge acquired by the learning engine 2 is the morpheme dictionary and grammar rules used in the translation process.Rule 4Since it is not rewritten, it can be easily restored to the original dictionary state.
The learning engine unit 2 not only acquires lexical knowledge such as correspondence between words in the source language and the target language from the bilingual document, but also knowledge obtained by referring to the entire bilingual document (for example, appearance frequency, etc.) ), And use the result for translation processing.
[0075]
<< Specific Example 2 >>
<Constitution>
FIG. 9 is a block diagram of a specific example 2 of the machine translation apparatus of the present invention.
[0076]
The apparatus of Example 2 is roughly divided into an input / output unit 100, a learning engine unit 200, an environment adaptive dictionary construction unit 300, a translation engine unit 400, a morpheme dictionary / grammar rule 500, and a bilingual document-specific morpheme frequency dictionary / translation. It consists of a pattern dictionary 600, a bilingual document-specific document environment setting file 700, and a translation pattern learning dictionary 800.
[0077]
The input / output unit 100 includes a bilingual document input unit 101, a source language sentence input unit 102, a target language sentence output unit 103, and a dictionary / environment setting file editing unit 104. Here, the bilingual document input unit 101, the source language sentence input unit 102, and the target language sentence output unit 103 are the same as the input / output unit 11 to the target language sentence output unit 13 in the specific example 1.
[0078]
The dictionary / environment setting file editing unit 104 is a functional unit for editing the bilingual document-specific morpheme frequency dictionary / translation pattern dictionary 600, the bilingual document-specific document environment setting file 700, and the translation pattern learning dictionary 800. Specifically, it comprises input / output devices such as a display and a keyboard.
[0079]
The learning engine unit 200 includes a vocabulary knowledge learning unit 201 and a document environment learning unit 202. The vocabulary knowledge learning unit 201 refers to the bilingual document input from the bilingual document input unit 101, refers to the morpheme dictionary / grammar rule 500, extracts the morpheme, the number of appearances thereof, the translation pattern thereof, and the number of appearances thereof, This extraction result is stored in the bilingual document-specific morpheme frequency dictionary / translation pattern dictionary 600. Further, the document environment learning unit 202 selects an optimum dictionary from the bilingual document-specific morpheme frequency dictionary / translation pattern dictionary 600 based on the knowledge extracted by the vocabulary knowledge learning unit 201, and extracts the optimum dictionary and the extracted knowledge. And the morphological frequency knowledge obtained as a result and the grammatical knowledge extracted from the bilingual document based on the grammatical rules in the morpheme dictionary / grammatical rule 500 are output as a bilingual document-specific document environment setting file 700. ing.
[0080]
The environment adaptive dictionary construction unit 300 creates a translation pattern learning dictionary 800 by referring to the bilingual document-specific morpheme frequency dictionary / translation pattern dictionary 600 and the bilingual document-specific environment setting file 700, and morphemesFrequency knowledgeAnd grammarknowledgeAnd create theseknowledgeIs added to the morpheme dictionary / grammar rule 500.
[0081]
The translation engine unit 400 is a functional unit that performs translation processing with reference to the morpheme dictionary / grammar rule 500 and the translation pattern learning dictionary 800.
[0082]
The dictionary / environment setting file editing unit 104 refers to or edits (adds, deletes, modifies) a bilingual document-specific morphological frequency dictionary / translation pattern dictionary 600, a bilingual document-specific document environment setting file 700, and a translation pattern learning dictionary 800. ), Specifically, an input / output device such as a display and a keyboard.
[0083]
<Operation>
There are three major differences between this example and Example 1. First, the document environment learning unit 202 of the learning engine unit 200 outputs the document environment setting file 700, and secondly, the environment adaptive dictionary construction unit 300 newly exists, and the morpheme frequency dictionary / translation pattern dictionary 600 Based on the document environment setting file 700, a morpheme dictionary / grammar rule 500 and a translation pattern learning dictionary 800 are constructed. Third, each dictionary 600, 800 acquired by learning and a document environment setting file 700 for each bilingual document are stored. The dictionary / environment setting file editing unit 104 can refer to and edit the file.
[0084]
FIG. 10 is a flowchart for explaining the operation of the second specific example.
Specific example 2 will be described using the same example as specific example 1.
First, the user translates bilingual document system. en, system. When ja is input (step S1001), the bilingual document is transferred to the vocabulary knowledge learning unit 201 of the learning engine unit 200, and lexical knowledge learning processing is performed (step S1002).
[0085]
The lexical knowledge learning process is based on the specific example 1, but the learning result is not held in the learning engine unit 2 as the morpheme frequency dictionary / translation pattern dictionary as in the specific example 1, but the bilingual document-specific morpheme frequency dictionary / It is stored in the translation pattern dictionary 600. The storage method conforms to the dictionary storage process (step S34) of the document environment learning process (step S3) of the first specific example.
[0086]
Next, a document environment learning process is performed (step S1003).
FIG. 11 is a flowchart for explaining the operation of the document environment learning unit 202 in the second specific example.
[0087]
First, optimal dictionary selection processing (step S1101), grammarknowledgeAn extraction process (step S1102) is performed. These processes also conform to the specific example 1. As a result, the result of the optimal dictionary selection process is WT0,knowledgeThe result of the extraction process is stored in WT1.
[0088]
The result of WT0 is combined into one value and stored in the bilingual document-specific document environment setting file 700 together with the result of WT1 (step S1103). The document environment setting file name is assumed to be obtained by removing the identifier of the file name of the bilingual document to be learned and adding “.env”.
[0089]
FIG. 21 shows an example of a document environment setting file according to this specific example.
As illustrated, in the second specific example, the optimum dictionary item use_dic and its values “os.dic, unix.dic, users_guide.dic” are added to the state illustrated in FIG. 19 of the first specific example.
[0090]
Next, environment adaptive dictionary construction processing is performed (step S1004).
FIG. 12 is a flowchart for explaining the operation of the environment adaptive dictionary construction unit 300 in the second specific example.
[0091]
First, after initialization of the work table WT0 (step S1201), the bilingual morpheme frequency dictionary / translation pattern dictionary file name set in the environment setting file 700 (here, the value of the attribute use_dic of system.env). Is stored in WT0 according to the same format as WT0 of specific example 1 (step S1202), and then a learning dictionary construction process (step S1203)knowledgeA setting process (step S1204) is performed. Learning dictionary construction process, grammarknowledgeThe setting process is in accordance with the first specific example.
[0092]
At this point, the user refers to / edits the bilingual document-specific environment setting file 700 (steps S1005 and S1006), and references / edits the bilingual document-specific morpheme frequency dictionary / translation pattern dictionary 600 and translation pattern learning dictionary 800 ( Steps S1007 and S1008) can be performed by the dictionary / environment setting file editing unit 104.
[0093]
After completion of the editing process, the translation process is performed in the same manner as in the specific example 1, and the translation result is output by the target language sentence output unit 103 (step S1009).
[0094]
<effect>
Specific Example 2 has the following effects in addition to Specific Example 1.
By providing a method in which the learning engine unit 200 and the translation engine unit 400 are clearly separated and the translation knowledge acquired by the learning engine unit 200 is disclosed to the user as a bilingual document environment setting file 700. Can see the result and predict the translation result.
[0095]
The user uses the dictionary / environment setting file editing unit 104 to convert the bilingual document-specific document environment setting file 700, the bilingual document-specific morpheme frequency dictionary / translation pattern dictionary 600, and the translation pattern learning dictionary 800 based on the above prediction. You can change it according to your preference. That is, the translation knowledge acquired by learning can be processed to build a higher quality translation environment.
[0096]
In Specific Example 1, it was necessary to execute translation processing after inputting a bilingual document in order to learn the document environment. However, in Specific Example 2, the environment setting file can be stored in the same manner as the dictionary. Once an environment setting file is created, it is not necessary to input a bilingual document at the time of retranslation.
[0097]
<< Usage form >>
Specific examples 1 and 2 described above can be modified (or applied) as follows.
The learning engine unit 2,200 and the environment adaptive dictionary construction unit 300 in the specific example 2 can function separately from the translation engine unit 3,400. Further, only the learning engine unit 2,200, or the learning engine unit 2,200 and the environment adaptive dictionary construction unit 300 can be set as a translation knowledge learning apparatus.
[0098]
● Document Environment Learning Department22,As the grammar knowledge extracted by 202, Japanese sentence ending information and the like are mentioned, but other information such as translation of conjunctions other than if and tendency to stop speaking can also be extracted and used for translation processing.
[0099]
Various parameters described in the first specific example (for example, the weighting factor α and the threshold value y in the optimum dictionary selection process) can be set according to the user's preference by providing a parameter setting function by the user.
[0100]
● When a monolingual document is input instead of a bilingual document, a translation pattern dictionary cannot be constructed, but part of the morpheme frequency dictionary and document environment information can be learned. If the range is limited, a part of the apparatus functions even when inputting a monolingual document.
[0101]
● English-Japanese translation has been described as an example, but this device can be applied to both Japanese-English translation and bilingual languages other than English and Japanese.
[0102]
In specific example 2, if the translation environment setting file of the source language document to be translated exists in the bilingual document-specific document environment setting file 700, the process can be started from the environment adaptive dictionary construction process. In this case, the user does not input the bilingual document but inputs the environment setting file name. Thereby, the file name is passed to the environment adaptive dictionary construction unit 300, and the environment adaptation dictionary construction process is started.
[0103]
The editing of the dictionary and the environment setting file by the user is not limited to the operation shown in the flowchart of the specific example 2, and can be edited at any time.
[0104]
In Specific Example 2, the vocabulary knowledge learning process and the document environment learning process are processed in series, but can be performed in parallel.
[Brief description of the drawings]
FIG. 1 is a configuration diagram of a specific example 1 of a machine translation apparatus of the present invention.
FIG. 2 is a flowchart showing the overall operation of a specific example 1 of the machine translation apparatus of the present invention.
FIG. 3 is a flowchart showing an operation of a document environment learning process in the specific example 1 of the machine translation device of the invention.
FIG. 4 is a flowchart showing an operation of optimum dictionary selection processing in the specific example 1 of the machine translation device of the invention.
FIG. 5 is a flowchart (part 1) showing an operation of a learning dictionary construction process in the specific example 1 of the machine translation device of the invention.
FIG. 6 is a flowchart (part 2) showing the operation of the learning dictionary construction process in the specific example 1 of the machine translation device of the invention.
FIG. 7 shows a grammar in the first specific example of the machine translation apparatus of the present invention.knowledgeIt is a flowchart which shows operation | movement of an extraction process.
FIG. 8 is a flowchart showing an operation of translation processing in the specific example 1 of the machine translation apparatus of the present invention.
FIG. 9 is a configuration diagram of a specific example 2 of the machine translation device of the invention.
FIG. 10 is a flowchart showing the operation of a specific example 2 of the machine translation device of the invention.
FIG. 11 is a flowchart showing document environment learning processing in a specific example 2 of the machine translation device of the invention.
FIG. 12 is a flowchart showing environment adaptive dictionary construction processing in a specific example 2 of the machine translation device of the invention.
FIG. 13 is an explanatory diagram showing an example of a bilingual document in the machine translation device of the present invention.
FIG. 14 is an explanatory diagram of a morpheme frequency dictionary after lexical knowledge learning processing in the specific example 1 of the machine translation device of the invention.
FIG. 15 is an explanatory diagram of a translation pattern dictionary after lexical knowledge learning processing in the specific example 1 of the machine translation device of the invention.
FIG. 16 is an explanatory diagram of the work table WT0 after the optimum dictionary is selected in the specific example 1 of the machine translation device of the invention.
FIG. 17 is an explanatory diagram of an English morpheme dictionary after learning dictionary construction processing in the specific example 1 of the machine translation device of the invention.
FIG. 18 is an explanatory diagram of a translation pattern learning dictionary after learning dictionary construction processing in the specific example 1 of the machine translation device of the invention.
FIG. 19 shows a grammar in the first specific example of the machine translation apparatus of the present invention.knowledgeIt is explanatory drawing of the work table WT1 after extraction.
FIG. 20 is an explanatory diagram of a translation processing result in the specific example 1 of the machine translation device of the invention.
FIG. 21 is an explanatory diagram of an environment setting file in the specific example 2 of the machine translation device of the invention.
[Explanation of symbols]
2,200 Learning Engine Department
3,400 translation engine
4,500 Morphological Dictionary / Grammar Rules
5,600 Bilingual Document Morphological Frequency Dictionary / Translation Pattern Dictionary
6,800 translation pattern learning dictionary
11, 101 Bilingual document input section
15,600 Bilingual Document Morphological Frequency Dictionary / Translation Pattern Dictionary
21,201 Vocabulary Knowledge Learning Department
22, 202 Document Environment Learning Department
23 Morphological Frequency Dictionary / Translation Pattern Dictionary
104 Dictionary / environment setting file editor

Claims (8)

自然言語による原言語と目的言語からなる対訳文書を入力する対訳文書入力部と、
前記対訳文書入力部で入力された対訳文書から、前記原言語と目的言語それぞれの形態素と当該形態素の出現回数を抽出する語彙知識学習部と、
翻訳処理に用いるための予め設けられた形態素辞書・文法規則における当該文法規則に基づいて、前記対訳文書入力部で入力された文書から新たな文法規則を生成すると共に、前記語彙知識学習部で抽出した形態素と当該形態素の出現回数に基づいて形態素頻度辞書を求め、これら形態素頻度辞書新たな文法規則とを前記形態素辞書・文法規則に追加する文書環境学習部とを備えたことを特徴とする翻訳知識学習装置。
A bilingual document input unit for inputting a bilingual document composed of a source language and a target language in natural language;
A vocabulary knowledge learning unit that extracts the morpheme of each of the source language and the target language and the number of appearances of the morpheme from the bilingual document input in the bilingual document input unit;
Based on the grammar rules in prearranged morpheme dictionary and grammar rules for use in the translation process, The rewritable generates a new grammar rules from a document input in the bilingual document input unit, in the lexical knowledge learning unit A document environment learning unit that obtains a morpheme frequency dictionary based on the extracted morpheme and the number of appearances of the morpheme and adds the morpheme frequency dictionary and a new grammar rule to the morpheme dictionary / grammar rule; Translation knowledge learning device.
自然言語による原言語と目的言語からなる対訳文書を入力する対訳文書入力部と、
前記対訳文書入力部で入力された対訳文書から、前記原言語と目的言語それぞれの形態素と当該形態素の出現回数および翻訳パターンと当該翻訳パターンの出現回数を抽出する語彙知識学習部と、
翻訳処理に用いるための予め設けられた形態素辞書・文法規則における当該文法規則に基づいて、前記対訳文書入力部で入力された文書から新たな文法規則を生成すると共に、前記語彙知識学習部で抽出した形態素と当該形態素の出現回数および翻訳パターンと当該翻訳パターンの出現回数に基づいて形態素頻度辞書および翻訳パターン辞書を求め、これら形態素頻度辞書新たな文法規則とを前記形態素辞書・文法規則に追加し、かつ、前記翻訳パターン辞書を翻訳パターン学習辞書に登録する文書環境学習部と、
前記文書環境学習部から前記形態素頻度辞書新たな文法規則が追加された形態素辞書・文法規則と、前記翻訳パターン学習辞書とを用いて、原言語の文書を目的言語の文書に翻訳する翻訳エンジン部とを備えたことを特徴とする機械翻訳装置。
A bilingual document input unit for inputting a bilingual document composed of a source language and a target language in natural language;
A lexical knowledge learning unit that extracts morphemes of each of the source language and the target language, the number of appearances of the morpheme and the number of appearances of the translation pattern, and the number of appearances of the translation pattern,
Based on the grammar rules in prearranged morpheme dictionary and grammar rules for use in the translation process, The rewritable generates a new grammar rules from a document input in the bilingual document input unit, in the lexical knowledge learning unit Based on the extracted morpheme, the number of appearances of the morpheme, the translation pattern, and the number of appearances of the translation pattern, a morpheme frequency dictionary and a translation pattern dictionary are obtained, and the morpheme frequency dictionary and a new grammar rule are used as the morpheme dictionary / grammar rule. And a document environment learning unit for registering the translation pattern dictionary in the translation pattern learning dictionary,
A translation engine that translates a source language document into a target language document by using the morpheme frequency dictionary , a grammatical dictionary / grammar rule with a new grammar rule added from the document environment learning unit, and the translation pattern learning dictionary A machine translation apparatus comprising: a section.
自然言語による原言語の文書と目的言語の文書から成る対訳文書を入力する対訳文書入力部と、文を構成する多数の形態素を含む翻訳用形態素辞書及び文法規則が格納されている記憶部と、原言語と目的言語の語句を対応させた翻訳パターンを含む翻訳用パターン辞書とを備える翻訳知識学習装置であって、
入力された前記原言語の文書及び前記目的言語の文書を前記文法規則に基づいてそれぞれ形態素に区分すべく解析し、各形態素に該形態素の前記文書で出現する数を示す出現回数を対応させた原言語の形態素頻度辞書及び目的言語の形態素頻度辞書を生成すると共に、前記両文書の語句を対応させた翻訳パターンに該翻訳パターンの出現する数を示す出現回数を対応させた翻訳パターン辞書を生成する語彙知識学習部と、
対訳文書毎に前記原言語の形態素頻度辞書と前記目的言語の形態素頻度辞書及び前記翻訳パターン辞書を格納するための他の記憶部と、
前記生成した原言語の形態素頻度辞書及び前記生成した目的言語の形態素頻度辞書の少なくとも一方に対し前記他の記憶部の中から共通する形態素の数が所定数以上の他の対訳文書の形態素頻度辞書を一以上判定し、前記生成した各形態素頻度辞書中の各形態素にその出現回数に重み付け係数を剰算した重み回数値を付与すると共に前記生成した翻訳パターン辞書中の各翻訳パターンにその出現回数に重み付け係数を剰算した重み回数値を付与し、前記生成した各形態素頻度辞書中の形態素の重み回数値が前記他の対訳文書の各形態素頻度辞書中の同一の形態素の出現回数より小さいと該重み回数値を該出現回数に変更した上で前記生成した各形態素頻度辞書中の各形態素及び出現回数と重み回数値により前記翻訳用形態素辞書を更新し、前記生成した翻訳パターン辞書中の翻訳パターンの重み回数値が前記他の対訳文書の翻訳パターン辞書中の同一の翻訳パターンの出現回数より小さいと該重み回数値を該出現回数に変更した上で前記生成した各翻訳パターン辞書中の各翻訳パターン及び出現回数と重み回数値により前記翻訳用パターン辞書を更新する文書環境学習部とを含むことを特徴とする翻訳知識学習装置。
A bilingual document input unit for inputting a bilingual document consisting of a source language document and a target language document in natural language, a translation morpheme dictionary including a large number of morphemes constituting a sentence, and a storage unit storing grammar rules; A translation knowledge learning apparatus comprising a translation pattern dictionary including a translation pattern in which a source language and a target language phrase correspond to each other,
The input source language document and the target language document are analyzed to be classified into morphemes based on the grammatical rules, and each morpheme is associated with the number of appearances indicating the number of occurrences of the morpheme in the document. A source language morpheme frequency dictionary and a target language morpheme frequency dictionary are generated, and a translation pattern dictionary in which the number of appearances indicating the number of occurrences of the translation pattern is associated with the translation pattern in which the phrases of both documents are associated Vocabulary knowledge learning department to
Another storage unit for storing the source language morpheme frequency dictionary, the target language morpheme frequency dictionary, and the translation pattern dictionary for each bilingual document;
The morpheme frequency dictionary of another bilingual document in which at least one of the generated source language morpheme frequency dictionary and the generated target language morpheme frequency dictionary has a predetermined number or more of morphemes in common among the other storage units And adding a weight count value obtained by adding a weighting coefficient to the number of appearances to each morpheme in each of the generated morpheme frequency dictionaries and the number of appearances to each translation pattern in the generated translation pattern dictionary A weight count value obtained by adding a weighting coefficient to the generated morpheme frequency dictionary, and the morpheme weight count value in each of the generated morpheme frequency dictionaries is smaller than the number of appearances of the same morpheme in each morpheme frequency dictionary of the other bilingual document. The morpheme dictionary for translation is updated with each morpheme in each of the generated morpheme frequency dictionaries, the number of appearances, and the number of weights after changing the weight number value to the number of appearances. If the weight count value of the translation pattern in the generated translation pattern dictionary is smaller than the appearance count of the same translation pattern in the translation pattern dictionary of the other parallel translation document, the weight count value is changed to the appearance count and the generation is performed. A translation knowledge learning apparatus, comprising: a translation environment learning unit that updates each translation pattern in each translation pattern dictionary and the number of appearances and the number of weights and updates the pattern dictionary for translation.
自然言語による原言語の文書と目的言語の文書から成る対訳文書を入力する対訳文書入力部と、文を構成する多数の形態素を含む翻訳用形態素辞書及び文法規則が格納されている記憶部と、原言語と目的言語の語句を対応させた翻訳パターンを含む翻訳用パターン辞書とを備える機械翻訳装置であって、
入力された前記原言語の文書及び前記目的言語の文書を前記文法規則に基づいてそれぞれ形態素に区分すべく解析し、各形態素に該形態素の前記文書で出現する数を示す出現回数を対応させた原言語の形態素頻度辞書及び目的言語の形態素頻度辞書を生成すると共に、前記両文書の語句を対応させた翻訳パターンに該翻訳パターンの出現する数を示す出現回数を対応させた翻訳パターン辞書を生成する語彙知識学習部と、
対訳文書毎に前記原言語の形態素頻度辞書と前記目的言語の形態素頻度辞書及び前記翻訳パターン辞書を格納するための他の記憶部と、
前記生成した原言語の形態素頻度辞書及び前記生成した目的言語の形態素頻度辞書の少なくとも一方に対し前記他の記憶部の中から共通する形態素の数が所定数以上の他の対訳文書の形態素頻度辞書を一以上判定し、前記生成した各形態素頻度辞書中の各形態素にその出現回数に重み付け係数を剰算した重み回数値を付与すると共に前記生成した翻訳パターン辞書中の各翻訳パターンにその出現回数に重み付け係数を剰算した重み回数値を付与し、前記生成した各形態素頻度辞書中の形態素の重み回数値が前記他の対訳文書の各形態素頻度辞書中の同一の形態素の出現回数より小さいと該重み回数値を該出現回数に変更した上で前記生成した各形態素頻度辞書中の各形態素及び出現回数と重み回数値により前記翻訳用形態素辞書を更新し、前記生成した翻訳パターン辞書中の翻訳パターンの重み回数値が前記他の対訳文書の翻訳パターン辞書中の同一の翻訳パターンの出現回数より小さいと該重み回数値を該出現回数に変更した上で前記生成した各翻訳パターン辞書中の各翻訳パターン及び出現回数と重み回数値により前記翻訳用パターン辞書を更新する文書環境学習部と、
原言語の翻訳すべき文書が入力されると、前記翻訳用パターン辞書と前記翻訳用形態素辞書及び前記文法規則に基づいて前記翻訳すべき文書を目的言語の文書に翻訳する翻訳エンジン部とを含むことを特徴とする機械翻訳装置。
A bilingual document input unit for inputting a bilingual document consisting of a source language document and a target language document in natural language, a translation morpheme dictionary including a large number of morphemes constituting a sentence, and a storage unit storing grammar rules; A machine translation device comprising a translation pattern dictionary including a translation pattern in which a source language and a target language phrase correspond to each other,
The input source language document and the target language document are analyzed to be classified into morphemes based on the grammatical rules, and each morpheme is associated with the number of appearances indicating the number of occurrences of the morpheme in the document. A source language morpheme frequency dictionary and a target language morpheme frequency dictionary are generated, and a translation pattern dictionary in which the number of appearances indicating the number of occurrences of the translation pattern is associated with the translation pattern in which the phrases of both documents are associated Vocabulary knowledge learning department to
Another storage unit for storing the source language morpheme frequency dictionary, the target language morpheme frequency dictionary, and the translation pattern dictionary for each bilingual document;
The morpheme frequency dictionary of another bilingual document in which at least one of the generated source language morpheme frequency dictionary and the generated target language morpheme frequency dictionary has a predetermined number or more of morphemes in common among the other storage units And adding a weight count value obtained by adding a weighting coefficient to the number of appearances to each morpheme in each of the generated morpheme frequency dictionaries and the number of appearances to each translation pattern in the generated translation pattern dictionary A weight count value obtained by adding a weighting coefficient to the generated morpheme frequency dictionary, and the morpheme weight count value in each of the generated morpheme frequency dictionaries is smaller than the number of appearances of the same morpheme in each morpheme frequency dictionary of the other bilingual document. The morpheme dictionary for translation is updated with each morpheme in each of the generated morpheme frequency dictionaries, the number of appearances, and the number of weights after changing the weight number value to the number of appearances. If the weight count value of the translation pattern in the generated translation pattern dictionary is smaller than the appearance count of the same translation pattern in the translation pattern dictionary of the other parallel translation document, the weight count value is changed to the appearance count and the generation is performed. A document environment learning unit for updating each translation pattern in each translation pattern dictionary and the translation pattern dictionary with the appearance count and the weight count value;
When a source language document to be translated is input, the translation pattern dictionary, the translation morpheme dictionary, and a translation engine unit that translates the document to be translated into a target language document based on the grammar rules A machine translation device characterized by that.
自然言語による原言語と目的言語からなる対訳文書を入力する対訳文書入力部と、
原言語から目的言語への翻訳処理で用いるための、予め設けられた形態素解析情報と文法規則とを示す形態素辞書・文法規則と、
対訳文書別の形態素の出現回数と翻訳パターンとを示す対訳文書別形態素頻度辞書・翻訳パターン辞書と、
前記形態素辞書・文法規則を用いて、前記対訳文書から形態素とその出現回数およびその翻訳パターンとその出現回数を抽出し、これら抽出した情報を辞書情報として前記対訳文書別形態素頻度辞書・翻訳パターン辞書に出力する語彙知識学習部と、
前記対訳文書別形態素頻度辞書・翻訳パターン辞書の中から、前記抽出した情報に基づいて最適辞書を選出し、この最適辞書と当該抽出した情報とをマージし、その結果得られた形態素頻度辞書と、前記形態素辞書・文法規則における文法規則に基づいて前記対訳文書から抽出した文法規則とを対訳文書別文書環境設定ファイルとして出力する文書環境学習部と、
前記対訳文書別形態素頻度辞書・翻訳パターン辞書と対訳文書別文書環境設定ファイルとに基づき、形態素頻度辞書と文法規則とを作成して形態素辞書・文法規則への追加情報として出力する環境適応辞書構築部とを備えたことを特徴とする翻訳知識学習装置。
A bilingual document input unit for inputting a bilingual document composed of a source language and a target language in natural language;
A morpheme dictionary / grammar rule part indicating morphological analysis information and grammar rules provided in advance for use in translation processing from the source language to the target language;
A bilingual document-specific morpheme frequency dictionary / translation pattern dictionary showing the number of appearances of morphemes by bilingual document and translation patterns;
Using the morpheme dictionary / grammar rules, the morpheme, the number of appearances thereof, the translation pattern thereof, and the number of appearances thereof are extracted from the bilingual document, and the bilingual document-specific morpheme frequency dictionary / translation pattern dictionary is extracted from the extracted information as dictionary information. Vocabulary knowledge learning section to output to
From the bilingual document-specific morpheme frequency dictionary / translation pattern dictionary, an optimal dictionary is selected based on the extracted information , the optimal dictionary and the extracted information are merged, and the resulting morpheme frequency dictionary A document environment learning unit that outputs a grammatical rule extracted from the bilingual document based on the grammatical rule in the morpheme dictionary / grammar rule as a bilingual document-specific document environment setting file;
Wherein based on the translated document by morpheme frequency dictionary translation pattern dictionary and bilingual document by document configuration file, environmental adaptation output as additional information into a form Taimoto dictionary and grammar rules by creating a morpheme frequency dictionary and grammar rules A translation knowledge learning apparatus comprising a dictionary construction unit.
請求項に記載の翻訳知識学習装置において、
対訳文書別形態素頻度辞書・翻訳パターン辞書と対訳文書別文書環境設定ファイルとを編集する辞書/環境設定ファイル編集部を備えたことを特徴とする翻訳知識学習装置。
The translation knowledge learning apparatus according to claim 5 ,
A translation knowledge learning apparatus comprising a dictionary / environment setting file editing unit for editing a bilingual document-specific morpheme frequency dictionary / translation pattern dictionary and a bilingual document-specific document environment setting file.
自然言語による原言語と目的言語からなる対訳文書を入力する対訳文書入力部と、
原言語から目的言語への翻訳処理で用いるための、予め設けられた形態素解析情報と文法規則とを示す形態素辞書・文法規則と、
対訳文書別の形態素の出現回数と翻訳パターンとを示す対訳文書別形態素頻度辞書・翻訳パターン辞書と、
前記形態素辞書・文法規則を用いて、前記対訳文書から形態素とその出現回数およびその翻訳パターンとその出現回数を抽出し、これら抽出した情報を辞書情報として前記対訳文書別形態素頻度辞書・翻訳パターン辞書に出力する語彙知識学習部と、
前記対訳文書別形態素頻度辞書・翻訳パターン辞書の中から、前記抽出した情報に基づいて最適辞書を選出し、この最適辞書と当該抽出した情報とをマージし、その結果得られた形態素頻度辞書と、前記形態素辞書・文法規則における文法規則に基づいて前記対訳文書から抽出した文法規則とを対訳文書別文書環境設定ファイルとして出力する文書環境学習部と、
前記対訳文書別形態素頻度辞書・翻訳パターン辞書と対訳文書別文書環境設定ファイルとに基づき、形態素頻度辞書と文法規則とを作成して形態素辞書・文法規則への追加情報として出力すると共に、翻訳パターン辞書を作成し、当該翻訳パターン辞書を翻訳パターン学習辞書として出力する環境適応辞書構築部と、
前記環境適応辞書構築部によって形態素頻度辞書と文法規則とが追加された前記形態素辞書・文法規則と、前記翻訳パターン学習辞書を用いて原言語の文書を目的言語の文書に翻訳する翻訳エンジン部とを備えたことを特徴とする機械翻訳装置。
A bilingual document input unit for inputting a bilingual document composed of a source language and a target language in natural language;
A morpheme dictionary / grammar rule part indicating morphological analysis information and grammar rules provided in advance for use in translation processing from the source language to the target language;
A bilingual document-specific morpheme frequency dictionary / translation pattern dictionary showing the number of appearances of morphemes by bilingual document and translation patterns;
Using the morpheme dictionary / grammar rules, the morpheme, the number of appearances thereof, the translation pattern thereof, and the number of appearances thereof are extracted from the bilingual document, and the bilingual document-specific morpheme frequency dictionary / translation pattern dictionary is extracted from the extracted information as dictionary information. Vocabulary knowledge learning section to output to
From the bilingual document-specific morpheme frequency dictionary / translation pattern dictionary, an optimal dictionary is selected based on the extracted information , the optimal dictionary and the extracted information are merged, and the resulting morpheme frequency dictionary A document environment learning unit that outputs a grammatical rule extracted from the bilingual document based on the grammatical rule in the morpheme dictionary / grammar rule as a bilingual document-specific document environment setting file;
Together with the basis on the bilingual document by morpheme frequency dictionary translation pattern dictionary and bilingual document by document configuration file, and outputs the additional information to create and form Taimoto dictionary and grammar rules and a morpheme frequency dictionary and grammar rules, create a translation pattern dictionary, and environmental adaptation dictionary building unit for outputting the translation pattern dictionary as a translation pattern learning dictionary,
The morpheme dictionary and grammar rules in which the morpheme frequency dictionary and grammar rules are added by the environment adaptive dictionary construction unit, and a translation engine unit that translates a source language document into a target language document using the translation pattern learning dictionary; A machine translation device comprising:
請求項に記載の機械翻訳装置において、
対訳文書別形態素頻度辞書・翻訳パターン辞書と対訳文書別文書環境設定ファイルと翻訳パターン学習辞書とを編集する辞書/環境設定ファイル編集部を備えたことを特徴とする機械翻訳装置。
The machine translation device according to claim 7 ,
A machine translation apparatus comprising a dictionary / environment setting file editing unit for editing a bilingual document-specific morpheme frequency dictionary / translation pattern dictionary, a bilingual document-specific document environment setting file, and a translation pattern learning dictionary.
JP19404498A 1998-07-09 1998-07-09 Translation knowledge learning device and machine translation device Expired - Fee Related JP3982726B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP19404498A JP3982726B2 (en) 1998-07-09 1998-07-09 Translation knowledge learning device and machine translation device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP19404498A JP3982726B2 (en) 1998-07-09 1998-07-09 Translation knowledge learning device and machine translation device

Publications (2)

Publication Number Publication Date
JP2000029878A JP2000029878A (en) 2000-01-28
JP3982726B2 true JP3982726B2 (en) 2007-09-26

Family

ID=16318016

Family Applications (1)

Application Number Title Priority Date Filing Date
JP19404498A Expired - Fee Related JP3982726B2 (en) 1998-07-09 1998-07-09 Translation knowledge learning device and machine translation device

Country Status (1)

Country Link
JP (1) JP3982726B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5125083B2 (en) * 2006-12-07 2013-01-23 富士ゼロックス株式会社 Language analysis system, language analysis method, and computer program
KR101416098B1 (en) 2010-10-12 2014-07-09 한국전자통신연구원 Method and apparatus for learning translation knowledge by phrase

Also Published As

Publication number Publication date
JP2000029878A (en) 2000-01-28

Similar Documents

Publication Publication Date Title
US6269189B1 (en) Finding selected character strings in text and providing information relating to the selected character strings
JP2005507525A (en) Machine translation
JP4319860B2 (en) Method and apparatus for developing a transfer dictionary for use in a transfer-based machine translation system
Probst et al. MT for minority languages using elicitation-based learning of syntactic transfer rules
JP2005507524A (en) Machine translation
JPH06251057A (en) Method and device for machine translation
JP2004199427A (en) Device, method and program for associating parallel dependency structure and recording medium with the program recorded thereon
JP2006252428A (en) Multilingual translation memory, translating method and translating program
JPH07295986A (en) Machine translation device with idiom processing function
JPS62271064A (en) Mechanical translation system
US20100228538A1 (en) Computational linguistic systems and methods
KR20040024619A (en) Third language text generating algorithm by multi-lingual text inputting and device and program therefor
JP6160438B2 (en) Machine translation apparatus, machine translation program, and machine translation method
JP3982726B2 (en) Translation knowledge learning device and machine translation device
JP4940606B2 (en) Translation system, translation apparatus, translation method, and program
JPH04160473A (en) Method and device for example reuse type translation
JP4869281B2 (en) Machine translation apparatus, program and method
JP2838984B2 (en) General-purpose reference device
Sankaravelayuthan et al. A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam
WO2009144890A1 (en) Pre-translation rephrasing rule generating system
JP2626722B2 (en) Japanese generator
Nirenburg et al. Two principles and six techniques for rapid MT development
JP2004118461A (en) Method and device for training language model, method and device for kana/kanji conversion, computer program, and computer readable recording medium
JP3389313B2 (en) Machine translation equipment
US20130080144A1 (en) Machine translation apparatus, a method and a non-transitory computer readable medium thereof

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20031224

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040223

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20040226

A912 Removal of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20040702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070629

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100713

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110713

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120713

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees