JP3892227B2 - 機械翻訳システム - Google Patents
機械翻訳システム Download PDFInfo
- Publication number
- JP3892227B2 JP3892227B2 JP2001005650A JP2001005650A JP3892227B2 JP 3892227 B2 JP3892227 B2 JP 3892227B2 JP 2001005650 A JP2001005650 A JP 2001005650A JP 2001005650 A JP2001005650 A JP 2001005650A JP 3892227 B2 JP3892227 B2 JP 3892227B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- translation
- generation
- information
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
【発明の属する技術分野】
本発明は、ある言語で記載された文章を他の言語に自動的に翻訳する機械翻訳システムに係り、特に、各単語に付随してその単語と他の単語との関係(解析情報)を単語辞書に記憶させ、主辞駆動句構造文法HPSG(Head-Driven Phrase Structure Grammar)理論に基づいて、主辞を中心として解析情報を用いて合理的な自動翻訳を行う機械翻訳システムに関する。
【0002】
【従来の技術】
日本で商用の機械翻訳ソフトが登場して15年が経過した。現在では、低価格の機械翻訳ソフトも数多く存在し、機械翻訳ソフトの普及も進んでいる。特に最近のインターネットブームも追い風となり、翻訳ソフトは急激に普及しつつあり、ビジネスアプリケーションソフトの中でもトップクラスの盛況をみせている。
【0003】
しかしながら、現在の機械翻訳ソフトは、文章全体の大まかな意味を捉えるための「速読のためのツール」として利用されるのがほとんどであり、当初期待された「実用的な翻訳物の生産を支援するツール」としてはまだまだ完成度が低く、普及も遅れている。
【0004】
近年、世界中で国際化・オープン化が急速に進んだことから、日本でも「実用的な翻訳物」を大量に生産しなければならない場面が増えている。そのため、これまでの機械翻訳ソフトのような大まかな意味が理解できる程度の訳文ではなく、原文に忠実で第三者にも正しく意味が伝わる訳文を生成し、本当の意味で「翻訳」を支援する、新しい機械翻訳ソフトの登場が期待されている。
【0005】
一般に、翻訳ソフトウェアは、「単語辞書」と「文法データベース」と「プログラム」から構成されている。
【0006】
「単語辞書」は、単語単位に品詞や訳語ほか、原文の解析やターゲット文の生成に必要な種々の情報をもっている。「文法データベース」は、単語の列が、文として成立するために、どういう品詞がどういう順序で登場し、どういう構文をなしているかを規則として記述している。「プログラム」は原文を入力し、これを文単位に「単語辞書」と「文法データベース」を使って、文の構造を決定し(「解析」フェーズ)、その構造に基づいてターゲット文を生成する(「生成」フェーズ)。
【0007】
従来の機械翻訳ソフトの単語辞書には、単語の見出し語(つづり)、訳語、品詞等が登録され、一方、文法データベースには専ら品詞の結びつき方からなる種々の構文のパターン(文法規則)が登録されていた。
【0008】
ここで、従来の機械翻訳システムの構成とその処理の流れについて説明する。
【0009】
図12は、従来の機械翻訳システムの構成とその処理の流れを示している。従来の機械翻訳システム11は、標準入力部12と、形態素解析機能部13と、構文解析機能部14と、訳語決定機能部15と、生成木生成/変形機能部16と、訳文生成機能部17と、標準出力部18とを備えている。
【0010】
また、機械翻訳システム11は、単語辞書19と、文法データベース20とを有している。
【0011】
単語辞書19には各単語の見出し語(つづり)、品詞(名詞、動詞、形容詞など)、訳語が記述されている。
【0012】
文法データベース20には品詞に関する構文のルール(文法規則)が記述されている。品詞に関する構文のルールとは、品詞の配列や出現パターンに構文パターンを対応させるルールである。文法規則の数はたとえば2000ないし3000に及ぶ。
【0013】
従来の機械翻訳システム11によれば、標準入力部12により英文文字列を入力し、形態素解析機能部13にその英文文字列を渡す。
【0014】
形態素解析機能部13は、単語辞書9を参照して英文文字列から単語を抽出し、それらの単語の品詞(名詞、動詞、形容詞、副詞など)の情報とともに構文解析機能部14に渡す。
【0015】
構文解析機能部14は、英文文字列の単語の品詞配列と文法データベース20から構文木を決定する。
【0016】
たとえば、"This is a pen."という文では、"This"(名詞)、"is"(動詞)、"a"(冠詞)、"pen"(名詞)が形態素解析機能部13によって抽出され、図13に例示するこれらの品詞配列と一致する構文パターンが文法データベース20から検索される。文法データベース20には前述したように多数の品詞配列の構文パターンが記憶されており、入力した英文文字列の品詞配列と一致する構文パターンをパターンマッチングの方法により検索し、構文木を作成する。
【0017】
構文解析機能部14は、上述した方法によって得た構文木(構文解析データ)を訳語決定機能部15に送る。
【0018】
訳語決定機能部15は、意味処理を行い構文木に対応する訳語を決定し、構文解析データと訳語データとを生成木生成/変形機能部16に出力する。
【0019】
生成木生成/変形機能部16は、文法データベース20を参照し、特定の翻訳ルールに従い日本語生成用構文木を生成して訳文生成機能部17に出力する。
【0020】
訳文生成機能部17は、上記日本語生成用構文木の各単語を日本語に翻訳して日本語翻訳データ(和文文字列)を標準出力部18を介して出力する。
【0021】
【発明が解決しようとする課題】
上記従来の機械翻訳システムによる機械翻訳では、構文解析の決め手となっていたのは、文法データベースに登録された文法規則である。
【0022】
この文法規則に漏れがあった場合はむろん最適な構文木を発見することはできなかった。また、たとえ文法規則に記述されていても、その文法規則に基づく解析で導かれる多数の解の中から最適な解を判別する手段がなかった。第1解として「正しい解釈」が選ばれなかったりすると、そのような文はいつでも誤った結果を出すことになった。この場合にはユーザーが単語辞書に単語をどう指定しようが、文法データベース自体が適当な構文木を生成しないので、適切な翻訳を得られないことになった。
【0023】
つまり、従来の機械翻訳システムでは、「英文の解析」と「訳文の生成」に関して、システムにあらかじめ組み込まれた「文法カテゴリー」や「文法規則」に依存しており、解析や生成の主要な部分を文法規則が支配し、ユーザーが希望する訳を出すために変更(カスタマイズ)できるのは単語単位の辞書記述、たとえば特定の訳語を出力するようなカスタマイズだけであったため、対応可能な範囲には自ら限界があった。
【0024】
ここで、上記従来の機械翻訳による翻訳の限界を一つの具体例をあげて説明ことにする。
【0025】
今、“Time flies like an arrow.”という英文文字列を日本語に翻訳する場合を考える。
【0026】
この英文文字列には“flies”(飛ぶ)と””like”(好む)の両単語が動詞となり得るので、これらの2つの単語が文章全体の述語に成り得る。
【0027】
“flies”(飛ぶ)を述語とした場合、“Time flies like an arrow”は図9のような構文木となる。
【0028】
図9の構文木においては、述語“flies”は、”Time”という主語を持ち、”like”以下は前置詞句と解され、前置詞”like”はかかる相手の単語(ここでは目的語という)を持ち、その目的語として””an arrow”があると解される。
【0029】
このような構文木に解すると、入力された英文文字列“Time flies like an arrow.”は、“時間は矢のように飛ぶ。”(直訳)と翻訳される。
【0030】
一方、“like”(好む)を述語とした場合、“Time flies like an arrow”は図10のような構文木となる。
【0031】
図10の構文木においては、主辞“like”は、”Time flies”(時間ハエ)という主語を持ち、かつ、”an arrow”という目的語を持つ。
【0032】
このような構文木に解すると、入力された英文文字列 “Time flies like an arrow.”は、“時間ハエは矢を好む。”と翻訳される。
【0033】
従来の機械翻訳システムは、上述した両構文木のうち、ユーザーが望む構文木を選択することができなかった。
【0034】
本発明が解決しようとする課題は、第一にユーザーが自由に「翻訳の仕方」をカスタマイズできる単語辞書を有する機械翻訳システムを提供することにある。
【0035】
第二に本発明が解決しようとする課題は、文法からは複数あり得る構文木から最適な構文木を決定できる機械翻訳システムを提供することにある。
【0036】
【課題を解決するための手段】
本願請求項1に係る機械翻訳システムは、
単語ごとに見出し語と、存在する場合の訳語と、文法上の属性と、他の単語との関係を示す解析情報とを登録した単語辞書と、
主要な構文文法を記憶した文法データベースと、
文章を入力し、前記単語辞書と照合して形態素に分解する形態素解析機能部と、
前記形態素解析機能部によって分解された形態素のうちの単語群から主辞を抽出して主辞の解析情報から前後の形態素の各単語の構文素性と適合するものを選択することによって構文木を決定する構文解析機能部と、
前記構文解析機能部が決定した構文木における各単語の対応する訳語を決定する訳語決定機能部と、
前記構文木の各単語に訳語を当てはめて訳文を生成する訳文生成機能部とを有することを特徴とするものである。
【0037】
本願請求項2に係る機械翻訳システムは、請求項1のシステムにおいて、
前記単語辞書には、所定の単語がユーザー指定の条件を満たす場合の特別な翻訳ルールを記述した生成情報が登録されており、
前記翻訳ルールにより、前記構文解析機能部が決定した構文木を変形する生成木生成/変形機能部を有することを特徴とするものである。
【0038】
本願請求項3に係る機械翻訳システムは、請求項1または2のシステムにおいて、
前記単語辞書には、単語の解析情報としてその語が主辞となった場合に関係する対象の単語の意味属性が登録されており、主辞の関係対象となれる単語の解析情報には意味属性が登録されていることを特徴とするものである。
【0039】
本願請求項4に係る機械翻訳システムは、請求項1ないし3のいずれかのシステムにおいて、
単語の意味属性と、解析情報と、生成情報の少なくとも1つをユーザーに登録・更新させる辞書登録手段を有することを特徴とするものである。
【0040】
本願請求項5に係る機械翻訳システムは、請求項1ないし4のいずれかのシステムにおいて、
単語の意味属性、あるいは解析情報、あるいは生成情報が複数個ある場合には、適用すべき意味属性、あるいは解析情報、あるいは生成情報の優先順位をユーザーが辞書登録手段を介して指定する単語辞書を有していることを特徴とするものである。
【0041】
本願請求項6に係る機械翻訳システムは、請求項1ないし4のいずれかのシステムにおいて、
前記構文解析機能部は、単語の意味属性、あるいは解析情報、あるいは生成情報が複数個ある場合に、最前に適用した意味属性、あるいは解析情報、あるいは生成情報を前記単語辞書から検索することを特徴とするものである。
【0046】
【発明の実施の形態】
以下、本発明に係る機械翻訳システムについて、図面を参照しながら具体的に説明する。
【0047】
図1は本発明に係る機械翻訳システムの一実施形態のブロック図である。本発明は特定の言語間の翻訳に限られないが、ここでは理解を容易にするために英語から日本語に翻訳する場合の例を示している。したがって、下記の説明の「英語」および「日本語」の語は、翻訳すべき言語に応じて被翻訳言語および訳出言語に適宜読み替えられるものとする。
【0048】
本発明に係る機械翻訳システムは、構成上従来の機械翻訳システムとほとんど同様の構成要素を有している。しかし、本発明に係る機械翻訳システムは、辞書の登録内容が従来の辞書のそれと大きく相違し、それに伴って構文解析および生成木生成/変形の方法が従来の機械翻訳システムと大きく相違する。
【0049】
図1の機械翻訳システム1は、標準入力部2と、形態素解析機能部3と、構文解析機能部4と、訳語決定機能部5と、生成木生成/変形機能部6と、訳文生成機能部7と、標準出力部8とを備えている。
【0050】
また、機械翻訳システム1は、単語辞書9と、文法データベース10とを有している。
【0051】
標準入力部2と標準出力部8は、公知の任意の入力手段と出力手段である。
【0052】
本発明の単語辞書9は、単語ごとに見出し語と、存在する場合の訳語と、文法上の属性と、他の単語との関係を示す解析情報と、所定の条件を満たす場合の特別な翻訳ルールを記述した生成情報とを登録した辞書である。
【0053】
「文法上の属性」とは品詞、数、人称、格等の情報をいう。「他の単語との関係を示す解析情報」とはある単語が主語としてどのような単語を必要とするか、あるいは補語としてどのような単語を必要とするか等を記述した情報をいう。「生成情報」は日本語として自然な翻訳を行うために、入力された文の単語が一定の配列条件を満たした場合に、それに対応した翻訳の仕方を記述した情報をいう。
【0054】
なお、単語の見出し語、訳語、文法属性等は単語辞書9のコンテンツ部という部分に記憶され、解析情報は単語辞書9の解析用バイナリ部に記憶され、生成情報は単語辞書9の生成用バイナリ部に記憶されている。
【0055】
本発明の文法データベース10は、文型等の主要な構文の文法を記憶した辞書である。なお、従来の機械翻訳システムの文法データベースでは、種々の品詞・語型ごとの詳細かつ膨大な文法ルール(たとえば2000〜3000ルール)が記憶されていたのに対し、本発明の文法データベース10には基本文型など、数十ルールが記憶されいるにすぎない。
【0056】
形態素解析機能部3は、入力した文字列(文章)を引用符・括弧・ダッシュ・(これらをブロックデータという)と単語に分解する手段である。形態素解析機能部3は、入力された文字列からブロックデータを認識し、そのブロックデータやスペースによって単語を分割し、単語を抽出することができる。
【0057】
なお、ブロックデータと単語とをまとめて本明細書では「形態素」ということにする。
【0058】
形態素解析機能部3は、標準入力部2から英文文字列を入力し、上述したように入力した英文文字列から引用符・括弧・ダッシュからなるブロックデータリストを作成し、当該英文文字列からブロックデータリストを除いて分割された単語用文字列を抽出し、単語辞書9のコンテンツ部から各単語を検索し、各単語に対応する単語データを作成する。形態素解析機能部3は、単語データと最初に作成したブロックデータリストをまとめて形態素データとして構文解析機能部4に出力する。
【0059】
構文解析機能部4は、形態素データから最適な構文木(文章構造すなわち単語の関係を表現したツリー構造)を決定する手段である。
【0060】
構文解析機能部4は、形態素解析機能部3から形態素データを入力し、単語辞書9の解析用バイナリ部を参照して形態素データ中の単語データをすべて句構造データに変換する。ここで、「句」とは、名詞、形容詞、副詞等と同様の働きをするまとまった複数の単語である。「句」への変換に際しては、構文解析機能部4は、形態素解析機能部3から入力した形態素データに含まれるブロックデータリストに従い、指定されたブロック部分(引用符・括弧・ダッシュで囲まれた部分)がそれぞれ一つの句としてまとまるように解析を行う。
【0061】
次に、構文解析機能部4は、上記句構造データと単語辞書9の解析用バイナリ部と文法データベース10の情報とから構文解析を行って文全体の構文解析データ(構文木を表すデータ)を作成し、訳語決定機能部5に出力する。
【0062】
この構文解析は、文の中心となる主辞(その文の動詞であることが多い)を中心に、その主辞となる単語に登録されている主語と述語や補語の文法上の関係(品詞、数、人称等)や意味属性(後述する)等の解析情報を用いて最適な構文を決定するプロセスである。この構文解析については後に具体例を挙げて再び説明する。
【0063】
訳語決定機能部5は、構文解析データに適応する単語の訳語を決定する手段である。
【0064】
訳語決定機能部5は、構文解析機能部4から構文解析データを入力し、文全体の構造と各単語の訳語選択情報に基づいてどの訳語を採用するか決定し、文に複数の解釈がある場合はそれぞれの解釈のウエイトを計算して最もウエイトの小さなものを解として選択し、構文解析データ及び訳語データを生成木生成/変形機能部6へ出力する。
【0065】
生成木生成/変形機能部6は、特定の条件に当てはまる場合に、日本語として自然な翻訳を行えるように日本語翻訳用の生成木(日本語生成用構文木)を生成すべく、元の構文木を変形する手段である。
【0066】
具体的には生成木生成/変形機能部6は、訳語決定機能部5から構文解析データ及び訳語データを入力し、それに含まれる単語の配列、態様等から単語辞書9の生成用バイナリ部に記載されている生成情報にしたがって日本語生成用構文木を作成し、あるいはよりわかりやすい日本語が生成されるように元の構文木を変形する。変形終了後の日本語生成用構文木は、生成木生成/変形機能部6によって訳文生成機能部7へ出力される。
【0067】
訳文生成機能部7は、上記日本語生成用構文木に訳語を当てはめて日本語翻訳データ(和文文字列)を出力するための手段である。
【0068】
具体的には訳文生成機能部7は、生成木生成/変形機能部6から日本語生成用構文木を入力し、単語辞書9に記載された訳語に従って和文文字列を作成し、これを標準入力部2へ出力する。
【0069】
訳文生成機能部7は以下の要件を満たすものとする。
英語と1対1で対応しない情報(許可、義務のようなモダリティなど)が日本語の付加情報(付加の生成情報)という形で単語辞書9のコンテンツ部に記録されている。
【0070】
また、単語辞書9の生成用バイナリ部には活用語の活用表が記述されており、活用語をどう活用させるかはこの活用表データに従う。また、この活用表には上述した付加情報によって活用語がどう変化するかも記述されている。
【0071】
単語辞書9の生成用バイナリ部には、生成木の上下関係によって、各単語に付加すべき語(名詞に対する助詞など)のデータも記述されており、このデータに従って単語や句に付加すべき語を追加する。
【0072】
なお、上記機械翻訳システム1の構成手段のうち、生成木生成/変形機能部6は、システムの目的に応じて省略することができる。たとえば、直訳や下訳のみを目的とする簡素なシステムでは、生成木生成/変形機能部6を適宜省略することができる。
【0073】
また、上記機械翻訳システム1では、辞書をカスタマイズする手段を示していないが、単語辞書9をカスタマイズする辞書登録手段を適宜追加したシステムも本発明に含まれる。
【0074】
また、単語辞書9の解析用バイナリ部は、主辞が関係する単語の文法上の属性のみを記載した記載したものと、主辞が関係する単語の意味上のカテゴリー(意味属性)をも付加したものとがあり得る。これらの単語辞書9及びそれを用いた翻訳の方法について具体例を用いて以下に説明する。
【0075】
まず、HPSG理論の概要を説明する。HPSGは、Head-Driven Phrase Structure Grammar(主辞駆動句構造文法)の略である。この理論の中心となるのは、その名前が示す通り「Head=主辞(文・句の中心となる語)」という概念である。HPSGでは、句あるいは文には必ずその中心となる語=主辞があり、句の性質は句の主辞となる語に記述されているとする。
【0076】
以下では、"I go."という文章を例にとって、主辞の概念を説明する。なおこの例では、構文の決定プロセスに意味属性の情報を用いない場合について説明する。
【0077】
"I go."という文は単に「主語 動詞」と並んでいる文章であるが、これが文として成立するのは、主辞である"go"という単語が「主語を持つ」という性質を有し、その主語の条件に"I"が適合する場合に限られる。本発明では、単語辞書9に、"go"という単語が主辞と成り得る単語であり、「主語を持つ」という性質を有していることが単語"go"に付随して記載されている。この「主語を持つ」という性質及び主語の条件が"go"の解析情報である。
【0078】
同様にたとえば、"I see you."が文として成立するのは、主辞である"see"という単語が「主語を持つ」と「目的語を持つ」という両性質の双方を有し、その主語の条件に"I"が適合し、目的語の条件に"you"が適合する場合に限られる。この場合、"see"という単語が「主語を持つ」と「目的語を持つ」及び主語の条件と目的語の条件という解析情報は、単語辞書9の単語"see"に付随して記載されている。
【0079】
"I go."の"I"が満たすべき「主語」の条件を具体的に記述するために、単語辞書9の各単語には「構文素性」というものが定義されている。構文素性は単語の文法上の属性、解析情報など、構文を構成する要素の性質を包含するものであり、「素性とその値の集合」という形式を持ち、例えば図2のように定義される。
【0080】
図2では、左辺の「品詞」が素性(名)であり、右辺の「名詞、動詞…」が素性値となる(「{}」は、{}中の要素のどれか一つを値としてとることを意味する)。この定義に基づき、各単語の構文素性を図3のように記述することができる。
【0081】
図3に"I go."の各単語がどのような構文素性を持つかを定義した「単語辞書」を示す。構文素性が複数ある場合は、これをスラッシュで区切って表現する。
【0082】
"go"の「主語となる句=<…>」は、"go"の解析情報であり、一つの構文素性であってその語の主語の条件を指示する役割を持つ。なお、たとえば"go"の三単現形="goes"では、「主語となる句=<…>」の値は、"go"の「人称=一人称」から「人称=三人称」に変わる。
【0083】
"I go"という文字列が文として成立するためには、"go"が持つ「主語となる句=<…>」の条件と"I"の構文素性値とが一致しなければならない。この制限を明示するために、図4のような文法規則を定義する。
【0084】
図4の(1)式の「新しい句 → 句1 句2」は、『新しく作られる句は、「句1句2」から構成される』ことを示しており、「句2[主語となる句=<主語の条件>] 」は『句2 が持つ「主語となる句」という素性の値が「主語の条件」という変数で表わされる』ことを示している。
【0085】
以下では、この文法規則がどのように適用されるかを説明する。"I go"という文字列をこの文法規則に当てはめると、句1 ="I"、句2 ="go"となる。"go"の解析情報は図5のように構文素性の形式で辞書に記述されている。
【0086】
図5を文法規則中の「句2[主語となる句=<主語の条件>] 」に当てはめると、図6のようになる。文法規則の (2) if 以降は、それぞれの句の条件を示している。「句1 = 主語の条件」は、『句1 の構文素性と、「主語の条件」という変数に代入された構文素性が矛盾なく一致する』という条件を示している。
【0087】
"I go"という文章では、図7の2つがまったく矛盾なく一致し、条件が満たされるので、この文法規則が成立することになる。
【0088】
文法規則の (3) then 以降は、この文法規則の適用により、どのような句が作成されるかを示す。「新しい句:主語 = 句1」は『新しい句の「主語」が「句1」になる』ことを示し、「新しい句:主辞 = 句2」は『新しい句の「主辞」が「句2」となる』ことを示している。つまり、新しく作成される句("I go"という文字列全体に対応する句)の「主語」の素性値は「句1="I"」の内容がそのまま入り、「主辞」の素性値は「句2="go"」の内容がそのまま入る。従って、"I
go"は図8のような構成の句として作成される。
【0089】
このように、"I go."の例文では、"go"が一人称単数の名詞からなる主語を持ち、"I"が一人称単数の名詞であるということから、"I"が"go"の主語となって、主語+動詞なる構文が決定された。
【0090】
上記例の構文決定のプロセスではもっぱら単語の文法属性が判断基準とされている。次に意味属性をも判断基準とする構文解析を前出の“Time flies like an
arrow.”を例に説明する。
【0091】
“Time flies like an arrow.”は、前述したように“flies”(飛ぶ)と””like”(好む)が主辞と成り得る。
【0092】
“flies”(飛ぶ)を主辞とした場合、“Time flies like an arrow”は前述したように図9のような構文木となる。
【0093】
図9の構文木においては、主辞“flies”は、”Time”という主語を持ち、”like”以下は前置詞句と解される。また、前置詞句の内部では、”like”はその目的語として””an arrow”を持つと解される。この場合、“Time flies like an arrow.”は、“時間は矢のように飛ぶ。”(直訳)と解釈される。
【0094】
一方、“like”(好む)を主辞とした場合、“Time flies like an arrow”は図10のような構文木となる。
【0095】
図10の構文木においては、主辞“like”は、”Time flies”(時間ハエ)という主語を持ち、””an arrow”という目的語を持つ。この場合、“Time flies like an arrow.”は、“時間ハエは矢を好む。”と解釈される。
【0096】
このような2つの構文木に対しては、従来の機械翻訳システムは、これらの構文木がいずれも文法上あり得るため最適の構文木を選択することができなかったが、本発明においては単語辞書9は、“like”を主辞「好む」と解した場合は、その主語は「人を表す意味属性」を有することを“like”の解析情報として登録することができる。一方、”flies”を名詞(ハエ)と解した場合は、「昆虫を表す意味属性」を有することを”flies”の解析情報として登録することができる。
【0097】
このため、図10の構文木のように主語を”flies”(ハエ)(「昆虫を表す意味属性」を有する)とすると、主語”flies”の意味属性と主辞“like”の意味属性が一致しないことになる。これに対して、図9の構文木のように”flies”を主辞「飛ぶ」と解した場合は、このような意味属性の不一致は生じない。従って、本発明の機械翻訳システム1によれば、図10の構文木を排除して図9の構文木を選択するようになる。
【0098】
このように、従来の機械翻訳システムが最適な構文木を判断する手段を有していないのに比べて、本発明による機械翻訳システムでは適切な構文木を判断することができるのである。
【0099】
最後に、本発明の生成木生成/変形機能について説明する。
【0100】
HPSG は、主に「構文解析」を行うための理論であるが、本出願人は、その枠組みを利用して「構文解析」以外のモジュールも開発する。こうすることによって、従来の機械翻訳システムより細かい「構文解析」を行えることはもちろん、「訳語決定」のための文脈情報(「特定の修飾語に修飾されている」といった情報)や、「生成木生成/変形」のための原文と訳文の対応情報(「原文では形容詞だが、訳文では副詞になる」といった情報)なども辞書に記述できるようになり、従来の機械翻訳システムよりも細かい翻訳上の設定が可能となる。
【0101】
本実施形態の機械翻訳システム1は一定の条件のもとに自然な日本語への翻訳を行うための生成木生成/変形を行う。
【0102】
例えば"He is a good swimmer."という文について考える。
【0103】
図11は、上記文例の生成木生成/変形、および、訳文生成の様子を示している。
【0104】
従来の機械翻訳システムでは、主語を"he"、動詞を"is"、補語を"a good swimmer"としてとらえ、「主語」は「補語」であるという生成方法により、「彼は、良い泳ぎ手である。」というような直訳調の訳文を生成していた。
【0105】
本発明の機械翻訳システム1では、HPSG理論に基づき、主辞を"is"とし、主語を"he"、補語を"a good swimmer"として構文解析する。
【0106】
次に、本発明の機械翻訳システム1によれば、"is"に関して単語辞書9の生成用バイナリ部に「補語の名詞に動詞に成り得る名詞(swimmer)が来て、かつ、それが形容詞(good)によって修飾されているとき、名詞を動詞表現で訳し、かつ、「のが」をつけて体言化し全体を”がが構文”で訳す」という生成情報が記載されていて、かつ"swimmer"の辞書記述に動詞訳「泳ぐ」が登録されていれば、図11に示すように、名詞の動詞表現、形容詞の副詞表現に適当な生成木(日本語生成用構文木)を生成・変換する。
【0107】
次に、機械翻訳システム1はこの生成木に対して、訳語を適用し、「彼は泳ぐのがうまい」という訳文を生成するのである。
【0108】
上述した例のような生成情報を緻密に単語辞書9に記載することにより、従来の直訳調の翻訳文の不自然さを克服し、より自然な日本語翻訳文を生成することができる。
【0109】
本発明による機械翻訳システムは、上述したように単語辞書に、各単語について見出し語、訳語、文法属性、解析情報、生成情報等(構文素性)を記載している。
【0110】
このため、本発明による機械翻訳システムは、ユーザーが自由に翻訳のカスタマイズを行うための「辞書登録手段」を容易に備えることができる。
【0111】
すなわち、辞書登録手段により、単語辞書の単語の意味属性と、解析情報と、生成情報を登録・更新すれば、その単語はユーザーの指定したような意味属性と解析情報と生成情報を有するように働く。
【0112】
ここで、単語についてユーザーが登録した解析情報は当該単語の翻訳にのみ適用されることは、大きな利点を有する。
【0113】
すなわち、従来の機械翻訳システムでは、翻訳方法を規定するために文法規則を定義する必要がある。しかし、一旦文法規則を定義すると、目的とする単語の翻訳のみならず、すべての単語に当該文法規則が適用される。このようにすると、必ずしも望ましくない翻訳方法が思わぬところで適用される弊害があった。これに対して、本発明のように単語ごとに解析情報を定義する方法によれば、その解析情報は当該単語の翻訳にのみ適用されるので、きめ細かいユーザーカスタマイズを行うことができる。
【0114】
もともと言語は、ある単語がある単語と結びついて意味を作り上げていくといったほうが言語の特徴をとらえていると思われるが、このような語彙理論に基づく翻訳ソフトウェアは、まだ登場していなかった。本発明のHPSG理論に基づく方式では、文の構造の把握に用いる構文情報の大半を、「文法規則」ではなく「語彙」つまり「辞書」に記述できるようにした点に特徴がある。また、「訳語の選択」、「訳文の生成」についても、より精度を高めるため、今よりも詳しい生成規則を辞書上で記述可能とする。これによって、たとえ翻訳ソフトウェアが正しい翻訳を出せなかったとしても、ユーザーが辞書さえ修正すれば望んだ解析結果、訳語、訳文を得ることができる。その結果、ユーザーがカスタマイズできる範囲が従来より圧倒的に増し、「学習効果」の高い機械翻訳システムが実現できる。
【0115】
つまり、HPSG理論に基づいて開発した本発明の機械翻訳システムでは、構文に関する情報の大部分を語彙的な性質として定義し、それを辞書に記述できるようにしている。これによって、これまでの辞書記述(解析情報や生成情報の記述)を拡大し、従来の単語単位の辞書登録だけでなく、決まりきった言い回しを含む、より広範囲にわたる辞書登録を可能にし、ユーザーが辞書の登録内容さえ変更すれば自分の望む翻訳を取得できる機械翻訳システムの実現することができるのである。
【0116】
また、辞書登録手段は、単語の意味属性、あるいは解析情報、あるいは生成情報が複数個ある場合に、適用すべき意味属性、あるいは解析情報、あるいは生成情報の優先順位を指定することができるようにすることができる。
【0117】
また、単語の意味属性、あるいは解析情報、あるいは生成情報が複数個ある場合に、最前に適用した意味属性、あるいは解析情報、あるいは生成情報を自動的に優先適用することもできる。
【0118】
以上が本発明の機械翻訳システムについての説明であった。以下は上記単語辞書の特徴を応用した漢字変換用フロントエンドプロセッサについて述べる。
【0119】
一般に、漢字変換用フロントエンドプロセッサは同音異義語の変換が困難である。
【0120】
従来の漢字変換用フロントエンドプロセッサは、単語の品詞と見出し語を登録した単語辞書と、同音異義語を変換するための文脈解析用辞書およびそのプログラムを有していた。
【0121】
これに対して、本発明による漢字変換用フロントエンドプロセッサは、単語辞書に単語のみならず、単語の意味属性、付属語および述語がとり得る単語の意味属性が登録されていることを特徴としている。
【0122】
たとえば”貴社の記者は、汽車で帰社した。”という文例を考える。この場合「きしゃ」が4つの異なる単語に漢字変換されなければならない。
【0123】
「貴社の」の「の」、「記者は」の「は」、「汽車で」の「で」、「帰社した」の「した」のように単語に付属して使用される語を「付属語」ということにする。付属語は、それが使用される単語の属性を示す役割を持っている。「〜の」は、帰属する相手を示す名詞に付属し、その名詞は人、組織、物、・・・の意味属性を有している。「〜は」は、主語を示す名詞に付属し、その名詞は人、組織、物、・・・の意味属性を有している。「〜で」は、手段を示す名詞に付属し、その名詞は物の意味属性を有している。「〜した」は、動作を示す動詞に付属する。
【0124】
一方、「貴社」は組織という意味属性、「記者」は人間という意味属性、「汽車」は乗り物という意味属性を有する名詞であり、「帰社」は動作を示し、人間という意味属性の主語を持つ。
【0125】
上記文例では、「帰社した」が述語になり、人間という意味属性を有する主語を持つ。これにより主語を示す「きしゃは」は「記者は」となり、その行動手段を示すものは「汽車で」となり、その記者の帰属する相手は「貴社の」となる。
【0126】
本発明による漢字変換用の単語辞書は、上述したように、単語に付随して意味属性その他漢字変換用の生成情報を登録している。このため、前述した機械翻訳システムの単語辞書と同様に、特定の漢字変換をさせるためのユーザーカスタマイズを容易に実現することができる。
【0127】
すなわち、ユーザーに単語の意味属性あるいは特定の用法における生成情報を登録・更新させる辞書登録手段を設けることにより、単語に任意の意味属性を持たせることができ、また、特定の付属語あるいは述語に対しては特定の漢字に変換させることができるのである。
【0128】
また、機械翻訳システムの場合と同様に、単語の意味属性と生成情報が複数個ある場合には、上記辞書登録手段により適用すべき意味属性と生成情報の優先順位を指定することができる。また、単語の意味属性と生成情報が複数個ある場合には、最前に適用した意味属性と生成情報を優先して適用するようにすることもできる。
【0129】
なお、本願出願人は、有効な「例文翻訳」を行うことができる機械翻訳システムを提供することを一つの目的としている。
【0130】
「例文翻訳」が提唱されたのは10年以上前にさかのぼるが、商用翻訳ソフトウェアに登場しだしたのは、まだここ2年程度のことである。本出願人が開発した「例文翻訳」は、既に翻訳をした結果を、原文と翻訳文を対にしてデータベースに蓄えておき、これとまったく同じ文が現れたときは、この訳を活用しようというものである。
【0131】
しかしながら、まったく同じ文が登場する確率は一般に低いので、その例文の一部が違っていてもその訳例を採用できるように、一部変数表現を許して、例文を登録することもできるなどの工夫をしている。この技術によって、従来の「文法規則」を核とした翻訳技術では正しい解が得られない文章や、機械翻訳が出す直訳調の表現ではなくもっと適切ななめらかな日本語表現を出したい場合などに、ユーザーは文単位で原文・訳文の対を例文データベースに登録することによって、辞書以外にも翻訳システムをカスタマイズしていける手段を持てるようになった。
【0132】
翻訳者が過去に翻訳した例文を例文データベースに蓄えておき、翻訳したい文と一致もしくは類似する文を、例文データベース中から探して表示し、その訳文を参照しながら人間翻訳を支援するというシステムは、「翻訳メモリ」というジャンルで、商品化されている。
【0133】
本出願人は、「翻訳メモリ」を機械翻訳の中に取り込み、「例文翻訳」と「従来のルールベースの翻訳」とを融合させたということで、「統合翻訳ソフトウェア」という表現で数年前から組み込んだ。これも、今後、マッチング技術や、類似文章の検索技術に加えて、より柔軟な変数表現を含む例文の拡張や、ユーザーにやさしい登録方法など、今後の改良課題は多いが、現状の機械翻訳ソフトウェアの壁を破るひとつの柱であると確信している。
【0134】
本出願人は、従来の「文法規則」を核にする翻訳技術から、最新の言語理論である HPSG(Head-driven Phrase Structure Grammar) 理論(「語彙理論」の中で代表的なもの)を基礎とした機械翻訳システムの開発に数年前から取り組んできた。目的は、翻訳の精度を高めると同時にユーザーカスタマイズの範囲を飛躍的に増大させるための「次世代翻訳技術」を構築するためである。
【0135】
【発明の効果】
以上詳細に説明したように、本発明によれば、以前翻訳した文章とよく似ているが微妙に違う文章を翻訳する際、以前翻訳した文章を参考にして訳文を生成する、いわゆる「自己学習型機械翻訳システム」の前段階として、これまでの辞書記述(単語−品詞−訳語)を拡大し、従来の単語単位の辞書登録だけでなく、単語ごとに解析情報や生成情報を単語辞書に記述するようにした。
【0136】
これにより、ユーザーは単語辞書の解析情報や生成情報に任意のルールを書き込めることができ、決まりきった言い回しを含む、より広範囲にわたる構文解析や翻訳文生成のカスタマイズを行うことができるようになった。
【0137】
このカスタマイズは、定義した単語の翻訳に使用が限定されるので、ユーザーが単語ごとに柔軟かつきめ細かい翻訳のカスタマイズをすることができる。
【0138】
また、解析情報に単語の意味属性を持たせることにより、主辞とそれに関係する単語を正しく選択することができ、これによって文法上あり得る複数の構文木から正しい構文木を選択することができるようになった。
【0139】
さらに、単語に付随して意味属性を登録し、付属語および述語がとり得る単語の意味属性を登録した単語辞書を備えた漢字変換用フロントエンドプロセッサによれば、単語同士の意味属性の関係から複数の同音異義語の中から正しい漢字変換を行うことができるようになった。
【図面の簡単な説明】
【図1】本発明に係る機械翻訳システムの一実施形態のブロック図。
【図2】構文素性の定義を示す図。
【図3】各単語の構文素性の記述例を示す図。
【図4】文法規則の一例を示す図。
【図5】 "go"の構文素性の記述例を示す図。
【図6】文法規則中の主語の条件を示す図。
【図7】 "I go"の主語の条件を示す図。
【図8】 "I go"の主語および主辞を示す図。
【図9】 "Time flies like an arrow."の"flies"を述語とした場合の構文木を示す図。
【図10】 "Time flies like an arrow."の"like"を述語とした場合の構文木を示す図。
【図11】生成木生成/変換の様子を示した図。
【図12】従来の機械翻訳システムの構成を示したブロック図。
【図13】従来の機械翻訳システムによる構文木の例を示した図。
【符号の説明】
1 機械翻訳システム
2 標準入力部
3 形態素解析機能部
4 構文解析機能部
5 訳語決定機能部
6 生成木生成/変形機能部
7 訳文生成機能部
8 標準出力部
9 単語辞書
10 文法データベース
Claims (5)
- 単語ごとに見出し語と、存在する場合の訳語と、文法上の属性と、単語が主辞となった場合に関係する対象の単語の意味属性と、主辞の関係対象となれる単語の意味属性からなる解析情報とを登録した単語辞書と、
主要な構文文法を記憶した文法データベースと、
文章を入力し、前記単語辞書と照合して形態素に分解する形態素解析機能部と、
前記形態素解析機能部によって分解された形態素のうちの単語群から主辞を抽出してその主辞の解析情報から前後の形態素の各単語の構文素性と適合するものを選択することによって構文木を決定する構文解析機能部と、
前記構文解析機能部が決定した構文木における各単語の対応する訳語を決定する訳語決定機能部と、
前記構文木の各単語に訳語を当てはめて訳文を生成する訳文生成機能部と、を有することを特徴とする機械翻訳システム。 - 前記単語辞書には、所定の単語がユーザー指定の条件を満たす場合の特別な翻訳ルールを記述した生成情報が登録されており、
前記翻訳ルールにより、前記構文解析機能部が決定した構文木を変形する生成木生成/変形機能部を有することを特徴とする請求項1に記載の機械翻訳システム。 - 単語の解析情報と、生成情報の少なくとも1つをユーザーに登録・更新させる辞書登録手段を有することを特徴とする請求項1または2に記載の機械翻訳システム。
- 単語の解析情報、あるいは生成情報が複数個ある場合には、適用すべき解析情報、あるいは生成情報の優先順位をユーザーが辞書登録手段を介して指定する単語辞書を有していることを特徴とする請求項1ないし3のいずれかに記載の機械翻訳システム。
- 前記構文解析機能部は、単語の解析情報、あるいは生成情報が複数個ある場合に、最前に適用した解析情報、あるいは生成情報を前記単語辞書から検索することを特徴とする請求項1ないし3のいずれかに記載の機械翻訳システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001005650A JP3892227B2 (ja) | 2000-10-24 | 2001-01-12 | 機械翻訳システム |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000-324325 | 2000-10-24 | ||
JP2000324325 | 2000-10-24 | ||
JP2001005650A JP3892227B2 (ja) | 2000-10-24 | 2001-01-12 | 機械翻訳システム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003356566A Division JP2004086919A (ja) | 2000-10-24 | 2003-10-16 | 機械翻訳システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002202967A JP2002202967A (ja) | 2002-07-19 |
JP3892227B2 true JP3892227B2 (ja) | 2007-03-14 |
Family
ID=26602672
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001005650A Expired - Fee Related JP3892227B2 (ja) | 2000-10-24 | 2001-01-12 | 機械翻訳システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3892227B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110955748B (zh) * | 2018-09-26 | 2022-10-28 | 华硕电脑股份有限公司 | 语意处理方法、电子装置以及非暂态电脑可读取记录媒体 |
-
2001
- 2001-01-12 JP JP2001005650A patent/JP3892227B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2002202967A (ja) | 2002-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20080040095A1 (en) | System for Multiligual Machine Translation from English to Hindi and Other Indian Languages Using Pseudo-Interlingua and Hybridized Approach | |
JPH03278174A (ja) | 異言語交信用翻訳方法およびシステム | |
WO2001029699A1 (en) | Method and system to analyze, transfer and generate language expressions using compiled instructions to manipulate linguistic structures | |
JP2000353161A (ja) | 自然言語生成における文体制御方法及び装置 | |
JP2006164293A (ja) | 自動自然言語翻訳 | |
KR20030094632A (ko) | 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치 | |
JP2003196280A (ja) | テキスト生成方法及びテキスト生成装置 | |
JP2004513458A (ja) | ユーザが変更可能な翻訳のウエイト | |
JPS6318458A (ja) | 感情情報抽出装置 | |
KR950013128B1 (ko) | 기계번역장치 및 방법 | |
JP3892227B2 (ja) | 機械翻訳システム | |
Gelbukh et al. | Automatic syntactic analysis based on selectional preferences | |
KR100327115B1 (ko) | 부분 대역 패턴 데이터베이스에 기반한 번역문 생성장치및 그 방법 | |
Seresangtakul et al. | Thai-Isarn dialect parallel corpus construction for machine translation | |
KR950013129B1 (ko) | 기계번역장치 및 방법 | |
JP4033093B2 (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム | |
JP2004086919A (ja) | 機械翻訳システム | |
Sankaravelayuthan et al. | A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam | |
Tohma et al. | Challenges Encountered in Turkish Natural Language Processing Studies | |
JPS61128372A (ja) | 英日機械翻訳装置 | |
Narayan et al. | Pre-Neural Approaches | |
JP4114580B2 (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム | |
Souter | A corpus-trained parser for systemic-functional syntax | |
Barker | Noun modifier relationship analysis in the TANKA system | |
KR20010028946A (ko) | 음성합성기의 문서해석기에서 사용되는 형태소 해석방법 및 그 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20030815 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061003 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20061206 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3892227 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091215 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313114 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091215 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101215 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101215 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111215 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121215 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131215 Year of fee payment: 7 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |