JP3892227B2

JP3892227B2 - 機械翻訳システム

Info

Publication number: JP3892227B2
Application number: JP2001005650A
Authority: JP
Inventors: 田哲夫上; 賀勝夫古
Original assignee: 株式会社クロスランゲ−ジ
Priority date: 2000-10-24
Filing date: 2001-01-12
Publication date: 2007-03-14
Anticipated expiration: 2021-01-12
Also published as: JP2002202967A

Description

【０００１】
【発明の属する技術分野】
本発明は、ある言語で記載された文章を他の言語に自動的に翻訳する機械翻訳システムに係り、特に、各単語に付随してその単語と他の単語との関係（解析情報）を単語辞書に記憶させ、主辞駆動句構造文法HPSG(Head-Driven Phrase Structure Grammar)理論に基づいて、主辞を中心として解析情報を用いて合理的な自動翻訳を行う機械翻訳システムに関する。
【０００２】
【従来の技術】
日本で商用の機械翻訳ソフトが登場して１５年が経過した。現在では、低価格の機械翻訳ソフトも数多く存在し、機械翻訳ソフトの普及も進んでいる。特に最近のインターネットブームも追い風となり、翻訳ソフトは急激に普及しつつあり、ビジネスアプリケーションソフトの中でもトップクラスの盛況をみせている。
【０００３】
しかしながら、現在の機械翻訳ソフトは、文章全体の大まかな意味を捉えるための「速読のためのツール」として利用されるのがほとんどであり、当初期待された「実用的な翻訳物の生産を支援するツール」としてはまだまだ完成度が低く、普及も遅れている。
【０００４】
近年、世界中で国際化・オープン化が急速に進んだことから、日本でも「実用的な翻訳物」を大量に生産しなければならない場面が増えている。そのため、これまでの機械翻訳ソフトのような大まかな意味が理解できる程度の訳文ではなく、原文に忠実で第三者にも正しく意味が伝わる訳文を生成し、本当の意味で「翻訳」を支援する、新しい機械翻訳ソフトの登場が期待されている。
【０００５】
一般に、翻訳ソフトウェアは、「単語辞書」と「文法データベース」と「プログラム」から構成されている。
【０００６】
「単語辞書」は、単語単位に品詞や訳語ほか、原文の解析やターゲット文の生成に必要な種々の情報をもっている。「文法データベース」は、単語の列が、文として成立するために、どういう品詞がどういう順序で登場し、どういう構文をなしているかを規則として記述している。「プログラム」は原文を入力し、これを文単位に「単語辞書」と「文法データベース」を使って、文の構造を決定し(「解析」フェーズ)、その構造に基づいてターゲット文を生成する(「生成」フェーズ)。
【０００７】
従来の機械翻訳ソフトの単語辞書には、単語の見出し語（つづり）、訳語、品詞等が登録され、一方、文法データベースには専ら品詞の結びつき方からなる種々の構文のパターン（文法規則）が登録されていた。
【０００８】
ここで、従来の機械翻訳システムの構成とその処理の流れについて説明する。
【０００９】
図１２は、従来の機械翻訳システムの構成とその処理の流れを示している。従来の機械翻訳システム１１は、標準入力部１２と、形態素解析機能部１３と、構文解析機能部１４と、訳語決定機能部１５と、生成木生成／変形機能部１６と、訳文生成機能部１７と、標準出力部１８とを備えている。
【００１０】
また、機械翻訳システム１１は、単語辞書１９と、文法データベース２０とを有している。
【００１１】
単語辞書１９には各単語の見出し語（つづり）、品詞（名詞、動詞、形容詞など）、訳語が記述されている。
【００１２】
文法データベース２０には品詞に関する構文のルール（文法規則）が記述されている。品詞に関する構文のルールとは、品詞の配列や出現パターンに構文パターンを対応させるルールである。文法規則の数はたとえば２０００ないし３０００に及ぶ。
【００１３】
従来の機械翻訳システム１１によれば、標準入力部１２により英文文字列を入力し、形態素解析機能部１３にその英文文字列を渡す。
【００１４】
形態素解析機能部１３は、単語辞書９を参照して英文文字列から単語を抽出し、それらの単語の品詞（名詞、動詞、形容詞、副詞など）の情報とともに構文解析機能部１４に渡す。
【００１５】
構文解析機能部１４は、英文文字列の単語の品詞配列と文法データベース２０から構文木を決定する。
【００１６】
たとえば、"This is a pen."という文では、"This"（名詞）、"is"（動詞）、"a"（冠詞）、"pen"（名詞）が形態素解析機能部１３によって抽出され、図１３に例示するこれらの品詞配列と一致する構文パターンが文法データベース２０から検索される。文法データベース２０には前述したように多数の品詞配列の構文パターンが記憶されており、入力した英文文字列の品詞配列と一致する構文パターンをパターンマッチングの方法により検索し、構文木を作成する。
【００１７】
構文解析機能部１４は、上述した方法によって得た構文木（構文解析データ）を訳語決定機能部１５に送る。
【００１８】
訳語決定機能部１５は、意味処理を行い構文木に対応する訳語を決定し、構文解析データと訳語データとを生成木生成／変形機能部１６に出力する。
【００１９】
生成木生成／変形機能部１６は、文法データベース２０を参照し、特定の翻訳ルールに従い日本語生成用構文木を生成して訳文生成機能部１７に出力する。
【００２０】
訳文生成機能部１７は、上記日本語生成用構文木の各単語を日本語に翻訳して日本語翻訳データ（和文文字列）を標準出力部１８を介して出力する。
【００２１】
【発明が解決しようとする課題】
上記従来の機械翻訳システムによる機械翻訳では、構文解析の決め手となっていたのは、文法データベースに登録された文法規則である。
【００２２】
この文法規則に漏れがあった場合はむろん最適な構文木を発見することはできなかった。また、たとえ文法規則に記述されていても、その文法規則に基づく解析で導かれる多数の解の中から最適な解を判別する手段がなかった。第１解として「正しい解釈」が選ばれなかったりすると、そのような文はいつでも誤った結果を出すことになった。この場合にはユーザーが単語辞書に単語をどう指定しようが、文法データベース自体が適当な構文木を生成しないので、適切な翻訳を得られないことになった。
【００２３】
つまり、従来の機械翻訳システムでは、「英文の解析」と「訳文の生成」に関して、システムにあらかじめ組み込まれた「文法カテゴリー」や「文法規則」に依存しており、解析や生成の主要な部分を文法規則が支配し、ユーザーが希望する訳を出すために変更（カスタマイズ）できるのは単語単位の辞書記述、たとえば特定の訳語を出力するようなカスタマイズだけであったため、対応可能な範囲には自ら限界があった。
【００２４】
ここで、上記従来の機械翻訳による翻訳の限界を一つの具体例をあげて説明ことにする。
【００２５】
今、“Time flies like an arrow.”という英文文字列を日本語に翻訳する場合を考える。
【００２６】
この英文文字列には“flies”（飛ぶ）と””like”（好む）の両単語が動詞となり得るので、これらの２つの単語が文章全体の述語に成り得る。
【００２７】
“flies”（飛ぶ）を述語とした場合、“Time flies like an arrow”は図９のような構文木となる。
【００２８】
図９の構文木においては、述語“flies”は、”Time”という主語を持ち、”like”以下は前置詞句と解され、前置詞”like”はかかる相手の単語（ここでは目的語という）を持ち、その目的語として””an arrow”があると解される。
【００２９】
このような構文木に解すると、入力された英文文字列“Time flies like an arrow.”は、“時間は矢のように飛ぶ。”（直訳）と翻訳される。
【００３０】
一方、“like”(好む)を述語とした場合、“Time flies like an arrow”は図１０のような構文木となる。
【００３１】
図１０の構文木においては、主辞“like”は、”Time flies”（時間ハエ）という主語を持ち、かつ、”an arrow”という目的語を持つ。
【００３２】
このような構文木に解すると、入力された英文文字列 “Time flies like an arrow.”は、“時間ハエは矢を好む。”と翻訳される。
【００３３】
従来の機械翻訳システムは、上述した両構文木のうち、ユーザーが望む構文木を選択することができなかった。
【００３４】
本発明が解決しようとする課題は、第一にユーザーが自由に「翻訳の仕方」をカスタマイズできる単語辞書を有する機械翻訳システムを提供することにある。
【００３５】
第二に本発明が解決しようとする課題は、文法からは複数あり得る構文木から最適な構文木を決定できる機械翻訳システムを提供することにある。
【００３６】
【課題を解決するための手段】
本願請求項１に係る機械翻訳システムは、
単語ごとに見出し語と、存在する場合の訳語と、文法上の属性と、他の単語との関係を示す解析情報とを登録した単語辞書と、
主要な構文文法を記憶した文法データベースと、
文章を入力し、前記単語辞書と照合して形態素に分解する形態素解析機能部と、
前記形態素解析機能部によって分解された形態素のうちの単語群から主辞を抽出して主辞の解析情報から前後の形態素の各単語の構文素性と適合するものを選択することによって構文木を決定する構文解析機能部と、
前記構文解析機能部が決定した構文木における各単語の対応する訳語を決定する訳語決定機能部と、
前記構文木の各単語に訳語を当てはめて訳文を生成する訳文生成機能部とを有することを特徴とするものである。
【００３７】
本願請求項２に係る機械翻訳システムは、請求項1のシステムにおいて、
前記単語辞書には、所定の単語がユーザー指定の条件を満たす場合の特別な翻訳ルールを記述した生成情報が登録されており、
前記翻訳ルールにより、前記構文解析機能部が決定した構文木を変形する生成木生成／変形機能部を有することを特徴とするものである。
【００３８】
本願請求項３に係る機械翻訳システムは、請求項１または２のシステムにおいて、
前記単語辞書には、単語の解析情報としてその語が主辞となった場合に関係する対象の単語の意味属性が登録されており、主辞の関係対象となれる単語の解析情報には意味属性が登録されていることを特徴とするものである。
【００３９】
本願請求項４に係る機械翻訳システムは、請求項１ないし３のいずれかのシステムにおいて、
単語の意味属性と、解析情報と、生成情報の少なくとも１つをユーザーに登録・更新させる辞書登録手段を有することを特徴とするものである。
【００４０】
本願請求項５に係る機械翻訳システムは、請求項１ないし４のいずれかのシステムにおいて、
単語の意味属性、あるいは解析情報、あるいは生成情報が複数個ある場合には、適用すべき意味属性、あるいは解析情報、あるいは生成情報の優先順位をユーザーが辞書登録手段を介して指定する単語辞書を有していることを特徴とするものである。
【００４１】
本願請求項６に係る機械翻訳システムは、請求項１ないし４のいずれかのシステムにおいて、
前記構文解析機能部は、単語の意味属性、あるいは解析情報、あるいは生成情報が複数個ある場合に、最前に適用した意味属性、あるいは解析情報、あるいは生成情報を前記単語辞書から検索することを特徴とするものである。
【００４６】
【発明の実施の形態】
以下、本発明に係る機械翻訳システムについて、図面を参照しながら具体的に説明する。
【００４７】
図１は本発明に係る機械翻訳システムの一実施形態のブロック図である。本発明は特定の言語間の翻訳に限られないが、ここでは理解を容易にするために英語から日本語に翻訳する場合の例を示している。したがって、下記の説明の「英語」および「日本語」の語は、翻訳すべき言語に応じて被翻訳言語および訳出言語に適宜読み替えられるものとする。
【００４８】
本発明に係る機械翻訳システムは、構成上従来の機械翻訳システムとほとんど同様の構成要素を有している。しかし、本発明に係る機械翻訳システムは、辞書の登録内容が従来の辞書のそれと大きく相違し、それに伴って構文解析および生成木生成／変形の方法が従来の機械翻訳システムと大きく相違する。
【００４９】
図１の機械翻訳システム１は、標準入力部２と、形態素解析機能部３と、構文解析機能部４と、訳語決定機能部５と、生成木生成／変形機能部６と、訳文生成機能部７と、標準出力部８とを備えている。
【００５０】
また、機械翻訳システム１は、単語辞書９と、文法データベース１０とを有している。
【００５１】
標準入力部２と標準出力部８は、公知の任意の入力手段と出力手段である。
【００５２】
本発明の単語辞書９は、単語ごとに見出し語と、存在する場合の訳語と、文法上の属性と、他の単語との関係を示す解析情報と、所定の条件を満たす場合の特別な翻訳ルールを記述した生成情報とを登録した辞書である。
【００５３】
「文法上の属性」とは品詞、数、人称、格等の情報をいう。「他の単語との関係を示す解析情報」とはある単語が主語としてどのような単語を必要とするか、あるいは補語としてどのような単語を必要とするか等を記述した情報をいう。「生成情報」は日本語として自然な翻訳を行うために、入力された文の単語が一定の配列条件を満たした場合に、それに対応した翻訳の仕方を記述した情報をいう。
【００５４】
なお、単語の見出し語、訳語、文法属性等は単語辞書９のコンテンツ部という部分に記憶され、解析情報は単語辞書９の解析用バイナリ部に記憶され、生成情報は単語辞書９の生成用バイナリ部に記憶されている。
【００５５】
本発明の文法データベース１０は、文型等の主要な構文の文法を記憶した辞書である。なお、従来の機械翻訳システムの文法データベースでは、種々の品詞・語型ごとの詳細かつ膨大な文法ルール（たとえば２０００〜３０００ルール）が記憶されていたのに対し、本発明の文法データベース１０には基本文型など、数十ルールが記憶されいるにすぎない。
【００５６】
形態素解析機能部３は、入力した文字列（文章）を引用符・括弧・ダッシュ・（これらをブロックデータという）と単語に分解する手段である。形態素解析機能部３は、入力された文字列からブロックデータを認識し、そのブロックデータやスペースによって単語を分割し、単語を抽出することができる。
【００５７】
なお、ブロックデータと単語とをまとめて本明細書では「形態素」ということにする。
【００５８】
形態素解析機能部３は、標準入力部２から英文文字列を入力し、上述したように入力した英文文字列から引用符・括弧・ダッシュからなるブロックデータリストを作成し、当該英文文字列からブロックデータリストを除いて分割された単語用文字列を抽出し、単語辞書９のコンテンツ部から各単語を検索し、各単語に対応する単語データを作成する。形態素解析機能部３は、単語データと最初に作成したブロックデータリストをまとめて形態素データとして構文解析機能部４に出力する。
【００５９】
構文解析機能部４は、形態素データから最適な構文木（文章構造すなわち単語の関係を表現したツリー構造）を決定する手段である。
【００６０】
構文解析機能部４は、形態素解析機能部３から形態素データを入力し、単語辞書９の解析用バイナリ部を参照して形態素データ中の単語データをすべて句構造データに変換する。ここで、「句」とは、名詞、形容詞、副詞等と同様の働きをするまとまった複数の単語である。「句」への変換に際しては、構文解析機能部４は、形態素解析機能部３から入力した形態素データに含まれるブロックデータリストに従い、指定されたブロック部分（引用符・括弧・ダッシュで囲まれた部分）がそれぞれ一つの句としてまとまるように解析を行う。
【００６１】
次に、構文解析機能部４は、上記句構造データと単語辞書９の解析用バイナリ部と文法データベース１０の情報とから構文解析を行って文全体の構文解析データ（構文木を表すデータ）を作成し、訳語決定機能部５に出力する。
【００６２】
この構文解析は、文の中心となる主辞（その文の動詞であることが多い）を中心に、その主辞となる単語に登録されている主語と述語や補語の文法上の関係（品詞、数、人称等）や意味属性（後述する）等の解析情報を用いて最適な構文を決定するプロセスである。この構文解析については後に具体例を挙げて再び説明する。
【００６３】
訳語決定機能部５は、構文解析データに適応する単語の訳語を決定する手段である。
【００６４】
訳語決定機能部５は、構文解析機能部４から構文解析データを入力し、文全体の構造と各単語の訳語選択情報に基づいてどの訳語を採用するか決定し、文に複数の解釈がある場合はそれぞれの解釈のウエイトを計算して最もウエイトの小さなものを解として選択し、構文解析データ及び訳語データを生成木生成／変形機能部６へ出力する。
【００６５】
生成木生成／変形機能部６は、特定の条件に当てはまる場合に、日本語として自然な翻訳を行えるように日本語翻訳用の生成木（日本語生成用構文木）を生成すべく、元の構文木を変形する手段である。
【００６６】
具体的には生成木生成／変形機能部６は、訳語決定機能部５から構文解析データ及び訳語データを入力し、それに含まれる単語の配列、態様等から単語辞書９の生成用バイナリ部に記載されている生成情報にしたがって日本語生成用構文木を作成し、あるいはよりわかりやすい日本語が生成されるように元の構文木を変形する。変形終了後の日本語生成用構文木は、生成木生成／変形機能部６によって訳文生成機能部７へ出力される。
【００６７】
訳文生成機能部７は、上記日本語生成用構文木に訳語を当てはめて日本語翻訳データ（和文文字列）を出力するための手段である。
【００６８】
具体的には訳文生成機能部７は、生成木生成／変形機能部６から日本語生成用構文木を入力し、単語辞書９に記載された訳語に従って和文文字列を作成し、これを標準入力部２へ出力する。
【００６９】
訳文生成機能部７は以下の要件を満たすものとする。
英語と１対１で対応しない情報（許可、義務のようなモダリティなど）が日本語の付加情報（付加の生成情報）という形で単語辞書９のコンテンツ部に記録されている。
【００７０】
また、単語辞書９の生成用バイナリ部には活用語の活用表が記述されており、活用語をどう活用させるかはこの活用表データに従う。また、この活用表には上述した付加情報によって活用語がどう変化するかも記述されている。
【００７１】
単語辞書９の生成用バイナリ部には、生成木の上下関係によって、各単語に付加すべき語（名詞に対する助詞など）のデータも記述されており、このデータに従って単語や句に付加すべき語を追加する。
【００７２】
なお、上記機械翻訳システム１の構成手段のうち、生成木生成／変形機能部６は、システムの目的に応じて省略することができる。たとえば、直訳や下訳のみを目的とする簡素なシステムでは、生成木生成／変形機能部６を適宜省略することができる。
【００７３】
また、上記機械翻訳システム１では、辞書をカスタマイズする手段を示していないが、単語辞書９をカスタマイズする辞書登録手段を適宜追加したシステムも本発明に含まれる。
【００７４】
また、単語辞書９の解析用バイナリ部は、主辞が関係する単語の文法上の属性のみを記載した記載したものと、主辞が関係する単語の意味上のカテゴリー（意味属性）をも付加したものとがあり得る。これらの単語辞書９及びそれを用いた翻訳の方法について具体例を用いて以下に説明する。
【００７５】
まず、HPSG理論の概要を説明する。HPSGは、Head-Driven Phrase Structure Grammar（主辞駆動句構造文法）の略である。この理論の中心となるのは、その名前が示す通り「Head＝主辞（文・句の中心となる語）」という概念である。HPSGでは、句あるいは文には必ずその中心となる語＝主辞があり、句の性質は句の主辞となる語に記述されているとする。
【００７６】
以下では、"I go."という文章を例にとって、主辞の概念を説明する。なおこの例では、構文の決定プロセスに意味属性の情報を用いない場合について説明する。
【００７７】
"I go."という文は単に「主語動詞」と並んでいる文章であるが、これが文として成立するのは、主辞である"go"という単語が「主語を持つ」という性質を有し、その主語の条件に"I"が適合する場合に限られる。本発明では、単語辞書９に、"go"という単語が主辞と成り得る単語であり、「主語を持つ」という性質を有していることが単語"go"に付随して記載されている。この「主語を持つ」という性質及び主語の条件が"go"の解析情報である。
【００７８】
同様にたとえば、"I see you."が文として成立するのは、主辞である"see"という単語が「主語を持つ」と「目的語を持つ」という両性質の双方を有し、その主語の条件に"I"が適合し、目的語の条件に"you"が適合する場合に限られる。この場合、"see"という単語が「主語を持つ」と「目的語を持つ」及び主語の条件と目的語の条件という解析情報は、単語辞書９の単語"see"に付随して記載されている。
【００７９】
"I go."の"I"が満たすべき「主語」の条件を具体的に記述するために、単語辞書９の各単語には「構文素性」というものが定義されている。構文素性は単語の文法上の属性、解析情報など、構文を構成する要素の性質を包含するものであり、「素性とその値の集合」という形式を持ち、例えば図２のように定義される。
【００８０】
図２では、左辺の「品詞」が素性（名）であり、右辺の「名詞、動詞…」が素性値となる（「{}」は、{}中の要素のどれか一つを値としてとることを意味する）。この定義に基づき、各単語の構文素性を図３のように記述することができる。
【００８１】
図３に"I go."の各単語がどのような構文素性を持つかを定義した「単語辞書」を示す。構文素性が複数ある場合は、これをスラッシュで区切って表現する。
【００８２】
"go"の「主語となる句=<…>」は、"go"の解析情報であり、一つの構文素性であってその語の主語の条件を指示する役割を持つ。なお、たとえば"go"の三単現形＝"goes"では、「主語となる句=<…>」の値は、"go"の「人称=一人称」から「人称=三人称」に変わる。
【００８３】
"I go"という文字列が文として成立するためには、"go"が持つ「主語となる句=<…>」の条件と"I"の構文素性値とが一致しなければならない。この制限を明示するために、図４のような文法規則を定義する。
【００８４】
図４の(1)式の「新しい句 → 句１句２」は、『新しく作られる句は、「句１句２」から構成される』ことを示しており、「句２[主語となる句=<主語の条件>] 」は『句２が持つ「主語となる句」という素性の値が「主語の条件」という変数で表わされる』ことを示している。
【００８５】
以下では、この文法規則がどのように適用されるかを説明する。"I go"という文字列をこの文法規則に当てはめると、句1 ="I"、句2 ="go"となる。"go"の解析情報は図５のように構文素性の形式で辞書に記述されている。
【００８６】
図５を文法規則中の「句２[主語となる句=<主語の条件>] 」に当てはめると、図６のようになる。文法規則の (2) if 以降は、それぞれの句の条件を示している。「句1 = 主語の条件」は、『句1 の構文素性と、「主語の条件」という変数に代入された構文素性が矛盾なく一致する』という条件を示している。
【００８７】
"I go"という文章では、図７の２つがまったく矛盾なく一致し、条件が満たされるので、この文法規則が成立することになる。
【００８８】
文法規則の (3) then 以降は、この文法規則の適用により、どのような句が作成されるかを示す。「新しい句:主語 = 句１」は『新しい句の「主語」が「句１」になる』ことを示し、「新しい句:主辞 = 句２」は『新しい句の「主辞」が「句２」となる』ことを示している。つまり、新しく作成される句（"I go"という文字列全体に対応する句）の「主語」の素性値は「句１＝"I"」の内容がそのまま入り、「主辞」の素性値は「句２＝"go"」の内容がそのまま入る。従って、"I
go"は図８のような構成の句として作成される。
【００８９】
このように、"I go."の例文では、"go"が一人称単数の名詞からなる主語を持ち、"I"が一人称単数の名詞であるということから、"I"が"go"の主語となって、主語＋動詞なる構文が決定された。
【００９０】
上記例の構文決定のプロセスではもっぱら単語の文法属性が判断基準とされている。次に意味属性をも判断基準とする構文解析を前出の“Time flies like an
arrow.”を例に説明する。
【００９１】
“Time flies like an arrow.”は、前述したように“flies”（飛ぶ）と””like”（好む）が主辞と成り得る。
【００９２】
“flies”（飛ぶ）を主辞とした場合、“Time flies like an arrow”は前述したように図９のような構文木となる。
【００９３】
図９の構文木においては、主辞“flies”は、”Time”という主語を持ち、”like”以下は前置詞句と解される。また、前置詞句の内部では、”like”はその目的語として””an arrow”を持つと解される。この場合、“Time flies like an arrow.”は、“時間は矢のように飛ぶ。”（直訳）と解釈される。
【００９４】
一方、“like”(好む)を主辞とした場合、“Time flies like an arrow”は図１０のような構文木となる。
【００９５】
図１０の構文木においては、主辞“like”は、”Time flies”（時間ハエ）という主語を持ち、””an arrow”という目的語を持つ。この場合、“Time flies like an arrow.”は、“時間ハエは矢を好む。”と解釈される。
【００９６】
このような２つの構文木に対しては、従来の機械翻訳システムは、これらの構文木がいずれも文法上あり得るため最適の構文木を選択することができなかったが、本発明においては単語辞書９は、“like”を主辞「好む」と解した場合は、その主語は「人を表す意味属性」を有することを“like”の解析情報として登録することができる。一方、”flies”を名詞（ハエ）と解した場合は、「昆虫を表す意味属性」を有することを”flies”の解析情報として登録することができる。
【００９７】
このため、図１０の構文木のように主語を”flies”（ハエ）（「昆虫を表す意味属性」を有する）とすると、主語”flies”の意味属性と主辞“like”の意味属性が一致しないことになる。これに対して、図９の構文木のように”flies”を主辞「飛ぶ」と解した場合は、このような意味属性の不一致は生じない。従って、本発明の機械翻訳システム１によれば、図１０の構文木を排除して図９の構文木を選択するようになる。
【００９８】
このように、従来の機械翻訳システムが最適な構文木を判断する手段を有していないのに比べて、本発明による機械翻訳システムでは適切な構文木を判断することができるのである。
【００９９】
最後に、本発明の生成木生成／変形機能について説明する。
【０１００】
HPSG は、主に「構文解析」を行うための理論であるが、本出願人は、その枠組みを利用して「構文解析」以外のモジュールも開発する。こうすることによって、従来の機械翻訳システムより細かい「構文解析」を行えることはもちろん、「訳語決定」のための文脈情報（「特定の修飾語に修飾されている」といった情報）や、「生成木生成／変形」のための原文と訳文の対応情報（「原文では形容詞だが、訳文では副詞になる」といった情報）なども辞書に記述できるようになり、従来の機械翻訳システムよりも細かい翻訳上の設定が可能となる。
【０１０１】
本実施形態の機械翻訳システム１は一定の条件のもとに自然な日本語への翻訳を行うための生成木生成／変形を行う。
【０１０２】
例えば"He is a good swimmer."という文について考える。
【０１０３】
図１１は、上記文例の生成木生成／変形、および、訳文生成の様子を示している。
【０１０４】
従来の機械翻訳システムでは、主語を"he"、動詞を"is"、補語を"a good swimmer"としてとらえ、「主語」は「補語」であるという生成方法により、「彼は、良い泳ぎ手である。」というような直訳調の訳文を生成していた。
【０１０５】
本発明の機械翻訳システム１では、HPSG理論に基づき、主辞を"is"とし、主語を"he"、補語を"a good swimmer"として構文解析する。
【０１０６】
次に、本発明の機械翻訳システム１によれば、"is"に関して単語辞書９の生成用バイナリ部に「補語の名詞に動詞に成り得る名詞（swimmer）が来て、かつ、それが形容詞（good）によって修飾されているとき、名詞を動詞表現で訳し、かつ、「のが」をつけて体言化し全体を”がが構文”で訳す」という生成情報が記載されていて、かつ"swimmer"の辞書記述に動詞訳「泳ぐ」が登録されていれば、図１１に示すように、名詞の動詞表現、形容詞の副詞表現に適当な生成木（日本語生成用構文木）を生成・変換する。
【０１０７】
次に、機械翻訳システム１はこの生成木に対して、訳語を適用し、「彼は泳ぐのがうまい」という訳文を生成するのである。
【０１０８】
上述した例のような生成情報を緻密に単語辞書９に記載することにより、従来の直訳調の翻訳文の不自然さを克服し、より自然な日本語翻訳文を生成することができる。
【０１０９】
本発明による機械翻訳システムは、上述したように単語辞書に、各単語について見出し語、訳語、文法属性、解析情報、生成情報等（構文素性）を記載している。
【０１１０】
このため、本発明による機械翻訳システムは、ユーザーが自由に翻訳のカスタマイズを行うための「辞書登録手段」を容易に備えることができる。
【０１１１】
すなわち、辞書登録手段により、単語辞書の単語の意味属性と、解析情報と、生成情報を登録・更新すれば、その単語はユーザーの指定したような意味属性と解析情報と生成情報を有するように働く。
【０１１２】
ここで、単語についてユーザーが登録した解析情報は当該単語の翻訳にのみ適用されることは、大きな利点を有する。
【０１１３】
すなわち、従来の機械翻訳システムでは、翻訳方法を規定するために文法規則を定義する必要がある。しかし、一旦文法規則を定義すると、目的とする単語の翻訳のみならず、すべての単語に当該文法規則が適用される。このようにすると、必ずしも望ましくない翻訳方法が思わぬところで適用される弊害があった。これに対して、本発明のように単語ごとに解析情報を定義する方法によれば、その解析情報は当該単語の翻訳にのみ適用されるので、きめ細かいユーザーカスタマイズを行うことができる。
【０１１４】
もともと言語は、ある単語がある単語と結びついて意味を作り上げていくといったほうが言語の特徴をとらえていると思われるが、このような語彙理論に基づく翻訳ソフトウェアは、まだ登場していなかった。本発明のHPSG理論に基づく方式では、文の構造の把握に用いる構文情報の大半を、「文法規則」ではなく「語彙」つまり「辞書」に記述できるようにした点に特徴がある。また、「訳語の選択」、「訳文の生成」についても、より精度を高めるため、今よりも詳しい生成規則を辞書上で記述可能とする。これによって、たとえ翻訳ソフトウェアが正しい翻訳を出せなかったとしても、ユーザーが辞書さえ修正すれば望んだ解析結果、訳語、訳文を得ることができる。その結果、ユーザーがカスタマイズできる範囲が従来より圧倒的に増し、「学習効果」の高い機械翻訳システムが実現できる。
【０１１５】
つまり、HPSG理論に基づいて開発した本発明の機械翻訳システムでは、構文に関する情報の大部分を語彙的な性質として定義し、それを辞書に記述できるようにしている。これによって、これまでの辞書記述（解析情報や生成情報の記述）を拡大し、従来の単語単位の辞書登録だけでなく、決まりきった言い回しを含む、より広範囲にわたる辞書登録を可能にし、ユーザーが辞書の登録内容さえ変更すれば自分の望む翻訳を取得できる機械翻訳システムの実現することができるのである。
【０１１６】
また、辞書登録手段は、単語の意味属性、あるいは解析情報、あるいは生成情報が複数個ある場合に、適用すべき意味属性、あるいは解析情報、あるいは生成情報の優先順位を指定することができるようにすることができる。
【０１１７】
また、単語の意味属性、あるいは解析情報、あるいは生成情報が複数個ある場合に、最前に適用した意味属性、あるいは解析情報、あるいは生成情報を自動的に優先適用することもできる。
【０１１８】
以上が本発明の機械翻訳システムについての説明であった。以下は上記単語辞書の特徴を応用した漢字変換用フロントエンドプロセッサについて述べる。
【０１１９】
一般に、漢字変換用フロントエンドプロセッサは同音異義語の変換が困難である。
【０１２０】
従来の漢字変換用フロントエンドプロセッサは、単語の品詞と見出し語を登録した単語辞書と、同音異義語を変換するための文脈解析用辞書およびそのプログラムを有していた。
【０１２１】
これに対して、本発明による漢字変換用フロントエンドプロセッサは、単語辞書に単語のみならず、単語の意味属性、付属語および述語がとり得る単語の意味属性が登録されていることを特徴としている。
【０１２２】
たとえば”貴社の記者は、汽車で帰社した。”という文例を考える。この場合「きしゃ」が４つの異なる単語に漢字変換されなければならない。
【０１２３】
「貴社の」の「の」、「記者は」の「は」、「汽車で」の「で」、「帰社した」の「した」のように単語に付属して使用される語を「付属語」ということにする。付属語は、それが使用される単語の属性を示す役割を持っている。「〜の」は、帰属する相手を示す名詞に付属し、その名詞は人、組織、物、・・・の意味属性を有している。「〜は」は、主語を示す名詞に付属し、その名詞は人、組織、物、・・・の意味属性を有している。「〜で」は、手段を示す名詞に付属し、その名詞は物の意味属性を有している。「〜した」は、動作を示す動詞に付属する。
【０１２４】
一方、「貴社」は組織という意味属性、「記者」は人間という意味属性、「汽車」は乗り物という意味属性を有する名詞であり、「帰社」は動作を示し、人間という意味属性の主語を持つ。
【０１２５】
上記文例では、「帰社した」が述語になり、人間という意味属性を有する主語を持つ。これにより主語を示す「きしゃは」は「記者は」となり、その行動手段を示すものは「汽車で」となり、その記者の帰属する相手は「貴社の」となる。
【０１２６】
本発明による漢字変換用の単語辞書は、上述したように、単語に付随して意味属性その他漢字変換用の生成情報を登録している。このため、前述した機械翻訳システムの単語辞書と同様に、特定の漢字変換をさせるためのユーザーカスタマイズを容易に実現することができる。
【０１２７】
すなわち、ユーザーに単語の意味属性あるいは特定の用法における生成情報を登録・更新させる辞書登録手段を設けることにより、単語に任意の意味属性を持たせることができ、また、特定の付属語あるいは述語に対しては特定の漢字に変換させることができるのである。
【０１２８】
また、機械翻訳システムの場合と同様に、単語の意味属性と生成情報が複数個ある場合には、上記辞書登録手段により適用すべき意味属性と生成情報の優先順位を指定することができる。また、単語の意味属性と生成情報が複数個ある場合には、最前に適用した意味属性と生成情報を優先して適用するようにすることもできる。
【０１２９】
なお、本願出願人は、有効な「例文翻訳」を行うことができる機械翻訳システムを提供することを一つの目的としている。
【０１３０】
「例文翻訳」が提唱されたのは１０年以上前にさかのぼるが、商用翻訳ソフトウェアに登場しだしたのは、まだここ２年程度のことである。本出願人が開発した「例文翻訳」は、既に翻訳をした結果を、原文と翻訳文を対にしてデータベースに蓄えておき、これとまったく同じ文が現れたときは、この訳を活用しようというものである。
【０１３１】
しかしながら、まったく同じ文が登場する確率は一般に低いので、その例文の一部が違っていてもその訳例を採用できるように、一部変数表現を許して、例文を登録することもできるなどの工夫をしている。この技術によって、従来の「文法規則」を核とした翻訳技術では正しい解が得られない文章や、機械翻訳が出す直訳調の表現ではなくもっと適切ななめらかな日本語表現を出したい場合などに、ユーザーは文単位で原文・訳文の対を例文データベースに登録することによって、辞書以外にも翻訳システムをカスタマイズしていける手段を持てるようになった。
【０１３２】
翻訳者が過去に翻訳した例文を例文データベースに蓄えておき、翻訳したい文と一致もしくは類似する文を、例文データベース中から探して表示し、その訳文を参照しながら人間翻訳を支援するというシステムは、「翻訳メモリ」というジャンルで、商品化されている。
【０１３３】
本出願人は、「翻訳メモリ」を機械翻訳の中に取り込み、「例文翻訳」と「従来のルールベースの翻訳」とを融合させたということで、「統合翻訳ソフトウェア」という表現で数年前から組み込んだ。これも、今後、マッチング技術や、類似文章の検索技術に加えて、より柔軟な変数表現を含む例文の拡張や、ユーザーにやさしい登録方法など、今後の改良課題は多いが、現状の機械翻訳ソフトウェアの壁を破るひとつの柱であると確信している。
【０１３４】
本出願人は、従来の「文法規則」を核にする翻訳技術から、最新の言語理論である HPSG（Head-driven Phrase Structure Grammar）理論（「語彙理論」の中で代表的なもの）を基礎とした機械翻訳システムの開発に数年前から取り組んできた。目的は、翻訳の精度を高めると同時にユーザーカスタマイズの範囲を飛躍的に増大させるための「次世代翻訳技術」を構築するためである。
【０１３５】
【発明の効果】
以上詳細に説明したように、本発明によれば、以前翻訳した文章とよく似ているが微妙に違う文章を翻訳する際、以前翻訳した文章を参考にして訳文を生成する、いわゆる「自己学習型機械翻訳システム」の前段階として、これまでの辞書記述（単語−品詞−訳語）を拡大し、従来の単語単位の辞書登録だけでなく、単語ごとに解析情報や生成情報を単語辞書に記述するようにした。
【０１３６】
これにより、ユーザーは単語辞書の解析情報や生成情報に任意のルールを書き込めることができ、決まりきった言い回しを含む、より広範囲にわたる構文解析や翻訳文生成のカスタマイズを行うことができるようになった。
【０１３７】
このカスタマイズは、定義した単語の翻訳に使用が限定されるので、ユーザーが単語ごとに柔軟かつきめ細かい翻訳のカスタマイズをすることができる。
【０１３８】
また、解析情報に単語の意味属性を持たせることにより、主辞とそれに関係する単語を正しく選択することができ、これによって文法上あり得る複数の構文木から正しい構文木を選択することができるようになった。
【０１３９】
さらに、単語に付随して意味属性を登録し、付属語および述語がとり得る単語の意味属性を登録した単語辞書を備えた漢字変換用フロントエンドプロセッサによれば、単語同士の意味属性の関係から複数の同音異義語の中から正しい漢字変換を行うことができるようになった。
【図面の簡単な説明】
【図１】本発明に係る機械翻訳システムの一実施形態のブロック図。
【図２】構文素性の定義を示す図。
【図３】各単語の構文素性の記述例を示す図。
【図４】文法規則の一例を示す図。
【図５】 "go"の構文素性の記述例を示す図。
【図６】文法規則中の主語の条件を示す図。
【図７】 "I go"の主語の条件を示す図。
【図８】 "I go"の主語および主辞を示す図。
【図９】 "Time flies like an arrow."の"flies"を述語とした場合の構文木を示す図。
【図１０】 "Time flies like an arrow."の"like"を述語とした場合の構文木を示す図。
【図１１】生成木生成／変換の様子を示した図。
【図１２】従来の機械翻訳システムの構成を示したブロック図。
【図１３】従来の機械翻訳システムによる構文木の例を示した図。
【符号の説明】
１機械翻訳システム
２標準入力部
３形態素解析機能部
４構文解析機能部
５訳語決定機能部
６生成木生成／変形機能部
７訳文生成機能部
８標準出力部
９単語辞書
１０文法データベース

Claims

単語ごとに見出し語と、存在する場合の訳語と、文法上の属性と、単語が主辞となった場合に関係する対象の単語の意味属性と、主辞の関係対象となれる単語の意味属性からなる解析情報とを登録した単語辞書と、
主要な構文文法を記憶した文法データベースと、
文章を入力し、前記単語辞書と照合して形態素に分解する形態素解析機能部と、
前記形態素解析機能部によって分解された形態素のうちの単語群から主辞を抽出してその主辞の解析情報から前後の形態素の各単語の構文素性と適合するものを選択することによって構文木を決定する構文解析機能部と、
前記構文解析機能部が決定した構文木における各単語の対応する訳語を決定する訳語決定機能部と、
前記構文木の各単語に訳語を当てはめて訳文を生成する訳文生成機能部と、を有することを特徴とする機械翻訳システム。
前記単語辞書には、所定の単語がユーザー指定の条件を満たす場合の特別な翻訳ルールを記述した生成情報が登録されており、
前記翻訳ルールにより、前記構文解析機能部が決定した構文木を変形する生成木生成／変形機能部を有することを特徴とする請求項１に記載の機械翻訳システム。
単語の解析情報と、生成情報の少なくとも１つをユーザーに登録・更新させる辞書登録手段を有することを特徴とする請求項１または２に記載の機械翻訳システム。
単語の解析情報、あるいは生成情報が複数個ある場合には、適用すべき解析情報、あるいは生成情報の優先順位をユーザーが辞書登録手段を介して指定する単語辞書を有していることを特徴とする請求項１ないし３のいずれかに記載の機械翻訳システム。
前記構文解析機能部は、単語の解析情報、あるいは生成情報が複数個ある場合に、最前に適用した解析情報、あるいは生成情報を前記単語辞書から検索することを特徴とする請求項１ないし３のいずれかに記載の機械翻訳システム。