JP4103311B2

JP4103311B2 - 自然言語処理装置及び方法

Info

Publication number: JP4103311B2
Application number: JP2000225911A
Authority: JP
Inventors: 美穂子北村; 稔樹村田; 美樹佐々木; さより下畑; 毅至福居; 正睦渕上
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2000-07-26
Filing date: 2000-07-26
Publication date: 2008-06-18
Anticipated expiration: 2020-07-26
Also published as: JP2002041512A

Description

【０００１】
【発明の属する技術分野】
本発明は自然言語処理装置及び方法に関し、例えば、翻訳パターンを利用して機械翻訳を行う機械翻訳装置や機械翻訳方法などに適用し得るものである。
【０００２】
【従来の技術】
従来型の機械翻訳装置において、システムやユーザが登録可能な翻訳知識（システム辞書やユーザ辞書）は、単語辞書、複数単語からなるイディオム、さらに、高性能なものでも「手を焼く」などの動詞と名詞の共起表現など、機械翻訳装置が予め決めている表現に限定されていた。これは、従来型の機械翻訳装置は、原言語の文法と辞書で原言語文を構文解析をし、変換辞書で言語変換し、目的言語の文法と辞書で目的言語文を生成するため、システムの文法に則った形式でしか、システムやユーザは翻訳辞書を登録できないためである。
【０００３】
さらに、原言語と目的言語は、個別に解析、生成されるため、翻訳知識としてユーザの直感に即した
”［名詞句］を次に示します。”
”Ｆｏｌｌｏｗｉｎｇｉｓ［名詞句］．”（名詞句は変数）（Ｐ１）のような原言語と目的言語の対から構成されるパターンに基づいた辞書も登録できない。
【０００４】
このような課題を解決したものとして、特開平５−２９００８２号公報に記載された翻訳パターンに基づく翻訳方法及び翻訳装置がある。この公報記載の発明は、翻訳知識を文脈自由文法の範囲内で表し、文法規則を原言語のパターンと目的言語のパターンとで対にしたものである。また、文法規則はトライ型の辞書に格納することにより、構文解析の速さを実用レベルにすることを可能にした。さらに、文法規則を原言語のパターンと目的言語のパターンとで対にしたことにより、同期導出が可能となり、言語変換、構文生成は簡単な処理だけで済むようになった。
【０００５】
これにより、ユーザの直感に即した上述したパターンＰ１のような原言語と目的言語の対から構成される翻訳パターンに基づいた辞書が登録できるようになり、文脈自由文法の範囲内なら任意の翻訳知識を登録でき、翻訳処理できるようになった。
【０００６】
【発明が解決しようとする課題】
しかしながら、上記公報では、複数の解（例えば構文解析結果）から最適な解を選ぶことについては、最小の構成数（パターン数）の解を選ぶとのみ記述されている。この場合には、構成数がパラメータとなっているので、構成要素の素性や構成要素間の関係を考慮した訳し分けを行うことができない。また、構成数（パターン数）が優先度を規定するものになっているが、単純なパラメータのため、優先度が正しくない恐れがある。
【０００７】
また、上記公報では、パターンに優先順位を付けても良いと記載されている。しかし、その明確な方式は示されておらず、どのようにパターンに優先順位を付与し、最適な解をとらえるかは開示されていない。
【０００８】
本発明は、以上の点を考慮してなされたものであり、適切な自然言語処理結果を選択し得る自然言語処理装置及び方法を提供しようとしたものである。
【０００９】
【課題を解決するための手段】
かかる課題を解決するため、第１の本発明は、単語、変数、又は、単語と変数の２以上の並びからなるパターン構成要素と、句構造規則での標識であるパターン名とを少なくとも有する自然言語パターンを利用して、処理対象の自然言語文に対する形態素解析結果に対する構文解析、又は、処理対象の原言語の自然言語文に対する構文解析結果に対する目的言語の構文生成の少なくとも一方を行う自然言語処理装置において、（１）予めパターン辞書に用意されている上記各自然言語パターンには、自然言語文の構文構造を表す木構造へ追加適用する際の優先度を表す情報を付与しておき、（２）パターン構成要素における単語又は変数の意味を限定する意味条件を一部の自然言語パターンに含め、パターン構成要素において、意味条件の有無だけが異なる自然言語パターンの間では、意味条件を有する自然言語パターンの優先度を高め、パターン名において、意味条件の有無だけが異なる自然言語パターンの間では、意味条件を持たない自然言語パターンの優先度を高めておくと共に、（３）形態素解析結果若しくは原言語の構文解析結果、及び、それまでのパターン適用処理の結果に基づき、予めパターン辞書に用意されている上記自然言語パターンから、構文解析又は構文生成時の処理における次に適用の可能性のある候補となる１以上の自然言語パターンを抽出する辞書引き手段と、（４）候補となっている上記自然言語パターンを、それに付与されている優先度の情報により評価するパターン評価手段と、（５）候補の自然言語パターンが、自然言語文の構文構造を表す、それまでに構築されている木構造に含まれている他の自然言語パターンのいずれとも矛盾しないで、それまでに構築されている木構造に追加し得るものであることを表す適合の有無を検査するパターン検査手段と、（６）適合する場合に、その自然言語パターンを構築中の木構造の要素として追加して適用するパターン適用手段とを有することを特徴とする。
【００１０】
第２の本発明は、単語、変数、又は、単語と変数の２以上の並びからなるパターン構成要素と、句構造規則での標識であるパターン名とを少なくとも有する自然言語パターンを利用して、処理対象の自然言語文に対する形態素解析結果に対する構文解析、又は、処理対象の原言語の自然言語文に対する構文解析結果に対する目的言語の構文生成の少なくとも一方を行う自然言語処理方法において、（１）予めパターン辞書に用意されている上記各自然言語パターンには、自然言語文の構文構造を表す木構造へ追加適用する際の優先度を表す情報を付与しておき、（２）パターン構成要素における単語又は変数の意味を限定する意味条件を一部の自然言語パターンに含め、パターン構成要素において、意味条件の有無だけが異なる自然言語パターンの間では、意味条件を有する自然言語パターンの優先度を高め、パターン名において、意味条件の有無だけが異なる自然言語パターンの間では、意味条件を持たない自然言語パターンの優先度を高めておくと共に、（３）形態素解析結果若しくは原言語の構文解析結果、及び、それまでのパターン適用処理の結果に基づき、予めパターン辞書に用意されている上記自然言語パターンから、構文解析又は構文生成時の処理における次に適用の可能性のある候補となる１以上の自然言語パターンを抽出する、辞書引き手段が実行する辞書引き工程と、（４）候補となっている上記自然言語パターンを、それに付与されている優先度の情報により評価する、パターン評価手段が実行するパターン評価工程と、（５）候補の自然言語パターンが、自然言語文の構文構造を表す、それまでに構築されている木構造に含まれている他の自然言語パターンのいずれとも矛盾しないで、それまでに構築されている木構造に追加し得るものであることを表す適合の有無を検査する、パターン検査手段が実行するパターン検査工程と、（６）適合する場合に、その自然言語パターンを構築中の木構造の要素として追加して適用する、パターン適用手段が実行するパターン適用工程とを有することを特徴とする。
【００１１】
【発明の実施の形態】
（Ａ）第１の実施形態
以下、本発明による自然言語処理装置及び方法を、機械翻訳装置及び機械翻訳方法に適用した第１の実施形態を図面を参照しながら詳述する。
【００１２】
（Ａ−１）第１の実施形態の構成
図１は、第１の実施形態の機械翻訳装置の機能的構成を示すブロック図である。なお、実際上は、例えば、パソコンなどの情報処理装置上に、処理プログラムや固定データなどがローディングされて、第１の実施形態の機械翻訳装置が構築される。
【００１３】
図１において、第１の実施形態の機械翻訳装置は、大きくは、入出力部１、翻訳処理部２及び辞書格納部３から構成される。
【００１４】
入出力部１は、キーボードやファイル読込装置等の入力部０１から翻訳対象となる入力文（原言語文）を受け付ける入力処理部１１と、翻訳した結果（目的言語文）をディスプレーやプリンタやファイル格納装置等の出力部０２に出力する出力処理部１２を有する。
【００１５】
翻訳処理部２は、入力文の形態素解析を行う形態素解析部２１、翻訳パターンを利用して原言語の構文解析を行う構文解析部２２、原言語の構文解析の結果に基づいて目的言語による構文の生成を行う構文生成部２３、及び、構文生成の結果に基づいて目的言語の形態素生成を行う形態素生成部２４からなる。
【００１６】
構文解析部２２は、パターン辞書引きを行う辞書引き部２２１と、辞書引きされたパターン（原言語パターン）を構築中の木構造に適合するかを検査するパターン検査部２２３と、その検査結果によってパターンを構築中の木構造に適用するパターン適用部２２４と、これらの処理部を呼び出し木構造を構築する構文解析器２２２とを有する。
【００１７】
辞書格納部３は、原言語の形態素情報が格納されている原言語形態素辞書３１、目的言語の形態素情報が格納されている目的言語形態素辞書３２、及び、原言語と目的言語のパターンの対からなる翻訳パターンが格納されている翻訳パターン辞書（システムパターン辞書）３３からなる。
【００１８】
（Ａ−２）第１の実施形態の動作
次に、第１の実施形態の機械翻訳装置の翻訳動作（第１の実施形態の機械翻訳方法）を説明する。ここで、図２が、第１の実施形態の機械翻訳装置の翻訳動作を示すフローチャートである。
【００１９】
なお、第１の実施形態の機械翻訳装置は１文を入力単位としている。また以下の説明においては、”Ｔｈｅｐｏｌｉｃｅｍａｎａｒｒｅｓｔｓｈｉｍ．”が入力された場合を例に動作を説明する。
【００２０】
ユーザが、上記入力文を入力部０１により入力すると、入力処理部１１が受け取り、翻訳処理部２の形態素解析部２１に渡す（ステップＳ２１）。形態素解析部２１は、原言語形態素辞書３１の情報を用いて、形態素解析処理を行う（ステップＳ２２）。
【００２１】
形態素解析結果は、図３に示すように、ルートノードを”Ｎｏｄｅ”とした木構造で表現される。複数候補がない形態素の場合には、ルートノードの直下に各形態素の標準形３−１と品詞や変化形などの形態素情報３−２とが付与される。一方、複数候補がある形態素の場合には、ｏｒノード３−３の子ノードとして各形態素候補の情報が付与される。例えば、”ａｒｒｅｓｔｓ”は、動詞及び名詞の品詞を取り得るので、複数候補を有する形態素であり、図３に示すように、各形態素候補の情報が付与される。
【００２２】
このような形態素解析結果が与えられた構文解析部２２は、この結果に対し、翻訳パターン辞書３３を用いて、構文解析処理を行う（ステップＳ２３）。
【００２３】
図４は、翻訳パターン辞書３３の格納内容（翻訳パターン）の一部を取り出して示したものである。
【００２４】
図４において、左側が英語パターンを表し、右側が日本語パターンを表し、これら英語パターン及び日本語パターンが対になっている。各言語のパターンは、
［言語名：パターン名パターン構成要素］
からなる。
【００２５】
言語名は、英語（ｅｎ）か日本語（ｊａ）かを規定する。
【００２６】
言語名に続くパターン名は、例えば、ＶＰ（動詞句）、ＮＰ（名詞句）、Ｎ（名詞）等の句構造規則での標識が適用される。
【００２７】
パターン構成要素は、単語、変数、又は、単語と変数の２以上の並び、からなる。変数は［任意の数字：パターン名（木構造の下位ノードに対応する）］で記述される。任意の数字部分は、対となっている原言語及び目的言語パターン間での対応関係を示すものである。構文解析においては、変数に、別のパターンが適用されることにより、パターンは入れ子構造をとることができる（変数が解消される）。また、単語及びパターン名は、符号４−１ａや４−１ｂが付された部分のように、意味情報などの詳細な情報（素性情報）を持つことができる。さらに、単語及びパターン名は、符号４−７ａが付された部分のように詳細情報を変数化して、情報の参照をすることもできる。
【００２８】
このような翻訳パターン（原言語パターン）を利用する第１の実施形態の構文解析処理は、図５のフローチャートに示すように、主として、３つの処理から構成され、ボトムアップに木構造を構築していくものである。
【００２９】
すなわち、構文解析が終了していないことを確認しつつ（ステップＳ５１）、パターン辞書引き処理（ステップＳ５２）、パターン検査処理（ステップＳ５３）及びパターン適用処理（ステップＳ５４）の３つの処理を繰り返し行う。
【００３０】
第１の処理であるパターン辞書引き処理（ステップＳ５２）は、形態素解析結果及びそれまでのパターン適用処理の結果から、次に適用の可能性のある翻訳パターンを翻訳パターン辞書３３から引く処理である。例えば、図３の”ｈｉｍ：品詞＝ｐｒｎ”（符号３−４）という形態素解析結果より、図４の符号４−４を付した翻訳パターン（原言語パターン）が翻訳パターン辞書３３から引かれる。
【００３１】
第２の処理であるパターン検査処理（ステップＳ５３）は、辞書引きの結果得られた翻訳パターンが現在構築中の木構造に適合するか否かを、各木構造毎に検査する処理である。
【００３２】
第３の処理であるパターン適用処理（ステップＳ５４）は、検査の結果、適合すると判定された木構造と翻訳パターンとに基づいて、木構造にそのパターンを実際に適用する処理である。
【００３３】
図６及び図７を用いて、上述のパターン検査処理及びパターン適用処理を具体的に説明する。
【００３４】
現在構築中の木構造が図６（ａ）であり、検査したい翻訳パターンが図６（ｃ）であったとする。変数のパターン名は、ＮＰ同士で同じであり、ＮＰがもつ詳細な情報も「意味＝人」で一致する。従って、図６（ｃ）に示す翻訳パターンは、図６（ａ）の木構造に適合するとパターン検査処理で判断され、パターン適用処理によって、その翻訳パターンが適用され、図７に示す木構造が構築される。
【００３５】
一方、現在構築中の木構造が図６（ｂ）であり、検査したい翻訳パターンが図６（ｃ）であった場合は、変数のパターン名は、ＮＰ同士で同じであっても、ＮＰの詳細情報（意味の情報）が異なるので、パターン検査処理で当該翻訳パターンは木構造に適合しないと判断され、当然に、パターン適用処理が実行されることもない。なお、図６（ｂ）において、「意味！＝人」は「意味が人ではない」を表している。すなわち、「！」は否定を表している。
【００３６】
入力文”Ｔｈｅｐｏｌｉｃｅｍａｎａｒｒｅｓｔｓｈｉｍ．”に対し、図４に示すような翻訳パターンを適用した構文解析結果は、図８に示すようになる。なお、この入力文に対しては、図４の翻訳パターン４−１、４−３〜４−７が適用される。
【００３７】
このような構文解析結果が構文生成部２３に与えられ、構文生成部２３によって、構文生成処理（図２のステップＳ２４）が実行される。この構文生成処理では、翻訳パターン辞書３３を参照し、原言語（英語）のパターンと対をなしている目的言語（日本語）のパターンを利用して、構文解析結果に対応する日本語の木構造を得る。図９は、上述した図８の構文解析結果に対応した構文生成結果（木構造）を示している。
【００３８】
なお、翻訳パターンは、原言語パターンと目的言語パターンとの対になっており、その対応が一意であるので、実際上は、構文解析処理と構文生成処理とがほぼ並行して実行される。また、構文解析結果に対し、パターンを用いない従前からの方法によって構文生成を行っても良い。
【００３９】
構文生成部２３が生成した木構造は形態素生成部２４に与えられ、形態素生成部２４は形態素生成処理を行う（ステップＳ２５）。形態素生成処理では、構文生成結果を、終端ノードに位置する日本語単語を左から順に並べ、各単語を目的言語形態素辞書３２を用いて、動詞の活用形を整えたりなど、各単語の整形を行う。その形態素生成結果（訳文）を出力処理部１２が受取り、出力部０２によって表示出力したり、ファイルに格納したりする（ステップＳ２６）。
【００４０】
上述した入力文”Ｔｈｅｐｏｌｉｃｅｍａｎａｒｒｅｓｔｓｈｉｍ．”に対しては、「警察官は彼を逮捕する。」という翻訳結果が得られる。
【００４１】
ここで、上記入力文とは目的語だけが異なる”Ｔｈｅｐｏｌｉｃｅｍａｎａｒｒｅｓｔｓｔｈｅｄｅｔｅｒｉｏｒａｔｉｏｎ．”が入力された場合を考える。
【００４２】
この場合には、目的語にくる名詞の意味が人以外であるので、「警察官は悪化を阻止する。」という翻訳結果が得られる。
【００４３】
なお、この入力文に対する構文解析では、図４の翻訳パターン４−２、４−３、４−５〜４−８が適用される。
【００４４】
すなわち、上述した図６（ａ）及び図６（ｂ）に対する構築中の木構造に対し、パターン４−８、４−６が入れ子に挿入された目的語（ＮＰ）が人以外を意味するパターン４−２との適合判断により、図６（ｂ）が適合すると判定される。その結果、パターン４−２の情報が盛り込まれた木構造が構文解析で得られ、これにより、ａｒｒｅｓｔの訳としてを阻止するが採用される。
【００４５】
以上のように、「意味＝人」や「意味！＝人」などのパターン適用条件を、パターンに盛り込んでおくことにより、同じ動詞などを使用した入力文に対して異なる訳語を与えることができる。
【００４６】
（Ａ−３）第１の実施形態の効果
第１の実施形態の機械翻訳装置及び方法によれば、以下の効果を奏することができる。
【００４７】
（ａ）変数による入れ子構造の翻訳パターンを作ることができるだけでなく、変数や単語に意味などのパターン適用条件を与えることによって、条件による訳し分けをすることができる。
【００４８】
従来の技術の項で言及した公報では、”ｃｌａｉｍｓ＄ａｎｄ＄”、”ｃｌａｉｍ＄”のように、条件に相当する情報を英語の表現レベルまで落していたが、この実施形態の場合には、英語の表現レベルまで落す必要はない。この実施形態では、”ｃｌａｉｍｓ［ＮＰ：数情報＝複数］”、”ｃｌａｉｍ［ＮＰ：数情報＝単数］”となる。
【００４９】
（ｂ）＝や！＝などパターン適用条件の記述が簡単であり、容易にパターンを作成することができる。例えば、目的語の意味が「人」ならば、訳はＡ、そうでないならば、訳はＢというように、記述形式が人間の直観に即した形式であり、翻訳パターンの作成が容易である。
【００５０】
（ｃ）”Ｉｇｉｖｅｔｈｅｓｅｂｏｏｋｓ．”は、構文的には、「私がこれらに本を与える。」と「私がこれらの本を与える。」の２通り存在するが、［ｅｎ：ＶＰｇｉｖｅ［１：ＮＰ：意味＝人］［２：ＮＰ］］という条件をもつパターンを登録することによって、前者の候補はあり得なくなる。このように、意味によるパターン適用条件をパターンに記述することによって、構文の曖昧性を削減することもできる。
【００５１】
（Ａ−４）第１の実施形態の変形実施形態
上記では、構文解析結果に曖昧性が存在しない例文を用いて説明した。しかし、曖昧性が存在する場合（構文解析結果にｏｒノードが生じる場合（第２の実施形態参照））にも、第１の実施形態を適用できる。例えば、ｏｒノードの子ノードのいずれか１つを選んで曖昧性のない構文解析結果を作ってそれを生成したり、又は、曖昧性をもったまま構文生成を行い、複数の翻訳結果を出力したりしても良い。
【００５２】
第１の実施形態の技術思想は、特定の言語に依存せず、どんな言語間の翻訳にも適用可能である。
【００５３】
上記では、目的格に位置する名詞の意味による動詞の訳し分けの例を示したが、逆に動詞が持っている意味によって、名詞を訳し分ける場合にも適用できることは勿論であり、また、目的格だけなく、主格による訳し分けも可能である。さらに修飾する語の意味や、前置詞句内の名詞句の意味による前置詞の訳し分け等、動詞や名詞以外の単語の訳し分けも可能である。さらに、名詞が単数形か複数形かによって名詞の訳語を決めるなど、意味以外のパターン適用条件による訳し分けも可能である。
【００５４】
パターン検査部などパターンに関する処理は、構文解析処理の外部に設けても良い（第４の実施形態参照）。
【００５５】
（Ｂ）第２の実施形態
次に、本発明による自然言語処理装置及び方法を、機械翻訳装置及び機械翻訳方法に適用した第２の実施形態を図面を参照しながら詳述する。
【００５６】
（Ｂ−１）第２の実施形態の構成
図１０は、第２の実施形態の機械翻訳装置の機能的構成を示すブロック図であり、上述した第１の実施形態に係る図１との同一、対応部分には同一符号を付して示している。
【００５７】
第２の実施形態の機械翻訳装置は、第１の実施形態の構成に加え、構文解析部２２内にパターン評価部２２５を備えている。
【００５８】
パターン評価部２２５は、複数候補のパターンが存在する場合に、それらパターンを適用した複数の木構造を評価し、木構造を絞り込むものである。
【００５９】
なお、翻訳パターン辞書３３に格納されている翻訳パターンも、第１の実施形態のものとは異なっている。この点については、動作の項で明らかにする。
【００６０】
（Ｂ−２）第２の実施形態の動作
この第２の実施形態においても、翻訳処理の全体の流れは、図２に示す通りであり、原文入力処理、形態素解析処理、構文解析処理、構文生成処理、形態素生成処理及び翻訳結果出力処理の順に実行される。
【００６１】
ここで、第２の実施形態は、第１の実施形態に比較して構文解析処理が異なっている。
【００６２】
図１１は、第２の実施形態の機械翻訳装置での構文解析処理を示すフローチャートであり、第１の実施形態に係る図５との同一、対応処理ステップには同一符号を付して示している。
【００６３】
第２の実施形態の場合、パターン辞書引き処理（ステップＳ５２）、パターン検査処理（ステップＳ５３）、パターン適用処理（ステップＳ５４）を順次行った後に、構築中の木構造ノードに対応して複数候補のパターンが存在するか否かを判別し（ステップＳ５５）、複数候補のパターンが存在した場合に、パターン評価処理（ステップＳ５６）を行なう。
【００６４】
新たに追加されたパターン評価処理の具体的な処理内容を説明する前に、図１２を参照して、この第２の実施形態の翻訳パターン辞書３３に格納されている翻訳パターンを説明する。
【００６５】
第２の実施形態の翻訳パターンは、先頭の”［”と末尾の”］”と挟まれている第１の実施形態と同様なパターンに加え、パターンの先頭に”！”が付与されたパターン１２−９やパターンの先頭に”＊”が付与されたパターン１２−１２がある。”！”や”＊”は、パターンの優先度を表すための特別な記号である。
【００６６】
図１３は、パターンの優先度を規定するファイルの例であり、翻訳パターン辞書３３又はパターン評価部２２が格納しているものである。ここでは、ファイルの先頭から順に優先度が高いことを示している。また、［］は記号が何もついていない場合の順位である。従って、この例での優先順位は”！”が付与されているパターン、優先度の記号なしのパターン、”＊”が付与されているパターンとなる。
【００６７】
図１２において、定冠詞の後に、名詞及び形容詞の両方を取り得る単語、さらに、名詞が続いている英語形態素列に関しては、２番目の単語を形容詞としたときには、パターン１２−９が適用され、２番目の単語を名詞としたときには、パターン１２−１０が適用される。図１２に示すように、パターン１２−９がパターン１２−１０より優先度が上げられているので、動作の詳細は後述するが、両パターンが適用可能な場合であれば、パターン１２−９が優先される。
【００６８】
また、図１２において、パターン１２−１１及びパターン１２−１２は共に文（Ｓ）に関するパターンであるが、意味条件が付されていない汎用的な方であるパターン１２−１２の優先度が低くなっている。動作の詳細は後述するが、意味条件が付されたパターン１２−１１が適用されない場合に、汎用的なパターン１２−１２が採用されることになる。
【００６９】
パターン評価処理（ステップＳ５６）では、このようなパターンの優先度を利用しながら複数候補のパターンが適用された複数の木構造の評価を行う。
【００７０】
図１４は、パターン評価処理の詳細を示すフローチャートである。パターン評価部２２４は、まず、ルートノードの詳細情報（パターン名の詳細情報）が一致している複数の木構造候補があるか、ある場合には、ルートノードに高い優先度が付いた木構造候補があるか否かを判別する（ステップＳ１４１）。ここで、高い優先度とは候補の中で相対的に高い優先度を言い、必ずしも”！”が付与されたものに限定されない。そして、高い優先度が付いた木構造候補あれば、その木構造候補以外を候補から外す（ステップＳ１４２）。また、パターン評価部２２４は、子ノードの構成要素が一致している複数の木構造候補があるか、ある場合には、子ノードに低い優先度が付与されている木構造があるか否かを判別する（ステップＳ１４３）。ここで、低い優先度とは候補の中で相対的に低い優先度を言い、必ずしも”＊”が付与されたものに限定されない。そして、低い優先度が付与されている木構造があれば、その木構造を候補から外す（ステップＳ１４４）。
【００７１】
次に、第２の実施形態の構文解析処理、特に、パターン評価処理について、入力文”Ｈｅａｒｒｅｓｔｓｔｈｅｐｒｅｓｅｎｔｄｅｔｅｒｉｏｒａｔｉｏｎ．”を例に説明する。この入力文に対する解析では、上述した図１２に示した翻訳パターンが適宜利用される。
【００７２】
図１５（ａ）及び（ｂ）はそれぞれ、入力文中の”ｔｈｅｐｒｅｓｅｎｔｄｅｔｅｒｉｏｒａｔｉｏｎ”の部分に対し、図１２に示すパターン１２−９及び１２−１０が適用されてできた候補（評価対象）としての木構造である。図１５（ａ）に示す木構造には、翻訳パターン１２−９に付与されている”！”の記号が付いている。パターン適用処理の終了後、図１５（ａ）及び（ｂ）に示すような木構造のルートノードが等しく、かつ木構造を構成している単語が等しい木構造が存在すれば、これらの木構造がパターン評価処理に渡される。
【００７３】
パターン評価処理では、図１３に示した優先度記号ファイルの内容を予め読み込んでおき、それに従って、パターンの適用を評価する。仮に、記号なしより高く評価したい記号がついた木構造が存在すれば、ルートノードがもつ詳細情報が等しいときのみ、最も高い記号をもつパターンのみを採用し、それ以外は構築途中の木構造の候補から削除する。
【００７４】
図１５の例の場合には、図１５（ａ）の木構造と図１５（ｂ）の木構造の詳細情報が等しいので、記号がついていない図１５（ｂ）の木構造は、優先度を高める記号が付いた図１５（ａ）の木構造より優先度が低いので、木構造の候補から削除される。
【００７５】
一方、図１６は、記号なしのパターンより優先度を下げる記号”＊”が付いている木構造を複数候補の中にもつ例である。優先度を下げる記号の評価の場合には、木構造の子ノードの構成要素が等しいことが条件となる。図１６（ａ）に示すものはパターン１２−１１が適用された記号なし木構造であり、図１６（ｂ）に示すものはパターン１２−１２が適用された優先度を下げる記号”＊”が付いた木構造であり、これら木構造は、子ノードの構成要素がＮＰ、ＶＰと等しく、かつ、図１６（ｂ）に示す木構造は”＊”が付いているので、この木構造が候補から外される。
【００７６】
図１７は、入力文”Ｈｅａｒｒｅｓｔｓｔｈｅｐｒｅｓｅｎｔｄｅｔｅｒｉｏｒａｔｉｏｎ．”に対する最終的な構文解析結果を示している。
【００７７】
この構文解析結果に対応する日本語木構造が構文生成処理で生成され、形態素生成処理を経て、最終的に、「彼は現在の悪化を阻止する。」の翻訳結果が出力される。
【００７８】
（Ｂ−３）第２の実施形態の効果
第２の実施形態の機械翻訳装置及び方法によれば、第１の実施形態と同様な効果を奏すると共に、さらに、以下ような効果をも奏する。
【００７９】
（ａ）構文的には正しい複数の木構造候補が存在する場合、その中のある木構造を優先的に適用させて翻訳したい場合がある。この第２の実施形態では、優先度を上げる記号”！”を優先的に適用させたいパターンに付与することで、これが実現できる。
【００８０】
（ｂ）木構造解析の途中で、パターンの条件は等しく、その優先度に差がある複数候補のパターンが存在した場合に、優先度が低いパターンをその候補から外すことにより、解析候補が減り、構文解析や構文生成にかかる処理時間を削減することができる。
【００８１】
（ｃ）優先度下げ記号が付いた意味条件がついていないパターンを登録することによって、意味条件が適用する場合には、意味条件がありのパターンのみが適用され、意味条件が適用しない場合にだけ、優先度下げ記号がついた意味条件なしのパターンに適用するようになる。これにより、常に意味条件なしのパターンを適用するという解析の無駄をなくすことができ、解析にかかる処理時間が削減される。さらに、意味条件を適用しない場合も、構文解析の失敗にならず、尤もらしい（汎用的な）訳語を得ることができる。
【００８２】
（ｄ）尤もらしい（汎用的な）訳語に対応したパターンに優先度を上げる記号を付与することで、意味条件がないパターンに適用する場合には、厳しい条件をもつ特殊な訳語ではなく、汎用的な訳語で翻訳することができる。
【００８３】
（Ｂ−４）第２の実施形態の変形実施形態
優先度を示す記号はどんな種類の記号（単なる記号だけでなく、数字や括弧の種類や文字列などを含む）であっても構わない。また、記号ではなく、他の形式の情報であっても良い。
【００８４】
優先度を上げる記号として、！と＋など複数設け、！を優先させるというように、優先度を順に複数用意することもできる。
【００８５】
（Ｃ）第３の実施形態
次に、本発明による自然言語処理装置及び方法を、機械翻訳装置及び機械翻訳方法に適用した第３の実施形態を図面を参照しながら詳述する。
【００８６】
（Ｃ−１）第３の実施形態の構成
図１８は、第３の実施形態の機械翻訳装置の機能的構成を示すブロック図であり、上述した第２の実施形態に係る図１０との同一、対応部分には同一符号を付して示している。
【００８７】
第３の実施形態の機械翻訳装置は、第２の実施形態の構成に加え、木構造評価部２５を備えている。
【００８８】
木構造評価部２５は、構文解析により完成した原言語の構文解析結果として複数の候補が存在した場合に、どの候補が最も適切かをパターンがもつ情報などによって評価（点数計算）して、最適な候補（木構造）を選択して構文生成部２３に与えるものである。又は、複数の候補を評価値順に並べ替えて構文生成部２３に与えるものである。
【００８９】
（Ｃ−２）第３の実施形態の動作
図１９は、第３の実施形態の機械翻訳装置の翻訳動作を説明するフローチャートであり、第１の実施形態に係る図５との同一、対応処理ステップには同一符号を付して示している。
【００９０】
この第３の実施形態においては、原文入力処理（ステップＳ２１）、形態素解析処理（ステップＳ２２）、構文解析処理（ステップＳ２３）、木構造評価処理（ステップＳ２７）、構文生成処理（ステップＳ２４）、形態素生成処理（ステップＳ２５）及び翻訳結果出力処理（ステップＳ２６）がこの順に実行される。すなわち、第１や第２の実施形態に比較して、木構造評価処理（ステップＳ２７）が増えている。
【００９１】
図２０は、木構造評価処理を示すフローチャートである。木構造評価部２５は、構文解析結果を受け取ると、これをボトムアップに処理して評価点を計算する。木構造評価部２５は、枝の先端側から非終端ノードを取り出しては（ステップＳ２００１）、それがｏｒノードかを判別し（ステップＳ２００２）、ｏｒノードでなければ現ノードの点数を計算し（ステップＳ２００５）、ｏｒノードであれば、子ノードの点数のうち最高点をノードの点数とした後（ステップＳ２００３）、点数順にノードを並び換える（ステップＳ２００４）。このような処理を、点数計算が終了していない非終端ノードがなくなるまで繰り返す。なお、具体的な点数の計算方法は後述する。
【００９２】
以下、木構造評価処理を、入力文”Ｉｔａｒｒｅｓｔｓａｎａｔｔｅｎｔｉｏｎ．”を例に具体的に説明する。
【００９３】
図２１は、この入力文に対する構文解析結果である。この図２１は、ｏｒノードが２個存在するので、４個の構文解析結果候補（４個の木構造をまとめて示している）を含んでいる。図２１において、点線で引き出された数字は木構造評価処理において計算された値であり、構文解析結果では含まれていない。なお、構文解析処理で用いられた翻訳パターン辞書３３は第２の実施形態のもの（図１２）に準じているとする。但し、優先度上げ記号として“！”と“＋”との２種類があり、前者が２段階の優先度上げを表し、後者が１段階の優先度上げを表しているとする。
【００９４】
図２２は、評価点の計算方法の定義ファイルを示している。評価点計算方法定義ファイルは、例えば、木構造評価部２５に格納されている。
【００９５】
評価点計算方法定義ファイルは、評価項目名フィールド２２１と、評価部分フィールド２２２と、評価点フィールド２２３とからなる。
【００９６】
評価項目名フィールド２２１には、パターンに係る優先度の上げ下げの記号“！”や“＋”や“＊”や“ｎｏｄｅ”（一般的な優先度ノード）だけでなく、「木構造の終端記号の数」を意味するｔｅｒｍｉｎａｌや、「ユーザ登録に係るもの」を意味するｕｓｅｒ（例えば形態素辞書やパターン辞書に対する登録）などの評価項目名が記述されている。
【００９７】
評価部分フィールド２２２には、自ノード（例えばｏｒノード）より下の枝の全てが評価部分であることを表すｔｏｔａｌや、自ノード（例えばｏｒノード）の直下の子ノードが評価部分であることを表すｃｈｉｌｄなどの評価部分が記述されている。
【００９８】
評価点フィールド２２３には、評価点が記述されている。ここで、評価部分がｔｏｔａｌであるものに対しては、該当する評価項目（例えば記号）の数（Ｎとする）に応じた計算式（例えば、１０００−１００Ｎ）で評価点が記述されている。なお、１０００−１００Ｎは、数学的には、１０００−１００×Ｎを意味している。評価部分がｃｈｉｌｄであるものに対しては、固定の評価点が記述されている。
【００９９】
図２２に示す評価点計算方法定義ファイルは、ユーザ登録に係る事項を最も評価し、次に、終端記号数を評価し、その後は、パターンの優先度の順位を評価するような構成となっている。なお、最高優先度記号“！”については、ｏｒノード直下でのノードに付されているか否かをも大きな評価ウェイトとしている。
【０１００】
上述した図２０に示した木構造評価処理において、ステップＳ２００５の点数計算は、評価点計算方法定義ファイルの規定内容に従ってなされる。
【０１０１】
図２１により具体的な評価点の計算方法を説明する。
【０１０２】
ノード２１−１の＋Ｎは、“＋”記号が付与されており、また、非終端記号数がａｔｔｅｎｔｉｏｎだけの１個であるので、図２２の定義ファイルにおける２２５及び２３０のレコードが適用されて評価点は９００００００１点となり、一方、ノード２１−２は、“＋”記号が付与されておらず、また、非終端記号数がａｔｔｅｎｔｉｏｎだけの１個であるので、図２２の定義ファイルにおける２２５のレコードが適用されて評価点は９０００００００点となる。その結果、次のｏｒノード２１−３では、高い方のノード２１−１の評価点が採用される。
【０１０３】
また、ノード２１−４のＶＰは“ａｒｒｅｓｔｓａａｔｔｅｎｔｉｏｎ”が一塊りであって終端記号数（終端ノード数）も子ノード数の１個であるので、ファイルのレコード２２５及び２２８が適用されて評価点は９００００９００点となり、一方、ノード２１−５のＶＰは、終端記号数（終端ノード数）が３個、子ノード数が４個、“＋”記号が枝の先端側に１個あるので、ファイルのレコード２２５、２２８及び２２１０が適用されて、評価点は７０００６０１点となる。その結果、次のｏｒノード２１−６ではノード２１−４の点数が採用される。
【０１０４】
以上のようにして、評価点の計算が終了すると、ノードの順番を点数順に並び変える。このようにして、並べ替えた後の木構造を図２３に示す。
【０１０５】
構文生成処理は、この木構造に対応する日本語（目的言語）での木構造を生成する。仮に、英語の木構造にｏｒノードがあれば、ｏｒノードの子ノードで最も先頭に位置する英語ノードに対応する日本語ノードのみが選ばれて、生成処理が行われる。その後、形態素生成処理が行われ、その結果、「それは興味を引く。」という翻訳結果が出力される。
【０１０６】
なお、仮に、ユーザが複数の翻訳結果候補を出力して欲しい場合には、ｏｒノードの子ノード全てに対応する日本語木構造を利用して構文生成、形態素生成処理を行う。この場合の翻訳結果は、「それは（興味を引く｜注意を阻止する）。」となる。この場合、前者の方がシステムは評価していることを示している。
【０１０７】
（Ｃ−３）第３の実施形態の効果
第３の実施形態の機械翻訳装置及び方法によれば、第１及び第２の実施形態と同様な効果を奏すると共に、これに加え、以下の効果を奏することができる。
【０１０８】
により以下の効果を有する。
【０１０９】
（ａ）木構造全体で、パターンに付与されている種々の優先度記号や、パターンの詳細情報を用いて評価することにより、よりきめ細かな訳し分けや構文解析との絡みによる訳し分けが可能となる。
【０１１０】
（ｂ）この第３の実施形態によれば、種々の優先度記号やパターン詳細情報の優先順位を決めておくことにより、優先順位に従った翻訳結果を期待でき、翻訳結果も予測しやすい。
【０１１１】
（ｃ）終端パターンの数など、優先度記号以外の条件も、同じ計算式で同時に評価することができる。
【０１１２】
（ｄ）例えば、“…ｔｏｄａｙ…”の解析結果において、名詞の候補しか存在しない場合は名詞として翻訳するが、名詞と副詞の両方の候補が存在した場合には、副詞として翻訳したい、というような場合、優先したい品詞（この場合副詞）のパターンに優先度を上げる記号を付与することで、多品詞の優先順位を制御することができる。
【０１１３】
（Ｃ−４）第３の実施形態の変形実施形態
第３の実施形態で用いる評価点の計算方法を制御する優先度記号は、第２の実施形態の優先度記号を併用してもかまわなく、また、異なるようにしても良い。前者の場合において、記号の付与によってパターン評価処理で候補を削減できるものは削減し、それ以外を点数計算で優先度を決めるという、１つの記号で二段階の優先度処理が行われることになる。上記説明は、このような場合を意識している。
【０１１４】
評価点の計算方法を規定する記号は、いくつ付与してもどんな種類であっても構わない。また、複数種類の記号を同時に付与することも可能である。
【０１１５】
点数の計算式及び各評価項目の配点は、どんな式でもどんな配点でも構わない。また、簡単に変更し得るようにしても良い。木構造全体の記号の数の優先順位より、ｏｒノード直下のノードに付与された記号の優先順位を高くするなど、木構造のレベルを考慮に入れた点数計算をすることも可能である。
【０１１６】
終端ノードの数だけでなく、他の木構造やパターンの特徴に従って優先度を決めることができる。例えば、第１の実施形態の目的語の名詞句の意味の数が少ないものほど優先するように、記号を付与すると、複数のパターンが条件に適用した場合でも、常に、条件の厳しいパターンが優先されて翻訳されるというように、翻訳結果の出力に一定の原則を与えることができる。
【０１１７】
（Ｄ）第４の実施形態
次に、本発明による自然言語処理装置及び方法を、機械翻訳装置及び機械翻訳方法に適用した第４の実施形態を図面を参照しながら詳述する。
【０１１８】
（Ｄ−１）第４の実施形態の構成
図２４は、第４の実施形態の機械翻訳装置の機能的構成を示すブロック図であり、第３の実施形態に係る図１８との同一、対応部分には同一符号を付して示している。
【０１１９】
第４の実施形態の機械翻訳装置は、パターン検査部２５１、パターン適用部２５２及びパターン評価部２５３の部分を構文解析部２２の外部に独立したパターン処理部２６として備え、構文生成部２３内の構文生成器２３１が利用し得るようにしている。
【０１２０】
すなわち、パターンの検査、適用、評価を構文解析時だけでなく、構文生成時も行うことができるようにしている。
【０１２１】
なお、翻訳パターンとして、同一の原言語パターンに対応する目的言語パターンが複数のこともある。また、図４では示していないが、目的言語パターンにもパターン適用条件などを当然に付与することができる。この第４の実施形態は、このようなことを前提としている。
【０１２２】
（Ｄ−２）第４の実施形態の動作
第４の実施形態が既述した実施形態と異なる動作は、構文生成処理である。そこで、以下では、図２５のフローチャートを参照しながら、第４の実施形態の構文生成処理での特徴的な処理を説明する。
【０１２３】
従来の方式では、英語（原言語）の木構造の構築とほぼ並行して日本語（目的言語）の木構造も構築されるため（単純なパターンを利用した木構造の置き換え）、特別な構文生成処理は行われない。そのため、日本語の木構造においてパターン適用条件のずれが生じてもそれを検知することができない。
【０１２４】
この第４の実施形態は、英語の木構造の構築とほぼ並行して構築される日本語の木構造において、複数候補ノードが発生した場合に、パターン検査処理、パターン適用処理、パターン評価処理を行うことによって、複数候補を解消しようとしたものである。英語の木構造に対して、例えば、日本語の木構造を従来の構文生成処理（パターンを用いた単純な置き換え）で得た仮りの日本語（目的言語）の木構造に対して、図２５が実行される。
【０１２５】
まず、構文生成器２３１は、ルートノードからトップダウンに仮の木構造から非終端記号を１個取り出し（ステップＳ２５０１）、それがｏｒノードか否かを判別する（ステップＳ２５０２）。
【０１２６】
ｏｒノードがあれば、ｏｒノードの子ノードのパターンと自ノードを含めた親の木構造をパターン検査部２２３に渡し、パターン検査処理及びパターン適用処理を実行させる（ステップＳ２５０３）。パターン検査処理が終了したときには、その検査結果に応じて、パターン適用部２２４によるパターン適用処理が実行される（ステップＳ２５０４）。その後、パターン適用処理によりｏｒノードが解消されたか否かを判別し（ステップＳ２５０５）、解消されていなければ、パターン評価部２２５にパターン評価処理を実行させる（ステップＳ２５０７）。
【０１２７】
取り出した非終端記号がｏｒノードでない場合には、そのノードをそのまま適用させる（ステップＳ２５０６）。
【０１２８】
このような処理を非終端記号が取り出せなくなるまで繰り返し、日本語（目的言語）の木構造を完成（生成）させる。
【０１２９】
なお、パターン検査処理、パターン適用処理及びパターン評価処理は、既述した実施形態とほぼ同様な処理である。
【０１３０】
以下、入力文“ｔｈｅｉｎｔｅｌｌｅｃｔｕａｌｗｏｍａｎ”を例に、第４の実施形態での構文生成処理を説明する。
【０１３１】
図２６（ａ）は、この入力文に対する構文解析結果（英語での木構造）を示し、図２６（ｂ）は、それに対応する日本語での木構造を示している。図２６（ｂ）の日本語木構造は英語木構造の対応結果から作られた仮りの木構造である。この仮の木構造に対して、上述した図２５に示す処理が実行される。
【０１３２】
図２６（ｂ）に示す木構造ではｏｒノードが含まれており、パターン検査処理やパターン適用処理が行われる。
【０１３３】
ここで、図２７（ｂ１）に示すような翻訳パターンが記述されている場合であって、パターン検査処理及びパターン適用処理に供する親の木構造が図２７（ａ）に示すような場合であれば、パターン検査でパターンは適合するという結果が得られ、図２７（ｂ１）の日本語パターンが適用される。その結果、ｏｒノードは解消されて次のノードに進む。
【０１３４】
しかし、図２７（ｂ２）に示すような翻訳パターンも、すなわち、日本語パターンが英語パターンに対応して２種類記述されている場合であって、両パターンが適用できる場合であれば、パターン評価処理が実行される。
【０１３５】
２種類の日本語パターンには優先度記号が付与されているので、ここで、１個に絞り込まれる。又は、優先順位が付与される。
【０１３６】
図２８は、上記入力文に対して優先順位を付与した場合の構文生成処理結果を示している。この結果が形態素生成部に渡されて、「理知的な女性」又は「理知的な女性｜知力を要する女性」の翻訳結果が得られる。
【０１３７】
（Ｄ−３）第４の実施形態の効果
第４の実施形態の機械翻訳装置及び方法によれば、既述した実施形態の効果に加えて、以下の効果を奏することができる。
【０１３８】
（ａ）原言語に関する情報だけでなく、目的言語の情報によっても訳し分けをすることができる。
【０１３９】
（ｂ）上記翻訳パターン辞書による双方向の翻訳を実施した場合、原言語、目的言語パターンの両方に優先度を付与することによって、それぞれの優先度を解析側、生成側で再び利用することができる。
【０１４０】
（Ｄ−４）第４の実施形態の変形実施形態
上記では、パターン生成時に複数候補を減らすという、第２の実施形態に類似の方式を説明したが、構文解析器は全ての候補を求め、その後、構文生成木の点数計算をするという第３の実施形態に類似した方式をとっても良い。また、両方の方式をとっても良い。
【０１４１】
原言語から目的言語の翻訳の逆（つまり目的言語から原言語への翻訳）を考えた場合、目的言語のパターンに付与した優先度は解析時に利用できる。その場合、原言語側のパターンに付与した優先度は、生成時に利用できる。
【０１４２】
（Ｅ）第５の実施形態
次に、本発明による自然言語処理装置及び方法を、機械翻訳装置及び機械翻訳方法に適用した第５の実施形態を図面を参照しながら詳述する。
【０１４３】
（Ｅ−１）第５の実施形態の構成
図２９は、第４の実施形態の機械翻訳装置の機能的構成を示すブロック図であり、第４の実施形態に係る図２４との同一、対応部分には同一符号を付して示している。
【０１４４】
この第５の実施形態は、入出力部１に、ユーザの入力する翻訳パターンを受け付けるユーザ辞書登録処理部１３を備え、また、辞書格納部３にその翻訳パターンを格納するユーザパターン辞書３４を備えている。すなわち、ユーザ登録（削除）機能を搭載したものである。
【０１４５】
そのため、構文解析部２２などは、システムパターン辞書３３とユーザパターン辞書３４の両方を参照することになる。
【０１４６】
（Ｅ−２）第５の実施形態の動作
ユーザ登録に係るものが翻訳パターンであるため、条件等の詳細な情報の直接的な登録は専門知識が必要とされるが、ユーザインターフェース等を備えることにより、単語（形態素）その他の要素の登録と同様な処理により登録することができる。但し、以下のような点が異なっている。
【０１４７】
”Ｆｏｌｌｏｗｉｎｇｉｓ［名詞句］”を“［名詞句］を次に示します。”をユーザが登録する場合について説明する。
【０１４８】
この場合の翻訳パターンは、
［ｅｎ：Ｓ［ｆｏｌｌｏｗｉｎｇｉｓ［１：ＮＰ］．］
［ｊａ：Ｓ［１：ＮＰ］を次に示します。］となる。
【０１４９】
仮に、名詞句に位置する単語が人以外の場合のみこのパターンを適用したい場合には、［ｅｎ：Ｓ［ｆｏｌｌｏｗｉｎｇｉｓ［１：ＮＰ：意味！＝人］．］［ｊａ：Ｓ［１：ＮＰ］を次に示します。］というように意味条件も記述して登録する。この場合において、ユーザによる任意の入力を待ち受けるだけでなく、ユーザ辞書登録処理部１３が、例えば、ＮＰなどの場合に条件設定を行うか否かを問うメッセージや、条件の設定例などを表示して、条件を取り込むようにしても良い。
【０１５０】
また、ユーザ登録に係るパターンには、最高の優先度上げ記号を常に付加して登録することにする。
【０１５１】
さらに、上述したように、図２２の評価点計算方法定義ファイル（第３の実施形態に係る）では、ｕｓｅｒという評価項目名のレコード２２１に最も高い評価点を付与するようにしており、木構造の評価時にユーザパターン辞書のパターンに係るものが最優先され、その翻訳結果が得られる。
【０１５２】
ここで、ｕｓｅｒはユーザパターンを示し、ｃｈｉｌｄは子ノードの直下を示す。レコード２２−１は、ｏｒノード直下のユーザパターンに対し、最高点（１００００００００点）を与える、を意味する。これにより、ユーザパターンは、全ての候補に対して、優先度が高くなり、ユーザが登録したパターンは、必ず翻訳結果に反映されるようになる。
【０１５３】
（Ｅ−３）第５の実施形態の効果
第５の実施形態の機械翻訳装置及び方法によれば、既述した実施形態の効果に加えて、以下の効果を奏することができる。
【０１５４】
（ａ）ユーザが作成する翻訳パターン辞書にも、変数に意味やその他の条件を付与することができる。これにより、一般化したパターンによる登録ができ、登録するパターン数は少なくて済む。
【０１５５】
（ｂ）ユーザパターン毎に優先度記号を付与することも可能であり、ユーザによる訳語や訳文の制御も可能である。
【０１５６】
（ｃ）ユーザパターンに係る評価点も他のパターンに対する計算と同じ点数計算で行うため、ユーザパターン辞書の優先度（優先度記号）などの変更にも容易に対応することができる。
【０１５７】
（ｄ）ユーザは、候補訳語を全て出力することによって、ユーザパターンを用いない翻訳結果もユーザパターンを用いた翻訳と同時に得ることができる。
【０１５８】
（Ｅ−４）第５の実施形態の変形実施形態
第５の実施形態では、ユーザパターン辞書を最優先にしたが、最少ノード数を優先し、次に、ユーザパターンを優先する等、優先順位は、適宜変更することができる。
【０１５９】
複数のユーザパターン辞書を作成して、それぞれの辞書に優先順位を付けることができる。
【０１６０】
ユーザパターン辞書においても優先度を上げたり、下げたりする記号を付与することができる。（その場合は、ユーザパターン辞書内における優先順位付けとなる。）
ユーザパターン辞書入力処理部において、ユーザは、［ｅｎ：…］［ｊａ：…］などのような翻訳パターンを直接入力するのではなく、パターン名、単語と変数を簡単に入力するユーザインターフェースを設けることにより、ユーザパターン辞書の作成を容易にすることができる。
【０１６１】
第５の実施形態では、ユーザパターンの評価を木構造評価部で行うことによってユーザパターン辞書を優先して翻訳する方式を示したが、パターン評価部において、ユーザパターンとそれ以外の候補が存在した場合、ユーザパターンを適用して、それ以外の候補は適用しないという方式でも実現可能である（第２の実施形態参照）
（Ｆ）他の実施形態
本発明の技術思想の適用対象は、機械翻訳装置や方法に限定されず、自然言語パターンを利用して構文解析を行う自然言語処理装置及び方法や、自然言語パターンを利用して構文生成を行う自然言語処理装置及び方法に適用することができる。
【０１６２】
この場合において、構文解析を自然言語パターンを利用して行い、構文生成は自然言語パターンを利用しない方法で行うものであっても良く、その逆であっても良い。また、構文解析のみを必要とし、構文生成を実行しない装置や、その逆の装置などにも本発明を適用することができる。
【０１６３】
【発明の効果】
以上のように、本発明によれば、適切な自然言語処理結果を提供し得る自然言語処理装置及び方法を実現できる。
【図面の簡単な説明】
【図１】第１の実施形態の機械翻訳装置の機能的構成を示すブロック図である。
【図２】第１の実施形態の機械翻訳装置の翻訳動作を示すフローチャートである。
【図３】第１の実施形態の形態素解析結果例を示す説明図である。
【図４】第１の実施形態の翻訳パターン辞書３３の格納内容例を示す説明図である。
【図５】第１の実施形態の構文解析処理の詳細を示すフローチャートである。
【図６】第１の実施形態の構文解析処理のパターン検査処理及びパターン適用処理の具体例の説明図である。
【図７】図６のパターン適用処理後の木構造を示す説明図である。
【図８】第１の実施形態の入力文例に対する構文解析結果を示す説明図である。
【図９】図８の構文解析結果に対する構文生成結果を示す説明図である。
【図１０】第２の実施形態の機械翻訳装置の機能的構成を示すブロック図である。
【図１１】第２の実施形態の構文解析処理の詳細を示すフローチャートである。
【図１２】第２の実施形態の翻訳パターン辞書３３の格納内容例を示す説明図である。
【図１３】第２の実施形態のパターンの優先度記号ファイルを示す説明図である。
【図１４】第２の実施形態のパターン評価処理の詳細を示すフローチャートである。
【図１５】第２の実施形態のパターン評価処理の対象となる木構造候補を示す説明図（１）である。
【図１６】第２の実施形態のパターン評価処理の対象となる木構造候補を示す説明図（２）である。
【図１７】第２の実施形態の構文解析結果の例を示す説明図である。
【図１８】第３の実施形態の機械翻訳装置の機能的構成を示すブロック図である。
【図１９】第３の実施形態の機械翻訳装置の翻訳動作を示すフローチャートである。
【図２０】第３の実施形態の木構造評価処理を示すフローチャートである。
【図２１】第３の実施形態の木構造評価処理に供する構文解析結果例を示す説明図である。
【図２２】第３の実施形態の木構造の評価点計算方法定義ファイルを示す説明図である。
【図２３】第３の実施形態の木構造評価処理語の構文解析結果を示す説明図である。
【図２４】第４の実施形態の機械翻訳装置の機能的構成を示すブロック図である。
【図２５】第４の実施形態の構文生成処理の特徴処理を示すフローチャートである。
【図２６】第４の実施形態の構文生成処理の特徴処理を行う前の木構造を示す説明図である。
【図２７】第４の実施形態のパターン検査処理及びパターン適用処理の説明図である。
【図２８】第４の実施形態の構文生成結果例を示す説明図である。
【図２９】第５の実施形態の機械翻訳装置の機能的構成を示すブロック図である。
【符号の説明】
１…入出力部、
２…翻訳処理部、
３…辞書格納部、
１３…ユーザ辞書登録処理部、
２１…形態素解析部、
２２…構文解析部、
２３…構文生成部、
２４…形態素生成部、
２５…木構造評価部、
２６…パターン評価部、
２２１…辞書引き部、
２２３、２６１…パターン検査部、
２２４、２６２…パターン適用部、
２２５、２６３…パターン評価部、
３３…翻訳パターン辞書（システムパターン辞書）、
３４…ユーザパターン辞書。

Claims

単語、変数、又は、単語と変数の２以上の並びからなるパターン構成要素と、句構造規則での標識であるパターン名とを少なくとも有する自然言語パターンを利用して、処理対象の自然言語文に対する形態素解析結果に対する構文解析、又は、処理対象の原言語の自然言語文に対する構文解析結果に対する目的言語の構文生成の少なくとも一方を行う自然言語処理装置において、
予めパターン辞書に用意されている上記各自然言語パターンには、自然言語文の構文構造を表す木構造へ追加適用する際の優先度を表す情報を付与しておき、
パターン構成要素における単語又は変数の意味を限定する意味条件を一部の自然言語パターンに含め、パターン構成要素において、意味条件の有無だけが異なる自然言語パターンの間では、意味条件を有する自然言語パターンの優先度を高め、パターン名において、意味条件の有無だけが異なる自然言語パターンの間では、意味条件を持たない自然言語パターンの優先度を高めておくと共に、
形態素解析結果若しくは原言語の構文解析結果、及び、それまでのパターン適用処理の結果に基づき、予めパターン辞書に用意されている上記自然言語パターンから、構文解析又は構文生成時の処理における次に適用の可能性のある候補となる１以上の自然言語パターンを抽出する辞書引き手段と、
候補となっている上記自然言語パターンを、それに付与されている優先度の情報により評価するパターン評価手段と、
候補の自然言語パターンが、自然言語文の構文構造を表す、それまでに構築されている木構造に含まれている他の自然言語パターンのいずれとも矛盾しないで、それまでに構築されている木構造に追加し得るものであることを表す適合の有無を検査するパターン検査手段と、
適合する場合に、その自然言語パターンを構築中の木構造の要素として追加して適用するパターン適用手段と
を有することを特徴とする自然言語処理装置。
予めパターン辞書に用意されている全て又は一部の上記自然言語パターンについて、パターン名又はパターン構成要素の少なくとも一方について、当該自然パターンを木構造の要素として追加して適用するための条件であるパターン適用条件を持たせておき、
上記パターン検査手段が、候補の自然言語パターンのパターン適用条件をも参照して木構造に適合しているか否かを検査する
ことを特徴とする請求項１に記載の自然言語処理装置。
パターン適用条件の１つとして、パターン構成要素における単語又は変数の意味を限定する意味条件に関する情報があり、意味条件に関する情報を有する複数の自然言語パターンのうちに、意味に関する情報のみが異なる複数の自然言語パターンを用意しておき、
上記パターン検査手段及び上記パターン適用手段の処理を通じて、意味条件を満たす自然言語パターンを優先して適用した木構造を決定する
ことを特徴とする請求項２に記載の自然言語処理装置。
上記パターン評価手段は、木構造への適用に関し、パターン名及びそのパターン適用条件が同じであって優先度の情報が異なる複数の自然言語パターンの候補が存在した場合に、優先度が最も高い自然言語パターンの侯補以外を候補から除くことを特徴とする請求項１に記載の自然言語処理装置。
上記パターン評価手段は、木構造への適用に関し、パターン名及びパターン構成要素が同じであって優先度の情報が異なる複数の自然言語パターンの候補が存在した場合に、通常優先度より相対的に低い優先度の自然言語パターンを候補から除外することを特徴とする請求項１又は４に記載の自然言語処理装置。
構文解析又は構文生成で得られた木構造が複数の木構造である場合に、各木構造を評価し得る評価配点方法であって、複数の木構造で異なっている部分木に適用された自然言語パターンでの優先度の情報をも利用している評価配点方法に従って、複数の木構造の優劣を評価する木構造評価手段を有することを特徴とする請求項１、４又は５に記載の自然言語処理装置。
上記木構造評価手段は、木構造に適用された自然言語パターンでの優先度の情報に加え、複数の木構造で異なっている部分木を構成する終端記号の多少をも評価配点方法に反映させていることを特徴とする請求項６に記載の自然言語処理装置。
上記木構造評価手段は、木構造に適用された自然言語パターンでの優先度の情報に加え、所定の優先度に係るノードの位置をも評価配点方法に反映させていることを特徴とする請求項６又は７に記載の自然言語処理装置。
自然言語パターンのユーザ登録手段を有することを特徴とする請求項１〜８に自然言語処理装置。
ユーザ登録の自然言語パターンにシステム登録の自然言語パターン以上の優先度を付与することを特徴とする請求項９に記載の自然言語処理装置。
構文解析又は構文生成で得られた木構造が複数の木構造である場合に、複数の木構造で異なっている部分木において、ユーザ登録に係る自然言語パターンを適用された部分木を有する木構造を最優先する木構造評価手段を有することを特徴とする請求項９又は１０に記載の自然言語処理装置。
単語、変数、又は、単語と変数の２以上の並びからなるパターン構成要素と、句構造規則での標識であるパターン名とを少なくとも有する自然言語パターンを利用して、処理対象の自然言語文に対する形態素解析結果に対する構文解析、又は、処理対象の原言語の自然言語文に対する構文解析結果に対する目的言語の構文生成の少なくとも一方を行う自然言語処理方法において、
予めパターン辞書に用意されている上記各自然言語パターンには、自然言語文の構文構造を表す木構造へ追加適用する際の優先度を表す情報を付与しておき、
パターン構成要素における単語又は変数の意味を限定する意味条件を一部の自然言語パターンに含め、パターン構成要素において、意味条件の有無だけが異なる自然言語パターンの間では、意味条件を有する自然言語パターンの優先度を高め、パターン名において、意味条件の有無だけが異なる自然言語パターンの間では、意味条件を持たない自然言語パターンの優先度を高めておくと共に、
形態素解析結果若しくは原言語の構文解析結果、及び、それまでのパターン適用処理の結果に基づき、予めパターン辞書に用意されている上記自然言語パターンから、構文解析又は構文生成時の処理における次に適用の可能性のある候補となる１以上の自然言語パターンを抽出する、辞書引き手段が実行する辞書引き工程と、
候補となっている上記自然言語パターンを、それに付与されている優先度の情報により評価する、パターン評価手段が実行するパターン評価工程と、
候補の自然言語パターンが、自然言語文の構文構造を表す、それまでに構築されている木構造に含まれている他の自然言語パターンのいずれとも矛盾しないで、それまでに構築されている木構造に追加し得るものであることを表す適合の有無を検査する、パターン検査手段が実行するパターン検査工程と、
適合する場合に、その自然言語パターンを構築中の木構造の要素として追加して適用する、パターン適用手段が実行するパターン適用工程と
を有することを特徴とする自然言語処理方法。
予めパターン辞書に用意されている全て又は一部の上記自然言語パターンについて、パターン名又はパターン構成要素の少なくとも一方について、当該自然パターンを木構造の要素として追加して適用するための条件であるパターン適用条件を持たせておき、
上記パターン検査工程が、候補の自然言語パターンのパターン適用条件をも参照して木構造に適合しているか否かを検査する
ことを特徴とする請求項１２に記載の自然言語処理方法。
パターン適用条件の１つとして、パターン構成要素における単語又は変数の意味を限定する意味条件に関する情報があり、意味条件に関する情報を有する複数の自然言語パターンのうちに、意味に関する情報のみが異なる複数の自然言語パターンを用意しておき、
上記パターン検査手段及び上記パターン適用手段の処理を通じて、意味条件を満たす自然言語パターンを優先して適用した木構造を決定する
ことを特徴とする請求項１３に記載の自然言語処理方法。
上記パターン評価工程は、木構造への適用に関し、パターン名及びそのパターン適用条件が同じであって優先度の情報が異なる複数の自然言語パターンの候補が存在した場合に、優先度が最も高い自然言語パターンの侯補以外を候補から除くことを特徴とする請求項１２に記載の自然言語処理方法。
上記パターン評価工程は、木構造への適用に関し、パターン名及びパターン構成要素が同じであって優先度の情報が異なる複数の自然言語パターンの候補が存在した場合に、通常優先度より相対的に低い優先度の自然言語パターンの候補から除外することを特徴とする請求項１２又は１５に記載の自然言語処理方法。
構文解析又は構文生成で得られた木構造が複数の木構造である場合に、各木構造を評価し得る評価配点方法であって、複数の木構造で異なっている部分木に適用された自然言語パターンでの優先度の情報をも利用している評価配点方法に従って、複数の木構造の優劣を評価する、木構造評価手段が実行する木構造評価工程を有することを特徴とする請求項１２、１５又は１６に記載の自然言語処理方法。
上記木構造評価工程は、木構造に適用された自然言語パターンでの優先度の情報に加え、複数の木構造で異なっている部分木を構成する終端記号の多少をも評価配点方法に反映させていることを特徴とする請求項１７に記載の自然言語処理方法。
上記木構造評価工程は、木構造に適用された自然言語パターンでの優先度の情報に加え、所定の優先度に係るノードの位置をも評価配点方法に反映させていることを特徴とする請求項１７又は１８に記載の自然言語処理方法。
ユーザ登録手段が実行する、自然言語パターンのユーザ登録工程を有することを特徴とする請求項１２〜１９に自然言語処理方法。
ユーザ登録の自然言語パターンにシステム登録の自然言語パターン以上の優先度を付与することを特徴とする請求項２０に記載の自然言語処理方法。
構文解析又は構文生成で得られた木構造が複数の木構造である場合に、複数の木構造で異なっている部分木において、ユーザ登録に係る自然言語パターンを適用された部分木を有する木構造を最優先する、木構造評価手段が実行する木構造評価工程を有することを特徴とする請求項２０又は２１に記載の自然言語処理方法。