JP2004199173A

JP2004199173A - 自然言語パターン生成装置、自然言語処理装置、自然言語パターン生成方法、プログラム及び記憶媒体

Info

Publication number: JP2004199173A
Application number: JP2002364021A
Authority: JP
Inventors: Tetsuji Nakagawa; 哲治中川
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2002-12-16
Filing date: 2002-12-16
Publication date: 2004-07-15

Abstract

【課題】入力文中の未知構成単位を同定し、その未知の構成単位に対して適切な処理を行い自然言語パターンを生成する自然言語パターン生成装置を提供する。
【解決手段】本発明の自然言語パターン生成装置は、パターン辞書の自然言語パターンを用いて入力文を構文解析する構文解析手段と、構文解析が完結できなかった場合、その構文解析の解析途中結果を格納する解析途中結果格納手段と、入力文の所定構成単位を抽出する構成単位抽出手段と、その構成単位と解析途中結果とに基づいて、パターン辞書に未登録である入力文中の未知構成単位を同定する未知構成単位同定手段と、その未知構成単位とその認識された未知構成単位の文法属性に基づいて自然言語パターンを生成するパターン生成手段とを備える。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、自然言語パターン生成装置、自然言語処理装置、自然言語パターン生成方法、記憶媒体及びプログラムに関し、例えば、自然言語パターンを利用して翻訳処理をする機械翻訳装置などの自然言語処理装置に適用することができ、また、例えば、機械翻訳を実現可能とする記録媒体やプログラムに適用できる。
【０００２】
【従来の技術】
例えば、機械翻訳装置は、使用者によって入力された入力文に対して構文解析を行ない、この構文解析により得た入力文の統語的構造に基づいて翻訳処理を行なっている。
【０００３】
しかし、あらゆる入力文に対して、構文解析を成功させることは難しく、失敗してしまうことがしばしばあり、構文解析が失敗してしまうと、その後の翻訳処理も続行することができない。
【０００４】
下記の特許文献１は、このような問題を解決するために、構文解析が行えない文が入力された場合の対処方法を行なう装置について記載している。
【０００５】
【特許文献１】
特願平３−７０４８７号公報
特許文献１の非文訳出装置は、構文解析を行なう前に、文中の動詞成分の有無により入力文が非文であるか否かを判定し、入力文が非文であると判定した場合に、構文解析を行わずに各単語に対する言語と訳語とをペアにして表示する等の例外処理方法について記載している。
【０００６】
【発明が解決しようとする課題】
しかしながら、上述した特許文献１に記載の装置は、入力文が非文であった場合に構文解析の失敗を避けるための方法であり、入力文が文として正しく構成されているにも拘わらず、構文解析が失敗する場合の対処方法については記載されていない。
【０００７】
例えば、翻訳パターンを利用して翻訳処理をする機械翻訳装置において、構文解析が失敗する原因の一つとして、入力文を構成する語又は句が、機械翻訳装置が有する翻訳パターン辞書に登録されていない未知語又は未知句である場合がある。
【０００８】
これは、翻訳パターンを利用して翻訳処理を行う場合、翻訳パターン辞書に既に登録されている翻訳パターンしか使用者は利用することができず、しかも、その翻訳パターン辞書に登録されていない未知語又は未知句が入力文に存在する場合には、その未知語又は未知句の翻訳パターンが存在しないため、入力文に対する構文解析ができないのである。特に固有名詞や専門用語等の名詞は日々増え続けているため、入力文中に未知の名詞語又は名詞句がしばしば出現する機会が多い。
【０００９】
このような場合に、新たな翻訳パターンを使用者が辞書登録しようとしても、入力文の未知語又は未知句の品詞を的確に把握する必要があったり、また入力文の未知語又は未知句が特別な用法（通常と異なる用法）で用いられるものであったりするため、使用者が正しく翻訳パターンを辞書登録することは困難である。
【００１０】
また、複数の単語から構成される未知句が入力文に存在している場合、その未知句のそれぞれの単語を分割してしまい、構文解析が適切に処理されない場合もある。
【００１１】
そのため、入力文中に含まれる未知語又は未知句を正しく判別して、その新しく見つかった未知語又は未知句に対して適切に処理をして自然言語パターンを生成し、また、その生成された自然言語パターンを正しく記憶する自然言語パターン生成装置が求められている。また、そのような自然言語パターン生成装置を備える自然言語処理装置も求められている。さらに、自然言語処理装置により実現されるプログラム及びそのプログラムを記録した記憶媒体も求められている。
【００１２】
【課題を解決するための手段】
かかる課題を解決するために、第1及び第３の本発明の自然言語パターン生成装置及び方法は、自然言語処理で利用される自然言語パターンを生成する自然言語パターン生成装置及び方法において、パターン辞書に登録されている自然言語パターンを用いて、入力文に対して構文解析をする構文解析手段及び処理と、構文解析手段による入力文の構文解析が完結できなかった場合、その構文解析によって解析を成し得た解析途中結果を格納する解析途中結果格納手段及び処理と、構文解析手段及び処理による入力文の構文解析が完結できなかった場合、入力文を構成する文法上の所定の構成単位を抽出する構成単位抽出手段及び処理と、抽出された構成単位と解析途中結果とに基づいて、パターン辞書に登録されていない、入力文中に含まれる未知の構成単位を同定する未知構成単位同定手段及び処理と、同定された未知の構成単位に対し、構成単位抽出手段及び処理により認識された未知の構成単位が属する文法属性を割り当てて、自然言語パターンを生成するパターン生成手段及び処理とを備えることを特徴とする。
【００１３】
第２の本発明の自然言語処理装置は、パターン辞書に格納された自然言語パターンを利用して自然言語処理をする自然言語処理装置において、上記第１の本発明の自然言語パターン生成装置を備えることを特徴とする。
【００１４】
第４の本発明のプログラムは、上記第２の本発明の自然言語パターン生成方法の各処理をコンピュータが実行し得るコードが記述されたプログラムである。
【００１５】
さらに、第５の本発明の記憶媒体は、上記第４の本発明のプログラムを記録した、コンピュータにより読取可能な記録媒体である。
【００１６】
【発明の実施の形態】
（Ａ）第１の実施形態
以下では、本発明の自然言語パターン生成装置の第１の実施形態について図面を参照して詳説する。
【００１７】
第１の実施形態は、翻訳パターンを利用して、入力された英語文を日本語文に翻訳処理をする機械翻訳装置が備えるパターン生成手段に、本発明の自然言語パターン生成装置を適用した場合について説明する。
【００１８】
（Ａ−１）第１の実施形態の構成
本実施形態の機械翻訳装置は、コンピュータにより実現され得る機械翻訳プログラムをコンピュータにインストールすることなどにより構築されるが、機能的には、図１に示すことができる。
【００１９】
図１は、本実施形態の機械翻訳装置の機能構成を示したブロック図である。
【００２０】
図１に示すように，第１の実施形態の機械翻訳装置１は、使用者が入力や出力を行なう入出力手段１１０と、機械翻訳を行なう翻訳手段１２０と、構文解析に失敗した際に自動的に翻訳パターンの生成を行なうパターン生成手段１３０とを有する。
【００２１】
入出力手段１１０は、図１に示すように、入力部１１１と出力部１１２とを有する。
【００２２】
入力部１１１は、使用者の操作により原文（入力文）を取り込み、その入力文をパターン生成手段１３０と翻訳手段１２０とに与えるものである。この入力部１１１は、例えば、文字入力するためのキーボードやテンキー等からなる。
【００２３】
出力部１１２は、入力文の翻訳結果を翻訳手段１２０から受け取り、その翻訳結果を出力するものである。出力部１１２は、例えばディスプレイやプリンタ等からなる。
【００２４】
翻訳手段１２０は、翻訳実行部１２１と、翻訳パターン格納部１２２とを有する。
【００２５】
翻訳実行部１２１は、入力部１１１から入力文を受け取り、翻訳パターン格納部１２２に格納されている翻訳パターンを利用して構文解析と翻訳処理とを実行するものである。
【００２６】
翻訳実行部１２１は、入力文に対する構文解析が成功して翻訳処理が完了した場合、その翻訳結果を出力部１１２に与えて出力させるものである。また、翻訳実行部１２１は、入力文に対する構文解析が失敗した場合、途中まで行なった構文解析の結果を、解析途中結果格納部１３３に与えるものである。
【００２７】
翻訳実行部１２１は、入力文に未知の句があり構文解析が失敗した場合、翻訳パターン生成部１３４により生成された翻訳パターンを受け取り、その新しい翻訳パターンに基づいて、入力文に対して翻訳処理を行なうものである。
【００２８】
翻訳パターン格納部１２２は、翻訳パターンを予め格納するものである。
【００２９】
パターン生成手段１３０は、句抽出部１３１と、句比較部１３２と、解析途中結果格納部１３３と、翻訳パターン生成部１３４とを有するものである。
【００３０】
句抽出部１３１は、入力部１１１から入力文を受け取り、その入力文を構成している句を抽出するものである。本実施形態における句抽出部１３１は、チャンカーを利用して、入力文中に含まれる全ての句の位置を同定し抽出するものである。
【００３１】
このチャンカーとは、文中の句を同定するためのプログラムであり、詳細は、ＬａｎｃｅＡ．Ｒａｍｓｈａｗ，ＭｉｔｃｈｅｌｌＰ．Ｍａｒｃｕｓ著，“ＴｅｘｔＣｈｕｎｋｉｎｇＵｓｉｎｇＴｒａｎｓｆｏｒｍａｔｉｏｎ−ＢａｓｅｄＬｅａｒｎｉｎｇ”，ＰｒｏｃｅｅｄｉｎｇｓｏｆＴｈｅｔｈｉｒｄＡＣＬｗｏｒｋｓｈｏｐｏｎＶｅｒｙＬａｒｇｅＣｏｒｐｏｒａ，ＣａｍｂｒｉｄｇｅＭＡ，ＵＳＡ，１９９５などに記述されているので、ここでは省略する。勿論、入力文から句を抽出することができれば他の方法によっても良い。
【００３２】
句抽出部１３１は、前後の文脈情報等を利用する統計的なチャンカーを利用するので、例えば入力文中の未知である語が存在していても、その未知の語に対しても頑健に句の抽出を行なうことができる。すなわち、句抽出部１３１は、抽出すべき句の前後の品詞、単語等の文脈を考慮することで、その句の位置の同定とその句の文法属性（すなわちその句が属する構文カテゴリ）を決定することができる。
【００３３】
なお、第１の実施形態では、抽出する入力文の構成単位を句としたが、句に限ることなく、入力文中の語や文節等を抽出するものとしてもよい。
【００３４】
句比較部１３２は、句抽出部１３１により抽出された全ての句を受け取り、その入力文中の全ての句と、解析途中結果格納部１３３に格納された途中までの構文解析の結果における既知の句（すなわち、構文解析が成功した句）とを比較して、その既知の句以外の句（すなわち、既知の句に対する未知の句）のみを取り出すものである。句比較部１３２は、この未知句を翻訳パターン生成部１３４に与える。
【００３５】
翻訳パターン生成部１３４は、句比較部１３２から未知句を受け取り、その訳語の付与をし、翻訳パターンを生成するものである。翻訳パターン生成部１３４は、生成した翻訳パターンを翻訳実行部１２１に与える。
【００３６】
翻訳パターン生成部１３４が行なう訳語の付与は、例えば、（１）その未知語のアルファベットをそのまま訳語とする、（２）未知語のアルファベットをカタカナの読みに変換する、（３）既存の対訳辞書の情報を用いて訳語を作成する等の方法により訳語を付与するようにしてもよい。なお、本実施形態では、上記（１）のように、未知語のアルファベットをそのまま訳語とする。
【００３７】
（Ａ−２）第１の実施形態の動作
次に、本実施形態の機械翻訳装置の動作を説明する。
【００３８】
図２は、本実施形態の機械翻訳装置の動作を示したフローチャートである。
【００３９】
以下では、例として、“Ｌｅｓｓｉｓａｐｒｏｇｒａｍｓｉｍｉｌａｒｔｏｍｏｒｅ．”（「ｌｅｓｓはｍｏｒｅに似たプログラムです。」）という入力文を翻訳させる場合を考える。
【００４０】
ただし、翻訳パターン格納部１２２は、図３に示す翻訳パターンを予め格納しているとする。
【００４１】
まず、使用者により入力文が入力部１１１に入力される（Ｓ２０１）。
【００４２】
入力文は、翻訳手段１２０の翻訳実行部１２１に与えられ、翻訳実行部１２１により、翻訳パターン格納部１２２に格納されている翻訳パターンを利用して翻訳処理される（Ｓ２０２）。
【００４３】
翻訳実行部１２１による構文解析が成功し翻訳処理されると、入力文に対する翻訳結果が、出力部１１２に与えられ出力される（Ｓ２０３及びＳ２０８）。
【００４４】
また、翻訳実行部１２１による構文解析が失敗すると、構文解析の途中まで成功した解析結果が、解析途中結果格納部１３３に与えられる（Ｓ２０３）。
【００４５】
翻訳実行部１２１における構文解析について図３を参照して説明する。
【００４６】
図３において、左側が英語パターンを表し、右側が日本語パターンを表し、これら英語のパターンと日本語のパターンとが対になっている。各言語パターンは、[言語名：パターン名パターン構成要素]からなる。
【００４７】
言語名は、パターンの言語を示し、ｅｎはそのパターンが英語であることを示し、ｊｐはパターンが日本語であることを示す。
【００４８】
パターン名は、例えば、ＶＰ（動詞句）、ＮＰ（名詞句）、Ｓ（文）、Ｎ（名詞）等の句構造規則での標識が適用される。
【００４９】
パターン構成要素は、単語、変数、又は、単語と変数との２以上の並び、からなる。変数は[任意の数字：パターン名]で記述される。任意の数字部分は、対となっている原言語及び目的言語パターン間での対応関係を示すものである。構文解析においては、変数に別のパターンが適用されることにより、パターンは入れ子構造をすることができる（変数が解消される）。
【００５０】
このような翻訳パターンを利用して翻訳実行部１２１における構文解析処理は、ボトムアップに木構造を構築していく。
【００５１】
すなわち、“ｍｏｒｅ”についての翻訳パターンはあるが、これは形容詞（Ａｄｊ）に関するものである。しかし、“ｓｉｍｉｌａｒｔｏ”の翻訳パターンにより、“ｔｏ”の後に位置するものは名詞句であるので、固有名詞としての“ｍｏｒｅ”の翻訳パターンが必要となるが、上述の通り“ｍｏｒｅ”は形容詞としての翻訳パターンであるので、“ｍｏｒｅ”について矛盾が生じ、構文解析が失敗する。すなわち、固有名詞としての“ｍｏｒｅ”の翻訳パターンがない。
【００５２】
また、同様にして“ｌｅｓｓ”についての翻訳パターンがないので、構文解析が失敗する。
【００５３】
このように、翻訳実行部１２１は、“ｌｅｓｓ”と“ｍｏｒｅ”とについて一つの名詞句として認識できず構文解析を失敗する。
【００５４】
従って、翻訳実行部１２１は、図４に示すような、途中まで構文解析することができた結果を解析途中結果格納部１３３に与える。
【００５５】
翻訳手段１２０による構文解析が失敗した場合、パターン生成手段１３０による処理がなされる。
【００５６】
入力部１１１からの入力文は、句抽出部１３１に与えられ、句抽出部１３１による入力文から全ての句が抽出される（Ｓ２０４）。なお、本実施形態では、句抽出部１３１が抽出する句を名詞句として説明するが、勿論他の句であっても適用することができる。
【００５７】
句抽出部１３１により抽出された名詞句は、句比較部１３２に与えられ、解析途中結果格納部１３３に格納されている既知の句と比較されて既知の句以外の句（未知句）が取り出される（Ｓ２０５）。
【００５８】
例えば、句抽出部１３１において、この入力文に対してチャンカーを適用すると、図５のような結果が得られ、“ｌｅｓｓ”，“ａｐｒｏｇｒａｍ”，“ｍｏｒｅ”という３つの名詞句が抽出され、これらが句比較部１３２に与えられる。
【００５９】
句比較部１３２において、“ａｐｒｏｇｒａｍ”は、既存の翻訳パターン（図４）で認識できるが、未知の名詞句である“ｌｅｓｓ”と“ｍｏｒｅ”とが取り出される。
【００６０】
句比較部１３２における未知句の抽出は、例えば、図６に示す手順により行われる。図６は、句比較部１３２による未知句の抽出動作例を示すフローチャートである。
【００６１】
図６に示すように、例えば、句比較部１３２は、結果を一時的に格納するための記憶領域であるメモリＲＥＳＵＬＴと、ハッシュ法により検索を行なうためのハッシュ表ＨＡＳＨ−ＮＰを備えており、まずこれらを初期化する（Ｓ６０１）。
【００６２】
次に、解析途中結果格納部１３３に格納された句の中から一つを取り出してそれを「ｘ」とする（Ｓ６０２）。
【００６３】
「ｘ」が名詞句であるかどうかを判断し（Ｓ６０３）、「ｘ」が名詞句であれば、ハッシュ表ＨＡＳＨ−ＮＰに「ｘ」を登録する（Ｓ６０４）。
【００６４】
そして、解析途中結果格納部１３３に格納された句をまだ全て処理していなければ再びＳ６０２に戻り、全ての句の処理が終わっていれば次の処理Ｓ６０６に進む（Ｓ６０５）。
【００６５】
次に、句抽出部１３１によって抽出された句の中から一つを取り出して、それを「ｙ」とし（Ｓ６０６）、その「ｙ」がハッシュ表ＨＡＳＨ−ＮＰに登録されているか否かを判定する。
【００６６】
このとき、「ｙ」がハッシュ表ＨＡＳＨ−ＮＰに登録されていない場合、その「ｙ」は既知の句ではない、すなわち、未知の句であるので、「ｙ」はメモリＲＥＳＵＬＴに追加される（Ｓ６０８）。また、「ｙ」がハッシュ表ＨＡＳＨ−ＮＰに登録されていた場合はＳ６０９の処理に進む（Ｓ６０７）。
【００６７】
句抽出部１３１から得られた句が、まだ全て処理されていなければＳ６０６の処理に戻り、全て処理されていればＳ６１０の処理に進む（Ｓ６０９）。
【００６８】
最後に、メモリＲＥＳＵＬＴに翻訳パターンとして登録する必要のある未知句が入っているので、この未知句を翻訳パターン生成部１３４に与える（Ｓ６１０）。
【００６９】
このようにして抽出された未知句は、翻訳パターン生成部１３４により、訳語を付与して、翻訳パターンが生成される（Ｓ２０６）。
【００７０】
すなわち、図７に示すように、“ｌｅｓｓ”と“ｍｏｒｅ”とについて、名詞句としての翻訳パターンが生成される。
【００７１】
生成された翻訳パターンは、翻訳実行部１２１に与えられ、翻訳実行部１２１において、その新しい翻訳パターンを使用して、入力文に対する翻訳が行われる（Ｓ２０７）。
【００７２】
この場合、図８のような正しい構文解析結果を得ることができ、また、訳語としてそのままのアルファベットを付与するので、最終的に「Ｌｅｓｓはｍｏｒｅに似たプログラムです。」という出力される（Ｓ２０７）。
【００７３】
（Ａ−３）第１の実施形態の効果
以上、本実施形態によれば、パターン生成手段１３０を備えることにより、入力文に対する構文解析が失敗した場合でも、入力文中の構文解析処理ができなかった句を正確に判断し、その未知句についての新しい翻訳パターンを生成することができる。
【００７４】
また、本実施形態によれば、パターン生成手段１３０が生成した翻訳パターンを利用して、入力文に対する構文解析を成功させることができる。
【００７５】
さらに、本実施形態によれば、入力文に対する構文解析が失敗した場合にのみ、パターン生成手段１３０が未知句に対する翻訳パターンを自動的に生成するため、通常の翻訳処理実行時の処理効率を落とさずに翻訳処理を行なうことができる。
【００７６】
（Ｂ）第２の実施形態
次に、本発明の自然言語パターン生成装置及び自然言語パターン登録装置の第２の実施形態を図面を参照して説明する。
【００７７】
第２の実施形態も、翻訳パターンを利用して、入力された英語文を日本語文に翻訳処理をする機械翻訳装置が備えるパターン生成手段に、本発明の自然言語パターン生成装置を適用した場合であって、本発明の自然言語パターン登録装置により、その生成したパターンを登録する場合について説明する。
【００７８】
（Ｂ−１）第２の実施形態の構成
本実施形態の機械翻訳装置も、コンピュータにより実現され得る機械翻訳プログラムをコンピュータにインストールすることなどにより構築されるが、機能的には、図９に示すことができる。
【００７９】
図９は、第２の実施形態の機械翻訳装置の機能構成を示すブロック図である。なお、図９において、第１の実施形態の機械翻訳装置の機能構成と対応する構成については、それぞれ対応する番号を付し、これら対応する機能構成の説明は省略し、以下、第１の実施形態と異なる機能を詳細に説明する。
【００８０】
図９に示すように、第２の実施形態の機械翻訳装置２も、入出力手段１１０と、翻訳手段１２０と、パターン生成手段１３０とを有する。
【００８１】
第２の実施形態の機械翻訳装置２と、第１の実施形態の機械翻訳装置１との異なる点は、パターン生成手段１３０が翻訳パターン登録部９００を有する点であり、それ以外の機械翻訳装置２の機能構成は、機械翻訳装置１の機能構成に対応する。
【００８２】
従って、本実施形態では、パターン生成手段１３０が翻訳パターン登録部９００を有することにより、第１の実施形態と異なる機能をする点について詳説し、それ以外については省略する。
【００８３】
翻訳パターン登録部９００は、翻訳パターン生成部１３４が生成した翻訳パターンを受け取り、その翻訳パターンに対して冠詞や修飾語句等の削除や複数表現を単数表現に変更するなどを行ない、一般的に使用されやすい翻訳パターンに整えるものである。
【００８４】
このように、翻訳パターン登録部９００が、一般的な翻訳パターンに整えるのは、汎用性を持たせることにより、生成した翻訳パターンを登録した後に、その翻訳パターンの適用範囲を広くするためである。
【００８５】
また、翻訳パターン登録部９００は、その生成した翻訳パターンを翻訳パターン格納部１２２へ登録しても問題ないかどうかを判定し、問題なければ翻訳パターン格納部１２２への登録を行うものである。
【００８６】
（Ｂ−２）第２の実施形態の動作
図１０は、第２の実施形態の動作を示すフローチャートである。
【００８７】
図１０において、使用者が入力した入力文に対する構文解析が行われ、構文解析が失敗した場合に、その入力文中の未知句が抽出されて、その未知句の翻訳パターンが生成されるまでの動作は、第１の実施形態の動作に対応する（Ｓ２０１〜Ｓ２０６）。
【００８８】
翻訳パターン生成部１３４により生成された翻訳パターンは、翻訳パターン登録部９００に与えられ、翻訳パターン登録部９００により、その翻訳パターンの冠詞や修飾語句等が削除されて、一般的に適用される翻訳パターンに整えられる。
【００８９】
また、翻訳パターン登録部９００において、その冠詞や修飾語句等が削除された翻訳パターンが、誤った句であるか又は一般的に使われない特殊な句であるか等が判断されて、翻訳パターン登録の確認判定が行われる。
【００９０】
この確認判定方法は、例えば、他の文書を参照して、その他の文書中におけるその句の出現頻度情報を利用したり、登録前にその翻訳パターンを出力部１１２により出力し、登録確認を使用者に求めたりしてもよい。このとき、例えば、その翻訳パターンの画面を出力部１１２に表示させ、使用者から登録したいパターンの構成要素などの情報を求めてもよい。
【００９１】
登録確認された翻訳パターンは、翻訳パターン格納部１２２に与えられ登録される（Ｓ１０００）。
【００９２】
その登録された翻訳パターンを利用して翻訳実行部１２１により、入力文は翻訳処理が行われ（Ｓ２０７）、その翻訳結果が出力される（Ｓ２０８）。
【００９３】
（Ｂ−３）第２の実施形態の効果
以上、本実施形態によれば、第１の実施形態の効果に加えて、翻訳パターン登録部９００を備えることにより、生成した翻訳パターンを翻訳パターン格納部１２２に登録することができる。また、翻訳パターン登録部９００は、生成した翻訳パターンに対して、一般的な適用範囲の広い翻訳パターンに整え、かつ、登録してもよいか否かの判定をするので、適切な登録をすることができる。
【００９４】
その結果として、将来同じ句を含んだ入力文が入力された場合でも、正しく構文解析をすることができる。
【００９５】
（Ｃ）他の実施形態
（Ｃ−１）本発明の自然言語パターン生成装置及び自然言語パターン登録装置は、翻訳パターンを利用した機械翻訳装置の適用に限定されるものではなく、構文解析を行なうものであれば他の方式の翻訳システムにも適用することができる。
【００９６】
（Ｃ−２）上述した第１及び第２の実施形態において、機械翻訳装置は、英語文の日本語訳を行なうものとして説明したが、当然他の言語の日本語訳に対しても適用できる。また、日本語文の他言語訳に対しても適用できる。
【００９７】
例えば、以下のようなフランス語の入力文の適用について説明する。
【００９８】
【外１】

この入力文の翻訳は、（「ｌｅｓｓはｍｏｒｅに似たプログラムです。」）である。
【００９９】
上記の場合、フランス語のチャンカーを利用することにより“ｌｅｓｓ”と“ｍｏｒｅ”との未知語が検出され、構文解析の失敗を防ぐことができる。
【０１００】
（Ｃ−３）上述した第１及び第２の実施形態では、句抽出部１３１により、入力文中の名詞句を抽出することとして説明したが、動詞句等の他の句に対しても適用することができる。また、句抽出部１３１は、名詞句と動詞句などのように複数の異なる句を抽出して適用できるようにしてもよい。
【０１０１】
例えば、入力文“Ｉｌｅｓｓｔｈｅｆｉｌｅ．”（「私はそのファイルをｌｅｓｓする。」）に対して、“ｌｅｓｓ”は未知の動詞句であるが、チャンカーによって動詞句として抽出され、その動詞句“ｌｅｓｓ”の翻訳パターンを生成することができる。
【０１０２】
【発明の効果】
以上、本発明によれば、パターン辞書に登録されていない、入力文中に含まれる未知の構成単位を正しく同定し、その新しく同定した未知の構成単位に対して適切に処理をして自然言語パターンを生成することができる。
【図面の簡単な説明】
【図１】第１の実施形態の機械翻訳装置の機能構成を示したブロック図である。
【図２】第１の実施形態の機械翻訳装置の動作を示したフローチャートである。
【図３】第１の実施形態の入力文に対して使用される翻訳パターンを示した説明図である。
【図４】第１の実施形態の解析途中結果格納部が格納する解析途中結果を示した説明図である。
【図５】第１の実施形態の句抽出部において抽出処理により得られた結果を示した説明図である。
【図６】第１の実施形態の句比較部による未知句抽出の動作を説明するフローチャートである。
【図７】第１の実施形態の翻訳パターン生成部により生成された翻訳パターンを示した説明図である。
【図８】第１の実施形態における入力文の構文解析結果を示した説明図である。
【図９】第２の実施形態の機械翻訳装置の機能構成を示したブロックである。
【図１０】第２の実施形態の機械翻訳装置の動作を示したフローチャートである。
【符号の説明】
１、２…機械翻訳装置、１３０…パターン生成手段、
１３１…句抽出部、１３２…句比較部、
１３３…解析途中結果格納部、１３４…翻訳パターン生成部、
９００…翻訳パターン登録部、１２０…翻訳手段、
１２１…翻訳実行部、１２２…翻訳パターン格納部。

Claims

自然言語処理で利用される自然言語パターンを生成する自然言語パターン生成装置において、
パターン辞書に登録されている自然言語パターンを用いて、入力文に対して構文解析をする構文解析手段と、
上記構文解析手段による入力文の構文解析が完結できなかった場合、その構文解析によって解析を成し得た解析途中結果を格納する解析途中結果格納手段と、
上記構文解析手段による入力文の構文解析が完結できなかった場合、上記入力文を構成する文法上の所定の構成単位を抽出する構成単位抽出手段と、
抽出された上記構成単位と上記解析途中結果とに基づいて、上記パターン辞書に登録されていない、入力文中に含まれる未知の構成単位を同定する未知構成単位同定手段と、
同定された上記未知の構成単位に対し、上記構成単位抽出手段により認識された上記未知の構成単位が属する文法属性を割り当てて、自然言語パターンを生成するパターン生成手段と
を備えることを特徴とする自然言語パターン生成装置。
上記未知構成単位同定手段が、上記構文解析により解析を成し得た上記解析途中結果である構成単位を項目とした解析成功結果テーブルを作成し、上記構成単位抽出手段からの構成単位を項目変数とし、上記解析成功結果テーブルに含まれていない構成単位を未知の構成単位として検索することを特徴とする請求項１に記載の自然言語パターン生成装置。
上記パターン生成手段が、生成したパターンの構成要素を基本表現に整え、上記パターン辞書への登録をするか否かを判定することを特徴とする請求項１又は２に記載の自然言語パターン生成装置。
パターン辞書に格納された自然言語パターンを利用して自然言語処理をする自然言語処理装置において、
上記請求項１〜３のいずれかに記載の自然言語パターン生成装置を備えることを特徴とする自然言語処理装置。
自然言語処理で利用される自然言語パターンを生成する自然言語パターン生成方法において、
パターン辞書に登録されている自然言語パターンを用いて、入力文に対して構文解析をする構文解析処理と、
上記構文解析処理による入力文の構文解析が完結できなかった場合、その構文解析によって解析を成し得た解析途中結果を格納する解析途中結果格納処理と、
上記構文解析処理による入力文の構文解析が完結できなかった場合、上記入力文を構成する文法上の所定の構成単位を抽出する構成単位抽出処理と、
抽出された上記構成単位と上記解析途中結果とに基づいて、上記パターン辞書に登録されていない、入力文中に含まれる未知の構成単位を同定する未知構成単位同定処理と、
同定された上記未知の構成単位に対し、上記構成単位抽出処理により認識された上記未知の構成単位が属する文法属性を割り当てて、自然言語パターンを生成するパターン生成処理と
を備えることを特徴とする自然言語パターン生成方法。
上記未知構成単位同定処理が、上記構文解析により解析を成し得た上記解析途中結果である構成単位を項目とした解析成功結果テーブルを作成し、上記構成単位抽出処理による構成単位を項目変数とし、上記解析成功結果テーブルに含まれていない構成単位を未知の構成単位として検索することを特徴とする請求項５に記載の自然言語パターン生成方法。
上記パターン生成処理が、生成したパターンの構成要素を基本表現に整え、上記パターン辞書への登録をするか否かを判定することを特徴とする請求項５又は６に記載の自然言語パターン生成方法。
上記請求項５〜７のいずれかに記載の自然言語パターン生成方法の各処理をコンピュータが実行し得るコードが記載されたプログラム。
上記請求項８に記載のプログラムを記録した、コンピュータにより読取可能な記録媒体。