JP2004199173A - 自然言語パターン生成装置、自然言語処理装置、自然言語パターン生成方法、プログラム及び記憶媒体 - Google Patents
自然言語パターン生成装置、自然言語処理装置、自然言語パターン生成方法、プログラム及び記憶媒体 Download PDFInfo
- Publication number
- JP2004199173A JP2004199173A JP2002364021A JP2002364021A JP2004199173A JP 2004199173 A JP2004199173 A JP 2004199173A JP 2002364021 A JP2002364021 A JP 2002364021A JP 2002364021 A JP2002364021 A JP 2002364021A JP 2004199173 A JP2004199173 A JP 2004199173A
- Authority
- JP
- Japan
- Prior art keywords
- natural language
- pattern
- translation
- unit
- unknown
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【課題】入力文中の未知構成単位を同定し、その未知の構成単位に対して適切な処理を行い自然言語パターンを生成する自然言語パターン生成装置を提供する。
【解決手段】本発明の自然言語パターン生成装置は、パターン辞書の自然言語パターンを用いて入力文を構文解析する構文解析手段と、構文解析が完結できなかった場合、その構文解析の解析途中結果を格納する解析途中結果格納手段と、入力文の所定構成単位を抽出する構成単位抽出手段と、その構成単位と解析途中結果とに基づいて、パターン辞書に未登録である入力文中の未知構成単位を同定する未知構成単位同定手段と、その未知構成単位とその認識された未知構成単位の文法属性に基づいて自然言語パターンを生成するパターン生成手段とを備える。
【選択図】 図1
【解決手段】本発明の自然言語パターン生成装置は、パターン辞書の自然言語パターンを用いて入力文を構文解析する構文解析手段と、構文解析が完結できなかった場合、その構文解析の解析途中結果を格納する解析途中結果格納手段と、入力文の所定構成単位を抽出する構成単位抽出手段と、その構成単位と解析途中結果とに基づいて、パターン辞書に未登録である入力文中の未知構成単位を同定する未知構成単位同定手段と、その未知構成単位とその認識された未知構成単位の文法属性に基づいて自然言語パターンを生成するパターン生成手段とを備える。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は、自然言語パターン生成装置、自然言語処理装置、自然言語パターン生成方法、記憶媒体及びプログラムに関し、例えば、自然言語パターンを利用して翻訳処理をする機械翻訳装置などの自然言語処理装置に適用することができ、また、例えば、機械翻訳を実現可能とする記録媒体やプログラムに適用できる。
【0002】
【従来の技術】
例えば、機械翻訳装置は、使用者によって入力された入力文に対して構文解析を行ない、この構文解析により得た入力文の統語的構造に基づいて翻訳処理を行なっている。
【0003】
しかし、あらゆる入力文に対して、構文解析を成功させることは難しく、失敗してしまうことがしばしばあり、構文解析が失敗してしまうと、その後の翻訳処理も続行することができない。
【0004】
下記の特許文献1は、このような問題を解決するために、構文解析が行えない文が入力された場合の対処方法を行なう装置について記載している。
【0005】
【特許文献1】
特願平3−70487号公報
特許文献1の非文訳出装置は、構文解析を行なう前に、文中の動詞成分の有無により入力文が非文であるか否かを判定し、入力文が非文であると判定した場合に、構文解析を行わずに各単語に対する言語と訳語とをペアにして表示する等の例外処理方法について記載している。
【0006】
【発明が解決しようとする課題】
しかしながら、上述した特許文献1に記載の装置は、入力文が非文であった場合に構文解析の失敗を避けるための方法であり、入力文が文として正しく構成されているにも拘わらず、構文解析が失敗する場合の対処方法については記載されていない。
【0007】
例えば、翻訳パターンを利用して翻訳処理をする機械翻訳装置において、構文解析が失敗する原因の一つとして、入力文を構成する語又は句が、機械翻訳装置が有する翻訳パターン辞書に登録されていない未知語又は未知句である場合がある。
【0008】
これは、翻訳パターンを利用して翻訳処理を行う場合、翻訳パターン辞書に既に登録されている翻訳パターンしか使用者は利用することができず、しかも、その翻訳パターン辞書に登録されていない未知語又は未知句が入力文に存在する場合には、その未知語又は未知句の翻訳パターンが存在しないため、入力文に対する構文解析ができないのである。特に固有名詞や専門用語等の名詞は日々増え続けているため、入力文中に未知の名詞語又は名詞句がしばしば出現する機会が多い。
【0009】
このような場合に、新たな翻訳パターンを使用者が辞書登録しようとしても、入力文の未知語又は未知句の品詞を的確に把握する必要があったり、また入力文の未知語又は未知句が特別な用法(通常と異なる用法)で用いられるものであったりするため、使用者が正しく翻訳パターンを辞書登録することは困難である。
【0010】
また、複数の単語から構成される未知句が入力文に存在している場合、その未知句のそれぞれの単語を分割してしまい、構文解析が適切に処理されない場合もある。
【0011】
そのため、入力文中に含まれる未知語又は未知句を正しく判別して、その新しく見つかった未知語又は未知句に対して適切に処理をして自然言語パターンを生成し、また、その生成された自然言語パターンを正しく記憶する自然言語パターン生成装置が求められている。また、そのような自然言語パターン生成装置を備える自然言語処理装置も求められている。さらに、自然言語処理装置により実現されるプログラム及びそのプログラムを記録した記憶媒体も求められている。
【0012】
【課題を解決するための手段】
かかる課題を解決するために、第1及び第3の本発明の自然言語パターン生成装置及び方法は、自然言語処理で利用される自然言語パターンを生成する自然言語パターン生成装置及び方法において、パターン辞書に登録されている自然言語パターンを用いて、入力文に対して構文解析をする構文解析手段及び処理と、構文解析手段による入力文の構文解析が完結できなかった場合、その構文解析によって解析を成し得た解析途中結果を格納する解析途中結果格納手段及び処理と、構文解析手段及び処理による入力文の構文解析が完結できなかった場合、入力文を構成する文法上の所定の構成単位を抽出する構成単位抽出手段及び処理と、抽出された構成単位と解析途中結果とに基づいて、パターン辞書に登録されていない、入力文中に含まれる未知の構成単位を同定する未知構成単位同定手段及び処理と、同定された未知の構成単位に対し、構成単位抽出手段及び処理により認識された未知の構成単位が属する文法属性を割り当てて、自然言語パターンを生成するパターン生成手段及び処理とを備えることを特徴とする。
【0013】
第2の本発明の自然言語処理装置は、パターン辞書に格納された自然言語パターンを利用して自然言語処理をする自然言語処理装置において、上記第1の本発明の自然言語パターン生成装置を備えることを特徴とする。
【0014】
第4の本発明のプログラムは、上記第2の本発明の自然言語パターン生成方法の各処理をコンピュータが実行し得るコードが記述されたプログラムである。
【0015】
さらに、第5の本発明の記憶媒体は、上記第4の本発明のプログラムを記録した、コンピュータにより読取可能な記録媒体である。
【0016】
【発明の実施の形態】
(A)第1の実施形態
以下では、本発明の自然言語パターン生成装置の第1の実施形態について図面を参照して詳説する。
【0017】
第1の実施形態は、翻訳パターンを利用して、入力された英語文を日本語文に翻訳処理をする機械翻訳装置が備えるパターン生成手段に、本発明の自然言語パターン生成装置を適用した場合について説明する。
【0018】
(A−1)第1の実施形態の構成
本実施形態の機械翻訳装置は、コンピュータにより実現され得る機械翻訳プログラムをコンピュータにインストールすることなどにより構築されるが、機能的には、図1に示すことができる。
【0019】
図1は、本実施形態の機械翻訳装置の機能構成を示したブロック図である。
【0020】
図1に示すように,第1の実施形態の機械翻訳装置1は、使用者が入力や出力を行なう入出力手段110と、機械翻訳を行なう翻訳手段120と、構文解析に失敗した際に自動的に翻訳パターンの生成を行なうパターン生成手段130とを有する。
【0021】
入出力手段110は、図1に示すように、入力部111と出力部112とを有する。
【0022】
入力部111は、使用者の操作により原文(入力文)を取り込み、その入力文をパターン生成手段130と翻訳手段120とに与えるものである。この入力部111は、例えば、文字入力するためのキーボードやテンキー等からなる。
【0023】
出力部112は、入力文の翻訳結果を翻訳手段120から受け取り、その翻訳結果を出力するものである。出力部112は、例えばディスプレイやプリンタ等からなる。
【0024】
翻訳手段120は、翻訳実行部121と、翻訳パターン格納部122とを有する。
【0025】
翻訳実行部121は、入力部111から入力文を受け取り、翻訳パターン格納部122に格納されている翻訳パターンを利用して構文解析と翻訳処理とを実行するものである。
【0026】
翻訳実行部121は、入力文に対する構文解析が成功して翻訳処理が完了した場合、その翻訳結果を出力部112に与えて出力させるものである。また、翻訳実行部121は、入力文に対する構文解析が失敗した場合、途中まで行なった構文解析の結果を、解析途中結果格納部133に与えるものである。
【0027】
翻訳実行部121は、入力文に未知の句があり構文解析が失敗した場合、翻訳パターン生成部134により生成された翻訳パターンを受け取り、その新しい翻訳パターンに基づいて、入力文に対して翻訳処理を行なうものである。
【0028】
翻訳パターン格納部122は、翻訳パターンを予め格納するものである。
【0029】
パターン生成手段130は、句抽出部131と、句比較部132と、解析途中結果格納部133と、翻訳パターン生成部134とを有するものである。
【0030】
句抽出部131は、入力部111から入力文を受け取り、その入力文を構成している句を抽出するものである。本実施形態における句抽出部131は、チャンカーを利用して、入力文中に含まれる全ての句の位置を同定し抽出するものである。
【0031】
このチャンカーとは、文中の句を同定するためのプログラムであり、詳細は、Lance A.Ramshaw,Mitchell P.Marcus 著,“Text Chunking Using Transformation−Based Learning”,Proceedings of The third ACL workshop on Very Large Corpora, Cambridge MA,USA,1995などに記述されているので、ここでは省略する。勿論、入力文から句を抽出することができれば他の方法によっても良い。
【0032】
句抽出部131は、前後の文脈情報等を利用する統計的なチャンカーを利用するので、例えば入力文中の未知である語が存在していても、その未知の語に対しても頑健に句の抽出を行なうことができる。すなわち、句抽出部131は、抽出すべき句の前後の品詞、単語等の文脈を考慮することで、その句の位置の同定とその句の文法属性(すなわちその句が属する構文カテゴリ)を決定することができる。
【0033】
なお、第1の実施形態では、抽出する入力文の構成単位を句としたが、句に限ることなく、入力文中の語や文節等を抽出するものとしてもよい。
【0034】
句比較部132は、句抽出部131により抽出された全ての句を受け取り、その入力文中の全ての句と、解析途中結果格納部133に格納された途中までの構文解析の結果における既知の句(すなわち、構文解析が成功した句)とを比較して、その既知の句以外の句(すなわち、既知の句に対する未知の句)のみを取り出すものである。句比較部132は、この未知句を翻訳パターン生成部134に与える。
【0035】
翻訳パターン生成部134は、句比較部132から未知句を受け取り、その訳語の付与をし、翻訳パターンを生成するものである。翻訳パターン生成部134は、生成した翻訳パターンを翻訳実行部121に与える。
【0036】
翻訳パターン生成部134が行なう訳語の付与は、例えば、(1)その未知語のアルファベットをそのまま訳語とする、(2)未知語のアルファベットをカタカナの読みに変換する、(3)既存の対訳辞書の情報を用いて訳語を作成する等の方法により訳語を付与するようにしてもよい。なお、本実施形態では、上記(1)のように、未知語のアルファベットをそのまま訳語とする。
【0037】
(A−2)第1の実施形態の動作
次に、本実施形態の機械翻訳装置の動作を説明する。
【0038】
図2は、本実施形態の機械翻訳装置の動作を示したフローチャートである。
【0039】
以下では、例として、“Less is a program similar to more.”(「lessはmoreに似たプログラムです。」)という入力文を翻訳させる場合を考える。
【0040】
ただし、翻訳パターン格納部122は、図3に示す翻訳パターンを予め格納しているとする。
【0041】
まず、使用者により入力文が入力部111に入力される(S201)。
【0042】
入力文は、翻訳手段120の翻訳実行部121に与えられ、翻訳実行部121により、翻訳パターン格納部122に格納されている翻訳パターンを利用して翻訳処理される(S202)。
【0043】
翻訳実行部121による構文解析が成功し翻訳処理されると、入力文に対する翻訳結果が、出力部112に与えられ出力される(S203及びS208)。
【0044】
また、翻訳実行部121による構文解析が失敗すると、構文解析の途中まで成功した解析結果が、解析途中結果格納部133に与えられる(S203)。
【0045】
翻訳実行部121における構文解析について図3を参照して説明する。
【0046】
図3において、左側が英語パターンを表し、右側が日本語パターンを表し、これら英語のパターンと日本語のパターンとが対になっている。各言語パターンは、[言語名:パターン名 パターン構成要素]からなる。
【0047】
言語名は、パターンの言語を示し、enはそのパターンが英語であることを示し、jpはパターンが日本語であることを示す。
【0048】
パターン名は、例えば、VP(動詞句)、NP(名詞句)、S(文)、N(名詞)等の句構造規則での標識が適用される。
【0049】
パターン構成要素は、単語、変数、又は、単語と変数との2以上の並び、からなる。変数は[任意の数字:パターン名]で記述される。任意の数字部分は、対となっている原言語及び目的言語パターン間での対応関係を示すものである。構文解析においては、変数に別のパターンが適用されることにより、パターンは入れ子構造をすることができる(変数が解消される)。
【0050】
このような翻訳パターンを利用して翻訳実行部121における構文解析処理は、ボトムアップに木構造を構築していく。
【0051】
すなわち、“more”についての翻訳パターンはあるが、これは形容詞(Adj)に関するものである。しかし、“similar to”の翻訳パターンにより、“to”の後に位置するものは名詞句であるので、固有名詞としての“more”の翻訳パターンが必要となるが、上述の通り“more”は形容詞としての翻訳パターンであるので、“more”について矛盾が生じ、構文解析が失敗する。すなわち、固有名詞としての“more”の翻訳パターンがない。
【0052】
また、同様にして“less”についての翻訳パターンがないので、構文解析が失敗する。
【0053】
このように、翻訳実行部121は、“less”と“more”とについて一つの名詞句として認識できず構文解析を失敗する。
【0054】
従って、翻訳実行部121は、図4に示すような、途中まで構文解析することができた結果を解析途中結果格納部133に与える。
【0055】
翻訳手段120による構文解析が失敗した場合、パターン生成手段130による処理がなされる。
【0056】
入力部111からの入力文は、句抽出部131に与えられ、句抽出部131による入力文から全ての句が抽出される(S204)。なお、本実施形態では、句抽出部131が抽出する句を名詞句として説明するが、勿論他の句であっても適用することができる。
【0057】
句抽出部131により抽出された名詞句は、句比較部132に与えられ、解析途中結果格納部133に格納されている既知の句と比較されて既知の句以外の句(未知句)が取り出される(S205)。
【0058】
例えば、句抽出部131において、この入力文に対してチャンカーを適用すると、図5のような結果が得られ、“less”,“a program”,“more”という3つの名詞句が抽出され、これらが句比較部132に与えられる。
【0059】
句比較部132において、“a program”は、既存の翻訳パターン(図4)で認識できるが、未知の名詞句である“less”と“more”とが取り出される。
【0060】
句比較部132における未知句の抽出は、例えば、図6に示す手順により行われる。図6は、句比較部132による未知句の抽出動作例を示すフローチャートである。
【0061】
図6に示すように、例えば、句比較部132は、結果を一時的に格納するための記憶領域であるメモリRESULTと、ハッシュ法により検索を行なうためのハッシュ表HASH−NPを備えており、まずこれらを初期化する(S601)。
【0062】
次に、解析途中結果格納部133に格納された句の中から一つを取り出してそれを「x」とする(S602)。
【0063】
「x」が名詞句であるかどうかを判断し(S603)、「x」が名詞句であれば、ハッシュ表HASH−NPに「x」を登録する(S604)。
【0064】
そして、解析途中結果格納部133に格納された句をまだ全て処理していなければ再びS602に戻り、全ての句の処理が終わっていれば次の処理S606に進む(S605)。
【0065】
次に、句抽出部131によって抽出された句の中から一つを取り出して、それを「y」とし(S606)、その「y」がハッシュ表HASH−NPに登録されているか否かを判定する。
【0066】
このとき、「y」がハッシュ表HASH−NPに登録されていない場合、その「y」は既知の句ではない、すなわち、未知の句であるので、「y」はメモリRESULTに追加される(S608)。また、「y」がハッシュ表HASH−NPに登録されていた場合はS609の処理に進む(S607)。
【0067】
句抽出部131から得られた句が、まだ全て処理されていなければS606の処理に戻り、全て処理されていればS610の処理に進む(S609)。
【0068】
最後に、メモリRESULTに翻訳パターンとして登録する必要のある未知句が入っているので、この未知句を翻訳パターン生成部134に与える(S610)。
【0069】
このようにして抽出された未知句は、翻訳パターン生成部134により、訳語を付与して、翻訳パターンが生成される(S206)。
【0070】
すなわち、図7に示すように、“less”と“more”とについて、名詞句としての翻訳パターンが生成される。
【0071】
生成された翻訳パターンは、翻訳実行部121に与えられ、翻訳実行部121において、その新しい翻訳パターンを使用して、入力文に対する翻訳が行われる(S207)。
【0072】
この場合、図8のような正しい構文解析結果を得ることができ、また、訳語としてそのままのアルファベットを付与するので、最終的に「Lessはmoreに似たプログラムです。」という出力される(S207)。
【0073】
(A−3)第1の実施形態の効果
以上、本実施形態によれば、パターン生成手段130を備えることにより、入力文に対する構文解析が失敗した場合でも、入力文中の構文解析処理ができなかった句を正確に判断し、その未知句についての新しい翻訳パターンを生成することができる。
【0074】
また、本実施形態によれば、パターン生成手段130が生成した翻訳パターンを利用して、入力文に対する構文解析を成功させることができる。
【0075】
さらに、本実施形態によれば、入力文に対する構文解析が失敗した場合にのみ、パターン生成手段130が未知句に対する翻訳パターンを自動的に生成するため、通常の翻訳処理実行時の処理効率を落とさずに翻訳処理を行なうことができる。
【0076】
(B)第2の実施形態
次に、本発明の自然言語パターン生成装置及び自然言語パターン登録装置の第2の実施形態を図面を参照して説明する。
【0077】
第2の実施形態も、翻訳パターンを利用して、入力された英語文を日本語文に翻訳処理をする機械翻訳装置が備えるパターン生成手段に、本発明の自然言語パターン生成装置を適用した場合であって、本発明の自然言語パターン登録装置により、その生成したパターンを登録する場合について説明する。
【0078】
(B−1)第2の実施形態の構成
本実施形態の機械翻訳装置も、コンピュータにより実現され得る機械翻訳プログラムをコンピュータにインストールすることなどにより構築されるが、機能的には、図9に示すことができる。
【0079】
図9は、第2の実施形態の機械翻訳装置の機能構成を示すブロック図である。なお、図9において、第1の実施形態の機械翻訳装置の機能構成と対応する構成については、それぞれ対応する番号を付し、これら対応する機能構成の説明は省略し、以下、第1の実施形態と異なる機能を詳細に説明する。
【0080】
図9に示すように、第2の実施形態の機械翻訳装置2も、入出力手段110と、翻訳手段120と、パターン生成手段130とを有する。
【0081】
第2の実施形態の機械翻訳装置2と、第1の実施形態の機械翻訳装置1との異なる点は、パターン生成手段130が翻訳パターン登録部900を有する点であり、それ以外の機械翻訳装置2の機能構成は、機械翻訳装置1の機能構成に対応する。
【0082】
従って、本実施形態では、パターン生成手段130が翻訳パターン登録部900を有することにより、第1の実施形態と異なる機能をする点について詳説し、それ以外については省略する。
【0083】
翻訳パターン登録部900は、翻訳パターン生成部134が生成した翻訳パターンを受け取り、その翻訳パターンに対して冠詞や修飾語句等の削除や複数表現を単数表現に変更するなどを行ない、一般的に使用されやすい翻訳パターンに整えるものである。
【0084】
このように、翻訳パターン登録部900が、一般的な翻訳パターンに整えるのは、汎用性を持たせることにより、生成した翻訳パターンを登録した後に、その翻訳パターンの適用範囲を広くするためである。
【0085】
また、翻訳パターン登録部900は、その生成した翻訳パターンを翻訳パターン格納部122へ登録しても問題ないかどうかを判定し、問題なければ翻訳パターン格納部122への登録を行うものである。
【0086】
(B−2)第2の実施形態の動作
図10は、第2の実施形態の動作を示すフローチャートである。
【0087】
図10において、使用者が入力した入力文に対する構文解析が行われ、構文解析が失敗した場合に、その入力文中の未知句が抽出されて、その未知句の翻訳パターンが生成されるまでの動作は、第1の実施形態の動作に対応する(S201〜S206)。
【0088】
翻訳パターン生成部134により生成された翻訳パターンは、翻訳パターン登録部900に与えられ、翻訳パターン登録部900により、その翻訳パターンの冠詞や修飾語句等が削除されて、一般的に適用される翻訳パターンに整えられる。
【0089】
また、翻訳パターン登録部900において、その冠詞や修飾語句等が削除された翻訳パターンが、誤った句であるか又は一般的に使われない特殊な句であるか等が判断されて、翻訳パターン登録の確認判定が行われる。
【0090】
この確認判定方法は、例えば、他の文書を参照して、その他の文書中におけるその句の出現頻度情報を利用したり、登録前にその翻訳パターンを出力部112により出力し、登録確認を使用者に求めたりしてもよい。このとき、例えば、その翻訳パターンの画面を出力部112に表示させ、使用者から登録したいパターンの構成要素などの情報を求めてもよい。
【0091】
登録確認された翻訳パターンは、翻訳パターン格納部122に与えられ登録される(S1000)。
【0092】
その登録された翻訳パターンを利用して翻訳実行部121により、入力文は翻訳処理が行われ(S207)、その翻訳結果が出力される(S208)。
【0093】
(B−3)第2の実施形態の効果
以上、本実施形態によれば、第1の実施形態の効果に加えて、翻訳パターン登録部900を備えることにより、生成した翻訳パターンを翻訳パターン格納部122に登録することができる。また、翻訳パターン登録部900は、生成した翻訳パターンに対して、一般的な適用範囲の広い翻訳パターンに整え、かつ、登録してもよいか否かの判定をするので、適切な登録をすることができる。
【0094】
その結果として、将来同じ句を含んだ入力文が入力された場合でも、正しく構文解析をすることができる。
【0095】
(C)他の実施形態
(C−1)本発明の自然言語パターン生成装置及び自然言語パターン登録装置は、翻訳パターンを利用した機械翻訳装置の適用に限定されるものではなく、構文解析を行なうものであれば他の方式の翻訳システムにも適用することができる。
【0096】
(C−2)上述した第1及び第2の実施形態において、機械翻訳装置は、英語文の日本語訳を行なうものとして説明したが、当然他の言語の日本語訳に対しても適用できる。また、日本語文の他言語訳に対しても適用できる。
【0097】
例えば、以下のようなフランス語の入力文の適用について説明する。
【0098】
【外1】
この入力文の翻訳は、(「lessはmoreに似たプログラムです。」)である。
【0099】
上記の場合、フランス語のチャンカーを利用することにより“less”と“more”との未知語が検出され、構文解析の失敗を防ぐことができる。
【0100】
(C−3)上述した第1及び第2の実施形態では、句抽出部131により、入力文中の名詞句を抽出することとして説明したが、動詞句等の他の句に対しても適用することができる。また、句抽出部131は、名詞句と動詞句などのように複数の異なる句を抽出して適用できるようにしてもよい。
【0101】
例えば、入力文“I less the file.”(「私はそのファイルをlessする。」)に対して、“less”は未知の動詞句であるが、チャンカーによって動詞句として抽出され、その動詞句“less”の翻訳パターンを生成することができる。
【0102】
【発明の効果】
以上、本発明によれば、パターン辞書に登録されていない、入力文中に含まれる未知の構成単位を正しく同定し、その新しく同定した未知の構成単位に対して適切に処理をして自然言語パターンを生成することができる。
【図面の簡単な説明】
【図1】第1の実施形態の機械翻訳装置の機能構成を示したブロック図である。
【図2】第1の実施形態の機械翻訳装置の動作を示したフローチャートである。
【図3】第1の実施形態の入力文に対して使用される翻訳パターンを示した説明図である。
【図4】第1の実施形態の解析途中結果格納部が格納する解析途中結果を示した説明図である。
【図5】第1の実施形態の句抽出部において抽出処理により得られた結果を示した説明図である。
【図6】第1の実施形態の句比較部による未知句抽出の動作を説明するフローチャートである。
【図7】第1の実施形態の翻訳パターン生成部により生成された翻訳パターンを示した説明図である。
【図8】第1の実施形態における入力文の構文解析結果を示した説明図である。
【図9】第2の実施形態の機械翻訳装置の機能構成を示したブロックである。
【図10】第2の実施形態の機械翻訳装置の動作を示したフローチャートである。
【符号の説明】
1、2…機械翻訳装置、130…パターン生成手段、
131…句抽出部、132…句比較部、
133…解析途中結果格納部、134…翻訳パターン生成部、
900…翻訳パターン登録部、120…翻訳手段、
121…翻訳実行部、122…翻訳パターン格納部。
【発明の属する技術分野】
本発明は、自然言語パターン生成装置、自然言語処理装置、自然言語パターン生成方法、記憶媒体及びプログラムに関し、例えば、自然言語パターンを利用して翻訳処理をする機械翻訳装置などの自然言語処理装置に適用することができ、また、例えば、機械翻訳を実現可能とする記録媒体やプログラムに適用できる。
【0002】
【従来の技術】
例えば、機械翻訳装置は、使用者によって入力された入力文に対して構文解析を行ない、この構文解析により得た入力文の統語的構造に基づいて翻訳処理を行なっている。
【0003】
しかし、あらゆる入力文に対して、構文解析を成功させることは難しく、失敗してしまうことがしばしばあり、構文解析が失敗してしまうと、その後の翻訳処理も続行することができない。
【0004】
下記の特許文献1は、このような問題を解決するために、構文解析が行えない文が入力された場合の対処方法を行なう装置について記載している。
【0005】
【特許文献1】
特願平3−70487号公報
特許文献1の非文訳出装置は、構文解析を行なう前に、文中の動詞成分の有無により入力文が非文であるか否かを判定し、入力文が非文であると判定した場合に、構文解析を行わずに各単語に対する言語と訳語とをペアにして表示する等の例外処理方法について記載している。
【0006】
【発明が解決しようとする課題】
しかしながら、上述した特許文献1に記載の装置は、入力文が非文であった場合に構文解析の失敗を避けるための方法であり、入力文が文として正しく構成されているにも拘わらず、構文解析が失敗する場合の対処方法については記載されていない。
【0007】
例えば、翻訳パターンを利用して翻訳処理をする機械翻訳装置において、構文解析が失敗する原因の一つとして、入力文を構成する語又は句が、機械翻訳装置が有する翻訳パターン辞書に登録されていない未知語又は未知句である場合がある。
【0008】
これは、翻訳パターンを利用して翻訳処理を行う場合、翻訳パターン辞書に既に登録されている翻訳パターンしか使用者は利用することができず、しかも、その翻訳パターン辞書に登録されていない未知語又は未知句が入力文に存在する場合には、その未知語又は未知句の翻訳パターンが存在しないため、入力文に対する構文解析ができないのである。特に固有名詞や専門用語等の名詞は日々増え続けているため、入力文中に未知の名詞語又は名詞句がしばしば出現する機会が多い。
【0009】
このような場合に、新たな翻訳パターンを使用者が辞書登録しようとしても、入力文の未知語又は未知句の品詞を的確に把握する必要があったり、また入力文の未知語又は未知句が特別な用法(通常と異なる用法)で用いられるものであったりするため、使用者が正しく翻訳パターンを辞書登録することは困難である。
【0010】
また、複数の単語から構成される未知句が入力文に存在している場合、その未知句のそれぞれの単語を分割してしまい、構文解析が適切に処理されない場合もある。
【0011】
そのため、入力文中に含まれる未知語又は未知句を正しく判別して、その新しく見つかった未知語又は未知句に対して適切に処理をして自然言語パターンを生成し、また、その生成された自然言語パターンを正しく記憶する自然言語パターン生成装置が求められている。また、そのような自然言語パターン生成装置を備える自然言語処理装置も求められている。さらに、自然言語処理装置により実現されるプログラム及びそのプログラムを記録した記憶媒体も求められている。
【0012】
【課題を解決するための手段】
かかる課題を解決するために、第1及び第3の本発明の自然言語パターン生成装置及び方法は、自然言語処理で利用される自然言語パターンを生成する自然言語パターン生成装置及び方法において、パターン辞書に登録されている自然言語パターンを用いて、入力文に対して構文解析をする構文解析手段及び処理と、構文解析手段による入力文の構文解析が完結できなかった場合、その構文解析によって解析を成し得た解析途中結果を格納する解析途中結果格納手段及び処理と、構文解析手段及び処理による入力文の構文解析が完結できなかった場合、入力文を構成する文法上の所定の構成単位を抽出する構成単位抽出手段及び処理と、抽出された構成単位と解析途中結果とに基づいて、パターン辞書に登録されていない、入力文中に含まれる未知の構成単位を同定する未知構成単位同定手段及び処理と、同定された未知の構成単位に対し、構成単位抽出手段及び処理により認識された未知の構成単位が属する文法属性を割り当てて、自然言語パターンを生成するパターン生成手段及び処理とを備えることを特徴とする。
【0013】
第2の本発明の自然言語処理装置は、パターン辞書に格納された自然言語パターンを利用して自然言語処理をする自然言語処理装置において、上記第1の本発明の自然言語パターン生成装置を備えることを特徴とする。
【0014】
第4の本発明のプログラムは、上記第2の本発明の自然言語パターン生成方法の各処理をコンピュータが実行し得るコードが記述されたプログラムである。
【0015】
さらに、第5の本発明の記憶媒体は、上記第4の本発明のプログラムを記録した、コンピュータにより読取可能な記録媒体である。
【0016】
【発明の実施の形態】
(A)第1の実施形態
以下では、本発明の自然言語パターン生成装置の第1の実施形態について図面を参照して詳説する。
【0017】
第1の実施形態は、翻訳パターンを利用して、入力された英語文を日本語文に翻訳処理をする機械翻訳装置が備えるパターン生成手段に、本発明の自然言語パターン生成装置を適用した場合について説明する。
【0018】
(A−1)第1の実施形態の構成
本実施形態の機械翻訳装置は、コンピュータにより実現され得る機械翻訳プログラムをコンピュータにインストールすることなどにより構築されるが、機能的には、図1に示すことができる。
【0019】
図1は、本実施形態の機械翻訳装置の機能構成を示したブロック図である。
【0020】
図1に示すように,第1の実施形態の機械翻訳装置1は、使用者が入力や出力を行なう入出力手段110と、機械翻訳を行なう翻訳手段120と、構文解析に失敗した際に自動的に翻訳パターンの生成を行なうパターン生成手段130とを有する。
【0021】
入出力手段110は、図1に示すように、入力部111と出力部112とを有する。
【0022】
入力部111は、使用者の操作により原文(入力文)を取り込み、その入力文をパターン生成手段130と翻訳手段120とに与えるものである。この入力部111は、例えば、文字入力するためのキーボードやテンキー等からなる。
【0023】
出力部112は、入力文の翻訳結果を翻訳手段120から受け取り、その翻訳結果を出力するものである。出力部112は、例えばディスプレイやプリンタ等からなる。
【0024】
翻訳手段120は、翻訳実行部121と、翻訳パターン格納部122とを有する。
【0025】
翻訳実行部121は、入力部111から入力文を受け取り、翻訳パターン格納部122に格納されている翻訳パターンを利用して構文解析と翻訳処理とを実行するものである。
【0026】
翻訳実行部121は、入力文に対する構文解析が成功して翻訳処理が完了した場合、その翻訳結果を出力部112に与えて出力させるものである。また、翻訳実行部121は、入力文に対する構文解析が失敗した場合、途中まで行なった構文解析の結果を、解析途中結果格納部133に与えるものである。
【0027】
翻訳実行部121は、入力文に未知の句があり構文解析が失敗した場合、翻訳パターン生成部134により生成された翻訳パターンを受け取り、その新しい翻訳パターンに基づいて、入力文に対して翻訳処理を行なうものである。
【0028】
翻訳パターン格納部122は、翻訳パターンを予め格納するものである。
【0029】
パターン生成手段130は、句抽出部131と、句比較部132と、解析途中結果格納部133と、翻訳パターン生成部134とを有するものである。
【0030】
句抽出部131は、入力部111から入力文を受け取り、その入力文を構成している句を抽出するものである。本実施形態における句抽出部131は、チャンカーを利用して、入力文中に含まれる全ての句の位置を同定し抽出するものである。
【0031】
このチャンカーとは、文中の句を同定するためのプログラムであり、詳細は、Lance A.Ramshaw,Mitchell P.Marcus 著,“Text Chunking Using Transformation−Based Learning”,Proceedings of The third ACL workshop on Very Large Corpora, Cambridge MA,USA,1995などに記述されているので、ここでは省略する。勿論、入力文から句を抽出することができれば他の方法によっても良い。
【0032】
句抽出部131は、前後の文脈情報等を利用する統計的なチャンカーを利用するので、例えば入力文中の未知である語が存在していても、その未知の語に対しても頑健に句の抽出を行なうことができる。すなわち、句抽出部131は、抽出すべき句の前後の品詞、単語等の文脈を考慮することで、その句の位置の同定とその句の文法属性(すなわちその句が属する構文カテゴリ)を決定することができる。
【0033】
なお、第1の実施形態では、抽出する入力文の構成単位を句としたが、句に限ることなく、入力文中の語や文節等を抽出するものとしてもよい。
【0034】
句比較部132は、句抽出部131により抽出された全ての句を受け取り、その入力文中の全ての句と、解析途中結果格納部133に格納された途中までの構文解析の結果における既知の句(すなわち、構文解析が成功した句)とを比較して、その既知の句以外の句(すなわち、既知の句に対する未知の句)のみを取り出すものである。句比較部132は、この未知句を翻訳パターン生成部134に与える。
【0035】
翻訳パターン生成部134は、句比較部132から未知句を受け取り、その訳語の付与をし、翻訳パターンを生成するものである。翻訳パターン生成部134は、生成した翻訳パターンを翻訳実行部121に与える。
【0036】
翻訳パターン生成部134が行なう訳語の付与は、例えば、(1)その未知語のアルファベットをそのまま訳語とする、(2)未知語のアルファベットをカタカナの読みに変換する、(3)既存の対訳辞書の情報を用いて訳語を作成する等の方法により訳語を付与するようにしてもよい。なお、本実施形態では、上記(1)のように、未知語のアルファベットをそのまま訳語とする。
【0037】
(A−2)第1の実施形態の動作
次に、本実施形態の機械翻訳装置の動作を説明する。
【0038】
図2は、本実施形態の機械翻訳装置の動作を示したフローチャートである。
【0039】
以下では、例として、“Less is a program similar to more.”(「lessはmoreに似たプログラムです。」)という入力文を翻訳させる場合を考える。
【0040】
ただし、翻訳パターン格納部122は、図3に示す翻訳パターンを予め格納しているとする。
【0041】
まず、使用者により入力文が入力部111に入力される(S201)。
【0042】
入力文は、翻訳手段120の翻訳実行部121に与えられ、翻訳実行部121により、翻訳パターン格納部122に格納されている翻訳パターンを利用して翻訳処理される(S202)。
【0043】
翻訳実行部121による構文解析が成功し翻訳処理されると、入力文に対する翻訳結果が、出力部112に与えられ出力される(S203及びS208)。
【0044】
また、翻訳実行部121による構文解析が失敗すると、構文解析の途中まで成功した解析結果が、解析途中結果格納部133に与えられる(S203)。
【0045】
翻訳実行部121における構文解析について図3を参照して説明する。
【0046】
図3において、左側が英語パターンを表し、右側が日本語パターンを表し、これら英語のパターンと日本語のパターンとが対になっている。各言語パターンは、[言語名:パターン名 パターン構成要素]からなる。
【0047】
言語名は、パターンの言語を示し、enはそのパターンが英語であることを示し、jpはパターンが日本語であることを示す。
【0048】
パターン名は、例えば、VP(動詞句)、NP(名詞句)、S(文)、N(名詞)等の句構造規則での標識が適用される。
【0049】
パターン構成要素は、単語、変数、又は、単語と変数との2以上の並び、からなる。変数は[任意の数字:パターン名]で記述される。任意の数字部分は、対となっている原言語及び目的言語パターン間での対応関係を示すものである。構文解析においては、変数に別のパターンが適用されることにより、パターンは入れ子構造をすることができる(変数が解消される)。
【0050】
このような翻訳パターンを利用して翻訳実行部121における構文解析処理は、ボトムアップに木構造を構築していく。
【0051】
すなわち、“more”についての翻訳パターンはあるが、これは形容詞(Adj)に関するものである。しかし、“similar to”の翻訳パターンにより、“to”の後に位置するものは名詞句であるので、固有名詞としての“more”の翻訳パターンが必要となるが、上述の通り“more”は形容詞としての翻訳パターンであるので、“more”について矛盾が生じ、構文解析が失敗する。すなわち、固有名詞としての“more”の翻訳パターンがない。
【0052】
また、同様にして“less”についての翻訳パターンがないので、構文解析が失敗する。
【0053】
このように、翻訳実行部121は、“less”と“more”とについて一つの名詞句として認識できず構文解析を失敗する。
【0054】
従って、翻訳実行部121は、図4に示すような、途中まで構文解析することができた結果を解析途中結果格納部133に与える。
【0055】
翻訳手段120による構文解析が失敗した場合、パターン生成手段130による処理がなされる。
【0056】
入力部111からの入力文は、句抽出部131に与えられ、句抽出部131による入力文から全ての句が抽出される(S204)。なお、本実施形態では、句抽出部131が抽出する句を名詞句として説明するが、勿論他の句であっても適用することができる。
【0057】
句抽出部131により抽出された名詞句は、句比較部132に与えられ、解析途中結果格納部133に格納されている既知の句と比較されて既知の句以外の句(未知句)が取り出される(S205)。
【0058】
例えば、句抽出部131において、この入力文に対してチャンカーを適用すると、図5のような結果が得られ、“less”,“a program”,“more”という3つの名詞句が抽出され、これらが句比較部132に与えられる。
【0059】
句比較部132において、“a program”は、既存の翻訳パターン(図4)で認識できるが、未知の名詞句である“less”と“more”とが取り出される。
【0060】
句比較部132における未知句の抽出は、例えば、図6に示す手順により行われる。図6は、句比較部132による未知句の抽出動作例を示すフローチャートである。
【0061】
図6に示すように、例えば、句比較部132は、結果を一時的に格納するための記憶領域であるメモリRESULTと、ハッシュ法により検索を行なうためのハッシュ表HASH−NPを備えており、まずこれらを初期化する(S601)。
【0062】
次に、解析途中結果格納部133に格納された句の中から一つを取り出してそれを「x」とする(S602)。
【0063】
「x」が名詞句であるかどうかを判断し(S603)、「x」が名詞句であれば、ハッシュ表HASH−NPに「x」を登録する(S604)。
【0064】
そして、解析途中結果格納部133に格納された句をまだ全て処理していなければ再びS602に戻り、全ての句の処理が終わっていれば次の処理S606に進む(S605)。
【0065】
次に、句抽出部131によって抽出された句の中から一つを取り出して、それを「y」とし(S606)、その「y」がハッシュ表HASH−NPに登録されているか否かを判定する。
【0066】
このとき、「y」がハッシュ表HASH−NPに登録されていない場合、その「y」は既知の句ではない、すなわち、未知の句であるので、「y」はメモリRESULTに追加される(S608)。また、「y」がハッシュ表HASH−NPに登録されていた場合はS609の処理に進む(S607)。
【0067】
句抽出部131から得られた句が、まだ全て処理されていなければS606の処理に戻り、全て処理されていればS610の処理に進む(S609)。
【0068】
最後に、メモリRESULTに翻訳パターンとして登録する必要のある未知句が入っているので、この未知句を翻訳パターン生成部134に与える(S610)。
【0069】
このようにして抽出された未知句は、翻訳パターン生成部134により、訳語を付与して、翻訳パターンが生成される(S206)。
【0070】
すなわち、図7に示すように、“less”と“more”とについて、名詞句としての翻訳パターンが生成される。
【0071】
生成された翻訳パターンは、翻訳実行部121に与えられ、翻訳実行部121において、その新しい翻訳パターンを使用して、入力文に対する翻訳が行われる(S207)。
【0072】
この場合、図8のような正しい構文解析結果を得ることができ、また、訳語としてそのままのアルファベットを付与するので、最終的に「Lessはmoreに似たプログラムです。」という出力される(S207)。
【0073】
(A−3)第1の実施形態の効果
以上、本実施形態によれば、パターン生成手段130を備えることにより、入力文に対する構文解析が失敗した場合でも、入力文中の構文解析処理ができなかった句を正確に判断し、その未知句についての新しい翻訳パターンを生成することができる。
【0074】
また、本実施形態によれば、パターン生成手段130が生成した翻訳パターンを利用して、入力文に対する構文解析を成功させることができる。
【0075】
さらに、本実施形態によれば、入力文に対する構文解析が失敗した場合にのみ、パターン生成手段130が未知句に対する翻訳パターンを自動的に生成するため、通常の翻訳処理実行時の処理効率を落とさずに翻訳処理を行なうことができる。
【0076】
(B)第2の実施形態
次に、本発明の自然言語パターン生成装置及び自然言語パターン登録装置の第2の実施形態を図面を参照して説明する。
【0077】
第2の実施形態も、翻訳パターンを利用して、入力された英語文を日本語文に翻訳処理をする機械翻訳装置が備えるパターン生成手段に、本発明の自然言語パターン生成装置を適用した場合であって、本発明の自然言語パターン登録装置により、その生成したパターンを登録する場合について説明する。
【0078】
(B−1)第2の実施形態の構成
本実施形態の機械翻訳装置も、コンピュータにより実現され得る機械翻訳プログラムをコンピュータにインストールすることなどにより構築されるが、機能的には、図9に示すことができる。
【0079】
図9は、第2の実施形態の機械翻訳装置の機能構成を示すブロック図である。なお、図9において、第1の実施形態の機械翻訳装置の機能構成と対応する構成については、それぞれ対応する番号を付し、これら対応する機能構成の説明は省略し、以下、第1の実施形態と異なる機能を詳細に説明する。
【0080】
図9に示すように、第2の実施形態の機械翻訳装置2も、入出力手段110と、翻訳手段120と、パターン生成手段130とを有する。
【0081】
第2の実施形態の機械翻訳装置2と、第1の実施形態の機械翻訳装置1との異なる点は、パターン生成手段130が翻訳パターン登録部900を有する点であり、それ以外の機械翻訳装置2の機能構成は、機械翻訳装置1の機能構成に対応する。
【0082】
従って、本実施形態では、パターン生成手段130が翻訳パターン登録部900を有することにより、第1の実施形態と異なる機能をする点について詳説し、それ以外については省略する。
【0083】
翻訳パターン登録部900は、翻訳パターン生成部134が生成した翻訳パターンを受け取り、その翻訳パターンに対して冠詞や修飾語句等の削除や複数表現を単数表現に変更するなどを行ない、一般的に使用されやすい翻訳パターンに整えるものである。
【0084】
このように、翻訳パターン登録部900が、一般的な翻訳パターンに整えるのは、汎用性を持たせることにより、生成した翻訳パターンを登録した後に、その翻訳パターンの適用範囲を広くするためである。
【0085】
また、翻訳パターン登録部900は、その生成した翻訳パターンを翻訳パターン格納部122へ登録しても問題ないかどうかを判定し、問題なければ翻訳パターン格納部122への登録を行うものである。
【0086】
(B−2)第2の実施形態の動作
図10は、第2の実施形態の動作を示すフローチャートである。
【0087】
図10において、使用者が入力した入力文に対する構文解析が行われ、構文解析が失敗した場合に、その入力文中の未知句が抽出されて、その未知句の翻訳パターンが生成されるまでの動作は、第1の実施形態の動作に対応する(S201〜S206)。
【0088】
翻訳パターン生成部134により生成された翻訳パターンは、翻訳パターン登録部900に与えられ、翻訳パターン登録部900により、その翻訳パターンの冠詞や修飾語句等が削除されて、一般的に適用される翻訳パターンに整えられる。
【0089】
また、翻訳パターン登録部900において、その冠詞や修飾語句等が削除された翻訳パターンが、誤った句であるか又は一般的に使われない特殊な句であるか等が判断されて、翻訳パターン登録の確認判定が行われる。
【0090】
この確認判定方法は、例えば、他の文書を参照して、その他の文書中におけるその句の出現頻度情報を利用したり、登録前にその翻訳パターンを出力部112により出力し、登録確認を使用者に求めたりしてもよい。このとき、例えば、その翻訳パターンの画面を出力部112に表示させ、使用者から登録したいパターンの構成要素などの情報を求めてもよい。
【0091】
登録確認された翻訳パターンは、翻訳パターン格納部122に与えられ登録される(S1000)。
【0092】
その登録された翻訳パターンを利用して翻訳実行部121により、入力文は翻訳処理が行われ(S207)、その翻訳結果が出力される(S208)。
【0093】
(B−3)第2の実施形態の効果
以上、本実施形態によれば、第1の実施形態の効果に加えて、翻訳パターン登録部900を備えることにより、生成した翻訳パターンを翻訳パターン格納部122に登録することができる。また、翻訳パターン登録部900は、生成した翻訳パターンに対して、一般的な適用範囲の広い翻訳パターンに整え、かつ、登録してもよいか否かの判定をするので、適切な登録をすることができる。
【0094】
その結果として、将来同じ句を含んだ入力文が入力された場合でも、正しく構文解析をすることができる。
【0095】
(C)他の実施形態
(C−1)本発明の自然言語パターン生成装置及び自然言語パターン登録装置は、翻訳パターンを利用した機械翻訳装置の適用に限定されるものではなく、構文解析を行なうものであれば他の方式の翻訳システムにも適用することができる。
【0096】
(C−2)上述した第1及び第2の実施形態において、機械翻訳装置は、英語文の日本語訳を行なうものとして説明したが、当然他の言語の日本語訳に対しても適用できる。また、日本語文の他言語訳に対しても適用できる。
【0097】
例えば、以下のようなフランス語の入力文の適用について説明する。
【0098】
【外1】
この入力文の翻訳は、(「lessはmoreに似たプログラムです。」)である。
【0099】
上記の場合、フランス語のチャンカーを利用することにより“less”と“more”との未知語が検出され、構文解析の失敗を防ぐことができる。
【0100】
(C−3)上述した第1及び第2の実施形態では、句抽出部131により、入力文中の名詞句を抽出することとして説明したが、動詞句等の他の句に対しても適用することができる。また、句抽出部131は、名詞句と動詞句などのように複数の異なる句を抽出して適用できるようにしてもよい。
【0101】
例えば、入力文“I less the file.”(「私はそのファイルをlessする。」)に対して、“less”は未知の動詞句であるが、チャンカーによって動詞句として抽出され、その動詞句“less”の翻訳パターンを生成することができる。
【0102】
【発明の効果】
以上、本発明によれば、パターン辞書に登録されていない、入力文中に含まれる未知の構成単位を正しく同定し、その新しく同定した未知の構成単位に対して適切に処理をして自然言語パターンを生成することができる。
【図面の簡単な説明】
【図1】第1の実施形態の機械翻訳装置の機能構成を示したブロック図である。
【図2】第1の実施形態の機械翻訳装置の動作を示したフローチャートである。
【図3】第1の実施形態の入力文に対して使用される翻訳パターンを示した説明図である。
【図4】第1の実施形態の解析途中結果格納部が格納する解析途中結果を示した説明図である。
【図5】第1の実施形態の句抽出部において抽出処理により得られた結果を示した説明図である。
【図6】第1の実施形態の句比較部による未知句抽出の動作を説明するフローチャートである。
【図7】第1の実施形態の翻訳パターン生成部により生成された翻訳パターンを示した説明図である。
【図8】第1の実施形態における入力文の構文解析結果を示した説明図である。
【図9】第2の実施形態の機械翻訳装置の機能構成を示したブロックである。
【図10】第2の実施形態の機械翻訳装置の動作を示したフローチャートである。
【符号の説明】
1、2…機械翻訳装置、130…パターン生成手段、
131…句抽出部、132…句比較部、
133…解析途中結果格納部、134…翻訳パターン生成部、
900…翻訳パターン登録部、120…翻訳手段、
121…翻訳実行部、122…翻訳パターン格納部。
Claims (9)
- 自然言語処理で利用される自然言語パターンを生成する自然言語パターン生成装置において、
パターン辞書に登録されている自然言語パターンを用いて、入力文に対して構文解析をする構文解析手段と、
上記構文解析手段による入力文の構文解析が完結できなかった場合、その構文解析によって解析を成し得た解析途中結果を格納する解析途中結果格納手段と、
上記構文解析手段による入力文の構文解析が完結できなかった場合、上記入力文を構成する文法上の所定の構成単位を抽出する構成単位抽出手段と、
抽出された上記構成単位と上記解析途中結果とに基づいて、上記パターン辞書に登録されていない、入力文中に含まれる未知の構成単位を同定する未知構成単位同定手段と、
同定された上記未知の構成単位に対し、上記構成単位抽出手段により認識された上記未知の構成単位が属する文法属性を割り当てて、自然言語パターンを生成するパターン生成手段と
を備えることを特徴とする自然言語パターン生成装置。 - 上記未知構成単位同定手段が、上記構文解析により解析を成し得た上記解析途中結果である構成単位を項目とした解析成功結果テーブルを作成し、上記構成単位抽出手段からの構成単位を項目変数とし、上記解析成功結果テーブルに含まれていない構成単位を未知の構成単位として検索することを特徴とする請求項1に記載の自然言語パターン生成装置。
- 上記パターン生成手段が、生成したパターンの構成要素を基本表現に整え、上記パターン辞書への登録をするか否かを判定することを特徴とする請求項1又は2に記載の自然言語パターン生成装置。
- パターン辞書に格納された自然言語パターンを利用して自然言語処理をする自然言語処理装置において、
上記請求項1〜3のいずれかに記載の自然言語パターン生成装置を備えることを特徴とする自然言語処理装置。 - 自然言語処理で利用される自然言語パターンを生成する自然言語パターン生成方法において、
パターン辞書に登録されている自然言語パターンを用いて、入力文に対して構文解析をする構文解析処理と、
上記構文解析処理による入力文の構文解析が完結できなかった場合、その構文解析によって解析を成し得た解析途中結果を格納する解析途中結果格納処理と、
上記構文解析処理による入力文の構文解析が完結できなかった場合、上記入力文を構成する文法上の所定の構成単位を抽出する構成単位抽出処理と、
抽出された上記構成単位と上記解析途中結果とに基づいて、上記パターン辞書に登録されていない、入力文中に含まれる未知の構成単位を同定する未知構成単位同定処理と、
同定された上記未知の構成単位に対し、上記構成単位抽出処理により認識された上記未知の構成単位が属する文法属性を割り当てて、自然言語パターンを生成するパターン生成処理と
を備えることを特徴とする自然言語パターン生成方法。 - 上記未知構成単位同定処理が、上記構文解析により解析を成し得た上記解析途中結果である構成単位を項目とした解析成功結果テーブルを作成し、上記構成単位抽出処理による構成単位を項目変数とし、上記解析成功結果テーブルに含まれていない構成単位を未知の構成単位として検索することを特徴とする請求項5に記載の自然言語パターン生成方法。
- 上記パターン生成処理が、生成したパターンの構成要素を基本表現に整え、上記パターン辞書への登録をするか否かを判定することを特徴とする請求項5又は6に記載の自然言語パターン生成方法。
- 上記請求項5〜7のいずれかに記載の自然言語パターン生成方法の各処理をコンピュータが実行し得るコードが記載されたプログラム。
- 上記請求項8に記載のプログラムを記録した、コンピュータにより読取可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002364021A JP2004199173A (ja) | 2002-12-16 | 2002-12-16 | 自然言語パターン生成装置、自然言語処理装置、自然言語パターン生成方法、プログラム及び記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002364021A JP2004199173A (ja) | 2002-12-16 | 2002-12-16 | 自然言語パターン生成装置、自然言語処理装置、自然言語パターン生成方法、プログラム及び記憶媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004199173A true JP2004199173A (ja) | 2004-07-15 |
Family
ID=32762008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002364021A Pending JP2004199173A (ja) | 2002-12-16 | 2002-12-16 | 自然言語パターン生成装置、自然言語処理装置、自然言語パターン生成方法、プログラム及び記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004199173A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8077974B2 (en) | 2006-07-28 | 2011-12-13 | Hewlett-Packard Development Company, L.P. | Compact stylus-based input technique for indic scripts |
JP2015219861A (ja) * | 2014-05-21 | 2015-12-07 | 富士通株式会社 | 文書解析装置、文書解析プログラム及び文書解析方法 |
-
2002
- 2002-12-16 JP JP2002364021A patent/JP2004199173A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8077974B2 (en) | 2006-07-28 | 2011-12-13 | Hewlett-Packard Development Company, L.P. | Compact stylus-based input technique for indic scripts |
JP2015219861A (ja) * | 2014-05-21 | 2015-12-07 | 富士通株式会社 | 文書解析装置、文書解析プログラム及び文書解析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7707026B2 (en) | Multilingual translation memory, translation method, and translation program | |
JP3971373B2 (ja) | ルールベース方式と翻訳パターン方式とを混合したハイブリッド自動翻訳装置 | |
JP2654001B2 (ja) | 機械翻訳方法 | |
Yeniterzi | Exploiting morphology in Turkish named entity recognition system | |
Hutchins | Towards a definition of example-based machine translation | |
US8121829B2 (en) | Method and apparatus for constructing translation knowledge | |
US8655641B2 (en) | Machine translation apparatus and non-transitory computer readable medium | |
WO2003065245A1 (fr) | Procede de traduction, procede de production de phrase traduite, support d'enregistrement, programme et ordinateur | |
JPS62163173A (ja) | 機械翻訳方法 | |
JP2004070928A (ja) | 転移ベースの機械翻訳システムで使用される転移辞書を開発するための方法および装置 | |
US7983899B2 (en) | Apparatus for and method of analyzing chinese | |
JP2004199173A (ja) | 自然言語パターン生成装置、自然言語処理装置、自然言語パターン生成方法、プログラム及び記憶媒体 | |
Probst | Automatically induced syntactic transfer rules for machine translation under a very limited data scenario | |
JP4708682B2 (ja) | 対訳単語対の学習方法、装置、及び、対訳単語対の学習プログラムを記録した記録媒体 | |
JP2000250913A (ja) | 実例型自然言語翻訳方法、対訳用例集作成方法および装置とそのプログラムを記録した記録媒体 | |
JP2947554B2 (ja) | 機械翻訳装置 | |
KR20020054244A (ko) | 부분문틀을 이용한 장문 번역 장치 및 그 방법 | |
KR20080029567A (ko) | 병렬 말뭉치를 이용한 신조어의 대역어 자동 선정 방법 및장치 | |
JP4092861B2 (ja) | 自然言語パターン作成装置及び方法 | |
JP3244286B2 (ja) | 翻訳処理装置 | |
JPH1166068A (ja) | 機械翻訳装置および機械翻訳方法ならびに機械翻訳プログラムを記録した記録媒体 | |
JP2005135039A (ja) | 機械翻訳装置及び機械翻訳プログラム | |
JPH0778166A (ja) | 翻訳方法及び機械翻訳装置 | |
JP2994539B2 (ja) | 機械翻訳装置 | |
Alfter | Analyzer and generator for Pali |