JP2007172657A

JP2007172657A - 一般に混同するワードを自然言語パーザにおいて識別及び分析する方法及びシステム

Info

Publication number: JP2007172657A
Application number: JP2007069577A
Authority: JP
Inventors: Darou Richardson Stephen; ダロウリチャードソンスティーヴン; E Heidoon George; イーヘイドーンジョージ
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 1996-06-25
Filing date: 2007-03-16
Publication date: 2007-07-05
Also published as: JPH1078964A; EP0836144A3; US5999896A; CN1172992A; EP0836144A2

Abstract

【課題】自然言語パーザにおいて一般に混同するワードを識別しそして分析する方法及びシステムを提供する。
【解決手段】コンピュータシステムは、２つ以上のワードより成る入力テキストを、入力テキストのワードの中の１つを含む潜在的に混同するワードからその意図されたと考えられるワードへとマップする関係を使用してパーズする。コンピュータシステムは、先ず、潜在的に混同するワードを含む入力テキストの各ワードに対して考えられる品詞を識別する。次いで、上記関係が潜在的に混同するワードからマップするところの、意図されたと考えられるワードに対して考えられる品詞を識別する。そしてそれらの識別された品詞に構文的文法ルールを適用し、意図されたワードに対する品詞を含む完全な構文ツリーは発生されるが、潜在的の混同するワードに対する品詞を含む完全な構文ツリーは発生されないようにする。
【選択図】図１

Description

本発明は、一般に、自然言語パージングの分野に係り、より詳細には、自然言語テキストに生じるエラーを修正する技術に係る。

文章を書くときに、筆者は、時々、あるワードが正しいところに誤って別のワードを使用することがある。例えば、筆者は、「ａｄ」が正しいところにワード「ａｄｄ」を用いて次のような文章を書くことがある。

Ｔｈｅａｄｄｃｏｎｖｉｎｃｅｄｐｅｏｐｌｅ．
一貫して互いに間違えられやすい「ａｄｄ」及び「ａｄ」のようなワード対は、一般に混同すると言える。一般に混同するワードは、同様の発音を有する（例えば、「ａｄｖｉｓｅ」対「ａｄｖｉｃｅ」）か、又は若干の文字の位置が異なる（例えば、「ｆｒｏｍ」対「ｆｏｒｍ」）ことが多い。上記例において、ワード「ａｄ」は、「意図されたワード」即ち筆者により意図されたワードと称し、一方、ワード「ａｄｄ」は、「混同するワード」即ち筆者が意図されたワードと誤って置き換えたワードと称する。

混同するワードがセンテンスに含まれたときは、自然言語パーザは、センテンスをパージングすることが困難である。自然言語パーザは、自然言語のセンテンスを分析して、センテンスの語彙及び構文内容を見分ける。例えば、チャートに基づく自然言語パーザは、入力センテンスの各ワードに対し辞書から辞書エントリーを検索する。辞書エントリーは、ワードに関する一般的情報を含む語彙記録と、ワードが表す特定の品詞に特有の情報を各々含む参照用の品詞記録とを備えている。パーザは、１つ以上の品詞記録を、チャートと称する作用領域に入れ、それらはパージングルールを受け、品詞記録が、より大きな構文単位、最終的にはセンテンスに合成される。

自然言語パーザを使用し、意図されたワードとして筆者により意図された品詞を有していない混同するワードを含むセンテンスをパージングするときには、自然言語パーザは、センテンスの完全なパーズを発生することができない。自然言語パーザの目的は、入力センテンスの意図された語彙及び構文内容を正確に表す完全なパーズを発生することであるから、混同するワードを含むセンテンスの完全なパーズを発生することのできる自然言語パーザが望まれる。

本発明は、センテンスのような入力テキストセグメントのパージング中に一般に混同するワードを識別しそして分析する自然言語パーザを提供する。一般に混同するワードを識別しそして分析する能力は、筆者により作成された文書に含まれたセンテンスの文法上の的確さを評価するためにワードプロセッサに関連して使用される文法チェッカーについて特に価値がある。しかしながら、当業者であれば、本発明は、自然言語パーザのいかなる用途にも有利に使用できることが明らかであろう。

本発明は、一般に混同するワードのセットのリストを使用する。各セットは、一般に混同される２つ以上のワードを含んでいる。本発明によるパーザは、入力センテンスにおいて遭遇しこれらセットの１つに現れるワードを、あたかもそのセットの他のワードで表される品詞を表し得るかのように処理する。例えば、ワード「ａｄｄ」及び「ａｄ」が混同し得るワードのセットを構成しそしてワード「ａｄｄ」が入力センテンスに現れる場合に、パーザは、ワード「ａｄｄ」をあたかもそれが動詞又は名詞を表し得るかのように処理する。というのは、ワード「ａｄｄ」は動詞を表し、そしてワード「ａｄ」は名詞を表すからである。これは、遭遇したワードの辞書エントリーには対応する品詞がないか、又は同じ品詞でも異なる数又は時制を有するような、セットの他のワードの辞書エントリーから品詞記録をチャートに追加することを含む。これら付加的な品詞記録は、一般に、パーザが元の品詞記録にルールを適用する機会を有した後に、パージングプロセスの後の方で追加される。

本発明の実施形態は、更に、一般に混同するワードを識別及び分析した結果を表示するための、文法チェッカーのユーザインターフェイスを提供する。又、ある実施形態においては、本発明は、これらの追加された品詞記録へのレファレンスを、遭遇したワードの語彙記録に追加し、ワードの語彙記録を用いてそのワードが他のどのような品詞を表すかを決定するルールによって、この遭遇したワードがこれら追加の品詞を表している可能性についても考慮するようにする。

自然言語パーザにおいて一般に混同するワードを識別しそして分析する方法及びシステムが提供される。好ましい実施形態において、本発明は、一般に混同するワードのセットのリストを使用し、これは、ユーザにより修正することができる。本発明によれば、パーザは、入力センテンスにおいて遭遇しこれらセットの１つに現れるワードを、あたかもそのセットの他のワードで表される品詞をも表し得るようなに処理する。例えば、ワード「ａｄｄ」及び「ａｄ」が混同し得るワードのセットを構成しそしてワード「ａｄｄ」が入力センテンスに現れる場合に、パーザは、ワード「ａｄｄ」をあたかもそれが動詞又は名詞を表し得るかのように処理する。というのは、ワード「ａｄｄ」は動詞を表し、そしてワード「ａｄ」は名詞を表すからである。これは、セットの他のワードの辞書エントリーからの品詞記録で遭遇するワードに対応する品詞がないものをチャートに追加することを含む。これらの付加的な品詞記録は、一般に、パーザが元の品詞記録にルールを適用する機会を有した後に、パージングプロセスの後の方で追加される。又、ある実施形態では、本発明は、これらの追加された品詞記録へのレファレンスを、遭遇したワードの語彙記録に追加し、従って、ワードの語彙記録を用いてワードが他のどのような品詞を表すかを決定するためのルールによって、遭遇したワードがこれらの追加品詞を表す可能性も考慮するようにする。

図１は、パーザが好ましく動作する汎用コンピュータシステムの高レベルブロック図である。コンピュータシステム１００は、中央処理ユニット（ＣＰＵ）１１０と、入力／出力装置１２０と、コンピュータメモリ（メモリ）１３０とを備えている。入力／出力装置の中には、ハードディスクドライブのような記憶装置１２１がある。又、入力／出力装置は、取り外し可能なメディアドライブ１２２を含み、このドライブは、適用パーザを含むソフトウェア製品をインストールするのに使用でき、これらソフトウェア製品は、ＣＤ−ＲＯＭのようなコンピュータ読み取り可能な媒体に設けられる。更に、入力／出力装置は、ユーザが自然言語テキストを直接的に入力するのに使用するキーボード１２３も含む。又、入力／出力装置は、ユーザが自然言語テキストを間接的に入力するのに使用する音声入力装置１２４及び手書き入力装置１２５も任意に含む。音声入力装置を用いてユーザにより入力される自然言語テキストは、好ましくは、音声認識装置（図示せず）により音声データから変換される。同様に、手書き入力装置を用いてユーザにより入力される自然言語テキストは、好ましくは、手書き認識装置（図示せず）を用いて手書きデータから変換される。メモリ１３０は、一般的に混同するワードを識別及び分析するためのパーザ１３１を含む。パーザは、入力テキストセグメント及び中間パーズ結果を表すパーズツリーを含むためのチャート１３２を備えている。又、パーザは、一般に混同するワードを、それらと一般に混同するワード（即ち、意図されたワード）へとマップする混同し得るワードのテーブル１３３も備えている。例えば、ワード「ａｄｄ」は、ワード「ａｄ」へとマッ
プされ、筆者が「ａｄ」ではなくワード「ａｄｄ」を間違って使用するかもしれないことを指示する。混同し得るワードのテーブルは、記憶装置に記憶されてもよいし、又は取り外し可能なメディアドライブを用いて取り外し可能な媒体に記憶されてもよい。パーザは、上記のように構成されたコンピュータシステムにおいて実施されるのが好ましいが、異なる構成のコンピュータシステムでも実施できることが当業者に明らかであろう。

適用パーザを用いて入力テキストをパーズしながら、一般に混同するワードを識別及び分析する一例を、図２ないし７に関連して説明する。図２は、入力テキストに生じる潜在的に混同するワードを含む入力テキストのワードに対しパーザが品詞記録（ｐａｒｔ−ｏｆ−ｓｐｅｅｃｈｒｅｃｏｒｄ）をチャートに追加するところを示すチャート図である。図２は、例示的入力ストリング２０１「Ｔｈｅａｄｄｃｏｎｖｉｎｃｅｄｐｅｏｐｌｅ．」を示している。図２は、更に、パーザが入力テキストに現れるワードに対する品詞記録をチャートに追加した後のパーザのチャート２００の内容も示している。このチャートは、品詞記録２１１−２１５を含み、その１つ以上は、入力テキストに生じる各ワードを示す。品詞記録２１１は、ワード「ｔｈｅ」を表し、品詞記録２１２は、ワード「ａｄｄ」を表し、品詞記録２１３は、ワード「ｃｏｎｖｉｎｃｅｄ」を表し、そして品詞記録２１４及び２１５は、ワード「ｐｅｏｐｌｅ．」を表す。各品詞記録は、そのワードが表し得る、考え得る品詞の一つと、動詞の品詞記録に対する動詞の時制のような付加的な関連語彙情報との表示を含む。考え得る品詞及び他の語彙情報は、入力ストリングに生じるワードに対し辞書入力から検索されるのが好ましい。

図３は、チャートの内容により暗示されるルールをパーザが適用するところを示す。即ち、パーザは、チャートに既に存在する形式の記録を結合することのできるルールを適用する。図３は、動詞及び名詞を動詞句即ち「ＶＰ」に変換するルールの適用を示す。このルールの適用は、ワード「ｃｏｎｖｉｎｃｅｄ」に対する動詞の品詞記録３１３を「ｐｅｏｐｌｅ」に対する名詞の品詞記録３１４と結合する動詞句記録３２１を形成する。品詞記録とルールにより形成された記録とは、付加的なルールを暗示することもある。これら付加的なルールは、繰り返し適用される。ここに示す例の場合には、チャートの記録を結合するのに他のルールは首尾良く適用されない。

これらルールの適用により完全なパーズが発生された場合には（即ち、入力ストリングの全てのワードをカバーするセンテンス記録が形成された場合には）、パージングが終了しそして完全なパーズが返送されるが、さもなくば、パーザの動作が続けられる。入力テキストが潜在的に混同するワードを含む場合には、パーザの動作が続けられるが、さもなくば、パーザは完全なパーズを発生することができず、欠陥を返送する。図４は、入力テキストにおいて潜在的に混同するワードを識別するのに使用される例示的な混同し得るワードのテーブルを示す図である。この混同し得るワードのテーブル４００は、潜在的に混同するワードの欄と、意図されたと考えられるワードの欄とを含む。各行において、潜在的に混同するワードの欄は、１つ以上の他のワードに対して混同することのあるワードを含む。その行において、意図されたと考えられるワードの欄は、潜在的に混同するワードと混同し得る１つ以上の意図されたと考えられるワードのリストを含む。例えば、行４０２は、ワード「ａｄｄ」がワード「ａｄ」と混同し得ることを示す。行４０１は、その逆もあることを示し、即ちワード「ａｄ」がワード「ａｄｄ」と混同することを示している。ワード間の幾つかの潜在的な混同は、一方向性であり、即ちある対の一方のワードは、その対の他方のワードと潜在的に混同し得る（例えば、行４０３は、「ｃａｎｔ」が「ｃａｎ’ｔ」と混同し得ることを示す）が、その逆はない（例えば、「ｃａｎ’ｔ」は、潜在的に混同するワードの欄に現れない）。行４０９ないし４１１は、潜在的に混同するワードが２つ以上の意図されたと考えられるワードと混同し得ることを示す。パーザは、入力テキストのワードを、混同し得るワードのテーブルの潜在的に混同するワード欄のワードと比較する。入力ストリングのいずれかのワードが、潜在的に混同するワード欄のワードと一致する場合には、その入力テキストが潜在的に混同するワードを含む。

図５は、入力テキストにおいて識別された潜在的に混同するワードに対応する、意図されたと考えられるワードに対しパーザが品詞記録をチャートに追加するところを示すチャート図である。パーザは、潜在的に混同するワードとは異なる品詞を有する意図されたと考えられるワードに対する品詞記録をチャートに追加するのが好ましい。例えば、パーザは、好ましくは、意図されたと考えられるワード「ａｄ」に対し名詞の品詞記録を追加する。というのは、その品詞が、その潜在的に混同するワード「ａｄｄ」に対して可能な品詞とは異なるからである。又、パーザは、好ましくは、潜在的に混同するワードとは異なる時制を有する、意図されたと考えられるワードの品詞記録をチャートに追加する。例えば、パーザは、好ましくは、意図されたと考えられるワード「ｍｉｎｄ」に対し現在時制の動詞の品詞記録を追加する。というのは、その時制が、潜在的に混同するワード「ｍｉｎｅｄ」の過去時制の動詞形態とは異なるからである。又、パーザは、好ましくは、潜在的に混同するワードとは異なる数を有する、意図されたと考えられるワードの品詞記録をチャートに追加する。例えば、パーザは、好ましくは、意図されたと考えられるワード「ｌａｐｓ」に対し複数名詞の品詞記録を追加する。というのは、その数が、潜在的に混同するワード「ｌａｐｓｅ」の単数名詞形とは異なるからである。更に、混同するワードの特定セットに対し、ユーザは、たとえ品詞、時制及び数が同じであっても、セット内のワードに対し品詞記録をチャートに追加することを指定するのが好ましい。図５は、パーザがワード「ａｄ」に対する名詞の品詞記録５１６をチャートに追加したところを示す。というのは、行４０２に示すように、入力ストリングに現れるワード「ａｄｄ」が、可能な品詞として辞書が名詞を指定するところのワード「ａｄ」と混同し得るからである。

図６は、意図されたと考えられるワードに対して品詞記録をチャートに追加した後にチャートの内容により暗示されるルールをパーザが適用するところを示すチャート図である。図６は、チャートに記録６２２及び６２３を形成するルールをパーザが適用するところを示す。記録６２２は、「ｔｈｅ」に対する冠詞の品詞記録６１１を、意図されたと考えられるワード「ａｄ」に対する名詞の品詞記録６１６と結合して、名詞句（ＮＰ）を形成する。記録６２３は、名詞句の記録６２２と動詞句の記録６２１を結合してセンテンスを形成する。又、記録６２３は、入力テキストの各ワードを表すリーフを有するツリーのヘッドノードを構成するという点で、入力ストリングの各ワードを「カバー」する。

別のワードに対する品詞記録を追加した後のチャートの内容によって暗示されたルールの適用が完全なパーズを形成した場合には、パーザは、的確な成功を出力するが、さもなくば、パーザは失敗を出力する。図６から明らかなように、この例では、パーザは、センテンス記録６２３が入力テキストの全てのワードをカバーし、それ故、的確な成功を出力するという点で、完全なパーズを形成している。

図７は、パーザを用いた文法チェッカーの視覚的ユーザインターフェイスを示すスクリーン図である。この文法チェッカーのユーザインターフェイスは、好ましくは、ウインドウ７００を表示する。ウインドウ７００は、好ましくは、現在チェックされているセンテンス７１０を含む。更に、ウインドウは、現在センテンスの特定のワードがおそらく別のワードと混同しているという指示７２０を含む。又、ウインドウは、好ましくは、潜在的に混同するワードを置き換えるという提案７１０も含む。更に、ウインドウは、好ましくは、提案を受け入れて潜在的に混同するワードを置き換えることをユーザが選択できるボタン７４０と、提案を拒否しそして潜在的に混同するワードの置き換えを排除することをユーザが選択できるボタン７５０とを含む。

図８は、一般に混同するワードを識別しそして分析しながら入力テキストをパーズするために適用パーザにより好ましく実行される高レベルステップを示すフローチャートである。ステップ８０１において、パーザは、入力テキストに生じる潜在的に混同するワードを含む、入力テキストのワードに対し、品詞記録をチャートに追加する。ステップ８０２において、パーザは、チャートの内容により暗示されたルールの１つを適用する。ステップ８０３において、ステップ８０２のルールの適用により完全なパーズが形成された場合には（即ち、入力ストリングの全てのワードをカバーするセンテンス記録が形成された場合には）、これらのステップは終了し、完全なパーズが出力されるが、さもなくば、パーザはステップ８０４に進む。ステップ８０４において、パージングが終了した場合、即ち暗示された全てのルールが適用されるか又は適用されたルールの全数が上限を越えた場合には、パーザは、ステップ８０５に進み、さもなくば、パーザは、ステップ８０２に進んで、暗示された別のルールを適用する。ステップ８０５において、入力テキストが潜在的に混同するワードを含む場合には、パーザは、ステップ８０６に進み、さもなくば、パーザは、完全なパーズを形成することができず、失敗を出力する。入力テキストが潜在的に混同するワードを含むかどうか決定するために、パーザは、入力テキストのワードを、混同し得るワードのテーブルの潜在的に混同するワード欄のワードと比較する。入力ストリングのいずれかのワードが、潜在的に混同するワード欄のワードと一致する場合には、入力テキストは潜在的に混同するワードを含む。ステップ８０６において、パーザは、入力テキストにおいて識別された潜在的に混同するワードに対応する意図されたと考えられるワードの、品詞記録をチャートに追加する。ステップ８０７において、パーザは、別のワードに対する品詞記録をステップ８０６で追加した後のチャートの内容により暗示されたルールの１つを適用する。ステップ８０８において、完全なパーズが発生された場合には、パーザは、的確な成功を出力し、さもなくば、パーザは、ステップ８０９に進む。ステップ８０９において、パージングが完了した場合、即ち暗示された全てのルールが適用されるか又は適用されたルールの全数が上限を越えた場合に、パーザは、失敗を出力し、さもなくば、パーザはステップ８０７に続き、別の暗示されたルールを適用する。

幾つかの文法ルールは、各ワードの特定の品詞に適用される一方で、各ワードが表す全ての可能な品詞を考慮する。このような文法ルールは、完全なパーズの発生に貢献しそうもないルールを適用するのに必要な処理リソースの量を減少することができる。このようなルールをサポートするために、品詞記録を一緒にリンクすることができ、これにより一つのワードに対して全ての可能な品詞を容易に決定することができる。本発明の好ましい実施形態によれば、意図されたと考えられるワードの品詞記録は、パージングプロセスの始めに、潜在的に混同するワードの品詞記録にリンクされるのが好ましい。図８ないし１１は本発明のこの特徴を示す。図９は、図２の別の図であって、ステップ８０１の実行の後であって且つルールを適用する前のチャートの内容を示す。品詞記録９１１ないし９１５は、入力テキストのワードにより表された潜在的な品詞に関するデータを含むのではなく、この情報を含むデータ構造体へのポインタを含む。例えば、品詞記録９１４は、潜在的な品詞の名詞及び他の関連する語彙情報を含むス品詞データ構造体９７１へのポインタを含む。別の好ましい実施形態（図示せず）によれば、品詞データ構造体へのポインタをデレファレンスする時間的コストを排除するために、品詞データ構造体から品詞記録へデータがコピーされる。品詞データ構造体９７１は、ワード「ｐｅｏｐｌｅ」を表す語彙記録９７０への両方向性リンクを含む。別のデータ構造体９７２は、ワード「ｐｅｏｐｌｅ」に対して考えられる動詞の品詞を含むと共に、語彙記録９７０への両方向性リンクも含む。品詞データ構造体９７１及び９７２と語彙記録データ構造体９７０との間のリンクは、ルールがそれらの処理を、特定のワードに対して全ての可能な品詞のセットに基づいて行えるようにする。ワード「ｐｅｏｐｌｅ」に対する名詞の品詞記録９１４の場合に、この記録に適用されるルールは、ワード「ｐｅｏｐｌｅ」が動詞も表し得ることを考慮する。

図１０は、本発明のこの特徴によるチャートの更に別の変形を示している。図１０は、意図されたと考えられるワードに対する品詞データ構造体と、その潜在的に混同するワードに対する語彙記録データ構造体とのリンクを示す。図１０は、名詞形態のワード「ａｄ」に対する品詞データ構造体１０５２を「ａｄｄ」に対する語彙記録１０５０に加えるところを示している。両品詞データ構造体１０５１及び１０５２は、ワード「ａｄｄ」の語彙データ構造体１０５０に両方向にリンクされるので、「ａｄｄ」を動詞の品詞記録１０１２として適用されるルールは、名詞をこのワードに対して可能な品詞とみなすことができる。上記のように、本発明によれば、ルールによって結合されるべきワードの他の可能な品詞に基づいてそのルールの挙動が決まるようなルールの適用を容易にするため、意図されたと考えられるワードの可能な品詞に対する品詞データ構造体は、考えられる混同するワード各々の語彙データ構造体にリンクされるのが好ましい。図１１は、本発明のこの特徴により、名詞の品詞記録１１１６は、ステップ８０６においてチャートに追加されたときに、意図されたと考えられるワード「ａｄ」に対する潜在的な品詞の名詞を含む品詞データ構造体１１５２へのポインタを含むことを示している。

完全なパーズの発生に貢献しそうにないルールの適用を防止することによってパージングの効率を高めるのに加えて、意図されたと考えられるワードのリンクされた品詞記録を参照するルールを使用することにより、潜在的に混同するワードが意図されたと考えられるワードと実際に混同された場合にパーザが潜在的に混同するワードを用いて入力テキストの見掛け上正しい完全なパーズを発生するのを防止することができる。これは、混同するワード「ｆｏｒｍ」が意図されたワード「ｆｒｏｍ」に代わって使用される次の例示的なセンテンスについて言えることである。

ＡｎｇｅｌａｄｅｐａｒｔｅｄｆｏｒｍＳｅａｔｔｌｅ．
意図されたと考えられるワードの可能な品詞を考慮しないルールを用いると、あるパーザは、動詞句を動詞句「ｄｅｐａｒｔｅｄ」と名詞句「ｆｏｒｍＳｅａｔｔｌｅ」から形成することにより、このセンテンスの完了パーズを発生する。この完了パーズは、「ｆｏｒｍＳｅａｔｔｌｅ」が動詞「ｄｅｐａｒｔｅｄ」の有効な目的語でないから、実際には正しくない。しかしながら、意図されたと考えられるワードの可能な品詞を考慮するルールを用いると、パーザは、この誤った完了パーズを回避することができる。この場合に、動詞句と動詞句の目的語である名詞句とを結合して別の動詞句にするルールを適用することは、名詞句の「前修飾語」（即ち、名詞句のメインワード「Ｓｅａｔｔｌｅ」の前に生じるワード「ｆｏｒｍ」）又はその意図されたと考えられるワードが前置詞の品詞を表し得るときであって、前置詞の品詞が動詞の目的語の前に意図される可能性が大きい場合は、阻止される。意図されたと考えられるワード「ｆｒｏｍ」は、前置詞の品詞をもつことができ、そして前置詞の品詞記録は、潜在的に混同するワード「ｆｏｒｍ」の品詞記録にリンクされるので、このルールの適用は阻止され、パーザが上記の誤った完了パーズを形成しないよう防止し、これにより、パーザの出力の精度を改善する。

図１２及び１３は、潜在的に混同するワードの品詞記録がチャートに追加されそして暗示されたルールがステップ８０５によりそれらに適用された後に、別のワードの品詞記録をチャートに追加させる２つの好ましい実施形態を示している。図１２は、２つの異なるリスト即ち「待ち行列」である一次リスト１２８０及び二次リスト１２９０から品詞記録がチャート１２００に追加される実施形態を示す。入力テキストに含まれたワードの品詞記録は、一次リスト１２８０に記憶される。この一次リストは、入力テキストに現れるワード「ｔｈｅ」、「ａｄｄ」、「ｃｏｎｖｉｎｃｅｄ」及び「ｐｅｏｐｌｅ」の品詞記録を含む。二次リスト１２９０は、意図されたと考えられるワードの品詞記録を含む。二次リスト１２９０は、別のワード「ａｄ」に対する名詞の品詞記録を含むことが明らかである。この実施形態では、ワードは、先ず、一次リストからチャートに追加される。暗示されたルールが適用された後に、パーザは、二次リストからの品詞記録をチャートに追加する。好ましい実施形態において、品詞記録を二次リストからチャートに追加することは、先ず、二次リストから一次リストへそれらを移動し、次いで、それらを一次リストからチャートへ追加する一方、一次リストに現れる新たに暗示されるルールを適用することを含む。この解決策により、入力テキストのワードと一般に混同される、意図されたと考えられるワードがチャートに追加される前に、入力テキストに含まれたワードの品詞記録からパーズツリーを構成できるようになる。

図１３は、品詞記録が単一のリスト１３７０からチャート１３００に追加される別の実施形態を示す。リスト１３７０は確率リストであり、完了パーズツリーのリーフを最終的に構成する各品詞部分記録の確率に基づいて分類される。確率指向パーザの詳細な説明については、参照によりここに統合する「統計学的な処理をルールに基づく自然言語パーザへとブートストラップするための方法及びシステム（ＭＥＴＨＯＤＡＮＤＳＹＳＴＥＭＦＯＲＢＯＯＴＳＴＲＡＰＰＩＮＧＳＴＡＴＩＳＴＩＣＡＬＰＲＯＣＥＳＳＩＮＧＩＮＴＯＡＲＵＬＥ−ＢＡＳＥＤＮＡＴＵＲＡＬＬＡＮＧＵＡＧＥＰＡＲＳＥＲ）」と題する米国特許出願第０８／２６５，８４５号を参照されたい。品詞記録は、成功裡なパーズツリーのリーフを構成する確率の下降順に確率リストからチャートに追加される。これらの確率は、「適用優先値」とも称されるが、入力テキストセグメントの代表的集成に対して完成したパーズツリーにおける各品詞記録の出現を統計学的に分析することによって発生されるのが好ましい。例えば、品詞記録１３７４及び１３７５に関連して示された統計データは、ワード「ｐｅｏｐｌｅ」を含む入力テキストセグメントにおいて、ワード「ｐｅｏｐｌｅ」が入力セグメントの完全なパーズにおいて名詞を表すときが７８％であり、一方、動詞を表すケースが１３％であることを示している。この実施形態において、意図されたと考えられるワードの品詞記録には、比較的小さな確率を指定し、それらが処理の終わり付近でチャートに追加されるようにするのが好ましい。これは、多数の方法で行われる。ワード「ａｄ」は入力テキストに実際に生じないので、入力テキストに「ａｄ」が現れるときにワード「ａｄ」の名詞形態が完全なパーズツリーのリーフを形成する確率を、低くすることができる。或いは又、ワード「ａｄ」ではなくワード「ａｄｄ」が入力テキストに現れるときにワード「ａｄ」の名詞形態が完成パーズツリーのリーフを形成する確率を計算するように個別の統計データを維持することもできる。いずれにせよ、代替えワード「ａｄ」に対する品詞記録は、潜在的に混同するワード「ａｄｄ」に対する品詞記録の後にチャートに追加される。最後に、意図されたと考えられるワードに対する品詞記録の確率は、確率リストの最少確率以下にセットすることができる。

更に別の好ましい実施形態では、潜在的に混同するワードに対する品詞記録がチャートに追加された後に代替えワードに対する品詞記録をチャートに追加させる２つの解決策を組み合わせて、潜在的に意図されたワードに対する品詞記録を二次リストに記憶し、そして全てのルールと、一次リストにたどり着く品詞記録とをそれらの確率により順序付けする。

ユーザは、潜在的に混同するワード、又はその潜在的に混同するワードに置き換えられる意図されたと考えられるワードのリストを変更するようにパーザを構成できるのが好ましい。ユーザは、図４に示された混同し得るワードのテーブルを変更することによりこれを行う。しかしながら、あるユーザは、混同し得るワードのリストの簡単な表示を変更できることを望む。図１４は、簡単化された混同し得るワードのファイル１４００を示す。行１４０１ないし１４０６は、潜在的に混同するワードの１つのセットに各々対応する。特に指示のない限り、１つの行に一緒に現れるワードは、全て、互いに混同する。例えば、行１４０１は、ワード「ａｄ」がワード「ａｄｄ」と混同しそしてその逆もあり得ることを示す。又、この混同し得るワードのファイルは、潜在的に混同するとみなしてはならないワードの前にハイフォン（−）記号を置くことによりユーザが一方向の混同関係を指定できるようにするのが好ましい。例えば、行１４０２におけるワード「ｃａｎ’ｔ」の前のハイフォン記号は、ワード「ｃａｎｔ」がワード「ｃａｎ’ｔ」と混同することはあるが、ワード「ｃａｎ’ｔ」がワード「ｃａｎｔ」と潜在的に混同されないことを示す。又、この混同し得るワードのファイルは、潜在的に混同するセットのワードは、それらが同じ品詞、数及び時制を有していても、互いに置き換えられることをユーザがアスタリスク（＊）記号で指定できるようにするのが好ましい。例えば、混同し得るセット１４０２の前のアスタリスク記号は、「ｃａｎ’ｔ」及び「ｃａｎｔ」の両方のワードが動詞の品詞を有していても、ワード「ｃａｎ’ｔ」をワード「ｃａｎｔ」に置き換えられることを示す。パーザは、ユーザがパーザの動作を構成するように混同し得るワードのファイル１４００を変更できると共に、混同し得るワードのファイルを、図４に示す混同し得るワードのテーブルのような、パーザにより容易に適用される形態へと変換できるのが好ましい。

好ましい実施形態を参照して本発明を説明したが、当業者であれば、本発明の範囲から逸脱せずに、種々の変更や修正がなされ得ることが明らかであろう。例えば、上記以外の機構を使用して、一般に混同するワードに対するスピーチ部分記録をチャートに導入することができる。更に、上記した本発明の実施形態は、コンピュータプログラミング言語やテキスト形成言語のような人為的言語のテキストをパーズするのにも容易に適用できる。

本発明が好ましく動作する汎用コンピュータシステムの高レベルブロック図である。入力テキストに生じるワードに対してパーザが品詞記録をチャートに追加するところを示すチャート図である。チャートの内容により暗示されるルールをパーザが適用するところ示すチャート図である。入力テキストにおける潜在的に混同するワードを識別するのに使用される例示的な混同ワードテーブルを示すテーブル図である。入力テキストにおいて識別された潜在的に混同するワードに対応する意図されたと考えられるワードに対し、パーザが品詞記録をチャートに追加するところを示すチャート図である。意図されたと考えられるワードに対する品詞記録がチャートに追加された後に、チャートの内容により暗示されたルールをパーザが適用するところを示すチャート図である。パーザを用いた文法チェッカーの視覚的ユーザインターフェイスを示すスクリーン図である。一般に混同するワードを識別しそして分析しながら入力テキストをパーズするために適用パーザにより好ましく実行される高レベルステップを示すフローチャートである。辞書からの語彙記録を含む図２の別の図であって、ステップ８０１の実行後で且つルールを適用する前のチャートの内容を示す図である。代替えワードに対する品詞データ構造体を、その潜在的に混同するワードに対する語彙記録データ構造体にリンクするところを示す図である。意図されたと考えられるワードに対する品詞記録を追加した後のチャートの内容を示す図である。品詞記録が２つの異なるリストからチャートに追加される実施形態を示す図である。品詞記録が、確率でランク付けされた単一リストからチャートに追加される別の実施形態を示す図である。混同し得るワードの簡単化されたファイルを示す図である。

符号の説明

１００コンピュータシステム
１１０中央処理ユニット
１２０入力／出力装置
１２１記憶装置
１２２取り外し可能なメディアドライブ
１２３キーボード
１２４音声入力装置
１２５手書き入力装置
１３０コンピュータメモリ
１３１パーザ
１３２チャート
１３３混同し得るワードのテーブル
２００パーザのチャート
２０１入力ストリング
２１１−２１５スピーチ部分記録

Claims

コンピュータシステムにおいて１つ以上のワードを含む自然言語入力テキストのセグメントを文法ルールと複数のエントリーを含む辞書とを用いてパーズする方法であって、各辞書エントリーは自然言語のワード１つに対応しそしてそのワードに対する１つ以上の可能な品詞を指定し、上記方法は、
（ａ）入力テキストセグメントを表すパーズツリーと中間のパーズ結果とを含み得るチャートをＣＰＵがメモリに形成する段階と、
（ｂ）入力テキストセグメントに生じる各ワードに対して、ＣＰＵが前記チャートに品詞記録を形成する段階であって、前記品詞記録は辞書エントリーで指定された品詞を各ワードにつき指定する、品詞記録を形成する段階と、
（ｃ）入力テキストセグメントに生じるワードから、前記メモリに格納された混同され得るワード格納部内にあり別のワードと一般に混同され得るワードを、前記混同され得るワード格納部を基にＣＰＵが識別する段階と、
（ｄ）前記段階（ｃ）で識別されたワードと一般に混同され得るワードの品詞を、辞書エントリーの指定により指定して、前記識別されたワードに対する品詞記録をＣＰＵが前記チャートに形成する段階と、
（ｅ）前記段階（ｂ）及び（ｄ）で形成された品詞記録の両方にＣＰＵが文法ルールを適用する段階と、
を備えたことを特徴とする方法。
前記メモリに格納された前記混同され得るワード格納部は、一般に混同され得るワードのリストを有し、このリストは、一般に混同され得るワードの各々に対し、そのワードと一般に混同され得るワードを含み、
そして前記段階（ｃ）は、前記入力テキストセグメントに生じるワードの１つを前記リストの一般に混同され得るワードの１つとＣＰＵがマッチングさせる段階を含むことを特徴とする、請求項１に記載の方法。
前記段階（ｂ）では、ＣＰＵは入力テキストセグメントに生じる各ワードごとに対して品詞記録を前記チャートに形成し、前記品詞記録は辞書エントリーで指定されているそのワードの可能な品詞を指定しており、
そして前記方法は、入力テキストセグメントの各ワードごとにそのワードに対して前記チャートに形成された品詞記録を一緒にＣＰＵがリンクする段階であって、１つ以上の文法ルールを前記品詞記録に適用するときは、その品詞記録がリンクされている他の品詞記録をも検査することにより、そのワードに対する他の可能な品詞も決定する、リンクする段階と、
前記識別されたワードに対して段階（ｄ）で形成された品詞記録と前記識別されたワードに対して段階（ｂ）で形成された品詞記録とをＣＰＵがリンクさせる段階とを更に含むことを特徴とする、請求項１または２に記載の方法。
前記段階（ｄ）は、前記段階（ｅ）の実行を開始した後に行われることを特徴とする、請求項１ないし３のいずれか１つに記載の方法。
前記段階（ｄ）は、前記段階（ｂ）で形成された品詞記録への文法ルールの適用が終了した後に行われることを特徴とする、請求項１ないし４のいずれか１つに記載の方法。
各文法ルール及び品詞記録には、適用優先値が関連付けられ、前記段階（ｅ）では、適用優先値が減少する順にＣＰＵが文法ルール及びリストの品詞記録を適用し、そして前記識別されたワードと一般に混同され得るワードに対する品詞記録に関連付けられた適用優先値は、前記識別されたワードに対する品詞記録に関連付けられた適用優先値より小さいことを特徴とする、請求項２ないし５のいずれか１つに記載の方法。
前記段階（ｅ）の文法ルールの適用により、前記識別されたワードを含む入力テキストの完全なパーズは形成されないが、一般に混同するワードを含む入力テキストの完全なパーズが形成されるときに、前記識別されたワードが前記一般に混同され得るワードと混同されているかもしれないことをＣＰＵが表示する段階を更に備えたことを特徴とする、請求項１ないし６のいずれか１つに記載の方法。
前記段階（ｅ）の文法ルールの適用により、前記識別されたワードを含む入力テキストの完全なパーズが形成されないか、又は前記識別されたワードと一般に混同され得るワードを含む入力テキストの完全なパーズが形成される場合に、
自然言語入力テキストセグメントが構文的に正しくないという表示をＣＰＵが出力する段階と、
自然言語入力テキストセグメントの前記識別されたワードを、その識別されたワードと一般に混同され得るワードと置き換えることにより、自然言語入力テキストセグメントが構文的に正しくなるという表示をＣＰＵが出力する段階と、
をさらに備えたことを特徴とする、請求項１ないし６のいずれか１つに記載の方法。
１つ以上のワードを含む自然言語入力テキストのセグメントを文法ルールと複数のエントリーを含む辞書とを使用してパーズするための装置であって、各辞書エントリーは自然言語のワード一つに対応しそのワードに対する１つ以上の可能な品詞を指定する、前記装置は、
入力テキストセグメントを表すパーズツリーと中間のパーズ結果とを含み、メモリに格納されたデータ構造体と、
入力テキストセグメントに生じる各ワードに対して品詞記録を前記データ構造体に形成する、ＣＰＵが有する一次品詞記録発生器であって、前記品詞記録は辞書エントリーで指定された品詞を各ワードにつき指定する、一次品詞記録発生器と、
入力テキストセグメントに生じるワードであってかつ前記混同され得るワード格納部内にあり別のワードと一般に混同され得るワードを、メモリに格納された混同され得るワード格納部を基に識別する、ＣＰＵが有する識別子と、
前記識別子で識別されたワードの品詞記録をデータ構造体に形成する、ＣＰＵが有する二次品詞記録発生器であって、前記二次品詞記録発生器によって形成された品詞記録は、前記識別されたワードと一般に混同され得るワードの品詞を、辞書エントリーの指定により指定する、二次品詞記録発生器と、
前記一次及び二次の品詞記録発生器で形成された両方の品詞記録に文法ルールを適用する、ＣＰＵが有する文法ルール適用サブシステムと、
を備えたことを特徴とする装置。
ディスプレイ装置と、
入力テキストセグメントが構文的に正しくないという表示を前記ディスプレイ装置に示させると共に、入力テキストセグメントの識別されたワードをその識別されたワードと一般に混同され得るワードに置き換えることにより、入力テキストセグメントが構文的に正しくなるという表示を前記ディスプレイ装置に示させる、ＣＰＵが有するフィードバックサブシステムとを更に備えたことを特徴とする、請求項９に記載の装置。