JP2007172657A - 一般に混同するワードを自然言語パーザにおいて識別及び分析する方法及びシステム - Google Patents
一般に混同するワードを自然言語パーザにおいて識別及び分析する方法及びシステム Download PDFInfo
- Publication number
- JP2007172657A JP2007172657A JP2007069577A JP2007069577A JP2007172657A JP 2007172657 A JP2007172657 A JP 2007172657A JP 2007069577 A JP2007069577 A JP 2007069577A JP 2007069577 A JP2007069577 A JP 2007069577A JP 2007172657 A JP2007172657 A JP 2007172657A
- Authority
- JP
- Japan
- Prior art keywords
- word
- speech
- confused
- input text
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
【課題】自然言語パーザにおいて一般に混同するワードを識別しそして分析する方法及びシステムを提供する。
【解決手段】コンピュータシステムは、2つ以上のワードより成る入力テキストを、入力テキストのワードの中の1つを含む潜在的に混同するワードからその意図されたと考えられるワードへとマップする関係を使用してパーズする。コンピュータシステムは、先ず、潜在的に混同するワードを含む入力テキストの各ワードに対して考えられる品詞を識別する。次いで、上記関係が潜在的に混同するワードからマップするところの、意図されたと考えられるワードに対して考えられる品詞を識別する。そしてそれらの識別された品詞に構文的文法ルールを適用し、意図されたワードに対する品詞を含む完全な構文ツリーは発生されるが、潜在的の混同するワードに対する品詞を含む完全な構文ツリーは発生されないようにする。
【選択図】図1
【解決手段】コンピュータシステムは、2つ以上のワードより成る入力テキストを、入力テキストのワードの中の1つを含む潜在的に混同するワードからその意図されたと考えられるワードへとマップする関係を使用してパーズする。コンピュータシステムは、先ず、潜在的に混同するワードを含む入力テキストの各ワードに対して考えられる品詞を識別する。次いで、上記関係が潜在的に混同するワードからマップするところの、意図されたと考えられるワードに対して考えられる品詞を識別する。そしてそれらの識別された品詞に構文的文法ルールを適用し、意図されたワードに対する品詞を含む完全な構文ツリーは発生されるが、潜在的の混同するワードに対する品詞を含む完全な構文ツリーは発生されないようにする。
【選択図】図1
Description
本発明は、一般に、自然言語パージングの分野に係り、より詳細には、自然言語テキストに生じるエラーを修正する技術に係る。
文章を書くときに、筆者は、時々、あるワードが正しいところに誤って別のワードを使用することがある。例えば、筆者は、「ad」が正しいところにワード「add」を用いて次のような文章を書くことがある。
The add convinced people.
一貫して互いに間違えられやすい「add」及び「ad」のようなワード対は、一般に混同すると言える。一般に混同するワードは、同様の発音を有する(例えば、「advise」対「advice」)か、又は若干の文字の位置が異なる(例えば、「from」対「form」)ことが多い。上記例において、ワード「ad」は、「意図されたワード」即ち筆者により意図されたワードと称し、一方、ワード「add」は、「混同するワード」即ち筆者が意図されたワードと誤って置き換えたワードと称する。
一貫して互いに間違えられやすい「add」及び「ad」のようなワード対は、一般に混同すると言える。一般に混同するワードは、同様の発音を有する(例えば、「advise」対「advice」)か、又は若干の文字の位置が異なる(例えば、「from」対「form」)ことが多い。上記例において、ワード「ad」は、「意図されたワード」即ち筆者により意図されたワードと称し、一方、ワード「add」は、「混同するワード」即ち筆者が意図されたワードと誤って置き換えたワードと称する。
混同するワードがセンテンスに含まれたときは、自然言語パーザは、センテンスをパージングすることが困難である。自然言語パーザは、自然言語のセンテンスを分析して、センテンスの語彙及び構文内容を見分ける。例えば、チャートに基づく自然言語パーザは、入力センテンスの各ワードに対し辞書から辞書エントリーを検索する。辞書エントリーは、ワードに関する一般的情報を含む語彙記録と、ワードが表す特定の品詞に特有の情報を各々含む参照用の品詞記録とを備えている。パーザは、1つ以上の品詞記録を、チャートと称する作用領域に入れ、それらはパージングルールを受け、品詞記録が、より大きな構文単位、最終的にはセンテンスに合成される。
自然言語パーザを使用し、意図されたワードとして筆者により意図された品詞を有していない混同するワードを含むセンテンスをパージングするときには、自然言語パーザは、センテンスの完全なパーズを発生することができない。自然言語パーザの目的は、入力センテンスの意図された語彙及び構文内容を正確に表す完全なパーズを発生することであるから、混同するワードを含むセンテンスの完全なパーズを発生することのできる自然言語パーザが望まれる。
本発明は、センテンスのような入力テキストセグメントのパージング中に一般に混同するワードを識別しそして分析する自然言語パーザを提供する。一般に混同するワードを識別しそして分析する能力は、筆者により作成された文書に含まれたセンテンスの文法上の的確さを評価するためにワードプロセッサに関連して使用される文法チェッカーについて特に価値がある。しかしながら、当業者であれば、本発明は、自然言語パーザのいかなる用途にも有利に使用できることが明らかであろう。
本発明は、一般に混同するワードのセットのリストを使用する。各セットは、一般に混同される2つ以上のワードを含んでいる。本発明によるパーザは、入力センテンスにおいて遭遇しこれらセットの1つに現れるワードを、あたかもそのセットの他のワードで表される品詞を表し得るかのように処理する。例えば、ワード「add」及び「ad」が混同し得るワードのセットを構成しそしてワード「add」が入力センテンスに現れる場合に、パーザは、ワード「add」をあたかもそれが動詞又は名詞を表し得るかのように処理する。というのは、ワード「add」は動詞を表し、そしてワード「ad」は名詞を表すからである。これは、遭遇したワードの辞書エントリーには対応する品詞がないか、又は同じ品詞でも異なる数又は時制を有するような、セットの他のワードの辞書エントリーから品詞記録をチャートに追加することを含む。これら付加的な品詞記録は、一般に、パーザが元の品詞記録にルールを適用する機会を有した後に、パージングプロセスの後の方で追加される。
本発明の実施形態は、更に、一般に混同するワードを識別及び分析した結果を表示するための、文法チェッカーのユーザインターフェイスを提供する。又、ある実施形態においては、本発明は、これらの追加された品詞記録へのレファレンスを、遭遇したワードの語彙記録に追加し、ワードの語彙記録を用いてそのワードが他のどのような品詞を表すかを決定するルールによって、この遭遇したワードがこれら追加の品詞を表している可能性についても考慮するようにする。
自然言語パーザにおいて一般に混同するワードを識別しそして分析する方法及びシステムが提供される。好ましい実施形態において、本発明は、一般に混同するワードのセットのリストを使用し、これは、ユーザにより修正することができる。本発明によれば、パーザは、入力センテンスにおいて遭遇しこれらセットの1つに現れるワードを、あたかもそのセットの他のワードで表される品詞をも表し得るようなに処理する。例えば、ワード「add」及び「ad」が混同し得るワードのセットを構成しそしてワード「add」が入力センテンスに現れる場合に、パーザは、ワード「add」をあたかもそれが動詞又は名詞を表し得るかのように処理する。というのは、ワード「add」は動詞を表し、そしてワード「ad」は名詞を表すからである。これは、セットの他のワードの辞書エントリーからの品詞記録で遭遇するワードに対応する品詞がないものをチャートに追加することを含む。これらの付加的な品詞記録は、一般に、パーザが元の品詞記録にルールを適用する機会を有した後に、パージングプロセスの後の方で追加される。又、ある実施形態では、本発明は、これらの追加された品詞記録へのレファレンスを、遭遇したワードの語彙記録に追加し、従って、ワードの語彙記録を用いてワードが他のどのような品詞を表すかを決定するためのルールによって、遭遇したワードがこれらの追加品詞を表す可能性も考慮するようにする。
図1は、パーザが好ましく動作する汎用コンピュータシステムの高レベルブロック図である。コンピュータシステム100は、中央処理ユニット(CPU)110と、入力/出力装置120と、コンピュータメモリ(メモリ)130とを備えている。入力/出力装置の中には、ハードディスクドライブのような記憶装置121がある。又、入力/出力装置は、取り外し可能なメディアドライブ122を含み、このドライブは、適用パーザを含むソフトウェア製品をインストールするのに使用でき、これらソフトウェア製品は、CD−ROMのようなコンピュータ読み取り可能な媒体に設けられる。更に、入力/出力装置は、ユーザが自然言語テキストを直接的に入力するのに使用するキーボード123も含む。又、入力/出力装置は、ユーザが自然言語テキストを間接的に入力するのに使用する音声入力装置124及び手書き入力装置125も任意に含む。音声入力装置を用いてユーザにより入力される自然言語テキストは、好ましくは、音声認識装置(図示せず)により音声データから変換される。同様に、手書き入力装置を用いてユーザにより入力される自然言語テキストは、好ましくは、手書き認識装置(図示せず)を用いて手書きデータから変換される。メモリ130は、一般的に混同するワードを識別及び分析するためのパーザ131を含む。パーザは、入力テキストセグメント及び中間パーズ結果を表すパーズツリーを含むためのチャート132を備えている。又、パーザは、一般に混同するワードを、それらと一般に混同するワード(即ち、意図されたワード)へとマップする混同し得るワードのテーブル133も備えている。例えば、ワード「add」は、ワード「ad」へとマッ
プされ、筆者が「ad」ではなくワード「add」を間違って使用するかもしれないことを指示する。混同し得るワードのテーブルは、記憶装置に記憶されてもよいし、又は取り外し可能なメディアドライブを用いて取り外し可能な媒体に記憶されてもよい。パーザは、上記のように構成されたコンピュータシステムにおいて実施されるのが好ましいが、異なる構成のコンピュータシステムでも実施できることが当業者に明らかであろう。
プされ、筆者が「ad」ではなくワード「add」を間違って使用するかもしれないことを指示する。混同し得るワードのテーブルは、記憶装置に記憶されてもよいし、又は取り外し可能なメディアドライブを用いて取り外し可能な媒体に記憶されてもよい。パーザは、上記のように構成されたコンピュータシステムにおいて実施されるのが好ましいが、異なる構成のコンピュータシステムでも実施できることが当業者に明らかであろう。
適用パーザを用いて入力テキストをパーズしながら、一般に混同するワードを識別及び分析する一例を、図2ないし7に関連して説明する。図2は、入力テキストに生じる潜在的に混同するワードを含む入力テキストのワードに対しパーザが品詞記録(part−of−speech record) をチャートに追加するところを示すチャート図である。図2は、例示的入力ストリング201「The add convinced people.」を示している。図2は、更に、パーザが入力テキストに現れるワードに対する品詞記録をチャートに追加した後のパーザのチャート200の内容も示している。このチャートは、品詞記録211−215を含み、その1つ以上は、入力テキストに生じる各ワードを示す。品詞記録211は、ワード「the」を表し、品詞記録212は、ワード「add」を表し、品詞記録213は、ワード「convinced」を表し、そして品詞記録214及び215は、ワード「people.」を表す。各品詞記録は、そのワードが表し得る、考え得る品詞の一つと、動詞の品詞記録に対する動詞の時制のような付加的な関連語彙情報との表示を含む。考え得る品詞及び他の語彙情報は、入力ストリングに生じるワードに対し辞書入力から検索されるのが好ましい。
図3は、チャートの内容により暗示されるルールをパーザが適用するところを示す。即ち、パーザは、チャートに既に存在する形式の記録を結合することのできるルールを適用する。図3は、動詞及び名詞を動詞句即ち「VP」に変換するルールの適用を示す。このルールの適用は、ワード「convinced」に対する動詞の品詞記録313を「people」に対する名詞の品詞記録314と結合する動詞句記録321を形成する。品詞記録とルールにより形成された記録とは、付加的なルールを暗示することもある。これら付加的なルールは、繰り返し適用される。ここに示す例の場合には、チャートの記録を結合するのに他のルールは首尾良く適用されない。
これらルールの適用により完全なパーズが発生された場合には(即ち、入力ストリングの全てのワードをカバーするセンテンス記録が形成された場合には)、パージングが終了しそして完全なパーズが返送されるが、さもなくば、パーザの動作が続けられる。入力テキストが潜在的に混同するワードを含む場合には、パーザの動作が続けられるが、さもなくば、パーザは完全なパーズを発生することができず、欠陥を返送する。図4は、入力テキストにおいて潜在的に混同するワードを識別するのに使用される例示的な混同し得るワードのテーブルを示す図である。この混同し得るワードのテーブル400は、潜在的に混同するワードの欄と、意図されたと考えられるワードの欄とを含む。各行において、潜在的に混同するワードの欄は、1つ以上の他のワードに対して混同することのあるワードを含む。その行において、意図されたと考えられるワードの欄は、潜在的に混同するワードと混同し得る1つ以上の意図されたと考えられるワードのリストを含む。例えば、行402は、ワード「add」がワード「ad」と混同し得ることを示す。行401は、その逆もあることを示し、即ちワード「ad」がワード「add」と混同することを示している。ワード間の幾つかの潜在的な混同は、一方向性であり、即ちある対の一方のワードは、その対の他方のワードと潜在的に混同し得る(例えば、行403は、「cant」が「can’t」と混同し得ることを示す)が、その逆はない(例えば、「can’t」は、潜在的に混同するワードの欄に現れない)。行409ないし411は、潜在的に混同するワードが2つ以上の意図されたと考えられるワードと混同し得ることを示す。パーザは、入力テキストのワードを、混同し得るワードのテーブルの潜在的に混同するワード欄のワードと比較する。入力ストリングのいずれかのワードが、潜在的に混同するワード欄のワードと一致する場合には、その入力テキストが潜在的に混同するワードを含む。
図5は、入力テキストにおいて識別された潜在的に混同するワードに対応する、意図されたと考えられるワードに対しパーザが品詞記録をチャートに追加するところを示すチャート図である。パーザは、潜在的に混同するワードとは異なる品詞を有する意図されたと考えられるワードに対する品詞記録をチャートに追加するのが好ましい。例えば、パーザは、好ましくは、意図されたと考えられるワード「ad」に対し名詞の品詞記録を追加する。というのは、その品詞が、その潜在的に混同するワード「add」に対して可能な品詞とは異なるからである。又、パーザは、好ましくは、潜在的に混同するワードとは異なる時制を有する、意図されたと考えられるワードの品詞記録をチャートに追加する。例えば、パーザは、好ましくは、意図されたと考えられるワード「mind」に対し現在時制の動詞の品詞記録を追加する。というのは、その時制が、潜在的に混同するワード「mined」の過去時制の動詞形態とは異なるからである。又、パーザは、好ましくは、潜在的に混同するワードとは異なる数を有する、意図されたと考えられるワードの品詞記録をチャートに追加する。例えば、パーザは、好ましくは、意図されたと考えられるワード「laps」に対し複数名詞の品詞記録を追加する。というのは、その数が、潜在的に混同するワード「lapse」の単数名詞形とは異なるからである。更に、混同するワードの特定セットに対し、ユーザは、たとえ品詞、時制及び数が同じであっても、セット内のワードに対し品詞記録をチャートに追加することを指定するのが好ましい。図5は、パーザがワード「ad」に対する名詞の品詞記録516をチャートに追加したところを示す。というのは、行402に示すように、入力ストリングに現れるワード「add」が、可能な品詞として辞書が名詞を指定するところのワード「ad」と混同し得るからである。
図6は、意図されたと考えられるワードに対して品詞記録をチャートに追加した後にチャートの内容により暗示されるルールをパーザが適用するところを示すチャート図である。図6は、チャートに記録622及び623を形成するルールをパーザが適用するところを示す。記録622は、「the」に対する冠詞の品詞記録611を、意図されたと考えられるワード「ad」に対する名詞の品詞記録616と結合して、名詞句(NP)を形成する。記録623は、名詞句の記録622と動詞句の記録621を結合してセンテンスを形成する。又、記録623は、入力テキストの各ワードを表すリーフを有するツリーのヘッドノードを構成するという点で、入力ストリングの各ワードを「カバー」する。
別のワードに対する品詞記録を追加した後のチャートの内容によって暗示されたルールの適用が完全なパーズを形成した場合には、パーザは、的確な成功を出力するが、さもなくば、パーザは失敗を出力する。図6から明らかなように、この例では、パーザは、センテンス記録623が入力テキストの全てのワードをカバーし、それ故、的確な成功を出力するという点で、完全なパーズを形成している。
図7は、パーザを用いた文法チェッカーの視覚的ユーザインターフェイスを示すスクリーン図である。この文法チェッカーのユーザインターフェイスは、好ましくは、ウインドウ700を表示する。ウインドウ700は、好ましくは、現在チェックされているセンテンス710を含む。更に、ウインドウは、現在センテンスの特定のワードがおそらく別のワードと混同しているという指示720を含む。又、ウインドウは、好ましくは、潜在的に混同するワードを置き換えるという提案710も含む。更に、ウインドウは、好ましくは、提案を受け入れて潜在的に混同するワードを置き換えることをユーザが選択できるボタン740と、提案を拒否しそして潜在的に混同するワードの置き換えを排除することをユーザが選択できるボタン750とを含む。
図8は、一般に混同するワードを識別しそして分析しながら入力テキストをパーズするために適用パーザにより好ましく実行される高レベルステップを示すフローチャートである。ステップ801において、パーザは、入力テキストに生じる潜在的に混同するワードを含む、入力テキストのワードに対し、品詞記録をチャートに追加する。ステップ802において、パーザは、チャートの内容により暗示されたルールの1つを適用する。ステップ803において、ステップ802のルールの適用により完全なパーズが形成された場合には(即ち、入力ストリングの全てのワードをカバーするセンテンス記録が形成された場合には)、これらのステップは終了し、完全なパーズが出力されるが、さもなくば、パーザはステップ804に進む。ステップ804において、パージングが終了した場合、即ち暗示された全てのルールが適用されるか又は適用されたルールの全数が上限を越えた場合には、パーザは、ステップ805に進み、さもなくば、パーザは、ステップ802に進んで、暗示された別のルールを適用する。ステップ805において、入力テキストが潜在的に混同するワードを含む場合には、パーザは、ステップ806に進み、さもなくば、パーザは、完全なパーズを形成することができず、失敗を出力する。入力テキストが潜在的に混同するワードを含むかどうか決定するために、パーザは、入力テキストのワードを、混同し得るワードのテーブルの潜在的に混同するワード欄のワードと比較する。入力ストリングのいずれかのワードが、潜在的に混同するワード欄のワードと一致する場合には、入力テキストは潜在的に混同するワードを含む。ステップ806において、パーザは、入力テキストにおいて識別された潜在的に混同するワードに対応する意図されたと考えられるワードの、品詞記録をチャートに追加する。ステップ807において、パーザは、別のワードに対する品詞記録をステップ806で追加した後のチャートの内容により暗示されたルールの1つを適用する。ステップ808において、完全なパーズが発生された場合には、パーザは、的確な成功を出力し、さもなくば、パーザは、ステップ809に進む。ステップ809において、パージングが完了した場合、即ち暗示された全てのルールが適用されるか又は適用されたルールの全数が上限を越えた場合に、パーザは、失敗を出力し、さもなくば、パーザはステップ807に続き、別の暗示されたルールを適用する。
幾つかの文法ルールは、各ワードの特定の品詞に適用される一方で、各ワードが表す全ての可能な品詞を考慮する。このような文法ルールは、完全なパーズの発生に貢献しそうもないルールを適用するのに必要な処理リソースの量を減少することができる。このようなルールをサポートするために、品詞記録を一緒にリンクすることができ、これにより一つのワードに対して全ての可能な品詞を容易に決定することができる。本発明の好ましい実施形態によれば、意図されたと考えられるワードの品詞記録は、パージングプロセスの始めに、潜在的に混同するワードの品詞記録にリンクされるのが好ましい。図8ないし11は本発明のこの特徴を示す。図9は、図2の別の図であって、ステップ801の実行の後であって且つルールを適用する前のチャートの内容を示す。品詞記録911ないし915は、入力テキストのワードにより表された潜在的な品詞に関するデータを含むのではなく、この情報を含むデータ構造体へのポインタを含む。例えば、品詞記録914は、潜在的な品詞の名詞及び他の関連する語彙情報を含むス品詞データ構造体971へのポインタを含む。別の好ましい実施形態(図示せず)によれば、品詞データ構造体へのポインタをデレファレンスする時間的コストを排除するために、品詞データ構造体から品詞記録へデータがコピーされる。品詞データ構造体971は、ワード「people」を表す語彙記録970への両方向性リンクを含む。別のデータ構造体972は、ワード「people」に対して考えられる動詞の品詞を含むと共に、語彙記録970への両方向性リンクも含む。品詞データ構造体971及び972と語彙記録データ構造体970との間のリンクは、ルールがそれらの処理を、特定のワードに対して全ての可能な品詞のセットに基づいて行えるようにする。ワード「people」に対する名詞の品詞記録914の場合に、この記録に適用されるルールは、ワード「people」が動詞も表し得ることを考慮する。
図10は、本発明のこの特徴によるチャートの更に別の変形を示している。図10は、意図されたと考えられるワードに対する品詞データ構造体と、その潜在的に混同するワードに対する語彙記録データ構造体とのリンクを示す。図10は、名詞形態のワード「ad」に対する品詞データ構造体1052を「add」に対する語彙記録1050に加えるところを示している。両品詞データ構造体1051及び1052は、ワード「add」の語彙データ構造体1050に両方向にリンクされるので、「add」を動詞の品詞記録1012として適用されるルールは、名詞をこのワードに対して可能な品詞とみなすことができる。上記のように、本発明によれば、ルールによって結合されるべきワードの他の可能な品詞に基づいてそのルールの挙動が決まるようなルールの適用を容易にするため、意図されたと考えられるワードの可能な品詞に対する品詞データ構造体は、考えられる混同するワード各々の語彙データ構造体にリンクされるのが好ましい。図11は、本発明のこの特徴により、名詞の品詞記録1116は、ステップ806においてチャートに追加されたときに、意図されたと考えられるワード「ad」に対する潜在的な品詞の名詞を含む品詞データ構造体1152へのポインタを含むことを示している。
完全なパーズの発生に貢献しそうにないルールの適用を防止することによってパージングの効率を高めるのに加えて、意図されたと考えられるワードのリンクされた品詞記録を参照するルールを使用することにより、潜在的に混同するワードが意図されたと考えられるワードと実際に混同された場合にパーザが潜在的に混同するワードを用いて入力テキストの見掛け上正しい完全なパーズを発生するのを防止することができる。これは、混同するワード「form」が意図されたワード「from」に代わって使用される次の例示的なセンテンスについて言えることである。
Angela departed form Seattle.
意図されたと考えられるワードの可能な品詞を考慮しないルールを用いると、あるパーザは、動詞句を動詞句「departed」と名詞句「form Seattle」から形成することにより、このセンテンスの完了パーズを発生する。この完了パーズは、「form Seattle」が動詞「departed」の有効な目的語でないから、実際には正しくない。しかしながら、意図されたと考えられるワードの可能な品詞を考慮するルールを用いると、パーザは、この誤った完了パーズを回避することができる。この場合に、動詞句と動詞句の目的語である名詞句とを結合して別の動詞句にするルールを適用することは、名詞句の「前修飾語」(即ち、名詞句のメインワード「Seattle」の前に生じるワード「form」)又はその意図されたと考えられるワードが前置詞の品詞を表し得るときであって、前置詞の品詞が動詞の目的語の前に意図される可能性が大きい場合は、阻止される。意図されたと考えられるワード「from」は、前置詞の品詞をもつことができ、そして前置詞の品詞記録は、潜在的に混同するワード「form」の品詞記録にリンクされるので、このルールの適用は阻止され、パーザが上記の誤った完了パーズを形成しないよう防止し、これにより、パーザの出力の精度を改善する。
意図されたと考えられるワードの可能な品詞を考慮しないルールを用いると、あるパーザは、動詞句を動詞句「departed」と名詞句「form Seattle」から形成することにより、このセンテンスの完了パーズを発生する。この完了パーズは、「form Seattle」が動詞「departed」の有効な目的語でないから、実際には正しくない。しかしながら、意図されたと考えられるワードの可能な品詞を考慮するルールを用いると、パーザは、この誤った完了パーズを回避することができる。この場合に、動詞句と動詞句の目的語である名詞句とを結合して別の動詞句にするルールを適用することは、名詞句の「前修飾語」(即ち、名詞句のメインワード「Seattle」の前に生じるワード「form」)又はその意図されたと考えられるワードが前置詞の品詞を表し得るときであって、前置詞の品詞が動詞の目的語の前に意図される可能性が大きい場合は、阻止される。意図されたと考えられるワード「from」は、前置詞の品詞をもつことができ、そして前置詞の品詞記録は、潜在的に混同するワード「form」の品詞記録にリンクされるので、このルールの適用は阻止され、パーザが上記の誤った完了パーズを形成しないよう防止し、これにより、パーザの出力の精度を改善する。
図12及び13は、潜在的に混同するワードの品詞記録がチャートに追加されそして暗示されたルールがステップ805によりそれらに適用された後に、別のワードの品詞記録をチャートに追加させる2つの好ましい実施形態を示している。図12は、2つの異なるリスト即ち「待ち行列」である一次リスト1280及び二次リスト1290から品詞記録がチャート1200に追加される実施形態を示す。入力テキストに含まれたワードの品詞記録は、一次リスト1280に記憶される。この一次リストは、入力テキストに現れるワード「the」、「add」、「convinced」及び「people」の品詞記録を含む。二次リスト1290は、意図されたと考えられるワードの品詞記録を含む。二次リスト1290は、別のワード「ad」に対する名詞の品詞記録を含むことが明らかである。この実施形態では、ワードは、先ず、一次リストからチャートに追加される。暗示されたルールが適用された後に、パーザは、二次リストからの品詞記録をチャートに追加する。好ましい実施形態において、品詞記録を二次リストからチャートに追加することは、先ず、二次リストから一次リストへそれらを移動し、次いで、それらを一次リストからチャートへ追加する一方、一次リストに現れる新たに暗示されるルールを適用することを含む。この解決策により、入力テキストのワードと一般に混同される、意図されたと考えられるワードがチャートに追加される前に、入力テキストに含まれたワードの品詞記録からパーズツリーを構成できるようになる。
図13は、品詞記録が単一のリスト1370からチャート1300に追加される別の実施形態を示す。リスト1370は確率リストであり、完了パーズツリーのリーフを最終的に構成する各品詞部分記録の確率に基づいて分類される。確率指向パーザの詳細な説明については、参照によりここに統合する「統計学的な処理をルールに基づく自然言語パーザへとブートストラップするための方法及びシステム(METHOD AND SYSTEM FOR BOOTSTRAPPING STATISTICAL PROCESSING INTO A RULE−BASED NATURAL LANGUAGE PARSER)」と題する米国特許出願第08/265,845号を参照されたい。品詞記録は、成功裡なパーズツリーのリーフを構成する確率の下降順に確率リストからチャートに追加される。これらの確率は、「適用優先値」とも称されるが、入力テキストセグメントの代表的集成に対して完成したパーズツリーにおける各品詞記録の出現を統計学的に分析することによって発生されるのが好ましい。例えば、品詞記録1374及び1375に関連して示された統計データは、ワード「people」を含む入力テキストセグメントにおいて、ワード「people」が入力セグメントの完全なパーズにおいて名詞を表すときが78%であり、一方、動詞を表すケースが13%であることを示している。この実施形態において、意図されたと考えられるワードの品詞記録には、比較的小さな確率を指定し、それらが処理の終わり付近でチャートに追加されるようにするのが好ましい。これは、多数の方法で行われる。ワード「ad」は入力テキストに実際に生じないので、入力テキストに「ad」が現れるときにワード「ad」の名詞形態が完全なパーズツリーのリーフを形成する確率を、低くすることができる。或いは又、ワード「ad」ではなくワード「add」が入力テキストに現れるときにワード「ad」の名詞形態が完成パーズツリーのリーフを形成する確率を計算するように個別の統計データを維持することもできる。いずれにせよ、代替えワード「ad」に対する品詞記録は、潜在的に混同するワード「add」に対する品詞記録の後にチャートに追加される。最後に、意図されたと考えられるワードに対する品詞記録の確率は、確率リストの最少確率以下にセットすることができる。
更に別の好ましい実施形態では、潜在的に混同するワードに対する品詞記録がチャートに追加された後に代替えワードに対する品詞記録をチャートに追加させる2つの解決策を組み合わせて、潜在的に意図されたワードに対する品詞記録を二次リストに記憶し、そして全てのルールと、一次リストにたどり着く品詞記録とをそれらの確率により順序付けする。
ユーザは、潜在的に混同するワード、又はその潜在的に混同するワードに置き換えられる意図されたと考えられるワードのリストを変更するようにパーザを構成できるのが好ましい。ユーザは、図4に示された混同し得るワードのテーブルを変更することによりこれを行う。しかしながら、あるユーザは、混同し得るワードのリストの簡単な表示を変更できることを望む。図14は、簡単化された混同し得るワードのファイル1400を示す。行1401ないし1406は、潜在的に混同するワードの1つのセットに各々対応する。特に指示のない限り、1つの行に一緒に現れるワードは、全て、互いに混同する。例えば、行1401は、ワード「ad」がワード「add」と混同しそしてその逆もあり得ることを示す。又、この混同し得るワードのファイルは、潜在的に混同するとみなしてはならないワードの前にハイフォン(−)記号を置くことによりユーザが一方向の混同関係を指定できるようにするのが好ましい。例えば、行1402におけるワード「can’t」の前のハイフォン記号は、ワード「cant」がワード「can’t」と混同することはあるが、ワード「can’t」がワード「cant」と潜在的に混同されないことを示す。又、この混同し得るワードのファイルは、潜在的に混同するセットのワードは、それらが同じ品詞、数及び時制を有していても、互いに置き換えられることをユーザがアスタリスク(*)記号で指定できるようにするのが好ましい。例えば、混同し得るセット1402の前のアスタリスク記号は、「can’t」及び「cant」の両方のワードが動詞の品詞を有していても、ワード「can’t」をワード「cant」に置き換えられることを示す。パーザは、ユーザがパーザの動作を構成するように混同し得るワードのファイル1400を変更できると共に、混同し得るワードのファイルを、図4に示す混同し得るワードのテーブルのような、パーザにより容易に適用される形態へと変換できるのが好ましい。
好ましい実施形態を参照して本発明を説明したが、当業者であれば、本発明の範囲から逸脱せずに、種々の変更や修正がなされ得ることが明らかであろう。例えば、上記以外の機構を使用して、一般に混同するワードに対するスピーチ部分記録をチャートに導入することができる。更に、上記した本発明の実施形態は、コンピュータプログラミング言語やテキスト形成言語のような人為的言語のテキストをパーズするのにも容易に適用できる。
100 コンピュータシステム
110 中央処理ユニット
120 入力/出力装置
121 記憶装置
122 取り外し可能なメディアドライブ
123 キーボード
124 音声入力装置
125 手書き入力装置
130 コンピュータメモリ
131 パーザ
132 チャート
133 混同し得るワードのテーブル
200 パーザのチャート
201 入力ストリング
211−215 スピーチ部分記録
110 中央処理ユニット
120 入力/出力装置
121 記憶装置
122 取り外し可能なメディアドライブ
123 キーボード
124 音声入力装置
125 手書き入力装置
130 コンピュータメモリ
131 パーザ
132 チャート
133 混同し得るワードのテーブル
200 パーザのチャート
201 入力ストリング
211−215 スピーチ部分記録
Claims (10)
- コンピュータシステムにおいて1つ以上のワードを含む自然言語入力テキストのセグメントを文法ルールと複数のエントリーを含む辞書とを用いてパーズする方法であって、各辞書エントリーは自然言語のワード1つに対応しそしてそのワードに対する1つ以上の可能な品詞を指定し、上記方法は、
(a)入力テキストセグメントを表すパーズツリーと中間のパーズ結果とを含み得るチャートをCPUがメモリに形成する段階と、
(b)入力テキストセグメントに生じる各ワードに対して、CPUが前記チャートに品詞記録を形成する段階であって、前記品詞記録は辞書エントリーで指定された品詞を各ワードにつき指定する、品詞記録を形成する段階と、
(c)入力テキストセグメントに生じるワードから、前記メモリに格納された混同され得るワード格納部内にあり別のワードと一般に混同され得るワードを、前記混同され得るワード格納部を基にCPUが識別する段階と、
(d)前記段階(c)で識別されたワードと一般に混同され得るワードの品詞を、辞書エントリーの指定により指定して、前記識別されたワードに対する品詞記録をCPUが前記チャートに形成する段階と、
(e)前記段階(b)及び(d)で形成された品詞記録の両方にCPUが文法ルールを適用する段階と、
を備えたことを特徴とする方法。 - 前記メモリに格納された前記混同され得るワード格納部は、一般に混同され得るワードのリストを有し、このリストは、一般に混同され得るワードの各々に対し、そのワードと一般に混同され得るワードを含み、
そして前記段階(c)は、前記入力テキストセグメントに生じるワードの1つを前記リストの一般に混同され得るワードの1つとCPUがマッチングさせる段階を含むことを特徴とする、請求項1に記載の方法。 - 前記段階(b)では、CPUは入力テキストセグメントに生じる各ワードごとに対して品詞記録を前記チャートに形成し、前記品詞記録は辞書エントリーで指定されているそのワードの可能な品詞を指定しており、
そして前記方法は、入力テキストセグメントの各ワードごとにそのワードに対して前記チャートに形成された品詞記録を一緒にCPUがリンクする段階であって、1つ以上の文法ルールを前記品詞記録に適用するときは、その品詞記録がリンクされている他の品詞記録をも検査することにより、そのワードに対する他の可能な品詞も決定する、リンクする段階と、
前記識別されたワードに対して段階(d)で形成された品詞記録と前記識別されたワードに対して段階(b)で形成された品詞記録とをCPUがリンクさせる段階とを更に含むことを特徴とする、請求項1または2に記載の方法。 - 前記段階(d)は、前記段階(e)の実行を開始した後に行われることを特徴とする、請求項1ないし3のいずれか1つに記載の方法。
- 前記段階(d)は、前記段階(b)で形成された品詞記録への文法ルールの適用が終了した後に行われることを特徴とする、請求項1ないし4のいずれか1つに記載の方法。
- 各文法ルール及び品詞記録には、適用優先値が関連付けられ、前記段階(e)では、適用優先値が減少する順にCPUが文法ルール及びリストの品詞記録を適用し、そして前記識別されたワードと一般に混同され得るワードに対する品詞記録に関連付けられた適用優先値は、前記識別されたワードに対する品詞記録に関連付けられた適用優先値より小さいことを特徴とする、請求項2ないし5のいずれか1つに記載の方法。
- 前記段階(e)の文法ルールの適用により、前記識別されたワードを含む入力テキストの完全なパーズは形成されないが、一般に混同するワードを含む入力テキストの完全なパーズが形成されるときに、前記識別されたワードが前記一般に混同され得るワードと混同されているかもしれないことをCPUが表示する段階を更に備えたことを特徴とする、請求項1ないし6のいずれか1つに記載の方法。
- 前記段階(e)の文法ルールの適用により、前記識別されたワードを含む入力テキストの完全なパーズが形成されないか、又は前記識別されたワードと一般に混同され得るワードを含む入力テキストの完全なパーズが形成される場合に、
自然言語入力テキストセグメントが構文的に正しくないという表示をCPUが出力する段階と、
自然言語入力テキストセグメントの前記識別されたワードを、その識別されたワードと一般に混同され得るワードと置き換えることにより、自然言語入力テキストセグメントが構文的に正しくなるという表示をCPUが出力する段階と、
をさらに備えたことを特徴とする、請求項1ないし6のいずれか1つに記載の方法。 - 1つ以上のワードを含む自然言語入力テキストのセグメントを文法ルールと複数のエントリーを含む辞書とを使用してパーズするための装置であって、各辞書エントリーは自然言語のワード一つに対応しそのワードに対する1つ以上の可能な品詞を指定する、前記装置は、
入力テキストセグメントを表すパーズツリーと中間のパーズ結果とを含み、メモリに格納されたデータ構造体と、
入力テキストセグメントに生じる各ワードに対して品詞記録を前記データ構造体に形成する、CPUが有する一次品詞記録発生器であって、前記品詞記録は辞書エントリーで指定された品詞を各ワードにつき指定する、一次品詞記録発生器と、
入力テキストセグメントに生じるワードであってかつ前記混同され得るワード格納部内にあり別のワードと一般に混同され得るワードを、メモリに格納された混同され得るワード格納部を基に識別する、CPUが有する識別子と、
前記識別子で識別されたワードの品詞記録をデータ構造体に形成する、CPUが有する二次品詞記録発生器であって、前記二次品詞記録発生器によって形成された品詞記録は、前記識別されたワードと一般に混同され得るワードの品詞を、辞書エントリーの指定により指定する、二次品詞記録発生器と、
前記一次及び二次の品詞記録発生器で形成された両方の品詞記録に文法ルールを適用する、CPUが有する文法ルール適用サブシステムと、
を備えたことを特徴とする装置。 - ディスプレイ装置と、
入力テキストセグメントが構文的に正しくないという表示を前記ディスプレイ装置に示させると共に、入力テキストセグメントの識別されたワードをその識別されたワードと一般に混同され得るワードに置き換えることにより、入力テキストセグメントが構文的に正しくなるという表示を前記ディスプレイ装置に示させる、CPUが有するフィードバックサブシステムとを更に備えたことを特徴とする、請求項9に記載の装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/671,203 US5999896A (en) | 1996-06-25 | 1996-06-25 | Method and system for identifying and resolving commonly confused words in a natural language parser |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP9162383A Division JPH1078964A (ja) | 1996-06-25 | 1997-06-19 | 一般に混同するワードを自然言語パーザにおいて識別及び分析する方法及びシステム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007172657A true JP2007172657A (ja) | 2007-07-05 |
Family
ID=24693543
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP9162383A Pending JPH1078964A (ja) | 1996-06-25 | 1997-06-19 | 一般に混同するワードを自然言語パーザにおいて識別及び分析する方法及びシステム |
JP2007069577A Withdrawn JP2007172657A (ja) | 1996-06-25 | 2007-03-16 | 一般に混同するワードを自然言語パーザにおいて識別及び分析する方法及びシステム |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP9162383A Pending JPH1078964A (ja) | 1996-06-25 | 1997-06-19 | 一般に混同するワードを自然言語パーザにおいて識別及び分析する方法及びシステム |
Country Status (4)
Country | Link |
---|---|
US (1) | US5999896A (ja) |
EP (1) | EP0836144A3 (ja) |
JP (2) | JPH1078964A (ja) |
CN (1) | CN1172992A (ja) |
Families Citing this family (56)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1100300C (zh) * | 1996-10-16 | 2003-01-29 | 夏普公司 | 字符输入装置 |
US6782510B1 (en) * | 1998-01-27 | 2004-08-24 | John N. Gross | Word checking tool for controlling the language content in documents using dictionaries with modifyable status fields |
US6185524B1 (en) * | 1998-12-31 | 2001-02-06 | Lernout & Hauspie Speech Products N.V. | Method and apparatus for automatic identification of word boundaries in continuous text and computation of word boundary scores |
DE69939151D1 (de) * | 1999-01-20 | 2008-09-04 | Sony Deutschland Gmbh | Sprecheradaption für verwechselbare Wörter |
US6275791B1 (en) * | 1999-02-26 | 2001-08-14 | David N. Weise | Natural language parser |
US6510431B1 (en) | 1999-06-28 | 2003-01-21 | International Business Machines Corporation | Method and system for the routing of requests using an automated classification and profile matching in a networked environment |
EP1079387A3 (en) * | 1999-08-26 | 2003-07-09 | Matsushita Electric Industrial Co., Ltd. | Mechanism for storing information about recorded television broadcasts |
US6785651B1 (en) | 2000-09-14 | 2004-08-31 | Microsoft Corporation | Method and apparatus for performing plan-based dialog |
WO2002033582A2 (en) * | 2000-10-16 | 2002-04-25 | Text Analysis International, Inc. | Method for analyzing text and method for builing text analyzers |
US7003444B2 (en) * | 2001-07-12 | 2006-02-21 | Microsoft Corporation | Method and apparatus for improved grammar checking using a stochastic parser |
US20030105622A1 (en) * | 2001-12-03 | 2003-06-05 | Netbytel, Inc. | Retrieval of records using phrase chunking |
US7225121B2 (en) * | 2002-02-20 | 2007-05-29 | Palo Alto Research Center Incorporated | Generating with Lexical Functional Grammars |
US7380203B2 (en) * | 2002-05-14 | 2008-05-27 | Microsoft Corporation | Natural input recognition tool |
US7308648B1 (en) * | 2002-11-27 | 2007-12-11 | Microsoft Corporation | Method, system, and computer-readable medium for filtering harmful HTML in an electronic document |
US7218779B2 (en) * | 2003-01-21 | 2007-05-15 | Microsoft Corporation | Ink divider and associated application program interface |
US8447602B2 (en) | 2003-03-26 | 2013-05-21 | Nuance Communications Austria Gmbh | System for speech recognition and correction, correction device and method for creating a lexicon of alternatives |
US20050049868A1 (en) * | 2003-08-25 | 2005-03-03 | Bellsouth Intellectual Property Corporation | Speech recognition error identification method and system |
US20050091036A1 (en) * | 2003-10-23 | 2005-04-28 | Hazel Shackleton | Method and apparatus for a hierarchical object model-based constrained language interpreter-parser |
US7584092B2 (en) | 2004-11-15 | 2009-09-01 | Microsoft Corporation | Unsupervised learning of paraphrase/translation alternations and selective application thereof |
US7412385B2 (en) * | 2003-11-12 | 2008-08-12 | Microsoft Corporation | System for identifying paraphrases using machine translation |
US8190419B1 (en) | 2006-09-11 | 2012-05-29 | WordRake Holdings, LLC | Computer processes for analyzing and improving document readability |
US7505906B2 (en) * | 2004-02-26 | 2009-03-17 | At&T Intellectual Property, Ii | System and method for augmenting spoken language understanding by correcting common errors in linguistic performance |
JP2008515078A (ja) * | 2004-09-30 | 2008-05-08 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 自動テキスト訂正 |
US7546235B2 (en) * | 2004-11-15 | 2009-06-09 | Microsoft Corporation | Unsupervised learning of paraphrase/translation alternations and selective application thereof |
US7908132B2 (en) * | 2005-09-29 | 2011-03-15 | Microsoft Corporation | Writing assistance using machine translation techniques |
EP1963995A2 (en) | 2005-12-22 | 2008-09-03 | International Business Machines Corporation | A method and system for editing text with a find and replace function leveraging derivations of the find and replace input |
JP2008083165A (ja) * | 2006-09-26 | 2008-04-10 | Xanavi Informatics Corp | 音声認識処理プログラム及び音声認識処理方法 |
US20090234638A1 (en) * | 2008-03-14 | 2009-09-17 | Microsoft Corporation | Use of a Speech Grammar to Recognize Instant Message Input |
CN101685438B (zh) * | 2008-09-22 | 2012-09-12 | 财团法人资讯工业策进会 | 中文文章侦错装置以及中文文章侦错方法 |
JP4942860B2 (ja) * | 2010-01-22 | 2012-05-30 | 三菱電機株式会社 | 認識辞書作成装置、音声認識装置及び音声合成装置 |
US9201955B1 (en) | 2010-04-15 | 2015-12-01 | Google Inc. | Unambiguous noun identification |
US8560318B2 (en) * | 2010-05-14 | 2013-10-15 | Sony Computer Entertainment Inc. | Methods and system for evaluating potential confusion within grammar structure for set of statements to be used in speech recognition during computing event |
US8768723B2 (en) | 2011-02-18 | 2014-07-01 | Nuance Communications, Inc. | Methods and apparatus for formatting text for clinical fact extraction |
US10460288B2 (en) | 2011-02-18 | 2019-10-29 | Nuance Communications, Inc. | Methods and apparatus for identifying unspecified diagnoses in clinical documentation |
US9904768B2 (en) | 2011-02-18 | 2018-02-27 | Nuance Communications, Inc. | Methods and apparatus for presenting alternative hypotheses for medical facts |
US10032127B2 (en) | 2011-02-18 | 2018-07-24 | Nuance Communications, Inc. | Methods and apparatus for determining a clinician's intent to order an item |
US9569594B2 (en) | 2012-03-08 | 2017-02-14 | Nuance Communications, Inc. | Methods and apparatus for generating clinical reports |
US9064492B2 (en) | 2012-07-09 | 2015-06-23 | Nuance Communications, Inc. | Detecting potential significant errors in speech recognition results |
US10504622B2 (en) | 2013-03-01 | 2019-12-10 | Nuance Communications, Inc. | Virtual medical assistant methods and apparatus |
US11024406B2 (en) | 2013-03-12 | 2021-06-01 | Nuance Communications, Inc. | Systems and methods for identifying errors and/or critical results in medical reports |
CN103246640B (zh) * | 2013-04-23 | 2016-08-03 | 北京酷云互动科技有限公司 | 一种检测重复文本的方法及装置 |
US11183300B2 (en) | 2013-06-05 | 2021-11-23 | Nuance Communications, Inc. | Methods and apparatus for providing guidance to medical professionals |
US10496743B2 (en) | 2013-06-26 | 2019-12-03 | Nuance Communications, Inc. | Methods and apparatus for extracting facts from a medical text |
US10366424B2 (en) | 2014-06-04 | 2019-07-30 | Nuance Communications, Inc. | Medical coding system with integrated codebook interface |
US10319004B2 (en) | 2014-06-04 | 2019-06-11 | Nuance Communications, Inc. | User and engine code handling in medical coding system |
US10754925B2 (en) | 2014-06-04 | 2020-08-25 | Nuance Communications, Inc. | NLU training with user corrections to engine annotations |
US10373711B2 (en) | 2014-06-04 | 2019-08-06 | Nuance Communications, Inc. | Medical coding system with CDI clarification request notification |
US10331763B2 (en) | 2014-06-04 | 2019-06-25 | Nuance Communications, Inc. | NLU training with merged engine and user annotations |
US10528645B2 (en) * | 2015-09-16 | 2020-01-07 | Amazon Technologies, Inc. | Content search using visual styles |
US10366687B2 (en) | 2015-12-10 | 2019-07-30 | Nuance Communications, Inc. | System and methods for adapting neural network acoustic models |
CN105573979B (zh) * | 2015-12-10 | 2018-05-22 | 江苏科技大学 | 一种基于汉字混淆集的错字词知识生成方法 |
US11152084B2 (en) | 2016-01-13 | 2021-10-19 | Nuance Communications, Inc. | Medical report coding with acronym/abbreviation disambiguation |
US10949602B2 (en) | 2016-09-20 | 2021-03-16 | Nuance Communications, Inc. | Sequencing medical codes methods and apparatus |
US11133091B2 (en) | 2017-07-21 | 2021-09-28 | Nuance Communications, Inc. | Automated analysis system and method |
CN107729318B (zh) * | 2017-10-17 | 2021-04-20 | 语联网(武汉)信息技术有限公司 | 一种自动更正部分文字的方法-由中文词性判断 |
US11024424B2 (en) | 2017-10-27 | 2021-06-01 | Nuance Communications, Inc. | Computer assisted coding systems and methods |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4674065A (en) * | 1982-04-30 | 1987-06-16 | International Business Machines Corporation | System for detecting and correcting contextual errors in a text processing system |
JPS61234461A (ja) * | 1985-04-10 | 1986-10-18 | Nec Corp | 文字列訂正方式 |
US4887212A (en) * | 1986-10-29 | 1989-12-12 | International Business Machines Corporation | Parser for natural language text |
US4868750A (en) * | 1987-10-07 | 1989-09-19 | Houghton Mifflin Company | Collocational grammar system |
US5146405A (en) * | 1988-02-05 | 1992-09-08 | At&T Bell Laboratories | Methods for part-of-speech determination and usage |
US5060154A (en) * | 1989-01-06 | 1991-10-22 | Smith Corona Corporation | Electronic typewriter or word processor with detection and/or correction of selected phrases |
US5146406A (en) * | 1989-08-16 | 1992-09-08 | International Business Machines Corporation | Computer method for identifying predicate-argument structures in natural language text |
US5258909A (en) * | 1989-08-31 | 1993-11-02 | International Business Machines Corporation | Method and apparatus for "wrong word" spelling error detection and correction |
FR2679039B1 (fr) * | 1991-07-09 | 1993-11-26 | Merlin Gerin | Dispositif de distribution d'energie electrique avec controle d'isolement. |
US5521816A (en) * | 1994-06-01 | 1996-05-28 | Mitsubishi Electric Research Laboratories, Inc. | Word inflection correction system |
US5537317A (en) * | 1994-06-01 | 1996-07-16 | Mitsubishi Electric Research Laboratories Inc. | System for correcting grammer based parts on speech probability |
US5721938A (en) * | 1995-06-07 | 1998-02-24 | Stuckey; Barbara K. | Method and device for parsing and analyzing natural language sentences and text |
-
1996
- 1996-06-25 US US08/671,203 patent/US5999896A/en not_active Expired - Fee Related
-
1997
- 1997-06-04 EP EP97109015A patent/EP0836144A3/en not_active Withdrawn
- 1997-06-19 JP JP9162383A patent/JPH1078964A/ja active Pending
- 1997-06-24 CN CN97113939A patent/CN1172992A/zh active Pending
-
2007
- 2007-03-16 JP JP2007069577A patent/JP2007172657A/ja not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
JPH1078964A (ja) | 1998-03-24 |
EP0836144A3 (en) | 2004-11-10 |
US5999896A (en) | 1999-12-07 |
CN1172992A (zh) | 1998-02-11 |
EP0836144A2 (en) | 1998-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2007172657A (ja) | 一般に混同するワードを自然言語パーザにおいて識別及び分析する方法及びシステム | |
Black et al. | Statistically-driven computer grammars of English: The IBM/Lancaster approach | |
JP5474933B2 (ja) | ユーザーの過去のライティングに基づいて、ライティングを指導するためのシステム | |
US8666742B2 (en) | Automatic detection and application of editing patterns in draft documents | |
US6424983B1 (en) | Spelling and grammar checking system | |
US6115683A (en) | Automatic essay scoring system using content-based techniques | |
US20030149692A1 (en) | Assessment methods and systems | |
US20030121026A1 (en) | Grammar authoring system | |
KR102189894B1 (ko) | 외국어 문장 빈칸 추론 문제 자동 생성 방법 및 시스템 | |
Tesfaye | A rule-based Afan Oromo Grammar Checker | |
Shaalan et al. | Analysis and feedback of erroneous Arabic verbs | |
Glass et al. | A naive salience-based method for speaker identification in fiction books | |
CA2504111A1 (en) | Critiquing clitic pronoun ordering in french | |
Abdulrahman et al. | A language model for spell checking of educational texts in Kurdish (Sorani) | |
Park et al. | Is the sky pure today? AwkChecker: an assistive tool for detecting and correcting collocation errors | |
JP4278090B2 (ja) | 単語の使用を訂正または改善させる装置および方法、コンピュータプログラム、並びに格納媒体 | |
US7389220B2 (en) | Correcting incomplete negation errors in French language text | |
Fong et al. | Treebank parsing and knowledge of language | |
Hoyos | PLPrepare: A Grammar Checker for Challenging Cases | |
Adams et al. | Somali spelling corrector and morphological analyzer | |
JP5331964B2 (ja) | 翻訳支援装置、翻訳支援方法および翻訳支援プログラム | |
Mousley | Robust parsing and register vector grammar | |
JP2009009583A (ja) | 構文パースを用いてセグメント化されていないテキストをセグメント化する方法 | |
Adams | Spelling correction and morphological analysis to aid electronic dictionary look-up | |
Leech | Statistically-driven Computer Grammars of English: The IBM/Lancaster Approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20070703 |