JPH07325829A

JPH07325829A - 文法チェックシステム

Info

Publication number: JPH07325829A
Application number: JP7133647A
Authority: JP
Inventors: Shiyabizu Ibu; イブ・シャビズ; Roshiyu Emaniyueru; エマニュエル・ロシュ; Aaru Goorudeingu Andoriyuu; アンドリュー・アール・ゴールディング
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1994-06-01
Filing date: 1995-05-31
Publication date: 1995-12-12
Also published as: US5799269A; US5537317A

Abstract

(57)【要約】【構成】入力文が品詞に関して最初にタグ付けされる
文法チェックシステムにおいて、前記入力文の品詞列の
可能性が厄介な単語、特にそれらのスペルが異なる同音
語の不正な使用を訂正するために使用される。そのシス
テムは、訂正すべき全文の可能性に基づかないで、むし
ろ訂正すべき品詞列の可能性に基づいて単語の使用法を
訂正する。【効果】低いエラー率で正しい文に訂正できる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、多種の文法チェックモ
ジュールで品詞列の可能性を利用するシステムに関する
もので、特に、スペルが異なる同音語等の混同単語を訂
正できる文法チェックシステムに関するものである。

【０００２】

【従来の技術】ＨｅｎｒｙＫｕｃｅｒａ氏その外に発
行された米国特許第４、８６８、７５０号公報で説明さ
れるように、口語体の文法チェックシステムは、自然言
語で構成されたデジタル符号化テキストを受け取り、そ
して単語と解析を蓄積した辞書と、解析プログラムとを
用いて符号化テキストを解析して、エラーを識別するた
めのコンピューターを介した自動化言語分析を必要とす
る。特に、そのようなシステムは文法エラーを検出する
ためのマイクロソフトワードのプログラムで利用され
る。

【０００３】そのようなシステムに関連する最も厄介な
問題の一つは、そのシステムが正しい使用法を提示する
時の非常に高いエラー率である。不合理に高いエラー率
の理由は、文に関するシステムの不適当な解析に由来す
る。また、文についての正しい解析と仮定すると、マイ
クロソフトシステムはしばしば不適当な単語を提示す
る。

【０００４】全文が正しいという可能性に基づいて文を
解析しようと試みる種類のシステムもある。そのような
システムにまつわる最も大きい問題は、それらが現在の
パーソナルコンピュータと関連メモリとの能力を超えた
蓄積と処理の能力を要求することである。

【０００５】他のシステムは、トレーニングコーパスに
基づく文を解析することによって不適当な文法を検出し
ようと試みる。但し、高速処理だけでなく大容量の蓄積
装置が要求されるシステムの制約が、この種のシステム
をパーソナルコンピュータ環境での使用を妨げる。

【０００６】実例として、先の文法チェックシステム
は、「ａ」と「ａｎ」などの不定冠詞を挿入するのに常
に失敗する。それはそのシステムにより提示される自然
言語に翻訳しようとする時に外国語を話す個人にとって
はとりわけ大問題となる。

【０００７】また、非常に重要なことは、文が、文法規
則、或いは「ｔｈｅ」、または「ａ」などの口語的使用
法のいずれにも不慣れなこれらの人々により構成される
時に、そのような適切な冠詞を挿入する能力がないこと
である。更に、従来技術の文法チェックシステムによる
共通の誤りは、複合動詞が使用される不適切な動詞列の
いかなる認識も含まないことである。複合動詞は文内で
正しく使用できるが、ほとんどの外国語を話す個人は
「Ｈｅｈａｓｒｅｃｏｇｎｉｚｅｔｈａｔｓｏｍ
ｅｔｈｉｎｇｅｘｉｓｔｓ．」などの誤りを常におか
す。ここで「ｈａｓ」は動詞であり、そして「ｒｅｃｏ
ｇｎｉｚｅ」も動詞である。複合動詞の明らかな不正な
使用が在ることが分かる。

【０００８】最も重要なことに、問題はいわゆる限定詞
で起こる。依って例えば文「Ｉｈａｖｅｃｉｇａｒ
ｅｔｔｅ．」は明らかに限定詞「ａ」を欠いている。同
様に、「ｓｏｍｅ」または「ａｆｅｗ」などの欠けて
いる限定詞も在る。従って、正しい文は「Ｉｈａｖｅ
ａｆｅｗｃｉｇａｒｅｔｔｅｓ．」と解釈され
る。同文は複数形の名詞、例えば「Ｉｈａｖｅａ
ｆｅｗｃｉｇａｒｅｔｔｅｓ．」、或いは「Ｉｈａ
ｖｅｃｉｇａｒｅｔｔｅｓ．」とすることにより正し
く構成されることに留意すべきである。

【０００９】スペルチェッカー、または先の文法システ
ムのいずれによっても訂正されない更なる典型的な文法
の誤りは、不適当な単語活用を訂正しないことを含む。
例えば、不適当な動詞活用に関して、そのようなシステ
ムは、「Ｉｄｒｉｖｅｄｔｏｔｈｅｍａｒｋｅ
ｔ．」などの文を滅多に訂正しない。

【００１０】上記問題は、その言語のイディオムや規則
の両方に不慣れな非ネイティブスピーカーの観点から取
り上げられる時には最大の壁となる。特に英語では、そ
の言語を利用するこれらのネイティブスピーカーにも良
く知られていないイディオム、または規則によりしばし
ば決定される正しい「文法」を有するので、その規則
は、思うほど単純であるとは限らない。

【００１１】故に、特定の国籍の非ネイティブスピーカ
ーによる最も頻繁になされる誤りを考慮する文法チェッ
クシステムを提供することが重要である。それで、例え
ば予測可能、故に訂正可能である方法で英語に翻訳され
る日本語のネイティブスピーカーにより通常なされる誤
りの体系が在る。同様に、例えばフランス語、或いはロ
マンス語のいずれかに対して、検出されて、訂正できる
英語に翻訳する時になされる一定の特徴的誤りが在る。

【００１２】構文認識システムは一般に、小さくて、十
分に定義された語彙を有するテキストでの動作に、また
は限定された範囲の構文的特徴を扱う、より一般的なテ
キストでの動作に限定されていた。語彙、または構文的
範囲のいずれの拡張も、益々複雑な構造と増えてくる多
数の特別の認識規則とを必要とし、それはシステムを一
般に利用できるコンピューターシステム上での商業的実
施を過大にするか、或いは扱いにくくする。

【００１３】テキスト処理システムで文脈上の誤りを検
出して、そして訂正するための他の一般システムは、Ｆ
ｒｅｄｅｒｉｃｋＢ．Ｌａｎｇ氏その外に発行された
米国特許第４、６７４、０６５号公報で説明される。そ
こで単語使用確証のための文書を校正し、そしてテキ
スト処理するためのシステムが、異形同音異義語と混同
する単語とのセットの専門辞書を、それから単語の正し
い使用法が統計学的に決定できるダイグラム（di-gra
m）とｎグラム（n-gram）条件のセットを連結すること
により達成される。前述のように、品詞に対立するもの
として単語に統計学的処理を行うには例外的に大きいト
レーニングコーパスと高速計算とを必要とし、そのシス
テムをパーソナルコンピューター用途にとっては幾分扱
いにくいものにする。更に、同音語に関して混同する単
語を検出する時、このシステムは、一般的使用法におい
ては混同するが、似ているとは思われないこれらの単語
の訂正を提供するには十分ではない。

【００１４】最後に、米国特許第４、８３０、５２１号
は、スペルチェック機能と固有名詞認識とを備えた電子
タイプライターに関する特許である。名詞認識での問題
は、固有名詞の認識において正確であるか、またはそう
ではないかの大文字化シナリオに集中することが理解さ
れよう。最も重要なことに、この特許は、大文字化の機
能を決定するために、単語が文の最初の単語であるかど
うかを見つけるためにしか語を試験しないのに対して、
大文字化は文内のどこの語に対しても明らかに可能であ
る。

【００１５】更なる背景の多数の特許により、最初スペ
ル訂正の使用を通してその文法問題に着手する。そのよ
うな特許は、米国特許第５、２１８、５３６号、第５、
２１５、３８８号、第５、２０３、７０５号、第５、１
６１、２４５号、第５、１４８、３６７号、第４、９９
５、７４０号、第４、９８０、８５５号、第４、９１
５、５４６号、第４、９１２、６７１号、第４、９０
３、２０６号、第４、８８７、９２０号、第４、８８
７、２１２号、第４、８７３、６３４号、第４、８６
２、４０８号、第４、８５２、００３号、第４、８４
２、４２８号、第４、８２９、４７２号、第４、７９
９、１９１号、第４、７９９、１８８号、第４、７９
７、８５５号、そして第４、６８９、７６８号を含む。

【００１６】米国特許第５、２２４、０３８号、第５、
２２０、５０３号、第５、２００、８９３号、第５、１
６４、８９９号、第５、１１１、３８９号、第５、０２
９、０８５号、第５、０８３、２６８号、第５、０６
８、７８９号、第５、００７、０１９号、第４、９９
４、９６６号、第４、９７４、１９５号、第４、９５
８、２８５号、第４、９３３、８９６号、第４、９１
４、５９０号、第４、８１６、９９４号、そして第４、
７７３、００９号などのテキスト解析を扱う多数の特許
もまた在る。これらの特許の全ては、与えられた自然言
語で書かれた文書を提供することを強制されるこれらの
非ネイティブスピーカーにより特に要求されるレベルに
までは文法をチェックする目的のために実際には実施で
きないシステムに関するものであることは理解されよ
う。これらの特許は、非ネイティブスピーカーのための
文法訂正や英語の使用法に特に向けられていない一般的
なシステムに関することもまた理解されよう。

【００１７】最後に、いかに効率的に辞書を符号化する
ことが出来るかに関する多数の特許が存在する。これら
の特許は米国特許第５、１８９、６１０号、第５、０６
０、１５４号、第４、９５９、７８５号そして第４、７
８２、４６４号である。辞書の符号化は、文法を十分に
チェックできるシステムを構築する１ステップを除いた
ものであることは理解されよう。

【００１８】文法のチェックにおける特有の重要性につ
いては、品詞が与えられた文内に存在するとき、その品
詞列を検出する能力である。正しい文は、正常な順序で
続く品詞を持っているので、品詞列を解析することによ
り、その文がその文法に関して正しいという可能性を検
出することが出来る。従来技術のシステムは品詞のため
に文にタグ付けして、上記可能性に対して品詞列を解析
したが、これらの可能性は文法のチェック、訂正システ
ムでは決して利用されなかった。

【００１９】

【発明が解決しようとする課題】従来の文法チェックシ
ステムでは、そのシステムが正しい使用法を提示する時
の非常に高いエラー率である。不合理に高いエラー率の
理由は、文に関するシステムの不適当な解析に由来す
る。また、文の解析が正しくなされたとしても、マイク
ロソフトシステムはしばしば不適当な単語を提示する。
また、現在のパーソナルコンピュータと関連メモリとの
能力を超えた蓄積と処理の能力を要求する。

【００２０】この発明は、前述した問題点を解決するた
めになされたもので、スペルが異なる同音語を訂正でき
る文法チェックシステムを得ることを目的とする。

【００２１】

【課題を解決するための手段】先のスペルチェックや、
文法チェックシステムで主要問題を解決するために、主
たる文法チェックシステムは、品詞に関して文に最初タ
グ付けすることに続いて、正しくない文法の文をチェッ
クすることを含む。このシステムは訂正すべき全文の可
能性に基づかないで、むしろ正しい順序列を有する品詞
の可能性に基づいた語の使用法を訂正する。

【００２２】より特定的に、正しい文を解析、構築する
ために、品詞列が正しい単語列に対応するという可能性
を確認することが重要である。入力された文列の可能性
を得るために、解析、またはタグ付け装置の出力が品詞
列可能性決定モジュールに連結される。このモジュール
の出力は入力文の解析において種々のモジュールにより
利用できる。

【００２３】一つの形態において、モジュールの一つ
は、対応する品詞列の可能性に基づく混同しやすい単
語、または文のセットの間で選択する品詞照合モジュー
ルである。正しい単語、または文の選択は、一つの形態
において、所定のしきい値を超える可能性により決定さ
れる。正しい文の選択は、モジュールにより達成され
る、それへの入力は入力文だけでなく種々の文の可能性
のものである。このモジュールは、混同しやすい単語リ
ストを備えている。

【００２４】

【作用】品詞列可能性は、後に説明されるように、語幹
（ｕｎｄｅｒｌｙｉｎｇ）のスペル訂正、助動詞訂正、
限定詞訂正、連語辞書引きに有効に働く。これらの文法
チェックモジュールの各々において、解析された各単語
の品詞は正確に確認されなければならない。これは品詞
列可能性により提供される確率的メカニズムを通じて達
成される。

【００２５】要約すると、文が最初品詞に関してタグ付
けされる文法チェックシステムにおいて、厄介な単語の
不正な使用、特にそれらのスペルが異なる同音語を訂正
するために正しい品詞列の可能性が利用される。そのシ
ステムは、訂正すべき文全体の可能性からではなく、訂
正すべき品詞列の可能性から単語の使用法を訂正する。
主たる発明の部分として、品詞列可能性が、品詞列照
合、語幹（ｕｎｄｅｒｌｙｉｎｇ）のスペル訂正、助動
詞訂正、限定詞訂正、連語辞書引きで利用される。

【００２６】

【実施例】

実施例１．モジュラー文法チェックシステム本発明は品詞解析モジュールの使用、品詞列可能性モジ
ュール、そして文法チェックシステムの種々の他のモジ
ュールとのその使用に関するが、今説明されることは、
種々のモジュールが品詞可能性に頼る全体の文法チェッ
クシステムについてである。

【００２７】本発明によるシステムに係る品詞列可能性
検出と使用の説明は、図１、図２、図３、図７、図８、
図９、図１０、図１１、図１３、図１５、図１６、図１
７、図１８、図１９、図２０及び図２１と関連して説明
される。

【００２８】図１において、特に外国語を綴る人にとっ
て、特にコンピューターの知識のないこれらの人々にと
っても正確で、且つ容易に使用できる入力された文に対
して即座の文法チェックを提供することは重要である。
文法チェックを達成するために、入力文１０はキーボー
ド１２により単語処理システム１６のＣＰＵ１４内に入
力される。なお、符号１８はプリンタである。

【００２９】入力文の品詞が正確に決定されることが信
頼できる文法照合にとって重要である。先の文法チェッ
クシステムは入力文を直接に使用していたが、品詞列を
提供することが出来るように入力文が品詞に分解される
ことがこの発明の特徴である。これは、Ａｐｐｌｉｅｄ
ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓ
ｉｎｇ、Ａｕｓｔｉｎ、Ｔｅｘａｓ、１９８８での第二
会議の議事録の「ＡＳｔｏｃｈａｓｔｉｃＰａｒｔｓ
ＰｒｏｇｒａｍａｎｄＮｏｕｎＰｈｒａｓｅ
ＰａｒｓｅｒｆｏｒＵｎｒｅｓｔｒｉｃｔｅｄＴ
ｅｘｔ（非限定テキストのための確率学的品詞プログラ
ムと名詞句パーサー）」として出版されたＫｅｎｎｅｔ
ｈＣｈｕｒｃｈ氏のＳｔｏｃｈａｓｔｉｃＰａｒｔ
ｓＰｒｏｇｒａｍ（確率学的品詞プログラム）の実施
として利用できる品詞解析モジュール２０により達成さ
れる。得られた品詞の結果は、たとえば、「Ｉｈｅａ
ｒｄｔｈｉｓｂａｎｄｐｌａｙ．」という文を品
詞分けした品詞列は、「代名詞（ＰＲＯＮＯＵＮ）、動
詞（ＶＥＲＢ）、限定詞（ＤＥＴＥＲＭＩＮＥＲ）、名
詞（ＮＯＵＮ）、動詞（ＶＥＲＢ）」となる。上記品詞
解析モジュール２０は、与えられた単語がある品詞をと
る確率である語彙確率と、３単語品詞列の出現頻度を示
す文脈確率を用いて文中の各単語の品詞を決定するもの
である。すなわち、先ず、語彙確率検索部は、入力文中
の各単語の語彙確率を語彙確率辞書から読み込む。この
語彙確率辞書は、例えば単語「Ｉ」の品詞の種類とその
確率、具体的には単語「Ｉ」が名詞である確率（０．０
０）と、単語「Ｉ」が人称代名詞である確率（１．０
０）を記憶し、アルファベット順に全ての単語が品詞の
種類毎の出現確率として格納されている。次に、品詞列
作成部は、例えば入力文の後から連続した３単語づつの
３単語品詞列を作成する。文脈確率検索部は、文脈確率
テーブルから上記作成した３単語品詞列の文脈確率を取
り出す。この文脈確率テーブルには、３個の品詞の組合
せになるあらゆるパターンについての出現確率が文脈確
率として格納されている。それぞれの品詞列の組合せが
とり得る確率は、大量の文を基にしてそのとり得る確率
を統計的に求めたものである。次に、評価値算出部は、
３単語品詞列の文脈確率と語彙確率とを乗算して評価値
とする。さらに、評価値算出部は、他の品詞列の文脈確
率と語彙確率とそれまでの対応する累積評価値を乗算し
て評価値を算出する。以下、同様の処理を繰り返し、５
個の品詞列である、入力文「Ｉｈｅａｒｄｔｈｉｓ
ｂａｎｄｐｌａｙ．」がとりうる全ての品詞列に対
する最終評価値が求まる。そして、それら最終評価値の
最も高いものを品詞列として選択する。この場合に、選
択される品詞列は、「人称代名詞（ＰＲＯＮＯＵＮ）、
動詞（ＶＥＲＢ）、限定詞（ＤＥＴＥＲＭＩＮＥＲ）、
名詞（ＮＯＵＮ）、動詞（ＶＥＲＢ）」である。

【００３０】単に単語の品詞を求めただけでは、それぞ
れの品詞が適切な文を反映するよう、正しく求められた
かどうかの信頼性が高く確実とは言えない。

【００３１】文を解析して正しい文を構成するために
は、品詞列が正しい単語列に対応する可能性を確認する
ことが重要である。入力文列の可能性を得るために、品
詞解析モジュール、つまり品詞タグ付けモジュール２０
の出力は品詞列可能性決定モジュール２２に連結され
る。このモジュールの出力は入力文１０の解析での種々
のモジュールにより利用される。

【００３２】最初のモジュールは、対応する品詞列の可
能性に基づいて混同しやすい単語、つまり文のセット間
で選択する品詞列照合モジュール２４である。正しい単
語、つまり文の選択は、一つの形態において、所定しき
い値を超える可能性により決定される。正しい文の選択
は、モジュール２６により達成される。それへの入力
は、入力文だけでなく種々の文の可能性のものである。
ここと、後にも説明されるように、モジュール２６は混
同しやすい単語のリストを備えている。

【００３３】混同しやすい文は上述の方法で訂正される
が、別のモジュール２８は単語の語幹のスペルを決定す
るために利用される。従来のスペルチェッカーはスペル
照合のためのルックアップテーブルを利用するが、それ
らはスペルエラーの厄介な指示となる大文字化を考慮し
ていない。更に、適当なスペルに頼るこれらの文法チェ
ックシステムは、単語、文、または頭字語の始めのいず
れかの大文字化された単語によりしばしば騙される。

【００３４】より信頼できるスペルチェックと文法訂正
とを提供するために、語幹のスペル訂正モジュール２８
は大文字化された単語を「混同する」単語として扱う。
そうすることで、上記技術は、Ｂｒｏｗｎのコーパスな
どのトレーニングコーパスに基づく一方のカテゴリー
か、または他方のものにある大文字化された単語の可能
性を提供するために使用される。

【００３５】従って、伝統的言語処理システムは、単語
は普通名詞か、または固有名詞のいずれかであり、その
両方ではないという限定を課すことにより単語の語幹の
スペルを訂正したが、この訂正モジュールは文脈と可能
性とを利用して、各単語を分類する。これは、どちらが
より高い可能性を有するかを確認するために大文字化と
非大文字化形式の単語を有する文を解析することにより
達成される。その後、スペルのために解析された単語
は、より高い可能性文内の単語の形式のものである。最
も適当なスペルを訂正して、その訂正モジュール２８の
出力が屈折チェック訂正モジュール３０に連結される。
このスペル訂正モジュールは従来のスペルチェックの変
種であるか、または特定の外国を話す人のために調整さ
れたものかのいずれであっても良い。

【００３６】別のモジュールとして、助動詞訂正モジュ
ール３２は品詞列可能性決定モジュール２２から得られ
る正しい品詞をもまた必要とする。助動詞訂正問題は、
幾つかの不適当な複合動詞が文内に在るときに存在す
る。これは、不適当な時制が使用される時に複合助動詞
列において見いだされる。例えば、文「ｈｅｗｏｕｌ
ｄｌｉｖｉｎｇ」は二つの動詞「ｗｏｕｌｄ」と「ｌ
ｉｖｉｎｇ」とを含む。その文の一つの正しい形式は
「ｈｅｗｏｕｌｄｌｉｖｅ」となる。従って、動詞
「ｌｉｖｅ」の時制は訂正される必要がある。

【００３７】これを達成するために、助動詞訂正モジュ
ール３２はいかなる不適当な助動詞列も検出して、訂正
を提示する。これは最初、動詞列の有限セットを説明す
る有向非循環グラフを利用することにより達成される。
正しい動詞列を確立する前に、上述のようにモジュール
２２により達成される正しい品詞を正しく識別すること
が重要であることが理解されよう。

【００３８】助動詞訂正モジュール３２の出力は適切な
代わりの文を提案するための正しい文選択モジュール３
４に連結される。

【００３９】品詞を利用する別のモジュールは限定詞訂
正モジュール３６である。名詞句の指示対象を決定する
これらの単語を訂正することがこのモジュールの目的で
ある。限定詞の例では、「ｔｈｅ」、「ａ」、そして
「ｓｏｍｅ」などの単語である。このモジュールにより
検出されて、訂正される三種類の誤りが在る、即ち、限
定詞欠如、不用の限定詞、そして限定詞と名詞との間の
数の不一致である。

【００４０】限定詞欠如の例は、「Ｊｏｈｎｒｅａｄ
ｂｏｏｋ」であり、その中で「ｔｈｅ」が欠落してい
る。不用の限定詞の例は、「Ｊｏｈｎｗｅｎｔｔｏ
ｔｈｅＮｅｗＹｏｒｋ」であり、削除されるべき
「ｔｈｅ」を有する。数の不一致は、文「Ｊｏｈｎｒ
ｅａｄｍａｎｙｂｏｏｋ」で明白であり、ここで名
詞「ｂｏｏｋ」は限定詞「ｍａｎｙ」と一致するように
複数化されなければならない。不適当な限定詞を検出す
るために、品詞タグが識別されるので、名詞句を識別す
ることが出来る。そのシステムは、品詞タグのどの列が
有効名詞句を構成するかを定義する規則的表現と最大限
に一致することにより名詞句を識別する。

【００４１】それでそのシステムは、各名詞句を試験し
て、それが限定詞を逸しているかどうかを見る。このプ
ロセスの一部として、主要名詞が最初に検出され、続い
てこの主要名詞が質量名詞、質量タイトル名詞、イディ
オムであるか、または限定詞を逸しているかどうかが決
定される。それでそのシステムは、各名詞句を試験し
て、それが不用の限定詞を有するかどうかを見る。最後
に、そのシステムは名詞句の限定詞と主要名詞との数が
一致するかどうかを試験する。その結果は、モジュール
３８に示されるように単語の挿入、削除、または置換の
何れかとなる。

【００４２】更に、モジュール４２は入力文１０に基づ
いて不定冠詞「ａ」と「ａｎ」の使用法を訂正する。

【００４３】最後に、品詞列により提供される精度は連
語辞書引きモジュール４０に役立つ。典型的に与えられ
た単語は、各々が辞書内のサブエントリーに対応する多
数の品詞を文脈外で有する。連語辞書引きモジュール４
０は辞書にアクセスして、品詞解析モジュール２０によ
り得られた単語の品詞に基づいて適切な定義を選択す
る。例えば、単語「ｌｏｖｅ」は名詞、または動詞であ
り、そして名詞「ｌｏｖｅ」は、動詞「ｌｏｖｅ」に比
べて、辞書内に多数の異なるエントリーを有する。入力
文が「Ｓｈｅｗａｓｍｙｆｉｒｓｔｌｏｖｅ」
であると仮定すると、単語「ｌｏｖｅ」は品詞解析モジ
ュールにより名詞として識別される、そして連語辞書引
きモジュールは名詞「ｌｏｖｅ」に対する辞書のエント
リーと動詞「ｌｏｖｅ」に対するこれらのみを選択す
る。

【００４４】単語の語幹のスペルが一度、モジュール２
８により訂正されると、これはモジュール３０による活
用訂正のために使用されるだけでなく、従来のスペルチ
ェックモジュール４４においてもまた使用されることが
理解されよう。従って、従来のスペルチェックシステム
が、スペルチェックの過程で、頭字語を不適切な配列と
して示さずに、頭字語のスペルをチェックすることがで
きる。

【００４５】ａ）品詞可能性に基づく文法訂正過去において、幾つかの前述の文法チェックシステム
は、幾つかの厄介な単語の不正使用を訂正、特にスペル
が異なる同音語を訂正することにより英語使用法を訂正
することを試みてきた。例えば、「ｔｏｏ」と「ｔｏ」
と「ｔｗｏ」や、「ｔｈｅｉｒ」と「ｔｈｅｙ’ｒｅ」
と「ｔｈｅｒｅ」である。他の共通の誤りは、単語が、
「ｍａｙｂｅ」や「ｍａｙｂｅ」など一語か、または
二語であるべきかに思案する。同音ではないが、「ｗｈ
ｉｃｈ」や「ｗｈｏｓｅ」などしばしば誤用される単語
もある。

【００４６】過去において、適当な使用法を突き止める
ために、文の文法性は、英語の文の出現頻度として計算
された。そのような統計的アプローチは、文法的に正し
い文には高い確率を、そして非文法的文には低い確率を
割り当てる。その統計は、英語の文の収集、つまりトレ
ーニングコーパス（training corpus）を準備すること
により得られる。そのコーパスは、語の正しい使用法を
定義する。結果として、文がそのような文法チェックシ
ステム内にタイプ入力されると、そのコーパスと関連す
る全文の可能性つまり出現頻度が計算される。約６万語
の全英語の語彙を受け入れるために、数百兆語のコーパ
スが使用されなければならないことが理解されよう。更
に、多数の可能性がコンピューター内に蓄積されなけれ
ばならない。従って、全文を解析するのは、計算と蓄積
との両面において重い負荷となる。

【００４７】本発明のシステムでは、語の正しい使用法
を確立するために、品詞列の出現頻度が必要である。こ
の目的のため、システムがどれだけ洗練されているべき
かにより１００から４００の可能品詞が在ると見なすこ
とが出来る。これは、数百兆に対して数百万語のトレー
ニングコーパスに相当する。このタイプの解析は、単語
処理に使用されるものを含む標準計算プラットフォーム
で容易に実行できる。

【００４８】従って、本発明によるシステムにおいて、
文は最初に品詞に分解される。例えば、文「Ｉｈｅａ
ｒｄｔｈｉｓｂａｎｄｐｌａｙ」は、以下のよう
に解析される。各単語は、人称代名詞（ＰＲＯＮＯＵ
Ｎ）、動詞（ＶＥＲＢ）、限定詞（ＤＥＴＥＲＭＩＮＥ
Ｒ）、名詞（ＮＯＵＮ）、及び動詞（ＶＥＲＢ）として
解析される。この品詞列の可能性、つまり品詞列の出現
頻度を示す文脈確率は、その品詞列をコーパスと比較す
ることにより決定される。これはまた、いわゆるトリグ
ラム（tri-grams：三重字）、つまり３単語品詞列を考
慮に入れないならば実行可能でない。トリグラムは、入
力文内で隣接した品詞の三つの要素からなる。三つの隣
接品詞の解析は、正しさを立証するのに通常十分であ
り、そして特有の文が正しい使用法を必要とすることを
立証するために使用されるこれらのトリグラムの可能
性、つまり文脈確率である。従って、全文をチェックす
るよりもむしろ、三つの隣接品詞の可能性がトレーニン
グコーパスから計算される。

【００４９】ある文と、その文が混同された他方の文の
二つの文を仮定すると、どちらが正しい使用法であるか
を決定することは上記技術で可能となる。上記システム
は低エラー率でこれを決定することが出来るので、二つ
の利点が在る。その第一の利点は二つの文のどちらが正
しいかを明白に突き止める。第二の利点は、正しい文を
構築した後、その品詞は他の処理のための他の文法チェ
ックモジュールにより使用できることである。

【００５０】図２において、符号５０に示されるように
入力文Ｓ１は、品詞タグ付けモジュール５２と、また符
号５４で示されるように入力として混同単語リスト５６
を有する候補文Ｓ２の生成モジュールとに連結される。
品詞タグ付けモジュール５２は、符号５８に示されるよ
うに、入力文Ｓ１を最も適当な品詞列Ｔ１とその可能性
Ｐ１とに解析する。これは、最も適当な品詞列が全ての
品詞の有りえる３単語品詞列の可能性の最も適当な積を
計算することにより得られる上記Ｃｈｕｒｃｈにより説
明されたようなアルゴリズムにより達成される。

【００５１】入力文Ｓ１内の単語は混同単語リスト５６
の一部であるかも知れない。何れの場合でも、入力文Ｓ
１に対する全ての可能な候補文Ｓ２は混同単語リスト５
６から生成される。候補文生成モジュール５４の出力は
品詞タグ付けモジュール５２に供給されて、再度、符号
６０に示されるように最も適当な品詞列Ｔ２と、その可
能性Ｐ２とを生成する。

【００５２】符号５８と符号６０で入力文Ｓ１と候補文
Ｓ２の可能性Ｐ１と可能性Ｐ２を得てから、どの品詞列
が最も正しそうであるかを決定することが重要となる。
選択されるべき適当な文を決定するために、そして符号
６２に示されるように、可能性Ｐ２は可能性Ｐ１と比較
され、そしてＰ２−Ｐ１があるしきい値ｅよりも大きけ
れば、符号６４に示されるように、入力文Ｓ１の代わり
に候補文Ｓ２が提示される。もしＰ２−Ｐ１＜＝ｅなら
ば、符号６６に示されるように何の提示もなされない。

【００５３】例えば、入力文が「Ｉｗａｎｔｔｏ
ｈｅｒｅｔｈｉｓｂａｎｄ」であるとすると、ここ
で「ｈｅｒｅ」が正しい単語「ｈｅａｒ」の代わりに誤
用されており、入力文Ｓ１「Ｉｗａｎｔｔｏｈｅ
ｒｅｔｈｉｓｂａｎｄ」と候補文Ｓ２「Ｉｗａｎ
ｔｔｏｈｅａｒｔｈｉｓｂａｎｄ」とを比較す
る必要がある。

【００５４】これらの二つの文を比較するために、英語
の文の与えられたある統計モデルを文の全体の可能性と
比較することが出来る。「ＩｎｆｏｒｍａｔｉｏｎＰ
ｒｏｃｅｓｓｉｎｇａｎｄＭａｎａｇｅｍｅｎｔ」
で２７（５）：５１７ー４２２、１９９１にタイトル名
「ＣｏｎｔｅｘｔＢａｓｅｄＳｐｅｌｌｉｎｇＣｏ
ｒｒｅｃｔｉｏｎ」で出版されたＥｒｉｃＭａｙｓ、
ＦｒｅｄＤａｍｅｒｅａｕ、そしてＲｏｂｅｒｔＭ
ｅｒｃｅｒ等による記事で検討された、このアプローチ
は、計算機的に非常に高価であるので、４万語以上の語
彙を有する自由なテキストを扱う時には標準コンピュー
ターでは非実用的となる。文可能性を直接計算すること
ができることは、大量のトレーニングデータ、例えば最
小限４億のトレーニング単語と、大量の記憶容量とが必
要となる。

【００５５】それとは対照的に、図２に示されるように
本発明によるシステムは、与えられた入力文と混同しそ
うな候補文とに対する最も適当な品詞列の可能性を比較
する。例えば、文「Ｉｗａｎｔｔｏｈｅｒｅｔ
ｈｉｓｂａｎｄ」全体の可能性を計算する代わりに、
本発明によるシステムはその文に対して最も適当な品詞
列、例えば「ＰＲＯＮＯＵＮ（人称代名詞）ＶＥＲＢ
（動詞）ＴＯＡＤＶＥＲＢ（副詞）ＤＥＴＥＲＭ
ＩＮＥＲ（限定詞）ＮＯＵＮ（名詞）」を得る。そし
て入力文に対して品詞列の可能性を計算する。同様に、
本発明によるシステムは、候補文「Ｉｗａｎｔｔｏ
ｈｅａｒｔｈｉｓｂａｎｄ」に対する最も適当な
品詞列、例えば「ＰＲＯＮＯＵＮ（人称代名詞）ＶＥ
ＲＢ（動詞）ＴＯＶＥＲＢ（動詞）ＤＥＴＥＲＭ
ＩＮＥＲ（限定詞）ＮＯＵＮ（名詞）」を得る。そし
てその候補文に対するその品詞列の可能性を計算する。
それで、本発明によるシステムはそれらの可能性を比較
することにより「ｈｅｒｅ」又は「ｈｅａｒ」の使用を
決定する。

【００５６】上述の可能性を比較するよりもむしろ、別
の例においては、本発明によるシステムは文の語長を考
慮することにより、即ちＰ１の対数を入力文Ｓ１内の語
数で除した値とＰ２の対数を候補文Ｓ２内の語数で除し
た値とを比較することにより、これらの可能性の幾何学
的平均値を計算する。これは、単語が「ｍａｙｂｅ」や
「ｍａｙｂｅ」などの単語の列と混同するかも知れな
い場合に重要である。品詞列の可能性を直接的に比較す
るのは、長文の代わりに短文が好適であり、統計的言語
モデルはより低い可能性をより長い文に割り当てるの
で、必ずしも正しい結果とはならない。上記は図３に例
示される。

【００５７】混同単語リスト５６は典型的に以下のもの
を含む。ｔｏ、ｔｏｏ、ｔｗｏと、Ｉ、ｍｅと、ｉｔ
ｓ、ｉｔ’ｓと、ｔｈｅｉｒ、ｔｈｅｙ’ｒｅ、ｔｈｅ
ｒｅと、ｗｈｏｓｅ、ｗｈｉｃｈと、ｔｈｅｎ、ｔｈａ
ｎとｗｈｏｓｅ、ｗｈｏ’ｓとｏｕｒ、ａｒｅと、ｈｅ
ａｒ、ｈｅｒｅと、ｐａｓｔ、ｐａｓｓｅｄと、ａｃｃ
ｅｐｔ、ｅｘｃｅｐｔと、ａｄｖｉｃｅ、ａｄｖｉｓｅ
と、ｌｏｓｅ、ｌｏｏｓｅと、ｗｒｉｔｅ、ｒｉｇｈｔ
と、ｙｏｕｒ、ｙｏｕ’ｒｅと、ａｆｆｅｃｔ、ｅｆｆ
ｅｃｔと、そしてｍａｙｂｅ、ｍａｙｂｅとである。

【００５８】本発明によるシステムは他の混同単語と、
フランス語、イタリア語、そしてスペイン語などの他の
言語の混同単語にも適用できることに留意すべきであ
る。その方法は一般に、品詞タグ付けまで、上記Ｃｈｕ
ｒｃｈで説明された方法、即ちトリグラムモデル（３単
語品詞列）を用いて実行できることに留意すべきであ
る。

【００５９】要約すると、より可能性のある正しい文の
選択に加えて、図２と図３のシステムは、文の文法性に
ついての他の判断を確認するのに重要である。上記は、
文を品詞に分解するためのより良好で、信頼出来る方式
を提供する。

【００６０】文を訂正するために、最初に文を品詞に分
解できることが重要である。この文法チェックシステム
がどれだけ正確に動作するかは、決定的にこの分解の精
度に依存する。より信頼できる品詞生成を提供すること
により、文法チェックの最終結果は、より信頼できるも
のにすることが出来る。

【００６１】ｂ）「ａ」と「ａｎ」の訂正外国語を話す個人にとって最も頻繁におかす間違いの一
つは、不定冠詞「ａ」と「ａｎ」の正しい使用法である
ことは理解されよう。英語の規則は、不定冠詞「ａ」
が、最初に子音で発音される語の前に使用されるべきで
あり、そして「ａｎ」は最初に母音で発音される語の前
に使用されるべきであることを指定する。英語のこれら
の規則の単純で、正しくない実施は、次の語の最初の文
字が母音であるか、または子音であるかどうかを試す。
最初、子音（母音）で発音される大抵の語は最初、子音
（母音）で実際に綴られるが、以下の例ではそれは常に
そうなるとは限らない。例えば、単語「ｈｏｕｒ」は初
めに子音（ｈ）を有するが、母音（例えばｏｗ）に相当
する初めの音で発音される。同様に、単語「Ｅｕｒｏｐ
ｅａｎ」は初めに母音（文字「Ｅ」）で始まるが、子音
（例えば「ｙｅ」）に相当する初めの音で発音される。

【００６２】この問題に対する先の解決案は、全英単語
の発音の辞書を蓄積することに本質がある。これらの解
決案は正しいが、英語の全単語に対する大量の蓄積容量
を必要とする。

【００６３】英語の全単語に対して辞書ルックアップテ
ーブルを使用することよりもむしろ、主たるシステム
は、規則に対して何の例外も見つけられない時には単純
な規則を適用する。規則に対する例外は、母音で始まる
が、子音で最初に発音されない規則により扱われない語
と、そして子音で始まるが、母音で最初に発音される規
則により扱われない語とに各々対応する二つの小さな表
に蓄積される。これらの語に対立するものとしてそのル
ックアップテーブルは、６万語から生成された辞書ベー
スのシステムと比べて３００語以下の単語ですむ。

【００６４】図４及び図５と、図６は、英語の例外であ
る単語のリスト１及び２である。

【００６５】上記から、主たる発明の部分は、不定冠詞
の正しい使用法を決定するのに重要なのは単語を発音す
る時に発せられる最初の音であることを認識することに
集中することが分かる。

【００６６】最初に例外の限られたリストを構築して、
次の三つの規則が適用される。不定冠詞「ａ」、または
「ａｎ」に続く単語が文字「ｅｕ」で始まる時に最初の
規則を適用する。何れの場合でも、不定冠詞「ａ」が使
用されるべきである。不定冠詞「ａ」、または「ａｎ」
に続く単語が母音の文字「ａ」、「ｅ」、「ｉ」、
「ｏ」、または「ｕ」で始まる時に第二の規則を適用す
る。何れの場合でも、不定冠詞「ａｎ」が使用されるべ
きである。不定冠詞「ａ」、または「ａｎ」に続く単語
が子音の文字で始まる時に第三の規則を適用する。何れ
の場合でも、不定冠詞「ａ」が使用されるべきである。

【００６７】図７において、ステップ３００で入力され
た文の各単語ｗ１とそれに続く単語ｗ２とはステップ３
０２、３０４、３０６により決定される時に入力文内の
現在の単語の位置ｉの跡を辿ることにより構築される。
もし現在の単語がステップ３０８により構築される時に
「ａ」、または「ａｎ」でないならば、そのアルゴリズ
ムはステップ３０４、３０６を通じて次の単語に進む。
もし現在の単語ｗ１が「ａ」、または「ａｎ」の何れか
であり、そして次の単語ｗ２がステップ３１０により構
築された時に図４及び図５のリスト１内で発見されるな
らば、その現在の単語ｗ１はステップ３１２により指定
された時に必要ならば、「ａ」に訂正されなければなら
ない。もし次の単語ｗ２がリスト１内で発見されない
が、ステップ３１４により構築された時に図６のリスト
２内で発見されるならば、現在の単語ｗ１はステップ３
１６により指定された時に必要ならば「ａｎ」に訂正さ
れなければならない。さもなければ、もし次の単語Ｗ２
がステップ３１８により構築される時に文字「ｅｕ」で
始まるならば、現在の単語ｗ１はステップ３２０により
指定されるときに必要ならば「ａ」に訂正されなければ
ならない。さもなければ、もし次の単語ｗ２がステップ
３２２により構築された時に「ａ」、「ｅ」、「ｉ」、
「ｏ」、または「ｕ」で始まるならば、現在の単語ｗ１
はステップ３２４により指定される時に必要ならば「ａ
ｎ」に訂正されなければならない。さもなければ、現在
の単語ｗ１はステップ３２６により指定される時に必要
ならば「ａ」に訂正されなければならない。

【００６８】ｃ）不適当な助動詞列の訂正前述のように、非ネイティブスピーカーが英語の文を書
こうとする時に、彼等は複雑な助動詞列において不適当
な時制をしばしば使用する。一例は「ｈｅｈａｓｃ
ｏｎｓｉｄｅｒ」である。ここで、不正な使用法は動詞
「ｃｏｎｓｉｄｅｒ」の時制である。助動詞列を認識す
るのが明らかに困難であるためと、品詞タグが通常計算
されないという事実とのため、従来の文法チェックシス
テムのどれもそのような助動詞列に対するチェックを行
わない。

【００６９】本発明によるシステムにおいて、そして図
８において、文４１０は品詞タグ付けモジュール４１２
により解析されて、符号４１４で示されるように関係す
る文の品詞を得る。

【００７０】誤りを検出するために、不適当な助動詞列
の終了点と開始点との両方を検出しなければならない。
例えば、文「Ｈｅｈａｓｂｅｅｎｃｏｎｓｉｄｅ
ｒｔｈｉｓｆａｃｔ」において、文の四番目の単語で
ある誤りの終わり、即ち「ｃｏｎｓｉｄｅｒ」を検出す
ることが重要である。「ｃｏｎｓｉｄｅｒ」の後の全単
語、即ち「ｔｈｉｓｆａｃｔ」は助動詞列の正しさに
影響を及ぼさない。同様に、誤りの開始点、即ち文の二
番目の単語である「ｈａｓ」を検出することが重要であ
る。「ｈａｓ」の前の全単語は助動詞列の正しさの決定
に無関係である。

【００７１】文の品詞を生成して、終了点検出モジュー
ル４２４が不適当な助動詞列の終了位置を計算するため
に使用される。不適当な動詞列の終了を検出するため
に、そしてステップ４２０で示され、図９内で示される
ように、全助動詞列の全ての正しい品詞列が後述される
図１０に示される有向非循環グラフ内に蓄積される。

【００７２】全ての正しい助動詞列の有向非循環グラフ
から、全ての可能不適当助動詞列に対応する他の有向非
循環グラフがステップ４２２で生成される。そのグラフ
をステップ４２２に対応させて、このグラフは、不適当
な助動詞列「ｈａｖｅ／三人称／動詞／不定詞」を含
む。これは不適当な助動詞列「ｈａｓｃｏｎｓｉｄｅ
ｒ」に対応する。誤りの終了点を検出するために、グラ
フは、終了状態に及ぶまで左から右に横断されると同時
に、その入力ストリングは左から右に読まれる。入力文
品詞が不適当な助動詞列グラフ内に読まれると品詞は入
力文内の単語に対応するので、そのグラフが最終状態に
達すると、これは問題の助動詞列の終わりにその単語を
識別する。文内のその位置に関してこの単語の識別子は
終了点検出モジュール４２４により指示される。

【００７３】同様に、開始点検出モジュール４２６は問
題の助動詞列の開始点に対応する単語を検出する。これ
は、誤りの終了点を検出して、グラフの開始状態に達す
るまでグラフの右から左まで後方に働くことにより達成
される。例えば、左から右に進むと、そのシステムはｈ
ａｓをｈａｖｅ／三人称／単数として識別して、動詞／
不定詞と見なす。システムは、この点で誤りが在ること
を検出して、不適当な助動詞列内の最後の単語であると
して単語「ｃｏｎｓｉｄｅｒ」を識別した。それで、グ
ラフ内で後方に移動して、入力ストリング内で、「ｃｏ
ｎｓｉｄｅｒ」を通過して、そして「ｈａｓ」を通過し
て進む。これはこの特別のグラフの初めに到達するの
で、助動詞列内の最初の単語であるとして語「ｈａｓ」
を識別する。

【００７４】図８に戻って、助動詞列の終了点を決定し
てから、この不適当な列の終了位置が入力文の不適当列
内の最後の単語の位置としてステップ４２８で決定され
る。同様に、不適当列の開始位置は入力文内のその位置
を反映する数として不適当列を開始する単語の位置とし
てステップ４３０で決定される。ステップ４３２で例示
されるように、図１１で例示される他の有向非循環グラ
フは、各々の不適当助動詞列の可能な正しい列のセット
を指定する。それで、ステップ４３２は不適当助動詞列
を通じて図１１に例示された有向非循環グラフ内に進
み、そしてステップ４３４で例示されるようにユーザー
が見るための可能な正しい助動詞列のセットを出力す
る。

【００７５】図１０において、正しい助動詞列のセット
を説明する有向非循環グラフが全ての可能助動詞列に対
して次のように構成される。図１０に示されるように、
そのグラフの左側におけるその開始点４４０から、「ｂ
ｅ」、「ｗｅｒｅ」、「ｗａｓ」、「ｉｓ」、「ａ
ｍ」、「ａｒｅ」、「ｂｅｅｎ」、「ｈａｄ」、「ｈａ
ｖｅ」、「ｈａｓ」、「ｃｏｕｌｄ」、「ｓｈｏｕｌ
ｄ」、「ｍｉｇｈｔ」、「ｍａｙ」、「ｃａｎ」、「ｍ
ｕｓｔ」、「ｗｏｕｌｄ」、「ｓｈａｌｌ」、「ｗｉｌ
ｌ」、「ｄｏ」、「ｄｏｅｓ」、「ｄｏｅｓｎ’ｔ」、
そして「ｄｉｄ」などの英語における助動詞の全てを含
むボックス４４２が在る。語「ｂｅ」から「ｂｅｅｎ」
までノード４４４と関係することが理解されよう。一般
に、ノードは、これらの助動詞に続くことが出来る動詞
は同じであることを指定する。例えば、「ｉｓ」は、単
語「ｗｅｒｅ」が例えば「ｗｅｒｅｂｅｉｎｇ」とな
るように、単語「ｂｅｉｎｇ」で続くことが出来る。従
って、ノード４４４は、後続する動詞が同じである助動
詞のセットが在ることを指定する。例えば、単語「ｈａ
ｄ」、「ｈａｖｅ」、そして「ｈａｓ」のセットと関連
したノード４４６は、単語「ｂｅｅｎ」が後続すること
が出来る。同様に、ノード４４８に対しても、単語「ｃ
ｏｕｌｄ」から「ｗｉｌｌ」までは単語「ｈａｖｅ」が
後続することが出来る。また、これらの単語は単語「ｄ
ｏ」が後続できる。最後に、ノード４５０は、単語「ｄ
ｏｅｓ」、「ｄｏ」、「ｄｏｅｓｎ’ｔ」が「ｈａｖ
ｅ」により後続されるが、「ｄｏ」によってではないこ
とを指定する。

【００７６】事実このような英語の語法グラフを用いる
ことによって、全規則をコンパクトなグラフ上の表現に
展開できるので、助動詞列の誤りの訂正を得ることが出
来る。

【００７７】見られる通り、前記ノードに続く「？？
？」とラベル付けされたボックスが在る。例えば、ボッ
クス４５２がある。このグラフへの入力は、品詞が後続
する単語の列であることを思い出されよう。本当はこれ
は、二つの変数でその入力にタグ付けする。そのグラフ
をコンパクトのままにするために、そのシンボル「？？
？」はこのノードで説明されない何かを主張する。ノー
ド４５４において、ボックス４５６は何かを示すが、
「ｂｅｅｎ」と「ｈａｄ」とはノード４５８に進むこと
が出来る。従って、「？？？」ボックスの使用は状態の
出力で説明されない何かのシンボルを次のノードに連結
する能力を主張することが分かる。

【００７８】単語に加えて、その入力文はまた、品詞を
必要とする。例えば、システムが列「ｈａｖｅｃｏｎ
ｓｉｄｅｒｅｄ」を解析する時、このグラフは列「ｈａ
ｖｅｈａｖｅｃｏｎｓｉｄｅｒｅｄｖｂｎ」と比較
される、ここで「ｖｂｎ」は過去完了形を表す。グラフ
の左側から開始して、ボックス４６１で例示されるよう
に単語「ｈａｖｅ」を発見する。そこから、ノード４４
６を過ぎて、上述のように、ノード４５４へのこの単語
の通過を可能にするボックス４６２に向かって右に移動
する。ノード４５４からの可能性はボックス４６４での
「ｂｅｅｎ」、またはボックス４６６での「ｈａｄ」で
あり、そのどちらも入力文と一致しない。他の代わり
は、ノード４５８への右への通過を可能にするボックス
４５６に行き、それから過去完了形を表す「ｖｂｎ」を
指定するボックス４６０に行くことである。これはノー
ド４７０への通過を可能にする。単語「ｃｏｎｓｉｄｅ
ｒｅｄ」は、その解析がボックス４５６を通過している
ので、許容されるべきであると考えられる、それで列
「ｈａｖｅｃｏｎｓｉｄｅｒｅｄ」はグラフの終了点
４７２に進むことが許される。中間ノード４７０と終了
点４７２との間に、空語を示すシンボル＜Ｅ＞を有する
ブロック４７４が在る。＜Ｅ＞で示されたボックスの使
用は、次の単語、または次の品詞などのことを考慮する
ことなく一つのノードから次のノードに通過できること
を示す。

【００７９】ボックス４４２で見つけられない単語に対
しては、ボックス４７６とノード４８０を通じて品詞ボ
ックス４８２に、その後ノード４８４に通すことにより
解析できる。ボックス４８６は適していれば終了点４７
２への弧を与える、そうでなければノード４８４を通過
して、ボックス４８８を通じてノード４９０に、その後
終了点４７２に達する前に品詞ボックス４９２、または
４９４を通る。最後に、ノード４８４は、「ｈａｖｉｎ
ｇ」を有する単語と連結するならば、ノード４９６とボ
ックス４９８とを通過して、ノード５００に、ボックス
５０２はノード５０４を介して品詞ボックス５０６に、
それから適していれば終了点４７２にノード４８４を通
す。もし４８４における単語が「ｈａｖｉｎｇ」と「ｂ
ｅｅｎ」との両方に連結されるべきであるならば、それ
はノード５０８に、ボックス５１０を通じてノード５１
２に、そしてボックス５１４を通じてノード５１６に渡
される。その後、それは品詞５１８から終了点４７２
か、ボックス５２０のいずれかとなる。従って、入力単
語「ｈａｖｉｎｇ」、「ｂｅｅｎ」の正しい使用法は、
もし前述された原形を通じて終了点４７２に到達すれば
正しいとして決定される。但し、もし単語「ｂｅｉｎ
ｇ」がこの列に追加されるべきであるならば、ノード５
１２の出力はノード５２２とボックス５２４に渡されて
ノード５１６に至る。

【００８０】要約すると、有向非循環グラフは、全ての
正しい助動詞使用法を指定する。その結果、同様のグラ
フが全ての不適当な助動詞列について構成できる。故
に、全ての正しい使用法を表すグラフを構成すると、全
ての不適当な使用法を表すグラフを直ちに有する。この
アプローチの密度の高さは、文の解析に例外的に効果的
である。

【００８１】図１１において、有向非循環グラフの形の
有限状態変換モジュールは、上記生成された不適当な動
詞列の有向非循環グラフにより決定される時、不適当な
助動詞列の訂正を提示するために使用される。適切な訂
正を提示するために、助動詞はペアーにされる。よって
各ペアーの左側の語は不適当なものとして識別され、そ
して右側の語は正しいものとなる。例えば、ｈａｖｉｎ
ｇは、助動詞列「ｗｉｌｌｈａｄ」は不適当であるこ
とを識別し、図１１のグラフが正しい列を指定するため
に使用される。入力ノード５３０から開始して、ボック
ス５３２を通過することが出来る、このボックスの左手
は入力の第一単語と同じである。ノード５３４とボック
ス５３６とを通過して、ノード５３８に達する、ここで
考慮される単語は単語「ｈａｄ」である。ボックス５４
０は、「ｈａｄ」が「ｈａｖｅ」に変更されるべきであ
ることを示す、その事実はノード５４２に出力され、そ
の後ボックス５４４を通じて終了点５４６に至る。この
通路により終了点５４６に到達して、提案される正しい
列は「ｗｉｌｌｈａｖｅ」となる。

【００８２】より複雑な場合は、不適当な列「ｗｏｕｌ
ｄｃｏｎｓｉｄｅｒｅｄ」を考える場合である。対応
する品詞タグは「ｗｏｕｌｄｗｏｕｌｄｃｏｎｓｉ
ｄｅｒｅｄｖｂｎ」である。この場合、「ｗｏｕｌ
ｄ；ｗｏｕｌｄ」を示すボックス５５０を通過すること
により最初ノード５３４に到達して、ボックス５３６を
通じてボックス５３８に達する。ここで、ボックス５４
０、５５２、５５４、５５６、５５８、または５６０の
何れも適用しない。これは、これらのどのボックスもそ
の中に単語「ｃｏｎｓｉｄｅｒ」を持たないからであ
る。ボックス５６２を経て、品詞解析ボックス５６４を
経た適切で、正しい提案は「ｗｏｕｌｄｃｏｎｓｉｄ
ｅｒ」であることに留意すること。これは、グラフが、
「ｃｏｎｓｉｄｅｒｅｄ」は単語「ｃｏｎｓｉｄｅｒ」
の過去時制であることを検出するので、到達した。この
ボックスは現在時制が使用されることを提案するので、
単語「ｃｏｎｓｉｄｅｒ」を提案する。その解析は「ｖ
ｂｄ：／ｖｂｄ／ｖｂ」で示される。ｖｂｄは過去時制
を意味し、そしてｖｂは現在時制を意味することに留意
すること。入力に他の正しい変更を提供するノード５３
８からの交代的ノードが在る。例えば、提案される列は
「ｗｏｕｌｄｈａｖｅｃｏｎｓｉｄｅｒｅｄ」であ
るかも知れない。ここで、ボックス５６６は、単語「ｈ
ａｖｅ」が付加されるべきであることを指定する。ボッ
クス５６８は、「ｈａｖｅ」の品詞、ｈｖが、セットに
もまたタグならば付加されるべきであることを指定す
る。ボックス５７０を通過して進んだ後、ボックス５７
２は、過去時制形が過去分詞形に変換されるべきである
ことを指定する。その場合、単語「ｃｏｎｓｉｄｅｒｅ
ｄ」は、過去時制と過去分詞との両方であるので、不変
である。もし入力された単語が「ｃｏｎｓｉｄｅｒｅ
ｄ」に対立するものとして「ｋｎｅｗ」であったなら
ば、ボックス５７２は過去時制である「ｋｎｅｗ」から
過去分詞である「ｋｎｏｗｎ」への変更を指定していた
であろう。

【００８３】図１１の図式の残りは自己説明的であり、
一度不適当であると決定された不適当動詞列への種々の
提案された変更を提供する。

【００８４】ｄ）非ネイティブスピーカーのための活用
訂正良く知られるように、スペルチェックシステムは典型的
に辞書引きアルゴリズムを介してスペル誤りの単語を検
出する。これは、典型的に不注意なタイプ打か、文字転
置のためによるスペル誤りを検出するのに成功するが、
これらのシステムは他の種類のスペル誤りに対しては効
果がない。最も顕著に、非ネイティブスピーカーのスペ
ル誤り、単語の文字についての大抵不注意な転置、不注
意な文字挿入、または省略、それらは主に文法問題のた
めである。例えば、文「Ｈｅｄｒｉｖｅｄｈｉｓ
ｃａｒｙｅｓｔｅｒｄａｙ」をとると、その誤りは不
注意でも、特別のスペルに関する知識の不足の何れでも
ないが、この場合はむしろ動詞「ｄｒｉｖｅ」の過去時
制に関する不確かさによるものである。

【００８５】典型的に、スペルチェッカーは、ミスタイ
プされた単語と辞書の単語との間の距離に基づいて適当
なスペルを提案する。その距離は、典型的に置換、挿
入、転置、または削除されなければならない文字数に基
づく。その結果は、しばしば奇妙である。例えば、上記
例では、正しい提案は「ｄｒｉｖｅ」の過去時制、即ち
「ｄｒｏｖｅ」であろうが、従来のスペルチェッカーは
「ｄｒｉｅｄ」や、「ｄｒｉｐｐｅｄ」を提案する。正
しい語「ｄｒｏｖｅ」が提案されないということに留意
することは興味深い。これは、従来のスペルチェックシ
ステムが検出されたスペル誤りを文法に関して解析しな
いからである。

【００８６】従来のシステムが正しいスペルの提案にお
いて有する難しさの他の例は、不適当な比較形容詞を含
む。例えば、非ネイティブスピーカーが「ｇｏｏｄ」に
対する比較級を選択するのに、しばしば比較形容詞を形
成するための通常規則に基づいてｇｏｏｄｅｒを選択す
る。更なる例として、名詞「ｃｈｉｌｄ」を複数形にし
たい時、非ネイティブスピーカーは、単数名詞に「ｓ」
の付加を必要とする通常の複数規則に再び基づいて「ｃ
ｈｉｌｄｒｅｎ」に対立するものとして語「ｃｈｉｌｄ
ｓ」を選択するかも知れない。

【００８７】上記例で適切な語を提案することを従来の
スペルチェッカーが出来ないことを示すために、典型的
スペルチェッカーは次の語を提案する。そのどれもが文
脈において正しくない。つまり、「ｃｈｉｌｌｓ」、
「ｃｈｉｌｄ’ｓ」、「ｃｈｉｌｌ’ｓ」、「ｃｈｉｌ
ｄ」、「ｔｉｄｌｅｓ」である。従来のスペルチェッカ
ーによる更に不十分な提案は、いかに「ｇｏｏｄｅｓ
ｔ」を正しく綴るかの提案である、即ち：「ｇｏｏｉｅ
ｓｔ」や、「ｇｏｏｓｅｄ」である。

【００８８】これらのタイプの誤りは、スペルチェック
機能を使用するのを拒絶させるほど個々の非ネイティブ
スピーカーにとっては煩わしいだけでなく、彼等の欲求
不満のレベルも、文脈内外で知らない語の中から選択す
るよう強制されるときには更に高くなる。

【００８９】本発明の図１２において、複数、過去時
制、過去分詞、比較形、最上形に関して何れの通常規則
にも従わない語の典型例を識別することが重要である。
主たるシステムがより適当な置換語を提案するのは、文
法を基礎として生成される不適当な単語のこの特有のリ
ストからである。主たるスペルチェックシステムは辞書
引きシステムによりスペル誤りを検出するように正常に
働く。その後、正しい単語が、以下で説明されるように
典型的な不適当な単語の大要や、原形、および形態素的
特徴との両方に基づいて提案される。

【００９０】図１２において、英単語訂正モジュール６
００は、英単語辞書６０２と、英単語形成の正常規則に
より生成された辞書６０８とからの単語をステップ６０
６で比較することにより生成された不適当な英単語６０
４のリストを含む。比較の結果は、スペルの誤りからで
はなく、むしろ不適当な文法に基づく誤りやすい単語の
特別なリストとなる。

【００９１】図１３において、検出された不適当な単語
を実際に訂正するプロセスにおいて、英単語辞書６０２
が、図１２との関連で説明されたように前に生成された
不適当な英単語のリスト６０４に沿って使用される。検
出された不適当な単語はステップ６１０で利用可能であ
り、従来の辞書引きを通じて得られる。検出された不適
当な単語と不適当な英単語のリストの両方とも、不適当
な単語の原形や時制、数、比較形、．．．最上形などの
その形態素的特徴を決定するモジュール６１２に適用さ
れる。例えば、不適当な単語「ｄｒｉｖｅｄ」の場合、
この単語の原形は「ｄｒｉｖｅ」であり、そしてその形
態素的特徴は「過去時制、または過去分詞」である。そ
の原形と形態素的特徴は、その原形と形態素的特徴とを
英語辞書６０２内の対応する英単語と関連させるモジュ
ール６１４に提供されて、提案された訂正単語を提供
し、それにより文法とその例外との両規則を考慮に入れ
ることが出来る。

【００９２】本質において、典型的に不適当な使用法に
基づく原形と形態素的特徴と得ているシステムはこれら
の未訂正の使用法と関連付けられた適切な単語を提案す
ることが出来る。そのシステムは、単純なスペルの誤り
に対立するものとして文法のために問題である問題単語
を識別している洗練されたルックアップを提供する。

【００９３】品詞タグ付けモジュールは、システムによ
り提案される単語の精度を改善するのに有益であること
が理解されよう。例えば、スペルを誤った単語が過去時
制であるか、または過去分詞かの何れかである場合であ
る。上記の例は、「ｄｒｏｖｅ」、または「ｄｒｉｖｅ
ｎ」に導く「ｄｒｉｖｅｄ」の訂正である。「不適当
な」単語が文内で使用される方法を知ることは、品詞に
基づいた正しい選択となる。

【００９４】ｅ）限定詞の不正使用法の検出と訂正非ネイティブスピーカーに対する最も難しい問題の一つ
は、限定詞の使用法の問題である。限定詞は、名詞句の
指示対象を決定する「ｔｈｅ」、「ａ」、そして「ｓｏ
ｍｅ」などの単語である。限定詞を含む３種類の誤りが
在る。その第一は限定詞欠如である。例えば、文「Ｊｏ
ｈｎｒｅａｄｂｏｏｋ」は名詞句「ｂｏｏｋ」の限
定詞が欠けている。限定詞の誤りの第２は、不用の限定
詞の使用である。例は、「Ｊｏｈｎｗｅｎｔｔｏ
ｔｈｅＮｅｗＹｏｒｋ」である。ここで、限定詞
「ｔｈｅ」は不適当であり、削除されるべきである。限
定詞誤りの第３は、限定詞と関連名詞との間の一致の欠
如である。例えば、「Ｊｏｈｎｒｅａｄｍａｎｙ
ｂｏｏｋ」は「ｍａｎｙ」と「ｂｏｏｋ」との間の数の
一致の欠如を例示する。

【００９５】限定詞の不正使用を検出するために、品詞
タグが解析に使用される。品詞タグ付けモジュールは、
図３、図８、図１８、図１９、図２１と関連して説明さ
れる。タグ付けされた文の例として、「Ｊｏｈｎｒｅ
ａｄｌｏｎｇｎｏｖｅｌ」を考える。ここで、「Ｊ
ｏｈｎ」のタグは「固有名詞」である。「ｒｅａｄ」の
タグは「過去動詞」である。「ｌｏｎｇ」のタグは「形
容詞」である。そして「ｎｏｖｅｌ」のタグは「単数名
詞」である。

【００９６】図１４に示されるように、システムは決定
ブロック７００で例示されるように名詞句を識別する。
それは品詞タグのどの列が有効名詞句を構成するかを定
義するパターンと最大限一致させることにより文内の名
詞句を識別する。名詞句のパターンは以下により与えら
れる。［ＤＥＴ］（ＭＯＤＳＮＯＵＮＡＮＤ）*ＭＯＤＳ
ＮＯＵＮｈｅａｄそして、ＭＯＤＳのパターンは以下により与えられる。（ＭＯＤ⁺ＡＮＤ）*ＭＯＤここで、ＤＥＴ、ＭＯＤ、ＮＯＵＮ、ＡＮＤは各々限定
詞、修飾語句、名詞、等位接続詞の品詞タグのセットと
して定義される。表記法［Ｘ］は囲まれた式Ｘのゼロ
か、または一回の発生を意味する。表記方（Ｘ）*は囲
まれた式Ｘのゼロ回か、またはそれ以上の発生を意味す
る。Ｘ⁺におけるように、プラスの上付き記号は式Ｘの
一回か、またはそれ以上の発生を意味する。

【００９７】上記の目的は名詞句を識別するためであ
る。例えば、上記文においては、名詞句は、品詞列「固
有名詞」に対応する、「Ｊｏｈｎ」と、品詞列「形容単
数名詞」に対応する、「ｌｏｎｇｎｏｖｅｌ」とであ
る。上記は比類無く、名詞句の初めとその終わりを識別
することにより名詞句を識別する。限定詞欠如、不用の
限定詞、または名詞句の構成のための数の一致の欠落の
いずれであるかをチェックするために名詞句が識別され
るのは主な重要性に関してである。

【００９８】ステップ７０２に示されるように、一度名
詞句が発見されると、そのシステムはその名詞句が限定
詞欠如であるかどうかを試験する。その試験は全名詞
句、つまりＮＰを調べ、そして主要名詞、つまりＮＯＵ
Ｎｈｅａｄをもまた調べる。それは名詞句内の最後の単
語である。主要名詞はその句内の最重要名詞を示し、大
抵の場合最後の単語であるのが分かっている。限定詞欠
如の試験は名詞句の限定詞、ＤＥＴをも調べる、それは
名詞句の最初の単語であるか、または全く見いだされな
いかの何れかである。図１５のステップ７０４と７０６
で決定されるように、もしその主要名詞が単数、非固有
名詞で、そしてＤＥＴは存在しないならば、その名詞句
は、それがタイトルであるかどうかを見るためにステッ
プ７０８で試験される。タイトルは、固有名詞以外のい
かなる大文字使用句であっても良い。例えば、「Ｔｈｅ
ＡｔｌａｎｔａＰｏｌｉｃｅＤｅｐａｒｔｍｅｎ
ｔ」や、「ＧｒａｄｙＨｏｓｐｉｔａｌ」はタイトル
である。もしその名詞句がタイトルであることが分から
なければ、主要名詞は、それが質量名詞かどうかを見る
ためにステップ７１０で試験される。質量名詞は、例え
ば、「ｒｉｃｅ」、「ｆｉｓｈ」、または「ｃａｒｂｏ
ｎ」などの特に指定しない量の物質を表す名詞である。
質量名詞は、複数名詞として効果的に機能するので限定
詞を必要としないことが理解されよう。

【００９９】もし名詞句がタイトルであるならば、解析
が、ステップ７１２で示されるように、主要名詞が質量
名詞であるかどうかを確認するために行われる。質量タ
イトル名詞は質量名詞に類似しているが、タイトル内に
見出される。例えば、文「Ｓｈｅａｔｔｅｎｄｅｄ
ＨａｒｖａｒｄＵｎｉｖｅｒｓｉｔｙ」内で、名詞句
「ＨａｒｖａｒｄＵｎｉｖｅｒｓｉｔｙ」はタイトル
であり、そして「Ｕｎｉｖｅｒｓｉｔｙ」は質量タイト
ル名詞である。故に、「Ｕｎｉｖｅｒｓｉｔｙ」は限定
詞を付けないで現れることに留意するすべきである。質
量タイトル名詞は質量名詞と同じではないこともまた観
察される。例えば、「Ｕｎｉｖｅｒｓｉｔｙ」は質量タ
イトル名詞であるが、それは質量名詞ではない。これ
は、文「Ｓｈｅａｔｔｅｎｄｅｄａｆｉｎｅｕ
ｎｉｖｅｒｓｉｔｙ」からも分かる。ここで名詞「ｕｎ
ｉｖｅｒｓｉｔｙ」には限定詞「ａ」が与えられる。従
って、質量タイトル名詞を持っていることが決定される
ならば、何の提案もされないことが理解されよう。

【０１００】但し、慣用語法に対する問題が在る。ステ
ップ７１４に例示されるように、名詞句は、それがイデ
ィオムの一部であるかどうかを見るために解析される。
これはイディオム辞書内のルックアップを通して行われ
る。もし名詞句がイディオムの一部分であるならば、再
びどんな提案もされない。例えば、文「Ｔｈｅｅｖｅ
ｎｔｔｏｏｋｐｌａｃｅ」内で、名詞句「ｐｌａｃ
ｅ」に対して何の提案もなされないが、それはイディオ
ム「ｔｏｔａｋｅｐｌａｃｅ」の一部であるので、
限定詞を欠いている。

【０１０１】限定詞を持たない単数非固有名詞に対して
は、もし主要名詞が質量名詞でも、質量タイトル名詞で
もなければ、そしてもし名詞句がイディオムの一部でな
ければ、そのシステムは、ステップ７１６で示されるよ
うに、限定詞欠如が在ることを示唆する。

【０１０２】図１６において、システムは不用の限定詞
に対する名詞句をチェックする。これは次のように達成
される。主要名詞が固有名詞であるかどうかが名詞句を
導入し、そして限定詞がステップ７２４で例示されるよ
うに存在するかどうかを確認することとによりステップ
７２２で決定される。もし上記条件が一致すれば、ステ
ップ７２６で示されるように、異質の限定詞を有すると
決定される。例えば、「Ｊｏｈｎｗｅｎｔｔｏｔ
ｈｅＮｅｗＹｏｒｋ」は、名詞句「ｔｈｅＮｅｗ
Ｙｏｒｋ」が固有名詞である主要名詞を含むので、そし
てその名詞句内に限定詞、つまり単語「ｔｈｅ」が在る
ので、異質の限定詞を有するとして示される。固有名詞
は、可能性と文脈とに基づいて固有名詞の存在を決定す
るタグ付けモジュールにより識別される。

【０１０３】図１４に戻って、ステップ７３０で示され
るように、主たるシステムは数の不一致に対する名詞句
をチェックする。いかにこれが達成されるかが図１７で
示される。数の一致の決定は、ステップ７３２で示され
るように、名詞句内の主要名詞が固有名詞であるかどう
かを決定する検出モジュールに名詞句を導入することに
より達成される。もしそうであるならば、数の不一致は
ない。これは、もし固有名詞句が限定詞を含むならば、
それはもうすでに異質の限定詞の誤りとして報告されて
いたであろうからである。ステップ７３４で示されるよ
うに、主要名詞が固有名詞でないと仮定すると、システ
ムは名詞句が限定詞を含むかどうかを決定する。もし含
まなければ、数の不一致の問題は無い。

【０１０４】ステップ７３６で示されるように、もし限
定詞が在れば、限定詞の数が主要名詞の数、即ち単数、
または複数に対してチェックされる。もしそれらが一致
すれば、何の誤りも知らされないが、もしそれらが一致
しなければ、主要名詞の数を変更して、限定詞の数と一
致するように提案がなされる。従って、文「Ｊｏｈｎｒ
ｅａｄｏｎｅｂｏｏｋｓ」に対して、その主要名詞
「ｂｏｏｋｓ」は限定詞と一致するように変更されるよ
うに提案され、そして単数にされる。同様に、文「Ｊｏ
ｈｎｒｅａｄｍａｎｙｂｏｏｋ」に対して、主た
るシステムは限定詞と一致させるために主要名詞を複数
に変更することを提案する。択一的に、システムは主要
名詞に対立するものとして限定詞を変更するように適応
されるかも知れない。但し、これは可能性の少ない動作
行程である。何が適当な限定詞であるべきかを確認する
ことの難しさのために、前者がより良好な結果を与え
る。故に、個人は数に関して正しい限定詞を適切に入力
していると見なされる。

【０１０５】要約すると、本発明によるシステムは、タ
グ付けされた文の使用や、名詞句、主要名詞、固有名
詞、質量名詞、質量タイトル名詞、そしてイディオムの
検出を通じて、限定詞の不適当な使用法を検出して、訂
正するための多数の技術を使用する。限定詞誤用の適切
な決定に対して重大であるのは、図１４と関連して上述
されたパターンの一致の使用を通しての名詞句の検出で
ある。

【０１０６】ｆ）固有名詞と他の本質的に大文字が使用
される単語との認識固有名詞は他の名詞の全てに対して独特の識別可能的に
扱われるので、単語が固有名詞であることを認識できる
ことは文の解析において重要である。固有名詞だけでな
く、「ＨａｒｖａｒｄＵｎｉｖｅｒｓｉｔｙ」など、
タイトルで見出されるこれらなど、他の本質的に大文字
が使用される単語も認識する能力を有することにより、
文が文法的に説明されて、理解されるので、文法が解析
される。

【０１０７】単語は、二つの理由のため英語の文で大文
字として現れるかも知れない。第一は、それは固有名詞
か、または他の本質的に大文字が使用される単語かのい
ずれかである。第二に、それは文の初め、または一定の
句読点後に見いだされる、そうでなければ大文字化され
ないだろう。例として、文「Ｗｅｌｌｓｗａｓａｎ
Ｅｎｇｌｉｓｈｎｏｖｅｌｉｓｔ」を考えると、
「Ｗｅｌｌｓ」は、固有名詞であるので大文字化される
ことは理解されよう。文「Ｗｅｌｌｓｗｅｒｅｄｕｇ
ｔｏｐｒｏｖｉｄｅｄｒｉｎｋｉｎｇｗａｔｅ
ｒ」を考えると、「ｗｅｌｌｓ」は、文の最初の単語で
あるので大文字化される。

【０１０８】従って、第一文において、文法チェックシ
ステムは、「Ｗｅｌｌｓ」が本質的に大文字化されるの
で、固有名詞であることを認識しなければならない。第
二文において、文法チェックシステムは、「ｗｅｌｌ
ｓ」は本質的に大文字化されないので、普通の複数名詞
であることを認識しなければならない。

【０１０９】名詞が固有名詞であるかどうかを決定する
ための先のアプローチにおいて、システムは比較的限ら
れた技術を本質的に大文字が使用される単語の認識に適
用した。１つのアプローチは、文の最初の単語が決して
本質的に大文字化されないと見なすことであった。これ
は、第一文により示されるように、固有名詞で始まるい
かなる文に対しても失敗する。

【０１１０】他のアプローチは、固有名詞、または普通
の単語、しかし両方ではない、その何れかとして全ての
単語を分類することであった。「Ｗｅｌｌｓ」は、この
種の分類法を失敗させる固有名詞と普通の単語との両方
であることは上記の二つの文から明白となる。

【０１１１】その単語が固有名詞であるかどうかを適切
に識別するのを失敗する明白な問題は、辞書引きにおい
て、間違った定義が検索されることである。単純な文法
チェックにおいては、定義が必要とされないが、正しい
使用法を決定するときに指導的、または情報的データを
提供する洗練された単語処理や文法チェックシステムは
固有名詞や他の本質的に大文字が使用される単語の正し
い識別を必要とする。たとえ辞書引き機能が文法チェッ
クシステムの一部でなくとも、固有名詞や他の本質的に
大文字が使用される単語の認識は重要である。

【０１１２】単語が固有名詞であるかないかを識別する
重要性は、トリグラム可能性の使用を通して文内の各単
語の品詞を正確に決定しなければならない品詞タグ付け
モジュールの動作に影響を及ぼす。単語の大文字化と非
大文字化バージョンとは異なるトリグラム可能性を有す
るので、正しいトリグラム可能性を適用するために単語
のどのバージョンが文内に存在するかを知ることはタグ
付けモジュールには重要である。例えば、固有名詞「Ｗ
ｅｌｌｓ」のトリグラム可能性は普通名詞「ｗｅｌｌ
ｓ」のトリグラム可能性と異なる。従って、タグ付けモ
ジュールは、文「ＷｅｌｌｓｗａｓａｎＥｎｇｌ
ｉｓｈｎｏｖｅｌｉｓｔ」内で、単語「Ｗｅｌｌｓ」
は固有名詞であることを理解しなければならない、それ
でそれは「Ｗｅｌｌｓ」の大文字化バージョンのトリグ
ラム可能性を適用すべきである。

【０１１３】固有名詞、または他の本質的に大文字が使
用される単語に対立するものとして、単語が普通の単語
であるかどうかを立証するために、本発明によるシステ
ムは各単語の二つの解釈、つまり固有名詞としての単語
の解釈、または普通名詞としての解釈のうちどちらが最
良のものであるかを決定する。それは、一方はその名詞
は固有であると仮定し、他方はそれは普通であると仮定
する文の二つのバージョンを生成することによりこれを
行う。それで、それは二つの文のトリグラム可能性を比
較する。もしその単語が固有名詞であると仮定する文が
より高い可能性を有するならば、その単語は固有名詞で
あると考えられる。さもなければ、その単語は普通名詞
であると考えられる。

【０１１４】図１８において、名詞が固有名詞であるか
どうかを確認するために、意志決定プロセスのために二
つのステップが在る。ステップ８００で示されるよう
に、第一ステップは、８０２で示されるように、タグ付
けされたトレーニングコーパスで始まる前処理である。
これは、各文章の単語がそれらの品詞タグで注釈付けさ
れる文章のセットを示す。次に、トレーニングコーパス
８０２がステップ８０４で示されるように改訂されて、
固有名詞でない、または、一般に、本質的に大文字化さ
れない単語を非大文字化する。単語は、もしその単語が
固有名詞、またはタイトルとしてタグ付けされたなら
ば、またはそれが頭字語であるならば、またはそれが代
名詞「Ｉ」であるならば本質的に大文字化されると考え
られる。更に、もし単語が文の初めに、または引用符の
前半、またはコロンの後に見いだされるならばそれらの
単語は非大文字化される。

【０１１５】特に、図１９に例示されるように、タグ付
けされたトレーニングコーパス８０８はステップ８１０
で解析され、もし必要ならば、そのコーパスから次の語
／タグを得る。１つが見付けられれば、その単語は、そ
れが大文字化されるかどうかを見るためにステップ８１
２で解析される。もしその単語が大文字化されるなら
ば、ステップ８１４で示されるように、その単語が文の
最初の単語であるかどうか、またはそれが引用符の前
半、またはコロンに続くかが確認される。もしそうであ
れば、ステップ８１６で示されるように、その単語が固
有名詞、またはタイトルとしてタグ付けされたか、また
はそれが頭字語か、または代名詞「Ｉ」であるかどうか
を見るためにその単語は試験される。もしそうでなけれ
ば、その単語はステップ８１８で示されるように改訂さ
れたトレーニングコーパス内で大文字化されることとな
る。

【０１１６】図１８に戻って、改訂されたトレーニング
コーパスはステップ８２０で解析されて、単語のトリグ
ラム可能性モデルを得る。これは、普通名詞を固有名詞
と、またはその逆に単語を誤って識別することに関連し
た誤りを除去するために修正されたトリグラムモデルを
提供する。誤りを除去するためにタグ付けされたトレー
ニングコーパスを前処理した後、そのトリグラムモデル
は、問題のその単語が本質的に大文字化されるかどうか
を決定するための意志決定においてステップ８２２で使
用される。これは、文内の単語を入力として必要とし、
その出力はその単語の語幹のスペルである。

【０１１７】図２０に見られるように、単語が本質的に
大文字化されるかどうかを決定するためのステップ８２
２で説明される意志決定プロセスは、ステップ８５０で
示されるように、文内の単語で開始する。この単語は、
その初めの文字が頭文字であることでそれが大文字化さ
れるかどうかを決定するために解析される。もしそうで
なければ、ステップ８５１で示されるように、その単語
の解釈は、その文により文字通り与えられるものであ
る。つまり、もしそれが文内で大文字化されて現れるな
らば、それは固有名詞として解釈される。もしそれが文
内で非大文字化されて現れるならば、それは普通名詞と
して解釈される。従って、もしその単語が大文字化され
ないならば、特別なアクションは何も起こさない。

【０１１８】その単語が大文字化されると仮定すると、
ステップ８５４に見られるように、その単語が文の最初
の単語であるかどうか、またはそれは引用符の前半、ま
たはコロンに続くかどうかが決定される。もしそうでな
ければ、更にアクションは何も起こさない。もしそうで
あれば、ステップ８５６で示されるように、その単語は
更に処理されて、それが頭字語であるかどうかを確認す
る。頭字語は、大文字化されているその英字の全て、ま
たは頭字語辞書内のその存在を特徴とする。もしその単
語が頭字語であることと決定されるならば、再び更に何
の処理もなされない。

【０１１９】もしその単語が頭字語でないならば、ステ
ップ８５８で示されるように、そのシステムは、符号８
５９で例示されるようにトリグラムモデルに従って、一
方が固有名詞として扱われる問題の単語を有し、それは
大文字化され、そして他方は普通名詞として扱われる問
題の単語を有し、それは非大文字化される、文の二つの
バージョンの可能性を計算する。その計算は、前述の品
詞タグ付けモジュールに従って説明された通りである。

【０１２０】ステップ８６０で例示されるように、もし
非大文字化された単語を有する文の可能性が、大文字化
された単語を有する文のそれを超えるならば、そのシス
テムは最も可能性のある語幹のスペルとして単語の非大
文字化されたスペルを戻すので、このスペルは更なる文
法チェックのために使用できる。さもなければ、ステッ
プ８６４で示されるように、そのシステムは最も可能性
のある語幹のスペルとしてその単語の大文字化されたス
ペルを戻す。

【０１２１】理解されることは、単語の語幹のスペルを
訂正することにより、文法チェックシステムがより正確
に、かつより効果的なものとして作成可能であることで
ある。語幹のスペルの訂正は二つのステップを必要とす
る。その第一ステップは、その単語が固有名詞であるか
どうかについての誤った特徴付けを通して引き起こされ
た誤りのためのトレーニングコーパスの品詞タグを訂正
する。第二のステップは、一連の解析が、大文字化され
るか、または非大文字化されるその単語のスペルがより
適切であるかどうかを確認するために実行される。これ
は、前処理ステップで得られる改訂されたトリグラム可
能性モデルを用いてその単語が本質的に大文字化される
かどうかを決定する意志決定要素を通して達成される。

【０１２２】ｇ）文脈に基づいた辞書引きテキストを書いている時、非ネイティブスピーカーは単
言語辞書か、または二言語辞書の有効性に頼る。辞書
は、非ネイティブスピーカーが頼る言語についての情報
の最も有用なソースの一つである。辞書の使用は、文法
チェックの問題に限定されないが、一般に文を書く時に
有用であることは理解される。たとえネイティブスピー
カーでも、文を書く時にはかなり辞書や、シソーラスの
使用に頼ることもまた理解される。

【０１２３】辞書エントリーへのアクセスは、文脈外の
単語は、それらの統語上の性質やそれらの意味との両方
において、非常に曖昧であるので、思われるほど単純で
はない。辞書内に与えられた単語は典型的に、２０、３
０、またはそれ以上のエントリーを有するかも知れない
ことは理解される。この多数のエントリーは、辞書の使
用を非常に時間を消費させるものにする。

【０１２４】例えば、文脈外で単語「ｌｅｆｔ」は英語
の辞書内に多数のエントリーを有する。文「Ｈｉｓｌ
ｅｆｔａｒｍ」内で形容詞「ｌｅｆｔ」のエントリー
がある。文「ｈｅｍｏｖｅｄｌｅｆｔｏｎｅｎ
ｔｅｒｉｎｇｔｈｅｒｏｏｍ」内で副詞「ｌｅｆ
ｔ」のエントリーがある。「Ｍａｋｅａｌｅｆｔａ
ｔｔｈｅｎｅｘｔｃｏｒｎｅｒ」として名詞「ｌ
ｅｆｔ」のエントリーがある。そして文「Ｈｅｌｅｆ
ｔａｍｉｎｕｔｅａｇｏ」内で動詞「ｌｅａｖ
ｅ」の過去時制のエントリーがある。但し、単語「ｌｅ
ｆｔ」が英文で見いだされる時、このエントリーの一つ
のみがその文脈と関係がある。現在、文脈に基づいて単
語の正しいエントリーにアクセスする能力を提供する辞
書はない。

【０１２５】本発明によるシステムにおいて、辞書のエ
ントリーは文脈で与えられた単語に割り当てられた品詞
に基づいて選択されて、位置付けされる。文脈内の単語
に対応するエントリーが最初に選択される。現在の文脈
に関係の無い他のエントリーはユーザーの要望により尚
利用可能である。文脈で与えられた単語の品詞は上述さ
れた品詞タグ付けモジュールで明確にされる。

【０１２６】例示により、文「Ｈｅｌｅｆｔａｍ
ｉｎｕｔｅａｇｏ」内の単語「ｌｅｆｔ」を考える
と、品詞タグ付けモジュールはその文内の単語「ｌｅｆ
ｔ」に対してタグ「動詞過去時制」を割り当てる。この
場合、主たるシステムはその文脈内の「ｌｅｆｔ」の使
用法に対応する動詞「ｌｅａｖｅ」のエントリーを選択
し、それからその文脈内で使用されない「ｌｅｆｔ」の
エントリー、特に形容詞として、副詞として、そして名
詞としての「ｌｅｆｔ」のものを選択する。

【０１２７】文「Ｉｔｈａｓｓｅｖｅｒａｌｂａ
ｓｅｓ」内の単語「ｂａｓｅｓ」を考えると、品詞タグ
付けモジュールは、文内の単語「ｂａｓｅｓ」に対して
二つのタグ「複数名詞」を割り当てる。文脈外で、その
単語「ｂａｓｅｓ」は、動詞「ｂａｓｅ」の第三人称だ
けでなく、名詞「ｂａｓｉｓ」の複数、そして名詞「ｂ
ａｓｅ」の複数でもあることが理解される。「Ｉｔｈ
ａｓｓｅｖｅｒａｌｂａｓｅｓ」の文脈に対して、主
たるシステムは名詞「ｂａｓｅ」とその文脈における単
語「ｂａｓｅｓ」に対応する「ｂａｓｉｓ」とのエント
リーを選択する。それからその文脈で使用されない「ｂ
ａｓｅｓ」のエントリー、特に動詞「ｂａｓｅ」のもの
を選択する。

【０１２８】図２１のステップ９００において、文脈に
基づいて辞書から文内で見いだされる単語のエントリー
を選択するために、その単語は、原形と文脈から独立し
た単語に対応する品詞とのペアーのセットを計算する形
態素解析モジュール９１０により解析される。例とし
て、単語「ｌｅｆｔ」に対して、形態素解析モジュール
９１０は原形と品詞のペアーの以下のセットを出力す
る。つまり、（「ｌｅｆｔ」、「形容詞」）、（「ｌｅ
ｆｔ」、「副詞」）、（「ｌｅｆｔ」、「単数名
詞」）、（「ｌｅａｖｅ」、「動詞過去時制」）であ
る。形態素解析モジュール９１０は、英語の全ての単語
の全ての活用により指示された表を調べることにより動
作する。そしてそのエントリーは原形と品詞のペアーの
セットである。その単語はまた、文脈上の単語に対応す
る唯一の品詞タグＴ９４０を生成するために文脈上で品
詞タグ付けモジュール９３０により解析される。これ
は、ＡｐｐｌｉｅｄＮａｔｕｒａｌＬａｎｇｕａｇ
ｅＰｒｏｃｅｓｓｉｎｇ、Ａｕｓｔｉｎ、Ｔｅｘａ
ｓ、１９８８での第二会議の議事録の「ＡＳｔｏｃｈ
ａｓｔｉｃＰａｒｔｓＰｒｏｇｒａｍａｎｄＮｏ
ｕｎＰｈｒａｓｅＰａｒｓｅｒｆｏｒＵｎｒｅｓ
ｔｒｉｃｔｅｄＴｅｘｔ（非限定テキストのための確
率学的品詞プログラムと名詞句パーサー）」で説明され
たＫｅｎｎｅｔｈＣｈｕｒｃｈ氏のＳｔｏｃｈａｓｔ
ｉｃＰａｒｔｓＰｒｏｇｒａｍ（確率学的品詞プロ
グラム）の実施として利用できる品詞タグ付けモジュー
ルにより達成される。

【０１２９】例えば、もし単語が「Ｈｅｌｅｆｔａ
ｍｉｎｕｔｅａｇｏ」の文脈で「ｌｅｆｔ」である
ならば、品詞タグ付けモジュールは品詞タグ「動詞過去
時制」を出力する。文脈に対応する形態学的原形を文脈
に対応しないものから分離するために、ステップ９２０
では原形と品詞のペアーのセット９２０を二つのセッ
ト、品詞タグ９４０に対応するセット９５０と、品詞タ
グ９４０に対応しないセット９６０とに分割する。先の
例において、文脈に対応する原形と品詞のペアーのセッ
トは、「ｌｅａｖｅ」、「動詞過去時制」である。文脈
に対応しない原形と品詞のペアーのセットは、（「ｌｅ
ｆｔ」、「形容詞」）、（「ｌｅｆｔ」、「副詞」）、
（「ｌｅｆｔ」、「単数名詞」）である。文脈に対応す
る辞書からエントリーを表示するために、文脈に対応す
る原形と品詞のペアーのセット内で発見された原形に対
応する辞書９７０内の全エントリーが、ステップ９８０
で表示される。上記例で、動詞「ｌｅａｖｅ」の全エン
トリーは文脈に関連するエントリーとして表示される。
文脈に対応しない辞書からエントリーを表示するため
に、文脈に対応しない原形と品詞のペアーのセット内で
発見された原形に対応する辞書９７０内の全エントリー
が、ステップ９９０で表示される。上記例で、形容詞と
して、副詞として、そして単数名詞としての語「ｌｅｆ
ｔ」の全エントリーが文脈と関係のないエントリーとし
て表示される。

【０１３０】文脈に基づいて辞書からエントリーを選択
する能力はネイティブ、または非ネイティブスピーカー
のための、二言語辞書だけでなく単言語辞書にも使用で
きることが理解される。主たるシステムは、文脈に関連
したこれらのエントリーを選択できるので、ユーザーが
読まなければならないエントリー数を徹底的に低減する
ことが出来る。

【０１３１】本発明によるシステムの幾つかの形態を示
してきたが、修正や代わりが本発明の範囲内で実施可能
であることは当業者には明白である。依って、それは特
許請求の範囲で指示される時にのみ本発明の範囲を限定
するよう意図される。

【０１３２】

【発明の効果】この発明に係る文法チェックシステム
は、以上説明したとおり、ある文と、その文が混同され
た他方の文の二つの文を仮定すると、どちらが正しい使
用法であるかを決定することが可能である。低エラー率
でこれを決定することが出来るので、二つの利点が在
る。その第一の利点は二つの文のどちらが正しいかを明
白に突き止めることである。第二の利点は、正しい文を
構築した後、その品詞は他の処理のための他の文法チェ
ックモジュールにより使用できることである。

【図面の簡単な説明】

【図１】この発明の実施例１に係る完全な文法チェッ
クのために利用される種々のモジュールを示す完全な文
法チェックシステムの全体を示すブロック図である。

【図２】この発明の実施例１に係る品詞列の可能性を
利用する混同しやすい単語を訂正するモジュールを示す
ブロック図である。

【図３】図２の可能性決定構成要素のための混同しや
すい単語の訂正のための確率的しきい値を決定するため
に平均する文長さを使用するモジュールを示すブロック
図である。

【図４】不定冠詞「ａ」を使用すべき単語を示す図で
ある。

【図５】不定冠詞「ａ」を使用すべき単語を示す図で
ある。

【図６】不定冠詞「ａｎ」を使用すべき単語を示す図
である。

【図７】この発明の実施例１に係る単語が冠詞の正し
い使用法を得るために綴られる方法と対立するものとし
て単語が発音される方法に基づく英語の例外に関して詳
説した図４、図５、図６を利用して、不定冠詞「ａ」や
「ａｎ」を訂正するモジュールを示すフローチャートで
ある。

【図８】この発明の実施例１に係る訂正された文を達
成するために開始点と終了点検出モジュールの利用を通
じて不適当な助動詞列を訂正するモジュールを示すブロ
ック図である。

【図９】正しい動詞列を表す有向非循環グラフを利用
する図８の開始点と終了点検出モジュールの構成を示す
ブロック図である。

【図１０】英語の正しい助動詞列のセットを表す有向
非循環グラフを示す図である。

【図１１】不適当な助動詞列に対する訂正を提示する
ための有限状態変換モジュールを表す有向非循環グラフ
を示す図である。

【図１２】この発明の実施例１に係る本当でない英単
語辞書に対応する不適当な単語のリストが全ての英単語
に組織的に適用される英単語形成の正常規則に基づいて
計算される非ネイティブスピーカーのための改良スペル
チェッカーを示すブロック図である。

【図１３】原形と形態論的特徴が前に見いだされた不
正英単語のリストに関して検出された不適当単語の解析
に利用される、英単語辞書だけでなく図１２のシステム
から得られる不適当単語辞書を利用して正しく検出され
た不適当単語のプロセスを示すブロック図である。

【図１４】この発明の実施例１に係る名詞句がどの品
詞タグ列が、不明の限定詞、異質の限定詞、または数の
不一致を確認するためのチェックを含む有効名詞句を構
成するかを定義するパターンと最大限に一致させること
により識別される、限定詞の不正の使用を検出して、訂
正するモジュールを示すフローチャートである。

【図１５】名詞句がタイトル名であるかどうか、それ
が限定詞を含むかどうか、不明の限定詞の報告を可能に
するためにそれが質量タイトル名詞、質量名詞、或いは
イディオムの一部であるかどうかについての名詞句に対
する決定をするモジュールを示すフローチャートであ
る。

【図１６】主要名詞が固有名詞であるかどうかの決
定、それで異質の限定詞を報告することが出来るように
その名詞句が限定詞を含むかどうかを確認することを通
して異質の限定詞に対する名詞句のチェックをするモジ
ュールを示すフローチャートである。

【図１７】主要名詞が固有名詞であるかどうか、もし
そうでなければ、限定詞が存在するかどうかを、そして
数の不一致を報告するためにその限定詞が主要名詞の数
と一致するかどうかを検出することによりその決定が達
成される数の不一致に対する名詞句のチェックをするモ
ジュールを示すフローチャートである。

【図１８】この発明の実施例１に係る改訂されたコー
パスでトレーニングされたトリグラムモデルで、固有名
詞ではないか、または本質的に大文字化されない非大文
字化単語に改訂されたトレーニングコーパスを利用して
名詞が固有名詞であるかどうかを確認するために前処理
モジュールが利用される、語幹（ｕｎｄｅｒｌｙｉｎ
ｇ）のスペルを訂正するために固有名詞や他の本質的に
大文字化される単語の認識のためのシステムを示すブロ
ック図である。

【図１９】次の単語／タグペアーを得て、その単語が
大文字化されるかどうか、そして文の最初の単語である
か、または引用符の前半、またはコロンに続くかどうか
を見るために利用される図１８のトレーニングコーパス
のタグ付け、またその単語が固有名詞、またはタイトル
としてタグ付けされているかどうか、またはそれが頭文
字語、または代名詞「Ｉ」かどうかを見て、それにより
その単語が非大文字化されるかどうかを確認するための
検査をするモジュールを示すフローチャートである。

【図２０】単語が大文字化されるかどうか、それは文
の最初の単語であるか、または引用符の前半、またはコ
ロンに続くか、その単語は頭字語であるか、そしてそう
でなければ、非大文字化された単語を有する文の可能性
が決定されて、それが大文字化された単語を有する文の
可能性を超えるかどうかを見るために解析することによ
り図１８で示されたように本質的に大文字化されるかど
うかを決定するための決定プロセスを示すフローチャー
トである。

【図２１】この発明の実施例１に係る単語が文脈で使
用されるときに辞書のどのエントリーがその単語に対応
するか、そしてそれが文脈で使用されるときに辞書のど
のエントリーがその単語に対応しないかを決定するため
に品詞タグ付けモジュールと形態学的解析モジュールと
の両方が利用される、文脈に基づいた辞書へのアクセス
をするモジュールを示すブロック図である。

【符号の説明】

１２キーボード、１４ＣＰＵ、１６単語処理シス
テム（文法チェックシステム）、１８プリンタ。

───────────────────────────────────────────────────── フロントページの続き (72)発明者アンドリュー・アール・ゴールディングアメリカ合衆国、マサチューセッツ州、ケンブリッジ、ファイブ・フロスト・ストリート、アパートメント１

Claims

【特許請求の範囲】

【請求項１】入力文が最初に品詞に関してタグ付けさ
れる文法チェックシステムにおいて、訂正すべき前記入力文の候補単語の品詞の可能性を確認
する確認手段と、所定しきい値以下である前記可能性に基づいて訂正した
単語を提示する提示手段とを備えた文法チェックシステ
ム。
【請求項２】前記確認手段は、前記入力文内の品詞を表すタグで前記入力文内の各単語
にタグ付けするタグ付け手段を含む請求項１記載の文法
チェックシステム。
【請求項３】前記確認手段は、前記入力文内の単語の品詞列の訂正の可能性を確認する
品詞列確認手段を含む請求項１記載の文法チェックシス
テム。
【請求項４】前記品詞列確認手段は、連続した３つの品詞列を解析する解析手段を含む請求項
３記載の文法チェックシステム。
【請求項５】前記提示手段は、混同しやすい単語を集めた混同単語リストと、前記候補単語と前記混同単語リストからの混同単語とを
含む少なくとも一つ以上の候補文を生成する候補文生成
手段と、対応する品詞列の可能性の高さに基づいて前記入力文又
は前記候補文のいずれかを選択する選択手段とを含む請
求項３記載の文法チェックシステム。
【請求項６】前記選択手段は、前記入力文と前記候補文の品詞列の可能性の相乗平均に
基づくものである請求項５記載の文法チェックシステ
ム。
【請求項７】前記混同単語リストは、少なくともｔｏ、ｔｏｏ、ｔｗｏと、Ｉ、ｍｅと、ｉｔｓ、ｉｔ’ｓと、ｔｈｅｎ、ｔｈａｎと、ｗｈｏｓｅ、ｗｈｏ’ｓと、ｏｕｒ、ａｒｅと、ｈｅａｒ、ｈｅｒｅと、ｐａｓｔ、ｐａｓｓｅｄと、ａｃｃｅｐｔ、ｅｘｃｅｐｔと、ａｄｖｉｓｅ、ａｄｉｃｅと、ｌｏｓｅ、ｌｏｏｓｅと、ｗｒｉｔｅ、ｒｉｇｈｔと、ｙｏｕｒ、ｙｏｕ’ｒｅと、ａｆｆｅｃｔ，ｅｆｆｅｃｔと、ｍａｙｂｅ、ｍａｙｂｅとを含む請求項５記載の文法
チェックシステム。