JPH07325825A

JPH07325825A - 英文法チェックシステム装置

Info

Publication number: JPH07325825A
Application number: JP7134159A
Authority: JP
Inventors: Shiyabizu Ibu; イブ・シャビズ; Roshiyu Emaniyueru; エマニュエル・ロシュ; Aaru Goorudeingu Andoriyuu; アンドリュー・アール・ゴールディング
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1994-06-01
Filing date: 1995-05-31
Publication date: 1995-12-12

Abstract

(57)【要約】【目的】少ない記憶容量で、迅速かつ的確な文法チェ
ックを行うことができる文法チェックシステム装置を得
る。【構成】言語要素分析部２０により、最初に文の各単
語に品詞付けし、品詞列に基づいて、助動詞訂正部３
２、限定詞訂正部３６、語形変化チェック部３０、不定
冠詞訂正部４２、スペルチェック部４４等により、品詞
列が正しくなる方向に、単語の用法を訂正する。また、
文脈感知辞書探索部４０により、文脈に基づいて、その
単語に該当し得る辞書項目のみを提示する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は英文法チェックシステム
装置に関し、特に、文法上の誤りをより正確に提示し、
過度に訂正することなくその誤りを訂正する多様な文法
チェックモジュールを用いている英文法チェックシステ
ム装置に関する。

【０００２】

【従来の技術】一般的な従来の英文法チェックシステム
は、例えば、図２０に示した米国特許４，８６８，７５
０号公報に記載されているような、入力された文をデジ
タル符号化し、予め格納されている辞書を単に検索する
ことによりその文の文法チェックを行うようなものを意
味する。図２０のシステムを説明すれば、自然言語で構
成されデジタル符号化された文章が入力部４に入力され
ると、文分割部６によって、その文章が文（センテン
ス）単位に分割される。文法処理部１がＣＰＵ２の制御
により、辞書格納部８に予め格納されている単語の辞書
及び例外データベース部７に格納されている例外的な単
語とを検索することにより、それらの文の文法チェック
を行い、メッセージ出力部９により、正しいと思われる
単語の出力を行う。

【０００３】

【発明が解決しようとする課題】このようなシステムに
付随する最も面倒な問題の一つは、システムがメッセー
ジを提示するときに、誤ったメーセージを提示する確率
が非常に高いことである。このかなり高い誤り率の原因
は、このシステムの文の不正確な分析に起因しているこ
とが多い。また、文の分析は正しかったとしても、この
ようなシステムにおいては、正しくない単語を提示する
ことがしばしばある。

【０００４】また、「文全体が正しい」という確率に基
づいて、文を分析しようと試みる種類の従来のシステム
もある。このようなシステムの最も大きい問題は、これ
らのシステムが、現在のパーソナルコンピュータと関連
メモリの能力を超えた処理能力と記憶容量とを必要とす
ることである。

【０００５】トレーニングコーパスに基づいて文を分析
することにより正しくない文法を検出しようとする他の
従来の文法チェックシステムもあるが、これらのシステ
ムを無理に使用しようとすると、これらのシステムは、
大容量の記憶手段と高速度処理とを必要とするため、個
人の計算環境で使用することは出来ないことが多い。

【０００６】実例によれば、従来の文法チェックシステ
ムにおいては、"a" と "an" などの不定冠詞を挿入し損
なうことが多く見られるが、これは、英語圏以外の外国
言語圏の人々がこのようなシステムにより翻訳しようと
する場合には、大きな問題となる。

【０００７】また、文法または上述の冠詞の使用に精通
していない人により文が作成されていた場合には、上述
したような "the"、"a" または "an" などの適切な冠詞
を挿入する能力に欠けていることは非常に重要なことと
なる。その上、従来の文法チェックシステムが行う共通
の誤りとして、複数の動詞が連続して用いられている文
において不適切な順序でそれらの動詞が並んでいること
を認識しないことが挙げられる。一つの文において複数
の動詞が使用されることがあるが、多くの外国言語圏の
人々は、"He has recognize that something exists."
というような間違いを慣例的に行う。ここで、"has" は
動詞であり、"recognize" も動詞である。しかしなが
ら、この場合、実際には、“has”は次にくる過去分詞
とともに現在完了形を作るための助動詞であり、従っ
て、正しくは、"recognize" の代わりに、"recognize"
の過去分詞 "recognized" を用いなければならない。こ
のように、複数の動詞が用いられる場合、明らかに誤っ
て用いられていることがしばしばある。

【０００８】さらに、最も重要な問題は、いわゆる限定
詞と呼ばれるものに起因して起こるものである。例え
ば、文 "I have cigarette" は明らかに限定詞 "a" が
名詞 "cigarette" の前に欠落している。同様に、"som
e" または "a few" などの限定詞も欠落することがしば
しばある。上述の文は、"I have a few cigarettes" の
意味であるとも解釈され得るが、ここで留意すべきこと
は、同一の文が名詞を複数形にすることにより、例え
ば、"I have cigarettes" というようにすることによ
り、限定詞が欠落していても正しく構成することが出来
るということである。

【０００９】従来のスペルチェッカーまたは従来の文法
システムのいずれかにより訂正することができない他の
典型的な文法の誤りとして、誤った語形変化、すなわ
ち、現在形、過去形及び過去分詞等が正しく訂正されな
いということが挙げられる。正しくない動詞の語形変化
の例では、例えば、"I drived to the market" などの
文の動詞の語形変化は殆ど訂正されない。ここで、正し
くは、"drived”ではなく、"drove”と訂正されるべき
である。

【００１０】上記のような問題は、言語の慣用句と規則
に精通していない外国語圏の人から見るとかなり重要な
問題となる。特に英語では、文法上の規則は思っている
ほどシンプルなものではなく、また、正しい文法は、そ
の言語を使用している自国語圏の人々すら精通していな
いような慣用句や規則をも含んでいる。

【００１１】従って、英語圏以外の人によりなされる最
も頻度の高い誤りを考慮した文法チェックシステムを提
供することはたいへん重要なことである。例えば、日本
語圏の人が英訳するときに通常よく行ってしまう誤りに
は、主流となるものがあり、これらは予測することが出
来、従って、文法チェックシステムにより訂正すること
が出来得るものである。同様に、フランス語または例え
ばイタリア語及びスペイン語のようないわゆるロマンス
語のすべてにおいても、それらを英訳する際にいくつか
の特有の誤りがなされるが、これらも検出及び訂正し得
るものである。

【００１２】また、一般的に、従来の構文認識システム
において処理できるのは、明確に定義された少ない語彙
からなるような文の処理、または、限定された範囲の構
文のみから構成されたより一般的な文の処理に限定され
てきた。語彙または構文の範囲を拡張するには、さら
に、複雑な構造と、より多数の認識ルールとが必要とな
り、これは、システムを非常に大規模なものにするか、
または、複雑なものとなって、ユーザが扱いにくいもの
になってしまうため、従来は、広く普及し得る安価な扱
いやすいシステムを提供することはできなかった。

【００１３】文脈上の誤りを検出して訂正するための他
の従来の一般的なシステムについては、例えば、米国特
許公報第４，６７４，０６５に記載されている。このシ
ステムは、単語使用確認に関し文書を校正し、文を処理
するためのものであり、数組の異形同意義語と混同され
る単語との特殊な辞書と、正しい単語用法が統計的に決
定される数組のダイグラム及びｎグラムとを組み合わせ
ることにより行われる。前述したように、言語の各単語
に対し、単語を統計的に処理することは、かなり大きい
トレーニングコーパスと高速度計算とを必要とし、個人
的計算用途としてはかなり扱いにくいものである。その
上、このシステムにおいては、同音語という意味で混同
される単語については検出するが、同音でなく一般的に
用いる際に混同される可能性のある単語についての訂正
を行うことはできない。

【００１４】米国特許４，８３０，５２１号公報には、
スペルチェック機能と固有名詞認識機能とを有する電子
タイプライターに関するものについて記載されている。
名詞認識に伴う問題は、固有名詞認識において、正確、
あるいは、正確でない大文字を使用した文字に起因する
ものがその中心となっている。最も重要なこととして、
単語の最初の文字を大文字にすることは文中のどの単語
においても行われ得ることであるにもかかわらず、この
公報におけるタイプライターにおいては、大文字化の機
能を用いるか否かを決定するために、その単語が文にお
いて最初の単語であるかどうかだけにつき調べて、行っ
ている。そのため、このタイプライターにおいては、文
中に固有名詞等の単語の最初が大文字になるべきものが
小文字になっていた場合には、訂正することができな
い。

【００１５】さらに、他の技術的背景を示す参考とし
て、以下の米国特許を挙げることができるが、これら
は、スペル訂正を主とする文法上の問題を解決してい
る。それらの特許は、米国特許第５，２１８，５３６号
公報、第５，２１５，３８８公報、第５，２０３，７０
５号公報、第５，１６１，２４５号公報、第５，１４
８，３６７号公報、第４，９９５，７４０号公報、第
４，９８０，８５５号公報、４，９１５，５４６号公
報、第４，９１２，６７１号公報、第４，９０３，２０
６号公報、第４，８８７，９２０号公報、第４，８８
７，２１２号公報、第４，８７３，６３４号公報、第
４，８６２，４０８号公報、第４，８５２，００３号公
報、第４，８４２，４２８号公報、第４，８２９，４７
２号公報、第４，７９９，１９１号公報、第４，７９
９，１８８号公報、第４，７９７，８５５公報、およ
び、第４，６８９，７６８号公報である。

【００１６】また、米国特許第５，２２４，０３８号公
報、第５，２２０，５０３号公報、第５，２２０８９３
号公報、第５，１６４，８９９号公報、第５，１１１，
３８９号公報、第５，０２９，０８５号公報、第５，０
８３，２６８号公報、第５，０６８，７８９号公報、第
５，００７，０１９号公報、第４，９９４，９６６号公
報、第４，９７４，１９５号公報、第４，０５８，２８
５号公報、第４，９３３，８９６号公報、第４，９１
４，５９０号公報、第４，８１６，９９４号公報および
第４，７７３，００９号公報なども従来例として挙げら
れるが、これらは文分析を扱っているものである。これ
らの特許におけるシステムは、与えられた自然言語によ
る文書を作成することを余儀なくされている外国語圏の
人が要求するレベルでの文法チェックが行えるものでは
ない。また、これらの特許は、外国語圏の人のための文
法チェックと英語用法とに特に限定されていない一般的
なシステムに関するものである。

【００１７】また、辞書の符号化をいかに効率よく行う
かに関する米国特許も多数存在している。それらの特許
は、米国特許第５，１８９，６１０号公報、第５，０６
０，１５４号公報、第４，９４９，７８５号公報、およ
び、第４，７８２，４６４号公報である。しかしなが
ら、辞書の符号化は、文法を正確にチェックするシステ
ムを定形化するための一段階に過ぎない。

【００１８】この発明は、かかる問題点を解決するため
になされたものであり、特に英語圏以外の外国語圏の人
が犯しやすい英文法の誤りをも的確に検出するととも
に、記憶容量の節約が可能で、英文法チェックの処理時
間を短くすることができる英文法チェックシステム装置
を得ることを目的とする。

【００１９】

【課題を解決しようとする手段】請求項１の発明は、英
文が入力される入力手段と、英文の単語を１単語ずつ分
析し、その単語の品詞付けを行って、上記英文に対応し
た品詞列を出力するための分析手段と、分析手段から出
力される品詞列に基づいて、各単語につき、最初の文字
が大文字化されるべきか否かを判断し、その誤りを訂正
するための大文字化チェック手段と、分析手段から出力
される品詞列に基づいて、欠落及び余分な限定詞を検出
するとともに、限定詞とそれに対応する名詞句との数の
不一致を訂正するための限定詞訂正手段と、分析手段か
ら出力される品詞列に基づいて、英文の文脈から単語の
語形変化の正否を判断し、誤った語形変化を検出する語
形変化チェック手段と、分析手段から出力される品詞列
に基づいて、誤った助動詞列を検出し、訂正する助動詞
訂正手段と、例外単語リストを有し、その単語リスト以
外の単語について一定の所定の法則を適用させて、英文
の不定冠詞の正否を判断し、訂正するための不定冠詞訂
正手段と、英単語辞書を格納している辞書格納部と、分
析手段から出力される品詞列に基づいて、英文の単語に
対し、英単語辞書内の適当と思われる項目のみを出力す
るための辞書検索手段と、大文字化チェック手段、限定
詞訂正手段、語形変化チェック手段、助動詞訂正手段、
不定冠詞訂正手段、及び／または、辞書検索手段からの
出力結果を提示するための提示手段と、を備えた英文法
チェックシステム装置である。

【００２０】

【作用】請求項１の発明において、分析手段により、ま
ず、文の単語に対して品詞付けを行ってから、それに基
づいて、不定冠詞訂正手段、上記大文字化チェック手
段、限定詞訂正手段、語形変化チェック手段、助動詞訂
正手段、及び、辞書検索手段により、文の品詞列が正し
くなるように品詞列を考慮して、正しくない語形変化、
名詞の誤った単数形／複数形、形容詞の誤った比較級及
び最上級、不定冠詞の誤った用法、正しくない大文字化
及び基本綴り、正しくない助動詞、及び、間違った限定
詞等の単語の用法の訂正を行う。

【００２１】

【実施例】

実施例１．図１は、本発明の英文法チェックシステム装
置（以下、本システムとする）の構成を示したブロック
図である。英語圏以外の外国語圏の人々にとって、コン
ピュータに精通している人でないにしても、入力した文
の即時の文法チェックが、正確に、かつ、容易に提供さ
れることは、言うまでもなく、たいへん有意義なことで
ある。文法チェックを行うために、まず始めに、図１に
おいて、入力文は、キーボード１２を介してワード処理
装置１６内のＣＰＵ１４へ入力され、ＣＰＵ１４の制御
により入力部１０に入力される。

【００２２】入力された文の言語の各構成部分が正確に
判定されることは、信頼性の高い文法チェックを行うこ
とにとって重要なことである。従来の文法チェックシス
テムは、入力文をそのまま使用してきたが、本発明にお
いては、品詞列が得られるように、入力文を品詞単位に
分解する。これは、品詞分析部２０により実行される。
この品詞分析部２０は、例えば、１９８８年オースチ
ン、テキサスにおける第２回応用自然言語処理会議（th
e Second Conference on Applied Natural Language Pr
ocessing）の会報誌中の "自由文に関する確率的構成プ
ログラムと名詞句分析（A Stochastic Parts Program a
nd Noun Phrase Parser for UnrestrictedText）" と題
して記載されたケネス・チャーチ（Kenneth Church）の
推測的要素プログラムを実行すれば実施可能である。品
詞分析部２０による品詞列の取り出し結果は、例えば、
入力文が "I heard this band play" の場合、"代名詞
（PRONOUN）、動詞（VERB）、限定詞（DETERMINER）、
名詞（NOUN）、動詞（VERB）" となる。

【００２３】品詞を単に取り出すことが、その取り出さ
れた品詞が適切な文を反映しているとは確実には保証さ
れていない。そのため、正しい文を分析し、構成するた
めに、取り出した品詞列が正しい単語列に一致している
確率を確認することが重要である。そこで、本システム
においては、入力文の品詞列が正しい単語列に一致して
いる確率を求めるために、品詞分析部２０の出力を、品
詞一致確率決定部２２へ入力する。この品詞一致確率決
定部２２の出力は、後述する各種のモジュールに入力さ
れ、そこで入力文の分析に使用される。

【００２４】各モジュールについて説明する。最初のモ
ジュールである、品詞検証部２４は、品詞一致確率決定
部２２から出力された品詞列の一致確率に基づいて、一
組の混同され易い単語もしくは文から正しいと思われる
方を選択する。一つの実施例として、例えば、所定のし
きい値を予め決めておき、品詞列の一致確率がその所定
のしきい値を超えるか否かにより、正しい単語もしくは
文の選択を決定するようにする。正しい文の選択は、第
一の選択部２６により行われ、その第一の選択部２６へ
は、入力部１０に入力された入力文のみならず種々の文
の確率が入力される。動作等についての詳細は後述する
が、第一の選択部２６は、容易に混同され得る単語のリ
ストを備えている。

【００２５】２つ目のモジュールである基本スペル復元
部２８は、単語の基本綴りを決定するために使用され
る。従来のスペルチェッカーは、スペル照合のための検
索テーブルを使用するが、それらはスペルの最初の文字
の大文字化を考慮していないため、綴りが合っているに
もかかわらず、最初の文字が大文字であるために誤って
スペリングエラーとして表示されてしまうので、ユーザ
にとっては使いにくいものであった。綴りが適切である
ことを前提としている従来の文法チェックシステムにお
いては、単語、文、または、頭字語の初頭における大文
字化によって誤って判断されることがしばしばある。

【００２６】より信頼出来るスペルチェックと文法訂正
を行うために、この発明における基本スペル復元部２８
は、大文字化された単語を "混同される単語" として扱
うようにした。その場合には、上記の品詞一致確率決定
部２２において、例えば、ブラウンのコーパス等のトレ
ーニングコーパスに基づいて、一つのカテゴリまたは他
のカテゴリにその大文字化された単語がある確率を出力
するようにすればよい。詳細については後述する。

【００２７】従来の言語処理システムは、単語は、普通
の名詞または適切な名詞であるが、その両方ではないと
言う制約を課して、単語の基本綴りを復元してきたが、
本発明の基本スペル復元部２８は、各単語を分類するた
めに、文章の前後関係と予め設定されたその単語が使用
される確率とを使用している。これは、単語の大文字化
された形と大文字化されない形のいずれの綴りで用いら
れる方が高い確率を有するかを用いて、大文字化された
形と大文字化されない形の単語を伴う文を分析する。そ
の結果、単語は、その単語が使用される確率が高い方の
文における綴りを有するものと分析される。そのように
して、最も可能性の高い綴りを再生すると、基本スペル
復元部２８の出力は、語形変化チェック部３０へ入力さ
れる。この語形変化チェック部３０は、従来のスペルチ
ェッカーまたは特定の外国語圏の人に合わせたスペルチ
ェッカーのいずれを用いるようにしてもよい。

【００２８】３つ目のモジュールとして、助動詞訂正部
３２もまた、品詞一致確率決定部２２からの出力を必要
とする。助動詞の訂正における問題は、文中の複数の動
詞のいくつかが不適切である場合に発生する。これは、
正しくない時制が使用されている場合、複数の動詞の列
に起こり得る。例えば、文 "he would living" は二つ
の動詞 "would" と "living" とを有する。この文の正
しい形は、"he wouldlive" である。従って、動詞 "liv
e" の時制は訂正される必要がある。

【００２９】これを行うために、助動詞訂正部３２は、
すべての正しくない助動詞列を検出し、次に、それの訂
正を提案する。これは最初に、一組の定形動詞列を記述
している、有向非循環グラフを使用して行われる。正し
い動詞列を確定する前に、上記のように品詞一致確率決
定部２２により行われた正しい品詞を正確に識別するこ
とが重要であることが分かるであろう。動作の詳細につ
いては後述する。助動詞訂正部３２の出力は、適切なほ
かの文を提示する第二の選択部３４へ入力される。

【００３０】品詞一致確率決定部２２からの出力を使用
している４つ目のモジュールは、限定詞訂正部３６であ
る。この限定詞訂正部３６の目的は、名詞句の対象を決
定する単語について訂正することである。限定詞の例と
しては、例えば、"the"、"a"、および "some" などの単
語がある。この限定詞訂正部３６により検出され、訂正
される誤りには、三つのクラスがあり、それらは、限定
詞の欠落、余分な限定詞、および、限定詞と名詞との一
致の欠如である。

【００３１】限定詞の欠落の例としては、例えば、"Joh
n read book" であり、ここでは、"the" が除かれてい
る。余分な限定詞の例としては、例えば、"John went t
o theNew York" が挙げられ、"the" は削除されなけれ
ばならない。限定詞と名詞の一致の欠如の例は、例え
ば、文 "John read many book" において明らかであ
り、名詞 "book" は限定詞 "many" と一致させて複数化
されなければならない。不適切な限定詞を検出するため
に、言語要素の品詞付けは、名詞句を識別出来るよう
に、識別されている。このシステムは、どの品詞列のタ
グが妥当な名詞句を構成するかを明確にしている定常的
な表現と整合させることにより、名詞句を識別する。こ
れの動作についても後述する。

【００３２】本システムは、名詞句が限定詞を欠落して
いるか否かを確認するために、各名詞句を調べる。この
工程の一部として、先頭名詞が最初に検出され、次に、
この先頭名詞が、質量名詞、集団称号名詞、または、慣
用句であるか、あるいは、この先頭名詞が限定詞を欠如
しているか、の決定を行う。次に、このシステムは、名
詞句が余分な限定詞を持っているか、いないかを確認す
るために、各名詞句を調べる。最後に、このシステム
は、限定詞と名詞句の先頭名詞が数において一致してい
るか否かを調べる。この結果、単語挿入／削除部３８に
おいて、単語の挿入、削除、または、置き換えが行われ
る。

【００３３】さらに、不定冠詞訂正部４２は、入力部１
０に入力された入力文に基づいて、不定冠詞 "a" と "a
n" の用法を訂正する。

【００３４】品詞列の正確性は、文脈依存辞書検索部４
０においても有効である。一般に、与えられた単語は複
数の品詞を有するが、それは文脈から得ることが出来、
それらの各単語は、辞書の小項目と対応する。文脈依存
辞書検索部４０は、辞書を検索し、品詞分析部２０によ
り得られた単語の品詞に基づいて適切な定義を選択す
る。例えば、単語 "love" は名詞としても動詞としても
用いられ、また、名詞 "love" は辞書に多くの異なる項
目を有し、動詞 "love" も同様である。入力文が"She w
as my first love" とすると、単語 "love" は、品詞分
析部２０により名詞として識別され、文脈依存辞書検索
部４０により、名詞 "love" に関する辞書の項目と動詞
"love" の項目とが選択される。

【００３５】単語の基本綴りが基本スペル復元部２８に
より復元された場合、この基本綴りは語形変化チェック
部３０による語形変化の訂正について使用されるだけで
なく、通常のスペルチェック部４４においても使用され
る。このようにして、本システムは、正しくない配列の
提示を示すだけでなく、スペルチェック工程において頭
字語をスペリングエラーとして検出しないようにするこ
とが出来る。以下、上述した各モジュールの具体的動作
について説明する。

【００３６】ここで、入力部１０とキーボード１２と
が、文が入力される入力手段を構成しており、品詞分析
部２０と品詞一致確率決定部２２とが、文の単語を１単
語ずつ分析し、その単語の品詞付けを行って、その文に
対応した品詞列を出力するための分析手段を構成してお
り、不定冠詞訂正部４２が、例外単語リストを有し、そ
の単語リスト以外の単語について所定の法則を適用させ
て、不定冠詞の正否を判断し、訂正するための不定冠詞
訂正手段を構成しており、基本スペル復元部２８が、分
析手段から出力される品詞列に基づいて、最初の文字が
大文字化されるべき単語か否かを判断し、その誤りを訂
正するための大文字化チェック手段を構成しており、限
定詞訂正部３６が、分析手段から出力される品詞列に基
づいて、欠落及び余分な限定詞を検出するとともに、限
定詞とそれに対応する名詞句との数の不一致を訂正する
ための限定詞訂正手段を構成しており、語形変化チェッ
ク部３０が、分析手段から出力される品詞列に基づい
て、文の文脈から上記単語の語形変化の正否を判断し、
誤った語形変化を検出する語形変化チェック手段を構成
しており、助動詞訂正部３２が、分析手段から出力され
る品詞列に基づいて、誤った助動詞列を検出し、訂正す
る助動詞訂正手段を構成しており、文脈依存辞書検索部
４０が、辞書を格納している辞書格納手段と、分析手段
から出力される品詞列に基づいて、文の文脈から単語の
辞書内の該当し得る項目のみを出力するための辞書検索
手段とを構成しており、ディスプレイ１６ａが、不定冠
詞訂正手段、大文字化チェック手段、限定詞訂正手段、
語形変化チェック手段、助動詞訂正手段、及び／また
は、辞書検索手段からの出力結果を提示するための提示
手段を構成している。

【００３７】ａ）品詞確率に基づく文法訂正従来においては、前述のいくつかの文法チェックシステ
ムは、いくつかの面倒な単語、特に、同音でスペルが異
なる単語の不適切な使用を訂正することにより、英語の
用法を訂正しようとした。そのような単語の例として
は、例えば、"too"、"to"、"two" や、"their"、"they'
re"、"there" 等がある。ほかの共通した間違いとして
は、ある同音の単語が、例えば、"maybe" と "may be"
などのように、一つの単語もしくは二つの単語からなる
ことがあるということに起因して起こるものがある。ま
た、発音は類似しないものの、例えば、"which" と "wh
ose"のようにしばしば誤用されるものがあり、これらに
起因する問題もある。

【００３８】従来においては、適切な用法をチェックす
るために、文の文法性が、英文を作成する際に、その文
が作成される確率として計算された。このような統計的
方法においては、文法的に正しい文に高い確率を与え、
文法的でない文には低い確率を与える。この統計は、英
語文の集成でトレーニングするか、トレーニングコーパ
スにより得られる。この体系は正しい用法を定義する。
その結果、文がこのような文法チェックシステムへ入力
されると、このコーパスと相互関係にある文全体の確率
が、計算される。ここで、全英語の語彙、約６０，００
０単語を処理対象とするためには、数百兆の単語のコー
パスが使用されなければならないことは、分かるであろ
う。その上、莫大な数の確率値がコンピュータに記憶さ
れなければならない。従って、文全体を分析する作業
は、非常な計算量と記憶領域とを必要とする。

【００３９】本システムにおいて、正しい用法を確定す
るためには、取り出された品詞列の確率による。このた
めに、ユーザは、本システムがどの程度の精密さである
かに依存して、１００〜４００の品詞があることを考慮
することが出来る。これは、数百万兆単語に対し、数百
万単語のトレーニングコーパスへ変換される。このタイ
プの分析は、ワード処理に使用されるものを含む標準的
計算プラットフォームにおいて容易に行われる。

【００４０】上述したように、本発明のシステムでは、
入力された文は最初に、図１の品詞分析部２０により、
品詞へ分解される。例えば、文 "I heard this band pl
ay"は次のように分析される。代名詞（PRONOUN）、動詞
（VERB）、限定詞（DETERMINER）、名詞（NOUN）、動詞
（VERB）。この品詞列の確率は、この文をコーパスと比
較することにより、品詞一致確率決定部２２により決定
される。しかしながら、いわゆるトリグラム（三重文
法）を考慮しなければ、これは実行可能ではない。トリ
グラムとは、入力文の中で連続して置かれた三つの品詞
である。三つの連続した品詞の分析は、正しさを確定す
るのに十分である。それは、ある文が正しい用法から成
っているのを確定するために使用されるこれらのトリグ
ラムの確率である。このようにして、文全体をチェック
するよりむしろ、三つの隣接した品詞の確率は、トレー
ニングコーパスから計算される。

【００４１】二つの文のうち、一方が他方の文と混同さ
れると仮定すれば、どちらが正しい用法であるかを決定
することは上記の方法により可能である。上記システム
は、高い正確率でこれを決定するので、二つの利益があ
る。第一の利益は、二つの文のどちらが正しいかを明確
に確認することができることである。第二の利益は、正
しい文を確定し、それの品詞を、さらなる処理のための
他の文法チェックモジュールにより使用することが出来
るということである。

【００４２】図２のブロック図に示すように、３０で示
された入力文Ｓ１は、品詞付けタッガー３２（以下、タ
ッガー３２とする）に入力されるとともに、混同される
単語のリスト３６に接続された候補文生成部３４へ入力
される。タッガー３２により、入力文Ｓ１は、図中の３
８で示されるように、最も可能性のある品詞列Ｔ１とそ
の確率Ｐ１へ分解する。ここで、この確率Ｐ１とは、文
全体が正しくなるような確率ではなく、品詞系列が正し
くなる確率である。これは、例えば、上述したチャーチ
のプログラムによるアルゴリズム等により行われ、この
場合、最も可能性のある品詞列は、すべての重なってい
る三重の品詞の確率の最も可能性のある積を計算するこ
とにより得られる。

【００４３】入力文Ｓ１内の単語のいくつかが、容易に
混同される単語のリスト３６内の単語であった場合、入
力文１に対する候補文Ｓ２のすべては、リスト３６によ
って作成される。すなわち、候補文Ｓ２とは、入力文Ｓ
１をユーザが作成する際に、単語を混同させて、候補文
Ｓ２と本当はすべきところを間違えて入力文Ｓ１として
しまった可能性を有するものである。候補文生成部３４
から出力された候補文Ｓ２は、タッガー３２へ送られ、
４０において示されているような最も可能性のある品詞
列Ｔ２とその確率Ｐ２とを、上述の品詞列Ｔ１とその確
率Ｐ１とを計算したアルゴリズムにより生成する。

【００４４】３８と４０における入力文Ｓ１と候補文Ｓ
２との確率Ｐ１とＰ２とを取り出し、どの品詞列が正し
く最も可能性があるかを決定することは重要である。そ
のため、本システムにおいては、選択されるべき適切な
文を決定するために、確率判定部４２において、確率Ｐ
２を確率Ｐ１と比較し、Ｐ２−Ｐ１が予め設定された所
定のしきい値εより大きいならば、入力文Ｓ１を候補文
Ｓ２に置き換えた方が正しい可能性が高いと判断され、
候補文Ｓ２提示部４４により、候補文Ｓ２がユーザに提
示される。Ｐ２−Ｐ１＜＝εならば、入力文Ｓ１を変更
する必要はないと判断され、入力文Ｓ１無変更提示部４
６により、入力文Ｓ１の無変更が提示される。ここで、
候補文Ｓ２提示部４４と入力文Ｓ１無変更提示部４６と
は、図２（ａ）に示したように、特に別個に設ける必要
はなく、１つの提示部として構成するようにしてもよ
い。尚、提示方法としては、例えば、図１に示すワード
処理装置１６のディスプレイ１６ａに表示するようにす
ればよい。

【００４５】具体的な例を挙げれば、例えば、入力文が
"I want to here this band" とすると、ここで、"her
e" が、正しい単語 "hear" の代わりに誤用されてお
り、二つの文、すなわち、入力文Ｓ１ "I want to here
this band" と候補文Ｓ２ "Iwant to hear this band"
とを比較する必要がある。

【００４６】これらの二つの文を比較するための従来の
方法として、英文における統計的モデルを与えられたそ
れらの文の全体の確率を比較することを試みるという方
法がある。この方法は、例えば、エーリック・メイズ、
フレッド・デイマローおよびロバート・マーサーにより
品詞について探究され、これは、"情報処理と管理（Inf
ormation Processing and Management）"（２７
（５）：５１７−４２２、１９９１年）に "文脈に基づ
くスペル訂正（Context Based Spelling Correction）"
の名称で発表されているものの、これは非常に高価な
システムになってしまい、４０，０００単語より多い語
彙を必要する非制約文を扱う場合には、標準のコンピュ
ータではまず実行不可能である。文の確率を直接に計算
するには、莫大な量のトレーニングデータ、例えば、最
小４００，０００，０００のトレーニング用単語と非常
に多量の記憶スペースとを必要とする。そのため、現実
問題として使用することは出来なかった。

【００４７】対照的に、図２（ａ）に示された本システ
ムにおいては、与えられた入力文の最も可能性のある品
詞列と混同され易い文の品詞列との確率を比較する。例
えば、文 "I want to here this band" の確率を計算す
る代わりに、このシステムは、文の最も可能性のある品
詞列、例えば "代名詞（PRONOUN）、動詞（VERB）、T
O、副詞（ADVERB）、限定詞（DETERMINER）、名詞（NOU
N）" を取り出し、その入力文のこの品詞列の確率を計
算する。同様に、このシステムは、"I want to hear th
is band" の最も可能性のある品詞列、例えば、“TO"
の後には “動詞"がくる可能性が高いため、"代名詞（P
RONOUN）、動詞（VERB）、TO、動詞（VERB）、限定詞
（DETERMINER）、名詞（NOUN）" を取り出し、その品詞
列の確率を計算する。次に、このシステムは、それらの
確率を比較することにより、"here"と "hear" とからど
ちらが使用される可能性が高いかを決定する。

【００４８】上記確率を直接比較する例を示したが、さ
らに好適な実施例としては、その単語の長さを考慮に入
れて確率を比較するようにするようにしてもよい。すな
わち、図２（ｂ）の確率判定部４２’に示すように、入
力文Ｓ１内の単語数で上記の確率Ｐ１の対数を割った値
と、候補文Ｓ２内の単語数で上記の確率Ｐ２の対数を割
った値とを比較することにより、それらの確率の幾何学
的平均を比較する。これは、単一の単語が、"maybe"
と"may be" などのように、単語列と混同される場合に
有益である。図２（ａ）に示したように、品詞列の確率
を直接に比較することは、統計的言語モデルは長文に対
して低い確率を与えるため、必ずしも正しい結果が得ら
れるとは限らないので、図２（ａ）の実施例は、長い文
よりも短い文のときに有効である。

【００４９】混同される単語のリスト３６に挙げられた
典型的な単語として、例えば次の単語がある。to,too,t
wo、I,me、its,it's、their,they're,there、whose,whi
ch、then,than、whose,who's、our,are、hear,here、pa
st,passed、accept,except、advice,advise、lose,loos
e、write,right、your,you're、affect,effect、およ
び、maybe,may be などがその例として挙げられる。

【００５０】なお、本システムは、これらに限らず、他
の混同され得る単語にも適用することができ、また、他
の言語、例えば、フランス語、イタリア語およびスペイ
ン語などにも使用することが出来る。タッガー３２によ
る品詞付けタッグがチャーチのアルゴリズムによる方法
により、即ち、トリグラムモデルにより実行されるた
め、本方法は一般的に用いられることが可能である。

【００５１】さらに、正しい可能性がより高い文を選択
する図２（ａ）と２（ｂ）のシステムは、文の文法性に
ついての他の判断を確かめる場合においても重要であ
る。上記のシステムは、文を品詞へ分解するためのより
優れた信頼性のある形態を備えている。

【００５２】文を訂正するために、文を品詞へ分解する
ことができることは、第一に重要なことである。文法チ
ェッカーがどの程度正確に動作するかは、この分解処理
の正確さに密接に依存している。より信頼性のある品詞
を生成することにより、文法チェックの最終結果の信頼
性をより高く向上させることが出来る。

【００５３】以上のように、本システムにおいては、文
全体が正しくなるような確率に基づいてではなく、文を
品詞に分解して、その品詞系列が正しくなるような確率
に基づいて単語の用法の訂正を行うようにしたので、単
語を一つずつチェックして確率を計算していた従来の方
法に比べ、少ない記憶容量を用いて迅速な処理が行え、
かつ、品詞系列に基づいて判定するため、上述したよう
なユーザが混同し易い単語をその品詞においても判断す
るため、誤りをより確実に見つけることができ、信頼性
の高い文法チェックを行うことができる。

【００５４】ｂ）不定冠詞 "a" と "an" の訂正外国語圏の人々に高い頻度で起こる間違いは、不定冠詞
"a" と "an" の誤用である。英語の法則は、不定冠詞
"a" は、最初が子音で発音される単語の前に使用さ
れ、"an" は、最初が母音で発音される単語の前に使用
されなければならないと定められている。英語の法則を
単純に適用すると "a" または "an" の次にくる単語の
最初の文字が母音字であるか、子音字であるかを調べる
ことになる。しかしながら、それは、最初が子音で発音
されるほとんどの単語は最初が子音字（母音のときは母
音字）で綴られているが、必ずしもそうではないことが
考慮されていないことになる。例えば、単語 "hour"
は、最初の子音字（ｈ）を有するが、母音（例えば、ｏ
ｗ）に相当する最初の音で発音される。同様に、単語 "
European" は、最初の母音字（文字 "E") で始まるが、
子音字（例えば、"ye")に相当する最初の音で発音され
る。

【００５５】この問題の従来の解決策は、すべての英語
の単語の発音の辞書を記憶格納させて対応してきた。し
かしながら、これらの解決策は正しくないわけではない
が、英語言語のすべての単語を多量に記憶することを必
要としている。

【００５６】従来用いていたような英語のすべての単語
に関する大容量の辞書を使用せずに、本システムにおい
ては、法則の例外の単語を予め格納しておき、その例外
例の中にその単語が見当たらない場合にのみ単純な法則
を適用するようにした。法則の例外は、二つの小さい検
索テーブルに格納されており、その１つは、図３のテー
ブル１に示すように、母音字で始まるが、最初の発音が
子音で発音される単語を格納したものであり、他方は、
図４のテーブル２に示すように、子音字で始まるが、最
初の発音が母音で発音される単語を格納したものであ
る。従来の方法において用いられていた辞書は、６０，
０００語の単語を備えていたが、それに対して、本シス
テムのこれらの検索テーブルは、わずか３００語以下の
少ない単語を格納している。以上のように、不定冠詞の
正しい用い方を決定する場合において重要なのは、不定
冠詞の次にくるその単語を発音する時に発せられる最初
の音であることが、分かるであろう。尚、テーブル１及
びテーブル２は、例えば、図１で示した不定冠詞訂正部
４２内に格納するようにすればよい。

【００５７】上述したテーブル１およびテーブル２のよ
うな有限な例外リストを最初に確定すると、次の三つの
法則が適用される。最初の法則は、不定冠詞 "a" また
は"an" に続く単語が、文字 "eu" で始まる場合に適用
される。この場合は、不定冠詞"a" が使用されなければ
ならない。第二の法則は、不定冠詞 "a" または "an"に
続く単語が、母音字 "a"、"e"、"i"、"o" または "u"
で始まる場合に適用される。この場合、不定冠詞 "an"
が使用されなければならない。第三の法則は、不定冠詞
"a" または "an" に続く単語が、子音文字で始まる場
合に適用される。この場合は、不定冠詞 "a" が使用さ
れなければならない。

【００５８】図５は、図１の不定冠詞訂正部４２の不定
冠詞の訂正動作を示したフローチャートである。図５に
示すように、ｎ個の単語からなる入力文が入力されると
（ステップ３００）、入力文のなかでその単語がｉ番目
のときは、ステップ３０２、３０４および３０６の処理
によって、その単語がｗ１と設定され、それに続くｉ＋
１番目の単語がｗ２と設定される。単語ｗ１が、"a" ま
たは "an" でないならば（ステップ３０８）、ステップ
３０４に戻り、ステップ３０６を通って、次の単語へ進
む。単語ｗ１が "a" または "an" のいずれかであり
（ステップ３０８）、かつ、次の単語ｗ２がテーブル１
にある場合（ステップ３１０）、単語ｗ１が "an" であ
るならば、単語ｗ１は "a" へ訂正される（ステップ３
１２）。単語ｗ２がテーブル１に見当たらないが（ステ
ップ３１０）、テーブル２に見られる場合（ステップ３
１４）、もし単語ｗ１が "a"であれば、単語ｗ１は "a
n" へ訂正されなければならない。単語ｗ２がテーブル
１及びテーブル２に無い場合には（ステップ３１０、３
１４）、単語ｗ２が文字 "eu" で始まるか否かが判定さ
れる（ステップ３１８）。もしそうであれば、単語ｗ１
が "an" であるかが判定され（ステップ３２０）、そう
であれば、単語ｗ１は "a" へ訂正される（ステップ３
２０）。そうでない場合には（ステップ３１８）、単語
ｗ２が、"a","e","i","o" または"u" で始まるか否かが
判定され（ステップ３２２）、そうであれば、次に、単
語ｗ１が "a" であるか否かが判定され、そうであれ
ば、単語１は"an"へ訂正される（ステップ３２４）。そ
うでない場合には（ステップ３２２）、単語ｗ１が "a
n" であれば、単語ｗ１が "a" へ訂正される（ステップ
３２６）。

【００５９】以上のように、本システムにおいては、３
００語以下程度例外となる単語のみを予め格納してお
き、その例外以外のものに対しては、図５のフローに示
したような所定の法則を適用させて不定冠詞の正否を判
定するようにしたので、従来のように記憶容量を大量に
用いてすべての単語を格納することにより不定冠詞の正
否の判断を行う場合に比べて、記憶容量を大幅に節約す
ることができるとともに、不定冠詞の正否判断のための
処理時間を短くすることができる。

【００６０】ｃ）間違った助動詞列の訂正上述したように、非自国語圏の人々が英語の文を書こう
とすると、その人々は、複雑な助動詞列において間違っ
た時制を使用することがしばしばある。一例として、"h
e has consider" を挙げれば、ここで、間違った用法
は、動詞 "consider" の時制であり、正しくは、その過
去分詞 "considered" と用いなければならない。従来の
文法チェックシステムにおいては、このような列を認識
することが困難であることと、品詞列のタグが一般に計
算されないことにより、助動詞列をチェックすることが
できない。

【００６１】本システムにおいては、図１の助動詞訂正
部３２の具体的構造を示した図６のブロック図に示した
ように、入力文４１０は、品詞付けタッガー４１２によ
り上述したように品詞に分析され、文４１０に含まれて
いる品詞列４１４が出力される。ここで、品詞付けタッ
ガー４１２は、図２（ａ）の品詞付けタッガー３２と同
様の動作を行うものであり、図１の品詞分析部２０を構
成するものである。

【００６２】誤りを検出するために、間違った助動詞列
の終了点と開始点の両方を検出しなければならない。例
えば、文 "He has been consider this fact" におい
て、誤りの開始点、すなわち、文中四番目の単語である
"consider" を検出することは、重要である。"conside
r" 以降のすべての単語、すなわち、"this fact" は、
助動詞列が正しいか否かには影響を及ぼさない。同様
に、誤りの開始点、すなわち、文中の二番目の単語であ
る "has" を検出することは、重要である。"has"以前の
すべての単語は、助動詞列が正しいか否かを決定するこ
とに関し、無関係である。

【００６３】そこで、このシステムにおいては、文の品
詞が取り出されると、終了点検出部４２４により、間違
った助動詞列の終了点を検出する。もし、助動詞列に間
違えがなければ、助動詞列のすべての正しい動詞列４２
０（図７参照）は、後述する図８に示された非循環グラ
フに格納される。

【００６４】正しい動詞列４２０の有向非循環グラフか
ら、すべての可能性のある間違った助動詞列に対応する
他の有向非循環グラフが、誤動詞列形成部４２２におい
て形成される。誤動詞列形成部４２２に対応するグラフ
を形成すると、このグラフは、間違った助動詞列 "have
の三人称単数、不定動詞" を含む。これは、間違った
助動詞列 "has consider" に対応する。誤りの終了点を
検出するために、入力文字列が左から右へ読まれ、終了
状態に到達するまで、このグラフは左から右へ横断され
る。この品詞は入力文の単語に対応するので、入力文の
品詞が間違った助動詞列グラフへ読み込まれ、かつ、こ
のグラフが最終状態に到達すると、これは、問題となる
助動詞列の終わりの単語を識別する。文中のその位置に
関するこの単語の識別は、図６の終了点検出部４２４に
より行われる。

【００６５】同様に、開始点検出部４２６は、問題とな
る助動詞列の開始点に対応する単語を検出する。これ
は、誤りの終了点を検出し、グラフの開始点に到達する
まで、グラフにおいて右から左へ戻り作動することによ
り、行われる。例えば、左から右へ進むと、本システム
は、has を have の三人称単数として識別し、consider
を不定動詞と見なす。本システムは、この点において誤
りはなく、単語 "consider" を間違った助動詞列の最後
の単語であると識別している。次に、グラフと入力文字
列を戻り移動すると、"consider"と"has" とを通り過ぎ
る。これは、この特定のグラフの始めに到達し、従っ
て、単語 "has" を助動詞列の最初の単語として識別す
る。

【００６６】上述したように、終了点検出部４２４が助
動詞列の終了点を決定すると、この間違った列の終了位
置、すなわち、その単語の文中の順番が、入力文の間違
った列の最後の単語の位置として、終了位置決定部４２
８により決定される。同様に、間違った列の開始位置
は、間違った列が始まる単語の位置として、入力文にお
けるその開始位置の単語の順番を示す数値が、開始位置
決定部４３０において決定される。動詞列訂正部４３２
により、図９に示された、ほかの有向非循環グラフが、
各間違った助動詞列に対する可能性のある一組の正しい
列を明示する。次に、動詞列訂正部４３２は、間違った
助動詞列を図９で示されたこの有向非循環グラフへ送り
込み、出力部４３４により、使用者の確認のために一組
の可能性のある正しい助動詞列を出力する。

【００６７】図８に示した、この一組の正しい助動詞列
を記述している有向非循環グラフは、以下のように、す
べての可能性のある助動詞列のために形成される。図８
において、グラフの左端の開始点４４０の次に記載され
ているのは、ボックス４４２であり、これは、図に示す
ように、以下のような英語におけるすべての助動詞を含
んでいる："be"、"were"、"was"、"is"、"am"、"ar
e"、"been"、"had"、"have"、"has"、"could"、"shoul
d"、"might"、"may"、"can"、"must"、"would"、"shal
l"、"will"、"do"、"does"、"doesn't" 及び "did"。こ
こで、単語 "be"〜"been" はノード４４４へ接続されて
いる。一般に、ノードは、これらの助動詞に続く動詞が
同じであることを示している。例えば、単語 "were" に
続いて "were being" のように "being" が続くよう
に、"is" の後にも単語 "being" が続く。このように、
ノード４４４は、後に続く動詞が同じであり得る一組の
助動詞があることを示している。例えば、一組の動詞 "
had"、"have" 及び "has"に接続しているノード４４６
の後には、単語 "been" が続く。ノード４４８に関して
も同様に、単語 "could" 〜"will"の後に、単語 "have"
が続く。また、これらの単語の後に、単語 "do" が続
くこともあり得る。最後に、ノード４５０は、単語"d
o"、"does" 及び "doesn't" の後に、"do" でなく、"ha
ve" が続くことを示している。

【００６８】助動詞列の間違いを正しく得られるよう
に、この非循環グラフを用いる方法は、実際に、法則の
すべてをコンパクトなグラフ表にまとめることができ
る。

【００６９】図８のグラフに示されるように、前述のノ
ードに続いている "???" 表示のボックス４５２及び４
６２等がある。このグラフへの入力は、品詞に続く単語
の列であることを記憶されているであろう。これは、本
質的に、二つの変数を有する入力を品詞付けする。グラ
フをコンパクトにするために、記号 "???" はこのノー
ドでは記載できないもののすべてを表している。ノード
４５４に関し、ボックス４５６は "been" と "had" 以
外のすべてのものを示しており、ノード４５８へ接続さ
れている。従って、"???" ボックスを用いて示すことに
より、その状態の出力においては記載されていない他の
すべてのものが次のノードへ接続することを示すことが
出来る。

【００７０】単語のほかに、入力文は、他の品詞をも含
んでいる。例えば、システムが品詞列"have considere
d" を分析する場合、このグラフは、品詞列"have have
considered vbn" と比較される。ここで、"vbn" は、過
去分詞形を示す。グラフの左側からスタートして、ま
ず、ボックス４６０である"have"を見いだす。そこか
ら、"have"は右へノード４６６を通り、上記のように、
この単語のノード４５４への通過を可能にしているボッ
クス４６２へ移動する。ノード４５４から行けるのは、
ボックス４６４における"been"またはボックス４６６に
おける"had" であるが、これらはどちらも入力文と整合
しない。他の行き先としては、ボックス４５６へ進むこ
とであるため、これにより、ノード４５８へと右へ進
み、次に、過去分詞形を表す"vbn" を示しているボック
ス４６０へ進む。これにより、ノード４７０へ進むこと
が出来る。文"have considered"がグラフの終了点４７
２へ行くことが出来るようにボックス４５６を通過した
ため、この単語の考察は、正しいように思われる。中間
ノード４７０と終了点４７２との間には、空いた単語を
表す記号＜Ｅ＞を有するブロック４７４がある。この＜
Ｅ＞を表すボックスの使用は、続く単語または続く品詞
などを考慮することなく、一つのノードからつぎのノー
ドへ進むことが出来ることを示している。

【００７１】ボックス４４２に含まれていない単語に関
しては、それらの単語は、グラフの左下に記載されてい
るボックス４７６とノード４８０とを通って品詞ボック
ス４８２へ進み、そこから、ノード４８４へ進むことに
より、分析される。もし、終了点４７２へ到達する前
に、通過したノード４８４からボックス４８８を通りノ
ード４９０へ進み、そこから、ノード４９２または４９
４へ進むのであれば、ボックス４８６と終了点４７２と
は円弧で接続される。最後に、もしその単語が、ノード
４９６とボックス４６８とを通過するならば、ノード４
８４は、ノード５００へ進む。ボックス５０２は、ノー
ド４８４を通ってきており、ノード５０４を経て、ボッ
クス５０６へ進み、次に、終了点４７２へ進む。ノード
４８４における単語が"having"と"been"の両方へ接続さ
れるものであるならば、その単語は、ノード５０８から
ボックス５１０を経てノード５１２へ進み、そこから、
ボックス５１４を通りノード５１６へ進む。その後、そ
れは終了点４７２へ続くボックス５１８またはボックス
５２０へ進む。入力単語"having"または"been"は、前述
のようにこの経路を通り終了点４７２へ到達するなら
ば、正しいとして判定される。しかし、単語"being" が
この列へ加えられるものであるならば、ノード５１２の
出力は、ノード５２２及びボックス５２４を経てノード
５１６へ送られる。

【００７２】以上のように、図８の非循環グラフは、す
べての正しい助動詞用法を明細に示している。従って、
同様なグラフを、すべての間違った助動詞列で構成する
ことが出来る。このようにして、すべての正しい用法を
表すグラフを構成すると、同時に、すべての間違った用
法を表すグラフを持つことになる。この方法の緻密さ及
び簡潔さは、文の分析において非常に効率的である。

【００７３】図９は、上述のようにして形成された間違
った動詞列の非循環グラフにより判定される間違った助
動詞列に対して、その訂正候補を提示するために使用さ
れるものである。適切な訂正を提示するために、各ボッ
クス内には、１組の単語がそれぞれ格納されており、各
組は、それぞれ、各組の左の単語が間違っていると識別
された場合に、右の単語がそれを訂正するための候補と
なるように、組まれている。例えば、助動詞列"will ha
d" が間違っていると識別されると、図９のグラフが正
しい列を明示するために使用される。まず、入力ノード
５３０で始まると、その入力文の最初の単語と同じ単語
がボックスの左側に格納されているボックス５３２を通
って進む。ノード５３４とボックス５３６とを通り、ノ
ード５３８へ達すると、ここで考察される単語は、単
語"had" である。ここで、ボックス５４０は、"had"
は"have"へ変更されなければならないことを示してお
り、そのことは、ノード５４２へ出力され、それから、
ボックス５４４を通り、終了点５４６へ到達する。この
経路により終了点５４６へ到達すると、提示される正し
い列は、"will have" である。

【００７４】さらに複雑なケースを例に挙げる。例え
ば、間違った列"would considered"を考察する場合であ
る。それに対応する品詞付けタッグは、"would would c
onsidered vbr"である。この場合、最初、"would;woul
d" を示すボックス５５０とボックス５３６とを通りノ
ード５３８へ進む。ここでは、ボックス５４０、５５
２、５５４、５５６、５５８または５６０は、いずれも
適用されない。この理由は、これらのボックスは、どれ
も単語"consider"を持っていないからである。ボックス
５６２を経て、品詞分析ボックス５６４を経ることによ
って得られる適切で正しい提示は、"would consider"で
ある。これは、このグラフが"considered"は "conside
r" の過去形であることを検出するという理由によるも
のである。このボックス５６４は、現在時制が使用され
るベきであることを提示し、従って、単語"consider"
を提示する。この分析を、"vbd:/vbd/vb" で表す。ここ
で、vbd は過去形を意味し、vbは現在時制を意味する。

【００７５】また、このグラフにおいては、入力文への
他の訂正変更を出力するための、ノード５３８に接続さ
れている他のノードも存在している。例えば、提示され
た上記の列は、"would have considered" であるとも考
えられる。この場合、ボックス５６６は、"would”と "
considered" との間に空白＜Ｅ＞があるとし、その空白
＜Ｅ＞の代わりに、単語"have"が加えられるべきである
ことを明示する。ボックス５６８は、もし品詞付けする
ならば、"have"（hv）の品詞列もその組へ加えられるべ
きであると明示する。ボックス５７０を通った後、ボッ
クス５７２は、その過去形は過去分詞形へ変えられるべ
きであると明示する。その場合、それは過去形と過去分
詞のいずれでもあるので、単語"considered"は変えられ
ないままである。入力単語が、"considered"でなく、例
えば、"knew"であったならば、ボックス５７２は、過去
形である"knew"から過去分詞である"known" への変更を
提示する。図９のグラフの残りの部分が、入力された文
が間違っていると決定された場合に、その間違っている
動詞列に対して、種々の訂正を提示することは自明であ
るため、ここでは説明は省略する。

【００７６】ｄ）非自国語圏の人々のための活用形の訂
正従来のスペルチェックシステムは、一般に、辞書探索ア
ルゴリズムにより、間違い綴りの単語を検出する。これ
は、ユーザの不注意なキー打ちまたは文字の順序が逆に
タイプされている等による典型的な間違い綴りを検出す
るには効果的であるが、これらの従来のシステムは、ほ
かの種類の綴り間違いに対しては効果的でない。最も注
目すべきことは、非自国語圏の人々の綴りの誤りまたは
通常では見られない不注意による単語内の文字の順序の
間違え、または、不注意な文字の挿入または欠落であ
り、それらは、主に文法上の問題である。文 "He drive
d his car yesterday" を例にとれば、この誤りは、ユ
ーザが不注意だったわけでも、また、ユーザがその単語
の綴りを知らなかったわけでもなく、むしろこの場合
は、動詞 "drive" の過去形をユーザがはっきりと認識
していなかったことによるものと思われる。

【００７７】一般に、スペルチェックシステムは、ミス
タイプの単語と辞書に記載された単語との相対距離に基
づいて正しい綴りを提示する。この相対距離は、置き換
えられ、挿入され、転置され、または、削除されなけれ
ばならない文字数に基づいている。その結果はしばしば
奇妙なものとなる。例えば、上記の例では、正しい提示
は "drive" の過去形、すなわち、"drove" であるが、
従来のスペルチェックシステムにおいては、"dried"
や、"dripped" 等を提示する。正しい単語"drove" が提
示されないことは、非常に問題となることである。この
ような誤った提示が行われてしまう理由としては、従来
のスペルチェックシステムにおいては、文法に関連した
綴りの誤りを分析しないからである。

【００７８】従来のシステムが、正しい綴りの提示をす
ることにおいて抱えている難しさの他の例として、不適
切な比較形容詞がある。例えば、非自国語圏の人々
は、"good" の比較級を選ぶ場合に、通常の法則に基づ
いて "er" を後ろに加えて "gooder" としてしまうこと
がしばしばある。ほかの例として、非自国語圏の人々
は、名詞 "child" の複数を形成したい場合に、単数の
名詞の後に "s" を付ける普通の複数化の法則に基づい
て、"children" の代わりに、"childs" としてしまうこ
とがある。

【００７９】従来のスペルチェックシステムにおいて
は、上記の "childs" を訂正するための候補として、次
の単語を提示するが、それらはどれも文脈において正し
くないものである："chills"、"child's"、"chill'
s"、"child" 及び "tildes"。従来のスペルチェックシ
ステムによるさらなる不適切な提示としては、"goodes
t" （"good"の最上級のつもりで、誤って"good"に"est"
を付けたもの）の正しい綴りの候補として、"goodist"
や "goosed" を提示してしまうこと等が挙げられる。

【００８０】従来のスペルチェックシステムにおけるこ
のようなタイプの誤りは、自国語圏の人々をも悩まし
て、スペルチェックの機能を使用することを拒否する原
因になるだけでなく、非自国語圏の人にとっても、誤っ
た綴りに対する正しい単語の候補として、文脈からはず
れた単語、または、ユーザが精通していない単語からそ
れを選択することを余儀なくされるため、完全に意味の
違う見当違いの単語を選んでしまい、かえって過ちの程
度を一層高いものにしてしまうという可能性があった。

【００８１】本システムにおいては、図１０に示すよう
に、複数化、過去形、過去分詞、比較級形成、最上級形
成のいずれにも関して、普通の法則に従わない単語の代
表的例を識別できるようにした。図１０は、図１の語形
変化チェック部３０の具体的構造を示したものである。
本システムが、誤った単語に対して、より適切な置き換
えるべき単語を提示することは、文法に基づいて形成さ
れた間違った単語の独自のこのリストによって行われ
る。本システムは、通常は、予め格納されている辞書を
検索することによりミススペルを検出する。その後、以
下に述べるように、正しい単語は、代表的な間違った単
語と語源（原型）と語形上の特性との大要に基づいて提
示される。

【００８２】図１０において、英単語訂正手段６００
は、英単語の辞書を格納している英単語辞書格納部６０
２と、誤単語辞書格納部６０４（詳細については後述す
る。）とから構成されている。また、本システムには、
英単語形成の通常の規則を格納している規則格納部６０
８と、上述した英単語辞書格納部６０２の単語と、規則
格納部６０８の規則により形成された単語との比較を行
い、実際には存在しない単語を格納するための不存在英
単語辞書格納部６０６とが、設けられている。上述し
た、誤単語辞書格納部６０４は、その不存在英単語辞書
格納部６０６による比較の結果により生じた誤った英単
語のリストを格納している。このリストは、綴りの間違
いではなく、間違った文法に基づく厄介な単語を有して
いる。

【００８３】また、図１１のブロック図に示すように、
検出された間違った単語を実際に訂正する過程において
は、英単語辞書格納部６０２は、図１０においても説明
したように、前述の間違った英単語のリストを有する誤
単語辞書格納部６０４と共に使用される。図１１に示す
ように、本システムには、英単語辞書格納部６０２に格
納されている辞書を検索して、辞書にない間違いと思わ
れる単語を取り出すための誤単語検出部６１０が設けら
れている。誤単語検出部６１０により検出された間違い
と思われる単語と、誤単語辞書格納部６０４に格納され
ている間違った英単語のリストにある間違った英単語と
が、特性決定部６１２へ送られる。この特性決定部６１
２は、間違った単語の語源（原型）と、時制、単数／複
数、及び、比較級／最上級といった語形上の特性とを決
定する。例えば、間違った単語が"drived"ならば、この
単語の語源（原型）の形は"drive" であり、その語形上
の特性は”過去形または過去分詞形”である。このよう
に特性決定部６１２で決定された語源（原型）と語形上
の特性とは単語訂正部６１４へ送られる。単語訂正部６
１４は、文法の法則と例外とのどちらも考慮に入れて、
語源（原型）と語形上の特性とを英単語辞書格納部６０
２内の対応する英単語に相互に関係づけて、正しい単語
を提示する。

【００８４】以上のように、本システムにおいては、典
型的な間違った用法に基づいて語源（原型）と語形上の
特性とを決定するようにしたので、これらの間違った用
法に関連づけた適切な単語を提示することが出来る。こ
のシステムにおいては、単なる綴りの間違いによる誤単
語だけでなく、誤った文法による誤単語に対しても精巧
な探索を行うことができる。

【００８５】また、ここでも、上述した品詞付けタッガ
ー３２（図２（ａ）参照）が、このシステムにより提示
される単語の正確さを向上させる上で有益であること
は、お分かりであろう。具体的に例を挙げれば、例え
ば、間違った綴りの単語が、過去形または過去分詞形で
ある場合、上記で示した例は、間違った単語 "drived"
は、"drove" または "driven" に訂正されるべきであ
る。そのときに、品詞付けタッガー３２により "間違っ
た" 単語が文中でどのように使用されているかを知れ
ば、その間違った単語 "drived" が "drove" または "d
riven" のどちらに訂正させるべきであるかを容易に判
別することができる。このようにして、本システムにお
いては、間違った単語に対する正しい単語の提示をより
適切に、かつ、確実に行うことができる。

【００８６】ｅ）限定詞の誤用の検出および訂正非英語圏の人々におけるさらなる難しい問題の一つに、
限定詞の用法の問題がある。限定詞とは、名詞句の指示
物を限定する "the"、"a"、および、"some" などの単語
である。これらの限定詞における誤りには以下の三つの
カテゴリーがある。第一は、限定詞の欠落である。例え
ば、文 "John read book" は、名詞句 "book" に対する
限定詞が欠落している。第二は、余分な限定詞の使用で
ある。例えば、"John went to the New York" である。
ここで、限定詞 "the" を用いることは間違っており、
削除されるべきである。第三は、限定詞とそれに対する
名詞句との整合が取れていない場合である。例えば、"J
ohn read many book" は、限定詞 "many" と名詞句 "bo
ok" との間の数の一致がされておらず、整合が取れてい
ないことが分かる。

【００８７】限定詞の間違った用法を検出するために、
品詞付けタッガー３２（図２（ａ）参照）が、分析に使
用される。品詞付けタッガー３２については、前述の図
２（ａ）、図６、及び、後述する図１６、図１７、及
び、図１９において説明されているので、それらを参照
されたい。品詞付けされた文の例として、例えば、文 "
John read long novel" を挙げる。ここで、"John" の
品詞付けは、固有名詞であり、"read" の品詞付けは、
動詞の過去形であり、"long" の品詞付けは、形容詞で
あり、"novel" の品詞付けは、単数名詞である。

【００８８】図１２は、図１の限定詞訂正部３６の動作
を示したフローチャートである。図１２のフローチャー
トに示されているように、本システムにおいては、図１
の限定詞訂正部３６により、品詞付けタッガー３２によ
り品詞付けされた文は、文中に名詞句があれば、それが
識別される（ステップ７００）。このステップ７００に
おいては、どの品詞付けタッグが有効な名詞句を構成す
るかを定義するパターンを最大限当てはめることによ
り、文中の名詞句を識別する。なお、名詞句のパターン
は下記により与えられる。［ＤＥＴ］（ＭＯＤＳＮＯＵＮＡＮＤ）* ＭＯＤＳＮＯＵＮ head （１）同様に、ＭＯＤＳのパターンは下記で与えられる。（ＭＯＤ⁺ ＡＮＤ）* ＭＯＤ（２）ここで、ＤＥＴ、ＭＯＤ、ＮＯＵＮ、および、ＡＮＤ
は、それぞれ、限定詞、修飾詞、名詞、および、等位接
続詞の品詞付けタッグの組として定義されている。記号
［Ｘ］は、囲まれた表記Ｘがゼロまたは一つ存在するこ
とを意味する。記号（Ｘ）* は、囲まれた表記Ｘがゼロ
またはそれ以上存在することを意味する。Ｘ⁺ のような
プラスの肩付き記号は、表記Ｘが一つ以上存在すること
を意味する。

【００８９】上記の目的は、名詞句を識別することであ
る。例えば、上記の例文 "John read long novel" にお
いて、名詞句は、品詞列の"固有名詞"に相当する "Joh
n" と、品詞列の" 形容詞単数名詞" に相当する "lon
g novel" とである。上記の品詞付けは、名詞句の始ま
りとその終わりとを識別することにより、名詞句をただ
一つ識別する。限定詞の欠落、余分な限定詞、または、
名詞句の構成要素の単数／複数の不一致のいずれかをチ
ェックするために、名詞句が識別されることは、重要で
ある。

【００９０】名詞句が見つけられると、図１２のフロー
チャートに示されるように、本システムは、名詞句が限
定詞を欠落しているかどうかを調べる（ステップ７０
２）。このテストは、名詞句全体ＮＰを調べ、また、名
詞句の最後の単語である主要名詞ＮＯＵＮheadを調べ
る。主要名詞は、名詞句の最も重要な名詞に相当し、ほ
とんどの文においては最後の単語であることが知られて
いる。限定詞の欠落を調べるこのテストにおいては、さ
らに、名詞句の限定詞ＤＥＴについても調べる。これ
は、名詞句の最初の単語か、あるいは、存在しないもの
である。限定詞の欠落を調べるための動作フローを図１
３に示す。図１３のステップ７０４及び７０６において
決定されるように、主要名詞が単数の非固有名詞であ
り、限定詞ＤＥＴが存在しなければ、名詞句は、それが
タイトル（表題、称号）であるかどうかがを確認される
（ステップ７０８）。ここで、タイトルとは、固有名詞
以外のすべての大文字化された句であると判断する。例
えば、"The Atlanta Police Department" と"Grady Hos
pital"等はタイトルである。もし、名詞句がタイトルで
あると認められない場合には、主要名詞が、質量名詞で
あるかどうかを確認する（ステップ７１０）。質量名詞
は、物質の、例えば、"米"、"魚"、"炭素" などの不特
定な量を表す名詞である。質量名詞は複数名詞として機
能するので、限定詞を必要としないことは、お分かりで
あろう。

【００９１】もし、名詞句がタイトルであるならば（ス
テップ７０８）、主要名詞が集団称号名詞であるかどう
か確認する（ステップ７１２）。集団称号名詞は質量名
詞と似ているが、タイトルの中に存在するものである。
例えば、文 "She attended Harvard University" にお
いて、名詞句"Harvard University" は称号（タイト
ル）であり、"University" は集団称号名詞である。従
って、"University" は限定詞の無い文中に見られるこ
とに留意して戴きたい。また、集団称号名詞が、質量名
詞と同じではないことを以下に考察する。例えば、"Uni
versity" は集団称号名詞であるが、質量名詞ではな
い。これは、文 "She attended a fine university" の
例から容易に分かることができる。この場合、名詞 "un
iversity" には、限定詞 "a" が与えられている。従っ
て、名詞句が集団称号名詞を有していることが決定され
れば、その単語に対する補正の提示は行われない（ステ
ップ７１５）ことが分かるであろう。

【００９２】しかしながら、慣用語の用法についての問
題がある。名詞句は、主要名詞が質量名詞でもなく（ス
テップ７１０）、集団称号名詞でもない（ステップ７１
２）場合には、次に、それが慣用語の一部であるかどう
かを確かめるために分析される（ステップ７１４）。こ
れは、慣用語の辞書の検索により行われる。名詞句が慣
用語の一部ならば、同様に、提示は行われない（ステッ
プ７１５）。例えば、文 "The event took place" にお
いて、名詞句 "place" は慣用語 "to take place" の一
部であるので、限定詞を欠如しているが、補正の提示は
名詞句 "place"については何ら行われない。

【００９３】主要名詞が限定詞を持たない単数非固有名
詞の場合（ステップ７０４）、主要名詞が質量名詞また
は集団称号名詞のいずれでもなければ（ステップ７１
０、７１２）、かつ、名詞句が慣用句の一部でないなら
ば（ステップ７１４）、本システムは、欠落している限
定詞があることを提示する（ステップ７１６）。

【００９４】次に、本システムは、余分な限定詞がある
かどうかにつき、名詞句をチェックする（図１２のステ
ップ７２０）。これは、図１４のフローに示されるよう
に、次のようにして行われる。主要名詞が固有名詞であ
るかないかを確認し（図１４のステップ７２２）、固有
名詞であれば、次に、限定詞が存在しているかどうかを
確認する（ステップ７２４）。上記条件が満足されるな
らば、名詞句が余分な限定詞を持っていることが提示さ
れる。例えば、文 "John went to the New York" を例
に挙げれば、名詞句 "the New York" が固有名詞である
主要名詞をもっており、かつ、限定詞、すなわち、単語
"the" が名詞句内にあるので、この名詞句は余分な限
定詞を持っているとして示される。ここで、固有名詞
は、確率と文脈とに基づいて識別される。

【００９５】再び、図１２に戻り、次に、本システム
は、数の不一致に関し名詞句をチェックする（ステップ
７３０）。これがどの様に行われるかは、図１５のフロ
ーにおいて示されている。まず、主要名詞が固有名詞か
どうかを確認し（ステップ７３２）、固有名詞であれ
ば、その名詞句内に限定詞があるかどうかを調べる（ス
テップ７３４）。限定詞があれば、その限定詞と主要名
詞とが数的に一致しているか、すなわち、それらの単数
／複数が一致しているかを確認する（ステップ７３
６）。一致していない場合には、主要名詞の数を限定詞
の数と一致するように変えることを提示する（ステップ
７３８）。

【００９６】例えば、文 "John read one books" の場
合には、主要名詞 "books" の数は限定詞と一致しない
ので、単数に変えられるべきことが提示される。同様
に、文 "John read many book" の場合、本システム
は、主要名詞を限定詞の数と一致するように複数に変え
ることを提示する。また、本システムは、反対に、主要
名詞に対して限定詞の方を変更するように提示するよう
にすることも出来る。しかしながら、限定詞の方を変更
するように提示することは、ユーザにとってあまり必要
でない処理かもしれない。固有限定詞を何にすべきかを
確認することがユーザにとって難しいことなので、前者
の処理の方が有効である。従って、本システムにおいて
は、ユーザが、数に関しては正しい限定詞を用いている
と仮定して処理が行われる。

【００９７】このように、本システムにおいては、名詞
句内の主要名詞が固有名詞であるかどうかを確認するこ
とにより、数の不一致の決定が行われる。この理由は、
固有名詞句が限定詞を有するならば、図１４のフローに
示したように、それは既に余分な限定詞誤りとして提示
されているからである。主要名詞が固有名詞でないとす
ると（ステップ７３２）、本システムは、名詞句が限定
詞を持っているかどうかを確認する（ステップ７３
４）。限定詞を持っていないならば、数の不一致の問題
はないため、ステップ７３６には行かずに、ステップ７
３７に行き、補正の提示を行わない。

【００９８】以上のように、本システムは、品詞付けさ
れた文の使用と、名詞句、主要名詞、固有名詞、質量名
詞、集団称号名詞、および、慣用句の検出とにより、限
定詞の間違った用法を検出し、訂正する多くの方法を使
用している。図１２に関連して述べたパターン整合の使
用による名詞句の検出は、限定詞誤用の適切な決定にと
って重要である。

【００９９】ｆ）固有名詞とほかの大文字化単語の認識固有名詞は、すべてのほかの名詞と異なり、唯一に判別
できるように見えるので、単語が固有名詞であるかどう
かが認識できることは、文の分析において重要なことで
ある。固有名詞ばかりでなく、"Harvard University"
などの称号内に存在するほかの固有大文字化単語を認識
することができる機能を持つことにより、文法が分析で
きるように、文は、品詞および文法的関係が説明され、
理解される。

【０１００】単語は、二つの理由から、英文において大
文字化されて表現される。第一に、それは、固有名詞ま
たはほかの大文字化単語である。第二に、それは、文の
始めか、または句読点の後に存在する。例として、文 "
Wells was a English novelist" を考察してみると、"W
ells" は固有名詞であるので、大文字化されていること
が、お分かりであろう。また、文 "Wells were dug to
provide drinking water" を考察すると、"wells" は、
文の最初の単語であるので、大文字化されている。

【０１０１】このように、最初の文では、文法チェック
システムは、"Wells" が固有的に大文字化されており、
従って、本システムは、それは固有名詞である。第二の
文においては、本システムは、"wells" が固有的に大文
字化されていなく、従って、普通の複数名詞であると認
識する。

【０１０２】名詞が固有名詞であるかどうかを決定する
場合、従来の文法チェックシステムにおいては、固有的
に大文字化された単語を認識するという限定された方法
を使用していた。従来の一つの方法としては、文の最初
の単語が決して固有的に大文字化されていないと仮定し
て処理することであったが、これは、上述の例文 "Well
s was an English novelist" に示されているように、
固有名詞で始まるすべての文に対して、誤った分析がな
されることになる。

【０１０３】従来の他の方法として、固有名詞または普
通の単語のいずれかであって、その両方ではないとし
て、すべての単語を分類することであった。しかしなが
ら、"Wells" は固有名詞と普通単語のどちらでもあるた
め、このタイプの分類システムはそのような単語に対し
ては役に立たないことは、上記二つの例文から明らかで
あろう。

【０１０４】単語が固有名詞であるかどうかを正確に識
別し損なってしまう明らかな問題としては、辞書検索の
問題であり、間違った定義は検索される可能性がある。
簡単な文法チェックシステムにおいては、定義は必要と
されず、正しい用法を決定するときに、個別指導的な、
または、情報を有するデータを提供する精巧な単語処理
と文法チェックシステムが、固有名詞とほかの大文字化
単語との正しい識別を必要とする。辞書検索機能が文法
チェックシステムの一部でない場合でも、固有名詞とほ
かの大文字化単語との正しい認識は重要である。

【０１０５】単語が固有名詞であるかどうかを認識する
ことは、トリグラム（文中に隣接して置かれた３つの単
語）の確率を用いることにより文中の各単語の品詞を正
確に決定しなければならない品詞付けタッガーに影響を
与えるため、重要なことである。大文字化された形と大
文字化されていない形での単語は、異なったトリグラム
の確率を有するので、正しいトリグラムの確率を適用す
るために、品詞付けタッガー３２（図２（ａ）参照）
が、大文字化された形かそうでない形のいずれの単語が
文に存在するかを知ることは、重要である。例えば、固
有名詞 "Wells"のトリグラムの確率は、普通名詞 "well
s" の三重文法の確率と異なる。従って、品詞付けタッ
ガー３２は、"Wells" が固有名詞であることを "Wells
was an English novelist" の文中の "Wells" が固有名
詞であることを認識しなければならない。従って、品詞
付けタッガー３２は、大文字化された形の "Wells" に
対するトリグラムの確率を適用しなければならない。

【０１０６】単語が、固有名詞またはほかの固有的に大
文字化された単語ではなく、普通の単語であるかどうか
を確定するために、本システムは、各単語の二つの解
釈、すなわち、単語を固有名詞として解釈するか、また
は、単語を普通名詞として解釈するかのどちらが最も良
いかを決定する。本システムにおいては、この処理は、
一つは名詞が固有名詞であると仮定して、もう一つは名
詞が普通名詞であると仮定して、二つの形の文を形成す
ることにより行う。次に、本システムは、二つの文のト
リグラムの確率を比較する。単語が固有名詞であると想
定している文が、より高い確率を有するならば、その単
語は固有名詞であると見なされ、そうでない場合には、
その単語は普通名詞であると見なされる。

【０１０７】図１６から図１８は、図１の基本スペル復
元部２８の動作を示したフローチャート図である。図１
６に示すように、名詞が固有名詞であるかないかを確認
するために、意思決定プロセスへの二つの段階がある。
ステップ８００内に示されているように、第一段階は、
品詞タグ付けされたトレーニングコーパスを形成し、ト
リグラムモデルを形成する事前処理段階（ステップ８０
０）である。第二段階は、そのトリグラムモデルを用い
ることにより、その単語が大文字化されべきかを判断す
る分析段階（ステップ８２２）である。まず、第一段階
の事前処理段階について説明する。これは、まず、各文
の単語がその品詞タグで注釈された一組の文を参照す
る。次に、ステップ８０２で形成されたトレーニングコ
ーパスは、固有名詞でなく、または、一般に固有的に大
文字化されていない単語は、非大文字化単語へ修正され
る（ステップ８０４）。単語が固有名詞またはタイトル
として品詞付けされている場合、あるいは、頭字語であ
る場合、あるいは、代名詞 "I" である場合には、単語
が固有的に大文字化されていると見なされる。さらに、
単語が文の始めに、あるいは、引用符（“）やコロ
ン（：）の後に存在する場合は、単語は大文字化されて
いる。

【０１０８】ステップ８０４についてさらに詳細に説明
すると、図１７のフローチャートに示されているよう
に、品詞タッグ付けされたトレーニングコーパス８０８
は、次の単語がもしあれば、その単語とそのタッグとの
対をそのコーパスから得るために分析される（ステップ
８１０）。次の単語とタッグとの対が見つけられると、
その単語が大文字化されているかどうかを判定するため
にその単語の分析を行い（ステップ８１２）、それが文
の最初の単語であるか、または、それが引用符またはコ
ロンの後に続くものかどうかを確かめる（ステップ８１
４）。そうであれば、その単語は、固有名詞または称号
として品詞付けされているかどうか、あるいは、頭字語
または代名詞 "I" であるかどうかを確認する（ステッ
プ８１６）。そうでなければ、次に、大文字化されてい
るその単語は、トレーニングコーパス８０８において大
文字化されていることが誤りであるため、大文字化が修
正され、すなわち、小文字化される（ステップ８１
８）。

【０１０９】図１６に戻り、上記のようにしてステップ
８０４において大文字化を修正されたトレーニングコー
パス８０８は、単語のトリグラムの確率モデルを得るた
めに分析される（ステップ８２０）。この分析の結果、
その単語が実際には普通名詞であるのに誤って固有名詞
として判別してしまう、もしくは、その反対に、その単
語が実際には固有名詞であるのに誤って普通名詞として
判別してしまう、ということに関連した誤りを除去する
ための修正されたトリグラムモデルが形成される（ステ
ップ８２０）。上述のステップ８０２、８０４及び８２
０から構成された、誤りを除去するための事前処理段階
（ステップ８００）の後、トリグラムモデルは、その単
語が固有的に大文字化されているかどうかを決定するス
テップ８２２において使用される。このステップ８２２
においては、文中の単語の入力が必要であり、出力は単
語の基本綴りである。

【０１１０】単語が固有的に大文字化されているかどう
かを決定するステップ８２２（図１６参照）について、
図１８のフローチャートを用いて詳細に説明する。ま
ず、文中の単語の入力からスタートする（ステップ８５
０）。この入力された単語は、大文字化されているかど
うかが判定され（ステップ８５２）、大文字化されてい
るならば、その単語が、文中の最初の文字であるか、ま
たは、引用符またはコロンの後のものであるかを判定す
るために分析される（ステップ８５４）。その単語がい
ずれでもない場合には、その単語は、その文中において
その文字の通りであると解釈される（ステップ８５
１）。すなわち、それが文中で大文字化されているなら
ば、それは固有名詞として解釈され、それが文中で大文
字化されていないならば、それは普通の単語として解釈
される。また、ステップ８５２において、単語が大文字
化されていないと判定された場合には、同様に、ステッ
プ８５１において、文字の通りの解釈がなされて、特別
の処理は行われずに、文字通りの綴りが出力される。

【０１１１】ステップ８５４において、単語が文の最初
の単語であるか、または、単語が引用符またはコロンに
続くと判定されたならば、次に、その単語が頭字語かど
うかが判定される（ステップ８５６）。頭字語は、大文
字化されているそのアルファベット文字か、または、頭
字語辞書に存在していることにより、特徴づけられる。
単語が頭字語であると決定される（ステップ８５６）
と、ステップ８５１に行き、特別に処理は行われない。

【０１１２】単語が頭字語でない（ステップ８５６）な
らば、本システムは、上述した図１６のステップ８２０
で形成したトリグラムモデルが入力され（ステップ８５
９）、それに従って、文中でその単語が２つの形のうち
のいずれで用いられるかを示す２つの確率を計算する
（ステップ８５８）。すなわち、その確率の一つは、文
中で大文字化されているその単語が用いられる確率Ｐｃ
であり、もう一つは、文中で大文字化されていないその
単語が用いられる確率Ｐｕである。この計算は、上述の
品詞付けタッガー３２（図２（ａ）参照）に従って説明
されている通りである。

【０１１３】大文字化されていない単語が用いられる確
率Ｐｕが、大文字化されている単語が用いられる確率Ｐ
ｃを超えている（ステップ８６０）ならば、本システム
は、用いられる可能性が最も高い基本綴りとして、単語
の大文字化されていない綴りを出力する（ステップ８６
２）。この綴りはその後の文法チェックに使用される。
そうでなければ（ステップ８６０）、用いられる可能性
が最も高い基本綴りとして、単語の大文字化されている
綴りを出力する（ステップ８６４）。

【０１１４】ここで分かることは、単語の基本綴りを再
生（修正）することにより、文法チェックシステムが、
さらに正確に、有用に用いられることである。単語の基
本綴りの再生処理は２つの段階から構成されており、第
一段階が、単語が固有名詞であるか否かの間違った特徴
化によって起こる誤りについてトレーニングコーパスを
訂正することである。第二段階は、大文字化された綴り
と、大文字化されない綴りのいずれが適当であるかを確
認するための一連の分析が行われることである。この分
析は、事前処理段階において得られたトリグラム確率モ
デルを用いることにより、その単語が、固有的に大文字
化されているかどうかを決定する意思決定要素によって
行われる。

【０１１５】以上のように、本システムにおいては、基
本スペル復元部２８において、文の品詞列に基づいて、
単語の最初の文字が大文字化されるべきか否かを判断
し、誤っている場合にはそれを訂正して、その後に、語
形変化チェック部３０またはスペルチェック部４４にお
いて、単語の語形変化またはスペルのチェックを行うよ
うにしたので、従来のように、単語のスペルが正しいに
もかかわらず、最初の文字が大文字になっていることに
よりスペルミスを誤判断されることがなく、正確にかつ
無駄のないスペルチェックを行うことができる。

【０１１６】ｇ）文脈ベースの辞書検索文を書く場合、非自国語圏の人々は、一言語または二言
語からなる辞書に頼っている。辞書は、非自国語圏の人
々が頼る、最も有用な言語に関する情報源の一つであ
る。辞書を使用することは、文を書く場合、文法チェッ
クの問題に限定されずに、一般的に有用である。また、
自国語の人々でさえ、文を作成するときに、辞書または
類語辞書にかなり頼っている。

【０１１７】文脈からの単語は、統語上、及び、その意
味において、非常にあいまいであるので、辞書の項目を
検索することは、見た目ほど単純ではない。辞書に与え
られた単語が、２０、３０、または、それ以上の項目を
持っていることはお分かりであろう。この非常に多くの
項目が存在しているために、辞書の使用には、かなりの
時間が浪費される。

【０１１８】例えば、文脈から単語 "left" を取り出し
たとすると、単語 "left" は、以下に示すように、英語
の辞書に多くの項目を持っている。すなわち、単語 "le
ft"には、文 "His left arm" における形容詞 "left"
の項目、文 "he moved lefton entering the room" に
おける副詞 "left" の項目、文 "Make a left at thene
xt corner" の名詞 "left" の項目、及び、文 "He left
a minute ago" における動詞 "leave" の過去形 "lef
t" の項目等がある。しかしながら、単語 "left" が英
語の文中に存在する場合、これらの項目のうちのただ一
つがこの文脈に適切なものである。今日では、文脈に基
づいて単語の正しい項目を検索することができる辞書は
ない。

【０１１９】本システムにおいて、辞書の項目が、文脈
中に与えられた単語の品詞に基づいて選択され、ランク
づけされる。まず始めに、文脈中の単語に対応する複数
の項目が選択される。現在の文脈に関連のない他の項目
についても、ユーザの要求により使用することが出来
る。文脈中に与えられた単語の品詞は、上述の品詞付け
タッガー３２（図２（ａ）参照）により与えられる。

【０１２０】具体的な例を挙げて説明すれば、例えば、
文 "He left a minute ago" 内の "left" を想定する
と、品詞付けタッガー３２は、文内の単語 "left" に対
し品詞付けタッグ "過去形動詞" を与える。この場合、
本システムは、文脈内の "left" の用法に対応する動詞
"leave" の項目を選択し、次に、その文脈に使用され
ていない "left" の項目、具体的には、形容詞、副詞、
および、名詞としての "left" の項目を選択する。

【０１２１】他の例として、文 "It has several base
s" 内の単語 "bases" を想定すると、品詞付けタッガー
３２は、その文内の "bases" に対し二つの品詞付けタ
ッグ"名詞の複数形" を与える。単語 "bases" は、名詞
"basis" の複数形、名詞 "base" の複数形、動詞 "bas
e" の三人称であり得ることは、お分かりであろう。文
脈 "It has several bases" に関し、本システムは、文
中の単語 "bases" に対応して、名詞 "base" と "basi
s" との項目を選択し、次に、文に使用されていない "b
ases" の項目、具体的には、動詞 "base" の項目を選択
する。

【０１２２】図１９は、図１の文脈依存辞書検索部４０
の構造を示したブロック図である。図１９のブロック図
に示すように、文に存在している単語が入力部９００に
入力されると、その単語の項目を文脈に基づいて辞書か
ら選択するために、文脈から独立した単語に対応する語
根の形と品詞との組を求める形態素解析部９１０により
その単語は分析される。例として、単語 "left" に関
し、形態素解析部９１０は、語根の形と品詞との以下に
挙げるような数組のセットを出力する。すなわち、（"le
ft "," 形容詞"）、（"left "," 副詞"）、（"left ","
単数名詞"）、（"leave"," 過去形動詞"）を出力す
る。形態素解析部９１０は、英語のすべての単語のすべ
ての語形変化が列挙された表を調べることにより動作
し、その表の項目は、語根の形と品詞との数組のセット
から構成されている。また、同時に、文中の単語は、品
詞付けタッガー部９３０によって分析され品詞付けがな
され、品詞付けタッグ出力部９４０によって品詞付けが
なされる。ここで、品詞付けタッガー部９３０と品詞付
けタッグ出力部９４０とは、図２（ａ）に示した品詞付
けタッガー３２により構成するようにしてもよい。

【０１２３】例えば、単語が、文 "He left a minute a
go" の "left" であるならば、品詞付けタッガー部９３
０及び品詞付けタッグ出力部９４０は、品詞タッグ "過
去形動詞" を出力する。文脈に対応しない語根から、文
脈に対応する形態的語根を分離するために、対応／非対
応分割部９２０は、語根と品詞タッグとの数個の組を二
つのグループへ分割する。この二つのグループとは、品
詞付けタッグ出力部９４０から出力された品詞付けタッ
グに対応するグループと、品詞タッグ９４０に対応しな
いグループとである。それらのグループは、それぞれ、
文脈対応語根／品詞格納部９５０と、文脈非対応語根／
品詞格納部９６０とに出力される。

【０１２４】前述の例において、文脈に対応する語根と
品詞とのセットは（"leave"，"過去形動詞"）である。
文脈に対応しない語根と品詞との数組のセットは、（"l
eft "," 形容詞" ）、（"left "," 副詞" ）、（"left
"," 単数名詞" ）である。文脈に対応する項目を表示
するために、文脈対応語根／品詞格納部９５０に格納さ
れた語根と品詞とのセットに見られる語根に対応するす
べての項目が、辞書格納部９７０に格納された辞書内か
ら取り出され、文脈対応項目出力部９８０において表示
される。上記の例において、動詞 "leave" のすべての
項目は、文脈に関連する項目として表示される。文脈に
対応しない項目を表示するために、文脈非対応語根／品
詞格納部９６０に対応する語根と品詞との数組のセット
に見られる語根に対応する辞書格納部９７０内の辞書の
すべての項目は、文脈非対応項目出力部９９０において
表示される。すなわち、上記の例においては、形容詞、
副詞、および、単数名詞としての単語 "left" に関する
すべての項目が、文脈に関連のない項目として表示され
る。

【０１２５】このように、本システムにおいて、文脈に
基づいて辞書から単語の項目を選択する能力は、自国語
または非自国語の人々に対し、一言語辞書と二言語辞書
として使用出来ることは、お分かりであろう。本システ
ムは、文脈に関連させて、文中の単語に相当する可能性
のある項目だけを、辞書内から選択することが出来、従
って、ユーザが、どの項目がその単語に相当しているか
を確定するために、チェックしなければならない辞書内
の項目数を大幅に低減することができる。

【０１２６】以上説明してきたように、本発明の英文法
チェックシステム装置は、最初に、入力文の品詞につい
て品詞タッグ付けをし、次に正しくない文法について文
をチェックする。本システム装置は、文全体が正しいと
する確率に基づかず、むしろ、品詞系列が正しい順序で
ある確率に基づいて単語の用法を訂正するようにし、そ
れにより、正しくない単語の語形変化、不定冠詞の適切
な用法、不適切な大文字化、正しくない助動詞の順序、
不適切な限定詞をチェックするようにしたので、従来の
ように辞書のすべての単語を格納しておいてその辞書の
探索のみに頼るチェックシステムに比べ、少ない記憶容
量で文法チェックを確実に行うことができ、また、品詞
系列を考慮してチェックするため、ユーザが混同を起こ
し易い単語の誤用等も容易にかつ確実に訂正することが
できる。本システム装置は、また、英語の辞書の項目を
検索する場合に、文脈に基づいて検索して適当と思われ
る項目のみを提示するようにしたので、ユーザは辞書の
項目のうちの適当と思われる項目のみをチェックすれば
よいので、検索時間を短縮することができる。

【０１２７】特に、本システム装置は、語形変化チェッ
ク部において、文の品詞を考慮して、動詞の正しくない
活用形（"drove" の代わりに"drived"または"hit" の代
わりに"hitten"など) 、名詞の正しくない複数形（例え
ば"children"の代わりに"childs" ）、形容詞の正しく
ない比較級と最上級（例えば"better"の代わりに"goode
r")等をチェックするようにしたので、ユーザが単語の
語形変化を正確に知らない場合にも、的確に訂正するこ
とができる。

【０１２８】さらに、本システム装置は、不定冠詞訂正
部４２において、不定冠詞ａとａｎの正しい用法につい
て、３００語程度の例外を予め格納しておき、その例外
以外の単語について単純な所定の法則により判定するよ
うにしたので、すべての単語を格納していた場合に比べ
て、記憶容量を節約することができるとともに、正否判
断の処理時間も短くすることができる。

【０１２９】本システム装置は、また、限定詞訂正部３
６により、品詞に基づいて、その単語が、固有名詞か、
質量名詞か、集団称号名詞か、慣用句か等の判断によ
り、限定詞の不適切な使用を検出し、訂正するようにし
たので、限定詞の欠落、余分な限定詞、及び、限定詞と
名詞句との数の不一致等を確実にチェックすることがで
きる。このチェックには、冠詞"a" と"an"および"you
r", "theier","some" および"each"などに置き換えられ
るすべての単語の訂正が含まれる。

【０１３０】本システム装置は、そのほかの特徴とし
て、基本スペル復元部２８により、基本綴りを最初に復
元し、次に、スペルチェック部４４により、正しい大文
字化をチェックするようにしたので、より正確に大文字
化の正否を判断することができる。

【０１３１】また、図８に示したような非循環グラフを
使用して、本システム装置は、最初に誤り（"he has ac
cept this fact" など) を検出し、次に、複数の動詞の
列を適切な形（"he has accepted this fact"）に訂正
するようにしたので、より適切に訂正することができ
る。

【０１３２】さらに、本システム装置は、単語を辞書に
おいて検索する際に、文脈に基づいて判断し、適当と思
われる項目のみを提示するようにしたので、ユーザは、
その単語に関する辞書のすべての項目をチェックしなく
て済むため、検索時間を大幅に短縮することができる。

【０１３３】

【発明の効果】請求項１の発明によれば、分析手段によ
り、まず、文の単語に対して品詞付けを行ってから、そ
れに基づいて、不定冠詞訂正手段、上記大文字化チェッ
ク手段、限定詞訂正手段、語形変化チェック手段、助動
詞訂正手段、及び、辞書検索手段により、文の品詞列が
正しくなるように品詞列を考慮して、正しくない語形変
化、名詞の誤った単数形／複数形、形容詞の誤った比較
級及び最上級、不定冠詞の誤った用法、正しくない大文
字化及び基本綴り、正しくない助動詞、及び、間違った
限定詞等の単語の用法の訂正を行うようにしたので、従
来のように辞書のすべての単語を格納しておいてその辞
書の探索のみに頼るチェックシステムに比べ、少ない記
憶容量で文法チェックを確実に行うことができ、また、
品詞系列を考慮してチェックするため、ユーザが混同を
起こし易い単語の誤用等も容易にかつ確実に訂正するこ
とができる。また、本システム装置は、英語の辞書の項
目を検索する場合に、文脈に基づいて検索して適当と思
われる項目のみを提示するようにしたので、ユーザは辞
書の項目のうちの適当と思われる項目のみをチェックす
ればよいので、検索時間を短縮することができる。

【図面の簡単な説明】

【図１】実施例１における本発明の文法チェックシス
テム装置の全体の構成を示したブロック図である。

【図２】品詞検証部と第一の選択部との具体的な構成
を示したブロック図である。

【図３】不定冠詞訂正部に格納されているテーブル１
の単語を示した図である。

【図４】不定冠詞訂正部に格納されているテーブル２
の単語を示した図である。

【図５】不定冠詞訂正部の動作のフローを示したフロ
ーチャート図である。

【図６】助動詞訂正部の具体的な構成を示したブロッ
ク図である。

【図７】助動詞訂正部の具体的な構成を示したブロッ
ク図である。

【図８】一組の英語の正しい助動詞列を表した有向非
循環グラフ図である。

【図９】間違った助動詞列の訂正を提示する有向非循
環グラフ図である。

【図１０】語形変化チェック部の具体的な構成を示し
たブロック図である。

【図１１】語形変化チェック部の具体的な構成を示し
たブロック図である。

【図１２】限定詞訂正部の動作のフローを示したフロ
ーチャート図である。

【図１３】限定詞訂正部の動作のフローを示したフロ
ーチャート図である。

【図１４】限定詞訂正部の動作のフローを示したフロ
ーチャート図である。

【図１５】限定詞訂正部の動作のフローを示したフロ
ーチャート図である。

【図１６】基本スペル復元部の動作のフローを示した
フローチャート図である。

【図１７】基本スペル復元部の動作のフローを示した
フローチャート図である。

【図１８】基本スペル復元部の動作のフローを示した
フローチャート図である。

【図１９】文脈依存辞書検索部の具体的な構成を示し
たブロック図である。

【図２０】従来の文法チェックシステム装置の構成を
示したブロック図である。

【符号の説明】

１０入力部、１２キーボード、１４ＣＰＵ、１６
ワード処理装置、２０品詞分析部、２２品詞一致
確率決定部、２４品詞検証部、２６第一の選択部、
２８基本スペル復元部、３０語形変化チェック部、
３２助動詞訂正部、３４第二の選択部、３６限定
詞訂正部、３８単語挿入／削除部、４０文脈依存辞
書検索部、４２不定冠詞訂正部、４４スペルチェッ
ク部。

───────────────────────────────────────────────────── フロントページの続き (72)発明者アンドリュー・アール・ゴールディングアメリカ合衆国、マサチューセッツ州、ケンブリッジ、ファイブ・フロスト・ストリート、アパートメント１

Claims

【特許請求の範囲】

【請求項１】英文が入力される入力手段と、上記英文の単語を１単語ずつ分析し、その単語の品詞付
けを行って、上記英文に対応した品詞列を出力するため
の分析手段と、上記分析手段から出力される品詞列に基づいて、各単語
につき、最初の文字が大文字化されるべきか否かを判断
し、その誤りを訂正するための大文字化チェック手段
と、上記分析手段から出力される品詞列に基づいて、欠落及
び余分な限定詞を検出するとともに、限定詞とそれに対
応する名詞句との数の不一致を訂正するための限定詞訂
正手段と、上記分析手段から出力される品詞列に基づいて、上記英
文の文脈から上記単語の語形変化の正否を判断し、誤っ
た語形変化を検出する語形変化チェック手段と、上記分析手段から出力される品詞列に基づいて、誤った
助動詞列を検出し、訂正する助動詞訂正手段と、例外単語リストを有し、その単語リスト以外の単語につ
いて一定の所定の法則を適用させて、上記英文の不定冠
詞の正否を判断し、訂正するための不定冠詞訂正手段
と、英単語辞書を格納している辞書格納部と、上記分析手段から出力される品詞列に基づいて、上記英
文の上記単語に対し、上記英単語辞書内の適当と思われ
る項目のみを出力するための辞書検索手段と、上記大文字化チェック手段、上記限定詞訂正手段、上記
語形変化チェック手段、上記助動詞訂正手段、上記不定
冠詞訂正手段、及び／または、上記辞書検索手段からの
出力結果を提示するための提示手段と、を備えたことを特徴とする英文法チェックシステム装
置。