JPH07325825A - 英文法チェックシステム装置 - Google Patents

英文法チェックシステム装置

Info

Publication number
JPH07325825A
JPH07325825A JP7134159A JP13415995A JPH07325825A JP H07325825 A JPH07325825 A JP H07325825A JP 7134159 A JP7134159 A JP 7134159A JP 13415995 A JP13415995 A JP 13415995A JP H07325825 A JPH07325825 A JP H07325825A
Authority
JP
Japan
Prior art keywords
word
speech
sentence
noun
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7134159A
Other languages
English (en)
Inventor
Shiyabizu Ibu
イブ・シャビズ
Roshiyu Emaniyueru
エマニュエル・ロシュ
Aaru Goorudeingu Andoriyuu
アンドリュー・アール・ゴールディング
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPH07325825A publication Critical patent/JPH07325825A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 少ない記憶容量で、迅速かつ的確な文法チェ
ックを行うことができる文法チェックシステム装置を得
る。 【構成】 言語要素分析部20により、最初に文の各単
語に品詞付けし、品詞列に基づいて、助動詞訂正部3
2、限定詞訂正部36、語形変化チェック部30、不定
冠詞訂正部42、スペルチェック部44等により、品詞
列が正しくなる方向に、単語の用法を訂正する。また、
文脈感知辞書探索部40により、文脈に基づいて、その
単語に該当し得る辞書項目のみを提示する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は英文法チェックシステム
装置に関し、特に、文法上の誤りをより正確に提示し、
過度に訂正することなくその誤りを訂正する多様な文法
チェックモジュールを用いている英文法チェックシステ
ム装置に関する。
【0002】
【従来の技術】一般的な従来の英文法チェックシステム
は、例えば、図20に示した米国特許4,868,75
0号公報に記載されているような、入力された文をデジ
タル符号化し、予め格納されている辞書を単に検索する
ことによりその文の文法チェックを行うようなものを意
味する。図20のシステムを説明すれば、自然言語で構
成されデジタル符号化された文章が入力部4に入力され
ると、文分割部6によって、その文章が文(センテン
ス)単位に分割される。文法処理部1がCPU2の制御
により、辞書格納部8に予め格納されている単語の辞書
及び例外データベース部7に格納されている例外的な単
語とを検索することにより、それらの文の文法チェック
を行い、メッセージ出力部9により、正しいと思われる
単語の出力を行う。
【0003】
【発明が解決しようとする課題】このようなシステムに
付随する最も面倒な問題の一つは、システムがメッセー
ジを提示するときに、誤ったメーセージを提示する確率
が非常に高いことである。このかなり高い誤り率の原因
は、このシステムの文の不正確な分析に起因しているこ
とが多い。また、文の分析は正しかったとしても、この
ようなシステムにおいては、正しくない単語を提示する
ことがしばしばある。
【0004】また、「文全体が正しい」という確率に基
づいて、文を分析しようと試みる種類の従来のシステム
もある。このようなシステムの最も大きい問題は、これ
らのシステムが、現在のパーソナルコンピュータと関連
メモリの能力を超えた処理能力と記憶容量とを必要とす
ることである。
【0005】トレーニングコーパスに基づいて文を分析
することにより正しくない文法を検出しようとする他の
従来の文法チェックシステムもあるが、これらのシステ
ムを無理に使用しようとすると、これらのシステムは、
大容量の記憶手段と高速度処理とを必要とするため、個
人の計算環境で使用することは出来ないことが多い。
【0006】実例によれば、従来の文法チェックシステ
ムにおいては、"a" と "an" などの不定冠詞を挿入し損
なうことが多く見られるが、これは、英語圏以外の外国
言語圏の人々がこのようなシステムにより翻訳しようと
する場合には、大きな問題となる。
【0007】また、文法または上述の冠詞の使用に精通
していない人により文が作成されていた場合には、上述
したような "the"、"a" または "an" などの適切な冠詞
を挿入する能力に欠けていることは非常に重要なことと
なる。その上、従来の文法チェックシステムが行う共通
の誤りとして、複数の動詞が連続して用いられている文
において不適切な順序でそれらの動詞が並んでいること
を認識しないことが挙げられる。一つの文において複数
の動詞が使用されることがあるが、多くの外国言語圏の
人々は、"He has recognize that something exists."
というような間違いを慣例的に行う。ここで、"has" は
動詞であり、"recognize" も動詞である。しかしなが
ら、この場合、実際には、“has”は次にくる過去分詞
とともに現在完了形を作るための助動詞であり、従っ
て、正しくは、"recognize" の代わりに、"recognize"
の過去分詞 "recognized" を用いなければならない。こ
のように、複数の動詞が用いられる場合、明らかに誤っ
て用いられていることがしばしばある。
【0008】さらに、最も重要な問題は、いわゆる限定
詞と呼ばれるものに起因して起こるものである。例え
ば、文 "I have cigarette" は明らかに限定詞 "a" が
名詞 "cigarette" の前に欠落している。同様に、"som
e" または "a few" などの限定詞も欠落することがしば
しばある。上述の文は、"I have a few cigarettes" の
意味であるとも解釈され得るが、ここで留意すべきこと
は、同一の文が名詞を複数形にすることにより、例え
ば、"I have cigarettes" というようにすることによ
り、限定詞が欠落していても正しく構成することが出来
るということである。
【0009】従来のスペルチェッカーまたは従来の文法
システムのいずれかにより訂正することができない他の
典型的な文法の誤りとして、誤った語形変化、すなわ
ち、現在形、過去形及び過去分詞等が正しく訂正されな
いということが挙げられる。正しくない動詞の語形変化
の例では、例えば、"I drived to the market" などの
文の動詞の語形変化は殆ど訂正されない。ここで、正し
くは、"drived”ではなく、"drove”と訂正されるべき
である。
【0010】上記のような問題は、言語の慣用句と規則
に精通していない外国語圏の人から見るとかなり重要な
問題となる。特に英語では、文法上の規則は思っている
ほどシンプルなものではなく、また、正しい文法は、そ
の言語を使用している自国語圏の人々すら精通していな
いような慣用句や規則をも含んでいる。
【0011】従って、英語圏以外の人によりなされる最
も頻度の高い誤りを考慮した文法チェックシステムを提
供することはたいへん重要なことである。例えば、日本
語圏の人が英訳するときに通常よく行ってしまう誤りに
は、主流となるものがあり、これらは予測することが出
来、従って、文法チェックシステムにより訂正すること
が出来得るものである。同様に、フランス語または例え
ばイタリア語及びスペイン語のようないわゆるロマンス
語のすべてにおいても、それらを英訳する際にいくつか
の特有の誤りがなされるが、これらも検出及び訂正し得
るものである。
【0012】また、一般的に、従来の構文認識システム
において処理できるのは、明確に定義された少ない語彙
からなるような文の処理、または、限定された範囲の構
文のみから構成されたより一般的な文の処理に限定され
てきた。語彙または構文の範囲を拡張するには、さら
に、複雑な構造と、より多数の認識ルールとが必要とな
り、これは、システムを非常に大規模なものにするか、
または、複雑なものとなって、ユーザが扱いにくいもの
になってしまうため、従来は、広く普及し得る安価な扱
いやすいシステムを提供することはできなかった。
【0013】文脈上の誤りを検出して訂正するための他
の従来の一般的なシステムについては、例えば、米国特
許公報第4,674,065に記載されている。このシ
ステムは、単語使用確認に関し文書を校正し、文を処理
するためのものであり、数組の異形同意義語と混同され
る単語との特殊な辞書と、正しい単語用法が統計的に決
定される数組のダイグラム及びnグラムとを組み合わせ
ることにより行われる。前述したように、言語の各単語
に対し、単語を統計的に処理することは、かなり大きい
トレーニングコーパスと高速度計算とを必要とし、個人
的計算用途としてはかなり扱いにくいものである。その
上、このシステムにおいては、同音語という意味で混同
される単語については検出するが、同音でなく一般的に
用いる際に混同される可能性のある単語についての訂正
を行うことはできない。
【0014】米国特許4,830,521号公報には、
スペルチェック機能と固有名詞認識機能とを有する電子
タイプライターに関するものについて記載されている。
名詞認識に伴う問題は、固有名詞認識において、正確、
あるいは、正確でない大文字を使用した文字に起因する
ものがその中心となっている。最も重要なこととして、
単語の最初の文字を大文字にすることは文中のどの単語
においても行われ得ることであるにもかかわらず、この
公報におけるタイプライターにおいては、大文字化の機
能を用いるか否かを決定するために、その単語が文にお
いて最初の単語であるかどうかだけにつき調べて、行っ
ている。そのため、このタイプライターにおいては、文
中に固有名詞等の単語の最初が大文字になるべきものが
小文字になっていた場合には、訂正することができな
い。
【0015】さらに、他の技術的背景を示す参考とし
て、以下の米国特許を挙げることができるが、これら
は、スペル訂正を主とする文法上の問題を解決してい
る。それらの特許は、米国特許第5,218,536号
公報、第5,215,388公報、第5,203,70
5号公報、第5,161,245号公報、第5,14
8,367号公報、第4,995,740号公報、第
4,980,855号公報、4,915,546号公
報、第4,912,671号公報、第4,903,20
6号公報、第4,887,920号公報、第4,88
7,212号公報、第4,873,634号公報、第
4,862,408号公報、第4,852,003号公
報、第4,842,428号公報、第4,829,47
2号公報、第4,799,191号公報、第4,79
9,188号公報、第4,797,855公報、およ
び、第4,689,768号公報である。
【0016】また、米国特許第5,224,038号公
報、第5,220,503号公報、第5,220893
号公報、第5,164,899号公報、第5,111,
389号公報、第5,029,085号公報、第5,0
83,268号公報、第5,068,789号公報、第
5,007,019号公報、第4,994,966号公
報、第4,974,195号公報、第4,058,28
5号公報、第4,933,896号公報、第4,91
4,590号公報、第4,816,994号公報および
第4,773,009号公報なども従来例として挙げら
れるが、これらは文分析を扱っているものである。これ
らの特許におけるシステムは、与えられた自然言語によ
る文書を作成することを余儀なくされている外国語圏の
人が要求するレベルでの文法チェックが行えるものでは
ない。また、これらの特許は、外国語圏の人のための文
法チェックと英語用法とに特に限定されていない一般的
なシステムに関するものである。
【0017】また、辞書の符号化をいかに効率よく行う
かに関する米国特許も多数存在している。それらの特許
は、米国特許第5,189,610号公報、第5,06
0,154号公報、第4,949,785号公報、およ
び、第4,782,464号公報である。しかしなが
ら、辞書の符号化は、文法を正確にチェックするシステ
ムを定形化するための一段階に過ぎない。
【0018】この発明は、かかる問題点を解決するため
になされたものであり、特に英語圏以外の外国語圏の人
が犯しやすい英文法の誤りをも的確に検出するととも
に、記憶容量の節約が可能で、英文法チェックの処理時
間を短くすることができる英文法チェックシステム装置
を得ることを目的とする。
【0019】
【課題を解決しようとする手段】請求項1の発明は、英
文が入力される入力手段と、英文の単語を1単語ずつ分
析し、その単語の品詞付けを行って、上記英文に対応し
た品詞列を出力するための分析手段と、分析手段から出
力される品詞列に基づいて、各単語につき、最初の文字
が大文字化されるべきか否かを判断し、その誤りを訂正
するための大文字化チェック手段と、分析手段から出力
される品詞列に基づいて、欠落及び余分な限定詞を検出
するとともに、限定詞とそれに対応する名詞句との数の
不一致を訂正するための限定詞訂正手段と、分析手段か
ら出力される品詞列に基づいて、英文の文脈から単語の
語形変化の正否を判断し、誤った語形変化を検出する語
形変化チェック手段と、分析手段から出力される品詞列
に基づいて、誤った助動詞列を検出し、訂正する助動詞
訂正手段と、例外単語リストを有し、その単語リスト以
外の単語について一定の所定の法則を適用させて、英文
の不定冠詞の正否を判断し、訂正するための不定冠詞訂
正手段と、英単語辞書を格納している辞書格納部と、分
析手段から出力される品詞列に基づいて、英文の単語に
対し、英単語辞書内の適当と思われる項目のみを出力す
るための辞書検索手段と、大文字化チェック手段、限定
詞訂正手段、語形変化チェック手段、助動詞訂正手段、
不定冠詞訂正手段、及び/または、辞書検索手段からの
出力結果を提示するための提示手段と、を備えた英文法
チェックシステム装置である。
【0020】
【作用】請求項1の発明において、分析手段により、ま
ず、文の単語に対して品詞付けを行ってから、それに基
づいて、不定冠詞訂正手段、上記大文字化チェック手
段、限定詞訂正手段、語形変化チェック手段、助動詞訂
正手段、及び、辞書検索手段により、文の品詞列が正し
くなるように品詞列を考慮して、正しくない語形変化、
名詞の誤った単数形/複数形、形容詞の誤った比較級及
び最上級、不定冠詞の誤った用法、正しくない大文字化
及び基本綴り、正しくない助動詞、及び、間違った限定
詞等の単語の用法の訂正を行う。
【0021】
【実施例】
実施例1.図1は、本発明の英文法チェックシステム装
置(以下、本システムとする)の構成を示したブロック
図である。英語圏以外の外国語圏の人々にとって、コン
ピュータに精通している人でないにしても、入力した文
の即時の文法チェックが、正確に、かつ、容易に提供さ
れることは、言うまでもなく、たいへん有意義なことで
ある。文法チェックを行うために、まず始めに、図1に
おいて、入力文は、キーボード12を介してワード処理
装置16内のCPU14へ入力され、CPU14の制御
により入力部10に入力される。
【0022】入力された文の言語の各構成部分が正確に
判定されることは、信頼性の高い文法チェックを行うこ
とにとって重要なことである。従来の文法チェックシス
テムは、入力文をそのまま使用してきたが、本発明にお
いては、品詞列が得られるように、入力文を品詞単位に
分解する。これは、品詞分析部20により実行される。
この品詞分析部20は、例えば、1988年オースチ
ン、テキサスにおける第2回応用自然言語処理会議(th
e Second Conference on Applied Natural Language Pr
ocessing)の会報誌中の "自由文に関する確率的構成プ
ログラムと名詞句分析(A Stochastic Parts Program a
nd Noun Phrase Parser for UnrestrictedText)" と題
して記載されたケネス・チャーチ(Kenneth Church)の
推測的要素プログラムを実行すれば実施可能である。品
詞分析部20による品詞列の取り出し結果は、例えば、
入力文が "I heard this band play" の場合、"代名詞
(PRONOUN)、動詞(VERB)、限定詞(DETERMINER)、
名詞(NOUN)、動詞(VERB)" となる。
【0023】品詞を単に取り出すことが、その取り出さ
れた品詞が適切な文を反映しているとは確実には保証さ
れていない。そのため、正しい文を分析し、構成するた
めに、取り出した品詞列が正しい単語列に一致している
確率を確認することが重要である。そこで、本システム
においては、入力文の品詞列が正しい単語列に一致して
いる確率を求めるために、品詞分析部20の出力を、品
詞一致確率決定部22へ入力する。この品詞一致確率決
定部22の出力は、後述する各種のモジュールに入力さ
れ、そこで入力文の分析に使用される。
【0024】各モジュールについて説明する。最初のモ
ジュールである、品詞検証部24は、品詞一致確率決定
部22から出力された品詞列の一致確率に基づいて、一
組の混同され易い単語もしくは文から正しいと思われる
方を選択する。一つの実施例として、例えば、所定のし
きい値を予め決めておき、品詞列の一致確率がその所定
のしきい値を超えるか否かにより、正しい単語もしくは
文の選択を決定するようにする。正しい文の選択は、第
一の選択部26により行われ、その第一の選択部26へ
は、入力部10に入力された入力文のみならず種々の文
の確率が入力される。動作等についての詳細は後述する
が、第一の選択部26は、容易に混同され得る単語のリ
ストを備えている。
【0025】2つ目のモジュールである基本スペル復元
部28は、単語の基本綴りを決定するために使用され
る。従来のスペルチェッカーは、スペル照合のための検
索テーブルを使用するが、それらはスペルの最初の文字
の大文字化を考慮していないため、綴りが合っているに
もかかわらず、最初の文字が大文字であるために誤って
スペリングエラーとして表示されてしまうので、ユーザ
にとっては使いにくいものであった。綴りが適切である
ことを前提としている従来の文法チェックシステムにお
いては、単語、文、または、頭字語の初頭における大文
字化によって誤って判断されることがしばしばある。
【0026】より信頼出来るスペルチェックと文法訂正
を行うために、この発明における基本スペル復元部28
は、大文字化された単語を "混同される単語" として扱
うようにした。その場合には、上記の品詞一致確率決定
部22において、例えば、ブラウンのコーパス等のトレ
ーニングコーパスに基づいて、一つのカテゴリまたは他
のカテゴリにその大文字化された単語がある確率を出力
するようにすればよい。詳細については後述する。
【0027】従来の言語処理システムは、単語は、普通
の名詞または適切な名詞であるが、その両方ではないと
言う制約を課して、単語の基本綴りを復元してきたが、
本発明の基本スペル復元部28は、各単語を分類するた
めに、文章の前後関係と予め設定されたその単語が使用
される確率とを使用している。これは、単語の大文字化
された形と大文字化されない形のいずれの綴りで用いら
れる方が高い確率を有するかを用いて、大文字化された
形と大文字化されない形の単語を伴う文を分析する。そ
の結果、単語は、その単語が使用される確率が高い方の
文における綴りを有するものと分析される。そのように
して、最も可能性の高い綴りを再生すると、基本スペル
復元部28の出力は、語形変化チェック部30へ入力さ
れる。この語形変化チェック部30は、従来のスペルチ
ェッカーまたは特定の外国語圏の人に合わせたスペルチ
ェッカーのいずれを用いるようにしてもよい。
【0028】3つ目のモジュールとして、助動詞訂正部
32もまた、品詞一致確率決定部22からの出力を必要
とする。助動詞の訂正における問題は、文中の複数の動
詞のいくつかが不適切である場合に発生する。これは、
正しくない時制が使用されている場合、複数の動詞の列
に起こり得る。例えば、文 "he would living" は二つ
の動詞 "would" と "living" とを有する。この文の正
しい形は、"he wouldlive" である。従って、動詞 "liv
e" の時制は訂正される必要がある。
【0029】これを行うために、助動詞訂正部32は、
すべての正しくない助動詞列を検出し、次に、それの訂
正を提案する。これは最初に、一組の定形動詞列を記述
している、有向非循環グラフを使用して行われる。正し
い動詞列を確定する前に、上記のように品詞一致確率決
定部22により行われた正しい品詞を正確に識別するこ
とが重要であることが分かるであろう。動作の詳細につ
いては後述する。助動詞訂正部32の出力は、適切なほ
かの文を提示する第二の選択部34へ入力される。
【0030】品詞一致確率決定部22からの出力を使用
している4つ目のモジュールは、限定詞訂正部36であ
る。この限定詞訂正部36の目的は、名詞句の対象を決
定する単語について訂正することである。限定詞の例と
しては、例えば、"the"、"a"、および "some" などの単
語がある。この限定詞訂正部36により検出され、訂正
される誤りには、三つのクラスがあり、それらは、限定
詞の欠落、余分な限定詞、および、限定詞と名詞との一
致の欠如である。
【0031】限定詞の欠落の例としては、例えば、"Joh
n read book" であり、ここでは、"the" が除かれてい
る。余分な限定詞の例としては、例えば、"John went t
o theNew York" が挙げられ、"the" は削除されなけれ
ばならない。限定詞と名詞の一致の欠如の例は、例え
ば、文 "John read many book" において明らかであ
り、名詞 "book" は限定詞 "many" と一致させて複数化
されなければならない。不適切な限定詞を検出するため
に、言語要素の品詞付けは、名詞句を識別出来るよう
に、識別されている。このシステムは、どの品詞列のタ
グが妥当な名詞句を構成するかを明確にしている定常的
な表現と整合させることにより、名詞句を識別する。こ
れの動作についても後述する。
【0032】本システムは、名詞句が限定詞を欠落して
いるか否かを確認するために、各名詞句を調べる。この
工程の一部として、先頭名詞が最初に検出され、次に、
この先頭名詞が、質量名詞、集団称号名詞、または、慣
用句であるか、あるいは、この先頭名詞が限定詞を欠如
しているか、の決定を行う。次に、このシステムは、名
詞句が余分な限定詞を持っているか、いないかを確認す
るために、各名詞句を調べる。最後に、このシステム
は、限定詞と名詞句の先頭名詞が数において一致してい
るか否かを調べる。この結果、単語挿入/削除部38に
おいて、単語の挿入、削除、または、置き換えが行われ
る。
【0033】さらに、不定冠詞訂正部42は、入力部1
0に入力された入力文に基づいて、不定冠詞 "a" と "a
n" の用法を訂正する。
【0034】品詞列の正確性は、文脈依存辞書検索部4
0においても有効である。一般に、与えられた単語は複
数の品詞を有するが、それは文脈から得ることが出来、
それらの各単語は、辞書の小項目と対応する。文脈依存
辞書検索部40は、辞書を検索し、品詞分析部20によ
り得られた単語の品詞に基づいて適切な定義を選択す
る。例えば、単語 "love" は名詞としても動詞としても
用いられ、また、名詞 "love" は辞書に多くの異なる項
目を有し、動詞 "love" も同様である。入力文が"She w
as my first love" とすると、単語 "love" は、品詞分
析部20により名詞として識別され、文脈依存辞書検索
部40により、名詞 "love" に関する辞書の項目と動詞
"love" の項目とが選択される。
【0035】単語の基本綴りが基本スペル復元部28に
より復元された場合、この基本綴りは語形変化チェック
部30による語形変化の訂正について使用されるだけで
なく、通常のスペルチェック部44においても使用され
る。このようにして、本システムは、正しくない配列の
提示を示すだけでなく、スペルチェック工程において頭
字語をスペリングエラーとして検出しないようにするこ
とが出来る。以下、上述した各モジュールの具体的動作
について説明する。
【0036】ここで、入力部10とキーボード12と
が、文が入力される入力手段を構成しており、品詞分析
部20と品詞一致確率決定部22とが、文の単語を1単
語ずつ分析し、その単語の品詞付けを行って、その文に
対応した品詞列を出力するための分析手段を構成してお
り、不定冠詞訂正部42が、例外単語リストを有し、そ
の単語リスト以外の単語について所定の法則を適用させ
て、不定冠詞の正否を判断し、訂正するための不定冠詞
訂正手段を構成しており、基本スペル復元部28が、分
析手段から出力される品詞列に基づいて、最初の文字が
大文字化されるべき単語か否かを判断し、その誤りを訂
正するための大文字化チェック手段を構成しており、限
定詞訂正部36が、分析手段から出力される品詞列に基
づいて、欠落及び余分な限定詞を検出するとともに、限
定詞とそれに対応する名詞句との数の不一致を訂正する
ための限定詞訂正手段を構成しており、語形変化チェッ
ク部30が、分析手段から出力される品詞列に基づい
て、文の文脈から上記単語の語形変化の正否を判断し、
誤った語形変化を検出する語形変化チェック手段を構成
しており、助動詞訂正部32が、分析手段から出力され
る品詞列に基づいて、誤った助動詞列を検出し、訂正す
る助動詞訂正手段を構成しており、文脈依存辞書検索部
40が、辞書を格納している辞書格納手段と、分析手段
から出力される品詞列に基づいて、文の文脈から単語の
辞書内の該当し得る項目のみを出力するための辞書検索
手段とを構成しており、ディスプレイ16aが、不定冠
詞訂正手段、大文字化チェック手段、限定詞訂正手段、
語形変化チェック手段、助動詞訂正手段、及び/また
は、辞書検索手段からの出力結果を提示するための提示
手段を構成している。
【0037】a)品詞確率に基づく文法訂正 従来においては、前述のいくつかの文法チェックシステ
ムは、いくつかの面倒な単語、特に、同音でスペルが異
なる単語の不適切な使用を訂正することにより、英語の
用法を訂正しようとした。そのような単語の例として
は、例えば、"too"、"to"、"two" や、"their"、"they'
re"、"there" 等がある。ほかの共通した間違いとして
は、ある同音の単語が、例えば、"maybe" と "may be"
などのように、一つの単語もしくは二つの単語からなる
ことがあるということに起因して起こるものがある。ま
た、発音は類似しないものの、例えば、"which" と "wh
ose"のようにしばしば誤用されるものがあり、これらに
起因する問題もある。
【0038】従来においては、適切な用法をチェックす
るために、文の文法性が、英文を作成する際に、その文
が作成される確率として計算された。このような統計的
方法においては、文法的に正しい文に高い確率を与え、
文法的でない文には低い確率を与える。この統計は、英
語文の集成でトレーニングするか、トレーニングコーパ
スにより得られる。この体系は正しい用法を定義する。
その結果、文がこのような文法チェックシステムへ入力
されると、このコーパスと相互関係にある文全体の確率
が、計算される。ここで、全英語の語彙、約60,00
0単語を処理対象とするためには、数百兆の単語のコー
パスが使用されなければならないことは、分かるであろ
う。その上、莫大な数の確率値がコンピュータに記憶さ
れなければならない。従って、文全体を分析する作業
は、非常な計算量と記憶領域とを必要とする。
【0039】本システムにおいて、正しい用法を確定す
るためには、取り出された品詞列の確率による。このた
めに、ユーザは、本システムがどの程度の精密さである
かに依存して、100〜400の品詞があることを考慮
することが出来る。これは、数百万兆単語に対し、数百
万単語のトレーニングコーパスへ変換される。このタイ
プの分析は、ワード処理に使用されるものを含む標準的
計算プラットフォームにおいて容易に行われる。
【0040】上述したように、本発明のシステムでは、
入力された文は最初に、図1の品詞分析部20により、
品詞へ分解される。例えば、文 "I heard this band pl
ay"は次のように分析される。代名詞(PRONOUN)、動詞
(VERB)、限定詞(DETERMINER)、名詞(NOUN)、動詞
(VERB)。この品詞列の確率は、この文をコーパスと比
較することにより、品詞一致確率決定部22により決定
される。しかしながら、いわゆるトリグラム(三重文
法)を考慮しなければ、これは実行可能ではない。トリ
グラムとは、入力文の中で連続して置かれた三つの品詞
である。三つの連続した品詞の分析は、正しさを確定す
るのに十分である。それは、ある文が正しい用法から成
っているのを確定するために使用されるこれらのトリグ
ラムの確率である。このようにして、文全体をチェック
するよりむしろ、三つの隣接した品詞の確率は、トレー
ニングコーパスから計算される。
【0041】二つの文のうち、一方が他方の文と混同さ
れると仮定すれば、どちらが正しい用法であるかを決定
することは上記の方法により可能である。上記システム
は、高い正確率でこれを決定するので、二つの利益があ
る。第一の利益は、二つの文のどちらが正しいかを明確
に確認することができることである。第二の利益は、正
しい文を確定し、それの品詞を、さらなる処理のための
他の文法チェックモジュールにより使用することが出来
るということである。
【0042】図2のブロック図に示すように、30で示
された入力文S1は、品詞付けタッガー32(以下、タ
ッガー32とする)に入力されるとともに、混同される
単語のリスト36に接続された候補文生成部34へ入力
される。タッガー32により、入力文S1は、図中の3
8で示されるように、最も可能性のある品詞列T1とそ
の確率P1へ分解する。ここで、この確率P1とは、文
全体が正しくなるような確率ではなく、品詞系列が正し
くなる確率である。これは、例えば、上述したチャーチ
のプログラムによるアルゴリズム等により行われ、この
場合、最も可能性のある品詞列は、すべての重なってい
る三重の品詞の確率の最も可能性のある積を計算するこ
とにより得られる。
【0043】入力文S1内の単語のいくつかが、容易に
混同される単語のリスト36内の単語であった場合、入
力文1に対する候補文S2のすべては、リスト36によ
って作成される。すなわち、候補文S2とは、入力文S
1をユーザが作成する際に、単語を混同させて、候補文
S2と本当はすべきところを間違えて入力文S1として
しまった可能性を有するものである。候補文生成部34
から出力された候補文S2は、タッガー32へ送られ、
40において示されているような最も可能性のある品詞
列T2とその確率P2とを、上述の品詞列T1とその確
率P1とを計算したアルゴリズムにより生成する。
【0044】38と40における入力文S1と候補文S
2との確率P1とP2とを取り出し、どの品詞列が正し
く最も可能性があるかを決定することは重要である。そ
のため、本システムにおいては、選択されるべき適切な
文を決定するために、確率判定部42において、確率P
2を確率P1と比較し、P2−P1が予め設定された所
定のしきい値εより大きいならば、入力文S1を候補文
S2に置き換えた方が正しい可能性が高いと判断され、
候補文S2提示部44により、候補文S2がユーザに提
示される。P2−P1<=εならば、入力文S1を変更
する必要はないと判断され、入力文S1無変更提示部4
6により、入力文S1の無変更が提示される。ここで、
候補文S2提示部44と入力文S1無変更提示部46と
は、図2(a)に示したように、特に別個に設ける必要
はなく、1つの提示部として構成するようにしてもよ
い。尚、提示方法としては、例えば、図1に示すワード
処理装置16のディスプレイ16aに表示するようにす
ればよい。
【0045】具体的な例を挙げれば、例えば、入力文が
"I want to here this band" とすると、ここで、"her
e" が、正しい単語 "hear" の代わりに誤用されてお
り、二つの文、すなわち、入力文S1 "I want to here
this band" と候補文S2 "Iwant to hear this band"
とを比較する必要がある。
【0046】これらの二つの文を比較するための従来の
方法として、英文における統計的モデルを与えられたそ
れらの文の全体の確率を比較することを試みるという方
法がある。この方法は、例えば、エーリック・メイズ、
フレッド・デイマローおよびロバート・マーサーにより
品詞について探究され、これは、"情報処理と管理(Inf
ormation Processing and Management)"(27
(5):517−422、1991年)に "文脈に基づ
くスペル訂正(Context Based Spelling Correction)"
の名称で発表されているものの、これは非常に高価な
システムになってしまい、40,000単語より多い語
彙を必要する非制約文を扱う場合には、標準のコンピュ
ータではまず実行不可能である。文の確率を直接に計算
するには、莫大な量のトレーニングデータ、例えば、最
小400,000,000のトレーニング用単語と非常
に多量の記憶スペースとを必要とする。そのため、現実
問題として使用することは出来なかった。
【0047】対照的に、図2(a)に示された本システ
ムにおいては、与えられた入力文の最も可能性のある品
詞列と混同され易い文の品詞列との確率を比較する。例
えば、文 "I want to here this band" の確率を計算す
る代わりに、このシステムは、文の最も可能性のある品
詞列、例えば "代名詞(PRONOUN)、動詞(VERB)、T
O、副詞(ADVERB)、限定詞(DETERMINER)、名詞(NOU
N)" を取り出し、その入力文のこの品詞列の確率を計
算する。同様に、このシステムは、"I want to hear th
is band" の最も可能性のある品詞列、例えば、“TO"
の後には “動詞"がくる可能性が高いため、"代名詞(P
RONOUN)、動詞(VERB)、TO、動詞(VERB)、限定詞
(DETERMINER)、名詞(NOUN)" を取り出し、その品詞
列の確率を計算する。次に、このシステムは、それらの
確率を比較することにより、"here"と "hear" とからど
ちらが使用される可能性が高いかを決定する。
【0048】上記確率を直接比較する例を示したが、さ
らに好適な実施例としては、その単語の長さを考慮に入
れて確率を比較するようにするようにしてもよい。すな
わち、図2(b)の確率判定部42’に示すように、入
力文S1内の単語数で上記の確率P1の対数を割った値
と、候補文S2内の単語数で上記の確率P2の対数を割
った値とを比較することにより、それらの確率の幾何学
的平均を比較する。これは、単一の単語が、"maybe"
と"may be" などのように、単語列と混同される場合に
有益である。図2(a)に示したように、品詞列の確率
を直接に比較することは、統計的言語モデルは長文に対
して低い確率を与えるため、必ずしも正しい結果が得ら
れるとは限らないので、図2(a)の実施例は、長い文
よりも短い文のときに有効である。
【0049】混同される単語のリスト36に挙げられた
典型的な単語として、例えば次の単語がある。to,too,t
wo、I,me、its,it's、their,they're,there、whose,whi
ch、then,than、whose,who's、our,are、hear,here、pa
st,passed、accept,except、advice,advise、lose,loos
e、write,right、your,you're、affect,effect、およ
び、maybe,may be などがその例として挙げられる。
【0050】なお、本システムは、これらに限らず、他
の混同され得る単語にも適用することができ、また、他
の言語、例えば、フランス語、イタリア語およびスペイ
ン語などにも使用することが出来る。タッガー32によ
る品詞付けタッグがチャーチのアルゴリズムによる方法
により、即ち、トリグラムモデルにより実行されるた
め、本方法は一般的に用いられることが可能である。
【0051】さらに、正しい可能性がより高い文を選択
する図2(a)と2(b)のシステムは、文の文法性に
ついての他の判断を確かめる場合においても重要であ
る。上記のシステムは、文を品詞へ分解するためのより
優れた信頼性のある形態を備えている。
【0052】文を訂正するために、文を品詞へ分解する
ことができることは、第一に重要なことである。文法チ
ェッカーがどの程度正確に動作するかは、この分解処理
の正確さに密接に依存している。より信頼性のある品詞
を生成することにより、文法チェックの最終結果の信頼
性をより高く向上させることが出来る。
【0053】以上のように、本システムにおいては、文
全体が正しくなるような確率に基づいてではなく、文を
品詞に分解して、その品詞系列が正しくなるような確率
に基づいて単語の用法の訂正を行うようにしたので、単
語を一つずつチェックして確率を計算していた従来の方
法に比べ、少ない記憶容量を用いて迅速な処理が行え、
かつ、品詞系列に基づいて判定するため、上述したよう
なユーザが混同し易い単語をその品詞においても判断す
るため、誤りをより確実に見つけることができ、信頼性
の高い文法チェックを行うことができる。
【0054】b)不定冠詞 "a" と "an" の訂正 外国語圏の人々に高い頻度で起こる間違いは、不定冠詞
"a" と "an" の誤用である。英語の法則は、不定冠詞
"a" は、最初が子音で発音される単語の前に使用さ
れ、"an" は、最初が母音で発音される単語の前に使用
されなければならないと定められている。英語の法則を
単純に適用すると "a" または "an" の次にくる単語の
最初の文字が母音字であるか、子音字であるかを調べる
ことになる。しかしながら、それは、最初が子音で発音
されるほとんどの単語は最初が子音字(母音のときは母
音字)で綴られているが、必ずしもそうではないことが
考慮されていないことになる。例えば、単語 "hour"
は、最初の子音字(h)を有するが、母音(例えば、o
w)に相当する最初の音で発音される。同様に、単語 "
European" は、最初の母音字(文字 "E") で始まるが、
子音字(例えば、"ye")に相当する最初の音で発音され
る。
【0055】この問題の従来の解決策は、すべての英語
の単語の発音の辞書を記憶格納させて対応してきた。し
かしながら、これらの解決策は正しくないわけではない
が、英語言語のすべての単語を多量に記憶することを必
要としている。
【0056】従来用いていたような英語のすべての単語
に関する大容量の辞書を使用せずに、本システムにおい
ては、法則の例外の単語を予め格納しておき、その例外
例の中にその単語が見当たらない場合にのみ単純な法則
を適用するようにした。法則の例外は、二つの小さい検
索テーブルに格納されており、その1つは、図3のテー
ブル1に示すように、母音字で始まるが、最初の発音が
子音で発音される単語を格納したものであり、他方は、
図4のテーブル2に示すように、子音字で始まるが、最
初の発音が母音で発音される単語を格納したものであ
る。従来の方法において用いられていた辞書は、60,
000語の単語を備えていたが、それに対して、本シス
テムのこれらの検索テーブルは、わずか300語以下の
少ない単語を格納している。以上のように、不定冠詞の
正しい用い方を決定する場合において重要なのは、不定
冠詞の次にくるその単語を発音する時に発せられる最初
の音であることが、分かるであろう。尚、テーブル1及
びテーブル2は、例えば、図1で示した不定冠詞訂正部
42内に格納するようにすればよい。
【0057】上述したテーブル1およびテーブル2のよ
うな有限な例外リストを最初に確定すると、次の三つの
法則が適用される。最初の法則は、不定冠詞 "a" また
は"an" に続く単語が、文字 "eu" で始まる場合に適用
される。この場合は、不定冠詞"a" が使用されなければ
ならない。第二の法則は、不定冠詞 "a" または "an"に
続く単語が、母音字 "a"、"e"、"i"、"o" または "u"
で始まる場合に適用される。この場合、不定冠詞 "an"
が使用されなければならない。第三の法則は、不定冠詞
"a" または "an" に続く単語が、子音文字で始まる場
合に適用される。この場合は、不定冠詞 "a" が使用さ
れなければならない。
【0058】図5は、図1の不定冠詞訂正部42の不定
冠詞の訂正動作を示したフローチャートである。図5に
示すように、n個の単語からなる入力文が入力されると
(ステップ300)、入力文のなかでその単語がi番目
のときは、ステップ302、304および306の処理
によって、その単語がw1と設定され、それに続くi+
1番目の単語がw2と設定される。単語w1が、"a" ま
たは "an" でないならば(ステップ308)、ステップ
304に戻り、ステップ306を通って、次の単語へ進
む。単語w1が "a" または "an" のいずれかであり
(ステップ308)、かつ、次の単語w2がテーブル1
にある場合(ステップ310)、単語w1が "an" であ
るならば、単語w1は "a" へ訂正される(ステップ3
12)。単語w2がテーブル1に見当たらないが(ステ
ップ310)、テーブル2に見られる場合(ステップ3
14)、もし単語w1が "a"であれば、単語w1は "a
n" へ訂正されなければならない。単語w2がテーブル
1及びテーブル2に無い場合には(ステップ310、3
14)、単語w2が文字 "eu" で始まるか否かが判定さ
れる(ステップ318)。もしそうであれば、単語w1
が "an" であるかが判定され(ステップ320)、そう
であれば、単語w1は "a" へ訂正される(ステップ3
20)。そうでない場合には(ステップ318)、単語
w2が、"a","e","i","o" または"u" で始まるか否かが
判定され(ステップ322)、そうであれば、次に、単
語w1が "a" であるか否かが判定され、そうであれ
ば、単語1は"an"へ訂正される(ステップ324)。そ
うでない場合には(ステップ322)、単語w1が "a
n" であれば、単語w1が "a" へ訂正される(ステップ
326)。
【0059】以上のように、本システムにおいては、3
00語以下程度例外となる単語のみを予め格納してお
き、その例外以外のものに対しては、図5のフローに示
したような所定の法則を適用させて不定冠詞の正否を判
定するようにしたので、従来のように記憶容量を大量に
用いてすべての単語を格納することにより不定冠詞の正
否の判断を行う場合に比べて、記憶容量を大幅に節約す
ることができるとともに、不定冠詞の正否判断のための
処理時間を短くすることができる。
【0060】c)間違った助動詞列の訂正 上述したように、非自国語圏の人々が英語の文を書こう
とすると、その人々は、複雑な助動詞列において間違っ
た時制を使用することがしばしばある。一例として、"h
e has consider" を挙げれば、ここで、間違った用法
は、動詞 "consider" の時制であり、正しくは、その過
去分詞 "considered" と用いなければならない。従来の
文法チェックシステムにおいては、このような列を認識
することが困難であることと、品詞列のタグが一般に計
算されないことにより、助動詞列をチェックすることが
できない。
【0061】本システムにおいては、図1の助動詞訂正
部32の具体的構造を示した図6のブロック図に示した
ように、入力文410は、品詞付けタッガー412によ
り上述したように品詞に分析され、文410に含まれて
いる品詞列414が出力される。ここで、品詞付けタッ
ガー412は、図2(a)の品詞付けタッガー32と同
様の動作を行うものであり、図1の品詞分析部20を構
成するものである。
【0062】誤りを検出するために、間違った助動詞列
の終了点と開始点の両方を検出しなければならない。例
えば、文 "He has been consider this fact" におい
て、誤りの開始点、すなわち、文中四番目の単語である
"consider" を検出することは、重要である。"conside
r" 以降のすべての単語、すなわち、"this fact" は、
助動詞列が正しいか否かには影響を及ぼさない。同様
に、誤りの開始点、すなわち、文中の二番目の単語であ
る "has" を検出することは、重要である。"has"以前の
すべての単語は、助動詞列が正しいか否かを決定するこ
とに関し、無関係である。
【0063】そこで、このシステムにおいては、文の品
詞が取り出されると、終了点検出部424により、間違
った助動詞列の終了点を検出する。もし、助動詞列に間
違えがなければ、助動詞列のすべての正しい動詞列42
0(図7参照)は、後述する図8に示された非循環グラ
フに格納される。
【0064】正しい動詞列420の有向非循環グラフか
ら、すべての可能性のある間違った助動詞列に対応する
他の有向非循環グラフが、誤動詞列形成部422におい
て形成される。誤動詞列形成部422に対応するグラフ
を形成すると、このグラフは、間違った助動詞列 "have
の三人称単数、不定動詞" を含む。これは、間違った
助動詞列 "has consider" に対応する。誤りの終了点を
検出するために、入力文字列が左から右へ読まれ、終了
状態に到達するまで、このグラフは左から右へ横断され
る。この品詞は入力文の単語に対応するので、入力文の
品詞が間違った助動詞列グラフへ読み込まれ、かつ、こ
のグラフが最終状態に到達すると、これは、問題となる
助動詞列の終わりの単語を識別する。文中のその位置に
関するこの単語の識別は、図6の終了点検出部424に
より行われる。
【0065】同様に、開始点検出部426は、問題とな
る助動詞列の開始点に対応する単語を検出する。これ
は、誤りの終了点を検出し、グラフの開始点に到達する
まで、グラフにおいて右から左へ戻り作動することによ
り、行われる。例えば、左から右へ進むと、本システム
は、has を have の三人称単数として識別し、consider
を不定動詞と見なす。本システムは、この点において誤
りはなく、単語 "consider" を間違った助動詞列の最後
の単語であると識別している。次に、グラフと入力文字
列を戻り移動すると、"consider"と"has" とを通り過ぎ
る。これは、この特定のグラフの始めに到達し、従っ
て、単語 "has" を助動詞列の最初の単語として識別す
る。
【0066】上述したように、終了点検出部424が助
動詞列の終了点を決定すると、この間違った列の終了位
置、すなわち、その単語の文中の順番が、入力文の間違
った列の最後の単語の位置として、終了位置決定部42
8により決定される。同様に、間違った列の開始位置
は、間違った列が始まる単語の位置として、入力文にお
けるその開始位置の単語の順番を示す数値が、開始位置
決定部430において決定される。動詞列訂正部432
により、図9に示された、ほかの有向非循環グラフが、
各間違った助動詞列に対する可能性のある一組の正しい
列を明示する。次に、動詞列訂正部432は、間違った
助動詞列を図9で示されたこの有向非循環グラフへ送り
込み、出力部434により、使用者の確認のために一組
の可能性のある正しい助動詞列を出力する。
【0067】図8に示した、この一組の正しい助動詞列
を記述している有向非循環グラフは、以下のように、す
べての可能性のある助動詞列のために形成される。図8
において、グラフの左端の開始点440の次に記載され
ているのは、ボックス442であり、これは、図に示す
ように、以下のような英語におけるすべての助動詞を含
んでいる:"be"、"were"、"was"、"is"、"am"、"ar
e"、"been"、"had"、"have"、"has"、"could"、"shoul
d"、"might"、"may"、"can"、"must"、"would"、"shal
l"、"will"、"do"、"does"、"doesn't" 及び "did"。こ
こで、単語 "be"〜"been" はノード444へ接続されて
いる。一般に、ノードは、これらの助動詞に続く動詞が
同じであることを示している。例えば、単語 "were" に
続いて "were being" のように "being" が続くよう
に、"is" の後にも単語 "being" が続く。このように、
ノード444は、後に続く動詞が同じであり得る一組の
助動詞があることを示している。例えば、一組の動詞 "
had"、"have" 及び "has"に接続しているノード446
の後には、単語 "been" が続く。ノード448に関して
も同様に、単語 "could" 〜"will"の後に、単語 "have"
が続く。また、これらの単語の後に、単語 "do" が続
くこともあり得る。最後に、ノード450は、単語"d
o"、"does" 及び "doesn't" の後に、"do" でなく、"ha
ve" が続くことを示している。
【0068】助動詞列の間違いを正しく得られるよう
に、この非循環グラフを用いる方法は、実際に、法則の
すべてをコンパクトなグラフ表にまとめることができ
る。
【0069】図8のグラフに示されるように、前述のノ
ードに続いている "???" 表示のボックス452及び4
62等がある。このグラフへの入力は、品詞に続く単語
の列であることを記憶されているであろう。これは、本
質的に、二つの変数を有する入力を品詞付けする。グラ
フをコンパクトにするために、記号 "???" はこのノー
ドでは記載できないもののすべてを表している。ノード
454に関し、ボックス456は "been" と "had" 以
外のすべてのものを示しており、ノード458へ接続さ
れている。従って、"???" ボックスを用いて示すことに
より、その状態の出力においては記載されていない他の
すべてのものが次のノードへ接続することを示すことが
出来る。
【0070】単語のほかに、入力文は、他の品詞をも含
んでいる。例えば、システムが品詞列"have considere
d" を分析する場合、このグラフは、品詞列"have have
considered vbn" と比較される。ここで、"vbn" は、過
去分詞形を示す。グラフの左側からスタートして、ま
ず、ボックス460である"have"を見いだす。そこか
ら、"have"は右へノード466を通り、上記のように、
この単語のノード454への通過を可能にしているボッ
クス462へ移動する。ノード454から行けるのは、
ボックス464における"been"またはボックス466に
おける"had" であるが、これらはどちらも入力文と整合
しない。他の行き先としては、ボックス456へ進むこ
とであるため、これにより、ノード458へと右へ進
み、次に、過去分詞形を表す"vbn" を示しているボック
ス460へ進む。これにより、ノード470へ進むこと
が出来る。文"have considered"がグラフの終了点47
2へ行くことが出来るようにボックス456を通過した
ため、この単語の考察は、正しいように思われる。中間
ノード470と終了点472との間には、空いた単語を
表す記号<E>を有するブロック474がある。この<
E>を表すボックスの使用は、続く単語または続く品詞
などを考慮することなく、一つのノードからつぎのノー
ドへ進むことが出来ることを示している。
【0071】ボックス442に含まれていない単語に関
しては、それらの単語は、グラフの左下に記載されてい
るボックス476とノード480とを通って品詞ボック
ス482へ進み、そこから、ノード484へ進むことに
より、分析される。もし、終了点472へ到達する前
に、通過したノード484からボックス488を通りノ
ード490へ進み、そこから、ノード492または49
4へ進むのであれば、ボックス486と終了点472と
は円弧で接続される。最後に、もしその単語が、ノード
496とボックス468とを通過するならば、ノード4
84は、ノード500へ進む。ボックス502は、ノー
ド484を通ってきており、ノード504を経て、ボッ
クス506へ進み、次に、終了点472へ進む。ノード
484における単語が"having"と"been"の両方へ接続さ
れるものであるならば、その単語は、ノード508から
ボックス510を経てノード512へ進み、そこから、
ボックス514を通りノード516へ進む。その後、そ
れは終了点472へ続くボックス518またはボックス
520へ進む。入力単語"having"または"been"は、前述
のようにこの経路を通り終了点472へ到達するなら
ば、正しいとして判定される。しかし、単語"being" が
この列へ加えられるものであるならば、ノード512の
出力は、ノード522及びボックス524を経てノード
516へ送られる。
【0072】以上のように、図8の非循環グラフは、す
べての正しい助動詞用法を明細に示している。従って、
同様なグラフを、すべての間違った助動詞列で構成する
ことが出来る。このようにして、すべての正しい用法を
表すグラフを構成すると、同時に、すべての間違った用
法を表すグラフを持つことになる。この方法の緻密さ及
び簡潔さは、文の分析において非常に効率的である。
【0073】図9は、上述のようにして形成された間違
った動詞列の非循環グラフにより判定される間違った助
動詞列に対して、その訂正候補を提示するために使用さ
れるものである。適切な訂正を提示するために、各ボッ
クス内には、1組の単語がそれぞれ格納されており、各
組は、それぞれ、各組の左の単語が間違っていると識別
された場合に、右の単語がそれを訂正するための候補と
なるように、組まれている。例えば、助動詞列"will ha
d" が間違っていると識別されると、図9のグラフが正
しい列を明示するために使用される。まず、入力ノード
530で始まると、その入力文の最初の単語と同じ単語
がボックスの左側に格納されているボックス532を通
って進む。ノード534とボックス536とを通り、ノ
ード538へ達すると、ここで考察される単語は、単
語"had" である。ここで、ボックス540は、"had"
は"have"へ変更されなければならないことを示してお
り、そのことは、ノード542へ出力され、それから、
ボックス544を通り、終了点546へ到達する。この
経路により終了点546へ到達すると、提示される正し
い列は、"will have" である。
【0074】さらに複雑なケースを例に挙げる。例え
ば、間違った列"would considered"を考察する場合であ
る。それに対応する品詞付けタッグは、"would would c
onsidered vbr"である。この場合、最初、"would;woul
d" を示すボックス550とボックス536とを通りノ
ード538へ進む。ここでは、ボックス540、55
2、554、556、558または560は、いずれも
適用されない。この理由は、これらのボックスは、どれ
も単語"consider"を持っていないからである。ボックス
562を経て、品詞分析ボックス564を経ることによ
って得られる適切で正しい提示は、"would consider"で
ある。これは、このグラフが"considered"は "conside
r" の過去形であることを検出するという理由によるも
のである。このボックス564は、現在時制が使用され
るベきであることを提示し、従って、単語"consider"
を提示する。この分析を、"vbd:/vbd/vb" で表す。ここ
で、vbd は過去形を意味し、vbは現在時制を意味する。
【0075】また、このグラフにおいては、入力文への
他の訂正変更を出力するための、ノード538に接続さ
れている他のノードも存在している。例えば、提示され
た上記の列は、"would have considered" であるとも考
えられる。この場合、ボックス566は、"would”と "
considered" との間に空白<E>があるとし、その空白
<E>の代わりに、単語"have"が加えられるべきである
ことを明示する。ボックス568は、もし品詞付けする
ならば、"have"(hv)の品詞列もその組へ加えられるべ
きであると明示する。ボックス570を通った後、ボッ
クス572は、その過去形は過去分詞形へ変えられるべ
きであると明示する。その場合、それは過去形と過去分
詞のいずれでもあるので、単語"considered"は変えられ
ないままである。入力単語が、"considered"でなく、例
えば、"knew"であったならば、ボックス572は、過去
形である"knew"から過去分詞である"known" への変更を
提示する。図9のグラフの残りの部分が、入力された文
が間違っていると決定された場合に、その間違っている
動詞列に対して、種々の訂正を提示することは自明であ
るため、ここでは説明は省略する。
【0076】d)非自国語圏の人々のための活用形の訂
正 従来のスペルチェックシステムは、一般に、辞書探索ア
ルゴリズムにより、間違い綴りの単語を検出する。これ
は、ユーザの不注意なキー打ちまたは文字の順序が逆に
タイプされている等による典型的な間違い綴りを検出す
るには効果的であるが、これらの従来のシステムは、ほ
かの種類の綴り間違いに対しては効果的でない。最も注
目すべきことは、非自国語圏の人々の綴りの誤りまたは
通常では見られない不注意による単語内の文字の順序の
間違え、または、不注意な文字の挿入または欠落であ
り、それらは、主に文法上の問題である。文 "He drive
d his car yesterday" を例にとれば、この誤りは、ユ
ーザが不注意だったわけでも、また、ユーザがその単語
の綴りを知らなかったわけでもなく、むしろこの場合
は、動詞 "drive" の過去形をユーザがはっきりと認識
していなかったことによるものと思われる。
【0077】一般に、スペルチェックシステムは、ミス
タイプの単語と辞書に記載された単語との相対距離に基
づいて正しい綴りを提示する。この相対距離は、置き換
えられ、挿入され、転置され、または、削除されなけれ
ばならない文字数に基づいている。その結果はしばしば
奇妙なものとなる。例えば、上記の例では、正しい提示
は "drive" の過去形、すなわち、"drove" であるが、
従来のスペルチェックシステムにおいては、"dried"
や、"dripped" 等を提示する。正しい単語"drove" が提
示されないことは、非常に問題となることである。この
ような誤った提示が行われてしまう理由としては、従来
のスペルチェックシステムにおいては、文法に関連した
綴りの誤りを分析しないからである。
【0078】従来のシステムが、正しい綴りの提示をす
ることにおいて抱えている難しさの他の例として、不適
切な比較形容詞がある。例えば、非自国語圏の人々
は、"good" の比較級を選ぶ場合に、通常の法則に基づ
いて "er" を後ろに加えて "gooder" としてしまうこと
がしばしばある。ほかの例として、非自国語圏の人々
は、名詞 "child" の複数を形成したい場合に、単数の
名詞の後に "s" を付ける普通の複数化の法則に基づい
て、"children" の代わりに、"childs" としてしまうこ
とがある。
【0079】従来のスペルチェックシステムにおいて
は、上記の "childs" を訂正するための候補として、次
の単語を提示するが、それらはどれも文脈において正し
くないものである:"chills"、"child's"、"chill'
s"、"child" 及び "tildes"。従来のスペルチェックシ
ステムによるさらなる不適切な提示としては、"goodes
t" ("good"の最上級のつもりで、誤って"good"に"est"
を付けたもの)の正しい綴りの候補として、"goodist"
や "goosed" を提示してしまうこと等が挙げられる。
【0080】従来のスペルチェックシステムにおけるこ
のようなタイプの誤りは、自国語圏の人々をも悩まし
て、スペルチェックの機能を使用することを拒否する原
因になるだけでなく、非自国語圏の人にとっても、誤っ
た綴りに対する正しい単語の候補として、文脈からはず
れた単語、または、ユーザが精通していない単語からそ
れを選択することを余儀なくされるため、完全に意味の
違う見当違いの単語を選んでしまい、かえって過ちの程
度を一層高いものにしてしまうという可能性があった。
【0081】本システムにおいては、図10に示すよう
に、複数化、過去形、過去分詞、比較級形成、最上級形
成のいずれにも関して、普通の法則に従わない単語の代
表的例を識別できるようにした。図10は、図1の語形
変化チェック部30の具体的構造を示したものである。
本システムが、誤った単語に対して、より適切な置き換
えるべき単語を提示することは、文法に基づいて形成さ
れた間違った単語の独自のこのリストによって行われ
る。本システムは、通常は、予め格納されている辞書を
検索することによりミススペルを検出する。その後、以
下に述べるように、正しい単語は、代表的な間違った単
語と語源(原型)と語形上の特性との大要に基づいて提
示される。
【0082】図10において、英単語訂正手段600
は、英単語の辞書を格納している英単語辞書格納部60
2と、誤単語辞書格納部604(詳細については後述す
る。)とから構成されている。また、本システムには、
英単語形成の通常の規則を格納している規則格納部60
8と、上述した英単語辞書格納部602の単語と、規則
格納部608の規則により形成された単語との比較を行
い、実際には存在しない単語を格納するための不存在英
単語辞書格納部606とが、設けられている。上述し
た、誤単語辞書格納部604は、その不存在英単語辞書
格納部606による比較の結果により生じた誤った英単
語のリストを格納している。このリストは、綴りの間違
いではなく、間違った文法に基づく厄介な単語を有して
いる。
【0083】また、図11のブロック図に示すように、
検出された間違った単語を実際に訂正する過程において
は、英単語辞書格納部602は、図10においても説明
したように、前述の間違った英単語のリストを有する誤
単語辞書格納部604と共に使用される。図11に示す
ように、本システムには、英単語辞書格納部602に格
納されている辞書を検索して、辞書にない間違いと思わ
れる単語を取り出すための誤単語検出部610が設けら
れている。誤単語検出部610により検出された間違い
と思われる単語と、誤単語辞書格納部604に格納され
ている間違った英単語のリストにある間違った英単語と
が、特性決定部612へ送られる。この特性決定部61
2は、間違った単語の語源(原型)と、時制、単数/複
数、及び、比較級/最上級といった語形上の特性とを決
定する。例えば、間違った単語が"drived"ならば、この
単語の語源(原型)の形は"drive" であり、その語形上
の特性は”過去形または過去分詞形”である。このよう
に特性決定部612で決定された語源(原型)と語形上
の特性とは単語訂正部614へ送られる。単語訂正部6
14は、文法の法則と例外とのどちらも考慮に入れて、
語源(原型)と語形上の特性とを英単語辞書格納部60
2内の対応する英単語に相互に関係づけて、正しい単語
を提示する。
【0084】以上のように、本システムにおいては、典
型的な間違った用法に基づいて語源(原型)と語形上の
特性とを決定するようにしたので、これらの間違った用
法に関連づけた適切な単語を提示することが出来る。こ
のシステムにおいては、単なる綴りの間違いによる誤単
語だけでなく、誤った文法による誤単語に対しても精巧
な探索を行うことができる。
【0085】また、ここでも、上述した品詞付けタッガ
ー32(図2(a)参照)が、このシステムにより提示
される単語の正確さを向上させる上で有益であること
は、お分かりであろう。具体的に例を挙げれば、例え
ば、間違った綴りの単語が、過去形または過去分詞形で
ある場合、上記で示した例は、間違った単語 "drived"
は、"drove" または "driven" に訂正されるべきであ
る。そのときに、品詞付けタッガー32により "間違っ
た" 単語が文中でどのように使用されているかを知れ
ば、その間違った単語 "drived" が "drove" または "d
riven" のどちらに訂正させるべきであるかを容易に判
別することができる。このようにして、本システムにお
いては、間違った単語に対する正しい単語の提示をより
適切に、かつ、確実に行うことができる。
【0086】e)限定詞の誤用の検出および訂正 非英語圏の人々におけるさらなる難しい問題の一つに、
限定詞の用法の問題がある。限定詞とは、名詞句の指示
物を限定する "the"、"a"、および、"some" などの単語
である。これらの限定詞における誤りには以下の三つの
カテゴリーがある。第一は、限定詞の欠落である。例え
ば、文 "John read book" は、名詞句 "book" に対する
限定詞が欠落している。第二は、余分な限定詞の使用で
ある。例えば、"John went to the New York" である。
ここで、限定詞 "the" を用いることは間違っており、
削除されるべきである。第三は、限定詞とそれに対する
名詞句との整合が取れていない場合である。例えば、"J
ohn read many book" は、限定詞 "many" と名詞句 "bo
ok" との間の数の一致がされておらず、整合が取れてい
ないことが分かる。
【0087】限定詞の間違った用法を検出するために、
品詞付けタッガー32(図2(a)参照)が、分析に使
用される。品詞付けタッガー32については、前述の図
2(a)、図6、及び、後述する図16、図17、及
び、図19において説明されているので、それらを参照
されたい。品詞付けされた文の例として、例えば、文 "
John read long novel" を挙げる。ここで、"John" の
品詞付けは、固有名詞であり、"read" の品詞付けは、
動詞の過去形であり、"long" の品詞付けは、形容詞で
あり、"novel" の品詞付けは、単数名詞である。
【0088】図12は、図1の限定詞訂正部36の動作
を示したフローチャートである。図12のフローチャー
トに示されているように、本システムにおいては、図1
の限定詞訂正部36により、品詞付けタッガー32によ
り品詞付けされた文は、文中に名詞句があれば、それが
識別される(ステップ700)。このステップ700に
おいては、どの品詞付けタッグが有効な名詞句を構成す
るかを定義するパターンを最大限当てはめることによ
り、文中の名詞句を識別する。なお、名詞句のパターン
は下記により与えられる。 [DET](MODS NOUN AND)* MODS NOUN head (1) 同様に、MODSのパターンは下記で与えられる。 (MOD+ AND)* MOD (2) ここで、DET、MOD、NOUN、および、AND
は、それぞれ、限定詞、修飾詞、名詞、および、等位接
続詞の品詞付けタッグの組として定義されている。記号
[X]は、囲まれた表記Xがゼロまたは一つ存在するこ
とを意味する。記号(X)* は、囲まれた表記Xがゼロ
またはそれ以上存在することを意味する。X+ のような
プラスの肩付き記号は、表記Xが一つ以上存在すること
を意味する。
【0089】上記の目的は、名詞句を識別することであ
る。例えば、上記の例文 "John read long novel" にお
いて、名詞句は、品詞列の"固有名詞"に相当する "Joh
n" と、品詞列の" 形容詞 単数名詞" に相当する "lon
g novel" とである。上記の品詞付けは、名詞句の始ま
りとその終わりとを識別することにより、名詞句をただ
一つ識別する。限定詞の欠落、余分な限定詞、または、
名詞句の構成要素の単数/複数の不一致のいずれかをチ
ェックするために、名詞句が識別されることは、重要で
ある。
【0090】名詞句が見つけられると、図12のフロー
チャートに示されるように、本システムは、名詞句が限
定詞を欠落しているかどうかを調べる(ステップ70
2)。このテストは、名詞句全体NPを調べ、また、名
詞句の最後の単語である主要名詞NOUNheadを調べ
る。主要名詞は、名詞句の最も重要な名詞に相当し、ほ
とんどの文においては最後の単語であることが知られて
いる。限定詞の欠落を調べるこのテストにおいては、さ
らに、名詞句の限定詞DETについても調べる。これ
は、名詞句の最初の単語か、あるいは、存在しないもの
である。限定詞の欠落を調べるための動作フローを図1
3に示す。図13のステップ704及び706において
決定されるように、主要名詞が単数の非固有名詞であ
り、限定詞DETが存在しなければ、名詞句は、それが
タイトル(表題、称号)であるかどうかがを確認される
(ステップ708)。ここで、タイトルとは、固有名詞
以外のすべての大文字化された句であると判断する。例
えば、"The Atlanta Police Department" と"Grady Hos
pital"等はタイトルである。もし、名詞句がタイトルで
あると認められない場合には、主要名詞が、質量名詞で
あるかどうかを確認する(ステップ710)。質量名詞
は、物質の、例えば、"米"、"魚"、"炭素" などの不特
定な量を表す名詞である。質量名詞は複数名詞として機
能するので、限定詞を必要としないことは、お分かりで
あろう。
【0091】もし、名詞句がタイトルであるならば(ス
テップ708)、主要名詞が集団称号名詞であるかどう
か確認する(ステップ712)。集団称号名詞は質量名
詞と似ているが、タイトルの中に存在するものである。
例えば、文 "She attended Harvard University" にお
いて、名詞句"Harvard University" は称号(タイト
ル)であり、"University" は集団称号名詞である。従
って、"University" は限定詞の無い文中に見られるこ
とに留意して戴きたい。また、集団称号名詞が、質量名
詞と同じではないことを以下に考察する。例えば、"Uni
versity" は集団称号名詞であるが、質量名詞ではな
い。これは、文 "She attended a fine university" の
例から容易に分かることができる。この場合、名詞 "un
iversity" には、限定詞 "a" が与えられている。従っ
て、名詞句が集団称号名詞を有していることが決定され
れば、その単語に対する補正の提示は行われない(ステ
ップ715)ことが分かるであろう。
【0092】しかしながら、慣用語の用法についての問
題がある。名詞句は、主要名詞が質量名詞でもなく(ス
テップ710)、集団称号名詞でもない(ステップ71
2)場合には、次に、それが慣用語の一部であるかどう
かを確かめるために分析される(ステップ714)。こ
れは、慣用語の辞書の検索により行われる。名詞句が慣
用語の一部ならば、同様に、提示は行われない(ステッ
プ715)。例えば、文 "The event took place" にお
いて、名詞句 "place" は慣用語 "to take place" の一
部であるので、限定詞を欠如しているが、補正の提示は
名詞句 "place"については何ら行われない。
【0093】主要名詞が限定詞を持たない単数非固有名
詞の場合(ステップ704)、主要名詞が質量名詞また
は集団称号名詞のいずれでもなければ(ステップ71
0、712)、かつ、名詞句が慣用句の一部でないなら
ば(ステップ714)、本システムは、欠落している限
定詞があることを提示する(ステップ716)。
【0094】次に、本システムは、余分な限定詞がある
かどうかにつき、名詞句をチェックする(図12のステ
ップ720)。これは、図14のフローに示されるよう
に、次のようにして行われる。主要名詞が固有名詞であ
るかないかを確認し(図14のステップ722)、固有
名詞であれば、次に、限定詞が存在しているかどうかを
確認する(ステップ724)。上記条件が満足されるな
らば、名詞句が余分な限定詞を持っていることが提示さ
れる。例えば、文 "John went to the New York" を例
に挙げれば、名詞句 "the New York" が固有名詞である
主要名詞をもっており、かつ、限定詞、すなわち、単語
"the" が名詞句内にあるので、この名詞句は余分な限
定詞を持っているとして示される。ここで、固有名詞
は、確率と文脈とに基づいて識別される。
【0095】再び、図12に戻り、次に、本システム
は、数の不一致に関し名詞句をチェックする(ステップ
730)。これがどの様に行われるかは、図15のフロ
ーにおいて示されている。まず、主要名詞が固有名詞か
どうかを確認し(ステップ732)、固有名詞であれ
ば、その名詞句内に限定詞があるかどうかを調べる(ス
テップ734)。限定詞があれば、その限定詞と主要名
詞とが数的に一致しているか、すなわち、それらの単数
/複数が一致しているかを確認する(ステップ73
6)。一致していない場合には、主要名詞の数を限定詞
の数と一致するように変えることを提示する(ステップ
738)。
【0096】例えば、文 "John read one books" の場
合には、主要名詞 "books" の数は限定詞と一致しない
ので、単数に変えられるべきことが提示される。同様
に、文 "John read many book" の場合、本システム
は、主要名詞を限定詞の数と一致するように複数に変え
ることを提示する。また、本システムは、反対に、主要
名詞に対して限定詞の方を変更するように提示するよう
にすることも出来る。しかしながら、限定詞の方を変更
するように提示することは、ユーザにとってあまり必要
でない処理かもしれない。固有限定詞を何にすべきかを
確認することがユーザにとって難しいことなので、前者
の処理の方が有効である。従って、本システムにおいて
は、ユーザが、数に関しては正しい限定詞を用いている
と仮定して処理が行われる。
【0097】このように、本システムにおいては、名詞
句内の主要名詞が固有名詞であるかどうかを確認するこ
とにより、数の不一致の決定が行われる。この理由は、
固有名詞句が限定詞を有するならば、図14のフローに
示したように、それは既に余分な限定詞誤りとして提示
されているからである。主要名詞が固有名詞でないとす
ると(ステップ732)、本システムは、名詞句が限定
詞を持っているかどうかを確認する(ステップ73
4)。限定詞を持っていないならば、数の不一致の問題
はないため、ステップ736には行かずに、ステップ7
37に行き、補正の提示を行わない。
【0098】以上のように、本システムは、品詞付けさ
れた文の使用と、名詞句、主要名詞、固有名詞、質量名
詞、集団称号名詞、および、慣用句の検出とにより、限
定詞の間違った用法を検出し、訂正する多くの方法を使
用している。図12に関連して述べたパターン整合の使
用による名詞句の検出は、限定詞誤用の適切な決定にと
って重要である。
【0099】f)固有名詞とほかの大文字化単語の認識 固有名詞は、すべてのほかの名詞と異なり、唯一に判別
できるように見えるので、単語が固有名詞であるかどう
かが認識できることは、文の分析において重要なことで
ある。固有名詞ばかりでなく、"Harvard University"
などの称号内に存在するほかの固有大文字化単語を認識
することができる機能を持つことにより、文法が分析で
きるように、文は、品詞および文法的関係が説明され、
理解される。
【0100】単語は、二つの理由から、英文において大
文字化されて表現される。第一に、それは、固有名詞ま
たはほかの大文字化単語である。第二に、それは、文の
始めか、または句読点の後に存在する。例として、文 "
Wells was a English novelist" を考察してみると、"W
ells" は固有名詞であるので、大文字化されていること
が、お分かりであろう。また、文 "Wells were dug to
provide drinking water" を考察すると、"wells" は、
文の最初の単語であるので、大文字化されている。
【0101】このように、最初の文では、文法チェック
システムは、"Wells" が固有的に大文字化されており、
従って、本システムは、それは固有名詞である。第二の
文においては、本システムは、"wells" が固有的に大文
字化されていなく、従って、普通の複数名詞であると認
識する。
【0102】名詞が固有名詞であるかどうかを決定する
場合、従来の文法チェックシステムにおいては、固有的
に大文字化された単語を認識するという限定された方法
を使用していた。従来の一つの方法としては、文の最初
の単語が決して固有的に大文字化されていないと仮定し
て処理することであったが、これは、上述の例文 "Well
s was an English novelist" に示されているように、
固有名詞で始まるすべての文に対して、誤った分析がな
されることになる。
【0103】従来の他の方法として、固有名詞または普
通の単語のいずれかであって、その両方ではないとし
て、すべての単語を分類することであった。しかしなが
ら、"Wells" は固有名詞と普通単語のどちらでもあるた
め、このタイプの分類システムはそのような単語に対し
ては役に立たないことは、上記二つの例文から明らかで
あろう。
【0104】単語が固有名詞であるかどうかを正確に識
別し損なってしまう明らかな問題としては、辞書検索の
問題であり、間違った定義は検索される可能性がある。
簡単な文法チェックシステムにおいては、定義は必要と
されず、正しい用法を決定するときに、個別指導的な、
または、情報を有するデータを提供する精巧な単語処理
と文法チェックシステムが、固有名詞とほかの大文字化
単語との正しい識別を必要とする。辞書検索機能が文法
チェックシステムの一部でない場合でも、固有名詞とほ
かの大文字化単語との正しい認識は重要である。
【0105】単語が固有名詞であるかどうかを認識する
ことは、トリグラム(文中に隣接して置かれた3つの単
語)の確率を用いることにより文中の各単語の品詞を正
確に決定しなければならない品詞付けタッガーに影響を
与えるため、重要なことである。大文字化された形と大
文字化されていない形での単語は、異なったトリグラム
の確率を有するので、正しいトリグラムの確率を適用す
るために、品詞付けタッガー32(図2(a)参照)
が、大文字化された形かそうでない形のいずれの単語が
文に存在するかを知ることは、重要である。例えば、固
有名詞 "Wells"のトリグラムの確率は、普通名詞 "well
s" の三重文法の確率と異なる。従って、品詞付けタッ
ガー32は、"Wells" が固有名詞であることを "Wells
was an English novelist" の文中の "Wells" が固有名
詞であることを認識しなければならない。従って、品詞
付けタッガー32は、大文字化された形の "Wells" に
対するトリグラムの確率を適用しなければならない。
【0106】単語が、固有名詞またはほかの固有的に大
文字化された単語ではなく、普通の単語であるかどうか
を確定するために、本システムは、各単語の二つの解
釈、すなわち、単語を固有名詞として解釈するか、また
は、単語を普通名詞として解釈するかのどちらが最も良
いかを決定する。本システムにおいては、この処理は、
一つは名詞が固有名詞であると仮定して、もう一つは名
詞が普通名詞であると仮定して、二つの形の文を形成す
ることにより行う。次に、本システムは、二つの文のト
リグラムの確率を比較する。単語が固有名詞であると想
定している文が、より高い確率を有するならば、その単
語は固有名詞であると見なされ、そうでない場合には、
その単語は普通名詞であると見なされる。
【0107】図16から図18は、図1の基本スペル復
元部28の動作を示したフローチャート図である。図1
6に示すように、名詞が固有名詞であるかないかを確認
するために、意思決定プロセスへの二つの段階がある。
ステップ800内に示されているように、第一段階は、
品詞タグ付けされたトレーニングコーパスを形成し、ト
リグラムモデルを形成する事前処理段階(ステップ80
0)である。第二段階は、そのトリグラムモデルを用い
ることにより、その単語が大文字化されべきかを判断す
る分析段階(ステップ822)である。まず、第一段階
の事前処理段階について説明する。これは、まず、各文
の単語がその品詞タグで注釈された一組の文を参照す
る。次に、ステップ802で形成されたトレーニングコ
ーパスは、固有名詞でなく、または、一般に固有的に大
文字化されていない単語は、非大文字化単語へ修正され
る(ステップ804)。単語が固有名詞またはタイトル
として品詞付けされている場合、あるいは、頭字語であ
る場合、あるいは、代名詞 "I" である場合には、単語
が固有的に大文字化されていると見なされる。さらに、
単語が文の始めに、あるいは、引用符(“)やコロ
ン(:)の後に存在する場合は、単語は大文字化されて
いる。
【0108】ステップ804についてさらに詳細に説明
すると、図17のフローチャートに示されているよう
に、品詞タッグ付けされたトレーニングコーパス808
は、次の単語がもしあれば、その単語とそのタッグとの
対をそのコーパスから得るために分析される(ステップ
810)。次の単語とタッグとの対が見つけられると、
その単語が大文字化されているかどうかを判定するため
にその単語の分析を行い(ステップ812)、それが文
の最初の単語であるか、または、それが引用符またはコ
ロンの後に続くものかどうかを確かめる(ステップ81
4)。そうであれば、その単語は、固有名詞または称号
として品詞付けされているかどうか、あるいは、頭字語
または代名詞 "I" であるかどうかを確認する(ステッ
プ816)。そうでなければ、次に、大文字化されてい
るその単語は、トレーニングコーパス808において大
文字化されていることが誤りであるため、大文字化が修
正され、すなわち、小文字化される(ステップ81
8)。
【0109】図16に戻り、上記のようにしてステップ
804において大文字化を修正されたトレーニングコー
パス808は、単語のトリグラムの確率モデルを得るた
めに分析される(ステップ820)。この分析の結果、
その単語が実際には普通名詞であるのに誤って固有名詞
として判別してしまう、もしくは、その反対に、その単
語が実際には固有名詞であるのに誤って普通名詞として
判別してしまう、ということに関連した誤りを除去する
ための修正されたトリグラムモデルが形成される(ステ
ップ820)。上述のステップ802、804及び82
0から構成された、誤りを除去するための事前処理段階
(ステップ800)の後、トリグラムモデルは、その単
語が固有的に大文字化されているかどうかを決定するス
テップ822において使用される。このステップ822
においては、文中の単語の入力が必要であり、出力は単
語の基本綴りである。
【0110】単語が固有的に大文字化されているかどう
かを決定するステップ822(図16参照)について、
図18のフローチャートを用いて詳細に説明する。ま
ず、文中の単語の入力からスタートする(ステップ85
0)。この入力された単語は、大文字化されているかど
うかが判定され(ステップ852)、大文字化されてい
るならば、その単語が、文中の最初の文字であるか、ま
たは、引用符またはコロンの後のものであるかを判定す
るために分析される(ステップ854)。その単語がい
ずれでもない場合には、その単語は、その文中において
その文字の通りであると解釈される(ステップ85
1)。すなわち、それが文中で大文字化されているなら
ば、それは固有名詞として解釈され、それが文中で大文
字化されていないならば、それは普通の単語として解釈
される。また、ステップ852において、単語が大文字
化されていないと判定された場合には、同様に、ステッ
プ851において、文字の通りの解釈がなされて、特別
の処理は行われずに、文字通りの綴りが出力される。
【0111】ステップ854において、単語が文の最初
の単語であるか、または、単語が引用符またはコロンに
続くと判定されたならば、次に、その単語が頭字語かど
うかが判定される(ステップ856)。頭字語は、大文
字化されているそのアルファベット文字か、または、頭
字語辞書に存在していることにより、特徴づけられる。
単語が頭字語であると決定される(ステップ856)
と、ステップ851に行き、特別に処理は行われない。
【0112】単語が頭字語でない(ステップ856)な
らば、本システムは、上述した図16のステップ820
で形成したトリグラムモデルが入力され(ステップ85
9)、それに従って、文中でその単語が2つの形のうち
のいずれで用いられるかを示す2つの確率を計算する
(ステップ858)。すなわち、その確率の一つは、文
中で大文字化されているその単語が用いられる確率Pc
であり、もう一つは、文中で大文字化されていないその
単語が用いられる確率Puである。この計算は、上述の
品詞付けタッガー32(図2(a)参照)に従って説明
されている通りである。
【0113】大文字化されていない単語が用いられる確
率Puが、大文字化されている単語が用いられる確率P
cを超えている(ステップ860)ならば、本システム
は、用いられる可能性が最も高い基本綴りとして、単語
の大文字化されていない綴りを出力する(ステップ86
2)。この綴りはその後の文法チェックに使用される。
そうでなければ(ステップ860)、用いられる可能性
が最も高い基本綴りとして、単語の大文字化されている
綴りを出力する(ステップ864)。
【0114】ここで分かることは、単語の基本綴りを再
生(修正)することにより、文法チェックシステムが、
さらに正確に、有用に用いられることである。単語の基
本綴りの再生処理は2つの段階から構成されており、第
一段階が、単語が固有名詞であるか否かの間違った特徴
化によって起こる誤りについてトレーニングコーパスを
訂正することである。第二段階は、大文字化された綴り
と、大文字化されない綴りのいずれが適当であるかを確
認するための一連の分析が行われることである。この分
析は、事前処理段階において得られたトリグラム確率モ
デルを用いることにより、その単語が、固有的に大文字
化されているかどうかを決定する意思決定要素によって
行われる。
【0115】以上のように、本システムにおいては、基
本スペル復元部28において、文の品詞列に基づいて、
単語の最初の文字が大文字化されるべきか否かを判断
し、誤っている場合にはそれを訂正して、その後に、語
形変化チェック部30またはスペルチェック部44にお
いて、単語の語形変化またはスペルのチェックを行うよ
うにしたので、従来のように、単語のスペルが正しいに
もかかわらず、最初の文字が大文字になっていることに
よりスペルミスを誤判断されることがなく、正確にかつ
無駄のないスペルチェックを行うことができる。
【0116】g)文脈ベースの辞書検索 文を書く場合、非自国語圏の人々は、一言語または二言
語からなる辞書に頼っている。辞書は、非自国語圏の人
々が頼る、最も有用な言語に関する情報源の一つであ
る。辞書を使用することは、文を書く場合、文法チェッ
クの問題に限定されずに、一般的に有用である。また、
自国語の人々でさえ、文を作成するときに、辞書または
類語辞書にかなり頼っている。
【0117】文脈からの単語は、統語上、及び、その意
味において、非常にあいまいであるので、辞書の項目を
検索することは、見た目ほど単純ではない。辞書に与え
られた単語が、20、30、または、それ以上の項目を
持っていることはお分かりであろう。この非常に多くの
項目が存在しているために、辞書の使用には、かなりの
時間が浪費される。
【0118】例えば、文脈から単語 "left" を取り出し
たとすると、単語 "left" は、以下に示すように、英語
の辞書に多くの項目を持っている。すなわち、単語 "le
ft"には、文 "His left arm" における形容詞 "left"
の項目、文 "he moved lefton entering the room" に
おける副詞 "left" の項目、文 "Make a left at thene
xt corner" の名詞 "left" の項目、及び、文 "He left
a minute ago" における動詞 "leave" の過去形 "lef
t" の項目等がある。しかしながら、単語 "left" が英
語の文中に存在する場合、これらの項目のうちのただ一
つがこの文脈に適切なものである。今日では、文脈に基
づいて単語の正しい項目を検索することができる辞書は
ない。
【0119】本システムにおいて、辞書の項目が、文脈
中に与えられた単語の品詞に基づいて選択され、ランク
づけされる。まず始めに、文脈中の単語に対応する複数
の項目が選択される。現在の文脈に関連のない他の項目
についても、ユーザの要求により使用することが出来
る。文脈中に与えられた単語の品詞は、上述の品詞付け
タッガー32(図2(a)参照)により与えられる。
【0120】具体的な例を挙げて説明すれば、例えば、
文 "He left a minute ago" 内の "left" を想定する
と、品詞付けタッガー32は、文内の単語 "left" に対
し品詞付けタッグ "過去形動詞" を与える。この場合、
本システムは、文脈内の "left" の用法に対応する動詞
"leave" の項目を選択し、次に、その文脈に使用され
ていない "left" の項目、具体的には、形容詞、副詞、
および、名詞としての "left" の項目を選択する。
【0121】他の例として、文 "It has several base
s" 内の単語 "bases" を想定すると、品詞付けタッガー
32は、その文内の "bases" に対し二つの品詞付けタ
ッグ"名詞の複数形" を与える。単語 "bases" は、名詞
"basis" の複数形、名詞 "base" の複数形、動詞 "bas
e" の三人称であり得ることは、お分かりであろう。文
脈 "It has several bases" に関し、本システムは、文
中の単語 "bases" に対応して、名詞 "base" と "basi
s" との項目を選択し、次に、文に使用されていない "b
ases" の項目、具体的には、動詞 "base" の項目を選択
する。
【0122】図19は、図1の文脈依存辞書検索部40
の構造を示したブロック図である。図19のブロック図
に示すように、文に存在している単語が入力部900に
入力されると、その単語の項目を文脈に基づいて辞書か
ら選択するために、文脈から独立した単語に対応する語
根の形と品詞との組を求める形態素解析部910により
その単語は分析される。例として、単語 "left" に関
し、形態素解析部910は、語根の形と品詞との以下に
挙げるような数組のセットを出力する。すなわち、("le
ft "," 形容詞")、("left "," 副詞")、("left ","
単数名詞")、("leave"," 過去形動詞")を出力す
る。形態素解析部910は、英語のすべての単語のすべ
ての語形変化が列挙された表を調べることにより動作
し、その表の項目は、語根の形と品詞との数組のセット
から構成されている。また、同時に、文中の単語は、品
詞付けタッガー部930によって分析され品詞付けがな
され、品詞付けタッグ出力部940によって品詞付けが
なされる。ここで、品詞付けタッガー部930と品詞付
けタッグ出力部940とは、図2(a)に示した品詞付
けタッガー32により構成するようにしてもよい。
【0123】例えば、単語が、文 "He left a minute a
go" の "left" であるならば、品詞付けタッガー部93
0及び品詞付けタッグ出力部940は、品詞タッグ "過
去形動詞" を出力する。文脈に対応しない語根から、文
脈に対応する形態的語根を分離するために、対応/非対
応分割部920は、語根と品詞タッグとの数個の組を二
つのグループへ分割する。この二つのグループとは、品
詞付けタッグ出力部940から出力された品詞付けタッ
グに対応するグループと、品詞タッグ940に対応しな
いグループとである。それらのグループは、それぞれ、
文脈対応語根/品詞格納部950と、文脈非対応語根/
品詞格納部960とに出力される。
【0124】前述の例において、文脈に対応する語根と
品詞とのセットは("leave","過去形動詞")である。
文脈に対応しない語根と品詞との数組のセットは、("l
eft "," 形容詞" )、("left "," 副詞" )、("left
"," 単数名詞" )である。文脈に対応する項目を表示
するために、文脈対応語根/品詞格納部950に格納さ
れた語根と品詞とのセットに見られる語根に対応するす
べての項目が、辞書格納部970に格納された辞書内か
ら取り出され、文脈対応項目出力部980において表示
される。上記の例において、動詞 "leave" のすべての
項目は、文脈に関連する項目として表示される。文脈に
対応しない項目を表示するために、文脈非対応語根/品
詞格納部960に対応する語根と品詞との数組のセット
に見られる語根に対応する辞書格納部970内の辞書の
すべての項目は、文脈非対応項目出力部990において
表示される。すなわち、上記の例においては、形容詞、
副詞、および、単数名詞としての単語 "left" に関する
すべての項目が、文脈に関連のない項目として表示され
る。
【0125】このように、本システムにおいて、文脈に
基づいて辞書から単語の項目を選択する能力は、自国語
または非自国語の人々に対し、一言語辞書と二言語辞書
として使用出来ることは、お分かりであろう。本システ
ムは、文脈に関連させて、文中の単語に相当する可能性
のある項目だけを、辞書内から選択することが出来、従
って、ユーザが、どの項目がその単語に相当しているか
を確定するために、チェックしなければならない辞書内
の項目数を大幅に低減することができる。
【0126】以上説明してきたように、本発明の英文法
チェックシステム装置は、最初に、入力文の品詞につい
て品詞タッグ付けをし、次に正しくない文法について文
をチェックする。本システム装置は、文全体が正しいと
する確率に基づかず、むしろ、品詞系列が正しい順序で
ある確率に基づいて単語の用法を訂正するようにし、そ
れにより、正しくない単語の語形変化、不定冠詞の適切
な用法、不適切な大文字化、正しくない助動詞の順序、
不適切な限定詞をチェックするようにしたので、従来の
ように辞書のすべての単語を格納しておいてその辞書の
探索のみに頼るチェックシステムに比べ、少ない記憶容
量で文法チェックを確実に行うことができ、また、品詞
系列を考慮してチェックするため、ユーザが混同を起こ
し易い単語の誤用等も容易にかつ確実に訂正することが
できる。本システム装置は、また、英語の辞書の項目を
検索する場合に、文脈に基づいて検索して適当と思われ
る項目のみを提示するようにしたので、ユーザは辞書の
項目のうちの適当と思われる項目のみをチェックすれば
よいので、検索時間を短縮することができる。
【0127】特に、本システム装置は、語形変化チェッ
ク部において、文の品詞を考慮して、動詞の正しくない
活用形("drove" の代わりに"drived"または"hit" の代
わりに"hitten"など) 、名詞の正しくない複数形(例え
ば"children"の代わりに"childs" )、形容詞の正しく
ない比較級と最上級(例えば"better"の代わりに"goode
r")等をチェックするようにしたので、ユーザが単語の
語形変化を正確に知らない場合にも、的確に訂正するこ
とができる。
【0128】さらに、本システム装置は、不定冠詞訂正
部42において、不定冠詞aとanの正しい用法につい
て、300語程度の例外を予め格納しておき、その例外
以外の単語について単純な所定の法則により判定するよ
うにしたので、すべての単語を格納していた場合に比べ
て、記憶容量を節約することができるとともに、正否判
断の処理時間も短くすることができる。
【0129】本システム装置は、また、限定詞訂正部3
6により、品詞に基づいて、その単語が、固有名詞か、
質量名詞か、集団称号名詞か、慣用句か等の判断によ
り、限定詞の不適切な使用を検出し、訂正するようにし
たので、限定詞の欠落、余分な限定詞、及び、限定詞と
名詞句との数の不一致等を確実にチェックすることがで
きる。このチェックには、冠詞"a" と"an"および"you
r", "theier","some" および"each"などに置き換えられ
るすべての単語の訂正が含まれる。
【0130】本システム装置は、そのほかの特徴とし
て、基本スペル復元部28により、基本綴りを最初に復
元し、次に、スペルチェック部44により、正しい大文
字化をチェックするようにしたので、より正確に大文字
化の正否を判断することができる。
【0131】また、図8に示したような非循環グラフを
使用して、本システム装置は、最初に誤り("he has ac
cept this fact" など) を検出し、次に、複数の動詞の
列を適切な形("he has accepted this fact")に訂正
するようにしたので、より適切に訂正することができ
る。
【0132】さらに、本システム装置は、単語を辞書に
おいて検索する際に、文脈に基づいて判断し、適当と思
われる項目のみを提示するようにしたので、ユーザは、
その単語に関する辞書のすべての項目をチェックしなく
て済むため、検索時間を大幅に短縮することができる。
【0133】
【発明の効果】請求項1の発明によれば、分析手段によ
り、まず、文の単語に対して品詞付けを行ってから、そ
れに基づいて、不定冠詞訂正手段、上記大文字化チェッ
ク手段、限定詞訂正手段、語形変化チェック手段、助動
詞訂正手段、及び、辞書検索手段により、文の品詞列が
正しくなるように品詞列を考慮して、正しくない語形変
化、名詞の誤った単数形/複数形、形容詞の誤った比較
級及び最上級、不定冠詞の誤った用法、正しくない大文
字化及び基本綴り、正しくない助動詞、及び、間違った
限定詞等の単語の用法の訂正を行うようにしたので、従
来のように辞書のすべての単語を格納しておいてその辞
書の探索のみに頼るチェックシステムに比べ、少ない記
憶容量で文法チェックを確実に行うことができ、また、
品詞系列を考慮してチェックするため、ユーザが混同を
起こし易い単語の誤用等も容易にかつ確実に訂正するこ
とができる。また、本システム装置は、英語の辞書の項
目を検索する場合に、文脈に基づいて検索して適当と思
われる項目のみを提示するようにしたので、ユーザは辞
書の項目のうちの適当と思われる項目のみをチェックす
ればよいので、検索時間を短縮することができる。
【図面の簡単な説明】
【図1】 実施例1における本発明の文法チェックシス
テム装置の全体の構成を示したブロック図である。
【図2】 品詞検証部と第一の選択部との具体的な構成
を示したブロック図である。
【図3】 不定冠詞訂正部に格納されているテーブル1
の単語を示した図である。
【図4】 不定冠詞訂正部に格納されているテーブル2
の単語を示した図である。
【図5】 不定冠詞訂正部の動作のフローを示したフロ
ーチャート図である。
【図6】 助動詞訂正部の具体的な構成を示したブロッ
ク図である。
【図7】 助動詞訂正部の具体的な構成を示したブロッ
ク図である。
【図8】 一組の英語の正しい助動詞列を表した有向非
循環グラフ図である。
【図9】 間違った助動詞列の訂正を提示する有向非循
環グラフ図である。
【図10】 語形変化チェック部の具体的な構成を示し
たブロック図である。
【図11】 語形変化チェック部の具体的な構成を示し
たブロック図である。
【図12】 限定詞訂正部の動作のフローを示したフロ
ーチャート図である。
【図13】 限定詞訂正部の動作のフローを示したフロ
ーチャート図である。
【図14】 限定詞訂正部の動作のフローを示したフロ
ーチャート図である。
【図15】 限定詞訂正部の動作のフローを示したフロ
ーチャート図である。
【図16】 基本スペル復元部の動作のフローを示した
フローチャート図である。
【図17】 基本スペル復元部の動作のフローを示した
フローチャート図である。
【図18】 基本スペル復元部の動作のフローを示した
フローチャート図である。
【図19】 文脈依存辞書検索部の具体的な構成を示し
たブロック図である。
【図20】 従来の文法チェックシステム装置の構成を
示したブロック図である。
【符号の説明】
10 入力部、12 キーボード、14 CPU、16
ワード処理装置、20 品詞分析部、22 品詞一致
確率決定部、24 品詞検証部、26 第一の選択部、
28 基本スペル復元部、30 語形変化チェック部、
32 助動詞訂正部、34 第二の選択部、36 限定
詞訂正部、38 単語挿入/削除部、40 文脈依存辞
書検索部、42 不定冠詞訂正部、44 スペルチェッ
ク部。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 アンドリュー・アール・ゴールディング アメリカ合衆国、マサチューセッツ州、ケ ンブリッジ、ファイブ・フロスト・ストリ ート、アパートメント 1

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 英文が入力される入力手段と、 上記英文の単語を1単語ずつ分析し、その単語の品詞付
    けを行って、上記英文に対応した品詞列を出力するため
    の分析手段と、 上記分析手段から出力される品詞列に基づいて、各単語
    につき、最初の文字が大文字化されるべきか否かを判断
    し、その誤りを訂正するための大文字化チェック手段
    と、 上記分析手段から出力される品詞列に基づいて、欠落及
    び余分な限定詞を検出するとともに、限定詞とそれに対
    応する名詞句との数の不一致を訂正するための限定詞訂
    正手段と、 上記分析手段から出力される品詞列に基づいて、上記英
    文の文脈から上記単語の語形変化の正否を判断し、誤っ
    た語形変化を検出する語形変化チェック手段と、 上記分析手段から出力される品詞列に基づいて、誤った
    助動詞列を検出し、訂正する助動詞訂正手段と、 例外単語リストを有し、その単語リスト以外の単語につ
    いて一定の所定の法則を適用させて、上記英文の不定冠
    詞の正否を判断し、訂正するための不定冠詞訂正手段
    と、 英単語辞書を格納している辞書格納部と、 上記分析手段から出力される品詞列に基づいて、上記英
    文の上記単語に対し、上記英単語辞書内の適当と思われ
    る項目のみを出力するための辞書検索手段と、 上記大文字化チェック手段、上記限定詞訂正手段、上記
    語形変化チェック手段、上記助動詞訂正手段、上記不定
    冠詞訂正手段、及び/または、上記辞書検索手段からの
    出力結果を提示するための提示手段と、 を備えたことを特徴とする英文法チェックシステム装
    置。
JP7134159A 1994-06-01 1995-05-31 英文法チェックシステム装置 Pending JPH07325825A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US25257294A 1994-06-01 1994-06-01
US08/252572 1994-06-01

Publications (1)

Publication Number Publication Date
JPH07325825A true JPH07325825A (ja) 1995-12-12

Family

ID=22956586

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7134159A Pending JPH07325825A (ja) 1994-06-01 1995-05-31 英文法チェックシステム装置

Country Status (1)

Country Link
JP (1) JPH07325825A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100892003B1 (ko) * 2008-04-03 2009-04-07 주식회사 청담러닝 영어 작문 학습 시스템에서, 자동 철자오류 검출 및교정정보 제공 장치 및 그 방법
KR100892004B1 (ko) * 2008-05-21 2009-04-07 주식회사 청담러닝 영어 작문 학습 시스템에서, 동사 중심의 자동 문법오류검출 및 교정정보 제공 장치 및 그 방법
JP2010535377A (ja) * 2007-08-01 2010-11-18 ジンジャー ソフトウェア、インコーポレイティッド インターネットコーパスを用いた、文脈依存言語の自動的な修正および改善
CN112906379A (zh) * 2020-12-10 2021-06-04 苏州英特雷真智能科技有限公司 一种基于图形理论的自然语言处理技术的研发方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010535377A (ja) * 2007-08-01 2010-11-18 ジンジャー ソフトウェア、インコーポレイティッド インターネットコーパスを用いた、文脈依存言語の自動的な修正および改善
KR100892003B1 (ko) * 2008-04-03 2009-04-07 주식회사 청담러닝 영어 작문 학습 시스템에서, 자동 철자오류 검출 및교정정보 제공 장치 및 그 방법
KR100892004B1 (ko) * 2008-05-21 2009-04-07 주식회사 청담러닝 영어 작문 학습 시스템에서, 동사 중심의 자동 문법오류검출 및 교정정보 제공 장치 및 그 방법
CN112906379A (zh) * 2020-12-10 2021-06-04 苏州英特雷真智能科技有限公司 一种基于图形理论的自然语言处理技术的研发方法
CN112906379B (zh) * 2020-12-10 2023-12-22 苏州英特雷真智能科技有限公司 一种基于图形理论的自然语言处理技术的研发方法

Similar Documents

Publication Publication Date Title
US5485372A (en) System for underlying spelling recovery
US5535121A (en) System for correcting auxiliary verb sequences
US5521816A (en) Word inflection correction system
US5537317A (en) System for correcting grammer based parts on speech probability
US5845306A (en) Context based system for accessing dictionary entries
US5477448A (en) System for correcting improper determiners
Palmer Tokenisation and sentence segmentation
US7584093B2 (en) Method and system for generating spelling suggestions
US6424983B1 (en) Spelling and grammar checking system
US20100332217A1 (en) Method for text improvement via linguistic abstractions
JP2002215617A (ja) 品詞タグ付けをする方法
JP2013117978A (ja) タイピング効率向上のためのタイピング候補の生成方法
CA2504111A1 (en) Critiquing clitic pronoun ordering in french
JP2004303240A (ja) 単語解析のためのシステムおよび方法
Tufiş et al. DIAC+: A professional diacritics recovering system
Ganfure et al. Design and implementation of morphology based spell checker
Moreno Sandoval et al. Morphosyntactic tagging of the Spanish C-ORAL-ROM corpus: Methodology, tools and evaluation
Kaur et al. Spell checker for Punjabi language using deep neural network
KR20040089774A (ko) 어절 엔-그램을 이용한 띄어쓰기와 철자 교정장치 및 방법
Arulmozhi et al. A hybrid pos tagger for a relatively free word order language
Foufi et al. Multilingual parsing and MWE detection
JPH07325825A (ja) 英文法チェックシステム装置
Wu et al. Correcting serial grammatical errors based on n-grams and syntax
KR20010103411A (ko) 번역 효율이 향상된 언어 번역 시스템 및 방법
Allkivi-Metsoja et al. Spelling Correction for Estonian Learner Language