JPH0844719A

JPH0844719A - 辞書アクセスシステム

Info

Publication number: JPH0844719A
Application number: JP7133929A
Authority: JP
Inventors: Shiyabisu Ibu; シャビスイブ; Aaru Goorudeingu Andoriyuu; アールゴールディングアンドリュー; Roshie Emaniyueru; ロシエエマニュエル
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1994-06-01
Filing date: 1995-05-31
Publication date: 1996-02-16
Also published as: US5845306A

Abstract

(57)【要約】【目的】文を構成する単語に割り当てられた品詞に基
づいて辞書のエントリを選択、分類するコンテキスト−
ベースド辞書アクセスシステムを得る。【構成】品詞解析部２０は、単語から構成された文を
入力し、文を構成する単語の品詞を解析する。コンテキ
スト−センシティブ辞書参照部４０は、単語の定義を記
録した辞書を上記単語を用いて参照するとともに、その
単語の定義として上記品詞解析部２０により解析された
単語の品詞に対応する定義を、まず第１に出力する。ま
た、コンテキスト−センシティブ辞書参照部４０は、単
語の定義として上記文で構文的に適合する定義を出力す
るとともに、関連のない定義を出力しない。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、文法チェッキングシ
ステムに関する。特に、対応する文（センテンス）の単
語（ワード）の構文（シンタックス）上の文脈（コンテ
キスト）に基づいて辞書エントリにアクセスするシステ
ムに関する。

【０００２】

【従来の技術】ＨｅｎｒｙＫｕｃｅｒａ他の米国特許
４８６８７５０による口語用文法チェッキングシステム
は、コンピュータを利用してオートメーション化した言
語分析を行う。自然言語で構成されたテキストをデジタ
ルに符号化（エンコード）してコンピュータに入力し、
コンピュータに記憶された、単語と分析の辞書及び分析
プログラムを用いて、符号化されたテキストを分析し、
エラーを検出する。このシステムは、例えば、Ｍｉｃｒ
ｏｓｏｆｔＷｏｒｄプログラムにおいて、文法エラー
検出に用いられている。

【０００３】このような文法チェッキングシステムは、
適切な用法を提案することを目的としているので、時と
して、検出するエラーの数が多すぎて、閉口することが
ある。なぜ、このようなことが起きるかと言えば、文法
チェッキングシステムが文を誤って、分析するからであ
る。また、たとえ文の分析が正しくても、Ｍｉｃｒｏｓ
ｏｆｔのシステムは、時として、適切でない単語を提案
することがある。

【０００４】他の方法として、文全体が正しいという確
率に基づいて文の分析を行う方法を採るシステムもあ
る。だが、このシステムは、記憶容量と処理能力を必要
とするので、現在のＰＣ（パーソナルコンピュータ）の
処理能力や、ＰＣが備え得るメモリでは、実行できない
という問題点がある。

【０００５】また、トレーニングコーパスに基づいて文
を分析し、文法誤りを検出するシステムもある。いづれ
にしても、このタイプのシステムは、処理能力の速さや
大容量の記憶装置を必要とするので、現在パーソナルコ
ンピューティングと呼ばれ、普及している環境での実現
は、困難である。

【０００６】一例として、従来の文法チェッキングシス
テムは、“a ”や“an”といった不定冠詞の挿入を誤る
ことがある。これは、ネイティブスピーカでない人々に
とって、当該システムによって提供される自然言語に翻
訳しようとするときに大きな問題である。

【０００７】また、“the ”や“a ”といった冠詞が文
法規則や口語的用法のどちらにも十分知識のない者によ
って作成されるとき、“the ”や“a ”といった適当な
冠詞を挿入する能力の欠如ということも非常に重要であ
る。更に、従来の文法チェッキングシステムに共通な誤
りとして、複数の動詞が用いられている時の動詞のつな
がり（動詞シーケンス）の誤りを認識できないと言う問
題がある。１つの文の中で、複数の動詞を適切に使用す
る場合でも、多くのネイティブスピーカでない人々は、
しばしば、“He has recognize that something exist
s. ”という誤った文を作成する。この文では、“has
”が動詞であり、“recognize ”も動詞である。この
ように、複数動詞が明らかに間違って使用されている。

【０００８】最も重要なことは、いわゆる限定詞におい
て問題が発生しているという点である。一例を挙げる
と、“I have cigarette”という文は、明らかに限定詞
“a ”が抜けている。同様に、“some”や“a few ”の
ような限定詞が抜けることもしばしば発生する。文を正
しく読むならば、“I have a few cigarettes.”となる
であろう。同じ文が、名詞を複数形にする事によっても
正しい文となることに留意してほしい。例えば、“I ha
ve a few cigarettes”又は“I have cigarettes”でも
正しい文となる。

【０００９】更に、スペルチェッカや従来の文法チェッ
キングシステムで発生する典型的な文法エラーとして、
不適切な語形変化の訂正が正しく行われないという問題
がある。例えば、従来のシステムでは、“I drived to
the market. ”等という語形変化が誤った文の訂正をほ
とんど行わなかった。

【００１０】上記の諸問題は、言語の慣用語（イディオ
ム）や規則に精通していないネイティブスピーカでない
人々にとっては、大きな問題である。特に英語において
は、規則が単純明瞭ではなく、言語を利用するネイティ
ブスピーカにとっても身近でない慣用語（イディオム）
や規則によって、正しい文法が決定されることが多い。

【００１１】それゆえ、ネイティブスピーカでない人々
が、その国籍毎に頻繁に引き起こすエラーを考慮した文
法チェッキングシステムを提供することが重要である。
例えば、日本語を母国語とする人々が、英語を書くとき
に、よく引き起こすエラーがあることがわかっている。
これらは予測できるので、その予測に基づいて訂正する
事が可能である。同様に、フランス語や他のロマンス諸
語にも、これらの言語を英語に翻訳するときに特有のエ
ラーがある。これらのエラーも予測できるので検出可能
であり、訂正可能である。

【００１２】一般に、構文（シンタックス）認識システ
ムは、数少ない明確な語彙からなるテキストを取り扱う
ように制限されている。あるいは、より一般的なテキス
トではあるが、限られた範囲の構文特性をもつテキスト
を取り扱うように制限されている。語彙を増やしたり、
構文の範囲を拡大させるには、構造をより複雑にし、認
識ルールの数を増大させる事が必要となる。構造がより
複雑化し、認識ルールの数が増えると、システムの規模
が大きくなり、広く普及させるシステムとしては採算が
とれなくなる。

【００１３】文脈に関するエラーを検出し訂正する他の
システムが、ＦｒｅｄｅｒｉｃｋＢ．Ｌａｎｇ他による
米国特許４６７４０６５のテキストプロセッシングシス
テムに述べられている。このシステムは、文書の単語使
用妥当性について校正し、専門辞書を用いてテキストプ
ロセッシングを行う。この専門辞書には、同音異義語と
混乱（ｃｏｎｆｕｓｅ：コンフューズ）しやすい単語の
セットが記憶されており、ダイグラム（ｄｉ−ｇｒａ
ｍ）とｎグラム（ｎ−ｇｒａｍ）の条件により単語の正
しい用法が決定できるようになっている。すでに述べた
ように、品詞ではなく単語毎に統計を取ることは、莫大
な量の知識の集大成と高速な演算能力を必要とする。そ
の為、システムはとてもパーソナルコンピュータでは実
現できない規模となってしまう。更に、このシステム
は、同音の単語に基づいて、誤りやすい単語を検出する
ので、概して誤りやすいが音が類似していない単語につ
いては、訂正することができない。

【００１４】また、米国特許４８３０５２１は、スペル
チェック機能と名詞認識機能を備えた電子タイプライタ
に関する特許である。名詞認識を行うと、更に、名詞が
固有名詞であるかどうかによって、大文字表記を行わね
ばならないという問題も派生する。ところが、この米国
特許においては、文の先頭にある単語に対してだけ大文
字表記を行うだけであり、文の先頭でない単語に対して
も、場合によっては、大文字表記が必要であるという点
を考慮していなかった。

【００１５】また、スペル訂正機能を備えた特許とし
て、以下のものがある。米国特許５２１８５３６，５２
１５３８８，５２０３７０５，５１６１２４５，５１４
８３６７，４９９５７４０，４９８０８５５，４９１５
５４６，４９１２６７１，４９０３２０６，４８８７９
２０，４８８７２１２，４８７３６３４，４８６２４０
８，４８５２００３，４８４２４２８，４８２９４７
２，４７９９１９１，４７９９１８８，４７９７８５
５，４６８９７６８である。

【００１６】また、テキスト分析に関連する米国特許と
して、５２２４０３８，５２２０５０３，５２００８９
３，５１６４８９９，５１１１３８９，５０２９０８
５，５０８３２６８，５０６８７８９，５００７０１
９，４９９４９６６，４９７４１９５，４９５８２８
５，４９３３８９６，４９１４５９０，４８１６９９
４，４７７３００９がある。だが、これらの米国特許は
いずれも、母国語以外の所定の自然言語で文書を提出す
ることを余儀なくされているネイティブスピーカでない
人々が必要とするレベルの文法チェッキングシステムを
提供するものではなかった。これらの米国特許は、ネイ
ティブスピーカでない人々を特にターゲットにして文法
チェックを行い英語の用法を訂正するものではなく、一
般的なシステムである。

【００１７】一方、辞書を効率的に符号化する方法に関
するいくつかの米国特許もある。例えば、米国特許５１
８９６１０，５０６０１５４，４９５９７８５，４７８
２４６４である。辞書を符号化することは、文法を適切
にチェックするシステムを構築する１つのステップにす
ぎない。単語の検索だけを念頭に置いて辞書のエントリ
をアクセスすると、単語としては正しく辞書を引くこと
ができても、文中のコンテキストからその単語をみると
全く意味をなさないという危険性が常に伴う。次の文を
例にとって説明しよう。“He left ten minutes age.”
この文に登場する“left”は、形容詞とも副詞とも名詞
ともとれる。

【００１８】具体的に、ｔｈｅＲａｎｄｏｍＨｏｕ
ｓｅＵｎａｂｒｉｄｇｅｄＤｉｃｔｉｏｎａｒｙ
ｓｅｃｏｎｄｅｄｉｔｉｏｎ１９９３の“left”の
エントリを見ると、図１９に示す記載となっている。こ
のように、従来の辞書参照システムは、単語が用いられ
ている文脈（コンテキスト）を無視してきた。また、辞
書の語義も特定の意味のある順にはなっていなかった。

【００１９】

【発明が解決しようとする課題】この発明は、上記のよ
うな課題を解決する為になされたもので、文脈を基本と
した（コンテキストベースの）辞書アクセスシステムを
得ることを目的としている。また、辞書を参照して、得
られるエントリを特定の順で表示する辞書アクセスシス
テムを得ることを目的としている。

【００２０】

【課題を解決するための手段】この発明に係る辞書アク
セスシステムは、以下の要素を有することを特徴とす
る。（ａ）単語の定義を記録した辞書、（ｂ）単語から構成
された入力文を入力し、入力文を構成する単語の品詞を
解析する解析部、（ｃ）上記辞書を上記単語を用いて参
照するとともに、その単語の定義として上記解析部によ
り解析された単語の品詞に対応する定義をまず第一に出
力する参照出力部。

【００２１】上記参照出力部は、単語の定義として上記
入力文で構文的に適合する定義を出力するとともに、関
連のない定義を出力しないことを特徴とする。

【００２２】上記解析部は、入力文を分析して品詞シー
ケンスとその確率を出力する品詞タガーを備えたことを
特徴とする。

【００２３】上記品詞タガーは、入力文を分解し、前後
３つの品詞の各組合わせ毎に確率を計算し、もっとも確
率の高い品詞の組み合わせを品詞シーケンスとして出力
することを特徴とする。

【００２４】

【作用】この発明の辞書アクセスシステムにおいては、
解析部が、入力文を入力し、入力した入力文を構成する
単語の品詞を解析する。参照出力部は、単語の定義を記
録した辞書を上記単語を用いて参照した結果として得ら
れる１つ以上の定義のうち、その単語の定義として上記
解析部により解析された単語の品詞に対応する定義をま
ず第一に出力する。

【００２５】上記参照出力部は、単語の定義として辞書
に記録されている１つ以上の定義のうち、上記入力文で
構文的に適合する定義を出力する。また、関連のない定
義を出力しない。

【００２６】上記解析部に備えられた品詞タガーは、入
力文を分析して解析した品詞からなる品詞シーケンスと
その品詞シーケンスの確率を出力する。

【００２７】上記品詞タガーは、確率を出力する際に、
入力文を分解し、前後３つの品詞の各組合わせ毎にそれ
ぞれの確率を計算し、もっとも確率の高い品詞の組み合
わせを品詞シーケンスとして出力する。

【００２８】

【実施例】

実施例１．この発明は、単語が登場する文の構文上の文
脈（シンタクテックコンテキスト）に基づく辞書エント
リのアクセスに関する。まず、品詞シーケンス確率に基
づく複数のモジュールを備えたトータルな文法チェッキ
ングシステムについて述べる。

【００２９】図１は、複数モジュールからなる文法チェ
ッキングシステムのブロック図である。入力文に対して
簡便な文法チェックを提供することは、特に外国語を書
く人々にとって重要である。また、その文法チェッキン
グシステムは、内容が正確で、かつ、コンピュータの特
別な知識がなくてもたやすく操作できることが望まし
い。入力文１０は、キーボード１２を用いて、ワードプ
ロセッシングシステム１６のＣＰＵ（セントラルプロセ
ッシングユニット）１４に入力され、文法チェックが行
われる。

【００３０】信頼できる文法確認を行うために、入力文
の品詞は正確に決定されることが重要である。従来の文
法チェッキングシステムは、入力文を直接利用してい
た。それに対し、この発明においては、入力文を品詞に
ブレークダウンし、品詞の集合である品詞シーケンスと
している。これは、品詞解析部２０で行われる。品詞解
析部２０は、例えば、ＫｅｎｎｅｔｈＣｈｕｒｃｈ’
ｓＳｔｏｃｈａｓｔｉｃＰａｒｔｓＰｒｏｇｒａ
ｍにより実現される。これについては、“ＡＳｔｏｃ
ｈａｓｔｉｃＰａｒｔｓＰｒｏｇｒａｍａｎｄ
ＮｏｕｎＰｈｒａｓｅＰａｒｓｅｒｆｏｒＵｎ
ｒｅｓｔｒｉｃｔｅｄＴｅｘｔ”，ｔｈｅＳｅｃ
ｏｎｄＣｏｎｆｅｒｅｎｃｅｏｎＡｐｐｌｉｅｄ
ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓ
ｉｎｇ，ＡｕｓｔｉｎＴｅｘａｓ，１９８８の議事
録に公開されている。例えば、“I heard this band pl
ay.”という入力文を解析すると“PRONOUN，VERB，DETE
RMINER，NOUN，VERB ”という品詞シーケンスとなる。

【００３１】また、時として、品詞シーケンスが、元の
文を正確に反映しないことがある。

【００３２】文を分析し、正確に構成するためには、品
詞シーケンスが単語シーケンスに正確に対応している確
率を確認することが重要である。品詞解析部２０の出力
は、品詞シーケンス確率決定部２２に接続される。これ
により、入力文の品詞シーケンスの確率が決定される。
品詞シーケンス確率決定部２２からは、入力文の品詞シ
ーケンスと品詞シーケンスの確率が出力され、複数のモ
ジュールにより入力文の分析に用いられる。

【００３３】最初のモジュールは、品詞シーケンス確認
部２４である。品詞シーケンス確認部２４は、品詞シー
ケンスの確率に基づいて、誤りやすい（ｃｏｎｆｕｓｅ
ｄ）ワード（単語）やセンテンス（文）を選択する。正
しいワードやセンテンスへの訂正選択は、品詞シーケン
スの確率があらかじめ設定された閾値を越えることによ
り行われる。訂正文選択部２６は、訂正文を選択する。
訂正文選択部２６には、入力文と複数の訂正文の確率と
が入力される。訂正文選択部２６には、誤りやすいワー
ドのリストが予め備えられている。

【００３４】以上のように、誤りやすいセンテンスが訂
正される。基本スペル回復部２８は、ワードの基本スペ
ルを決定するために使用される。従来のスペルチェッカ
は、スペル確認に参照テーブルを用いる。従来のスペル
チェックでは、大文字表記は考慮されないので、スペル
チェックを行った後もスペルエラーに悩まされることに
なる。更に、入力文がすべて正しいスペルを持っている
ものとして動作する文法チェッキングシステムは、ワー
ドやセンテンスの始まりと頭字語を誤ることがある。

【００３５】より信頼性の高いスペルチェックと文法訂
正を行うために、基本スペル回復部２８は、大文字表記
されたワードを誤りやすいワードとみなす。誤りやすい
ワードとみなすことにより、上記品詞シーケンス確認部
２４と同様のテクニックを用いて、ブラウンのコーパス
（Brown■s corpus）のようなトレーニングコーパスを
用いて、大文字表記されたワードのあるカテゴリーに入
る確率、あるいは、他のカテゴリーに入る確率を提供す
る。

【００３６】伝統的な言語プロセッシングシステムは、
名詞が普通名詞か固有名詞のどちらであるかを決定する
ことでワードの基本スペルを回復してきた。この発明の
基本スペル回復部２８は、文脈（コンテキスト）と確率
を用いて単語をカテゴリー化する。即ち、センテンスを
ワード毎に分析し、大文字表記と非大文字表記のどちら
が確率が高いかを確認する。その結果、確率が高い方の
表示に決定される。基本スペルが回復されると、基本ス
ペル回復部２８の出力は、語形変化チェッカ３０とスペ
ルチェッカ４４に接続される。このスペルチェッカ４４
は、従来のスペルチェック機能を持つものでよい。ある
いはまた、特定の外国語を話す人向けの機能を持つもの
でもよい。

【００３７】他のモジュールとして、助動詞訂正部３２
も品詞シーケンス確率決定部２２の出力した品詞を入力
する。助動詞訂正の問題は、センテンスの中に複数の動
詞があり、そのいくつかが妥当でないときに発生する。
そして、複合助動詞シーケンスにおいて、間違った時制
が用いられているときに発生する。例えば、“he would
living ”というセンテンスには、“would ”，“livi
ng”という２つの動詞が含まれている。このセンテンス
を正しく訂正するならば、“he would live ”という形
が考えられる。この場合、動詞“live”の時制の訂正が
必要である。

【００３８】助動詞訂正部３２は、助動詞シーケンスに
誤りがあれば、これを検出し、訂正案を示す。助動詞シ
ーケンスを表現するために、助動詞訂正部は、定形の動
詞シーケンスを表す非循環有向グラフ（アサイクリック
グラフ）を使用する。ここで、正しい動詞シーケンスを
作成するために、前述した品詞シーケンス確率決定部２
２が正しい品詞を決定することが肝要である。

【００３９】助動詞訂正部３２の出力は、訂正文選択部
３４に接続され、センテンスの代替案を提示するのに使
用される。

【００４０】また、他のモジュールとして、限定詞訂正
部３６も品詞シーケンス確率決定部２２の出力した品詞
を入力する。限定詞訂正部３６は、名詞句の指示対象を
限定するワード（限定詞）を訂正することを目的として
いる。限定詞とは、例えば、“the ”，“a ”，“som
e”というワードである。この限定詞訂正部３６は、３
つのクラスのエラーを検出する。３つのクラスとは、限
定詞の欠落、不要な限定詞、限定詞と名詞の不一致であ
る。

【００４１】限定詞の欠落の例を示す。“John read bo
ok”というセンテンスには、“the ”が抜けている。ま
た、“John went to the New York ”というセンテンス
には、“the ”が余分であり、削除されるべきである。
これは、不要な限定詞の例である。次に、“John read
many book ”というセンテンスにおいては、“book”
は、“many”に一致させて複数形をとるべきである。こ
れは、限定詞と名詞の不一致の例である。限定詞の誤り
を検出するために、名詞句を識別する品詞タグが付加さ
れる。システムは、どの品詞タグのシーケンスが名詞句
を構成するかを定義した規則表現を予め有しており、こ
の規則表現とマッチングして名詞句を識別する。

【００４２】システムは、続いて、名詞句毎に限定詞が
欠落していないかをヘッドナウンにより検証する。ヘッ
ドナウンとは、名詞句を構成するワードの中で主となる
名詞（ＮＯＵＮ：ナウン）を指す。このプロセスで、ヘ
ッドナウンが検出されると、このヘッドナウンが質量名
詞（mass noun ：マスナウン）、マスタイトルナウン
（mass title noun ）、イディオムか限定詞の欠落のい
ずれであるか判断する。その後、システムは、名詞句に
不要な限定詞があるかどうか検証する。最後に、システ
ムは、限定詞と名詞句のヘッドナウンがそれぞれ示す数
が一致しているかどうか検証する。その結果、単語挿抜
部３８において、単語の挿入、削除、置換が行われる。

【００４３】加えて、不定冠詞訂正部４２が、入力文１
０について、不定冠詞“a” と“an”の用法を訂正す
る。

【００４４】そして、最後に、品詞シーケンスの確率が
コンテキスト−センシティブ辞書参照部４０において用
いられる。ある１つの単語は、コンテキストから離れて
みると多くの品詞となる可能性があり、それぞれの品詞
は辞書のサブエントリに記載されている。コンテキスト
−センシティブ辞書参照部４０は、辞書にアクセスし、
品詞解析部２０により得られた品詞に基づいて、適切な
語義を選択する。例えば、“love”という単語は、名詞
であり、動詞でもある。そして、名詞“love”は、辞書
に多くのエントリがある。動詞“love”も同様である。
入力文が“She was my first love ”だとすると、単語
“love”は、品詞解析部２０により名詞として識別され
る。そして、コンテキスト−センシティブ辞書参照部４
０は、まず名詞“love”の辞書エントリを選択し、その
後、動詞“love”の辞書エントリを選択する。

【００４５】（ａ）品詞確率に基づく文法訂正従来、前述した文法チェッキングシステムのいくつか
は、やっかいな単語の誤使用を訂正するという方法で英
語の用法を正しくしようと試みてきた。やっかいな単語
というのは、特に、音が同一でスペルが違う単語であ
る。例えば、“too”，“to”と“two ”であり、ま
た、“their ”，“they■re ”と“there”である。他
にも、単語が１語か２語かに関する錯誤もよく発生す
る。例えば、“maybe ”，“may be”である。また、音
は似ていないが、しばしば取り違えられる単語として、
“which ”と“whose ”がある。

【００４６】また、従来、正しい用法を確認するため
に、センテンスの文法性が計算され、このセンテンスの
英語として生起する確率が算出された。こうした、統計
的なアプローチは、文法的に正しいセンテンスには高い
確率を割り当て、文法的に正しくないセンテンスには低
い確率を割り当てる。この統計は、英文の集大成のトレ
ーニング、即ち、トレーニングコーパスにより得られ
る。コーパスは正しい用法を定義する。センテンスが、
文法チェッキングシステムに入力されると、コーパスに
照らし合わせて、センテンス全体の確率が計算される。
英語の語彙約６００００語を享受するためには、数百兆
の単語を擁するコーパスを使用しなければならない。更
に、コンピュータにこれに匹敵する数の確率を記憶しな
ければならない。それゆえ、センテンス全体の分析とい
うタスクは、莫大な計算と大規模な記憶容量を必要とす
る。

【００４７】この発明に係るシステムにおいては、正し
い用法を確立するために、品詞シーケンスの確率を用い
ている。そのために、システムは、１００から４００の
可能性のある品詞を用意しておく。１００から４００と
言う品詞の数は、システムの性能により異なる。これ
は、数百兆の単語のトレーニングコーパスを、数百万の
単語のトレーニングコーパスに変換するに等しい。トレ
ーニングコーパスを用いるこのタイプの分析は、ワード
プロセッシングに用いられるような標準的なコンピュー
タで容易に実行可能である。

【００４８】この発明に係るシステムでは、センテンス
はまず品詞に分割される。例えば、“I heard this ban
d play”というセンテンスは、次のように分析される。
PRONOUN，VERB，DETERMINER，NOUN，VERB である。この
品詞シーケンスの確率が、コーパスと比較して決定され
る。これはまた、いわゆるトリグラム（ｔｒｉ−ｇｒａ
ｍ）を考慮するのでなければ、実行可能とは言えない。
トリグラムは、入力文の中で前後に隣り合う品詞を３つ
組み合わせたものである。正しい用法か否かを判断する
には、一般に、３つの隣り合う品詞の分析を行えば十分
である。このトリグラムの確率を用いて、ある文が正し
い用法に則っているかどうか判断できる。以上のような
理由で、文全体のチェックはせず、隣り合う３つの品詞
の確率がトレーニングコーパスから計算される。

【００４９】例えば、２つの文があり、１つの文が、他
の文の内容をわかりにくくしているとき、上記テクニッ
クを用いれば、どちらの文が正しい用法なのか決定する
ことができる。上記システムは、正しい用法か否かを低
いエラー率で決定できることから、２つのメリットが得
られる。第１に、２つの文のうち、どちらが正しいかを
明確に決定できることであり、第２に、一度決定した正
しい文の品詞を記憶しておき、他の文法チェッキングモ
ジュールで将来的に利用可能となる点である。

【００５０】次に、図２を用いて説明する。図２は、誤
りやすい単語の訂正に品詞シーケンスの確率を用いた場
合のブロック図である。図において、入力文Ｓ１（１３
０）は、品詞タガー１３２に接続されている。入力文Ｓ
１は、また、候補文Ｓ２（１３４）にも接続されてい
る。候補文Ｓ２には誤りやすい単語リスト１３６が入力
される。品詞タガー１３２は、入力文Ｓ１を１３８に示
す品詞シーケンスＴ１と確率Ｐ１に分解する。上記分解
処理は、Ｃｈｕｒｃｈにより示されたアルゴリズムに従
って行われる。このアルゴリズムによれば、文を分解
し、前後の３つの品詞の組み合わせをオーバーラップさ
せてできるすべての組み合わせ毎にそれぞれ確率を計算
し、もっとも確率の高い品詞の組み合わせが文の分解結
果として得られる。

【００５１】次に、入力文Ｓ１に使用されている単語を
基に誤りやすい単語リスト１３６を参照し、入力文Ｓ１
の代替案となる候補文Ｓ２（１３４）が生成される。生
成された候補文Ｓ２は、品詞タガー１３２に入力され
る。そして、１４０に示す品詞シーケンスＴ２と確率Ｐ
２が求められる。

【００５２】上記のように求められた入力文Ｓ１の確率
Ｐ１（１３８）と、候補文Ｓ２の確率Ｐ２（１４０）を
比較し、どちらの品詞シーケンスが正しいかを決定す
る。決定は、比較選択部１４２に示すように、確率Ｐ１
と確率Ｐ２を比較して行う。閾値をｅとすると、Ｐ２−
Ｐ１＞ｅの時、１４４に示すように、入力文Ｓ１の候補
文Ｓ２への置換を推奨する。また、Ｐ２−Ｐ１＜＝ｅの
時、１４６に示すように、入力文Ｓ１への変更は行われ
ない。

【００５３】具体例を挙げて説明する。“I want to he
re this band”という入力文において、“here”は、
“hear”の誤りであるとする。この時、どちらが正しい
かを決定するために、Ｓ１：“I want to here this band” Ｓ２：“I want to hear this band” という２つの文を比較する。

【００５４】２つの文を比較する方法として、英文のテ
キストの統計モデルにより文全体の確率を比較する方法
がある。この方法は、ＥｒｉｃＭａｙｓ，Ｆｒｅｄ
Ｄｅｍｅｒｅａｕ，ＲｏｂｅｒｔＭｅｃｅｒによ
る“ＣｏｎｔｅｘｔＢａｓｅｄＳｐｅｌｌｉｎｇ
Ｃｏｒｒｅｃｔｉｏｎ”に開示されている（発行“Ｉｎ
ｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇａｎｄ
Ｍａｎａｇｅｍｅｎｔ”，２７（５）：５１７−４２
２，１９９１）。この方法は、テキストに制限を加えな
いで扱うには、４０，０００ワード以上の語彙を必要と
するので、高価であり、標準的なコンピュータで使用す
るには、実用的とはいえない。文の確率を直接計算する
には、莫大な量のトレーニングデータ、例えば、最低で
も４００，０００，０００のトレーニングワードが必要
であり、それらを記憶する莫大な記憶容量も当然必要と
なるからである。

【００５５】前述した方法に対して、この発明のシステ
ムにおいては、図２に示すように、入力文と候補文の品
詞シーケンスの確率を比較する。具体的にいうと、“I
wantto here this band”という文の確率を計算するの
ではなく、入力文を“PRONOUN VERB TO ADVERB DETERMI
NER NOUN”という品詞シーケンスとみなし、この品詞シ
ーケンスの確率を計算する。同様に、この発明のシステ
ムは、候補文“I want to hear this band”を品詞シー
ケンス“PRONOUN VERB TO VERB DETERMINER NOUN”とみ
なし、確率を計算する。２つの品詞シーケンスの確率を
計算した結果、“here”と“hear”どちらを使用するか
を決定する。

【００５６】また、上記の確率を比較する方法ではな
く、他の方法で比較を行ってもよい。図３は、図２の比
較選択部１４２における比較対象として、文の長さの平
均を用いたブロック図である。この発明に係るシステム
においては、ワード長を考慮した確率のジオメトリック
アベレージを比較する。即ち、Ｐ１の対数を入力文Ｓ１
のワード数で割った値と、Ｐ２の対数を候補文Ｓ２のワ
ード数で割った値を比較する。これは、“maybe ”と
“may be”のように、１つのワードと、誤りやすいワー
ドシーケンスを比較する場合に重要である。統計的言語
モデルは、長文の確率を低くみなすので、品詞シーケン
スの確率を直接的に比較すると、長文よりも短文が好ま
れる傾向がある。ジオメトリックアベレージの比較は、
この傾向を緩和するのに有効である。

【００５７】次に、誤りやすい単語リスト１３６の典型
的な登録例を示す。例えば、to，too ，two ；I ，me；
its ，it■s；their ，they■re ，there ；whose，whi
ch ；then，than；whose ，who■s ；our ，are ；hea
r，here；past，passed；accept，except；advice，adv
ise；lose，loose ；write ，right ；your，you■re
；affect，effect；maybe ，may beである。

【００５８】上記以外の誤りやすいワードにも、この発
明に係るシステムは適用可能である。また、フランス
語、イタリア語、スペイン語など、英語以外の言語にも
適用可能である。その場合にも、もちろん、Ｃｈｕｒｃ
ｈによる方法、即ち、トリグラムモデルを用いた品詞の
タグ付けが必要である。

【００５９】以上のように、図２及び図３に示す実施例
は、より確率の高い訂正文を選択することに加えて、文
の文法性（文法にかなっていること）に関する判定をし
ているという点において重要である。この方法により、
従来よりもよりよい、そして、より信頼性の高い文の品
詞への分解が可能となる。

【００６０】文を正しくするために、まず重要なのは、
文の品詞への分解が可能なことである。文法チェッキン
グシステムの正確さは、この分解作業の正確さにかかっ
ている。より信頼性の高い品詞生成法が実現されれば、
文法チェッキングシステムの成果物もより信頼性の高い
ものとなるであろう。

【００６１】（ｂ）“a ”と“an”の訂正ネイティブスピーカでない人々がしばしば間違えるの
は、不定冠詞“a ”と“an”の使い方である。英語の文
法規則によれば、不定冠詞“a ”は、子音で始まる単語
に用い、また“an”は、母音で始まる単語に用いると定
められている。この文法規則に素直に従うならば、次の
単語の１番目の文字が母音字であるか、子音字であるか
によってどちらの不定冠詞を用いるかを決定すればよ
い。実際、母音で始まるほとんどの単語の最初の文字は
母音字であり、子音で始まるほとんどの単語の最初の文
字が、子音字である。ところが、次のような例外もあ
る。例えば、“an hour ”，“a European”などであ
る。単語“hour”は、子音字（ｈ）で始まるが、母音で
発音される。同様に、単語“European”は、母音字
（Ｅ）で始まるが、子音で発音される。

【００６２】以前は、この問題を解決するために、全て
の英単語の発音辞書を記憶する方法をとっていた。この
方法は、もちろん正しいが、非常に多くの記憶容量を必
要とする。

【００６３】従来のように、全ての英単語の辞書参照テ
ーブルを用いるのではなく、この発明に係るシステムで
は、文法規則に則っていない例外だけを取り出して、別
に処理し、例外処理に該当しないものは、文法規則に素
直に従う方法をとっている。そのために、この発明に係
るシステムでは、２つのテーブルを用いている。テーブ
ル１は、発音は母音であるが、子音字で始まる単語のリ
ストである。また、テーブル２は、発音は子音である
が、母音字で始まる単語のリストである。一般的な辞書
ベースのシステムでは、６０，０００ワードを記憶しな
ければならないのに対して、この２つのテーブルを用い
れば、３００ワード以下ですむという利点がある。

【００６４】以下に、テーブル１とテーブル２を示す。テーブル１ Ewell Ewell■s U U-boat U-boat■s U-turn U-turn■s UFO UFO■s Uganda Uganda■s Ugandan Unitarian Unitarianism Unitarianism■s Uranus Uranus■ Uruguay Uruguay■s Uruguayan Utah Utah■s Utopia Utopia■s Utopian Utrecht Utrecht■s ewe ewe■s ewer ewer■s once one one■s one-armed one-eyed one-horse one-sided one-step one-time one-upmanship oneself ouija ouija■s ouija-board ouija-board■s ouijas u u■s ubiquitous ubiqity ubiquity■s ukase ukase■s ukulele ukulele■s ululate ululated ululating ululation ululation■s unanimity unanimity■s unanimous unanimously unicorn unicorn■s unification unification■s unified uniform uniformed uniformity uniformly unify unifying unilateral unilaterally union union■s unionist unionist■s unique uniquely uniqueness unisex unison unit unit■s unite united unitedly uniting unity unity■s universal universality universality■s universally universe university university■s uranium uric urinal urinary urinate urinated urinating urine urine■s urines usable usage usage■s use use■s used useful usefully usefulness useless uselessly uselessness user user■s using usual usually usurer usurer■s usurious usurp usurpation usurpation■s usurper usurper■s usury usury■s utensil utensil■s uterine uterine■s uterus uterus■ utilitarianism utilitarianism■s utility utility■s utilizable utilization utilization■s utilize uvula uvula■s uvular

【００６５】テーブル２ ■em ■un F F■s H H■s H-bomb L L■s LSD M M■s MP MP■s N N■S NB NHS R R■s S S■s SOS X X■s X-ray Xmas Yvonne f f■s h h■s hauteur heir heiress heirloom honest honestly honesty honorarium honorary honorific honorable honorably honour hounourable hounourably hour hourglass hourly l l■s m m■s n n■s nb r r■s s s■s x x■s

【００６６】以上のように、この発明においては、単語
の最初の音を識別する。不定冠詞を正しく用いるために
は、単語を発音するときの最初の音を正しく識別するこ
とが重要である。

【００６７】２つのテーブルを用いて、最初に例外を拾
い出して、処理してしまうので、後は、以下に示す３つ
の規則を適用すればよい。１つ目の規則は、文字“eu”
で始まる単語に不定冠詞をつけるときは、“a ”を使う
という規則である。２つ目の規則は母音字“a ”，“e
”，“i ”，“o ”，“u ”で始まる単語に不定冠詞
をつけるときは、“a ”を使うという規則である。３つ
目の規則は、子音字で始まる単語に不定冠詞をつけると
きは、“an”を使うという規則である。

【００６８】図４は、“a ”と“an”を正しく訂正する
処理の流れ図である。この流れ図に沿って説明する。こ
の処理では、入力した文の先頭から順にワードを評価し
ていくが、その際、カレントなワードｉをｗ１とし、ｗ
１に続くワードをｗ２とする。まず、３００において、
ｎワードから構成される文を入力する。次に、３０２に
おいて、ｉに初期値０を設定する。次に、３０４におい
て、ｉがｎ−１よりも小さいかを判断する。これは、ｎ
ワードで、この処理を終了するための判断である。ｎｏ
の時、処理のループをストップする。ｙｅｓの時は、処
理終了ではないので、３０６に進む。３０６において
は、ｉに１を加算する。ここで、ｗ１がｉ番目（最初
は、１番目）のワード、ｗ２がｉ＋１番目（同じく、２
番目）のワードとなる。次に、３０８において、ｗ１が
“a ”か“an”のいずれかであるかどうか判断する。ｎ
ｏの時、以下の処理は、対象外となるので３０４に戻
り、次のワードの処理を行う。ｙｅｓの時、３１０に進
む。３１０の判断で、ｗ２がテーブル１にある時（不定
冠詞として“a ”が正しい時）、３１２において、ｗ１
が“an”であれば“a ”に変更し、３０４に戻る。ｗ２
がテーブル１にない時、３１４に進む。３１４の判断
で、ｗ２がテーブル２にある時（不定冠詞として“an”
が正しい時）、３１６において、ｗ１が“a ”であれば
“an”に変更し、３０４に戻る。ｗ２がテーブル２にな
い時、３１８に進む。３１８において、ｗ２の先頭の２
文字が“eu”の時（不定冠詞として“a ”が正しい
時）、３２０において、ｗ１が“an”であれば“a ”に
変更し、３０４に戻る。ｗ２の先頭の２文字が“eu”で
ない時、３２２に進む。３２２において、ｗ２の先頭の
１文字が“a ”，“e ”，“i ”，“o ”，“u ”のい
ずれかの時（不定冠詞として“an”が正しい時）、３２
４において、ｗ１が“a ”であれば“an”に変更し、３
０４に戻る。ｗ２の先頭の１文字が上記以外の時、３２
６において、ｗ１が“an”であれば“a ”に変更する。
以上のように、図４に示す流れ図に従って、ワード毎に
判断し、“a ”と“an”を正しく訂正する。

【００６９】（ｃ）助動詞シーケンスの訂正既に述べたように、ネイティブスピーカでない人々が英
文を書く時、複合助動詞シーケンスの時制を誤ることが
ある。例えば、“he has consider ”というような文で
ある。この文では、動詞“consider”の時制が間違って
おり、“he hasconsidered ”が正しい。これまでの文
法チェッキングシステムには、助動詞シーケンスをチェ
ックする機能を持ったものはなかった。なぜならば、助
動詞シーケンスの認識は、明らかに困難なことだからで
ある。また、品詞タグが付けられることもなかったから
である。

【００７０】この発明に係るシステムにおいては、文を
品詞シーケンスとして捉えている。図５を用いて説明す
る。図５は、誤った助動詞シーケンスの訂正のブロック
図である。この発明に係るシステムにおいては、図５に
示すように、入力文４１０を分析して品詞タガーにより
品詞タグを付加し、品詞からなる文４１４とする。

【００７１】エラーを検出するためには、助動詞シーケ
ンスの開始ポイントと終了ポイントを検出しなければな
らない。“He has been consider this fact”という文
を例に取ると、文の最初から４番目のワード“conside
r”がエラーの終了ポイントであることを検出すること
が重要である。エラーの終了ポイントである“conside
r”以降のワード、即ち、“this fact ”は助動詞シー
ケンスの訂正に全く影響を与えない。同様に、エラーの
開始ポイント、即ち、文の最初から２番目のワード“ha
s ”を検出することも重要である。エラーの開始ポイン
トである“has ”よりも前のワードは、助動詞シーケン
スの訂正には、無関係である。

【００７２】図６は、開始ポイント検出部４２６と終了
ポイント検出部４２４の開始ポイントと終了ポイントの
検出のブロック図である。入力文の品詞が生成される
と、終了ポイント検出部４２４により、誤った助動詞シ
ーケンスの終了位置が求められる。この誤った助動詞シ
ーケンスの終了位置検出のために、図６の４２０に示す
正しい助動詞シーケンスが記憶されている。この正しい
助動詞シーケンス４２０は、全ての正しい助動詞シーケ
ンスからなり、その詳細は、図７に示されている。図７
は、英語の正しい助動詞シーケンスを表す有向非循環
（アサイクリック）グラフである。

【００７３】この正しい助動詞シーケンス４２０を示す
有向非循環グラフを参照し、誤った助動詞シーケンス４
２２が生成される。この誤った助動詞シーケンス４２２
も有向非循環グラフの形式で表すことができる。有向非
循環グラフは、誤った助動詞シーケンス“have-3rd-per
son verb-infinitive ”を含む形となる。この誤った助
動詞シーケンス“have-3rd-person verb-infinitive ”
は、“has consider”に対応している。エラーの終了ポ
イントの検出は、入力文字列（ストリング：ｓｔｒｉｎ
ｇ）を左から右に読みながら、有向非循環グラフと照合
する事により行われる。入力文を構成するワードは品詞
に対応しているので、入力文の品詞を誤った助動詞シー
ケンスにあてはめていくと、問題の助動詞シーケンスの
最後となるワードが明らかになる。このワードの文中で
の位置を識別するために、終了ポイント検出部４２４が
識別子を付ける。

【００７４】同様に、問題の助動詞シーケンスの開始ポ
イントとなるワードには、開始ポイント検出部４２６が
識別子を付ける。開始ポイント検出部４２６は、エラー
の終了ポイントの検出後、終了ポイントからグラフの開
始地点まで、右から左に逆戻りして、付与される。具体
的に、例文に沿って説明する。この発明に係るシステム
は、まず、文を左から右に読みながら、“has ”を“ha
ve”の３人称単数形と認識する。そして、“has ”に続
く“consider”を動詞の不定詞形（verb-infinitive ）
と認識する。この発明に係るシステムは、ここで、誤り
を発見する。つまり、“has ”の後に、ワード“consid
er”がくるのは、助動詞シーケンスとして誤りであり、
ワード“consider”が誤り助動詞シーケンスの最後尾で
あることを識別する。そして、ワード“consider”か
ら、入力文とグラフをさかのぼり、さきほどの“consid
er”と“has ”を見つける。ここで、ワード“has ”が
助動詞シーケンスの先頭であることがわかる。

【００７５】図５に戻って、説明する。助動詞シーケン
スの終了ポイントが決定されると、４２８に示すように
誤り助動詞シーケンスの終了位置（入力文の誤りシーケ
ンスの最後尾のワードの位置）が決定される。同様に、
誤り助動詞シーケンスの開始位置（誤りシーケンスの最
初のワードの位置）が４３０において、決定される。こ
こでいうワードの位置とは、入力文中で何ワード目かを
示す数字のことである。４３２は、第２の有向非循環グ
ラフを用いて行う助動詞シーケンス訂正部である。第２
の有向非循環グラフには、誤った助動詞シーケンス毎
に、いくつかの訂正例が定義されており、その詳細を、
図８に示す。助動詞シーケンス訂正部４３２は、誤った
助動詞シーケンスを元に、この第２の有向非循環グラフ
を参照する。そして、４３４に示すように、助動詞シー
ケンスの訂正文をユーザに提示する。

【００７６】ここで、前述した図７について詳しく説明
する。図７は、英語の正しい助動詞シーケンスを表す有
向非循環（アサイクリック）グラフである。まず、図７
の左端に、開始ポイント４４０がある。開始ポイント４
４０の右隣のボックス群４４２には、英語の助動詞全て
が網羅されている。その助動詞は、“be”，“were”，
“was ”，“is”，“am”，“is”，“are ”，“bee
n”，“had ”，“have”，“has ”，“could ”，“s
hould”，“might ”，“may”，“can ”，“must”，
“would ”，“shall ”，“will”，“do”，“doe
s”，“doesn■t ”及び“did ”である。これら助動詞
のうち、“be”から“been”は、ノード４４４につなが
っている。１つのノードにつながっているということ
は、これらの助動詞の後に続く動詞は、同一の動詞でよ
いということを示している。例えば、“were”の後に
“being ”が続く“were being”というシーケンスが正
しいのと同様に、“is”の後に“being ”が続いてもよ
い。即ち、ノード４４４は、後に同じ動詞が続く助動詞
のグループがあることを示している。また、ノード４４
６は、“had ”，“have”，“has ”に接続しており、
例えば、“had ”，“have”，“has ”に対して“bee
n”というワードが続く時のシーケンスはいずれも正し
い。同様に、ノード４４８には、“could ”から“wil
l”が接続しており、“have”というワードが後に続く
ことがあってもよい。あるいは、“do”というワードで
もよい。そして、ノード４５０には、“does”，“d
o”，“doesn■t ”が接続している。これらの助動詞は
“have”には続いてよいが、“do”には続かない。

【００７７】このように、規則をコンパクトな視覚表現
に同化させることで、正しいシーケンスかどうか判断す
ることができ、誤った助動詞シーケンスの訂正ができ
る。

【００７８】また、前述した各ノードに続いて、“？？
？”と表示されたボックスが存在している。例えば、ボ
ックス４５２などである。“？？？”と表示されたボッ
クスは、他のノードに描写されていないワードがくるこ
とを表している。あるいは、なにもないことを表すこと
もある。“？？？”を用いることにより、グラフがコン
パクトになる。ノード４５４を例にとって説明する。ノ
ード４５４から延びている線は、“？？？”と表示され
たボックス４５６、“had ”と表示されたボックス４６
６、“been”と表示されたボックス４６４に接続してい
る。それにより、ボックス４５６は、“had ”と“bee
n”以外のワードがきて、ノード４５８に接続すること
を示している。あるいは、なにもなくてノード４５８に
接続することを示している。

【００７９】このグラフへの入力は、品詞を伴ったワー
ドシーケンスであることを考えると、この入力は、２つ
の変数によってタグ付けされる。第１の変数は、ワード
そのものであり、第２の変数は品詞である。即ち、入力
センテンスは分析により、ワードばかりでなくも品詞も
含んだ形になる。例えば、この発明のシステムが、シー
ケンス“have considered ”を分析するとき、このグラ
フは、シーケンス“have have considered vbn”と比較
される。この、最初の“have”はワードであり、２番目
の“have”は品詞を意味している。また、“considere
d”はワードであり、“vbn ”は過去分詞形を意味して
いる。この２つの変数を用いた分析結果を基に、左から
グラフを見ていくと、“have”と表示されたボックス４
６１が見つかる。ボックス４６１から、右に進み、ノー
ド４４６を過ぎると、前述した“？？？”と表示された
ボックス４６２があり、ノード４５４に接続する。ノー
ド４５４からは、“had ”と表示されたボックス４６
６、“been”と表示されたボックス４６４への線が延び
ているが、どちらも入力文にマッチしない。残された線
は、ボックス４５６に接続する線であり、この線に沿っ
て進んでいくと、ノード４５８を通ってボックス４６０
に接続する。ボックス４６０は、“vbn ”と表示してあ
り、過去分詞がくることを示している。これは、入力文
に、該当する過去分詞があれば、ノード４７０に進んで
よいことを示している。ノード４７０からは、“〈E
〉”と表示されたボックス４７４を通って、グラフの
終了ポイント４７２に到達する。このように、入力文を
有向非循環グラフに当てはめながら、該当するノードを
経由して終了ポイントまで無事通過できたので、この入
力文は、問題ないとみなされる。“〈E 〉”という表示
は、ワードが存在しない（an empty word である）こと
を示している。そして、“〈E 〉”と表示されたボック
スは、あるノードから次のノードに、ワードや品詞を問
わず、進んでよいことを示している。

【００８０】目指すワードが４４２に示したボックスの
中にない場合には、ボックス４７６とノード４８０を通
って、各品詞のボックス４８２に行き、そこからノード
４８４にいく。ボックス４８６は、終了ポイント４７２
に通ずる経路を提供する。あるいは、ノード４８４から
ボックス４８８を通ってノード４９０に行き、そこか
ら、品詞ボックス４９２，４９４のいずれかを通って、
終了ポイント４７２に至る。また、ノード４８４からの
もう１つの経路として、“having”を持つワードと結合
しているときは、ノード４９６とボックス４９８を経
て、ノード５００に至る経路がある。ノード５００で更
に分岐し、その１つは、ボックス５０２からノード５０
４を経て、品詞ボックス５０６を通って終了ポイント４
７２に至る。また、ノード４８４のワードが、“havin
g”と“been”を伴っている場合には、ノード５０８か
らボックス５１０、ノード５１２を通り、そこから、ボ
ックス５１４、ノード５１６を通る。ノード５１６から
また、品詞５１８から終了ポイント４７２に至る経路
と、ボックス５２０を通る経路に分かれている。これら
のルートのいずれかを通って終了ポイント４７２に到着
すれば、入力されたワード“having”，“been”の用法
が、正しいと決定される。また、ワード“having”，
“been”のシーケンスにワード“being” が付加されて
いる場合には、ノード５１２からノード５２２、ボック
ス５２４を経て、ノード５１６に至る。

【００８１】以上のように、有向非循環グラフは、全て
の助動詞の正しい用法を明記している。それ故、文をこ
の有向非循環グラフに当てはめて分析することにより、
うまく当てはまれば、その文が正しいことがわかり、当
てはまらなければ、その文が誤っていることが即座にわ
かる。このように、簡潔なアプローチにより、文の分析
を著しく効果的に行うことが可能となる。

【００８２】次に、図８を用いて説明する。図８は、正
しくない助動詞シーケンスの訂正例を提案する変換器を
示す有向非循環グラフ図である。この有向非循環グラフ
図では、適当な訂正を推奨するために、１つのボックス
に、助動詞が組になって示されている。各組の左側が誤
った助動詞であり、右側が訂正案である。例えば、“wi
ll had”という助動詞シーケンスが誤りであることが識
別された後、図８に示す有向非循環グラフは、正しいシ
ーケンスを記すために用いられる。ノード５３０からス
タートすると、入力センテンスの最初のワード“will”
は、ボックス５３２の左側にあるので、ノード５３４に
進む。ノード５３４とボックス５３６を通って、ノード
５３８に着くと、今度は、“had ”が問題となる。ボッ
クス５４０は、“had ”を“have”に変更すべきである
ことを示している。そして、ノード５４２に進み、そこ
からボックス５４４を通って、終了ポイント５４６にい
く。この経路を通って、終了ポイント５４６に到着した
ので、推奨される正しいシーケンスは、“will have ”
であることがわかる。

【００８３】更に、複雑なケースとして、誤ったシーケ
ンス“would considered”を例に取ってみよう。対応す
る品詞タグは、“would would considered vbn”とな
る。このケースでは、“would ”と表示されたボックス
５５０を通って、ノード５３４に行き、ボックス５３６
からノード５３８に至る。ここで、ボックス５４０，５
５２，５５４，５５６，５５８，５６０のいずれもこの
シーケンスに該当しない。これらのどのボックスにも、
“consider”というワードはないからである。ここで、
ボックス５６２を経由すると、品詞ボックス５６４へ至
る。品詞ボックス５６４では、推奨する訂正例が、“wo
uld consider”に訂正すべきことを示している。これ
は、この有向非循環グラフが、“considered”は、ワー
ド“consider”の過去時制であることを検出することに
より得られた結果である。ボックス５６４は、現在形の
“consider”が使われるべきだと提案している。この分
析は、“vbd：／vbd／vb”により示されている。vbd は
過去時制を、vbは現在時制を表している。“／vbd／vb
”は、過去時制を現在時制に変更すべきことを示して
いる。ノード５３８からは、入力に対して他の訂正案を
示す他のノードへの経路がある。例えば、“would have
considered ”というシーケンスでもよい。ボックス５
６６は、ワード“have”が追加されるべきであることを
記している。ボックス５６８は、もし、“have”が追加
されるなら、“have”の品詞、即ち、hvがあわせて追加
されるべきことを記している。ボックス５７０を通過す
ると、ボックス５７２は、過去形が過去分詞形に変形さ
れるべきであることを記している。この場合、“consid
ered”は、過去形と過去分詞形が同形であるので、変更
は行われない。入力ワードが、“considered”でなく
“knew”であれば、ボックス５７２は、“know”の過去
形である“knew”から、過去分詞形の“known ”に変更
されるべきであることを示していることになる。

【００８４】以上のように、図８に示す有向非循環グラ
フを用いて、誤っていると決定した動詞シーケンスに対
して、複数の変更例を挙げることができる。

【００８５】（ｄ）スペルチェッカ（スペルチェッキン
グシステム）一般に、スペルチェッキングシステムといえば、辞書参
照アルゴリズムを用いて、ワードのミススペルを防ぐも
のである。このようなスペルチェッキングシステムは、
特に、不注意によるタイプミスや文字（キャラクタ）の
入れ替えには有効であるが、それ以外のスペルエラーに
は効果的でないという欠点がある。特に、ネイティブス
ピーカでない人々のスペルエラーは、ワード内の文字の
入れ替えや不注意による文字の抜けや余りでなく、文法
的な誤りによるエラーが主である。例えば、“He drive
d his car yesterday ”というセンテンスをみると、こ
のセンテンスのエラーは、不注意によるものでもなく、
また、ある単語のスペルを知らないことによるものでも
ない。むしろ、動詞“drive” の過去時制を正確に理解
していなかったことによるものである。

【００８６】スペルチェッカは、ミスタイプされたワー
ドと辞書に記載されているワードの違いに基づいて、適
切なスペルを推奨する。典型的なワードの違いは、文字
の数に基づくものであり、正しい文字と置き換えたり、
抜けている文字を挿入したり、文字を正しい位置に入れ
替えたり、余分な文字を挿入したりすることで訂正され
る。ところが、このような操作により訂正された結果
は、必ずしも正しいとは限らない。むしろ、おかしな造
語を作り出すことがある。例えば、前述したセンテンス
の例では、“drive ”の過去時制である“drove ”に訂
正されるべきであるが、スペルチェッカによっては、
“dried ”や“dripped ”などと訂正するものもある。
正しいワード“drove ”には訂正されないというのは、
非常に興味深いことである。これは、現在のスペルチェ
ッキングシステムが検出したスペルエラーに対して、文
法的な分析を行わないことに起因する。

【００８７】また、現在のスペルチェッキングシステム
は、形容詞の比較級が誤っているとき、その訂正を正し
く行わないという問題点もある。例えば、ネイティブス
ピーカでない人々は、“good”の比較級を考えるとき、
通常の規則に則って、“gooder”としてしまいがちであ
る。更にまた、名詞“child ”の複数形を“children”
ではなく、“childs”としてしまうことがある。これ
は、通常の複数形を作る規則に則って、単数形に“s ”
を付けてしまうからである。

【００８８】上に挙げた例のようなミススペルされたワ
ード“childs”に対して、現在のスペルチェッカは、正
しいワードとして、“chills”，“child■s ”，“chi
ll■s ”，“child ”，“tildes”を推奨する。いず
れも文脈からすると正しい訂正とはいえず、スペルチェ
ッカが役に立たないことがわかる。また、これらのスペ
ルチェッカは、“goodest ”の正しいスペルとして、
“gooiest ”，“goosed”を挙げる。これも適切な訂正
とはいえない。

【００８９】これでは、ネイティブスピーカは、スペル
チェック機能を使う気をなくし、また、ネイティブスピ
ーカ以外の人々は、文脈にあわないワードの選択を迫ら
れ、フラストレーションがたまってしまう。

【００９０】図９は、この発明のネイティブスピーカで
ない人々向けの改良されたスペルチェッキングシステム
のブロック図である。複数形、過去形、過去分詞、比較
級、最上級について、不規則な変化をするワードの典型
的な例を明確にするのは重要である。このような文法に
基づいて生成された誤りワードのリストにより、この発
明のシステムは、より適切な候補ワードを推奨する。こ
の発明のスペルチェッキングシステムは、通常は、辞書
検索システムによりミススペルを検出する。その後、以
下に述べる典型的な誤りワードのコンペンディアム(com
pendium)と、語根と形態的素性により、訂正ワードが提
案される。

【００９１】図９において、英文ワード訂正部６００
は、英文ワード辞書６０２と誤り英文ワードリスト６０
４を含んでいる。誤り英文ワードリスト６０４は、非英
文ワード辞書６０６で英文ワード辞書６０２のワード
と、英文ワードフォーメーション規則辞書６０８を比較
することにより生成される。この比較の結果が、前述し
た誤りやすいワードのリストである。これらの誤りは、
スペルミスによるのではなく、文法の誤りによるもので
ある。

【００９２】図１０は、検出された誤り英文ワードの訂
正プロセスを示すブロック図である。英文ワード辞書６
０２は、図９を用いて予め生成された誤り英文ワードリ
スト６０４とともに使用される。誤りワード６１０は、
従来の辞書参照により検出される。検出された誤りワー
ド６１０と誤り英文ワードリスト６０４は、語根（ｒｏ
ｏｔ）及び形態的素性部６１２に入力される。語根及び
形態的素性部６１２は、誤りワード６１０の語根及び時
制、数、比較級、最上級などの形態的素性を決定する。
例えば、誤りワード“drived”の語根は“drive ”であ
り、形態的素性は、過去時制又は過去分詞である。語根
及び形態的素性は、訂正ワード部６１４に供給される。
訂正ワード部６１４は、語根及び形態的素性と英文ワー
ド辞書６０２内の英文ワードを相互に関連づけ、文法規
則とその例外を考慮して訂正ワードを提案する。

【００９３】この発明のシステムは、典型的な誤った用
法に基づいた語根と形態をもとにしているので、誤った
用法と関連づけられた適切なワードの提案を可能にす
る。また、単純なミススペルでなく文法的に問題のある
ワードに対して精巧な参照方法を提供する。

【００９４】更に、品詞タガーは、この発明のシステム
が提案するワードの正確さを改善する上でも、効果をも
たらす。例えば、ミススペルされたワードが過去形とも
過去分詞ともとれるような場合である。前述した“driv
ed”を訂正すると、“drove”又は“driven”となり、
過去形か過去分詞かが明確になる。誤っている単語が、
文の中でどのような役割を果たしているかを理解するこ
とにより、品詞に基づく適切な選択を行うことができ
る。

【００９５】（ｅ）限定詞の不適切な用法の検出及び訂
正ネイティブスピーカでない人々にとってより困難な問題
の１つに、限定詞の用法がある。限定詞とは、名詞句の
参照を限定する“the ”，“a ”，“some”などのワー
ドである。限定詞に関連するエラーは、３つのカテゴリ
ーに分類される。最初は、限定詞の欠落である。例え
ば、“John read book”というセンテンスには、名詞句
“book”の限定詞が抜けている。２つ目は、不要な限定
詞の使用である。例として、“John went to the New Y
ork ”というセンテンスがある。ここで、限定詞“the
”は不要であり、削除されるべきである。３つ目は、
限定詞と名詞の不一致である。例えば、“John read ma
ny book ”というセンテンスにおいては、“book”は、
“many”と不一致である。

【００９６】限定詞の誤りを検出するために、品詞タグ
が分析に用いられる。品詞タガーは、図２，図５，図１
５，図１６，図１８に記載されている。タグ付けされた
センテンスの例として、“John read long novel”とい
うセンテンスについて考えてみる。ワード“John”のタ
グは固有名詞、“read”のタグは動詞の過去形、“lon
g”のタグは形容詞、“novel ”のタグは単数名詞とな
る。

【００９７】図１１は、限定詞の不適切な使用の検出と
訂正の流れ図である。図１１に示す７００において、こ
の発明のシステムは、名詞句を識別する。具体的には、
どの品詞タグのシーケンスが名詞句を構成するかを決定
するパターンを準備しておき、このパターンとマッチン
グして、センテンスの名詞句を識別する。名詞句のパタ
ーンを以下に示す。［ＤＥＴ］（ＭＯＤＳＮＯＵＮＡＮＤ）＊ＭＯＤ
ＳＮＯＵＮ_head また、以下に、ＭＯＤＳのパターンを示す。（ＭＯＤ＋ＡＮＤ）＊ＭＯＤここで、ＤＥＴは限定詞のタグ、ＭＯＤは修飾語句（ｍ
ｏｄｉｆｉｅｒ）のタグ、ＮＯＵＮは名詞のタグ、ＡＮ
Ｄは接続詞のタグである。［Ｘ］は、表現Ｘが０回乃至
１回発生することを示す。また、（Ｘ）＊は、表現Ｘが
０回以上発生することを示す。Ｘ⁺は、表現Ｘが１回以
上発生することを示す。

【００９８】上記パターンは、名詞句を識別するための
パターンである。例えば、前述したセンテンスで、名詞
句を挙げるならば、品詞が固有名詞である“John”と、
品詞が形容詞・単数名詞である“long novel”である。
この識別は、名詞句の先頭と末尾を識別することにより
行われる。名詞句の識別は、その名詞句の構成要素に、
限定詞の欠落、不要な限定詞の使用、限定詞と名詞の不
一致のいずれかが発生していないかをチェックする為に
重要である。

【００９９】名詞句を識別すると、システムは、図１１
の７０２において、名詞句毎に限定詞が欠落していない
かをテストする。名詞句の欠落の決定は、図１２に示す
流れ図に沿って行われる。このテストでは、名詞句（ｎ
ｏｕｎ−ｐｈｒａｓｅ：ＮＰ）全体及びヘッドナウン
（ＮＯＵＮ_head）をチェックする。ヘッドナウンとは、
名詞句の決め手となるワード（ｔｈｅｌａｓｔｗｏ
ｒｄ）である。ヘッドナウンとは、句の中で最も重要な
名詞のことであり、多くの例において名詞句の最後のワ
ードである。また、このテストでは、名詞句の限定詞
（ｄｅｔｅｒｍｉｎｅｒ：ＤＥＴ）もチェックする。限
定詞は、通常、名詞句の先頭にあるか、あるいは、どこ
にもないかのいずれかである。図１２の７０４におい
て、ヘッドナウンが単数で、固有名詞以外である時、７
０６において、限定詞ＤＥＴがあるかどうか判断する。
限定詞が存在しない時、７０８において、その名詞句が
タイトルであるかどうか判断する。タイトルは、固有名
詞と同様に、大文字表記されるべきものである。例え
ば、“The AtlantaPolice Department ”や“Grady Hos
pital”は、タイトルである。名詞句がタイトルではな
いと判断された時、７１０において、ヘッドナウンが質
量名詞（マスナウン：ｍａｓｓｎｏｕｎ）かどうか判
断する。質量名詞（ｍａｓｓｎｏｕｎ）とは、量を定
めない物質を指す名詞である。例えば、“rice”，“fi
sh”，“carbon”がこれに当たる。質量名詞は、複数名
詞として機能するので限定詞は不要となる。

【０１００】名詞句がタイトルならば、７１２におい
て、ヘッドナウンがマスタイトルナウンかどうか分析さ
れる。マスタイトルナウンとは、マスナウン（質量名
詞）に類似しているが、タイトルではない。例えば、
“She attended Harvard University ”というセンテン
スにおいて、名詞句“Harvard University”は、タイト
ルであるが、“University”は、マスタイトルナウンで
ある。この場合、“University”は、センテンスの中
で、限定詞を伴わないことに留意されたい。また、マス
タイトルナウンは、マスナウンと同一ではない。例え
ば、“University”は、マスタイトルナウンであるが、
マスナウンではない。なぜならば、“She attendeda fi
ne university”というセンテンスではワード“univers
ity”には、限定詞“a ”が付くからである。このよう
に、７１２においてマスタイトルナウンと決定される
と、訂正の必要がないとみなされ、訂正は提案されな
い。

【０１０１】名詞句のチェックには、更に、イディオム
であるかどうかという問題がある。７１４において、名
詞句がイディオムの一部ではないかが分析される。この
分析は、イディオム辞書の参照により行われる。名詞句
がイディオムの一部であれば、訂正の必要はない。例え
ば、“The event took place”というセンテンスにおい
て、名詞句“place ”には限定詞が付いていないが、
“to take place ”というイディオムの一部であるので
誤りではなく、訂正の必要はない。

【０１０２】ヘッドナウンが、単数で固有名詞ではない
のに限定詞が付いていない場合で、マスナウンでもマス
タイトルナウンでもなく、更に名詞句がイディオムの一
部でもない時、７１６において、限定詞の欠落であると
決定される。

【０１０３】限定詞の欠落のチェックに続いて、図１１
の７２０において、不要な限定詞の使用のチェックが行
われる。

【０１０４】図１３は、名詞句の不要な限定詞のチェッ
クを示す流れ図である。まず、７２２において、ヘッド
ナウンが固有名詞であるかどうか判断する。固有名詞の
時、７２４において、名詞句が限定詞を含むかどうか判
断する。名詞句が限定詞を含む場合には、７２６におい
て、使用されている限定詞は不要であると決定される。
例えば、“John went to the New York ”というセンテ
ンスは、不要な限定詞を含んでいるとみなされる。なぜ
ならば、名詞句“the New York”は、固有名詞のヘッド
ナウンを含んでいて、更に限定詞“the ”が付いている
からである。固有名詞は、品詞タガーにより識別され
る。品詞タガーは、確率と文脈に基づき固有名詞を決定
する。

【０１０５】図１１に示す流れ図の７３０において、次
にチェックされるのは、名詞句の名詞と限定詞の数の一
致である。その詳細を、図１４に示す。図１４は、名詞
句の数の一致のチェックを示す流れ図である。数の一致
のチェックは、名詞句を検出部に入力することにより行
われる。７３２において、検出部は名詞句のヘッドナウ
ンが固有名詞かどうか判断する。もし、固有名詞であれ
ば、数の不一致はあり得ない。もしも固有名詞句に限定
詞が付いていれば、不要な限定詞のエラーとしてはじか
れているはずだからである。即ち、固有名詞には、限定
詞は付かないので、不一致も発生しない。ヘッドナウン
が固有名詞ではない時、この発明のシステムは、７３４
において、名詞句に限定詞が付いているかどうか判断す
る。付いていない時は、数の不一致の問題は発生しな
い。

【０１０６】限定詞が付いている時、７３６において、
限定詞の数がヘッドナウンの数、即ち、単数か複数かに
照らし合わせてチェックされる。両者の数が一致してい
る時は、エラーではない。もしも、両者の数が不一致の
時は、ヘッドナウンの数を限定詞の数に合わせる訂正が
提案される。例えば、“John read one books ”という
センテンスであれば、限定詞“one ”に合わせてヘッド
ナウン“books ”を単数形の“book”に訂正するよう提
案される。同様に、“John read many book ”というセ
ンテンスに対しては、この発明のシステムは、ヘッドナ
ウンを限定詞に合わせて、複数形にするよう提案する。
もちろん、他の方法として、システムがヘッドナウンに
合わせて限定詞を変更するようにしてもかまわないが、
名詞を限定詞に合わせる方が一般的である。なぜなら
ば、名詞に対して適切な限定詞を設定する方が難しいか
らである。また、数に関しては、既に書かれている限定
詞に従う方が書き手の意図に沿うと思われるからであ
る。

【０１０７】以上のように、この発明のシステムにおい
ては、限定詞の不適切な用法を検出し、訂正するため
に、いくつかのテクニックを用いている。いくつかのテ
クニックとは、タグ付けされたセンテンスを用いること
であり、また、名詞句，ヘッドナウン，固有名詞，質量
名詞，マスタイトルナウン，イディオムの検出である。
限定詞の誤使用を正しく決定する上で最も重要なのは、
名詞句の検出である。この発明のシステムにおいては、
図１１に示す流れ図に沿ったパターンマッチングにより
これを実現している。

【０１０８】（ｆ）固有名詞をはじめ大文字表記される
ワードの認識文の分析において、いつワードが固有名詞であるかを認
識できるかということは重要である。なぜならば、固有
名詞は、他の名詞とは対照的に独自に確認できる方法で
姿を現わしているからである。固有名詞だけでなく、固
有名詞以外で大文字表記されるワード、例えば、“Harv
ard University”など、タイトルに使用するワードを認
識する能力をもつことによって、文を文法的に説明し、
理解することができ、その結果、文法的な分析が可能と
なる。

【０１０９】ワードは英語の文において、２つの場合に
大文字表記される。第１に、その語が固有名詞をはじめ
とする大文字表記されるワードである場合である。第２
に、そのワードが文の始まりか、ある句読点の後に置か
れる場合であり、この２つの場合以外は、大文字にされ
ることはない。例えば、“Wells was an English novel
ist ”という第１の文を考えてみると、“Wells ”（人
名）は、固有名詞であるので大文字にされる。また、
“Wells wewe dug to provide drinking water”という
第２の文を考えると、“wells ”（“well”の複数形）
は、文の最初のワードであるので、大文字にされる。

【０１１０】このような理由から、第１の文において、
文法チェッキングシステムは、“Wells ”は、元来大文
字表記されるべき固有名詞であることを認識しなければ
ならない。第２の文においては、文法チェッキングシス
テムは、“wells ”は必ず大文字表記されるべきである
から、大文字で書かれているわけではなく、ごく普通の
複数形であり、文の先頭なので大文字にされることを認
識しなければならない。

【０１１１】前述の名詞が固有名詞であるかどうかの決
定方法において、従来のシステムは、大文字表記された
ワードを認識するために、比較的限られたテクニックを
採用してきた。１つの方法は、文の最初のワードは固有
名詞ではあり得ないと仮定するものであった。この方法
では、第１の文で示されるような固有名詞で始まる文に
対しては、名詞の決定が正しく作用しない。

【０１１２】また、別の方法として、すべてのワードを
固有名詞か普通名詞のどちらか一方のみに分類する方法
もあった。この場合、１つのワードが双方には分類され
ない。それゆえ、前述の２つの文で示すように、“Well
s ”というワードが固有名詞と普通名詞のどちらかのみ
でなく、明らかに両方を取り得るような場合、この種の
分類システムは正しく作用しない。

【０１１３】ワードが固有名詞かどうかを適当に識別で
きないという問題は、辞書を引く際、誤った定義が引き
出されることにある。単純な文法チェッキングにおいて
は、定義が要求されないが、適当な用法を決める時に教
授的（チュートリアル：ｔｕｔｏｒｉａｌ）、もしく
は、情報的なデータを提供するような精巧なワードプロ
セッシングや文法チェッキングシステムにおいては、固
有名詞をはじめとする大文字表記するワードの正しい識
別を必要とする。辞書参照機能が文法チェッキングシス
テムの一部でなくても、固有名詞をはじめとする大文字
表記するワードの認識は重要である。

【０１１４】ワードが固有名詞であるかどうかを識別す
ることの重要さは、トリグラム（ｔｒｉ−ｇｒａｍ）の
確率を用いて、文のそれぞれのワードの品詞を実際に決
める品詞タガーの作用に影響を与える。同じワードでも
大文字表記する場合と大文字表記しない場合では、トリ
グラムの確率が異なるので、正しいトリグラムの確率を
適用するために、品詞タガーが文中にどの種類のワード
が現れるかを知ることは重要である。例えば、固有名詞
“Wells ”のトリグラム確率は、普通名詞“wells ”の
トリグラム確率とは異なる。このように、品詞タガー
は、“Wells was an English novelist ”という文にお
いて、“Wells ”というワードは固有名詞であるので、
ワード“Wells ”が大文字表記された場合のトリグラム
確率を適用しなければならないということを認識しなけ
ればならない。

【０１１５】あるワードが普通名詞であるか、それとも
固有名詞をはじめとする大文字表記するワードであるか
を決定するために、この発明のシステムは、それぞれの
ワードの２つの翻訳、即ち、固有名詞としての翻訳と普
通名詞としての翻訳のどちらが良いかを決める。これ
は、その名詞を固有名詞又は普通名詞に仮定した二種類
の文を生成することで行われる。そして、生成した２つ
の文のトリグラム確率を比較する。固有名詞と仮定した
文の確率が高いと、そのワードは固有名詞と考えられ、
そうでない場合は、普通名詞と考えられる。

【０１１６】図１５は、固有名詞とそれ以外の大文字表
記すべきワードを認識し、ワードの基本スペル回復を行
うシステムのブロック図である。図１５に示すように、
名詞が固有名詞かどうかを確認するための決定過程には
２つのステップがある。最初のステップは、８００に示
す前処理である。この前処理は、８０２に示すように、
タグ付けされたトレーニングコーパスで始まる。これ
は、文のそれぞれのワードが品詞タグで注釈を付けられ
た文を参照する。次に、トレーニングコーパス８０２
は、８０４において、固有名詞でないワードや、通常は
元来大文字表記されないワードを、大文字にしないよう
に変えられる。ワードは、それが固有名詞か、タイトル
としてタグ付けされている場合や、それが頭字語である
場合、もしくは代名詞“Ｉ”である場合に、元来大文字
表記されるべきであると考えられる。更に、そのワード
は文の初めか、オープンクオート（引用符内の開始）
か、又は、コロンの後に発生する場合にのみ大文字にさ
れる。

【０１１７】上記処理の詳細を図１６に示す。更に、図
１６に説明されるように、タグ付けされたトレーニング
コーパス８０８は、８１０に入力され分析される。８１
０において、ワードとタグの組み合わせ（ペア）を、コ
ーパスから得る。組み合わせ（ペア）が見つかると、そ
のワードは８１２で分析され、大文字表記されているか
どうかを確認される。大文字表記されている場合には、
８１４に示すように、そのワードが文の先頭にあるか、
また、引用符開始（オープンクオート）かコロンに続く
かが確かめられる。そうであれば、８１６において、そ
のワードは、固有名詞かタイトルとしてタグ付けされて
いるか、又は、それが頭字語か代名詞“Ｉ”であるかを
確認するために調べられる。上記のいずれかに該当する
場合は、大文字表記のままでよいが、違う場合には、そ
のワードは８１８で示されるように、改定されたトレー
ニングコーパスにおいて、大文字表記を解除される。即
ち、そのワードは、普通は大文字で記述されないワード
であるということが記憶される。

【０１１８】図１５に戻ると、改定されたトレーニング
コーパスは、８２０において分析され、そのワードの確
率に基づいたトリグラム（ｔｒｉ−ｇｒａｍ）モデルを
得る。このようにして、修正されたトリグラムモデルを
提供し、あるワードが実際は普通名詞であるのに、固有
名詞として間違えているような誤り、又は逆の場合の誤
りをなくす。誤りをなくすために、タグ付けされたトレ
ーニングコーパスを前処理した後、作成されたトリグラ
ムモデルは、８２２において、入力文の問題になってい
るワードが元来大文字表記されるべきワードであるかど
うかを決定するのに用いられる。この処理８２２におい
て、文を入力し、大文字表記に疑いのあるワードの基本
スペルを出力する。

【０１１９】図１７は、大文字表記すべきワードかどう
か判断する決定処理の詳細な流れ図である。図１５の８
２２に示す決定処理は、図１７の８５０に示す“文中の
ワード”の入力で始まる。８５２の処理において、その
ワードが大文字表記されているかどうか判断する。も
し、そのワードの初めの文字が大文字表記されている場
合において、大文字にされるべきかどうかを決めるため
に、以下の処理で分析される。大文字表記されていない
場合は、８５１に示すように、そのワードの訳は、文字
どおり文によって与えられる。即ち、文中で大文字にさ
れている場合、固有名詞として訳される。文中で大文字
にされていない場合は、普通名詞として訳される。この
ように、文字が大文字にされていないと、特別な処理は
行われない。

【０１２０】そのワードが大文字にされている場合に
は、８５４で示されるように、そのワードが文の先頭の
ワードであるか、もしくは、引用符の開始やコロンに続
くかが判断される。そうである場合は、８５６に示すよ
うに、そのワードは頭字語であるかどうかを確かめる処
理がなされる。頭字語は、そのすべてのアルファベット
の文字が大文字にされていることか、あるいは、頭字語
の辞書に存在していることにより判断される。ワードが
頭字語であるとされた場合、前述した８５１の処理を行
う。

【０１２１】もし、そのワードが頭字語でない場合、８
５８に示すとおり、この発明のシステムは、文の２つの
種類のそれぞれの確率を、トリグラムモデル８５９に従
って計算する。１つは、大文字表記する固有名詞として
扱われるべきワードを持つ文、もう１つは、大文字表記
しない普通名詞として扱われるワードを持つ文である。
また、その計算は、前述の品詞タガーに従って実行さ
れ、すでに説明されたとおりである。

【０１２２】もし、８６０に示すように、大文字表記し
ないワードを持つ文の確率Ｐ_uが、大文字表記するワー
ドを持つ文の確率Ｐ_cを超えていると、本システムは、
大文字表記しないワードのスペルを、最も確率の高い、
基本スペルとして報告する。結果として、この基本スペ
ルは、以降の文法チェッキングに用いられる。そうでな
い場合は、８６４に示すように、本システムは大文字表
記するワードのスペルを、最も確率の高い基本スペルと
して報告する。

【０１２３】以上のように、ワードの基本スペルの回復
を行うことによって、文法チェッキングシステムがより
正確かつ有用になる。この発明のシステムにおいては、
基本スペルの回復には、２つのステップがある。最初の
ステップにおいては、図１５の８００及び図１６に示す
ように、ワードが固有名詞であるかないかの誤った認識
を通して誘発される誤りに対するトレーニングコーパス
の品詞タグを訂正する。第２のステップにおいては、図
１５の８２２及び図１７に示すように、大文字にされた
スペルと大文字にされていないスペルのどちらがより適
切であるかを確かめるために、一連の分析がなされる。
この確認は、最初のステップである前処理のステップに
おいて得られる改定されたトリグラムモデルの確率を用
いることで、そのワードが元来大文字表記されるべきワ
ードかどうかを決める決定要素（ディシジョンメーキン
グエレメント）を通して達成される。

【０１２４】（ｇ）文脈に基づいた辞書アクセステキストを書く際、ネイティブでないスピーカーはモノ
リンガルやバイリンガルの辞書の有用性に頼っている。
辞書は、ネイティブでないスピーカが頼る最も有用な情
報源の１つである。辞書の使用は、文法チェッキングと
いう問題には限定されていないが、テキストを書くのに
一般的に有効である。ネイティブスピーカでさえテキス
トを作る際には、辞書やシソーラスに信頼を置いて利用
している。

【０１２５】辞書のエントリをアクセスすることは、見
かけほど単純ではない。なぜなら、文脈から離れてワー
ドを調べる時、そのワードの構成や意味において、大変
曖昧であるからである。あるワードを辞書で検索すると
一般に、２０，３０、あるいは、それ以上のエントリを
持っている。このように、大多数のエントリがあるため
辞書を引くのは大変時間を消費する作業となっている。

【０１２６】例えば、文脈を問題にしない場合、“lef
t”というワードは英語の辞書において、たくさんのエ
ントリを持つ。“His left arm”という文における形容
詞“left”に対するエントリ、“he moved left on ent
ering the room”という文における副詞“left”に対す
るエントリ、“Make a left at the next corner”とい
う文における名詞“left”に対するエントリ、“He lef
t a minute ago”という文における動詞過去形“leave
”に対するエントリ、等である。しかし、“left”と
いうワードが英語の文の中で発生すると、このエントリ
の１つだけが、文脈に適したものになる。現在、どの辞
書も文脈に基づいたワードの正しいエントリにアクセス
する能力は提供していない。

【０１２７】この発明のシステムにおいて、辞書のエン
トリは、あるワードに対して文脈を考慮して割り当てら
れた品詞に基づいて選ばれ、ランク付けされる。そのラ
ンク付けにおいて、まず、文脈におけるワードに対応し
たエントリが選ばれる。それ以外の現在の文脈にふさわ
しくないエントリは、ユーザの要求があれば利用され
る。文脈を考慮したワードの品詞は、前述の品詞タガー
を用いて明確にされる。

【０１２８】説明のために、“He left a minute ago”
という文中の“left”というワードを想定すると、品詞
タガーは、その文中の“left”というワードに“過去形
の動詞”というタグを割り当てる。この場合、この発明
のシステムは、文脈における“left”の用法に対応する
動詞“leave ”のエントリをまず最初に選択し、その
後、その文脈には用いられない“left”の用法、具体的
には、形容詞や副詞や名詞としての“left”の用法を選
択する。

【０１２９】“It has several bases”という文章の中
の“bases ”というワードを想定すると、品詞タガーは
文章の中で、“bases ”というワードに対して、“名詞
複数”という２つのタグを割り当てる。文脈から離れる
と、“Bases ”というワードは、名詞“basis ”の複数
であり、名詞“base”の複数でもあり、動詞“base”の
三人称でもある。“It has several bases”という文脈
に対しては、この発明のシステムは、“bases ”という
ワードに対応する名詞“base”と、名詞“basis ”への
エントリをまず最初に選択し、次に、文脈には用いられ
ていない“bases ”に対するエントリ、具体的には、動
詞“base”に対するエントリを選択する。

【０１３０】図１８は、文脈に基づく辞書アクセスを示
すブロック図である。図１８に示すように、文中のワー
ド９００の文脈に基づいて辞書のエントリを選択するた
めに、ワードは形態素解析部９１０によって分析され
る。形態素解析部９１０では、文脈から独立したワード
に対応する原形と品詞の組（ペア）を求める。例えば、
“left”というワードに対しては、形態素解析部９１０
は、以下の原形と品詞の組を出力する。即ち、（“lef
t”，“形容詞”），（“left”，“副詞”），（“lef
t”，“単数名詞”），（“leave” ，“動詞過去
形”）である。形態素解析部９１０は、英語のすべての
ワードのすべての活用形によって、索引付けられたテー
ブルであって、そのテーブルのエントリが原形と品詞の
組合わせであるテーブルを引くことによって原形と品詞
の組を出力する。形態素解析部９１０の処理と並行し
て、そのワードは、品詞タガー９３０により文脈を考慮
して分析され、その結果、文脈のワードに対応する独自
の品詞タグＴ９４０が出力される。これは、“ＡＳｔ
ｏｃｈａｓｔｉｃＰａｒｔｓＰｒｏｇｒａｍａｎ
ｄＮｏｕｎＰｈｒａｓｅＰａｒｓｅｒｆｏｒ
ＵｎｒｅｓｔｒｉｃｔｅｄＴｅｘｔ”（Ｐｒｏｃｅｅ
ｄｉｎｇｓｏｆｔｈｅＳｅｃｏｎｄＣｏｎｆｅｒ
ｅｎｃｅｏｎＡｐｐｌｉｅｄＮａｔｕｒａｌＬａ
ｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，Ａｕｓｔｉｎ
Ｔｅｘａｓ，１９８８）に述べられるＫｅｎｎｅｔｈ
Ｃｈｕｒｃｈ´ｓＳｔｏｃｈａｓｔｉｃＰａｒｔ
ｓＰｒｏｇｒａｍで実現された品詞タガーによって達
成される。

【０１３１】例えば、ワードが“He left a minute ag
o”という文脈の中の“left”である場合、品詞タガー
は、“動詞過去形”という品詞タグを出力する。文脈に
対応しない語形原形と文脈に対応する語形原形を区別す
るために、９２０における原形と品詞の組を２つの組、
即ち、品詞タグＴ９４０に対応する組９５０と、品詞タ
グＴ９４０に対応しない組９６０とに分ける。前述した
例では、文脈に対応する原形と品詞の組は、“leave ”
と“動詞過去形”である。文脈に対応しない原形と品詞
の組は、以下の通りである（“left”，“形容詞”），
（“left”，“副詞”），（“left”，“単数名
詞”）。文脈に対応する辞書からのエントリをディスプ
レイするために、文脈に対応する原形と、品詞の組９５
０でみつけられた原形に対応する辞書９７０の全てのエ
ントリは、９８０でディスプレイされる。上記の例で
は、動詞“leave ”の全てのエントリが、文脈に適切な
エントリとして、ディスプレイされる。辞書から文脈に
対応していないエントリをディスプレイするために、文
脈に対応しない原形と、品詞の組９６０でみつけられた
原形に対応する辞書９７０の全てのエントリは、９９０
においてディスプレイされる。上記の例では、形容詞、
副詞、単数名詞としての“left”というワードへの全て
のエントリは、文脈には適切でないエントリとして、デ
ィスプレイされる。

【０１３２】以上のように、この実施例においては、文
脈に基づいて辞書からエントリを選択する辞書アクセス
システムについて説明した。単語だけに着目して辞書エ
ントリをアクセスしたときに得られる情報があまりにも
多いので、この発明に係るシステムは、辞書エントリを
アクセスする際、まず最初に、文中の特定の単語の品詞
を確定する。そして、確定した品詞に対応する辞書エン
トリをユーザに表示する。ユーザは自分が見たいときだ
け、確定した品詞以外の他の品詞の語義を表示させるこ
とができる。その結果、ユーザは、テキストを理解しや
すい効果的な辞書利用ができる。

【０１３３】この発明の文脈を基本とする辞書アクセス
システムは、文の所定の単語に割り当てられた品詞に基
づいて、エントリを選択し、ランク付け（分類）する。
その単語の文脈に合ったエントリをまず選択し、話の流
れに沿っていない他のエントリがこれに続く。文脈中の
所定の単語の品詞は、品詞タガーを使用して選択され
る。これにより、文中で文法的に意味をなすエントリの
みを選択することが可能となる。この辞書アクセスシス
テムは、モノリンガルな辞書にもバイリンガルな辞書に
も適用可能であり、また、ネイティブスピーカにとって
もネイティブスピーカ以外の人々にとっても有用なシス
テムである。この発明の辞書アクセスシステムによれ
ば、辞書の数多いエントリの中から文脈に対応したエン
トリを選択することが可能である。その結果、ユーザは
数多いエントリの全てに目を通す必要がなくなり、ユー
ザが読まなければならないエントリの数を減らすことが
できる。

【０１３４】

【発明の効果】この発明の辞書アクセスシステムによれ
ば、文を構成する単語の品詞を解析し、品詞に対応する
辞書の定義をまず第一に出力するので、ユーザが、参照
したい単語に対応する辞書の定義を全部見なくとも目的
の定義が得られる。また、辞書のエントリが多数存在す
る場合でも、短時間で目的の定義を参照できる。

【０１３５】また、この発明によれば、入力文の文脈に
合った辞書の定義を出力するので、文脈に対応しない大
量の定義に煩わされることがない。

【０１３６】また、この発明によれば、入力文を構成す
る単語に対応する品詞のシーケンスとその確率を用いて
入力文の分析ができる。

【０１３７】また、この発明によれば、前後３つの品詞
の組み合わせ毎にそれぞれの確率を計算し、計算した確
率がもっとも高い品詞の組み合わせを品詞シーケンスと
して出力するので、文脈にあった品詞の解析ができる。

【図面の簡単な説明】

【図１】この発明の複数モジュールからなる文法チェ
ッキングシステムのブロック図である。

【図２】この発明の間違えやすい単語の訂正に品詞シ
ーケンスの確率を用いた場合のブロック図である。

【図３】この発明の図２の比較選択部における比較対
象として、文の長さの平均を用いたブロック図である。

【図４】この発明の“a ”と“an”を定冠詞に訂正す
る流れ図である。

【図５】この発明の誤った助動詞シーケンスの訂正の
ブロック図である。

【図６】この発明の開始ポイント検出と終了ポイント
検出のブロック図である。

【図７】この発明の英語の正しい助動詞シーケンスを
表す有向非循環グラフ図である。

【図８】この発明の正しくない助動詞シーケンスの訂
正例を提案する変換器を示す有向非循環グラフ図であ
る。

【図９】この発明のネイティブスピーカでない人々向
けの改良されたスペルチェッキングシステムのブロック
図である。

【図１０】この発明の検出された誤り語の訂正プロセ
スを示すブロック図である。

【図１１】この発明の限定詞の不適切な使用の検出と
訂正の流れ図である。

【図１２】この発明の名詞句の決定を示す流れ図であ
る。

【図１３】この発明の名詞句の不要な限定詞のチェッ
クを示す流れ図である。

【図１４】この発明の名詞句の数の一致のチェックを
示す流れ図である。

【図１５】この発明のの固有名詞とそれ以外の大文字
表記すべき単語を認識し単語の基本スペル回復を行うシ
ステムのブロック図である。

【図１６】この発明の図１５のトレーニングコーパス
のタグ付けを示す流れ図である。

【図１７】この発明の大文字表記すべき単語かどうか
判断する決定プロセスの流れ図である。

【図１８】この発明の文脈に基づく辞書アクセスを示
すブロック図である。

【図１９】従来の辞書の記載の一例を示す図である。

【符号の説明】

１０入力文、１２キーボード、１４ＣＰＵ、１６
ワードプロセッシングシステム、１８プリンタ、２
０品詞解析部、２２品詞シーケンス確率決定部、２
４品詞シーケンス確認部、２６訂正文選択部、２８
基本スペル回復部、３０語形変化チェッカ、３２
助動詞訂正部、３４訂正文選択部、３６限定詞訂正
部、３８単語挿抜部、４０コンテキスト−センシテ
ィブ辞書参照部、４２不定冠詞訂正部、４４スペル
チェッカ。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号庁内整理番号ＦＩ技術表示箇所 8420−5Ｌ 15/38 Ｄ (72)発明者エマニュエルロシエアメリカ合衆国マサチューセッツ州ボストンコモンウェルス・アヴェニュー 37

Claims

【特許請求の範囲】

【請求項１】以下の要素を有する辞書アクセスシステ
ム（ａ）単語の定義を記録した辞書、（ｂ）単語から構成
された入力文を入力し、入力文を構成する単語の品詞を
解析する解析部、（ｃ）上記辞書を上記単語を用いて参
照するとともに、その単語の定義として上記解析部によ
り解析された単語の品詞に対応する定義をまず第一に出
力する参照出力部。
【請求項２】上記参照出力部は、単語の定義として上
記入力文で構文的に適合する定義を出力するとともに、
関連のない定義を出力しないことを特徴とする請求項１
記載の辞書アクセスシステム。
【請求項３】上記解析部は、入力文を分析して品詞シ
ーケンスとその確率を出力する品詞タガーを備えたこと
を特徴とする請求項１又は２記載の辞書アクセスシステ
ム。
【請求項４】上記品詞タガーは、入力文を分解し、前
後３つの品詞の各組合わせ毎に確率を計算し、もっとも
確率の高い品詞の組み合わせを品詞シーケンスとして出
力することを特徴とする請求項３記載の辞書アクセスシ
ステム。