JPH07325829A - 文法チェックシステム - Google Patents

文法チェックシステム

Info

Publication number
JPH07325829A
JPH07325829A JP7133647A JP13364795A JPH07325829A JP H07325829 A JPH07325829 A JP H07325829A JP 7133647 A JP7133647 A JP 7133647A JP 13364795 A JP13364795 A JP 13364795A JP H07325829 A JPH07325829 A JP H07325829A
Authority
JP
Japan
Prior art keywords
word
sentence
speech
noun
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7133647A
Other languages
English (en)
Inventor
Shiyabizu Ibu
イブ・シャビズ
Roshiyu Emaniyueru
エマニュエル・ロシュ
Aaru Goorudeingu Andoriyuu
アンドリュー・アール・ゴールディング
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPH07325829A publication Critical patent/JPH07325829A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【構成】 入力文が品詞に関して最初にタグ付けされる
文法チェックシステムにおいて、前記入力文の品詞列の
可能性が厄介な単語、特にそれらのスペルが異なる同音
語の不正な使用を訂正するために使用される。そのシス
テムは、訂正すべき全文の可能性に基づかないで、むし
ろ訂正すべき品詞列の可能性に基づいて単語の使用法を
訂正する。 【効果】 低いエラー率で正しい文に訂正できる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、多種の文法チェックモ
ジュールで品詞列の可能性を利用するシステムに関する
もので、特に、スペルが異なる同音語等の混同単語を訂
正できる文法チェックシステムに関するものである。
【0002】
【従来の技術】Henry Kucera氏その外に発
行された米国特許第4、868、750号公報で説明さ
れるように、口語体の文法チェックシステムは、自然言
語で構成されたデジタル符号化テキストを受け取り、そ
して単語と解析を蓄積した辞書と、解析プログラムとを
用いて符号化テキストを解析して、エラーを識別するた
めのコンピューターを介した自動化言語分析を必要とす
る。特に、そのようなシステムは文法エラーを検出する
ためのマイクロソフトワードのプログラムで利用され
る。
【0003】そのようなシステムに関連する最も厄介な
問題の一つは、そのシステムが正しい使用法を提示する
時の非常に高いエラー率である。不合理に高いエラー率
の理由は、文に関するシステムの不適当な解析に由来す
る。また、文についての正しい解析と仮定すると、マイ
クロソフトシステムはしばしば不適当な単語を提示す
る。
【0004】全文が正しいという可能性に基づいて文を
解析しようと試みる種類のシステムもある。そのような
システムにまつわる最も大きい問題は、それらが現在の
パーソナルコンピュータと関連メモリとの能力を超えた
蓄積と処理の能力を要求することである。
【0005】他のシステムは、トレーニングコーパスに
基づく文を解析することによって不適当な文法を検出し
ようと試みる。但し、高速処理だけでなく大容量の蓄積
装置が要求されるシステムの制約が、この種のシステム
をパーソナルコンピュータ環境での使用を妨げる。
【0006】実例として、先の文法チェックシステム
は、「a」と「an」などの不定冠詞を挿入するのに常
に失敗する。それはそのシステムにより提示される自然
言語に翻訳しようとする時に外国語を話す個人にとって
はとりわけ大問題となる。
【0007】また、非常に重要なことは、文が、文法規
則、或いは「the」、または「a」などの口語的使用
法のいずれにも不慣れなこれらの人々により構成される
時に、そのような適切な冠詞を挿入する能力がないこと
である。更に、従来技術の文法チェックシステムによる
共通の誤りは、複合動詞が使用される不適切な動詞列の
いかなる認識も含まないことである。複合動詞は文内で
正しく使用できるが、ほとんどの外国語を話す個人は
「He has recognize thatsom
ething exists.」などの誤りを常におか
す。ここで「has」は動詞であり、そして「reco
gnize」も動詞である。複合動詞の明らかな不正な
使用が在ることが分かる。
【0008】最も重要なことに、問題はいわゆる限定詞
で起こる。依って例えば文「I have cigar
ette.」は明らかに限定詞「a」を欠いている。同
様に、「some」または「a few」などの欠けて
いる限定詞も在る。従って、正しい文は「I have
a few cigarettes.」と解釈され
る。同文は複数形の名詞、例えば「I have a
few cigarettes.」、或いは「I ha
ve cigarettes.」とすることにより正し
く構成されることに留意すべきである。
【0009】スペルチェッカー、または先の文法システ
ムのいずれによっても訂正されない更なる典型的な文法
の誤りは、不適当な単語活用を訂正しないことを含む。
例えば、不適当な動詞活用に関して、そのようなシステ
ムは、「I drivedto the marke
t.」などの文を滅多に訂正しない。
【0010】上記問題は、その言語のイディオムや規則
の両方に不慣れな非ネイティブスピーカーの観点から取
り上げられる時には最大の壁となる。特に英語では、そ
の言語を利用するこれらのネイティブスピーカーにも良
く知られていないイディオム、または規則によりしばし
ば決定される正しい「文法」を有するので、その規則
は、思うほど単純であるとは限らない。
【0011】故に、特定の国籍の非ネイティブスピーカ
ーによる最も頻繁になされる誤りを考慮する文法チェッ
クシステムを提供することが重要である。それで、例え
ば予測可能、故に訂正可能である方法で英語に翻訳され
る日本語のネイティブスピーカーにより通常なされる誤
りの体系が在る。同様に、例えばフランス語、或いはロ
マンス語のいずれかに対して、検出されて、訂正できる
英語に翻訳する時になされる一定の特徴的誤りが在る。
【0012】構文認識システムは一般に、小さくて、十
分に定義された語彙を有するテキストでの動作に、また
は限定された範囲の構文的特徴を扱う、より一般的なテ
キストでの動作に限定されていた。語彙、または構文的
範囲のいずれの拡張も、益々複雑な構造と増えてくる多
数の特別の認識規則とを必要とし、それはシステムを一
般に利用できるコンピューターシステム上での商業的実
施を過大にするか、或いは扱いにくくする。
【0013】テキスト処理システムで文脈上の誤りを検
出して、そして訂正するための他の一般システムは、F
rederick B.Lang氏その外に発行された
米国特許第4、674、065号公報で説明される。そ
こで 単語使用確証のための文書を校正し、そしてテキ
スト処理するためのシステムが、異形同音異義語と混同
する単語とのセットの専門辞書を、それから単語の正し
い使用法が統計学的に決定できるダイグラム(di-gra
m)とnグラム(n-gram)条件のセットを連結すること
により達成される。前述のように、品詞に対立するもの
として単語に統計学的処理を行うには例外的に大きいト
レーニングコーパスと高速計算とを必要とし、そのシス
テムをパーソナルコンピューター用途にとっては幾分扱
いにくいものにする。更に、同音語に関して混同する単
語を検出する時、このシステムは、一般的使用法におい
ては混同するが、似ているとは思われないこれらの単語
の訂正を提供するには十分ではない。
【0014】最後に、米国特許第4、830、521号
は、スペルチェック機能と固有名詞認識とを備えた電子
タイプライターに関する特許である。名詞認識での問題
は、固有名詞の認識において正確であるか、またはそう
ではないかの大文字化シナリオに集中することが理解さ
れよう。最も重要なことに、この特許は、大文字化の機
能を決定するために、単語が文の最初の単語であるかど
うかを見つけるためにしか語を試験しないのに対して、
大文字化は文内のどこの語に対しても明らかに可能であ
る。
【0015】更なる背景の多数の特許により、最初スペ
ル訂正の使用を通してその文法問題に着手する。そのよ
うな特許は、米国特許第5、218、536号、第5、
215、388号、第5、203、705号、第5、1
61、245号、第5、148、367号、第4、99
5、740号、第4、980、855号、第4、91
5、546号、第4、912、671号、第4、90
3、206号、第4、887、920号、第4、88
7、212号、第4、873、634号、第4、86
2、408号、第4、852、003号、第4、84
2、428号、第4、829、472号、第4、79
9、191号、第4、799、188号、第4、79
7、855号、そして第4、689、768号を含む。
【0016】米国特許第5、224、038号、第5、
220、503号、第5、200、893号、第5、1
64、899号、第5、111、389号、第5、02
9、085号、第5、083、268号、第5、06
8、789号、第5、007、019号、第4、99
4、966号、第4、974、195号、第4、95
8、285号、第4、933、896号、第4、91
4、590号、第4、816、994号、そして第4、
773、009号などのテキスト解析を扱う多数の特許
もまた在る。これらの特許の全ては、与えられた自然言
語で書かれた文書を提供することを強制されるこれらの
非ネイティブスピーカーにより特に要求されるレベルに
までは文法をチェックする目的のために実際には実施で
きないシステムに関するものであることは理解されよ
う。これらの特許は、非ネイティブスピーカーのための
文法訂正や英語の使用法に特に向けられていない一般的
なシステムに関することもまた理解されよう。
【0017】最後に、いかに効率的に辞書を符号化する
ことが出来るかに関する多数の特許が存在する。これら
の特許は米国特許第5、189、610号、第5、06
0、154号、第4、959、785号そして第4、7
82、464号である。辞書の符号化は、文法を十分に
チェックできるシステムを構築する1ステップを除いた
ものであることは理解されよう。
【0018】文法のチェックにおける特有の重要性につ
いては、品詞が与えられた文内に存在するとき、その品
詞列を検出する能力である。正しい文は、正常な順序で
続く品詞を持っているので、品詞列を解析することによ
り、その文がその文法に関して正しいという可能性を検
出することが出来る。従来技術のシステムは品詞のため
に文にタグ付けして、上記可能性に対して品詞列を解析
したが、これらの可能性は文法のチェック、訂正システ
ムでは決して利用されなかった。
【0019】
【発明が解決しようとする課題】従来の文法チェックシ
ステムでは、そのシステムが正しい使用法を提示する時
の非常に高いエラー率である。不合理に高いエラー率の
理由は、文に関するシステムの不適当な解析に由来す
る。また、文の解析が正しくなされたとしても、マイク
ロソフトシステムはしばしば不適当な単語を提示する。
また、現在のパーソナルコンピュータと関連メモリとの
能力を超えた蓄積と処理の能力を要求する。
【0020】この発明は、前述した問題点を解決するた
めになされたもので、スペルが異なる同音語を訂正でき
る文法チェックシステムを得ることを目的とする。
【0021】
【課題を解決するための手段】先のスペルチェックや、
文法チェックシステムで主要問題を解決するために、主
たる文法チェックシステムは、品詞に関して文に最初タ
グ付けすることに続いて、正しくない文法の文をチェッ
クすることを含む。このシステムは訂正すべき全文の可
能性に基づかないで、むしろ正しい順序列を有する品詞
の可能性に基づいた語の使用法を訂正する。
【0022】より特定的に、正しい文を解析、構築する
ために、品詞列が正しい単語列に対応するという可能性
を確認することが重要である。入力された文列の可能性
を得るために、解析、またはタグ付け装置の出力が品詞
列可能性決定モジュールに連結される。このモジュール
の出力は入力文の解析において種々のモジュールにより
利用できる。
【0023】一つの形態において、モジュールの一つ
は、対応する品詞列の可能性に基づく混同しやすい単
語、または文のセットの間で選択する品詞照合モジュー
ルである。正しい単語、または文の選択は、一つの形態
において、所定のしきい値を超える可能性により決定さ
れる。正しい文の選択は、モジュールにより達成され
る、それへの入力は入力文だけでなく種々の文の可能性
のものである。このモジュールは、混同しやすい単語リ
ストを備えている。
【0024】
【作用】品詞列可能性は、後に説明されるように、語幹
(underlying)のスペル訂正、助動詞訂正、
限定詞訂正、連語辞書引きに有効に働く。これらの文法
チェックモジュールの各々において、解析された各単語
の品詞は正確に確認されなければならない。これは品詞
列可能性により提供される確率的メカニズムを通じて達
成される。
【0025】要約すると、文が最初品詞に関してタグ付
けされる文法チェックシステムにおいて、厄介な単語の
不正な使用、特にそれらのスペルが異なる同音語を訂正
するために正しい品詞列の可能性が利用される。そのシ
ステムは、訂正すべき文全体の可能性からではなく、訂
正すべき品詞列の可能性から単語の使用法を訂正する。
主たる発明の部分として、品詞列可能性が、品詞列照
合、語幹(underlying)のスペル訂正、助動
詞訂正、限定詞訂正、連語辞書引きで利用される。
【0026】
【実施例】
実施例1. モジュラー文法チェックシステム 本発明は品詞解析モジュールの使用、品詞列可能性モジ
ュール、そして文法チェックシステムの種々の他のモジ
ュールとのその使用に関するが、今説明されることは、
種々のモジュールが品詞可能性に頼る全体の文法チェッ
クシステムについてである。
【0027】本発明によるシステムに係る品詞列可能性
検出と使用の説明は、図1、図2、図3、図7、図8、
図9、図10、図11、図13、図15、図16、図1
7、図18、図19、図20及び図21と関連して説明
される。
【0028】図1において、特に外国語を綴る人にとっ
て、特にコンピューターの知識のないこれらの人々にと
っても正確で、且つ容易に使用できる入力された文に対
して即座の文法チェックを提供することは重要である。
文法チェックを達成するために、入力文10はキーボー
ド12により単語処理システム16のCPU14内に入
力される。なお、符号18はプリンタである。
【0029】入力文の品詞が正確に決定されることが信
頼できる文法照合にとって重要である。先の文法チェッ
クシステムは入力文を直接に使用していたが、品詞列を
提供することが出来るように入力文が品詞に分解される
ことがこの発明の特徴である。これは、Applied
Natural Language Process
ing、Austin、Texas、1988での第二
会議の議事録の「AStochastic Parts
Program and Noun Phrase
Parser for Unrestricted T
ext(非限定テキストのための確率学的品詞プログラ
ムと名詞句パーサー)」として出版されたKennet
h Church氏のStochastic Part
s Program(確率学的品詞プログラム)の実施
として利用できる品詞解析モジュール20により達成さ
れる。得られた品詞の結果は、たとえば、「I hea
rd this band play.」という文を品
詞分けした品詞列は、「代名詞(PRONOUN)、動
詞(VERB)、限定詞(DETERMINER)、名
詞(NOUN)、動詞(VERB)」となる。上記品詞
解析モジュール20は、与えられた単語がある品詞をと
る確率である語彙確率と、3単語品詞列の出現頻度を示
す文脈確率を用いて文中の各単語の品詞を決定するもの
である。すなわち、先ず、語彙確率検索部は、入力文中
の各単語の語彙確率を語彙確率辞書から読み込む。この
語彙確率辞書は、例えば単語「I」の品詞の種類とその
確率、具体的には単語「I」が名詞である確率(0.0
0)と、単語「I」が人称代名詞である確率(1.0
0)を記憶し、アルファベット順に全ての単語が品詞の
種類毎の出現確率として格納されている。次に、品詞列
作成部は、例えば入力文の後から連続した3単語づつの
3単語品詞列を作成する。文脈確率検索部は、文脈確率
テーブルから上記作成した3単語品詞列の文脈確率を取
り出す。この文脈確率テーブルには、3個の品詞の組合
せになるあらゆるパターンについての出現確率が文脈確
率として格納されている。それぞれの品詞列の組合せが
とり得る確率は、大量の文を基にしてそのとり得る確率
を統計的に求めたものである。次に、評価値算出部は、
3単語品詞列の文脈確率と語彙確率とを乗算して評価値
とする。さらに、評価値算出部は、他の品詞列の文脈確
率と語彙確率とそれまでの対応する累積評価値を乗算し
て評価値を算出する。以下、同様の処理を繰り返し、5
個の品詞列である、入力文「I heard this
band play.」がとりうる全ての品詞列に対
する最終評価値が求まる。そして、それら最終評価値の
最も高いものを品詞列として選択する。この場合に、選
択される品詞列は、「人称代名詞(PRONOUN)、
動詞(VERB)、限定詞(DETERMINER)、
名詞(NOUN)、動詞(VERB)」である。
【0030】単に単語の品詞を求めただけでは、それぞ
れの品詞が適切な文を反映するよう、正しく求められた
かどうかの信頼性が高く確実とは言えない。
【0031】文を解析して正しい文を構成するために
は、品詞列が正しい単語列に対応する可能性を確認する
ことが重要である。入力文列の可能性を得るために、品
詞解析モジュール、つまり品詞タグ付けモジュール20
の出力は品詞列可能性決定モジュール22に連結され
る。このモジュールの出力は入力文10の解析での種々
のモジュールにより利用される。
【0032】最初のモジュールは、対応する品詞列の可
能性に基づいて混同しやすい単語、つまり文のセット間
で選択する品詞列照合モジュール24である。正しい単
語、つまり文の選択は、一つの形態において、所定しき
い値を超える可能性により決定される。正しい文の選択
は、モジュール26により達成される。それへの入力
は、入力文だけでなく種々の文の可能性のものである。
ここと、後にも説明されるように、モジュール26は混
同しやすい単語のリストを備えている。
【0033】混同しやすい文は上述の方法で訂正される
が、別のモジュール28は単語の語幹のスペルを決定す
るために利用される。従来のスペルチェッカーはスペル
照合のためのルックアップテーブルを利用するが、それ
らはスペルエラーの厄介な指示となる大文字化を考慮し
ていない。更に、適当なスペルに頼るこれらの文法チェ
ックシステムは、単語、文、または頭字語の始めのいず
れかの大文字化された単語によりしばしば騙される。
【0034】より信頼できるスペルチェックと文法訂正
とを提供するために、語幹のスペル訂正モジュール28
は大文字化された単語を「混同する」単語として扱う。
そうすることで、上記技術は、Brownのコーパスな
どのトレーニングコーパスに基づく一方のカテゴリー
か、または他方のものにある大文字化された単語の可能
性を提供するために使用される。
【0035】従って、伝統的言語処理システムは、単語
は普通名詞か、または固有名詞のいずれかであり、その
両方ではないという限定を課すことにより単語の語幹の
スペルを訂正したが、この訂正モジュールは文脈と可能
性とを利用して、各単語を分類する。これは、どちらが
より高い可能性を有するかを確認するために大文字化と
非大文字化形式の単語を有する文を解析することにより
達成される。その後、スペルのために解析された単語
は、より高い可能性文内の単語の形式のものである。最
も適当なスペルを訂正して、その訂正モジュール28の
出力が屈折チェック訂正モジュール30に連結される。
このスペル訂正モジュールは従来のスペルチェックの変
種であるか、または特定の外国を話す人のために調整さ
れたものかのいずれであっても良い。
【0036】別のモジュールとして、助動詞訂正モジュ
ール32は品詞列可能性決定モジュール22から得られ
る正しい品詞をもまた必要とする。助動詞訂正問題は、
幾つかの不適当な複合動詞が文内に在るときに存在す
る。これは、不適当な時制が使用される時に複合助動詞
列において見いだされる。例えば、文「he woul
d living」は二つの動詞「would」と「l
iving」とを含む。その文の一つの正しい形式は
「he would live」となる。従って、動詞
「live」の時制は訂正される必要がある。
【0037】これを達成するために、助動詞訂正モジュ
ール32はいかなる不適当な助動詞列も検出して、訂正
を提示する。これは最初、動詞列の有限セットを説明す
る有向非循環グラフを利用することにより達成される。
正しい動詞列を確立する前に、上述のようにモジュール
22により達成される正しい品詞を正しく識別すること
が重要であることが理解されよう。
【0038】助動詞訂正モジュール32の出力は適切な
代わりの文を提案するための正しい文選択モジュール3
4に連結される。
【0039】品詞を利用する別のモジュールは限定詞訂
正モジュール36である。名詞句の指示対象を決定する
これらの単語を訂正することがこのモジュールの目的で
ある。限定詞の例では、「the」、「a」、そして
「some」などの単語である。このモジュールにより
検出されて、訂正される三種類の誤りが在る、即ち、限
定詞欠如、不用の限定詞、そして限定詞と名詞との間の
数の不一致である。
【0040】限定詞欠如の例は、「John read
book」であり、その中で「the」が欠落してい
る。不用の限定詞の例は、「John went to
the New York」であり、削除されるべき
「the」を有する。数の不一致は、文「John r
ead many book」で明白であり、ここで名
詞「book」は限定詞「many」と一致するように
複数化されなければならない。不適当な限定詞を検出す
るために、品詞タグが識別されるので、名詞句を識別す
ることが出来る。そのシステムは、品詞タグのどの列が
有効名詞句を構成するかを定義する規則的表現と最大限
に一致することにより名詞句を識別する。
【0041】それでそのシステムは、各名詞句を試験し
て、それが限定詞を逸しているかどうかを見る。このプ
ロセスの一部として、主要名詞が最初に検出され、続い
てこの主要名詞が質量名詞、質量タイトル名詞、イディ
オムであるか、または限定詞を逸しているかどうかが決
定される。それでそのシステムは、各名詞句を試験し
て、それが不用の限定詞を有するかどうかを見る。最後
に、そのシステムは名詞句の限定詞と主要名詞との数が
一致するかどうかを試験する。その結果は、モジュール
38に示されるように単語の挿入、削除、または置換の
何れかとなる。
【0042】更に、モジュール42は入力文10に基づ
いて不定冠詞「a」と「an」の使用法を訂正する。
【0043】最後に、品詞列により提供される精度は連
語辞書引きモジュール40に役立つ。典型的に与えられ
た単語は、各々が辞書内のサブエントリーに対応する多
数の品詞を文脈外で有する。連語辞書引きモジュール4
0は辞書にアクセスして、品詞解析モジュール20によ
り得られた単語の品詞に基づいて適切な定義を選択す
る。例えば、単語「love」は名詞、または動詞であ
り、そして名詞「love」は、動詞「love」に比
べて、辞書内に多数の異なるエントリーを有する。入力
文が「She was my first love」
であると仮定すると、単語「love」は品詞解析モジ
ュールにより名詞として識別される、そして連語辞書引
きモジュールは名詞「love」に対する辞書のエント
リーと動詞「love」に対するこれらのみを選択す
る。
【0044】単語の語幹のスペルが一度、モジュール2
8により訂正されると、これはモジュール30による活
用訂正のために使用されるだけでなく、従来のスペルチ
ェックモジュール44においてもまた使用されることが
理解されよう。従って、従来のスペルチェックシステム
が、スペルチェックの過程で、頭字語を不適切な配列と
して示さずに、頭字語のスペルをチェックすることがで
きる。
【0045】a)品詞可能性に基づく文法訂正 過去において、幾つかの前述の文法チェックシステム
は、幾つかの厄介な単語の不正使用を訂正、特にスペル
が異なる同音語を訂正することにより英語使用法を訂正
することを試みてきた。例えば、「too」と「to」
と「two」や、「their」と「they’re」
と「there」である。他の共通の誤りは、単語が、
「maybe」や「may be」など一語か、または
二語であるべきかに思案する。同音ではないが、「wh
ich」や「whose」などしばしば誤用される単語
もある。
【0046】過去において、適当な使用法を突き止める
ために、文の文法性は、英語の文の出現頻度として計算
された。そのような統計的アプローチは、文法的に正し
い文には高い確率を、そして非文法的文には低い確率を
割り当てる。その統計は、英語の文の収集、つまりトレ
ーニングコーパス(training corpus)を準備すること
により得られる。そのコーパスは、語の正しい使用法を
定義する。結果として、文がそのような文法チェックシ
ステム内にタイプ入力されると、そのコーパスと関連す
る全文の可能性つまり出現頻度が計算される。約6万語
の全英語の語彙を受け入れるために、数百兆語のコーパ
スが使用されなければならないことが理解されよう。更
に、多数の可能性がコンピューター内に蓄積されなけれ
ばならない。従って、全文を解析するのは、計算と蓄積
との両面において重い負荷となる。
【0047】本発明のシステムでは、語の正しい使用法
を確立するために、品詞列の出現頻度が必要である。こ
の目的のため、システムがどれだけ洗練されているべき
かにより100から400の可能品詞が在ると見なすこ
とが出来る。これは、数百兆に対して数百万語のトレー
ニングコーパスに相当する。このタイプの解析は、単語
処理に使用されるものを含む標準計算プラットフォーム
で容易に実行できる。
【0048】従って、本発明によるシステムにおいて、
文は最初に品詞に分解される。例えば、文「I hea
rd this band play」は、以下のよう
に解析される。各単語は、人称代名詞(PRONOU
N)、動詞(VERB)、限定詞(DETERMINE
R)、名詞(NOUN)、及び動詞(VERB)として
解析される。この品詞列の可能性、つまり品詞列の出現
頻度を示す文脈確率は、その品詞列をコーパスと比較す
ることにより決定される。これはまた、いわゆるトリグ
ラム(tri-grams:三重字)、つまり3単語品詞列を考
慮に入れないならば実行可能でない。トリグラムは、入
力文内で隣接した品詞の三つの要素からなる。三つの隣
接品詞の解析は、正しさを立証するのに通常十分であ
り、そして特有の文が正しい使用法を必要とすることを
立証するために使用されるこれらのトリグラムの可能
性、つまり文脈確率である。従って、全文をチェックす
るよりもむしろ、三つの隣接品詞の可能性がトレーニン
グコーパスから計算される。
【0049】ある文と、その文が混同された他方の文の
二つの文を仮定すると、どちらが正しい使用法であるか
を決定することは上記技術で可能となる。上記システム
は低エラー率でこれを決定することが出来るので、二つ
の利点が在る。その第一の利点は二つの文のどちらが正
しいかを明白に突き止める。第二の利点は、正しい文を
構築した後、その品詞は他の処理のための他の文法チェ
ックモジュールにより使用できることである。
【0050】図2において、符号50に示されるように
入力文S1は、品詞タグ付けモジュール52と、また符
号54で示されるように入力として混同単語リスト56
を有する候補文S2の生成モジュールとに連結される。
品詞タグ付けモジュール52は、符号58に示されるよ
うに、入力文S1を最も適当な品詞列T1とその可能性
P1とに解析する。これは、最も適当な品詞列が全ての
品詞の有りえる3単語品詞列の可能性の最も適当な積を
計算することにより得られる上記Churchにより説
明されたようなアルゴリズムにより達成される。
【0051】入力文S1内の単語は混同単語リスト56
の一部であるかも知れない。何れの場合でも、入力文S
1に対する全ての可能な候補文S2は混同単語リスト5
6から生成される。候補文生成モジュール54の出力は
品詞タグ付けモジュール52に供給されて、再度、符号
60に示されるように最も適当な品詞列T2と、その可
能性P2とを生成する。
【0052】符号58と符号60で入力文S1と候補文
S2の可能性P1と可能性P2を得てから、どの品詞列
が最も正しそうであるかを決定することが重要となる。
選択されるべき適当な文を決定するために、そして符号
62に示されるように、可能性P2は可能性P1と比較
され、そしてP2−P1があるしきい値eよりも大きけ
れば、符号64に示されるように、入力文S1の代わり
に候補文S2が提示される。もしP2−P1<=eなら
ば、符号66に示されるように何の提示もなされない。
【0053】例えば、入力文が「I want to
here this band」であるとすると、ここ
で「here」が正しい単語「hear」の代わりに誤
用されており、入力文S1「I want to he
re this band」と候補文S2「I wan
t to hear this band」とを比較す
る必要がある。
【0054】これらの二つの文を比較するために、英語
の文の与えられたある統計モデルを文の全体の可能性と
比較することが出来る。「Information P
rocessing and Management」
で27(5):517ー422、1991にタイトル名
「Context Based SpellingCo
rrection」で出版されたEric Mays、
Fred Damereau、そしてRobert M
ercer等による記事で検討された、このアプローチ
は、計算機的に非常に高価であるので、4万語以上の語
彙を有する自由なテキストを扱う時には標準コンピュー
ターでは非実用的となる。文可能性を直接計算すること
ができることは、大量のトレーニングデータ、例えば最
小限4億のトレーニング単語と、大量の記憶容量とが必
要となる。
【0055】それとは対照的に、図2に示されるように
本発明によるシステムは、与えられた入力文と混同しそ
うな候補文とに対する最も適当な品詞列の可能性を比較
する。例えば、文「I want to here t
his band」全体の可能性を計算する代わりに、
本発明によるシステムはその文に対して最も適当な品詞
列、例えば「PRONOUN(人称代名詞) VERB
(動詞) TO ADVERB(副詞) DETERM
INER(限定詞) NOUN(名詞)」を得る。そし
て入力文に対して品詞列の可能性を計算する。同様に、
本発明によるシステムは、候補文「I want to
hear this band」に対する最も適当な
品詞列、例えば「PRONOUN(人称代名詞) VE
RB(動詞) TO VERB(動詞) DETERM
INER(限定詞) NOUN(名詞)」を得る。そし
てその候補文に対するその品詞列の可能性を計算する。
それで、本発明によるシステムはそれらの可能性を比較
することにより「here」又は「hear」の使用を
決定する。
【0056】上述の可能性を比較するよりもむしろ、別
の例においては、本発明によるシステムは文の語長を考
慮することにより、即ちP1の対数を入力文S1内の語
数で除した値とP2の対数を候補文S2内の語数で除し
た値とを比較することにより、これらの可能性の幾何学
的平均値を計算する。これは、単語が「maybe」や
「may be」などの単語の列と混同するかも知れな
い場合に重要である。品詞列の可能性を直接的に比較す
るのは、長文の代わりに短文が好適であり、統計的言語
モデルはより低い可能性をより長い文に割り当てるの
で、必ずしも正しい結果とはならない。上記は図3に例
示される。
【0057】混同単語リスト56は典型的に以下のもの
を含む。to、too、twoと、I、meと、it
s、it’sと、their、they’re、the
reと、whose、whichと、then、tha
nとwhose、who’sとour、areと、he
ar、hereと、past、passedと、acc
ept、exceptと、advice、advise
と、lose、looseと、write、right
と、your、you’reと、affect、eff
ectと、そしてmaybe、may beとである。
【0058】本発明によるシステムは他の混同単語と、
フランス語、イタリア語、そしてスペイン語などの他の
言語の混同単語にも適用できることに留意すべきであ
る。その方法は一般に、品詞タグ付けまで、上記Chu
rchで説明された方法、即ちトリグラムモデル(3単
語品詞列)を用いて実行できることに留意すべきであ
る。
【0059】要約すると、より可能性のある正しい文の
選択に加えて、図2と図3のシステムは、文の文法性に
ついての他の判断を確認するのに重要である。上記は、
文を品詞に分解するためのより良好で、信頼出来る方式
を提供する。
【0060】文を訂正するために、最初に文を品詞に分
解できることが重要である。この文法チェックシステム
がどれだけ正確に動作するかは、決定的にこの分解の精
度に依存する。より信頼できる品詞生成を提供すること
により、文法チェックの最終結果は、より信頼できるも
のにすることが出来る。
【0061】b)「a」と「an」の訂正 外国語を話す個人にとって最も頻繁におかす間違いの一
つは、不定冠詞「a」と「an」の正しい使用法である
ことは理解されよう。英語の規則は、不定冠詞「a」
が、最初に子音で発音される語の前に使用されるべきで
あり、そして「an」は最初に母音で発音される語の前
に使用されるべきであることを指定する。英語のこれら
の規則の単純で、正しくない実施は、次の語の最初の文
字が母音であるか、または子音であるかどうかを試す。
最初、子音(母音)で発音される大抵の語は最初、子音
(母音)で実際に綴られるが、以下の例ではそれは常に
そうなるとは限らない。例えば、単語「hour」は初
めに子音(h)を有するが、母音(例えばow)に相当
する初めの音で発音される。同様に、単語「Europ
ean」は初めに母音(文字「E」)で始まるが、子音
(例えば「ye」)に相当する初めの音で発音される。
【0062】この問題に対する先の解決案は、全英単語
の発音の辞書を蓄積することに本質がある。これらの解
決案は正しいが、英語の全単語に対する大量の蓄積容量
を必要とする。
【0063】英語の全単語に対して辞書ルックアップテ
ーブルを使用することよりもむしろ、主たるシステム
は、規則に対して何の例外も見つけられない時には単純
な規則を適用する。規則に対する例外は、母音で始まる
が、子音で最初に発音されない規則により扱われない語
と、そして子音で始まるが、母音で最初に発音される規
則により扱われない語とに各々対応する二つの小さな表
に蓄積される。これらの語に対立するものとしてそのル
ックアップテーブルは、6万語から生成された辞書ベー
スのシステムと比べて300語以下の単語ですむ。
【0064】図4及び図5と、図6は、英語の例外であ
る単語のリスト1及び2である。
【0065】上記から、主たる発明の部分は、不定冠詞
の正しい使用法を決定するのに重要なのは単語を発音す
る時に発せられる最初の音であることを認識することに
集中することが分かる。
【0066】最初に例外の限られたリストを構築して、
次の三つの規則が適用される。不定冠詞「a」、または
「an」に続く単語が文字「eu」で始まる時に最初の
規則を適用する。何れの場合でも、不定冠詞「a」が使
用されるべきである。不定冠詞「a」、または「an」
に続く単語が母音の文字「a」、「e」、「i」、
「o」、または「u」で始まる時に第二の規則を適用す
る。何れの場合でも、不定冠詞「an」が使用されるべ
きである。不定冠詞「a」、または「an」に続く単語
が子音の文字で始まる時に第三の規則を適用する。何れ
の場合でも、不定冠詞「a」が使用されるべきである。
【0067】図7において、ステップ300で入力され
た文の各単語w1とそれに続く単語w2とはステップ3
02、304、306により決定される時に入力文内の
現在の単語の位置iの跡を辿ることにより構築される。
もし現在の単語がステップ308により構築される時に
「a」、または「an」でないならば、そのアルゴリズ
ムはステップ304、306を通じて次の単語に進む。
もし現在の単語w1が「a」、または「an」の何れか
であり、そして次の単語w2がステップ310により構
築された時に図4及び図5のリスト1内で発見されるな
らば、その現在の単語w1はステップ312により指定
された時に必要ならば、「a」に訂正されなければなら
ない。もし次の単語w2がリスト1内で発見されない
が、ステップ314により構築された時に図6のリスト
2内で発見されるならば、現在の単語w1はステップ3
16により指定された時に必要ならば「an」に訂正さ
れなければならない。さもなければ、もし次の単語W2
がステップ318により構築される時に文字「eu」で
始まるならば、現在の単語w1はステップ320により
指定されるときに必要ならば「a」に訂正されなければ
ならない。さもなければ、もし次の単語w2がステップ
322により構築された時に「a」、「e」、「i」、
「o」、または「u」で始まるならば、現在の単語w1
はステップ324により指定される時に必要ならば「a
n」に訂正されなければならない。さもなければ、現在
の単語w1はステップ326により指定される時に必要
ならば「a」に訂正されなければならない。
【0068】c)不適当な助動詞列の訂正 前述のように、非ネイティブスピーカーが英語の文を書
こうとする時に、彼等は複雑な助動詞列において不適当
な時制をしばしば使用する。一例は「he has c
onsider」である。ここで、不正な使用法は動詞
「consider」の時制である。助動詞列を認識す
るのが明らかに困難であるためと、品詞タグが通常計算
されないという事実とのため、従来の文法チェックシス
テムのどれもそのような助動詞列に対するチェックを行
わない。
【0069】本発明によるシステムにおいて、そして図
8において、文410は品詞タグ付けモジュール412
により解析されて、符号414で示されるように関係す
る文の品詞を得る。
【0070】誤りを検出するために、不適当な助動詞列
の終了点と開始点との両方を検出しなければならない。
例えば、文「He has been conside
rthis fact」において、文の四番目の単語で
ある誤りの終わり、即ち「consider」を検出す
ることが重要である。「consider」の後の全単
語、即ち「this fact」は助動詞列の正しさに
影響を及ぼさない。同様に、誤りの開始点、即ち文の二
番目の単語である「has」を検出することが重要であ
る。「has」の前の全単語は助動詞列の正しさの決定
に無関係である。
【0071】文の品詞を生成して、終了点検出モジュー
ル424が不適当な助動詞列の終了位置を計算するため
に使用される。不適当な動詞列の終了を検出するため
に、そしてステップ420で示され、図9内で示される
ように、全助動詞列の全ての正しい品詞列が後述される
図10に示される有向非循環グラフ内に蓄積される。
【0072】全ての正しい助動詞列の有向非循環グラフ
から、全ての可能不適当助動詞列に対応する他の有向非
循環グラフがステップ422で生成される。そのグラフ
をステップ422に対応させて、このグラフは、不適当
な助動詞列「have/三人称/動詞/不定詞」を含
む。これは不適当な助動詞列「has conside
r」に対応する。誤りの終了点を検出するために、グラ
フは、終了状態に及ぶまで左から右に横断されると同時
に、その入力ストリングは左から右に読まれる。入力文
品詞が不適当な助動詞列グラフ内に読まれると品詞は入
力文内の単語に対応するので、そのグラフが最終状態に
達すると、これは問題の助動詞列の終わりにその単語を
識別する。文内のその位置に関してこの単語の識別子は
終了点検出モジュール424により指示される。
【0073】同様に、開始点検出モジュール426は問
題の助動詞列の開始点に対応する単語を検出する。これ
は、誤りの終了点を検出して、グラフの開始状態に達す
るまでグラフの右から左まで後方に働くことにより達成
される。例えば、左から右に進むと、そのシステムはh
asをhave/三人称/単数として識別して、動詞/
不定詞と見なす。システムは、この点で誤りが在ること
を検出して、不適当な助動詞列内の最後の単語であると
して単語「consider」を識別した。それで、グ
ラフ内で後方に移動して、入力ストリング内で、「co
nsider」を通過して、そして「has」を通過し
て進む。これはこの特別のグラフの初めに到達するの
で、助動詞列内の最初の単語であるとして語「has」
を識別する。
【0074】図8に戻って、助動詞列の終了点を決定し
てから、この不適当な列の終了位置が入力文の不適当列
内の最後の単語の位置としてステップ428で決定され
る。同様に、不適当列の開始位置は入力文内のその位置
を反映する数として不適当列を開始する単語の位置とし
てステップ430で決定される。ステップ432で例示
されるように、図11で例示される他の有向非循環グラ
フは、各々の不適当助動詞列の可能な正しい列のセット
を指定する。それで、ステップ432は不適当助動詞列
を通じて図11に例示された有向非循環グラフ内に進
み、そしてステップ434で例示されるようにユーザー
が見るための可能な正しい助動詞列のセットを出力す
る。
【0075】図10において、正しい助動詞列のセット
を説明する有向非循環グラフが全ての可能助動詞列に対
して次のように構成される。図10に示されるように、
そのグラフの左側におけるその開始点440から、「b
e」、「were」、「was」、「is」、「a
m」、「are」、「been」、「had」、「ha
ve」、「has」、「could」、「shoul
d」、「might」、「may」、「can」、「m
ust」、「would」、「shall」、「wil
l」、「do」、「does」、「doesn’t」、
そして「did」などの英語における助動詞の全てを含
むボックス442が在る。語「be」から「been」
までノード444と関係することが理解されよう。一般
に、ノードは、これらの助動詞に続くことが出来る動詞
は同じであることを指定する。例えば、「is」は、単
語「were」が例えば「were being」とな
るように、単語「being」で続くことが出来る。従
って、ノード444は、後続する動詞が同じである助動
詞のセットが在ることを指定する。例えば、単語「ha
d」、「have」、そして「has」のセットと関連
したノード446は、単語「been」が後続すること
が出来る。同様に、ノード448に対しても、単語「c
ould」から「will」までは単語「have」が
後続することが出来る。また、これらの単語は単語「d
o」が後続できる。最後に、ノード450は、単語「d
oes」、「do」、「doesn’t」が「hav
e」により後続されるが、「do」によってではないこ
とを指定する。
【0076】事実このような英語の語法グラフを用いる
ことによって、全規則をコンパクトなグラフ上の表現に
展開できるので、助動詞列の誤りの訂正を得ることが出
来る。
【0077】見られる通り、前記ノードに続く「??
?」とラベル付けされたボックスが在る。例えば、ボッ
クス452がある。このグラフへの入力は、品詞が後続
する単語の列であることを思い出されよう。本当はこれ
は、二つの変数でその入力にタグ付けする。そのグラフ
をコンパクトのままにするために、そのシンボル「??
?」はこのノードで説明されない何かを主張する。ノー
ド454において、ボックス456は何かを示すが、
「been」と「had」とはノード458に進むこと
が出来る。従って、「???」ボックスの使用は状態の
出力で説明されない何かのシンボルを次のノードに連結
する能力を主張することが分かる。
【0078】単語に加えて、その入力文はまた、品詞を
必要とする。例えば、システムが列「have con
sidered」を解析する時、このグラフは列「ha
vehave considered vbn」と比較
される、ここで「vbn」は過去完了形を表す。グラフ
の左側から開始して、ボックス461で例示されるよう
に単語「have」を発見する。そこから、ノード44
6を過ぎて、上述のように、ノード454へのこの単語
の通過を可能にするボックス462に向かって右に移動
する。ノード454からの可能性はボックス464での
「been」、またはボックス466での「had」で
あり、そのどちらも入力文と一致しない。他の代わり
は、ノード458への右への通過を可能にするボックス
456に行き、それから過去完了形を表す「vbn」を
指定するボックス460に行くことである。これはノー
ド470への通過を可能にする。単語「conside
red」は、その解析がボックス456を通過している
ので、許容されるべきであると考えられる、それで列
「have considered」はグラフの終了点
472に進むことが許される。中間ノード470と終了
点472との間に、空語を示すシンボル<E>を有する
ブロック474が在る。<E>で示されたボックスの使
用は、次の単語、または次の品詞などのことを考慮する
ことなく一つのノードから次のノードに通過できること
を示す。
【0079】ボックス442で見つけられない単語に対
しては、ボックス476とノード480を通じて品詞ボ
ックス482に、その後ノード484に通すことにより
解析できる。ボックス486は適していれば終了点47
2への弧を与える、そうでなければノード484を通過
して、ボックス488を通じてノード490に、その後
終了点472に達する前に品詞ボックス492、または
494を通る。最後に、ノード484は、「havin
g」を有する単語と連結するならば、ノード496とボ
ックス498とを通過して、ノード500に、ボックス
502はノード504を介して品詞ボックス506に、
それから適していれば終了点472にノード484を通
す。もし484における単語が「having」と「b
een」との両方に連結されるべきであるならば、それ
はノード508に、ボックス510を通じてノード51
2に、そしてボックス514を通じてノード516に渡
される。その後、それは品詞518から終了点472
か、ボックス520のいずれかとなる。従って、入力単
語「having」、「been」の正しい使用法は、
もし前述された原形を通じて終了点472に到達すれば
正しいとして決定される。但し、もし単語「bein
g」がこの列に追加されるべきであるならば、ノード5
12の出力はノード522とボックス524に渡されて
ノード516に至る。
【0080】要約すると、有向非循環グラフは、全ての
正しい助動詞使用法を指定する。その結果、同様のグラ
フが全ての不適当な助動詞列について構成できる。故
に、全ての正しい使用法を表すグラフを構成すると、全
ての不適当な使用法を表すグラフを直ちに有する。この
アプローチの密度の高さは、文の解析に例外的に効果的
である。
【0081】図11において、有向非循環グラフの形の
有限状態変換モジュールは、上記生成された不適当な動
詞列の有向非循環グラフにより決定される時、不適当な
助動詞列の訂正を提示するために使用される。適切な訂
正を提示するために、助動詞はペアーにされる。よって
各ペアーの左側の語は不適当なものとして識別され、そ
して右側の語は正しいものとなる。例えば、havin
gは、助動詞列「will had」は不適当であるこ
とを識別し、図11のグラフが正しい列を指定するため
に使用される。入力ノード530から開始して、ボック
ス532を通過することが出来る、このボックスの左手
は入力の第一単語と同じである。ノード534とボック
ス536とを通過して、ノード538に達する、ここで
考慮される単語は単語「had」である。ボックス54
0は、「had」が「have」に変更されるべきであ
ることを示す、その事実はノード542に出力され、そ
の後ボックス544を通じて終了点546に至る。この
通路により終了点546に到達して、提案される正しい
列は「will have」となる。
【0082】より複雑な場合は、不適当な列「woul
d considered」を考える場合である。対応
する品詞タグは「would would consi
dered vbn」である。この場合、「woul
d;would」を示すボックス550を通過すること
により最初ノード534に到達して、ボックス536を
通じてボックス538に達する。ここで、ボックス54
0、552、554、556、558、または560の
何れも適用しない。これは、これらのどのボックスもそ
の中に単語「consider」を持たないからであ
る。ボックス562を経て、品詞解析ボックス564を
経た適切で、正しい提案は「would consid
er」であることに留意すること。これは、グラフが、
「considered」は単語「consider」
の過去時制であることを検出するので、到達した。この
ボックスは現在時制が使用されることを提案するので、
単語「consider」を提案する。その解析は「v
bd:/vbd/vb」で示される。vbdは過去時制
を意味し、そしてvbは現在時制を意味することに留意
すること。入力に他の正しい変更を提供するノード53
8からの交代的ノードが在る。例えば、提案される列は
「would have considered」であ
るかも知れない。ここで、ボックス566は、単語「h
ave」が付加されるべきであることを指定する。ボッ
クス568は、「have」の品詞、hvが、セットに
もまたタグならば付加されるべきであることを指定す
る。ボックス570を通過して進んだ後、ボックス57
2は、過去時制形が過去分詞形に変換されるべきである
ことを指定する。その場合、単語「considere
d」は、過去時制と過去分詞との両方であるので、不変
である。もし入力された単語が「considere
d」に対立するものとして「knew」であったなら
ば、ボックス572は過去時制である「knew」から
過去分詞である「known」への変更を指定していた
であろう。
【0083】図11の図式の残りは自己説明的であり、
一度不適当であると決定された不適当動詞列への種々の
提案された変更を提供する。
【0084】d)非ネイティブスピーカーのための活用
訂正 良く知られるように、スペルチェックシステムは典型的
に辞書引きアルゴリズムを介してスペル誤りの単語を検
出する。これは、典型的に不注意なタイプ打か、文字転
置のためによるスペル誤りを検出するのに成功するが、
これらのシステムは他の種類のスペル誤りに対しては効
果がない。最も顕著に、非ネイティブスピーカーのスペ
ル誤り、単語の文字についての大抵不注意な転置、不注
意な文字挿入、または省略、それらは主に文法問題のた
めである。例えば、文「He drived his
car yesterday」をとると、その誤りは不
注意でも、特別のスペルに関する知識の不足の何れでも
ないが、この場合はむしろ動詞「drive」の過去時
制に関する不確かさによるものである。
【0085】典型的に、スペルチェッカーは、ミスタイ
プされた単語と辞書の単語との間の距離に基づいて適当
なスペルを提案する。その距離は、典型的に置換、挿
入、転置、または削除されなければならない文字数に基
づく。その結果は、しばしば奇妙である。例えば、上記
例では、正しい提案は「drive」の過去時制、即ち
「drove」であろうが、従来のスペルチェッカーは
「dried」や、「dripped」を提案する。正
しい語「drove」が提案されないということに留意
することは興味深い。これは、従来のスペルチェックシ
ステムが検出されたスペル誤りを文法に関して解析しな
いからである。
【0086】従来のシステムが正しいスペルの提案にお
いて有する難しさの他の例は、不適当な比較形容詞を含
む。例えば、非ネイティブスピーカーが「good」に
対する比較級を選択するのに、しばしば比較形容詞を形
成するための通常規則に基づいてgooderを選択す
る。更なる例として、名詞「child」を複数形にし
たい時、非ネイティブスピーカーは、単数名詞に「s」
の付加を必要とする通常の複数規則に再び基づいて「c
hildren」に対立するものとして語「child
s」を選択するかも知れない。
【0087】上記例で適切な語を提案することを従来の
スペルチェッカーが出来ないことを示すために、典型的
スペルチェッカーは次の語を提案する。そのどれもが文
脈において正しくない。つまり、「chills」、
「child’s」、「chill’s」、「chil
d」、「tidles」である。従来のスペルチェッカ
ーによる更に不十分な提案は、いかに「goodes
t」を正しく綴るかの提案である、即ち:「gooie
st」や、「goosed」である。
【0088】これらのタイプの誤りは、スペルチェック
機能を使用するのを拒絶させるほど個々の非ネイティブ
スピーカーにとっては煩わしいだけでなく、彼等の欲求
不満のレベルも、文脈内外で知らない語の中から選択す
るよう強制されるときには更に高くなる。
【0089】本発明の図12において、複数、過去時
制、過去分詞、比較形、最上形に関して何れの通常規則
にも従わない語の典型例を識別することが重要である。
主たるシステムがより適当な置換語を提案するのは、文
法を基礎として生成される不適当な単語のこの特有のリ
ストからである。主たるスペルチェックシステムは辞書
引きシステムによりスペル誤りを検出するように正常に
働く。その後、正しい単語が、以下で説明されるように
典型的な不適当な単語の大要や、原形、および形態素的
特徴との両方に基づいて提案される。
【0090】図12において、英単語訂正モジュール6
00は、英単語辞書602と、英単語形成の正常規則に
より生成された辞書608とからの単語をステップ60
6で比較することにより生成された不適当な英単語60
4のリストを含む。比較の結果は、スペルの誤りからで
はなく、むしろ不適当な文法に基づく誤りやすい単語の
特別なリストとなる。
【0091】図13において、検出された不適当な単語
を実際に訂正するプロセスにおいて、英単語辞書602
が、図12との関連で説明されたように前に生成された
不適当な英単語のリスト604に沿って使用される。検
出された不適当な単語はステップ610で利用可能であ
り、従来の辞書引きを通じて得られる。検出された不適
当な単語と不適当な英単語のリストの両方とも、不適当
な単語の原形や時制、数、比較形、...最上形などの
その形態素的特徴を決定するモジュール612に適用さ
れる。例えば、不適当な単語「drived」の場合、
この単語の原形は「drive」であり、そしてその形
態素的特徴は「過去時制、または過去分詞」である。そ
の原形と形態素的特徴は、その原形と形態素的特徴とを
英語辞書602内の対応する英単語と関連させるモジュ
ール614に提供されて、提案された訂正単語を提供
し、それにより文法とその例外との両規則を考慮に入れ
ることが出来る。
【0092】本質において、典型的に不適当な使用法に
基づく原形と形態素的特徴と得ているシステムはこれら
の未訂正の使用法と関連付けられた適切な単語を提案す
ることが出来る。そのシステムは、単純なスペルの誤り
に対立するものとして文法のために問題である問題単語
を識別している洗練されたルックアップを提供する。
【0093】品詞タグ付けモジュールは、システムによ
り提案される単語の精度を改善するのに有益であること
が理解されよう。例えば、スペルを誤った単語が過去時
制であるか、または過去分詞かの何れかである場合であ
る。上記の例は、「drove」、または「drive
n」に導く「drived」の訂正である。「不適当
な」単語が文内で使用される方法を知ることは、品詞に
基づいた正しい選択となる。
【0094】e)限定詞の不正使用法の検出と訂正 非ネイティブスピーカーに対する最も難しい問題の一つ
は、限定詞の使用法の問題である。限定詞は、名詞句の
指示対象を決定する「the」、「a」、そして「so
me」などの単語である。限定詞を含む3種類の誤りが
在る。その第一は限定詞欠如である。例えば、文「Jo
hn read book」は名詞句「book」の限
定詞が欠けている。限定詞の誤りの第2は、不用の限定
詞の使用である。例は、「John went to
the New York」である。ここで、限定詞
「the」は不適当であり、削除されるべきである。限
定詞誤りの第3は、限定詞と関連名詞との間の一致の欠
如である。例えば、「John read many
book」は「many」と「book」との間の数の
一致の欠如を例示する。
【0095】限定詞の不正使用を検出するために、品詞
タグが解析に使用される。品詞タグ付けモジュールは、
図3、図8、図18、図19、図21と関連して説明さ
れる。タグ付けされた文の例として、「John re
ad long novel」を考える。ここで、「J
ohn」のタグは「固有名詞」である。「read」の
タグは「過去動詞」である。「long」のタグは「形
容詞」である。そして「novel」のタグは「単数名
詞」である。
【0096】図14に示されるように、システムは決定
ブロック700で例示されるように名詞句を識別する。
それは品詞タグのどの列が有効名詞句を構成するかを定
義するパターンと最大限一致させることにより文内の名
詞句を識別する。名詞句のパターンは以下により与えら
れる。 [DET](MODS NOUN AND)*MODS
NOUNhead そして、MODSのパターンは以下により与えられる。 (MOD+AND)*MOD ここで、DET、MOD、NOUN、ANDは各々限定
詞、修飾語句、名詞、等位接続詞の品詞タグのセットと
して定義される。表記法[X]は囲まれた式Xのゼロ
か、または一回の発生を意味する。表記方(X)*は囲
まれた式Xのゼロ回か、またはそれ以上の発生を意味す
る。X+におけるように、プラスの上付き記号は式Xの
一回か、またはそれ以上の発生を意味する。
【0097】上記の目的は名詞句を識別するためであ
る。例えば、上記文においては、名詞句は、品詞列「固
有名詞」に対応する、「John」と、品詞列「形容単
数名詞」に対応する、「long novel」とであ
る。上記は比類無く、名詞句の初めとその終わりを識別
することにより名詞句を識別する。限定詞欠如、不用の
限定詞、または名詞句の構成のための数の一致の欠落の
いずれであるかをチェックするために名詞句が識別され
るのは主な重要性に関してである。
【0098】ステップ702に示されるように、一度名
詞句が発見されると、そのシステムはその名詞句が限定
詞欠如であるかどうかを試験する。その試験は全名詞
句、つまりNPを調べ、そして主要名詞、つまりNOU
Nheadをもまた調べる。それは名詞句内の最後の単
語である。主要名詞はその句内の最重要名詞を示し、大
抵の場合最後の単語であるのが分かっている。限定詞欠
如の試験は名詞句の限定詞、DETをも調べる、それは
名詞句の最初の単語であるか、または全く見いだされな
いかの何れかである。図15のステップ704と706
で決定されるように、もしその主要名詞が単数、非固有
名詞で、そしてDETは存在しないならば、その名詞句
は、それがタイトルであるかどうかを見るためにステッ
プ708で試験される。タイトルは、固有名詞以外のい
かなる大文字使用句であっても良い。例えば、「The
Atlanta Police Departmen
t」や、「Grady Hospital」はタイトル
である。もしその名詞句がタイトルであることが分から
なければ、主要名詞は、それが質量名詞かどうかを見る
ためにステップ710で試験される。質量名詞は、例え
ば、「rice」、「fish」、または「carbo
n」などの特に指定しない量の物質を表す名詞である。
質量名詞は、複数名詞として効果的に機能するので限定
詞を必要としないことが理解されよう。
【0099】もし名詞句がタイトルであるならば、解析
が、ステップ712で示されるように、主要名詞が質量
名詞であるかどうかを確認するために行われる。質量タ
イトル名詞は質量名詞に類似しているが、タイトル内に
見出される。例えば、文「She attended
Harvard University」内で、名詞句
「Harvard University」はタイトル
であり、そして「University」は質量タイト
ル名詞である。故に、「University」は限定
詞を付けないで現れることに留意するすべきである。質
量タイトル名詞は質量名詞と同じではないこともまた観
察される。例えば、「University」は質量タ
イトル名詞であるが、それは質量名詞ではない。これ
は、文「She attended a fine u
niversity」からも分かる。ここで名詞「un
iversity」には限定詞「a」が与えられる。従
って、質量タイトル名詞を持っていることが決定される
ならば、何の提案もされないことが理解されよう。
【0100】但し、慣用語法に対する問題が在る。ステ
ップ714に例示されるように、名詞句は、それがイデ
ィオムの一部であるかどうかを見るために解析される。
これはイディオム辞書内のルックアップを通して行われ
る。もし名詞句がイディオムの一部分であるならば、再
びどんな提案もされない。例えば、文「The eve
nt took place」内で、名詞句「plac
e」に対して何の提案もなされないが、それはイディオ
ム「to take place」の一部であるので、
限定詞を欠いている。
【0101】限定詞を持たない単数非固有名詞に対して
は、もし主要名詞が質量名詞でも、質量タイトル名詞で
もなければ、そしてもし名詞句がイディオムの一部でな
ければ、そのシステムは、ステップ716で示されるよ
うに、限定詞欠如が在ることを示唆する。
【0102】図16において、システムは不用の限定詞
に対する名詞句をチェックする。これは次のように達成
される。主要名詞が固有名詞であるかどうかが名詞句を
導入し、そして限定詞がステップ724で例示されるよ
うに存在するかどうかを確認することとによりステップ
722で決定される。もし上記条件が一致すれば、ステ
ップ726で示されるように、異質の限定詞を有すると
決定される。例えば、「John went to t
he New York」は、名詞句「theNew
York」が固有名詞である主要名詞を含むので、そし
てその名詞句内に限定詞、つまり単語「the」が在る
ので、異質の限定詞を有するとして示される。固有名詞
は、可能性と文脈とに基づいて固有名詞の存在を決定す
るタグ付けモジュールにより識別される。
【0103】図14に戻って、ステップ730で示され
るように、主たるシステムは数の不一致に対する名詞句
をチェックする。いかにこれが達成されるかが図17で
示される。数の一致の決定は、ステップ732で示され
るように、名詞句内の主要名詞が固有名詞であるかどう
かを決定する検出モジュールに名詞句を導入することに
より達成される。もしそうであるならば、数の不一致は
ない。これは、もし固有名詞句が限定詞を含むならば、
それはもうすでに異質の限定詞の誤りとして報告されて
いたであろうからである。ステップ734で示されるよ
うに、主要名詞が固有名詞でないと仮定すると、システ
ムは名詞句が限定詞を含むかどうかを決定する。もし含
まなければ、数の不一致の問題は無い。
【0104】ステップ736で示されるように、もし限
定詞が在れば、限定詞の数が主要名詞の数、即ち単数、
または複数に対してチェックされる。もしそれらが一致
すれば、何の誤りも知らされないが、もしそれらが一致
しなければ、主要名詞の数を変更して、限定詞の数と一
致するように提案がなされる。従って、文「Johnr
ead one books」に対して、その主要名詞
「books」は限定詞と一致するように変更されるよ
うに提案され、そして単数にされる。同様に、文「Jo
hn read many book」に対して、主た
るシステムは限定詞と一致させるために主要名詞を複数
に変更することを提案する。択一的に、システムは主要
名詞に対立するものとして限定詞を変更するように適応
されるかも知れない。但し、これは可能性の少ない動作
行程である。何が適当な限定詞であるべきかを確認する
ことの難しさのために、前者がより良好な結果を与え
る。故に、個人は数に関して正しい限定詞を適切に入力
していると見なされる。
【0105】要約すると、本発明によるシステムは、タ
グ付けされた文の使用や、名詞句、主要名詞、固有名
詞、質量名詞、質量タイトル名詞、そしてイディオムの
検出を通じて、限定詞の不適当な使用法を検出して、訂
正するための多数の技術を使用する。限定詞誤用の適切
な決定に対して重大であるのは、図14と関連して上述
されたパターンの一致の使用を通しての名詞句の検出で
ある。
【0106】f)固有名詞と他の本質的に大文字が使用
される単語との認識 固有名詞は他の名詞の全てに対して独特の識別可能的に
扱われるので、単語が固有名詞であることを認識できる
ことは文の解析において重要である。固有名詞だけでな
く、「Harvard University」など、
タイトルで見出されるこれらなど、他の本質的に大文字
が使用される単語も認識する能力を有することにより、
文が文法的に説明されて、理解されるので、文法が解析
される。
【0107】単語は、二つの理由のため英語の文で大文
字として現れるかも知れない。第一は、それは固有名詞
か、または他の本質的に大文字が使用される単語かのい
ずれかである。第二に、それは文の初め、または一定の
句読点後に見いだされる、そうでなければ大文字化され
ないだろう。例として、文「Wells was an
English novelist」を考えると、
「Wells」は、固有名詞であるので大文字化される
ことは理解されよう。文「Wells weredug
to provide drinking wate
r」を考えると、「wells」は、文の最初の単語で
あるので大文字化される。
【0108】従って、第一文において、文法チェックシ
ステムは、「Wells」が本質的に大文字化されるの
で、固有名詞であることを認識しなければならない。第
二文において、文法チェックシステムは、「well
s」は本質的に大文字化されないので、普通の複数名詞
であることを認識しなければならない。
【0109】名詞が固有名詞であるかどうかを決定する
ための先のアプローチにおいて、システムは比較的限ら
れた技術を本質的に大文字が使用される単語の認識に適
用した。1つのアプローチは、文の最初の単語が決して
本質的に大文字化されないと見なすことであった。これ
は、第一文により示されるように、固有名詞で始まるい
かなる文に対しても失敗する。
【0110】他のアプローチは、固有名詞、または普通
の単語、しかし両方ではない、その何れかとして全ての
単語を分類することであった。「Wells」は、この
種の分類法を失敗させる固有名詞と普通の単語との両方
であることは上記の二つの文から明白となる。
【0111】その単語が固有名詞であるかどうかを適切
に識別するのを失敗する明白な問題は、辞書引きにおい
て、間違った定義が検索されることである。単純な文法
チェックにおいては、定義が必要とされないが、正しい
使用法を決定するときに指導的、または情報的データを
提供する洗練された単語処理や文法チェックシステムは
固有名詞や他の本質的に大文字が使用される単語の正し
い識別を必要とする。たとえ辞書引き機能が文法チェッ
クシステムの一部でなくとも、固有名詞や他の本質的に
大文字が使用される単語の認識は重要である。
【0112】単語が固有名詞であるかないかを識別する
重要性は、トリグラム可能性の使用を通して文内の各単
語の品詞を正確に決定しなければならない品詞タグ付け
モジュールの動作に影響を及ぼす。単語の大文字化と非
大文字化バージョンとは異なるトリグラム可能性を有す
るので、正しいトリグラム可能性を適用するために単語
のどのバージョンが文内に存在するかを知ることはタグ
付けモジュールには重要である。例えば、固有名詞「W
ells」のトリグラム可能性は普通名詞「well
s」のトリグラム可能性と異なる。従って、タグ付けモ
ジュールは、文「Wells was an Engl
ish novelist」内で、単語「Wells」
は固有名詞であることを理解しなければならない、それ
でそれは「Wells」の大文字化バージョンのトリグ
ラム可能性を適用すべきである。
【0113】固有名詞、または他の本質的に大文字が使
用される単語に対立するものとして、単語が普通の単語
であるかどうかを立証するために、本発明によるシステ
ムは各単語の二つの解釈、つまり固有名詞としての単語
の解釈、または普通名詞としての解釈のうちどちらが最
良のものであるかを決定する。それは、一方はその名詞
は固有であると仮定し、他方はそれは普通であると仮定
する文の二つのバージョンを生成することによりこれを
行う。それで、それは二つの文のトリグラム可能性を比
較する。もしその単語が固有名詞であると仮定する文が
より高い可能性を有するならば、その単語は固有名詞で
あると考えられる。さもなければ、その単語は普通名詞
であると考えられる。
【0114】図18において、名詞が固有名詞であるか
どうかを確認するために、意志決定プロセスのために二
つのステップが在る。ステップ800で示されるよう
に、第一ステップは、802で示されるように、タグ付
けされたトレーニングコーパスで始まる前処理である。
これは、各文章の単語がそれらの品詞タグで注釈付けさ
れる文章のセットを示す。次に、トレーニングコーパス
802がステップ804で示されるように改訂されて、
固有名詞でない、または、一般に、本質的に大文字化さ
れない単語を非大文字化する。単語は、もしその単語が
固有名詞、またはタイトルとしてタグ付けされたなら
ば、またはそれが頭字語であるならば、またはそれが代
名詞「I」であるならば本質的に大文字化されると考え
られる。更に、もし単語が文の初めに、または引用符の
前半、またはコロンの後に見いだされるならばそれらの
単語は非大文字化される。
【0115】特に、図19に例示されるように、タグ付
けされたトレーニングコーパス808はステップ810
で解析され、もし必要ならば、そのコーパスから次の語
/タグを得る。1つが見付けられれば、その単語は、そ
れが大文字化されるかどうかを見るためにステップ81
2で解析される。もしその単語が大文字化されるなら
ば、ステップ814で示されるように、その単語が文の
最初の単語であるかどうか、またはそれが引用符の前
半、またはコロンに続くかが確認される。もしそうであ
れば、ステップ816で示されるように、その単語が固
有名詞、またはタイトルとしてタグ付けされたか、また
はそれが頭字語か、または代名詞「I」であるかどうか
を見るためにその単語は試験される。もしそうでなけれ
ば、その単語はステップ818で示されるように改訂さ
れたトレーニングコーパス内で大文字化されることとな
る。
【0116】図18に戻って、改訂されたトレーニング
コーパスはステップ820で解析されて、単語のトリグ
ラム可能性モデルを得る。これは、普通名詞を固有名詞
と、またはその逆に単語を誤って識別することに関連し
た誤りを除去するために修正されたトリグラムモデルを
提供する。誤りを除去するためにタグ付けされたトレー
ニングコーパスを前処理した後、そのトリグラムモデル
は、問題のその単語が本質的に大文字化されるかどうか
を決定するための意志決定においてステップ822で使
用される。これは、文内の単語を入力として必要とし、
その出力はその単語の語幹のスペルである。
【0117】図20に見られるように、単語が本質的に
大文字化されるかどうかを決定するためのステップ82
2で説明される意志決定プロセスは、ステップ850で
示されるように、文内の単語で開始する。この単語は、
その初めの文字が頭文字であることでそれが大文字化さ
れるかどうかを決定するために解析される。もしそうで
なければ、ステップ851で示されるように、その単語
の解釈は、その文により文字通り与えられるものであ
る。つまり、もしそれが文内で大文字化されて現れるな
らば、それは固有名詞として解釈される。もしそれが文
内で非大文字化されて現れるならば、それは普通名詞と
して解釈される。従って、もしその単語が大文字化され
ないならば、特別なアクションは何も起こさない。
【0118】その単語が大文字化されると仮定すると、
ステップ854に見られるように、その単語が文の最初
の単語であるかどうか、またはそれは引用符の前半、ま
たはコロンに続くかどうかが決定される。もしそうでな
ければ、更にアクションは何も起こさない。もしそうで
あれば、ステップ856で示されるように、その単語は
更に処理されて、それが頭字語であるかどうかを確認す
る。頭字語は、大文字化されているその英字の全て、ま
たは頭字語辞書内のその存在を特徴とする。もしその単
語が頭字語であることと決定されるならば、再び更に何
の処理もなされない。
【0119】もしその単語が頭字語でないならば、ステ
ップ858で示されるように、そのシステムは、符号8
59で例示されるようにトリグラムモデルに従って、一
方が固有名詞として扱われる問題の単語を有し、それは
大文字化され、そして他方は普通名詞として扱われる問
題の単語を有し、それは非大文字化される、文の二つの
バージョンの可能性を計算する。その計算は、前述の品
詞タグ付けモジュールに従って説明された通りである。
【0120】ステップ860で例示されるように、もし
非大文字化された単語を有する文の可能性が、大文字化
された単語を有する文のそれを超えるならば、そのシス
テムは最も可能性のある語幹のスペルとして単語の非大
文字化されたスペルを戻すので、このスペルは更なる文
法チェックのために使用できる。さもなければ、ステッ
プ864で示されるように、そのシステムは最も可能性
のある語幹のスペルとしてその単語の大文字化されたス
ペルを戻す。
【0121】理解されることは、単語の語幹のスペルを
訂正することにより、文法チェックシステムがより正確
に、かつより効果的なものとして作成可能であることで
ある。語幹のスペルの訂正は二つのステップを必要とす
る。その第一ステップは、その単語が固有名詞であるか
どうかについての誤った特徴付けを通して引き起こされ
た誤りのためのトレーニングコーパスの品詞タグを訂正
する。第二のステップは、一連の解析が、大文字化され
るか、または非大文字化されるその単語のスペルがより
適切であるかどうかを確認するために実行される。これ
は、前処理ステップで得られる改訂されたトリグラム可
能性モデルを用いてその単語が本質的に大文字化される
かどうかを決定する意志決定要素を通して達成される。
【0122】g)文脈に基づいた辞書引き テキストを書いている時、非ネイティブスピーカーは単
言語辞書か、または二言語辞書の有効性に頼る。辞書
は、非ネイティブスピーカーが頼る言語についての情報
の最も有用なソースの一つである。辞書の使用は、文法
チェックの問題に限定されないが、一般に文を書く時に
有用であることは理解される。たとえネイティブスピー
カーでも、文を書く時にはかなり辞書や、シソーラスの
使用に頼ることもまた理解される。
【0123】辞書エントリーへのアクセスは、文脈外の
単語は、それらの統語上の性質やそれらの意味との両方
において、非常に曖昧であるので、思われるほど単純で
はない。辞書内に与えられた単語は典型的に、20、3
0、またはそれ以上のエントリーを有するかも知れない
ことは理解される。この多数のエントリーは、辞書の使
用を非常に時間を消費させるものにする。
【0124】例えば、文脈外で単語「left」は英語
の辞書内に多数のエントリーを有する。文「His l
eft arm」内で形容詞「left」のエントリー
がある。文「he moved left on en
tering the room」内で副詞「lef
t」のエントリーがある。「Make a lefta
t the next corner」として名詞「l
eft」のエントリーがある。そして文「He lef
t a minute ago」内で動詞「leav
e」の過去時制のエントリーがある。但し、単語「le
ft」が英文で見いだされる時、このエントリーの一つ
のみがその文脈と関係がある。現在、文脈に基づいて単
語の正しいエントリーにアクセスする能力を提供する辞
書はない。
【0125】本発明によるシステムにおいて、辞書のエ
ントリーは文脈で与えられた単語に割り当てられた品詞
に基づいて選択されて、位置付けされる。文脈内の単語
に対応するエントリーが最初に選択される。現在の文脈
に関係の無い他のエントリーはユーザーの要望により尚
利用可能である。文脈で与えられた単語の品詞は上述さ
れた品詞タグ付けモジュールで明確にされる。
【0126】例示により、文「He left a m
inute ago」内の単語「left」を考える
と、品詞タグ付けモジュールはその文内の単語「lef
t」に対してタグ「動詞過去時制」を割り当てる。この
場合、主たるシステムはその文脈内の「left」の使
用法に対応する動詞「leave」のエントリーを選択
し、それからその文脈内で使用されない「left」の
エントリー、特に形容詞として、副詞として、そして名
詞としての「left」のものを選択する。
【0127】文「It has several ba
ses」内の単語「bases」を考えると、品詞タグ
付けモジュールは、文内の単語「bases」に対して
二つのタグ「複数名詞」を割り当てる。文脈外で、その
単語「bases」は、動詞「base」の第三人称だ
けでなく、名詞「basis」の複数、そして名詞「b
ase」の複数でもあることが理解される。「It h
as severalbases」の文脈に対して、主
たるシステムは名詞「base」とその文脈における単
語「bases」に対応する「basis」とのエント
リーを選択する。それからその文脈で使用されない「b
ases」のエントリー、特に動詞「base」のもの
を選択する。
【0128】図21のステップ900において、文脈に
基づいて辞書から文内で見いだされる単語のエントリー
を選択するために、その単語は、原形と文脈から独立し
た単語に対応する品詞とのペアーのセットを計算する形
態素解析モジュール910により解析される。例とし
て、単語「left」に対して、形態素解析モジュール
910は原形と品詞のペアーの以下のセットを出力す
る。つまり、(「left」、「形容詞」)、(「le
ft」、「副詞」)、(「left」、「単数名
詞」)、(「leave」、「動詞過去時制」)であ
る。形態素解析モジュール910は、英語の全ての単語
の全ての活用により指示された表を調べることにより動
作する。そしてそのエントリーは原形と品詞のペアーの
セットである。その単語はまた、文脈上の単語に対応す
る唯一の品詞タグT940を生成するために文脈上で品
詞タグ付けモジュール930により解析される。これ
は、Applied Natural Languag
e Processing、Austin、Texa
s、1988での第二会議の議事録の「A Stoch
asticParts Program and No
un Phrase Parserfor Unres
tricted Text(非限定テキストのための確
率学的品詞プログラムと名詞句パーサー)」で説明され
たKenneth Church氏のStochast
ic Parts Program(確率学的品詞プロ
グラム)の実施として利用できる品詞タグ付けモジュー
ルにより達成される。
【0129】例えば、もし単語が「He left a
minute ago」の文脈で「left」である
ならば、品詞タグ付けモジュールは品詞タグ「動詞過去
時制」を出力する。文脈に対応する形態学的原形を文脈
に対応しないものから分離するために、ステップ920
では原形と品詞のペアーのセット920を二つのセッ
ト、品詞タグ940に対応するセット950と、品詞タ
グ940に対応しないセット960とに分割する。先の
例において、文脈に対応する原形と品詞のペアーのセッ
トは、「leave」、「動詞過去時制」である。文脈
に対応しない原形と品詞のペアーのセットは、(「le
ft」、「形容詞」)、(「left」、「副詞」)、
(「left」、「単数名詞」)である。文脈に対応す
る辞書からエントリーを表示するために、文脈に対応す
る原形と品詞のペアーのセット内で発見された原形に対
応する辞書970内の全エントリーが、ステップ980
で表示される。上記例で、動詞「leave」の全エン
トリーは文脈に関連するエントリーとして表示される。
文脈に対応しない辞書からエントリーを表示するため
に、文脈に対応しない原形と品詞のペアーのセット内で
発見された原形に対応する辞書970内の全エントリー
が、ステップ990で表示される。上記例で、形容詞と
して、副詞として、そして単数名詞としての語「lef
t」の全エントリーが文脈と関係のないエントリーとし
て表示される。
【0130】文脈に基づいて辞書からエントリーを選択
する能力はネイティブ、または非ネイティブスピーカー
のための、二言語辞書だけでなく単言語辞書にも使用で
きることが理解される。主たるシステムは、文脈に関連
したこれらのエントリーを選択できるので、ユーザーが
読まなければならないエントリー数を徹底的に低減する
ことが出来る。
【0131】本発明によるシステムの幾つかの形態を示
してきたが、修正や代わりが本発明の範囲内で実施可能
であることは当業者には明白である。依って、それは特
許請求の範囲で指示される時にのみ本発明の範囲を限定
するよう意図される。
【0132】
【発明の効果】この発明に係る文法チェックシステム
は、以上説明したとおり、ある文と、その文が混同され
た他方の文の二つの文を仮定すると、どちらが正しい使
用法であるかを決定することが可能である。低エラー率
でこれを決定することが出来るので、二つの利点が在
る。その第一の利点は二つの文のどちらが正しいかを明
白に突き止めることである。第二の利点は、正しい文を
構築した後、その品詞は他の処理のための他の文法チェ
ックモジュールにより使用できることである。
【図面の簡単な説明】
【図1】 この発明の実施例1に係る完全な文法チェッ
クのために利用される種々のモジュールを示す完全な文
法チェックシステムの全体を示すブロック図である。
【図2】 この発明の実施例1に係る品詞列の可能性を
利用する混同しやすい単語を訂正するモジュールを示す
ブロック図である。
【図3】 図2の可能性決定構成要素のための混同しや
すい単語の訂正のための確率的しきい値を決定するため
に平均する文長さを使用するモジュールを示すブロック
図である。
【図4】 不定冠詞「a」を使用すべき単語を示す図で
ある。
【図5】 不定冠詞「a」を使用すべき単語を示す図で
ある。
【図6】 不定冠詞「an」を使用すべき単語を示す図
である。
【図7】 この発明の実施例1に係る単語が冠詞の正し
い使用法を得るために綴られる方法と対立するものとし
て単語が発音される方法に基づく英語の例外に関して詳
説した図4、図5、図6を利用して、不定冠詞「a」や
「an」を訂正するモジュールを示すフローチャートで
ある。
【図8】 この発明の実施例1に係る訂正された文を達
成するために開始点と終了点検出モジュールの利用を通
じて不適当な助動詞列を訂正するモジュールを示すブロ
ック図である。
【図9】 正しい動詞列を表す有向非循環グラフを利用
する図8の開始点と終了点検出モジュールの構成を示す
ブロック図である。
【図10】 英語の正しい助動詞列のセットを表す有向
非循環グラフを示す図である。
【図11】 不適当な助動詞列に対する訂正を提示する
ための有限状態変換モジュールを表す有向非循環グラフ
を示す図である。
【図12】 この発明の実施例1に係る本当でない英単
語辞書に対応する不適当な単語のリストが全ての英単語
に組織的に適用される英単語形成の正常規則に基づいて
計算される非ネイティブスピーカーのための改良スペル
チェッカーを示すブロック図である。
【図13】 原形と形態論的特徴が前に見いだされた不
正英単語のリストに関して検出された不適当単語の解析
に利用される、英単語辞書だけでなく図12のシステム
から得られる不適当単語辞書を利用して正しく検出され
た不適当単語のプロセスを示すブロック図である。
【図14】 この発明の実施例1に係る名詞句がどの品
詞タグ列が、不明の限定詞、異質の限定詞、または数の
不一致を確認するためのチェックを含む有効名詞句を構
成するかを定義するパターンと最大限に一致させること
により識別される、限定詞の不正の使用を検出して、訂
正するモジュールを示すフローチャートである。
【図15】 名詞句がタイトル名であるかどうか、それ
が限定詞を含むかどうか、不明の限定詞の報告を可能に
するためにそれが質量タイトル名詞、質量名詞、或いは
イディオムの一部であるかどうかについての名詞句に対
する決定をするモジュールを示すフローチャートであ
る。
【図16】 主要名詞が固有名詞であるかどうかの決
定、それで異質の限定詞を報告することが出来るように
その名詞句が限定詞を含むかどうかを確認することを通
して異質の限定詞に対する名詞句のチェックをするモジ
ュールを示すフローチャートである。
【図17】 主要名詞が固有名詞であるかどうか、もし
そうでなければ、限定詞が存在するかどうかを、そして
数の不一致を報告するためにその限定詞が主要名詞の数
と一致するかどうかを検出することによりその決定が達
成される数の不一致に対する名詞句のチェックをするモ
ジュールを示すフローチャートである。
【図18】 この発明の実施例1に係る改訂されたコー
パスでトレーニングされたトリグラムモデルで、固有名
詞ではないか、または本質的に大文字化されない非大文
字化単語に改訂されたトレーニングコーパスを利用して
名詞が固有名詞であるかどうかを確認するために前処理
モジュールが利用される、語幹(underlyin
g)のスペルを訂正するために固有名詞や他の本質的に
大文字化される単語の認識のためのシステムを示すブロ
ック図である。
【図19】 次の単語/タグペアーを得て、その単語が
大文字化されるかどうか、そして文の最初の単語である
か、または引用符の前半、またはコロンに続くかどうか
を見るために利用される図18のトレーニングコーパス
のタグ付け、またその単語が固有名詞、またはタイトル
としてタグ付けされているかどうか、またはそれが頭文
字語、または代名詞「I」かどうかを見て、それにより
その単語が非大文字化されるかどうかを確認するための
検査をするモジュールを示すフローチャートである。
【図20】 単語が大文字化されるかどうか、それは文
の最初の単語であるか、または引用符の前半、またはコ
ロンに続くか、その単語は頭字語であるか、そしてそう
でなければ、非大文字化された単語を有する文の可能性
が決定されて、それが大文字化された単語を有する文の
可能性を超えるかどうかを見るために解析することによ
り図18で示されたように本質的に大文字化されるかど
うかを決定するための決定プロセスを示すフローチャー
トである。
【図21】 この発明の実施例1に係る単語が文脈で使
用されるときに辞書のどのエントリーがその単語に対応
するか、そしてそれが文脈で使用されるときに辞書のど
のエントリーがその単語に対応しないかを決定するため
に品詞タグ付けモジュールと形態学的解析モジュールと
の両方が利用される、文脈に基づいた辞書へのアクセス
をするモジュールを示すブロック図である。
【符号の説明】
12 キーボード、14 CPU、16 単語処理シス
テム(文法チェックシステム)、18 プリンタ。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 アンドリュー・アール・ゴールディング アメリカ合衆国、マサチューセッツ州、ケ ンブリッジ、ファイブ・フロスト・ストリ ート、アパートメント 1

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 入力文が最初に品詞に関してタグ付けさ
    れる文法チェックシステムにおいて、 訂正すべき前記入力文の候補単語の品詞の可能性を確認
    する確認手段と、 所定しきい値以下である前記可能性に基づいて訂正した
    単語を提示する提示手段とを備えた文法チェックシステ
    ム。
  2. 【請求項2】 前記確認手段は、 前記入力文内の品詞を表すタグで前記入力文内の各単語
    にタグ付けするタグ付け手段を含む請求項1記載の文法
    チェックシステム。
  3. 【請求項3】 前記確認手段は、 前記入力文内の単語の品詞列の訂正の可能性を確認する
    品詞列確認手段を含む請求項1記載の文法チェックシス
    テム。
  4. 【請求項4】 前記品詞列確認手段は、 連続した3つの品詞列を解析する解析手段を含む請求項
    3記載の文法チェックシステム。
  5. 【請求項5】 前記提示手段は、 混同しやすい単語を集めた混同単語リストと、 前記候補単語と前記混同単語リストからの混同単語とを
    含む少なくとも一つ以上の候補文を生成する候補文生成
    手段と、 対応する品詞列の可能性の高さに基づいて前記入力文又
    は前記候補文のいずれかを選択する選択手段とを含む請
    求項3記載の文法チェックシステム。
  6. 【請求項6】 前記選択手段は、 前記入力文と前記候補文の品詞列の可能性の相乗平均に
    基づくものである請求項5記載の文法チェックシステ
    ム。
  7. 【請求項7】 前記混同単語リストは、少なくとも to、too、twoと、 I、meと、 its、it’sと、 then、thanと、 whose、who’sと、 our、areと、 hear、hereと、 past、passedと、 accept、exceptと、 advise、adiceと、 lose、looseと、 write、rightと、 your、you’reと、 affect,effectと、 maybe、may beとを含む請求項5記載の文法
    チェックシステム。
JP7133647A 1994-06-01 1995-05-31 文法チェックシステム Pending JPH07325829A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/252,106 US5537317A (en) 1994-06-01 1994-06-01 System for correcting grammer based parts on speech probability
US08/252106 1994-06-01

Publications (1)

Publication Number Publication Date
JPH07325829A true JPH07325829A (ja) 1995-12-12

Family

ID=22954628

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7133647A Pending JPH07325829A (ja) 1994-06-01 1995-05-31 文法チェックシステム

Country Status (2)

Country Link
US (2) US5537317A (ja)
JP (1) JPH07325829A (ja)

Families Citing this family (191)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5537317A (en) * 1994-06-01 1996-07-16 Mitsubishi Electric Research Laboratories Inc. System for correcting grammer based parts on speech probability
US5999896A (en) * 1996-06-25 1999-12-07 Microsoft Corporation Method and system for identifying and resolving commonly confused words in a natural language parser
US5963893A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Identification of words in Japanese text by a computer system
US5907839A (en) * 1996-07-03 1999-05-25 Yeda Reseach And Development, Co., Ltd. Algorithm for context sensitive spelling correction
US6173298B1 (en) 1996-09-17 2001-01-09 Asap, Ltd. Method and apparatus for implementing a dynamic collocation dictionary
US6119114A (en) * 1996-09-17 2000-09-12 Smadja; Frank Method and apparatus for dynamic relevance ranking
CN1304988C (zh) * 1996-10-16 2007-03-14 夏普公司 字符输入装置
US6137863A (en) * 1996-12-13 2000-10-24 At&T Corp. Statistical database correction of alphanumeric account numbers for speech recognition and touch-tone recognition
US6016467A (en) * 1997-05-27 2000-01-18 Digital Equipment Corporation Method and apparatus for program development using a grammar-sensitive editor
US5926784A (en) * 1997-07-17 1999-07-20 Microsoft Corporation Method and system for natural language parsing using podding
US6219453B1 (en) 1997-08-11 2001-04-17 At&T Corp. Method and apparatus for performing an automatic correction of misrecognized words produced by an optical character recognition technique by using a Hidden Markov Model based algorithm
US6154579A (en) * 1997-08-11 2000-11-28 At&T Corp. Confusion matrix based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique
US6182028B1 (en) * 1997-11-07 2001-01-30 Motorola, Inc. Method, device and system for part-of-speech disambiguation
US6205428B1 (en) 1997-11-20 2001-03-20 At&T Corp. Confusion set-base method and apparatus for pruning a predetermined arrangement of indexed identifiers
US6208965B1 (en) 1997-11-20 2001-03-27 At&T Corp. Method and apparatus for performing a name acquisition based on speech recognition
US6064960A (en) 1997-12-18 2000-05-16 Apple Computer, Inc. Method and apparatus for improved duration modeling of phonemes
US6154722A (en) * 1997-12-18 2000-11-28 Apple Computer, Inc. Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability
US6223158B1 (en) 1998-02-04 2001-04-24 At&T Corporation Statistical option generator for alpha-numeric pre-database speech recognition correction
US6205261B1 (en) * 1998-02-05 2001-03-20 At&T Corp. Confusion set based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique
US6424983B1 (en) 1998-05-26 2002-07-23 Global Information Research And Technologies, Llc Spelling and grammar checking system
US6400805B1 (en) 1998-06-15 2002-06-04 At&T Corp. Statistical database correction of alphanumeric identifiers for speech recognition and touch-tone recognition
US7937260B1 (en) 1998-06-15 2011-05-03 At&T Intellectual Property Ii, L.P. Concise dynamic grammars using N-best selection
US7031925B1 (en) 1998-06-15 2006-04-18 At&T Corp. Method and apparatus for creating customer specific dynamic grammars
US6035269A (en) * 1998-06-23 2000-03-07 Microsoft Corporation Method for detecting stylistic errors and generating replacement strings in a document containing Japanese text
US6401060B1 (en) * 1998-06-25 2002-06-04 Microsoft Corporation Method for typographical detection and replacement in Japanese text
US6167368A (en) * 1998-08-14 2000-12-26 The Trustees Of Columbia University In The City Of New York Method and system for indentifying significant topics of a document
WO2000057320A2 (en) 1999-03-19 2000-09-28 Trados Gmbh Workflow management system
US6618697B1 (en) * 1999-05-14 2003-09-09 Justsystem Corporation Method for rule-based correction of spelling and grammar errors
US7750891B2 (en) * 2003-04-09 2010-07-06 Tegic Communications, Inc. Selective input system based on tracking of motion parameters of an input device
US7286115B2 (en) 2000-05-26 2007-10-23 Tegic Communications, Inc. Directional input system with automatic correction
US7821503B2 (en) 2003-04-09 2010-10-26 Tegic Communications, Inc. Touch screen and graphical user interface
US7030863B2 (en) * 2000-05-26 2006-04-18 America Online, Incorporated Virtual keyboard system with automatic correction
US6405161B1 (en) * 1999-07-26 2002-06-11 Arch Development Corporation Method and apparatus for learning the morphology of a natural language
US20060116865A1 (en) 1999-09-17 2006-06-01 Www.Uniscape.Com E-services translation utilizing machine translation and translation memory
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
DE10032255A1 (de) * 2000-07-03 2002-01-31 Siemens Ag Verfahren zur Sprachanalyse
US20020087604A1 (en) * 2001-01-04 2002-07-04 International Business Machines Corporation Method and system for intelligent spellchecking
US6859771B2 (en) * 2001-04-23 2005-02-22 Microsoft Corporation System and method for identifying base noun phrases
US20020194229A1 (en) * 2001-06-15 2002-12-19 Decime Jerry B. Network-based spell checker
US7003444B2 (en) * 2001-07-12 2006-02-21 Microsoft Corporation Method and apparatus for improved grammar checking using a stochastic parser
US7003445B2 (en) * 2001-07-20 2006-02-21 Microsoft Corporation Statistically driven sentence realizing method and apparatus
JP4947861B2 (ja) * 2001-09-25 2012-06-06 キヤノン株式会社 自然言語処理装置およびその制御方法ならびにプログラム
US7613601B2 (en) * 2001-12-26 2009-11-03 National Institute Of Information And Communications Technology Method for predicting negative example, system for detecting incorrect wording using negative example prediction
US6988063B2 (en) * 2002-02-12 2006-01-17 Sunflare Co., Ltd. System and method for accurate grammar analysis using a part-of-speech tagged (POST) parser and learners' model
US7194684B1 (en) * 2002-04-09 2007-03-20 Google Inc. Method of spell-checking search queries
US7680649B2 (en) * 2002-06-17 2010-03-16 International Business Machines Corporation System, method, program product, and networking use for recognizing words and their parts of speech in one or more natural languages
US20040030540A1 (en) * 2002-08-07 2004-02-12 Joel Ovil Method and apparatus for language processing
DE602004019131D1 (de) * 2003-11-12 2009-03-05 Philips Intellectual Property Vergabe semantischer etiketten an phrasen für die grammatikerzeugung
US7356463B1 (en) * 2003-12-18 2008-04-08 Xerox Corporation System and method for detecting and decoding semantically encoded natural language messages
US7505906B2 (en) * 2004-02-26 2009-03-17 At&T Intellectual Property, Ii System and method for augmenting spoken language understanding by correcting common errors in linguistic performance
US20100262621A1 (en) * 2004-03-05 2010-10-14 Russ Ross In-context exact (ice) matching
US7983896B2 (en) 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching
US7620541B2 (en) * 2004-05-28 2009-11-17 Microsoft Corporation Critiquing clitic pronoun ordering in french
US7640159B2 (en) * 2004-07-22 2009-12-29 Nuance Communications, Inc. System and method of speech recognition for non-native speakers of a language
GB2417103A (en) * 2004-08-11 2006-02-15 Sdl Plc Natural language translation system
US7822597B2 (en) * 2004-12-21 2010-10-26 Xerox Corporation Bi-dimensional rewriting rules for natural language processing
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
JP3986531B2 (ja) * 2005-09-21 2007-10-03 沖電気工業株式会社 形態素解析装置及び形態素解析プログラム
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8521506B2 (en) 2006-09-21 2013-08-27 Sdl Plc Computer-implemented method, computer software and apparatus for use in a translation system
US8225203B2 (en) * 2007-02-01 2012-07-17 Nuance Communications, Inc. Spell-check for a keyboard system with automatic correction
US8201087B2 (en) * 2007-02-01 2012-06-12 Tegic Communications, Inc. Spell-check for a keyboard system with automatic correction
US20080208566A1 (en) * 2007-02-23 2008-08-28 Microsoft Corporation Automated word-form transformation and part of speech tag assignment
US7991609B2 (en) * 2007-02-28 2011-08-02 Microsoft Corporation Web-based proofing and usage guidance
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
JP2010055235A (ja) * 2008-08-27 2010-03-11 Fujitsu Ltd 翻訳支援プログラム、及び該システム
US20100114887A1 (en) * 2008-10-17 2010-05-06 Google Inc. Textual Disambiguation Using Social Connections
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
GB2468278A (en) * 2009-03-02 2010-09-08 Sdl Plc Computer assisted natural language translation outputs selectable target text associated in bilingual corpus with input target text from partial translation
US9262403B2 (en) * 2009-03-02 2016-02-16 Sdl Plc Dynamic generation of auto-suggest dictionary for natural language translation
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8515734B2 (en) * 2010-02-08 2013-08-20 Adacel Systems, Inc. Integrated language model, related systems and methods
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9384678B2 (en) * 2010-04-14 2016-07-05 Thinkmap, Inc. System and method for generating questions and multiple choice answers to adaptively aid in word comprehension
US9262397B2 (en) 2010-10-08 2016-02-16 Microsoft Technology Licensing, Llc General purpose correction of grammatical and word usage errors
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9128929B2 (en) 2011-01-14 2015-09-08 Sdl Language Technologies Systems and methods for automatically estimating a translation time including preparation time in addition to the translation itself
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9235566B2 (en) 2011-03-30 2016-01-12 Thinkmap, Inc. System and method for enhanced lookup in an online dictionary
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8855997B2 (en) * 2011-07-28 2014-10-07 Microsoft Corporation Linguistic error detection
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9514109B2 (en) * 2012-01-12 2016-12-06 Educational Testing Service Computer-implemented systems and methods for scoring of spoken responses based on part of speech patterns
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8612213B1 (en) * 2012-10-16 2013-12-17 Google Inc. Correction of errors in character strings that include a word delimiter
US8713433B1 (en) 2012-10-16 2014-04-29 Google Inc. Feature-based autocorrection
DE212014000045U1 (de) 2013-02-07 2015-09-24 Apple Inc. Sprach-Trigger für einen digitalen Assistenten
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
JP6259911B2 (ja) 2013-06-09 2018-01-10 アップル インコーポレイテッド デジタルアシスタントの2つ以上のインスタンスにわたる会話持続を可能にするための機器、方法、及びグラフィカルユーザインタフェース
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101809808B1 (ko) 2013-06-13 2017-12-15 애플 인크. 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
KR20150086086A (ko) * 2014-01-17 2015-07-27 삼성전자주식회사 서버 및 이의 음성 인식 결과에 대한 오류 수정 방법
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
KR102167719B1 (ko) 2014-12-08 2020-10-19 삼성전자주식회사 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10769962B1 (en) * 2015-05-04 2020-09-08 Educational Testing Service Systems and methods for generating a personalization score for a constructed response
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
US10740555B2 (en) * 2017-12-07 2020-08-11 International Business Machines Corporation Deep learning approach to grammatical correction for incomplete parses
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
CN108763202B (zh) * 2018-05-18 2022-05-17 广州腾讯科技有限公司 识别敏感文本的方法、装置、设备及可读存储介质
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation
CN111522863B (zh) * 2020-04-15 2023-07-25 北京百度网讯科技有限公司 一种主题概念挖掘方法、装置、设备以及存储介质

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4674065A (en) * 1982-04-30 1987-06-16 International Business Machines Corporation System for detecting and correcting contextual errors in a text processing system
JPS60136866A (ja) * 1983-12-26 1985-07-20 Ricoh Co Ltd 文字推定装置
JPS6140672A (ja) * 1984-07-31 1986-02-26 Hitachi Ltd 多品詞解消処理方式
US4887212A (en) * 1986-10-29 1989-12-12 International Business Machines Corporation Parser for natural language text
US4868750A (en) * 1987-10-07 1989-09-19 Houghton Mifflin Company Collocational grammar system
US4864502A (en) * 1987-10-07 1989-09-05 Houghton Mifflin Company Sentence analyzer
US4847766A (en) * 1988-01-05 1989-07-11 Smith Corona Corporation Dictionary typewriter with correction of commonly confused words
US5146405A (en) * 1988-02-05 1992-09-08 At&T Bell Laboratories Methods for part-of-speech determination and usage
US4994966A (en) * 1988-03-31 1991-02-19 Emerson & Stern Associates, Inc. System and method for natural language parsing by initiating processing prior to entry of complete sentences
JPH0251772A (ja) * 1988-08-15 1990-02-21 Nec Corp 品詞のあいまい性除去装置
US5258909A (en) * 1989-08-31 1993-11-02 International Business Machines Corporation Method and apparatus for "wrong word" spelling error detection and correction
JP3059504B2 (ja) * 1991-03-08 2000-07-04 富士通株式会社 品詞選択システム
JPH0512327A (ja) * 1991-07-03 1993-01-22 Ricoh Co Ltd 形態素解析装置
US5297040A (en) * 1991-10-23 1994-03-22 Franklin T. Hu Molecular natural language processing system
JPH06168242A (ja) * 1992-11-30 1994-06-14 Matsushita Electric Ind Co Ltd 綴り誤り訂正方法および綴り誤り訂正装置
JPH06187370A (ja) * 1992-12-17 1994-07-08 Matsushita Electric Ind Co Ltd 文書読解支援装置
US5537317A (en) * 1994-06-01 1996-07-16 Mitsubishi Electric Research Laboratories Inc. System for correcting grammer based parts on speech probability

Also Published As

Publication number Publication date
US5799269A (en) 1998-08-25
US5537317A (en) 1996-07-16

Similar Documents

Publication Publication Date Title
JPH07325829A (ja) 文法チェックシステム
US5485372A (en) System for underlying spelling recovery
US5521816A (en) Word inflection correction system
US5477448A (en) System for correcting improper determiners
US5535121A (en) System for correcting auxiliary verb sequences
US5845306A (en) Context based system for accessing dictionary entries
US6424983B1 (en) Spelling and grammar checking system
KR102268875B1 (ko) 전자 장치에 텍스트를 입력하는 시스템 및 방법
US5812863A (en) Apparatus for correcting misspelling and incorrect usage of word
US7447627B2 (en) Compound word breaker and spell checker
US7680649B2 (en) System, method, program product, and networking use for recognizing words and their parts of speech in one or more natural languages
US20100332217A1 (en) Method for text improvement via linguistic abstractions
JP2010505208A (ja) タイピング効率向上のためのタイピング候補の生成方法
EP1875462A2 (en) Method and system for generating spelling suggestions
JPH05314166A (ja) 電子化辞書および辞書検索装置
Gakis et al. Design and construction of the Greek grammar checker
Abdulrahman et al. A language model for spell checking of educational texts in kurdish (sorani)
JP4278090B2 (ja) 単語の使用を訂正または改善させる装置および方法、コンピュータプログラム、並びに格納媒体
US7620541B2 (en) Critiquing clitic pronoun ordering in french
Nwesri Effective retrieval techniques for Arabic text
US20020087604A1 (en) Method and system for intelligent spellchecking
Hsieh et al. Correcting Chinese spelling errors with word lattice decoding
Naseem A hybrid approach for Urdu spell checking
JPH07325825A (ja) 英文法チェックシステム装置
JP3285149B2 (ja) 外国語電子辞書検索方法及び装置