JPH079655B2 - スペルの誤りの検出訂正方法及び装置 - Google Patents

スペルの誤りの検出訂正方法及び装置

Info

Publication number
JPH079655B2
JPH079655B2 JP2215111A JP21511190A JPH079655B2 JP H079655 B2 JPH079655 B2 JP H079655B2 JP 2215111 A JP2215111 A JP 2215111A JP 21511190 A JP21511190 A JP 21511190A JP H079655 B2 JPH079655 B2 JP H079655B2
Authority
JP
Japan
Prior art keywords
word
information signal
words
tentative
detecting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2215111A
Other languages
English (en)
Other versions
JPH0398158A (ja
Inventor
フレデリツク・ジエイ・ダメロー
エリツク・ケイ・メイズ
ロバート・エル・マーサー
Original Assignee
インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン filed Critical インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン
Publication of JPH0398158A publication Critical patent/JPH0398158A/ja
Publication of JPH079655B2 publication Critical patent/JPH079655B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Description

【発明の詳細な説明】 A.産業上の利用分野 本発明は情報信号中のエラーを検出し、且つ訂正する方
法及び装置、より詳細に言えば、語の綴りの誤り、即ち
スペルのエラーを検出し、且つ訂正する方法及び装置に
関する。 B.従来の技術 ワード・プロセツサなどの文章(テキスト)専用の処理
装置や、汎用デイジタル・コンピユータを動作させるワ
ード・プロセツシング・プログラムにおいて、ワードの
スペルの誤りを自動的に検出し、且つ訂正することが望
まれている。ほとんどのスペルの誤りを検出する装置及
びプログラムは、スペルの辞書、即ちスペリング・デイ
クシヨナリ中の記入項目と比較して文章中の各ワードを
チエツクする。スペリング・デイクシヨナリ中にない文
章中のワードは、誤つて綴られたワード、即ちミス・ス
ペルされたワードに見做される。ミス・スペル・ワード
は、例えば、表示装置に示されたミス・スペル・ワード
の輝度を増加し、文章を作成しているオペレータによつ
て識別される。また、或る場合には、ミス・スペル・ワ
ードに類似したスペルを持つ候補のワードを、訂正すべ
き正しいワードの提案としてオペレータに対して表示さ
れる。 スペルの誤りを検出し、且つ訂正するための従来の装置
及び方法は幾つかの問題を持つている。最も重要な問題
点としては、従来の装置及び方法が誤つたスペル、また
は「誤用ワード(wrong word)」を検出出来ないことで
ある(誤用ワードとは、誤つたスペルそれ自体はスペリ
ング・デイクシヨナリ中に存在するけれども、そのワー
ドは意図されたワードではない場合を言う)。 更に、誤つたスペルがスペリング・デイクシヨナリ中に
無い場合でも、従来の装置及び方法は、正しいスペルの
ための代替え用のワード、即ち候補のワードをランク付
けする手段を全く持たないか、または語の代替に関して
限られた機能の手段しか持つていない。 C.発明が解決しようとする課題 本発明の目的は、情報信号が誤つた情報を表わしている
場合に、情報信号中のエラーを検出し、且つ訂正する方
法及び装置を提供することにある。情報信号がワードを
表わしており、誤つて綴られたワードがスペリング・デ
イクシヨナリ中に正しく記入されているが、意図された
ワードではない場合に、本発明は誤つたスペルを検出
し、且つ訂正するための方法及び装置を提供する。 本発明の他の目的は、スペルがチエツクされているワー
ドの発生の確率を見積り、且つチエツクされているワー
ドと代替えする候補ワードとして、1つ、またはそれ以
上の代替ワードの確率を見積るための方法及び装置を提
供することにある。 D.課題を解決するための手段 本発明に従つたエラー検出方法及び訂正方法において、
ワードの入力ストリングWiが与えられる。入力ストリン
グの中の第1のワードW1のスペルはワードの候補ストリ
ングWcを形成するために、第1のワードW1とは異なつた
第2のワードW2を形成するように変更される。ワードの
入力ストリングの発生の確率P(Wi)と、ワードの候補
ストリングの発生の確率P(Wc)とが見積られる。ま
た、ワードの入力ストリングWiとして、ワードの候補ス
トリングWcを誤つて表わす確率P(Wi|Wc)も見積られ
る。その後、P(Wi)は積P(Wc)P(Wi|Wc)と比較
される。若し、P(Wi)が積P(Wc)P(Wi|Wc)より
も大きければ、第1の出力が発生される。若しそうでな
ければ、第2の出力が発生される。 本発明の1つの実施例においては、第1の出力はワード
の入力ストリングを含んでおり、第2の出力はワードの
候補ストリングを含んでいる。他の実施例においては、
第2の出力はエラー表示を含んでいる。 ワードの入力ストリングとしてワードの候補ストリング
を誤つて表示する確率P(Wi|Wc)は、第1のワードW1
として第2のワードW2を誤つて表示する確率P(W1
W2)として見積られる。 本発明に従つたエラーの検出及び訂正方法と、装置にお
いて、入力ストリング及び候補ストリング中の各ワード
は正しくスペルされたワードの複数個の組である。 本発明の方法及び装置は、ワードの入力ストリングWi
のすべてのワードを正しくスペルする確率P(Wi|Wi
が見積られるステツプを含んでいるのが望ましい。この
場合、積P(Wi)P(Wi|Wi)は積P(Wc)P(Wi
Wc)と比較される。若し、P(Wi)P(Wi|Wi)がP
(Wc)P(Wi|Wc)よりも大きければ、第1の出力が発
生され、そうでなければ、第2の出力が発生される。 入力ストリング中のすべてのワードを正しくスペルする
確率P(Wi|Wi)は第1のワードW1を正しくスペルする
確率P(W1|W1)として見積ることが出来る。 本発明の1つの実施例によると、第1のワードW1は試案
的なワードを形成するために、第1のワード中の1つ、
またはそれ以上の文字を加え、または、削除し、または
並べ換え、または置換することによつて第2のワードW2
を形成するように変更される。試案的なワードはワード
の組の各ワードと比較される。若し、試案的なワードが
正しくスペルされたワードの組中の1つのワードと一致
すれば、試案的なワードが第2のワードW2として用いら
れる。 他の実施例において、第1のワードのスペルは正しくス
ペルされたワードの組中のM個の異なつたワードの混同
したグループを識別することによつて第2のワードを形
成するために変更される。混同したグループ中の各ワー
ドは、例えば、2つの文字だけ、第1のワードとは異な
つたスペルを持つている。他の場合として、混同したグ
ループ中の各ワードは第1のワードと混同され得る1つ
である。混同したグループの少なくとも1つのワードは
第2のワードW2として選択される。 本発明の方法または装置に従つて1つのワードを正しく
スペルする確率を見積つた結果得られた値は0.999であ
つた。M個のスペルの誤りを持つ時、1つのワードをミ
ス・スペルする確率は0.001/Mであると見積られてい
る。 本発明に従つたスペルの誤りの検出及び訂正方法及び装
置は、チエツクされているワードの発生の確率と、1
つ、またはそれ以上のスペルを訂正する候補の発生の確
率とを比較することによつて、誤用されたワードのスペ
ルを検出し、訂正することが可能であると言う利点を持
つている。 E.実施例 情報信号中のエラーを検出し且つ訂正するための本発明
の実施例を以下に説明する。各情報信号が、正しくスペ
ルされているワードの複数個の組である1つのワードを
表わしている場合において、本発明はスペルの誤りを検
出し且つ訂正する方法を与える。 第1図を参照すると、スペルの誤りの検出及び訂正方法
は、ワードの入力ストリングWiを与えるステツプで開始
することが判る。入力ストリング中の各ワードはスペル
を持つている。 次に、入力ストリング中の第1のワードW1のスペルは、
候補ワードのストリングWcを形成するために、第1のワ
ードとは異なつた第2のワードW2を形成するよう変更さ
れる。 第1図において、入力ストリング及び候補ストリングの
各々は3つのワードを含んでいる。本発明に従つて、入
力ストリング及び候補ストリングは2つのワードか、ま
たは2つのワードよりも大きい任意の長さである。例え
ば、各ストリングはセンテンス(文)、またはフレーズ
(節)であつてよい。 次に、ワードの入力ストリングの発生の確率P(Wi
と、ワードの候補ストリングの発生の確率P(Wc)とが
見積られる。これらの確率は、以下に詳しく説明するよ
うに、文章の大きなボデイを検査することによつて経験
的に見積られる。 また、ワードの入力ストリングWiとして、ワードの候補
ストリングWcを誤つて表示する確率P(Wi|Wc)が見積
られる。確率P(Wi|Wc)は、以下に示す例で説明され
るように、満足する結果が得られるまで、異なつた値を
選択することによつて経験的に選ばれる。 必要な確率が見積られた後、P(Wi)は確率の積P
(Wc)P(Wi|Wc)と比較される。若しP(Wi)がP
(Wc)P(Wi|Wc)と等しいか、またはそれよりも大き
ければ、第1の出力が発生される。それ以外の場合は第
2の出力が発生される。 第1図に示したように、第1の出力は入力ストリングW1
WMWNである。第2の出力は候補ストリングW2WMWNであ
る。 上述の代りに、第2の出力はエラー表示であつてよい。 本発明に従つたスペルの誤りの検出方法及び訂正方法の
2つの実施例が第2図及び第3図に示されている。第2
図を参照すると、入力ストリングは3つのワード、「th
e horse ran」のストリングである。ワードの入力スト
リング中の各ワードは正しくスペルされた1組のワード
の1つの要素である。第1のワードW1は「horse」であ
る。 次に、第1のワード「horse」は第2のワードW2「hous
e」を形成するために変更される。従つて、ワードの候
補ストリングWcは「the house ran」である。第2のワ
ード「house」もまた、正しくスペルされたワードの組
の1つの要素である。 ワードの入力ストリング「the horse ran」の発生の確
率P(Wi)は5×10-5であると見積られている。ワード
の候補ストリング「the house ran」の発生の確率P(W
c)は1×10-8であると見積られている。これらの確率
は本発明の動作を説明する目的のための単なる仮説であ
るけれども、この仮説的な数値は、「the horse ran」
の発生の確率が「the house ran」の発生の確率よりも
遥かに大きいことを示している。 本発明の方法に従つて、ワードの入力ストリングとして
ワードの候補ストリングを誤つて表示する確率P(Wi
Wc)は第1のワードW1として第2のワードW2を誤つて綴
る確率P(W1|W2)に等しいものと見積られている。実
験によると、0.001の見積が満足な結果を生じるものと
決められている。 最後に、P(Wi)が積、P(Wc)P(Wi|Wc)と比較さ
れる。前者の値(5×10-5)は後者の値(1×10-11
よりも大きいから、ワードの入力ストリングは正しいも
のとして決定され、そしてワードの候補ストリングは排
除される。従つて、出力は「the horse ran」である。 第3図は入力ストリングが「the house ran」である場
合において、本発明の検出方法及び訂正方法の動作を説
明するための図である。この場合、第1のワードW1
「house」であり、第2のワードW2が「horse」である。
第2図において見積つた値と同じ確率を使用することに
よつて、入力ストリングの確率(1×10-8)は、入力ス
トリングとして候補ストリングを誤つて表示する確率
と、候補ストリングの確率との積(5×10-8)よりも小
さい。従つて、入力ストリングは除去され、候補ストリ
ングが正しいものとして決定される。出力は「the hors
e ran」にセツトされる。 本発明に従つたスペルの誤りの検出方法及び訂正方法は
以下の理論に基づいている。ワードWcの各候補ストリン
グに対して(例えば各候補のセンテンスに対して)、オ
リジナルのセンテンスWi(ワードの入力ストリング)が
タイプされた通りに候補のセンテンスが実際に意図され
たように与えられる確率は次式で与えられる。 この数式において、P(Wi|Wc)は、ワードの入力スト
リングWiとしてワードの候補ストリングWcを誤つて表わ
す確率である。 オリジナルのセンテンスWiが実際に意図した通りにタイ
プされる確率P(Wi|Wi)(即ち、オリジナルのセンテ
ンスWi中のすべてのワードを正しくスペルする(綴る)
確率が、P(Wc|Wi)に対して比較される。単純化する
ために、比較の両側はP(Wi)により乗算されるので、
積、P(Wi)P(Wi|Wi)が積、P(Wc)P(Wi|Wc
と比較される。より高い確率を持つセンテンスが実際に
意図されたセンテンスとして選択される。 比較を更に単純化するために、オリジナルのセンテンス
が実際に意図された通りにタイプされる確率P(Wi
Wi)は1に等しいと仮定することができる。 ワードの入力ストリングの発生の確率P(Wi)と、ワー
ドの候補ストリングの発生の確率P(Wc)とは、各スト
リング中のすべてのn−グラムに対するn−グラムの確
率の積によつて近似させることが出来る。つまり、各ワ
ードに先行するn−1個のワード(またはワードの欠
如)の発生が与えられれば、ワードのストリングの確率
は、ストリング中の各ワードの条件付き確率の積によつ
て近似させることが出来ると言うことである。例えば、
若し、n=3とすれば、各トライグラム(trigram)の
確率は、トライグラム中の最初の2個のワードの発生が
与えられれば、トライグラムの第3のワードの発生の確
率を表わす。 条件付き確率は文章の大きなボデイを検査することによ
つて経験的に決定される。例えば、ストリングWxWyの発
生が与えられたとして、ワードWzの条件付き確率(Wz
|WxWy)は次式から見積ることが出来る。 (Wz|WxWy)=λf1(Wz|WxWy)+λf2(Wz
Wy)+λf3(Wz)+λf4 (2) 上式において、 λ+λ+λ+λ=1 (7) である。 等式(3)乃至(6)において、カウントnxyzはトレー
ニング文章の大きなボデイ中のトライグラムWxWyWxの発
生度数である。nxyはトレーニング文章中のバイグラム
(bigram)WxWyの発生度数である。同様に、nyzはトレ
ーニング文章中のバイグラムWyWzの発生度数であり、ny
はワードWyの発生度数であり、nzはワードWzの発生度数
であり、nはトレーニング文章中のワードの合計の数で
ある。等式(2)及び(7)中の係数λ、λ、λ
及びλの値は、バール(R.bahl)等、「連続的なスピ
ーチ認識に対する最大尤度のアプローチ」(A Maximum
Likelihood Approach to Continuous Speech Recogniti
on)、パターン分析及び機械のインテリジエンスに関す
るIEEE会報)IEEE Transactions on Pattern Analysis
and Machine Intelligence)、1983年3月、第PAMI−5
巻第2号、179頁乃至190頁に記載されている削除補間法
によつて見積ることが出来る。 P(Wi)P(Wi|Wi)とP(Wc)P(Wi|Wc)との比較
において、確率P(Wi|Wc)はオリジナルにタイプされ
たセンテンス中の対応するワードとして候補センテンス
中の各ワードをミス表示する確率の積によつて近似され
る。オリジナルにタイプされたセンテンスと候補のセン
テンスとがただ1ワード(オリジナルのセンテンス中の
ワードW1と候補のセンテンス中のワードW2)だけ相異す
る場合、その確率P(Wi|Wc)は第1のワードとして第
2のワードをミス・スペルする確率P(W1|W2)に等し
いものとして見積ることが出来る。 任意に与えられたワードの確率は例えば0.001よりも低
い値を持つと見積るのが良い。この値は満足すべき結果
を生じた実験により決定されたものである。ミス・スペ
ルの確率を増加することによつて、本発明は、より多く
のミス・スペルを発見するであろうし、ミス・スペル確
率を減少することによつて、本発明は、より発見される
ミス・スペルは、より少なくなる。オリジナルにタイプ
されたセンテンス中のワードW1がM個のミス・スペルを
持つている時、各ミス・スペルの確率はこの例において
0.001/Mになる。 若し、オリジナルにタイプされたセンテンス中のすべて
のワードの確率P(Wi|Wi)が1と見積られなければ、
それは、オリジナルにタイプされたセンテンス中に正し
くスペルされた各ワードの積によつて近似させることが
出来る。オリジナルにタイプされたセンテンスと候補の
センテンスとが1ワードだけ異なつている場合、確率P
(Wi|Wi)は第1のワードを正しくスペルした確率P
(W1|W1)として見積られる。 第4図は第1のワードW1のスペルを第2のワードW2に変
更するのに用いられるサブルーチンを示す。先ず、第1
のワードの中の1つ、またはそれ以上の文字が試案的な
ワードWTを形成するように変更される。例えば、第1の
ワードに或る文字を加えるか、第1のワードから或る文
字を削除するか、または第1のワードの中の2つの文字
を並べ換える(transpose)かすることによつて変更が
行われる。 次に、試案的なワードWTが1組のワード(スペリング・
デイクシヨナリ)L中の各ワードと比較される。若し、
試案的なワードWTがスペリング・デイクシヨナリL中の
ワードと一致したならば、第2のW2が試案的なワードと
等しくセツトされる。 第5図はワードのスペルを変更するための他のサブルー
チンを示す。このルーチンにおいて、スペリング・デイ
クシヨナリ中の各ワードは、M個の異なつたワードを含
む混同したワードのグループLcが与えられる。例えば、
混同したワードのグループ中の各ワードは、第1のワー
ドW1のスペルとは、2文字しか違つていないスペルを持
つている。その他に、混同したワードのグループ中の各
ワードは、第1の音と似ているために第1のワードと混
同され勝ちなワード(例えば、「to」、「two」と「to
o」、或は「principle」と「principal」など)であ
る。各候補センテンスに対して、1ワードが第2のワー
ドW2として混同したワードのグループLcから選択され
る。 第6図は第1図のスペルの誤りの検出方法及び訂正方法
を示す。第6図に示したステツプは第1図のブロツク中
のステツプを置き換えることを意図したものである。 この修正に従うと、この方法はワードWiの入力ストリン
グ中のワードのすべてを正しくスペルする確率P(Wi
Wi)を見積るステツプが含まれている。積P(Wi)P
(Wi|Wi)は積P(Wc)P(Wi|Wc)と比較される。若
し、前者が後者よりも大きいか、または等しければ第1
の出力(例えば、入力ストリング)は発生される。若
し、前者が後者よりも小さければ、第2の出力(例え
ば、候補のストリング)が発生される。 例えば、各情報信号がスペルを持つワードを表示する場
合、情報信号中のエラーを検出し且つ訂正する装置は、
プログラムされた汎用デイジタル・コンピユータの形式
のものが好ましい。第7図はそのような装置の構成の例
を示している。 第7図に示されたように、ワードの処理装置10は情報信
号の入力ストリングWiを与える。各情報信号はワードの
ような情報を表わす。ワードを処理する装置10は装置の
他の機能も遂行する中央処理装置12の中で実行されるプ
ログラムであることが望ましい。然しながら、ワードを
処理する装置10はそれ自身の中央処理装置で実行しても
よい。 プログラム・インストラクシヨン記憶装置14中のプログ
ラム・インストラクシヨンの管理の下で、中央処理装置
12は、第1の情報信号によつて現わされる情報とは異な
つた情報を表わす第2の情報W2を形成するために、入力
ストリングWi中の第1の情報信号W1を変更する。この変
更は情報信号Wcの候補ストリングを形成する。プログラ
ム・インストラクシヨンの管理の下で、中央処理装置12
は、第2の情報信号がスペリング・デイクシヨナリ中の
エントリであることを確めるために、情報信号W2とスペ
リング・デイクシヨナリ記憶装置16とを比較する。 入力及び候補ストリングを発生させ、中央処理装置12
は、ワード・ストリング確率記憶装置18からの入力及び
候補ストリングの発生の確率の見積を検索するようイン
ストラクシヨンを受ける。情報信号の入力ストリングと
して情報信号の候補ストリングによつて表わされた情報
を誤つて示す確率P(Wi|Wc)は記憶装置20から検索さ
れる。最後に、中央処理装置12はP(Wi)とP(Wc)P
(Wi|Wc)とを比較する。第1の出力信号は、若し、前
者が後者よりも大きいか、または等しいならば、例えば
表示装置22に送られる。若し、前者が後者よりも小さけ
れば、第2の出力信号が表示装置22に送られる。 本発明に従つたスペルの誤りの検出及び訂正方法及びそ
の装置は、48個のセンテンスから組織的にミス・スペル
された3044個のセンテンスの入力テストが行われた。48
個のセンテンスは、アソシエーテツト・プレス・ニユー
ス・ワイヤ社(Associated Press News Wire)からと、
カナダの議会の議事録から選ばれた。トライグラムの条
件付き確率は、主として事務担当部門の通信文で構成さ
れた文章の大量の集成から得られた。0.999の確率P(W
i|Wi)を用いて、この方法は78%の変更されたセンテ
ンスを選択した。これらのセンテンスのうち97%のセン
テンスが変更された。 上述のテストから選択した幾つかの例を以下に説明す
る。 第1の例 この例において、入力のワード・ストリング(オリジナ
ルにタイプされたセンテンス)は「Isubmit that is wh
at is happening in this case.」である。チエツクさ
れたワードW1は「I」である。ワード「I」は「a」と
いう単純な誤りだけしか持つていない。従つて、第2の
ワードW2は「a」であり、そして候補のワード・ストリ
ングWc(候補のセンテンス)は「a submit that is wha
t is happening in this case」である。 別表として末尾に掲げた第1表は入力及び候補のセンテ
ンスと、各センテンスを作るトライグラムと、各トライ
グラムの条件付き確率の自然対数である。各ワードを正
しく綴る確率PtをPt=0.9999、Pt=0.999、Pt=0.99、
またはPt=0.9の4つの異なつた値の下で実験が遂行さ
れた。 確率の対数(基数e)は第1表から見積られるから、こ
の対数は確率の積の見積りの積に加算される。 第2表は第1表から得られた合計を示す。Ptのすべての
値に対して、オリジナルのセンテンスWiは代替の候補セ
ンテンスWcを越えて選択されている。 第2の例 この例において、入力のワード・ストリングWiは「I su
bmit that is what is happening in this case.」であ
る。スペルがチエツクされた第1のワードW1は「submi
t」である。ワード「submit」は2つの単純なミス・ス
ペル「summit」または「submits」である。この例にお
いて、第2のワードW2は「summit」であるように選択さ
れている。従つて、候補ワードのストリングWc(候補の
センテンス) は「I summit that is what is happening in this cas
e.」である。 第3表は確率の対数であり、第4表は第3表の合計を与
えている。再度、Ptの各値に対してオリジナルのセンテ
ンスは候補のセンテンスを越えて選択されている。 第3の例 この例において、入力のワード・ストリングWi(オリジ
ナルとしてタイプされたセンテンス)は今度は、「a su
bmit that is what is happening in this case.」であ
る。スペルがチエツクされているワードの第1のワード
W1は「a」である。このワード「a」は以下に示す10個
の単純なミス・スペルを持つている。即ち、それらは
「I」、「at」、「as」、「an」、「am」、「ad」、
「ab」、「pa」、「or」、及び「ha」である。 第2のワードW2は「I」であると選択される。従つて、
候補ストリングは「I submit that is what is happeni
ng in this case.」である。 個々の確率の対数は第5表に示されている。Mを整数10
として、確率P(W1|W2)はPt/Mに等しいことは注意を
要する。 第6表は第5表からの合計を与えている。Ptのすべての
値に対して、Pt=0.9の時を除いて、オリジナルのセン
テンスが候補のセンテンスを越えて選択されている。Pt
=0.9の時、候補のセンテンスがオリジナルのセンテン
スを越えて選ばれている。 第4の例 この例において、入力のワード・ストリングWiは「I su
mmit that is what is happening in this case.」であ
る。スペルがチエツクされているワードの第1のワード
W1は「summit」である。このワード「summit」は「subm
it」または「summit」の2個の単純なミス・スペルを持
つている。 第2のワードW2は「submit」であると選択される。従つ
て、候補ストリングWcは「I submit that is what is h
appening in this case.」である。 第7表はトライグラムの見積られた確率の対数と、各ワ
ードを正しくスペルされた場合の確率と、または誤つて
スペルされた場合の確率とを示している。M=2だか
ら、確率P(W1|W2)=Pt/2である。 第8表は第7表からの合計を与えている。候補のセンテ
ンスがオリジナルとしてタイプされたセンテンスを越え
て選択されている。従つて、すべての場合にわたつて訂
正が行われている。 F.発明の効果 本発明は、スペルがチエツクされているワードの発生の
確率を見積り、且つチエツクされているワードと代替え
する候補ワードとして、1つ、またはそれ以上の代替ワ
ードの確率を見積るための方法及び装置を与える。ま
た、本発明に従つたスペルの誤りの検出及び訂正方法及
び装置は、チエツクされているワードの発生の確率と、
1つ、またはそれ以上のスペルを訂正する候補の発生の
確率とを比較することによつて、誤用されたワードのス
ペルを検出し、訂正することが可能であると言う利点を
持つている。
【図面の簡単な説明】 第1図は本発明に従つたスペルの誤りの検出及び訂正方
法の実施例を示すブロツク図、第2図は第1図の実施例
を説明するための具体例を示すブロツク図、第3図は第
1図の実施例を説明するための他の具体例を示すブロツ
ク図、第4図は本発明のスペルの誤りを検出し、訂正す
る方法及び装置において、第2のワードを形成するため
に第1のワードのスペルを変更するルーチンを示す1実
施例の図、第5図は第2のワードを形成するために、第
1のワードのスペルを変更するための方法の1実施例を
示すブロツク図、第6図は第1図に示したスペルの誤り
の検出及び訂正方法の他の実施例を示すブロツク図、第
7図は情報中のエラーを検出し、訂正するための装置の
実施例を示すブロツク図である。 10……ワード・プロセツサ、12……中央処理装置、14…
…プログラム・インストラクシヨン記憶装置、16……ス
ペリング・デイクシヨナリ記憶装置、18……ワード・ス
トリング確率記憶装置、20……P(Wi|Wc)記憶装置、
22……表示装置。

Claims (1)

  1. 【特許請求の範囲】 【請求項1】各ワードがスペルを持つワードの入力スト
    リングWiを与えることと、 ワードの候補ストリングWcを形成するために、第1のワ
    ードW1とは異なつた第2のワードW2を形成するように入
    力ストリング中の第1のワードW1のスペルを変更するこ
    とと、 ワードの入力ストリングの発生の確率P(Wi)を見積る
    ことと、 ワードの候補ストリングの発生の確率P(Wc)を見積る
    ことと、 ワードの入力ストリングWiとしてワードの候補ストリン
    グWcを誤つて表示する確率P(Wi|Wc)を見積ること
    と、 P(Wi)と、積P(Wc)P(Wi|Wc)とを比較すること
    と、 若し、P(Wi)がP(Wc)P(Wi|Wc)よりも大きけれ
    ば、第1の出力を発生し、若し、P(Wi)がP(Wc)P
    (Wi|Wc)よりも小さければ、第2の出力を発生するこ
    とと からなるスペルの誤りの検出訂正方法。 【請求項2】請求項(1)に記載のスペルの誤りの検出
    訂正方法において、 第1の出力はワードの入力ストリングを含むことと、 第2の出力はワードの候補ストリングを含むことと、 確率P(Wi|Wc)は第1のワードWiとして第2のワード
    W2をミス・スペルする確率P(W1|W2)として見積るこ
    とと を含むことを特徴とするスペルの誤りの検出訂正方法。 【請求項3】請求項(2)に記載のスペルの誤りの検出
    訂正方法において、 各ワードがスペルを持つワードの組を与えることと、 ワードの入力ストリング中の各ワードは複数個のワード
    の組であることと、 第2のワードW2は複数個のワードの組であることと を含むスペルの誤りの検出訂正方法。 【請求項4】請求項(3)に記載のスペルの誤りの検出
    訂正方法において、 ワードの入力ストリングWi中のすべてのワードを正しく
    スペルする確率P(Wi|Wi)を見積ることと、 積P(Wi)P(Wi|Wi)と積P(Wc)P(Wi|Wc)とを
    比較することと、 若し、P(Wi)P(Wi|Wi)がP(Wc)P(Wi|Wc)よ
    りも大きければ、第1の出力を出力し、そして、若し、
    P(Wi)P(Wi|Wi)がP(Wc)P(Wi|Wc)よりも小
    さければ、第2の出力を発生することと を含むことを特徴とするスペルの誤りの検出訂正方法。 【請求項5】請求項(4)に記載のスペルの誤りの検出
    訂正方法において、 確率P(Wi|Wi)が第1のワードを正しくスペルする確
    率P(W1|W1)として見積られることを特徴とするスペ
    ルの誤りの検出訂正方法。 【請求項6】請求項(5)に記載のスペルの誤りの検出
    訂正方法において、 第2のワードW2を形成するために、第1のワードW1のス
    ペルを変更するステツプが、 試案的なワードを形成するために、第1のワードに1つ
    の文字を付加することと、 試案的なワードとワードの組の中の各ワードとを比較す
    ることと、 若し、試案的なワードがワードの組のワードと一致した
    ならば、第2のワードW2として、試案的なワードを使用
    することと を含むことを特徴とするスペルの誤りの検出訂正方法。 【請求項7】請求項(5)に記載のスペルの誤りの検出
    訂正方法において、 第2のワードW2を形成するために、第1のワードW1のス
    ペルを変更するステツプが、 試案的なワードを形成するために、第1のワードから1
    つの文字を削除することと、 試案的なワードとワードの組の各ワードとを比較するこ
    とと、 若し、試案的なワードがワードの組のワードと一致した
    ならば、第2のワードとして、試案的なワードを使用す
    ることと を含むことを特徴とするスペルの誤りの検出訂正方法。 【請求項8】第1のワードが少なくとも2つの文字を含
    む請求項(5)に記載のスペルの誤りの検出訂正方法に
    おいて、 第2のワードW2を形成するために、第1のワードW1のス
    ペルを変更するステツプが、 試案的なワードを形成するために、第1のワード中の少
    なくとも2つの文字を並べ換えることと、 試案的なワードとワードの組の各ワードとを比較するこ
    とと、 若し、試案的なワードがワードの組のワードと一致した
    ならば、第2のワードとして、試案的なワードを使用す
    ることと を含むことを特徴とするスペルの誤りの検出訂正方法。 【請求項9】第1のワードが少なくとも1つの文字を含
    む請求項(5)に記載のスペルの誤りの検出訂正方法に
    おいて、 第2のワードW2を形成するために、第1のワードW1のス
    ペルを変更するステツプが、 試案的なワードを形成するために、第1のワード中の1
    つの文字を異なつた文字に置換することと、 試案的なワードとワードの組の各ワードとを比較するこ
    とと、 若し、試案的なワードがワードの組のワードと一致した
    ならば、第2のワードとして、試案的なワードを使用す
    ることと を含むことを特徴とするスペルの誤りの検出訂正方法。 【請求項10】請求項(5)に記載のスペルの誤りの検
    出訂正方法において、 第2のワードW2を形成するために、第1のワードW1のス
    ペルを変更するステツプは、 ワードの組中のM個の異なつたワードの混同したグルー
    プを識別することと、 混同したグループ中の各ワードのスペルと、第1のワー
    ドのスペルとの間で相異するスペルの数は2個であるこ
    とと、 第2のワードW2として混同グループ中の1つのワードを
    選択することと を含むことを特徴とするスペルの誤りの検出訂正方法。 【請求項11】請求項(5)に記載のスペルの誤りの検
    出訂正方法において、 第2のワードW2を形成するために、第1のワードW1のス
    ペルを変更するステツプが、 ワードの組中のM個の異なつたワードの混同したグルー
    プを識別することと、 混同したグループ中の各ワードは第1のワードにより混
    同していることと、 第2のワードW2として混同したグループ中の1つのワー
    ドを選択することと を含むことを特徴とするスペルの誤りの検出訂正方法。 【請求項12】請求項(11)に記載のスペルの誤りの検
    出訂正方法において、 確率P(W1|W1)は0.999であると見積ることと、 確率P(W1|Wc)は0.001/Mであると見積ることと を特徴とするスペルの誤りの検出訂正方法。 【請求項13】請求項(1)に記載のスペルの誤りの検
    出訂正方法において、 第2の出力はエラー表示であることを特徴とするスペル
    の誤りの検出訂正方法。 【請求項14】情報信号の入力ストリングWiを与えるこ
    とと、各情報信号は情報を表示することと、 情報信号の候補ストリングWcを形成するために、第1の
    情報信号により表わされる情報とは異なつた情報を表わ
    す第2の情報信号W2を形成するように入力ストリング中
    の第1の情報信号を変更することと、 情報信号の入力ストリングの発生の確率P(Wi)を見積
    ることと、 情報信号の候補ストリングの発生の確率P(Wc)を見積
    ることと、 情報信号のストリングWiとして情報信号の候補ストリン
    グWcによつて表わされた情報を誤つて表示する確率P
    (W1|Wc)を見積ることと、 P(Wi)とP(Wc)P(W1|Wc)とを比較することと、 若し、P(Wi)の値がP(Wc)P(W1|Wc)の値よりも
    大きければ、第1の出力信号を発生し、そして若し、P
    (Wi)の値がP(Wc)P(W1|Wc)の値よりも小さけれ
    ば、第2の出力信号を発生することと からなる情報信号のエラーの検出訂正方法。 【請求項15】請求項(14)に記載の情報信号のエラー
    の検出訂正方法において、 第1の出力信号は情報信号の入力ストリングを含むこと
    と、 第2の出力信号は情報信号の候補ストリングを含むこと
    と、 第1の信号W1として第2の情報信号W2により表わされた
    信号を誤つて表示する確率P(W1|W2)として、確率P
    (Wi|Wc)が見積られることと を含むことを特徴とする情報信号のエラーの検出訂正方
    法。 【請求項16】請求項(15)に記載の情報信号のエラー
    の検出訂正方法において、 各ワードがスペルを含むワードの組を与えることと、 情報信号の入力ストリング中の各情報信号はワードの複
    数個の組である1つのワードを表わすことと、 第2の情報信号W2はワードの複数個の組である1つのワ
    ードを表わし、第2の情報信号により表わされたワード
    は第1の情報信号により表わされたワードとは異なつて
    いることと を含むことを特徴とする情報信号のエラーの検出訂正方
    法。 【請求項17】請求項(16)に記載の情報信号のエラー
    の検出訂正方法において、 情報信号の入力ストリングWi中のすべての情報信号によ
    つて表わされた情報を正しく表わす確率P(Wi|Wi)を
    見積ることと、 積P(Wi)P(Wi|Wi)と積P(Wc)P(Wi|Wc)とを
    比較することと、 若し、P(Wi)P(Wi|Wi)がP(Wc)P(Wi|Wc)よ
    りも大きければ、第1の出力信号を出力し、そして若
    し、P(Wi)P(Wi|Wi)がP(Wc)P(Wi|Wc)より
    も小さければ、第2の出力信号を発生することと を含むことを特徴とする情報信号のエラーの検出訂正方
    法。 【請求項18】請求項(17)に記載の情報信号のエラー
    の検出訂正方法において、 確率P(Wi|Wi)は第1の情報信号Wiによつて表わされ
    た情報を正しく表わす確率P(W1|W1)として見積られ
    ることを特徴とする情報信号のエラーの検出訂正方法。 【請求項19】請求項(18)に記載の情報信号のエラー
    の検出訂正方法において、 第2の情報信号W2を形成するために、第1の情報信号W1
    を変更するステツプが、 試案的なワードを形成するために、第1の情報信号によ
    つて表わされたワードに1つの文字を付加することと、 試案的なワードと1組のワードの各ワードとを比較する
    ことと、 若し、試案的なワードがワード組の中の1つのワードと
    一致したならば、第2の情報信号W2として、試案的なワ
    ードを表示することと を含むことを特徴とする情報信号のエラーの検出訂正方
    法。 【請求項20】請求項(19)に記載の情報信号のエラー
    の検出訂正方法において、 第2の情報信号W2を形成するために、第1の情報信号W1
    を変更することが、 試案的なワードを形成するために、第1の情報信号によ
    つて表わされたワードから1つの文字を削除すること
    と、 試案的なワードと1組のワードの各ワードとを比較する
    ことと、 若し、試案的なワードが1組のワード中の1つのワード
    と一致したならば、第2の情報信号W2として、試案的な
    ワードを表示することと を含むことを特徴とする情報信号のエラーの検出訂正方
    法。 【請求項21】第1の情報信号は少なくとも2つの文字
    を有する1つのワードを表わしている請求項(18)に記
    載の情報信号のエラー検出訂正方法において、 第2の情報信号W2を形成するために、第1の情報信号W1
    を変更することが、 試案的なワードを形成するために、第1の情報信号によ
    つて表わされたワード中の少なくとも2つの文字を並べ
    換えることと、 試案的なワードと1組のワードの各ワードとを比較する
    ことと、 若し、試案的なワードが1組のワード中の1つのワード
    と一致したならば、第2の情報信号W2として、試案的な
    ワードを表示することと を含むことを特徴とする情報信号のエラーの検出訂正方
    法。 【請求項22】第1の情報信号は少なくとも1つの文字
    を有するワードを表わしている請求項(18)に記載の情
    報信号のエラーの検出訂正方法において、 第2の情報信号W2を形成するために、第1の情報信号W1
    を変更するステツプが、 試案的なワードを形成するために、第1の情報信号によ
    つて表わされたワード中の1つの文字を置換すること
    と、 試案的なワードと1組のワードの各ワードとを比較する
    ことと、 若し、試案的なワードが1組のワード中の1つのワード
    と一致したならば、第2の情報信号W2として、試案的な
    ワードを表示することと を含むことを特徴とする情報信号のエラーの検出訂正方
    法。 【請求項23】請求項(18)に記載の情報信号のエラー
    の検出訂正方法において、 第2の情報信号W2を形成するために、第1の情報信号W1
    を変更するステツプが、 ワードの組の中のM個の異なつたワードの混同したグル
    ープを識別することと、 混同したグループ中の各ワードと第1の情報信号によつ
    て表わされたワードとの間で相異するスペルの文字は2
    個であることと、 第2の情報信号W2として、混同したグループ中の1つの
    ワードを表示することと を含むことを特徴とする情報信号のエラーの検出訂正方
    法。 【請求項24】請求項(18)に記載の情報信号のエラー
    の検出訂正方法において、 第2の情報信号W2を形成するために、第1の情報信号W1
    を変更するステツプが、 ワードの組の中のM個の異なつたワードの混同したグル
    ープを識別することと、 混同したグループ中の各ワードは第1の情報信号によつ
    て表わされたワードと混同されていることと、 第2の情報信号W2として、混同したグループ中の1つの
    ワードを表示することと を含むことを特徴とする情報信号のエラーの検出訂正方
    法。 【請求項25】請求項(24)に記載の情報信号のエラー
    の検出訂正方法において、 確率P(W1|W1)は0.999と見積られていることと、 確率P(W1|Wc)は0.001/Mと見積られていることと を特徴とする情報信号のエラーの検出訂正方法。 【請求項26】請求項(14)に記載の情報信号のエラー
    の検出訂正方法において、 第2の出力はエラー表示であることを特徴とする情報信
    号のエラーの検出訂正方法。 【請求項27】情報信号の入力ストリングWiを与える手
    段と、各情報信号は情報を表示することと、 情報信号の候補ストリングWcを形成するために、第1の
    情報信号により表わされる情報とは異なつた情報を表わ
    す第2の情報信号W2を形成するように入力ストリング中
    の第1の情報信号を変更する手段と、 情報信号の入力ストリングの発生の確率P(Wi)を見積
    る手段と、 情報信号の候補ストリングの発生の確率P(Wc)を見積
    る手段と、 情報信号のストリングWiとして情報信号の候補ストリン
    グWcによつて表わされた情報を誤つて表示する確率P
    (W1|Wc)を見積る手段と、 P(Wi)とP(Wc)P(W1|Wc)とを比較する手段と、 若し、P(Wi)の値がP(Wc)P(W1|Wc)の値よりも
    大きければ、第1の出力信号を出力し、そして若し、P
    (Wi)の値がP(Wc)P(W1|Wc)の値よりも小さけれ
    ば、第2の出力信号を出力する手段と からなる情報信号のエラー検出訂正装置。 【請求項28】請求項(27)に記載の情報信号のエラー
    検出訂正装置において、 第1の出力信号は情報信号の入力ストリングを含むこと
    と、 第2の出力信号は情報信号の候補ストリングを含むこと
    と、 第1の信号W1として第2の情報信号W2により表わされた
    信号を誤つて表示する確率P(W1|W2)として、確率P
    (Wi|Wc)が見積られることと を含むことを特徴とする情報信号のエラー検出訂正装
    置。 【請求項29】請求項(28)に記載の情報信号のエラー
    検出訂正装置において、 各ワードがスペルを含むワードの組を記憶するデイクシ
    ヨナリ手段と、 情報信号の入力ストリング中の各情報信号はワードの複
    数個の組である1つのワードを表わすことと、 第2の情報信号W2はワードの複数個の組である1つのワ
    ードを表わし、第2の情報信号により表わされたワード
    は第1の情報信号により表わされているワードとは異な
    つていることと を含むことを特徴とする情報信号のエラー検出訂正装
    置。 【請求項30】請求項(29)に記載の情報信号のエラー
    検出訂正装置において、 情報信号の入力ストリングWi中のすべての情報信号によ
    つて表わされた情報を正しく表わす確率P(Wi|Wi)を
    見積る手段と、 積P(Wi)P(Wi|Wi)と積P(Wc)P(Wi|Wc)とを
    比較する手段と、 若し、P(Wi)P(Wi|Wi)がP(Wc)P(Wi|Wc)よ
    りも大きければ、第1の出力信号を出力し、そして若
    し、P(Wi)P(Wi|Wi)がP(Wc)P(Wi|Wc)より
    も小さければ、第2の出力信号を発生する手段と を含むことを特徴とする情報信号のエラー検出訂正装
    置。 【請求項31】請求項(30)に記載の情報信号のエラー
    検出訂正装置において、 確率P(Wi|Wi)は第1の情報信号Wiによつて表わされ
    た情報を正しく表わす確率P(W1|W1)として見積られ
    ていることを特徴とする情報信号のエラー検出訂正装
    置。 【請求項32】請求項(31)に記載の情報信号のエラー
    検出訂正装置において、 第2の情報信号W2を形成するために、第1の情報信号W1
    を変更する手段が、 試案的なワードを形成するために、第1の情報信号によ
    つて表わされたワードに1つの文字を付加する手段と、 試案的なワードと1組のワードの各ワードとを比較する
    手段と、 若し、試案的なワードがワードの組の中の1つのワード
    と一致したならば、第2の情報信号W2として、試案的な
    ワードを表示する手段と を含むことを特徴とする情報信号のエラー検出訂正装
    置。 【請求項33】請求項(31)に記載の情報信号のエラー
    検出訂正装置において、 第2の情報信号W2を形成するために、第1の情報信号W1
    を変更する手段が、 試案的なワードを形成するために、第1の情報信号によ
    つて表わされたワードから1つの文字を削除する手段
    と、 試案的なワードと1組のワードの各ワードとを比較する
    手段と、 若し、試案的なワードが1組のワード中の1つのワード
    と一致したならば、第2の情報信号W2として、試案的な
    ワードを表示する手段と を含むことを特徴とする情報信号のエラー検出訂正装
    置。 【請求項34】第1の情報信号は少なくとも2つの文字
    を有する1つのワードを表わしている請求項(31)に記
    載の情報信号のエラー検出訂正装置において、 第2の情報信号W2を形成するために、第1の情報信号W1
    を変更する手段が、 試案的なワードを形成するために、第1の情報信号によ
    つて表わされたワード中の少なくとも2つの文字を並べ
    換える手段と、 試案的なワードと1組のワードの各ワードとを比較する
    手段と、 若し、試案的なワードが1組のワード中の1つのワード
    と一致したならば、第2の情報信号W2として、試案的な
    ワードを表示する手段と を含むことを特徴とする情報信号のエラー検出訂正装
    置。 【請求項33】第1の情報信号は少なくとも1つの文字
    を有するワードを表わしている請求項(31)に記載の情
    報信号のエラー検出訂正装置において、 第2の情報信号W2を形成するために、第1の情報信号W1
    を変更することが、 試案的なワードを形成するために、第1の情報信号によ
    つて表わされたワード 中の1つの文字を置換する手段と、 試案的なワードと1組のワードの各ワードとを比較する
    手段と、 若し、試案的なワードが1組のワード中の1つのワード
    と一致したならば、第2の情報信号W2として、試案的な
    ワードを表示する手段と を含むことを特徴とする情報信号のエラー検出訂正装
    置。 【請求項36】請求項(31)に記載の情報信号のエラー
    検出訂正装置において、 第2の情報信号W2を形成するために、第1の情報信号W1
    を変更する手段が、 ワードの組の中のM個の異なつたワードの混同したグル
    ープを識別する手段と、 混同したグループ中の各ワードと第1の情報信号によつ
    て表わされたワードとの間で相異するスペルの文字は2
    個であることと、 第2の情報信号W2として、混同したグループ中の1つの
    ワードを表示する手段と を含むことを特徴とする情報信号のエラー検出訂正装
    置。 【請求項37】請求項(31)に記載の情報信号のエラー
    検出訂正装置において、 第2の情報信号W2を形成するために、第1の情報信号W1
    を変更することが、 ワードの組の中のM個の異なつたワードの混同したグル
    ープを識別する手段と、 混同したグループ中の各ワードは第1の情報信号によつ
    て表わされたワードと混同されていることと、 第2の情報信号W2として混同したグループ中の1つのワ
    ードを表示する手段と を含むことを特徴とする情報信号のエラー検出訂正装
    置。 【請求項38】請求項(37)に記載の情報信号のエラー
    検出訂正装置において、 確率P(W1|W1)は0.999と見積られていることと、 確率P(W1|Wc)は0.001/Mと見積られていることと を特徴とする情報信号のエラー検出訂正装置。 【請求項39】請求項(27)に記載の情報信号のエラー
    検出訂正装置において、 第2の出力はエラー表示であることを特徴とする情報信
    号のエラー検出訂正装置。
JP2215111A 1989-08-31 1990-08-16 スペルの誤りの検出訂正方法及び装置 Expired - Lifetime JPH079655B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US07/401,584 US5258909A (en) 1989-08-31 1989-08-31 Method and apparatus for "wrong word" spelling error detection and correction
US401584 1989-08-31

Publications (2)

Publication Number Publication Date
JPH0398158A JPH0398158A (ja) 1991-04-23
JPH079655B2 true JPH079655B2 (ja) 1995-02-01

Family

ID=23588329

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2215111A Expired - Lifetime JPH079655B2 (ja) 1989-08-31 1990-08-16 スペルの誤りの検出訂正方法及び装置

Country Status (4)

Country Link
US (1) US5258909A (ja)
EP (1) EP0415000B1 (ja)
JP (1) JPH079655B2 (ja)
DE (1) DE69031099D1 (ja)

Families Citing this family (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5604897A (en) * 1990-05-18 1997-02-18 Microsoft Corporation Method and system for correcting the spelling of misspelled words
US5572423A (en) * 1990-06-14 1996-11-05 Lucent Technologies Inc. Method for correcting spelling using error frequencies
US5157759A (en) * 1990-06-28 1992-10-20 At&T Bell Laboratories Written language parser system
KR950008022B1 (ko) * 1991-06-19 1995-07-24 가부시끼가이샤 히다찌세이사꾸쇼 문자처리방법 및 장치와 문자입력방법 및 장치
DE4323241A1 (de) * 1993-07-12 1995-02-02 Ibm Verfahren und Computersystem zur Suche fehlerhafter Zeichenketten in einem Text
US5537317A (en) * 1994-06-01 1996-07-16 Mitsubishi Electric Research Laboratories Inc. System for correcting grammer based parts on speech probability
US5485372A (en) * 1994-06-01 1996-01-16 Mitsubishi Electric Research Laboratories, Inc. System for underlying spelling recovery
US5761689A (en) * 1994-09-01 1998-06-02 Microsoft Corporation Autocorrecting text typed into a word processing document
JP2809341B2 (ja) * 1994-11-18 1998-10-08 松下電器産業株式会社 情報要約方法、情報要約装置、重み付け方法、および文字放送受信装置。
JPH08235182A (ja) * 1995-02-28 1996-09-13 Canon Inc 文章処理方法とその装置
US5828991A (en) * 1995-06-30 1998-10-27 The Research Foundation Of The State University Of New York Sentence reconstruction using word ambiguity resolution
US6064959A (en) * 1997-03-28 2000-05-16 Dragon Systems, Inc. Error correction in speech recognition
GB2314433A (en) * 1996-06-22 1997-12-24 Xerox Corp Finding and modifying strings of a regular language in a text
US5999896A (en) * 1996-06-25 1999-12-07 Microsoft Corporation Method and system for identifying and resolving commonly confused words in a natural language parser
US5956739A (en) * 1996-06-25 1999-09-21 Mitsubishi Electric Information Technology Center America, Inc. System for text correction adaptive to the text being corrected
WO1998020428A1 (en) * 1996-11-01 1998-05-14 Bland Linda M Interactive and automatic processing of text to identify language bias
US6047300A (en) * 1997-05-15 2000-04-04 Microsoft Corporation System and method for automatically correcting a misspelled word
US6016467A (en) * 1997-05-27 2000-01-18 Digital Equipment Corporation Method and apparatus for program development using a grammar-sensitive editor
US6782510B1 (en) 1998-01-27 2004-08-24 John N. Gross Word checking tool for controlling the language content in documents using dictionaries with modifyable status fields
US6963871B1 (en) * 1998-03-25 2005-11-08 Language Analysis Systems, Inc. System and method for adaptive multi-cultural searching and matching of personal names
US8855998B2 (en) 1998-03-25 2014-10-07 International Business Machines Corporation Parsing culturally diverse names
US8812300B2 (en) 1998-03-25 2014-08-19 International Business Machines Corporation Identifying related names
US6424983B1 (en) 1998-05-26 2002-07-23 Global Information Research And Technologies, Llc Spelling and grammar checking system
US6131102A (en) * 1998-06-15 2000-10-10 Microsoft Corporation Method and system for cost computation of spelling suggestions and automatic replacement
US6175834B1 (en) * 1998-06-24 2001-01-16 Microsoft Corporation Consistency checker for documents containing japanese text
US6401060B1 (en) * 1998-06-25 2002-06-04 Microsoft Corporation Method for typographical detection and replacement in Japanese text
US6618697B1 (en) * 1999-05-14 2003-09-09 Justsystem Corporation Method for rule-based correction of spelling and grammar errors
US7165019B1 (en) 1999-11-05 2007-01-16 Microsoft Corporation Language input architecture for converting one text form to another text form with modeless entry
US6848080B1 (en) 1999-11-05 2005-01-25 Microsoft Corporation Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
US7403888B1 (en) 1999-11-05 2008-07-22 Microsoft Corporation Language input user interface
US7047493B1 (en) * 2000-03-31 2006-05-16 Brill Eric D Spell checker with arbitrary length string-to-string transformations to improve noisy channel spelling correction
US7398467B1 (en) * 2000-06-13 2008-07-08 International Business Machines Corporation Method and apparatus for providing spelling analysis
WO2002086863A1 (en) * 2001-04-19 2002-10-31 British Telecommunications Public Limited Company Speech recognition
KR100405360B1 (ko) * 2001-05-21 2003-11-12 기아자동차주식회사 자동차용 토너커버
US7076731B2 (en) * 2001-06-02 2006-07-11 Microsoft Corporation Spelling correction system and method for phrasal strings using dictionary looping
US6560559B2 (en) * 2001-08-17 2003-05-06 Koninklijke Philips Electronics N.V. System and method for detecting and correcting incorrect hand position of a computer user
EP1288790A1 (en) * 2001-08-29 2003-03-05 Tarchon BV Method of analysing a text corpus and information analysis system
US7613601B2 (en) * 2001-12-26 2009-11-03 National Institute Of Information And Communications Technology Method for predicting negative example, system for detecting incorrect wording using negative example prediction
US20040002850A1 (en) * 2002-03-14 2004-01-01 Shaefer Leonard Arthur System and method for formulating reasonable spelling variations of a proper name
US7440941B1 (en) * 2002-09-17 2008-10-21 Yahoo! Inc. Suggesting an alternative to the spelling of a search query
AU2003297295A1 (en) 2002-12-30 2004-07-29 Fannie Mae System and method of processing data pertaining to financial assets
US20040128230A1 (en) 2002-12-30 2004-07-01 Fannie Mae System and method for modifying attribute data pertaining to financial assets in a data processing system
US7885889B2 (en) * 2002-12-30 2011-02-08 Fannie Mae System and method for processing data pertaining to financial assets
US8543378B1 (en) 2003-11-05 2013-09-24 W.W. Grainger, Inc. System and method for discerning a term for an entry having a spelling error
US7672927B1 (en) 2004-02-27 2010-03-02 Yahoo! Inc. Suggesting an alternative to the spelling of a search query
US7254774B2 (en) * 2004-03-16 2007-08-07 Microsoft Corporation Systems and methods for improved spell checking
US7406416B2 (en) * 2004-03-26 2008-07-29 Microsoft Corporation Representation of a deleted interpolation N-gram language model in ARPA standard format
US20070005586A1 (en) * 2004-03-30 2007-01-04 Shaefer Leonard A Jr Parsing culturally diverse names
US7478038B2 (en) * 2004-03-31 2009-01-13 Microsoft Corporation Language model adaptation using semantic supervision
US7634741B2 (en) * 2004-08-31 2009-12-15 Sap Ag Method and apparatus for managing a selection list based on previous entries
US20060293890A1 (en) * 2005-06-28 2006-12-28 Avaya Technology Corp. Speech recognition assisted autocompletion of composite characters
US7664629B2 (en) * 2005-07-19 2010-02-16 Xerox Corporation Second language writing advisor
US8249873B2 (en) * 2005-08-12 2012-08-21 Avaya Inc. Tonal correction of speech
US20070214189A1 (en) * 2006-03-10 2007-09-13 Motorola, Inc. System and method for consistency checking in documents
EP1855210B1 (en) * 2006-05-11 2018-01-03 Dassault Systèmes Spell checking
US7818332B2 (en) * 2006-08-16 2010-10-19 Microsoft Corporation Query speller
US7877375B1 (en) * 2007-03-29 2011-01-25 Oclc Online Computer Library Center, Inc. Name finding system and method
CN101802812B (zh) * 2007-08-01 2015-07-01 金格软件有限公司 使用互联网语料库的自动的上下文相关的语言校正和增强
US8700997B1 (en) * 2012-01-18 2014-04-15 Google Inc. Method and apparatus for spellchecking source code
CN103578464B (zh) * 2013-10-18 2017-01-11 威盛电子股份有限公司 语言模型的建立方法、语音辨识方法及电子装置
KR102167719B1 (ko) 2014-12-08 2020-10-19 삼성전자주식회사 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
US10372814B2 (en) 2016-10-18 2019-08-06 International Business Machines Corporation Methods and system for fast, adaptive correction of misspells
US10579729B2 (en) 2016-10-18 2020-03-03 International Business Machines Corporation Methods and system for fast, adaptive correction of misspells
US11093709B2 (en) * 2017-08-10 2021-08-17 International Business Machine Corporation Confidence models based on error-to-correction mapping
US11157479B2 (en) * 2019-04-08 2021-10-26 Microsoft Technology Licensing, Llc Leveraging a collection of training tables to accurately predict errors within a variety of tables
CN110852074B (zh) * 2019-11-07 2023-05-16 腾讯科技(深圳)有限公司 生成修正语句的方法和装置、存储介质和电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1182570A (en) * 1982-04-30 1985-02-12 Frederick R. Lange System for detecting and correcting contextual errors in a text processing system

Also Published As

Publication number Publication date
EP0415000B1 (en) 1997-07-23
DE69031099D1 (de) 1997-09-04
US5258909A (en) 1993-11-02
EP0415000A2 (en) 1991-03-06
JPH0398158A (ja) 1991-04-23
EP0415000A3 (en) 1992-01-02

Similar Documents

Publication Publication Date Title
JPH079655B2 (ja) スペルの誤りの検出訂正方法及び装置
US5715469A (en) Method and apparatus for detecting error strings in a text
US10762293B2 (en) Using parts-of-speech tagging and named entity recognition for spelling correction
JP3189186B2 (ja) パターンに基づく翻訳装置
Shaffer Control processes in typing
Sedláček et al. A new Czech morphological analyser ajka
US20120016663A1 (en) Identifying related names
Rees Taxamatch, an algorithm for near (‘fuzzy’) matching of scientific names in taxonomic databases
JP2011511341A (ja) 近似文字列マッチングのためのアーカイブ管理法
KR20070098252A (ko) 자동완성 추천어를 정정하여 노출하는 자동완성 추천어제공 방법 및 시스템
Mishra et al. A survey of spelling error detection and correction techniques
US11681732B2 (en) Tuning query generation patterns
US11151317B1 (en) Contextual spelling correction system
Xiong et al. HANSpeller: a unified framework for Chinese spelling correction
JPH0211934B2 (ja)
Ganfure et al. Design and implementation of morphology based spell checker
Volk et al. Comparing a statistical and a rule-based tagger for German
US20240054288A1 (en) Inference Methods For Word Or Wordpiece Tokenization
Bagul et al. Rule based POS tagger for Marathi text
UzZaman et al. A comprehensive bangla spelling checker
JPH117447A (ja) 話題抽出方法及びこれに用いる話題抽出モデルとその作成方法、話題抽出プログラム記録媒体
Daciuk Treatment of unknown words
KR100452024B1 (ko) 자연어 질의 응답 검색 엔진 및 검색 방법
Spasic FlexiTerm: a more efficient implementation of flexible multi-word term recognition
JP6303508B2 (ja) 文書分析装置、文書分析システム、文書分析方法およびプログラム