JP3241854B2 - 単語スペル自動補正装置 - Google Patents

単語スペル自動補正装置

Info

Publication number
JP3241854B2
JP3241854B2 JP06944993A JP6944993A JP3241854B2 JP 3241854 B2 JP3241854 B2 JP 3241854B2 JP 06944993 A JP06944993 A JP 06944993A JP 6944993 A JP6944993 A JP 6944993A JP 3241854 B2 JP3241854 B2 JP 3241854B2
Authority
JP
Japan
Prior art keywords
word
character string
partial character
candidate
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP06944993A
Other languages
English (en)
Other versions
JPH06259468A (ja
Inventor
隆 加登岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP06944993A priority Critical patent/JP3241854B2/ja
Publication of JPH06259468A publication Critical patent/JPH06259468A/ja
Application granted granted Critical
Publication of JP3241854B2 publication Critical patent/JP3241854B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【技術分野】本発明は、単語スペル自動補正装置に関
し、より詳細には、ミススペルのより精度の高い補正を
行うための単語スペル自動補正装置に関する。例えば、
OCR(Optical Character Reader;光学式文字読取装
置)、ワードプロセッサ、辞書引きツールに適用される
ものである。
【0002】
【従来技術】OCRでは画像認識処理をした結果、文字
単位の候補群に正解が含まれていないと正解を得ること
はできななった。例えば、'a'と'u'はOCRにおいて
画像的に近いものであるが、入力時のタイプミスや原稿
の文字のかすれ、汚れなどで画像的に近くない文字と認
識してしまうことがある。この場合、候補の文字の中に
正解文字が残らない。候補文字を切り替えながら単語を
生成し、単語単位に辞書引きして、辞書にあればその候
補を優先するというような従来のやり方では、候補文字
に正解が残らない場合はミススペルを修正することがで
きない。またOCR読み取りの誤り傾向はOCRのアル
ゴリズムに影響するので、それぞれのOCRのアルゴリ
ズムにあった自動スペル補正を考えなければならなかっ
た。同様に人間のタイプ入力ミスとOCRの認識ミスの
傾向の間にもかなりの開きがあり共通の自動スペル補正
装置がこれまで無かった。
【0003】そこでミスの傾向に影響されず、いろんな
場面で汎用的に使用することができ、かつ比較的単純な
アルゴリズムでスペルミスの自動補正を高精度に行える
(スペルミスの原因に影響されない),単語スペル自動
補正装置の実現が望まれていた。つづり誤りを訂正する
従来法は、文字置換、文字削除、文字挿入、隣接文字の
互換の誤り操作を逆に行うことを基本としていた。これ
らの逆操作を全てやるとアルゴリズムが煩雑になってし
まうと同時に、あらゆる可能性で逆操作を行うので効率
が良くない。例えば、全ての組み合わせで、辞書引きを
行うことになる。誤りが2箇所(例えば1箇所の文字置
換と1箇所の文字挿入がある場合など)以上ある場合も
想定するとその組み合わせが膨大になる。そこで、結果
として得られる候補単語群の出現回数が確からしさの度
合として得られ、しかも、それは全ての候補に対して得
られるようにすることが必要である。
【0004】本発明に係る従来技術を記載した公知文献
としては、例えば特開平3−52089号公報に「文字
情報判定方式」が提案されている。この公報のものは、
予め文字列の正解を想定し、それと読み取り結果内容の
比較を行っていくものである。この方法だと最悪の場合
(正しい語が辞書に無い場合)、辞書の中の単語全てとの
比較を行う必要がある。また最も一致するかどうかを知
りたいときも、全ての語との比較を行わないと結論を出
せないという欠点がある。また特開平2−39290号
公報の「単語照合方式」は、いわゆるずらしマッチング
によって、文字きりだしの誤りを考慮した単語照合方法
を行っている。このマッチングの対象となるベき辞書の
登録単語を制限するため、辞書に予め属性を付与しなけ
ればならない。このため適用範囲が非常に限定されると
いう欠点がある。
【0005】
【目的】本発明は、上述のごとき実情に鑑みてなされた
もので、スペルミスを含んでいる単語から、正しいスペ
ルの単語(あるいは単語候補)を得るようにした単語ス
ペル自動補正装置を提供することを目的としてなされた
ものである。
【0006】
【構成】本発明は、上記目的を達成するために、(1)
単語を入力する単語入力手段と、該単語入力手段により
入力された単語の部分文字列を抽出する部分文字列抽出
手段と、該部分文字列抽出手段により抽出された部分文
字列群を記憶する部分文字列記憶手段と、部分文字列及
び該部分文字列を一部に持つ単語群を対として記憶した
部分文字列・単語テーブルと、前記部分文字列抽出手段
により抽出された部分文字列で前記部分文字列・単語テ
ーブルを検索し、該当単語群を得る単語候補検索手段
と、該単語候補検索手段で検索された単語群と部分文字
列群中の部分文字列とのマッチング回数を記憶する候補
記憶手段と、前記単語候補検索手段で検索された単語群
を前記候補記憶手段に記憶し、マッチング回数をカウン
トアップする候補カウンタ手段と、前記候補記憶手段の
中で前記マッチング回数の最も多い単語候補を選択する
単語候補選択手段と、該単語候補選択手段で選択された
単語候補を出力する選択単語出力手段とから成り、入力
単語に近い単語候補を出力すること、更には、(2)前
記部分文字列抽出手段において、2文字連接を抽出する
こと、更には、(3)前記部分文字列抽出手段におい
て、2種類以上の部分文字列抽出手段を有すること、更
には、(4)前記単語候補検索手段において、入力単語
の単語長さと単語候補の単語の長さを比較する単語長比
較手段を設け、単語長が近い単語候補のみを前記候補記
憶手段に記憶すること、更には、(5)前記部分文字列
抽出手段において、3文字以上の連接を抽出することを
特徴としたものである。以下、本発明の実施例に基づい
て説明する。
【0007】図1は、本発明による単語スペル自動補正
装置の一実施例を説明するための構成図で、図中、1は
単語入力手段、2は部分文字列抽出手段、3は部分文字
列群記憶手段、4は部分文字列・単語テーブル、5は単
語候補検索手段、6は候補記憶手段、7は候補カウンタ
手段、8は単語候補選択手段、9は選択単語出力手段で
ある。
【0008】部分文字列抽出手段2は、単語入力手段1
により入力された単語の部分文字列を抽出する。部分文
字列記憶手段3は、前記部分文字列抽出手段2により抽
出された部分文字列群を記憶する。部分文字列・単語テ
ーブル4は、部分文字列及び該部分文字列を一部に有す
る単語群を対として記憶する。単語候補検索手段5は、
前記部分文字列抽出手段2で抽出された部分文字列で前
記部分文字列・単語テーブルを検索し、該当単語群を得
る。候補記憶手段6は、前記単語候補検索手段5で検索
された単語群と部分文字列群中の部分文字列とのマッチ
ング回数を記憶する。候補カウンタ手段7は、前記単語
候補検索手段5で検索された単語群を前記候補記憶手段
6に記憶し、マッチング回数をカウントアップする。単
語候補選択手段8は、前記候補記憶手段の中で入力単語
に近い単語候補を選択する。選択単語出力手段9は、前
記単語候補選択手段で選択された単語候補を出力する。
このような構成により、入力単語に近い候補を容易に高
速に抽出することができる。
【0009】すなわち、本発明の単語スペル自動補正装
置において、単語入力手段1により入力単語を得る。こ
れはOCRによる認識結果、あるいはキーボードからの
手入力結果などのテキストを形態素解析手法を用いて単
語、あるいは連語単位に切り出した結果を得る。本発明
の実施例では、英文のOCR結果を自動スペル補正する
場合を想定する。OCR部では候補単語を英語辞書を使
って辞書引きし、辞書の中に存在しない単語(未知語)
であることが既にわかっているとする。この未知語を”
eaprit”であるとする(正しくは”esprit”「精
神」)。これを部分文字列抽出手段2により部分文字列
を抽出する。
【0010】図2は、本発明による単語スペル自動補正
装置の動作を説明するためのフローチャートで、図3
は、図2における入力単語の部分文字列を抽出するため
のフローチャートである。以下、図2及び図3のフロー
チャートに基づいて2文字連接を抽出する場合について
説明する。”eaprit”の長さ6をもとめて変数l
enにセットする(Step2−1)。まず、先頭文字’
’を取り出し、ヘッド記号文字’^’と組み合わせて
部分文字列’^e’を得る(Step2−2)。これを部分
文字列記憶手段3に格納する(Step2−3)。次に1番
目と2番目の文字を組み合わせて部分文字列’ea’を
得る。次に2番目と3番目の文字を組み合わせて部分文
字列’ap’を得る。同様に進めていき、最後に”ea
prit”の長さ番目の文字(6番目の文字)と末尾記
号文字’’を組み合わせて部分文字列’t’を得る
(Step2−9)。これにより部分文字列記憶手段3に
は、以下リスト(1)のように、7個の部分文字列が格
納される。(以下、余白)
【0011】部分文字列記憶手段3から1つの部分文字
列を取り出す(Step4)。まず’^e’が取り出される
(本発明の実施例においては取り出す順番は部分文字列
を抽出した順番とするが、候補数を初期の段階で少なく
して処理効果を上げるために、候補数の少ない部分文字
列から取り出してもよい)。これをキーとして部分部分
文字列・単語テーブル(図4)を検索し(Step5)、文
字列’^e’を単語の一部としてもつ(この場合は先頭
文字が’e’の単語群を得ることになる)単語群を得
る。この単語群は以下のリスト(2)のようになる。
【0012】上記内容を候補記憶手段6に格納する。こ
の格納はこの単語については1回目なので出現回数のカ
ウントアップで全ての単語群には1のカウント数がセッ
トされる。部分文字列記憶手段3から次の部分文字列’
ea’を取り出す(Step4)。これをキーとして部分文
字列・単語テーブル(図4)を検索し(Step5)、文字
列’ea’を単語の一部としてもつ単語群を得る。この
単語群は以下のリスト(3)のようになる。
【0013】上記内容を候補記憶手段6に格納しなが
ら、出現回数のカウントアップを行う(Step6,7)。
前記リスト(2)に対して、前記(3)の中で同じもの
が表われるときは、出現回数を1つカウントアップし、
表れないものは英単語を登録し、出現回数を1にセット
する。この場合’each’が同じものとして表われる
ので、出現回数が2になる。部分文字列記憶手段の内容
は以下のリスト(4)のようになる。
【0014】部分文字列記憶手段3から次の部分文字
列’ap’を取り出す(Step4)。これをキーとして部
分部分文字列・単語テーブル(図4)を検索し(Step
5)、文字列’ap’を単語の一部としてもつ単語群を
得る。この単語群は以下のリスト(5)のようになる。
【0015】上記内容を候補記憶手段6に格納しなが
ら、出現回数のカウントアップを行う(Step6,7)。
リスト(4)と(5)から候補記憶手段6は以下のリス
ト(6)のようになる。
【0016】部分文字列記憶手段3から次の文字列’p
r’を取り出す(Step4)。これをキーとして部分文字
列・単語テーブル(図4)を検索し(Step4)、文字
列’pr’を単語の一部としてもつ単語群を得る。この
単語群は以下のリスト(7)のようになる。
【0017】上記内容を候補記憶手段6に格納しなが
ら、出現回数のカウントアップを行う(Step6,7)。
候補記憶手段6は前記リスト(6)と(7)から以下の
リスト(8)ようになる。”each”と”espri
t”と”apricot”が出現回数が2回になった。
(以下、余白)
【0018】以下、同様に残りの部分文字列’r
i’,’it’,’t’について行うと最終的に図5
の内容が候補記憶手段6に格納される。ここではわかり
やすくするために出現回数の多い順にソートされてい
る。この、候補記憶手段6に中の最大出現回数のもの”
esprit”を選択する(Step8)。上記選択した単
語候補を出力する(Step9)。一つの単語候補を出力す
るのでなく、出現回数の多い方から複数のものを出力す
れば、複数の確からしい順に候補を出力できる。これら
をユーザに表示して選択させることや、あるいは別の装
置による文字列補正の評価のための1つの評価値とする
ことができる。最大出現回数の単語は、候補カウンタ手
段7において最大値とその単語候補を記憶しておき、カ
ウントをアップあるいはセットする際に必ずそれまでの
最大値よりカウントアップした値の方が大きければ、そ
の値を最大値とし、その単語候補を記憶しておけば、処
理が終了した時点で、最大出現回数の単語を得ることが
できる。
【0019】請求項3の部分文字列抽出手段において
は、例えば、2文字連接のみだけのとき、英語では’e
r’をもつ単語等はその数が膨大であるので’er’を
含む連接’era’,’erb’,erc’,’er
d’,’ere’…などの3文字連接を部分文字列とし
て扱うと単語候補を絞りやすくなる。あるいは、連接文
字列だけでなく、一つおきの2文字を部分文字列として
も良い。
【0020】図6は、本発明による単語スペル自動補正
装置の他の実施例(請求項4,5)を示す図で、図1の
単語候補検索手段5において単語長比較手段5aを設け
た構成である。入力単語の単語長さと単語候補の単語長
さを比較する単語長比較手段5aが設けられており、単
語長が近い単語候補のみを候補記憶手段6に記載させ
る。また、部分文字列・単語テーブル4において、予め
単語の長さ別に単語を格納する。
【0021】図7は、本発明よる単語スペル自動補正装
置の他の実施例(請求項6)を示す図で、図1における
選択単語出力手段9に単語辞書10を付加した構成であ
る。また、部分文字列・単語テーブル4において、単語
はその文字列ではなく単語辞書へのポインタを記憶して
おき、単語候補選択手段8でカウント数の多いポインタ
値を選択後、選択単語出力手段9で出力する際、そのポ
インタ値で単語辞書中の単語の文字列を得る。DPマッ
チングによるスペルの自動補正候補を得るための前処理
として(DPマッチングするエントリ数を絞る)本発明
の単語スペル自動補正装置を利用しても良い。
【0022】
【効果】以上の説明から明らかなように、本発明による
と、以下のような効果がある。 (1)請求項1の部分部分文字列・単語テーブルでは、
予め部分文字列を単語の一部分にもつ単語をリストして
あるので、部分文字列を持つ候補を容易に高速に抽出す
ることができる。 (2)請求項1のカウンター装置では、単純に出現回数
をカウントアップするだけなので、容易に単語候補の確
からしさの度合いを得ることができる。 (3)請求項1の単語候補選択手段では、単純に出現回
数の多い語を得るだけなので、容易にもっとも確からし
い度合いの高いスペルミス修正した単語を得ることがで
きる。 (4)請求項2の部分文字列抽出手段においては、2文
字連接を抽出することを特徴とするため、3文字連接な
どに比べて連接の種類が少なくてすむ。 (5)請求項3の部分文字列抽出手段においては、単語
候補を効率的に絞ることができる。 (6)請求項4の単語長比較手段では、単語候補をその
単語長で絞ることができる。 (7)請求項5の部分文字列・単語テーブルにおいて、
予め単語はその単語の長さ別に格納されているので、単
語長比較手段によって入力単語の単語と長さの近い単語
だけを即座に抽出できる。 (8)請求項6の部分文字列・単語テーブルにおいて、
単語候補部は単語の文字列でなく、単語辞書へのポイン
タだけで格納してあり、候補記憶手段にもこのポインタ
だけで記憶する。これにより、記憶容量を節約すること
ができる(ポインタは4バイトもあれば充分であるが、
英単語長の平均はこれより長い)。又、候補カウンタ手
段において、既に候補記憶手段に格納されている単語か
どうかを判定する際に単語文字列比較して同一であるこ
とを確認するよりも、単にポインタの様な(ポインタで
無くても単に単語に連番をふったものでよい)数値で比
較するほうが計算量が少なくて済む。
【図面の簡単な説明】
【図1】 本発明による単語スペル自動補正装置の一実
施例を説明するための構成図である。
【図2】 本発明による単語スペル自動補正装置の動作
を説明するためのフローチャートを示す図である。
【図3】 図2における入力単語の部分文字列を抽出す
るフローチャートを示す図である。
【図4】 本発明の部分文字列・単語テーブルを示す図
である。
【図5】 本発明の候補記憶手段を示す図である。
【図6】 本発明による単語スペル自動補正装置の他の
実施例を示す図である。
【図7】 本発明による単語スペル自動補正装置の更に
他の実施例を示す図である。
【符号の説明】
1…単語入力手段、2…部分文字列抽出手段、3…部分
文字列群記憶手段、4…部分文字列・単語テーブル、5
…単語候補検索手段、6…候補記憶手段、7…候補カウ
ンタ手段、8…単語候補選択手段、9…選択単語出力手
段。
フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G06F 17/27 - 17/28 G06F 17/21 G06K 9/72 JICSTファイル(JOIS)

Claims (5)

    (57)【特許請求の範囲】
  1. 【請求項1】 単語を入力する単語入力手段と、該単語
    入力手段により入力された単語の部分文字列を抽出する
    部分文字列抽出手段と、該部分文字列抽出手段により抽
    出された部分文字列群を記憶する部分文字列記憶手段
    と、部分文字列及び該部分文字列を一部に持つ単語群を
    対として記憶した部分文字列・単語テーブルと、前記部
    分文字列抽出手段により抽出された部分文字列で前記部
    分文字列・単語テーブルを検索し、該当単語群を得る単
    語候補検索手段と、該単語候補検索手段で検索された単
    語群と部分文字列群中の部分文字列とのマッチング回数
    を記憶する候補記憶手段と、前記単語候補検索手段で検
    索された単語群を前記候補記憶手段に記憶し、マッチン
    グ回数をカウントアップする候補カウンタ手段と、前記
    候補記憶手段の中で前記マッチング回数の最も多い単語
    候補を選択する単語候補選択手段と、該単語候補選択手
    段で選択された単語候補を出力する選択単語出力手段と
    から成り、入力単語に近い単語候補を出力することを特
    徴とする単語スペル自動補正装置。
  2. 【請求項2】 前記部分文字列抽出手段において、2文
    字連接を抽出することを特徴とする請求項1記載の単語
    スペル自動補正装置。
  3. 【請求項3】 前記部分文字列抽出手段において、2種
    類以上の部分文字抽出手段を有することを特徴とする請
    求項1記載の単語スペル自動補正装置。
  4. 【請求項4】 前記単語候補検索手段において、入力単
    語の単語長さと単語候補の単語の長さを比較する単語長
    比較手段を設け、単語長が近い単語候補のみを前記候補
    記憶手段に記憶することを特徴とする請求項1記載の単
    語スペル自動補正装置。
  5. 【請求項5】 前記部分文字列抽出手段において、3文
    字以上の連接を抽出することを特徴とする請求項1記載
    の単語スペル自動補正装置。
JP06944993A 1993-03-04 1993-03-04 単語スペル自動補正装置 Expired - Fee Related JP3241854B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP06944993A JP3241854B2 (ja) 1993-03-04 1993-03-04 単語スペル自動補正装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP06944993A JP3241854B2 (ja) 1993-03-04 1993-03-04 単語スペル自動補正装置

Publications (2)

Publication Number Publication Date
JPH06259468A JPH06259468A (ja) 1994-09-16
JP3241854B2 true JP3241854B2 (ja) 2001-12-25

Family

ID=13402963

Family Applications (1)

Application Number Title Priority Date Filing Date
JP06944993A Expired - Fee Related JP3241854B2 (ja) 1993-03-04 1993-03-04 単語スペル自動補正装置

Country Status (1)

Country Link
JP (1) JP3241854B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008107997A1 (ja) * 2007-03-08 2008-09-12 Fujitsu Limited 帳票種識別プログラム、帳票種識別方法および帳票種識別装置

Also Published As

Publication number Publication date
JPH06259468A (ja) 1994-09-16

Similar Documents

Publication Publication Date Title
US7809744B2 (en) Method and system for approximate string matching
JP3041268B2 (ja) 中国語誤り検査(cec)システム
US7752032B2 (en) Apparatus and method for translating Japanese into Chinese using a thesaurus and similarity measurements, and computer program therefor
US8539349B1 (en) Methods and systems for splitting a chinese character sequence into word segments
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US5542090A (en) Text retrieval method and system using signature of nearby words
US20160048528A1 (en) Indexing and search query processing
US7010519B2 (en) Method and system for expanding document retrieval information
JPH0877173A (ja) 文字列修正システムとその方法
JPH058464B2 (ja)
US5396419A (en) Pre-edit support method and apparatus
JP3241854B2 (ja) 単語スペル自動補正装置
JP3531222B2 (ja) 類似文字列検索装置
JP4047895B2 (ja) 文書校正装置およびプログラム記憶媒体
JPS61248160A (ja) 文書情報登録方式
JP3924899B2 (ja) テキスト検索装置およびテキスト検索方法
JP2002073656A (ja) 異表記正規化処理・異表記展開処理方法および該処理方法による文書検索方法、該処理装置および文書検索装置並びにプログラム記録媒体
JP4047894B2 (ja) 文書校正装置およびプログラム記憶媒体
JP4318223B2 (ja) 文書校正装置およびプログラム記憶媒体
JPH08115330A (ja) 類似文書検索方法および装置
JPH0991297A (ja) 文字列検索方法及び装置
JP4139805B2 (ja) 字句をデータに変換する装置、方法及びプログラム
JP2570784B2 (ja) 文書リーダ後処理装置
JP3139624B2 (ja) 形態素解析装置
JP2729342B2 (ja) 仮名漢字変換方法および装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071019

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081019

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081019

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091019

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101019

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111019

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121019

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees