JPH03189891A - 辞書参照による知識処理を行う文字列読み取り装置 - Google Patents

辞書参照による知識処理を行う文字列読み取り装置

Info

Publication number
JPH03189891A
JPH03189891A JP1330700A JP33070089A JPH03189891A JP H03189891 A JPH03189891 A JP H03189891A JP 1330700 A JP1330700 A JP 1330700A JP 33070089 A JP33070089 A JP 33070089A JP H03189891 A JPH03189891 A JP H03189891A
Authority
JP
Japan
Prior art keywords
character string
character
dictionary
characters
ocr
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1330700A
Other languages
English (en)
Inventor
Yoshihiro Teramoto
寺本 義弘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PFU Ltd
Original Assignee
PFU Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PFU Ltd filed Critical PFU Ltd
Priority to JP1330700A priority Critical patent/JPH03189891A/ja
Publication of JPH03189891A publication Critical patent/JPH03189891A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔概 要〕 印字あるいは手書きで作成された文字列を読み取って認
識する文字列読み取り装置に関し、正しく認識できなか
った文字を含む文字列を正しい文字列に変換して認識す
ることを目的とし、作成された文字列を読み取って認識
する文字列読み取り装置において、予め記憶装置に登録
された文字列からなる単語を格納している辞書と、前記
認識された文字および/または前記認識することのでき
ない文字について当該文字を組み合わせた文字列の組を
作成する文字列作成部と、当該文字列作成部により作成
された各文字列を前記辞書から検索する処理と、前記辞
書に当該文字列に相当する単語が存在しなかった場合に
文字列のn桁目、n−1桁目、・・・の文字をそれぞれ
を確認文字とした文字列を前記辞書から検索する処理と
を行う知識処理部とから構成される装 〔産業上の利用分野] 本発明は、印字あるいは手書きで作成された文字列を読
み取って認識する文字列読み取り装置に関するものであ
る。
〔従来の技術〕
第5図を参照しつつ従来例を説明する。第5図は従来例
におけるブロック構成図である。図において、OCR装
置1は印字された文字列あるいは手書きの文字列を読み
取って認識するものである。
OCRサブルーチン2は、利用者プログラム3により呼
び出されるサブルーチンで利用者の作成した文字列をO
CR装置1に読ませ、認識した文字列をデータとして利
用者プログラム3に伝送する。したがって、利用者は利
用者プログラム3により前記文字列のデータに対して必
要な処理を行うことができる。
〔発明が解決しようとする課題〕
しかし、従来例におけるOCR装置では、印字あるいは
手書きで作成された文字列を正確に認識できずに、誤っ
た文字列として認識される場合があった。このようなデ
ータは、利用者が利用者プログラムにより処理しようと
しても文字列の誤りのために正確な処理が不可能であっ
た。
そこで本発明は、正しくδ忍識できなかった文字を含む
文字列を正しい文字列に変換して認識することを目的と
する。
〔課題を解決するための手段〕
第1図は本発明における原理ブロック構成図である。
第1図において、OCR装置1は、文字列を光学的に読
み取って認識することができる光学的文字認識装置であ
る。OCRサブルーチン2は、文字列作成部5と知識処
理部6とから構成される。
利用者プログラム3は、OCRサブルーチン2を呼出し
て利用者の作成した文字列をOCR装置1に読ませて認
識させ、そのデータを利用者プログラム3に伝送する。
辞書4は予め必要な単語が文字列の形で登録されている
前記OCRサブルーチン2における文字列作成部5は、
前記OCR装置1により認識された文字および/または
OCR装置1が認識できずにリジェクトされた文字につ
いて当該文字を組み合わせた文字列の組をテーブルの形
に作成する。また、OCRサブルーチン2における知識
処理部6は、前記文字列作成部5により作成された文字
列をもとに前記辞書4から検索して対応する単語が存在
するか否かを調べる処理と、対応する単語が存在しなか
った場合に前記文字列作成部5で作成された文字列のn
桁目、n−1桁口・・・の文字をそれぞれ確認文字とし
た文字列を前記辞書4から検索する処理と、前記OCR
装置1で認識することができずにリジェクトされて空白
となった文字を含む文字列にたとえば、ア、イ、つ・・
・のごとく、一つ一つ文字を当てはめた文字列を前記辞
書4から検索する処理とを行う。そして、たとえば、最
も正当とみなした文字列を利用者プログラム3へ送る。
〔作  用〕
利用者プログラム3は、当該プログラムに基づいてOC
Rサブルーチン2を呼び出し、OCR装置1に文字列を
読み取らせて認識させる。OCR装置1により認識され
た文字列は、OCRサブルーチン2の文字列作成aB5
によって文字を組み合わせた文字列の組を作る。また、
前記文字列がOCR装置1によって認識できずに、リジ
ェクトされた文字が存在する場合には、リジェクトされ
た文字を空白としたテーブルが作成される。このように
してできたテーブルの文字列は、それぞれ予め登録され
た辞書から検索され、対応する単語が存在すれば知識処
理結果となる。前記テーブルの文字列が前記辞書から検
索されない場合は、知識処理失敗となる。
〔実 施 例〕
第1図における本発明における原理ブロック構成因と、
第2図ないし第4図におけるフローチャートとを参照し
つつ本発明の一実施例を説明する。
先ず、OCR装置1によって文字列の全部が認識された
場合について第2図のフローチャートにしたがって説明
する。
たとえば、「テスト」という文字をOCR装置1が読み
取って認識し、この場合の各文字の第1候補は「ヲ」と
、「ヌ」と、「ト」とであったとし、各文字の第2候補
は「テ」と、「ス」と「ハ」とであったとする。OCR
サブルーチン2における文字列作成部5は、上記第1候
補「ヲ」、「ヌ」、「ト」および第2候補「テ」、「ス
」、「ハ」を組み合わせた文字列からなるテーブルを作
成する(ステップ■)。
すなわち、これらから作成される文字列は、次のような
8通りのテーブルになる。
「ラスト」、「ラヌハ」、「ラスト」、「ラスハ」、「
テスト」、「テヌハ」1「テスト」、「テスハ」 そして、辞書には予め「テスト」 (意味はテスト)お
よび「テスク」 (意味は手摺り)などが登録されてい
るものとする。
前記文字列作成部5により作成された上記8通りのテー
ブルからなる文字列が辞書4に登録されているかどうか
を優先順位の高いものから順次検索する(ステップ■)
上記文字列が辞書4に登録されている場合には、検索さ
れた文字列を知識処理結果とする(ステップ■)。今の
例で言えば最初に「ラスト」が検索されるために登録さ
れていないものとなる。勿論いつかは「テスト」が知識
処理結果として出力される。
上記テーブルの文字列が辞書4に登録されていない場合
には、次のステップ■に進み、前記第1候補の文字列の
n桁目を確認文字として辞書4を検索する(ステップ■
)。たとえば、第1候補の「ラスト」では「ト」が確認
文字となり、「ラヌロ」として検索される。この場合に
hitLなければステップ■からステップ■に戻る。
1桁の確認文字が「ト」の場合には、「ラヌロ」に相当
する単語が辞書4に存在しないものとすると、bitし
ないことになり(ステップ■)。
次にn−1桁の文字を確認文字とした「ラロロ」をもっ
て(ステップ■)辞書4を検索する(ステップ■)こと
となる、今仮に上記「ラロロ」が辞書のある単語例えば
「ライト」と−敗したとすると(ステップ■)、ステッ
プ■において、当該hiLした当該単語が上記「ラスト
」と一致するか否かを調べる(ステップ■) 当該「ラスト」の照合においては当該単語と一致しない
こととなり失敗となる(ステップ■)。
このようにして、上記8通りの文字列の場合には「テス
ト」が知識処理結果となる。
次に、OCR装置1によって読み取られた文字列にリジ
ェクト文字が1個存在して、その文字列の先頭にある場
合を第3図を参照しつつ説明する。
OCR装置lによって認識されなかった文字列の先頭文
字をフィールドのカテゴリー(たとえば。
「ア」、「イ」、「つ」、「工」、「オ」、・・・・・
・)にしたがって順次光てはめた文字列のテーブルを作
成する(ステップ■)。上記作成されたテーブルの文字
列、「アヌト」、「イヌト」、「ラスト」・・・が辞書
4に登録されているかどうかを検索する(ステップ■)
。上記文字列が辞書4に登録されていれば、その文字列
は知識処理結果としくステップ0)、辞書4に登録され
ていなければ、その文字列は知識処理失敗となる(ステ
ップ■)。この場合も「テスト」が知識処理結果となる
さらに、OCR装置1によって認識された文字列にリジ
ェクト文字が1個存在して、その文字列の2桁目以降に
ある場合を第4図を参照しつつ説明する。
たとえば、「テスト」という文字をOCR装置1が認識
した結果、2桁目にリジェクト文字があったとする。こ
の場合の第1候補は「テロト」で、第2候補は「ラロハ
」であったとする。OCRサブルーチン2における文字
列作成部5は、リジェクト文字位置までの候補文字を組
み合わせた文字列からなるテーブルを作成する(ステッ
プ0)。
すなわち、これらから作成される文字列のテーブルは、
「テロ口」、 「テロ口」、 となる。
上記「テコで始まる3桁の文字列と「う」で始まる3桁
の文字列とにおいて、リジェクト文字に「アイウェオ」
の順に一文字ずつ当てはめた文字列が辞書4に存在する
か否かを検索する(ステップ■)。上記3桁の文字列が
辞書4に存在しない場合は、知識処理失敗となる(ステ
ップ■)。上記リジェクト文字までが一致し、桁数が一
致する読みが辞書4に存在した場合は、リジェクト文字
以降の各文字候補が辞書4に存在しているか否かを検索
する(ステップ[有])。リジェクト文字以降の各文字
候補が辞書4に存在しない場合は、知識処理失敗となる
(ステップ0>。リジェクト文字以降の各文字候補が辞
書4に存在している場合は、その文字列を知識処理結果
とする(ステップ■)。
〔発明の効果〕
本発明によれば、認識された文字列と予め辞書に登録さ
れた文字列とを比較して、一致した文字列を知識処理結
果とするため、誤った読み取り結果を得ることが少ない
また、読み取られた文字の組を文字列として前記辞書を
検索する場合、確率の高い順に処理するので検索処理時
間が早くなる。
【図面の簡単な説明】
第1図は本発明における原理ブロック構la!!11第
2図はりジェクト文字が存在しない場合のフローチャー
ト、第3図はりジェクト文字が1個存在して先頭にある
場合のフローチャート、第4図はりジェクト文字が1個
存在して2桁目以降にある場合のフローチャート、第5
図は従来例におけるブロック構成図を示す。 1・・・OCR装置 2・・・OCRサブルーチン 3・・・利用者プログラム 4・・・辞書 5・・・文字列作成部 6・・・知識処理部

Claims (1)

  1. 【特許請求の範囲】  作成された文字列を読み取って認識する文字列読み取
    り装置において、 予め記憶装置に登録された文字列からなる単語を格納し
    ている辞書4と、 前記認識された文字および/または前記認識することの
    できない文字について当該文字を組み合わせた文字列の
    組を作成する文字列作成部5と、当該文字列作成部5に
    より作成された各文字列を前記辞書4から検索する処理
    と、前記辞書4に当該文字列に相当する単語が存在しな
    かった場合に文字列のn桁目、n−1桁目、・・・の文
    字をそれぞれを確認文字とした文字列を前記辞書4から
    検索する処理とを行う知識処理部6と、 を備えたことを特徴とする文字列読み取り装置。
JP1330700A 1989-12-20 1989-12-20 辞書参照による知識処理を行う文字列読み取り装置 Pending JPH03189891A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1330700A JPH03189891A (ja) 1989-12-20 1989-12-20 辞書参照による知識処理を行う文字列読み取り装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1330700A JPH03189891A (ja) 1989-12-20 1989-12-20 辞書参照による知識処理を行う文字列読み取り装置

Publications (1)

Publication Number Publication Date
JPH03189891A true JPH03189891A (ja) 1991-08-19

Family

ID=18235585

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1330700A Pending JPH03189891A (ja) 1989-12-20 1989-12-20 辞書参照による知識処理を行う文字列読み取り装置

Country Status (1)

Country Link
JP (1) JPH03189891A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05334360A (ja) * 1992-05-28 1993-12-17 Fujitsu Ltd 名称認識方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5856189A (ja) * 1981-09-30 1983-04-02 Comput Basic Mach Technol Res Assoc 文字認識装置
JPS61208187A (ja) * 1985-03-12 1986-09-16 Toshiba Corp 単語認識装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5856189A (ja) * 1981-09-30 1983-04-02 Comput Basic Mach Technol Res Assoc 文字認識装置
JPS61208187A (ja) * 1985-03-12 1986-09-16 Toshiba Corp 単語認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05334360A (ja) * 1992-05-28 1993-12-17 Fujitsu Ltd 名称認識方法

Similar Documents

Publication Publication Date Title
JPH08194719A (ja) 検索装置および辞書/テキスト検索方法
Chaudhuri et al. OCR error detection and correction of an inflectional indian language script
JPH03189891A (ja) 辞書参照による知識処理を行う文字列読み取り装置
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JPH0256086A (ja) 文字認識の後処理方法
JPS62180462A (ja) 音声入力かな漢字変換装置
JP2939945B2 (ja) ローマ字住所認識装置
JPH0546814A (ja) 文字読み取り装置
JPH0223490A (ja) 文字読取システム
JPS62285189A (ja) 文字認識後処理方式
JP2875678B2 (ja) 文字認識結果の後処理方法
JPH02118785A (ja) 誤認識修正方法及び装置
JP3725206B2 (ja) 文字認識装置
JPH0262659A (ja) 日本文訂正候補文字抽出装置
JP3245415B2 (ja) 文字認識方法
JPS63268082A (ja) パタ−ン認識装置
JPH076213A (ja) 文字列認識装置
JPS61226883A (ja) 文字認識装置
JPH09171539A (ja) 文字認識装置
JPH0546806A (ja) 文字認識方法
JPS5930176A (ja) 文字判定処理方式
JPH0614376B2 (ja) 日本文誤字自動検出装置
JPH04148290A (ja) 文字認識装置
JPS60138689A (ja) 文字認識方法
JPS59188783A (ja) 文字判定処理方式