JPS59221773A - Ocrの文字読取方式 - Google Patents

Ocrの文字読取方式

Info

Publication number
JPS59221773A
JPS59221773A JP58096565A JP9656583A JPS59221773A JP S59221773 A JPS59221773 A JP S59221773A JP 58096565 A JP58096565 A JP 58096565A JP 9656583 A JP9656583 A JP 9656583A JP S59221773 A JPS59221773 A JP S59221773A
Authority
JP
Japan
Prior art keywords
dictionary
characters
character
memory
reading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP58096565A
Other languages
English (en)
Inventor
Kiyohiko Kobayashi
清彦 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP58096565A priority Critical patent/JPS59221773A/ja
Publication of JPS59221773A publication Critical patent/JPS59221773A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 技術分前 本発明は、OCRにおける文字Ii元数取方式関する。
従来技術 一般に、漢字OCRにあっては読取対象となる文字が複
雑であることと種類が多いことからその辞書のためのメ
モリ容量が膨大となり、半纏体メモリ等の高速アクセス
可付目なメモリに全ての文字コードを収納させることが
不可能になっている。
そのため従来では、漢字をその使用頻度に応じて第1水
準と第2水準にグループ分げし、第1水学の辞書を半導
体メモリ等からなる内部メモリに常駐させ、その内部辞
書では認識不可という結果すなわちリジェクトが出たと
ぎには外部メモリに記憶させた第2水準の辞書を参照し
て文字の益取りを行なわせる方法が採用されている。
しかし、このよ5な従来のOCRKおける文字の読取り
の処理方法では、リジェクトが発生するたびにアクセス
時間の太ぎな外部メモリをそのつど参照するため、その
処理に長時間を要するものになってしまっている。
目的 本発明は以上の点を考慮してなされたもので、OCRに
おける辞書参照の処理時間の短縮化を図るようにしたO
CRの文字読取方式を提供するものである。
構成 以下、本発明の一実施例について詳述する。
本発明によるOCRの文字読取方式にあっては、基本的
には、文字の使用頻度に応じて辞書を第1水準と第2水
準とにグループ分げし、その第1水準および第2水準の
谷辞書を優先順位をもって順次参照しながら文字の読取
りを行なわせる工5にするものである。その際、OCR
の内部メモリにセットされた第1水準の辞書を参照しな
がら1ページもしくは複数ページからなる帳票の文字読
取りを行なわせるときにリジェクトが複数発生するのが
普通である。しかして、特に本発明では、リジェクトが
発生するたびに第2水準の辞書を参照するようなことな
く、そのリジェクトが生じた文字に関するマツプデータ
を逐次記憶保持させていきながら帳票の第1水準の辞書
参照による文字読取りを通して行なわせ、その完了後に
内部メモリの内容を第2水準の辞書に書き換えたうえで
、前記マツプデータにしたがってリジェクトとなった各
文字の再読取りの処理を一括して行なわせる手段をとる
工うにしている。
第1図は本発明によるOCRの文字読取方式を具体的に
実施するための一構成例を示すもので、コントローラ(
図示せず)の制御下において、帳票A面をスキャナ1に
エリ走査してその画情報を読み取り、その読み取られ1
こ画情報の中から処理対象となる文字のパターンデータ
文字切出部2に工り順次切り出し、その切り出された文
字のパターンデータCPから特徴抽出部3において文字
の特徴パラメータPを抽出させ、その抽出された特徴パ
ラメータPにもとづいて辞書検索部4においてその内部
メモリ5に記憶されている辞書を参照しながらパターン
認識を行なわせ、その認識された文字のコードデータC
Dをファイルメモリ6にI@欠送りてファイルさせてい
くようにしたものにあって、特に、第1水準、第2水準
の各辞書のデータエリア71.72およびワーキングエ
リア73をもつ1こ外部メモリ7と、スキャナ1によっ
て読み取られる帳票Aのページをカウントしていくペー
ジカウンタ8と、そのカウント内容および文字切出部2
かも与えられる現在切出中の文字の帳票A上におけるマ
トリクス座標位置のデータD、その文字の特徴パラメー
タPの各管理データを逐次更新しながら記憶していくと
ともに、辞書検索部4かもリジェクト信号Rが与えられ
たときの谷管理データが外部メモリ7のワーキングエリ
ア73内にロードされる管理データ記憶部9とを設ける
ことによって構成されている。
このような構成にあって、本発明では、まずコントロー
ラの制御下において外部メモリ7内の第1水準の辞書の
データを辞書検索部4の内部メモリ5に転送して記憶さ
せたうえで、帳票Aの文字読取りを開始させるようにす
る。その文字読取りは前述のようにスキャナ11文字切
出部2.特徴抽出部3および辞書検索部4を通して行な
われ、その読み取られた文字のコードデータCDがファ
イルメモリ6に1喧次ファイルされていく。その際、辞
書検索部4において文字のパターン認識に不可能を生じ
たとぎ、そのとぎ出されるリジェクト信号Rに応じて管
理データ記憶部9内の管理ブータラ外部メモリ7のワー
キングエリア73内にロードさせ、リジェクトとなった
文字に関するマツプを第2図に示す管理テーブルにした
がって作成していく。次に、1ページもしくは複数ペー
ジにわたる帳票Aの第1水準の辞書参照による文字読取
りが完了すると、例えば自動原稿送り装置からの原稿終
了信号に応じて、コントローラの制御下において外部メ
モリ7内の第2水準の辞書のデータ全辞書検索部4の内
部メモリ5に転送して辞書の沓ぎ換えを行なわせる。し
かるのち、外部メモリ7のワーキングエリア73内の管
理テーブルからりジエクトとなった文字の特徴パラメー
タを順次読み出して辞書検索部4に与え、そこで第2水
準の辞書参照によるパターン認識をなして先にリジェク
トとなった文字の再読取りを行なわせる。その際、コン
トローラにより管理テープ層の内容から再読取りがなさ
れている文字のページお工び行2列位1d、をg哩させ
ながら、その再a取りがなされた文字のコードデータC
Dをファイルメモリ6内の相当するアドレスレζ逐欠書
き込ませていく。
しかして本発明によるOCRの文字読取方式では、内部
メモリ5内の辞書の書換えを1回行なわせる必要がある
が、そのためのデータ転送時間をみてもリジエク)k生
じている多数の文字の再読取りを一括して高速で行なわ
せるととができるため、OCRにおける辞書参照の処理
時間の短縮化を有効に図ることができ、特に膜数ページ
にわたる帳票の一括処理をなすうえでより効果的となる
ま1こ、リジェクトが生じ1こ文字をマツプ管理しなが
ら外部メモリ7に記憶させる際に、特徴抽出部3によっ
て抽出された文字の特徴パラメータを記憶させ、リジェ
クトとなった文字の再読取り時にその文字の特徴パラメ
ータを辞書検索部4に直接与える工5にしているため、
再読取りの処理を迅速に行なわせることができる。
効果 以上、本発明によるOCRの文字読取方式にあっては、
内部メモリにセットされた辞書を参照しながら帳票に記
載された文字を読み取るOCRにおいて、文字の使用頻
度に応じて少なくとも2つにグループ分げされた第1水
準および第2水準の各辞書を選択的にOCRの内部メモ
リにセットgせる手段と、第1水準の辞書参照による文
字読取り時にリジェクトとなった文字の特徴量をマツプ
管理しながら記憶する手段とを用いて、第1水準の辞書
参照による帳票の文字読取り完了後に内部メモリ内の辞
書を第2水準の辞書VC曹ぎ換えて、リジェクトとなっ
ている文字の再読取りを一括して行なわせる工うにした
もので、従来の、c5にリジェクトが発生するたびに外
部メモリにセットされた辞書を参照して文字の絖取りを
行1よりせる場合に比して辞書参照の処理時間が短縮さ
れて、帳票の文字読取りを高速で行なわせることができ
るという優れた利点を有している。
【図面の簡単な説明】
第1図は本発明によるOCRの文字読取方式を具体的に
実砲するための一構成例を示すズロクク図、第2図はり
ジエクトを生じた文字の管理テーブルを示す図である。 1・・・スキャナ 2・・・文字切出部 3・・・特徴
抽出部 4・・・辞書検索部 5・・・内部メモリ 6
・・・ファイルメモリ 7・・・外部メモリ 8・・・
ページカウンタ 9・・・管理データ記憶部 出’QR人代理人 烏 井   清

Claims (1)

    【特許請求の範囲】
  1. 内部メモリにセットgれた辞書を参照しながら帳票に記
    載され1こ文字を読み取るOCRにおいて、文字の朗用
    頻度に応じて少なくとも2つにグループ分けされた第1
    水準およびM′fJ2水孕の各辞書を選択的にOCRの
    内部メモリvこセットサせる手段と、第1水準の辞書参
    照FC,1:る又字読取り時にリジェクトとなった文字
    の特徴量をマツプ管理しながら記憶する手段と音用いて
    、第1水準の辞書参照による(隈票の文字読取り完了後
    に内部メモリ内の辞書を第2水i鴨の辞書しこ舊ぎ換え
    て、リジェクトとなっている文字の再読取りを一括して
    行なわせるようにしたことを特徴とするOCRの文字現
    収方式。
JP58096565A 1983-05-31 1983-05-31 Ocrの文字読取方式 Pending JPS59221773A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58096565A JPS59221773A (ja) 1983-05-31 1983-05-31 Ocrの文字読取方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58096565A JPS59221773A (ja) 1983-05-31 1983-05-31 Ocrの文字読取方式

Publications (1)

Publication Number Publication Date
JPS59221773A true JPS59221773A (ja) 1984-12-13

Family

ID=14168547

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58096565A Pending JPS59221773A (ja) 1983-05-31 1983-05-31 Ocrの文字読取方式

Country Status (1)

Country Link
JP (1) JPS59221773A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63239569A (ja) * 1987-03-27 1988-10-05 Matsushita Electric Ind Co Ltd 文字認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63239569A (ja) * 1987-03-27 1988-10-05 Matsushita Electric Ind Co Ltd 文字認識装置

Similar Documents

Publication Publication Date Title
EP0369052A1 (en) Data base access system
JPH067385B2 (ja) キ−ワ−ド自動抽出方式
JPS59221773A (ja) Ocrの文字読取方式
JP3552318B2 (ja) 文書検索方法およびシステム
JPS59123084A (ja) 2次元像の標準化方法
JP2585606B2 (ja) 画像パターン検索方法
CN114490599A (zh) 一种证件号处理和检索的方法
JP2666931B2 (ja) 光学的文字読取装置
JPS58106665A (ja) 文字行切出し方法
JPH0991305A (ja) 情報処理方法及び装置
JPS5853393B2 (ja) モジヨミトリソウチ
JPH048816B2 (ja)
CN118260379A (zh) 一种文本中的敏感词快速检索方法、装置、设备及存储介质
JPS60123961A (ja) デ−タ記憶方法
JP2784004B2 (ja) 文字認識装置
JP2604787B2 (ja) 二次元データ格納方式
JP2618468B2 (ja) 文書処理装置
JPH09259132A (ja) 情報登録検索装置及びその方法
JP2746345B2 (ja) 文字認識の後処理方法
CN116737666A (zh) 一种高效的大数据存储文件结构及数据存储方法
CN117787258A (zh) 文档信息抽取方法及系统
JPH07104940B2 (ja) 図形認識装置
JP3720405B2 (ja) 領域識別装置及び方法
JPS62280968A (ja) 蓄積型画像情報編集システム
JPH06149897A (ja) 電子ファイル装置の文書画像検索方法