JPH06223233A - 文字認識装置及びその方法 - Google Patents

文字認識装置及びその方法

Info

Publication number
JPH06223233A
JPH06223233A JP5010053A JP1005393A JPH06223233A JP H06223233 A JPH06223233 A JP H06223233A JP 5010053 A JP5010053 A JP 5010053A JP 1005393 A JP1005393 A JP 1005393A JP H06223233 A JPH06223233 A JP H06223233A
Authority
JP
Japan
Prior art keywords
character
memory device
dictionary
search table
recognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5010053A
Other languages
English (en)
Inventor
Hideji Murai
秀次 村井
Sachihiro Hibi
祥博 日比
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Engineering Co Ltd
Original Assignee
Hitachi Engineering Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Engineering Co Ltd filed Critical Hitachi Engineering Co Ltd
Priority to JP5010053A priority Critical patent/JPH06223233A/ja
Publication of JPH06223233A publication Critical patent/JPH06223233A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 小容量の高速アクセス可能なメモリ装置を有
効に用いて高速アクセス可能なメモリを有効に用いて経
済的かつ高速にに文字認識速度の改善を行なう。 【構成】 画像入力装置1から入力した文書画像情報を
文字切り出し手段3で切り出し、文字外形特徴検出手段
4で算出した外形特徴から、外形特徴のグループ毎に辞
書部18の検索範囲を限定する辞書検索テーブル15を
備える。この辞書検索テーブル15に格納する情報のう
ち、外形特徴の縦横比がほぼ同じグループのものを、小
容量の高速メモリ装置7に格納する。この構成によっ
て、特に和文文書を認識する場合、最も頻繁に出現する
標準文字を高速メモリ装置に格納された辞書検索テーブ
ル15の情報を参照して検索を行うため、経済的でかつ
高速処理を可能にする。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、活字に代表される印刷
文字等の文字を認識する文字認識装置に係わり、特に、
文字認識を高速で実現するのに好適な文字認識装置及び
その認識方法に係わる。
【0002】
【従来の技術】一般に、活字に代表される印刷文字等の
文字を認識する文字認識装置においては、入力文字パタ
ーンからその特徴パターンを抽出し、得られた特徴パタ
ーンを、予め認識文字の基本となる標準的な文字のパタ
ーンから算出し、辞書部に登録しておいた特徴パターン
と比較することによって、文字の認識を行っている。こ
の場合、抽出された特徴パターンを辞書部に登録した全
ての標準特徴パターンと比較するため、処理量が多くな
ってしまい、認識速度が遅くなってしまう。そこで、例
えば特開昭60−238986号公報等に知られるよう
に、辞書部に登録される上記認識文字の基本となる標準
的な文字パターンから算出した特徴パターンを、文字の
大きさ及び縦横の長さの比率に応じたグループ毎にまと
めて記憶し、辞書部の検索範囲を当該グループの範囲内
にとどめることによって処理量を減らす手法が提案され
ている。
【0003】すなわち、この従来技術により提案される
方法では、これら複数のグループ毎にまとめられた標準
特徴パターンは、メモリ装置により構成された辞書部内
に、文字の大きさ及び縦横の長さの比率に応じたグルー
プにまとめられ、所定のアドレス範囲で指定された領域
毎に記憶されている。すなわち、標準特徴パターンが記
憶されている辞書部の領域の先頭アドレスと最終アドレ
スが対応テーブルに記憶されている。そして、入力した
認識対象の文字パターンは、その特徴パターンが算出さ
れると共に、その文字の大きさ及び縦横の長さの比率に
よって4段階に分類したディメンションフラグが割り当
てられ、一方、正規化された文字パターンは、上記ディ
メンションフラグにより対応テーブルから指定される領
域内の標準特徴パターンと比較されることとなる。
【0004】一方、例えば1989年、モトローラ社発
行の「32ビット マイクロプロセッサー ユーザーズ
マニュアル("MC68040 32-BIT MICROPROCESSOR USER'S M
ANUAL", 1989 MOTOROLA INC.)」 にも示される様に、よ
く利用するメモリを効果的に高速メモリに配置する手法
として、データ キャッシュ(Data Cache)メモリが知ら
れている。
【0005】この方法では、CPU装置によってアクセ
スされたメモリ情報を近傍の高速メモリであるデータ
キャッシュ( Data Cache )に保持するものである。この
情報をCPU装置が再度必要とする時にこのデータ キ
ャッシュを使用して高速アクセスを実現する。そして、
このCPU装置のメモリ読み出し動作において、データ
キャッシュ上に当該情報が存在する場合を READ HIT
と、一方、存在しない場合を READ MISS と呼んでい
る。このデータ キャッシュに READ MISS が発生した場
合、メモリ装置から当該情報を読み出し、CPU装置に
その情報を提供すると共に、データ キャッシュ上にそ
の情報を保持する。データ キャッシュ上に存在しない
メモリ情報をCPU装置がアクセスして行くと、全ての
データ キャッシュには当該情報が保持されることとな
る。この時、READ MISS が発生した場合には、アルゴリ
ズム( Line Replacement Algorithm )に従って、最も優
先順位の低い情報を決め、新たに必要となったメモリ情
報とを入れ換える。
【0006】
【発明が解決しようとする課題】しかしながら、上記の
従来技術、特に前者の従来技術では、辞書情報及びそれ
がグループ毎に格納されている場所を記憶している辞書
検索テーブル情報の格納場所として、アクセス速度(読
み出し時間)が同一であるメモリ装置内にそのアドレス
を記憶することによって格納しており、未だ、高速アク
セス可能なメモリ装置を効率的に利用するという技術的
思想は存在していなかった。
【0007】また、後者のデータ キャッシュ メモリを
使用する手法においても、データキャッシュは、同一の
データを局所的に繰返しアクセスする処理に有効である
が、大量のメモリから離散的に読み出しを行なう場合に
は、READ MISS が頻繁に発生し、処理速度の改善が図れ
なくなる。特に、本発明の係わる文字認識装置のよう
に、和文の文字認識のように大量の辞書情報を広範囲に
参照する処理に適用した場合には、READ MISSが頻繁に
生じてしまい、有効に高速メモリを活用することは不可
能になるという課題があった。
【0008】すなわち、上述の従来技術では、特に前者
においては、アクセス回数の多い情報も、そうでない情
報についても、同じアクセス速度のメモリ装置内に記憶
していたため、さらに処理速度を改善するためには、ア
クセス速度が高速なメモリ装置が必要となるが、しか
し、高速メモリは高価であるため、文字を認識する文字
認識装置において必要な大容量のものを設けることは経
済的ではない。また、後者の小容量の高速メモリである
データ キャッシュを使用しても、特に和文の文字認識
のように大量の辞書情報を広範囲に参照する処理の高速
化に活用することはできなかった。
【0009】そこで、本発明では、小容量の高速メモリ
を有効に用い、文字を認識する文字認識装置における経
済的な処理速度の改善を目的とするものであり、特に、
メモリ装置内に大量に記憶する文字パターン辞書情報
を、高速でかつ効果的な処理が可能なようにメモリ装置
内に格納するための文字パターン辞書情報の改良された
分類方法及びそれを利用した文字認識装置及びその方法
を提供することをその目的とするものである。
【0010】
【課題を解決するための手段】本発明は、認識対象であ
る入力文字パターンから入力文字の特徴パターンの算出
を行なって辞書情報を格納しているメモリ位置を検索す
る際に、辞書検索テーブル情報のアクセスが各文字毎に
必要であり、かつ、この辞書検索テーブルのうち、特
に、縦横比がほぼ等しい分類のものが頻繁にアクセスさ
れること、さらに、この縦横比がほぼ等しい分類のもを
高速にアクセス可能なメモリ内に配置することによっ
て、文字認識装置の処理時間を効果的にかつ高速に改善
できること等の発明者等の認識に基づくものである。
【0011】そこで、上記本発明の目的を達成するため
に提案される手段としては、上記発明者等の認識に基づ
き、まず第1に、認識すべき文字を読み取る画像入力手
段と、認識すべき文字の基本となる標準的な文字のパタ
ーンから算出した特徴パターンを被検索文字について記
憶する辞書部と、前記辞書部に記憶した被検索文字のア
ドレス情報を記憶しておく辞書検索テーブルと、前記画
像入力手段からの画像信号を処理して認識すべき文字の
特徴パターンを算出し、当該算出された特徴パターンに
基づいて前記辞書検索テーブルを参照しながら前記辞書
部に記憶された被検索文字の特徴パターンと比較しなが
ら文字候補を選出する文字認識装置において、さらに、
前記画像入力手段からの画像信号を処理して認識すべき
文字の外形特徴である文字外形特徴を検出する手段を設
け、当該文字外形特徴検出手段により算出される文字外
形特徴の中で最も頻繁に出現する文字外形特徴を備えた
被検索文字群に関する前記辞書検索テーブルを、前記辞
書部及びその他の辞書検索テーブルを格納したメモリ装
置よりも高速にアクセス可能な高速メモリ装置内に格納
したことを特徴とする文字認識装置が提案されている。
【0012】また、本発明によれば、やはり、上記の目
的を達成する手段として、認識すべき文字を光学的に読
み取る画像入力手段と、被検索文字の特徴パターンに関
する情報を記憶する辞書部を備えたメモリ装置と、前記
画像入力手段からの画像信号を処理して認識すべき文字
から特徴パターンを算出し、当該算出した特徴パターン
に基づいて前記メモリ装置内に記憶した情報と比較しな
がら該当する文字を選択する演算制御部と、前記演算制
御部により選択された文字を表示する表示手段とを含む
文字認識装置であって、前記メモリ装置はアクセス速度
の異なる複数のメモリ装置から構成されており、かつ、
被検索文字群の一部の文字群に関する前記辞書部のアド
レスに関する情報を、前記演算制御部のプログラムを配
置したメモリ装置と同一のメモリ装置内に配置したこと
を特徴とする文字認識装置が提案されている。
【0013】さらに、上記本発明の目的を達成するた
め、認識すべき文字を光学的に読み取る画像入力手段か
らの画像信号を処理して認識すべき文字から特徴パター
ンを算出し、当該算出した特徴パターンに基づいてメモ
リ装置内に記憶した情報と比較することによって該当す
る文字を被検索文字群から選択して表示する文字認識方
法において、前記認識すべき文字の外形特徴を算出し、
当該算出された外形特徴に基づいて異なるアクセス速度
で前記メモリ装置内に記憶した情報と比較することを特
徴とする文字認識方法が案出されている。
【0014】すなわち、本発明によれば、具体的には、
比較的大容量の低速メモリ装置と、小容量の高速メモリ
を備えた文字認識装置において、認識すべき文字の画像
入力信号から外形特徴を算出し、特に縦横比がほぼ等し
いグループの辞書検索テーブルを高速メモリに配置し、
それ以外のグループに属する、辞書検索テーブル情報お
よび、辞書情報全てを低速メモリに配置するものであ
る。
【0015】
【作用】すなわち、上記の本発明の構成によれば、特に
和文等の文字認識を行なった場合、縦横比がほぼ等しい
外形特徴を持つ文字の出現頻度が高いことから、辞書検
索に使用される辞書検索テーブルを、複数のアクセス速
度の異なるメモリ装置の内の高速アクセス可能なメモリ
装置内に配置し、高速なアクセス速度により迅速に検索
処理し、もって、文字認識装置全体としての平均的な文
字認識処理速度を経済的に向上可能とするものである。
【0016】
【実施例】以下、本発明の一実施例について、添付の図
面を参照しながら詳細に説明する。 図1には、本発明
の一実施例に係わる文字認識方法を実施する文字認識装
置の全体構成が示されている。この図1において、画像
入力装置1では、認識すべき文字や文書を、例えばCC
Dセンサー等により構成される画像入力部9で光学的に
読み取り、その出力信号を2値化部10によって2値化
を行なう。この画像入力装置1からの2値化された情報
は、一旦、文字画像情報記憶手段2に格納される。その
後、この文字画像情報記憶手段2に格納された文字画像
情報は、文字切り出し手段3により、1文字角単位の画
像情報に切り出される。そして、この1文字角単位に切
り出された画像情報は、さらに、正規化手段5及び文字
外形特徴検出手段4に渡される。
【0017】まず、この正規化手段5では、切り出した
文字の大きさを、特定の大きさに収縮あるいは伸張し、
大きさの違う文字や、画像入力装置1の読み取り誤差に
対応する。一方、文字外形特徴検出手段4では、切り出
した文字画像から文字外形の特徴を抽出し、縦横比がほ
ぼ等しいもの、横に長いもの、平均的文字サイズよりも
小さいものに分類する。これらの分類としては、例えば
上記のような文字の場合、それぞれ、標準、縦長、横
長、小文字としている。
【0018】これら文字外形特徴検出手段4及び正規化
手段5の出力は、次に、辞書検索手段6に入力される。
より具体的には、上記正規化手段5によって正規化され
た切り出し文字画像に対して、特徴量算出手段11は、
その文字の持つ固有の特徴量を算出し、これを距離算出
手段13に渡す。一方、上記の文字外形特徴検出手段4
で算出した文字の外形特徴は、辞書検索テーブル参照手
段12が受け取り、該当する外形特徴に属する辞書検索
テーブル15(図中、破線で示されている)の参照を行
なう。続いて、距離算出手段13は、辞書部18を参照
し、前記特徴量算出手段11が計算した特徴量から、後
に詳細に説明するが、距離を計算する。すなわち、この
距離の算出は、辞書と文字画像の特徴量を比較計算する
ことで類似度を算出するものである。
【0019】この距離算出手段13による距離の算出処
理を、1つの分類に含まれる全辞書に対して行ない、そ
の結果を候補選出手段14に伝える。この候補選出手段
14では、距離の算出を行なった結果に基づいて、一番
近い距離を持つ辞書情報から候補を選出し、該当する辞
書検索テーブル15の文字コードを、結果として、例え
ばCRT等により構成される認識結果表示手段19によ
り利用者に報告する。また、上記文字切出し手段3、文
字外形特徴検出手段4、正規化手段5、及び、辞書検索
手段は、例えばコンピュータ等の演算装置により構成さ
れ得る。
【0020】なお、上記図1にも明かなように、本発明
によれば、文字外形特徴検出手段4で算出した文字の外
形特徴(標準、縦長、横長、小文字等の分類)により検
索する辞書検索テーブル15、及び、距離算出手段13
が算出した距離(類似度)により候補を算出するための
辞書部18は、記憶装置である、いわゆるメモリ装置に
より構成されているが、このメモリ装置は、複数のアク
セス速度を有する装置、すなわち、高速アクセスが可能
な高速メモリ装置7及び前記高速メモリ装置のアクセス
速度よりも低速でアクセス可能な低速メモリ装置8から
構成されている。辞書部18は、その全体が低速メモリ
装置8により構成され、そして、辞書検索テーブル15
は、その一部が低速メモリ装置8により、さらに、他の
一部は高速メモリ装置7により構成されている。すなわ
ち、この辞書検索テーブル15は、高速辞書検索テーブ
ル16と低速辞書検索テーブル17とから構成されてい
る。
【0021】次に、添付の図2により、上記の図1に示
した文字認識装置の処理手順をフローチャートにより示
す。この図2において、処理が開始(ステップ101)
されると、画像入力装置1の文書画像情報入力部9から
入力された文書画像情報を読み取る(ステップ10
2)。続いて、入力された文書画像情報を、2値化部1
0で2値化の処理を行う(ステップ103)。
【0022】2値化された情報は、1文字角単位の画像
情報が切り出され、大きさの違う文字や、画像入力装置
1の読み取り誤差に対応するため、切り出した文字の大
きさを特定の大きさに収縮または伸張することにより、
正規化を行う(ステップ104)。さらに、切り出した
文字画像から文字外形の特徴を算出し(ステップ10
5)、特に、文字外形の特徴、すなわち、文字の縦横比
率から文字外形特徴を検出する(ステップ106)。す
なわち、抽出した切り出し文字画像から、文字外形の特
徴を、縦横比がほぼ等しいもの、横に長いもの、平均的
文字サイズよりも小さいものに分類し、これらの分類
は、それぞれ、標準文字、縦長文字、横長文字、小文字
としている。
【0023】そして、1文字分の辞書検索テーブル参照
処理を行うが(ステップ107)、この時、本発明によ
れば、上記で説明した文字外形の特徴に基づいて、すな
わち、その文字外形特徴に属する分類(標準文字、縦長
文字、横長文字、小文字)に従って、辞書検索テーブル
15による検索を選択的に行う。ここで、図1に戻り、
辞書検索テーブル15の構造を参照すると、高速メモリ
装置7に配置された高速辞書検索テーブル16と、低速
メモリ装置8に配置された低速辞書検索テーブル17か
ら構成されており、さらに、高速辞書検索テーブル16
には、文字外形特徴から標準文字の分類に属する文字の
データ(文字コードと先頭アドレス)が、低速辞書検索
テーブル17には縦長文字、横長文字、及び小文字に属
する分類の文字のデータ(文字コードと先頭アドレス)
が記憶されている。
【0024】すなわち、本発明では、認識対象である入
力文字外形から入力文字の外形特徴の算出を行なって、
辞書情報を格納しているメモリ位置、すなわち、辞書部
18の文字コードと先頭アドレスを検索する際に、辞書
検索テーブル15のアクセスが入力された各文字毎に必
要であり、その際、この辞書検索テーブル15のうち、
特に、縦横比がほぼ等しい標準文字に分類されるものが
頻繁にアクセスされることが、発明者等により初めて認
識されたことに基づいており、辞書検索テーブル15の
中の標準文字の辞書検索テーブルを高速メモリ装置7に
配置することにより、この標準文字辞書検索テーブルを
高速辞書検索テーブル16としている。一方、それ程頻
繁にアクセスされない縦長文字、横長文字、小文字の辞
書検索テーブルは低速メモリ装置8内に配置することに
より低速辞書検索テーブル17としている。
【0025】このように、本発明によれば、文字認識装
置において、特にアクセス回数の多い縦横比がほぼ等し
い標準文字分類のものを、高速にアクセス可能なメモリ
内に配置することによって、文字認識装置の処理時間を
効果的にかつ高速に改善するものである。
【0026】再び、図2のフローチャートに戻って、1
文字分の辞書検索テーブル参照処理を行った(ステップ
107)後、検索した辞書検索テーブルに基づいて、辞
書部(図1の参照番号18)の辞書情報との参照を行い
(ステップ108)、図1の特徴量算出手段11により
算出した特徴量と上記辞書情報との比較計算することで
類似度を算出することにより、辞書との距離を計算する
(ステップ109)。その後、上記の処理を当該テーブ
ルの全辞書について参照を行ったか否かを判断し(ステ
ップ110)、その結果「真」であると判断された場合
には次のステップへ、他方、「偽」と判断される場合に
は再び上記ステップ108へ戻る。
【0027】上記ステップ110で「真」と判断され
た、すなわち上記の処理を当該テーブルの全辞書につい
て参照を行った場合には、図1の候補選出手段14で
は、距離の算出を行なった結果より一番近い距離を持つ
辞書情報から候補を選出し(ステップ112)、該当す
る辞書検索テーブル15の文字コードを結果として認識
結果表示手段19で利用者に報告し(ステップ11
3)、その後、処理を終了する(ステップ114)。
【0028】続いて、上記文字認識装置の各部の詳細に
ついて以下に説明する。まず、添付の図3及び図4によ
り、文字切出し処理について説明する。この図3には、
画像入力装置1によって読み込まれた「文字認識装置を
図1−aに示す」という文書画像情報が示されており、
この画像情報は図1の2値化部10で2値化処理が行わ
れた後、文書画像情報記憶手段2へ格納され、文字切り
出し手段3によって文字切出しが行われる。この例で
は、図の横方向に走査を行い、黒い点のある数を累積計
算を行うことにより、いわゆる横投影分布Shを得る。
そして、この横投影分布Shの中で黒い点が多く分布す
る部分から行の存在する位置を識別することとなる。
【0029】このようにして行のある位置を識別した後
に、縦方向に縦投影分布Svを取る。そして、得られた
投影分布Svから、黒い点が多く分布する部分から、1
文字が存在する矩形の枠を求める。このようにして、図
3に示した文書画面情報「文字認識装置を図1−aに示
す」を各文字毎に切り出して切出し枠が得られる。ま
た、この切出し処理は第1段階の切出し処理であり、こ
のようにして得られた切出し枠は第1段階文字切出し枠
F1である。
【0030】続いて、図4に示すように、得られた第1
段階文字切出し枠F1内の全域を走査し、文字の最大高
さHと幅Wを決定し、文字の矩形の左右上下の4点を探
し、これによって、文字に外接する文字外接矩形Fを求
める。この図4(a)、(b)、(c)、(d)には、
4つの文字「文」、「1」、「−」、「a」に対して求
められた文字外接枠が符号F、F…により示されてい
る。
【0031】続いて、上記文字認識装置の文字外形特徴
検出手段4における文字外形特徴の検出処理について説
明する。すなわち、上記文字切出し処理により図4
(a)、(b)、(c)、(d)に示すように、その縦
横の比率(H:W)から文字外形特徴を求める。この縦
横比を計算するにより、文書文字は、一般に、例えば図
4(a)に示すような縦横比がほぼ等しい「標準文
字」、図4(b)に示すように縦横比が大きい「縦長文
字」、図4(c)に示すように縦横比が小さい「横長文
字」、そして、図4(d)に示すように縦横比がほぼ等
しいが他の文字外形に比較して小さい「小文字」とに分
類することが可能である。
【0032】そして、本発明によれば、この図4(a)
に示すような、特にアクセス回数の多い縦横比がほぼ等
しい「標準文字」について、その辞書検索テーブルとの
参照処理を特に高速で行うこと、言い替えれば高速にア
クセス可能な高速メモリ装置7内に配置することによっ
て、文字認識装置全体の処理時間を効果的にかつ高速に
改善しようとするものである。
【0033】続いて、図5には、いわゆる文字の正規化
処理についての一例が具体的に示されている。上記のよ
うに、各文字の大きさ(すなわち、画素数)は、上記の
文字切出し処理によって得られた文字外接枠Fから決定
される。例えば、図5(a)の文字「文」は縦が26画
素、横が28画素、文字「字」については縦26画素、
横25画素、文字「認」については縦横共に25画素、
そして、文字「識」については縦26画素、横29画素
である。そこで、正規化では、これら縦横の比率を一定
に、例えば図5(b)に示すように、各文字の縦横の画
素数を共に32画素分の大きさに変換している。このよ
うに、正規化処理によって、読み込んだ各文字の大きさ
が異なる文書に対しても、同じ辞書部18の情報を用い
て辞書検索を行い、文字認識処理を可能にするものであ
る。
【0034】さらに、添付の図6には、本発明の特徴部
分を成す辞書検索テーブル15と辞書部18の詳細な構
成が示されている。図の左側には、標準文字、縦長文
字、横長文字、小文字等、認識すべき文字の外形特徴に
対応した4つのテーブルから構成されたいわゆる辞書検
索テーブル15が、図の右側には、辞書部18のアドレ
スと辞書内容が示されている。既述のように、本発明に
よれば、アクセス回数の多い標準文字のための辞書検索
テーブルは、高速アクセス可能な高速メモリ装置7内に
配置され、一方、縦長文字、横長文字、小文字の外形特
徴に対応した辞書検索テーブルは、これよりアクセス速
度の遅い、いわゆる低速メモリ装置8内に配置されてい
る。また、本実施例では、辞書部18の16進アドレス
(00000)〜(0FFFF)番地は標準文字辞書
に、アドレス(10000)〜(1FFFF)番地は縦
長文字に、アドレス(20000)〜(2FFFF)番
地は横長文字に、そして、アドレス(30000)〜
(3FFFF)番地は小文字に割り当てられている。
【0035】また、それぞれの検索テーブル(すなわ
ち、標準文字、縦長文字、横長文字、小文字テーブル)
には、文字コードと、辞書情報が格納されている辞書部
18上の先頭アドレスが格納されている。すなわち、辞
書部18には、あらかじめ認識文字の基本となる標準的
な文字のパターン(標準文字パターン)から算出した特
徴量が、認識対象とする文字数分だけ格納されている。
これにより、標準文字パターンから算出した特徴量は、
上記の特徴量算出手段11と同じアルゴリズムで算出さ
れ、辞書部18に格納されている。また、この時の先頭
アドレスを、上記文字外形特徴検出手段4と同様な外形
特徴の分類(すなわち、文字の縦横比により「標準文
字」、「縦長文字」、「横長文字」、「小文字」に分類
する)を行ない、該当する辞書検索テーブル15(この
例では、高速メモリ装置7内)にあらかじめ登録してお
く。このように、辞書検索テーブルを複数に分けること
により、ある1つの外形特徴に属する辞書情報だけを参
照し、全辞書を参照しなくてもよい構成としている。さ
らに、本発明によれば、最も出現頻度の高い外形特徴の
分類の文字(具体的には、縦横比がほぼ等しい「標準文
字」)の辞書検索テーブルを、高速にアクセス可能な高
速メモリ装置7内に配置し、それ以外のグループに属す
る辞書検索テーブル15(具体的には、「縦長文字」、
「横長文字」及び「小文字」)と、辞書部18の情報は
安価な低速メモリ装置8に記憶することにより、文字認
識装置の処理時間を効果的にかつ高速に改善し、同時
に、経済的な構成としている。
【0036】続いて、図7には、本実施例における高速
アクセスを行うことの可能な高速メモリ装置7と、これ
に比して低速でアクセスする低速メモリ装置8の動作を
説明するため、すなわち、それぞれのメモリ装置におけ
るメモリ・アクセス・タイミングチャートが示されてい
る。図7(a)における高速メモリ・アクセスにおける
動作は、同期信号に同期したアドレス信号が出力される
ことで、当該アドレスのメモリアクセスが開始され、そ
の後、アドレス信号が確定した時点で、データバス出力
制御信号がメモリデータの出力開始指令を発する。これ
を受けて高速メモリは、データ信号を確定する。メモリ
からのデータ信号の読み出しが完了すると、データ出力
制御信号のメモリデータの出力開始指令を終え、メモリ
アクセスを完了する回路構成になっている。この様な構
成における高速メモリ装置7へのアクセスは、1周期の
同期信号で情報の読み出しが可能である。
【0037】これに対し低速メモリ装置8のアクセス動
作では、図7(b)に示すように、2周期の同期信号で
行なわれる構成となっている。このことは、辞書検索テ
ーブル参照手段12からは高速メモリ装置7に比べて低
速メモリ装置8の参照時間は見かけ上2倍の時間を必要
とすることとなる。
【0038】さらに、図8には、図1における辞書検索
手段6及び距離算出手段13から見た、高速メモリ装置
7及び低速メモリ装置8のアドレス・イメージを示して
いる。この図8において、低速メモリ装置8上の16進
アドレス(00000)〜(3FFFF)番地には辞書
部18が、アドレス(40000)〜(43FFF)番
地には低速辞書検索テーブル(「縦長」、「横長」、
「小文字」の辞書検索テーブルを含む)が配置されてい
る。一方、高速メモリ上の16進アドレス(4400
0)〜(45FFF)番地には、「標準」文字のための
高速辞書検索テーブルを配置し、高速辞書参照を実現し
ている。また、上記図2に示すフローチャートに従って
高速に処理を進めるように、そのプログラムを16進ア
ドレス(46000)から(47FFF)番地の高速メ
モリ装置7上に配置している。
【0039】このようなメモリ構成によれば、高速メモ
リ装置7内に配置した16進アドレス(44000)〜
(47FFF)番地をアクセスすると、参照時間が短時
間に行なわれ、一方、低速メモリ装置8内を配置したア
ドレス(00000)〜(43FFF)番地をアクセス
すると 参照時間がより多く必要になる構成となってい
る。また、図のアドレス(00000)〜(43FF
F)番地には、プログラムが格納されている。この様な
メモリ構成の文字認識装置では、特に和文文書に記述さ
れる文字の外形特徴の多くが、最多出現文字の外形の縦
横比がほぼ等しい標準文字であるため、その処理速度を
経済的に、かつ、その処理効率良く改善することが可能
になる。
【0040】
【発明の効果】上記本発明の詳細な説明からも明らかな
ように、本発明による文字認識装置及び文字認識方法に
よれば、例えば和文等の文字認識を行なった場合、認識
すべき文字の図形情報から算出される特徴パターンを辞
書内に記憶した文字と比較検索するために使用される辞
書検索テーブルを、その中でも特に出現頻度の高い縦横
比がほぼ等しい外形特徴を持つ文字の辞書検索テーブル
だけをを、異なるアクセス速度を有する複数のメモリ装
置の内の高速アクセス可能なメモリ装置内に配置するこ
とにより、比較的大容量が得られる低速メモリ装置と、
一方、高価であるが小容量の高速メモリ装置を効率的に
使用し、もって、文字認識装置全体としての平均的な文
字認識処理速度を経済的に向上可能としするという優れ
た効果を発揮することとなる。
【図面の簡単な説明】
【図1】本発明の一実施例に係わる文字認識装置の全体
構成を示すブロック図である。
【図2】上記本発明の文字認識装置の処理手順を示すた
めのフローチャートである。
【図3】上記本発明の文字認識装置における文字切出し
処理を説明するための図である。
【図4】上記文字認識装置における文字外接枠切出し処
理を説明するための図である。
【図5】上記文字認識装置における切り出した文字の正
規化処理を説明するための図である。
【図6】上記文字認識装置における辞書検索テーブルの
構成を示すブロック図である。
【図7】上記文字認識装置の高速メモリ装置及び低速メ
モリ装置のアクセスタイミングの例を示すメモリ・アク
セス・タイミングチャートである。
【図8】上記の高速メモリ装置及び低速メモリ装置のア
ドレス・イメージを示した説明図である。
【符号の説明】
1 画像入力装置 2 文書画像情報記憶手段 3 文字切り出し手段 4 文字外形特徴検出手段 5 正規化手段 6 辞書検索手段 7 高速メモリ装置 8 低速メモリ装置 9 文書画像情報入力部 10 2値化部 11 特徴量算出手段 12 辞書検索テーブル参照手段 13 距離算出手段 14 候補選出手段 15 辞書検索テーブル 16 高速辞書検索テーブル 17 低速辞書検索テーブル 18 辞書部 19 認識結果表示手段

Claims (12)

    【整理番号】 【特許請求の範囲】
  1. 【請求項1】 認識すべき文字を読み取る画像入力手段
    と、認識すべき文字の基本となる標準的な文字のパター
    ンから算出した特徴パターンを被検索文字について記憶
    する辞書部と、前記辞書部に記憶した被検索文字のアド
    レス情報を記憶しておく辞書検索テーブルと、前記画像
    入力手段からの画像信号を処理して認識すべき文字の特
    徴パターンを算出し、当該算出された特徴パターンに基
    づいて前記辞書検索テーブルを参照しながら前記辞書部
    に記憶された被検索文字の特徴パターンと比較しながら
    文字候補を選出する文字認識装置において、さらに、前
    記画像入力手段からの画像信号を処理して認識すべき文
    字の外形特徴である文字外形特徴を検出する手段を設
    け、当該文字外形特徴検出手段により算出される文字外
    形特徴の中で最も頻繁に出現する文字外形特徴を備えた
    被検索文字群に関する前記辞書検索テーブルを、前記辞
    書部及びその他の辞書検索テーブルを格納したメモリ装
    置よりも高速にアクセス可能な高速メモリ装置内に格納
    したことを特徴とする文字認識装置。
  2. 【請求項2】 前記請求項1において、前記高速メモリ
    装置内に格納される最も頻繁に出現する文字外形特徴を
    備えた被認識文字群は、その縦横比率がほぼ等しい文字
    であることを特徴とする文字認識装置。
  3. 【請求項3】 認識すべき文字を光学的に読み取る画像
    入力手段と、被検索文字の特徴パターンに関する情報を
    記憶する辞書部を備えたメモリ装置と、前記画像入力手
    段からの画像信号を処理して認識すべき文字から特徴パ
    ターンを算出し、当該算出した特徴パターンに基づいて
    前記メモリ装置内に記憶した情報と比較しながら該当す
    る文字を選択する演算制御部と、前記演算制御部により
    選択された文字を表示する表示手段とを含む文字認識装
    置であって、前記メモリ装置はアクセス速度の異なる複
    数のメモリ装置から構成されており、かつ、被検索文字
    群の一部の文字群に関する前記辞書部のアドレスに関す
    る情報を、前記演算制御部のプログラムを配置したメモ
    リ装置と同一のメモリ装置内に配置したことを特徴とす
    る文字認識装置。
  4. 【請求項4】 前記請求項3において、前記演算制御部
    は、前記画像入力手段からの画像信号を処理して認識す
    べき文字から特徴パターンを算出する際、前記画像信号
    を切り出す文字切出し手段と、切り出された文字を正規
    化して文字固有の特徴量を算出する手段と、さらに、切
    り出された文字の外形特徴を算出する文字外形特徴検出
    手段とを備えていることを特徴とする文字認識装置。
  5. 【請求項5】 前記請求項4において、前記プログラム
    と共に同一のメモリ装置内に配置された前記被検索文字
    群の一部に関する辞書部のアドレス情報は、前記メモリ
    装置の内、高速アクセス可能なメモリ装置内に配置され
    ていることを特徴とする文字認識装置。
  6. 【請求項6】 前記請求項5において、前記メモリ装置
    は、前記被検索文字の特徴パターンに関する情報を記憶
    する辞書部に加え、前記辞書部における特徴パターンの
    アドレス情報である辞書検索テーブルを含んでおり、か
    つ、前記高速アクセス可能なメモリ装置内には、被検索
    文字群の一部の文字群に関する前記辞書検索テーブルを
    配置したことを特徴とする文字認識装置。
  7. 【請求項7】 前記請求項6において、前記高速アクセ
    ス可能なメモリ装置内に記憶された前記辞書検索テーブ
    ルは、被検索文字群の内、その外形特徴において縦横比
    がほぼ等しい文字群だけに関する前記辞書検索テーブル
    であることを特徴とする文字認識装置。
  8. 【請求項8】 前記請求項6において、被検索文字群の
    内、その外形特徴において縦横比が等しくない類型の文
    字群に関する前記辞書検索テーブルは、前記メモリ装置
    の高速アクセス可能なメモリ装置内に格納されているこ
    とを特徴とする文字認識装置。
  9. 【請求項9】 前記請求項6において、外形特徴におい
    て縦横比がほぼ等しい文字群だけに関する前記辞書検索
    テーブルを格納した前記高速アクセス可能なメモリ装置
    は、キャッシュメモリであることを特徴とする文字認識
    装置。
  10. 【請求項10】 前記請求項6において、前記辞書部に
    おける特徴パターンのアドレス情報である辞書検索テー
    ブルは、文字コードと先頭アドレスとの情報を含んでい
    ることを特徴とする文字認識装置。
  11. 【請求項11】 認識すべき文字を光学的に読み取る画
    像入力手段からの画像信号を処理して認識すべき文字か
    ら特徴パターンを算出し、当該算出した特徴パターンに
    基づいてメモリ装置内に記憶した情報と比較することに
    よって該当する文字を被検索文字群から選択して表示す
    る文字認識方法において、前記認識すべき文字の外形特
    徴を算出し、当該算出された外形特徴に基づいて異なる
    アクセス速度で前記メモリ装置内に記憶した情報と比較
    することを特徴とする文字認識方法。
  12. 【請求項12】 前記請求項10において、認識すべき
    文字の切り出した文字外形の縦横比から特徴パターンを
    算出し、この縦横比が所定の値にある出現頻度の高い文
    字の場合には、高速アクセス可能なメモリ装置内に格納
    した、所定の限定されて被検索文字群の辞書アクセス情
    報と比較を行うことによって異なるアクセス速度で前記
    メモリ装置内に記憶した情報と比較することを特徴とす
    る文字認識方法。
JP5010053A 1993-01-25 1993-01-25 文字認識装置及びその方法 Pending JPH06223233A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5010053A JPH06223233A (ja) 1993-01-25 1993-01-25 文字認識装置及びその方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5010053A JPH06223233A (ja) 1993-01-25 1993-01-25 文字認識装置及びその方法

Publications (1)

Publication Number Publication Date
JPH06223233A true JPH06223233A (ja) 1994-08-12

Family

ID=11739655

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5010053A Pending JPH06223233A (ja) 1993-01-25 1993-01-25 文字認識装置及びその方法

Country Status (1)

Country Link
JP (1) JPH06223233A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000040123A (ja) * 1998-07-23 2000-02-08 Ricoh Co Ltd 文字認識方法及び文字認識プログラムを記録した媒体
KR100470346B1 (ko) * 2002-06-07 2005-02-07 주식회사 팔만시스템 이미지의 클러스터링 방법 및 이 방법을 이용하여 문자를고속으로 입력 및 교정하는 방법
JP2009122813A (ja) * 2007-11-13 2009-06-04 Seiko Epson Corp 文字サイズ判定装置および文字サイズ判定方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000040123A (ja) * 1998-07-23 2000-02-08 Ricoh Co Ltd 文字認識方法及び文字認識プログラムを記録した媒体
KR100470346B1 (ko) * 2002-06-07 2005-02-07 주식회사 팔만시스템 이미지의 클러스터링 방법 및 이 방법을 이용하여 문자를고속으로 입력 및 교정하는 방법
JP2009122813A (ja) * 2007-11-13 2009-06-04 Seiko Epson Corp 文字サイズ判定装置および文字サイズ判定方法

Similar Documents

Publication Publication Date Title
US5033104A (en) Method for detecting character strings
US5579408A (en) Character recognition method and apparatus
JPH10260993A (ja) 書類の走査画像からのタイトル、見出しおよび写真抽出
JPH05242292A (ja) 分離方法
JPH07200745A (ja) 少なくとも二つのイメージセクションの比較方法
US5455871A (en) Detecting function words without converting a scanned document to character codes
JP2010123002A (ja) 文書画像レイアウト装置
JPH06223233A (ja) 文字認識装置及びその方法
JP3186246B2 (ja) 文書読取装置
JPH04372090A (ja) 文字認識方法及び装置
JP3171626B2 (ja) 文字認識の処理領域・処理条件指定方法
JP2003346081A (ja) 文字認識装置
JP2938490B2 (ja) 領域指定方法および領域指定装置
JP3190794B2 (ja) 文字切り出し装置
JPH07160810A (ja) 文字認識装置
JPH0916713A (ja) 画像領域分割方法
JP3157530B2 (ja) 文字切り出し方法
JP3186712B2 (ja) 文書読取装置
JP3024234B2 (ja) 文書画像の罫線抽出装置
JPH09269970A (ja) 文字認識方法とその装置
JPH10507014A (ja) 2進イメージにおけるランドスケープ・スキャンの自動決定
JPS596419B2 (ja) 文字切出し方式
JPH053631B2 (ja)
JP2003030585A (ja) 画像処理装置、方法、プログラム及び記憶媒体
JP2789835B2 (ja) 表枠検出方法及び装置