JP2998718B2 - 光学式文字読取方法および装置 - Google Patents

光学式文字読取方法および装置

Info

Publication number
JP2998718B2
JP2998718B2 JP9257010A JP25701097A JP2998718B2 JP 2998718 B2 JP2998718 B2 JP 2998718B2 JP 9257010 A JP9257010 A JP 9257010A JP 25701097 A JP25701097 A JP 25701097A JP 2998718 B2 JP2998718 B2 JP 2998718B2
Authority
JP
Japan
Prior art keywords
frame line
frame
candidate
extracted
format information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP9257010A
Other languages
English (en)
Other versions
JPH1196292A (ja
Inventor
勝彦 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP9257010A priority Critical patent/JP2998718B2/ja
Publication of JPH1196292A publication Critical patent/JPH1196292A/ja
Application granted granted Critical
Publication of JP2998718B2 publication Critical patent/JP2998718B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は光学式文字読取方法
および装置に関し、特に非ドロップアウトカラー(黒色
等のスキャナーやディジタルカメラ等で画像取得できる
色)で印刷された文字枠線もしくは罫線(以下、これら
を単に枠線と記す)を含む帳票の光学式文字読取方法お
よび装置に関するものである。
【0002】
【従来の技術】近年黒色枠帳票をOCRに読ませる事例
が増加しつつあり、ワープロ等で作成した黒色枠帳票
や、ファックスで受信した帳票を読み取るOCRでは、
予めシステムに与えられているフォーマット情報に基づ
いて、まず黒色枠を抽出し除去する必要がある。その従
来の代表的な実現方法としては、各文字枠を包含する程
度の小画像から、黒画素を縦方向および横方向(また
は、主走査方向および副走査方向)に投影してヒストグ
ラムがピークを示す箇所を枠と判定したり、黒画素のラ
ンを調べてラン長の長い黒画素のある位置を枠と判定す
る手法が広く利用されている。
【0003】しかし、ファックス画像や帳票のコピーを
OCRに読ませる場合、枠の位置がずれるだけでなく、
一部の枠線がほとんど消えてしまう現象がしばしば発生
する。こうした場合、1文字分の文字枠を包含する小画
像から枠線を抽出する方法では、枠線の位置を決定でき
なかったり、近傍に存在する枠線や文字を枠線と誤って
抽出してしまうという問題があった。
【0004】そして、この問題を改善するための方法と
して、特開平7−282193号公報に開示された表を
含む帳票処理装置がある。この発明は、1つの文字枠に
着目するのではなく、複数の枠線の位置関係を用いるこ
とにより手書き文字等のストロークを枠線として誤抽出
しない方式を提供している。
【0005】
【発明が解決しようとする課題】上述した従来の技術に
おいては、枠位置情報中の枠線が予めすべて枠線候補と
して抽出されていなければならないため、多少の途切れ
やかすれならよいが、枠線が1本分ほとんど消えてしま
っているような場合には候補が挙がらず、正しく枠線を
対応づけることができないという問題がある。
【0006】本発明は、このような問題を解決するため
になされたものであり、一部の枠線がほとんど消滅して
いるような帳票においても、正しく枠線を対応づけて文
字を切出すことができる光学式文字読取方法および装置
を提供することを目的とする。
【0007】
【課題を解決するための手段】本発明の第1の光学式文
字読取方法は、非ドロップアウトカラーで印刷された帳
票をスキャナ等で読込んで取得した帳票画像から、予め
設定されたフォーマット情報に基づき枠線を抽出して除
去した後に文字を読取る光学式文字読取方法であって、
前記帳票画像から枠線候補を抽出するステップと、前記
枠線候補を縦方向及び横方向の枠線候補群に分類するス
テップと、前記分類後のそれぞれの枠線候補と前記フォ
ーマット情報に設定された枠線群のそれぞれの枠線とを
対応づけるステップと、前記対応づけるステップにおい
て、前記フォーマット情報中の枠線に対応する前記分類
後の枠線候補が1つでも抽出されなかった場合に、前記
対応づけの結果から前記帳票画像と前記フォーマット情
報との平均ずれ量を算出するステップと、前記フォーマ
ット情報を前記平均ずれ量で補正し、前記補正後の位置
からしきい値以内の位置に前記枠線候補が存在するか否
かを、全ての枠線候補と補正後のフォーマット情報中の
全ての枠線との間で検証するステップとを有することを
特徴とする。
【0008】本発明の第2の光学式文字読取方法は、本
発明の第1の光学式文字読取方法において、前記補正後
検証において前記枠線候補が存在しなかった場合、
出アルゴリズムを変えるか、または前記帳票画像が多値
の場合はそのスライスレベルを変更して前記帳票画像か
ら枠線候補を抽出し直すことにより枠線の有無を検証す
るステップと、それでも抽出されない枠線については、
前記フォーマット情報中の各枠線の位置関係から枠線位
置を推定するステップとをさらに有することを特徴とす
る。
【0009】本発明の第3の光学式文字読取方法は、本
発明の第1の光学式文字読取方法において、前記帳票画
像から枠線候補を抽出するステップにおいて縦方向また
は横方向のいずれか一方の枠線候補しか抽出できなかっ
た場合、前記ずれ量を算出するステップにおいて、抽出
できた方向の枠線候補のうち長さが前記フォーマット情
報に一致する枠線候補を抽出し、枠線候補を抽出できな
かった方向に対するずれ量を前記長さが一致する枠線候
補の位置から算出することを特徴とする。
【0010】本発明の第1の光学式文字読取装置は、非
ドロップアウトカラーで印刷された帳票をスキャナ等で
読込んで取得した帳票画像から、予め設定されたフォー
マット情報に基づき枠線を抽出して除去した後に文字を
読取る光学式文字読取装置であって、前記帳票画像から
枠線候補を抽出する枠線抽出部と、前記枠線候補を縦方
向及び横方向の枠線候補群に分類し、前記分類後のそれ
ぞれの枠線候補と前記フォーマット情報に設定された枠
線群のそれぞれの枠線とを対応づける枠線対応部と、
記枠線対応部による対応づけの結果、前記フォーマット
情報中の枠線に対応する前記分類後の枠線候補が1つで
も抽出されなかった場合に、前記対応づけの結果から前
記帳票画像と前記フォーマット情報との平均ずれ量を算
出する帳票ずれ量推定部と、前記フォーマット情報を前
平均ずれ量で補正し、前記補正後の位置からしきい値
以内の位置に前記枠線候補が存在するか否かを、全ての
枠線候補と補正後のフォーマット情報中の全ての枠線と
の間で検証する枠線検証部と、を有することを特徴とす
る。
【0011】本発明の第2の光学式文字読取装置は、本
発明の第1の光学式文字読取装置において、前記枠線検
証部は、前記補正後の検証において前記枠線候補が存在
しなかった場合、抽出アルゴリズムを変えて前記帳票画
像から枠線候補を抽出し直すことにより枠線の有無を検
し、それでも抽出されない枠線については、前記フォ
ーマット情報中の各枠線の位置関係から枠線位置を推定
することを特徴とする。
【0012】本発明の第3の光学式文字読取装置は、本
発明の第の光学式文字読取装置において、前記枠線抽
出部が多値画像の帳票画像を2値化して枠線候補を抽出
する場合、前記枠線検証部は、前記補正後の検証におい
て前記枠線候補が存在しなかった場合、前記2値化のス
ライスレベルを変更して枠線候補を抽出し直すことによ
り枠線の有無を検証し、それでも抽出されない枠線につ
いては、前記フォーマット情報中の各枠線の位置関係か
ら枠線位置を推定することを特徴とする。
【0013】本発明の第4の光学式文字読取装置は、本
発明の第1の光学式文字読取装置において、前記枠線抽
出部において、縦方向または横方向のいずれか一方の枠
線候補しか抽出できなかった場合、前記帳票ずれ量推定
部は、抽出できた方向の枠線候補のうち長さが前記フォ
ーマット情報に一致する枠線候補を抽出し、枠線を抽出
できなかった方向に対するずれ量を前記長さが一致する
枠線候補の位置から算出することを特徴とする。
【0014】上述した手段を有する本発明は、次のよう
にまとめられる。
【0015】枠線対応部では、帳票画像から抽出した枠
線候補群と予め設定されているフォーマット情報中の枠
線群とを照合する。このとき、帳票画像中にノイズやか
すれが存在すると、抽出した枠線候補群に過不足が生じ
枠線群が1対1に対応づかなくなるので、フォーマット
情報中の1つの枠線と枠線抽出部で抽出された1つの枠
線候補が対応すると仮定して他の枠線を対応づけたり、
またはDPマッチング手法により最適対応を決定する。
もし、フォーマット情報中の枠線に対応する枠線候補が
すべて抽出されたならば枠線候補の抽出を終了する。一
方、1つでも枠線が抽出されなかった場合は、帳票ずれ
量推定部を起動し、前記最適対応関係に基づき帳票のず
れ量を判定する。枠線検証部はフォーマット情報をこの
ずれ量で補正した位置に枠線候補があるか否かを、枠線
抽出の方法もしくはパラメータ、もしくは枠線抽出時の
スライスレベルを変更して調べなおす。
【0016】このように、帳票のずれ量をまず正確に求
めることにより、枠線があると推測される箇所を厳密に
特定できるので、初期の枠抽出では枠線が抽出できない
ような劣化した画像でもトップダウン的に枠線検証を行
うことが可能になり、従って枠線の一部が消滅している
ような帳票でも正しく枠位置を特定することができる。
【0017】また、スキャナのように走査して画像を得
る方法では、主走査方向と副走査方向で画像のかすれ方
が異なる。従って、一方向の枠線が長さについても正し
く抽出できている場合は、本枠線の位置からもう一方向
のずれ量を算出できるのでこのずれ量に基づいて枠線検
証を行えばよい。
【0018】
【発明の実施の形態】本発明の実施の形態について図面
を参照して説明する。
【0019】図1は、本発明の一実施の形態の構成およ
び動作を示すブロック図であり、画像取得部101、枠
線抽出部102、枠位置情報部103、枠線対応部10
4、位置ずれ量推定部105、枠線検証部106、黒色
枠除去部107、文字切出部108、文字認識部109
および文字認識辞書部110から構成される。
【0020】図2は、枠線候補位置の抽出手順を説明す
るための図である。
【0021】図3,図4は、図2で得られた枠線候補と
枠位置情報部103のフォーマット情報の枠線群との対
応するペアを求めるための照合方法を示す図であり、図
3は、Dv(4)とRv(3)が対応すると仮定したときのDvとRv
の関係,図4は、Dv(1)とRv(1)が対応すると仮定したと
きのDvとRvの関係を示している。
【0022】また、図5は、動的計画法による最適対応
を示す図であり、図6は、縦枠線が著しく劣化している
帳票画像の図である。
【0023】次に、本発明の一実施の形態の動作につい
て図1〜図6を用いて説明する。
【0024】まず、画像取得部101は、スキャナやデ
ジタルカメラなどから構成され、非ドロップアウトカラ
ーで印刷された帳票画像を取得する。本発明が対象とす
る帳票画像は、図2に示すように、個別文字枠または罫
線枠を含む画像である。
【0025】枠線抽出部102は、画像取得部101が
得た帳票画像から枠線候補の位置を抽出する。本処理部
の動作を図2を用いて説明する。ここでは、最も一般的
な枠線抽出方法である黒画素投影を用いる方法を例とし
て示す。
【0026】帳票画像201は、この段階で2値画像で
表現され、文字及び枠は黒画素、背景は白画素で表現さ
れているとする。帳票画像201に対し、縦方向及び横
方向に黒画素を投影し、ヒストグラム202を得る。枠
線がある位置はヒストグラムが大きくなると考えられる
ので、例えばヒストグラムが枠線長の半分程度以上あれ
ば枠線の候補と判定する。図2の例では、枠線であるた
めのしきい値をしきい値203とし、枠線候補をDとし
て縦方向の枠線候補をDv,横方向の枠線候補をDhとする
と、Dv(1)〜Dv(7)及びDh(1)〜Dh(2)が枠線候補Dとして
抽出される。
【0027】枠位置情報部103は、帳票中の枠線位置
を定義するファイルを格納しており、自動生成ツールも
しくは手入力によりあからじめ作成される。フォーマッ
ト情報としては、枠線の始点及び終点のx、y座標や枠
線幅、枠線種などがある。
【0028】枠線対応部104は、枠線候補Dと枠位置
情報部103のフォーマット情報に記述されている枠線
群Rとを照合し、対応するペアを求める。枠線群の照合
は、縦枠線と横枠線とを別々に行う。ここでは、縦枠線
を例にとり2種類の照合方法を例示する。
【0029】最初に、フォーマット中の一枠線と、抽出
された一枠線とが対応すると仮定して他の枠線を対応づ
ける方法を図3および図4を用いて説明する。抽出した
枠線群の位置をDv(={Dv(t)|1≦t≦M})、フォーマット
情報中の枠線群の位置をRv(={Rv(τ)|1≦τ≦N})とす
る。Mは抽出した枠線の数であり、Nはフォーマット情報
中の枠線の数である。
【0030】ここで、抽出された一枠線Dv(t1)とフォー
マット中の一枠線Rv(τ1)が対応すると仮定すると、こ
の時の枠線群Dvとフォーマット情報Rvの一致度は、帳票
の仮のずれ量shift'をRv(τ1)− Dv(t1)とし、 |(Rv(τ)−shift')−Dv(t)|<α (αはしきい
値) を満たすτの数で定義することができる。これを図示す
ると、図3、図4のようになる。図3,図4において、
点線で示されたRv(1)〜Rv(6)に対応する枠線推定領域の
幅が2αに相当する。
【0031】図3は、(t1, τ1)=(4,3)と仮定したとき
の状態を示す。この場合、枠線は枠線推定領域301に
存在すると推定されるが、実際に推定領域内に存在する
枠線はDv(3)と Dv(4)の2つだけである。また、(t1, τ
1)=(1,1)と仮定したときの状態を図4に示す。この場
合、推定領域内にはDv(1)、 Dv(2) 、Dv(5) 、Dv(6)、D
v(7)の5つの枠線が存在する。
【0032】こうした探索を、1≦t1≦M、1≦τ1≦Nを
満たすすべての(t1, τ1)の組合わせに対して行い、
最も上式を満たすτが多かったときのtとτの組み合わ
せを出力する。これにより、図2のような帳票画像に対
しては、 Dv(1)とRv(1)、Dv(2)とRv(2)、 Dv(5)とRv
(4)、Dv(6)とRv(5)、Dv(7)とRv(6)が対応する枠線の組
として抽出される。
【0033】次に、DPマッチング法による照合方法を
図5を用いて説明する。枠線抽出部102で抽出した枠
線のうち、両端にあるもの、いいかえると縦枠線なら最
左端および最右端に位置するものが、抽出すべき枠線の
最左端及び最右端に位置するものに等しい場合、すなわ
ち、 |(Dv(M)−Dv(1))−(Rv(N)−Rv(1))| < β (βはし
きい値) を満たす場合は本照合手法を適用することができる。
【0034】本条件を満たす場合は、動的計画法の累積
距離Sを、 t=1 または τ=1の場合、 S(t, τ) = 0 t≠1 かつ τ≠1の場合、 S(t, τ) = Min.{S(t−1, τ−1) + 2・|(Dv(t)−D
v(1))−(Rv(τ)−Rv(1))|, S(t−1, τ) + Pe, S(t
, τ−1) + Pe} (Min.は、{ }内の3つの式の内、最小値となる式
を選ぶ関数) などのように定義する。ここで、Peはペナルティ値
(定数)を示す。Peが小さすぎると水平・垂直方向の
対応経路が、Peが大きすぎると斜め方向の対応経路が
選択されやすくなるので、Peは本来対応すべきDv(t)
とRv(τ)に対し、|(Dv(t)−Dv(1))−(Rv(τ)−Rv(1))|
がとりうる最大値よりやや大きい値に設定する。もし、
帳票画像から枠線が過不足なく抽出されていれば、Dv
(t)とRv(τ)は1対1に対応し、且つ累積距離S(M,N)も小
さな値になる。一方、累積距離S(M,N)が大きければ枠線
の過不足がある可能性が高いと判断できる。
【0035】図2に対して図5に示すような最適対応経
路501が見つかったとすれば、枠線とフォーマット情
報との対応は、Dv(1)とRv(1)、Dv(2)とRv(2)、Dv(3)とR
v(2)、Dv(4)とRv(3)、Dv(5)とRv(4)、Dv(6)とRv(5)、Dv
(7)とRv(6)ということになる。
【0036】次に、帳票ずれ量推定部105の動作を図
5を用いて説明する。帳票ずれ量推定部105は、枠線
群DvとRvの対応関係から帳票のずれ量を抽出する。枠線
の対応付けをDPマッチングにより行った場合には、部
分距離がしきい値γ以下のもの、すなわち、|(Dv(f
(τ))−Dv(1))−(Rv(τ)−Rv(1))| < γを満たす枠線D
v'を抽出する。ここで、関数fはRv(τ)に対応付けられ
た枠線Dv(t)の番号tを返すものとする。また、枠線のひ
とつをフォーマット中の一枠線に対応すると仮定して対
応付けを行った場合には、単に枠線対応部の出力する組
みをDv'とする。
【0037】図2に示す例では、DV'={Dv(1), Dv(2), D
v(5), Dv(6), Dv(7)}が得られる。そこで、枠線Dv’と
これに対応するフォーマット情報のずれの平均値Shift
を、Shift=1/5{(Rv(1)-Dv(1)+(Rv(2)-Dv(2))+(Rv(4)-Dv
(5))+(Rv(5)-Dv(6))+(Rv(6)-Dv(7))}により求め、これ
を帳票の縦方向のずれ量とする。このように、枠線対応
部で推定された対応関係の中から対応関係が正しい可能
性が高い枠線のみを用いることによって、ずれ量を精度
良く推定することができる。
【0038】枠線検証部106は、帳票ずれ量推定部1
05で推定された位置ずれ量Shiftでフォーマット情報
を補正して、再び各枠線の存在を確認する。理論的に
は、Rv(τ) − Shiftの位置に対応する枠線が存在
するはずなので、 |(Rv(τ)−Shift)−Dv(t)|<α' (但しα'はし
きい値) を満たすtがすべてのτに対して存在するかを調べ、す
べて抽出できればそれらを真の枠線の位置として記憶
し、黒色枠除去部107を起動する。
【0039】しかし、図2に示すように、Rv(3)に対応
するDv(t)が未抽出である場合には、推定された枠線位
置において再度枠線らしき黒画素の存在の有無を調べ
る。この場合は、抽出アルゴリズムを変えたり、もしく
は帳票画像が多値ならばそのスライスレベルをより枠線
が抽出されやすいように変更して調べ直す。
【0040】そして枠線と考えられる黒画素が抽出され
たならばその位置を記憶する。また、もし抽出されない
場合には枠線が完全にかすれているものと判定し、推定
される座標値を枠位置として記憶する。この場合、例え
ばRv(2)〜Rv(4)のフォーマット情報が等間隔であれば、
{Rv(2)+Rv(4)}÷2の座標値でRv(3)に対応するDv(t)
の枠位置を推定する。
【0041】黒色枠除去部107は、枠線と文字の接触
を考慮して枠線を除去し、文字だけの画像を生成する。
枠線除去方法は、特開昭63−251874号公報など
に開示されている方法を用いる。
【0042】文字切出部108は、縦方向への投影ヒス
トグラム情報やラベリング情報によって文字を切出した
り、続け字の切出しの方法によって文字を切出し、1文
字だけを含む画像を次の文字認識部109に送る。
【0043】文字認識部109は、文字認識辞書部11
0を参照して文字認識結果を出力する。
【0044】以上説明した実施の形態においては、帳票
画像が必ずフォーマット情報中の枠線と対応づくという
仮定で処理を説明したが、フォーマット情報が示す帳票
とは異なる帳票が入力された場合にも、これを検知する
ことは可能である。位置ずれ量推定部にて、対応が正し
いと判断された枠線の数の全枠線数に対する割合を判定
し、これが一定値以下だったら対応の信頼度が低いと判
断して読取りを終了する。
【0045】次に、縦方向または横方向のいずれか一方
の枠線しか抽出できなかった場合について、図6を用い
て説明する。
【0046】図6は、縦方向の2本の枠線のうち1本の
縦枠線(右)604がかすれて抽出できない例を示す。
この場合、横線は抽出できるが、縦枠線は候補が1本し
か得られないため枠線対応部104にて対応関係を決定
することができない。
【0047】このような場合は、正しく抽出できた方向
の枠線の内、長さがフォーマット情報の枠位置情報と一
致するものを抽出する。長さが等しいということから、
その枠線は欠けやノイズを含んでいない可能性が極めて
高いと判断できるので、この位置から枠線抽出に失敗し
た方向の位置ずれ量を推定することができる。図6の例
では、横枠線(上)601と縦枠線(左)603、横枠
線(上)601と縦枠線(右)604、横枠線(下)6
02と縦枠線(左)603、横枠線(下)602と縦枠
線(右)604がそれぞれ共有している端点605〜6
08の位置から、縦線の位置及びずれ量を推定できる。
本ずれ量に基づいて、縦枠線に対して枠線検証部106
以降の処理を施せばよい。
【0048】
【発明の効果】上述したように、本発明は、枠線の一部
がほとんど又は完全に消滅してしまっているような帳票
においても、枠線の位置を正しく抽出することができる
という効果を有する。特に、縦方向または横方向の一方
の枠線が著しく劣化している場合でも、もう一方の枠線
がフォーマット情報の対応する枠線と同じ長さで抽出で
きれば正しく枠位置を決定することができる。
【図面の簡単な説明】
【図1】本発明の一実施の形態の構成および動作を示す
ブロック図である。
【図2】枠線候補位置の抽出手順を説明するための図で
ある。
【図3】Dv(4)とRv(3)が対応すると仮定したときのDvと
Rvの関係を示す図である。
【図4】Dv(1)とRv(1)が対応すると仮定したときのDvと
Rvの関係を示す図である。
【図5】動的計画法による最適対応を示す図である。
【図6】縦枠線が著しく劣化している帳票画像の図であ
る。
【符号の説明】
101 画像取得部 102 枠線抽出部 103 枠位置情報部 104 枠線対応部 105 帳票ずれ量推定部 106 枠線検証部 107 黒色枠除去部 108 文字切出部 109 文字認識部 110 文字認識辞書部 201 帳票画像 202 ヒストグラム 203 しきい値 301 枠線推定領域 501 最適対応経路 601 横枠線(上) 602 横枠線(下) 603 縦枠線(左) 604 縦枠線(右) 605〜608 端点

Claims (7)

    (57)【特許請求の範囲】
  1. 【請求項1】 非ドロップアウトカラーで印刷された帳
    票をスキャナ等で読込んで取得した帳票画像から、予め
    設定されたフォーマット情報に基づき枠線を抽出して除
    去した後に文字を読取る光学式文字読取方法であって、 前記帳票画像から枠線候補を抽出するステップと、前記
    枠線候補を縦方向及び横方向の枠線候補群に分類するス
    テップと、前記分類後のそれぞれの枠線候補と前記フォ
    ーマット情報に設定された枠線群のそれぞれの枠線とを
    対応づけるステップと、前記対応づけるステップにおい
    て、前記フォーマット情報中の枠線に対応する前記分類
    後の枠線候補が1つでも抽出されなかった場合に、前記
    対応づけの結果から前記帳票画像と前記フォーマット情
    報との平均ずれ量を算出するステップと、前記フォーマ
    ット情報を前記平均ずれ量で補正し、前記補正後の位置
    からしきい値以内の位置に前記枠線候補が存在するか否
    かを、全ての枠線候補と補正後のフォーマット情報中の
    全ての枠線との間で検証するステップとを有することを
    特徴とする光学式文字読取方法。
  2. 【請求項2】 前記補正後の検証において前記枠線候補
    が存在しなかった場合、抽出アルゴリズムを変えるか、
    または前記帳票画像が多値の場合はそのスライスレベル
    を変更して前記帳票画像から枠線候補を抽出し直すこと
    により枠線の有無を検証するステップと、それでも抽出
    されない枠線については、前記フォーマット情報中の各
    枠線の位置関係から枠線位置を推定するステップとをさ
    らに有することを特徴とする請求項1記載の光学式文字
    読取方法。
  3. 【請求項3】 前記帳票画像から枠線候補を抽出するス
    テップにおいて縦方向または横方向のいずれか一方の枠
    線候補しか抽出できなかった場合、前記ずれ量を算出す
    るステップにおいて、抽出できた方向の枠線候補のうち
    長さが前記フォーマット情報に一致する枠線候補を抽出
    し、枠線候補を抽出できなかった方向に対するずれ量を
    前記長さが一致する枠線候補の位置から算出することを
    特徴とする請求項1記載の光学式文字読取方法。
  4. 【請求項4】 非ドロップアウトカラーで印刷された帳
    票をスキャナ等で読込んで取得した帳票画像から、予め
    設定されたフォーマット情報に基づき枠線を抽出して除
    去した後に文字を読取る光学式文字読取装置であって、 前記帳票画像から枠線候補を抽出する枠線抽出部と、 前記枠線候補を縦方向及び横方向の枠線候補群に分類
    し、前記分類後のそれぞれの枠線候補と前記フォーマッ
    ト情報に設定された枠線群のそれぞれの枠線とを対応づ
    ける枠線対応部と、前記枠線対応部による対応づけの結果、前記フォーマッ
    ト情報中の枠線に対応する前記分類後の枠線候補が1つ
    でも抽出されなかった場合に、 前記対応づけの結果から
    前記帳票画像と前記フォーマット情報との平均ずれ量を
    算出する帳票ずれ量推定部と、 前記フォーマット情報を前記平均ずれ量で補正し、前記
    補正後の位置からしきい値以内の位置に前記枠線候補が
    存在するか否かを、全ての枠線候補と補正後のフォーマ
    ット情報中の全ての枠線との間で検証する枠線検証部
    と、 を有することを特徴とする光学式文字読取装置。
  5. 【請求項5】 前記枠線検証部は、前記補正後の検証に
    おいて前記枠線候補が存在しなかった場合、抽出アルゴ
    リズムを変えて前記帳票画像から枠線候補を抽出し直
    ことにより枠線の有無を検証し、それでも抽出されない
    枠線については、前記フォーマット情報中の各枠線の位
    置関係から枠線位置を推定することを特徴とする請求項
    4記載の光学式文字読取装置。
  6. 【請求項6】 前記枠線抽出部が多値画像の帳票画像を
    2値化して枠線候補を抽出する場合、前記枠線検証部
    は、前記補正後の検証において前記枠線候補が存在しな
    かった場合、前記2値化のスライスレベルを変更して枠
    線候補を抽出し直すことにより枠線の有無を検証し、そ
    れでも抽出されない枠線については、前記フォーマット
    情報中の各枠線の位置関係から枠線位置を推定すること
    を特徴とする請求項記載の光学式文字読取装置。
  7. 【請求項7】 前記枠線抽出部において、縦方向または
    横方向のいずれか一方の枠線候補しか抽出できなかった
    場合、前記帳票ずれ量推定部は、抽出できた方向の枠線
    候補のうち長さが前記フォーマット情報に一致する枠線
    候補を抽出し、枠線を抽出できなかった方向に対するず
    れ量を前記長さが一致する枠線候補の位置から算出する
    ことを特徴とする請求項4記載の光学式文字読取装置。
JP9257010A 1997-09-22 1997-09-22 光学式文字読取方法および装置 Expired - Fee Related JP2998718B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9257010A JP2998718B2 (ja) 1997-09-22 1997-09-22 光学式文字読取方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9257010A JP2998718B2 (ja) 1997-09-22 1997-09-22 光学式文字読取方法および装置

Publications (2)

Publication Number Publication Date
JPH1196292A JPH1196292A (ja) 1999-04-09
JP2998718B2 true JP2998718B2 (ja) 2000-01-11

Family

ID=17300479

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9257010A Expired - Fee Related JP2998718B2 (ja) 1997-09-22 1997-09-22 光学式文字読取方法および装置

Country Status (1)

Country Link
JP (1) JP2998718B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7508556B2 (ja) * 2019-12-05 2024-07-01 嘉楠明芯(北京)科技有限公司 文字分割方法、装置、および、コンピュータ可読記憶媒体

Also Published As

Publication number Publication date
JPH1196292A (ja) 1999-04-09

Similar Documents

Publication Publication Date Title
JP4525787B2 (ja) 画像抽出装置、及び画像抽出プログラム
US7636483B2 (en) Code type determining method and code boundary detecting method
JP3768052B2 (ja) カラー画像処理方法、カラー画像処理装置、及びそのための記録媒体
JP5334042B2 (ja) 文字列認識方法及び文字列認識装置
JP3904840B2 (ja) 多値画像から罫線を抽出する罫線抽出装置
JP4658848B2 (ja) 文字列認識方法及び文字列認識装置
JPH05233873A (ja) 領域分割方法
CN111368574A (zh) 一种条形码识别方法及装置
JP4945739B2 (ja) 文字列認識方法及び文字列認識装置
US20100008587A1 (en) Image processing improving postprocessing rate of character rectangle extraction and improving character recognition accuracy
JP2998718B2 (ja) 光学式文字読取方法および装置
JP2006155126A (ja) 車両番号認識装置
JP3215163B2 (ja) 罫線識別方法及び領域識別方法
JP4420440B2 (ja) 画像処理装置、画像処理方法、文字認識装置、プログラムおよび記録媒体
US5535287A (en) Method of and apparatus for separating image
JP3552269B2 (ja) ナンバープレート検出装置
JPH07230525A (ja) 罫線認識方法及び表処理方法
JP2002056356A (ja) 文字認識装置、文字認識方法および記録媒体
JP4223295B2 (ja) ナンバープレート自動認識装置
JP4439054B2 (ja) 文字認識装置及び文字枠線の検出方法
JP2002157552A (ja) 光学式文字読取装置
JP2007221838A (ja) 画像歪み補正装置、画像読取装置、画像形成装置及びプログラム
JPH05135204A (ja) 文字認識装置
JPH0991372A (ja) 光学的文字読み取り装置および帳票の傾き角度検出方法
JP3100619B2 (ja) 写真領域抽出装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19991005

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071105

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081105

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081105

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091105

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091105

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101105

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111105

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111105

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121105

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121105

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131105

Year of fee payment: 14

LAPS Cancellation because of no payment of annual fees