JPH08235311A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH08235311A
JPH08235311A JP7039604A JP3960495A JPH08235311A JP H08235311 A JPH08235311 A JP H08235311A JP 7039604 A JP7039604 A JP 7039604A JP 3960495 A JP3960495 A JP 3960495A JP H08235311 A JPH08235311 A JP H08235311A
Authority
JP
Japan
Prior art keywords
character
cut
pattern
area
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP7039604A
Other languages
English (en)
Inventor
Yoshinori Ookuma
好憲 大熊
Koji Ito
晃治 伊東
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP7039604A priority Critical patent/JPH08235311A/ja
Publication of JPH08235311A publication Critical patent/JPH08235311A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】 【目的】 切出し文字パタンの切出し位置を決定するた
めの処理を簡素化する。 【構成】 記入領域281 と当該領域281 に対応する属性
判別領域301 とを有する帳票26において、記入領域281
に記入される切出し対象文字総個数の下限値Gmin、上限
値Gmaxと属性判別用域301 に記入される属性判別用文字
401 の認識結果との間に存在する相関関係を利用して文
字切出しを行なう。記入領域281 内の仮の切出し位置
を、推定文字ピッチを用いて求め、当該仮の切出し位置
によって切り出される文字切出し総個数Mを求める。M
<Gmin或はGmax<Mとなるときは、推定文字ピッチを補
正して再度仮の切出し位置を求め直す。Gmin≦M≦Gmax
となるとき当該個数Mを得た仮の切出し位置を切出し対
象文字381 の切出し位置と決定する。このように個数M
と下限値Gmin、上限値Gmaxとの比較結果に応じて切出し
対象文字381 の切出し位置を決定することにより、目的
を達成する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、帳票の画像パタンか
ら文字パタンを切り出し、文字パタンの認識処理を行な
う文字認識装置に関するものである。
【0002】
【従来の技術】従来の文字認識においては、文字パタン
を認識用辞書と照合するために、1文字単位に文字パタ
ンを切り出す。文字1個分の広さの文字枠が印刷されて
いる帳票の場合、各文字枠に1個ずつ文字が記入され
る。従ってこの文字枠の位置を切出し位置に用いること
ができるので、切出し位置を検出するための処理を行な
わずに済む。これに対し、文字複数個分の広さの記入欄
は印刷されているが文字枠は印刷されていない帳票の場
合には、記入欄の画像パタンから1文字単位に文字パタ
ンを切り出すための切出し位置を検出する処理が必要で
ある。
【0003】このような文字枠が印刷されていない帳票
の文字パタンを切り出すための従来装置として、例えば
特開昭61−195474号公報に開示されているもの
がある。
【0004】
【発明が解決しようとする課題】しかしながら上述の公
報に開示されている従来装置にあっては、a)文字列パ
タンから基本パタンを検出する;b)切出し用辞書と整
合する基本パタンを検出する;c)切出し用辞書と整合
しなかった基本パタンに関しては、単独の基本パタンに
ついて切出し評価値を求めると共に、組み合わせ可能な
全ての基本パタンの組み合わせについて個々に切出し評
価値を求める;d)切出し評価値を参照して最適な切出
し位置を決定するという処理により、切出し位置の検出
を行なう。このように基本パタンを切出し用辞書と照合
する処理と、基本パタン単独について切出し評価値を求
める処理と、組み合わせ可能な全ての基本パタンの組み
合わせについて切出し評価値を求める処理とが必要であ
るので、切出し位置を検出するための処理は複雑となり
従って処理速度は遅くなる。また切出し用辞書を記憶す
るために容量の大きなメモリが必要になる。
【0005】この発明の目的は上述した従来の問題点を
解決し、記入領域に記入された切出し対象文字の切出し
位置を、より単純な処理で検出することのできる文字認
識装置を提供することにある。
【0006】
【課題を解決するための手段】この目的を達成するた
め、この発明の文字認識装置は、切出し対象文字が記入
され切出し対象文字複数個分の広さに仕切られた記入領
域と当該切出し対象文字に対応する属性判別用文字が記
入され属性判別用文字1個分の広さに仕切られた属性判
別領域とを有する帳票の画像パタンから、文字パタンを
切り出し、この文字パタンの認識処理を行なう文字認識
装置において、文字パタンの認識処理を行なう認識手段
と、属性判別領域の画像パタンを属性判別用文字パタン
として切り出す第一のパタン読出し手段と、属性判別用
文字パタンの認識結果に対応する切出し許容個数の下限
値及び上限値を設定する切出し許容数設定手段と、記入
領域の画像パタンから文字要素パタンを検出し、文字要
素パタンの検出位置を用いて仮の切出し位置を設定し、
仮の切出し位置を用いて記入領域の切出し文字総個数を
求め、切出し文字総個数が、切出し許容個数の上限値よ
りも大きいとき及び切出し許容個数の下限値よりも小さ
いときは、仮の切出し位置を補正すると共に当該補正位
置を用いて切出し文字総個数を求め直し、切出し文字総
個数が、切出し許容個数の上限値以下であってかつ切出
し許容個数の下限値以上となったとき、当該切出し文字
総個数を得た仮の切出し位置を、切出し対象文字パタン
の切出し位置と決定する切出し位置決定手段と、切出し
対象文字パタンの切出し位置を用いて、記入領域の画像
パタンから切出し対象文字パタンを切り出す第二のパタ
ン読出し手段とを備えて成ることを特徴とする。
【0007】
【作用】このような構成の発明によれば、帳票の使用に
関し、以下に述べる状況1)、2)が存在することを利
用する。
【0008】1)帳票の記入者は、切出し対象文字を記
入領域に記入すると共に、当該切出し対象文字に対応す
る属性判別用文字を属性判別領域に記入する。属性判別
用文字は、切出し対象文字により表される伝達情報の属
性を表す。
【0009】2)記入領域に記入される切出し対象文字
の総個数と属性判別領域に記入される属性判別用文字と
の間には、相関関係が存在し、この相関関係に基づい
て、記入される切出し対象文字の総個数の上限値Gmax
及び下限値Gmin を蓄積しておくことができる。
【0010】このような状況1)、2)が存在する典型
的な帳票の例は、住所を記入するようにした帳票であ
る。
【0011】例えば、切出し対象文字として都、道、府
或は県の名称を記入するようにした記入領域と当該切出
し対象文字に対応する属性判別用文字として都、道、府
或は県の文字が記入される属性判別領域とを有している
帳票の場合を考える。この場合、東京在住の記入者であ
れば、記入領域に切出し対象文字として東京を記入し、
そして属性判別領域に属性判別用文字として都を記入す
ることとなる。また属性判別領域に都を記入する場合、
属性判別領域に道を記入する場合、及び、属性判別領域
に府を記入する場合のそれぞれにおいて、記入される切
出し対象文字の総個数の上限値Gmax 及び下限値Gmin
はGmax =Gmin =2個となる。属性判別領域に県を記
入する場合においては、切出し対象文字が和歌山、埼玉
或はそのほかの県名であるので、上限値Gmax 及び下限
値Gmin はGmax =3個及びGmin =2個となる。この
ように属性判別用文字と上限値Gmax 及び下限値Gmin
との間には相関関係が存在し、この相関関係に基づい
て、上限値Gmax 及び下限値Gmin をデータとして蓄積
しておくことができる。
【0012】そしてここに例示した例からも理解できる
ように、記入領域に記入される切出し対象文字の総個数
(以下、記入文字総個数)は上限値Gmax 以下であって
かつ下限値Gmin 以上であるので、記入文字総個数は、
上限値Gmax よりも大きくならないしまた下限値Gmin
よりも小さくなることはない。従って仮の切出し位置を
用いて求めた切出し文字総個数が、上限値Gmax 及び下
限値Gmin の数値範囲内にあるか否かを判定することに
よって、当該仮の切出し位置を、切出し対象パタンの切
出し位置に用いることが適切か否かを判定でき、これが
ため上限値Gmax 及び下限値Gmin を、切出し許容個数
の上限値及び下限値に用いることができる。
【0013】さらに属性判別領域は文字1個分の広さし
か有さないので、1個の属性判別領域には1個の属性判
別用文字しか記入されない。従って属性判別領域の位置
を属性判別用文字パタンの切出し位置に用いて、属性判
別用文字パタンを切り出すことができる。そして切り出
した属性判別用文字パタンの認識処理を行ない、当該認
識結果に対応した切出し許容個数の上限値及び下限値
を、前述のデータとして蓄積してある上限値Gmax 及び
下限値Gmin のなかから、選択できる。
【0014】
【実施例】以下、図面を参照し、この発明の実施例につ
いて説明する。尚、図面は発明が理解できる程度に概略
的に示してあるにすぎず、従って発明を図示例に限定す
るものではない。
【0015】図1はこの発明の実施例の全体構成を概略
的に示す機能ブロック図である。同図に示すこの実施例
の文字認識装置10は、画像記憶手段12、フォーマッ
ト情報記憶手段14、認識手段16、第一のパタン読出
し手段18、切出し許容数決定手段20、切出し位置決
定手段22及び第二のパタン読出し手段24を備える。
【0016】画像記憶手段12は、切出し対象文字が記
入され切出し対象文字複数個分の広さに仕切られた記入
領域と当該切出し対象文字に対応する属性判別用文字が
記入され属性判別用文字1個分の広さに仕切られた属性
判別領域とを有する帳票の画像パタンを格納する。帳票
の記入者は、記入領域に記入した切出し対象文字によっ
て伝達したい情報を表し、当該伝達情報の属性を、属性
判別領域に記入した属性判別用文字によって表す。
【0017】フォーマット記憶手段14は、少なくと
も、記入領域の画像パタンを格納する領域のアドレスと
属性判別領域の画像パタンを格納する領域のアドレスと
を、フォーマット情報として格納する。
【0018】認識手段16は、文字パタンの認識処理、
特に切出し対象文字パタンの文字認識処理と属性判別用
文字パタンの認識処理とを行なう。
【0019】第一のパタン読出し手段18は、属性判別
領域内の画像パタンを属性判別用文字パタンとして切り
出す。
【0020】切出し許容数決定手段20は、属性判別用
文字パタンの認識結果に対応する切出し許容個数の下限
値及び上限値を設定する。
【0021】切出し位置決定手段22は、記入領域の画
像パタンから文字要素パタンを検出し、この文字要素パ
タンの検出位置を用いて仮の切出し位置を設定する。さ
らに切出し位置決定手段22は、仮の切出し位置を用い
て記入領域の切出し文字総個数を求め、そして切出し文
字総個数が、切出し許容個数の上限値よりも大きいとき
及び切出し許容個数の下限値よりも小さいときは、仮の
切出し位置を補正すると共に当該補正位置を用いて切出
し文字総個数を求め直し、また切出し文字総個数が、切
出し許容個数の上限値以下であってかつ切出し許容個数
の下限値以上となったとき、当該切出し文字総個数を得
た仮の切出し位置を、切出し対象文字パタンの切出し位
置と決定する。
【0022】第二のパタン読出し手段24は、切出し位
置決定手段22が決定した切出し対象文字パタンの切出
し位置を用いて、切出し対象文字パタンを記入領域の画
像パタンから切り出す。
【0023】ここでは、第一のパタン読出し手段18と
第二のパタン読出し手段24とを、個別のパタン読出し
手段により構成する。
【0024】(帳票)図2はこの実施例で用いる帳票の
一例を示す。図中、帳票26の文字列方向を符号Xを付
した矢印で表し、文字列方向Xと直交する方向を符号Y
を付した矢印で表してある。
【0025】この実施例では、帳票26は、帳票記入者
の伝達情報として住所を記入するようにした例であっ
て、この帳票26は、都、道、府或は県の名称を記入す
る記入領域281及び当該領域281に対応する1個の
属性判別領域301と、区、市或は郡の名称を記入する
記入領域282及び当該領域282に対応する1個の属
性判別領域302とを有する。図中、これら記入領域2
81、282及び属性判別領域301、302の位置を
一点鎖線で表したが、この一点鎖線は帳票26には印刷
されていない。
【0026】一方、帳票26には、任意好適な仕切り線
を印刷して、記入領域281、282をそれぞれ文字複
数個分の広さに仕切ると共に、属性判別領域301、3
02をそれぞれ文字1個分の広さに仕切っている。
【0027】例えば、住所記入欄を表す仕切り線ここで
は実線32と住所記入欄内を区分する仕切り線ここでは
点線34と、文字1個分の広さの文字枠を表す仕切り線
ここでは実線36と、ご住所欄という項目名称とを、帳
票26に印刷する。
【0028】そして記入領域281、属性判別領域30
1、記入領域282及び属性判別領域302を、文字列
方向Xに沿って順次に配列し、これら領域281、30
1、282、302を、住所記入欄32を表す実線32
で囲む。さらに属性判別領域301、302をそれぞれ
文字枠を表す実線36で囲み、属性判別領域301を囲
む実線36と記入領域282との間を点線34で区切
る。
【0029】記入領域281、282内にはそれぞれ、
場合に応じて1個又は複数個の切出し対象文字が記入さ
れ、また属性判別領域301、302内にはそれぞれ、
1個ずつ属性判別用文字が記入される。
【0030】図示例では、記入領域281内には切出し
対象文字381として東京の2文字、属性判別領域30
1内には属性判別用文字401として都の1文字、記入
領域282内には属性判別用文字382として△△△の
3文字、属性判別領域302内には属性判別用文字40
2として市の1文字が記入されている。
【0031】尚、切出し対象文字及び属性判別用文字の
記入前において、記入領域281、282及び属性判別
領域301、302の各領域内は余白となっている。
【0032】(画像記憶手段)この実施例では、画像記
憶手段12は、帳票26の画像パタンをスキャナ42か
ら入力し、当該入力パタンを格納(記憶)する。
【0033】スキャナ42は帳票26を光学的に走査し
て、帳票26からの光信号を、画素単位に量子化された
電気信号に変換する。そしてスキャナ42はこの電気信
号を帳票26の画像パタンとして画像記憶手段12に記
憶する。ここでは、画像パタンは、文字又は文字背景を
表す2値の電気信号である。
【0034】図3は帳票の画像パタンの説明に供する図
である。図にあっては、帳票26の画像パタン44を二
点鎖線で囲んで示し、この画像パタン44のうち、文字
を表す画像パタンを黒色で及び文字背景を表す画像パタ
ンを白色で表している。
【0035】ここでは、帳票26の仕切り線32〜36
とご住所欄という項目名称とを、スキャナ42による読
取り不能な色(ドロップアウトカラー)例えば赤色で印
刷してあり、従ってこれら仕切り線及び項目名称の光信
号は文字背景を表す画像パタン44に変換される。
【0036】また切出し対象文字381、382及び属
性判別用文字401、402をスキャナ42による読取
り可能な色例えば黒色で記入してあり、従ってこれら文
字381、382、401、402の光信号は文字を表
す画像パタン44に変換される。
【0037】画像記憶手段12の格納領域上には、仮想
的に、X−Y座標系を設定してあり、これら座標位置X
及びYで表される画素位置の画像パタン44を、読み出
すことができるように、画像記憶手段12を構成してい
る。そして帳票26の文字列方向XがX軸と平行となる
ように、画像パタン44を格納している。
【0038】(フォーマット記憶手段)この実施例で
は、フォーマット記憶手段14は、記入領域281、2
82の画像パタン44をそれぞれ各領域毎に個別に画像
記憶手段12から読み出すためのアドレスと、属性判別
領域301、302の画像パタン44をそれぞれ各領域
毎に個別に画像記憶手段12から読み出すためのアドレ
スとを記憶する。ここでは、これらアドレスを、画像記
憶手段12の格納領域上に設定した座標位置X、Yで表
し(以下、このアドレスをアドレスX、Yと表す)、記
入領域281、282及び属性判別領域301、302
のアドレスは、予め判明しているものとする。
【0039】さらにフォーマット記憶手段14は、文字
要素パタンを検出するための閾値THL1を記憶する。
【0040】(第一のパタン読出し手段)この実施例で
は、第一のパタン読出し手段18は、フォーマット情報
記憶手段14から属性判別領域301、302のアドレ
スを読み込み、このアドレスを用いて、属性判別用文字
401、402の文字パタンを各文字毎に切り出す。属
性判別領域301、302は文字1個分の広さに仕切ら
れているので、属性判別領域301、302の画像パタ
ンを、属性判別用文字401、402の文字パタンとし
て用いることができる。
【0041】(第二のパタン読出し手段)この実施例で
は、第二のパタン読出し手段24は、後述するように切
出し位置決定手段22が決定した切出し対象文字38
1、382の切出し位置を用いて、切出し対象文字38
1、382の文字パタンを、各文字毎に切り出す。
【0042】(認識手段)この実施例では、認識手段1
6は、第一のパタン読出し手段18から読み込んだ属性
判別用文字401、402の文字パタンについて、各文
字毎に、認識処理を行なう。
【0043】また認識手段16は、第二のパタン読出し
手段24から読み込んだ切出し対象文字381、382
の文字パタンについて、各文字毎に認識処理を行なう。
【0044】そして認識手段16は、切出し対象文字3
81の文字パタンの認識結果と当該文字381に対応す
る属性判別用文字401の認識結果とを対と成して、次
段の装置46に出力する。次段の装置46は、例えばデ
ータベース、印刷装置或は表示装置である。
【0045】同様にして切出し対象文字382及び属性
判別用文字402の認識結果を対と成して、次段の装置
46に出力する。
【0046】(切出し許容数設定手段)この実施例で
は、切出し許容数決定手段20は、許容数検索手段20
a及び許容数記憶手段20bを有する。
【0047】許容数記憶手段20bは、各記入領域毎
に、属性判別用文字の認識結果に対応した切出し許容数
の上限値Gmax 及び下限値Gmin を記憶しており、許容
数検索手段20aは、属性判別用文字の認識結果に対応
した上限値Gmax 及び下限値Gmin を、許容数記憶手段
20bから読み出し、各記入領域毎に上限値Gmax 及び
下限値Gmin を設定する。
【0048】次に切出し許容個数の上限値Gmax 及びG
min について、一例を挙げて、より具体的に説明する。
ここでは、記入領域281に関する切出し許容個数の上
限値Gmax 及びGmin に着目して説明する。
【0049】この実施例の帳票26を用いる場合、帳票
26の記入者は、都、道、府或は県の名称を切出し対象
文字381として記入領域281に記入し、そして当該
名称に対応する都、道、府或は県の文字を属性判別用文
字401として属性判別領域301に記入する。
【0050】そこで記入領域281に記入される切出し
対象文字381の総個数(以下、記入文字総個数)の上
限値Gmax 及び下限値Gmin に着目すると、属性判別用
文字401として都の文字を記入する場合にあっては、
記入領域281に記入される切出し対象文字381は東
京となり従って記入文字総個数の上限値Gmax 及び下限
値Gmin はGmax =Gmin =2個となる。属性判別用文
字401として道の文字を記入する場合にあっては、記
入領域281に記入される切出し対象文字381は北海
となり従って記入文字総個数の上限値Gmax 及び下限値
min はGmax=Gmin =2個となる。属性判別用文字
401として府の文字を記入する場合にあっては、記入
領域281に記入される切出し対象文字381は京都或
は大阪となり従って記入文字総個数の上限値Gmax 及び
下限値Gmin はGmax =Gmin =2個となる。さらに属
性判別用文字401として県の文字を記入する場合にあ
っては、記入領域281に記入される切出し対象文字3
81は和歌山、埼玉或はそのほかの県名を表す文字であ
り、従って記入文字総個数の上限値Gmax 及び下限値G
min はGmax =3、Gmin =2個となる。
【0051】このように属性判別用文字401と、記入
文字総個数の上限値Gmax 及びGmin との間には、予め
判明している相関関係が存在する。従って記入され得る
属性判別用文字401の各文字毎に、ここでは上述した
都、道、府及び県の各文字毎に、記入文字総個数の上限
値Gmax 及び下限値Gmin をデータとして蓄積しておく
ことができる。
【0052】そして後述するように切出し対象文字38
1の切出し位置を検出する場合にあっては、仮の切出し
位置を用いて求めた仮の切出し文字総個数Mが、属性判
別用文字401の認識結果に対応した記入文字総個数の
上限値Gmax 及び下限値Gmin の範囲外の値となるとき
は、当該仮の切出し位置は切出し対象文字381の切出
し位置として不適切であると判定できる。また仮の切出
し位置を用いて求めた仮の切出し総個数Mが、属性判別
用文字401の認識結果に対応した記入文字総個数の上
限値Gmax 及び下限値Gmin の範囲内の値となるとき、
当該仮の切出し位置は切出し対象文字381の切出し位
置として適切であると判定できる。
【0053】従って予め判明している相関関係に基づい
て得た記入文字総個数の上限値Gmax 及び下限値Gmin
を、上述した切出し許容数の上限値Gmax 及び下限値G
minとして用いることができる。
【0054】このように予め判明している切出し許容数
の上限値Gmax 及び下限値Gmin を、属性判別用文字4
01として記入され得る各文字毎に分類して、許容数記
憶手段20bに記憶しておく。この分類は属性判別用文
字401の認識結果例えば文字コードによって行なえば
良い。
【0055】同様にして、記入領域282に関しても、
予め判明している切出し許容数の上限値Gmax 及び下限
値Gmin を、属性判別用文字402として記入され得る
各文字毎に分類して、許容数記憶手段20bに記憶して
おく。そして許容数検索手段20aは、属性判別用文字
402の認識結果を認識手段16から得ると、当該認識
結果に対応する切出し許容数の上限値Gmax 及び下限値
min を、許容数記憶手段20bから読み出し、読み出
した上限値Gmax 及び下限値Gmin を、当該記入領域2
82に関する切出し許容数の上限値Gmax 及び下限値G
min として設定する。
【0056】(切出し位置決定手段)この実施例では、
切出し位置決定手段22は、文字要素検出手段22a、
ピッチ推定手段22b、切出しパラメータ記憶手段22
c、終了位置検出手段22d及び位置設定制御手段22
eを有する。
【0057】文字要素検出手段22aは、各記入領域毎
に、文字列方向Xにおける文字要素パタンの始端位置X
L 及び終端位置XR を検出する。文字要素パタンは文字
画素が連結して存在する領域の画像パタンであり、切出
し対象文字パタンは1個又は複数個の文字要素パタンを
含む。ここでは1個の記入領域には、切出し対象文字が
一列のみ記入される。
【0058】ピッチ推定手段22bは、文字要素パタン
の始端位置XL 及び終端位置XR を用いて、各記入領域
内において、文字列方向Xにおける文字要素幅WB のう
ち最大の文字要素幅WBmaxとWBmaxを得た文字要素パタ
ンに隣接する文字要素間隔WS のうち最小となる離間間
隔WSminとを求め、各記入領域毎に、最大の幅WBmax
び最小の幅WS の和を推定文字ピッチpの初期値として
設定する。文字要素幅WB は文字要素パタンの幅、文字
要素間隔WS は相隣接する文字要素パタンの離間間隔す
なわち相隣接する文字要素が挟む余白パタンの幅であ
る。余白パタンは文字背景画素が連結して存在する領域
の画像パタンである。
【0059】切出しパラメータ記憶手段22cは、文字
要素パタンの始端位置XL 及び終端位置XR と推定文字
ピッチpと仮の切出し開始位置XS 及び仮の切出し終了
位置XE とをそれぞれ、読み出し及び書き換えの自由に
記憶する。
【0060】終了位置検出手段22dは、仮の切出し開
始位置XS から、文字切出し方向へほぼ推定文字ピッチ
pだけ離間した位置を、仮の切出し終了位置XE として
算出する。
【0061】終了位置検出手段22dは、仮の切出し終
了位置XE から、文字切出し方向へ向けてΔX(ΔXは
正の整数)だけ離間した位置を、次の仮の切出し開始位
置XS として設定する。文字切出し方向を正の方向とす
るときは同一記入領域内に存在する文字要素パタンの始
端位置XL のうち最小の始端位置XL を、最初の仮の切
出し開始位置XS とし、文字切出し方向を負の方向とす
るときは同一記入領域内に存在する文字要素パタンの終
端位置のうち最大の終端位置XR を、最初の仮の切出し
開始位置XS とする。
【0062】また終了位置検出手段22dは、終了位置
検出手段22dが算出した仮の切出し終了位置XE が文
字要素領域内の位置となるときは(但しXE =XR とな
るときを除く)仮の切出し終了位置XE を、当該文字要
素領域に隣接する文字要素間領域内の位置若しくは当該
文字要素領域の終端位置XR に補正する。文字要素領域
は文字要素パタンが存在する領域、文字要素間領域は相
隣接する文字要素パタンが挟む領域すなわち余白パタン
が存在する領域である。
【0063】さらに終了位置検出手段22dは、各記入
領域毎に、仮の切出し開始位置XS又は仮の切出し終了
位置の検出総個数を、記入領域内の切出し文字総個数M
として、そして各記入領域毎に、切出し文字総個数Mと
切出し許容個数の上限値Gmax 及び下限値Gmin との比
較結果に応じて次に述べる1)〜3)の処理を行なう。
【0064】処理1);切出し文字総個数Mが切出し許
容個数の下限値Gmin よりも小さいときは、推定文字ピ
ッチpに正の補正値Δpを加算して新たな推定文字ピッ
チpを設定し、この新たな推定文字ピッチpを用いて仮
の切出し開始位置XS 及び仮の切出し終了位置XR を設
定し直すべく、終了位置検出手段22dを再起動する。
【0065】処理2);切出し文字総個数Mが切出し許
容個数の上限値Gmax よりも大きいときは、推定文字ピ
ッチpに負の補正値Δpを加算して新たな推定文字ピッ
チpを設定し、この新たな推定文字ピッチpを用いて仮
の切出し開始位置XS 及び仮の切出し終了位置XR を設
定し直すべく、終了位置検出手段22dを再起動する。
【0066】処理3);切出し文字総個数Mが切出し許
容個数の下限値Gmin 以上かつ切出し許容個数の上限値
max 以下となるとき、当該切出し文字総個数Mを得た
仮の切出し開始位置XS 及び仮の切出し終了位置XE
を、切出し対象文字の切出し位置(切出し対象文字パタ
ンの切出し位置)と決定する。
【0067】次に切出し位置決定手段22の動作の流れ
につき、より具体的に一例を挙げて説明する。図4及び
図5はその説明に供する図である。図4は文字要素パタ
ンの検出及び推定文字ピッチの設定の説明に供する図で
あって、図4の分図(A)にあっては記入領域282の
画像パタンを、図3と同様にして示してある。また図4
の分図(B)にあっては、主走査方向を文字列方向Xと
直交する方向Yとすると共に副走査方向を文字列方向X
とし、横軸に副走査位置X及び縦軸に副走査位置Xにお
ける累積文字画素数fn(X) を取って、記入領域282内
の累積文字画素数fn(X) の分布状態を示してある。図5
は位置設定制御手段22eに着目した動作の流れを示す
図である。
【0068】まず文字要素検出手段22aは、記入領域
282のアドレスX、Y及び閾値THL1を、フォーマ
ット記憶手段14から読み出し、然る後、記入領域28
2の画像パタン40を、このアドレスX、Yを用いて画
像記憶手段12から読み出す。ここでは、記入領域28
2は、文字列方向Xにおける始端位置XL 及び終端位置
R をXL =X1及びXR =X2、文字列方向Xと直交
する方向Yにおける始端位置YT 及び終端位置YB をY
T =Y1及びYB =Y2とした、XL ≦X≦XR かつY
T ≦Y≦YB の範囲の領域であって、この記入領域28
2のアドレスX、YをXL ≦X≦XR かつYT ≦Y≦Y
B とする。
【0069】次いで文字要素検出手段22aは、主走査
方向を文字列方向Xと直交する方向Y及び副走査方向を
文字列方向Xとして、記入領域282の画像パタン40
を走査し、各副走査位置X毎に、走査線上の累積文字画
素数fn(X) を求める。累積文字画素数fn(X) は、副走査
位置Xの走査線上に存在しかつ記入領域282内に存在
する文字画素の総個数である。
【0070】次いで文字要素検出手段22aは、各副走
査位置X毎に、累積文字画素数fn(X) を閾値THL1と
比較し、fn(X) >THL1となる領域を文字要素領域及
びfn(X) ≦THL1となる領域を文字要素間領域と見做
して、文字要素間領域から文字要素領域に変化したとき
の副走査位置Xを文字要素領域の始端位置XL として及
び文字要素領域から文字要素間領域に変化したときの副
走査位置Xを文字要素領域の終端位置XR として検出す
る。そして文字要素検出手段22aは、記入領域282
内の各文字要素領域毎に、始端位置XL 及び終端位置X
R を切出しパラメータ記憶手段22cに格納する。図4
にあってはTHL1=0とした場合に検出される始端位
置XL 及びXR を示してある。
【0071】次にピッチ推定手段22bは、記入領域2
82内の各文字要素幅WB と記入領域282内の各文字
要素間隔WS とを求める。文字要素幅WB は文字要素領
域の始端位置XL 及び終端位置XR の離間距離に等し
く、文字要素間隔WS は相隣接する文字要素領域の離間
距離に等しい。
【0072】次いでピッチ推定手段22bは、記入領域
282内の文字要素幅WB のうち最大の幅WBmaxを検出
すると共に、記入領域282内においてWBmaxを得た文
字要素パタンに隣接する文字要素間隔WS のうち最小の
間隔WSminを検出し、これら最大幅WBmax及び最小間隔
Sminの和を推定文字ピッチpとして求める。そしてピ
ッチ推定手段22bは、求めた推定文字ピッチpを切出
しパラメータ記憶手段18dに格納する。
【0073】位置設定制御手段22eは、ピッチ推定手
段22bが推定文字ピッチpを格納し終えると、切出し
パラメータ記憶手段22cから記入領域282の文字要
素領域の始端位置XS を読み出す。そして終了位置検出
手段22dは、記入領域282内の最小の始端位置XS
を検出し、当該最小の始端位置XS を記入領域282の
最初の仮の切出し開始位置XS として切出しパラメータ
記憶手段22cに格納し、然る後、終了位置検出手段2
2dを起動する(図5の開始)。
【0074】起動された終了位置検出手段22dは、切
出しパラメータ記憶手段22cから記入領域282に関
する最初の仮の切出し開始位置XS と推定文字ピッチp
とを読み出し、最初の仮の切出し終了位置XE としてX
E =XS +p−1を算出する。
【0075】次に位置設定制御手段22eは、終了位置
検出手段22dが算出した仮の切出し終了位置XE が文
字要素領域内の位置及び文字要素間領域内の位置のいず
れであるかを、検定し、この検定結果に応じた仮の切出
し終了位置XE を切出しパラメータ記憶手段22cに格
納する。仮の切出し終了位置XE が文字間領域内の位置
である場合には、当該終了位置XE を補正せずにそのま
ま切出しパラメータ記憶手段22cに格納する。また仮
の切出し終了位置XE が文字領域内の位置である場合に
は、仮の切出し終了位置XE を当該文字領域の終端位置
R 若しくは当該文字領域に隣接する文字間領域内の位
置に補正し、補正した仮の切出し終了位置XE を切出し
パラメータ記憶手段22cに格納する(図5のS1)。
次いで位置設定制御手段22eは、切出し文字総個数M
(Mの初期値はM=0)に1を加算して、切出し文字総
個数Mをカウントする(図5のS2)。
【0076】次いで位置設定制御手段22eは、記入領
域282について仮の切出し位置の設定終了か否かを判
定する(図5のS3)。切出し終了位置XE を記入領域
282内の文字要素領域の終端位置XR のうち最大の終
了位置XRmaxと比較し、XE<XRmaxとなる場合は設定
未終了と判定し、XE ≧XRmaxとなる場合は設定終了と
判定する。
【0077】設定未終了と判定した場合は、位置設定制
御手段22dは、次の仮の切出し開始位置XS としてX
S =XE +ΔXを算出して、次の仮の切出し位置XS
切出しパラメータ記憶手段22cに格納し、然る後、終
了位置検出手段22dを起動する(図5のS4)。例え
ばΔX=1である。起動された終了位置検出手段22d
は、次の仮の切出し開始位置XS を切出しパラメータ記
憶手段22cから読み出し、次の仮の切出し終了位置X
E を算出する。次いで位置設定制御手段22eは、終了
位置検出手段22dが算出した次の仮の切出し終了位置
E の検定及び格納を行なう(図5のS1)。
【0078】また設定終了と判定した場合は、位置設定
制御手段22eは、記入領域282の切出し許容個数の
下限値Gmin 及びGmax を許容数検索手段20aから読
出し、然る後、切出し文字総個数Mを、記入領域282
の切出し許容個数の下限値Gmin 及び上限値Gmax と比
較する(図5のS5)。
【0079】切出し文字総個数Mが下限値Gmin より小
さい場合(M<Gmin なる場合)は位置設定制御手段2
2eは、推定文字ピッチpに負のピッチ補正値Δpを加
算したピッチを新たな推定文字ピッチpとして算出し、
切出しパラメータ記憶手段22cの推定文字ピッチp
を、この新たな推定文字ピッチpに書き換える。然る
後、位置設定制御手段22eは、最初の仮の切出し終了
位置を算出すべく終了位置検出手段22dを起動する
(図5のS6)。起動された終了位置検出手段22d
は、最初の切出し終了位置XE を算出する。然る後、終
了位置検出手段22dは、終了位置検出手段18が算出
した最初の仮の切出し終了位置XE の検定及び格納を行
ない(図5のS1)、以後、切出しパラメータ記憶手段
22cの仮の切出し開始位置XS 及び仮の切出し終了位
置XE を、新たな推定文字ピッチpにより求めた仮の切
出し開始位置XS 及び仮の切出し終了位置XE に書き換
える。
【0080】切出し文字総個数Mが上限値Gmax より大
きい場合(M>Gmax なる場合)は、位置設定制御手段
22eは、推定文字ピッチpに正のピッチ補正値Δpを
加算したピッチを新たな推定文字ピッチpとして算出
し、切出しパラメータ記憶手段22cの推定文字ピッチ
pを、この新たな推定文字ピッチpに書き換える。然る
後、位置設定制御手段22eは、最初の仮の切出し終了
位置を算出すべく終了位置検出手段22dを起動する
(図5のS7)。起動された終了位置検出手段22d
は、最初の切出し終了位置XE を算出する。然る後、位
置設定制御手段22eは終了位置検出手段18が算出し
た最初の仮の切出し終了位置XE の検定及び格納を行な
い(図5のS1)、以後、切出しパラメータ記憶手段2
2cの仮の切出し開始位置XS 及び仮の切出し終了位置
E を、新たな推定文字ピッチpにより求めた仮の切出
し開始位置XS 及び仮の切出し終了位置XE に書き換え
る。
【0081】また切出し文字総個数Mが下限値Gmin
上であって上限値Gmax 以下となる場合(Gmin ≦M≦
max なる場合)は、位置設定制御手段22eは、当該
切出し文字総個数Mを得た各仮の切出し開始位置XS
び各仮の切出し終了位置XEを、記入領域282の切出
し対象文字パタンの切出し位置(切出し対象文字の切出
し位置)と決定し、当該記入領域282の切出し対象文
字パタンを切り出すべく第二のパタン読出し手段24を
起動し(図5のS8)、然る後、当該記入領域282に
関して切出し対象文字パタンの切出し位置を検出するた
めの処理を終了する(図5の終了)。
【0082】認識手段16は、属性判別用文字402の
認識結果を許容数検索手段20aに対し出力すると共
に、属性判別用文字402の認識結果を記憶している。
【0083】一方、位置設定制御手段22eにより起動
された第二のパタン読出し手段24は、決定された切出
し対象文字パタンの切出し位置XS 、XE を切出しパラ
メータ記憶手段22cから読み出すと共に記入領域の始
端位置YT 、YB をフォーマット記憶手段14から読出
す。そして第二のパタン読出し手段24は、これら切出
し位置XS 、XE と記入領域282の始端位置YT 、終
端位置YB とをアドレスに用いて、XS ≦X≦XE かつ
T ≦Y≦YB なる領域の画像パタン44を切出し対象
文字382の文字パタンとして切り出し、当該切出しパ
タンを認識手段16に対し出力する。認識手段16は切
出し対象文字382の文字パタンの認識処理を行ない認
識結果を得ると、切出し対象文字382の認識結果と既
に得ている属性判別用文字402の認識結果とを認識領
域282に関する1組の認識結果として、これら文字3
82、402の配列順次に、各認識結果を、次段の装置
46へ出力する。
【0084】同様にして、切出し位置決定手段22は、
他の記入領域281についても、切出し対象文字パタン
の切出し位置を検出する。そして認識手段16は、記入
領域281の切出し対象文字381の認識結果を得る
と、切出し対象文字381の認識結果と属性判別用文字
401の認識結果とを、記入領域281に関する1組の
認識結果として、これら文字381、401の配列順次
に、各認識結果を次段の装置46へ出力する。
【0085】この実施例では、まずA)属性判別用文字
の認識結果に対応した切出し許容個数の下限値Gmin
max を検出する。そしてB)仮の切出し開始位置XS
からほぼ推定文字ピッチpだけ離れた位置を仮の切出し
終了位置XE とし、仮の切出し終了位置XE に隣接する
位置を次の仮の切出し開始位置XS として、順次に仮の
切出し位置XS 、XE を検出し、C)記入領域内の仮の
切出し開始位置XS 又は仮の切出し終了位置XE を切出
し文字総個数Mとし、切出し文字総個数Mと切出し許容
数の下限値Gmin 、上限値Gmax とを比較し、D)この
比較結果に応じて、仮の切出し位置XS 、XE を対象パ
タン切出し位置として決定し若しくは推定文字ピッチを
補正して再度仮の切出し位置位置XS 、XE を検出を行
なう。
【0086】このように対象パタン切出し位置を切出し
文字総個数Mと切出し許容数の上限値Gmax 及び下限値
min との比較結果に応じて決定するので、対象パタン
切出し位置の決定を簡単で高精度に行なえる。これがた
め、切出し対象文字パタンの切出し処理を高速化でき、
またこれに加えて装置のハード化に当っては装置構成を
簡単化し装置規模の小型化を図れるという利点がある。
【0087】図6は他の実施例の全体構成を概略的に示
す機能ブロック図である。図1の実施例では、第一のパ
タン読出し手段18及び第二のパタン読出し手段24を
そぞれ個別のパタン読出し手段により構成したが、図6
の実施例では、第一のパタン読出し手段18及び第二の
パタン読出し手段24をひとつのパタン読出し手段48
で構成するほかは、上述した実施例と同様の構成とす
る。
【0088】パタン読出し手段48は、第一のパタン読
出し手段18及び第二のパタン読出し手段24の双方の
機能を担う。従ってパタン読出し手段48は、フォーマ
ット記憶手段14から読み込んだ属性判別用文字のアド
レスを用いて、属性判別用文字の文字パタンを切り出
し、当該切出しパタンを認識手段16へ出力すると共
に、切出しパラメータ記憶手段22cから読み込んだ切
出し対象文字の切出し位置XS 、XE とフォーマット記
憶手段14から読み込んだ記入領域の始端位置YT、終
端位置YB とを用いて、切出し対象文字の文字パタンを
切り出す。
【0089】ひとつのパタン読出し手段48により、第
一のパタン読出し手段18及び第二のパタン読出し手段
24を構成することにより、装置構成をより簡素化でき
るという利点がある。
【0090】この発明は上述した実施例にのみ限定され
るものではなく、この発明の趣旨の範囲内において種々
の変更を行なえる。
【0091】上述した実施例では、属性判別用文字を、
都、道、府、県、市、区、町、村或はそのほかの住所に
関わる文字としたが、属性判別用文字と切出し対象文字
との間に相関関係が存在しその相関関係に基づいて切出
し許容個数の下限値Gmin 、Gmax を予めデータとして
記憶することができるのであれば、種々の文字を属性判
別用文字として用いることができる。例えば西暦、昭和
といった年号を表す文字を属性判別用文字としても良
い。
【0092】
【発明の効果】上述した説明からも明らかなように、こ
の発明の文字認識装置によれば、記入領域に記入される
切出し対象文字の総個数と当該記入領域に対応した属性
判別用文字の認識結果との間に存在する相関関係に基づ
いて、記入領域の切出し許容個数の下限値Gmin 及び上
限値Gmax を予め調べデータとして保持しておく。そし
て記入領域内の仮の切出し開始位置又は仮の切出し終了
位置の検出総個数を、記入領域の仮の切出し文字総個数
Mとし、切出し文字総個数Mが切出し許容数の下限値G
min より小さいか切出し許容数の上限値Gmax より大き
いときは、当該切出し文字総個数Mを得た仮の切出し開
始位置及び仮の切出し終了位置は、切出し対象文字パタ
ンの切出し位置として不適切であると判定し、仮の切出
し開始位置及び仮の切出し終了位置を補正すべく再度仮
の切出し位置の検出を行なう。また記入領域の切出し文
字総個数Mが切出し許容数の下限値Gmin 以上であって
かつ上限値Gmax 以下となるとき、当該切出し文字総個
数Mを得た仮の切出し開始位置及び仮の切出し終了位置
は、対象パタン切出し位置として適切であると判定し、
当該仮の切出し開始位置及び仮の切出し終了位置を切出
し対象文字パタンの切出し位置と決定する。
【0093】このように、属性判別用文字の認識結果に
対応した記入領域の切出し許容個数の上限値Gmax 及び
下限値Gmin を検出し、切出し対象文字の切出し位置を
切出し文字総個数Mと切出し許容数の上限値Gmax 及び
下限値Gmin との比較結果に応じて決定するので、切出
し対象文字の切出し位置の決定を簡単に行なえる。これ
がため、切出し対象文字パタンの切出し処理を高速化で
き、またこれに加えて装置のハード化に当っては装置構
成を簡単化し装置規模の小型化を図れるという利点があ
る。
【図面の簡単な説明】
【図1】実施例の構成を概略的に示す機能ブロック図で
ある。
【図2】実施例の文字認識装置で用いることのできる帳
票の一例を示す図である。
【図3】実施例で用いる帳票の画像パタンの一例を示す
図である。
【図4】(A)及び(B)は記入領域の画像パタン及び
累積文字画素数を示す図である。
【図5】実施例の位置設定制御手段に着目した動作の流
れを示す図である。
【図6】他の実施例の全体構成を概略的に示す機能ブロ
ック図である。
【符号の説明】
10:文字認識装置 12:画像記憶手段 14:フォーマット記憶手段 16:認識手段 18:第一のパタン読出し手段 20:切出し許容数設定手段 22:切出し位置決定手段 24:第二のパタン読出し手段

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 切出し対象文字が記入され切出し対象文
    字複数個分の広さに仕切られた記入領域と当該切出し対
    象文字に対応する属性判別用文字が記入され属性判別用
    文字1個分の広さに仕切られた属性判別領域とを有する
    帳票の画像パタンから、文字パタンを切り出し、該文字
    パタンの認識処理を行なう文字認識装置において、 文字パタンの認識処理を行なう認識手段と、 属性判別領域の画像パタンを属性判別用文字パタンとし
    て切り出す第一のパタン読出し手段と、 属性判別用文字パタンの認識結果に対応する切出し許容
    個数の下限値及び上限値を設定する切出し許容数設定手
    段と、 記入領域の画像パタンから文字要素パタンを検出し、 該文字要素パタンの検出位置を用いて仮の切出し位置を
    設定し、 該仮の切出し位置を用いて前記記入領域の切出し文字総
    個数を求め、 該切出し文字総個数が、前記切出し許容個数の上限値よ
    りも大きいとき及び前記切出し許容個数の下限値よりも
    小さいときは、前記仮の切出し位置を補正すると共に当
    該補正位置を用いて切出し文字総個数を求め直し、 該切出し文字総個数が、前記切出し許容個数の上限値以
    下であってかつ切出し許容個数の下限値以上となったと
    き、当該切出し文字総個数を得た仮の切出し位置を、切
    出し対象文字パタンの切出し位置と決定する切出し位置
    決定手段と、 該切出し対象文字パタンの切出し位置を用いて、記入領
    域の画像パタンから切出し対象文字パタンを切り出す第
    二のパタン読出し手段とを備えて成ることを特徴とする
    文字認識装置。
  2. 【請求項2】 請求項1記載の文字認識装置において、 第一のパタン読出し手段と第二のパタン読出し手段とを
    個別のパタン読出し手段により構成することを特徴とす
    る文字認識装置。
  3. 【請求項3】 請求項1記載の文字認識装置において、 第一のパタン読出し手段と第二のパタン読出し手段とを
    ひとつのパタン読出し手段により構成することを特徴と
    する文字認識装置。
JP7039604A 1995-02-28 1995-02-28 文字認識装置 Withdrawn JPH08235311A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7039604A JPH08235311A (ja) 1995-02-28 1995-02-28 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7039604A JPH08235311A (ja) 1995-02-28 1995-02-28 文字認識装置

Publications (1)

Publication Number Publication Date
JPH08235311A true JPH08235311A (ja) 1996-09-13

Family

ID=12557727

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7039604A Withdrawn JPH08235311A (ja) 1995-02-28 1995-02-28 文字認識装置

Country Status (1)

Country Link
JP (1) JPH08235311A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006338578A (ja) * 2005-06-06 2006-12-14 Mitsubishi Electric Corp 文字認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006338578A (ja) * 2005-06-06 2006-12-14 Mitsubishi Electric Corp 文字認識装置

Similar Documents

Publication Publication Date Title
US5280544A (en) Optical character reading apparatus and method
EP0472313B1 (en) Image processing method and apparatus therefor
JP2018055255A (ja) 情報処理装置、情報処理方法及びプログラム
US5956433A (en) Method and device for removing spots from a character image in an optical character reader
JP2644041B2 (ja) 文字認識装置
EP0602180A1 (en) LOCATION OF CHARACTERS FOR IDENTIFICATION OF CHARACTERS.
JPH08235311A (ja) 文字認識装置
JP3145264B2 (ja) 文字切出し装置
JP2902097B2 (ja) 情報処理装置及び文字認識装置
JPH0916713A (ja) 画像領域分割方法
JP2001236467A (ja) パターン認識方法、装置、およびパターン認識プログラムを記録した記録媒体
JP3100825B2 (ja) 線認識方法
JP2993533B2 (ja) 情報処理装置及び文字認識装置
JP2581809B2 (ja) 文字切出し装置
JPH0830725A (ja) 画像処理装置及び方法
JPS6343788B2 (ja)
JP2975720B2 (ja) 光学的文字読取装置
JP3310063B2 (ja) 文書処理装置
JP3334369B2 (ja) 選択項目認識装置
JP2570571B2 (ja) 光学文字読取装置
JP2626084B2 (ja) 文字認識装置
JPH03222082A (ja) 文字認識装置
JPH11265424A (ja) 文字認識方法、装置および記録媒体
JPH0573717A (ja) 光学的文字読取装置
JP2002074269A (ja) 文字認識方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20020507