JPH08221518A - 光学文字読取装置 - Google Patents

光学文字読取装置

Info

Publication number
JPH08221518A
JPH08221518A JP7029314A JP2931495A JPH08221518A JP H08221518 A JPH08221518 A JP H08221518A JP 7029314 A JP7029314 A JP 7029314A JP 2931495 A JP2931495 A JP 2931495A JP H08221518 A JPH08221518 A JP H08221518A
Authority
JP
Japan
Prior art keywords
pattern
character
frame
entry frame
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP7029314A
Other languages
English (en)
Inventor
Kenji Takeuchi
健司 竹内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Engineering Ltd
Original Assignee
NEC Engineering Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Engineering Ltd filed Critical NEC Engineering Ltd
Priority to JP7029314A priority Critical patent/JPH08221518A/ja
Publication of JPH08221518A publication Critical patent/JPH08221518A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】 【目的】 記入枠線と文字とが重なった場合でも正確な
文字の読取りを可能とする。 【構成】 ヒストグラム算出部2はイメージスキャナ1
が読取ったイメージデータの縦方向及び横方向のヒスト
グラムを算出する。文字切出し部3はヒストグラムを基
に1文字ずつ文字イメージを切出す。枠位置検出部4は
ヒストグラムを基に帳票に印刷された記入枠の枠位置を
検出する。交差枠位置算出部5は切出し位置と枠位置と
を基に文字と記入枠線が接触または交差している座標を
求める。記入枠線付加部6は外部指示に応答して記入枠
線種類メモリ7から読出した記入枠線パターンを辞書パ
ターンメモリ8の辞書パターンに付加して辞書パターン
を作成する。パターンマッチング部9は切出した文字イ
メージのパターンと記入枠線パターンが付加された辞書
パターンとの重ね合わせを行う。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は光学文字読取装置に関
し、特に帳票に印刷または書込まれた文字を読取る光学
文字読取装置に関する。
【0002】
【従来の技術】従来、この種の光学文字読取装置におい
ては、帳票に非ドロップアウトカラー(例えば、黒等)
で印刷された記入枠内に印刷または記入された文字を読
取る場合、スキャナ等で取込んだイメージデータを1文
字ずつ切出している。
【0003】切出した文字パターンに対しては予め用意
してある辞書パターンとの重ね合わせ(パターンマッチ
ング)が行われ、その重ね合わせで不一致ドット数が最
も少ないパターンを求め、その辞書パターンの文字コー
ド(カテゴリ)を認識結果としている。
【0004】しかしながら、上記の方法では記入枠の線
上に文字が印刷または記入されると、その文字を認識す
ることができなかったり、あるいは誤って認識したりし
てしまうことがある。
【0005】この問題を解決するために、特開平4−3
59393号公報には記入枠の線と印刷または記入され
た文字とが重なっていることが検出された場合、記入枠
の線を消去してから文字を切出して文字認識を行う技術
が開示されている。
【0006】この光学文字読取装置は、図4に示すよう
に、イメージスキャナ1と、ヒストグラム算出部2と、
枠位置検出部4と、記入枠線消去部10と、文字切出し
部3と、辞書パターンメモリ8と、パターンマッチング
部9とから構成されている。
【0007】イメージスキャナ1は帳票からイメージデ
ータを読取り、そのイメージデータをヒストグラム算出
部2に送る。ヒストグラム算出部2はイメージスキャナ
1が読取ったイメージデータの縦方向及び横方向のヒス
トグラムを算出し、算出したヒストグラムを枠位置検出
部4に送る。
【0008】枠位置検出部4はヒストグラム算出部2が
算出したヒストグラムを基に帳票に印刷された記入枠の
枠位置を検出し、その枠位置の情報を記入枠線消去部1
0に送る。記入枠線消去部10は枠位置検出部4が検出
した枠位置の記入枠線を消去する。
【0009】文字切出し部3は記入枠線消去部10で記
入枠線が消去されたイメージデータから1文字ずつ文字
イメージを切出し、その文字イメージをパターンマッチ
ング部9に送る。パターンマッチング部9は文字切出し
部3が切出した文字イメージのパターンと辞書パターン
メモリ8に予め用意してある辞書パターンとの重ね合わ
せを行い、その重ね合わせによって最も不一致ドット数
が少ないパターンを求め、その辞書パターンの文字コー
ド(カテゴリ)を認識結果として出力する。
【0010】図5(a)は記入枠線を消去する前の文字
イメージを示し、図5(b)は記入枠線を消去した後の
文字イメージを示している。この図5(a)及び図5
(b)を用いて記入枠線の消去処理について説明する。
【0011】枠位置検出部4はヒストグラム算出部2が
算出したヒストグラムを基に帳票に印刷された記入枠
(横枠)の枠位置YK2を検出すると、記入枠線消去部
10は枠位置YK2の上下1ドットずつ広げた(YK2
−1)から(YK2+1)までを消去範囲とする[図5
(a)参照]。
【0012】また、枠位置検出部4が検出した枠位置か
ら横方向の記入枠線の太さを1ドットと推定したとする
と、記入枠線消去部10は消去対象範囲の中で太さ(高
さ)が1ドット以下の黒ドット群をすべて横線であると
判断し、それら黒ドットを白ドットに変換する[図5
(b)参照]。
【0013】記入枠線消去部10は上記の操作によって
横方向の記入枠線を消去すると共に、上記の操作と同様
の操作で、イメージデータ全体から縦方向及び横方向の
記入枠線を全て消去する。文字切出し部3はこの記入枠
線が消去されたイメージデータから1文字ずつ文字イメ
ージを切出し、パターンマッチング部9は切出した文字
イメージのパターンと辞書パターンメモリ8の辞書パタ
ーンとの重ね合わせを行い、認識結果を出力する。
【0014】
【発明が解決しようとする課題】上述した従来の光学文
字読取装置では、記入枠線と文字との重なりによって不
読や誤読が生じないようにするために、取込んだイメー
ジデータから帳票の記入枠線を消去した後に文字イメー
ジの切出しを行っているので、記入枠線と文字とが重な
る位置によっては記入枠線の消去によって文字イメージ
の一部(例えば、横線全て)が消去されてしまったり、
あるいは記入枠線の一部が残ってしまったりする。これ
らは文字イメージの不読や誤読の原因ともなる。
【0015】そこで、本発明の目的は上記の問題点を解
消し、記入枠線と文字とが重なった場合でも正確に文字
を読取ることができる光学文字読取装置を提供すること
にある。
【0016】
【課題を解決するための手段】本発明による光学文字読
取装置は、帳票のイメージを取込むイメージスキャナ
と、前記イメージスキャナで取込まれた帳票のイメージ
データの縦方向及び横方向のヒストグラムを算出するヒ
ストグラム算出手段と、前記ヒストグラム算出手段で算
出されたヒストグラムから1文字単位の切出し位置を検
出する切出し位置検出手段と、前記ヒストグラム算出手
段で算出されたヒストグラムから前記帳票の記入枠の枠
位置を検出する枠位置検出手段と、前記切出し位置検出
手段で検出された切出し位置と前記枠位置検出手段で検
出された枠位置とに基づいて前記帳票上の文字及び記入
枠各々が接触する座標を算出する接触座標算出手段と、
前記接触座標算出手段で算出された接触座標を基に予め
格納された辞書パターンに前記記入枠を付加する記入枠
付加手段と、前記切出し位置検出手段で検出された切出
し位置に基づいて前記イメージスキャナで取込まれた帳
票のイメージデータから文字パターンを切出す切出し手
段と、前記記入枠付加手段で記入枠が付加された辞書パ
ターンと前記切出し手段で切出された文字パターンとの
パターンマッチングを行うパターンマッチング手段とを
備えている。
【0017】本発明の他の光学文字読取装置は、上記の
構成のほかに、複数種類の記入枠を予め格納する格納手
段を具備し、前記記入枠付加手段は外部指示に応答して
前記格納手段から読出した記入枠を前記辞書パターンに
付加するよう構成されている。
【0018】
【作用】イメージスキャナで取込まれた帳票のイメージ
データの縦方向及び横方向のヒストグラムをヒストグラ
ム算出部で算出する。文字切出し部でヒストグラムから
検出された1文字単位の切出し位置と枠位置検出部でヒ
ストグラムから検出された帳票の記入枠の枠位置とに基
づいて帳票上の文字及び記入枠各々が接触または交差す
る座標を交差枠位置算出部で求める。
【0019】その接触または交差する座標を基に、記入
枠付加部で予め辞書パターンメモリに格納された辞書パ
ターンに予め記入枠線種類メモリに格納された記入枠パ
ターンを付加し、文字切出し部で切出された文字パター
ンと記入枠付加部で記入枠が付加された辞書パターンと
のパターンマッチングをパターンマッチング部で行う。
【0020】これによって、記入枠線や文字の太さ、及
び記入枠線と文字との交差角度または交差位置に影響さ
れることなく、記入枠線と文字とが重なった場合でも正
確に文字を読取ることができる。
【0021】
【実施例】次に、本発明の一実施例について図面を参照
して説明する。
【0022】図1は本発明の一実施例の構成を示すブロ
ック図である。図において、本発明の一実施例による光
学文字読取装置はイメージスキャナ1と、ヒストグラム
算出部2と、文字切出し部3と、枠位置検出部4と、交
差枠位置算出部5と、記入枠線付加部6と、記入枠線種
類メモリ7と、辞書パターンメモリ8と、パターンマッ
チング部9とから構成されている。
【0023】イメージスキャナ1は帳票からイメージデ
ータを読取り、そのイメージデータをヒストグラム算出
部2に送る。ヒストグラム算出部2はイメージスキャナ
1が読取ったイメージデータの縦方向及び横方向のヒス
トグラムを算出し、算出したヒストグラムを文字切出し
部3及び枠位置検出部4に送る。
【0024】文字切出し部3はヒストグラム算出部2が
算出したヒストグラムを基に1文字ずつ文字イメージを
切出し、その切出し位置を交差枠位置算出部5に送ると
ともに、切出した文字イメージをパターンマッチング部
9に送る。
【0025】枠位置検出部4はヒストグラム算出部2が
算出したヒストグラムを基に帳票に印刷された記入枠の
枠位置を検出し、その枠位置を交差枠位置算出部5に送
る。交差枠位置算出部5は文字切出し部3が検出した切
出し位置と枠位置検出部4が検出した枠位置とを基に文
字と記入枠線が接触または交差している座標を求め、そ
の交差枠位置(座標)を記入枠線付加部6に送る。
【0026】記入枠線付加部6は外部指示に応答して帳
票の記入枠線の種類に対応する記入枠線パターンを記入
枠線種類メモリ7から読出すとともに、辞書パターンメ
モリ8から辞書パターンを読出す。
【0027】その後に、記入枠線付加部6は交差枠位置
算出部5が求めた交差枠位置(座標)を基に、辞書パタ
ーンメモリ8から読出した辞書パターンに記入枠線種類
メモリ7から読出した記入枠線パターンを付加して辞書
パターンを作成し、その辞書パターンをパターンマッチ
ング部9に送る。
【0028】尚、記入枠線種類メモリ7には細線や太
線、あるいは破線等の複数種類の記入枠線パターンが予
め格納されており、辞書パターンメモリ8には複数種類
の辞書パターンが予め格納されている。
【0029】パターンマッチング部9は文字切出し部3
が切出した文字イメージのパターンと記入枠線付加部6
が作成した辞書パターンとの重ね合わせを行い、その重
ね合わせによって最も不一致ドット数が少ないパターン
を求め、その辞書パターンの文字コード(カテゴリ)を
認識結果として出力する。
【0030】図2(a)は図1のイメージスキャナ1に
よる帳票からの読取り結果を示す図であり、図2(b)
は図1のヒストグラム算出部2による横方向のヒストグ
ラムの算出結果を示す図であり、図2(c)は図1のヒ
ストグラム算出部2による縦方向のヒストグラムの算出
結果を示す図である。
【0031】図3(a)は図1の文字切出し部3による
切出し結果を示す図であり、図3(b)は図1の辞書パ
ターンメモリ8の辞書パターンを示す図であり、図3
(c)及び図3(e)は図1の記入枠線種類メモリ7の
記入枠線パターンを示す図であり、図3(d)及び図3
(f)は図1の記入枠線付加部6で作成された辞書パタ
ーンを示す図である。
【0032】これら図1及び図3を用いて本発明の一実
施例による文字読取り動作について説明する。
【0033】イメージスキャナ1によって帳票のイメー
ジデータが読取られると、ヒストグラム算出部2はその
イメージデータの横方向及び縦方向のヒストグラムを算
出する[図2(a),(b),(c)参照]。
【0034】枠位置検出部4はこれら横方向及び縦方向
のヒストグラムから横方向の記入枠線位置YK1,YK
2と、縦方向の記入枠線位置XK1,XK2とを検出す
る。文字切出し部3は横方向のヒストグラムでLY≦黒
ドット数<HYとなる位置を求め、切出し位置Ymi
n,Ymaxを決定する。
【0035】また、文字切出し部3は横方向と同様にし
て、縦方向のヒストグラムでLX≦黒ドット数<HXと
なる位置を求め、切出し位置Xmin1,Xmax1
と、切出し位置Xmin2,Xmax2と、切出し位置
Xmin3,Xmax3とを夫々決定する。
【0036】文字切出し部3は上記の処理で決定した切
出し位置を基にまず第1文字目の文字パターンを切出
す。この場合、第1文字目の文字パターンの切出し位置
の座標は「Xmin1,Xmax1,Ymin,Yma
x」である。
【0037】交差枠位置算出部5は文字切出し部3が検
出した切出し位置と枠位置検出部4が検出した枠位置と
を基に文字と記入枠線が接触または交差している座標を
求める。この場合、交差枠位置算出部5はYmin≦Y
K2≦Ymaxであることから、切出し文字と記入枠線
とが交差していることを検出し、切出した文字位置の上
端から横方向の記入枠線までの距離d=YK2−Ymi
nを求める[図3(a)参照]。
【0038】記入枠線付加部6は上端から距離dの位置
に、外部指示に応答して記入枠線種類メモリ7から読出
した記入枠線パターン、つまり横線(実線)“1111
111”を描画(配置)し、記入枠線パターン(横線パ
ターン)を作成する[図3(c)参照]。
【0039】記入枠線付加部6はこの作成した記入枠線
パターンと辞書パターンメモリ8から読出した文字
「2」の辞書パターン[図3(b)参照]との論理和を
とり、パターンマッチング用の辞書パターンを作成する
[図3(d)参照]。
【0040】パターンマッチング部9は文字切出し部3
が切出した文字イメージのパターン[図3(a)参照]
と記入枠線付加部6が作成した辞書パターン[図3
(d)参照]との重ね合わせを行う。この場合、パター
ンマッチング部9は重ね合わせの結果が不一致ドット数
「0」となるので、認識結果として正しく「2」を出力
することができる。
【0041】一方、記入枠線付加部6が外部指示に応答
して記入枠線種類メモリ7から読出した記入枠線パター
ンが横線(破線)“1010101”の場合、記入枠線
付加部6は上端から距離dの位置にこの横線(破線)を
描画(配置)し、記入枠線パターン(横線パターン)を
作成する[図3(e)参照]。その場合、記入枠線付加
部6で作成される辞書パターンは図3(f)に示すよう
な破線が付加されたパターンとなる。よって、非ドロッ
プアウトカラーの記入枠線が実線以外の場合でも正しく
文字パターンを認識することができる。
【0042】このように、イメージスキャナ1で取込ま
れた帳票のイメージデータの縦方向及び横方向のヒスト
グラムをヒストグラム算出部2で算出し、ヒストグラム
から文字切出し部3で検出された1文字単位の切出し位
置とヒストグラムから枠位置検出部4で検出された帳票
の記入枠の枠位置とに基づいて帳票上の文字及び記入枠
各々が接触または交差する座標を交差枠位置算出部5で
求め、その接触または交差する座標を基に予め辞書パタ
ーンメモリ8に格納された辞書パターンに記入枠付加部
6で記入枠を付加し、切出された文字パターンと記入枠
が付加された辞書パターンとのパターンマッチングをパ
ターンマッチング部9で行うことによって、記入枠線や
文字の太さ、及び記入枠線と文字との交差角度または交
差位置に影響されることなく、記入枠線と文字とが重な
った場合でも正確に文字を読取ることができる。
【0043】
【発明の効果】以上説明したように本発明によれば、イ
メージスキャナで取込まれた帳票のイメージデータの縦
方向及び横方向のヒストグラムを算出し、そのヒストグ
ラムから1文字単位の切出し位置及び帳票の記入枠の枠
位置を検出してこれら切出し位置と枠位置とに基づいて
帳票上の文字及び記入枠各々が接触する座標を求め、こ
の接触座標を基に予め格納された辞書パターンに記入枠
を付加した辞書パターンと帳票のイメージデータから切
出された文字パターンとのパターンマッチングを行うこ
とによって、記入枠線と文字とが重なった場合でも正確
に文字を読取ることができるという効果がある。
【図面の簡単な説明】
【図1】本発明の一実施例の構成を示すブロック図であ
る。
【図2】(a)は図1のイメージスキャナによる帳票か
らの読取り結果を示す図、(b)は図1のヒストグラム
算出部による横方向のヒストグラムの算出結果を示す
図、(c)は図1のヒストグラム算出部による縦方向の
ヒストグラムの算出結果を示す図である。
【図3】(a)は図1の文字切出し部による切出し結果
を示す図、(b)は図1の辞書パターンメモリの辞書パ
ターンを示す図、(c)は図1の記入枠線種類メモリの
記入枠線パターンを示す図、(d)は図1の記入枠線付
加部で作成された辞書パターンを示す図、(e)は図1
の記入枠線種類メモリの記入枠線パターンを示す図、
(f)は図1の記入枠線付加部で作成された辞書パター
ンを示す図である。
【図4】従来例の構成を示すブロック図である。
【図5】(a)は記入枠線を消去する前の文字イメージ
を示す図、(b)は記入枠線を消去した後の文字イメー
ジを示す図である。
【符号の説明】
1 イメージスキャナ 2 ヒストグラム算出部 3 文字切出し部 4 枠位置検出部 5 交差枠位置算出部 6 記入枠線付加部 7 記入枠線種類メモリ 8 辞書パターンメモリ 9 パターンマッチング部

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 帳票のイメージを取込むイメージスキャ
    ナと、前記イメージスキャナで取込まれた帳票のイメー
    ジデータの縦方向及び横方向のヒストグラムを算出する
    ヒストグラム算出手段と、前記ヒストグラム算出手段で
    算出されたヒストグラムから1文字単位の切出し位置を
    検出する切出し位置検出手段と、前記ヒストグラム算出
    手段で算出されたヒストグラムから前記帳票の記入枠の
    枠位置を検出する枠位置検出手段と、前記切出し位置検
    出手段で検出された切出し位置と前記枠位置検出手段で
    検出された枠位置とに基づいて前記帳票上の文字及び記
    入枠各々が接触する座標を算出する接触座標算出手段
    と、前記接触座標算出手段で算出された接触座標を基に
    予め格納された辞書パターンに前記記入枠を付加する記
    入枠付加手段と、前記切出し位置検出手段で検出された
    切出し位置に基づいて前記イメージスキャナで取込まれ
    た帳票のイメージデータから文字パターンを切出す切出
    し手段と、前記記入枠付加手段で記入枠が付加された辞
    書パターンと前記切出し手段で切出された文字パターン
    とのパターンマッチングを行うパターンマッチング手段
    とを有することを特徴とする光学文字読取装置。
  2. 【請求項2】 複数種類の記入枠を予め格納する格納手
    段を含み、前記記入枠付加手段は外部指示に応答して前
    記格納手段から読出した記入枠を前記辞書パターンに付
    加するよう構成されたことを特徴とする請求項1記載の
    光学文字読取装置。
  3. 【請求項3】 前記パターンマッチング手段は、前記記
    入枠付加手段で記入枠が付加された辞書パターンと前記
    切出し手段で切出された文字パターンとの重ね合わせを
    行って最も不一致ドット数の少ない辞書パターンのカテ
    ゴリを認識結果として出力するよう構成されたことを特
    徴とする請求項1または請求項2記載の光学文字読取装
    置。
JP7029314A 1995-02-17 1995-02-17 光学文字読取装置 Withdrawn JPH08221518A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7029314A JPH08221518A (ja) 1995-02-17 1995-02-17 光学文字読取装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7029314A JPH08221518A (ja) 1995-02-17 1995-02-17 光学文字読取装置

Publications (1)

Publication Number Publication Date
JPH08221518A true JPH08221518A (ja) 1996-08-30

Family

ID=12272766

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7029314A Withdrawn JPH08221518A (ja) 1995-02-17 1995-02-17 光学文字読取装置

Country Status (1)

Country Link
JP (1) JPH08221518A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008071173A (ja) * 2006-09-14 2008-03-27 Fujitsu Ltd 文字認識プログラム、文字認識方法および文字認識装置
JP2017521787A (ja) * 2014-07-10 2017-08-03 サノフィ−アベンティス・ドイチュラント・ゲゼルシャフト・ミット・ベシュレンクテル・ハフツング 光学式文字認識を行うデバイスおよび方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008071173A (ja) * 2006-09-14 2008-03-27 Fujitsu Ltd 文字認識プログラム、文字認識方法および文字認識装置
JP2017521787A (ja) * 2014-07-10 2017-08-03 サノフィ−アベンティス・ドイチュラント・ゲゼルシャフト・ミット・ベシュレンクテル・ハフツング 光学式文字認識を行うデバイスおよび方法
JP2019194915A (ja) * 2014-07-10 2019-11-07 サノフィ−アベンティス・ドイチュラント・ゲゼルシャフト・ミット・ベシュレンクテル・ハフツング 光学式文字認識を行うデバイスおよび方法

Similar Documents

Publication Publication Date Title
CN111626145A (zh) 一种简捷有效的残缺表格识别及跨页拼接方法
CN111126266B (zh) 文本处理方法、文本处理系统、设备及介质
US6947596B2 (en) Character recognition method, program and recording medium
CN110751013B (zh) 场景识别方法、装置和计算机可读存储介质
JPH08221518A (ja) 光学文字読取装置
JP2868134B2 (ja) 画像処理方法及び装置
JP2846486B2 (ja) 画像入力装置
JP4442977B2 (ja) 文字認識装置、文字イメージ補間方法及び文字イメージ補間プログラムを記録した記録媒体
JP3794285B2 (ja) 光学式文字読取装置
JP2002170077A (ja) 文字認識装置及び文字認識方法
JPH09185726A (ja) 罫線除去方式
JP2010258627A (ja) 画像処理装置、画像処理方法、プログラム及び記憶媒体
JPH0916713A (ja) 画像領域分割方法
JP2908495B2 (ja) 文字画像抽出装置
JP2009193170A (ja) 文字認識装置及び文字認識方法
JP3190794B2 (ja) 文字切り出し装置
JP2721415B2 (ja) 文字画像抽出方法
JPH0711816B2 (ja) 文字切り出し方法
JPH04329492A (ja) 文字切り出し方法
JPH0644406A (ja) 画像処理方法及び装置
JP2000020641A (ja) 文字認識システム
JPH05242297A (ja) 文字切り出し方法
CN115588211A (zh) 一种文本图像的生成方法、装置、电子设备及存储介质
JP2954218B2 (ja) 画像処理方法及び装置
JPH04156694A (ja) 文字認識方式

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20020507