JPH08129607A - 光学式文字認識方法 - Google Patents

光学式文字認識方法

Info

Publication number
JPH08129607A
JPH08129607A JP6266934A JP26693494A JPH08129607A JP H08129607 A JPH08129607 A JP H08129607A JP 6266934 A JP6266934 A JP 6266934A JP 26693494 A JP26693494 A JP 26693494A JP H08129607 A JPH08129607 A JP H08129607A
Authority
JP
Japan
Prior art keywords
field
recognition
image data
character recognition
divided
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6266934A
Other languages
English (en)
Inventor
Mayumi Iwanaga
まゆみ 岩永
Masato Teramoto
正人 寺本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP6266934A priority Critical patent/JPH08129607A/ja
Publication of JPH08129607A publication Critical patent/JPH08129607A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 非線形な帳票イメージデ−タに対しても、高
速かつ高精度に認識フィールド位置を抽出することを可
能にする。 【構成】 各認識フィールドごとに異なる基準を用い
て、その位置座標を設定し、実際のイメージデータで、
先に抽出したフィールドの頂点座標、線分の始点終点座
標をもとに、後の認識フィールドを抽出する。これによ
り、ファクシミリ等の搬送精度の悪い帳票入力装置を用
いた非線形なイメージデータに対しても、高速かつ高精
度に認識フィールド位置を抽出することが可能となる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、分割された認識フィー
ルドごとに異なる基準点または線を用いて、それぞれフ
ィールドの位置座標を表すことにより、ファクシミリ等
の搬送精度の悪い非線形な帳票イメージデ−タに対して
も、高速かつ高精度に認識フィールド位置を抽出するこ
とが可能な光学式文字認識方法に関する。
【0002】
【従来の技術】従来、文字認識装置においては、帳票の
左上、左下、右上、右下のいずれかの点を原点座標と
し、帳票の上辺または下辺からの垂直位置と左辺または
右辺からの水平位置によって認識フィールドの位置座標
を表す方法や、帳票に非ドロップアウトカラーで印刷さ
れた線分等を基準として、認識フィールド位置座標を相
対座標で表す方法が一般的であった。一方、画像読取装
置では、搬送精度の悪い非線形な原稿に対しても精度よ
く読み取れるような方法が提案されている。例えば、特
開平5−207241号公報に記載された画像読取装置
では、原稿の送り速度の変動や原稿の伸縮があった場合
でも、原稿上の所定の領域の画像を精度よく読み取れる
ようにしている。すなわち、基準マーク検出ブロックで
は、原稿上の第1のマークが検出されてから第2のマー
クが検出されるまでの間だけ、ハイレベルとなるマーク
間距離検出信号を検出する。基準マーク間距離検知ブロ
ックにより、基準マーク検出ブロックにより検出された
マーク間距離検知信号と、1ライン画像の同期信号とか
ら両マーク間の距離を測定する。この基準マーク間の距
離に関する情報を画像データとともに外部装置に出力し
ている。
【0003】
【発明が解決しようとする課題】上述のように、従来の
光学式文字認識技術では、認識フィールド位置を帳票の
端点からの座標で表していたため、入力帳票の基準端点
からのフィールド位置座標とイメージデ−タ上の帳票の
基準端点からのフィールド位置座標との誤差が大きくな
った場合、認識フィールドの抽出精度が悪くなることが
ある。例えば、FAX等の搬送精度の悪い帳票入力装置
を用いた場合、帳票イメージデ−タには傾きや、伸び縮
みが生じることがある。しかも、この場合には、イメー
ジデ−タ全体に一様な傾き、伸び縮みが生じるものでは
ないため、イメ−ジデ−タが非線形なものとなる。この
ため、基準となる端点から位置の遠い認識フィールドは
誤差の影響が大きくなり、認識フィールド抽出の精度が
低下して、フィールド内の文字認識率が低下するという
問題があった。また、上述の画像読取装置では、原稿の
送り速度の変動や原稿の伸縮があった場合でも、原稿上
の所定の領域の画像を精度よく読み取れるが、出力信号
に基づいて伸縮率を計算しなければならず、処理が非常
に面倒であった。本発明の目的は、このような従来の課
題を解消し、ファクシミリ等の搬送精度の悪い帳票入力
装置を用いた場合でも、非線形のイメージデ−タに対し
て、認識フィールド抽出を高精度かつ高速に行うことが
可能な光学式文字認識方法を提供することにある。
【0004】
【課題を解決するための手段】上記目的を達成するた
め、本発明の光学式文字認識方法は、認識フィールド位
置を、従来の方式である全てのフィールドに対し同一の
基準を用いて、その座標を表す方法に代えて、分割され
た認識フィールドごとに基準となる点または線を変更す
る方法を用い、各基準からの各フィールドへの誤差の影
響を小さくすることによって、非線形なイメージデータ
に対しても、高精度にフィールド抽出を行う。また、帳
票の全フォーマットのうちの特定のフィールドの文字の
みを認識するだけでよい場合には、先ずその分割された
特定のフィールドの基準となる点または線を設定した
後、その特定レイアウトのみの文字を認識すればよい。
その結果、高速度で文字認識が可能となる。
【0005】
【作用】本発明においては、分割された認識フィールド
ごとに異なる基準点または線を用いて、その位置座標を
表わすので、非線形なイメージデータに対して、帳票に
おける基準からのフィールド位置座標とイメージデータ
上の基準からのフィールド位置座標との誤差の影響が小
さくなり、高精度でフィールド抽出が可能となる。ま
た、帳票内の全ての文字を認識することなく、ある特定
レイアウトのみの文字を認識すればよい場合には、先ず
分割された特定のレイアウトの基準となる点または線を
設定した後に、その特定レイアウトのみの文字を認識す
る。これにより、全体の文字を認識する時間よりも格段
に少ない時間で認識が可能であり、高速処理が可能とな
る。
【0006】
【実施例】以下、本発明の一実施例を詳細に説明する。
図1は、本発明が適用される文字認識装置の全体のブロ
ック図である。図1の文字認識装置11において、14
はスキャナあるいはファクシミリ装置等の入力装置、お
よびホスト等の上位装置との間でデータのやりとりを実
行するインタフェース制御部、15は処理に使用される
データおよび処理後の結果データを格納するワークメモ
リ、16は入力装置から入力された帳票イメージデータ
を格納する画像メモリ、17は文字認識装置全体を制御
する制御プロセッサ、18は帳票イメージデータから文
字を認識するための切り出し処理、認識処理を実行する
認識プロセッサである。また、12は上位装置からフォ
ーマット情報がセットされるフォーマット情報レジス
タ、13はスキャナ,ファクシミリ装置等の入力装置か
ら入力された帳票イメージデータをセットする帳票イメ
ージデータレジスタである。先ず、ホスト等の上位装置
より、これから認識処理を開始する帳票のフォーマット
情報、例えば縦横寸法、基準点および基準線、分割され
た各フィールドの開始点、開始線等の情報をフォーマッ
ト情報レジスタ12にセットするとともに、スキャナあ
るいはファクシミリ装置により原稿を読み取って帳票イ
メージデータレジスタ13にセットする。次に、認識フ
ィールドの位置座標が格納されているフォーマット情報
レジスタ12の内容を文字認識装置11内のワークメモ
リ15にダウンロードする。次に、ファクシミリ等の帳
票入力装置により光電交換された帳票のイメージデータ
13を、インタフェース制御部14を介して画像メモリ
16に格納する。画像メモリ16に格納された帳票イメ
ージデータと、ワークメモリ15に格納されたフォーマ
ット情報から、認識プロセッサ18により帳票内の分割
された各認識フィールド位置を抽出し、文字切り出し処
理、文字認識処理を実行して、その認識結果をワークメ
モリ15に格納した後、インタフェース制御部14を介
してそのワークメモリ15から読み出した認識結果を上
位装置に転送する。
【0007】図2は、本発明における認識フィールドの
位置情報設定に用いる帳票の一例を示すフォーマット図
である。図2により、フォーマット情報に設定する各認
識フィールドの位置座標設定の例を述べる。本発明にお
いては、前述のように、帳票内のフォーマット中、分割
された各フィールド毎に、それぞれ基準点および基準線
を設定する。帳票上のデータに伸縮があっても、フィー
ルド毎に基準点および線を設けることにより、伸縮寸法
はフィールドで分割されるので小さくなる。図2におい
て、21〜27を認識対象フィールドとする。先ず、帳
票左上点P0を始点座標として、レイアウトを定める全
フィールドの横方向の線分p1−p2、縦方向の線分p
1−p3の各始点と終点座標を設定する。各認識フィー
ルドの位置座標は、基準線p1−p2、p1−p3に近
いものから設定する。すなわち、21フィールドは点p
1を基準とした垂直位置V1、水平位置H1(この場合
には、点p1からの距離は0であるため、H1=0)、
フィールド高さFV1、フィールド幅FW1の順序で位
置座標を設定する。
【0008】次に、フィールド22のように水平方向
に、他のフィールドと接触しているものは、フィールド
21の右上点p4を基準に位置座標を設定する。また、
フィールド24のように他のフィールドと垂直方向に接
触しているものは、フィールド21の左下点p5を基準
とする。フィールド25については、フィールド22ま
たはフィールド24のいずれかを基準とすればよい(つ
まり、p5またはp4を基点とする)。同じようにし
て、フィールド23については、p4を基準点とする。
また、フィールド26については、p4またはp5のい
ずれか一方を基準点とすればよい。また、フィールド2
7のように他フィールドと接触のないものについては、
基準線p1−p2の終点p2を基準点とし、基準点p2
からの位置を設定する。以上のように、各認識フィール
ドの位置座標は、基準となる他フィールドまたは基準と
なる線分(p1−p2,p1−p3)を識別する情報
と、基準からフィールドまでの、水平位置(H)、垂直
位置(V)、幅(FW)、高さ(FV)の情報からなっ
ている。ここで、他フィールドまたは基準となる線分を
識別する情報は、例えば、帳票フォーマット情報で、フ
ィールドの位置座標を設定した順にフィールドに番号を
付加し(21〜27等)、これを識別情報とする。な
お、これらの各フィールド位置座標は、帳票端点を原点
座標とする基準線分から設定する必要がある。本実施例
の場合、p1−p2線分、p1−p3線分、フィールド
21、フィールド22、フィールド24、フィールド2
5、フィールド23、フィールド26、フィールド27
の順が考えられる。
【0009】図3は、本発明の一実施例を示す光学式文
字認識方法の処理フローチャートである。図2、図3に
おいて、このフィールド位置座標から認識フィールドの
抽出を行う処理の一例について述べる。最初に、基準と
なるp1−p2、p1−p3の線分検出を行う(ステッ
プ31)。次に、認識プロセッサにおいて、入力したイ
メージデータに対し、黒ドットの連結状態を調べ(ラベ
リング処理)(ステップ32)、次に、線分長さ、始点
の位置関係から、基準線分p1−p2、p1−p3を確
定し(ステップ33)、イメージデータ上の始点p1、
終点p2、終点p3の各基準点の座標をワークメモリに
格納する(ステップ35)。また、上記の基準線分の確
定処理(ステップ33)に際して、線分の長さ、傾きか
ら、イメージのおおまかな伸縮率、傾き角を求める(ス
テップ34)。次に、フィールド21の抽出のために、
格納したp1座標と伸縮率、傾き角と基準からのフィー
ルド位置座標(V1、H1、FV1、FW1)をもと
に、認識フィールドを構成する枠線の検出矩形を設定し
(ステップ37)、矩形内のラベリング処理を行い(ス
テップ38)、位置座標のフィールドの幅、高さから、
枠線を抽出し、枠線内を認識フィールドとして確定する
(ステップ39)。このとき、抽出した認識フィールド
の識別情報と頂点座標(基準点の座標)をワークメモリ
に格納して(ステップ40)、後のフィールドの基準と
する。このようにして、フィールド21,22,24,
25,23,26の順序でフィールドの枠を確定し、フ
ィールド番号と頂点座標を格納していき(ステップ3
7,38,39,40,36)、全認識フィールドの抽
出が終了したことを判別したならば、抽出した各フィー
ルドについて、文字きりだし処理(ステップ41)、文
字認識処理(ステップ42)を実施する。なお、ラベリ
ング処理とは、例えば、図2における納品伝票の文字の
下線や、各フィールドの横枠のように、横に連続した黒
ドットを検出する処理である。
【0010】なお、図3の処理は、全認識フィールドを
抽出する場合のフローであるが、認識する帳票のうち、
ある特定のフィールド内の文字のみを認識するだけでよ
い場合には、ステップ37〜40の処理はその特定フィ
ールドに対してだけ行えばよい。従って、ステップ36
の判定処理は不要となる。本実施例からわかるように、
前に抽出したフィールドの頂点座標、線分の始点終点座
標の情報、つまり、イメージデータの実測値を用いて、
後のフィールドを抽出するため、イメージデータの基準
からのフィールド位置座標とフォーマット情報の基準か
らのフィールド位置座標との誤差が小さく、非線形なイ
メージデータに対して高精度なフィールド抽出が可能と
なる。
【0011】
【発明の効果】以上説明したように、本発明によれば、
ファクシミリ等の搬送精度の悪い帳票入力装置を用いた
非線形なイメージデータに対しても、帳票のレイアウト
を全て認識することなく、認識フィールドの抽出を高精
度に行うことができる。また、特定のフィールド内の文
字のみを認識するだけでよい場合には、その特定フィー
ルドに対してだけ処理を行えばよいため、認識フィール
ドの抽出を高速に行うことが可能になる。
【図面の簡単な説明】
【図1】本発明が適用される光学式文字認識装置の全体
のブロック図である。
【図2】本発明において認識フィールドの位置情報設定
に用いられる帳票の一例のフォーマット図である。
【図3】本発明の一実施例を示す光学式文字認識処理の
フローチャートである。
【符号の説明】
12・・フォーマット情報レジスタ、13・・帳票イメ
ージデータレジスタ、14・・インタフェース制御部、
15・・ワークメモリ、16・・画像メモリ、17・・
制御プロセッサ、18・・認識プロセッサ、11・・文
字認識装置、21〜27・・認識フィールド、p0〜p5
・・基準点、V1・・垂直位置、H1・・水平位置、F
V1・・フィールド高さ、FW・・フィールド幅。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 帳票のイメージデータを画像メモリに格
    納し、格納したイメージデータに対し文字認識を行う光
    学式文字認識方法において、 認識対象外の線分や文字が非ドロップアウトカラーで印
    刷された帳票に対して、 分割された認識フィールドごとに異なる基準点または基
    準線を設定し、 該基準点または基準線を基にフィールド位置座標を表
    し、 非線形な帳票イメージデ−タに対しても認識フィールド
    位置を高精度で抽出して、文字認識を行うことを特徴と
    する光学式文字認識方法。
  2. 【請求項2】 請求項1に記載の光学式文字認識方法に
    おいて、前記認識対象外の線分や文字が非ドロップアウ
    トカラーで印刷された帳票のイメージデータに対し、帳
    票における特定のレイアウトのみの位置座標を決定し、
    該特定のレイアウトの文字のみを部分的に認識すること
    を特徴とする光学式文字認識方法。
JP6266934A 1994-10-31 1994-10-31 光学式文字認識方法 Pending JPH08129607A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6266934A JPH08129607A (ja) 1994-10-31 1994-10-31 光学式文字認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6266934A JPH08129607A (ja) 1994-10-31 1994-10-31 光学式文字認識方法

Publications (1)

Publication Number Publication Date
JPH08129607A true JPH08129607A (ja) 1996-05-21

Family

ID=17437722

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6266934A Pending JPH08129607A (ja) 1994-10-31 1994-10-31 光学式文字認識方法

Country Status (1)

Country Link
JP (1) JPH08129607A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007157171A (ja) * 2007-01-29 2007-06-21 Fujitsu Ltd 帳票照合装置
JP2010231541A (ja) * 2009-03-27 2010-10-14 Oki Electric Ind Co Ltd 情報処理装置、文字認識方法、およびプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007157171A (ja) * 2007-01-29 2007-06-21 Fujitsu Ltd 帳票照合装置
JP2010231541A (ja) * 2009-03-27 2010-10-14 Oki Electric Ind Co Ltd 情報処理装置、文字認識方法、およびプログラム

Similar Documents

Publication Publication Date Title
JP3580670B2 (ja) 入力画像を基準画像に対応付ける方法、そのための装置、及びその方法を実現するプログラムを記憶した記憶媒体
JPH09245173A (ja) 画像処理方法
JP3600380B2 (ja) 画像処理方法及びファクス文字認識装置
JP3031579B2 (ja) 帳票の文字認識領域指定方法
JPH08129607A (ja) 光学式文字認識方法
JPH03263282A (ja) 文字読取装置の文字切出し方法
JP3223878B2 (ja) 文字列照合装置、方法及び記録媒体
JPH10208040A (ja) 画像処理方法及び記録媒体
JP3356819B2 (ja) マーク認識装置
JPS63158676A (ja) 領域抽出装置
JPH07160814A (ja) 光学式文字認識方法
JPH07210628A (ja) 免許証読み取り装置
JP2636866B2 (ja) 情報処理方法
JP2001236464A (ja) 文字抽出方法、文字抽出装置及び記憶媒体
JP3022655B2 (ja) 文字認識装置
JP2000339407A (ja) 画像処理装置及び画像処理方法及びコンピュータ読み取り可能な記憶媒体
JP3381803B2 (ja) 傾き角検出装置
JPH08321942A (ja) 画像処理装置及び分割図面の画像接合方法
JP2823350B2 (ja) マルチメディア入力装置
JP2863671B2 (ja) 印字フォーマット作成装置
JPH0221385A (ja) プリンタ装置
JP2001143083A (ja) 帳票のマーク記入欄読取り装置及びそのマーク記入欄読取り方法
JPH09185675A (ja) 様式解析方法
JP3334369B2 (ja) 選択項目認識装置
JP2001126025A (ja) Ocr用フォーマットパラメータ作成方法