JPH0661112B2 - パタ−ン認識方式 - Google Patents

パタ−ン認識方式

Info

Publication number
JPH0661112B2
JPH0661112B2 JP59001914A JP191484A JPH0661112B2 JP H0661112 B2 JPH0661112 B2 JP H0661112B2 JP 59001914 A JP59001914 A JP 59001914A JP 191484 A JP191484 A JP 191484A JP H0661112 B2 JPH0661112 B2 JP H0661112B2
Authority
JP
Japan
Prior art keywords
character
format information
characters
format
read
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP59001914A
Other languages
English (en)
Other versions
JPS60146373A (ja
Inventor
康明 中野
邦弘 岡田
修 国崎
浩道 藤沢
正雄 道野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP59001914A priority Critical patent/JPH0661112B2/ja
Publication of JPS60146373A publication Critical patent/JPS60146373A/ja
Publication of JPH0661112B2 publication Critical patent/JPH0661112B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明はパターン認識方式に係り、特に帳票上の文字記
入位置の情報によつて出力書式を制御する場合に適した
文字・記号の認識方式に関する。
〔発明の背景〕
従来の文字認識装置は、帳票エツジから計測した位置に
より文字枠を規定し、その文字枠について出力書式(た
とえばカードイメージ上のカラム位置)やチエツク形式
(演算チエツクの方式など)を指示する書式情報を帳票
種ごとに規定していた。以下、文字枠の位置,出力書
式,チエツク形式など帳票種に付随して定められる情報
を書式情報と呼ぶ。しかしながら。書式情報の指定方法
が難しいためこれを簡易化する方法が要望されている。
また、既存の帳票は文字認識を意識していないため文字
枠のないものがあり、このようなものは文字枠の指定が
困難である。また、黒色の文字や表・線など(以下プレ
プリントと呼ぶ)が妨害情報となり、読取対象文字を切
り出すことが困難な場合も多い。
なお、特開昭58−103266号には、文書の空白部
に記入された制御マークによって文字情報とイメージ情
報の処理を切り換えることにより、任意のフォーマット
の文字及びイメージ情報の混在した文書を読取処理する
ものが提案されている。
〔発明の目的〕
本発明の目的は上述した欠点に鑑みて、書式情報の指定
が容易にできるパターン認識装置を提供することにあ
り、さらに、上記の特別な場合としてプレプリントを有
する帳票を用いたときも書式情報の指定が容易にできる
パターン認識方式を提供することにある。
〔発明の概要〕
本発明は、読取対象文字が文字記入枠に記入された入力
帳票を光電変換手段にて読み取り、読み取った上記読取
対象文字の文字パターンをディジタル化して制御手段に
て切り出し、切り出された上記読取対象文字の文字パタ
ーンから上記読取対象文字を認識手段にて認識し、上記
入力帳票の文字記入枠の位置情報を含む書式情報を予め
記憶手段に記憶するパターン認識方式であて、上記入力
帳票の文字記入枠ごとに同一の書式情報指示用文字が、
所定の文字数および所定の文字記入ピッチにて配列され
て記入された書式指示帳票を上記光電変換手段にて読み
取り、読み取った上記書式情報指示用文字の文字パター
ンをディジタル化して上記制御手段にて切り出し、切り
出された上記書式情報指示用文字の文字パターンから上
記書式情報指示用文字を上記認識手段にて認識し、認識
された上記書式情報指示用文字の文字コード、および切
り出された上記書式情報指示用文字の文字パターンの位
置情報を関連付けて上記記憶手段に夫々記憶し、記憶さ
れた文字コードが同一である上記書式情報指示用文字の
文字パターン夫々の位置情報に基づき、上記書式指示帳
票に記入された同一の書式情報指示用文字の配列状態を
判定し、その配列状態から上記入力帳票の文字記入枠に
対応する領域の位置情報、文字数および文字記入ピッチ
を上記制御手段にて生成し、生成された領域の位置情
報、文字数および文字記入ピッチを上記入力帳票の文字
記入枠の書式情報として上記記憶手段に記憶することを
特徴とする。
〔発明の実施例〕
以下、本発明の一実施例を第1図により説明する。第1
図は本発明の認識方式を実施する装置の構成を示すブロ
ック図である、装置の各部はバス1に接続され、全体の
動作は制御部2により制御される。帳票3の上の情報は
光電変換装置4により走査,光電変換,デイジタル化を
経てメモリ5の中に格納される。以下の説明では省略す
るが、高効率符号化によりイメージの表現に必要なメモ
リ量を節約することもコスト上有利になることがある。
また、以下の説明では1画素1ビツトに二値化するもの
とするが、1画素を多値で表現してもよくまたカラース
キヤナにより色情報を付与してもよい。
使用に当つて、まず使用する帳票に書式情報を指示する
文字を記入したもの(以下これを書式指示帳票と呼ぶ)
を読み取らせる。本実施例では帳票はドロツプアウトカ
ラーで印刷してあるものとし、帳票イメージの中で記入
文字だけが黒で表現されているものとする。ここで使用
する文字としては英字大文字のみを使用するものとし、
後述する切り出し処理を単純化しているが、英字に限ら
ず片仮名,数字あるいは漢字などを使用してもよい。上
記の帳票イメージから制御部2により文字パターンを切
り出す。切り出し処理の詳細について後述する。切り出
し処理の出力は文字パターンとその位置情報であり、こ
れらはメモリ5に格納される。文字パターンは文字認識
部6により認識され、認識結果の文字コードは位置情報
に関連付けられる形でメモリ5に格納される。認識不能
文字があつたときはキーボードデイスプレイ7に表示
し、オペレータが正解を入力する。全ての文字パターン
を認識し終つたのち、制御部2により、フイールド生成
処理を行う。本実施例ではたとえば第2図(A)のよう
に記入された文字に対し、第2図(B)のように文字の
外接四辺形を作り、同一文字に対する外接四辺形を集め
て第2図(C)に示すような長方形の領域を生成する。
この領域は文字認識装置においてフイールドと呼ばれる
ものに対応し、一連の文字データが記入される枠を表
す。フイールド生成処理の詳細については後述する。各
フイールドに対しては異る文字コードが割り当てられて
いるので、この文字コードがフイールドの識別情報とな
り、またフイールド内の文字数を計数することにより最
大記入文字数がわかる。フイールドの識別情報と各種の
書式情報との対応付け処理は制御部2により実行され
る。その対応付け処理の詳細については後述する。前記
の最大記入文字数も書式情報に含める。書式情報はメモ
リ5の中に格納されるが、出力装置8に出力してもよ
い。書式指示情報全体をキヤラクタイメージでキーボー
ドデイスプレイ7の上に表示することも有効である。
書式指示帳票の処理が終了すると入力帳票の処理に入
る。入力帳票は光電変換装置4によりデイジタルイメー
ジに変換され、帳票イメージがメモリ5に格納される。
メモリ5に格納された上記の帳票イメージに対して、文
字認識部6は公知の手法に従つて、書式情報(メモリ5
の中にある)を用いた文字切り出しと認識とを行う。認
識結果のチエツクも書式情報によつて行われるが、チエ
ツク処理を文字認識部6と制御部2のいずれに行わせて
もよい。認識結果が出力装置に転送され、次の入力帳票
の処理に移る。
次に制御部2における処理の詳細について述べる。第3
図を切り出し処理の流れ図をPAD(Program Analysis
Diagram)形式で書いたものである。301は初期化
で、輪郭数Kを0にセツトする。302,303の二重
ループにより帳票イメージP(i,j)を走査し、30
4〜308の処理を繰り返す。304では黒画素を検出
する。検出したとき、305〜310の処理を行う。3
05ではKを1だけ増す。306のループでは304で
検出した黒画素を出発点として輪郭トレースを行い、3
06ではその輪郭におけるx,y座標の最小値と最大値
xmin,xmax,ymin,ymaxを検出する。307では
(xmin,ymin)と(xmax,ymax)を対角頂点とする四辺
形の領域をパターンバツフア(メモリ5の中の領域)の
第K番目の領域に転送する。309では帳票イメージ中
で上記の四辺形領域について値を消去する(P(x,
y)=0あるいは2とおく処理を行う)。310では上
記の四辺形領域の中心座標(x,Y)を登録する。
以上の処理によつて、文字パターンが切り出されること
は明らかであり、帳票イメージを走査し終つた時点での
Kは文字パターン個数を表す。
次に第4図にフイールド生成処理の流れ図をPAD形式
で示す。400はフイールド数Mの初期値を0とする。
401は文字数Kの回数だけ402−413を繰り返す
ループである。402では第k文字の認識結果R(k)
がスペースであるか否かを調べる。スペースでないとき
403〜413を行う。403ではフイールド番号Mを
1増しフイールド内文字数Lの初期値を1とおくなど
の初期化を行う。404は、k+1以降の認識結果につ
いてR(k)と同じか否かを調べるためのループであ
る。405の判定により、第j文字が第k文字と同一で
ある(R(j)=R(k))とき、406〜408を行
う。406は文字数を1だけ増す。407は各文字の中
心位置(x,y)のうち、最小値x,yと最大
値x,yとを検出する。408ではR(j)をスペ
ースにおきかえることにより同一処理を以後は行わない
ようにしている。404のループが終了すると、同一結
果を有する文字の文字数Lと、その座標の最大,最小値
が求められている。409は、xとyとについて最大値
と最小値の差を比較し、縦に同一文字が並んでいるか、
横に並んでいるかを判定する(本実施例では同一文字は
1行に書くとしている。なお、この条件は必然的なもの
ではなく説明を単純にするために仮に設定したものであ
る。)縦書きのときは410の処理を行い、x座標の平
均値の上下δをフイールドの横幅とする。縦の高さ
は、最小値と最大値の両外側にδだけ余裕をとつたもの
をとる。横書きのときは411の処理を行うが、その詳
細は410と同様なので省略する。412はフイールド
情報の転送であり、フイールド番号M、文字数L、フ
イールドの外側の座標(X,X,Y,Y)、フ
イールド識別情報R(k)を転送する。413ではR
(k)をスペースクリアする。従つて、401のループ
が終つたとき、全てのフイールドについて上記の情報が
転送されており、Rは全てスペースとなる。なお、本処
理はフイールド内文字数Lが1の場合でも正しく動作
する。また、フイールド幅または文字数から文字記入ピ
ツチを計算して転送してもよい。
次に、第5図にフイールドの識別情報と書式情報との対
応付け処理の流れ図をPAD形式で示す。この処理では
識別情報をRと略して書いてある。501は、あらかじ
め登録された書式情報の個数Nだけ以下の処理を繰り返
すループである。第n番目の書式情報には見出し情報と
して文字符号G(n)が含まれている。502ではRと
G(n)とを比較する。一致したときは、503で第n
番目の書式情報をフイールド用の書式情報エリアに転送
する。
実施例では書式指示帳票に記入する文字として英字を用
いて説明したがこれに限ることなく仮名や漢字なども使
用できることは上述の通りであるまた、同一文字の配列
として縦あるいは横1行だけでなく複数行に書いてもよ
く、L字形やT字形に書いてもよい。また、フイールド
指定として同一文字の連続だけでなく、各種の省略形式
を使つたり、枠を補助記号に使つたりすることもでき
る。第6図にいろいろなフイールド指定の変形の例を示
す。第6図で(A)は結合記号として直線を用いた例で
ある。(B)は枠で囲つた領域を一つのフイールドと
し、フイールド識別記号(文字Aで表す)とフイールド
内文字数(この例では5である)を記入した例である。
(C)は枠の中にフイールド識別記号のみを記入し、フ
イールド内文字数や文字ピツチはその識別記号に対応す
る書式情報から得るものである。このフイールド識別記
号が特定の文字であるとき、このフイールドはイメージ
エリアであつて文字の切り出し・認識を行わずイメージ
の転送のみを行うようにすることもできる。(D)は領
域指定を四隅のみで行つた例、(E)は領域指定を角カ
ツコで行つた例である。
上記の変形において必要な線の抽出について説明する。
第7図は第6図(B)あるいは(C)に示した長方形の
検出の処理の一例を示す流れ図である。701では輪郭
抽出を行う。702で全ての内輪郭について、703〜
707の処理を繰り返しその内輪郭が長方形か否か調べ
る。703はエラーフラグをリセツトする。704のル
ープでは輪郭を一周し、705の四隅検出の処理を繰り
返す。706のループでは輪郭を一周し上記の四隅から
計算した仮想的な四辺と各点の距離を計算する。この距
離がある閾値ε以上であるときは仮想辺と輪郭が離れて
いる(直線でない)場合であり、707でエラーフラグ
をセツトし、ループを脱出する。706のループが終了
したときエラーフラグがリセツト状態であるならばこの
内輪郭は長方形であるとする。なお、説明を省略したが
相隣る仮想二辺のなす角がほぼ直角であることを調べる
のも有効である。
次に第8図により第二の実施例を説明する。本実施例は
第一図と同一の構成であるが、制御部2による制御の流
れが異なつている。本実施例使用する帳票は通常の黒色
で枠や文字が印刷されたものであり、この枠や文字を以
下ではプレプリントと呼ぶ。第8図は本実施例の制御の
流れを示す流れ図(PAD形式)である。801は各種
の初期化を行う。802では何も文字・記号の記入され
ていない帳票のイメージ(無記入帳票イメージ)Aをメ
モリ5の中に格納する。次に803で書式指示帳票の帳
票イメージBをメモリ内に取り込む。804では書式指
示帳票イメージBから無記入帳票イメージAを差し引き
(画像ごとにAの否定とBの論理積をとればよい)、書
式指示のために記入された文字パターンだけを含む帳票
イメージPを得る。805は第一の実施例における文字
切り出し・認識・書式情報生成の処理であり、書式情報
Fが生成される。806以降が読み取るべき入力帳票の
処理のループであり、806は入力帳票がなくなるまで
処理を続けることを示す。807では入力帳票イメージ
Cをメモリ内に取り込む。808ではイメージCからイ
メージAを差し引き、読み取り対象文字パターンだけを
含む帳票イメージQを得る。809では書式情報Fを用
いて上記のイメージQから文字の切り出し、認識を行
う。810は認識結果を出力する。入力帳票がなくなる
と806のループを脱出し、811で終了処理を行う。
第一及び第二の実施例では、入力帳票を光電変換して直
ちに処理するとしたが、無記入帳票,書式指示帳票,入
力帳票のいずれかを、あるいはその全てを光電変換した
とき帳票イメージを一旦外部記憶装置(例えば光デイス
ク)に記憶させたのち、上記の外部記憶装置から帳票イ
メージを読み出したものを処理するようにしてもよい。
このようにすれば、光デイスクに最初はイメージの形で
記憶させておいた文書を時間的余裕のあるときに処理し
て、そのうちの一部分のみを認識させて符号化すること
ができ、請求書,見積書その他の定形文書において可変
部分のみを符号化することが可能となる。
〔発明の効果〕
本発明によれば、非常に簡単な形で書式情報の指定がで
きるので、きわめて使い易い文字認識装置が実現でき
る。さらに、帳票上に記入する書式指示情報を単純な形
で表現しておき、詳細な情報を別途定義して結合するこ
ともできるので書式情報の追加修正が簡単である。ま
た、既存の帳票をそのまま文字認識用に転用することも
簡単であるので帳票の新規設計や印刷の手間が省ける。
【図面の簡単な説明】
第1図は本発明の一実施例の構成を示すブロツク図、第
2図は帳票イメージを説明するための原理図、第3図か
ら第8図は第1図の制御部2における処理の流れ図であ
る。 1……バス、2……制御部、4……光電変換部、5……
メモリ、6……文字認識部。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 藤沢 浩道 東京都国分寺市東恋ヶ窪1丁目280番地 株式会社日立製作所中央研究所内 (72)発明者 道野 正雄 神奈川県小田原市国府津2880番地 株式会 社日立製作所小田原工場内 (56)参考文献 特開 昭57−114974(JP,A)

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】読取対象文字が文字記入枠に記入された入
    力帳票を光電変換手段にて読み取り、 読み取った上記読取対象文字の文字パターンをディジタ
    ル化して制御手段にて切り出し、 切り出された上記読取対象文字の文字パターンから上記
    読取対象文字を認識手段にて認識し、 上記入力帳票の文字記入枠の位置情報を含む書式情報を
    予め記憶手段に記憶するパターン認識方式であって、 上記入力帳票の文字記入枠ごとに同一の書式情報指示用
    文字が、所定の文字数および所定の文字記入ピッチにて
    配列されて記入された書式指示帳票を上記光電変換手段
    にて読み取り、 読み取った上記書式情報指示用文字の文字パターンをデ
    ィジタル化して上記制御手段にて切り出し、 切り出された上記書式情報指示用文字の文字パターンか
    ら上記書式情報指示用文字を上記認識手段にて認識し、 認識された上記書式情報指示用文字の文字コード、およ
    び切り出された上記書式情報指示用文字の文字パターン
    の位置情報を関連付けて上記記憶手段に夫々記憶し、 記憶された文字コードが同一である上記書式情報指示用
    文字の文字パターン夫々の位置情報に基づき、上記書式
    指示帳票に記入された同一の書式情報指示用文字の配列
    状態を判定し、その配列状態から上記入力帳票の文字記
    入枠に対応する領域の位置情報、文字数および文字記入
    ピッチを上記制御手段にて生成し、 生成された領域の位置情報、文字数および文字記入ピッ
    チを上記入力帳票の文字記入枠の書式情報として上記記
    憶手段に記憶する、 ことを特徴とするパターン認識方式。
JP59001914A 1984-01-11 1984-01-11 パタ−ン認識方式 Expired - Lifetime JPH0661112B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59001914A JPH0661112B2 (ja) 1984-01-11 1984-01-11 パタ−ン認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59001914A JPH0661112B2 (ja) 1984-01-11 1984-01-11 パタ−ン認識方式

Publications (2)

Publication Number Publication Date
JPS60146373A JPS60146373A (ja) 1985-08-02
JPH0661112B2 true JPH0661112B2 (ja) 1994-08-10

Family

ID=11514847

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59001914A Expired - Lifetime JPH0661112B2 (ja) 1984-01-11 1984-01-11 パタ−ン認識方式

Country Status (1)

Country Link
JP (1) JPH0661112B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0664624B2 (ja) * 1984-03-02 1994-08-22 日本電気株式会社 光学文字読取方式
JPS63113787A (ja) * 1986-10-31 1988-05-18 Nec Corp 文字認識装置の帳票デ−タ入力方式
JPH03134784A (ja) * 1989-10-20 1991-06-07 Hitachi Ltd 光学読取装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57114974A (en) * 1981-01-09 1982-07-17 Toshiba Corp Optical character reader

Also Published As

Publication number Publication date
JPS60146373A (ja) 1985-08-02

Similar Documents

Publication Publication Date Title
US4933979A (en) Data reading apparatus for reading data from form sheet
CN100576233C (zh) 检测文档图像中的字符的方向
US6016361A (en) Method and apparatus for compressing binary data using pattern matching encoding
US6208744B1 (en) Document image processor and method for setting a document format conforming to a document image
JPS6159568A (ja) 文書処理装置
JPH04195485A (ja) 画像情報入力装置
JP2740335B2 (ja) 自動セル属性判定機能を有する表読取装置
JPH0661112B2 (ja) パタ−ン認識方式
JP4281236B2 (ja) 画像認識装置、画像認識方法、および、画像認識プログラムを記憶したコンピュータ読取り可能な記録媒体
JP3118310B2 (ja) ページプリンタの印字処理方法
JPH06111057A (ja) 光学的文字読取装置
JP2002288675A (ja) 帳票識別方法、帳票識別プログラム、および帳票識別方式
JP2682873B2 (ja) 表形式文書の認識装置
JP2863671B2 (ja) 印字フォーマット作成装置
JPH10340314A (ja) 帳票処理システム、その文字認識方法およびその記録媒体
JPS63155385A (ja) 光学文字読取装置
JPH04262660A (ja) 画像認識出力装置
JPH0789361B2 (ja) 帳票登録装置
JPS61206087A (ja) 文書読取装置
JPH05346972A (ja) 文字認識方式
JPH0934988A (ja) 文字認識シートおよびその処理装置
JPH06119491A (ja) 帳票理解システム
JPH0443476A (ja) 文字認識装置
JPH02166580A (ja) 光学的文字読取装置及び同装置の文字読取方法
JPS58140884A (ja) パタ−ン認識装置

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term