JPH06333085A - 光学的文字読取装置 - Google Patents

光学的文字読取装置

Info

Publication number
JPH06333085A
JPH06333085A JP5125910A JP12591093A JPH06333085A JP H06333085 A JPH06333085 A JP H06333085A JP 5125910 A JP5125910 A JP 5125910A JP 12591093 A JP12591093 A JP 12591093A JP H06333085 A JPH06333085 A JP H06333085A
Authority
JP
Japan
Prior art keywords
image
layout information
layout
unit
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5125910A
Other languages
English (en)
Inventor
Kazuji Kiyono
和司 清野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP5125910A priority Critical patent/JPH06333085A/ja
Publication of JPH06333085A publication Critical patent/JPH06333085A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】 【目的】本発明は、FC−OCR用に設計されていない
既存の帳票に記録された文字の読取りを作業負担を増加
させることなく実行可能とする。 【構成】処理対象とする用紙毎に設定された記録形態を
指定するための、同じ種類の記録形態を包含する形態情
報を生成するレイアウト情報生成部14と、処理対象と
する用紙のイメージを取り込むスキャナ部10と、スキ
ャナ部10によって取り込まれたイメージについて、レ
イアウト情報生成部14によって生成された処理対象と
する用紙に該当する形態情報をもとに、記録形態を解析
するレイアウト理解部18と、レイアウト理解部18に
よる解析結果に基づいて、イメージについて認識処理を
行なう文字認識部20とを具備して構成する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、データエントリ用の光
学的文字読取装置に関する。
【0002】
【従来の技術】一般に、光学的文字読取装置の種類は大
きく2つに分類される。第1の種類は、処理対象とする
帳票に応じて、厳密な文字項目(住所、指名、金額等)
の記載位置や字種・字体などを指定し、それに従って文
字の読取りを行なうものである。以下、第1の種類の光
学的文字読取装置をFC−OCRと称する。FC−OC
Rは、各種指定を厳密に行なう必要があるため手間がか
かるが、その反面、指定した通りに読取りが実行される
ので、読取り結果がどのような記載項目に関するものか
等、確実に判別できるので読取り結果データの扱いが簡
単となっている。
【0003】第2の種類は、用紙に記録された文字列の
行位置や文字位置を自動的に検出して読取りを行なうも
のである。以下、第2の種類の光学的文字読取装置をテ
キストリーダと称する。テキストリーダは、形式の決ま
っていないテキストを単に読取る場合は問題ないが、所
定の形式の帳票を読取る場合には、たとえ文字が読み取
れたとしても、その文字が何れの項目に該当するものか
(例えば、住所なのか金額なのか)を、一般的には判別
することができない。このため、文字読取り後のデータ
処理の作業負担が大きくなる。
【0004】
【発明が解決しようとする課題】ところで、近年では光
学的文字読取装置に対して、FC−OCR用に設計され
ていない既存の一般的な帳票に記録された文字の読取り
が要求されている。この場合、既存の帳票が種々の理由
によりフォーマットが異なっていても、同じ項目が設け
られていれば同じ扱いをしなければならない。しかしな
がら、既存の帳票は、当然のことながらIDコード分類
等がなされていない。
【0005】従って、既存の一般的な帳票に対して、F
C−OCRでは、フォーマットが異なる帳票毎に各種指
定を行なう必要があり、テキストリーダでは読み取った
文字が何れの項目に該当するかを後処理によって指定す
る必要があった。
【0006】このように従来の光学的文字読取装置で
は、既存の一般的な帳票に記録された文字を、FC−O
CRで扱う帳票に記録された文字と同じように扱うこと
ができなかった。
【0007】本発明は前記のような点を考慮してなされ
たもので、FC−OCR用に設計されていない既存の帳
票に記録された文字の読取りを作業負担を増加させるこ
となく実行可能な光学的文字読取装置を提供することを
目的とする。
【0008】
【課題を解決するための手段】本発明は、処理対象とす
る用紙毎に設定された記録形態を指定するための、同じ
種類の記録形態を包含する形態情報を生成する形態情報
生成手段と、処理対象とする用紙のイメージを取り込む
スキャナ手段と、前記スキャナ手段によって取り込まれ
たイメージについて、前記形態情報生成手段によって生
成された処理対象とする用紙に該当する形態情報をもと
に、記録形態を解析する形態解析手段と、前記形態解析
手段による解析結果に基づいて、前記イメージについて
認識処理を行なう認識手段とを具備したことを特徴とす
る。
【0009】また、前記形態情報は、前記用紙に記載さ
れた項目を分離する分離位置を示す情報、前記分離位置
と前記イメージ中の分離位置とのずれの許容値を示す情
報を含むことを特徴とする。
【0010】
【作用】このような構成によれば、同じ種類の記録形
態、すなわち読取りフィールドの位置等が厳密には異な
っているが、項目の配置、項目数、項目内容等が共通す
るような異なった帳票についてのレイアウトを理解する
ための形態情報が生成される。従って、1つの形態情報
(レイアウト情報)に基づいて、同じ形態の複数のフォ
ーマットを持つ帳票についての文字読取り処理が可能と
なる。
【0011】
【実施例】以下、図面を参照して本発明の一実施例を説
明する。図1は本実施に係わる光学的文字読取装置の構
成を示すブロック図である。図1に示すように、本実施
例の光学的文字読取装置は、スキャナ部10、イメージ
バッファ12、レイアウト情報生成部14、レイアウト
情報格納部16、レイアウト理解部18、及び文字認識
部20によって構成されている。また、前述した各部
は、図示しせぬ制御装置によって制御されている。制御
装置には、表示装置や入力装置が設けられており、使用
者との間でデータのデータの入出力が行なわれる。
【0012】スキャナ部10は、処理対象とする帳票等
のシート等を光学的に走査することによってイメージの
読取りを行なうものである。イメージバッファ12は、
スキャナ部10によって読み取られたイメージを格納す
るためのものである。
【0013】レイアウト情報生成部14は、認識処理の
際に用いられるレイアウト情報(LC情報)を、制御装
置を介して与えられる使用者からのレイアウト指定に従
って、CAD(Computer Aided Design )のように読取
りシートのレイアウトを生成すると共に、読取り処理の
対象となる読取りフィールドに対して各種の設定を行な
う。
【0014】レイアウト指定の内容としては次のような
ものがある。(1)記載事項(読取りフィールド)を分
離する線(分離線)。この線は実線や点線として実際に
帳票上に記載されている場合と仮想的な線(仮想線)が
ある。(2)レイアウト情報としての分離線と処理対象
とする帳票に記録された線とのずれの許容値。(3)分
離線で分けられた読取りフィールド毎に字種、字体、項
目属性等の従来のFC−OCRに準じた内容。
【0015】レイアウト情報格納部16は、レイアウト
情報生成部14によって生成されたレイアウト情報を格
納しておくためのものである。レイアウト情報は、処理
対象とする帳票等のタイプ毎に生成されるもので、複数
のレイアウト情報がレイアウト情報格納部16に格納さ
れる。
【0016】レイアウト理解部18は、イメージバッフ
ァ12に格納された文字読取りの対象とする帳票等のイ
メージのレイアウトについて、レイアウト情報を参照し
て、フィールドの区切り位置、フィールド間の対応関
係、フィールド毎の文字種の指定等を理解する。
【0017】レイアウト理解部18には、線抽出部18
a、線整合部18b、及びイメージ修正部18cが設け
られている。線抽出部18aは、イメージバッファ12
中のイメージから全ての直線イメージの候補を抽出す
る。線整合部18bは、線抽出部18aによって抽出さ
れた線と、レイアウト情報格納部16中のレイアウト情
報とを整合させる。イメージ修正部18cは、レイアウ
ト情報を用いて、文字認識処理に不要な線イメージの除
去等を行なう。
【0018】文字認識部20は、レイアウト理解部18
によって決定されたレイアウト情報を用いて、所定のフ
ィールド毎に文字パターンについて文字認識処理を行な
うものである。文字認識結果は、制御装置に出力され
る。
【0019】次に、本実施例の動作について説明する。
まず、レイアウト情報の生成について説明する。ここで
は、図2に示すような読取りシート用のレイアウト情報
を例にして説明する。図2に示す読取りシートは、横方
向に配置された4つのフィールドと、この内2つのフィ
ールドの下に1つのフィールドが設けられ、それぞれの
フィールドが直線によって分割されている。
【0020】この場合、レイアウト情報は、図3に示す
ような内容で作成される。すなわち、フィールドを分離
する縦横方向の線を作成すると共に、読取りの対象とす
る各フィールドに対して読取りフィールド名を付す。
【0021】フィールドを分離する線には、線の方向の
他に、実線(実際に存在する線)や仮想線(実際には存
在しないが項目を分離する位置等を示す)等の属性を持
っている。読取りフィールド名は、図3においては、
A,B,C,D,Eと付されている。
【0022】さらに、読取りフィールド名が付された各
フィールドに対して、文字認識処理の際の字種絞り込み
のための字種指定がなされる。また、各フィールドの対
応関係を示す出力指定がなされる。図3に示す例では、
フィールドA,B,C,Dが例えば「住所」「氏名」
「電話番号」「FAX番号」のように対応関係があるも
のとして出力するように指定されている。
【0023】レイアウト情報における線に関して、処理
対象とする図2に示す読取りシートの線の位置と厳密に
対応させる必要はなく、許容値を考慮した範囲内でその
存在が明確になっていれば良い。
【0024】レイアウト情報生成部14は、制御装置
(図示せず)を介して入力された使用者からの指示に応
じて作成したレイアウト情報をレイアウト情報格納部1
6に格納する。
【0025】次に、読取りシートに記録された文字の読
取りを行なう処理について、図4に示すフローチャート
を参照しながら説明する。はじめに、レイアウト情報格
納部16に格納された複数のレイアウト情報から、読取
り処理を行なう帳票に対応するレイアウト情報を選択す
る指示を入力する(ステップS1)。
【0026】次に、処理対象とする帳票についての帳票
イメージをスキャナ部10によって取り込む(ステップ
S2)。この帳票イメージは、イメージバッファ12に
格納される。
【0027】レイアウト理解部18の線抽出部18a
は、イメージバッファ12中の帳票イメージから、全て
の直線の候補を抽出する(ステップS3)。線整合部1
8bは、線抽出部18aによって抽出された直線の候補
から、はじめに指定されたレイアウト情報が示す直線、
つまり読取りフィールドの分離線を求める(ステップS
4)。すなわち、レイアウト情報として生成された帳票
レイアウトが、処理対象とする帳票のレイアウト(線の
位置)と厳密に対応するものでないため、長さ、相対位
置などの情報を用いて、許容値内にある最も適当な両者
の対応づけを行なう。この対応づけにより、処理対象と
する読取りフィールドが特定され、読取りフィールド毎
の各種属性が決定される。
【0028】なお、レイアウト情報の線が仮想線の属性
を持つ場合には、図5に示すようにレイアウトの整合を
行なう。図5の場合には、帳票上では「電話番号」と
「住所」の項目が実線で分離されていないが、図中Aの
位置に仮想線を設定することにより、「電話番号」と
「住所」の項目がそれぞれ別の読取りフィールドとして
扱われる。
【0029】レイアウト情報では、読取りフィールドを
分ける分離線に対して許容値が設けられ、処理対象とす
る帳票に記載された線との整合が取られる。従って、同
じ形態の帳票(読取りフィールド数や項目の内容等が同
一)であれば、1つのレイアウト情報で異なる種類の帳
票(読取りフィールドの位置が若干異なる等)に対応す
ることができる。
【0030】レイアウト情報を、例えば「名簿」「振り
込み依頼書」「車検証」用として、帳票の形態毎に生成
しておけば多種類の帳票の読取りが可能である。また、
帳票の形態毎にレイアウト指定の詳細度を変更すること
ができる。例えば「車検証」のようにフォーマットに種
類がない帳票と、「名簿」のように多くの種類のフォー
マットがある帳票のように、帳票の形態に応じたレイア
ウト指定ができる。
【0031】次に、イメージ修正部18cは、文字認識
処理に不要な線(フィールド枠等の罫線)やノイズ成分
を、読取りフィールド中のイメージから除去する(ステ
ップS5)。
【0032】文字認識部20は、イメージ修正部18c
によって修正されたイメージについて、レイアウト情報
に基づいて文字認識を行なう(ステップS6)。文字認
識部20は、読取りフィールド中のイメージから文字パ
ターンを切出し、レイアウト情報で指定された文字種で
字種の絞り込みを行ない、文字を認識する。
【0033】文字認識部20は、各読取りフィールドに
ついての文字認識処理の結果を、レイアウト情報の出力
指定に従って対応づけて制御装置に出力する(ステップ
S7)。
【0034】このようにして、処理対象とする読取りシ
ートの形態毎にレイアウト情報を登録しておくことで、
1つのレイアウト情報で、若干フォーマットが異なる複
数種の帳票等を読取りの対象にできるため、従来読取り
できなかった、あるいは厳密なフォーマット情報を登録
しなければ読取りが出来なかった既存の帳票の読取りも
可能となる。
【0035】なお、前記実施例においては、レイアウト
情報格納部16に格納された複数のレイアウト情報に対
して、用いるレイアウト情報を選択する指示を入力する
として説明したが(ステップS1)、自動的にレイアウ
ト情報の候補を絞るようにしても良い。この場合、検出
した帳票イメージから特徴的な部分イメージをもとに判
別したり、あるいは各レイアウト情報と帳票イメージと
の類似性を求め、この結果から特定のレイアウト情報を
判別する。部分イメージとしては、例えば「振り込み依
頼書」のように帳票の種類が記載された部分とする。
【0036】また、前記実施例におけるレイアウト情報
の内容は一例であって、例えば読取りフィールド毎に指
定する情報に関しては前記実施例以外の種々の情報を用
いることもできる。
【0037】さらに、前記実施例においては、レイアウ
ト情報(フォーマット)をCADのように生成するもの
としたが、この他に、例えば何も書かれていない帳票の
イメージを読取り、この帳票イメージを同類の形態を持
つ帳票の代表として、帳票イメージをもとにレイアウト
情報を作成するようにしても良い。
【0038】
【発明の効果】以上のように本発明によれば、FC−O
CR用に設計されていない既存の帳票に記録された文字
の読取りを作業負担を増加させることなく実行可能とな
るものである。
【図面の簡単な説明】
【図1】本発明の一実施例に係わる光学的文字読取装置
の主要な構成を示すブロック図。
【図2】読取りシートの一例を示す図。
【図3】本実施例におけるレイアウト情報の内容を説明
するための図。
【図4】本実施例における読取り処理の動作を説明する
ためのフローチャート。
【図5】レイアウト情報中の仮想線を説明するための
図。
【符号の説明】
10…スキャナ部、12…イメージバッファ、14…レ
イアウト情報生成部、16…レイアウト情報格納部、1
8…レイアウト理解部、18a…線抽出部、18b…線
整合部、18c…イメージ修正部、20…文字認識部。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 処理対象とする用紙毎に設定された記録
    形態を指定するための、同じ種類の記録形態を包含する
    形態情報を生成する形態情報生成手段と、 処理対象とする用紙のイメージを取り込むスキャナ手段
    と、 前記スキャナ手段によって取り込まれたイメージについ
    て、前記形態情報生成手段によって生成された処理対象
    とする用紙に該当する形態情報をもとに、記録形態を解
    析する形態解析手段と、 前記形態解析手段による解析結果に基づいて、前記イメ
    ージについて認識処理を行なう認識手段と、 を具備したことを特徴とする光学的文字読取装置。
  2. 【請求項2】 前記形態情報は、前記用紙に記載された
    項目を分離する分離位置を示す情報、前記分離位置と前
    記イメージ中の分離位置とのずれの許容値を示す情報を
    含むことを特徴とする請求項1記載の光学的文字読取装
    置。
JP5125910A 1993-05-27 1993-05-27 光学的文字読取装置 Pending JPH06333085A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5125910A JPH06333085A (ja) 1993-05-27 1993-05-27 光学的文字読取装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5125910A JPH06333085A (ja) 1993-05-27 1993-05-27 光学的文字読取装置

Publications (1)

Publication Number Publication Date
JPH06333085A true JPH06333085A (ja) 1994-12-02

Family

ID=14921945

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5125910A Pending JPH06333085A (ja) 1993-05-27 1993-05-27 光学的文字読取装置

Country Status (1)

Country Link
JP (1) JPH06333085A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015135576A (ja) * 2014-01-16 2015-07-27 グローリー株式会社 帳票項目認識方法、帳票項目認識装置及び帳票項目認識プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015135576A (ja) * 2014-01-16 2015-07-27 グローリー株式会社 帳票項目認識方法、帳票項目認識装置及び帳票項目認識プログラム

Similar Documents

Publication Publication Date Title
US6782144B2 (en) Document scanner, system and method
JP5623079B2 (ja) ハード・コピーの書式からの書式定義の自動発生
US8660294B2 (en) Form data extraction without customization
JP2005018678A (ja) 帳票データ入力処理装置、帳票データ入力処理方法及びプログラム
WO2000052645A1 (fr) Dispositif de traitement d'image document, procede d'extraction de titre de document et procede d'information d'etiquetage de document
JP2002312385A (ja) 文書自動分割装置
US20060045340A1 (en) Character recognition apparatus and character recognition method
EP1202213B1 (en) Document format identification apparatus and method
JP4983464B2 (ja) 帳票画像処理装置及び帳票画像処理プログラム
JP4566510B2 (ja) 帳票認識装置および帳票認識方法
JP4356908B2 (ja) 財務諸表自動入力装置
JPH06333085A (ja) 光学的文字読取装置
JP3732254B2 (ja) フォーマット情報生成方法及びフォーマット情報生成装置
JP2000029983A (ja) 文書読取装置
JP2001005831A (ja) ファイリング方法及びそれを格納した記録媒体
JPH11282956A (ja) 帳票識別方法、装置および記録媒体
WO2023021636A1 (ja) データ処理装置、データ処理方法及びプログラム
JP2001022883A (ja) 文字認識方式及び該文字認識方式の機能を実現させるための記録媒体
US6678427B1 (en) Document identification registration system
JPH10207981A (ja) 帳票認識方法
JP2002032704A (ja) 帳票処理システム、帳票処理方法、記憶媒体、帳票
JP2008176625A (ja) 文字認識結果の管理装置およびその方法並びにコンピュータプログラム
JP3006294B2 (ja) 光学的文字読取装置
JPH07152856A (ja) 光学的文字読取装置
JP2005208934A (ja) 文書配信処理装置及び文書配信処理プログラム