JPH1139427A - 文字認識管理装置、文字認識管理方法、及び文字認識管理制御プログラムを記録した記録媒体 - Google Patents

文字認識管理装置、文字認識管理方法、及び文字認識管理制御プログラムを記録した記録媒体

Info

Publication number
JPH1139427A
JPH1139427A JP9193617A JP19361797A JPH1139427A JP H1139427 A JPH1139427 A JP H1139427A JP 9193617 A JP9193617 A JP 9193617A JP 19361797 A JP19361797 A JP 19361797A JP H1139427 A JPH1139427 A JP H1139427A
Authority
JP
Japan
Prior art keywords
information
character
character recognition
frame information
table sheet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP9193617A
Other languages
English (en)
Inventor
Kojiro Miyashita
幸次郎 宮下
Takafumi Umetani
孝文 梅谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Microcomputer System Ltd
Original Assignee
Hitachi Microcomputer System Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Microcomputer System Ltd filed Critical Hitachi Microcomputer System Ltd
Priority to JP9193617A priority Critical patent/JPH1139427A/ja
Publication of JPH1139427A publication Critical patent/JPH1139427A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 帳票の物理的な形式に依存することなく認識
結果を所望の形態で取得できるようにすることにある。 【解決手段】 帳票からの認識結果の格納形式としてフ
ィールドとレコードとから成る表形式のテーブルシート
(3)を採用する。帳票の画像情報に対する認識対象領
域を定義したフレーム情報をフレーム情報記憶手段
(1)に有し、画像情報に対しフレーム情報で定義され
た認識対象領域の文字情報を文字認識手段(2)で認識
し、認識対象領域とテーブルシート(3)のフィールド
との対応定義に従って蓄積手段(4)が文字認識手段で
認識された情報をレコードとして蓄える。認識対象領域
は領域編集手段(5)でプログラマブルに指定可能であ
り、認識対象領域とテーブルシート上のフィールドとの
対応はフィールド編集手段(6)で可変である。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、単票や表形式とい
った帳票の画像情報から文字情報を認識して管理する技
術に関し、例えば手書き帳票などから認識したデータを
データベース化して出力するコンピュータシステムに適
用して有効な技術に関するものである。
【0002】
【従来の技術】手書き帳票などから認識したデータをデ
ータベース化して出力する従来のコンピュータシステム
は、帳票毎に予じめ認識領域を定義しておき、イメージ
スキャナなどの入力装置から帳票の画像データ(例えば
ビットマップイメージデータ)を入力し、予じめ定義さ
れている認識領域に対して文字認識を行う。認識結果は
ディスプレイに表示され、必要に応じて校正が行われた
後、その認識結果は例えばCSV(Comma Separate Valu
e)形式で纏めて出力される。
【0003】
【発明が解決しようとする課題】しかしながら、従来技
術は、認識領域の設定、認識領域から認識されたデータ
の並び方、及びデータ出力形式などが固定されているた
め、種々の顧客要求仕様に応ずる為にはソフトウェアの
カスタマイズが必須であった。また、ユーザにとって
も、認識した結果をユーザ独自にデザインしたレイアウ
トで表示したり、ファイルに出力したいという要求があ
る。
【0004】本発明の目的は、帳票の物理的な形式に依
存することなく認識結果を所望の形態で取得できるよう
にすることにある。
【0005】本発明の別の目的は、多種多様な書式の帳
票から文字認識した結果を統一した形式で管理できるよ
うにすることにある。
【0006】本発明のその他の目的は、多種多様な書式
の帳票から文字認識した結果をユーザの要求仕様に合っ
た形式で簡単に出力することができるようにすることに
ある。
【0007】本発明の前記並びにその他の目的と新規な
特徴は本明細書の記述及び添付図面から明らかになるで
あろう。
【0008】
【課題を解決するための手段】先ず、本願において開示
される発明のうち代表的なものの概要を簡単に説明すれ
ば下記の通りである。すなわち、活字や手書き帳票を認
識するシステムにおいて、認識結果の格納形式としてフ
ィールドとレコードとから成る表形式のテーブルシート
を採用する。スキャナなどの画像入力手段又は通信手段
で入力した画像情報に対して認識対象領域を領域編集手
段でプログラマブルに指定できるようにする。また、認
識対象領域と当該領域からの認識結果の格納先であるテ
ーブルシート上のフィールドとの対応をフィールド編集
手段で可変とする。上記によれば、帳票毎に帳票の認識
対象領域と認識結果の格納先であるテーブルシート上の
フィールドとの対応を定義できるため、単票形式や表形
式の帳票など、異なる書式の帳票を認識する場合にも、
帳票の書式に依存しない統一したテーブルシート形式で
認識データを格納し管理することができる。これによ
り、帳票の物理的な形式に依存することなく認識結果を
所望の形態で取得できる。したがって、多種多様な書式
の帳票から文字を認識した結果を統一した形式で管理で
きる。よって、多種多様な書式の帳票から文字を認識し
た結果をユーザの要求仕様に合った形式で簡単に出力す
ることができる。
【0009】更に図1を参照しながら本発明を種々の態
様毎に詳述する。本発明による文字認識管理装置は、プ
ログラムされたコンピュータにより画像情報から文字情
報を認識して管理する。この文字認識管理装置は、帳票
の画像情報に対する文字の認識対象領域を定義した複数
種類のフレーム情報を記憶するフレーム情報記憶手段
(1)と、前記フレーム情報記憶手段からフレーム情報
を選択する選択手段(7)と、選択されたフレーム情報
が規定する認識対象領域に重なった画像情報から文字情
報を認識する文字認識手段(2)と、前記文字認識手段
で認識された文字情報の認識対象領域と認識結果の格納
先であるテーブルシート(3)のフィールドとの対応定
義に従って前記認識された文字情報をレコードとして蓄
える蓄積手段(4)とを有する。これによれば、単票形
式や表形式の帳票など、異なる書式の帳票を認識する場
合には、それに合ったフレーム情報を用いて文字認識を
行い、認識結果は、認識対象領域とテーブルシートのフ
ィールドとの対応定義に従ってテーブルシートにレコー
ドとして格納される。したがって、認識対象領域とテー
ブルシートのフィールドとの対応定義の内容、及びフレ
ーム情報の内容次第で、単票形式や表形式の帳票など、
異なる書式の帳票を認識する場合にも、帳票の書式に依
存しない統一したテーブルシート形式として認識データ
を格納して管理することができる。これにより、帳票の
物理的な形式に依存することなく認識結果を所望の形態
で取得できる。
【0010】前記帳票の画像情報から矩形領域を抽出
し、抽出された矩形領域に対して文字の認識対象領域を
プログラマブルに定義してフレーム情報を生成する領域
編集手段(5)を採用することができる。これにより、
実際の帳票の原票を用いてフレーム情報を自在に生成す
ることができる。
【0011】前記認識対象領域とテーブルシートのフィ
ールドとの対応定義は、前記フレーム情報に持たせるこ
とができる。すなわち、前記フレーム情報は、文字の認
識対象領域を構成する矩形の単位領域の位置情報と、前
記単位領域から認識された文字情報の格納に割り当てら
れるテーブルシートのフィールドを特定するフィールド
識別子とを有する。フィールド識別子にはフィールド番
号などがプログラマブルに設定される。
【0012】前記フィールド識別子の内容をプログラマ
ブルに決定するフィールド編集手段(6)を採用して、
レコードを構成するフィールドの配列を可変可能にでき
る。
【0013】前記選択手段によって選択されフィールド
識別子の内容が設定されたフレーム情報を当該フレーム
情報に対応するテーブルシートと関連付ける単数または
複数の管理情報を優先順位を持って記憶する記憶手段
(9)を更に設ける。前記選択手段は前記記憶手段が保
持する管理情報のうち最も優先順位の高い管理情報から
把握したフレーム情報を選択して文字認識に利用させ、
前記蓄積手段は前記記憶手段が保持する管理情報のうち
最も優先順位の高い管理情報から把握したテーブルシー
トにレコードを格納する。これにより、同種の帳票を連
続的に処理する場合、一々条件の再設定を行うことなく
処理の自動化を実現できる。
【0014】前記蓄積手段が前記フレーム情報単位のテ
ーブルシートに前記レコードを蓄えるとき、複数個のテ
ーブルシートの結合、単一のテーブルシートの分割、又
はテーブルシートをそのまま、ファイルとして出力する
出力手段(8)を採用することができる。
【0015】また、前記蓄積手段に対しては、異なるフ
レーム情報を用いて認識され相互にフィールド構成が等
しいレコードを共通のテーブルシートに蓄積可能に構成
することができる。
【0016】本発明による文字認識管理方法は、プログ
ラムされたコンピュータにより画像情報から文字情報を
認識して管理する。この文字認識管理方法は、帳票の画
像情報に対する文字の認識対象領域を定義した複数種類
のフレーム情報から所要のフレーム情報を選択する第1
処理と、選択されたフレーム情報により規定された認識
対象領域に重なった画像情報から文字情報を認識する第
2処理と、前記第2処理で認識された文字情報の認識対
象領域と認識結果の格納先であるテーブルシートのフィ
ールドとの対応をプログラマブルに定義する第3処理
と、第3処理によって定義された対応関係に従って前記
認識された文字情報をテーブルシートにレコードとして
蓄える第4処理と、前記第1処理乃至第4処理を必要に
応じて繰り返した後、テーブルシートをファイルに出力
する第5処理とを含む。この方法によれば、上記同様、
帳票毎に帳票の認識対象領域と認識結果の格納先である
テーブルシートとの対応を定義できるため、単票形式や
表形式の帳票など、異なる書式の帳票を認識する場合に
も、帳票の書式に依存しない統一したテーブルシート形
式で認識データを格納し管理することができ、帳票の物
理的な形式に依存することなく認識結果を所望の形態で
取得できる。
【0017】上記方法を実現するプログラムを記録した
記録媒体は、プログラムされたコンピュータにより画像
情報から文字情報を認識して管理する為の動作プログラ
ムが記録され、その動作プログラムは、帳票の画像情報
に対して文字の認識対象領域を定義した複数種類のフレ
ーム情報から所要のフレーム情報を選択させ、選択され
たフレーム情報が規定する認識対象領域に重なった画像
情報から文字情報を認識させ、前記認識された文字情報
の認識対象領域と認識結果の格納先であるテーブルシー
トのフィールドとの対応関係をプログラマブルに定義さ
せ、定義された対応関係に従って前記認識された文字情
報を前記テーブルシートにレコードとして蓄積させ、必
要に応じて前記処理を繰り返させた後、テーブルシート
をファイルに出力させる制御を行う。
【0018】
【発明の実施の形態】図2には本発明に係る文字認識管
理装置の一例であるコンピュータシステムのブロック図
が示される。このコンピュータシステムは、プロセッサ
ボード10と周辺回路によって構成される。プロセッサ
ボード10は、マイクロプロセッサ11を中心に、当該
マイクロプロセッサ11が結合されたプロセッサバス1
2に、代表的に示されたメモリコントローラ13及びP
CI(Peripheral Component Interconnect)バスコン
トローラ14が結合される。メモリコントローラ14に
は、マイクロプロセッサ11のワーク領域若しくは一次
記憶領域とされるメインメモリとしてのRAM(Random
Access Memory)15が結合されている。PCIバスコ
ントローラ14は低速の周辺回路をPCIバス16を介
してプロセッサバス12にインタフェースするブリッジ
回路として機能される。PCIバス16には、特に制限
されないが、ディスプレイコントローラ17、IDE
(IntegratedDevice Electronics)インタフェースコン
トローラ18、SCSI(Small Computer System Inte
rface)インタフェースコントローラ19及びその他の
インタフェースコントローラ20が結合されている。前
記ディスプレイコントローラ17にはフレームバッファ
メモリが接続されている。
【0019】周辺回路として、前記ディスプレイコント
ローラ17に結合されたディスプレイ22、IDEイン
タフェースコントローラ18に結合されたハードディス
クドライブ(HDD)23、SCSIインタフェースコ
ントローラ19に結合されたイメージスキャナ24、そ
して、前記その他のインタフェースコントローラ20に
結合されたキーボード25、マウス26、モデム27及
び文字認識ユニット28等が設けられている。
【0020】図2に示されるコンピュータシステムにお
いて、帳票等から取得した画像情報例えばビットマップ
イメージデータから文字情報を認識し、認識した文字情
報を管理する為の動作プログラム(帳票認識管理制御プ
ログラム)は前記HDD23に格納されている。HDD
23にはマイクロプロセッサ11のオペレーティングシ
ステム(OS)などその他の動作プログラムも格納され
ている。OSが起動され、前記帳票認識管理制御プログ
ラムの実行が指示されると、当該プログラムの実行ファ
イルがRAM15のロードされ、マイクロプロセッサ1
1がRAM15にロードされた実行ファイルに従って帳
票認識管理制御プログラムを実行する。文字認識ユニッ
ト28は、文字認識処理の為の専用ハードウェアとさ
れ、マイクロプロセッサ11からコマンドが与えられる
事により、マイクロプロセッサ11に代わって文字認識
の為の演算処理を行う。文字認識の為の演算はマイクロ
プロセッサ11が専らソフトに依存して行う事も可能で
あるが、演算処理時間は長くなる。
【0021】図1には図2のコンピュータシステムで実
現された文字認識管理装置の機能ブロック図が示され
る。
【0022】フレーム情報記憶手段1は、モデム27や
イメージスキャナ24で入力した帳票のビットマップイ
メージデータに対する文字の認識対象領域を定義した複
数種類のフレーム情報を記憶する。フレーム情報は少な
くとも帳票単位の情報であり、フレーム情報ファイルと
して前記HDD23に格納され、マイクロプロセッサ1
1による文字認識管理制御プログラムの実行時に利用さ
れるフレーム情報はRAM15のワーク領域にテーブル
として展開される。
【0023】フレーム情報記憶手段1に記憶されるフレ
ーム情報を原始的に取得するには、例えば図1に示され
た領域編集手段5を用いることができる。この領域編集
手段5は、帳票の原票に係るビットマップイメージデー
タから矩形領域を抽出し、抽出された矩形領域に対して
文字の認識対象領域をプログラマブルに定義してフレー
ム情報を生成する。これにより、実際の帳票の原票を用
いてフレーム情報を自在に生成することができる。この
領域編集手段5によるフレーム情報の定義手順について
は図21に基づいて後で詳述する。
【0024】前記帳票は例えば図3に示される単票形
式、図4に示される表形式、図5に示される単票及び表
混在形式とされる。帳票に対する認識対象領域の把握に
はフレームを考える。単票部分に対しては、図6のF1
〜F5を夫々フレームとして把握する。(A)の場合に
はフレーム内のデータを1認識データとする。(B)の
場合には複数フレームF3〜F5のデータをグループ化
したものを1認識データとする。表形式のフレームF6
の場合には、(C)に示されるように、表形式フレーム
の表内のセルデータを1認識データとする。それぞれに
おける1認識データの領域が文字の認識対象領域を構成
する矩形の単位領域になる。この単位領域を、単票及び
表形式の区別なく単にデータセルと称する。
【0025】前記フレーム情報は、図7に例示されるよ
うに、前記データセルの座標とフィールドID(フィー
ルド識別子)を有する。データセル座標は、例えばデー
タセルの対角の2頂点の座標である。座標の原点は、例
えば帳票の輪郭の一つの頂点とすることができる。前記
フィールドIDはデータセルとそのデータセルからの認
識結果の格納先であるテーブルシート3のフィールドと
の対応を定義する為の情報である。
【0026】テーブルシート3は例えば図9に例示され
るようにフィールドに対して複数個のレコードを有する
表形式とされる。フィールド名はキーボード25から入
力したり、或いは帳票のビットマップイメージデータか
ら取得できる。図7に示されるようにデータセル座標と
フィールドとの関連付けはフィールドIDによって行わ
れる。フィールドIDは実際のフィールド名であっても
よいし、テーブルシートの左端を#1とし、右方向に#
2,#3というように番号で与えてもよい。図7の例で
はフィールドIDは番号で与えられる。
【0027】図1に示されたフィールド編集手段6は、
前記フレーム情報に定義されたデータセル座標とフィー
ルドIDとの対応をプログラマブルに決定するものであ
り、レコードを構成するフィールドの配列を可変可能に
する。図9のテーブルシートを例とすれば、フレーム情
報において、顧客名のデータセル座標に応ずるフィール
ドIDを#2、住所のデータセル座標に応ずるフィール
ドIDを#1に変更すれば、テーブルシートに蓄積され
るレコードは、住所、顧客名、TELの順番に変更され
る。
【0028】図1に示された選択手段7は、前記HDD
23に格納された複数のフレーム情報ファイルの中か
ら、処理に利用するフレーム情報を有するフレーム情報
ファイルをキーボード25などからの指示に従って選択
する。選択されたフレーム情報は、RAM15のワーク
領域にテーブルとして展開されて、文字認識処理に利用
される。
【0029】図1に示された文字認識手段2は、選択さ
れたフレーム情報が定義する認識対象領域に重なったビ
ットマップイメージデータから文字情報を認識する。文
字認識それ自体については公知の手法を利用すればよ
い。
【0030】図1に示された蓄積手段4は、前記文字認
識手段2で認識された文字情報の認識対象領域と認識結
果の格納先であるテーブルシート3のフィールドとの対
応を定義するフレーム情報(特にデータセル座標とフィ
ールドID)に従って、前記認識された文字情報をレコ
ードとして蓄える。
【0031】マイクロプロセッサ11は、文字認識管理
制御プログラムを実行するとき、RAM15に管理情報
テーブルを作成する。管理情報テーブルは、前記選択手
段7によって選択され、フィールド編集手段6によって
フィールドIDの内容が設定されたフレーム情報を当該
フレーム情報に対応するテーブルシートと関連付ける単
数または複数の管理情報を優先順位を持って記憶するテ
ーブルである。管理情報テーブルの一例は図8に示され
る。管理情報は、フレーム情報のファイル名、そのフレ
ーム情報を用いた文字認識管理に利用されるテーブルシ
ートのファイル名、テーブルシートの出力形式を決定す
る為の出力形式情報を有する。特に制限されないが、前
記管理情報は、一旦利用されたもの及び現在使用中のも
のがポインタで繋がれ、現在使用中の管理情報若しくは
新規に作成された管理情報は先頭に繋がれる。先頭に繋
がれた管理情報が最も優先度が高い。選択手段7で選択
すべきフレーム情報が、ポインタで繋がれている管理情
報に既に含まれている場合には、その管理情報が先頭に
繋ぎ変えられて利用される。指定されたフレーム情報が
既存の管理情報に含まれていない場合には、当該フレー
ム情報に応ずる新たな管理情報が生成されてポインタで
繋がれる。フレーム情報が指定されていてその指定が変
更されない場合には、先頭の管理情報で特定されるフレ
ーム情報が用いられる。
【0032】前記選択手段7はポインタで繋がれた管理
情報のうち最も優先順位の高い管理情報から把握したフ
レーム情報を選択して文字認識に利用させ、前記蓄積手
段4は管理情報のうち最も優先順位の高い管理情報から
把握したテーブルシートにレコードを記憶することがで
きる。これにより、同種の帳票を連続的に処理する場
合、一々条件の再設定を行うことなく処理の自動化を実
現できる。
【0033】図10には図9の単票形式の帳票のビット
マップイメージデータに対する文字認識手段2による認
識結果の一例が示される。このようにして認識された文
字情報は、図9のテーブルシートにレコードとして格
納される。このとき用いられるフレーム情報は図11の
内容を有する。P10〜P12は図9の単票形式の帳票
におけるデータセル座標、#1〜#3はテーブルシート
のフィールドIDである。
【0034】図12には図9の表形式の帳票のビットマ
ップイメージデータに対する文字認識手段2による認識
結果の一例が示される。このようにして認識された文字
情報は、図9のテーブルシートにレコード,として
格納される。このとき用いられるフレーム情報は図13
の内容を有する。P1〜P6は図9の表形式の帳票にお
けるデータセル座標である。
【0035】前述のように、マイクロプロセッサ11
は、文字認識管理制御プログラムを実行するとき、RA
M15に管理情報テーブルを作成する。このとき、例え
ば図8に示されるようにポインタで繋がれた先頭の管理
情報40のテーブルシートファイル名TST1と、その
次に繋がれた管理情報41のテーブルシートファイル名
TST2とが等しく設定されている場合、フレーム情報
ファイルRFM1のフレーム情報を用いて認識した文字
情報と、フレーム情報ファイルRFM2のフレーム情報
を用いて認識した文字情報とを、同じテーブルシートに
蓄積することができる。その為には少なくとも、フレー
ム情報で規定されるレコードのフィールド構成が双方同
一でなければならない。この条件を満足する事により、
前記蓄積手段4は、図9に例示されるように、表形式の
帳票と単票形式の帳票との夫々から別別に認識したレコ
ードを共通のテーブルシートに格納することができる。
【0036】図14に例示されるように、書式が異なる
2種類の表形式の帳票のビットマップイメージデータか
ら認識したレコードについても、上記同様、フィールド
構成が同一であれば、同じテーブルシートに逐次レコー
ドを蓄積することができる。
【0037】図15に例示されるように、一つの帳票に
同じ表形式のデータが複数組み配置されている場合、そ
の全体を1個のフレーム情報で規定すれば、配置(1)
と配置(2)の表の内容は1個のテーブルシートに格納
される。前記配置(1)と配置(2)のフレーム情報が
別々である場合にも、図14の場合と同様に双方の表の
データを共通のテーブルシートに逐次蓄えていくことが
できる。
【0038】図1に示された出力手段8は、作成された
テーブルシートをファイルとして出力するときのデータ
形式を規定する。出力形式は図8の管理情報に設定され
る出力形式情報によってプログラマブルとされる。設定
されるデータ形式は、例えばテキストファイル形式、C
SVファイル形式、タブ区切りファイル形式、又はユー
ザー形式等に設定することができる。
【0039】出力手段8は更に、複数個のテーブルシー
トを結合し、単一のテーブルシートを分割し、又はテー
ブルシートをそのまま、ファイルとして出力するかを前
記出力形式情報に従って制御することができる。例えば
図9に示される単票形式の帳票から認識したレコードを
蓄積するテーブルシートと、図9の表形式の帳票から認
識したレコードを蓄積するテーブルシートとを別々にす
る。そのとき、双方のフレーム情報は図13及び図14
のように設定し、レコードに対するフィールド構成を同
一とする。双方のテーブルシートの出力形式情報には、
相互に一方が他方に連結されるべきことを指示する制御
情報を設定しておく。これにより、同種のデータを有す
るが形式の異なる帳票から認識したデータのレコードが
別々のテーブルシートに格納されているとき、それらテ
ーブルシートをファイルに出力するとき、一つのファイ
ルに纏めて出力することができる。したがって、この場
合にも、ファイルに出力されたテーブルシートの形式
は、図9のテーブルシートの形式と同じになる。
【0040】また図16に例示されるように、単票形式
と表形式の複合帳票において単票形式部分と表形式部分
とでデータの内容が異なる場合には、テーブルシートを
分けてレコードを蓄積した方がよい場合がある。このと
き、管理情報には2個のテーブルシートファイル名と、
テーブルシートの切り換え境界をなすデータセル座標を
指定する。これにより、図16に例示された複合帳票か
ら認識した文字情報を異なるテーブルシートに格納する
ことができる。図17には図16の複合帳票に対してフ
レーム情報に従って認識されたセルデータが示される。
図18には、配列Aに対するテーブルシートへのレコー
ド追加の様子が示され、図19には配列Bに対するテー
ブルシートへのレコード追加の様子が示される。
【0041】図20には一つの帳票の認識結果を複数の
テーブルシートに格納するとき、当該複数のテーブルシ
ートの関連付けを行う為に更に別のテーブルシートの例
が示される。図16乃至図19の例のように、一つの帳
票の認識結果を複数のテーブルシートに格納する場合、
テーブルシートA,B(図18及び図19参照)のレコー
ド番号を利用することによって2個のテーブルシート間
の関連付けを行う事ができる。図20のテーブルシート
Cは、テーブルシートAのレコード番号を格納するフィ
ールドと、テーブルシートBのレコード番号を格納する
フィールドと、帳票からの認識結果である数量を格納す
るフィールドを持つ。このようなテーブルシートCを形
成することによって、テーブルシートAとテーブルシー
トBの関連付けを簡単に行うことができる。図20の例
は、帳票には直接現れていないレコード番号を用いてテ
ーブルシートAとテーブルシートBの関連付けを行った
が、レコード番号に代えて、帳票からの認識結果である
顧客コード及び商品コードを用いてもよい。このような
テーブルシート相互間の関連付けが可能になると、帳票
の認識結果を複数のテーブルシートに分割しても相互に
参照可能になる。また、テーブルシートの出力結果をデ
ータベースに登録したい場合にもテーブルシートの出力
結果を加工することなく活用することができる。
【0042】図21には前記領域編集手段5によってフ
レーム情報を定義する手順の一例が示される。先ず、帳
票定義の対象となる帳票の原票(文字が記入されていな
い帳票)のビットマップイメージデータ(画像データ)
をイメージスキャナ等の画像入力装置又はモデムなどを
利用して取得する(S1)。入力した画像データを基
に、画像中の罫線及び矩形などを解析し、認識対象領域
を矩形枠であるフレームとして抽出する(S2)。抽出
されたフレームの大きさや配置を変更したり、文字に手
書き/活字区分、文字種といった文字認識属性などをフ
レームのプロパティとして設定する(S3)。ステップ
S3で設定したフレーム情報に名前(オブジェクト名)
を付けて登録する。予じめ必要な帳票の原票に対して上
記処理を行い、所要のフレーム情報を予めHDD23に
蓄えておく。フレーム情報の指定はオブジェクト名で行
う。
【0043】図22及び図23には帳票のビットマップ
イメージデータから文字情報を認識してテーブルシート
に格納する手順が示される。
【0044】認識対象とする帳票のビットマップイメー
ジデータ(画像データ)をイメージスキャナ24等の画
像入力装置又はモデム27などを利用して取得する(S
10)。取得されたビットマップイメージデータはディ
スプレイ22に表示される。
【0045】そして、フレーム情報の指定の有無を判定
し(S11)、指定されている場合にはそのフレーム情
報を変更するかが判定される(S12)。フレーム情報
を変更する場合又はフレーム情報が指定されていない場
合には、フレーム情報の指定が行われ、指定されたフレ
ーム情報がRAMに読み込まれる(S13)。特に制限
されないが、前記管理情報のセットは、一旦利用された
もの及び現在使用中のものがポインタで繋がれ、現在使
用中の管理情報若しくは新規に作成された管理情報は先
頭に繋がれる。前記ステップS13で指定されたフレー
ム情報が、ポインタで繋がれている管理情報に含まれる
場合には、その管理情報のセットが先頭に繋ぎ変えられ
て利用される。指定されたフレーム情報が既存の管理情
報に含まれていない場合には、当該フレーム情報に応ず
る新たな管理情報が生成されてポインタで繋がれる。フ
レーム情報が指定されていてその指定が変更されない場
合には、先頭の管理情報で特定されるフレーム情報が用
いられる。
【0046】指定されたフレーム情報の内容は画像情報
に重ねてディスプレイ22に表示される。画像情報に対
してフレーム情報の画像が位置ずれしている場合にはフ
レームの位置合わせを行う(S14)。コンピュータシ
ステムはGUI(Graphic User Interface)をサポート
しており、画面上でフレームをドラッグする事によって
位置あわせを行うことができる。
【0047】位置合わせを行った後、フレーム内の画像
データに対して文字認識処理を行う(S15)。認識結
果は画面に表示され、認識結果に誤りがあれば、それを
キー入力などによって校正する(S16,S17)。校
正後、前記フィールドIDが指定されているかが判定さ
れ(S18)、指定されていない場合にはデータセル座
標に対応するフィールドIDの入力を待つ(S19)。
第1回目の処理では、ここでデータセル座標に対するフ
ィールドIDの指定を行う。これにより、データセル座
標の認識データに対してそれをテーブルシートにどのよ
うな順番で格納するかがプログラマブルに指定される。
換言すれば、テーブルシートに蓄積されるレコードのデ
ータ配列がプログラマブルに決定される。
【0048】次に、現在用いている管理情報のセットに
テーブルシートが指定されているかを判定し(S2
0)、指定されていなければ、テーブルシートの作成が
行われる(S21)。テーブルシートはワークシート類
似の表形式を有する。更に、レコードIDを指定するか
が判定され(S22)、指定しない場合には、レコード
IDカウンタをインクリメントし(S25)、そのレコ
ードIDカウンタが指すテーブルシート上の位置にレコ
ードを追加する。レコードIDを指定する場合には、レ
コードIDの入力を待ち(S23)、入力されたレコー
ドIDに対応するレコードを変更する(S24)。
【0049】そして終了かが判定され(S27)、終了
でない場合にはステップS10に戻って上記同様に処理
が繰り返される。終了の場合には、ポインタで繋がれた
管理情報の各セットに出力形式情報が有るかの判定が行
われ(S28)、ない場合には出力形式情報が所望に指
定され(S29)、出力形式情報に従ってテーブルシー
トがファイルに出力される(S30)。出力後、作業状
態が保存されて(S31)、処理を終了する。作業状態
の保存とは、RAM15の作業領域に展開されている管
理情報、フレーム情報及びテーブルシートを退避するこ
とである。保存された作業状態を復帰させることによ
り、その状態を起点に処理を継続することができる。
【0050】以上説明した文字認識管理制御プログラム
を用いた文字認識管理装置は、帳票からの認識結果の格
納形式としてフィールドとレコードとから成る表形式の
テーブルシート3を採用する。帳票の画像情報に対する
認識対象領域を定義したフレーム情報をフレーム情報記
憶手段1に有し、画像情報に対しフレーム情報で定義さ
れた認識対象領域の文字情報を文字認識手段2で認識
し、認識対象領域とテーブルシート3のフィールドとの
対応定義に従って蓄積手段4が文字認識手段で認識され
た情報をレコードとして蓄える。認識対象領域は領域編
集手段5でプログラマブルに指定可能であり、認識対象
領域とテーブルシート上のフィールドとの対応はフィー
ルド編集手段6で可変である。
【0051】これによれば、単票形式や表形式の帳票な
ど、異なる書式の帳票を認識する場合には、それに合っ
たフレーム情報を用いて文字認識を行い、認識結果を、
認識対象領域とテーブルシートのフィールドとの対応定
義に従ってテーブルシートにレコードとして格納するか
ら、認識対象領域とテーブルシートのフィールドとの対
応定義の内容、及びフレーム情報の内容次第で、単票形
式や表形式の帳票など、異なる書式の帳票を認識する場
合にも、帳票の書式に依存しない統一したテーブルシー
ト形式として認識データを格納して管理することができ
る。したがって、帳票の物理的な形式に依存することな
く認識結果を所望の形態で取得できる。
【0052】前記領域編集手段5を採用することによ
り、実際の帳票の原票を用いてフレーム情報を自在に生
成することができる。
【0053】前記フィールド識別子の内容をプログラマ
ブルに決定するフィールド編集手段6を採用することに
より、レコードを構成するフィールドの配列を可変可能
にできる。
【0054】前記選択手段7及び蓄積手段4にポインタ
で繋がれた管理情報を参照させ、最も優先順位の高い管
理情報から把握したフレーム情報を選択して文字認識に
利用させ、また、最も優先順位の高い管理情報から把握
したテーブルシートにレコードを格納させることによ
り、同種の帳票を連続的に処理する場合、一々条件の再
設定を行うことなく処理の自動化を実現できる。
【0055】フレーム情報単位のテーブルシートに前記
レコードを蓄えるとき、複数個のテーブルシートの結
合、単一のテーブルシートの分割、又はテーブルシート
をそのまま、ファイルとして出力する出力手段8を採用
し、或いは、異なるフレーム情報を用いて認識され相互
にフィールド構成が等しいレコードを共通のテーブルシ
ートに蓄積可能にすることにより、単票形式や表形式の
帳票など、異なる書式の帳票をから文字情報を認識する
場合にも、帳票の書式に依存しない統一した表形式で認
識データを格納し管理する処理が簡単になる。
【0056】以上本発明者によってなされた発明を実施
形態に基づいて具体的に説明したが、本発明はそれに限
定されるものではなく、その要旨を逸脱しない範囲にお
いて種々変更可能であることは言うまでもない。
【0057】例えば、書式の異なる帳票から認識した情
報を一つの表形式でファイルに出力する場合、テーブル
シートを帳票ごとに個別化し、出力段階で両者をまとめ
る手法と、最初からテーブルシートを共通化する手法と
があり、上記の例では双方をサポートしたが、何れか一
方が実現されていれば十分である。また、管理情報を優
先順位をつけてテーブル化するとき、優先レベルを示す
情報を別に設けるようにしてもよい。また、文字認識管
理制御プログラムを記録した記録媒体は、ハードディス
クに限定されず、フロッピーディスク、CD−ROMな
どの記録媒体であってもよい。また、文字認識管理装置
はパーソナルコンピュータシステムを初めとする各種コ
ンピュータシステムによって実現することができる。
【0058】また、帳票に、特定のフィールドレコード
の数値を合計した欄がある場合、前記特定のフィールド
レコードの文字認識結果に対する合計を演算し、この演
算結果と、前記合計欄の文字認識結果とを比較して、文
字認識結果が正しいかを判定させることができる。この
機能は、単なる合計に限定されず、その他の計算式に従
った欄に対する文字認識結果にも適用することができ
る。
【0059】
【発明の効果】本願において開示される発明のうち代表
的なものによって得られる効果を簡単に説明すれば下記
の通りである。
【0060】すなわち、活字や手書き帳票を認識するシ
ステムにおいて、認識結果の格納形式としてフィールド
とレコードとから成る表形式のテーブルシートを採用
し、スキャナなどの画像入力手段又は通信手段を介して
入力した画像情報に対して認識対象領域をプログラマブ
ルに指定できるようにし、また、認識対象領域と当該領
域からの認識結果の格納先であるテーブルシート上のフ
ィールドとの対応を可変とするから、帳票毎に帳票の認
識対象領域と認識結果の格納先であるテーブルシート上
のフィールドとの対応を定義でき、単票形式や表形式の
帳票など、異なる書式の帳票をから文字情報を認識する
場合にも、帳票の書式に依存しない統一したテーブルシ
ート形式で認識データを格納し管理することができる。
【0061】したがって、帳票の物理的な形式に依存す
ることなく認識結果を所望の形態で取得でき、多種多様
な書式の帳票から文字を認識した結果を統一した形式で
管理できる。よって、多種多様な書式の帳票から文字を
認識した結果をユーザの要求仕様に合った形式で簡単に
出力することができる。
【図面の簡単な説明】
【図1】本発明に係る文字認識管理装置の機能ブロック
図である。
【図2】本発明に係る文字認識管理装置の一例であるコ
ンピュータシステムのブロック図である。
【図3】単票形式の帳票の一例説明図である。
【図4】表形式の帳票の一例説明図である。
【図5】前単票及び表混在形式の帳票の一例説明図であ
る。
【図6】帳票に対する認識対象領域を決定するためのフ
レームの概念説明図である。
【図7】フレーム情報の一例説明図である。
【図8】管理情報の一例説明図である。
【図9】表形式の帳票と単票形式に帳票から認識したデ
ータを共通のテーブルシートに蓄積した一例を示す説明
図である。
【図10】図9の単票形式の帳票のビットマップイメー
ジデータに対する文字認識手段による認識結果の一例説
明図である。
【図11】図10の文字認識に用いられるフレーム情報
の一例説明図である。
【図12】図9の表形式の帳票のビットマップイメージ
データに対する文字認識手段による認識結果の一例説明
図である。
【図13】図12の文字認識に用いられるフレーム情報
の一例説明図である。
【図14】書式が異なる2種類の表形式の帳票のビット
マップイメージデータから認識したレコードを同じテー
ブルシートに逐次蓄積した一例を示す説明図である。
【図15】一つの帳票に複数組み配置された同じ表形式
のデータから認識したレコードを1個のテーブルシート
に蓄積した一例を示す説明図である。
【図16】単票形式と表形式の複合帳票において単票形
式と表形式部分でデータ内容が異なるときテーブルシー
トを分けてレコードを蓄積した例を示す説明図である。
【図17】図16の複合帳票に対してフレーム情報に従
って認識されたセルデータの一例を示す説明図である。
【図18】図16の配列Aに対するテーブルシートへの
レコード追加の様子を示す説明図である。
【図19】図16の配列Bに対するテーブルシートへの
レコード追加の様子を示す説明図である。
【図20】一つの帳票の認識結果を複数のテーブルシー
トに格納する場合に当該複数のテーブルシートの関連付
けを行う為の更に別のテーブルシートの一例を示す説明
図である。
【図21】領域編集手段によってフレーム情報を定義す
る手順の一例を示すフローチャートである。
【図22】帳票のビットマップイメージデータから文字
情報を認識してテーブルシートに格納する手順の一例を
図23と共に示すフローチャートである。
【図23】帳票のビットマップイメージデータから文字
情報を認識してテーブルシートに格納する手順の一例を
図22と共に示すフローチャートである。
【符号の説明】
1 フレーム情報記憶手段 2 文字認識手段 3 テーブルシート 4 蓄積手段 5 領域編集手段 6 フィールド編集手段 7 選択手段 8 出力手段 10 プロセッサボード 11 マイクロプロセッサ 15 RAM 23 ハードディスクドライブ F1〜F6 フレーム 40,41管理情報 P1〜P11 データセル #1〜#3 フィールドID

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 プログラムされたコンピュータにより画
    像情報から文字情報を認識して管理する文字認識管理装
    置であって、帳票の画像情報に対する文字の認識対象領
    域を定義した複数種類のフレーム情報を記憶するフレー
    ム情報記憶手段と、前記フレーム情報記憶手段からフレ
    ーム情報を選択する選択手段と、選択されたフレーム情
    報が規定する前記認識対象領域に重なった画像情報から
    文字情報を認識する文字認識手段と、前記文字認識手段
    で認識された文字情報の認識対象領域と認識結果の格納
    先であるテーブルシートのフィールドとの対応定義に従
    って前記認識された文字情報をレコードとして蓄える蓄
    積手段と、を有して成るものであることを特徴とする文
    字認識管理装置。
  2. 【請求項2】 前記帳票の画像情報から矩形領域を抽出
    し、抽出された矩形領域に対して文字の認識対象領域を
    プログラマブルに定義してフレーム情報を生成する領域
    編集手段を更に含んで成るものであることを特徴とする
    請求項1記載の文字認識管理装置。
  3. 【請求項3】 前記フレーム情報は、文字の認識対象領
    域を構成する矩形の単位領域の位置情報と、前記単位領
    域から認識された文字情報の格納に割り当てられるテー
    ブルシートのフィールドを特定するフィールド識別子と
    を有するものであることを特徴とする請求項1又は2記
    載の文字認識管理装置。
  4. 【請求項4】 前記フィールド識別子の内容をプログラ
    マブルに決定するフィールド編集手段を有し、レコード
    を構成するフィールドの配列を可変可能とするものであ
    ることを特徴とする請求項3記載の文字認識管理装置。
  5. 【請求項5】 前記選択手段によって選択されフィール
    ド識別子の内容が設定されたフレーム情報を当該フレー
    ム情報に対応するテーブルシートと関連付ける単数また
    は複数の管理情報を優先順位を持って記憶する記憶手段
    を更に有し、前記選択手段は前記記憶手段が保持する管
    理情報のうち最も優先順位の高い管理情報から把握した
    フレーム情報を選択し、前記蓄積手段は前記記憶手段が
    保持する管理情報のうち最も優先順位の高い管理情報か
    ら把握したテーブルシートを利用するものであることを
    特徴とする請求項4記載の文字認識管理装置。
  6. 【請求項6】 前記蓄積手段は、前記フレーム情報単位
    のテーブルシートに前記レコードを蓄え、複数個のテー
    ブルシートの結合、単一のテーブルシートの分割、又は
    テーブルシートをそのまま、ファイルとして出力する出
    力手段を更に備えて成るものであることを特徴とする請
    求項1記載の文字認識管理装置。
  7. 【請求項7】 前記蓄積手段は、異なるフレーム情報を
    用いて認識され相互にフィールド構成が等しいレコード
    を共通のテーブルシートに蓄積可能であることを特徴と
    する請求項1記載の文字認識管理装置。
  8. 【請求項8】 プログラムされたコンピュータにより画
    像情報から文字情報を認識して管理する文字認識管理方
    法であって、帳票の画像情報に対する文字の認識対象領
    域を定義した複数種類のフレーム情報から所要のフレー
    ム情報を選択する第1処理と、選択されたフレーム情報
    が規定する認識対象領域に重なった画像情報から文字情
    報を認識する第2処理と、前記第2処理で認識された文
    字情報の認識対象領域と認識結果の格納先であるテーブ
    ルシートのフィールドとの対応をプログラマブルに定義
    する第3処理と、第3処理によって定義された対応関係
    に従って前記認識された文字情報をテーブルシートにレ
    コードとして蓄える第4処理と、前記第1処理乃至第4
    処理を必要に応じて繰り返した後、テーブルシートをフ
    ァイルに出力する第5処理とを含むことを特徴とする文
    字認識管理方法。
  9. 【請求項9】 前記帳票の画像情報から矩形領域を抽出
    し、抽出された矩形領域に対して文字の認識対象領域を
    プログラマブルに定義して、前記第1処理で選択可能な
    フレーム情報を生成する第6処理を更に含み、前記フレ
    ーム情報は、文字の認識対象領域を構成する矩形の単位
    領域の位置情報と、前記単位領域から認識された文字情
    報の格納に割り当てられるテーブルシートのフィールド
    を特定するフィールド識別子とを有することを特徴とす
    る請求項8記載の文字認識管理方法。
  10. 【請求項10】 前記第3処理は、前記フィールド識別
    子の内容をプログラマブルに決定して、レコードを構成
    するフィールドの配列を可変可能にすることを特徴とす
    る請求項9記載の文字認識管理方法。
  11. 【請求項11】 プログラムされたコンピュータにより
    画像情報から文字情報を認識して管理する為の動作プロ
    グラムを記録した記録媒体であって、帳票の画像情報に
    対して文字の認識対象領域を定義した複数種類のフレー
    ム情報から所要のフレーム情報を選択させ、選択された
    前記フレーム情報が規定する認識対象領域に重なった画
    像情報から文字情報を認識させ、前記認識された文字情
    報の認識対象領域と認識結果の格納先であるテーブルシ
    ートのフィールドとの対応関係をプログラマブルに定義
    させ、定義された対応関係に従って前記認識された文字
    情報を前記テーブルシートにレコードとして蓄積させ、
    必要に応じて前記処理を繰り返させた後、テーブルシー
    トをファイルに出力させることを特徴とする文字認識管
    理制御プログラムを記録した記録媒体。
JP9193617A 1997-07-18 1997-07-18 文字認識管理装置、文字認識管理方法、及び文字認識管理制御プログラムを記録した記録媒体 Withdrawn JPH1139427A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9193617A JPH1139427A (ja) 1997-07-18 1997-07-18 文字認識管理装置、文字認識管理方法、及び文字認識管理制御プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9193617A JPH1139427A (ja) 1997-07-18 1997-07-18 文字認識管理装置、文字認識管理方法、及び文字認識管理制御プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JPH1139427A true JPH1139427A (ja) 1999-02-12

Family

ID=16310927

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9193617A Withdrawn JPH1139427A (ja) 1997-07-18 1997-07-18 文字認識管理装置、文字認識管理方法、及び文字認識管理制御プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JPH1139427A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008003901A (ja) * 2006-06-23 2008-01-10 Canon Inc 情報処理装置及び情報処理方法及び情報処理プログラム
JP2008027094A (ja) * 2006-07-20 2008-02-07 Mitsubishi Electric Corp 設備仕様入力装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008003901A (ja) * 2006-06-23 2008-01-10 Canon Inc 情報処理装置及び情報処理方法及び情報処理プログラム
JP2008027094A (ja) * 2006-07-20 2008-02-07 Mitsubishi Electric Corp 設備仕様入力装置

Similar Documents

Publication Publication Date Title
JP2005078111A (ja) データ分類処理装置、データ分類方法、プログラム及び可搬記憶媒体
JPH0776958B2 (ja) 文書整形装置
US7200811B1 (en) Form processing apparatus, form processing method, recording medium and program
JP2004094487A (ja) 文書作成支援システム
JPH1139427A (ja) 文字認識管理装置、文字認識管理方法、及び文字認識管理制御プログラムを記録した記録媒体
JPH1097417A (ja) プログラム組立装置及び記憶媒体
JP2001078018A (ja) データ編集装置
JPH0635987A (ja) 回路図作成装置および回路図作成方法
JP3567299B2 (ja) グラフ生成出力装置
JP2008009966A (ja) 業務プロセス設定装置及び業務プロセス設定方法
JPH01280831A (ja) プログラム内データ名称標準化支援方法
JP2000231478A (ja) ソフトウェアの自動生成装置および方法、記録媒体
JP3451289B2 (ja) 表出力装置
JP2004021347A (ja) 電子帳票検索システムおよび電子帳票検索方式
JPH1139403A (ja) データ入力装置、データ入力方法、及びデータ入力制御プログラムを記録した記録媒体
JP2868388B2 (ja) 帳票印刷機能を持つデータ処理装置
JP2753027B2 (ja) 文書ファイルの編集方法
JPH02289368A (ja) 印刷方法
JP4096972B2 (ja) データベース作成装置
JPH067399Y2 (ja) エディットデータ出力装置
JP2000003362A (ja) 文書解析システム及び記録媒体
JP2002024748A (ja) 画面帳票レイアウトのチェック方法
JPH086937A (ja) 格納データの出力方法及びデータ処理装置
JPH0785174A (ja) データ集計方法及び装置
JPH03212724A (ja) フロッピーディスク処理装置のファイル形式識別方式

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20041005