JP3258287B2 - 画像データの解析方法及び解析装置、及び画像データの解析を行うためのプログラム・プロダクトを格納した記録媒体 - Google Patents

画像データの解析方法及び解析装置、及び画像データの解析を行うためのプログラム・プロダクトを格納した記録媒体

Info

Publication number
JP3258287B2
JP3258287B2 JP00117999A JP117999A JP3258287B2 JP 3258287 B2 JP3258287 B2 JP 3258287B2 JP 00117999 A JP00117999 A JP 00117999A JP 117999 A JP117999 A JP 117999A JP 3258287 B2 JP3258287 B2 JP 3258287B2
Authority
JP
Japan
Prior art keywords
cell
image data
coordinate value
row
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP00117999A
Other languages
English (en)
Other versions
JP2000207484A (ja
Inventor
木 光 一 柏
野 慶 統 藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP00117999A priority Critical patent/JP3258287B2/ja
Priority to US09/478,180 priority patent/US6681046B1/en
Publication of JP2000207484A publication Critical patent/JP2000207484A/ja
Application granted granted Critical
Publication of JP3258287B2 publication Critical patent/JP3258287B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、画像処理方法に関す
るものであり、より詳しくは、文字認識プログラムの設
定に際し、入力されたビットマップ・イメージの帳票に
同じ属性として設定される複数のセルを特定する方式に
関する。
【0002】
【従来の技術】新たにOCRに認識させる帳票を文字認
識プログラムに認識させるOCRの帳票定義作業を行う
に際し、従来より、どのような位置にどのような種類の
文字や数字、記号等が入力されるかを設定している。か
かる作業を行うことにより、認識手法や比較標本集合を
変更すること等により、数字と設定された領域において
数字の「0」を文字である「O」と誤認すること等を防
止できる。また、対比する集合が少なくなるため、高速
に認識を行うことができるというメリットがある。特に
手書き文字認識では、判別が困難な文字も存在するた
め、一定の認識率を維持するためにはこれらの情報は必
須なものとなっている。
【0003】かかるOCRの帳票定義作業を行うに際
し、従来は、帳票のサイズ、ページマーク/位置補正マ
ーク(タイミングマークまたはリファレンスマークとも
呼ばれる)/文字フィールド/文字の相対的な位置とサ
イズなどを物差しを使って測定し、その数値を入力せね
ばならず、帳票定義作業は、オペレータにとって非常に
手間のかかるものであった。特に、ドロップアウトの帳
票(OCR用に特別に作成された帳票で、OCRに認識
されない色彩の文字や文字枠を印刷した帳票)では、こ
の方式が本願出願時においてもまだ広く行われており、
新たなドロップアウト帳票を使用したOCR用プログラ
ムを設計するには多大な時間を費やす必要があった。
【0004】このような従来技術の問題点を解決するた
めに、現在いくつかの技術が提案されている。一例をあ
げると、メディア・ドライブ社の「WinReader
Hand v1.5 ユーザーズ・マニュアル、フィ
ールドの設定(p19,20)」(「WinReade
r Hand」はメディア・ドライブ社の商標)に記載
されたような、黒枠を含む帳票では未記入の帳票イメー
ジをスキャナーで取り込みディスプレイ上に表示し、全
ての黒い縦線と横線を自動検出し、オペレータが直線が
正しく検出されたことを確認してから認識単位となる複
数のセルを特定し、属性の設定を行う方式がある。
【0005】上記の方式は、物差しを使っていた方式に
比べれば、オペレータの行う作業も少なく、はるかに帳
票の定義が簡単になっている。しかし、この文字認識プ
ログラムにおいては、帳票イメージに含まれる全ての認
識単位のセル(列)を左上コーナーをマウスでクリック
し、そのままドラッグして右下のコーナーまでもってい
きマウスボタンを離すオペレーション等によって特定し
なくてはならない。
【0006】この一方、現在図26に示すような同一の
属性を登録する複数のセル(列)が連続して構成されて
いる連記式帳票が多く用いられている。かかる連記式帳
票を定義するに際し、上述の改良された帳票定義の方式
では、各セルまたはセル列を特定し、属性を登録してい
く作業を繰り返さなくてはならず、繁雑であった。
【0007】
【発明が解決しようとする課題】本発明の目的は、オペ
レータの行う帳票定義作業を可能な限り軽減させること
のできるシステムを提供することにある。
【0008】本発明の他の一の目的は、オペレータが直
感的に同種のセルまたはセル列を認識することができ、
帳票定義ミスを防止することのできるシステムを提供す
ることにある。
【0009】本発明の他の一の目的は、オペレータが行
う単純作業の繰り返しを無くすことにより、帳票定義ミ
スを防止することのできるシステムを提供することにあ
る。
【0010】
【課題を解決するための手段】画像データを解析し、画
像データに含まれるセル(文字・記号等が記入される
枠)を検出する。その後、一定のパターンでセルが連続
しているか否か判断し、連続している場合には、その連
続するセル群を共通の属性が登録されるべきセルのグル
ープであると判断する。共通の属性が登録されるべきセ
ル群は、他のセル群と識別して表示装置上に表示され
る。オペレータには、表示画面上で、特定のセル群に対
する一部のセルの除外、追加等の修正作業を可能にす
る。また、セル群を特定して、そのセル群に含まれるセ
ル全てに一括して属性を入力することを可能にする。
【0011】本発明の一態様においては、画像データ解
析装置に入力された画像データを解析する方法であっ
て、(a)前記画像データを走査することによって、始
点座標値(x、y)と、高さの情報とを含む複数のセル
データを抽出する段階と、(b)前記複数のセルデータ
から同一のx座標値を有するセル群を抽出する段階と、
(c)前記抽出されたセル群に含まれるセルの高さの情
報を検査する段階と、(d)前記抽出されたセル群に含
まれるセルの中で他のセルと異なる高さの情報を有する
セルを前記抽出されたセル群から除外する段階と、を含
む解析方法が提供される。
【0012】本願明細書の特許請求の範囲において、
「始点座標値」は、セルの外接矩形の左上の点のみを含
むものではなく、セルの外接矩形の右上、左下、右下の
点の他、セルの位置を特定するのに必要な情報を含む概
念である。また、「高さの情報」は、1次元における2
点間の距離情報や2点の座標値の情報を含む概念であ
る。さらに、本願明細書の特許請求の範囲において、
「セル」とは、本発明の好適な実施例において説明する
「セル列」をも含む概念である。
【0013】本発明の他の一態様においては、画像デー
タ解析装置に入力された画像データを解析する方法であ
って、(a)前記画像データを走査することによって、
始点座標値(x、y)と高さと幅の情報とを含む複数の
セルデータを抽出する段階と、(b)前記複数のセルデ
ータから同一のx座標値を有するセル群を抽出する段階
と、(c)前記抽出されたセル群に含まれるセルの幅の
情報を解析し、前記抽出されたセル群から第1のセル群
と第2のセル群を抽出する段階と、(d)前記第1のセ
ル群に含まれるセルの高さの情報を検査する段階と、
(e)前記第1のセル群に含まれるセルの中で他のセル
と異なる高さの情報を有するセルを前記第1のセル群か
ら除外する段階と、を含む解析方法が提供される。
【0014】本願明細書の特許請求の範囲において、
「幅の情報」は、高さとは異なる次元における2点間の
距離情報や2点の座標値の情報を含む概念である。
【0015】本発明の他の一態様においては、画像デー
タ解析装置に入力された画像データを解析する方法であ
って、(a)前記画像データを走査することによって、
始点座標値(x、y)と、幅の情報とを含む複数のセル
データを抽出する段階と、(b)前記複数のセルデータ
から同一のx座標値を有するセル群を抽出する段階と、
(c)前記抽出されたセル群に含まれるセルの幅の情報
を検査する段階と、(d)前記抽出されたセル群に含ま
れるセルの中でほぼ同じ幅の情報を有するものを新たな
セル群として抽出する段階と、を含む解析方法が提供さ
れる。
【0016】本発明の他の一態様においては、入力装置
及び表示装置を備える画像データ解析装置に入力された
画像データを解析する方法であって、 (a)前記画像データを走査することによって、始点座
標値(x、y)と、高さの情報とを含む複数のセルデー
タを抽出する段階と、 (b)前記複数のセルデータから同一のx座標値を有す
るセル群を抽出する段階と、 (c)前記抽出されたセル群に含まれるセルの高さの情
報を検査する段階と、 (d)前記抽出されたセル群に含まれるセルの中で他の
セルと異なる高さの情報を有するセルを前記抽出された
セル群から除外することにより新たなセル群を作成する
段階と、 (e)前記新たなセル群を前記表示装置に表示する段階
と、 (f)前記新たなセル群に含まれるセルが前記入力装置
を用いてオペレータによって選択されたことを検出する
段階と、 (g)前記オペレータによって入力された属性情報を前
記新たなセル群に含まれる少なくとも一部のセル集合に
前記属性情報を関連付けて保存する段階と、を含む解析
方法が提供される。
【0017】本発明の他の一態様においては、画像デー
タ保持部に保持された画像データを解析する画像データ
解析装置であって、(a)前記画像データを走査するこ
とによって、始点座標値(x、y)と、高さの情報とを
含む複数のセルデータを抽出するセル検出部と、(b)
前記複数のセルデータから同一のx座標値を有するセル
群を抽出するフィールド検出部と、(c)前記抽出され
たセル群に含まれるセルの高さの情報を検査し、他のセ
ルと異なる高さの情報を有するセルを前記抽出されたセ
ル群から除外するセル繰り返し判定部と、を含む画像デ
ータ解析装置が提供される。
【0018】本発明の他の一態様においては、画像デー
タ解析装置に入力された画像データを解析するためのソ
フトウエアプロダクトを格納した記録媒体であって、該
ソフトウエアプロダクトは、(a)前記画像データを走
査することによって、始点座標値(x、y)と、高さの
情報とを含む複数のセルデータを抽出することを前記画
像データ解析装置に指示するためのプログラムコード
と、(b)前記複数のセルデータから同一のx座標値を
有するセル群を抽出することを前記画像データ解析装置
に指示するためのプログラムコードと、(c)前記抽出
されたセル群に含まれるセルの高さの情報を検査するこ
とを前記画像データ解析装置に指示するためのプログラ
ムコードと、(d)前記抽出されたセル群に含まれるセ
ルの中で他のセルと異なる高さの情報を有するセルを前
記抽出されたセル群から除外することを前記画像データ
解析装置に指示するためのプログラムコードと、を含む
記憶媒体が提供される。
【0019】本発明の他の一態様においては、画像デー
タ解析装置に入力された画像データを解析するためのソ
フトウエアプロダクトを格納した記録媒体であって、該
ソフトウエアプロダクトは、(a)前記画像データを走
査することによって、始点座標値(x、y)と高さと幅
の情報とを含む複数のセルデータを抽出することを前記
画像データ解析装置に指示するためのプログラムコード
と、(b)前記複数のセルデータから同一のx座標値を
有するセル群を抽出することを前記画像データ解析装置
に指示するためのプログラムコードと、(c)前記抽出
されたセル群に含まれるセルの幅の情報を解析し、前記
抽出されたセル群から第1のセル群と第2のセル群を抽
出することを前記画像データ解析装置に指示するための
プログラムコードと、(d)前記第1のセル群に含まれ
るセルの高さの情報を検査することを前記画像データ解
析装置に指示するためのプログラムコードと、(e)前
記第1のセル群に含まれるセルの中で他のセルと異なる
高さの情報を有するセルを前記第1のセル群から除外す
ることを前記画像データ解析装置に指示するためのプロ
グラムコードと、を含む記憶媒体が提供される。
【0020】本発明の他の一態様においては、画像デー
タ解析装置に入力された画像データを解析するためのソ
フトウエアプロダクトを格納した記録媒体であって、該
ソフトウエアプロダクトは、(a)前記画像データを走
査することによって、始点座標値(x、y)と、幅の情
報とを含む複数のセルデータを抽出することを前記画像
データ解析装置に指示するためのプログラムコードと、
(b)前記複数のセルデータから同一のx座標値を有す
るセル群を抽出することを前記画像データ解析装置に指
示するためのプログラムコードと、(c)前記抽出され
たセル群に含まれるセルの幅の情報を検査することを前
記画像データ解析装置に指示するためのプログラムコー
ドと、(d)前記抽出されたセル群に含まれるセルの中
でほぼ同じ幅の情報を有するものを新たなセル群として
抽出することを前記画像データ解析装置に指示するため
のプログラムコードと、を含む記憶媒体が提供される。
【0021】本発明の他の一態様においては、入力装置
及び表示装置を備える画像データ解析装置に入力された
画像データを解析するためのソフトウエアプロダクトを
格納した記録媒体であって、該ソフトウエアプロダクト
は、 (a)前記画像データを走査することによって、始点座
標値(x、y)と、高さの情報とを含む複数のセルデー
タを抽出することを前記画像データ解析装置に指示する
ためのプログラムコードと、 (b)前記複数のセルデータから同一のx座標値を有す
るセル群を抽出することを前記画像データ解析装置に指
示するためのプログラムコードと、 (c)前記抽出されたセル群に含まれるセルの高さの情
報を検査することを前記画像データ解析装置に指示する
ためのプログラムコードと、 (d)前記抽出されたセル群に含まれるセルの中で他の
セルと異なる高さの情報を有するセルを前記抽出された
セル群から除外することにより新たなセル群を作成する
ことを前記画像データ解析装置に指示するためのプログ
ラムコードと、 (e)前記新たなセル群を前記表示装置に表示すること
を前記画像データ解析装置に指示するためのプログラム
コードと、 (f)前記新たなセル群に含まれるセルが前記入力装置
を用いてオペレータによって選択されたことを検出する
ことを前記画像データ解析装置に指示するためのプログ
ラムコードと、 (g)前記オペレータによって入力された属性情報を前
記新たなセル群に含まれる少なくとも一部のセル集合に
前記属性情報を関連付けて保存することを前記画像デー
タ解析装置に指示するためのプログラムコードと、を含
む記憶媒体が提供される。
【0022】
【実施例】A.ハードウェア構成 以下、図面を参照して本発明の実施例を説明する。図1
を参照すると、本発明の画像処理システムを実施するた
めのハードウェア構成の概観図が示されている。画像処
理システム100は、中央処理装置(CPU)1とメモ
リ4とを含んでいる。CPU1とメモリ4は、バス2等
を介して、補助記憶装置としてのハードディスク装置1
3とを接続してある。フロッピーディスク装置(または
MO、CD−ROM等の媒体駆動装置)20はフロッピ
ーディスクコントローラ19を介してバス2へ接続され
ている。
【0023】フロッピーディスク装置(またはMO、C
D−ROM等の媒体駆動装置)20には、フロッピーデ
ィスク24(またはMO、CD−ROM等の媒体)が挿
入され、このフロッピーディスク等やハードディスク装
置13、ROM14には、オペレーティングシステムと
協働してCPU等に命令を与え、本発明を実施するため
のコンピュータ・プログラムのコードを記録することが
でき、メモリ4にロードされることによって実行され
る。このコンピュータ・プログラムのコードは圧縮し、
または、複数に分割して、複数の媒体にまたがって記録
することもできる。
【0024】画像処理システム100は更に、ユーザ・
インターフェース・ハードウェアを備えたシステムとす
ることができ、ユーザ・インターフェース・ハードウェ
アとしては、例えば、画面位置情報を入力をするための
ポインティング・デバイス(マウス、ジョイスティッ
ク、トラックボール等)7またはキーボード6や、画像
データをユーザに提示するためのディスプレイ12があ
る。また、スピーカ23は、オーディオ・コントローラ
21から音声信号を、アンプ22を介して受領し、音声
として出力する。
【0025】本発明の画像処理システム100の入力と
なる画像データは、好適にはスキャナ26によって作成
され、パラレルポート16を介して本画像処理システム
100に入力される。ただし、スキャナ31によって作
成された画像データは、パラレルポート16ではなくS
CSIインターフェースや他のインターフェースを介し
て本画像処理システム100に入力されてもよい。ま
た、シリアルポート15およびモデムまたは、トークン
リングや通信アダプタ18等を介して他のコンピュータ
等と通信を行い、画像データを受領することや、フロッ
ピーディスク装置等の他の入力手段からも可能である。
【0026】このように、本発明は、通常のパーソナル
コンピュータ(PC)やワークステーションやOCR、
又はこれらの組合せによって実施可能であることを容易
に理解できるであろう。ただし、これらの構成要素は例
示であり、その全ての構成要素が本発明の必須の構成要
素となるわけではない。特に、本発明は、オペレータの
帳票定義作業をサポートするものであるため、シリアル
ポート15、通信アダプタカード18、オーディオ・コ
ントローラ21、アンプ22、スピーカ23等の構成要
素は必須ではない。
【0027】オペレーティング・システムとしては、W
indows(マイクロソフトの商標)、OS/2(I
BMの商標)、AIX(IBMの商標)上のX−WIN
DOWシステム(MITの商標)などの、標準でGUI
マルチウインドウ環境をサポートするものが望ましい
が、特定のオペレーティング・システム環境に限定され
るものではない。
【0028】また、図1は、スタンド・アロン環境のシ
ステムを示しているが、クライアント/サーバ・システ
ムとして本発明を実現し、クライアント・マシンは、サ
ーバ・マシンに対して、イーサネット、トークン・リン
グなどでLAN接続し、クライアント・マシン側には、
後述するユーザ入力部と、処理結果表示部と、画像入力
部のみを配置し、その他の機能をサーバ・マシン側に配
置してもよい。このように、サーバ・マシン側とクライ
アント・マシン側にどのような機能を配置するかは設計
に際し自由に変更できる事項であり、複数のマシンを組
合せ、それらにどのような機能を配分し、実施するか等
の種々の変更は本発明の思想に包含される概念である。
【0029】B.用語説明 次に、本発明の説明を行う前に、説明に使用される用語
の説明を行う。本発明の好適な実施例において、「線
分」は、画像データから検出された縦線、横線の総称で
ある。「セル」は、図2に示すように、複数の縦線、横
線で区切られた閉領域であって、内部に別の線が検出さ
れなかったものである。
【0030】「セル列」は、会員番号入力欄等、連結さ
れることにより1つの意味を持った情報として取り扱わ
れる数字・文字・記号等が記載される1つのセルまたは
複数の連続したセルの集合をいう。
【0031】「セル群」は、同種のセルまたはセル列と
して扱われるべきセル列を検出するために抽出されるセ
ル列の集合をいう。なお、すでに含まれているセル列を
後から追加しても集合は変更されない。
【0032】N(G): セル群Gに含まれるセル列の個数 R(C): セル列Cの右端のX座標 L(C): セル列Cの左端のX座標 T(C): セル列Cの上端のY座標 B(C): セル列Cの下端のY座標 GL(x): R(C) = x となるようなセル列Cの集まり
からなるセル群 GR(x): L(C) = x となるようなセル列Cの集まり
からなるセル群
【0033】「X座標プール」は、画像データから検出
された: X座標の値を昇順(左から右)に並べた順序集
合。すでに含まれているX座標を後からこの「X座標プ
ール」に追加しても集合は変更しない。
【0034】「フィールド」は、ひとつの意味を持った
繰り返すセル列の集まり。最終的に「有効セル群チェー
ン」に属する各セル群として得られる。「氏名」「会員
番号」「住所」など。
【0035】B.システム構成 次に、図3のブロック図を参照して、本発明のシステム
構成について説明する。本発明の好適な実施例において
は、画像処理システム100は、画像入力部101、ユ
ーザ入力部102、処理結果表示部103、表示装置1
05、制御部107、画像データ保持部109、セル検
出部111、セルデータ・セル列データ保持部113、
セル列結合部115、セル端点検出部117、左右セル
群検出部119、フィールド検出部121、X座標プー
ル123、125、セル群127、及び、セル繰り返し
判定部129有効セル群チェーン(セル群)131〜
135を備えている。
【0036】この画像入力部101は、スキャナ等から
入力された帳票の画像情報を取得し、その画像情報を制
御部107に伝達する。これを受領した制御部107は
そのデータを画像保持部109に保存する。
【0037】ユーザ入力部102は、処理の開始・終了
の命令の入力や、ポインティングデバイスを使用した画
面上のセルの特定、属性情報の入力等のオペレーション
を制御部107へ伝達する。
【0038】表示部103は、画像データ保持部109
の保持する帳票の画像情報や、画像データから検出され
たフィールドを識別して表示する情報を表示装置105
に表示する。制御部107は、各処理要素の制御を行
う。
【0039】セル検出部111は、画像保持部109に
保存されている画像データを解析し、この画像データに
含まれる縦線と横線を検出する。検出された縦線のX-座
標をX-座標プール「A」123に保持する。また、この
検出された縦線と横線の情報からセルを検出する。セル
検出部が検出したセルデータは、セルデータ・セル列デ
ータ保持部113に保存される。
【0040】図4は、本発明の好適な実施例におけるセ
ルデータの概念図である。図に示すように、セルデータ
210は、セルID211、外接矩形の左上のX座標2
13、外接矩形の左上のY座標215、外接矩形の右下
のX座標217、外接矩形の右下のY座標219の情報
を管理している。本発明の好適な実施例におけるセルデ
ータ210は、セル始点のX座標値213及びY座標値
215の順に格納されている。
【0041】フィールド検出部121は、セル列結合部
115、セル端点検出部117、左右セル群検出部11
9、セル繰り返し判定部129等を制御し、画像データ
に含まれるフィールドを検出する。
【0042】セル列結合部115は、会員番号入力欄
等、連結されることにより1つの意味を持った情報とし
て取り扱われる情報が記載される複数のセル集合を1つ
のセル列として連結する。
【0043】図5は、本発明の好適な実施例におけるセ
ル列データの概念図である。図に示すように、セル列デ
ータ220は、セル列ID221、セル列を構成するセ
ルの個数223、セルのID225〜229の情報を管
理している。
【0044】セル繰り返し判定部129は、セルの繰り
返しの態様を判定し、フィールドに含めるべきでないと
判断したセル列を排除する。
【0045】セル端点検出部117は、セルデータ・セ
ル列データ保持部に格納されているセルデータにアクセ
スし、所定のセルデータの上端、下端等の検出を行う。
左右セル群検出部119は、所定のX座標値の左右にセ
ル列が存在するか否かを検出する。
【0046】図6は、本発明の好適な実施例におけるセ
ル群データの概念図である。図に示すように、セル群デ
ータ240は、セル群ID241、セル群を構成するセ
ル列の個数243、セル列のID245〜249の情報
を管理している。
【0047】図7は、本発明の好適な実施例におけるセ
ル群チェーンの概念図である。図に示すように、セル群
チェーン250は、セル群チェーンを構成するセル群の
数251、セル群のID253〜257の情報を管理し
ている。
【0048】X座標プール123、画像データから検
出された縦線分のX座標値を格納する。また、X座標プ
ール125は、X座標プール123に格納されているX
座標の値を画像データの解析のため一時的に保持する。
【0049】図8は、本発明の好適な実施例におけるX
座標プールの概念図である。図に示すように、X座標プ
ール260は、縦線の本数261、X座標の値263〜
267の情報を管理している。
【0050】以上図3に示す本発明の処理要素を説明し
たが、これらの処理要素は、論理的機能ブロックであ
り、各々1つのまとまりを持ったハードウエアやソフト
ウエアによって実現されることを意味するのではなく、
複合し、または共通したハードウエアやソフトウエアに
よって実現可能である。例えば、本発明の好適な実施例
の一態様であるセル列の連結を行わない場合には、セル
列結合部は不要である。かかる場合、セルの検出時に、
点線や細線を認識対象から除外し金額欄等を1つのセル
として認識することもできる。
【0051】C.動作手順 次に、本発明の好適な実施例における処理手順を説明す
る。
【0052】図9は、本発明の好適な実施例における処
理手順の概要を示すフローチャートである。まず、処理
はブロック301において開始される。そして、まずス
キャナから入力された画像を画像入力部101が取得
し、画像データ保持部109に保持する(ステップ30
3)。この画像データは、実際に各フィールドに記入さ
れた帳票が入力された場合、どのような位置に、どのよ
うなサイズで、どのような属性の文字や記号が入力さ
れ、どのような方法で認識を行うのかを決定するため
に、設計段階で入力されるものである。本発明の好適な
実施例においては、画像データ保持部109に保持され
た画像データは、制御部107を介して、表示部103
に送られる。表示部103は、表示装置105にこの画
像データを表示する。図11は、スキャナで入力された
帳票のイメージデータである。
【0053】画像データ保持部109に格納された画像
データは、セル検出部111が解析する(ステップ30
5)。本発明の好適な実施例においては、スキャナから
入力され、画像データ保持部109で保持されている画
像データは、2値のビットマップ形式であり、画素の値
が1であれば黒、0であれば白を示している。ただし、
本発明は2値の画像データのみを処理することに限定さ
れる技術ではなく、例えば、各画素が複数ビットによっ
て構成されるカラーデータのビットマップ・イメージに
も適用可能であり、かかる場合、画素の値が一定の範囲
の値を示す場合には、枠またはセル等を構成する画素と
認識し、その他の場合には枠等を構成しない「地」の部
分を構成する画素であると認識することも可能である。
【0054】本発明の好適な実施例においては、セル検
出部111は、水平方向および垂直方向に黒画素の数を
数えて、ピークとなっているY座標とX座標とをそれぞ
れ検出する。それぞれの座標に沿って所定数以上の黒画
素が連続している部分を線分とみなしている。これは、
塵や埃の他、帳票のスキューやスキャナの性能、濃度の
誤った設定、帳票に記載された文字等の影響によるノイ
ズを除去するためである。認識されたすべての縦線のX
座標のデータは、X座標プール「A」123に保存す
る。
【0055】その後、すべての縦線のX座標とすべての
横線のY座標とでマス目状のメッシュを作り、そのひと
つひとつの矩形に対して周りが線分またはその一部分で
囲まれていてかつ内部に他の線分またはその一部が存在
しない領域となっているかどうかを判定する。本発明の
好適な実施例においては、セルを構成する線分の連続性
を検査することによって、セルの内部に記載された文字
等によりセルが細分化されて検出されることを防止して
いる。なお、検出されたセルの内部に一定以上の黒画素
を検出した場合には、そのセルを見出し部分と判断し、
本発明のフィールド検出の対象外としてもよい。条件が
成り立つ領域が発見されれば、それをセルとして判定
し、そのセルの外接矩形の始点の座標値(左上の座標
値)213、215と終点の座標値(右下の座標値)2
17、219をセルデータ210としてセルデータ・セ
ル列データ保持部113に格納する。また、各セルデー
タにセルIDを順次割り振っていく。また、この時点で
1セル=1セル列となるように各セル列データ220が
定義され、セルデータ・セル列データ保持部113に保
持される。具体的には、セル列ID221とセル0のI
D225にセルID211の値がセットされ、個数N2
23は「1」がセットされる。
【0056】セルの検出が終了すると、次にフィールド
の検出及び有効セル群チェーンの作成の処理を行う(ス
テップ307)。図10は本発明の好適な実施例におけ
るフィールド検出及び有効セル群チェーン作成処理の処
理手順を示すフローチャートである。
【0057】図に示すように手順はステップ351より
開始する。そして、まずX座標プール「P」125の初
期値の設定が行われる(ステップ353)。具体的に
は、X座標プール「A」123のすべてのXに対して右
側にはセルがあるが、左にはセルがないものを探して
「P」の初期値として登録する。即ち、 P={∀x∈A|N(GR(x))≠0 ∧ N(GL(x))=0} となるXをX座標プール「A」123から抽出する。図
12の例では、X0とX1がX座標プール「P」125に
入る。
【0058】以後X座標プール「P」125には常に処
理しなくてはならないX座標値が追加され、X座標プー
ル「P」125が空になるまで処理を続ける(ステップ
355)。X座標プール「P」125が空でない場合に
は、X座標プール「P」125から一番左の(最小の)
X座標値が抽出される(ステップ361)。
【0059】そして、セルデータ・セル列データ保持部
113に格納されているセルデータを探索し、現在のX
の値が外接矩形の始点のX座標値213と一致するセル
データを探索する。そして、そのセルID211をセル
0のID225に保持しているセル列データ220を抽
出する(ステップ362)。図14〜23は、それぞれ
、X、X〜X14において(最終的に)抽出さ
れるセル列である。
【0060】次に、ステップ362で抽出されたセル列
に対し、セル列の結合処理を行う(ステップ363)。
このセル列結合処理では、セル列の形状が縦長の場合に
フィールド検出部121は、「セル列結合部」115を
呼び出してセル列データに入っているセルデータ(最初
の時点ではセル列と一致している)が水平方向に連続し
ているか判定し、連続していれば、それらをまとめてひ
とつのセル列とする。
【0061】具体的には、セル列結合部115は、現在
のセル列に対して以下の条件が成立している場合に処理
対象とする。 (1)1セル列 = 1セルである。すなわち、セル列
データ220のセル数223の値が「1」となってい
る。 (2)現在のセルは縦長である。すなわち、セル列デー
タ220のセル0(225)のセルデータにアクセス
し、(終点のY座標 − 始点のY座標)/(終点のX
座標 − 始点のX座標)値が1以上となっている。 (3)現在のセル(列)の右に幅と高さの等しいセルで1
セル列 = 1セルのものがある。すなわち、セル0
(225)のセルデータにアクセスし、始点のY座標2
15、終点のX座標217を用いて、この値と同じ始点
の座標値を有するセルを取得し、(終点のY座標 −
始点のY座標)、(終点のX座標 − 始点のX座標)
の値を検査する。また、このセルIDを有するセル0
(225)に持つセル列データ220を検索し、そのセ
ル数223が1であるか否かを検査する。
【0062】なお、この「セル列結合部」の処理で、幅
や高さが「等しい」、X座標が「一致する」と言った場
合には、一定の許容範囲を持って一致しているものとす
る。
【0063】かかるセル列が発見された場合には、図1
2に示すように、次のような処理が行われる。 (1)現在のセルの上のセルを探す。そのセルの左端と
右端が現在のセルと同じX座標ならばさらにその上のセ
ルをチェックする。これは、金額欄が横方向に連続して
いる場合に、見出し欄を基にセル列を分割するために行
う。 (2)上にセルが見つからなければステップ(5)に行
き処理を続行する。 (3)それ以外で、上のセルの右端のX座標が現在のセ
ルのそれと一致していたら処理を終了する。 (4)上のセルがそれ以外であれば、ステップ(5)に
行き処理を続行する。 (5)現在のセルの右のセルを現在のセル列に追加し、
そのセルが属していたセル列は破棄する(セル列データ
保持部から除去する)。セル数223は1増加させる。 (6)ひとつ右のセルを現在のセルとする。 (7)現在のセルの右のセルをチェックし、それが存在
し1セル列 = 1セルのものでかつ現在のセルと幅と
高さの等しいセルである場合ステップ(1)に戻って処
理を続行する。 (8)右にセルが無いか条件に合わない場合には処理を
終了する。
【0064】このようにして細かい桁に別れている金額
欄のような複数のセルをひとつのセル列としてまとめ
る。これにより、セル列は、図13に示す状態となる。
なお、金額欄等が複数の点線または細線で区切られてい
る場合には、セル検出部111で、点線と細線をセル検
出の対象外とし、本発明の好適な実施例において説明し
たセル列の結合処理は不要となる。
【0065】セル列結合処理の終了後、抽出された各セ
ル列データを検査し、セル列の右端が同一の値を有する
セル群に分類する(ステップ365)。具体的には抽出
されたセル列のセル数223を検査し、一番右にあるセ
ルデータのIDを探索し、そのセルIDのセルデータ2
10の終点のX座標217を取得し、分類する。 GR(x) = {C0, C1, ..., Cc} とする。C0, C1,
..., Ccはセル列。各Ci (i=0, 1, ...c)について
セル列の右端のX座標をRiとする。即ち、 Ri = R(Ci) Riがある許容範囲で一致しているセル列をグループにす
る。
【0066】そして、分類されたセル列群を図6に示す
ようなセル群データとして保存する。セル群IDは、N
(G) N(G) ... N(G)となるように順次番
号を割り振っていく。ここでは、抽出されたセル群をG
, G, ..., Gとする。セル列数243には、各
セル群に含まれるセル列の個数を格納する。
【0067】次に、ステップ365で抽出されたセル群
データの数が2を越えているか否かを検査する(ステッ
プ367)。これは、本発明の好適な実施例において、
各レコード(段)が2行を越える連記式帳票は処理しな
いからである。
【0068】ステップ365で抽出されたセル群データ
の数が2を越えている場合は、セル群の個数gが2以下
になるように上端または下端のセル列をカットする(ス
テップ369)。
【0069】図2は、このアルゴリズムを説明するた
めの図である。図において、現在のXの右側に接するセ
ル列がすべて抽出されている。このセル列は、ステップ
365で説明したように、セル列の幅のみによりタイプ
分けされ、Type1からType4に分類されてい
る。
【0070】本発明の好適な実施例においてはまず、そ
れぞれのセル列に上から数えた順番(1が基数)と下か
ら数えた順番を調べる。すべての同じ長さのセル列につ
いて上からの順番とその次の同じ長さのセル列の下から
の順位を加える。この数がその長さのセル列をカットし
ようとしたときにカットされるセル列の個数である。こ
のため、すべての同じ長さのセル列のうちでカットされ
るセル列の数が最小な数字のセル列について同じ幅のセ
ル列をすべてカットする。この時上端のセル列としてカ
ットされたセル列のうち、最も低い位置にあるセル列を
カットセル列管理用のセル群GXCUT1に登録し、こ
の時下端のセル列としてカットされたセル列のうち、最
も高い位置にあるセル列をカットセル列管理用のセル群
CUT に登録する。
【0071】この一方、ステップ367において、g=0
と判断された場合、このX座標は処理する必要がないと
判断し(これは最右端の縦線の処理にあたる)処理済み
のX座標XをX座標プール「P」215から削除する
(ステップ397)。
【0072】この一方、ステップ371において、g=2
と判断された場合、0.4 ≦ N(G0)/(N(G0)+ N(G1)) ≦
0.6が成立するか否かを検査する(ステップ373)。
これは、タイトルや脚注、挿入された注意書等を排除す
るためである。
【0073】0.4 ≦ N(G0)/(N(G0)+ N(G1)) ≦ 0.6が
成立しない場合には、G1をカットする(ステップ37
5)。なお、帳票の中間に認識に関連のない見出し等が
出現しない帳票においては、G1に含まれていたセル列を
すべてセル群GCUT1(上端のセル列としてカットされた場
合)またはGCUT2(下端のセル列としてカットされた場合)
に登録し、認識に不要な見出しをフィールドから除外す
る。
【0074】0.4 ≦ N(G0)/(N(G0)+ N(G1)) ≦ 0.6が
成立する場合には、セル群G0およびG 1を有効セル群チェ
ーンに追加する(ステップ391)。具体的には図7の
セル群チェーン250のチェーン数を1インクリメント
し、セル群のIDを追加する。
【0075】また、すべてのCi∈G0に対してX座標R(C
i)をX座標プール「P」125に追加して処理対象と
し、、同様に、すべてのCj∈G1に対してX座標R(Cj)を
X座標プール「P」125に追加して処理対象とする
(ステップ393)。
【0076】セル群GおよびGに対して「セル繰り返
し判定部」129を呼び出し、高さの繰り返していない
セル列を除去する(ステップ395)。具体的には、ま
ず、 (1)各セル群について、そのセル群に含まれるセル列
の高さを上から順に、h0, h1, h2, ... h15とする。 (2)h0 : h1, h1 : h2 .... h14 : h15 の比率を計
算し、それぞれr0, r1,... r14とする。 (3)それらのうちで1.00±0.1の範囲のものが最大何
個連続しているか見る。例えばr2からr13であれば連続1
2個となる。 (4)h0 : h2, h1 : h3, .... h13 : h15 の比率を計
算し、それぞれq0, q1, ... q13とする。 (5)それらのうちで1.00±0.1の範囲のものが最大何
個連続しているか見る。例えばq5からq12であれば連続8
個となる。 (6)(3)の数字と(5)の数字の大きい方をとる。
等しい場合は(3)の数字。 (7)(3)が選択された場合、上記例ではh2からh14
が等間隔で繰り返していると判定する。 (8)(5)が選択された場合、上記例ではh5からh14
が等間隔で繰り返していると判定する。
【0077】そして、繰り返していないセル列は、除去
する。ステップ395が終了すると、処理済みのX座標
XをX座標プール「P」215から削除し(ステップ3
97)、次のXについての処理が開始する。
【0078】ステップ371においてg=1と判断された
場合や、0.4 ≦ N(G0)/(N(G0)+ N(G1)) ≦ 0.6が成立
せず、G1がカットされた場合には、セル群G0を有効セル
群チェーンに追加する(ステップ377)。
【0079】また、すべてのCi∈G0に対してX座標R(C
i)をX座標プール「P」215に追加して処理対象とす
る(ステップ379)。そして、ステップ395におい
て説明したように、セル群G0に対して「セル繰り返し判
定部」129を呼び出し繰り返していないセル列を除去
する(ステップ381)。
【0080】そして、繰り返していないセル列は、除去
する。ステップ395が終了すると、処理済みのX座標
XをX座標プール「P」215から削除し(ステップ3
97)、次のXについての処理が開始する。
【0081】X座標プール「P」215に入れられたX
座標値が全て処理された場合には、他のセル群のカット
情報による高さ揃えの処理を行う(ステップ357)。
具体的には、GCUT1のセル列Ciに対してB(Ci)の最大値
(最も下)をY1とし、GCUT2のセル列Djに対してT(Dj)の
最小値(最も上)をY2とする。そして、有効セル群チェ
ーンに属する各セル群について、Y1以下、またはY2以上
の範囲に含まれるセル列を除外する。
【0082】かかるフィールドの検出/有効セル群チェ
ーンの作成処理(ステップ307、図9)が完了する
と、図25に示すような複数のフィールドが識別表示さ
れる(ステップ309)。具体的には、セル群チェーン
250に含まれる複数のセル群の各々に模様や色等が割
り振られ、セル群データのID241、セル列のID2
21から各セル群に属するセルデータを探索する。そし
て、セルデータの始点、終点の情報とセル列データの情
報から、各セル群に含まれるセル列を、各セル群に割り
当てられた模様や色の矩形を被せて表示する。
【0083】オペレータは、この認識されたフィールド
に対し、マニュアルで修正を加えることもできる。認識
されたフィールドの修正方法としては、左上と右下でク
リック&ドラッグする手法マウスのクリック等で修正
対象となるフィールドを選択しておいて、キーボードや
メニューから「領域下方拡大」「領域下方縮小」「領域
上方拡大」「領域上方縮小」といったコマンドを実行す
ることにより、一つ下のセルも含めた範囲までを領域に
する手法マウスのクリック等で修正対象となるフィー
ルドを選択しておいて、Ctrlキーを押しながらマウスで
フィールドに追加したセルをクリックする手法および
これらの組み合わせが考えられる。
【0084】また、本発明の好適な実施例の一態様にお
いては、フィールドとして認識され、表示されているセ
ル群のうちの任意の箇所でマウスの右ボタンをクリック
すると、選択されたセル群全体が強調表示されるととも
に、プルダウンメニューが表示される(図示せず)。こ
れは、マウスの右ボタンが押された箇所を包含するデ
タを検出し、そのセルが含まれるセル列及びセル群を探
索し、そのセル群に含まれるセルデータを識別表示する
ことにより実施可能である。
【0085】そして、オペレータが、プルダウンメニュ
ーから、セル群の分割を選択すると、そのセル群は破棄
され、そのセル群に含まれるセル列が単独のセル列とな
る。
【0086】なお、この態様においては、右ボタンがク
リックされた位置が、複数のセルを含むセル列の一部で
ある場合には、セル列に対する操作かセル群に対する操
作かをオペレータに確認させる表示が表示画面に出力さ
れる。そして、オペレータが、セル列の操作であり、セ
ル列の分割を指定すると、そのセル列は破棄され、その
セル列に含まれるセルは、単独のセル列として登録さ
れ、そのセル列を含むセル群に登録される(そのセル列
を含むセル群が無い場合には、単独のセル列となる)。
【0087】その後、本発明の好適な実施例において
は、図26に示したような、その特定されたフィールド
に関連付けられる属性入力ウインドウ930を用いて属
性を入力することができる。この操作によって、複数の
セル列に対し一括して属性情報を関連付けることができ
る。なお、図26に示す属性入力ウインドウ930の各
入力エントリ951乃至989にはデフォルトの値がセ
ットされている。
【0088】ここで、ウインドウ930に示す各属性を
説明すると、フォントの属性951〜955があり、手
書き、スタンプ、プリントの3種類を指定することがで
きる。この属性により、文字認識の方法を変更し認識率
を向上させることができる。
【0089】文字種類961〜973は、そのフィール
ドに入力される可能性のある文字を示すものである。認
識レベル981〜985は、誤って認識された可能性の
高い文字をとりあえず結果として扱うか、エラーとして
排除するかを選択することができる。また、出力コード
は、認識結果の出力時にDBCSで出力するか、SBC
Sで出力するかを選択するためのエントリである。
【0090】ただし、ここに表示した属性情報は、単な
る例示であり、例えば、知識処理の必要の有無等も含む
ことが可能であり、かかる場合、住所のフィールド中、
数字と数字に挟まれた「−」は、長音(ー)や漢字の1
(一)ではなく、ハイフン(−)であるとすることがで
きる。このような特定のフィールドに関連付けられる種
々の情報は、本願特許請求の範囲に記載した「属性情
報」の範疇に包含されるものである。これらの属性情報
が入力、又は変更され、OKボタンがクリックされる
と、属性情報レコードが作成され、システムに保存され
る。
【0091】
【発明の効果】以上説明したように、本発明によれば、
オペレータの行う帳票定義作業を可能な限り軽減させる
とともに、帳票定義ミスをも防止することのできるシス
テムを提供することができる。
【0092】
【図面の簡単な説明】
【図1】 ハードウェア構成を示すブロック図である。
【図2】 本願明細書の発明の詳細な説明において使用
される用語を説明するための図である。
【図3】 処理要素のブロック図である。
【図4】 本発明の好適な実施例において一時的に保持
されるセルデータの概念図である。
【図5】 本発明の好適な実施例において一時的に保持
されるセル列データの概念図である。
【図6】 本発明の好適な実施例において一時的に保持
されるセル群データの概念図である。
【図7】 本発明の好適な実施例において一時的に保持
されるセル群チェーンデータの概念図である。
【図8】 本発明の好適な実施例において一時的に保持
されるX座標プールの概念図である。
【図9】 本発明の好適な実施例における処理手順の概
略を示すフローチャートである。
【図10】 本発明の好適な実施例における有効セル群
チェーンを作成する処理手順の概略を示すフローチャー
トである。
【図11】 本発明の好適な実施例で使用されるスキャ
ナより入力された帳票のイメージ(画像データ)を示し
た図である。
【図12】 本発明の好適な実施例で使用される画像デ
ータの解析の過程を説明するための概念図である。
【図13】 本発明の好適な実施例で使用される画像デ
ータの解析の過程を説明するための概念図である。
【図14】 本発明の好適な実施例で使用される画像デ
ータの解析の過程を説明するための概念図である。
【図15】 本発明の好適な実施例で使用される画像デ
ータの解析の過程を説明するための概念図である。
【図16】 本発明の好適な実施例で使用される画像デ
ータの解析の過程を説明するための概念図である。
【図17】 本発明の好適な実施例で使用される画像デ
ータの解析の過程を説明するための概念図である。
【図18】 本発明の好適な実施例で使用される画像デ
ータの解析の過程を説明するための概念図である。
【図19】 本発明の好適な実施例で使用される画像デ
ータの解析の過程を説明するための概念図である。
【図20】 本発明の好適な実施例で使用される画像デ
ータの解析の過程を説明するための概念図である。
【図21】 本発明の好適な実施例で使用される画像デ
ータの解析の過程を説明するための概念図である。
【図22】 本発明の好適な実施例で使用される画像デ
ータの解析の過程を説明するための概念図である。
【図23】 本発明の好適な実施例で使用される画像デ
ータの解析の過程を説明するための概念図である。
【図24】 本発明の好適な実施例で使用される画像デ
ータの解析の過程を説明するための概念図である。
【図25】 本発明の好適な実施例で検出されたフィー
ルドが表示画面上で識別表示されている様子を示す図で
ある。
【図26】 従来の帳票定義処理を説明するための図で
ある。
【符号の説明】
100 画像処理システム 101 画像入力部 102 ユーザ入力部 103 処理結果表示部 105 表示装置 107 制御部 109 画像データ保持部 111 セル検出部 113 セルデータ・セル列データ保持部 115 セル列結合部 117 セル端点検出部 119 左右セル群検出部 121 フィールド検出部 123、125 X座標プール 127 セル群 129 セル繰り返し判定部 131、133、135 有効セル群チェーン(セル
群) 210 セルデータ 220 セル列データ 240 セル群データ 250 セル群チェーン 260 X座標プール
───────────────────────────────────────────────────── フロントページの続き (72)発明者 藤 野 慶 統 神奈川県大和市下鶴間1623番地14 日本 アイ・ビー・エム株式会社 大和事業所 内 (56)参考文献 特開 平10−134142(JP,A) 国際公開97/5561(WO,A2) 浅野三恵子 他,セル構造を用いた帳 票識別,電子情報通信学会技術研究報 告,日本,電子情報通信学会,1995年 7月20日,Vol.95 No.164 P RU95−61,p.67−72 (58)調査した分野(Int.Cl.7,DB名) G06K 9/20 340 G06T 7/60 200 JICSTファイル(JOIS)

Claims (9)

    (57)【特許請求の範囲】
  1. 【請求項1】画像データ解析装置に入力された画像デー
    タを解析する方法であって、 (a)前記画像データを走査することによって、始点座
    標値(x、y)と、高さの情報とを含む複数のセルデー
    タを抽出する段階と、 (b)前記複数のセルデータから高さと幅が等しく水平
    方向に連続した複数のセル列を抽出し、前記複数のセル
    列から同一のx座標値を有するセル列をセル群として
    出する段階と、 (c)前記抽出されたセル群に含まれるセルの高さの
    情報を検査する段階と、 (d)前記抽出されたセル群に含まれるセルの中で他
    のセル列と高さの繰り返していないセルを前記抽出さ
    れたセル群から除外する段階と、 を含む解析方法。
  2. 【請求項2】画像データ解析装置に入力された画像デー
    タを解析する方法であって、 (a)前記画像データを走査することによって、始点座
    標値(x、y)と終点座標値(x、y)とを含む複数の
    セルデータを抽出する段階と、 (b)前記複数のセルデータから同一のx座標値を始点
    として有する複数のセル列のセルデータを抽出する段階
    と、 (c)前記抽出されたセルデータに含まれる、前記複数
    セル終点のx座標値を解析し、前記複数のセル列
    をそれぞれの終点のx座標値に応じて複数のセル群に分
    類するとともに、前記複数のセル群の個数が2以下とな
    るように上端又は下端のセル列を除外して有効なセル群
    を抽出する段階と、 (d)前記有効なセル群に含まれるセルの高さの情報
    を検査する段階と、 (e)前記有効なセル群に含まれるセルの中で他のセ
    列と高さの繰り返していないセルを前記有効なセル
    群から除外する段階と、 を含む解析方法。
  3. 【請求項3】画像データ解析装置に入力された画像デー
    タを解析する方法であって、 (a)前記画像データを走査することによって、始点座
    標値(x、y)と、終点 座標値(x、y)とを含む複数
    のセルデータを抽出する段階と、 (b)前記複数のセルデータから同一のx座標値を始点
    として有する複数のセル列のうちセル列結合処理の対象
    とすべき現在のセル列のセルデータを抽出する段階と、 (c)前記現在のセル列の終点座標値を始点座標値とし
    て有する隣接セル列が存在するか否かを検査する段階
    と、(d)前記現在のセル列の上側に先行セル列が存在し、
    当該先行セル列の終点のx座標値が前記現在のセル列の
    終点のx座標値と一致しているか否かを検査する段階
    と、)前記隣接セル列が存在し且つ前記先行セル列が存
    在しないか又は前記先行セル列の終点のx座標値が前記
    現在のセル列の終点のx座標値と一致しなければ、前記
    隣接セル列を前記現在のセル列に結合して1つのセル列
    する段階と、を含む解析方法。
  4. 【請求項4】入力装置及び表示装置を備える画像データ
    解析装置に入力された画像データを解析する方法であっ
    て、 (a)前記画像データを走査することによって、始点座
    標値(x、y)と、高さの情報とを含む複数のセルデー
    タを抽出する段階と、 (b)前記複数のセルデータから高さと幅が等しく水平
    方向に連続した複数のセル列を抽出し、前記複数のセル
    列から同一のx座標値を有するセル列をセル群として
    出する段階と、 (c)前記抽出されたセル群に含まれるセルの高さの
    情報を検査する段階と、 (d)前記抽出されたセル群に含まれるセルの中で他
    のセル列と高さの繰り返していないセルを前記抽出さ
    れたセル群から除外することにより新たなセル群を作成
    する段階と、 (e)前記新たなセル群を前記表示装置に表示する段階
    と、 (f)前記新たなセル群に含まれるセルが前記入力装
    置を用いてオペレータによって選択されたことを検出す
    る段階と、 (g)前記オペレータによて入力された属性情報を前
    記新たなセル群に含まれる少なくとも一部のセル列に関
    連付けて保存する段階と、 を含む解析方法。
  5. 【請求項5】画像データ保持部に保持された画像データ
    を解析する画像データ解析装置であって、 (a)前記画像データを走査することによって、始点座
    標値(x、y)と、高さの情報とを含む複数のセルデー
    タを抽出するセル検出部と、 (b)前記複数のセルデータから高さと幅が等しく水平
    方向に連続した複数のセル列を抽出し、前記複数のセル
    列から同一のx座標値を有するセル列をセル群として
    出するフィールド検出部と、 (c)前記抽出されたセル群に含まれるセルの高さの
    情報を検査し、前記抽出されたセル群に含まれるセル列
    の中で他のセル列と高さの繰り返していないセルを前
    記抽出されたセル群から除外するセル繰り返し判定部
    と、 を含む画像データ解析装置。
  6. 【請求項6】画像データ解析装置に入力された画像デー
    タを解析するためのソフトウエアプロダクトを格納した
    記録媒体であって、 該ソフトウエアプロダクトは、 (a)前記画像データを走査することによって、始点座
    標値(x、y)と、高さの情報とを含む複数のセルデー
    タを抽出することを前記画像データ解析装置に指示する
    ためのプログラムコードと、 (b)前記複数のセルデータから高さと幅が等しく水平
    方向に連続した複数のセル列を抽出し、前記複数のセル
    列から同一のx座標値を有するセル列をセル群として
    出することを前記画像データ解析装置に指示するための
    プログラムコードと、 (c)前記抽出されたセル群に含まれるセルの高さの
    情報を検査することを前記画像データ解析装置に指示す
    るためのプログラムコードと、 (d)前記抽出されたセル群に含まれるセルの中で他
    のセル列と高さの繰り返していないセルを前記抽出さ
    れたセル群から除外することを前記画像データ解析装置
    に指示するためのプログラムコードと、 を含む記憶媒体。
  7. 【請求項7】画像データ解析装置に入力された画像デー
    タを解析するためのソフトウエアプロダクトを格納した
    記録媒体であって、 該ソフトウエアプロダクトは、 (a)前記画像データを走査することによって、始点座
    標値(x、y)と終点座標値(x、y)とを含む複数の
    セルデータを抽出することを前記画像データ解析装置に
    指示するためのプログラムコードと、 (b)前記複数のセルデータから同一のx座標値を始点
    として有する複数のセル列のセルデータを抽出すること
    を前記画像データ解析装置に指示するためのプログラム
    コードと、 (c)前記抽出されたセルデータに含まれる、前記複数
    セル終点のx座標値を解析し、前記複数のセル列
    をそれぞれの終点のx座標値に応じて複数のセル群に分
    類するとともに、前記複数のセル群の個数が2以下とな
    るように上端又は下端のセル列を除外して有効なセル群
    を抽出することを前記画像データ解析装置に指示するた
    めのプログラムコードと、 (d)前記有効なセル群に含まれるセルの高さの情報
    を検査することを前記画像データ解析装置に指示するた
    めのプログラムコードと、 (e)前記有効なセル群に含まれるセルの中で他のセ
    列と高さの繰り返していないセルを前記有効なセル
    群から除外することを前記画像データ解析装置に指示す
    るためのプログラムコードと、 を含む記憶媒体。
  8. 【請求項8】画像データ解析装置に入力された画像デー
    タを解析するためのソフトウエアプロダクトを格納した
    記録媒体であって、 該ソフトウエアプロダクトは、 (a)前記画像データを走査することによって、始点座
    標値(x、y)と、終点座標値(x、y)とを含む複数
    のセルデータを抽出することを前記画像データ解析装置
    に指示するためのプログラムコードと、 (b)前記複数のセルデータから同一のx座標値を始点
    として有する複数のセル列のうちセル列結合処理の対象
    とすべき現在のセル列のセルデータを抽出することを前
    記画像データ解析装置に指示するためのプログラムコー
    ドと、 (c)前記現在のセル列の終点座標値を始点座標値とし
    て有する隣接セル列が存在するか否かを検査することを
    前記画像データ解析装置に指示するためのプログラムコ
    ードと、(d)前記現在のセル列の上側に先行セル列が存在し、
    当該先行セル列の終点のx座標値が前記現在のセル列の
    終点のx座標値と一致しているか否かを検査することを
    前記画像データ解析装置に指示するためのプログラムコ
    ードと、)前記隣接セル列が存在し且つ前記先行セル列が存
    在しないか又は前記先行セル列の終点のx座標値が前記
    現在のセル列の終点のx座標値と一致しなければ、前記
    隣接セル列を前記現在のセル列に結合して1つのセル列
    することを前記画像データ解析装置に指示するための
    プログラムコードと、 を含む記憶媒体。
  9. 【請求項9】入力装置及び表示装置を備える画像データ
    解析装置に入力された画像データを解析するためのソフ
    トウエアプロダクトを格納した記録媒体であって、 該ソフトウエアプロダクトは、 (a)前記画像データを走査することによって、始点座
    標値(x、y)と、高さの情報とを含む複数のセルデー
    タを抽出することを前記画像データ解析装置に指示する
    ためのプログラムコードと、 (b)前記複数のセルデータから高さと幅が等しく水平
    方向に連続した複数のセル列を抽出し、前記複数のセル
    列から同一のx座標値を有するセル列をセル群として
    出することを前記画像データ解析装置に指示するための
    プログラムコードと、 (c)前記抽出されたセル群に含まれるセルの高さの
    情報を検査することを前記画像データ解析装置に指示す
    るためのプログラムコードと、 (d)前記抽出されたセル群に含まれるセルの中で他
    のセル列と高さの繰り返 していないセルを前記抽出さ
    れたセル群から除外することにより新たなセル群を作成
    することを前記画像データ解析装置に指示するためのプ
    ログラムコードと、 (e)前記新たなセル群を前記表示装置に表示すること
    を前記画像データ解析装置に指示するためのプログラム
    コードと、 (f)前記新たなセル群に含まれるセルが前記入力装
    置を用いてオペレータによって選択されたことを検出す
    ることを前記画像データ解析装置に指示するためのプロ
    グラムコードと、 (g)前記オペレータによて入力された属性情報を前
    記新たなセル群に含まれる少なくとも一部のセル列に関
    連付けて保存することを前記画像データ解析装置に指示
    するためのプログラムコードと、 を含む記憶媒体。
JP00117999A 1999-01-06 1999-01-06 画像データの解析方法及び解析装置、及び画像データの解析を行うためのプログラム・プロダクトを格納した記録媒体 Expired - Fee Related JP3258287B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP00117999A JP3258287B2 (ja) 1999-01-06 1999-01-06 画像データの解析方法及び解析装置、及び画像データの解析を行うためのプログラム・プロダクトを格納した記録媒体
US09/478,180 US6681046B1 (en) 1999-01-06 2000-01-05 Method and apparatus for analyzing image data, storage medium for storing software product for analyzing image data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP00117999A JP3258287B2 (ja) 1999-01-06 1999-01-06 画像データの解析方法及び解析装置、及び画像データの解析を行うためのプログラム・プロダクトを格納した記録媒体

Publications (2)

Publication Number Publication Date
JP2000207484A JP2000207484A (ja) 2000-07-28
JP3258287B2 true JP3258287B2 (ja) 2002-02-18

Family

ID=11494232

Family Applications (1)

Application Number Title Priority Date Filing Date
JP00117999A Expired - Fee Related JP3258287B2 (ja) 1999-01-06 1999-01-06 画像データの解析方法及び解析装置、及び画像データの解析を行うためのプログラム・プロダクトを格納した記録媒体

Country Status (2)

Country Link
US (1) US6681046B1 (ja)
JP (1) JP3258287B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050210019A1 (en) * 2002-11-20 2005-09-22 Fujitsu Limited Method and apparatus for retrieving image from database, and computer product
KR20100034411A (ko) * 2008-09-24 2010-04-01 삼성전자주식회사 파일 속성정보 입력 방법 및 장치
CN102194123B (zh) * 2010-03-11 2015-06-03 株式会社理光 表格模板定义方法和装置
JP2012190434A (ja) * 2011-02-24 2012-10-04 Ricoh Co Ltd 帳票定義装置、帳票定義方法、プログラム及び記録媒体
US9123120B2 (en) * 2012-08-24 2015-09-01 DR Vision Technologies LLC Progressive decision for cellular process selection
JP6856321B2 (ja) * 2016-03-29 2021-04-07 株式会社東芝 画像処理システム、画像処理装置、および画像処理プログラム
JP7275617B2 (ja) * 2019-02-06 2023-05-18 日本電信電話株式会社 情報処理装置、判別方法および判別プログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5379372A (en) * 1990-09-13 1995-01-03 Wu; William C. Apparatus and method for designing a form structure using column and row rules
JPH05250357A (ja) * 1992-03-05 1993-09-28 Ricoh Co Ltd 画像読取修正装置および修正画像形成装置
JP2789971B2 (ja) * 1992-10-27 1998-08-27 富士ゼロックス株式会社 表認識装置
JPH0887495A (ja) * 1994-09-16 1996-04-02 Ibm Japan Ltd 表データのカット・アンド・ペースト方法及びデータ処理システム
JP2975863B2 (ja) * 1995-02-24 1999-11-10 三洋電機株式会社 文書作成装置
JP3970357B2 (ja) * 1996-08-13 2007-09-05 富士ゼロックス株式会社 表割付装置及び表割付方法
US6327387B1 (en) * 1996-12-27 2001-12-04 Fujitsu Limited Apparatus and method for extracting management information from image

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
浅野三恵子 他,セル構造を用いた帳票識別,電子情報通信学会技術研究報告,日本,電子情報通信学会,1995年 7月20日,Vol.95 No.164 PRU95−61,p.67−72

Also Published As

Publication number Publication date
JP2000207484A (ja) 2000-07-28
US6681046B1 (en) 2004-01-20

Similar Documents

Publication Publication Date Title
JP3113827B2 (ja) 矩形オブジェクトの認識方法及び認識装置
CN108470021B (zh) Pdf文档中表格的定位方法及装置
JP3359095B2 (ja) 画像処理方法及び装置
US6226407B1 (en) Method and apparatus for analyzing computer screens
US7305129B2 (en) Methods and apparatus for populating electronic forms from scanned documents
JP4347677B2 (ja) 帳票ocrプログラム、方法及び装置
JP2020511726A (ja) 電子文書からのデータ抽出
US6614929B1 (en) Apparatus and method of detecting character writing area in document, and document format generating apparatus
JP2011192274A (ja) フォームテンプレートを定義する方法及び装置
JPH11143986A (ja) ビットマップイメージの処理方法及び処理装置、ビットマップイメージの処理を行うイメージ処理プログラムを格納した記憶媒体
US8953910B2 (en) Proof reading of text data generated through optical character recognition
US11348331B2 (en) Information processing apparatus and non-transitory computer readable medium
JP3258287B2 (ja) 画像データの解析方法及び解析装置、及び画像データの解析を行うためのプログラム・プロダクトを格納した記録媒体
WO2007070010A1 (en) Improvements in electronic document analysis
JP6302317B2 (ja) 帳票フォーマット情報登録方法及びシステム並びにプログラム
CN100456317C (zh) 行方向判定方法以及装置
CN112084103A (zh) 界面测试方法、装置、设备和介质
CN115357490A (zh) 一种针对移动应用的界面缩放缺陷检测方法及电子装置
CN114937279A (zh) 基于rpa和ai实现ia的bom识别方法及装置
JP6896260B1 (ja) レイアウト解析装置、その解析プログラムおよびその解析方法
JP6007720B2 (ja) 情報処理装置及び情報処理プログラム
JP4347675B2 (ja) 帳票ocrプログラム、方法及び装置
CN114116474A (zh) 一种软件校验方法、装置、电子设备及存储介质
CN109409370B (zh) 一种远程桌面字符识别方法和装置
JP2000331122A (ja) 文字認識方法および装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees