JPH11232383A - 表処理方法および表処理装置 - Google Patents

表処理方法および表処理装置

Info

Publication number
JPH11232383A
JPH11232383A JP10033260A JP3326098A JPH11232383A JP H11232383 A JPH11232383 A JP H11232383A JP 10033260 A JP10033260 A JP 10033260A JP 3326098 A JP3326098 A JP 3326098A JP H11232383 A JPH11232383 A JP H11232383A
Authority
JP
Japan
Prior art keywords
frame
item
specific
unit
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP10033260A
Other languages
English (en)
Inventor
Yoshinori Ookuma
好憲 大熊
Koji Ito
晃治 伊東
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP10033260A priority Critical patent/JPH11232383A/ja
Publication of JPH11232383A publication Critical patent/JPH11232383A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】 【課題】 表処理に要する時間の短縮を図る。 【解決手段】 タイトルと表様式とを対応づけて表様式
情報として格納し、表様式毎に項目とデータ枠とを対応
づけて枠配置情報として格納しておく表様式・枠配置格
納部12と、イメージ画像から表領域および各矩形枠の
位置を抽出する表領域・枠位置抽出部16と、非表領域
からタイトル文字列領域を抽出するタイトル文字列領域
抽出部18と、表様式情報の中から抽出タイトルに対応
する表様式を選択し、特定項目に対応するデータ枠の配
置を枠配置情報の中から特定枠配置として選択する表様
式・枠配置選択部20と、特定枠配置に該当する位置の
矩形枠を特定矩形枠として選択し、当該特定矩形枠内か
ら特定データ文字列領域を抽出する表処理部22とを具
える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、画像処理によ
り、イメージ画像中の表領域の文字認識を行う表処理装
置および方法に関する。
【0002】
【従来の技術】従来の表処理装置の一例が、文献:「特
開平3−74728号公報」に開示されている。この文
献に開示の技術によれば、先ず、イメージ画像の表領域
の内外にある全ての文字パタンについて文字認識を行
う。次に、表領域の外にあるタイトル文字を上位キーワ
ードとし、かつ、表領域中にある文字を下位キーワード
とする。そして、上位および下位キーワードに基づい
て、表中の必要とするデータを階層的に抽出する。
【0003】
【発明が解決しようとする課題】しかしながら、上記の
従来例においては、表領域中の特定の項目のデータのみ
を抽出する表処理を行う場合も、表領域中の全ての文字
パタンを切り出して、全ての文字パタンについて文字認
識を行っていた。すなわち、従来は、表領域中の必要と
しない情報についても文字認識を行っていた。その結
果、従来例の方法では、表処理にあたり、必要とするデ
ータの多少に関わらず、表領域中の全ての文字パタンの
文字認識を行う場合と同じ時間がかかるという問題点が
あった。
【0004】このため、表処理に要する時間の短縮が図
れる表処理方法および装置の出現が望まれていた。
【0005】
【課題を解決するための手段】この出願にかかる発明者
は、種々の検討および研究を重ねた結果、表様式によっ
て、特定の項目のデータ(特定データ)が記載された欄
(矩形枠)が、表領域中の特定の位置に配置されている
傾向があることに着目した。そして、この発明者は、こ
の表様式を利用すれば、表領域の全てについて文字認識
を行わなくとも、表領域の一部分について選択的に文字
認識を行えば、表領域中の必要とするデータを従来より
も短い時間で抽出できると考えた。
【0006】さらに、この発明者は、表様式を判定する
ために、表のタイトルを利用することに想到した。そし
て、このタイトルと表様式とを対応づけて登録しておけ
ば、タイトルのみを文字認識することにより、表様式を
判定できることに想到した。
【0007】(第1の表処理方法)そこで、この発明の
第1の表処理方法によれば、表の特定項目に対応するデ
ータ(以下、「特定データ」とも称する。)を当該表の
イメージ画像から抽出するにあたり、先ず、表様式・枠
配置格納部に、表のタイトルと表様式とを対応づけて表
様式情報として予め格納しておく。さらに、この表様式
・枠配置格納部に、表様式毎に、当該表様式に属する項
目と当該項目に対応するデータが記載されたデータ枠の
表領域中での配置とを対応づけて枠配置情報として予め
格納しておく。
【0008】そして、第1の表処理方法では、(a)イ
メージ画像から、表領域を抽出すると共に、この表領域
を構成する各矩形枠の位置を枠位置情報として抽出す
る。次に、(b)イメージ画像のうちの非表領域から、
表のタイトルを抽出タイトルとして抽出する。さらに、
(c)表様式・枠配置格納部から表様式情報を読み出し
て、当該表様式情報の中から抽出タイトルに対応する表
様式を選択表様式として選択する。続いて、(d)選択
表様式に対応する枠配置情報を表様式・枠配置格納部か
ら読み出して、当該枠配置情報の中から特定項目に対応
するデータ枠の表中での配置を特定枠配置として選択す
る。そして、(e)(a)の処理で抽出された枠位置情
報の中からイメージ画像において特定枠配置に該当する
位置の矩形枠を特定矩形枠として選択する。最後に、
(f)特定矩形枠内から特定データを抽出する。
【0009】そして、第1の表処理方法によれば、表領
域の全てについて文字認識を行わなくとも、特定データ
を選択的に抽出できる。従って、表領域の全てについて
文字認識を行う場合に要する処理時間に比べて、表処理
に要する処理時間の短縮を図ることができる。次の段落
において、特定データを選択的に抽出できる理由につい
て説明する。
【0010】第1の表処理方法においては、タイトルと
表様式とを対応づけて予め登録しておく。このように登
録しておけば、イメージ画像から抽出したタイトル(抽
出タイトル)を用いて、表様式を選択することができ
る。さらに、この処理方法では、各表様式について、当
該表様式に属する項目毎のデータ枠の配置を予め登録し
ておく。このように登録しておけば、特定項目を指定す
ることにより、選択された表様式におけるその特定項目
に対応するデータ枠の配置(特定枠配置)を決定するこ
とができる。その結果、イメージ画像においてこの特定
枠配置に該当する位置にある矩形枠(特定矩形枠)の領
域を決定することができる。すなわち、表領域について
文字認識を行う前に、イメージ画像中の特定データが記
載された特定矩形枠の領域を決定することができる。従
って、その特定矩形枠の領域について選択的に文字認識
をすることができる。その結果、第1の処理方法によれ
ば、表領域から特定データを選択的に抽出することがで
きる。すなわち、表領域の全てについて文字認識を行わ
なくとも、特定データを選択的に抽出することができ
る。このため、表領域の全てについて文字認識を行って
から特定データを抽出する場合に要する処理時間に比べ
て、この処理方法では、特定データの抽出に要する処理
時間の短縮を図ることができる。すなわち、表処理に要
する時間の短縮を図ることができる。
【0011】次に、第1の表処理方法についてより詳細
に説明する。
【0012】第1の表処理方法では、表処理の実行に先
立ち、前述のように、タイトルと表様式とを対応づけて
表様式情報として登録しておく。この表様式情報は、記
憶部である表様式・枠配置格納部に読み出し自在に格納
しておく。また、各表様式毎に、各項目のデータ枠の表
における配置を枠配置情報として登録しておく。そし
て、この枠配置情報も、表様式・枠配置格納部に読み出
し自在に格納しておく。
【0013】そして、この処理方法では、(a)先ず、
イメージ画像から表領域を抽出する。この際、表を構成
する矩形枠の位置も枠位置情報として抽出する。
【0014】次に、(b)そのイメージ画像のうちの非
表領域、すなわち、表領域の外側の領域から表のタイト
ルを抽出する。
【0015】次に、この処理方法では、(c)抽出され
たタイトル(抽出タイトル)を用いて、表様式を決定す
る。表様式の決定にあたっては、先ず、表様式・枠配置
格納部から表様式情報を読み出す。次に、抽出タイトル
と、表様式情報に含まれるタイトルとを順次に照合す
る。照合の結果、抽出タイトルと一致したタイトルを選
択する。そして、表様式情報から、この選択されたタイ
トルに対応づけられて登録されている表様式を、選択表
様式として選択する。
【0016】続いて、この処理方法では、(d)選択様
式における特定枠配置を決定する。特定枠配置の決定に
あたっては、先ず、特定項目と、選択表様式に含まれる
項目とを照合する。特定項目は、例えば特定項目格納部
に格納しておくと良い。そして、照合の結果、特定項目
と一致する項目に対応する特定矩形枠の表領域中での配
置(特定枠配置)を枠配置情報の中から選択する。
【0017】ところで、上記の(d)の処理で求めた特
定枠配置は、特定のデータ枠の表様式における配置を示
しているにすぎない。一方、イメージ画像における各矩
形枠の位置は、上記の(a)の処理において、枠位置情
報として求めている。そこで、(e)枠位置情報の中か
ら、イメージ画像において特定枠配置に該当する位置の
矩形枠を特定矩形枠として選択する。
【0018】最後に、この処理方法では、(f)特定矩
形枠内から特定データを抽出する。
【0019】また、第1の表処理方法において、好まし
くは、枠配置情報は、各データ枠の配置を、表における
行番号および列番号でそれぞれ表すのが良い。行番号お
よび列番号を用いれば、表における枠の配置を容易かつ
正確に表すことができる。
【0020】また、第1の表処理方法の実施にあたり、
(a)の処理は、イメージ画像を複数の方向にそれぞれ
走査して、方向毎に、走査線毎の累積黒画素数を検出し
て周辺分布を作成する処理と、周辺分布に基づいて、イ
メージ画像から縦罫線および横罫線をそれぞれ抽出する
処理と、抽出された縦罫線および横罫線に囲まれた矩形
枠をそれぞれ抽出し、抽出された矩形枠の位置を枠位置
情報とする処理と、各矩形枠でもって構成される表領域
を抽出する処理とを含むのが好適である。
【0021】さらに、この表処理方法の実施にあたり、
好ましくは、枠位置情報は、矩形枠の位置と、表領域に
おける当該矩形枠の行番号および列番号とを対応づけて
あると良い。
【0022】また、第1の表処理方法の実施にあたり、
(b)の処理は 非表領域からタイトル文字列領域を抽
出する処理と、イメージ画像のうちのタイトル文字列領
域について文字認識処理を行って、抽出タイトルを抽出
する処理とを含むことが望ましい。
【0023】また、第1の表処理方法の実施にあたり、
(f)の処理は、特定矩形枠内から文字列領域を抽出す
る処理と、イメージ画像のうちの文字列領域について文
字認識処理を行って、特定データを抽出する処理とを含
むことが望ましい。
【0024】(第1の表処理装置)この発明の第1の表
処理装置によれば、表の特定項目に対応するデータ(以
下、「特定データ」とも称する。)を当該表のイメージ
画像から抽出する表処理装置において、表様式・枠配置
格納部と、特定項目格納部と、表領域・枠位置抽出部
と、タイトル文字列領域抽出部と、表様式・枠配置選択
部と、表処理部と、文字認識部とを具えている。
【0025】この表様式・枠配置格納部は、表のタイト
ルと表様式とを対応づけて表様式情報として格納してお
くと共に、表様式毎に、当該表様式に属する項目と当該
項目に対応するデータが記載されたデータ枠の表中での
配置とを対応づけて枠配置情報として格納しておくため
の構成を有する。
【0026】また、特定項目格納部は、特定項目を格納
しておくための構成を有する。
【0027】また、表領域・枠位置抽出部は、イメージ
画像から、表領域を抽出すると共に、該表領域を構成す
る各矩形枠の位置を枠位置情報として抽出する構成を有
する。
【0028】また、タイトル文字列領域抽出部は、イメ
ージ画像のうちの非表領域からタイトル文字列領域を抽
出し、当該タイトル文字列領域を文字認識部に転送し、
文字認識部から抽出タイトルを取得する構成を有する。
【0029】また、表様式・枠配置選択部は、先ず、タ
イトル文字列領域抽出部から抽出タイトルを取得しす
る。さらに、表様式・枠配置選択部は、表様式・枠配置
格納部から表様式情報を読み出す。そして、表様式・枠
配置選択部は、当該表様式情報の中から当該抽出タイト
ルに対応する表様式を選択表様式として選択する。ま
た、表様式・枠配置選択部は、当該選択表様式に対応す
る枠配置情報を表様式・枠配置格納部から読み出す。さ
らに、表様式・枠配置選択部は、特定項目格納部から特
定項目を読み出す。そして、表様式・枠配置選択部は、
当該特定項目に対応するデータ枠の表中での配置を当該
枠配置情報の中から特定枠配置として選択する。
【0030】また、表処理部は、先ず、表処理部は、表
様式・特定枠配置選択部から特定枠配置を取得する。さ
らに、表領域・枠位置抽出部から枠位置情報を取得す
る。そして、表処理部は、当該特定枠配置に該当する位
置の矩形枠を当該枠位置情報の中から特定矩形枠として
選択する。また、表処理部は、当該特定矩形枠内から特
定データ文字列領域を抽出する。続いて、表処理部は、
当該特定データ文字列領域を文字認識部に転送する。そ
して、表処理部は、文字認識部から特定データを取得す
る。
【0031】また、文字認識部は、タイトル文字列領域
抽出部からタイトル文字列領域を取得する。そして、文
字認識部は、イメージ画像のうちのタイトル文字列領域
について文字認識を行って、抽出タイトルを抽出する。
抽出タイトルは、再びタイトル文字列領域抽出部へ転送
される。また、文字認識部は、表処理部から特定データ
文字列領域を取得する。そして、文字認識部は、イメー
ジ画像のうちの特定データ文字列領域について文字認識
を行って、特定データを抽出する。抽出された特定デー
タは、再び表処理部へ転送される。
【0032】このように、この発明の第1の表処理装置
によれば、上述の第1の表処理方法と同様に、表領域の
全てについて文字認識を行わなくとも、特定データを選
択的に抽出できる。従って、表領域の全てについて文字
認識を行う場合に要する処理時間に比べて、表処理に要
する処理時間の短縮を図ることができる。
【0033】また、この発明の第1の表処理装置におい
て、好ましくは、枠配置情報は、各データ枠の配置を、
表における行番号および列番号でそれぞれ表すのが良
い。
【0034】また、この発明の第1の表処理装置の好適
な構成例としては、表領域・枠位置抽出部は、イメージ
画像を複数の方向にそれぞれ走査して、方向毎に、走査
線毎の累積黒画素数を検出して周辺分布を作成する周辺
分布作成部と、周辺分布に基づいて、イメージ画像から
縦罫線および横罫線をそれぞれ抽出する罫線抽出部と、
抽出された縦罫線および横罫線に囲まれた矩形枠をそれ
ぞれ抽出し、抽出された矩形枠の位置を枠位置情報とす
る枠位置抽出部と、各矩形枠でもって構成される表領域
を抽出する表領域抽出部と具えてなることが望ましい。
【0035】さらに、この表処理装置において、枠位置
情報は、矩形枠の位置と、表領域における当該矩形枠の
行番号および列番号とを対応づけてあると良い。
【0036】また、この発明の第1の表処理装置の好適
な構成例としては、表様式・特定枠配置選択部は、抽出
タイトルと表様式情報に含まれるタイトルとを照合する
タイトル照合部と、照合の結果、抽出タイトルと一致す
るタイトルに対応する表様式を、選択表様式として選択
する表様式選択部と特定項目と、選択表様式に含まれる
項目とを照合する項目照合部と、照合の結果、当該特定
項目に対応するデータ枠の表中での配置を枠配置情報の
中から特定枠配置として選択する特定枠配置選択部とを
具えてなることが望ましい。
【0037】尚、この発明の第1の表処理装置は、中央
演算装置(CPU)、記憶手段および入出力装置を具え
た、いわゆるコンピュータ装置のハードウエアを利用し
て構成されている。
【0038】(第2の表処理方法)また、この発明の第
2の表処理方法によれば、表の特定項目に対応するデー
タ(以下、「特定データ」とも称する。)を当該表のイ
メージ画像から抽出するにあたり、先ず、表様式格納部
に、表のタイトルと表様式とを対応づけて表様式情報と
して予め格納しておく。さらに、この表様式格納部に、
表様式毎に、当該表様式に属する項目の記載された項目
枠と当該項目に対応するデータが記載されたデータ枠と
の配置関係を枠配置関係情報として予め格納しておく。
【0039】そして、第2の表処理方法では、(a)イ
メージ画像から、表領域を抽出すると共に、該表領域を
構成する各矩形枠の位置を枠位置情報として抽出する。
次に、(b)イメージ画像のうちの非表領域から表のタ
イトルを抽出タイトルとして抽出する。さらに、(c)
表様式格納部から表様式情報を読み出して、当該表様式
情報の中から抽出タイトルに対応する表様式を選択表様
式として選択し、かつ、表様式格納部から当該選択表様
式に対応する枠配置関係情報を選択枠配置関係情報とし
て読み出す。続いて、(d)(a)の処理で抽出された
枠位置情報の示す矩形枠の中から項目枠を選択する。そ
して、(e)項目枠の各々に記載された項目をそれぞれ
抽出項目として抽出する。また、(f)抽出項目として
特定項目が記載された項目枠を項目枠の中から特定項目
枠として選択する。そして、(g)特定項目枠の位置に
対して選択枠配置関係情報の示す位置にある矩形枠をイ
メージ画像から特定矩形枠として抽出する。最後に、
(h)特定矩形枠内から特定データを抽出する。
【0040】そして、第2の表処理方法によれば、表領
域の中の項目枠についてのみ文字認識を行うことによ
り、特定データを選択的に抽出できる。その結果、この
表処理方法によれば、表領域の全てについて文字認識を
行う場合に要する処理時間に比べて、表処理に要する処
理時間の短縮を図ることができる。次に、特定データを
選択的に抽出できる理由について説明する。
【0041】第2の表処理方法においては、タイトルと
表様式とを対応づけて表様式情報として予め登録してお
く。このように登録しておけば、イメージ画像から抽出
したタイトル(抽出タイトル)を用いて、表様式を選択
することができる。さらに、この処理方法では、表様式
毎に、小見出し的な役割を持つ項目枠とデータ枠との配
置関係を枠配置関係情報として予め登録しておく。この
ように登録しておけば、表様式を選択することにより、
その選択表様式における項目枠とデータ枠との配置関係
(例えば、その選択表様式においては、項目枠の右側に
隣接してデータ枠が配置されているという配置関係)を
定めることができる。
【0042】そして、この表処理方法においては、表領
域の矩形枠の中から項目枠を選択する。項目枠の選択に
あたっては、後述する矩形枠の面積に着目する方法の
他、任意好適な方法を用いると良い。続いて、選択され
た各項目枠について文字認識を行って、各項目枠からそ
れぞれ項目を抽出する。そして、各項目枠の中、特定項
目が記載された特定項目枠を選択する。特定項目は、例
えば予め指定しておくと良い。
【0043】従って、この表処理方法においては、選択
された特定項目枠の位置に対して、枠配置関係情報の示
す配置関係に位置するデータ枠を特定矩形枠として選択
することができる。すなわち、表領域の矩形枠のうち、
項目枠についてのみ文字認識を行うことにより、特定デ
ータを選択的に抽出できる。その結果、表領域の全てに
ついて文字認識を行わなくとも、特定データを選択的に
抽出することができる。このため、表領域の全てについ
て文字認識を行ってから特定データを抽出する場合に要
する処理時間に比べて、この処理方法では、特定データ
の抽出に要する処理時間の短縮を図ることができる。す
なわち、表処理に要する時間の短縮を図ることができ
る。
【0044】また、第2の表処理方法によれば、枠配置
関係情報として、項目枠とデータ枠との相対的な配置関
係を登録している。すなわち、特定矩形枠の表中での配
置は、1箇所に限定されない。このため、1つの表様式
での特定矩形枠の配置は、枠配置関係情報の示す相対的
な配置関係を満たす範囲内で任意の配置とすることがで
きる。従って、第2の表処理方法によれば、特定矩形枠
の配置を1箇所に限定した場合に処理対象となる表の種
類の数よりも、より多くの種類の表を処理対象とするこ
とができる。
【0045】次に、第2の表処理方法についてより詳細
に説明する。
【0046】第2の表処理方法では、表処理の実行に先
立ち、前述のように、タイトルと表様式とを対応づけて
表様式情報として登録しておく。この表様式情報は、記
憶部である表様式格納部に読み出し自在に格納してお
く。また、各表様式毎に、当該表様式に属する項目の記
載された項目枠と当該項目に対応するデータが記載され
たデータ枠との配置関係を枠配置関係情報として登録し
ておく。この枠配置関係情報も、表様式情報と共に、表
様式格納部に読み出し自在に格納しておく。
【0047】そして、この処理方法では、(a)先ず、
イメージ画像から表領域を抽出する。この際、表を構成
する矩形枠の位置も枠位置情報として抽出する。
【0048】次に、この処理方法では、(b)そのイメ
ージ画像の中の非表領域、すなわち、表領域の外側の領
域から表のタイトルを抽出する。
【0049】次に、この処理方法では、(c)抽出され
たタイトル(抽出タイトル)を用いて、表様式を決定す
る。表様式の決定にあたっては、先ず、表様式・枠配置
格納部から表様式情報を読み出す。次に、抽出タイトル
と、表様式情報に含まれるタイトルとを順次に照合す
る。照合の結果、抽出タイトルと一致したタイトルを選
択する。そして、表様式情報から、この選択タイトルに
対応づけられている表様式を選択表様式として選択す
る。さらに、当該選択表様式に対応する枠配置関係情報
を表様式格納部から選択枠配置関係情報として読み出
す。
【0050】また、この表処理方法では、(d)枠位置
情報の示す矩形枠の中から項目枠を選択する。項目枠の
選択にあたっては、任意好適な方法を用いると良い。例
えば、後述のように、項目枠の面積がデータ枠の面積よ
りも小さい傾向に着目して項目枠を抽出しても良い。
【0051】そして、(e)項目枠の各々に記載された
項目をそれぞれ抽出項目として抽出する。
【0052】また、(f)特定項目が抽出項目として記
載された項目枠を項目枠の中から特定項目枠として選択
する。特定項目枠の選択にあたっては、先ず、特定項目
と、抽出項目とを照合する。特定項目は、例えば特定項
目格納部を設けて、そこに格納しておくと良い。そし
て、照合の結果、特定項目と一致する項目が記載された
項目枠を特定項目枠として、項目枠の中から選択する。
【0053】そして、(g)特定項目枠の位置に対して
選択枠配置関係情報の示す位置にある矩形枠をイメージ
画像から特定矩形枠として抽出する。
【0054】最後に、(h)特定矩形枠内から特定デー
タを抽出する。
【0055】また、第2の表処理方法の実施にあたり、
(a)の処理では、イメージ画像を複数の方向にそれぞ
れ走査して、方向毎に、走査線毎の累積黒画素数を検出
して周辺分布を作成する処理と、周辺分布に基づいて、
イメージ画像から縦罫線および横罫線をそれぞれ抽出す
る処理と、抽出された縦罫線および横罫線に囲まれた矩
形枠をそれぞれ抽出し、抽出された矩形枠の位置を枠位
置情報とする処理と、各矩形枠でもって構成される表領
域を抽出する処理とを含むことが望ましい。
【0056】また、第2の表処理方法の実施にあたり、
(b)の処理は、非表領域からタイトル文字列領域を抽
出する処理と、タイトル文字列領域について文字認識処
理を行って、抽出タイトルを抽出する処理とを含むこと
が望ましい。
【0057】また、第2の表処理方法において、好まし
くは、(d)の処理は、矩形枠の面積を求める処理と、
矩形枠のうち、一定面積以下の面積を有する矩形枠を項
目枠として選択する処理とを含むことが望ましい。
【0058】これは、表領域の矩形枠のうち、項目枠
は、データ枠よりも一般に面積が小さい傾向があること
に着目した選択方法である。
【0059】また、第2の表処理方法において、好まし
くは、(e)の処理は、項目枠から項目文字列領域を抽
出する処理と、項目文字列領域について文字認識を行っ
て、項目を抽出する処理とを含むことが望ましい。
【0060】また、第2の表処理方法において、好まし
くは、(h)の処理は、特定矩形枠内から特定データ文
字列領域を抽出する処理と、特定データ文字列領域につ
いて文字認識処理を行って、特定データを抽出する処理
とを含むことが望ましい。
【0061】(第2の表処理装置)また、この発明の第
2の表処理装置によれば、表の特定項目に対応するデー
タ(以下、「特定データ」とも称する。)を当該表のイ
メージ画像から抽出する表処理装置において、表様式格
納部と、特定項目格納部と、表領域・枠位置抽出部と、
タイトル文字列領域抽出部と、表様式選択部と、表処理
部と、文字認識部とを具えている。
【0062】そして、表様式格納部は、表のタイトルと
表様式とを対応づけて表様式情報として格納しておくと
共に、表様式毎に、当該表様式に属する項目の記載され
た項目枠と当該項目に対応するデータが記載されたデー
タ枠との配置関係を枠配置関係情報として格納しておく
ための構成としてある。
【0063】また、特定項目格納部は、特定項目を格納
しておくための構成としてある。
【0064】さらに、表領域・枠位置抽出部は、イメー
ジ画像から、表領域を抽出すると共に、該表領域を構成
する各矩形枠の位置を枠位置情報として抽出する構成と
してある。
【0065】また、タイトル文字列領域抽出部は、イメ
ージ画像のうちの非表領域からタイトル文字列領域を抽
出し、当該タイトル文字列領域を文字認識部に転送し、
文字認識部から抽出タイトルを取得する構成としてあ
る。
【0066】また、表様式選択部は、先ず、タイトル文
字列領域抽出部から抽出タイトルを取得する。さらに、
表様式選択部は、表様式納部から表様式情報を読み出
す。そして、表様式選択部は、当該表様式情報の中から
当該抽出タイトルに対応する表様式を選択表様式として
選択する。続いて、表様式選択部は、表様式格納部から
該選択表様式に対応する枠配置関係情報を選択枠配置関
係情報として読み出す。
【0067】そして、表処理部は、先ず、表領域・枠位
置抽出部から枠位置情報を取得する。そして、表処理部
は、当該枠位置情報の示す矩形枠の中から項目枠を選択
する。続いて、表処理部は、項目枠の各々から項目文字
列領域を抽出する。さらに、表処理部は、当該項目文字
列領域を文字認識部に転送する。また、表処理部は、文
字認識部から抽出項目を取得する。続いて、表処理部
は、特定項目格納部から特定項目を読み出す。そして、
表処理部は、項目枠の中から当該特定項目が抽出項目と
して記載された項目枠を特定項目枠として選択する。さ
らに、表処理部は、表様式選択部から選択枠配置関係情
報を取得する。そして、表処理部は、特定項目枠の位置
に対して当該選択枠配置関係情報の示す位置にある矩形
枠をイメージ画像から特定矩形枠として抽出する。ま
た、表処理部は、特定矩形枠内から特定データ文字列領
域を抽出する。続いて、表処理部は、当該特定データ文
字列領域を文字認識部に転送する。そして、表処理部
は、文字認識部から特定データを取得する。
【0068】さらに、文字認識部は、イメージ画像のう
ちのタイトル文字列領域について文字認識を行って抽出
タイトルを抽出し、イメージ画像のうちの項目文字列領
域について文字認識を行って項目を抽出し、かつ、イメ
ージ画像のうちの特定データ文字列領域について字認識
を行って特定データを抽出する構成としてある。
【0069】このように、この発明の第2の表処理装置
によれば、上述の第2の表処理方法と同様に、表領域の
中の項目枠についてのみ文字認識を行うことにより、特
定データを選択的に抽出できる。その結果、この表処理
方法によれば、表領域の全てについて文字認識を行う場
合に要する処理時間に比べて、表処理に要する処理時間
の短縮を図ることができる。
【0070】さらに、この発明の第2の表処理装置によ
れば、枠配置関係情報として、項目枠とデータ枠との相
対的な配置関係を登録している。すなわち、特定矩形枠
の表中での配置は、1箇所に限定されない。このため、
1つの表様式での特定矩形枠の配置は、枠配置関係情報
の示す相対的な配置関係を満たす範囲内で任意の配置と
することができる。従って、第2の表処理方法によれ
ば、特定矩形枠の配置を1箇所に限定した場合に処理対
象となる表の種類よりも、より多くの種類の表を処理対
象とすることができる。
【0071】また、この発明の第2の表処理装置の好適
な構成例としては、表領域・枠位置抽出部は、イメージ
画像を複数の方向にそれぞれ走査して、方向毎に、走査
線毎の累積黒画素数を検出して周辺分布を作成する処理
と、周辺分布に基づいて、イメージ画像から縦罫線およ
び横罫線をそれぞれ抽出する処理と、抽出された縦罫線
および横罫線に囲まれた矩形枠をそれぞれ抽出し、抽出
された矩形枠の位置を枠位置情報とする処理と、各矩形
枠でもって構成される表領域を抽出する処理とを具えて
なることが望ましい。
【0072】また、この発明の第2の表処理装置におい
て、好ましくは、表処理部は、表領域から項目枠を選択
するにあたり、各矩形枠の面積をそれぞれ求め、矩形枠
のうち、一定面積以下の面積を有する矩形枠を項目枠と
して選択する構成を有するのが良い。
【0073】尚、この発明の第2の表処理装置は、中央
演算装置(CPU)、記憶手段および入出力装置を具え
た、いわゆるコンピュータ装置のハードウエアを利用し
て構成されている。
【0074】
【発明の実施の形態】以下、図面を参照して、この発明
の第1および第2の表処理方法および装置の例について
説明する。尚、参照する図は、この発明の構成および処
理の流れが理解できる程度に概略的に示してあるにすぎ
ない。従って、この発明は図示例にのみ限定されるもの
ではない。
【0075】1.第1の実施の形態 第1の実施の形態では、この発明の第1の表処理方法お
よび装置の一例について説明する。
【0076】<表処理装置>先ず、図1を参照して、第
1の表処理装置の構成について説明する。図1は、第1
の実施の形態の表処理装置の構成の説明に供する機能ブ
ロック図である。
【0077】この実施の形態によれば、表の特定項目に
対応するデータ(以下、「特定データ」とも称する。)
を当該表のイメージ画像から抽出する表処理装置10
は、表様式・枠配置格納部12と、特定項目格納部14
と、表領域・枠位置抽出部16と、タイトル文字列領域
抽出部18と、表様式・枠配置選択部20と、表処理部
22と、文字認識部24とを具えている。
【0078】そして、この表処理装置10では、不図示
の制御部によって、信号やデータの受け渡しの動作およ
びそのタイミングが制御されている。
【0079】また、この表処理装置10は、中央演算装
置(CPU)、メモリ装置および入出力装置を具えたコ
ンピュータのハードウエアを利用して構成されている。
【0080】また、この表処理装置10に入力されるイ
メージ画像は、この実施の形態では、画像読取部26に
よって読み取られたものである。この画像読取部26で
は、文書や帳票などの情報媒体の表面を光学的に走査し
て、画素毎の光信号の強度を量子化された電気信号に変
換し、この電気信号からなるイメージ画像を出力する。
イメージ画像は、例えば、文字部を黒画素で表現し、文
字背景部を白画素で表現した2値画像とすると良い。
【0081】そして、この実施の形態では、読み取られ
たイメージ画像は、イメージ画像記憶部28に読み出し
自在に格納される。格納されたイメージ画像には仮想的
にx−y座標系が設定される。従って、イメージ画像の
各画素の位置は、x座標およびy座標により与えられ
る。
【0082】以下、この表処理装置10の各構成成分に
ついて、それぞれ説明する。
【0083】(表様式・枠配置格納部)表様式・枠配置
格納部12には、表のタイトルと表様式とを対応づけて
表様式情報として格納してある。さらに、この表様式・
枠配置格納部12には、表様式毎に、当該表様式に属す
る項目と、当該項目に対応するデータが記載されたデー
タ枠の表領域中での配置とを対応づけて枠配置情報とし
て格納してある。また、この実施の形態では、枠配置情
報において各データ枠の配置を、表領域における行番号
および列番号でそれぞれ表してある。このように、デー
タ枠の配置を行番号および列番号を用いて表せば、表領
域における枠の配置を容易かつ正確に表すことができ
る。
【0084】ここで、図2に、表様式・枠配置格納部1
2に格納されている、表様式情報および枠配置情報の例
を示す。図2に示すように、この実施の形態では、表様
式情報として、「注文書」、「依頼書」および「納品
書」というタイトルをそれぞれ「様式1」、「様式2」
および「様式3」という表様式と1対1に対応づけて格
納してある。
【0085】さらに、この表様式・枠配置格納部12に
は、「注文書」の表様式である「様式1」に対応する枠
配置情報として、「氏名」および「品名」という項目を
それぞれ「第1行第2列」および「第2行第2列」とい
う、データ枠の配置と1対1にそれぞれ対応づけて格納
してある。
【0086】また、この表様式・枠配置格納部12に
は、「依頼書」の表様式である「様式2」に対応する枠
配置情報として、「氏名」、「住所」および「金額」と
いう項目をそれぞれ「第1行第2列」、「第2行第2
列」および「第3行第2列」という、データ枠の配置と
1対1にそれぞれ対応づけて格納してある。
【0087】また、この表様式・枠配置格納部12に
は、「納品書」の表様式である「様式3」に対応する枠
配置情報として、「品名」および「金額」という項目を
それぞれ「第2行第1列」および「第2行第2列」とい
う、データ枠の配置と1対1にそれぞれ対応づけて格納
してある。
【0088】(特定項目格納部)特定項目格納部14に
は、特定項目を格納しておく。この実施の形態では、特
定項目として、例えば「金額」を格納しておく。尚、特
定項目は、表処理の途中で、例えばキーボードなどの入
力装置を用いて入力しても良い。
【0089】(表領域・枠位置抽出部)表領域・枠位置
抽出部16は、処理の実行にあたり、先ず、イメージ画
像記憶部28からイメージ画像を読み出す。そして、表
領域・枠位置抽出部16は、読み出されたイメージ画像
から、表領域を抽出する。さらに、表領域・枠位置抽出
部16は、イメージ画像からこの表領域を構成する各矩
形枠の位置を枠位置情報として抽出する。
【0090】ここで、図3を参照して、表領域・枠位置
抽出部16についてより詳細に説明する。図3は、表領
域・枠位置抽出部16の説明に供する機能ブロック図で
ある。図3に示すように、表領域・枠位置抽出部16
は、周辺分布作成部30,罫線抽出部32,枠位置抽出
部34および表領域抽出部36をもって構成してある。
【0091】この周辺分布作成部30は、イメージ画像
を複数の方向にそれぞれ走査して、方向毎に、走査線毎
の累積黒画素数を検出して周辺分布を作成する。この実
施の形態では、イメージ画像記憶部28から読み出され
たイメージ画像をx軸方向に走査して、各走査線毎に累
積画素数を検出して、横方向周辺分布を作成する。次
に、イメージ画像をy軸方向に走査して、各走査線毎に
累積画素数を検出して、縦方向周辺分布を作成する。
【0092】また、罫線抽出部32は、周辺分布に基づ
いて、イメージ画像から縦罫線および横罫線をそれぞれ
抽出する。この実施の形態では、横方向周辺分布の各走
査線毎の累積黒画素数の変化から、イメージ画像上での
横罫線の両端の位置(座標)を検出する。また、縦方向
周辺分布の各走査線毎の累積黒画素数の変化から、イメ
ージ画像上での縦罫線の両端の位置(座標)を検出す
る。そして、イメージ画像における各罫線の位置を、そ
れぞれその両端の座標をもって表す。
【0093】また、枠位置抽出部34は、抽出された縦
罫線および横罫線に囲まれた矩形枠をそれぞれ抽出す
る。そして、抽出された矩形枠の位置を枠位置情報とす
る。この実施の形態では、互いに隣り合った2本の縦罫
線と互いに隣り合った2本横罫線との交点である4つ一
組の交点の位置を、矩形枠の4頂点の位置として抽出す
る。そして、枠位置抽出部34は、イメージ画像におけ
る各矩形枠の位置を、それぞれその4頂点の座標をもっ
て表した枠位置情報を作成する。
【0094】さらに、この実施の形態では、各矩形枠の
位置から、当該矩形枠の表中の行番号および列番号を求
める。そして、枠位置情報において、各矩形枠の位置
と、当該矩形枠の行番号および列番号とを対応づけてお
く。
【0095】また、表領域抽出部36は、各矩形枠でも
って構成される表領域を抽出する。表領域は、例えば、
縦罫線のうちの最外側の2本の縦罫線と、横罫線のうち
の最外側の2本の横罫線とによって囲まれた領域を表領
域として抽出すると良い。もしくは、各矩形枠の集合を
求めて、その集合のイメージ画像における輪郭を表領域
として抽出すると良い。また、イメージ画像における表
領域の位置は、表領域の4つ頂点の座標をもって表すと
良い。
【0096】(タイトル文字列領域抽出部)タイトル文
字列領域抽出部18は、イメージ画像のうちの非表領域
からタイトル文字列領域を抽出する。タイトル文字列領
域の抽出にあたっては、従来公知の技術を用いることが
できる。例えば、表領域・枠位置抽出部16で抽出した
表領域の外側周囲のイメージ画像部分の周辺分布を作成
して、黒画素の連結成分に基づいてタイトル文字列領域
を抽出する。
【0097】そして、タイトル文字列領域抽出部18
は、抽出した当該タイトル文字列領域を文字認識部24
に転送する。この実施の形態では、タイトル文字列領域
の外接座標を求め、この外接座標を文字認識部24に転
送する。
【0098】さらに、タイトル文字列領域抽出部18
は、文字認識部24から、文字認識結果である抽出タイ
トルを取得する。この実施の形態では、文字認識結果と
して文字コードを取得する。
【0099】(表様式・枠配置選択部)また、表様式・
枠配置選択部20は、先ず、タイトル文字列領域抽出部
18から抽出タイトルを取得する。さらに、表様式・枠
配置選択部20は、表様式・枠配置格納部12から表様
式情報を読み出す。そして、表様式・枠配置選択部20
は、当該表様式情報の中から当該抽出タイトルに対応す
る表様式を選択表様式として選択する。また、表様式・
枠配置選択部20は、当該選択表様式に対応する枠配置
情報を表様式・枠配置格納部12から読み出す。さら
に、表様式・枠配置選択部20は、特定項目格納部14
から特定項目を読み出す。そして、表様式・枠配置選択
部20は、当該特定項目に対応するデータ枠の表中での
配置を枠配置情報の中から特定枠配置として選択する。
【0100】ここで、図4を参照して、表様式・枠配置
選択部20についてより詳細に説明する。図4は、表様
式・枠配置選択部20の説明に供する機能ブロック図で
ある。図4に示すように、表様式・枠配置選択部20
は、タイトル照合部38、表様式選択部40、項目照合
部42および特定枠配置選択部44を具えている。
【0101】このタイトル照合部38は、文字認識部2
4で得られた抽出タイトルの文字コードを、タイトル文
字列領域抽出部18を介して取得する。また、このタイ
トル照合部38は、表様式・枠配置格納部12から表様
式情報を読み出す。この表様式情報においては、前述し
たように、タイトルと表様式とが対応づけられている。
そして、タイトル照合部38は、抽出タイトルと表様式
情報に含まれるタイトルとを照合する。
【0102】また、表様式選択部40は、照合の結果、
抽出タイトルと一致するタイトルに対応する表様式を、
選択表様式として選択する。
【0103】また、項目照合部42は、特定項目格納部
14から特定項目を読み出す。また、表様式選択部40
で選択された選択表様式には、前述したように、1つも
しくは複数の項目が含まれている。そこで、項目照合部
42は、読み出された特定項目と、選択表様式に含まれ
る項目とを照合する。
【0104】また、特定枠配置選択部44は、照合の結
果、特定項目と一致する項目に対応する特定矩形枠の特
定枠配置を枠配置情報の中から選択する。この特定枠配
置は、前述したように、表領域中の行番号および列番号
で表されている。
【0105】(表処理部)また、表処理部22は、先
ず、表様式・枠配置選択部20から特定枠配置を取得す
る。さらに、表処理部22は、表領域・枠位置抽出部1
6から枠位置情報を取得する。
【0106】そして、表処理部22は、当該特定枠配置
に該当する位置の矩形枠を枠位置情報の中から特定矩形
枠として選択する。特定矩形枠の選択にあたっては、先
ず、特定枠配置の行番号および列番号を取得する。そし
て、枠位置情報には、前述したように、各矩形枠の位置
(座標)とその行番号および列番号とがそれぞれ対応づ
けられている。そこで、この実施の形態では、特定枠配
置の行および列番号と、枠位置情報の矩形枠の行および
列番号とを照合する。そして、照合の結果、行および列
番号の一致した矩形枠の位置を、イメージ画像における
特定矩形枠の位置とする。特定矩形枠の位置は、その矩
形枠の4頂点の位置の座標で与えられる。
【0107】また、表処理部22は、当該特定矩形枠内
から特定データ文字列領域を抽出する。特定データ文字
列領域の抽出にあたっては、従来公知の技術を用いるこ
とができる。例えば、表領域・枠位置抽出部16で抽出
した矩形枠の内部のイメージ画像部分の周辺分布を作成
して、黒画素の連結成分に基づいて特定データ文字列領
域を抽出する。
【0108】続いて、表処理部22は、当該特定データ
文字列領域を文字認識部24に転送する。この実施の形
態では、特定データ文字列領域の外接座標を求め、この
外接座標を文字認識部24に転送する。
【0109】そして、表処理部22は、文字認識部24
から特定データを取得する。この実施の形態では、文字
認識結果として文字コードを取得する。
【0110】そして、表処理部22は、特定データを表
処理結果として、表処理装置10の外部へ出力する。出
力にあたっては、例えばディスプレイなどの出力装置を
用いると良い。
【0111】(文字認識部)また、文字認識部24は、
文字認識にあたり、文字認識部24の内部メモリ(不図
示)に記憶されている辞書を参照する。そして、文字認
識部24は、辞書に格納されている標準文字のうち、認
識対象と一致する標準文字の文字コードを認識結果とし
て出力する。文字コードには、例えば、JISコードを
用いると良い。
【0112】例えば、抽出タイトルを抽出する場合は、
文字認識部24は、前述したように、タイトル文字列領
域抽出部18からタイトル文字列領域を取得する。そし
て、文字認識部24は、イメージ画像のうちのタイトル
文字列領域について文字認識を行って、抽出タイトルを
文字コードとして抽出する。抽出タイトルは、前述した
ように、再びタイトル文字列領域抽出部18へ転送され
る。
【0113】また、特定データを抽出する場合は、文字
認識部24は、表処理部22から特定データ文字列領域
を取得する。そして、文字認識部24は、イメージ画像
のうちの特定データ文字列領域について文字認識を行っ
て、特定データを文字コードとして抽出する。抽出され
た特定データは、前述したように、再び表処理部22へ
転送される。
【0114】<表処理方法>次に、図5を参照して、第
1の実施の形態の表処理方法、即ち、図1に示す表処理
装置の動作の一例について説明する。図5は、第1の実
施の形態の表処理方法の説明に供するフローチャートで
ある。また、この実施の形態では、図12に示す「依頼
書」の表を処理対象として、この「依頼書」のうちの特
定項目「金額」のデータである「15,000」円を特
定データとして抽出する例について説明する。尚、各ス
テップの処理の開始のタイミングは、例えば、不図示の
制御部によってコントロールすると良い。
【0115】第1の実施の形態の表処理方法によれば、
表の特定項目に対応するデータ(以下、「特定データ」
とも称する。)を当該表のイメージ画像から抽出するに
あたり、先ず、表様式・枠配置格納部12に、表のタイ
トルと表様式とを対応づけて表様式情報として予め格納
しておく。さらに、この表様式・枠配置格納部12に、
表様式毎に、当該表様式に属する項目と、当該項目に対
応するデータが記載されたデータ枠の表中での配置とを
対応づけて枠配置情報として予め格納しておく。
【0116】(ステップ1)そして、第1の実施の形態
の表処理方法では、先ず、表領域・枠位置抽出部16に
よって、イメージ画像から、表領域を抽出すると共に、
この表領域を構成する各矩形枠の位置を枠位置情報とし
て抽出する(図5のS1)。
【0117】ここで、図6を参照して、表領域および矩
形枠の位置を抽出する処理ステップ(S1)について説
明する。図6は、表領域および矩形枠の位置を抽出する
処理の説明に供するフローチャートである。
【0118】この実施の形態では、表領域および矩形枠
の位置を抽出するにあたり、先ず、表領域・枠位置抽出
部16の周辺分布作成部30において、イメージ画像を
複数の方向にそれぞれ走査して、方向毎に、走査線毎の
累積黒画素数を検出して周辺分布を作成する(図6のS
7)。この実施の形態では、イメージ画像記憶部28か
ら読み出されたイメージ画像をx軸方向に走査して、各
走査線毎に累積画素数を検出して、横方向周辺分布を作
成する。次に、イメージ画像をy軸方向に走査して、各
走査線毎に累積画素数を検出して、縦方向周辺分布を作
成する。
【0119】次に、表領域・枠位置抽出部16の罫線抽
出部32が、周辺分布に基づいて、イメージ画像から縦
罫線および横罫線をそれぞれ抽出する(図6のS8)。
この実施の形態では、横方向周辺分布の各走査線毎の累
積黒画素数の変化から、イメージ画像上での横罫線の両
端の位置(座標)を検出する。また、縦方向周辺分布の
各走査線毎の累積黒画素数の変化から、イメージ画像上
での縦罫線の両端の位置(座標)を検出する。そして、
イメージ画像における各罫線の位置を、それぞれその両
端の座標をもって表す。
【0120】次に、表領域・枠位置抽出部16の枠位置
抽出部34が、抽出された縦罫線および横罫線に囲まれ
た矩形枠の位置をそれぞれ抽出する(図6のS9)。そ
して、抽出された矩形枠の位置を枠位置情報とする。こ
の実施の形態では、互いに隣り合った2本の縦罫線と互
いに隣り合った2本横罫線との交点である4つ一組の交
点の位置を、矩形枠の4頂点の位置として抽出する。そ
して、枠位置抽出部34は、イメージ画像における各矩
形枠の位置を、それぞれその4頂点の座標をもって表し
た枠位置情報を作成する。
【0121】尚、この実施の形態では、各矩形枠の位置
から、当該矩形枠の表中の行番号および列番号を求め
る。そして、枠位置情報において、各矩形枠の位置と、
当該矩形枠の行番号および列番号とを対応づけておく。
【0122】次に、表領域・枠位置抽出部16の表領域
抽出部36が、各矩形枠でもって構成される表領域58
(図12参照)を抽出する(図6のS10)。表領域
は、例えば、縦罫線のうちの最外側の2本の縦罫線と、
横罫線のうちの最外側の2本の横罫線とによって囲まれ
た領域を表領域として抽出すると良い。もしくは、各矩
形枠の集合を求めて、その集合のイメージ画像における
輪郭を表領域として抽出すると良い。また、イメージ画
像における表領域の位置は、表領域の4つ頂点の座標を
もって表すと良い。
【0123】このようにして、表領域・枠位置抽出部1
6によって、表領域58および矩形枠の位置を抽出する
(図5のS1)。
【0124】(ステップ2)次に、タイトル文字列領域
抽出部18および文字認識部24によって、イメージ画
像のうちの非表領域から、表のタイトルを抽出タイトル
として抽出する(図5のS2)。
【0125】ここで、図7を参照して、抽出タイトルを
抽出する処理ステップ(S2)について説明する。図7
は、抽出タイトルの抽出処理の説明に供するフローチャ
ートである。
【0126】この実施の形態では、抽出タイトルを抽出
するにあたり、先ず、タイトル文字列領域抽出部18に
おいて、表領域・枠位置抽出部16で抽出した表領域の
外側周囲のイメージ画像部分の周辺分布を作成して、黒
画素の連結成分に基づいてタイトル文字列領域を抽出す
る(図7のS11)。そして、タイトル文字列領域抽出
部18は、抽出したタイトル文字列領域に外接する外接
矩形枠の座標を文字認識部24へ転送する。尚、外接矩
形枠の座標は、外接矩形枠の4頂点のx−y座標として
表すと良い。
【0127】次に、文字認識部24は、外接矩形枠の座
標に対応するイメージ画像について文字認識を行う(図
7のS12)。文字認識部24は、文字認識にあたり、
文字認識部24の内部メモリ(不図示)に記憶されてい
る辞書を参照する。そして、文字認識部24は、辞書に
格納されている標準文字のうち、認識対象と一致する標
準文字の文字コードを認識結果として出力する。そし
て、文字認識部24は、この文字コードをタイトル文字
列領域抽出部18へ転送する。この実施の形態では、文
字認識の結果、「依頼書」という抽出タイトルを抽出し
たとする。
【0128】タイトル文字列領域抽出部18は、この
「依頼書」の文字コードを抽出タイトルとして表様式・
枠配置選択部20へ転送する。
【0129】このようにして、タイトル文字列領域抽出
部18および文字認識部24によって、抽出タイトルを
抽出する。
【0130】(ステップ3)次に、表様式・枠配置選択
部20によって、表様式・枠配置格納部12から表様式
情報を読み出して、当該表様式情報の中から抽出タイト
ルに対応する表様式を選択表様式として選択する(図5
のS3)。
【0131】ここで、図8を参照して、選択表様式を選
択する処理ステップ(S3)について説明する。図8
は、選択表様式の選択処理の説明に供するフローチャー
トである。
【0132】この実施の形態では、選択表様式を選択す
るにあたり、先ず、表様式・枠配置選択部20のタイト
ル照合部38が、タイトル文字列領域抽出部18から抽
出タイトルを取得する(図8のS13)。ここでは、抽
出タイトルとして、「依頼書」の文字コードを取得す
る。尚、ステップ3の処理は、例えば、タイトル文字列
領域抽出部18から表様式・枠配置選択部20へ文字コ
ードが転送されたことをもって開始させても良い。
【0133】次に、タイトル照合部38は、表様式・枠
配置格納部12から、表様式情報を1つずつ順次に読み
出す(図8のS14)。この実施の形態では、前述した
ように、表様式・枠配置格納部12に図2に示した表様
式情報を格納している。この実施の形態では、タイトル
照合部38は、先ず、1番目の表様式情報として「注文
書−様式1」を読み出す。
【0134】次に、タイトル照合部38は、抽出タイト
ルと表様式情報とを照合する(図8のS15)。
【0135】ここでは、先ず、抽出タイトルである「依
頼書」の文字コードと、1回目に読み出された表様式情
報のタイトルである「注文書」の文字コードとを照合す
る。この場合、1回目の照合結果は一致しない。
【0136】照合結果が一致しない場合(S15のステ
ップの「no」の場合)、タイトル照合部38は、次の
表様式情報へアクセスして(図8のS16)、2番目の
表様式情報として「依頼書−様式2」を読み出す(図8
のS14)。そして、1回目と同様に、抽出タイトルで
ある「依頼書」の文字コードと、2回目に読み出された
表様式のタイトルである「依頼書」の文字コードとを照
合する。この場合の照合結果は一致する。
【0137】照合結果が一致した場合には、タイトル照
合部38は、照合結果が一致した表様式情報を表様式選
択部40へ転送する。
【0138】次に、表様式・枠配置選択部20の表様式
選択部40は、表様式を決定する(図8のS17)。こ
の実施の形態では、タイトル照合部38は、タイトル照
合部38から取得した表様式情報の示す様式「様式2」
を確認し、処理対象の表領域の表様式を「様式2」と決
定する。
【0139】この実施の形態では、上述した、表様式選
択処理の照合処理(S15)は、全ての表様式情報につ
いて同様に行われる。そして、選択表様式が決定される
度に、制御部(不図示)が、表様式・枠配置格納部12
に格納されている全表様式数を参照して、全ての表様式
について照合が行われたか否かを判定する(図8のS1
8)。そして、全ての表様式について処理が行われてい
ないと判定した場合(S18の「no」)には、次の表
様式情報にアクセスして(図8のS19)、タイトル照
合部38にその表様式情報を読み出させる(図8のS1
4)。そして、再び表様式情報と抽出タイトルとの照合
処理(S15)を行う。
【0140】尚、この発明では、全ての表処理情報につ
いての照合は必ずしも必要ではなく、例えば、選択表様
式を決定したステップ(S17)の後直ちに表様式選択
処理を終了しても良い。
【0141】また、制御部が、全ての表様式について処
理が行われたと判定した場合(S18の「yes」)に
は、表様式選択処理を終了する。
【0142】(ステップ4)次に、表様式・枠配置選択
部20によって、特定データの記載されている矩形枠の
配置としての特定枠配置を選択する(図5のS4)。
【0143】ここで、図9を参照して、特定枠配置を選
択する処理ステップ(S4)について説明する。図9
は、特定枠配置を選択する処理の説明に供するフローチ
ャートである。
【0144】この実施の形態では、特定枠配置を選択す
るにあたり、先ず、表様式・枠配置選択部20の項目照
合部42が、選択表様式に対応する枠配置情報を表様式
・枠配置格納部12から取得する(図9のS20)。こ
こでは、「様式2」に対応する枠配置情報(図2参照)
を読み出す。
【0145】次に、項目照合部42は、特定項目格納部
14から特定項目を読み出す(図9のS21)。ここで
は、処理対象の表から得ようとする情報の項目である特
定項目として、特定項目格納部14に格納されていた
「金額」を読み出す。
【0146】次に、項目照合部42は、特定項目「金
額」と枠配置情報の各項目とを1つずつ順次に照合する
(図9のS22)。ここでは、特定項目「金額」と、
「様式2」に対応する枠配置情報の1番目の項目「氏
名」とを照合する。
【0147】そして、照合の結果、特定項目と枠配置情
報の項目とが一致しない場合(S22の「no」の場
合)には、枠配置情報の次の項目にアクセスして(図9
のS23)、再び照合処理(S22)を行う。ここで
は、1番目の項目「氏名」と特定項目「金額」とは一致
しない。このため、次の2番目の項目「住所」について
照合処理(S22)を行う。この場合、2番目の項目
「住所」と特定項目「金額」とも一致しない。このた
め、3番目の項目「金額」について照合処理(S23、
S22)を行う。
【0148】そして、照合の結果、特定項目と枠配置情
報の項目とが一致した場合(S22の「yes」の場
合)には、項目照合部42は、枠配置情報の項目のうち
特定項目と一致した項目を、表様式・枠配置選択部20
の特定枠配置選択部44へ転送する。ここでは、3番目
の項目「金額」と特定項目「金額」とが一致する。従っ
て、項目照合部42は、3番目の項目「金額」を特定枠
配置選択部44へ転送する。
【0149】次に、特定枠配置選択部44によって、当
該特定項目に対応するデータ枠の表中での配置を枠配置
情報の中から特定枠配置として選択する(図9のS2
4)。この実施の形態では、特定枠配置選択部44は、
「様式2」に対応する枠配置情報の「金額」に対応する
データ枠の配置を特定枠配置として選択する。ここで
は、データ枠の配置は、表領域中の行番号および列番号
で表されている。具体的には、特定枠配置は「第3行第
2列」となる(図2参照)。
【0150】この実施の形態では、上述した、特定項目
と枠配置情報の項目との照合処理(S22)は、「様式
2」に対応する枠配置情報の全ての項目について同様に
行われる。そして、特定枠配置が決定される度に、制御
部(不図示)が、表様式・枠配置格納部12に格納され
ている、「様式2」に対応する枠配置情報に含まれる全
項目数を参照して、全ての項目について照合が行われた
か否かを判定する(図9のS25)。そして、全ての項
目について処理が行われていないと判定した場合(S2
5の「no」の場合)には、次の項目にアクセスして
(図9のS26)、項目照合部42にその項目と特定項
目との照合処理(S22)を行わせる。
【0151】尚、この発明では、全ての項目についての
照合は必ずしも必要ではなく、例えば、特定枠配置を決
定したステップ(S24)の後直ちに特定枠配置選択処
理を終了しても良い。
【0152】また、制御部が、全ての項目について処理
が行われたと判定した場合(S25の「yes」の場
合)には、特定枠配置選択処理を終了する。
【0153】そして、表様式・枠配置選択部20は、特
定枠配置を表す「第3行第2列」を表処理部22へ転送
する。
【0154】(ステップ5)ところで、この特定枠配置
は、特定のデータ枠の表様式における配置を示している
にすぎない。一方、イメージ画像における各矩形枠の位
置は、処理ステップS1において枠位置情報として求め
ている。
【0155】そこで、次に、表処理部22によって、枠
位置情報の中から、イメージ画像において特定枠配置に
該当する位置の矩形枠を特定矩形枠として選択する(図
5のS5)。
【0156】ここで、図10を参照して、特定矩形枠を
選択する処理ステップ(S5)について説明する。図1
0は、特定矩形枠を選択する処理の説明に供するフロー
チャートである。
【0157】この実施の形態では、特定矩形枠を選択す
るにあたり、表様式・特定枠配置選択部20から特定枠
配置を取得した表処理部22は、先ず、表領域・枠位置
抽出部16から枠位置情報を取得する(図10のS2
7)。枠位置情報には、前述したように、各矩形枠の位
置(座標)とその行番号および列番号とがそれぞれ対応
づけられている。また、特定枠配置も行番号および列番
号で与えられる。
【0158】次に、表処理部22は、当該特定枠配置に
該当する位置の矩形枠を枠位置情報の中から特定矩形枠
として選択する(図10のS28およびS30)。
【0159】そのために、この実施の形態では、先ず、
特定枠配置の行および列番号(行列番号)と、枠位置情
報の矩形枠の行および列番号(行列番号)とを1つずつ
順に照合する(図10のS28)。
【0160】そして、照合の結果、特定枠配置の行列番
号と枠位置情報の行列番号とが一致しない場合(S28
の「no」の場合)には、枠位置情報の次の項目にアク
セスして(図10のS29)、再び照合処理(S28)
を行う。
【0161】そして、照合の結果、特定枠配置の行列番
号と枠位置情報の行列番号とが一致した場合(S28の
「yes」の場合)には、表処理部22は、枠位置情報
のうち行列番号が一致した矩形枠の位置を、図12に示
すイメージ画像における特定矩形枠60の位置として決
定する(図10のS30)。特定矩形枠の位置は、その
矩形枠の4頂点の位置の座標で与えられる。
【0162】この実施の形態では、枠位置情報のうちの
行列番号が「第3行第2列」の矩形枠が特定矩形枠とし
て選択される。
【0163】この実施の形態では、上述した、特定枠配
置の行列番号と枠位置情報の行列番号との照合処理(S
28)は、全ての矩形枠について同様に行われる。そし
て、特定矩形枠が決定される度に、制御部(不図示)
が、枠位置情報を参照して、全ての矩形枠について照合
が行われたか否かを判定する(図9のS31)。そし
て、全ての矩形枠について処理が行われていないと判定
した場合(S31の「no」の場合)には、次の矩形項
目にアクセスして(図10のS32)、次の枠位置情報
を取得する(S27)。そして、再び表処理部22に次
の矩形枠の行列番号と特定枠配置の行列番号との照合処
理(S28)を行わせる。
【0164】尚、この発明では、全ての矩形枠の行列番
号についての照合は必ずしも必要ではなく、例えば、特
定矩形枠を決定したステップ(S30)の後直ちに特定
矩形枠選択処理を終了しても良い。
【0165】また、制御部(不図示)が、全ての矩形枠
について処理が行われたと判定した場合(S31の「y
es」の場合)には、特定矩形枠選択処理を終了する。
【0166】(ステップ6)次に、表処理部22によっ
て、特定矩形枠内から特定データを抽出する(図5のS
6)。
【0167】ここで、図11を参照して、特定データを
抽出する処理ステップ(S6)について説明する。図1
1は、特定データを抽出する処理の説明に供するフロー
チャートである。
【0168】この実施の形態では、特定データを抽出す
るにあたり、表処理部22は、先ず、「第3行第2列」
の特定矩形枠60(図12参照)の領域から特定データ
文字列領域を抽出する(図11のS33)。特定データ
文字列領域の抽出にあたっては、従来公知の技術を用い
ることができる。例えば、表領域・枠位置抽出部16で
抽出した矩形枠の内部のイメージ画像部分の周辺分布を
作成して、黒画素の連結成分に基づいて特定データ文字
列領域を抽出する。
【0169】続いて、表処理部22は、抽出したデータ
文字列領域に外接する外接矩形枠の座標を文字認識部2
4へ転送する。尚、外接矩形枠の座標は、外接矩形枠の
4頂点のx−y座標として表すと良い。
【0170】次に、文字認識部24は、外接矩形枠の座
標に対応するイメージ画像について文字認識を行う(図
11のS34)。文字認識部24は、文字認識にあた
り、文字認識部24の内部メモリ(不図示)に記憶され
ている辞書を参照する。そして、文字認識部24は、辞
書に格納されている標準文字のうち、認識対象と一致す
る標準文字の文字コードを認識結果として出力する。そ
して、文字認識部24は、認識結果としての文字コード
を表処理部22へ転送する。この実施の形態では、文字
認識の結果、「15,000」という金額の特定データ
を抽出したとする。
【0171】続いて、表処理部22は、この「15,0
00」の文字コードを特定データとして表処理装置10
の外部へ出力する。出力にあたっては、例えばディスプ
レイなどの出力装置を用いると良い。
【0172】このように、第1の実施の形態の表処理方
法によれば、表領域の全てについて文字認識を行わなく
とも、特定データを選択的に抽出できる。従って、表領
域の全てについて文字認識を行う場合に要する処理時間
に比べて、表処理に要する処理時間の短縮を図ることが
できる。
【0173】2.第2の実施の形態 第2の実施の形態では、この発明の第2の表処理方法お
よび装置の一例について説明する。
【0174】<表処理装置>先ず、図13を参照して、
第2の実施の形態の表処理装置の構成について説明す
る。図13は、第2の実施の形態の表処理装置の構成の
説明に供する機能ブロック図である。
【0175】この実施の形態によれば、表の特定項目に
対応するデータ(以下、「特定データ」とも称する。)
を当該表のイメージ画像から抽出する表処理装置46
は、表様式格納部48と、特定項目格納部14と、表領
域・枠位置抽出部16と、タイトル文字列領域抽出部1
8と、表様式選択部50と、表処理部54と、文字認識
部52とを具えている。
【0176】そして、この表処理装置46では、不図示
の制御部によって、信号やデータの受け渡しの動作およ
びそのタイミングが制御されている。
【0177】また、この表処理装置46は、中央演算装
置(CPU)、メモリ装置および入出力装置を具えたコ
ンピュータのハードウエアを利用して構成されている。
【0178】また、この表処理装置46に入力されるイ
メージ画像は、上述の第1の実施の形態の場合と同様
に、画像入力部26によって読み取られた後、イメージ
画像記憶部28に読み出し自在に記憶されたものであ
る。
【0179】以下、この表処理装置46の各構成成分に
ついて、それぞれ説明する。
【0180】(表様式格納部)表様式格納部48には、
表のタイトルと表様式とを対応づけて表様式情報として
格納している。さらに、この表様式格納部48には、表
様式毎に、当該表様式に属する項目の記載された項目枠
と当該項目に対応するデータが記載されたデータ枠との
配置関係を枠配置関係情報として格納している。
【0181】ここで、図14に、表様式格納部48に格
納されている、表様式情報および枠配置関係情報の例を
示す。図14に示すように、この実施の形態では、表様
式情報として、「注文書」および「依頼書」というタイ
トルをそれぞれ「様式1」および「様式2」という表様
式と1対1に対応づけて格納している。
【0182】さらに、この表様式格納部48には、表様
式毎に、項目枠とデータ枠の配置関係を枠配置関係情報
として格納している。図14に示すように、この実施の
形態では、「様式1」の場合は「項目枠の下側にデータ
枠がある」という枠配置関係情報が格納されている。ま
た、「様式2」の場合は、「項目枠の右側にデータ枠が
ある」という枠配置関係情報が格納されている。
【0183】このように、第2の実施の形態では、枠配
置関係情報として、項目枠とデータ枠との相対的な配置
関係を登録している。すなわち、特定矩形枠の表中での
配置は、1箇所に限定されない。このため、1つの表様
式での特定矩形枠の配置は、枠配置関係情報の示す相対
的な配置関係を満たす範囲内で任意の配置とすることが
できる。従って、第2の実施の形態の表処理装置によれ
ば、特定矩形枠の配置を1箇所に限定した場合に処理対
象となる表の種類の数よりも、より多くの種類の表を処
理対象とすることができる。
【0184】(特定項目格納部)特定項目格納部14に
は、特定項目を格納しておく。この実施の形態では、特
定項目として、例えば「金額」を格納しておく。尚、特
定項目は、表処理の途中で、例えばキーボードなどの入
力装置を用いて入力しても良い。
【0185】(表領域・枠位置抽出部)表領域・枠位置
抽出部16は、処理の実行にあたり、先ず、イメージ画
像記憶部28からイメージ画像を読み出す。そして、表
領域・枠位置抽出部16は、読み出されたイメージ画像
から、表領域を抽出する。さらに、表領域・枠位置抽出
部16は、イメージ画像からこの表領域を構成する各矩
形枠の位置を枠位置情報として抽出する。尚、第2の実
施の形態の表領域・枠位置抽出部16は、上述した第1
の実施の形態の場合と同一の構成であるので、その詳細
な説明を省略する。
【0186】(タイトル文字列領域抽出部)タイトル文
字列領域抽出部18は、イメージ画像のうちの非表領域
からタイトル文字列領域を抽出する。続いて、タイトル
文字列領域抽出部18は、抽出した当該タイトル文字列
領域を文字認識部24に転送する。さらに、タイトル文
字列領域抽出部18は、文字認識部24から、文字認識
結果である抽出タイトルを取得する。尚、第2の実施の
形態のタイトル文字列領域抽出部18は、上述した第1
の実施の形態の場合と同一の構成であるので、その詳細
な説明を省略する。
【0187】(表様式選択部)また、表様式選択部50
は、先ず、タイトル文字列領域抽出部18から抽出タイ
トルを取得する。さらに、表様式選択部50は、表様式
格納部48から表様式情報を読み出す。そして、表様式
選択部50は、当該表様式情報の中から当該抽出タイト
ルに対応する表様式を選択表様式として選択する。続い
て、表様式選択部50は、表様式格納部48から該選択
表様式に対応する枠配置関係情報を選択枠配置関係情報
として読み出す。
【0188】(表処理部)そして、表処理部54は、先
ず、表領域・枠位置抽出部16から枠位置情報を取得す
る。そして、表処理部54は、当該枠位置情報の示す矩
形枠の中から項目枠を選択する。この実施の形態では、
表領域から項目枠を選択するにあたり、表処理部54
は、先ず、各矩形枠の面積をそれぞれ求める。次に、表
処理部54は、矩形枠のうち、一定面積以下の面積を有
する矩形枠を項目枠として選択する。
【0189】続いて、表処理部54は、項目枠の各々か
ら項目文字列領域を抽出する。項目文字列領域の抽出に
あたっては、従来公知の技術を用いることができる。こ
の実施の形態では、例えば、表領域・枠位置抽出部16
で抽出した矩形枠の内部のイメージ画像部分の周辺分布
を作成して、この周辺分布における黒画素の連結成分に
基づいて各項目文字列領域をそれぞれ抽出する。
【0190】さらに、表処理部54は、当該項目文字列
領域を文字認識部52に転送する。この実施の形態で
は、各項目文字列領域の外接座標をそれぞれ求め、この
外接座標をそれぞれ文字認識部52に転送する。
【0191】また、表処理部54は、文字認識部52か
ら抽出項目を取得する。この実施の形態では、文字認識
結果として各項目の文字コードをそれぞれ取得する。
【0192】続いて、表処理部54は、特定項目格納部
14から特定項目を読み出す。
【0193】そして、表処理部54は、項目枠の中から
当該特定項目が抽出項目として記載された項目枠を特定
項目枠として選択する。
【0194】さらに、表処理部54は、表様式選択部5
0から選択枠配置関係情報を取得する。配置関係情報と
は、上述したように、例えば「項目枠の右側にデータ枠
がある」というものである。
【0195】そして、表処理部54は、特定項目枠の位
置に対して当該選択枠配置関係情報の示す位置にある矩
形枠をイメージ画像から特定矩形枠として抽出する。例
えば、特定項目枠が表の3行1列目の矩形枠である場
合、その矩形枠の右側の3行2列目の矩形枠が、特定矩
形枠として抽出される。
【0196】また、表処理部54は、特定矩形枠内から
特定データ文字列領域を抽出する。特定データ文字列領
域の抽出にあたっては、従来公知の技術を用いることが
できる。この実施の形態では、例えば、表領域・枠位置
抽出部16で抽出した矩形枠の内部のイメージ画像部分
の周辺分布を作成して、この周辺分布における黒画素の
連結成分に基づいて特定データ文字列領域を検出する。
【0197】続いて、表処理部54は、当該特定データ
文字列領域を文字認識部に転送する。この実施の形態で
は、特定データ文字列領域の外接座標を求め、この外接
座標を文字認識部52に転送する。
【0198】そして、表処理部54は、文字認識部52
から特定データを取得する。この実施の形態では、文字
認識結果として特定データの文字コードを取得する。
【0199】このように、第2の実施の形態では、表領
域の中の項目枠についてのみ文字認識を行うことによ
り、特定データを選択的に抽出できる。その結果、この
表処理装置によれば、表領域の全てについて文字認識を
行う場合に要する処理時間に比べて、表処理に要する処
理時間の短縮を図ることができる。
【0200】(文字認識部)また、文字認識部52は、
文字認識にあたり、文字認識部52の内部メモリ(不図
示)に記憶されている辞書を参照する。そして、文字認
識部52は、辞書に格納されている標準文字のうち、認
識対象と一致する標準文字の文字コードを認識結果とし
て出力する。文字コードには、例えば、JISコードを
用いると良い。
【0201】例えば、抽出タイトルを抽出する場合は、
文字認識部52は、前述したように、タイトル文字列領
域抽出部18からタイトル文字列領域を取得する。そし
て、文字認識部52は、イメージ画像のうちのタイトル
文字列領域について文字認識を行って、抽出タイトルを
文字コードとして抽出する。抽出タイトルは、前述した
ように、再びタイトル文字列領域抽出部18へ転送され
る。
【0202】また、項目を抽出する場合は、文字認識部
52は、表処理部54から項目文字列領域を取得する。
そして、文字認識部52は、イメージ画像のうちの項目
文字列領域について文字認識を行って、項目を文字コー
ドとして抽出する。抽出された項目は、前述したよう
に、再び表処理部54へ転送される。
【0203】また、特定データを抽出する場合は、文字
認識部52は、表処理部54から特定データ文字列領域
を取得する。そして、文字認識部52は、イメージ画像
のうちの特定データ文字列領域について文字認識を行っ
て、特定データを文字コードとして抽出する。抽出され
た特定データは、前述したように、再び表処理部54へ
転送される。
【0204】<表処理方法>次に、図15を参照して、
第2の実施の形態の表処理方法、すなわち、図13に示
す表処理装置の動作の一例について説明する。図15
は、第2の実施の形態の表処理方法の説明に供するフロ
ーチャートである。また、この実施の形態では、図12
に示す「依頼書」の表を処理対象として、この「依頼
書」のうちの特定項目「金額」のデータである「15,
000」円を特定データとして抽出する例について説明
する。尚、図12に示す表においては、「金額」という
特定項目は、3行1列目の矩形枠に記載されている。ま
た、「15,000」という特定データは、3行2列目
の矩形枠に記載されている。
【0205】第2の実施の形態の表処理方法によれば、
表の特定項目に対応するデータ(以下、「特定データ」
とも称する。)を当該表のイメージ画像から抽出するに
あたり、先ず、表様式格納部48に、表のタイトルと表
様式とを対応づけて表様式情報として予め格納してお
く。さらに、この表様式格納部48に、表様式毎に、当
該表様式に属する項目の記載された項目枠と、当該項目
に対応するデータが記載されたデータ枠との配置関係を
枠配置関係情報として予め格納しておく。
【0206】このように、第2の実施の形態では、枠配
置関係情報として、項目枠とデータ枠との相対的な配置
関係を登録している。すなわち、特定矩形枠の表中での
配置は、1箇所に限定されない。このため、1つの表様
式での特定項目枠と特定矩形枠との配置関係は、枠配置
関係情報の示す相対的な配置関係を満たす範囲内で任意
の配置とすることができる。
【0207】ここで、図16の(A)および(B)に、
それぞれ「依頼書」の表のイメージ画像の他の例を示
す。図16の(A)および(B)に示す表では、図12
に示す表に対して、特定データの配置が他のデータ枠と
入れ替わっている。すなわち、図16の(A)に示す表
では、「金額」という特定項目は、3行1列目ではな
く、2行1列目の矩形枠(特定項目枠)に記載されてい
る。また、「15,000」という特定データは、2行
2列の矩形枠(特定矩形枠)に記載されている。一方、
図16の(B)に示す表では、「金額」という特定項目
は、1行1列目の矩形枠(特定項目枠)に記載されてい
る。また、「15,000」という特定データは、1行
2列の矩形枠(特定矩形枠)に記載されている。
【0208】そして、図16の(A)および(B)のい
ずれの表においても、特定矩形枠は、特定項目枠の右側
に記載されている。従って、図16の(A)および
(B)の表は、いずれも、「項目枠の右側にデータ枠が
ある」という相対的な配置関係を満たしている。このた
め、第2の実施の形態では、図12に示した表の他に、
例えば図16の(A)および(B)に示した表について
も、図14に示した枠配置関係情報を用いて、特定デー
タの抽出を行うことができる。従って、第2の実施の形
態によれば、特定データの配置が他のデータ枠と入れ替
わっても、特定矩形枠の配置を1箇所に限定した場合に
処理対象となる表の種類の数よりも、より多くの種類の
表を処理対象とすることができる。
【0209】(ステップ1)そして、第2の実施の形態
では、先ず、表領域・枠位置抽出部16によって、イメ
ージ画像から、表領域を抽出すると共に、該表領域を構
成する各矩形枠の位置を枠位置情報として抽出する(図
15のS1)。尚、第2の実施の形態のステップ1の処
理は、上述した第1の実施の形態におけるステップ1の
処理と同一であるので、その詳細な説明を省略する。
【0210】(ステップ2)次に、タイトル文字列領域
抽出部18および文字認識部52によって、イメージ画
像のうちの非表領域から表のタイトルを抽出タイトルと
して抽出する(図15のS2)。この実施の形態では、
文字認識の結果、「依頼書」という抽出タイトルを抽出
したとする。尚、第2の実施の形態のステップ2の処理
は、上述した第1の実施の形態におけるステップ2の処
理と同一であるので、その詳細な説明を省略する。
【0211】(ステップ3)次に、表様式選択部50に
よって、表様式格納部から表様式情報を読み出して、当
該表様式情報の中から抽出タイトルに対応する表様式を
選択表様式として選択し、かつ、表様式格納部から当該
選択表様式に対応する枠配置関係情報を選択枠配置関係
情報として読み出す(図15のS3)。
【0212】ここで、図17を参照して、選択表様式を
選択して選択表様式の枠配置関係情報を読み出す処理ス
テップ(S3)について説明する。図17は、選択表様
式の選択処理の説明に供するフローチャートである。
【0213】この実施の形態では、選択表様式を選択す
るにあたり、先ず、表様式選択部50が、タイトル文字
列領域抽出部18から抽出タイトルを取得する(図17
のS9)。ここでは、抽出タイトルとして、「依頼書」
の文字コードを取得する。
【0214】次に、表様式選択部50は、表様式格納部
48から、表様式情報を1つずつ順次に読み出す(図1
7のS10)。この実施の形態では、前述したように、
表様式格納部48に、図14に示した表様式情報を格納
している。ここでは、先ず、1番目の表様式情報とし
て、「注文書−様式1」を読み出す。
【0215】次に、表様式選択部50は、抽出タイトル
と表様式情報とを照合する(図17のS11)。
【0216】ここでは、先ず、抽出タイトルである「依
頼書」の文字コードと、1回目に読み出された表様式情
報のタイトルである「注文書」の文字コードとを照合す
る。この場合、1回目の照合結果は一致しない。
【0217】照合結果が一致しない場合(S11のステ
ップの「no」の場合)、表様式選択部50は、次の表
様式情報へアクセスして(図17のS12)、2番目の
表様式情報として「依頼書−様式2」を読み出す(図1
7のS10)。そして、1回目と同様に、抽出タイトル
である「依頼書」の文字コードと、2回目に読み出され
た表様式のタイトルである「依頼書」の文字コードとを
照合する。この場合、2回目の照合結果は一致する。
【0218】次に、表様式選択部50は、表様式を決定
する(図17のS13)。この実施の形態では、表様式
選択部50は、「依頼書」に対応する「様式2」を選択
表様式として決定する(図17のS13)。
【0219】この実施の形態では、上述した、表様式選
択処理の照合処理(S11)は、全ての表様式情報につ
いて同様に行われる。そして、選択表様式が決定される
度に、制御部(不図示)が、表様式格納部48に格納さ
れている全表様式数を参照して、全ての表様式について
照合が行われたか否かを判定する(図17のS14)。
そして、全ての表様式について処理が行われていないと
判定した場合(S14の「no」の場合)には、次の表
様式情報にアクセスして(図17のS15)、表様式選
択部50にその表様式情報を読み出させる。そして、再
び表様式情報と抽出タイトルとの照合処理(S11)を
行う。
【0220】尚、この発明では、全ての表処理情報につ
いての照合は必ずしも必要ではなく、例えば、選択表様
式を決定したステップ(S13)の後直ちに次のステッ
プ(図17のS16)へ進んで枠配置関係情報を読み出
しても良い。
【0221】また、制御部(不図示)が、全ての表様式
について処理が行われたと判定した場合(S14の「y
es」の場合)には、表様式選択部50は、表様式格納
部48から、選択表様式に対応する枠配置関係情報を読
み出す(図17のS16)。この実施の形態では、「様
式2」に対応する「項目枠の右側にデータ枠がある」と
いう枠配置関係情報を読み出す。そして、図17に示す
表様式選択処理を終了する。
【0222】(ステップ4)次に、表処理部54によっ
て、枠位置情報の示す矩形枠の中から項目枠を選択する
(図15のS4)。
【0223】ここで、図18を参照して、項目枠を選択
する処理ステップ(図15のS4)について説明する。
図18は、項目枠選択処理の説明に供するフローチャー
トである。この実施の形態では、表領域の矩形枠のう
ち、項目枠の面積は、データ枠の面積よりも一般に小さ
い傾向があることを利用して項目枠を選択する。
【0224】そこで、この実施の形態では、項目枠を選
択するにあたり、表領域・枠位置抽出部16から枠位置
情報を取得した表処理部54は、先ず、矩形枠の面積を
求める(図18のS17)。
【0225】次に、表処理部54は、矩形枠の面積が、
一定面積以下であるかを判定する(図18のS18)。
この一定面積は、任意好適な値を設定すると良い。設定
にあたっては、例えば、キーボードなどの入力手段を用
いて表処理を開始する前に、もしくは処理対象の表領域
毎に一定面積の値を入力すると良い。
【0226】そして、判定の結果、矩形枠の面積が一定
面積以下でないと判定された場合(S18の「no」の
場合)は、次の矩形枠にアクセスして(図18のS1
9)、再び矩形枠の面積を求めて(S17)、その面積
が一定面積以下であるか否かを判定する(S18)。
【0227】そして、判定の結果、矩形枠の面積が一定
面積以下であると判定された場合(S18の「yes」
の場合)は、表処理装置54は、その矩形枠を項目枠と
して選択する(図18のS20)。この実施の形態で
は、図12に示す表を構成する各矩形枠のうち、1行1
列目の「氏名」の記載された矩形枠、2行1列目の「住
所」の記載された矩形枠、3行1列目の「金額」の記載
された矩形枠が項目枠として選択される。
【0228】この実施の形態では、上述した、項目枠選
択処理の判定処理(S18)は、全ての矩形枠について
同様に行われる。そして、項目枠が選択される度に、制
御部(不図示)が、表領域・枠位置抽出部16で抽出さ
れた全矩形枠数を参照して、全ての矩形枠について判定
が行われたか否かを判定する(図18のS22)。そし
て、全ての矩形枠について判定処理が行われていないと
判定した場合(S22の「no」の場合)には、次の矩
形枠にアクセスして(図18のS23)、次の矩形枠に
ついて判定処理(S18)を行う。
【0229】また、制御部(不図示)が、全ての矩形枠
について判定処理が行われたと判定した場合(S22の
「yes」の場合)には、表処理部54は、項目枠の選
択処理を終了する。
【0230】(ステップ5)そして、表処理部54およ
び文字認識部52によって、項目枠の各々に記載された
項目をそれぞれ抽出項目として抽出する(図15のS
5)。
【0231】ここで、図19を参照して、抽出項目を抽
出する処理ステップ(S5)について説明する。図19
は、抽出項目を抽出する処理の説明に供するフローチャ
ートである。
【0232】この実施の形態では、抽出項目を抽出する
にあたり、表処理部54は、先ず、選択された各項目枠
からそれぞれ項目文字列領域を抽出する(図19のS2
4)。項目文字列領域の抽出にあたっては、従来公知に
技術を用いることができる。例えば、表領域・枠位置抽
出部16で抽出した矩形枠の内部のイメージ画像部分の
周辺分布を作成して、その周辺分布における黒画素の連
結成分に基づいて項目文字列領域を検出すると良い。
【0233】続いて、表処理部54は、抽出した項目文
字列領域に外接する外接矩形枠の座標を文字認識部52
へ転送する。尚、外接矩形枠の座標は、外接矩形枠の4
頂点のx−y座標として表すと良い。
【0234】次に、文字認識部52は、外接矩形枠の座
標に対応するイメージ画像について文字認識を行う(図
19のS25)。文字認識部52は、文字認識にあた
り、文字認識部52の内部メモリ(不図示)に記憶され
ている辞書を参照する。そして、文字認識部52は、辞
書に格納されている標準文字のうち、認識対象と一致す
る標準文字の文字コードを認識結果として出力する。そ
して、文字認識部52は、認識結果としての文字コード
を表処理部54へ転送する。この実施の形態では、認識
結果として、「氏名」、「住所」および「金額」の文字
コードがそれぞれ表処理部54へ転送される。
【0235】(ステップ6)次に、表処理部54によっ
て、特定項目格納部14から特定項目を読み出して、当
該特定項目が抽出項目として記載された項目枠を項目枠
の中から特定項目枠として選択する(図15のS6)。
【0236】ここで、図20を参照して、特定項目枠を
選択する処理ステップ(S6)について説明する。図2
0は、特定項目枠を選択する処理の説明に供するフロー
チャートである。
【0237】この実施の形態では、特定項目枠を選択す
るにあたり、先ず、表処理部54が、特定項目格納部1
4から特定項目を読み出す(図20のS26)。ここで
は、特定項目として「金額」が読み出される。
【0238】次に、表処理部54は、当該表処理部54
の内部メモリ(不図示)からステップ5で選択された抽
出項目を1つずつ読み出す(図20のS27)。ここで
は、先ず、「氏名」が読み出される。
【0239】次に、表処理部54は、特定項目と抽出項
目とを比較する(図20のS28)。ここでは、先ず、
特定項目「金額」と1つ目の抽出項目「氏名」とを照合
する。
【0240】そして、照合の結果、特定項目と抽出項目
とが一致しない場合(S28の「no」の場合)には、
次の抽出項目にアクセスして(図20のS29)、再び
照合処理(S28)を行う。ここでは、特定項目「金
額」と1番目の抽出項目「氏名」とは一致しない。この
ため、次の2番目の抽出項目「住所」について照合処理
(S28)を行う。この場合、2番目の抽出項目「住
所」についても一致しない。このため、3番目の抽出項
目「金額」について照合処理(S28)を行う。
【0241】そして、照合の結果、特定項目と抽出項目
とが一致した場合(S28の「yes」の場合)には、
表処理部54は、その一致した抽出項目の記載された項
目枠を特定項目枠として決定する(図20のS30)。
ここでは、3番目の抽出項目「金額」と特定項目「金
額」とが一致する。従って、表処理部54は、3番目の
抽出項目「金額」の記載された3行1列目の項目枠を特
定項目枠として選択する。
【0242】この実施の形態では、上述した、特定項目
と抽出項目との照合処理(S28)は、全ての抽出項目
について同様に行われる。そして、特定項目枠が決定さ
れる度に、制御部(不図示)が、表処理部54の内部メ
モリに格納されている全抽出項目数を参照して、全ての
抽出項目について照合が行われたか否かを判定する(図
20のS31)。そして、全ての抽出項目について処理
が行われていないと判定した場合(S31の「no」の
場合)には、次の抽出項目にアクセスして(図20のS
32)、次の抽出項目のついて照合処理(S28)を行
う。
【0243】尚、この発明では、全ての項目についての
照合は必ずしも必要ではなく、例えば、特定項目枠を決
定したステップ(S30)の後直ちに特定項目枠選択処
理を終了しても良い。
【0244】また、制御部(不図示)が、全ての項目に
ついて処理が行われたと判定した場合(S31の「ye
s」の場合)には、特定項目枠選択処理を終了する。こ
こでは、「金額」の記載された3番目の抽出項目の照合
処理を行うことで、全ての抽出項目について照合処理が
行われたことになるので、S32のステップに進むこと
なく特定項目枠の選択処理を終了する。
【0245】(ステップ7)次に、表処理部54によっ
て、特定項目枠の位置に対して選択枠配置関係情報の示
す位置にある矩形枠をイメージ画像から特定矩形枠とし
て抽出する(図15のS7)。
【0246】ここで、図21を参照して、特定矩形枠を
抽出する処理ステップ(S7)について説明する。図2
1は、特定矩形枠を抽出する処理の説明に供するフロー
チャートである。
【0247】この実施の形態では、特定矩形枠を抽出す
るにあたり、先ず、表様式選択部50から選択表様式に
対応する枠配置関係情報を取得する(図21のS3
3)。ここでは、「様式2」に対応する、「項目枠の右
側に矩形枠がある」という枠配置関係情報を取得する。
【0248】次に、表処理部54は、表処理部54の内
部メモリに記憶されていた特定項目枠を取得する(図2
1のS34)。この実施の形態では、特定項目枠として
「3行1列目」を取得する。
【0249】次に、表処理部54は、この特定項目枠に
対して、枠配置関係情報の示す位置にある矩形枠を特定
矩形枠として抽出する(図21のS35)。この実施の
形態では、特定項目枠「3行1列目」に対して、枠配置
関係情報「項目枠の右側にデータ枠がある」という関係
にある矩形枠、すなわち、「3行2列目」の矩形枠を特
定矩形枠として抽出する。
【0250】例えば、特定項目枠が複数個選択されてい
る場合、上述した特定矩形枠の抽出は、全ての特定項目
枠について行われる。そして、特定矩形枠が抽出される
度に、制御部(不図示)が、表処理部54の内部メモリ
に格納されている全特定項目枠数を参照して、全ての特
定項目枠について処理(S35)が行われたか否かを判
定する(図21のS36)。そして、全ての特定項目枠
について処理(S35)が行われていないと判定した場
合(S36の「no」の場合)には、次の特定項目枠に
アクセスして(図21のS37)、その特定項目枠につ
いての特定矩形枠を抽出する(S35)。
【0251】また、制御部(不図示)が、全ての特定項
目枠について処理(S35)が行われたと判定した場合
(S36の「yes」の場合)には、特定矩形枠の抽出
処理を終了する。この実施の形態では、特定項目枠は1
つであるので、特定矩形枠を抽出した後、S37へ進む
ことなく特定矩形枠抽出処理を終了する。
【0252】(ステップ8)次に、表処理部54によっ
て、特定矩形枠内から特定データを抽出する(図15の
S8)。この実施の形態では、「15,000」という
金額の特定データを抽出する。尚、第2の実施の形態の
ステップ8の処理は、上述した第1の実施の形態におけ
るステップ6の処理と同一であるので、その詳細な説明
を省略する。
【0253】続いて、表処理部54は、この「15,0
00」の文字コードを特定データとして表処理装置46
の外部へ出力する。
【0254】このように、第2の実施の形態の表処理方
法によれば、表領域の中の項目枠についてのみ文字認識
を行うことにより、特定データを選択的に抽出できる。
その結果、この表処理方法によれば、表領域の全てにつ
いて文字認識を行う場合に要する処理時間に比べて、表
処理に要する処理時間の短縮を図ることができる。
【0255】
【発明の効果】第1の表処理方法および装置によれば、
タイトルと表様式を対応づけて登録して格納しておく。
このため、イメージ画像から抽出されたタイトルを用い
て、表様式を決定することができる。また、各表様式に
ついて、当該表様式に属する項目毎のデータ枠の配置を
それぞれ登録して格納しておく。このため、タイトルを
抽出し、かつ特定項目を指定することにより、特定項目
に対応するデータ枠の表中に配置(特定枠配置)を決定
することができる。すなわち、表領域について文字認識
を行う前に、特定枠配置を決定することができる。その
結果、イメージ画像のうち、特定枠配置に相当する矩形
枠の領域について選択的に文字認識をすることによっ
て、特定データを抽出することができる。すなわち、表
領域の全てについて文字認識を行わなくとも、特定デー
タを抽出することができる。このため、表中の全ての文
字パタンの文字認識を行う場合に比べて、短時間で特定
データを抽出することができる。その結果、表処理に要
する時間の短縮を図ることができる。
【0256】また、第2の表処理方法および装置におい
ては、タイトルと表様式とを対応づけて表様式情報とし
て予め登録しておく。このように登録しておけば、イメ
ージ画像から抽出したタイトル(抽出タイトル)を用い
て、表様式を選択することができる。さらに、この処理
方法では、表様式毎に、項目枠とデータ枠との配置関係
を枠配置関係情報として予め登録しておく。このように
登録しておけば、表様式を選択することにより、その選
択表様式における項目枠とデータ枠との配置関係(例え
ば、その選択表様式においては、項目枠の右側に隣接し
てデータ枠が配置されているという配置関係)を定める
ことができる。
【0257】一方、第2の表処理方法および装置におい
ては、表領域の矩形枠の中から項目枠を選択する。続い
て、選択された項目枠について文字認識を行って、各項
目枠から項目を抽出する。そして、項目枠の中から特定
項目が記載された特定項目枠を選択する。特定項目は、
例えば予め指定しておくと良い。
【0258】従って、この表処理方法においては、選択
された特定項目枠の位置に対して、枠配置関係情報の示
す配置関係に位置するデータ枠を特定矩形枠として選択
することができる。すなわち、表領域の矩形枠のうち、
項目枠についてのみ文字認識を行うことにより、特定デ
ータを選択的に抽出できる。その結果、表領域の全てに
ついて文字認識を行わなくとも、特定データを選択的に
抽出することができる。このため、表領域の全てについ
て文字認識を行ってから特定データを抽出する場合に要
する処理時間に比べて、この処理方法では、特定データ
の抽出に要する処理時間の短縮を図ることができる。す
なわち、表処理に要する時間の短縮を図ることができ
る。
【0259】さらに、第2の表処理方法および装置によ
れば、枠配置関係情報として、項目枠とデータ枠との相
対的な配置関係を登録している。すなわち、特定矩形枠
の表中での配置は、1箇所に限定されない。このため、
1つの表様式での特定矩形枠の配置は、枠配置関係情報
の示す相対的な配置関係を満たす範囲内で任意の配置と
することができる。従って、第2の表処理方法によれ
ば、特定矩形枠の配置を1箇所に限定した場合に処理対
象となる表の種類の数よりも、より多くの種類の表を処
理対象とすることができる。
【図面の簡単な説明】
【図1】第1の実施の形態の表処理装置の構成の説明に
供する機能ブロック図である。
【図2】表様式情報および枠配置情報の例を示す図であ
る。
【図3】表領域・枠位置抽出部の説明に供する機能ブロ
ック図である。
【図4】表様式・枠配置選択部の説明に供する機能ブロ
ック図である。
【図5】第1の実施の形態の表処理方法の説明に供する
フローチャートである。
【図6】表領域・枠位置抽出処理の説明に供するフロー
チャートである。
【図7】抽出タイトル抽出処理の説明に供するフローチ
ャートである。
【図8】選択表様式選択処理の説明に供するフローチャ
ートである。
【図9】特定枠配置選択処理の説明に供するフローチャ
ートである。
【図10】特定矩形枠選択処理の説明に供するフローチ
ャートである。
【図11】特定データ抽出処理のフローチャートであ
る。
【図12】処理対象の表のイメージ画像例を示す図であ
る。
【図13】第2の実施の形態の表処理装置の構成の説明
に供する機能ブロック図である。
【図14】表様式情報および枠配置関係情報の例を示す
図である。
【図15】第2の実施の形態の表処理方法の説明に供す
るフローチャートである。
【図16】(A)および(B)は、処理対象の表のイメ
ージ画像例を示す図である。
【図17】表様式選択処理の説明に供するフローチャー
トである。
【図18】項目枠選択処理の説明に供するフローチャー
トである。
【図19】項目抽出処理の説明に供するフローチャート
である。
【図20】特定項目枠選択処理の説明に供するフローチ
ャートである。
【図21】特定矩形枠抽出処理の説明に供するフローチ
ャートである。
【符号の説明】
10:表処理装置 12:表様式・枠配置格納部 14:特定項目格納部 16:表領域・枠位置抽出部 18:タイトル文字列領域抽出部 20:表様式・枠配置選択部 22:表処理部 24:文字認識部 26:画像読取部 28:イメージ画像記憶部 30:周辺分布作成部 32:罫線抽出部 34:枠位置抽出部 36:表領域抽出部 38:タイトル照合部 40:表様式選択部 42:項目照合部 44:特定枠配置選択部 46:表処理装置 48:表様式格納部 50:表様式選択部 52:文字認識部 54:表処理部 58:表領域 60:特定矩形枠

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 表の特定項目に対応するデータ(以下、
    「特定データ」とも称する。)を当該表のイメージ画像
    から抽出するにあたり、 表様式・枠配置格納部に、表のタイトルと表様式とを対
    応づけて表様式情報として予め格納しておくと共に、前
    記表様式毎に、当該表様式に属する項目と当該項目に対
    応するデータが記載されたデータ枠の表中での配置とを
    対応づけて枠配置情報として予め格納しておき、 (a)前記イメージ画像から、表領域を抽出すると共
    に、該表領域を構成する各矩形枠の位置を枠位置情報と
    して抽出する処理と、 (b)前記イメージ画像のうちの非表領域から、前記表
    のタイトルを抽出タイトルとして抽出する処理と、 (c)前記表様式・枠配置格納部から前記表様式情報を
    読み出して、当該表様式情報の中から前記抽出タイトル
    に対応する表様式を選択表様式として選択する処理と、 (d)前記選択表様式に対応する前記枠配置情報を前記
    表様式・枠配置格納部から読み出して、当該枠配置情報
    の中から前記特定項目に対応するデータ枠の表中での配
    置を特定枠配置として選択する処理と、 (e)前記(a)の処理で抽出された前記枠位置情報の
    中から前記イメージ画像において前記特定枠配置に該当
    する位置の矩形枠を特定矩形枠として選択する処理と、 (f)前記特定矩形枠内から前記特定データを抽出する
    処理とを含むことを特徴とする表処理方法。
  2. 【請求項2】 請求項1に記載の表処理方法において、
    前記(a)の処理は、 前記イメージ画像を複数の方向にそれぞれ走査して、前
    記方向毎に、走査線毎の累積黒画素数を検出して周辺分
    布を作成する処理と、 前記周辺分布に基づいて、前記イメージ画像から縦罫線
    および横罫線をそれぞれ抽出する処理と、 抽出された前記縦罫線および前記横罫線に囲まれた前記
    矩形枠をそれぞれ抽出し、抽出された前記矩形枠の位置
    を前記枠位置情報とする処理と、 各前記矩形枠でもって構成される前記表領域を抽出する
    処理とを含むことを特徴とする表処理方法。
  3. 【請求項3】 請求項1に記載の表処理方法において、
    前記(b)の処理は、 前記非表領域からタイトル文字列領域を抽出する処理
    と、 前記イメージ画像のうちの前記タイトル文字列領域につ
    いて文字認識処理を行って、前記抽出タイトルを抽出す
    る処理とを含むことを特徴とする表処理方法。
  4. 【請求項4】 請求項1に記載の表処理方法において、
    前記(f)の処理は、 前記特定矩形枠内から特定データ文字列領域を抽出する
    処理と、 前記特定データ文字列領域について文字認識処理を行っ
    て、前記特定データを抽出する処理とを含むことを特徴
    とする表処理方法。
  5. 【請求項5】 表の特定項目に対応するデータ(以下、
    「特定データ」とも称する。)を当該表のイメージ画像
    から抽出する表処理装置において、 表様式・枠配置格納部と、特定項目格納部と、表領域・
    枠位置抽出部と、タイトル文字列領域抽出部と、表様式
    ・枠配置選択部と、表処理部と、文字認識部とを具え、 前記表様式・枠配置格納部は、表のタイトルと表様式と
    を対応づけて表様式情報として格納しておくと共に、前
    記表様式毎に、当該表様式に属する項目と当該項目に対
    応するデータが記載されたデータ枠の表中での配置とを
    対応づけて枠配置情報として格納しておくための構成を
    有し、 前記特定項目格納部は、前記特定項目を格納しておくた
    めの構成を有し、 前記表領域・枠位置抽出部は、前記イメージ画像から、
    表領域を抽出すると共に、該表領域を構成する各矩形枠
    の位置を枠位置情報として抽出する構成を有し、 前記タイトル文字列領域抽出部は、前記イメージ画像の
    うちの非表領域からタイトル文字列領域を抽出し、当該
    タイトル文字列領域を前記文字認識部に転送し、前記文
    字認識部から抽出タイトルを取得する構成を有し、 前記表様式・枠配置選択部は、前記タイトル文字列領域
    抽出部から前記抽出タイトルを取得すると共に、前記表
    様式・枠配置格納部から前記表様式情報を読み出して、
    当該表様式情報の中から当該抽出タイトルに対応する表
    様式を選択表様式として選択し、かつ、当該選択表様式
    に対応する前記枠配置情報を前記表様式・枠配置格納部
    から読み出すと共に、前記特定項目格納部から前記特定
    項目を読み出して、当該特定項目に対応するデータ枠の
    表中での配置を当該枠配置情報の中から特定枠配置とし
    て選択する構成を有し、 前記表処理部は、前記表様式・特定枠配置選択部から前
    記特定枠配置を取得すると共に、前記表領域・枠位置抽
    出部から前記枠位置情報を取得して、当該特定枠配置に
    該当する位置の矩形枠を当該枠位置情報の中から特定矩
    形枠として選択し、かつ、当該特定矩形枠内から特定デ
    ータ文字列領域を抽出し、当該特定データ文字列領域を
    前記文字認識部に転送し、前記文字認識部から前記特定
    データを取得する構成を有し、 前記文字認識部は、前記タイトル文字列領域抽出部から
    前記タイトル文字列領域を取得し、前記イメージ画像の
    うちの当該タイトル文字列領域について文字認識を行っ
    て、前記抽出タイトルを抽出し、かつ、前記表処理部か
    ら前記特定データ文字列領域を取得して、前記イメージ
    画像のうちの前記特定データ文字列領域について文字認
    識を行って、前記特定データを抽出する構成を有するこ
    とを特徴とする表処理装置。
  6. 【請求項6】 請求項5に記載の表処理装置において、
    前記表領域・枠位置抽出部は、 前記イメージ画像を複数の方向にそれぞれ走査して、前
    記方向毎に、走査線毎の累積黒画素数を検出して周辺分
    布を作成する周辺分布作成部と、 前記周辺分布に基づいて、前記イメージ画像から縦罫線
    および横罫線をそれぞれ抽出する罫線抽出部と、 抽出された前記縦罫線および前記横罫線に囲まれた前記
    矩形枠をそれぞれ抽出し、抽出された前記矩形枠の位置
    を前記枠位置情報とする矩形枠抽出部と、 各前記矩形枠でもって構成される前記表領域を表領域抽
    出部とを含むことを特徴とする表処理装置。
  7. 【請求項7】 表の特定項目に対応するデータ(以下、
    「特定データ」とも称する。)を当該表のイメージ画像
    から抽出するにあたり、 表様式格納部に、表のタイトルと表様式とを対応づけて
    表様式情報として予め格納しておくと共に、前記表様式
    毎に、当該表様式に属する項目の記載された項目枠と当
    該項目に対応するデータが記載されたデータ枠との配置
    関係を枠配置関係情報として予め格納しておき、 (a)前記イメージ画像から、表領域を抽出すると共
    に、該表領域を構成する各矩形枠の位置を枠位置情報と
    して抽出する処理と、 (b)前記イメージ画像のうちの非表領域から前記表の
    タイトルを抽出タイトルとして抽出する処理と、 (c)前記表様式格納部から前記表様式情報を読み出し
    て、当該表様式情報の中から前記抽出タイトルに対応す
    る表様式を選択表様式として選択し、かつ、前記表様式
    格納部から当該選択表様式に対応する枠配置関係情報を
    選択枠配置関係情報として読み出す処理と、 (d)前記(a)の処理で抽出された前記枠位置情報の
    示す前記矩形枠の中から項目枠を選択する処理と、 (e)前記項目枠の各々に記載された項目をそれぞれ抽
    出項目として抽出する処理と、 (f)前記抽出項目として前記特定項目が記載された項
    目枠を前記項目枠の中から特定項目枠として選択する処
    理と、 (g)前記特定項目枠の位置に対して前記選択枠配置関
    係情報の示す位置にある矩形枠を前記イメージ画像から
    特定矩形枠として抽出する処理と、 (h)前記特定矩形枠内から前記特定データを抽出する
    処理とを含むことを特徴とする表処理方法。
  8. 【請求項8】 請求項7に記載の表処理方法において、
    前記(a)の処理は、 前記イメージ画像を複数の方向にそれぞれ走査して、前
    記方向毎に、走査線毎の累積黒画素数を検出して周辺分
    布を作成する処理と、 前記周辺分布に基づいて、前記イメージ画像から縦罫線
    および横罫線をそれぞれ抽出する処理と、 抽出された前記縦罫線および前記横罫線に囲まれた前記
    矩形枠をそれぞれ抽出し、抽出された前記矩形枠の位置
    を前記枠位置情報とする処理と、 各前記矩形枠でもって構成される前記表領域を抽出する
    処理とを含むことを特徴とする表処理方法。
  9. 【請求項9】 請求項7に記載の表処理方法において、
    前記(b)の処理は、 前記非表領域からタイトル文字列領域を抽出する処理
    と、 前記タイトル文字列領域について文字認識処理を行っ
    て、前記抽出タイトルを抽出する処理とを含むことを特
    徴とする表処理方法。
  10. 【請求項10】 請求項7に記載の表処理方法におい
    て、前記(d)の処理は、 前記矩形枠の面積を求める処理と、 前記矩形枠のうち、一定面積以下の面積を有する矩形枠
    を前記項目枠として選択する処理とを含むことを特徴と
    する表処理方法。
  11. 【請求項11】 請求項7に記載の表処理方法におい
    て、前記(e)の処理は、 前記項目枠から項目文字列領域を抽出する処理と、 前記項目文字列領域について文字認識を行って、前記抽
    出項目を抽出する処理とを含むことを特徴とする表処理
    方法。
  12. 【請求項12】 請求項7に記載の表処理方法におい
    て、前記(h)の処理は、 前記特定矩形枠内から特定データ文字列領域を抽出する
    処理と、 前記特定データ文字列領域について文字認識処理を行っ
    て、前記特定データを抽出する処理とを含むことを特徴
    とする表処理方法。
  13. 【請求項13】 表の特定項目に対応するデータ(以
    下、「特定データ」とも称する。)を当該表のイメージ
    画像から抽出する表処理装置において、 表様式格納部と、特定項目格納部と、表領域・枠位置抽
    出部と、タイトル文字列領域抽出部と、表様式選択部
    と、表処理部と、文字認識部とを具え、 前記表様式格納部は、表のタイトルと表様式とを対応づ
    けて表様式情報として格納しておくと共に、前記表様式
    毎に、当該表様式に属する項目の記載された項目枠と当
    該項目に対応するデータが記載されたデータ枠との配置
    関係を枠配置関係情報として格納しておくための構成を
    有し、 前記特定項目格納部は、前記特定項目を格納しておくた
    めの構成を有し、 前記表領域・枠位置抽出部は、前記イメージ画像から、
    表領域を抽出すると共に、該表領域を構成する各矩形枠
    の位置を枠位置情報として抽出する構成を有し、 前記タイトル文字列領域抽出部は、前記イメージ画像の
    うちの非表領域からタイトル文字列領域を抽出し、当該
    タイトル文字列領域を前記文字認識部に転送し、前記文
    字認識部から抽出タイトルを取得する構成を有し、 前記表様式選択部は、前記タイトル文字列領域抽出部か
    ら前記抽出タイトルを取得すると共に、前記表様式納部
    から前記表様式情報を読み出して、当該表様式情報の中
    から当該抽出タイトルに対応する表様式を選択表様式と
    して選択し、かつ、前記表様式格納部から該選択表様式
    に対応する枠配置関係情報を選択枠配置関係情報として
    読み出す構成を有し、 前記表処理部は、前記表領域・枠位置抽出部から前記枠
    位置情報を取得して、当該枠位置情報の示す前記矩形枠
    の中から項目枠を選択し、前記項目枠の各々から項目文
    字列領域を抽出し、当該項目文字列領域を前記文字認識
    部に転送し、前記文字認識部から抽出項目を取得し、前
    記特定項目格納部から前記特定項目を読み出して、前記
    項目枠の中から当該特定項目が前記抽出項目として記載
    された項目枠を特定項目枠として選択し、前記表様式選
    択部から前記選択枠配置関係情報を取得して、前記特定
    項目枠の位置に対して当該選択枠配置関係情報の示す位
    置にある矩形枠を前記イメージ画像から特定矩形枠とし
    て抽出し、かつ、前記特定矩形枠内から特定データ文字
    列領域を抽出し、当該特定データ文字列領域を前記文字
    認識部に転送し、前記文字認識部から前記特定データを
    取得する構成を有し、 前記文字認識部は、前記イメージ画像のうちの前記タイ
    トル文字列領域について文字認識を行って前記抽出タイ
    トルを抽出し、前記イメージ画像のうちの前記項目文字
    列領域について文字認識を行って前記項目を抽出し、か
    つ、前記イメージ画像のうちの前記特定データ文字列領
    域について字認識を行って前記特定データを抽出する構
    成を有してなることを特徴とする表処理装置。
  14. 【請求項14】 請求項13に記載の表処理装置におい
    て、表領域・枠位置抽出部は、 前記イメージ画像を複数の方向にそれぞれ走査して、前
    記方向毎に、走査線毎の累積黒画素数を検出して周辺分
    布を作成する周辺分布作成部と、 前記周辺分布に基づいて、前記イメージ画像から縦罫線
    および横罫線をそれぞれ抽出する罫線抽出部と、 抽出された前記縦罫線および前記横罫線に囲まれた前記
    矩形枠をそれぞれ抽出し、抽出された前記矩形枠の位置
    を前記枠位置情報とする矩形枠抽出部と、 各前記矩形枠でもって構成される前記表領域を抽出する
    表領域抽出部とを具えてなることを特徴とする表処理装
    置。
  15. 【請求項15】 請求項13に記載の表処理装置におい
    て、前記表処理部は、前記表領域から前記項目枠を選択
    するにあたり、 前記矩形枠の面積を求め、 前記矩形枠のうち、一定面積以下の面積を有する矩形枠
    を前記項目枠として選択する構成を有することを特徴と
    する表処理装置。
JP10033260A 1998-02-16 1998-02-16 表処理方法および表処理装置 Withdrawn JPH11232383A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10033260A JPH11232383A (ja) 1998-02-16 1998-02-16 表処理方法および表処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10033260A JPH11232383A (ja) 1998-02-16 1998-02-16 表処理方法および表処理装置

Publications (1)

Publication Number Publication Date
JPH11232383A true JPH11232383A (ja) 1999-08-27

Family

ID=12381558

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10033260A Withdrawn JPH11232383A (ja) 1998-02-16 1998-02-16 表処理方法および表処理装置

Country Status (1)

Country Link
JP (1) JPH11232383A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6709560B2 (en) 2001-04-18 2004-03-23 Biosource, Inc. Charge barrier flow-through capacitor
US7368191B2 (en) 2001-07-25 2008-05-06 Biosource, Inc. Electrode array for use in electrochemical cells

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6709560B2 (en) 2001-04-18 2004-03-23 Biosource, Inc. Charge barrier flow-through capacitor
US7833400B2 (en) 2001-04-18 2010-11-16 Biosource, Inc. Method of making a flow through capacitor
US8002963B2 (en) 2001-04-18 2011-08-23 Biosource, Incorporated Charge barrier flow-through capacitor-based method of deionizing a fluid
US7368191B2 (en) 2001-07-25 2008-05-06 Biosource, Inc. Electrode array for use in electrochemical cells

Similar Documents

Publication Publication Date Title
JP3469345B2 (ja) 画像のファイリング装置及びファイリング方法
KR100228321B1 (ko) 문자데이타 입력 시스템
JP4533273B2 (ja) 画像処理装置及び画像処理方法、プログラム
JP6900164B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP4183527B2 (ja) 帳票定義データ作成方法および帳票処理装置
US6163623A (en) Method and apparatus for recognizing images of documents and storing different types of information in different files
JP2008204226A (ja) 帳票認識装置およびそのプログラム
JP2004227227A (ja) 情報検索装置
US20210073535A1 (en) Information processing apparatus and information processing method for extracting information from document image
JPH08235341A (ja) ドキュメントファイリング装置および方法
KR100268367B1 (ko) 화성 처리 방법과 장치
JP7054662B2 (ja) 画像認識装置、画像認識方法、及び画像認識プログラム
JP5661549B2 (ja) 帳票上の文字を認識する文字認識装置、マスク処理方法、および、マスク処理プログラム
US6549662B1 (en) Method of recognizing characters
JPH11232383A (ja) 表処理方法および表処理装置
US20100100811A1 (en) Information processing apparatus and layout processing method
JP3215176B2 (ja) 文書画像処理装置及び文書画像処理方法
JP4474231B2 (ja) 文書リンク情報取得システム
JP3435375B2 (ja) 文字認識方法および装置
JPH08329187A (ja) 文書読取装置
JP4501731B2 (ja) 画像処理装置
JPH10207981A (ja) 帳票認識方法
JP3484446B2 (ja) 光学文字認識装置
JPH0757040A (ja) Ocr付きファイリング装置
JPH1166065A (ja) 画像配置装置およびそのプログラム記録媒体

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050510