JP3814334B2

JP3814334B2 - 画像処理装置及びその方法

Info

Publication number: JP3814334B2
Application number: JP09840396A
Authority: JP
Inventors: 和之齋藤
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1996-04-19
Filing date: 1996-04-19
Publication date: 2006-08-30
Anticipated expiration: 2016-04-19
Also published as: US6330360B1; JPH09288728A

Description

【０００１】
【発明の属する技術分野】
本発明は、入力された原稿画像に存在する罫線を抽出する画像処理装置及びその方法に関するものである。
【０００２】
【従来の技術】
従来の画像処理装置においては複数の罫線を有する原稿画像に対し、その原稿画像に存在する罫線を抽出する場合は、その原稿画像の濃度ヒストグラムを算出し、その算出された濃度ヒストグラムに基づいて罫線を抽出したり、あるいは原稿画像に存在する画素の連続性から罫線を抽出していた。
【０００３】
【発明が解決しようとする課題】
しかしながら、上記従来の画像処理装置では、原稿画像に存在する罫線の傾斜、かすれ、位置のずれ、大きさの違い等の要因があると罫線の抽出が正確にできかったり、文字列等を罫線として誤って抽出してしまうという問題点があった。また、固有のフォーマットを有する原稿画像に存在する罫線の抽出を、そのフォーマットから罫線の位置を示す情報を獲得することで、罫線の抽出の精度を向上する方法もあるが、この場合、固有のフォーマットを有する原稿画像以外の原稿画像には適用できなかった。
【０００４】
本発明は上記の問題点に鑑みてなされたものであり、複数種類のフォーマットを有する原稿画像を識別することができ、その識別されたフォーマットに基づいて、原稿画像に存在する罫線を抽出することで、罫線を精度良く抽出できる画像処理装置及びその方法を提供することを目的としている。
【０００５】
【課題を解決するための手段】
入力された原稿画像に存在する罫線を抽出する画像処理装置であって、
複数種類のフォーマットに関し、各フォーマットに存在する罫線に関する罫線情報と各フォーマットを識別するためのキー罫線に関するキー罫線情報とを記憶する記憶手段と、
前記入力された原稿画像からキー罫線を抽出するキー罫線抽出手段と、
当該抽出されたキー罫線と前記記憶手段に記憶されたキー罫線情報とに基づいて、該原稿画像のフォーマットを識別する識別手段と、
前記識別手段で識別されたフォーマットに関する罫線情報と各キー罫線に基づいて定められる検索範囲とに基づいて、前記原稿画像に存在する罫線の位置を推測し、当該推測された位置に存在する罫線を前記原稿画像から抽出する抽出手段と
を備える。
【０００６】
また、好ましくは、前記入力された原稿画像の傾斜を補正する補正手段を
更に備える。
また、好ましくは、前記キー罫線抽出手段は、前記原稿画像から抽出された罫線の内、所定の長さ以上の罫線をキー罫線候補として抽出し、当該抽出されたキー罫線候補の長さ及び位置関係に基づいて前記キー罫線を抽出する。
また、好ましくは、前記キー罫線抽出手段で抽出されるキー罫線は、第１の方向の罫線であり、前記抽出手段で抽出される罫線は第２の方向の罫線である。
【０００７】
また、好ましくは、前記抽出手段は、前記識別手段で識別されたフォーマットに関する罫線情報と各キー罫線に基づいて定められる検索範囲とに基づいて、前記原稿画像に存在する罫線の位置を推測し、前記検索範囲内の濃度ヒストグラムに基づいて当該推測された位置に存在する罫線を前記原稿画像から抽出する。
【０００８】
また、好ましくは、前記識別手段で識別されたフォーマットに関するキー罫線の内、前記キー罫線抽出手段で抽出されていないキー罫線があると判断した場合、当該フォーマットのキー罫線に関する罫線情報に基づいて、前記原稿画像内のキー罫線を再抽出する再抽出手段を更に備え、
前記抽出手段は、前記識別されたフォーマットの罫線情報と、前記キー罫線抽出手段で抽出されたキー罫線と前記再抽出手段で再抽出されたキー罫線とに基づいて定められる検索範囲とに基づいて、前記原稿画像に存在する罫線の位置を推測し、当該推測された位置に存在する罫線を前記原稿画像から抽出する。
【０００９】
上記の目的を達成するための本発明による画像処理方法は以下の構成を備える。即ち、
入力された原稿画像に存在する罫線を抽出する画像処理方法であって、
前記入力された原稿画像からキー罫線を抽出するキー罫線抽出工程と、
各フォーマットを識別するためのキー罫線に関するキー罫線情報とを記憶する記憶手段を参照して、前記キー罫線抽出工程で抽出されたキー罫線と前記記憶手段に記憶されたキー罫線情報とに基づいて、該原稿画像のフォーマットを識別する識別工程と、
前記識別工程で識別されたフォーマットに関する罫線情報と各キー罫線に基づいて定められる検索範囲とに基づいて、前記原稿画像に存在する罫線の位置を推測し、当該推測された位置に存在する罫線を前記原稿画像から抽出する抽出工程と
を備える。
【００１０】
また、好ましくは、前記入力された原稿画像の傾斜を補正する補正工程を
更に備える。
また、好ましくは、前記キー罫線抽出工程は、前記原稿画像から抽出された罫線の内、所定の長さ以上の罫線をキー罫線候補として抽出し、当該抽出されたキー罫線候補の長さ及び位置関係に基づいて前記キー罫線を抽出する。
また、好ましくは、前記キー罫線抽出工程で抽出されるキー罫線は、第１の方向の罫線であり、前記抽出工程で抽出される罫線は第２の方向の罫線である。
【００１１】
また、好ましくは、前記抽出工程は、前記識別工程で識別されたフォーマットに関する罫線情報と各キー罫線に基づいて定められる検索範囲とに基づいて、前記原稿画像に存在する罫線の位置を推測し、前記検索範囲内の濃度ヒストグラムに基づいて当該推測された位置に存在する罫線を前記原稿画像から抽出する。
【００１２】
また、好ましくは、前記識別工程で識別されたフォーマットに関するキー罫線の内、前記キー罫線抽出工程で抽出されていないキー罫線があると判断した場合、当該フォーマットのキー罫線に関する罫線情報に基づいて、前記原稿画像内のキー罫線を再抽出する再抽出工程を更に備え、
前記抽出工程は、前記識別されたフォーマットの罫線情報と、前記キー罫線抽出工程で抽出されたキー罫線と前記再抽出工程で再抽出されたキー罫線とに基づいて定められる検索範囲とに基づいて、前記原稿画像に存在する罫線の位置を推測し、当該推測された位置に存在する罫線を前記原稿画像から抽出する。
【００１３】
【発明の実施の形態】
以下、図面を参照して本発明の好適な実施形態を詳細に説明する。
図１は本実施形態の画像処理装置の機能構成を示すブロック図である。
図１において、１０１はスキャナであり、原稿画像に光を照射し、その反射光を読み取り電気信号に変換する。また、スキャナ１０１より読み込まれた原稿画像は、イメージデータとしてＲＡＭ１０７の所定アドレスエリアが割り当てられているＶＲＡＭ領域に格納される。１０２はスキャナインターフェースであり、スキャナ１０１で得られた電気信号を２値のデジタル電気信号に変換し、他の装置構成要素に伝送する。１０３はポインティングデバイスとして機能するマウスである。１０４はマウスインタフェースであり、マウス１０３からの信号を受け、それを他の装置構成要素に伝送する。１１４はＫＢ（キーボード）であり、キーボードを介してデータの入力や命令の実行を行う。１１３はＫＢインターフェースであり、ＫＢ１１４からの信号を受け、それを他の装置構成要素に伝送する。
【００１４】
１０５はＣＰＵであり、装置全体の制御及び後述する罫線抽出処理等の本発明で説明される処理や認識処理を実行する。１０６はＲＯＭであり、ＣＰＵ１０５が実行する制御プログラム、各種処理プログラムやフォントデータ等の各種データを格納している。また、後述する文書フォーマット識別処理で戸籍文書のフォーマットを識別するためのキー罫線に関する情報と、罫線位置推測抽出処理で縦罫線を抽出するための情報を罫線情報として格納している。１０７はＲＡＭであり、原稿画像の展開や罫線抽出処理のための作業領域等として用いる。また、スキャナ１０１より読み込まれたイメージデータ（２値画像データ）を格納するための所定の記憶領域としてＶＲＡＭ領域を持つ。１０８はディスプレイであり、ＲＡＭ１０７のＶＲＡＭ領域に格納されているイメージデータや本実施の形態で実行される罫線抽出処理結果等を表示する。１０９はディスプレイインターフェースである。
【００１５】
１１０はＨＤＤ（ハードディスクドライブ）であり、ＨＤを装着しデータの読み書きが可能である。また、装着されたＨＤ（不図示）に後述する処理フローのプログラムを書き込み、該プログラムを本装置のＲＡＭ１０７に読み込むことで処理を実行させることができる。１１１はＨＤＤインタフェースである。そして、１１２は各装置構成要素を接続するバスである。
【００１６】
次に本実施形態で実行される処理について、図２のフローチャートを用いて説明する。
図２は本実施形態で実行される処理の処理フローを示すフローチャートである。
尚、本実施形態で実行される処理は、あらかじめ原稿画像を構成する罫線で囲まれる領域（以下、この領域を項目と呼ぶ）が決まっているような、例えば、図３に示すような戸籍文書等に適用した場合について説明するが、これに限定されるものではない。例えば、構成が決まっている原稿画像であるならば、どのようなものでも良い。
【００１７】
まず、ステップＳ２０１で、原稿画像をスキャナ１０１で読み込み２値画像データに変換する。ステップＳ２０２で、得られた２値画像データに対して、２値画像の傾斜角度を算出する。そして、傾斜角度が所定の閾値Ｔｓ以上である場合は、その傾斜角度がなくなるように２値画像データを補正する傾斜補正処理を行う。
【００１８】
次に、ステップＳ２０３で、２値画像データに含まれるキーとなるキー罫線の抽出するキー罫線抽出処理を行う。そして、抽出したキー罫線の座標データ等の各種情報を罫線データとして図４のように管理する。尚、キー罫線は、図３の戸籍文書の構成を示すフォーマットを識別するためのキーとなる横罫線であり、この詳細について後述する。
【００１９】
ここで図４に示される罫線データについて説明する。
図４は本実施形態の罫線データの構成を示す図である。
図４は、ＲＡＭ１０７に展開される２値画像データに含まれるキー罫線の位置を示すための始点座標（Ｘ１，Ｙ１）、終点座標（Ｘ２，Ｙ２）、罫線方向、無効フラグ、キー罫線フラグの情報を格納する。始点座標は、図３に示される戸籍文書に存在する横罫線の右端の位置座標、終点座標は、対応する横罫線の左端の位置座標を示す。罫線方向は、横罫線、あるいは縦罫線を示す。例えば、横罫線の場合は「０」、縦罫線の場合は「１」を格納する。無効フラグは、抽出された横罫線が無効であるか否かを示す。例えば、無効である場合は「１」、無効でない場合は「０」を格納する。キー罫線フラグは、抽出された横罫線がキー罫線候補であるか否かを示す。例えば、キー罫線候補である場合は「１」、キー罫線候補でない場合は「０」を格納する。
【００２０】
尚、装置起動時では、罫線データの無効フラグ及びキー罫線フラグは０で初期化する。
次、ステップＳ２０３で実行されるキー罫線抽出処理を具体的に説明する。
まず、２値画像データに対し、ｘ方向（ここでは、横方向）に連続する画素を検索し、所定閾値Ｔａ以上の連続画素を持つ２値画像データにを１つの横罫線として抽出する。そして、抽出された横罫線の相対的な位置関係を調べ、ｙ座標が同一で、ｘ方向の距離が所定閾値Ｔｂドット以下の横罫線同士は１つの横罫線として抽出する。その際、一方の横罫線の罫線データの始点座標と終点座標を更新し、もう一方の横罫線の罫線データの無効フラグを「１」を格納して、その横罫線を無効とする。
【００２１】
次に、横罫線の内、長さが所定閾値Ｔｃ以上の横罫線はキー罫線候補として、その横罫線の罫線データのキー罫線フラグを「１」とする。
次に、キー罫線候補の長さ及び位置関係から各キー罫線候補を、戸籍文書の「上端」のキーとなるキー罫線、「下端」のキーとなるキー罫線、「本籍番地欄」のキーとなるキー罫線、「編成事項の欄」のキーとなるキー罫線、「入籍等の記載欄」及び「父母、出生等の記載欄」のキーとなるキー罫線、「続柄」のキーとなるキー罫線のいずれかに分類し、図５に示すようなキー罫線データテーブルに格納する。
【００２２】
例えば、図３の戸籍文書に対し、キー罫線抽出処理を実行すると、図６に示すような太線で示される長さが所定閾値Ｔｃ以上のキー罫線候補が抽出され、各々の位置関係から、戸籍文書の上端の２重線と下端の２重線の各々内側のキー罫線候補６０４、６０５をそれぞれ「上端」のキー罫線及び「下端」のキー罫線とし、キー罫線候補６０１を「本籍番地欄」のキー罫線とし、キー罫線候補６０２を「編成事項の欄」のキー罫線とし、キー罫線候補６０３を「入籍等の記載欄」及び「父母、出生等の記載欄」のキー罫線とし、キー罫線候補６０６を「続柄」のキー罫線としてキー罫線データテーブルに格納する。
【００２３】
以上のようして、キー罫線が抽出される。
次に、ステップＳ２０４で、キー罫線データテーブルに格納されている内容と、ＲＯＭ１０６に格納されている罫線情報を比較することで、戸籍文書の構成を示すフォーマットを識別する文書フォーマット識別処理を行う。
具体的には、キー罫線データテーブルを参照し、「本籍番地欄」のキー罫線や「編成事項の欄」のキー罫線が存在するか、あるいは「入籍等の記載欄」及び「父母、出生等の記載欄」のキー罫線の長さが「上端」や「下端」のキー罫線の長さとほぼ同じであれば、その戸籍文書のフォーマットは（以下、ページタイプと呼ぶ）は筆頭者が記載されている「筆頭者タイプ」であると識別する。一方、「本籍番地欄」のキー罫線や、「編成事項の欄」のキー罫線が存在しない、あるいは「入籍等の記載欄」及び「父母、出生等の記載欄」のキー罫線の長さが、「上端」や「下端」のキー罫線の長さの２／３以下であれば、そのページタイプは筆頭者が記載されていない「非筆頭者タイプ」のフォーマットであると識別される。
【００２４】
例えば、図６に示されるようなキー罫線が抽出された場合は、「本籍番地欄」のキー罫線６０１があり、「編成事項の欄」のキー罫線６０２が存在するので、そのページタイプは「筆頭者タイプ」であることがわかる。また、「入籍等の記載欄」及び「父母、出生等の記載欄」のキー罫線６０３の長さが、上端のキー罫線６０４または下端のキー罫線６０５の長さの２／３以下であることからも、そのページタイプは「筆頭者タイプ」であることがわかる。
【００２５】
次に、ステップＳ２０５で、抽出されたキー罫線に基づいて、戸籍文書に存在する縦罫線の位置を推測し、推測された位置に存在する縦罫線を抽出する罫線位置推測処理を行う。
まず、例えば、図６に示されるキー罫線の抽出結果では、キー罫線６０１が「本籍番地欄」のキー罫線であることから、ＲＯＭ１０６に記憶される罫線情報より、その両端に縦罫線があると推測する。そして、その両端の縦罫線を抽出するための画素の検索範囲である罫線抽出範囲を設定する。例えば、キー罫線６０１の左端のｘ座標がｘｂＬ、右端のｘ座標がＸｂＲであるとすると、左端の近傍に存在する縦罫線を抽出するためのｘ方向の罫線抽出範囲をｘｂＬ−ｄｘ≦ｘ≦ｘｂＬ＋ｄｘとして設定する。また、ｙ方向の罫線抽出範囲をＹ２＜ｙ＜Ｙ１として設定する。ここで、Ｙ１は「上端」のキー罫線のｙ座標、Ｙ２は「下端」のキー罫線のｙ座標である。そして、その範囲内に存在する画素の濃度ヒストグラムを算出し、濃度ヒストグラムのピークに対応する位置を図７に示すような縦罫線７０１が存在する位置として推測し、その位置に存在する罫線を縦罫線７０１として抽出する。
【００２６】
尚、ｄｘは罫線６０１の左端のずれ、かすれ等を考慮した検索範囲を設定するために設けられる値である。
同様にして、右端の近傍に存在する縦罫線を抽出するためのｘ方向の罫線抽出範囲ｘｂＲ−ｄｘ≦ｘ≦ｘｂＲ＋ｄｘを設定し、罫線７０２を抽出する。
また、キー罫線６０２が「編成事項の欄」のキー罫線であることから、ＲＯＭ１０６に記憶される罫線情報より、そのキー罫線６０２を４等分する縦罫線が３本と、キー罫線６０２の両端の縦罫線２本を含めた５本の縦罫線があると推測する。そして、キー罫線６０２を４等分する縦罫線とその両端の縦罫線を抽出するための画素の検索範囲である罫線抽出範囲を設定する。例えば、キー罫線６０２の左端のｘ座標がｘｆＬ、右端のｘ座標がＸｆＲであるとすると、左端の近傍に存在する縦罫線を抽出するためのｘ方向の罫線抽出範囲をｘｆＬ−ｄｘ≦ｘ≦ｘｆＬ＋ｄｘとして設定する。また、ｙ方向の罫線抽出範囲をＹ２＜ｙ＜Ｙ１として設定する。ここで、Ｙ１は「上端」のキー罫線のｙ座標、Ｙ２は「下端」のキー罫線のｙ座標である。そして、その範囲内に存在する画素の濃度ヒストグラムを算出し、濃度ヒストグラムのピークに対応する位置を図７に示すような縦罫線７０３が存在する位置として推測し、その位置に存在する罫線を縦罫線７０３として抽出する。
【００２７】
次に、抽出された縦罫線７０３の隣にあるキー罫線６０２を４等分する縦罫線のひとつを抽出するためのｘ方向の罫線抽出範囲を設定する。そこで、まず、キー罫線６０２を４等分した長さｄｗを以下の式によって算出する。
ｄｗ＝｜ｘｆＲ−ｘｆＬ｜×１／４
そして、算出されたｄｗと抽出された縦罫線７０３のｘ座標ｘｈを用いて、ｘ方向の罫線抽出範囲ｘｈ＋ｄｗ−ｄｘ≦ｘ≦ｘｈ＋ｄｗ＋ｄｘを設定し、ｙ方向の罫線抽出範囲Ｙ２＜ｙ＜Ｙ１を設定する。そして、抽出された縦罫線７０３の隣にあるキー罫線６０２を４等分する縦罫線のひとつを抽出する。
【００２８】
同様にして、残りの３本の縦罫線を抽出する。その結果、キー罫線６０２を４等分する縦罫線３本と縦罫線７０３、縦罫線７０１が抽出される。
また、キー罫線６０３が「入籍等の記載欄」のキー罫線であることから、ＲＯＭ１０６に記憶される罫線情報より、そのキー罫線６０２を１０等分する縦罫線が９本と、キー罫線６０３の両端の縦罫線２本を含めた１１本の縦罫線があると推測する。そして、キー罫線６０３を１０等分する縦罫線とその両端の縦罫線を抽出するための画素の検索範囲である罫線抽出範囲を設定する。例えば、キー罫線６０３の左端のｘ座標がｘｇＬ、右端のｘ座標がＸｇＲであるとすると、左端の近傍に存在する縦罫線を抽出するためのｘ方向の罫線抽出範囲をｘｇＬ−ｄｘ≦ｘ≦ｘｇＬ＋ｄｘとして設定する。また、ｙ方向の罫線抽出範囲をＹ２＜ｙ＜Ｙ１として設定する。ここで、Ｙ１は「上端」のキー罫線のｙ座標、Ｙ２は「下端」のキー罫線のｙ座標である。そして、その範囲内に存在する画素の濃度ヒストグラムを算出し、濃度ヒストグラムのピークに対応する位置を図７に示すような縦罫線７０４が存在する位置として推測し、その位置に存在する罫線を縦罫線７０４として抽出する。
【００２９】
次に、抽出された縦罫線７０３の隣にあるキー罫線６０３を１０等分する縦罫線のひとつを抽出するためのｘ方向の罫線抽出範囲を設定する。そこで、まず、キー罫線６０３を１０等分した長さｄｗを以下の式によって算出する。
ｄｗ＝｜ｘｆＲ−ｘｆＬ｜×１／１０
そして、算出されたｄｗと抽出された縦罫線７０４のｘ座標ｘｇを用いて、ｘ方向の罫線抽出範囲ｘｇ＋ｄｗ−ｄｘ≦ｘ≦ｘｇ＋ｄｗ＋ｄｘを設定し、ｙ方向の罫線抽出範囲Ｙ２＜ｙ＜Ｙ１を設定する。ここで、Ｙ１は「上端」のキー罫線のｙ座標、Ｙ２は「入籍等の記載欄」のキー罫線のｙ座標である。そして、抽出された縦罫線７０３の隣にあるキー罫線６０３を１０等分する縦罫線のひとつである縦罫線７０７を抽出する。
【００３０】
同様にして、キー罫線６０３を１０等分する縦罫線の残りの８本の縦罫線を抽出する。ここで、キー罫線６０３の右端にある縦罫線７０３は抽出済みなので、処理を行わない。その結果、キー罫線６０３を１０等分する縦罫線７０４を含む縦罫線９本と縦罫線７０４が抽出される。
また、キー罫線６０３は「父母、出生等の記載欄」のキー罫線でもあるので、ＲＯＭ１０６に記憶される罫線情報より、キー罫線６０３とキー罫線６０５の間にある縦罫線を推測する。
【００３１】
この際、罫線抽出範囲がキー罫線６０３とキー罫線６０５の間に限定されるので、「入籍等の記載欄」の影響を受けることなく、縦罫線を抽出することができる。
キー罫線６０３の左端のＸ座標ｘｇＬと、右端のｘｇＲから、ｘ方向の罫線抽出範囲をｘｇＬ−ｄｘ≦ｘ≦ｘｇＬ＋ｄｘとして設定する。そして、その範囲内に存在する画素の濃度ヒストグラムを算出し、濃度ヒストグラムのピークとなる位置を罫線の存在する位置として推測し、その位置に存在する罫線を抽出する。
【００３２】
この時、抽出される縦罫線の本数によって、養父、養母等が記載されているか否かが判定できる。例えば、抽出される縦罫線が７本であれば、養父、養母ともに記載されているタイプのフォーマットである。これによって、養父と養母の間の縦罫線、及び父と母の間の縦罫線は「続柄」のキー罫線までで止まると定義できる。また、抽出される縦罫線が６本であれば、養父または養母のどちらか一方のみが記載されているタイプのフォーマットである。これによって、父と母の間の縦罫線は「続柄」のキー罫線までで止まると定義できる。更に、抽出される縦罫線が５本であれば、養父、養母共に記載されていないタイプのフォーマットである。これによって、父と母の間の縦罫線は「続柄」キー罫線までで止まると定義できる。
【００３３】
図６の場合、キー罫線６０３とキー罫線６０２の間にある縦罫線は７本であるので、養父、養母共に記載されているタイプのフォーマットであることがわかるこれによって、縦罫線７０５と縦罫線７０６だけはキー罫線６０６より下にはでないことがわかるので、それらの縦罫線のｙ座標をキー罫線６０６と同じｙ座標に修正する。
【００３４】
以上のようにして、戸籍文書を構成する横罫線と縦罫線が抽出される。
以上説明したように、本実施形態によれば、戸籍文書に含まれるキー罫線を抽出することで、複数種類ある戸籍文書のフォーマットのいずれかに識別することができる。また、識別されたフォーマットに基づいて、縦罫線の位置を推測して縦罫線を抽出するので、より精度良く縦罫線を抽出することができる。
【００３５】
また、傾斜補正処理と、キー罫線抽出処理と、文書フォーマット識別処理と、罫線位置推測抽出処理とを設けることにより、傾斜、かすれ、位置のずれ、大きさの違い等の要因があっても罫線の抽出が可能となり、テキスト等を誤って罫線としてしまうことを減らす等の効果がはかれる。
また、本実施形態で説明される処理に対し、図８に示すようなキー罫線再抽出処理（図８のステップＳ８０６）を付加することで、キー罫線が抽出されたか否かを判定することができ、抽出されなかったキー罫線を再抽出することができる。
【００３６】
図８は本実施形態の他の構成によって実行される処理の処理フローを示すフローチャートである。
まず、ステップＳ８０１で、原稿画像をスキャナ１０１で読み込み２値画像データに変換する。ステップＳ８０２で、得られた２値画像データに対して、２値画像の傾斜角度を算出する。そして、傾斜角度が所定の閾値Ｔｓ以上である場合は、その傾斜角度がなくなるように２値画像データを補正する傾斜補正処理を行う。
【００３７】
次に、ステップＳ８０３で、２値画像データに含まれるキーとなるキー罫線の抽出するキー罫線抽出処理を行う。ステップＳ８０４で、戸籍文書の構成を示すフォーマットを識別する文書フォーマット識別処理を行う。
ステップＳ８０５で、識別された戸籍文書のフォーマットのキー罫線が抽出されているか否かを判定する。抽出されている場合（ステップＳ８０５でＹＥＳ）、ステップＳ８０７に進む。一方、抽出されていない場合（ステップＳ８０５でＮＯ）、ステップＳ８０６に進む。
【００３８】
ステップＳ８０６で、抽出されていないキー罫線の位置を推測し、推測された位置にある罫線をキー罫線として再抽出するキー罫線再抽出処理を行う。ステップＳ８０７で、抽出されたキー罫線に基づいて、戸籍文書に存在する縦罫線の位置を推測し、推測された位置に存在する縦罫線を抽出する罫線位置推測処理を行う。
【００３９】
以上の構成によって、例えば、図６のキー罫線６０２がかすれていて抽出されなかった場合、先にキー罫線６０１やキー罫線６０３が抽出されていれば、それらのキー罫線から図６の戸籍文書のフォーマットが「筆頭者タイプ」であることが判別でき、その後にキー罫線６０２の位置を推定し再抽出し直すことも可能となる。
【００４０】
尚、本発明は、複数の機器（例えばホストコンピュータ、インタフェース機器、リーダ、プリンタ等）から構成されるシステムに適用しても、一つの機器からなる装置（例えば、複写機、ファクシミリ装置等）に適用してもよい。
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。
【００４１】
この場合、記憶媒体から読出されたプログラムコード自体が上述した実施の形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
プログラムコードを供給するための記憶媒体としては、例えば、フロッピディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどを用いることができる。
【００４２】
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているＯＳ（オペレーティングシステム）などが実際の処理の一部または全部を行い、その処理によって前述した実施の形態の機能が実現される場合も含まれることは言うまでもない。
【００４３】
更に、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【００４４】
本発明を上記記憶媒体に適用する場合、その記憶媒体には、先に説明したフローチャートに対応するプログラムコードを格納することになるが、簡単に説明すると、図９のメモリマップ例に示す各モジュールを記憶媒体に格納することになる。
すなわち、少なくとも「記憶モジュール」、「識別モジュール」および「抽出モジュール」の各モジュールのプログラムコードを記憶媒体に格納すればよい。
【００４５】
尚、「記憶モジュール」は、複数種類のフォーマットに関し、各フォーマットを有する原稿画像に存在する罫線に関する罫線情報を記憶媒体に記憶する。「識別モジュール」は、入力された原稿画像に存在する連続画素に基づいて、該原稿画像のフォーマットを記憶媒体に記憶されるフォーマットのいずれかに識別する。「抽出モジュール」は、識別されたフォーマットの罫線情報に基づいて、前記入力された原稿画像に存在する罫線を抽出する。
【００４６】
【発明の効果】
以上説明したように、本発明によれば、複数種類のフォーマットを有する原稿画像を識別することができ、その識別されたフォーマットに基づいて、原稿画像に存在する罫線を抽出することで、罫線を精度良く抽出できる画像処理装置及びその方法を提供できる。
【図面の簡単な説明】
【図１】本実施形態の画像処理装置の機能構成を示すブロック図である。
【図２】本実施形態で実行される処理の処理フローを示すフローチャートである。
【図３】本実施形態の原稿画像の例を示すである。
【図４】本実施形態の罫線データの構成を示す図である。
【図５】本実施形態のキー罫線データテーブルの構成を示す図である。
【図６】本実施形態の原稿画像に対して実行したキー罫線抽出処理の処理結果を示す図である。
【図７】本実施形態の原稿画像に対して実行した罫線位置推測抽出処理の処理結果を示す図である。
【図８】本実施形態の他の構成によって実行される処理の処理フローを示すフローチャートである。
【図９】本発明で実行される処理フローのプログラムを記憶させたＨＤのメモリマップの構造を示す図である。
【符号の説明】
１０１スキャナ
１０２スキャナインタフェース
１０３マウス
１０４マウスインタフェース
１０５ＣＰＵ
１０６ＲＯＭ
１０７ＲＡＭ
１０８ディスプレイ
１０９ディスプレイインタフェース
１１０ＨＤＤ
１１１ＨＤＤインタフェース
１１２バス
１１３ＫＢインタフェース
１１４ＫＢ

Claims

入力された原稿画像に存在する罫線を抽出する画像処理装置であって、
複数種類のフォーマットに関し、各フォーマットに存在する罫線に関する罫線情報と各フォーマットを識別するためのキー罫線に関するキー罫線情報とを記憶する記憶手段と、
前記入力された原稿画像からキー罫線を抽出するキー罫線抽出手段と、
当該抽出されたキー罫線と前記記憶手段に記憶されたキー罫線情報とに基づいて、該原稿画像のフォーマットを識別する識別手段と、
前記識別手段で識別されたフォーマットに関する罫線情報と各キー罫線に基づいて定められる検索範囲とに基づいて、前記原稿画像に存在する罫線の位置を推測し、当該推測された位置に存在する罫線を前記原稿画像から抽出する抽出手段と
を備えることを特徴とする画像処理装置。
前記入力された原稿画像の傾斜を補正する補正手段を
更に備えることを特徴とする請求項１に記載の画像処理装置。
前記キー罫線抽出手段は、前記原稿画像から抽出された罫線の内、所定の長さ以上の罫線をキー罫線候補として抽出し、当該抽出されたキー罫線候補の長さ及び位置関係に基づいて前記キー罫線を抽出する
ことを特徴とする請求項１に記載の画像処理装置。
前記キー罫線抽出手段で抽出されるキー罫線は、第１の方向の罫線であり、前記抽出手段で抽出される罫線は第２の方向の罫線である
ことを特徴とする請求項１に記載の画像処理装置。
前記抽出手段は、前記識別手段で識別されたフォーマットに関する罫線情報と各キー罫線に基づいて定められる検索範囲とに基づいて、前記原稿画像に存在する罫線の位置を推測し、前記検索範囲内の濃度ヒストグラムに基づいて当該推測された位置に存在する罫線を前記原稿画像から抽出する
ことを特徴とする請求項１に記載の画像処理装置。
前記識別手段で識別されたフォーマットに関するキー罫線の内、前記キー罫線抽出手段で抽出されていないキー罫線があると判断した場合、当該フォーマットのキー罫線に関する罫線情報に基づいて、前記原稿画像内のキー罫線を再抽出する再抽出手段を更に備え、
前記抽出手段は、前記識別されたフォーマットの罫線情報と、前記キー罫線抽出手段で抽出されたキー罫線と前記再抽出手段で再抽出されたキー罫線とに基づいて定められる検索範囲とに基づいて、前記原稿画像に存在する罫線の位置を推測し、当該推測された位置に存在する罫線を前記原稿画像から抽出する
ことを特徴とする請求項１に記載の画像処理装置。
入力された原稿画像に存在する罫線を抽出する画像処理方法であって、
前記入力された原稿画像からキー罫線を抽出するキー罫線抽出工程と、
各フォーマットを識別するためのキー罫線に関するキー罫線情報とを記憶する記憶手段を参照して、前記キー罫線抽出工程で抽出されたキー罫線と前記記憶手段に記憶されたキー罫線情報とに基づいて、該原稿画像のフォーマットを識別する識別工程と、
前記識別工程で識別されたフォーマットに関する罫線情報と各キー罫線に基づいて定められる検索範囲とに基づいて、前記原稿画像に存在する罫線の位置を推測し、当該推測された位置に存在する罫線を前記原稿画像から抽出する抽出工程と
を備えることを特徴とする画像処理方法。
前記入力された原稿画像の傾斜を補正する補正工程を
更に備えることを特徴とする請求項７に記載の画像処理方法。
前記キー罫線抽出工程は、前記原稿画像から抽出された罫線の内、所定の長さ以上の罫線をキー罫線候補として抽出し、当該抽出されたキー罫線候補の長さ及び位置関係に基づいて前記キー罫線を抽出する
ことを特徴とする請求項７に記載の画像処理方法。
前記キー罫線抽出工程で抽出されるキー罫線は、第１の方向の罫線であり、前記抽出工程で抽出される罫線は第２の方向の罫線である
ことを特徴とする請求項７に記載の画像処理方法。
前記抽出工程は、前記識別工程で識別されたフォーマットに関する罫線情報と各キー罫線に基づいて定められる検索範囲とに基づいて、前記原稿画像に存在する罫線の位置を推測し、前記検索範囲内の濃度ヒストグラムに基づいて当該推測された位置に存在する罫線を前記原稿画像から抽出する
ことを特徴とする請求項７に記載の画像処理方法。
前記識別工程で識別されたフォーマットに関するキー罫線の内、前記キー罫線抽出工程で抽出されていないキー罫線があると判断した場合、当該フォーマットのキー罫線に関する罫線情報に基づいて、前記原稿画像内のキー罫線を再抽出する再抽出工程を更に備え、
前記抽出工程は、前記識別されたフォーマットの罫線情報と、前記キー罫線抽出工程で抽出されたキー罫線と前記再抽出工程で再抽出されたキー罫線とに基づいて定められる検索範囲とに基づいて、前記原稿画像に存在する罫線の位置を推測し、当該推測された位置に存在する罫線を前記原稿画像から抽出する
ことを特徴とする請求項７に記載の画像処理方法。