JPH09288728A - 画像処理装置及びその方法 - Google Patents

画像処理装置及びその方法

Info

Publication number
JPH09288728A
JPH09288728A JP8098403A JP9840396A JPH09288728A JP H09288728 A JPH09288728 A JP H09288728A JP 8098403 A JP8098403 A JP 8098403A JP 9840396 A JP9840396 A JP 9840396A JP H09288728 A JPH09288728 A JP H09288728A
Authority
JP
Japan
Prior art keywords
ruled line
key
ruled
line information
format
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8098403A
Other languages
English (en)
Other versions
JP3814334B2 (ja
Inventor
Kazuyuki Saito
和之 齋藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP09840396A priority Critical patent/JP3814334B2/ja
Priority to US08/826,688 priority patent/US6330360B1/en
Publication of JPH09288728A publication Critical patent/JPH09288728A/ja
Application granted granted Critical
Publication of JP3814334B2 publication Critical patent/JP3814334B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

(57)【要約】 【課題】 複数種類のフォーマットを有する原稿画像を
識別することができ、その識別されたフォーマットに基
づいて、原稿画像に存在する罫線を抽出することで、罫
線を精度良く抽出できる画像処理装置及びその方法を提
供する。 【解決手段】 複数種類のフォーマットに関し、各フォ
ーマットを有する原稿画像に存在する罫線に関する罫線
情報をROM106に記憶する。入力された原稿画像に
存在する連続画素に基づいて、該原稿画像のフォーマッ
トをROM106にに記憶されるフォーマットのいずれ
かに識別する。そして、識別されたフォーマットの罫線
情報に基づいて、入力された原稿画像に存在する罫線を
抽出する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力された原稿画
像に存在する罫線を抽出する画像処理装置及びその方法
に関するものである。
【0002】
【従来の技術】従来の画像処理装置においては複数の罫
線を有する原稿画像に対し、その原稿画像に存在する罫
線を抽出する場合は、その原稿画像の濃度ヒストグラム
を算出し、その算出された濃度ヒストグラムに基づいて
罫線を抽出したり、あるいは原稿画像に存在する画素の
連続性から罫線を抽出していた。
【0003】
【発明が解決しようとする課題】しかしながら、上記従
来の画像処理装置では、原稿画像に存在する罫線の傾
斜、かすれ、位置のずれ、大きさの違い等の要因がある
と罫線の抽出が正確にできかったり、文字列等を罫線と
して誤って抽出してしまうという問題点があった。ま
た、固有のフォーマットを有する原稿画像に存在する罫
線の抽出を、そのフォーマットから罫線の位置を示す情
報を獲得することで、罫線の抽出の精度を向上する方法
もあるが、この場合、固有のフォーマットを有する原稿
画像以外の原稿画像には適用できなかった。
【0004】本発明は上記の問題点に鑑みてなされたも
のであり、複数種類のフォーマットを有する原稿画像を
識別することができ、その識別されたフォーマットに基
づいて、原稿画像に存在する罫線を抽出することで、罫
線を精度良く抽出できる画像処理装置及びその方法を提
供することを目的としている。
【0005】
【課題を解決するための手段】上記の目的を達成するた
めの本発明による画像処理装置は以下の構成を備える。
即ち、入力された原稿画像に存在する罫線を抽出する画
像処理装置であって、複数種類のフォーマットに関し、
各フォーマットを有する原稿画像に存在する罫線に関す
る罫線情報を記憶する記憶手段と、前記入力された原稿
画像に存在する連続画素に基づいて、該原稿画像のフォ
ーマットを前記記憶手段に記憶されるフォーマットのい
ずれかに識別する識別手段と、前記識別手段で識別され
たフォーマットの罫線情報に基づいて、前記入力された
原稿画像に存在する罫線を抽出する抽出手段とを備え
る。
【0006】また、好ましくは、前記入力された原稿画
像の傾斜を補正する補正手段を更に備える。原稿画像の
傾斜を補正することで、より精度良く罫線を抽出するこ
とができるからである。また、好ましくは、前記罫線情
報には、複数種類のフォーマットを識別するためのキー
となるキー罫線情報が含まれる。
【0007】また、好ましくは、前記識別手段は、前記
入力された原稿画像に存在する連続画素の相対的な位置
関係に基づいて、所定長以上の連続画素を獲得する獲得
手段と、前記獲得手段で獲得された所定長以上の連続画
素と、前記キー罫線情報を比較する比較手段を備え、前
記比較手段の比較結果に基づいて、前記入力された原稿
画像のフォーマットを前記記憶手段に記憶されるフォー
マットのいずれかに識別する。
【0008】また、好ましくは、前記識別手段で識別さ
れたフォーマットのキー罫線情報の数より、前記獲得手
段で獲得された所定長以上の連続画素の数が少ない場
合、該キー罫線情報に基づいて、前記入力された原稿画
像に存在する所定長以上の連続画素を再獲得する再獲得
手段を更に備える。再獲得手段を設けることで、かすれ
た連続画素を獲得することができるからである。
【0009】また、好ましくは、前記キー罫線情報は、
所定方向の罫線を示すことを特徴とする請求項3に記載
の画像処理装置。上記の目的を達成するための本発明に
よる画像処理方法は以下の構成を備える。即ち、入力さ
れた原稿画像に存在する罫線を抽出する画像処理方法で
あって、複数種類のフォーマットに関し、各フォーマッ
トを有する原稿画像に存在する罫線に関する罫線情報を
記憶媒体に記憶する記憶工程と、前記入力された原稿画
像に存在する連続画素に基づいて、該原稿画像のフォー
マットを前記記憶工程で前記記憶媒体に記憶されるフォ
ーマットのいずれかに識別する識別工程と、前記識別工
程で識別されたフォーマットの罫線情報に基づいて、前
記入力された原稿画像に存在する罫線を抽出する抽出工
程とを備える。
【0010】また、好ましくは、前記入力された原稿画
像の傾斜を補正する補正工程を更に備える。また、好ま
しくは、前記罫線情報には、複数種類のフォーマットを
識別するためのキーとなるキー罫線情報が含まれる。ま
た、好ましくは、前記識別工程は、前記入力された原稿
画像に存在する連続画素の相対的な位置関係に基づい
て、所定長以上の連続画素を獲得する獲得工程と、前記
獲得工程で獲得された所定長以上の連続画素と、前記キ
ー罫線情報を比較する比較工程を備え、前記比較工程の
比較結果に基づいて、前記入力された原稿画像のフォー
マットを前記記憶工程で前記記憶媒体に記憶されるフォ
ーマットのいずれかに識別する。
【0011】また、好ましくは、前記識別工程段で識別
されたフォーマットのキー罫線情報の数より、前記獲得
工程で獲得された所定長以上の連続画素の数が少ない場
合、該キー罫線情報に基づいて、前記入力された原稿画
像に存在する所定長以上の連続画素を再獲得する再獲得
工程を更に備える。
【0012】また、好ましくは、前記キー罫線情報は、
所定方向の罫線を示す。上記の目的を達成するための本
発明によるコンピュータ可読メモリは以下の構成を備え
る。即ち、画像処理のプログラムコードが格納されたコ
ンピュータ可読メモリであって、複数種類のフォーマッ
トに関し、各フォーマットを有する原稿画像に存在する
罫線に関する罫線情報を記憶媒体に記憶する記憶工程の
コードと、前記入力された原稿画像に存在する連続画素
に基づいて、該原稿画像のフォーマットを前記記憶工程
で前記記憶媒体に記憶されるフォーマットのいずれかに
識別する識別工程のコードと、前記識別工程で識別され
たフォーマットの罫線情報に基づいて、前記入力された
原稿画像に存在する罫線を抽出する抽出工程のコードと
を備える。
【0013】
【発明の実施の形態】以下、図面を参照して本発明の好
適な実施形態を詳細に説明する。図1は本実施形態の画
像処理装置の機能構成を示すブロック図である。図1に
おいて、101はスキャナであり、原稿画像に光を照射
し、その反射光を読み取り電気信号に変換する。また、
スキャナ101より読み込まれた原稿画像は、イメージ
データとしてRAM107の所定アドレスエリアが割り
当てられているVRAM領域に格納される。102はス
キャナインターフェースであり、スキャナ101で得ら
れた電気信号を2値のデジタル電気信号に変換し、他の
装置構成要素に伝送する。103はポインティングデバ
イスとして機能するマウスである。104はマウスイン
タフェースであり、マウス103からの信号を受け、そ
れを他の装置構成要素に伝送する。114はKB(キー
ボード)であり、キーボードを介してデータの入力や命
令の実行を行う。113はKBインターフェースであ
り、KB114からの信号を受け、それを他の装置構成
要素に伝送する。
【0014】105はCPUであり、装置全体の制御及
び後述する罫線抽出処理等の本発明で説明される処理や
認識処理を実行する。106はROMであり、CPU1
05が実行する制御プログラム、各種処理プログラムや
フォントデータ等の各種データを格納している。また、
後述する文書フォーマット識別処理で戸籍文書のフォー
マットを識別するためのキー罫線に関する情報と、罫線
位置推測抽出処理で縦罫線を抽出するための情報を罫線
情報として格納している。107はRAMであり、原稿
画像の展開や罫線抽出処理のための作業領域等として用
いる。また、スキャナ101より読み込まれたイメージ
データ(2値画像データ)を格納するための所定の記憶
領域としてVRAM領域を持つ。108はディスプレイ
であり、RAM107のVRAM領域に格納されている
イメージデータや本実施の形態で実行される罫線抽出処
理結果等を表示する。109はディスプレイインターフ
ェースである。
【0015】110はHDD(ハードディスクドライ
ブ)であり、HDを装着しデータの読み書きが可能であ
る。また、装着されたHD(不図示)に後述する処理フ
ローのプログラムを書き込み、該プログラムを本装置の
RAM107に読み込むことで処理を実行させることが
できる。111はHDDインタフェースである。そし
て、112は各装置構成要素を接続するバスである。
【0016】次に本実施形態で実行される処理につい
て、図2のフローチャートを用いて説明する。図2は本
実施形態で実行される処理の処理フローを示すフローチ
ャートである。尚、本実施形態で実行される処理は、あ
らかじめ原稿画像を構成する罫線で囲まれる領域(以
下、この領域を項目と呼ぶ)が決まっているような、例
えば、図3に示すような戸籍文書等に適用した場合につ
いて説明するが、これに限定されるものではない。例え
ば、構成が決まっている原稿画像であるならば、どのよ
うなものでも良い。
【0017】まず、ステップS201で、原稿画像をス
キャナ101で読み込み2値画像データに変換する。ス
テップS202で、得られた2値画像データに対して、
2値画像の傾斜角度を算出する。そして、傾斜角度が所
定の閾値Ts以上である場合は、その傾斜角度がなくな
るように2値画像データを補正する傾斜補正処理を行
う。
【0018】次に、ステップS203で、2値画像デー
タに含まれるキーとなるキー罫線の抽出するキー罫線抽
出処理を行う。そして、抽出したキー罫線の座標データ
等の各種情報を罫線データとして図4のように管理す
る。尚、キー罫線は、図3の戸籍文書の構成を示すフォ
ーマットを識別するためのキーとなる横罫線であり、こ
の詳細について後述する。
【0019】ここで図4に示される罫線データについて
説明する。図4は本実施形態の罫線データの構成を示す
図である。図4は、RAM107に展開される2値画像
データに含まれるキー罫線の位置を示すための始点座標
(X1,Y1)、終点座標(X2,Y2)、罫線方向、
無効フラグ、キー罫線フラグの情報を格納する。始点座
標は、図3に示される戸籍文書に存在する横罫線の右端
の位置座標、終点座標は、対応する横罫線の左端の位置
座標を示す。罫線方向は、横罫線、あるいは縦罫線を示
す。例えば、横罫線の場合は「0」、縦罫線の場合は
「1」を格納する。無効フラグは、抽出された横罫線が
無効であるか否かを示す。例えば、無効である場合は
「1」、無効でない場合は「0」を格納する。キー罫線
フラグは、抽出された横罫線がキー罫線候補であるか否
かを示す。例えば、キー罫線候補である場合は「1」、
キー罫線候補でない場合は「0」を格納する。
【0020】尚、装置起動時では、罫線データの無効フ
ラグ及びキー罫線フラグは0で初期化する。次、ステッ
プS203で実行されるキー罫線抽出処理を具体的に説
明する。まず、2値画像データに対し、x方向(ここで
は、横方向)に連続する画素を検索し、所定閾値Ta以
上の連続画素を持つ2値画像データにを1つの横罫線と
して抽出する。そして、抽出された横罫線の相対的な位
置関係を調べ、y座標が同一で、x方向の距離が所定閾
値Tbドット以下の横罫線同士は1つの横罫線として抽
出する。その際、一方の横罫線の罫線データの始点座標
と終点座標を更新し、もう一方の横罫線の罫線データの
無効フラグを「1」を格納して、その横罫線を無効とす
る。
【0021】次に、横罫線の内、長さが所定閾値Tc以
上の横罫線はキー罫線候補として、その横罫線の罫線デ
ータのキー罫線フラグを「1」とする。次に、キー罫線
候補の長さ及び位置関係から各キー罫線候補を、戸籍文
書の「上端」のキーとなるキー罫線、「下端」のキーと
なるキー罫線、「本籍番地欄」のキーとなるキー罫線、
「編成事項の欄」のキーとなるキー罫線、「入籍等の記
載欄」及び「父母、出生等の記載欄」のキーとなるキー
罫線、「続柄」のキーとなるキー罫線のいずれかに分類
し、図5に示すようなキー罫線データテーブルに格納す
る。
【0022】例えば、図3の戸籍文書に対し、キー罫線
抽出処理を実行すると、図6に示すような太線で示され
る長さが所定閾値Tc以上のキー罫線候補が抽出され、
各々の位置関係から、戸籍文書の上端の2重線と下端の
2重線の各々内側のキー罫線候補604、605をそれ
ぞれ「上端」のキー罫線及び「下端」のキー罫線とし、
キー罫線候補601を「本籍番地欄」のキー罫線とし、
キー罫線候補602を「編成事項の欄」のキー罫線と
し、キー罫線候補603を「入籍等の記載欄」及び「父
母、出生等の記載欄」のキー罫線とし、キー罫線候補6
06を「続柄」のキー罫線としてキー罫線データテーブ
ルに格納する。
【0023】以上のようして、キー罫線が抽出される。
次に、ステップS204で、キー罫線データテーブルに
格納されている内容と、ROM106に格納されている
罫線情報を比較することで、戸籍文書の構成を示すフォ
ーマットを識別する文書フォーマット識別処理を行う。
具体的には、キー罫線データテーブルを参照し、「本籍
番地欄」のキー罫線や「編成事項の欄」のキー罫線が存
在するか、あるいは「入籍等の記載欄」及び「父母、出
生等の記載欄」のキー罫線の長さが「上端」や「下端」
のキー罫線の長さとほぼ同じであれば、その戸籍文書の
フォーマットは(以下、ページタイプと呼ぶ)は筆頭者
が記載されている「筆頭者タイプ」であると識別する。
一方、「本籍番地欄」のキー罫線や、「編成事項の欄」
のキー罫線が存在しない、あるいは「入籍等の記載欄」
及び「父母、出生等の記載欄」のキー罫線の長さが、
「上端」や「下端」のキー罫線の長さの2/3以下であ
れば、そのページタイプは筆頭者が記載されていない
「非筆頭者タイプ」のフォーマットであると識別され
る。
【0024】例えば、図6に示されるようなキー罫線が
抽出された場合は、「本籍番地欄」のキー罫線601が
あり、「編成事項の欄」のキー罫線602が存在するの
で、そのページタイプは「筆頭者タイプ」であることが
わかる。また、「入籍等の記載欄」及び「父母、出生等
の記載欄」のキー罫線603の長さが、上端のキー罫線
604または下端のキー罫線605の長さの2/3以下
であることからも、そのページタイプは「筆頭者タイ
プ」であることがわかる。
【0025】次に、ステップS205で、抽出されたキ
ー罫線に基づいて、戸籍文書に存在する縦罫線の位置を
推測し、推測された位置に存在する縦罫線を抽出する罫
線位置推測処理を行う。まず、例えば、図6に示される
キー罫線の抽出結果では、キー罫線601が「本籍番地
欄」のキー罫線であることから、ROM106に記憶さ
れる罫線情報より、その両端に縦罫線があると推測す
る。そして、その両端の縦罫線を抽出するための画素の
検索範囲である罫線抽出範囲を設定する。例えば、キー
罫線601の左端のx座標がxbL、右端のx座標がX
bRであるとすると、左端の近傍に存在する縦罫線を抽
出するためのx方向の罫線抽出範囲をxbL−dx≦x
≦xbL+dxとして設定する。また、y方向の罫線抽
出範囲をY2<y<Y1として設定する。ここで、Y1
は「上端」のキー罫線のy座標、Y2は「下端」のキー
罫線のy座標である。そして、その範囲内に存在する画
素の濃度ヒストグラムを算出し、濃度ヒストグラムのピ
ークに対応する位置を図7に示すような縦罫線701が
存在する位置として推測し、その位置に存在する罫線を
縦罫線701として抽出する。
【0026】尚、dxは罫線601の左端のずれ、かす
れ等を考慮した検索範囲を設定するために設けられる値
である。同様にして、右端の近傍に存在する縦罫線を抽
出するためのx方向の罫線抽出範囲xbR−dx≦x≦
xbR+dxを設定し、罫線702を抽出する。また、
キー罫線602が「編成事項の欄」のキー罫線であるこ
とから、ROM106に記憶される罫線情報より、その
キー罫線602を4等分する縦罫線が3本と、キー罫線
602の両端の縦罫線2本を含めた5本の縦罫線がある
と推測する。そして、キー罫線602を4等分する縦罫
線とその両端の縦罫線を抽出するための画素の検索範囲
である罫線抽出範囲を設定する。例えば、キー罫線60
2の左端のx座標がxfL、右端のx座標がXfRであ
るとすると、左端の近傍に存在する縦罫線を抽出するた
めのx方向の罫線抽出範囲をxfL−dx≦x≦xfL
+dxとして設定する。また、y方向の罫線抽出範囲を
Y2<y<Y1として設定する。ここで、Y1は「上
端」のキー罫線のy座標、Y2は「下端」のキー罫線の
y座標である。そして、その範囲内に存在する画素の濃
度ヒストグラムを算出し、濃度ヒストグラムのピークに
対応する位置を図7に示すような縦罫線703が存在す
る位置として推測し、その位置に存在する罫線を縦罫線
703として抽出する。
【0027】次に、抽出された縦罫線703の隣にある
キー罫線602を4等分する縦罫線のひとつを抽出する
ためのx方向の罫線抽出範囲を設定する。そこで、ま
ず、キー罫線602を4等分した長さdwを以下の式に
よって算出する。 dw=|xfR−xfL|×1/4 そして、算出されたdwと抽出された縦罫線703のx
座標xhを用いて、x方向の罫線抽出範囲xh+dw−
dx≦x≦xh+dw+dxを設定し、y方向の罫線抽
出範囲Y2<y<Y1を設定する。そして、抽出された
縦罫線703の隣にあるキー罫線602を4等分する縦
罫線のひとつを抽出する。
【0028】同様にして、残りの3本の縦罫線を抽出す
る。その結果、キー罫線602を4等分する縦罫線3本
と縦罫線703、縦罫線701が抽出される。また、キ
ー罫線603が「入籍等の記載欄」のキー罫線であるこ
とから、ROM106に記憶される罫線情報より、その
キー罫線602を10等分する縦罫線が9本と、キー罫
線603の両端の縦罫線2本を含めた11本の縦罫線が
あると推測する。そして、キー罫線603を10等分す
る縦罫線とその両端の縦罫線を抽出するための画素の検
索範囲である罫線抽出範囲を設定する。例えば、キー罫
線603の左端のx座標がxgL、右端のx座標がXg
Rであるとすると、左端の近傍に存在する縦罫線を抽出
するためのx方向の罫線抽出範囲をxgL−dx≦x≦
xgL+dxとして設定する。また、y方向の罫線抽出
範囲をY2<y<Y1として設定する。ここで、Y1は
「上端」のキー罫線のy座標、Y2は「下端」のキー罫
線のy座標である。そして、その範囲内に存在する画素
の濃度ヒストグラムを算出し、濃度ヒストグラムのピー
クに対応する位置を図7に示すような縦罫線704が存
在する位置として推測し、その位置に存在する罫線を縦
罫線704として抽出する。
【0029】次に、抽出された縦罫線703の隣にある
キー罫線603を10等分する縦罫線のひとつを抽出す
るためのx方向の罫線抽出範囲を設定する。そこで、ま
ず、キー罫線603を10等分した長さdwを以下の式
によって算出する。 dw=|xfR−xfL|×1/10 そして、算出されたdwと抽出された縦罫線704のx
座標xgを用いて、x方向の罫線抽出範囲xg+dw−
dx≦x≦xg+dw+dxを設定し、y方向の罫線抽
出範囲Y2<y<Y1を設定する。ここで、Y1は「上
端」のキー罫線のy座標、Y2は「入籍等の記載欄」の
キー罫線のy座標である。そして、抽出された縦罫線7
03の隣にあるキー罫線603を10等分する縦罫線の
ひとつである縦罫線707を抽出する。
【0030】同様にして、キー罫線603を10等分す
る縦罫線の残りの8本の縦罫線を抽出する。ここで、キ
ー罫線603の右端にある縦罫線703は抽出済みなの
で、処理を行わない。その結果、キー罫線603を10
等分する縦罫線704を含む縦罫線9本と縦罫線704
が抽出される。また、キー罫線603は「父母、出生等
の記載欄」のキー罫線でもあるので、ROM106に記
憶される罫線情報より、キー罫線603とキー罫線60
5の間にある縦罫線を推測する。
【0031】この際、罫線抽出範囲がキー罫線603と
キー罫線605の間に限定されるので、「入籍等の記載
欄」の影響を受けることなく、縦罫線を抽出することが
できる。キー罫線603の左端のX座標xgLと、右端
のxgRから、x方向の罫線抽出範囲をxgL−dx≦
x≦xgL+dxとして設定する。そして、その範囲内
に存在する画素の濃度ヒストグラムを算出し、濃度ヒス
トグラムのピークとなる位置を罫線の存在する位置とし
て推測し、その位置に存在する罫線を抽出する。
【0032】この時、抽出される縦罫線の本数によっ
て、養父、養母等が記載されているか否かが判定でき
る。例えば、抽出される縦罫線が7本であれば、養父、
養母ともに記載されているタイプのフォーマットであ
る。これによって、養父と養母の間の縦罫線、及び父と
母の間の縦罫線は「続柄」のキー罫線までで止まると定
義できる。また、抽出される縦罫線が6本であれば、養
父または養母のどちらか一方のみが記載されているタイ
プのフォーマットである。これによって、父と母の間の
縦罫線は「続柄」のキー罫線までで止まると定義でき
る。更に、抽出される縦罫線が5本であれば、養父、養
母共に記載されていないタイプのフォーマットである。
これによって、父と母の間の縦罫線は「続柄」キー罫線
までで止まると定義できる。
【0033】図6の場合、キー罫線603とキー罫線6
02の間にある縦罫線は7本であるので、養父、養母共
に記載されているタイプのフォーマットであることがわ
かるこれによって、縦罫線705と縦罫線706だけは
キー罫線606より下にはでないことがわかるので、そ
れらの縦罫線のy座標をキー罫線606と同じy座標に
修正する。
【0034】以上のようにして、戸籍文書を構成する横
罫線と縦罫線が抽出される。以上説明したように、本実
施形態によれば、戸籍文書に含まれるキー罫線を抽出す
ることで、複数種類ある戸籍文書のフォーマットのいず
れかに識別することができる。また、識別されたフォー
マットに基づいて、縦罫線の位置を推測して縦罫線を抽
出するので、より精度良く縦罫線を抽出することができ
る。
【0035】また、傾斜補正処理と、キー罫線抽出処理
と、文書フォーマット識別処理と、罫線位置推測抽出処
理とを設けることにより、傾斜、かすれ、位置のずれ、
大きさの違い等の要因があっても罫線の抽出が可能とな
り、テキスト等を誤って罫線としてしまうことを減らす
等の効果がはかれる。また、本実施形態で説明される処
理に対し、図8に示すようなキー罫線再抽出処理(図8
のステップS806)を付加することで、キー罫線が抽
出されたか否かを判定することができ、抽出されなかっ
たキー罫線を再抽出することができる。
【0036】図8は本実施形態の他の構成によって実行
される処理の処理フローを示すフローチャートである。
まず、ステップS801で、原稿画像をスキャナ101
で読み込み2値画像データに変換する。ステップS80
2で、得られた2値画像データに対して、2値画像の傾
斜角度を算出する。そして、傾斜角度が所定の閾値Ts
以上である場合は、その傾斜角度がなくなるように2値
画像データを補正する傾斜補正処理を行う。
【0037】次に、ステップS803で、2値画像デー
タに含まれるキーとなるキー罫線の抽出するキー罫線抽
出処理を行う。ステップS804で、戸籍文書の構成を
示すフォーマットを識別する文書フォーマット識別処理
を行う。ステップS805で、識別された戸籍文書のフ
ォーマットのキー罫線が抽出されているか否かを判定す
る。抽出されている場合(ステップS805でYE
S)、ステップS807に進む。一方、抽出されていな
い場合(ステップS805でNO)、ステップS806
に進む。
【0038】ステップS806で、抽出されていないキ
ー罫線の位置を推測し、推測された位置にある罫線をキ
ー罫線として再抽出するキー罫線再抽出処理を行う。ス
テップS807で、抽出されたキー罫線に基づいて、戸
籍文書に存在する縦罫線の位置を推測し、推測された位
置に存在する縦罫線を抽出する罫線位置推測処理を行
う。
【0039】以上の構成によって、例えば、図6のキー
罫線602がかすれていて抽出されなかった場合、先に
キー罫線601やキー罫線603が抽出されていれば、
それらのキー罫線から図6の戸籍文書のフォーマットが
「筆頭者タイプ」であることが判別でき、その後にキー
罫線602の位置を推定し再抽出し直すことも可能とな
る。
【0040】尚、本発明は、複数の機器(例えばホスト
コンピュータ、インタフェース機器、リーダ、プリンタ
等)から構成されるシステムに適用しても、一つの機器
からなる装置(例えば、複写機、ファクシミリ装置等)
に適用してもよい。また、本発明の目的は、前述した実
施形態の機能を実現するソフトウェアのプログラムコー
ドを記録した記憶媒体を、システムあるいは装置に供給
し、そのシステムあるいは装置のコンピュータ(または
CPUやMPU)が記憶媒体に格納されたプログラムコ
ードを読出し実行することによっても、達成されること
は言うまでもない。
【0041】この場合、記憶媒体から読出されたプログ
ラムコード自体が上述した実施の形態の機能を実現する
ことになり、そのプログラムコードを記憶した記憶媒体
は本発明を構成することになる。プログラムコードを供
給するための記憶媒体としては、例えば、フロッピディ
スク、ハードディスク、光ディスク、光磁気ディスク、
CD−ROM、CD−R、磁気テープ、不揮発性のメモ
リカード、ROMなどを用いることができる。
【0042】また、コンピュータが読出したプログラム
コードを実行することにより、前述した実施形態の機能
が実現されるだけでなく、そのプログラムコードの指示
に基づき、コンピュータ上で稼働しているOS(オペレ
ーティングシステム)などが実際の処理の一部または全
部を行い、その処理によって前述した実施の形態の機能
が実現される場合も含まれることは言うまでもない。
【0043】更に、記憶媒体から読出されたプログラム
コードが、コンピュータに挿入された機能拡張ボードや
コンピュータに接続された機能拡張ユニットに備わるメ
モリに書込まれた後、そのプログラムコードの指示に基
づき、その機能拡張ボードや機能拡張ユニットに備わる
CPUなどが実際の処理の一部または全部を行い、その
処理によって前述した実施形態の機能が実現される場合
も含まれることは言うまでもない。
【0044】本発明を上記記憶媒体に適用する場合、そ
の記憶媒体には、先に説明したフローチャートに対応す
るプログラムコードを格納することになるが、簡単に説
明すると、図9のメモリマップ例に示す各モジュールを
記憶媒体に格納することになる。すなわち、少なくとも
「記憶モジュール」、「識別モジュール」および「抽出
モジュール」の各モジュールのプログラムコードを記憶
媒体に格納すればよい。
【0045】尚、「記憶モジュール」は、複数種類のフ
ォーマットに関し、各フォーマットを有する原稿画像に
存在する罫線に関する罫線情報を記憶媒体に記憶する。
「識別モジュール」は、入力された原稿画像に存在する
連続画素に基づいて、該原稿画像のフォーマットを記憶
媒体に記憶されるフォーマットのいずれかに識別する。
「抽出モジュール」は、識別されたフォーマットの罫線
情報に基づいて、前記入力された原稿画像に存在する罫
線を抽出する。
【0046】
【発明の効果】以上説明したように、本発明によれば、
複数種類のフォーマットを有する原稿画像を識別するこ
とができ、その識別されたフォーマットに基づいて、原
稿画像に存在する罫線を抽出することで、罫線を精度良
く抽出できる画像処理装置及びその方法を提供できる。
【図面の簡単な説明】
【図1】本実施形態の画像処理装置の機能構成を示すブ
ロック図である。
【図2】本実施形態で実行される処理の処理フローを示
すフローチャートである。
【図3】本実施形態の原稿画像の例を示すである。
【図4】本実施形態の罫線データの構成を示す図であ
る。
【図5】本実施形態のキー罫線データテーブルの構成を
示す図である。
【図6】本実施形態の原稿画像に対して実行したキー罫
線抽出処理の処理結果を示す図である。
【図7】本実施形態の原稿画像に対して実行した罫線位
置推測抽出処理の処理結果を示す図である。
【図8】本実施形態の他の構成によって実行される処理
の処理フローを示すフローチャートである。
【図9】本発明で実行される処理フローのプログラムを
記憶させたHDのメモリマップの構造を示す図である。
【符号の説明】
101 スキャナ 102 スキャナインタフェース 103 マウス 104 マウスインタフェース 105 CPU 106 ROM 107 RAM 108 ディスプレイ 109 ディスプレイインタフェース 110 HDD 111 HDDインタフェース 112 バス 113 KBインタフェース 114 KB

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】 入力された原稿画像に存在する罫線を抽
    出する画像処理装置であって、 複数種類のフォーマットに関し、各フォーマットを有す
    る原稿画像に存在する罫線に関する罫線情報を記憶する
    記憶手段と、 前記入力された原稿画像に存在する連続画素に基づい
    て、該原稿画像のフォーマットを前記記憶手段に記憶さ
    れるフォーマットのいずれかに識別する識別手段と、 前記識別手段で識別されたフォーマットの罫線情報に基
    づいて、前記入力された原稿画像に存在する罫線を抽出
    する抽出手段とを備えることを特徴とする画像処理装
    置。
  2. 【請求項2】 前記入力された原稿画像の傾斜を補正す
    る補正手段を更に備えることを特徴とする請求項1に記
    載の画像処理装置。
  3. 【請求項3】 前記罫線情報には、複数種類のフォーマ
    ットを識別するためのキーとなるキー罫線情報が含まれ
    ることを特徴とする請求項1に記載の画像処理装置。
  4. 【請求項4】 前記識別手段は、前記入力された原稿画
    像に存在する連続画素の相対的な位置関係に基づいて、
    所定長以上の連続画素を獲得する獲得手段と、 前記獲得手段で獲得された所定長以上の連続画素と、前
    記キー罫線情報を比較する比較手段を備え、 前記比較手段の比較結果に基づいて、前記入力された原
    稿画像のフォーマットを前記記憶手段に記憶されるフォ
    ーマットのいずれかに識別することを特徴とする請求項
    3に記載の画像処理装置。
  5. 【請求項5】 前記識別手段で識別されたフォーマット
    のキー罫線情報の数より、前記獲得手段で獲得された所
    定長以上の連続画素の数が少ない場合、該キー罫線情報
    に基づいて、前記入力された原稿画像に存在する所定長
    以上の連続画素を再獲得する再獲得手段を更に備えるこ
    とを特徴とする請求項4に記載の画像処理装置。
  6. 【請求項6】 前記キー罫線情報は、所定方向の罫線を
    示すことを特徴とする請求項3に記載の画像処理装置。
  7. 【請求項7】 入力された原稿画像に存在する罫線を抽
    出する画像処理方法であって、 複数種類のフォーマットに関し、各フォーマットを有す
    る原稿画像に存在する罫線に関する罫線情報を記憶媒体
    に記憶する記憶工程と、 前記入力された原稿画像に存在する連続画素に基づい
    て、該原稿画像のフォーマットを前記記憶工程で前記記
    憶媒体に記憶されるフォーマットのいずれかに識別する
    識別工程と、 前記識別工程で識別されたフォーマットの罫線情報に基
    づいて、前記入力された原稿画像に存在する罫線を抽出
    する抽出工程とを備えることを特徴とする画像処理方
    法。
  8. 【請求項8】 前記入力された原稿画像の傾斜を補正す
    る補正工程を更に備えることを特徴とする請求項7に記
    載の画像処理方法。
  9. 【請求項9】 前記罫線情報には、複数種類のフォーマ
    ットを識別するためのキーとなるキー罫線情報が含まれ
    ることを特徴とする請求項7に記載の画像処理方法。
  10. 【請求項10】 前記識別工程は、前記入力された原稿
    画像に存在する連続画素の相対的な位置関係に基づい
    て、所定長以上の連続画素を獲得する獲得工程と、 前記獲得工程で獲得された所定長以上の連続画素と、前
    記キー罫線情報を比較する比較工程を備え、 前記比較工程の比較結果に基づいて、前記入力された原
    稿画像のフォーマットを前記記憶工程で前記記憶媒体に
    記憶されるフォーマットのいずれかに識別することを特
    徴とする請求項9に記載の画像処理方法。
  11. 【請求項11】 前記識別工程段で識別されたフォーマ
    ットのキー罫線情報の数より、前記獲得工程で獲得され
    た所定長以上の連続画素の数が少ない場合、該キー罫線
    情報に基づいて、前記入力された原稿画像に存在する所
    定長以上の連続画素を再獲得する再獲得工程を更に備え
    ることを特徴とする請求項10に記載の画像処理方法。
  12. 【請求項12】 前記キー罫線情報は、所定方向の罫線
    を示すことを特徴とする請求項9に記載の画像処理方
    法。
  13. 【請求項13】 画像処理のプログラムコードが格納さ
    れたコンピュータ可読メモリであって、 複数種類のフォーマットに関し、各フォーマットを有す
    る原稿画像に存在する罫線に関する罫線情報を記憶媒体
    に記憶する記憶工程のコードと、 前記入力された原稿画像に存在する連続画素に基づい
    て、該原稿画像のフォーマットを前記記憶工程で前記記
    憶媒体に記憶されるフォーマットのいずれかに識別する
    識別工程のコードと、 前記識別工程で識別されたフォーマットの罫線情報に基
    づいて、前記入力された原稿画像に存在する罫線を抽出
    する抽出工程のコードとを備えることを特徴とするコン
    ピュータ可読メモリ。
JP09840396A 1996-04-19 1996-04-19 画像処理装置及びその方法 Expired - Fee Related JP3814334B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP09840396A JP3814334B2 (ja) 1996-04-19 1996-04-19 画像処理装置及びその方法
US08/826,688 US6330360B1 (en) 1996-04-19 1997-04-07 Image processing apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP09840396A JP3814334B2 (ja) 1996-04-19 1996-04-19 画像処理装置及びその方法

Publications (2)

Publication Number Publication Date
JPH09288728A true JPH09288728A (ja) 1997-11-04
JP3814334B2 JP3814334B2 (ja) 2006-08-30

Family

ID=14218876

Family Applications (1)

Application Number Title Priority Date Filing Date
JP09840396A Expired - Fee Related JP3814334B2 (ja) 1996-04-19 1996-04-19 画像処理装置及びその方法

Country Status (2)

Country Link
US (1) US6330360B1 (ja)
JP (1) JP3814334B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6834120B1 (en) * 2000-11-15 2004-12-21 Sri International Method and system for estimating the accuracy of inference algorithms using the self-consistency methodology
JP3925112B2 (ja) 2001-06-20 2007-06-06 富士ゼロックス株式会社 画像処理装置
JP4940270B2 (ja) * 2009-07-06 2012-05-30 シャープ株式会社 画像形成装置
USD977386S1 (en) 2020-09-22 2023-02-07 Positec Power Tools (Suzhou) Co., Ltd. Battery pack
US20220245377A1 (en) * 2021-01-29 2022-08-04 Intuit Inc. Automated text information extraction from electronic documents

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07107694B2 (ja) * 1984-08-31 1995-11-15 株式会社日立製作所 文書処理装置
US5101448A (en) * 1988-08-24 1992-03-31 Hitachi, Ltd. Method and apparatus for processing a document by utilizing an image
US5129012A (en) * 1989-03-25 1992-07-07 Sony Corporation Detecting line segments and predetermined patterns in an optically scanned document
JP2812982B2 (ja) * 1989-04-05 1998-10-22 株式会社リコー 表認識方法
US5159667A (en) * 1989-05-31 1992-10-27 Borrey Roland G Document identification by characteristics matching
JP2940936B2 (ja) * 1989-06-06 1999-08-25 株式会社リコー 表領域識別方法

Also Published As

Publication number Publication date
US6330360B1 (en) 2001-12-11
JP3814334B2 (ja) 2006-08-30

Similar Documents

Publication Publication Date Title
JP3308032B2 (ja) スキュー補正方法およびスキュー角検出方法およびスキュー補正装置およびスキュー角検出装置
JP2001273091A (ja) 多重解像度画像解析による指示位置検出
JP2006295606A (ja) 画像処理装置及びその方法、プログラム並びに記憶媒体
JP2001016424A (ja) 枠消し装置、枠消し方法、およびオーサリング装置
US10643097B2 (en) Image processing apparatuses and non-transitory computer readable medium
EP3151159A1 (en) Information processing apparatus, information processing method and program
JPH09288728A (ja) 画像処理装置及びその方法
JP3733310B2 (ja) 文書書式識別装置および識別方法
JP6922690B2 (ja) 文字領域抽出プログラム、文字領域抽出装置及び文字領域抽出方法
JP3171626B2 (ja) 文字認識の処理領域・処理条件指定方法
JP2000082110A (ja) 罫線消去装置および文字画像抽出装置および罫線消去方法および文字画像抽出方法および記録媒体
JP3412998B2 (ja) 画像処理装置及びその方法
JP2001101399A (ja) 画像の傾き検知・余白検知・傾き補正方法及び文書画像処理装置
JP2019195117A (ja) 情報処理装置、情報処理方法、及びプログラム
JP6241311B2 (ja) 画像処理装置及び画像処理プログラム
JPH11187231A (ja) 画像検索装置及び画像検索方法
JPH0830725A (ja) 画像処理装置及び方法
JP2000339407A (ja) 画像処理装置及び画像処理方法及びコンピュータ読み取り可能な記憶媒体
JPH11242716A (ja) 画像処理方法および記録媒体
JP2001236464A (ja) 文字抽出方法、文字抽出装置及び記憶媒体
JPH01292586A (ja) 文字認識支援装置
JPH09269970A (ja) 文字認識方法とその装置
JPH06259526A (ja) 電子ファイリングシステム
JPH0728939A (ja) 表のベクトル化装置
KR20220168787A (ko) 만주어의 글자 추출 방법 및 이를 수행하는 시스템

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060310

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060509

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060529

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060605

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees