JP3412998B2 - 画像処理装置及びその方法 - Google Patents

画像処理装置及びその方法

Info

Publication number
JP3412998B2
JP3412998B2 JP01004496A JP1004496A JP3412998B2 JP 3412998 B2 JP3412998 B2 JP 3412998B2 JP 01004496 A JP01004496 A JP 01004496A JP 1004496 A JP1004496 A JP 1004496A JP 3412998 B2 JP3412998 B2 JP 3412998B2
Authority
JP
Japan
Prior art keywords
character recognition
keyword
item
match
determined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP01004496A
Other languages
English (en)
Other versions
JPH09204493A (ja
Inventor
和之 齋藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP01004496A priority Critical patent/JP3412998B2/ja
Priority to US08/786,913 priority patent/US6201894B1/en
Publication of JPH09204493A publication Critical patent/JPH09204493A/ja
Application granted granted Critical
Publication of JP3412998B2 publication Critical patent/JP3412998B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、所定のフォーマッ
トを有する原稿画像に含まれる罫線で囲まれた領域を抽
出する画像処理装置及びその方法に関するものである。
【0002】
【従来の技術】従来の原稿画像に含まれる罫線で囲まれ
た領域を抽出する画像処理装置において、その領域の抽
出方法としては、まず、罫線で囲まれた領域毎に領域分
割を行う。そして、その領域分割して得られた罫線で囲
まれた領域の位置座標を獲得し、その獲得された位置座
標に基づいて、罫線で囲まれた領域を抽出していた。
【0003】また、原稿画像の罫線で囲まれた領域を抽
出する際には、その原稿画像をスキャナ等で読み取った
イメージデータを用いて、各罫線で囲まれた領域を抽出
していた。
【0004】
【発明が解決しようとする課題】しかしながら、上記従
来の画像処理装置では、原稿画像のイメージデータに含
まれる罫線で囲まれた領域を位置座標に基づいて抽出し
ていため、原稿画像を読み取る際にズレが生じている
と、抽出する各罫線で囲まれた領域の位置座標にもズレ
が生じ、所望の罫線で囲まれた領域を正確に抽出できな
いという問題点があった。
【0005】また、原稿画像に含まれる所望の罫線で囲
まれた領域を抽出するために、原稿画像に含まれるすべ
ての罫線で囲まれた領域を抽出した後に、所望の罫線で
囲まれた領域以外の罫線で囲まれた領域を削除した上
で、所望の罫線で囲まれた領域を抽出する方法があっ
た。あるいは、原稿画像を読み取る前に、あらかじめ所
望の罫線で囲まれた領域を、他の罫線で囲まれた領域と
区別されるように指定することで、所望の罫線で囲まれ
た領域を抽出する方法があった。しかし、どちらの方法
も、抽出するためのユーザによる作業に手間がかかるた
め、抽出処理の作業効率が低下するという問題点があっ
た。
【0006】本発明は上記の問題点に鑑みてなされたも
のであり、原稿画像に含まれた所望の罫線で囲まれた領
域を抽出することができる画像処理装置及びその方法を
提供することを目的としている。また、原稿画像に含ま
れる罫線で囲まれた領域の抽出処理のおける操作の作業
効率を向上する画像処理装置及びその方法を提供するこ
とを目的としている。
【0007】
【課題を解決するための手段】上記の目的を達成するた
めの本発明による画像処理装置は以下の構成を備える。
即ち、複数種類の原稿に含まれる項目に対するキーワー
ドを記憶する記憶手段と、原稿画像に含まれる罫線に基
づいて該原稿画像を複数の領域に分割する分割手段と、
前記分割手段で分割された各領域内の文字画像を文字認
識する文字認識手段と、前記文字認識手段で認識された
各領域の文字認識結果と前記記憶手段に記憶されている
キーワードとを比較して、前記文字認識結果とキーワー
ドとが一致する領域を判別する比較手段と、前記比較手
段で一致すると判別したキーワードの内、原稿の種別を
分類するための該原稿に予め記載されている項目に対す
る特定キーワードに基づいて前記原稿画像の種別を分類
し、前記分類された原稿画像の種別を示す識別子と各キ
ーワードに定められている識別子とに基づいて、前記比
較手段で一致すると判別された領域の文字認識結果それ
ぞれに対して項目識別子を決定する第1項目識別手段
と、前記比較手段で文字認識結果がキーワードと一致し
ないと判別された領域と前記第1項目識別手段で項目識
別子が決定された領域との位置関係に基づいて、前記比
較手段で一致しないと判別された領域の文字認識結果に
対して項目識別子を決定する第2項目識別手段とを有す
る。
【0008】また、好ましくは、前記記憶手段には、1
つの項目に対して複数のキーワードを記憶可能である。
【0009】また、好ましくは、更に、前記文字認識手
段による文字認識結果の内、前記比較手段で前記キーワ
ードに一致すると判別された文字認識結果以外の文字
を、新たなキーワードとして前記記憶手段に登録する登
録手段を有する。
【0010】また、好ましくは、更に、前記比較手段で
キーワードと一致したと判別された文字認識結果或いは
該文字認識結果を囲む領域を、他と区別して表示するよ
うに制御する表示手段を有する。
【0011】上記の目的を達成するための本発明による
画像処理方法は以下の構成を備える。即ち、原稿画像に
含まれる罫線に基づいて該原稿画像を複数の領域に分割
する分割工程と、前記分割工程で分割された各領域内の
文字画像を文字認識する文字認識工程と、前記文字認識
工程で認識された各領域の文字認識結果と、記憶手段に
記憶されている複数種類の原稿に含まれる項目に対する
キーワードとを比較して、前記文字認識結果とキーワー
ドとが一致する領域を判別する比較工程と、前記比較手
段で一致すると判別したキーワードの内、原稿の種別を
分類するための該原稿に予め記載されている項目に対す
る特定キーワードに基づいて前記原稿画像の種別を分類
し、前記分類された原稿画像の種別を示す識別子と各キ
ーワードに定められている識別子とに基づいて、前記比
較手段で一致すると判別された領域の文字認識結果それ
ぞれに対して項目識別子を決定する第1項目識別工程
と、前記比較工程で文字認識結果がキーワードと一致し
ないと判別された領域と前記第1項目識別工程で項目識
別子が決定された領域との位置関係に基づいて、前記比
較工程で一致しないと判別された領域の文字認識結果に
対して項目識別子を決定する第2項目識別工程とを有す
る。
【0012】また、好ましくは、前記記憶手段には、1
つの項目に対して複数のキーワードを記憶可能である。
【0013】また、好ましくは、更に、前記文字認識工
程による文字認識結果の内、前記比較工程で前記キーワ
ードに一致すると判別された文字認識結果以外の文字
を、新たなキーワードとして前記記憶手段に登録する登
録工程を有する。
【0014】また、好ましくは、更に、前記比較工程で
キーワードと一致したと判別された文字認識結果或いは
該文字認識結果を囲む領域を、他と区別して表示するよ
うに制御する表示工程を有する。
【0015】
【発明の実施の形態】以下、図面を参照して本発明の好
適な実施の形態を詳細に説明する。図1は本実施の形態
の画像処理装置の機能構成を示すブロック図である。図
1において、101はスキャナであり、原稿画像に光を
照射し、その反射光を読み取り電気信号に変換する。ま
た、スキャナ101より読み込まれた原稿画像は、イメ
ージデータとしてRAM107のVRAM領域に格納さ
れる。102はスキャナインターフェースであり、スキ
ャナ101で得られた電気信号を2値のデジタル電気信
号に変換し、他の装置構成要素に伝送する。103はポ
インティングデバイスとして機能するマウスであり、マ
ウス103を移動することでディスプレイ108上に表
示されるカーソル100を移動する。また、画面に表示
されるメニューにカーソル100を位置し、そのメニュ
ー上で付帯するボタン(不図示)を用いてドラッグ操
作、クリック操作を行うことで、その内容を実行するこ
とができる。104はマウスインタフェースであり、マ
ウス103からの信号を受け、それを他の装置構成要素
に伝送する。114はKB(キーボード)であり、キー
ボードを介してデータの入力や命令の実行を行う。11
3はKBインターフェースであり、KB114からの信
号を受け、それを他の装置構成要素に伝送する。
【0016】105はCPUであり、装置全体の制御及
び後述する領域分割等の本発明で説明される処理や認識
処理を実行する。106はROMであり、CPU105
が実行する制御プログラム、各種処理プログラムやフォ
ントデータ等の各種データを格納している。107はR
AMであり、原稿画像の展開や領域分割処理のための作
業領域等として用いる。また、スキャナ101より読み
込まれたイメージデータ(2値画像データ)を格納する
ための所定の記憶領域としてVRAM領域を持つ。10
8はディスプレイであり、RAM107のVRAM領域
に格納されているイメージデータや本実施の形態で実行
される罫線抽出処理結果等を表示する。109はディス
プレイインターフェースである。
【0017】110はFDD(フロッピーディスクドラ
イブ)であり、FDを装着しデータの読み書きが可能で
ある。また、装着されたFD(不図示)に後述する処理
フローのプログラムを書き込み、該プログラムを本装置
のRAM107に読み込むことで処理を実行させること
ができる。111はFDDインターフェースである。そ
して、112は各装置構成要素を接続するバスである。
【0018】次に本実施の形態で実行される処理につい
て、図2のフローチャートを用いて説明する。図2は本
実施の形態で実行される処理の処理フローを示すフロー
チャートである。図2は本実施の形態で実行される処理
フローを示すフローチャートである。
【0019】図2は本実施の形態で実行される処理フロ
ーを示すフローチャートである。尚、本実施の形態で実
行される処理は、あらかじめ原稿画像を構成する罫線で
囲まれる領域(以下、この領域を項目と呼ぶ)が決まっ
ているような、例えば、図4に示すような戸籍文書等に
適用した場合について説明するが、これに限定されるも
のではない。例えば、構成が決まっている原稿画像であ
るならば、どのようなものでも良い。
【0020】まず、ステップS201で、原稿画像をス
キャナ101で読み込み2値画像データに変換する。ス
テップS202で、得られた2値画像データに対して、
2値画像データに含まれる属性(写真、図形、文字等)
毎に領域を分割する領域分割処理を行う。本実施の形態
では、領域分割処理において、特に、項目を抽出した場
合、その項目の座標データ等の情報をブロックデータと
して図3のように記憶する。
【0021】ここで、図3に示されるブロックデータに
ついて説明する。図3は本実施の形態のブロックデータ
の構成を示す図である。図3は、RAM107に展開さ
れる2値画像データに含まれる項目の位置を示すための
始点座標(X1,Y1)、終点座標(X2,Y2)、有
効フラグ、項目識別ID、認識順序、属性、組方向の情
報を格納する。始点座標は、図4に示されるような各項
目の右上角の位置座標、終点座標は、各項目の左下角の
位置座標を示す。有効フラグは、抽出された項目が有効
であるか否かを示す。項目識別IDは、後述する設定方
法によって各項目の項目識別IDを格納する。認識順序
は、各項目に記入されている文字を認識する場合の認識
順序を格納する。
【0022】属性は、領域分割処理で分割単位である属
性を格納する。本発明の場合、項目(罫線で囲まれた領
域)内にテキストデータが存在する場合は、その旨を示
す属性が格納され、有効フラグに「1」が格納される。
また、項目(罫線で囲まれた領域)内にテキストデータ
が存在しない場合は、その旨を示す属性が格納され、有
効フラグに「0」が格納される。また、組方向は、各項
目に記入されている文字の方向(縦書きあるいは横書
き)を示す情報を格納する。
【0023】ステップS203で、各項目に存在するテ
キストデータに対応する文字を認識する文字認識処理を
行う。尚、文字認識処理は、既知の文字認識方法を用い
て行うものとし、文字を認識できる方法ならば、どのよ
うなものでも良い。ステップS204で、ステップS2
03で認識された認識結果とあらかじめ設定されている
キーワードを比較するキーワード比較処理を行う。ステ
ップS205で、キーワード比較処理の比較結果から、
原稿画像の種別を分類し、分類された原稿画像を構成す
る項目を識別する項目識別処理を行う。
【0024】尚、原稿画像の項目の構成を識別する場
合、その原稿画像を領域分割して得られるブロックの位
置、形状、面積、数等によって、その原稿画像の項目の
構成の種類を分類し、各項目を識別する。また、フォー
マット情報はあらかじめROM106に記憶されている
ものとする。また、本実施の形態の原稿画像として用い
る戸籍文書の項目を分類し識別するために、各項目を分
類し識別するためのID(項目識別ID)を図5の
(a)〜(c)のように定義する。そして、各項目のI
Dを組み合わせることによって戸籍文書の項目を分類し
識別する。
【0025】ここで、図5の(a)〜(c)に示される
ID(項目識別ID)について説明する。図5の(a)
は、戸籍文書の項目の構成(以下、ページタイプと呼
ぶ)の種別を定義するIDであり、戸籍文書の最上右に
ある罫線に囲まれたブロック領域(図4参照)に書かれ
ている、「筆頭者」あるいは「非筆頭者」を種別として
定義している。図5の(b)は、戸籍文書のページの記
載者の種別を定義するIDであり、図5の(b)に示さ
れるような種別のIDが定義されている。図5の(c)
は、戸籍文書を構成する項目の項目名を定義するIDで
あり、図5の(c)に示されるような種別のIDが定義
されている。
【0026】また、キーワード比較処理に用いられるキ
ーワードは、図6に示されるような戸籍文書の項目に記
載されている特定種類の文字を原稿画像の種別を識別す
るためのキーワードとして設定する。また、各キーワー
ドは上述の対応する項目識別IDの下2桁と1対1で対
応付けしておく。次に、上述の図2のフローチャートの
ステップS203において実行される具体的な処理につ
いて、図7〜図10を用いて説明する。
【0027】例えば、図4のような戸籍文書の原稿画像
に対して、図2のステップS202で説明される領域分
割処理を施した結果として、図7に示すような複数の項
目のブロックB701〜B736が得られたとする。そ
して、各項目に含まれるテキストデータに対応する文字
が認識されると、その認識結果と対応する項目のブロッ
クデータを示すアドレスとその項目に対して行うキーワ
ード比較処理によって得られる項目識別IDを図8に示
されるようなデータ群として、例えば、RAM107に
記憶する。尚、この時点では、キーワード比較処理が行
われていないので、各項目の項目識別IDの下2桁は初
期値として「0」が設定される。
【0028】次に、各認識結果と図6に示されるキーワ
ードとの比較を行い、キーワードが一致する認識結果に
は、そのキーワードに対応する項目識別IDの下2桁が
設定される。例えば、図8のデータ群においては、図9
に示されるような項目識別IDの下2桁が設定される。
つまり、キーワードが一致する認識結果には項目識別I
Dの下2桁が設定され、キーワードが一致しなかった認
識結果に対しては、初期値である「0」が設定されたま
まになっている。
【0029】次に、項目識別処理において、キーワード
比較処理によってキーワードと一致した認識結果の種類
に基づいて、その戸籍文書のページタイプを分類する。
まず、「本籍」と認識された認識結果がキーワードと一
致していることが、図9で示されるデータ群からわかる
ので、戸籍文書のページタイプは「筆頭者タイプ」と分
類される。その結果、この戸籍文書のページタイプの項
目識別IDは、図5の(a)より「1000」と決定さ
れる。また、戸籍文書のページの記載者の種別は、「筆
頭者タイプ」と分類されたので、筆頭者のページの記載
者と分類される。その結果、この戸籍文書のページの記
載書の項目識別IDは、図5の(b)より「000」と
決定される。一方、戸籍文書のページタイプが「非筆頭
者タイプ」と分類される場合は、戸籍文書のページの記
載者の種別は2種類あるので、その戸籍文書の各項目の
位置関係から、戸籍文書のページの記載書の項目識別I
Dは、図5の(b)より「100」あるいは「200」
が決定される。
【0030】更に、残りのキーワードと一致している認
識結果に、図5の(c)に基づいて、項目識別IDが決
定される。例えば、「本籍」と認識された認識結果に
は、項目識別IDが、1000(ページタイプが筆頭
者)+000(筆頭者のページの記載者)+10(本籍
というタイトル)=1010のようにして決定される。
次に、キーワードが一致しなかった認識結果に対して、
項目識別IDを決定する。この決定方法は、項目識別I
Dが決定された認識結果、つまり、キーワードが一致し
た認識結果が記載されている項目の位置関係から、キー
ワードが一致しなかった認識結果に項目識別IDを決定
する。
【0031】例えば、図7に示されるブロックB702
は、項目識別ID「1010」が決定されたブロックB
701(認識結果として「本籍」が認識された項目)の
直下にあるので、「番地」が記載されている項目である
と識別され、項目識別ID1011が決定される。以上
のようにして、全ての項目に対して項目識別IDが決定
される。図4の戸籍文書の場合、図10に示されるよう
な項目識別IDが決定された結果が得られる。また、所
望の罫線で囲まれた領域を抽出する場合は、各罫線で囲
まれた領域に決定された項目識別IDを指定すること
で、所望の罫線でかこまれた領域を抽出する。
【0032】以上説明したように、本実施の形態によれ
ば、原稿画像に含まれる罫線で囲まれた領域を分類し識
別することができる。また、識別された各領域に決定さ
れた項目識別IDによって、所望の罫線で囲まれた領域
を抽出することができる。また、上述の領域分割処理
と、文字認識処理と、キーワード比較処理と、項目識別
処理とを設けて罫線で囲まれた領域を抽出できるように
することにより、所望の項目に該当する罫線で囲まれた
領域の選択が可能になり、操作性の向上、処理全体の時
間の短縮等が図ることができる。
【0033】尚、本実施の形態では、キーワード比較処
理に用いるキーワードは、項目識別IDの下2桁に対応
するキーワードが1つであったが、例えば、図11に示
されるように、項目識別IDの下2桁に対応するキーワ
ードを2つ以上持たせる構成にすることも可能である。
このような構成にすることで、例えば、「本籍」を示す
テキストデータの文字認識を左から行った場合に、認識
結果が「籍本」となっても、「本籍」と「籍本」の2つ
が同じ項目識別IDの下2桁「10」であると認識され
るので、文字認識処理の認識対象であるテキストデータ
の組方向を考慮する必要がなくなる。
【0034】また、本実施の形態では、キーワード比較
処理に用いるキーワードを、特定の種類の項目に記載さ
れる文字をキーワードとしたが、項目識別処理後によっ
て得られたキーワード以外の項目に記載される文字をキ
ーワードとする構成にすることも可能である。例えば、
あらかじめ決まっているキーワード以外に、項目識別処
理によって、「夫」、「妻」等が記載されている項目の
項目識別IDの下2桁が「50」であることが決定され
る。そして、これ以降に行う他の原稿画像の項目識別処
理のキーワード(図12参照)として「夫」、「妻」も
更に用いることで、項目識別処理のキーワードが一致し
ない認識結果の項目識別IDを決定する処理を少なくす
ることができる。
【0035】また、本実施の形態の文字認識処理おい
て、認識対象のテキストデータの認識候補の第1候補と
キーワードが一致しなくても、第1候補を含めて第2候
補以降の認識候補の組み合わせによって、キーワードが
一致する場合は、その認識対象がキーワードと一致する
可能性が高い考えられるので、このような場合はキーワ
ードが一致すると判定する構成にすることも可能であ
る。
【0036】例えば、図7のブロックB701に記載さ
れているテキストデータを文字認識して得られる認識候
補として、図13に示されるような第1候補〜第4候補
まで得られた場合、第1候補とキーワード(ここでは
「本籍)」では一致しないと判断されてしまうが、第1
候補と第3候補に含まれる文字を組み合わせることによ
って、キーワード(「本籍」)と一致するので、この第
1候補とキーワード(「本籍」)が一致すると判定す
る。このように、認識対象の認識候補群のそれぞれがキ
ーワードと一致しないような各認識候補群が誤認識の認
識候補である場合にも、その認識対象がキーワードと一
致すると判定することができる。
【0037】尚、上述のステップS204のキーワード
比較処理の後に、キーワードと一致したテキストデー
タ、テキストデータを罫線で囲む領域を、色や形や状態
を他の領域とは区別して表示するキーワード一致ブロッ
ク表示処理を更に追加した構成にすることも可能であ
る。このような構成にすることで、キーワードと一致し
たテキストデータを罫線で囲む領域を色等でオペレータ
に報知することによって、画像の読取りの際の濃度調整
の失敗等により認識結果が悪く、認識結果の文字候補の
中に正解文字が無い場合等の認識結果の正否を、キーワ
ードと一致したテキストデータの数が多いか少ないか等
によってオペレータが容易に判定することができるよう
になる。
【0038】例えば、図2のフローチャートのステップ
S204のキーワード比較処理後に、上述の構成を付加
した図14に示されるようなフローチャートによって、
容易に実現される。図14は本実施の形態の他の構成に
よって実行される処理の処理フローを示すフローチャー
トである。
【0039】まず、ステップS1401で、原稿画像を
スキャナ101で読み込み2値画像データに変換する。
ステップS1402で、得られた2値画像データに対し
て、2値画像データに含まれる属性(写真、図形、文字
等)毎に領域を分割する領域分割処理を行う。本実施の
形態では、領域分割処理において、特に、項目を抽出し
た場合、その項目の座標データ等の情報をブロックデー
タとして図3のように記憶する。そして、分割した項目
の座標データ等の情報をブロックデータとして図3のよ
うに記憶する。
【0040】ステップS1403で、各項目に存在する
テキストデータに対応する文字を認識する文字認識処理
を行う。ステップS1404で、ステップS1403で
認識された認識結果とあらかじめ設定されているキーワ
ードを比較するキーワード比較処理を行う。ステップS
1405で、キーワードと一致したテキストデータ、テ
キストデータを罫線で囲む領域を、色や形や状態を他の
領域とは区別して表示するキーワード一致ブロック表示
処理を行う。ステップS1406で、キーワード比較処
理の比較結果から、原稿画像の種別を分類し、分類され
た原稿画像を構成する項目を識別する項目識別処理を行
う。
【0041】尚、本発明は、複数の機器(例えばホスト
コンピュータ、インタフェース機器、リーダ、プリンタ
等)から構成されるシステムに適用しても、一つの機器
からなる装置(例えば、複写機、ファクシミリ装置等)
に適用してもよい。また、本発明の目的は、前述した実
施形態の機能を実現するソフトウェアのプログラムコー
ドを記録した記憶媒体を、システムあるいは装置に供給
し、そのシステムあるいは装置のコンピュータ(または
CPUやMPU)が記憶媒体に格納されたプログラムコ
ードを読出し実行することによっても、達成されること
は言うまでもない。
【0042】この場合、記憶媒体から読出されたプログ
ラムコード自体が上述した実施の形態の機能を実現する
ことになり、そのプログラムコードを記憶した記憶媒体
は本発明を構成することになる。プログラムコードを供
給するための記憶媒体としては、例えば、フロッピディ
スク、ハードディスク、光ディスク、光磁気ディスク、
CD−ROM、CD−R、磁気テープ、不揮発性のメモ
リカード、ROMなどを用いることができる。
【0043】また、コンピュータが読出したプログラム
コードを実行することにより、前述した実施形態の機能
が実現されるだけでなく、そのプログラムコードの指示
に基づき、コンピュータ上で稼働しているOS(オペレ
ーティングシステム)などが実際の処理の一部または全
部を行い、その処理によって前述した実施の形態の機能
が実現される場合も含まれることは言うまでもない。
【0044】更に、記憶媒体から読出されたプログラム
コードが、コンピュータに挿入された機能拡張ボードや
コンピュータに接続された機能拡張ユニットに備わるメ
モリに書込まれた後、そのプログラムコードの指示に基
づき、その機能拡張ボードや機能拡張ユニットに備わる
CPUなどが実際の処理の一部または全部を行い、その
処理によって前述した実施形態の機能が実現される場合
も含まれることは言うまでもない。
【0045】本発明を上記記憶媒体に適用する場合、そ
の記憶媒体には、先に説明したフローチャートに対応す
るプログラムコードを格納することになるが、簡単に説
明すると、図15のメモリマップ例に示す各モジュール
を記憶媒体に格納することになる。すなわち、図15で
は、少なくとも「記憶モジュール」、「分割モジュー
ル」、「認識モジュール」、「比較モジュール」および
「識別モジュール」の各モジュールのプログラムコード
を記憶媒体に格納すればよい。
【0046】尚、「記憶モジュール」は、複数種類の所
定のフォーマットを有する原稿画像に関し、各原稿画像
の所定領域内の文字情報を含むフォーマット情報を記憶
媒体に記憶する。「分割モジュール」は、所定のフォー
マットを有する原稿画像を複数の領域に分割する。「認
識モジュール」は、分割される領域に存在する文字を認
識する。「比較モジュール」は、認識結果と文字情報を
比較する。「識別モジュール」は、比較結果に基づい
て、所定のフォーマットを有する原稿画像の種類を識別
する。
【0047】
【発明の効果】以上の説明からも明らかなように、本発
明によれば、原稿画像に含まれた所望の罫線で囲まれた
領域を抽出することができる画像処理装置及びその方法
を提供できる。また、原稿画像に含まれる罫線で囲まれ
た領域の抽出処理のおける操作の作業効率を向上する画
像処理装置及びその方法を提供できる。
【図面の簡単な説明】
【図1】本実施の形態の画像処理装置の機能構成を示す
ブロック図である。
【図2】本実施の形態で実行される処理の処理フローを
示すフローチャートである。
【図3】本実施の形態のブロックデータの構成を示す図
である。
【図4】本実施の形態の原稿画像の例を示す図である。
【図5】本実施の形態の項目識別IDの構成を示す図で
ある。
【図6】本実施の形態のキーワードと項目識別IDの下
2桁の関係を示すである。
【図7】本実施の形態の原稿画像に対して実行した領域
分割処理の処理結果を示す図である。
【図8】本実施の形態の原稿画像に対して実行した文字
認識処理の認識結果を示す図である。
【図9】本実施の形態の文字認識処理の認識結果とキー
ワード比較処理の比較結果の関係を示す図である。
【図10】本実施の形態の原稿画像に対して設定した項
目識別IDの設定結果を示す図である。
【図11】本実施の形態の他の構成によるキーワードと
項目識別IDの下2桁の関係を示すである。
【図12】本実施の形態の他の構成によるキーワードと
項目識別IDの下2桁の関係を示すである。
【図13】本実施の形態の認識結果の複数の認識文字候
補の組み合わせに対してキーワードを比較する構成を説
明するための図である。
【図14】本実施の形態の他の構成によって実行される
処理の処理フローを示すフローチャートである。
【図15】本発明で実行される処理フローのプログラム
を記憶させたFDのメモリマップの構造を示す図であ
る。
【符号の説明】
101 スキャナ 102 スキャナインタフェース 103 マウス 104 マウスインタフェース 105 CPU 106 ROM 107 RAM 108 ディスプレイ 109 ディスプレイインタフェース 110 FDD 111 FDDインタフェース 112 バス 113 KBインタフェース 114 KB
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G06K 9/00 - 9/76 G06F 17/21 G06F 19/00

Claims (8)

    (57)【特許請求の範囲】
  1. 【請求項1】 複数種類の原稿に含まれる項目に対する
    キーワードを記憶する記憶手段と、 原稿画像に含まれる罫線に基づいて該原稿画像を複数の
    領域に分割する分割手段と、 前記分割手段で分割された各領域内の文字画像を文字認
    識する文字認識手段と、 前記文字認識手段で認識された各領域の文字認識結果と
    前記記憶手段に記憶されているキーワードとを比較し
    て、前記文字認識結果とキーワードとが一致する領域を
    判別する比較手段と、 前記比較手段で一致すると判別したキーワードの内、原
    稿の種別を分類するための該原稿に予め記載されている
    項目に対する特定キーワードに基づいて前記原稿画像の
    種別を分類し、前記分類された原稿画像の種別を示す識
    別子と各キーワードに定められている識別子とに基づい
    て、前記比較手段で一致すると判別された領域の文字認
    識結果それぞれに対して項目識別子を決定する第1項目
    識別手段と、 前記比較手段で文字認識結果がキーワードと一致しない
    と判別された領域と前記第1項目識別手段で項目識別子
    が決定された領域との位置関係に基づいて、前記比較手
    段で一致しないと判別された領域の文字認識結果に対し
    て項目識別子を決定する第2項目識別手段とを有するこ
    とを特徴とする画像処理装置。
  2. 【請求項2】 前記記憶手段には、1つの項目に対して
    複数のキーワードを記憶可能であることを特徴とする請
    求項1に記載の画像処理装置。
  3. 【請求項3】 更に、前記文字認識手段による文字認識
    結果の内、前記比較手段で前記キーワードに一致すると
    判別された文字認識結果以外の文字を、新たなキーワー
    ドとして前記記憶手段に登録する登録手段を有すること
    を特徴とする請求項1に記載の画像処理装置。
  4. 【請求項4】 更に、前記比較手段でキーワードと一致
    したと判別された文字認識結果或いは該文字認識結果を
    囲む領域を、他と区別して表示するように制御する表示
    手段を有することを特徴とする請求項1に記載の画像処
    理装置。
  5. 【請求項5】 原稿画像に含まれる罫線に基づいて該原
    稿画像を複数の領域に分割する分割工程と、 前記分割工程で分割された各領域内の文字画像を文字認
    識する文字認識工程と、 前記文字認識工程で認識された各領域の文字認識結果
    と、記憶手段に記憶されている複数種類の原稿に含まれ
    る項目に対するキーワードとを比較して、前記文字認識
    結果とキーワードとが一致する領域を判別する比較工程
    と、 前記比較手段で一致すると判別したキーワードの内、原
    稿の種別を分類するための該原稿に予め記載されている
    項目に対する特定キーワードに基づいて前記原稿画像の
    種別を分類し、前記分類された原稿画像の種別を示す識
    別子と各キーワードに定められている識別子とに基づい
    て、前記比較手段で一致すると判別された領域の文字認
    識結果それぞれに対して項目識別子を決定する第1項目
    識別工程と、 前記比較工程で文字認識結果がキーワードと一致しない
    と判別された領域と前記第1項目識別工程で項目識別子
    が決定された領域との位置関係に基づいて、前記比較工
    程で一致しないと判別された領域の文字認識結果に対し
    て項目識別子を決定する第2項目識別工程とを有するこ
    とを特徴とする画像処理方法。
  6. 【請求項6】 前記記憶手段には、1つの項目に対して
    複数のキーワードを記憶可能であることを特徴とする請
    求項5に記載の画像処理方法。
  7. 【請求項7】 更に、前記文字認識工程による文字認識
    結果の内、前記比較工程で前記キーワードに一致すると
    判別された文字認識結果以外の文字を、新たなキーワー
    ドとして前記記憶手段に登録する登録工程を有すること
    を特徴とする請求項5に記載の画像処理方法。
  8. 【請求項8】 更に、前記比較工程でキーワードと一致
    したと判別された文字認識結果或いは該文字認識結果を
    囲む領域を、他と区別して表示するように制御する表示
    工程を有することを特徴とする請求項5に記載の画像処
    理方法。
JP01004496A 1996-01-23 1996-01-24 画像処理装置及びその方法 Expired - Fee Related JP3412998B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP01004496A JP3412998B2 (ja) 1996-01-24 1996-01-24 画像処理装置及びその方法
US08/786,913 US6201894B1 (en) 1996-01-23 1997-01-22 Method and apparatus for extracting ruled lines or region surrounding ruled lines

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP01004496A JP3412998B2 (ja) 1996-01-24 1996-01-24 画像処理装置及びその方法

Publications (2)

Publication Number Publication Date
JPH09204493A JPH09204493A (ja) 1997-08-05
JP3412998B2 true JP3412998B2 (ja) 2003-06-03

Family

ID=11739405

Family Applications (1)

Application Number Title Priority Date Filing Date
JP01004496A Expired - Fee Related JP3412998B2 (ja) 1996-01-23 1996-01-24 画像処理装置及びその方法

Country Status (1)

Country Link
JP (1) JP3412998B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200311413A1 (en) * 2019-03-28 2020-10-01 Konica Minolta Laboratory U.S.A., Inc. Document form identification

Also Published As

Publication number Publication date
JPH09204493A (ja) 1997-08-05

Similar Documents

Publication Publication Date Title
JP3469345B2 (ja) 画像のファイリング装置及びファイリング方法
US5960448A (en) System and method for displaying a graphically enhanced view of a region of a document image in which the enhanced view is correlated with text derived from the document image
JP4533273B2 (ja) 画像処理装置及び画像処理方法、プログラム
US6356655B1 (en) Apparatus and method of bitmap image processing, storage medium storing an image processing program
JP4785655B2 (ja) 文書処理装置及び文書処理方法
US6201894B1 (en) Method and apparatus for extracting ruled lines or region surrounding ruled lines
JPH11306197A (ja) 画像処理装置及びその方法、コンピュータ可読メモリ
US20020054706A1 (en) Image retrieval apparatus and method, and computer-readable memory therefor
US6968501B2 (en) Document format identification apparatus and method
JP2015187846A (ja) 文書処理システム、及び文書処理装置
JP4136282B2 (ja) 画像処理装置及び画像処理方法並びに記憶媒体
JP3412998B2 (ja) 画像処理装置及びその方法
US5854860A (en) Image filing apparatus having a character recognition function
JP2000322417A (ja) 画像ファイリング装置及び方法及び記憶媒体
JPH09282328A (ja) 文書画像処理装置及びその方法
JPH10171920A (ja) 文字認識装置、その文字認識方法およびその記録媒体
JP3814334B2 (ja) 画像処理装置及びその方法
Yamashita et al. A document recognition system and its applications
JP3412999B2 (ja) 画像処理装置及びその方法
JPH11187231A (ja) 画像検索装置及び画像検索方法
KR102572130B1 (ko) 문서 이미지에서 문서 양식을 추출하는 방법 및 시스템
JP2001312691A (ja) 画像処理方法および装置並びに記憶媒体
JP3554097B2 (ja) 画像処理装置及びその方法
JPH09269970A (ja) 文字認識方法とその装置
JP3581471B2 (ja) 画像処理装置及びその方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030307

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080328

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090328

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100328

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100328

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110328

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120328

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130328

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140328

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees