JP3744996B2

JP3744996B2 - 画像処理装置及びその方法

Info

Publication number: JP3744996B2
Application number: JP00195296A
Authority: JP
Inventors: 和之齋藤
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1996-01-10
Filing date: 1996-01-10
Publication date: 2006-02-15
Anticipated expiration: 2016-01-10
Also published as: JPH09190490A

Description

【０００１】
【発明の属する技術分野】
本発明は、原稿画像に含まれる文字を認識してテキストデータを出力する画像処理装置及びその方法に関するものである。
【０００２】
【従来の技術】
従来の画像処理装置においては、スキャナ等で読み込んだ原稿の読み込み結果としてディスプレイ等に表示される原稿画像に対し、その原稿画像に含まれるテキスト情報を抽出する場合、原稿画像に含まれる属性に従ってテキスト領域および非テキスト領域に分割する処理である領域分割を実行した後、各領域毎に存在するテキストのテキストの抽出処理を行っていた。また、特に、非テキスト領域である表領域の中に含まれるテキストに対しては、その表を構成する罫線を抽出した後に、罫線に囲まれた領域内のテキストを抽出していた。
【０００３】
【発明が解決しようとする課題】
しかしながら、上述の従来の画像処理装置において、領域分割の処理対象である原稿画像にテキスト領域と非テキスト領域が混在する場合、例えば、非テキスト領域として表が存在する場合、その表の中のテキストを表内テキストとして抽出を行っても、原稿画像内のテキスト領域のテキストと表内のテキストが区別されずに抽出されてしまい、表内のテキストあるいはテキスト領域のテキストだけを抽出することができなかった。
【０００４】
そのため、表内のテキストのみが必要な場合、領域分割処理後、原稿画像内のテキスト領域を削除するか、あるいは表のみを予め指定する等の操作が必要であり、原稿画像内の所望のテキストを抽出するための操作が煩雑になるという問題点があった。また、作業効率を低下させていた。
本発明は上記の問題点に鑑みてなされたものであり、原稿画像内の所望の属性を有する領域に含まれるテキストを抽出するための操作を容易にし、作業効率を向上する画像処理装置及びその方法を提供することを目的としている。
【０００５】
【課題を解決するための手段】
上記の目的を達成するための本発明による画像処理装置は以下の構成を備える。即ち、
原稿画像に含まれる文字を認識してテキストデータを出力する画像処理装置であって、
前記原稿画像を属性毎の領域に分割する分割手段と、
前記原稿画像内において、所定の属性を有する領域の面積が前記原稿画像の面積に対して占める割合を算出する算出手段と、
前記算出手段の算出結果と予め定められた条件とを比較した結果に基づいて、各属性に対して文字認識対象にするか否かの設定を自動的に行う第１設定手段と、
前記文字認識対象にすると設定された属性を有する領域に含まれる文字を文字認識してテキストデータを出力する出力手段と
を備える。
また、好ましくは、自動モードと手動モードのいずれかに切り替えて設定するモード切替手段と、
前記モード切替手段で手動モードに設定されている場合は、ユーザの指示に基づき、ユーザ所望の属性を文字認識対象として設定する第２設定手段と、を更に備え、
前記モード切替手段で自動モードに設定されている場合は、前記第１設定手段において、前記算出手段の算出結果と予め定められた条件とを比較した結果に基づき、各属性に対して文字認識対象にするか否かの設定を自動的に行う。
【０００６】
また、好ましくは、前記第１設定手段は、前記算出手段で算出される前記所定の属性を有する領域の面積が前記原稿画像の面積に対して占める割合が所定数以上である場合、当該所定の属性を文字認識対象として設定する。
また、好ましくは、前記第１設定手段は、前記算出手段で算出される割合が前記所定数未満である場合、当該所定の属性を文字認識対象としない。
【０００７】
また、好ましくは、前記算出手段は、表内テキストの属性を有する表領域の面積が前記原稿画像の面積に対して占める割合を算出し、
前記第１設定手段は、
前記算出手段で算出される割合が所定数以上である場合、当該表内テキストの属性を文字認識対象とし且つ本文テキストの属性を文字認識対象としないように設定し、
一方、前記算出手段で算出される割合が前記所定数未満である場合、当該表内テキストの属性を文字認識対象とせず且つ本文テキストの属性を文字認識対象とするように設定する。
また、好ましくは、前記算出手段は、表内テキストの属性を有する領域の面積と図内テキストの属性を有する領域の面積との合計が前記原稿画像の面積に対して占める割合を算出し、
前記第１設定手段は、
前記算出手段で算出される割合が所定数以上である場合、当該表内テキストの属性と前記図内テキストの属性とを文字認識対象とし且つ本文テキストの属性を文字認識対象としないように設定し、
一方、前記算出手段で算出される割合が前記所定数未満である場合、当該表内テキストの属性と前記図内テキストの属性とを文字認識対象とせず且つ本文テキストの属性を文字認識対象として設定する。
【０００８】
上記の目的を達成するための本発明による画像処理方法は以下の構成を備える。即ち、
原稿画像に含まれる文字を認識してテキストデータを出力する画像処理方法であって、
前記原稿画像を属性毎の領域に分割する分割工程と、
前記原稿画像内において、所定の属性を有する領域の面積が前記原稿画像の面積に対して占める割合を算出する算出工程と、
前記算出工程の算出結果と予め定められた条件とを比較した結果に基づいて、各属性に対して文字認識対象にするか否かの設定を自動的に行う第１設定工程と、
前記文字認識対象にすると設定された属性を有する領域に含まれる文字を文字認識してテキストデータを出力する出力工程と
を備える。
また、好ましくは、自動モードと手動モードのいずれかに切り替えて設定するモード切替工程と、
前記モード切替工程で手動モードに設定されている場合は、ユーザの指示に基づき、ユーザ所望の属性を文字認識対象として設定する第２設定工程と、を更に備え、
前記モード切替工程で自動モードに設定されている場合は、前記第１設定工程において、前記算出工程の算出結果と予め定められた条件とを比較した結果に基づき、各属性に対して文字認識対象にするか否かの設定を自動的に行う。
【０００９】
また、好ましくは、前記第１設定工程では、前記算出工程で算出される前記所定の属性を有する領域の面積が前記原稿画像の面積に対して占める割合が所定数以上である場合、当該所定の属性を文字認識対象として設定する。
また、好ましくは、前記第１設定工程では、前記算出工程で算出される割合が前記所定数未満である場合、当該所定の属性を文字認識対象としない。
【００１０】
また、好ましくは、前記算出工程では、表内テキストの属性を有する表領域の面積が前記原稿画像の面積に対して占める割合を算出し、
前記第１設定工程では、
前記算出工程で算出される割合が所定数以上である場合、当該表内テキストの属性を文字認識対象とし且つ本文テキストの属性を文字認識対象としないように設定し、
一方、前記算出工程で算出される割合が所定数未満である場合、当該表内テキストの属性を文字認識対象とせず且つ本文テキストの属性を文字認識対象とするように設定する。
また、好ましくは、前記算出工程では、表内テキストの属性を有する領域の面積と図内テキストの属性を有する領域の面積との合計が前記原稿画像の面積に対して占める割合を算出し、
前記第１設定工程では、
前記算出工程で算出される割合が所定数以上である場合、当該表内テキストの属性と前記図内テキストの属性とを文字認識対象とし且つ本文テキストの属性を文字認識対象としないように設定し、
一方、前記算出工程で算出される割合が前記所定数未満である場合、当該表内テキストの属性と前記図内テキストの属性とを文字認識対象とせず且つ本文テキストの属性を文字認識対象として設定する。
【００１１】
また、好ましくは、前記所定数の変更を指示する指示工程を
更に備える。
上記の目的を達成するための本発明によるコンピュータ可読メモリは以下の構成を備える。即ち、
画像処理のプログラムコードが格納されたコンピュータ可読メモリであって、
前記原稿画像を属性毎の領域に分割する分割工程のコードと、
前記原稿画像内において、所定の属性を有する領域の面積の前記原稿画像の面積に対する割合を算出する算出工程のコードと、
前記算出工程の算出結果に基づいて、前記原稿画像内に含まれる複数の属性の少なくとも１つを指定する第１指定工程のコードと、
前記第１指定工程で指定された属性を有する領域に含まれる文字を認識してテキストデータを出力する出力工程のコードと
を備えることを特徴とするコンピュータ可読メモリ。
【００１２】
【発明の実施の形態】
以下、図面を参照して本発明の好適な実施の形態を詳細に説明する。
図１は本実施の形態の画像処理装置の機能構成を示すブロック図である。
図１において、１０１はスキャナであり、画像原稿に光を照射し、その反射光を読み取り電気信号に変換する。また、スキャナ１０１より読み込まれた画像原稿は、イメージデータとしてＲＡＭ１０７のＶＲＡＭ領域に格納される。１０２はスキャナインターフェースであり、スキャナ１０１で得られた電気信号を２値のデジタル電気信号に変換し、他の装置構成要素に伝送する。１０３はポインティングデバイスとして機能するマウスであり、マウス１０３を移動することでディスプレイ１０８上に表示されるカーソル１００（図６参照）を移動する。また、画面に表示されるメニューにカーソル１００を位置し、そのメニュー上で付帯するボタン（不図示）を用いてドラッグ操作、クリック操作を行うことで、その内容を実行することができる。１０４はマウスインタフェースであり、マウス１０３からの信号を受け、それを他の装置構成要素に伝送する。１１４はＫＢ（キーボード）であり、キーボードを介してデータの入力や命令の実行を行う。１１３はＫＢインターフェースであり、ＫＢ１１４からの信号を受け、それを他の装置構成要素に伝送する。
【００１３】
１０５はＣＰＵであり、装置全体の制御及び文字切り出し処理や認識処理を実行する。１０６はＲＯＭであり、ＣＰＵ１０５が実行する制御プログラム、各種処理プログラムやフォントデータ等の各種データを格納している。１０７はＲＡＭであり、文字画像の展開や文字認識処理のための作業領域等として用いる。また、スキャナ１０１より読み込まれたイメージデータを格納するための所定の記憶領域としてＶＲＡＭ領域を持つ。１０８はディスプレイであり、ＲＡＭ１０７のＶＲＡＭ領域に格納されているイメージデータや本実施の形態で実行された認識結果を表示する。１０９はディスプレイインターフェースである。
【００１４】
１１０はＦＤＤ（フロッピーディスクドライブ）であり、ＦＤを装着しデータの読み書きが可能である。また、装着されたＦＤ（不図示）に後述する処理フローのプログラムを書き込み、該プログラムを本装置のＲＡＭ１０７に読み込むことで処理を実行させることができる。１１１はＦＤＤインターフェースである。そして、１１２は各装置構成要素を接続するバスである。
【００１５】
まず、図２のフローチャートを用いて、入力画像の領域分割処理について説明する。
図２は本実施の形態の入力画像の領域分割処理の処理フローを示すフローチャートである。
ステップＳ２０１で、認識しようとする文書をスキャナ１０１で読み込み２値画像データに変換する。ステップＳ２０２で、得られた２値画像データに対して領域分割を行い、テキスト領域、図形領域、表領域等の各種領域を抽出する。また、各種領域には、それらの位置を示す座標、属性、認識順序等の情報を格納した矩形データ（図５の（ａ）を参照）が生成される。そして、各領域に対して生成された矩形データの属性に、図５の（ｂ）に示すような各種属性に対応した識別番号を格納する。
【００１６】
図５の（ａ）に示される各領域の矩形データについて説明する。矩形データは、各領域に有する特徴をまとめて構成させたものであり、各領域に対応するＲＡＭ１０６に格納される。図の中の、始点座標と終点座標は、ディスプレイ１０８上に位置する領域の始点と終点の座標を格納する。属性は、各領域の属性に対応する図５の（ｂ）に示される識別番号を格納する。認識順序は、ディスプレイ１０８上に表示される複数の領域に含まれる各テキストの認識順序を格納する。出力フラグは、その領域の出力の有無を決定するための情報を格納する。この詳細については、後述する。
【００１７】
ステップＳ２０３で、表や図として抽出された非テキスト領域については、更に、それらの領域内のテキスト領域を抽出を行う。抽出された非テキスト領域内テキストには、その属性として「表内テキスト」や「図内テキスト」として矩形データに本文のテキスト領域の属性である「本文テキスト」とは異なる識別番号を付加する。
【００１８】
ステップＳ２０４で、抽出された全領域の各矩形データに対して、その出力フラグを０にして初期化する。ステップＳ２０５で、ＲＡＭ１０７上に各領域の矩形データを保持する。
例えば、スキャナ１０１から読み込まれた原稿画像として図６に示されるような文書がディスプレイ１０８に表示されたとする。図６の上部には、本実施の形態で説明される処理を実行するための命令としてメニューが表示されている。各メニューは、その表示される位置にカーソル１００をあわせ、その位置でドラッグ操作あるいはクリック操作することで、表示されるメニューの内容を実行することができる。
【００１９】
６０１は領域分割を行うためのメニューであり、このメニューの位置でカーソル１００をクリック操作することで領域分割処理が実行される。６０２は文字認識対象を選択するためのメニューであり、このメニューの位置でカーソル１００を合わせマウス１０３のボタンを押すと、図７に示すようなプルダウンメニューが表示される。この詳細については、後述する。６０３は領域分割された原稿画像のテキスト領域に対して、文字認識を実行させるためのメニューであり、このメニューの位置でカーソル１００をクリック操作することで文字認識処理が実行される。
【００２０】
６０４は領域出力モードを設定するためのメニューであり、このメニューの位置でカーソル１００をクリック操作することで、認識させる所望の属性を持つ領域のディスプレイ１０８への出力を「自動」あるいは「手動」に切り替えて設定することができる。「手動」の場合は、ユーザによって、所望の属性を持つ領域をディスプレイ１０８へ出力するための設定を行う。この設定の方法について、図７を用いて説明する。カーソル１００を文字認識対象メニュー６０２にあわせ、マウス１０３のボタンを１回押すとプルダウンメニュー６０２ａが表示される。プルダウンメニュー６０２ａには、所望の属性の領域のディスプレイ１０８への出力の設定を行うために、例えば、「本文テキスト」、「表内テキスト」、「図内テキスト」等の領域の属性のメニューが表示される。各領域の属性のメニューの横には、その属性を持つ領域をディスプレイ１０８への出力するか否かを決定するための切替メニュー「無効」／「有効」が表示され、カーソル１００をその位置に合わせクリック操作することで「無効」／「有効」が切り替わる。切替メニューに「有効」が表示される場合はその属性を持つ領域がディスプレイ１０８への出力対象となり、切替メニューに「無効」が表示される場合はその属性を持つ領域がディスプレイ１０８への非出力対象となる。
【００２１】
例えば、図６に示される原稿画像に対して、文字認識対象として「本文テキスト」、「表内テキスト」を「有効」に設定した場合に、領域分割処理（カーソル１００を領域分割メニュー６０１上でクリック操作）を実行すると、図８に示されるように、実線の枠で囲まれたテキスト領域の矩形と、点線の枠で囲まれた非テキスト領域の矩形が抽出されディスプレイ１０８へ表示される。
【００２２】
一方、「自動」の場合は、予め所望の属性の領域のディスプレイ１０８への出力の条件を設定しておき、その条件に従って処理が実行される。
次に、本実施の形態の領域出力モードメニュー６０４の操作によって、実行される処理について図３と図４のフローチャートを用いて説明する。
図３は本実施の形態の処理フローを示すフローチャートである。
【００２３】
尚、本実施の形態では、領域出力モードメニュー６０４が「自動」の場合、所定数以上の「表内テキスト」が処理対象である原稿画像に存在する場合に、「表内テキスト」をディスプレイ１０８へ出力するという条件で処理が実行されるものとする。また、説明を簡略化するために「本文テキスト」と「表内テキスト」をディスプレイ１０８への出力対象として説明する。
【００２４】
ステップＳ３０１で、領域出力モードが「自動」であるか否かを判定する。「自動」でない（つまり「手動」である）場合（ステップＳ３０１でＮＯ）、ステップＳ３０２に進む。「自動」である場合（ステップＳ３０１でＹＥＳ）、ステップＳ３０４に進む。
ステップＳ３０２で、「本文テキスト」や「表内テキスト」等のディスプレイ１０８への出力対象を指示する。
【００２５】
ステップＳ３０３で、出力対象を指示する際の処理を実行する。この処理を、図４のフローチャートを用いて説明する。
図４は本実施の形態の出力対象を指示する際の処理フローを示すフローチャートである。
ステップＳ４０１で、「本文テキスト」が「有効」であるか否かを判定する。「有効」でない（つまり「無効」である）場合（ステップＳ４０１でＮＯ）、ステップＳ４０３に進む。「有効」である場合（ステップＳ４０１でＹＥＳ）、ステップＳ４０２に進む。
【００２６】
ステップＳ４０２で、「本文テキスト」の属性を持つ領域である各領域の矩形データの出力フラグを「０」に変更する。ステップＳ４０３で、「本文テキスト」の属性を持つ領域である各領域の矩形データの出力フラグを「１」に変更する。
同様に、ステップＳ４０４で、「表内テキスト」が「有効」であるか否かを判定する。「有効」でない（つまり「無効」である）場合（ステップＳ４０４でＮＯ）、ステップＳ４０６に進む。「有効」である場合（ステップＳ４０４でＹＥＳ）、ステップＳ４０５に進む。
【００２７】
ステップＳ４０５で、「表内テキスト」の属性を持つ領域である各領域の矩形データの出力フラグを「０」に変更する。ステップＳ４０６で、「表内テキスト」の属性を持つ領域である各領域の矩形データの出力フラグを「１」に変更する。
再び、図３のフローチャートの説明に戻る。
【００２８】
ステップＳ３０４で、属性が「表内テキスト」である表領域の面積が画像原稿に対して占める割合を算出する。ステップＳ３０５で、算出される面積の割合がｎ以上（ｎは正の整数）であるか否かを判定する。ｎ以上である場合（ステップＳ３０５でＹＥＳ）、ステップＳ３０６に進む。ｎ以上でない場合（ステップＳ３０５でＮＯ）、ステップＳ３０８に進む。
【００２９】
尚、上述のステップＳ３０５の判定で用いる閾値ｎは、ＫＢ１１４を介してユーザが所望の閾値を入力する。
ステップＳ３０６で、「表内テキスト」のみを「有効」と設定し、「本文テキスト」を「無効」に設定する。ステップＳ３０７で、「表内テキスト」の属性を持つ領域の矩形データの出力フラグが「０」、「本文テキスト」の属性を持つ領域の矩形データの出力フラグが「１」に変更される。この場合、ステップＳ３１０で、「表内テキスト」の属性を持つ領域のみがディスプレイ１０８へ出力されることになる。
【００３０】
一方、ステップＳ３０８で、「本文テキスト」のみを「有効」と設定し、「表内テキスト」を「無効」に設定する。ステップＳ３０９で、「本文テキスト」の属性を持つ領域の矩形データの出力フラグが「０」、「表内テキスト」の属性を持つ領域の矩形データの出力フラグが「１」に変更される。この場合、ステップＳ３１０で、「本文テキスト」の属性を持つ領域のみがディスプレイ１０８へ出力されることになる。
【００３１】
ステップＳ３１０で、矩形データの出力フラグが「０」である領域がディスプレイ１０８へ出力される。
例えば、ステップＳ３０５の判定条件である「表内テキスト」の面積が原稿画像に対して占める割合ｎを「０．５」と設定し、図６の原稿画像に対して処理を実行すると、図６の原稿画像には表の面積は原稿画像の半分以上を占めないため、図９に示されるように「本文テキスト」のみが抽出されていることを示す実線がテキスト領域を囲んでディスプレイ１０８へ出力される。また、図１０は、表の面積が原稿画像の半分以上を占める場合で、「表内テキスト」のみが抽出されていることを示す破線が表領域を囲んでディスプレイ１０８へ出力される。
【００３２】
本実施の形態では、領域出力モードが「自動」である時のディスプレイ１０８への出力対象を、所定数以上の表が処理対象の原稿画像に存在する場合に、「表内テキスト」をディスプレイ１０８へ出力するという条件にしていたが、これに限らない。例えば、「表内テキスト」だけでなく「図内テキスト」やそれ以外の非テキスト領域を出力対象とすることも可能である。
【００３３】
例えば、領域出力モードが「自動」である時のディスプレイ１０８への出力対象を「表内テキスト」と「図内テキスト」として設定し、かつ「表内テキスト」の面積が画像原稿に対して占める割合ｉと「図内テキスト」の面積が画像原稿に対して占める割合ｊの合計割合（ｉ＋ｊ）がｋ以上の場合に、「表内テキスト」と「図内テキスト」をディスプレイ１０８へ出力するという条件で実行される処理について、図１１を用いて説明する。この場合、処理を始める前の初期状態では、図１２に示されるように、プルダウンメニュー６０２ａに表示される「表内テキスト」と「図内テキスト」が「有効」に設定され、「本文テキスト」と「無効」に設定される。
【００３４】
図１１は本実施の形態の他の構成による処理フローを示すフローチャートである。
尚、図１１の説明では、領域出力モードが「自動」に設定されている状態の時の処理についてのみ説明する。また、領域出力モードが「手動」に設定されている状態の時の処理は、ステップＳ３０２、ステップＳ３０３で説明した処理と同様なので、その説明は省略する。
【００３５】
ステップＳ１１０１で、属性が「表内テキスト」である表領域の面積が画像原稿に対して占める割合ｉ（ｉは正の整数）を算出する。ステップＳ１１０２で、属性が「図内テキスト」である図領域の面積が画像原稿に対して占める割合ｊ（ｊは正の整数）を算出する。ステップＳ１１０３で、算出される表領域と図領域の面積が画像原稿に対して占める割合の合計（ｉ＋ｊ）がｋ以上であるか否かを判定する。ｋ以上である場合（ステップＳ１１０３でＹＥＳ）、ステップＳ１１０６に進む。ｋ以上でない場合（ステップＳ１１０３でＮＯ）、ステップＳ１１０４に進む。
【００３６】
尚、上述のステップＳ１１０３の判定で用いる閾値ｋは、ＫＢ１１４を介してユーザが所望の閾値を入力する。
ステップＳ１１０４で、「表内テキスト」と「図内テキスト」を「有効」と設定し、「本文テキスト」を「無効」に設定する。ステップＳ１１０５で、「表内テキスト」と「図内テキスト」の属性を持つ領域の矩形データの出力フラグが「０」、「本文テキスト」の属性を持つ領域の矩形データの出力フラグが「１」に変更される。この場合、ステップＳ１１０８で、「表内テキスト」と「図内テキスト」の属性を持つ領域がディスプレイ１０８へ出力されることになる。
【００３７】
一方、ステップＳ１１０６で、「本文テキスト」のみを「有効」と設定し、「表内テキスト」と「図内テキスト」を「無効」に設定する。ステップＳ１１０７で、「本文テキスト」の属性を持つ領域の矩形データの出力フラグが「０」、「表内テキスト」と「図内テキスト」の属性を持つ領域の矩形データの出力フラグが「１」に変更される。この場合、ステップＳ１１０８で、「本文テキスト」の属性を持つ領域のみがディスプレイ１０８へ出力されることになる。
【００３８】
例えば、図１２は、ステップＳ１３０３の判定条件である「表内テキスト」と「図内テキスト」の面積が画像原稿に対して占める割合の合計割合を「０．５」と設定した上で、領域出力モードが「自動」、「表内テキスト」および「図内テキスト」が「有効」に設定されている状態で、処理が実行された場合の処理結果である。この場合、「表内テキスト」および「図内テキスト」の各領域に破線の枠が表示され、「表内テキスト」および「図内テキスト」の面積が画像原稿に対して占める割合が０．５以上であることを示している。
【００３９】
更に、図１１で説明された領域出力モードが「自動」の時の出力対象の条件を出力対象となる非テキスト領域ごとに指示することも可能である。
例えば、領域出力モードが「自動」である時のディスプレイ１０８への出力対象を「表内テキスト」と「図内テキスト」として設定し、かつ「表内テキスト」の面積が画像原稿に対して占める割合ｉがｇ以上、「図内テキスト」の面積が画像原稿に対して占める割合ｊがｈ以上である場合に、それぞれ「表内テキスト」と「図内テキスト」をディスプレイ１０８へ出力するという条件で実行される処理について、図１３を用いて説明する。
【００４０】
図１３は本実施の形態の他の構成による処理フローを示すフローチャートである。
ステップＳ１３０１で、まず、「本文テキスト」の属性を持つ領域を「有効」として、その領域の矩形データの出力フラグを「０」に初期化する。
ステップＳ１３０２で、属性が「表内テキスト」である表領域の面積が画像原稿に対して占める割合ｉを算出する。ステップＳ１３０３で、算出される割合ｉがｇ以上（ｇは正の整数）であるか否かを判定する。ｇ以上である場合（ステップＳ１３０３でＹＥＳ）、ステップＳ１３０４に進む。ｇ以上でない場合（ステップＳ１３０３でＮＯ）、ステップＳ１３０６に進む。
【００４１】
尚、上述のステップＳ１３０３の判定で用いる閾値ｇは、ＫＢ１１４を介してユーザが所望の閾値を入力する。
ステップＳ１３０４で、「表内テキスト」のみを「有効」と設定し、「本文テキスト」を「無効」に設定する。ステップＳ１３０５で、「表内テキスト」の属性を持つ領域の矩形データの出力フラグが「０」、「本文テキスト」の属性を持つ領域の矩形データの出力フラグが「１」に変更される。この場合、ステップＳ１３１４で、「表内テキスト」の属性を持つ領域のみがディスプレイ１０８へ出力されることになる。
【００４２】
一方、ステップＳ１３０６で、「本文テキスト」のみを「有効」と設定し、「表内テキスト」を「無効」に設定する。ステップＳ１３０７で、「本文テキスト」の属性を持つ領域の矩形データの出力フラグが「０」、「表内テキスト」の属性を持つ領域の矩形データの出力フラグが「１」に変更される。この場合、ステップＳ１３１４で、「本文テキスト」の属性を持つ領域のみがディスプレイ１０８へ出力されることになる。
【００４３】
ステップＳ１３０８で、属性が「図内テキスト」である図領域の面積が画像原稿に対して占める割合ｊを算出する。ステップＳ１３０９で、算出される割合ｊがｈ以上（ｈは正の整数）であるか否かを判定する。ｈ以上である場合（ステップＳ１３０９でＹＥＳ）、ステップＳ１３１０に進む。ｈ以上でない場合（ステップＳ１３０９でＮＯ）、ステップＳ１３１０に進む。
【００４４】
尚、上述のステップＳ１３０９の判定で用いる閾値ｈは、ＫＢ１１４を介してユーザが所望の閾値を入力する。
ステップＳ１３１０で、「図内テキスト」のみを「有効」と設定し、「本文テキスト」を「無効」に設定する。ステップＳ１３１１で、「図内テキスト」の属性を持つ領域の矩形データの出力フラグが「０」、「本文テキスト」の属性を持つ領域の矩形データの出力フラグが「１」に変更される。この場合、ステップＳ１３１４で、「図内テキスト」の属性を持つ領域のみがディスプレイ１０８へ出力されることになる。
【００４５】
一方、ステップＳ１３１２で、「本文テキスト」のみを「有効」と設定し、「図内テキスト」を「無効」に設定する。ステップＳ１３１３で、「本文テキスト」の属性を持つ領域の矩形データの出力フラグが「０」、「図内テキスト」の属性を持つ領域の矩形データの出力フラグが「１」に変更される。この場合、ステップＳ１３１４で、「本文テキスト」の属性を持つ領域のみがディスプレイ１０８へ出力されることになる。
【００４６】
ステップＳ１３１４で、矩形データの出力フラグが「０」である領域がディスプレイ１０８へ出力される。
尚、表領域の面積が画像原稿に対して占める割合ｉがｇ未満で図領域の面積が画像原稿に対して占める割合ｊがｋ以上であれば、「表内テキスト」の属性を持つ領域の矩形データの出力フラグの変更の処理の際、「本文テキスト」の属性を持つ領域の矩形データの出力フラグは変更されない。しかし、「図内テキスト」の属性を持つ領域の矩形データの出力フラグの変更の処理の際、「本文テキスト」の属性を持つ領域の矩形データの出力フラグが無効に設定されるので、「図内テキスト」の属性を持つ領域のみがディスプレイ１０８へ出力されることになる。
【００４７】
同様にして、逆の場合は「表内テキスト」の属性を持つ領域のみがディスプレイ１０８へ出力されることになる。更に、表領域の面積が画像原稿に対して占める割合ｉがｇ未満で図領域の面積が画像原稿に対して占める割合ｊもｈ未満であれば、「本文テキスト」の属性を持つ領域の矩形データの出力フラグは初期設定のまま変わらないので、「本文テキスト」の属性を持つ領域のみがディスプレイ１０８へ出力されることになる。
【００４８】
以上、本実施の形態の領域出力モードが「自動」の時の出力対象の条件を、いくつか例を挙げて説明した。以下、本実施の形態で説明される特徴的な処理の概要を、図１４に示すフローチャートを用いて説明する。
図１４は本実施の形態の処理フローの概要を示すフローチャートである。
ステップＳ１００１で、領域出力モードが「自動」である時のディスプレイ１０８への出力対象とする領域の出力条件を設定する。
【００４９】
ステップＳ１００２で、領域出力モードが「自動」であるか否かを判定する。「自動」でない（つまり「手動」である）場合（ステップＳ１００１でＮＯ）、ステップＳ１００３に進む。「自動」である場合（ステップＳ１００１でＹＥＳ）、ステップＳ１００５に進む。
ステップＳ１００３で、ディスプレイ１０８への出力対象を指示する。
【００５０】
ステップＳ１００４で、出力対象を指示する際の処理を実行する。
一方、ステップＳ１００５で、予め設定された出力条件に従って出力対象を指示する処理を実行する。
ステップＳ１００６で、矩形データの出力フラグが「０」である領域がディスプレイ１０８へ出力される。
【００５１】
以上説明したように、本実施の形態によれば、領域出力モードを備え、そのモードを「自動」に設定することで、予め設定された条件に基づいて、所望の属性を有する領域を出力することができる。また、モードを「手動」にすることで、ユーザが任意の属性を有する領域を出力することができる。その結果、複数の属性の領域を有する原稿画像の中から、所望の属性を有する領域を出力するための操作が容易になり作業効率が向上する。
【００５２】
尚、本発明は、複数の機器（例えば、ホストコンピュータ、インタフェース機器、リーダ、プリンタ等）から構成されるシステムに適用しても、一つの機器からなる装置（例えば、複写機、ファクシミリ装置等）に適用してもよい。
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。
【００５３】
この場合、記憶媒体から読出されたプログラムコード自体が上述した実施の形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
プログラムコードを供給するための記憶媒体としては、例えば、フロッピディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどを用いることができる。
【００５４】
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているＯＳ（オペレーティングシステム）などが実際の処理の一部または全部を行い、その処理によって前述した実施の形態の機能が実現される場合も含まれることは言うまでもない。
【００５５】
更に、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【００５６】
本発明を上記記憶媒体に適用する場合、その記憶媒体には、先に説明したフローチャートに対応するプログラムコードを格納することになるが、簡単に説明すると、図１５のメモリマップ例に示す各モジュールを記憶媒体に格納することになる。
すなわち、少なくとも「分割モジュール」、「算出モジュール」、「第１指定モジュール」および「出力モジュール」の各モジュールのプログラムコードを記憶媒体に格納すればよい。
【００５７】
【発明の効果】
以上の説明からも明らかなように、本発明によれば、原稿画像内の所望の属性を有する領域に含まれるテキストを抽出するための操作を容易にし、作業効率を向上する画像処理装置及びその方法を提供できる。
【図面の簡単な説明】
【図１】本実施の形態の画像処理装置の機能構成を示すブロック図である。
【図２】本実施の形態の入力画像の領域分割処理の処理フローを示すフローチャートである。
【図３】本実施の形態の処理フローを示すフローチャートである。
【図４】本実施の形態の出力対象を指示する際の処理フローを示すフローチャートである。
【図５】（ａ）は、本実施の形態の矩形データの構造を示す図であり、（ｂ）は各属性とその識別番号の関係を示す図である。
【図６】本実施の形態の原稿画像の表示例を示す図である。
【図７】本実施の形態の文字認識対象メニューによる文字認識対象の指示方法を説明するための図である。
【図８】本実施の形態の出力対象を全ての属性の領域とした場合の表示例を示す図である。
【図９】本実施の形態の出力対象を「本文テキスト」の属性を持つ領域とした場合の表示例を示す図である。
【図１０】本実施の形態の出力対象を「表内テキスト」の属性を持つ領域とした場合の表示例を示す図である。
【図１１】本実施の形態の他の構成による処理フローを示すフローチャートである。
【図１２】本実施の形態の出力対象を「表内テキスト」と「図内テキスト」の属性を持つ領域とした場合の表示例を示す図である。
【図１３】本実施の形態の他の構成による処理フローを示すフローチャートである。
【図１４】本実施の形態の処理フローの概要を示すフローチャートである。
【図１５】本発明で実行される処理フローのプログラムを記憶させたＦＤのメモリマップの構造を示す図である。
【符号の説明】
１０１スキャナ
１０２スキャナインタフェース
１０３マウス
１０４マウスインタフェース
１０５ＣＰＵ
１０６ＲＯＭ
１０７ＲＡＭ
１０８ディスプレイ
１０９ディスプレイインタフェース
１１０ＦＤＤ
１１１ＦＤＤインタフェース
１１２バス

Claims

原稿画像に含まれる文字を認識してテキストデータを出力する画像処理装置であって、
前記原稿画像を属性毎の領域に分割する分割手段と、
前記原稿画像内において、所定の属性を有する領域の面積が前記原稿画像の面積に対して占める割合を算出する算出手段と、
前記算出手段の算出結果と予め定められた条件とを比較した結果に基づいて、各属性に対して文字認識対象にするか否かの設定を自動的に行う第１設定手段と、
前記文字認識対象にすると設定された属性を有する領域に含まれる文字を文字認識してテキストデータを出力する出力手段と
を備えることを特徴とする画像処理装置。
自動モードと手動モードのいずれかに切り替えて設定するモード切替手段と、
前記モード切替手段で手動モードに設定されている場合は、ユーザの指示に基づき、ユーザ所望の属性を文字認識対象として設定する第２設定手段と、を更に備え、
前記モード切替手段で自動モードに設定されている場合は、前記第１設定手段において、前記算出手段の算出結果と予め定められた条件とを比較した結果に基づき、各属性に対して文字認識対象にするか否かの設定を自動的に行う
ことを特徴とする請求項１に記載の画像処理装置。
前記第１設定手段は、前記算出手段で算出される前記所定の属性を有する領域の面積が前記原稿画像の面積に対して占める割合が所定数以上である場合、当該所定の属性を文字認識対象として設定する
ことを特徴とする請求項１に記載の画像処理装置。
前記第１設定手段は、前記算出手段で算出される割合が前記所定数未満である場合、当該所定の属性を文字認識対象としない
ことを特徴とする請求項３に記載の画像処理装置。
前記算出手段は、表内テキストの属性を有する表領域の面積が前記原稿画像の面積に対して占める割合を算出し、
前記第１設定手段は、
前記算出手段で算出される割合が所定数以上である場合、当該表内テキストの属性を文字認識対象とし且つ本文テキストの属性を文字認識対象としないように設定し、
一方、前記算出手段で算出される割合が前記所定数未満である場合、当該表内テキストの属性を文字認識対象とせず且つ本文テキストの属性を文字認識対象とするように設定する
ことを特徴とする請求項１に記載の画像処理装置。
前記算出手段は、表内テキストの属性を有する領域の面積と図内テキストの属性を有する領域の面積との合計が前記原稿画像の面積に対して占める割合を算出し、
前記第１設定手段は、
前記算出手段で算出される割合が所定数以上である場合、当該表内テキストの属性と前記図内テキストの属性とを文字認識対象とし且つ本文テキストの属性を文字認識対象としないように設定し、
一方、前記算出手段で算出される割合が前記所定数未満である場合、当該表内テキストの属性と前記図内テキストの属性とを文字認識対象とせず且つ本文テキストの属性を文字認識対象として設定する
ことを特徴とする請求項１に記載の画像処理装置。
原稿画像に含まれる文字を認識してテキストデータを出力する画像処理方法であって、
前記原稿画像を属性毎の領域に分割する分割工程と、
前記原稿画像内において、所定の属性を有する領域の面積が前記原稿画像の面積に対して占める割合を算出する算出工程と、
前記算出工程の算出結果と予め定められた条件とを比較した結果に基づいて、各属性に対して文字認識対象にするか否かの設定を自動的に行う第１設定工程と、
前記文字認識対象にすると設定された属性を有する領域に含まれる文字を文字認識してテキストデータを出力する出力工程と
を備えることを特徴とする画像処理方法。
自動モードと手動モードのいずれかに切り替えて設定するモード切替工程と、
前記モード切替工程で手動モードに設定されている場合は、ユーザの指示に基づき、ユーザ所望の属性を文字認識対象として設定する第２設定工程と、を更に備え、
前記モード切替工程で自動モードに設定されている場合は、前記第１設定工程において、前記算出工程の算出結果と予め定められた条件とを比較した結果に基づき、各属性に対して文字認識対象にするか否かの設定を自動的に行う
ことを特徴とする請求項７に記載の画像処理方法。
前記第１設定工程では、前記算出工程で算出される前記所定の属性を有する領域の面積が前記原稿画像の面積に対して占める割合が所定数以上である場合、当該所定の属性を文字認識対象として設定する
ことを特徴とする請求項７に記載の画像処理方法。
前記第１設定工程では、前記算出工程で算出される割合が前記所定数未満である場合、当該所定の属性を文字認識対象としない
ことを特徴とする請求項９に記載の画像処理方法。
前記算出工程では、表内テキストの属性を有する表領域の面積が前記原稿画像の面積に対して占める割合を算出し、
前記第１設定工程では、
前記算出工程で算出される割合が所定数以上である場合、当該表内テキストの属性を文字認識対象とし且つ本文テキストの属性を文字認識対象としないように設定し、
一方、前記算出工程で算出される割合が所定数未満である場合、当該表内テキストの属性を文字認識対象とせず且つ本文テキストの属性を文字認識対象とするように設定する
ことを特徴とする請求項７に記載の画像処理方法。
前記算出工程では、表内テキストの属性を有する領域の面積と図内テキストの属性を有する領域の面積との合計が前記原稿画像の面積に対して占める割合を算出し、
前記第１設定工程では、
前記算出工程で算出される割合が所定数以上である場合、当該表内テキストの属性と前記図内テキストの属性とを文字認識対象とし且つ本文テキストの属性を文字認識対象としないように設定し、
一方、前記算出工程で算出される割合が前記所定数未満である場合、当該表内テキストの属性と前記図内テキストの属性とを文字認識対象とせず且つ本文テキストの属性を文字認識対象として設定する
ことを特徴とする請求項７に記載の画像処理方法。