JP3950498B2 - イメージ処理方法及び装置 - Google Patents
イメージ処理方法及び装置 Download PDFInfo
- Publication number
- JP3950498B2 JP3950498B2 JP22183596A JP22183596A JP3950498B2 JP 3950498 B2 JP3950498 B2 JP 3950498B2 JP 22183596 A JP22183596 A JP 22183596A JP 22183596 A JP22183596 A JP 22183596A JP 3950498 B2 JP3950498 B2 JP 3950498B2
- Authority
- JP
- Japan
- Prior art keywords
- text
- rectangles
- contour
- overlap
- block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
Description
【発明の属する技術分野】
本発明は、文書頁のテキスト領域と非テキスト領域を区別するために該文書頁のイメージを分析するブロック選択(または特徴抽出)装置であって、テキスト領域の各グループの周囲と非テキスト領域の各グループの周囲とに外接する矩形を定め、その後で重複する矩形を同定し、それらの矩形の重複する部分を分解することによって該重複する部分の除去を可能にする装置に関する。
【0002】
【従来の技術】
従来の特徴抽出装置においては、文書頁の異なるタイプのイメージデータは、まず、該イメージデータがテキストタイプであるかまたは非テキストタイプであるかに応じて同定され、次にイメージデータの領域が、種類に応じて一緒にグループ化(または「ブロック化」)される。イメージデータの各ブロックが、その後で、更なる処理のために抽出される。即ち、従来の特徴抽出装置は、ブロック選択ルーチンを実行して、前記イメージデータ内の連結成分を同定し、非テキストタイプの連結された成分からテキストタイプの連結成分を分離し、別々に該テキスト及び非テキスト連結成分を好ましくは矩形のブロック内にグループ化し、そして非テキスト連結成分を更なる分析に付して、表データ、グラフデータ、線画イメージ、ハーフトーンイメージ、フレーム等の非テキスト連結成分の特定の種類を同定する。
【0003】
一度イメージデータの特徴が抽出されると階層木を、該木の各ノードがブロック選択中に定められたイメージデータの各ブロック矩形グループに1対1対応するように設けて、設定することができる。階層木の各ノードには、属性情報がイメージデータの各ブロック矩形片毎に記憶される。即ち、該属性情報は、イメージ情報のブロックがテキストタイプであるか非テキストタイプであるかについての情報を含み、テキストタイプ情報は、さらに題名領域、見出し領域、テキスト領域、などに分類され、非テキストタイプ情報は、さらに、表情報、線画情報、グラフ情報、ハーフトーンイメージ情報などに分類されていることが可能である。なお、階層木中のノードの位置は、文書頁内のイメージ情報の対応するブロック矩形の位置を暗に記憶している。文書のイメージ情報内の矩形ブロックの場所との組合せで、階層木により、光学式文字認識(OCR)、データ及び/またはイメージ圧縮、データルーチング、データ抽出、保存、検索などのようなその後の適切な処理のための情報の各ブロックの抽出が可能になる。例えば、テキストデータとして指定されたイメージデータのブロックは、適切なOCR処理に付しうるが、ピクチャデータと指定されたイメージデータのブロックは、データ圧縮に付し得るであろう。その結果、多様な異なる文書頁のいずれのイメージデータであれ、任意に入力し、オペレータの介入なしに自動的に処理可能となる。
【0004】
イメージデータの各ブロックの秩序だった処理のために、多くの従来の特徴抽出装置は、ブロックが重複していないという仮定に依存していた。そのような仮定は、図2に示した文書などの、非常に多くの文書において正しい。該図から分かるように、代表的な文書頁1は、2コラムフォーマットで配列され、題名領域2、水平な線3、各々テキストデータの行を含むテキスト領域4、5及び6、ハーフトーンピクチャ領域7、フレーム領域8、ならびに表9を含む。米国特許出願第07/873、012号「文字識別の方法及び装置」ならびに米国特許出願第08/338、781号「頁分析装置」に記載されたブロック選択技術、によると、文書頁1の各領域が、その中に位置するイメージデータのタイプに従って同定及び指定され、次いでイメージデータがその各々のタイプに基づいて区分される。ブロック選択処理の結果、各イメージ領域の矩形ブロックが図3に示すように作成され、対応する階層木が形成される。即ち、図3に示すように、文書1に対応するイメージデータ11の場合は、ブロック選択により、題名ブロック12、テキストブロック14、15及び16などの多様なテキストタイプ領域ならびに線ブロック13、ハーフトーンイメージブロック17、フレーム領域18及び表領域19等の多様な非テキストブロックが定められる。
【0005】
図3に示すように、非テキストブロックのあるものはその中にテキストブロックを含みうるが、矩形ブロックのいずれも他のブロックに重複していない。例えば、フレーム領域18は、非テキスト線画領域18a及びテキスト領域18bを含み、表領域19は、総じて19aで指定されるテキストタイプ表記載事項を含む。
【0006】
【発明が解決しようとする課題】
上に述べたように、イメージデータ11内のイメージ領域のブロック矩形指定に基づき、各情報領域のイメージデータをその後の適切な処理のために抽出することができる。さらに、そして同じく前述したように、矩形ブロックのいずれも他と重複していないので、抽出は直接的である。
【0007】
ブロック矩形領域が互いに他と重複するときは困難が生じる。そのような重複は、例えば、文書の全体の外見に深く影響する編集書式の単純な変更とともに生じ得る。かくして、図4に示すように、フレーム領域8を文書の2つのコラムにまたがる8aで示される位置に移動する編集書式の単純な変更が行われている。従来のブロック選択及び特徴抽出技術では、図5に示すように、ブロック18aがブロック14及びブロック15に重なるブロック矩形フォーマットが得られる結果となる。そのように定められた矩形ブロックに基づいてイメージデータを抽出するときになると、これらのブロックの重複は困難を引き起こす。即ち、領域4のテキストイメージデータにのみ対応すると想定されているブロック14についてイメージデータを抽出する時になると、非テキストフレーム領域18aの不要な部分も抽出されることが分かる。同様に、テキストタイプイメージデータのみを含むと推定されている領域15のイメージデータを抽出するときになると、非テキストフレーム領域18aの不要なもう一つの部分が抽出されることが分かる。かくして、特徴抽出またはブロック選択技術により設定されるブロック矩形領域における重複は、現在までのところ困難を生じている。
【0008】
本発明は、上述の問題点に鑑み、特徴抽出またはブロック選択技術により設定されるブロック矩形領域における重複の問題を克服できるイメージ処理方法及び装置を提供することを目的とする。
【0009】
【課題を解決するための手段】
本発明のイメージ処理方法は、上記目的を達成するため、入力されたイメージ内に含まれる連結成分に基づいて特定される領域の外接矩形を得る外接矩形取得工程と、前記入力されたイメージ内に含まれる連結成分に基づいて特定される領域の輪郭情報を得る輪郭情報取得工程と、前記外接矩形取得工程で得た複数の外接矩形のうち、重複する外接矩形を判別する重複判別工程と、前記重複判別工程で重複すると判別された外接矩形が、当該外接矩形に対応する所望の連結成分のイメージデータ抽出に影響するかどうか判別する影響判別工程と、前記重複判別工程で重複すると判別された外接矩形に関して、前記輪郭情報に基づいて複数の矩形に分解する分解工程と、前記分解工程で複数の矩形に分解された場合には、当該分解された複数の矩形に基づいてイメージデータを抽出し、前記分解工程で複数の矩形に分解されなかった場合には、当該分解されなかった外接矩形に基づいてイメージデータを抽出する抽出工程と、前記抽出工程で抽出されたイメージデータを処理する処理工程とを有し、前記分解工程では、前記影響判別工程で影響すると判別された場合、前記重複判別工程で重複すると判別された外接矩形を前記輪郭情報に基づいて複数の矩形に分解し、前記影響判別工程で影響しないと判別された場合、前記重複判別工程で重複すると判別された外接矩形の分解を行わないことを特徴とする。
また、本発明のイメージ処理装置は、入力されたイメージ内に含まれる連結成分に基づいて特定される領域の外接矩形を得る外接矩形取得手段と、前記入力されたイメージ内に含まれる連結成分に基づいて特定される領域の輪郭情報を得る輪郭情報取得手段と、前記外接矩形取得手段で得た複数の外接矩形のうち、重複する外接矩形を判別する重複判別手段と、前記重複判別手段で重複すると判別された外接矩形が、当該外接矩形に対応する所望の連結成分のイメージデータ抽出に影響するかどうか判別する影響判別手段と、前記重複判別手段で重複すると判別された外接矩形に関して、前記輪郭情報に基づいて複数の矩形に分解する分解手段と、前記分解手段で複数の矩形に分解された場合には、当該分解された複数の矩形に基づいてイメージデータを抽出し、前記分解手段で複数の矩形に分解されなかった場合には、当該分解されなかった外接矩形に基づいてイメージデータを抽出する抽出手段と、前記抽出手段で抽出されたイメージデータを処理する処理手段とを有し、前記分解手段は、前記影響判別手段で影響すると判別された場合、前記重複判別手段で重複すると判別された外接矩形を前記輪郭情報に基づいて複数の矩形に分解し、前記影響判別手段で影響しないと判別された場合、前記重複判別手段で重複すると判別された外接矩形の分解を行わないことを特徴とする。
本発明は、上述の困難に対してブロック選択及び特徴抽出処理の結果得られる重複矩形を同定し、該重複矩形をより小さい非重複矩形に分解することにより対処する。好ましくは、重複する矩形が全て分解されるのではなく、むしろ該重複矩形がまず分解が必要かどうかを判別するために分析されて、第1の矩形についてイメージデータを抽出するときに第2の矩形中の不要なイメージデータを抽出するのを回避する。
【0010】
好ましい形態においては、重複矩形の分解は、各矩形内のイメージデータの輪郭ペアに基づく。即ち、多くの水平の行にわたるイメージデータの場合、隙間のない輪郭が定められ、そこから各イメージ行について輪郭ペアを得ることが可能であるが、該輪郭ペアはその線についてイメージデータの最左端及び最右端を定める。輪郭ペアは外接矩形内のイメージデータの3つの互いに排他的な異なる種類のイメージデータの各々について別様に得られる。即ち、輪郭ペアは、(1)テキストデータ、(2)内部対象物を全く含まない非テキストデータ及び(3)内部対象物を含む非テキストデータについて、別様に得られる。
【0011】
イメージデータの重複する矩形ブロックは、その重複がしかるべきイメージ抽出に干渉するかどうかを判別するために分析される。もし重複がしかるべきイメージ抽出に干渉しない場合には、分解は行われず、輪郭ペアは用いられない。他方、矩形ブロックにおける重複がしかるべきイメージ抽出に干渉すると判別された場合は、輪郭ペアを用いて重複矩形を分解する。即ち、分解は、関係のある重複矩形の種類に応じて別様に行われる。即ち、分解は、(1)他のタイプ(即ちテキストまたは非テキスト)ブロックに重複するテキストブロック、(2)内部コンテンツを含まず、他の種類のブロックに重複する非テキストブロック、及び(3)内部コンテンツを含み他の種類のブロックに重複する非テキストブロックについて、別様に行われる。
【0012】
かくして、本発明の1つの形態においては、テキスト領域と非テキスト領域の両方を含むイメージデータを処理する処理方法が提供される。本方法は、ブロック選択を行って、イメージデータ内のテキストタイプ領域の各ブロックの周囲及びイメージデータ内の非テキスト領域の各ブロックの周囲に外接する矩形を得、各テキスト及び非テキストブロックについて輪郭ペアを得るステップを含む。その次に、外接する矩形が重複するかどうが判別される。輪郭ペアに基づいて重複矩形を分解し、非重複矩形の場合、外接矩形に基づいて、重複矩形の場合、分解された矩形に基づいて、イメージデータが抽出される。次に抽出されたイメージデータが処理される。
【0013】
この簡単な概要は、本発明の本質が速やかに理解されるように提供したものである。本発明のより完全な理解は、添付の図面に基づく好ましい形態の下記の説明を参照することにより得ることができる。
【0014】
【発明の実施の形態】
図6は、本発明に係る重複矩形分析及び分解を含む本発明の代表的な実施の形態の外観を示す図である。図6には、プログラム化された汎用コンピュータが示されているが、本発明は、他のイメージ処理装置に組み込み可能な、専用、ROMベースまたは据えつけ型の装置などの他の装置において具体化可能であることは理解されねばならない。
【0015】
図6には、マイクロソフトWindows OS等のウインドウ型オペレーションシステムを有するIBM PCまたはPC互換機等のコンピュータ機器410が示してある。コンピュータ機器410には、モノクロまたはカラーディスプレイモニタ412が設けられ、ユーザに対しイメージを表示する。コンピュータ機器410には更に、文書イメージファイル等のデータファイルならびにブロック選択及び重複矩形分析分解プログラム等のアプリケーションプログラムファイルを記憶する固定ディスクドライブ411が設けられている。さらにコンピュータ機器410には、テキストデータを入力し、ディスプレイ412の表示画面に表示される対象の操作を可能にするキーボード413と、ディスプレイ412に表示される対象を指示したり操作したりするための、マウス等のポインティング・デバイス414とが設けられる。
【0016】
複数頁を有する文書はスキャナ416によって入力される。スキャナ416は文書の各頁または他のイメージをスキャンして、これらの頁のビットマップイメージデータをコンピュータ機器410に供給する。該イメージデータは、圧縮または非圧縮フォーマットでディスク411に記憶される。
【0017】
コンピュータ機器410が処理した文書を出力するために従来のカラープリンタ418が設けられる。
【0018】
更に、ローカル・エリア・ネットワークとインターフェースするためのネットワーク・インターフェース424、及びファクシミリ/データモデムを介してファクシミリ・メッセージ及び他のデータファイルを送受信するためのファクシミリ/モデム・インターフェース426が設けられる。そのようなインターフェースは、ドキュメントイメージデータを入力するためのスキャナ416に加えて、またはその代わりに用いることができる。
【0019】
オペレータの指示に従って且つウインドウ型オペレーションシステムの制御のもとで、デスクトップ・パブリッシング・プログラム、ドローイング・アプリケーション・プログラム、ブロック選択アプリケーション等の記憶されたアプリケーション・プログラムが選択的に起動され、データを処理したり操作したりする。また、オペレータの指示に従って且つこれらの記憶されたアプリケーション・プログラムに基づいて、イメージをモニタ412に表示したり、モニタ412に表示されているイメージをプリンタ418で印刷するようにコマンドが発せられる。
【0020】
最も典型的には、本発明を具体化するブロック選択プログラムや重複矩形分析・分解プログラムを含むコンピュータディスク411に記憶されたアプリケーション・プログラムは、フロッピィディスク、CD−ROM、またはコンピュータ掲示板などのコンピュータ読み出し可能媒体から各アプリケーションをダウンロードしてディスク411に記憶したものである。
【0021】
図7は、コンピュータ機器410の内部構成を示す詳細ブロック図である。図7に示すように、コンピュータ機器410は、コンピュータバス521に接続された、プログラム式マイクロプロセッサ等から成る中央演算処理装置(CPU)520を有する。また、スキャナ・インターフェース522、プリンタ・インターフェース523、ネットワーク・インターフェース524、ファクシミリ・モデム・インターフェース526、ディスプレイ・インターフェース527、キーボード・インターフェース528、及びマウス・インターフェース529が、コンピュータバス521に接続されている。
【0022】
CPU520がアクセスできるように、ランダム・アクセス・メモリ(RAM)等の主メモリ530がコンピュータバス521に接続されている。特に、ディスク411に記憶されたアプリケーション・プログラムに関連する命令等、記憶されたアプリケーション・プログラムの命令列を実行するときに、CPU520は、これらの命令列を、ディスク411(またはネットワーク・インターフェース524を介してまたはフロッピィ・ディスク・ドライブ(図示せず)を介してアクセスされる媒体等の他のコンピュータ読み出し可能な媒体)から主メモリ530にロードして、主メモリ530からこれらの記憶されたアプリケーション・プログラムの命令列を読み出して実行する。
【0023】
図1は、コンピュータで実現される方法を示すフローチャートであって、文書頁を表す入力イメージが入力され、該入力イメージに対してブロック選択が実行されて文書イメージ内のテキスト及び非テキストブロックの周囲の外接矩形を定め、輪郭ペアを各ブロックについて得、外接矩形を分析してそれらが重複しているか否かを判別し、重複していた場合は、該重複がイメージ抽出に影響するかどうかを判別し、次に、それらがイメージ抽出に影響すると判別された場合は、重複矩形を分解する。即ち、図1に示すように、分解は、重複矩形が、テキストブロック、内部コンテンツを含まない非テキストブロック、または内部コンテンツを含む非テキストブロックに外接するかどうかに応じて別様に行われる。図1に示された処理ステップは、上述のようにコンピュータ読み出し可能な媒体に記憶され、それらの処理ステップを主メモリ530にロードしてそこから実行するCPU520によって実行される。
【0024】
即ち、ステップS501で、文書頁を表すイメージデータが入力される。前述したように、イメージデータはスキャナ416を介して入力してよく、またはディスク411上や、ネットワーク・インターフェース424もしくはファクシミリ/モデム・インターフェース426を介して記憶されたイメージデータファイルから得てもよい。
【0025】
ステップ502において、入力イメージに対してブロック選択が実行されて、テキスト及び非テキストブロックの周囲の外接矩形を得、また各ブロックについて属性情報と位置情報を記憶する階層木を得る。好適なブロック選択技術は、前述の米国出願第07/873,012号及び第08/388,781号に記載されており、その内容は、完全に記述したのと同じようにここに引用により加入する。
【0026】
ステップS503においては、ステップS502のブロック選択中に既に輪郭ペアが算出されていない程度だけ、輪郭ペアが、ステップS502でブロック選択により定められた各ブロック矩形領域について得られる。即ち、各ブロックは、通常多数の水平の線にわたる。ブロックの中に入るそのような行の各々について、該ブロック中の最左端及び最右端の領域を定める輪郭ペアがステップS503で得られる。輪郭ペアは、矩形ブロック内のデータの種類に応じて別様に得られる。即ち、輪郭ペアは、該ブロックが(1)テキストブロック、(2)内部コンテンツを含まない非テキストブロックまたは(3)内部コンテンツを含む非テキストブロックであるかどうかに応じて、別様に定められる。ステップS503にしたがって輪郭ペアを得る方法については、図8及び図9を参照して下記において詳述する。
【0027】
ステップS504では、ステップS502で得た外接矩形が重複するかどうかを判別する。外接矩形が重複するかどうかの判別は、図13を参照して、下記に詳述する。もし重複する外接矩形がなければ、本発明によりさらに処理を行う必要はなく、フローは、ステップS509までスキップする。
【0028】
他方、ステップS504で外接矩形が重複すると判別されたときは、ステップS505で、重複がイメージ抽出に影響するかどうかを判別する。一般的に、ほとんどの重複は、イメージ抽出に影響するが、中にはイメージ抽出に影響しないものも存在しうる。例えば、重複するけれども、第1の外接矩形が第2の外接矩形のイメージデータを全く含まないかまたはその逆であるという点で、互いに排他的である2つの外接矩形がブロック選択により定められることはあり得る。そのような外接矩形は、重複しているが、イメージ抽出には影響を与えない。重複がイメージ抽出に影響するかどうかを判別する方法についての詳細は、図14(A)〜(C)を参照して詳述する。
【0029】
ステップS505で重複がイメージ抽出に影響を与えないと判別された場合は、本発明によりさらに処理を行う必要はなく、フローは、ステップS509までスキップして進む。他方、重複がイメージ抽出に影響する場合は、フローは、ステップS506、S507及びS508に進み、各ステップで重複ブロックをそれぞれ分解してイメージ抽出に影響しないようにする。
【0030】
ステップS506、S507及びS508では、重複するブロックの種類に応じて重複ブロックが別様に分解される。かくして、ステップS506では、他の種類のブロック、即ちテキストまたは非テキストブロックに重複するテキストブロックが分解される。ステップS507では、内部コンテンツを含まない重複非テキストブロックが分解される。そしてステップS508では、内部コンテンツを含む非テキストブロックが分解される。階層木は、ステップS506、S507またはS508においてどのような分解が行われたかに基づいて更新される。
【0031】
重複テキストブロック及び非テキストブロックをステップS506またはS507またはS508で分解した後で、フローはステップS509に進み、イメージデータがイメージデータの境界を定める外接矩形に応じて抽出される。かくして、例えば、重複矩形が存在しない状況では、イメージデータは、ステップS502でブロック選択により定められた外接矩形に応じて抽出される。他方、重複矩形が存在し、ステップS506、S507またはS508で分解された場合は、各ブロックのイメージ抽出がそれらのステップで決定された分解ブロックに応じて実行される。
【0032】
フローは、次に抽出イメージデータが適切に処理されるステップS510に進む。例えば、上述のように、テキストタイプイメージデータを抽出する時は、適切な処理は、テキストデータ内の文字イメージの同一性を判別するための光学式文字認識であってよい。同様に、非テキスト表領域用の適切な処理には、該表内に含まれるテキスト用のOCR処理が含まれてよい。さらに別の例として、非テキストハーフトーンイメージデータの適切な処理には、より小さな記憶領域にハーフトーンピクチャを保存することを可能にする簡単なイメージ圧縮が含まれてよい。
【0033】
図1の処理は、必要に応じて、ブロック選択及びイメージ抽出が望まれる各文書頁のイメージデータについて繰り返し行われる。
【0034】
図8は、図1の上記ステップS503で簡単に説明したように、イメージ情報の各矩形ブロックについて輪郭ペアを得る方法を示すフローチャートであり、図9は、「輪郭ペア」が何を意味するかを説明する図である。
【0035】
簡単に図9を参照すると、ブロック選択ステップS502で定められたイメージデータの任意のブロック40は、垂直方向に多数の走査線を含み、該走査線の各々はブロックを水平に横切って延びている。任意に形作られた連結成分41は、例えば、文字のイメージまたはその他のイメージであってよいが、やはり多数の走査線を横切って垂直方向に延びている。「輪郭ペア」は、対象物41を含む各走査線について定められる。走査線上の各輪郭ペア(対象物が違う位置で走査線を横切る場合は各走査線には2個以上の輪郭ペアが存在しうる)は、正確に2つのポイント:対象物が走査線上で始まる第1(または左側)の点と対象物が走査線上で終わる第2(または右側)の点とを含む。かくして、例えば、図9を参照すると、走査線iには2つの輪郭ペアが含まれ、第1のものは(a,b)からなり、第2のものは(c,d)からなる。輪郭ペア(a,b)には、対象物41が走査線i上で始まる第1(左側)の点aと対象物41が輪郭線i上で終了する第2(右側)の点bが含まれる。同様に、輪郭ペア(c,d)には、対象物41が走査線i上で始まる第1(左側)の点cと対象物が輪郭線i上で終了する第2(右側)の点dが含まれる。走査線「j]の場合は、3つの輪郭ペア、即ち、(e,f)、(g,h)及び(k,l)があり、走査線「k」の場合は、ただ1つの輪郭ペア(m,n)がある。輪郭ペアの内側にあり輪郭ペアを含むイメージは、対象物41の連結成分に属するイメージである。したがって、対象物のイメージは、各走査線に沿う輪郭ペアにのみもとづいて抽出することができる。
【0036】
図9からよく理解されるように、イメージ中の各対象物が輪郭ペアで表わされれば、イメージのどの部分が次のイメージ処理のために抽出されなければならないかについてもはや混乱はないであろう。他方、かなりのメモリスペースがイメージ内の各輪郭ペアを記憶するのに必要とされ、特にイメージが何千もの輪郭ペアが必要とされるであろうテキストから構成されている時にはそうである。さらに、輪郭ペアの使用は、ブロック矩形フォーマットでより自然に提示されるイメージの非直覚的な表現になるために、ユーザにとっては不便である。勿論、ブロック矩形フォーマットは、各矩形に対して単に左上の角と右下の角のみが設定に必要であるので、ずっと少ないメモリ記憶装置条件しか要求しない。重複矩形が発生するときに生じる上述の欠点は、下記においてより詳細に説明されるように、部分的には、輪郭ペアのしかるべき使用法により対処される。
【0037】
図8を参照すると、3つの異なる種類のブロック:テキストブロック、内部成分を含まない非テキストブロック及び内部成分を含むテキストブロックの各々について、輪郭ペアを導出するフローチャートが示されている。よく理解されるように、イメージ内で出会ういかなるブロックもこれらの互いに排他的な3つのカテゴリの一つに属する。図8からさらによく理解されるように、各異なる種類のブロックの輪郭ペアは、それぞれが他の種類のブロックについてから導出される方法とは、別様に導出される。
【0038】
かくして、ステップS601では、ステップS502(図1)で導出された矩形ブロックがテキストブロックであるかどうか判別するために調べられる。テキストブロックである場合は、次に輪郭ペアがステップS602、S603及びS604により得られるが、これらのステップにおいては、該ブロックの連結成分の頂部、底部、左側及び右側の縁がまず得られ、それらの4つの縁が組み合わされて、ブロック内の全ての連結成分の隙間のない輪郭にされ、輪郭ペアがその隙間のない輪郭から作成される。この処理は、図10(A)〜(F)に示されている。図10(A)を参照すると、テキスト連結成分を含む矩形ブロックが描かれている。12のテキスト連結成分が示されているが、この数字は、通常生じるよりもずっと少ないものであり、簡潔さのためにのみ示してある。図10(B)〜(E)では、図8のステップS602により、全ての連結成分の頂部の縁、底部の縁、左側の縁及び右側の縁がそれぞれ得られる。次に、ステップS603により図10(F)に示されるように、頂部、底部、左側及び右側の縁が組み合わされて全ての連結成分が隙間のない輪郭にされる。4つの縁を組み合わせることにより、隙間のない輪郭が、テキストブロック内のテキストの全てを隙間なく囲む閉じたループに形成されることはよく理解されるであろう。最後に、輪郭ペアが図10(F)の隙間のない輪郭の輪郭ペアを得ることにより、得られる(ステップS604)。
【0039】
ステップS602ないしS604においては、テキストブロックを囲む隙間のない輪郭を形成するため連結成分の矩形境界を用いると、各連結成分基づいて隙間のない輪郭を算出する場合に多すぎる時間を費やすことなく良好な結果が得られるであろうと感じられる。しかし、この人為的に作られた輪郭は、他の対象物の輪郭と重複する結果となった場合に、該重複に関わる連結成分の各々の輪郭ペアを用いて重複する部分を修正することができる。
【0040】
図8に戻って、ステップS601で矩形ブロックがテキストブロックでないと判別された場合は、フローは、ステップS605に進み、矩形ブロックが内部成分を含まない非テキストブロックであるかどうか判別される。矩形ブロックが内部成分を含まない非テキストブロックである場合は、フローはステップS606及びS607に切り替わり、そこで、輪郭ペアがブロック内の各連結成分について得られ、そのようにして得られた輪郭ペアが連結される。この処理は、図11に示されるが、該図においては、3つの任意な連結成分46、47及び48が示されている。輪郭ペアは、該連結成分の各々について導出され、輪郭ペアを結び組み合わせて、全体に49で示されるように、全非テキストブロック囲む単一の輪郭を形成すべきかどうか考慮される。もし49で示されるような連結が望まれる場合は、連結のための空の道筋、即ち、重複を引き起こさない道筋が見出されねばならない。その後で、連結された輪郭線が輪郭ペアとして出力される。他方、連結が望まれていない場合は、各分離した連結成分の輪郭ペアが出力される。
【0041】
図8に戻り、ステップS605で、矩形ブロックが内部成分を含まない非テキストブロックであると判別されなかった場合は、カテゴリは互いに排他的であるので、該矩形ブロックは必然的に内部成分を有する非テキストブロックでなければならない。したがって、フローは、ステップS609及びS610(ステップS608は単に完全さのために示してあり、実際には実行を要しない)に進む。ステップS609とS610においては、非テキスト対象物の外側の輪郭の輪郭ペアのみならず内側白輪郭の輪郭ペアも得られ、ブロックの内部成分を抽出するのを補助する。
【0042】
即ち、図12(A)を参照して、フレーム対象物、表対象物または線画対象物等の内部成分を有する非テキスト成分は、対象物の最も外側の輪郭の内側に含まれる白輪郭を有していてよい。内側白輪郭は、内部対象物を抽出する補助のために用いられる。かくして、図12(A)に示されるように、そしてステップS609で説明されたように、テキスト成分などの内部成分52を含む任意の非テキストブロック50について、まず輪郭ペアが、該非テキスト対象物の最も外側の輪郭を定める連結成分について得られる。したがって、図12(A)に示してある状況では、輪郭ペアが連結成分51について得られる。その後、ステップS610にしたがって最も外側の輪郭の内側白輪郭について輪郭ペアが得られる。そのような内側白輪郭が53で示されている。(内側白輪郭を得る方法についての詳細な説明は米国特許出願第07/873,012号でなされており、その内容は上述のように引用によりここに加入される。)最も外側の輪郭を定める連結成分と内側白輪郭の両方についての輪郭ペアが、次に、必要な輪郭ペア情報として出力される。
【0043】
米国特許出願第07/873,012号は、図12(C)に示す4方向パターンでの内側白輪郭の導出を記述しているが、図12(D)に示される8方向パターンで内側白輪郭を導出することも可能である。8方向導出は、非テキストの最も外側の輪郭が単に垂直に配された縁だけではなく斜めの縁も有するような図12(B)に示されるような状況の場合に有利である。勿論、該8方向パターンは、図12(A)に示されるような状況パターンでも使用可能である。8方向導出は、53aで示されるように斜めの縁が存在する場合でも、内側白輪郭を良好に定めることを可能にする。しかし、8方向検索パターンが用いられると、各ステップにおいて白輪郭が外側の黒い境界で完全に包まれているかどうかを判別するために白輪郭トレースを検査しなければならない。
【0044】
要約すると、図8及び図9は、ステップS503で簡単に触れた処理の詳細な処理を示すが、それによりブロック選択により同定された各矩形ブロックについて輪郭ペアが得られ、またそれにより、輪郭ペアは、該ブロックがテキストブロックであるか、内部成分を含まない非テキストブロックであるか、内部成分を含む非テキストブロックであるかに応じて別様に得られる。
【0045】
図13及び図14(A)〜(C)は、重複する外接矩形があるかどうかを判別し、重複矩形が存在する場合は、重複がイメージ抽出に影響するかどうかを判別する図1の処理ステップS504及びS505を説明する図である。
【0046】
即ち、ステップS505では、ブロック選択により同定されたブロックに重複するものがあるかどうかが判別される。そのような重複は、各ブロックを定める2つの座標(即ち、左上の角と右下の角)を他のブロックの対応する座標と比較することにより判別可能である。かくして、図13は、4つのブロック、即ちテキストブロック54、テキストブロック55、テキストブロック56、及び非テキストブロック57を含む任意の文書のイメージ53を示す。各ブロックについての左上の角及び右下の角と他のブロックについての対応する座標との比較により、文書53には重複するブロックがないことが示される。したがって、イメージ53中のブロックについては分解は必要でなく、文書53の処理は、直接イメージデータの抽出(ステップS509)に進むことが可能である。
【0047】
図14(A)〜(C)は、矩形ブロックにおける重複がイメージ抽出に影響するかどうかを説明する図である。かくして、図14(A)においては、任意の文書のイメージ60は3つのブロック、即ち、ピクチャブロック61、ピクチャブロック62、及びテキストブロック63を含む。テキストブロック63の左上の角及び右下の角の座標(即ち、座標(X1,Y1)及び(X2,Y2))の比較により、テキストブロック63が非テキストブロック61及び非テキストブロック62に重複していると判別される。しかし、図14(A)の状況下では、テキストブロック63がブロック61及び62に重複しているといっても、テキストブロックがそれらに重複している領域には、ブロック61及び62のイメージデータは存在しない。かくして、重複にも関わらず、ブロック63のイメージ抽出は影響を受けず、テキストブロック63の分解は必要とされない。他方、非テキストブロック61及び62のイメージ抽出は、両方とも、重複により影響される。即ち、ブロック61の矩形座標に基づいてイメージデータを抽出する場合は、必要なピクチャデータが抽出されるのみならずブロック63から不要なテキストデータ部分も抽出されるであろう。したがって、非テキストブロック61及び62の両方について、ブロック分解がステップS506、S507またはS508にしたがって適切な処理として、必要となる。(ここで、非テキストブロック61及び62は内部成分を含まないと仮定すると、その場合は、分解処理はステップS507にしたがって行われるであろう)。
【0048】
図14(B)は、テキストブロック65及び非テキストブロック66を含む任意の文書64について、重複がブロック65と66間に存在する状況を示す。この状況では、図14(A)の状況とは違って、重複のために、ブロック65または66のいずれについてもイメージ情報を抽出するのは、同じく他のブロックについての不要なイメージデータを得ることなしには不可能である。したがって、ブロック65及び66の両方がステップS506ないしS508にしたがって分解に付される。
【0049】
図14(A)及び(B)に示される重複は、編集スタイルによるものであり、グラフィックが単一のページ上でテキストと混合され、インデントされ位置決めされたために生じたものである。しかし、重複は他の原因によるものであり得、したがって、編集スタイルによる重複に厳格に限定されるべきものではない。例えば、重複は、イメージデータ内のスキュー(斜行)によっても発生可能であり、スキューは、意図的なもの(やはり編集スタイルによる)またはある角度で文書を走査したことによる非意図的なもののいずれかであり得る。この状況は、任意の文書67が第1のテキストブロック68及び第2のテキストブロック69を含む図11Cに示されている。両方のテキストブロックが斜めになっており、そのスキューのため、ブロック68と69の間に重複が形成される。その重複のために、他のブロックからの不要な情報も抽出することなしには一つのブロックからのイメージ情報を抽出できない。したがって、ブロック68及び69の両方の分解が必要である。
【0050】
[重複するテキストブロックの分解]
他のテキストブロックまたは他のイメージタイプのブロックに重複するテキストをしかるべく抽出するために、抽出されるべきテキストを含むテキストブロックがより小さい非重複の矩形に分解される。ステップS506について上で論じた重複するテキストブロックを分解する工程は、図15(A)〜(I)、16(A)及び(B)、図17〜図19、ならびに図20(A)及び(B)を参照してより詳細に下記で論じる。
【0051】
一度重複テキストブロック領域が存在すると判別され、該重複テキストブロック領域がイメージ抽出に影響すると判別された場合は、重複状態がどのように存在しているかが、どの領域が直ぐに分解されるべきか(非重複領域)そしてどの領域がさらに分解を要するか(重複領域)を判別するために吟味される。図15(A)〜(I)に示されるように、2つのブロックに重複が発生する仕方には9通りの例がある。(これらの9つの例の鏡像及び回転が存在してもよい)。例えば、2つの矩形が何らかの重複を有する場合、図15(D)に示す重複状態等のように、その水平及び垂直の縁が完全にまたは一部重複しているかも知れず、一つの矩形のいずれかの縁が、他の矩形の縁内に完全に入っているかも知れない。
【0052】
重複領域に関わる領域は、図15(A)〜(C)及び15(E)〜(I)の各重複状態に示されるように、少なくとも2つのそして多くとも4つの矩形に直ぐに分解可能である。勿論、図15(D)に示すように、2つのブロックが完全に互いに重複する場合がある。分解の第1のステップは、重複していない領域を分解して1以上の非重複矩形に分解することにより刈り込んで取り去ることである。図15(A)〜(C)及び15(E)〜(I)に示すように、非重複領域は非ボールド体の輪郭で示されている。例えば、図15(A)に示されるように、テキストブロック120は、重複しない第1及び第2の領域に分解可能であり、テキスト領域121は、テキストブロック120と重複しない第1及び第2の領域に分解可能である。その結果、直ぐに分解可能な4つの非重複領域が得られる。しかし、重複領域122の場合は、更なる分解が必要となる。この工程は下記においてより詳細に論じられるであろう。
【0053】
まず、明瞭さのために、分解されるべきテキストブロックを「テキストブロック」と呼び、対象物または該テキストブロックの矩形領域が重複する非テキスト領域を「重複対象物」と呼ぶ。この場合に重複対象物は、テキストブロック、非テキストブロック、または既に分解された矩形でありうる。重複対象物が分解された矩形である場合は、最初の分解処理が、テキストブロックを分解するのに十分であるべきである。重複ブロックがテキストまたは非テキストブロックであれば、分解の第2のステップが、テキストまたは非テキストブロックの「輪郭ペア」を用いて必要となるであろう。
【0054】
さて、図16(A)を参照すると、非テキストブロック131に重複するテキストブロック130の例が示されている。図15(A)で注意した重複状態のように、イメージ抽出されるべきテキストが重複領域132内に存在し、一度非重複ブロックが分解されるとその結果図16(B)に示す重複領域132が得られる。重複領域132が次に、より小さい非重複矩形を作るために更なる分解に付され、テキストブロックが重複領域からすぐに抽出することが可能となる。
【0055】
かくして、重複領域132をさらに分解する工程を図17〜図19に示すフローチャートを参照して論じる。ステップS1400においては、領域132内のテキストブロックの全ての連結成分が集められる。一度、それらが集められてしまうと、各成分が図20(A)に示すような重複領域に入るように刈り込まれる。例えば、図20(A)に示すように、ブロック151が刈り込まれ、重複領域内のブロックの部分のみが残る。即ち、ブロック151について図20(A)に示されたものは、ブロック全体の一部にすぎない。同じことが、ブロック152及び非テキストイメージ153の残余の部分についても当てはまる。
【0056】
ステップS1401では、重複領域132内にある重複非テキスト対象物の全ての輪郭ペアが集められ、上述したようにして非重複部分が重複部分から刈り込まれる。ステップS1402では、連結成分が重複非テキストイメージ内に入らない矩形の組にグループ化される。この点については、ステップS1402での連結成分を非重複矩形の組にグループ化する処理は二つの異なる方法、即ち方法A及び方法Bによって行うことが可能である。方法Aにおいては、領域132内のテキストブロックの刈り込まれた連結成分がステップS1404で用いられ、方法Bにおいては、重複テキストブロックの刈り込まれた連結成分から導出される輪郭ペアが用いられる。方法Aまたは方法Bのいずれかより、テキストブロックが非テキストイメージに重複しない矩形にさらに分解される。
【0057】
かくして、方法Aの分解を用いて、ステップS1405において、テキストブロックが水平なテキストブロックであるかどうか判別される。ステップS1405において、水平なテキストブロックであると判別されたときは、フローは、ステップS1407に進み、そこで、水平方向に沿う全ての連結成分が一緒にグループ化される。一度水平方向の全ての連結成分がグループ化されると、フローは、ステップS1408に進み、そこで、垂直方向に沿う全ての連結成分がグループ化される。
【0058】
ステップS1409において、重複非テキスト対象物の輪郭ペアのいずれとも重複しない重複領域内の連結成分が残存しているかどうかが判別される。もし輪郭ペアと重複しない更なる連結成分が存在しないならば、ステップS1412において、グループ化処理が終了する。グループ化された水平方向連結成分及びグループ化された垂直方向連結成分が次いで、組み合われて4つの非重複矩形154、155、156及び157を形成する。これらの矩形の座標は、非重複領域内のテキストと同様にして重複領域からテキストを抽出するのに利用される。しかし、もっと多くの連結成分が存在する場合は、フローはステップS1407に戻る。
【0059】
ステップS1405で、テキストブロックが水平方向のテキストブロックではない場合は、フローは、ステップS1414に進み、そこで連結成分がまず垂直方向に沿って連結される。一度、それらが垂直方向に沿って連結されると、フローは、ステップS1415に進み、その時点で、全ての連結成分が水平方向に沿って一緒にグループ化される。ステップS1409におけると同様に、ステップS1416において、重複非テキストイメージの輪郭ペアのいずれとも重複しない連結成分が残存しているかどうか判別される。もし重複対象物の輪郭ペアのいずれとも重複しない成分が残存していないと判別された場合は、グループ化処理がステップS1412で終了する。グループ化された水平方向連結成分及びグループ化された垂直方向連結成分は、次に、組み合わされて非重複矩形を形成する。これらの矩形の座標は、記憶され、非重複領域のテキストと同様に重複領域からテキストを抽出するのに使用される。重複しない連結成分が存在する場合は、フローはステップS1414に戻る。
【0060】
図18の連結成分のグループ化の結果、今や更なる処理のために抽出可能となったブロック化された領域が得られる。更なる分解により今度は重複領域内のテキストデータが直ぐにしかるべき後処理のために抽出可能となる。
【0061】
一方、方法Bが用いられた(ステップS1406)場合は、ステップS1420で、輪郭ペアが集めれらた連結成分から導出されるか、即ちテキストブロックの輪郭ペアが図20(B)に示すように重複領域に入るように刈り込まれる。なお、該グループ化は、テキストブロックの連結成分ではなくて、輪郭ペアにより生じるため、図20(A)に示されているのとは少し異なっている。一度輪郭ペアが刈り込まれた連結成分から導出されると、フローは、ステップS1421に進む。ステップS1421では、全ての垂直方向の連結された輪郭ペアが一緒にグループ化される。ステップS1422では、一度連結された垂直方向の輪郭ペアの全てが垂直方向に沿ってグループ化されると、次に水平方向の輪郭ペアが一緒にグループ化される。ステップS1423では、垂直方向及び水平方向グループ輪郭ペアから作られた矩形が重複対象物の輪郭ペアのいずれとも重複しないような垂直方向又は水平方向の連結輪郭ペアが残存するかが判別される。もし、ステップS1423において、残存する連結輪郭ペアが存在しないと判別されると、グループ化処理はステップS1424で終了する。垂直方向及び水平方向両方のグループ化された連結輪郭ペアは重複対象物の輪郭ペアのいずれともまた前に分解された矩形の非グループ化輪郭ペアのいずれとも重複しない矩形に分解される。
【0062】
上述の処理の結果として、重複テキストブロック内のテキストは、さらにテキストブロックの重複領域をより小さな非重複矩形に分解することにより抽出することができる。
【0063】
[内部コンテンツを含まない非テキストブロックの分解]
上記ステップS507で論じた内部コンテンツを含まない重複非テキストブロックを分解する処理を図21(A)〜(C)及び図22を参照してさらに詳細に論じる。
【0064】
非テキストブロックの矩形領域がもう一つの非テキストブロックと重複する場合は、非テキストブロックの一方をより小さな非重複矩形に分解することが可能である。より小さな非重複矩形の組によって提供される情報に基づいて該ブロック内の重複非テキストイメージを直ぐに抽出することが可能である。
【0065】
明瞭さのために、分解されるべき非テキストブロックを「非テキストブロック」と呼び、該非テキストブロックにより重複されている領域を「重複対象物」と呼ぶ。
【0066】
さて、図21(A)を参照すると、非テキストイメージブロック160及び161が領域162で重複している。上記において重複テキストブロックについて論じたように、非重複領域は直ぐに最大4つの非重複矩形に分解される。非テキストブロック160及び161の「輪郭ペア」に基づいて、図22のフローチャートに示される処理を用いて、重複領域162、非テキストブロック160及び161内のより小さな非重複矩形の組を作ることが可能である。
【0067】
かくして、ステップS1700において、非テキストブロック160及び重複対象物161の輪郭ペアを用いて、非重複領域を刈り込んで領域162内に入るイメージのみが残存するようにする。即ち、図15(A)を参照して前述したように、矩形120及び121が重複領域122から刈り込まれる。同様に、ブロック123及び124が刈り込まれ、重複領域のみが残される。
【0068】
図21(C)に示されるように、重複非テキストブロックが刈り込まれ、分解される。ステップS1701においては、重複領域162において輪郭ペア情報が存在するか否かが判別される。輪郭ペア情報が重複領域に存在しないとステップS1702で判別されると、さらに分解を行う必要はなく、処理が終了する。しかし、重複領域162に輪郭ペア情報が存在するとフローはステップS1703に進む。
【0069】
ステップS1703においては、矩形重複領域(重複領域の境界領域)に接触する全ての輪郭ペアが非テキストブロック及び重複対象物の両方について集められる。それらの集められた輪郭ペアは図21(B)に示す重複領域内に入るように刈り込まれる。
【0070】
次に、ステップS1704においては、非テキストブロック160の刈り込まれた輪郭ペアが集められる。ステップS1705では、非テキストブロック160及び重複ブロック161の重複領域162が、連結された垂直方向の輪郭ペアをグループ化し、次いで、垂直方向に沿うグループ化が終了した後で水平方向の輪郭ペアがグループ化されることにより、分解される。一度垂直方向の輪郭ペアがグループ化され、水平方向の輪郭ペアがグループ化されると、重複対象物161の輪郭ペアのいずれとも重複しないように矩形が形成される。非テキストブロック160の重複領域162を分解した結果を図21(C)に示す。
【0071】
図21(C)に示すように、非テキストブロック160の重複領域162は2つのより小さい非重複矩形163及び164に分解されている。
【0072】
[内部コンテンツを含む非テキストブロックの分解]
ステップS508で説明したように、テキストなどの内部コンテンツを含む非テキストブロックを分解する処理について図23(A)〜(D)及び図24ならびに図25(A)及び(B)を参照してより詳細に論じる。
【0073】
初めは、フレーム、表、ピクチャ等のブロックには、その矩形領域が、該フレーム、表またはピクチャ内の白輪郭によって包まれる異なる種類のイメージデータを包んでいるものがあってもよい。例えば、フローチャートの場合は、その中にテキスト(アクション)を含む非テキストイメージ(工程ボックス)があり、したがって、イメージは、イメージまたはテキストが、他を抽出しないでしかるべく抽出され得るように、テキストとは別に定められねばならない。
【0074】
コンテンツを有するまたは有しない非テキストイメージをしかるべく抽出するために、コンテンツを有する非テキストブロックがコンテンツと重複しない最小数のより小さな外接矩形に分解されねばならない。それらのより小さな外接矩形から、内容イメージというよりむしろブロック化されたイメージがしかるべく抽出可能になる。
【0075】
さて図23(A)を参照すると、テキストコンテンツを含む非テキストイメージの例が示されている。図23(A)は、非テキストイメージ180〜182を含むフローチャートの例である。非テキスト領域180、181及び182の各々の内側に、それぞれ3つの白輪郭領域186、187及び188があり、各白輪郭内に、テキストブロック183、184及び185がある。
【0076】
図23(B)に示される非テキストイメージのみを得るために、非テキストイメージ180、181及び182をより小さな外接矩形によって分解できるように、非テキストイメージ、白輪郭及びテキストブロックの輪郭ペアが集められる。
【0077】
かくして、図23(B)に示すイメージをしかるべく得るために、下記のステップが図24のフローチャートに示されたように実行される。
【0078】
図23(B)に示されるイメージの分解を開始するために、非テキストイメージの各行の輪郭ペアが、該輪郭ペアの一つを白輪郭の輪郭ペアで置き換えることにより修正される。例えば、図23(C)に示すように、行iの輪郭ペアは、白輪郭の対応する行で各行の輪郭ペアを置き換えることにより修正される。即ち、該修正に先立って、非テキストイメージ180及び181の輪郭ペアは、それぞれ(a,b)及び(c,d)であり、白輪郭186及び187の輪郭ペアはそれぞれ(e,f)及び(g,h)である。一度輪郭ペアが、各行の輪郭ペアを対応する白輪郭の行に置き換えることにより修正されると、非テキストイメージの輪郭ペアは、(a,e)、(f,b)、(c,g)及び(h,d)となる。
【0079】
各行の輪郭ペアを修正した後で、ステップS1901において、修正が非テキスト対象物の各輪郭ペアについて繰り返される。一度輪郭ペアの全ての行の修正が完了すると、ステップS1903において、修正された輪郭ペアは、ピクチャそのものがしかるべく抽出可能となるより小さな外接矩形の組にグループ化される。即ち、ステップS1903では、グループ化処理が、まず垂直方向に連結された輪郭ペアのグループ化が行われ、次に、垂直方向に沿うグループ化が終了した後で、水平方向に連結された輪郭ペアの全てのグループ化が行われる。全体の外接矩形が、テキストブロック183、184及び185、他のグループ化されない輪郭ペアまたは他の前に形成された矩形等の内部ブロック内容物の輪郭ペアのいずれとも重複しないように、さらに修正された輪郭ペアを選択することが不可能になると、グループ化処理は終了する。一度垂直方向に連結された輪郭ペア及び水平方向に連結された輪郭ペアが全て連結されてしまうと、より小さな外接矩形が、非テキストイメージ180、181及び182の周囲に作られる。得られた分解イメージは図23(D)に示される。その後、矩形の座標が更なる処理のために記憶され、分解が終了する。
【0080】
図23(D)に示すように、図23(A)のイメージは、最小11個の外接矩形に分解されている。記憶されたこれらの11個の外接矩形の座標を利用して、該11個の矩形、180、181及び182の非テキストイメージがその中のコンテンツを抽出することなくしかるべく抽出可能になる。
【0081】
図25(A)は、テキストやピクチャデータ等の、内部に含まれるブロックからイメージデータを抽出するためにどのようにフレームイメージが分解できるかを示す1例である。図25(B)は、上記の方法を用いて、テーブルイメージを、テーブルの内容物を抽出することなく抽出できるようにするために、テーブルを分解することができる方法を示す1例である。
【0082】
図26(A)は、不規則な形状の輪郭192内に含まれるテキストブロック191を示す。そのような状況では、テキストブロックは、非テキスト輪郭用のブロックに重複しがちである。上述の分解により、テキストブロック191を非重複領域191a,191b及び191cに分解可能であり、その全てが図26(B)に示されるような輪郭192の白輪郭内にある。そのような分解により、テキストブロックのイメージデータを抽出するときに、輪郭の不要なイメージデータも間違って抽出されることが、確実になくなる。
【0083】
以上、本発明を特定の態様に関して説明したが、本発明は上記記載に限定されることはなく、抽出されるべき全てのタイプのイメージデータに適用されることができるものと理解されるべきものである。更に、発明の精神及び範囲から逸脱することなく、当業者によって種々の変更や修正が可能である。
【図面の簡単な説明】
【図1】重複矩形を分析し分解する方法を示すフローチャートである。
【図2】文書頁の代表的な図である。
【図3】図2にブロック選択処理を行って得られた矩形ブロックの図である。
【図4】文書頁の代表的な図である。
【図5】図4にブロック選択処理を行って得られた矩形ブロックの図である。
【図6】本発明を具体化する装置の概観を示す斜視図である。
【図7】図6の装置のブロック図である。
【図8】イメージデータ内の輪郭ペアを得る方法を説明するフローチャートである。
【図9】輪郭ペアを説明する図である。
【図10】テキストタイプイメージデータの場合に、輪郭ペアを得る方法を説明する図である。
【図11】内部成分を含まない非テキストイメージデータの輪郭ペアを得る方法を説明する図であり(A)は元のピクチャを示し、(B)は輪郭を結合した後のピクチャを示す。
【図12】(A)及び(B)は、内部成分を含む非テキストイメージデータの場合に輪郭ペアを得る方法を説明する図であり、(C)及び(D)は、それぞれ4方向及び8方向輪郭トレース間の相違を説明する図である。
【図13】重複しない外接矩形を示す図である。
【図14】重複輪郭がイメージ抽出に影響を与えるかどうかを判別するための分析を説明する図である。
【図15】2つのブロックがどのようにして重複可能であるかを説明する図である。
【図16】(A)は、非テキストブロックに重複するテキストブロックの例を示し、(B)は、(A)に示す重複領域の刈り込まれたものを示す図である。
【図17】重複テキストブロックをより小さな矩形に分解する方法を示すフローチャートである。
【図18】図17のフローチャートの続きである。
【図19】図17のフローチャートの続きである。
【図20】それぞれ重複するテキストブロック領域を分解する二つの方法を示す図である。
【図21】二つの重複非テキストブロックを説明する図である。
【図22】重複非テキストイメージを分解する方法を示すフローチャートである。
【図23】内部コンテンツを含む非テキストブロックを分解する方法を説明する図である。
【図24】内部コンテンツを含む非テキストブロックをより小さな外接矩形に分解する方法を示すフローチャートである。
【図25】(A)分解されたフレーム及び(B)分解された表の例をそれぞれ示す図である。
【図26】(A)不規則な形状の輪郭に含まれるテキストブロック及び(B)その分解後を説明する図である。
【符号の説明】
410 コンピュータ機器
411 ディスク
520 CPU
522 スキャナ・インターフェース
Claims (11)
- 入力されたイメージ内に含まれる連結成分に基づいて特定される領域の外接矩形を得る外接矩形取得工程と、
前記入力されたイメージ内に含まれる連結成分に基づいて特定される領域の輪郭情報を得る輪郭情報取得工程と、
前記外接矩形取得工程で得た複数の外接矩形のうち、重複する外接矩形を判別する重複判別工程と、
前記重複判別工程で重複すると判別された外接矩形が、当該外接矩形に対応する所望の連結成分のイメージデータ抽出に影響するかどうか判別する影響判別工程と、
前記重複判別工程で重複すると判別された外接矩形に関して、前記輪郭情報に基づいて複数の矩形に分解する分解工程と、
前記分解工程で複数の矩形に分解された場合には、当該分解された複数の矩形に基づいてイメージデータを抽出し、前記分解工程で複数の矩形に分解されなかった場合には、当該分解されなかった外接矩形に基づいてイメージデータを抽出する抽出工程と、
前記抽出工程で抽出されたイメージデータを処理する処理工程とを有し、
前記分解工程では、前記影響判別工程で影響すると判別された場合、前記重複判別工程で重複すると判別された外接矩形を前記輪郭情報に基づいて複数の矩形に分解し、前記影響判別工程で影響しないと判別された場合、前記重複判別工程で重複すると判別された外接矩形の分解を行わないことを特徴とするイメージ処理方法。 - 前記外接矩形取得工程では、各外接矩形の左上角と右下角の座標を求める工程を含み、前記重複判別工程では各外接矩形の座標同士を比較することにより、重複する外接矩形を判別することを特徴とする請求項1に記載のイメージ処理方法。
- 前記輪郭情報取得工程では、前記入力されたイメージ内に含まれる連結成分に基づいて特定される領域のタイプに応じて、前記輪郭情報を得ることを特徴とする請求項1に記載のイメージ処理方法。
- 前記領域のタイプがテキストタイプである場合、テキスト連結成分の頂部、底部、左側及び右側の縁に基づいて、前記輪郭情報を得ることを特徴とする請求項3に記載のイメージ処理方法。
- 前記領域のタイプが内部成分を持たない非テキストタイプである場合、連結成分の輪郭を連結することにより、前記輪郭情報を得ることを特徴とする請求項3に記載のイメージ処理方法。
- 前記領域のタイプが内部成分を有する非テキストタイプである場合、外側の輪郭と、内部の白輪郭とに基づいて、前記輪郭情報を得ることを特徴とする請求項3に記載のイメージ処理方法。
- 前記影響判別工程で影響すると判別された場合の前記重複すると判別された外接矩形が、テキストタイプ領域の外接矩形と非テキストタイプ領域の外接矩形とである場合に、前記分解工程では、前記非テキストタイプ領域の輪郭情報と前記テキストタイプ領域の連結成分とに基づいて、複数の矩形に分解することを特徴とする請求項1に記載のイメージ処理方法。
- 前記影響判別工程で影響すると判別された場合の前記重複すると判別された外接矩形が、テキストタイプ領域の外接矩形と非テキストタイプ領域の外接矩形とである場合に、前記分解工程では、前記非テキストタイプ領域の輪郭情報と前記テキストタイプ領域の輪郭情報とに基づいて、複数の矩形に分解することを特徴とする請求項1に記載のイメージ処理方法。
- 前記影響判別工程で影響すると判別された場合の前記重複すると判別された外接矩形が内部成分を持たない非テキストタイプ領域の外接矩形同士である場合、前記分解工程では、前記非テキストタイプ領域の輪郭情報に基づいて、複数の矩形に分解することを特徴とする請求項1に記載のイメージ処理方法。
- 前記影響判別工程で影響すると判別された場合の前記重複すると判別された外接矩形が内部成分を有する非テキストタイプ領域である場合、前記分解工程では、前記内部成分の輪郭情報と、非テキストタイプ領域内部の白輪郭の輪郭情報とに基づいて、複数の矩形に分解することを特徴とする請求項1に記載のイメージ処理方法。
- 入力されたイメージ内に含まれる連結成分に基づいて特定される領域の外接矩形を得る外接矩形取得手段と、
前記入力されたイメージ内に含まれる連結成分に基づいて特定される領域の輪郭情報を得る輪郭情報取得手段と、
前記外接矩形取得手段で得た複数の外接矩形のうち、重複する外接矩形を判別する重複判別手段と、
前記重複判別手段で重複すると判別された外接矩形が、当該外接矩形に対応する所望の連結成分のイメージデータ抽出に影響するかどうか判別する影響判別手段と、
前記重複判別手段で重複すると判別された外接矩形に関して、前記輪郭情報に基づいて複数の矩形に分解する分解手段と、
前記分解手段で複数の矩形に分解された場合には、当該分解された複数の矩形に基づいてイメージデータを抽出し、前記分解手段で複数の矩形に分解されなかった場合には、当該分解されなかった外接矩形に基づいてイメージデータを抽出する抽出手段と、
前記抽出手段で抽出されたイメージデータを処理する処理手段とを有し、
前記分解手段は、前記影響判別手段で影響すると判別された場合、前記重複判別手段で重複すると判別された外接矩形を前記輪郭情報に基づいて複数の矩形に分解し、前記影響判別手段で影響しないと判別された場合、前記重複判別手段で重複すると判別された外接矩形の分解を行わないことを特徴とするイメージ処理装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/514,250 | 1995-08-11 | ||
US08/514,250 US5774579A (en) | 1995-08-11 | 1995-08-11 | Block selection system in which overlapping blocks are decomposed |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH09171557A JPH09171557A (ja) | 1997-06-30 |
JP3950498B2 true JP3950498B2 (ja) | 2007-08-01 |
Family
ID=24046407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP22183596A Expired - Fee Related JP3950498B2 (ja) | 1995-08-11 | 1996-08-06 | イメージ処理方法及び装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US5774579A (ja) |
EP (1) | EP0758774B1 (ja) |
JP (1) | JP3950498B2 (ja) |
DE (1) | DE69610882T2 (ja) |
Families Citing this family (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100228618B1 (ko) * | 1994-05-31 | 1999-11-01 | 아끼구사 나오유끼 | 연결영역의 추출장치 및 방법 |
JPH10198539A (ja) * | 1997-01-08 | 1998-07-31 | Fuji Xerox Co Ltd | 画像形成装置および画像形成方法 |
US5892843A (en) * | 1997-01-21 | 1999-04-06 | Matsushita Electric Industrial Co., Ltd. | Title, caption and photo extraction from scanned document images |
US6687404B1 (en) * | 1997-06-20 | 2004-02-03 | Xerox Corporation | Automatic training of layout parameters in a 2D image model |
US6298173B1 (en) | 1997-10-03 | 2001-10-02 | Matsushita Electric Corporation Of America | Storage management system for document image database |
JP4100746B2 (ja) * | 1998-01-09 | 2008-06-11 | キヤノン株式会社 | 画像処理装置及び方法 |
US6014614A (en) * | 1998-05-29 | 2000-01-11 | Oracle Corporation | Method and mechanism for performing spatial joins |
US6327388B1 (en) | 1998-08-14 | 2001-12-04 | Matsushita Electric Industrial Co., Ltd. | Identification of logos from document images |
US7145696B2 (en) * | 1998-11-09 | 2006-12-05 | Silverbrook Research Pty Ltd | Print data compression method and printer driver |
US6711292B2 (en) | 1998-12-30 | 2004-03-23 | Canon Kabushiki Kaisha | Block selection of table features |
US6614930B1 (en) * | 1999-01-28 | 2003-09-02 | Koninklijke Philips Electronics N.V. | Video stream classifiable symbol isolation method and system |
US6608930B1 (en) * | 1999-08-09 | 2003-08-19 | Koninklijke Philips Electronics N.V. | Method and system for analyzing video content using detected text in video frames |
US6496198B1 (en) | 1999-05-04 | 2002-12-17 | Canon Kabushiki Kaisha | Color editing system |
US6718059B1 (en) | 1999-12-10 | 2004-04-06 | Canon Kabushiki Kaisha | Block selection-based image processing |
JP4401560B2 (ja) | 1999-12-10 | 2010-01-20 | キヤノン株式会社 | 画像処理装置、画像処理方法、及び記憶媒体 |
JP3729017B2 (ja) * | 2000-03-27 | 2005-12-21 | コニカミノルタビジネステクノロジーズ株式会社 | 画像処理装置 |
JP5033277B2 (ja) * | 2000-09-12 | 2012-09-26 | コニカミノルタビジネステクノロジーズ株式会社 | 画像処理装置および画像処理方法並びにコンピュータ読み取り可能な記録媒体 |
US20020178183A1 (en) * | 2001-04-10 | 2002-11-28 | Uwe Meding | Data extraction method and apparatus |
JP2004046632A (ja) * | 2002-07-12 | 2004-02-12 | Minolta Co Ltd | 画像処理装置 |
JP4462819B2 (ja) * | 2002-09-26 | 2010-05-12 | ソニー株式会社 | 情報処理装置および方法、記録媒体、並びにプログラム |
US20040240735A1 (en) * | 2003-04-29 | 2004-12-02 | Mitchell Medina | Intelligent text selection tool and method of operation |
US7035439B2 (en) * | 2003-07-30 | 2006-04-25 | Xerox Corporation | System and method for measuring and quantizing document quality |
US7171618B2 (en) * | 2003-07-30 | 2007-01-30 | Xerox Corporation | Multi-versioned documents and method for creation and use thereof |
JP4012140B2 (ja) * | 2003-11-20 | 2007-11-21 | キヤノン株式会社 | 画像処理装置、情報処理装置及びそれらの制御方法、プログラム |
JP4600089B2 (ja) * | 2005-03-02 | 2010-12-15 | カシオ計算機株式会社 | データ処理装置、およびデータ処理プログラム |
JP4443443B2 (ja) * | 2005-03-04 | 2010-03-31 | 富士通株式会社 | 文書画像レイアウト解析プログラム、文書画像レイアウト解析装置、および文書画像レイアウト解析方法 |
JP4574503B2 (ja) * | 2005-09-09 | 2010-11-04 | キヤノン株式会社 | 画像処理装置、画像処理方法およびプログラム |
EP1785847B1 (en) * | 2005-10-27 | 2015-11-18 | Accenture Global Services Limited | Display apparatus for automatically visualizing an application landscape |
US7561722B2 (en) * | 2005-12-14 | 2009-07-14 | Xerox Corporation | System and method for interactive document layout |
US7729546B2 (en) * | 2005-12-23 | 2010-06-01 | Lexmark International, Inc. | Document segmentation for mixed raster content representation |
JP4289420B2 (ja) * | 2007-05-10 | 2009-07-01 | セイコーエプソン株式会社 | 画像処理装置および画像処理方法 |
US8045800B2 (en) | 2007-06-11 | 2011-10-25 | Microsoft Corporation | Active segmentation for groups of images |
US8731297B1 (en) * | 2007-09-28 | 2014-05-20 | Amazon Technologies, Inc. | Processing a digital image of content to remove border artifacts |
US8838489B2 (en) | 2007-12-27 | 2014-09-16 | Amazon Technologies, Inc. | On-demand generating E-book content with advertising |
JP4891273B2 (ja) * | 2008-01-30 | 2012-03-07 | キヤノン株式会社 | 画像形成装置及びその制御方法 |
JP5206529B2 (ja) * | 2009-03-19 | 2013-06-12 | 富士ゼロックス株式会社 | 画像処理装置、情報処理装置、画像読取装置およびプログラム |
CN102375988B (zh) * | 2010-08-17 | 2013-12-25 | 富士通株式会社 | 文件图像处理方法和设备 |
AU2010257298B2 (en) * | 2010-12-17 | 2014-01-23 | Canon Kabushiki Kaisha | Finding text regions from coloured image independent of colours |
US9275467B2 (en) * | 2012-03-29 | 2016-03-01 | Analog Devices, Inc. | Incremental contour-extraction scheme for binary image segments |
TWI651640B (zh) * | 2013-10-16 | 2019-02-21 | 3M新設資產公司 | 在使用者介面上組織數位便箋 |
US9424668B1 (en) * | 2014-08-28 | 2016-08-23 | Google Inc. | Session-based character recognition for document reconstruction |
US10824788B2 (en) * | 2019-02-08 | 2020-11-03 | International Business Machines Corporation | Collecting training data from TeX files |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4183013A (en) * | 1976-11-29 | 1980-01-08 | Coulter Electronics, Inc. | System for extracting shape features from an image |
US5235653A (en) * | 1984-08-31 | 1993-08-10 | Hitachi, Ltd. | Document analysis system |
JPS62203280A (ja) * | 1986-03-03 | 1987-09-07 | Matsushita Graphic Commun Syst Inc | 画像デ−タ処理装置 |
JPS62204380A (ja) * | 1986-03-04 | 1987-09-09 | Matsushita Graphic Commun Syst Inc | 画像デ−タ処理装置 |
JPS63245556A (ja) * | 1987-03-31 | 1988-10-12 | Toshiba Corp | 図表データ割付け方法 |
JP2667435B2 (ja) * | 1987-05-01 | 1997-10-27 | 株式会社リコー | 領域抽出方法 |
JP2695844B2 (ja) * | 1988-06-16 | 1998-01-14 | 株式会社東芝 | 文書整形装置 |
US5287275A (en) * | 1988-08-20 | 1994-02-15 | Fujitsu Limited | Image recognition apparatus and method for recognizing a pattern within an image |
JP2828645B2 (ja) * | 1989-01-27 | 1998-11-25 | 株式会社リコー | マーク領域判定装置 |
US5228097A (en) * | 1989-02-07 | 1993-07-13 | Ezel, Inc. | Method for registering image data |
US5073962A (en) * | 1989-08-18 | 1991-12-17 | International Business Machines Corporation | Generalized neighborhoods parameter transform for image features extraction |
JPH03290774A (ja) * | 1990-04-06 | 1991-12-20 | Fuji Facom Corp | 文書画像の文章領域抽出装置 |
JP2502175B2 (ja) * | 1990-08-18 | 1996-05-29 | 富士通株式会社 | 原画像パタ―ンデ―タ再生方法及び装置 |
JPH04328956A (ja) * | 1991-04-26 | 1992-11-17 | Dainippon Screen Mfg Co Ltd | 画像デ−タの読出し方法 |
JP3038051B2 (ja) * | 1991-06-28 | 2000-05-08 | 日本放送協会 | 動画像領域抽出装置 |
JPH0562011A (ja) * | 1991-09-03 | 1993-03-12 | Konica Corp | 画像処理装置 |
US5321770A (en) * | 1991-11-19 | 1994-06-14 | Xerox Corporation | Method for determining boundaries of words in text |
JP2579397B2 (ja) * | 1991-12-18 | 1997-02-05 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 文書画像のレイアウトモデルを作成する方法及び装置 |
US5335290A (en) * | 1992-04-06 | 1994-08-02 | Ricoh Corporation | Segmentation of text, picture and lines of a document image |
KR100206258B1 (ko) * | 1992-04-28 | 1999-07-01 | 윤종용 | 화상추출장치 |
US5588072A (en) * | 1993-12-22 | 1996-12-24 | Canon Kabushiki Kaisha | Method and apparatus for selecting blocks of image data from image data having both horizontally- and vertically-oriented blocks |
US5555556A (en) * | 1994-09-30 | 1996-09-10 | Xerox Corporation | Method and apparatus for document segmentation by background analysis |
-
1995
- 1995-08-11 US US08/514,250 patent/US5774579A/en not_active Expired - Lifetime
-
1996
- 1996-08-06 JP JP22183596A patent/JP3950498B2/ja not_active Expired - Fee Related
- 1996-08-09 DE DE69610882T patent/DE69610882T2/de not_active Expired - Lifetime
- 1996-08-09 EP EP96305858A patent/EP0758774B1/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
US5774579A (en) | 1998-06-30 |
DE69610882D1 (de) | 2000-12-14 |
DE69610882T2 (de) | 2001-04-05 |
EP0758774A2 (en) | 1997-02-19 |
EP0758774A3 (en) | 1997-10-01 |
EP0758774B1 (en) | 2000-11-08 |
JPH09171557A (ja) | 1997-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3950498B2 (ja) | イメージ処理方法及び装置 | |
JP2536966B2 (ja) | テキスト編集システム | |
CN102117269B (zh) | 对文档进行数字化的装置及方法 | |
US6903751B2 (en) | System and method for editing electronic images | |
US6173073B1 (en) | System for analyzing table images | |
JP3976847B2 (ja) | ファイル生成方法及びファイル生成装置 | |
JP4757001B2 (ja) | 画像処理装置、画像処理方法 | |
CA2903818C (en) | Method for emphasizing differences in graphical appearance between an original document and a modified document with annotations | |
US6711292B2 (en) | Block selection of table features | |
US5509092A (en) | Method and apparatus for generating information on recognized characters | |
JPH09171556A (ja) | 特徴抽出方法及び装置 | |
KR100311083B1 (ko) | 문서처리장치 | |
US9189459B2 (en) | Document image layout apparatus | |
JP4077904B2 (ja) | 情報処理装置およびその方法 | |
US6496600B1 (en) | Font type identification | |
JP3943614B2 (ja) | 文書ページを解析するアプリケーションプログラム生成方法及び装置 | |
US8533590B2 (en) | Information processing apparatus and layout processing method | |
US6496198B1 (en) | Color editing system | |
JPH0612540B2 (ja) | 文書作成支援装置 | |
JP4548062B2 (ja) | 画像処理装置 | |
Chao | Graphics extraction in a PDF document | |
JP3817871B2 (ja) | 文書処理装置およびそのプログラム記録媒体 | |
JP2844618B2 (ja) | 文字切り出し装置 | |
JP2006093905A (ja) | 画像処理装置 | |
JPH02105981A (ja) | 会話型文字認識方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20060203 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060530 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070116 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070313 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070410 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070423 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110427 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130427 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130427 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140427 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |