JPH10162150A

JPH10162150A - ページ解析システム

Info

Publication number: JPH10162150A
Application number: JP9315675A
Authority: JP
Inventors: Shin-Ywan Wang; ワングシン・ヤン; Toru Niki; トール・ニキ
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1996-11-18
Filing date: 1997-11-17
Publication date: 1998-06-19
Also published as: EP0843277A2; US6512848B2; US20010012400A1; EP0843277A3

Abstract

(57)【要約】【課題】文書ページの画像データを分析するページ解
析システムにおける画像データの分類の精度を向上する
方法を提供することを目的とする。【解決手段】上記方法は、画素データとして文書ペー
ジの画像データを入力し、すべての連結画素を配置する
ために前記画素データを解析し、連結画素データをブロ
ックに矩形化し、各ブロックに含まれる画像データのタ
イプを決定するために各画素データのブロックを解析
し、前記解析において、前記決定されたブロック内の画
像データのタイプに対応する属性を出力し、前記解析が
前記ブロック内の画像データのタイプを決定できない場
合、ブロック内の画像データを認識するために文字認識
を実行する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ブロック選択技術
を利用することによって、文書ページの画像データを解
析するページ解析システムに関するものであり、特に、
画像データの特徴に基づいて画像データのブロックを分
類するようなシステムに関するものである。例えば、画
像データのブロックは、テキストデータ、タイトル、中
間調画像データ、線画、表、垂直線、あるいは水平線に
分類される。

【０００２】

【従来技術】米国特許出願第０７／８７３，０１２号の
「文字認識装置及び方法」、米国特許出願第０８／１７
１，７２０号の「記憶された文書内のテキスト及び非テ
キスト選択装置及び方法」、米国特許出願０８／５９
６，７１６号の「傾斜及び複数方向の文書（Ｓkewed An
d Multi-Orientation Documents）の特徴抽出システ
ム」、米国特許出願第０８／３３８，７８１号の「ペー
ジ解析システム」は、本発明の譲渡人によって所有され
るものであり、それらは参照されることによって本発明
に組み込まれる。

【０００３】上記の米国特許出願第０７／８７３，０１
２号及び第０８／１７１，７２０号で記述される技術の
ような、近年発達しているブロック選択技術は、文書ペ
ージ内の画像データの自動解析を提供するページ解析シ
ステムで使用される。特に、これらの技術は、文書ペー
ジ内の異なるタイプの画像データを識別するために使用
される。このような技術による処理結果は、光学的文字
認識（ＯＣＲ）、データ圧縮、データルーティング等
のような画像データの後処理として実行される処理の種
類を選択するために使用される。例えば、ブロック選択
技術でテキストデータとして表わされる画像データはＯ
ＣＲ処理され、これに対し自然画データとして表される
画像データはデータ圧縮される。これに先行して、ユー
ザーの介在を必要としないで、様々なタイプの画像デー
タが入力され、自動的に加工されるうる。

【０００４】ブロック選択技術は、文書合成に適用する
場合に最も有益である。図１は、ブロック選択技術によ
る処理結果として得られる合成文書ページ１を示す図で
ある。文書ページ１では、ブロック２にロゴ、ブロック
３から６に大きいフォントのタイトル、ブロック７に大
きい修飾フォントのテキスト、ブロック８から１３にテ
キストサイズの修飾フォントのテキスト、ブロック１４
から２７に様々なテキストサイズのシンボル、ブロック
２８から３５に小さいシンボルパターンを含んでいる。

【０００５】文書を表す階層ツリー構造を作成するため
に、ブロック選択技術は図１で示したような「ブロック
化」された文書イメージを使う。図２は、文書ページ１
を表す階層ツリーを示す図である。階層ツリーは、ルー
トノード１０１と複数の下位ノードで、文書ページ１を
表す。下位ノード１０２、１０４から１０６、１０７、
１０８から１１３、１１４から１２７及び１２８から１
４５は、それぞれブロック領域２、３から６、７、８か
ら１３、１４から２７及び２８から３５を表す。

【０００６】このような階層ツリーを構築するために、
米国特許出願第０７/８７３,０１２号及び０８/１７１,
７２０で記述されるようなブロック選択技術は、「連結
成分」を検出するために文書ページ１内の各領域を検索
する。これに記述されるように、連結成分は、対象画素
の周囲８方向に２つ以上連続する画素から構成される。
連結成分の面積は、「ブロック化された」領域との対応
を生成するために矩形化される。次に、テキスト連結成
分が非テキスト連結成分から分離される。その後、分離
された非テキスト連結成分は、表、中間調画像、線画等
に分類される。加えて、ブロック選択技術は、関係のあ
るデータをより効果的に処理するために関係づけられて
表わされる画像データのブロックを組み合わせても良
い。

【０００７】

【発明が解決しようとする課題】分離及び分類のステッ
プは、連結成分のサイズ、連結成分の面積、各連結成分
のサイズの平均、連結成分内のサイズの平均、隣接連結
成分の分類のような連結成分の特徴を解析することによ
って実行される。しかしながら、ブロック選択技術は、
上記の要点とともに、画像データのブロックを分類する
ための複雑なアルゴリズムを使用するにもかかわらず、
しばしば誤認識あるいは文書ページの画像データのブロ
ックを認識することができない。

【０００８】例えば、図２に示すように、従来のブロッ
ク選択技術は、文書ページ１のブロック２、３及び７の
内容を識別することができない。従って、ノード１０
２、１０３及び１０７は「未知」として表される。

【０００９】従来のブロック選択技術を適用した分類ア
ルゴリズムは、例えば、与えられたサイズの閾値内にお
さまるデータは、すべてテキストデータとして分類しま
う、つまり、データサイズに多くの仮定関係が前提とさ
れてしまうで、上記の問題が発生する。従って、その閾
値外のテキストデータは、ほとんどがテキストデータと
して特徴づけられていない。また、テキスト連結成分は
自然画連結成分より通常小さいという仮定に基づいて、
テキスト及び非テキスト連結成分が分類される。加え
て、上記アルゴリズムは、テキストの連結成分が文書ペ
ージ内の大多数の連結成分から構成されると仮定してい
る。

【００１０】従って、従来のブロック選択技術は、画像
データの内容の実際の認識を試みず、文書画像データの
サイズに関係する特徴に関して仮定が依存するので、本
質的に正確でない。

【００１１】この固有の不正確さによる文書画像データ
の誤認識は、画像データの関連ブロックを合成する場合
に、重要な問題となる。例えば、この例で使われた合成
アルゴリズムは、隣接テキストを合成して「未知」を表
すブロック選択技術を必要とする。従って、文書ページ
の「未知」ブロック２、３は「テキスト」ブロック４か
ら６に隣接するので、これらのブロックは、図３に示す
ように、「テキスト」ブロック３６を形成するようにグ
ループ化される。それゆえ、ブロック２内のロゴはテキ
ストとして誤った処理がなされる。また、図３に示すよ
うに、ブロック７から１３、１４から２７及び２８から
３５は、それぞれ１つの「テキスト」ブロック３８、３
９、４０に合成される。

【００１２】誤認識及び／あるいは誤った画像データの
合成を行ってしまうブロック選択技術の傾向により技術
が発達している。例えば、米国特許出願第０８/３６
１，２４０号は、ブロック選択技術に起因するデータの
分類の検証方法及びブロック選択技術によって画像デー
タが誤認識される場合の分類の編集方法が記述されてい
る。しかしながら、そのような技術は、オペレーターの
介在を必要とし、それゆえ、ブロック選択技術のオート
メーションが必要とされる場合に適していない。

【００１３】本発明は上記の問題点に鑑みてなされたも
のであり、ブロック選択技術の欠点を解決する光学的文
字認識処理を利用した文書ページ内の画像データのブロ
ックを分類する方法及び装置、コンピュータ可読メモリ
を提供することを目的とする。

【００１４】

【課題を解決するための手段】本発明の目的に従えば、
本発明は、文書ページの画像データを解析するページ解
析システムにおける画像データの分類の精度を向上する
方法である。上記方法は、画素データとして文書ページ
の画像データを入力し、すべての連結画素を配置するた
めに前記画素データを解析し、連結画素データをブロッ
クに矩形化し、各ブロックに含まれる画像データのタイ
プを決定するために各画素データのブロックを解析し、
上記解析において、前記決定されたブロック内の画像デ
ータのタイプに対応する属性を出力し、上記解析が前記
ブロック内の画像データのタイプを決定できない場合、
ブロック内の画像データを認識するために文字認識を実
行する。

【００１５】また、本発明の他の目的に従えば、本発明
は、文書ページの画像データを解析するページ解析シス
テムにおける画像データを正確に分類する方法である。
上記方法は、画素データとして文書ページの画像データ
を入力し、連結された画素データを画像データのブロッ
クへと合成して矩形化し、データのタイプとして前記画
像データを解析して分類する。そして、画像データのブ
ロックがテキストデータとして分類され、前記テキスト
データのサイズが所定サイズの閾値と等しくない場合、
該テキストデータに対し文字認識を実行する。

【００１６】上記概要が提供されることで、本発明の本
質が早急に理解されるであろう。本発明のより完全な理
解は、以下詳細に説明する添付の図面と組み合わさった
実施形態を参照することによって達成され得る。

【００１７】

【発明の実施の形態】図４は本発明の実施形態の装置の
外観を示す概要図である。図４では、マイクロソフトウ
ィンドウズ(TM)のようなウインドウ環境を有する、マッ
キントッシュ、あるいはＩＢＭＰＣ、あるいはＰＣ互
換システムでも良いコンピュータシステム４１を示して
いる。コンピュータシステム４１は、カラーモニタのよ
うなディスプレイスクリーン４２、ユーザーコマンドを
入力するためのキーボード４４及びディスプレイスクリ
ーン４２で表示されたオブジェクトを指示及び操作する
ためのマウス等のポインティングデバイス４５が提供さ
れる。

【００１８】また、コンピュータシステム４１は、圧縮
あるいは解凍されたフォーマットの画像データファイル
を含むデータファイルを記憶し、かつ本発明のコンピュ
ータ実行可能処理ステップを記憶するコンピュータディ
スク４６のような大容量の記憶装置を含んでいる。コン
ピュータシステム４１へ文書のビットマップ画像を供給
するために、文書をスキャンするスキャナ４７を用いて
も良い。また、ネットワークインタフェース４９から、
ネットワークインタフェース４９あるいはファクシミリ
/モデムインタフェース５０を介してワールドワイドウ
ェブ（ＷＷＷ）のような他の様々なソースから、文書を
コンピュータシステム４１に入力しても良い。プリンタ
５１は、処理された文書イメージを出力するために提供
される。

【００１９】図４ではプログラム可能な汎用コンピュー
タシステムが示されるが、本発明を実行するために、専
用コンピュータあるいはスタンドアローンのコンピュー
タまたあるいは他のタイプのデータ処理装置が使用され
得ることが理解されるであろう。

【００２０】図５はコンピュータシステム４１の内部構
成の詳細を示すブロック図である。図５に示すように、
コンピュータシステム４１は、コンピュータバス５４に
接続する中央処理装置（ＣＰＵ）５２を含んでいる。ま
た、コンピュータバス５４には、スキャナインタフェー
ス５５、プリンタインタフェース５６、ネットワークイ
ンタフェース５７、ファクシミリ/モデムインタフェー
ス５９、メインランダムアクセスメモリ（ＲＡＭ）６
１、ディスク４６、キーボードインタフェース６２及び
マウスインタフェース６４が接続されている。

【００２１】メインメモリ６１は、本発明に従うブロッ
ク選択技術の処理ステップのように記憶された処理ステ
ップを実行するために、ＣＰＵ５２に対しＲＡＭ記憶を
提供するコンピュータバス５４に接続される。より具体
的には、ＣＰＵ５２はディスク４６から処理ステップを
メインメモリ６１へロードし、文書ページ１のような文
書ページ内の画像データを認識し分類するために、メイ
ンメモリ６１からその記憶された処理ステップを実行す
る。また、図５に示すように、ディスク４６には、圧縮
あるいは解凍されたフォーマットの文書画像、ブロック
選択システムによって作成された階層ツリー構造データ
及びブロック選択プログラムの処理結果を編集するため
のブロック選択編集プログラム及びブロック選択プログ
ラムを含むアプリケーションプログラムファイルを含ん
でいる。

【００２２】図６は本発明のブロック選択技術を示すフ
ローチャートである。

【００２３】ステップＳ６０１で、文書データを表す画
像データは画素データとしてコンピュータシステム４１
に入力される。文書画像データは、スキャナ４７あるい
はネットワーク４９に接続された他の入力装置によって
入力されても良い。続いて、その画像データはＲＡＭ６
１に記憶される。ステップＳ６０２で、一度入力された
画像データは文書ページ１内の連結成分を検出するため
に解析される。連結成分は、白画素によって完全に囲ま
れる黒画素のグループである。ステップＳ６０４で、各
連結成分は矩形化される。矩形化は、連結成分の周囲を
完全に囲む最少矩形を生成する。また、矩形化の詳細に
ついては、米国特許出願第０８/３３８,７８１号に記述
され、参照することによって本発明に組み込まれる。

【００２４】ステップＳ６０５で、階層ツリー構造がブ
ロック選択プログラムによって生成される。尚、ブロッ
ク選択プログラムは、ブロック化された文書ページ１を
表す図２の階層ツリー構造によって示されるように、連
結成分の周囲を囲む各矩形ブロックに対応するノードを
階層ツリー構造に割り当てる。

【００２５】次に、ステップＳ６０６で、各ブロック
は、ブロック内の連結成分がテキストデータを示すある
基準にかかるかどうかを決定するための分析がなされ
る。ブロックが所定閾値サイズより小さければ、そのブ
ロックは、非テキストであると決定され、フローはステ
ップＳ６０９に進む。あるいはまた、テキスト/非テキ
ストの閾値は、文書ページ内の他の矩形の高さ及び幅の
平均に基づいても良い。このテキスト/非テキストの解
析のより詳しい詳細については、米国特許出願第０７/
８７３，０１２に記述されている。

【００２６】ステップＳ６０６で、ブロックがテキスト
データを含むと決定されれば、フローはステップＳ６０
７に進み、ブロックに対応するノードが更新され、その
ノードには「テキスト」の属性が付加される。

【００２７】ステップＳ６０９で、そのブロックに、非
テキストデータが含まれるかどうかを決定するための分
析がなされる。尚、ステップＳ６０９では、ブロック内
の非テキストデータが、線（水平線、垂直線、点線、斜
線）、接続線、絵、線画、枠、あるいは表を表すかどう
かを決定するために、いくつかの種類の解析を画像デー
タのブロック対し行う。この非テキストデータの分類
は、数学的に定式化され動的に計算される様々なサイズ
の閾値及びブロック位置情報の複雑な解析に基づいて実
行される。非テキストの分類のより詳細な記述は、参
照することで本発明に組み込まれる米国特許出願０７/
８７３,０１２号を参照することによって示される。

【００２８】非テキストの解析は、非テキスト画像タイ
プの１つとしてブロックが認識されるまで、あるいはブ
ロックが正常に認識されずに各非テキスト画像タイプに
関して試験されるまで続けられる。ブロックが非テキス
ト画像タイプの１つであると決定された場合、ステップ
Ｓ６１０で、階層ツリー構造の対応ノードが、非テキス
ト画像タイプの属性を含むように更新される。

【００２９】一方、画像データのブロックが、あるいは
非テキスト画像タイプの１つとして認識できない場合
は、ステップＳ６１１で、ブロックは「未知」データを
含むということが前もって指示される。ステップＳ６１
２で、「未知」ブロックは光学的文字認識（ＯＣＲ）技
術を用いた処理がなされる。その後、ステップＳ６１４
で、「未知」ブロックに対応する階層ツリー構造のノー
ドが、ステップＳ６１２の処理結果に従って更新され
る。

【００３０】図７はステップＳ６１２及びＳ６１４で実
行された処理のより詳細な説明を示すフローチャートで
ある。ステップＳ７０１で、ステップ６１１で「未知」
データを含むとして前もって指示された連結成分が、Ｏ
ＣＲ処理を用いた処理が実行される。次に、ステップＳ
７０２で、ＯＣＲ処理がその連結成分を認識できない場
合、続けて、ステップＳ７０４に進み、その連結成分に
対応するノードは、「自然画」の属性を含むように更新
される。フローは、続いて、ステップＳ７０５に進む。

【００３１】ステップＳ７０２で、ＯＣＲ処理が連結成
分を認識すれば、対応ノードは「未知」属性を含むよう
に更新される連結成分がステップＳ７０２で認識された
ので、対応ノードは「テキスト」属性を含むように更新
されるべきであると思われる。しかしながら、「未知」
ブロックがテキストを含む場合、上述したように、「未
知」ブロックは、より効果的なブロック化を実行するた
めに「テキスト」ブロックと合成されたブロックを除外
していないブロックとして表されている。加えて、その
ような「未知」ブロックの再表現は、自然画データを包
む「未知」ブロックを生じ、ブロックのグループ化にお
いて「テキスト」ブロックと不正確に合成させられる。
それゆえ、「未知」として認識された連結成分に対応す
るノードは、より効果的な処理結果をもたらす。

【００３２】ステップＳ７０６で、階層ツリー構造は、
「未知」を含む連結成分として前もって指示されたブロ
ックのすべてについて処理されたか否かが判定される。
処理されていない場合、ステップＳ７０１に戻り、上述
した処理を実行する。一方、処理された場合、フローは
ステップＳ７０７に進む。

【００３３】図８は図７の方法による処理結果である階
層ツリー構造の概要を示す図である。図７に示すよう
に、「未知」ノード１０２は「自然画」ノード２０２に
更新されている。これに対し、ブロック３及び７は、Ｏ
ＣＲ認識可能な連結成分を含むので、ブロック３及び７
は、「未知」ノード２０３及び２０７によって表され
る。

【００３４】図７に戻り、ステップＳ７０７で、大き
く、より効果的に処理可能な画像データのブロックを生
成するために、文書ページ１内に合成されるべき画像デ
ータのブロックがあるか否かが決定される。合成が必要
である場合、フローはステップＳ７０９に進み、文書ペ
ージ１に対応する階層ツリー構造が更新される。そし
て、フローはステップＳ７１０に進む。

【００３５】ステップＳ７０７で、合成が必要でないと
決定される場合、フローはステップＳ７１０に進み、画
像データのブロックの後処理が発生する。

【００３６】図９は図７の方法による処理結果である階
層ツリー構造の概要を示す図である。これに従えば、
「テキスト」ノード２０４から２０６は隣接する「未
知」ノード２０３とグループ化されて「タイトル」ノー
ド３６６を生成し、「テキスト」ノード２０８から２１
３は隣接する「未知」ノード２０７とグループ化されて
「タイトル」ノード３６７を生成し、「テキスト」ノー
ド２１４から２２７はグループ化されて「テキスト」ノ
ード３６８を生成し、「テキスト」ノード２２８から２
４５はグループ化されて「テキスト」ノード３６９を生
成する。ブロック化された文書ページ１を図１０に示
す。図３と比較して有効なことは、「自然画」ブロック
７０が「テキスト」ブロック７１とグループ化されてい
ないことである。従って、ブロック７０内の連結成分
は、ブロック７１の連結成分とは異なる処理がなされて
も良い。

【００３７】以下、説明する図１１の方法は、ブロック
選択技術を画像に対して適用した後に実行される後処理
である。特に、図１１の方法は、ブロック選択技術の正
確さをチェックし、かつすべての後処理中に階層ツリー
データを更新し、訂正するために使われる。図１１の方
法は、どんなブロック選択技術でも使われうるが、上述
の技術に関し、読者に対して連続性を提供するための方
法については以下に説明する。

【００３８】ステップＳ１１０１で、文書ページ１の
「テキスト」ブロック内の連結成分は閾値サイズと比較
される。尚、閾値サイズは、値解析される各文書ページ
に対し所定の閾値サイズ、あるいは米国特許出願第０７
/８７３,０１２号に記述されているような閾値サイズ、
また、あるいは文書ページの連結成分のサイズの平均に
基づいて計算される閾値サイズを用いても良い。それゆ
え、ステップＳ１１０１で、ブロック内ので大部分の連
結成分のサイズが閾値サイズ外である場合、あるいはブ
ロックが「タイトル」ブロックである場合、ブロック内
の連結成分に対しＯＣＲ処理を実行するためにフローは
ステップＳ１１０２に進む。一方、ブロック内の大部分
の連結成分のテキストのサイズが閾値サイズにおさまる
場合、フローはステップＳ１１０９に進む。

【００３９】図１０の文書ページ１に対しこの方法を用
いると、ブロック７０が「テキスト」ブロックでないの
で、ブロック７０の連結成分はステップＳ１１０１では
評価されない。

【００４０】フローに戻り、ステップＳ１１０４で、Ｏ
ＣＲ処理結果は、ブロック内の大部分の連結成分が認識
可能であるか否かを指示するために判定される。判定さ
れない場合、そのブロックは、ステップＳ１１０７で
「自然画」と分類され、ステップＳ１１１０に進み、上
述した処理を続ける。

【００４１】例えば、ブロック７２及び７３は、ステッ
プＳ１１０４の基準を満たしていない。従って、対応ノ
ード３６７及び３６８は、図１０に示したように、自然
画ノード３７０及び３７１として再分類される。

【００４２】ステップＳ１１０４で、認識結果が得られ
ると、フローはステップＳ１１０５に進み、対象ブロッ
ク内の大部分のテキストラインが認識可能であるか否か
を決定するために判定される。判定されない場合、フロ
ーはステップＳ１１０７に進み、上述した処理を続け
る。対象ブロック内の大部分のテキストラインが認識で
できる場合、フローはステップＳ１１０６に進む。

【００４３】ステップＳ１１０６で、ブロック内の大部
分の連結成分が英数字であるか否かを決定するためにＯ
ＣＲ処理結果が判定される。判定されない場合、フロー
はステップＳ１１０７に進む。ステップＳ１１０１で利
用された閾値サイズ以下におさまる「テキスト」ブロッ
ク７４は、英数字でなく、その「テキスト」ブロック７
４は「自然画」ブロック３７２として再表現される。

【００４４】そして、フローは上述したステップＳ１１
１０に進み、文書画像のすべてのブロックが解析された
場合は、フローは終了する。

【００４５】ステップＳ１１０６で、対象ブロックの大
部分の連結成分が英数字であるとＯＣＲ処理結果が示す
場合、フローはステップＳ１１０９に進み、対象ブロッ
クの「テキスト」属性が確認される。そして、フロー
は、上述したステップＳ１１１０に進む。

【００４６】例えば、「タイトル」ブロック７１は、ス
テップＳ１１０６からステップＳ１１０４の各ステップ
の基準を満たすので、「タイトル」ブロックを示すこと
が維持される。従って、図１２に示すように、図９の階
層ツリー構造は図１１の方法によって変化させられる。
具体的には、「タイトル」ノード３６７及び「テキス
ト」ノード３６８は、「自然画」ノード３７０及び３７
１に更新され、「テキスト」ノード３６９は「自然画」
ノード３７２に再指定される。

【００４７】図１１の方法は、画像データを正確に認識
するためにＯＣＲ処理を利用するため、上記データが処
理対象となり得る。

【００４８】もちろん、図６及び図７の方法及び図１１
の方法は、上述したように、ブロック選択技術の異なる
部分に用いられるので、これらの方法は部分的あるいは
別々に使われても良い。

【００４９】また、本発明は、分離、分類及び画像デー
タのブロックをグループ化するような評価対象のブロッ
ク内の連結成分にＯＣＲ処理をいつでも採用するブロッ
ク選択技術の改良を意図している。それゆえ、最初に文
書画像データをテキスト及び非テキストブロックに分離
し、及び／あるいはまた非テキストデータタイプに従う
ブロックの分類の基準としてＯＣＲ処理結果が使用され
るページ解析システムにおいて、本発明は具体的に示さ
れ得る。

【００５０】本システムが、本発明を具体化するが、Ｏ
ＣＲ処理はかなりの時間を消費するので、本システムは
好ましい実施形態ではない。従って、すべての状況で有
用であるかもしれないＯＣＲ処理を採用することは実質
的には非効率的である。それどころか、実質的で明確な
効果を最大にするような処理方法を適用することで、上
記実施形態はＯＣＲ処理に起因する不必要な非効率さを
減少させるために発達させられたものである。

【００５１】本発明は特定の実施形態で記述されてい
る。本発明が上記実施形態及び変形例に限定されず、ク
レームの請求の範囲から逸脱しない範囲で、当業者によ
って様々な変形及び修正されても良いことが理解される
であろう。

【００５２】

【発明の効果】以上説明したように、本発明によれば、
ブロック選択技術の欠点を解決する光学的文字認識処理
を利用した文書ページ内の画像データのブロックを分類
する方法及び装置、コンピュータ可読メモリを提供でき
る。

【００５３】

【図面の簡単な説明】

【図１】ブロック選択技術によってブロック化された画
像を有する文書ページを示す図である。

【図２】図１の文書に対応する階層ツリー構造を示す図
である。

【図３】ブロック選択技術に従って合成されたブロック
化画像データを含む図１の文書を示す図である。

【図４】本発明に従う装置の外観を示す概要図である。

【図５】図３に示す装置の詳細な内部構成を示すブロッ
ク図である。

【図６】画像データを分類するための方法を示すフロー
チャートである。

【図７】光学的文字認識を用いて文書ページの画像デー
タを分類するための方法の詳細を示すフローチャートで
ある。

【図８】図１の文書ページに対し図６と図７の方法の一
部を適用して生成した階層ツリー構造を示す図である。

【図９】図１の文書ページに対し図６と図７の方法を適
用して生成した階層ツリー構造を示す図である。

【図１０】図５と図６の方法による処理後の図１の文書
ページを示す図である。

【図１１】光学的文字認識を用いて文書ページの画像デ
ータを分類するための方法を示すフローチャートであ
る。

【図１２】図１０の文書ページに対し図１１の方法を適
用して得られる階層ツリーを示す図である。

【符号の説明】

４６ディスク５２ＣＰＵ５４コンピュータバス５５スキャナインタフェース５６プリンタインタフェース５７ネットワークインタフェース５９ＦＡＸ／モデムインタフェース６０ディスプレイインタフェース６２キーボードインタフェース６４インタフェース

Claims

【特許請求の範囲】

【請求項１】文書ページの画像データを解析するペー
ジ解析システムにおける画像データの分類の精度を向上
する方法であって、画素データとして文書ページの画像データを入力する工
程と、すべての連結画素を配置するために前記画素データを解
析する第１解析工程と、連結画素データをブロックに矩形化する工程と、各ブロックに含まれる画像データのタイプを決定するた
めに各画素データのブロックを解析する第２解析工程
と、前記第２解析工程において、前記決定されたブロック内
の画像データのタイプに対応する属性を出力する工程
と、前記第２解析工程が前記ブロック内の画像データのタイ
プを決定できない場合、ブロック内の画像データを認識
するために文字認識を実行する工程とを備えることを特
徴とする方法。
【請求項２】前記第２解析工程では、前記画素データ
はテキストデータあるいは非テキストデータのいずれか
に解析され、前記出力工程では、前記画像データのブロックがテキス
トデータであると決定された場合には、テキストデータ
の属性を出力し、前記画像データのブロックがが非テキ
ストデータであると決定された場合には、非テキストデ
ータの属性を出力することを特徴とする請求項１に記載
の方法。
【請求項３】前記文字認識は、光学的文字認識である
ことを特徴とする請求項１に記載の方法。
【請求項４】文書ページの画像データを解析するペー
ジ解析システムにおける画像データを正確に分類する方
法であって、画素データとして文書ページの画像データを入力する工
程と、連結された画素データを画像データのブロックへと合成
し矩形化する工程と、データのタイプとして前記画像データを解析し分類する
工程と、画像データのブロックがテキストデータとして分類さ
れ、前記テキストデータのサイズが所定サイズの閾値と
等しくない場合、該テキストデータに対し文字認識を実
行する工程とを備えることを特徴とする方法。
【請求項５】更に、前記実行工程では、前記ブロック
化された画像データが認識された場合には、自然画デー
タの属性を出力することを特徴とする請求項４に記載の
方法。
【請求項６】更に、前記実行工程では、前記ブロック
化された画像データが認識できない場合には、未知デー
タの属性を出力することを特徴とする請求項４に記載の
方法。
【請求項７】前記文字認識は、前記ブロック内のテキ
ストデータのサイズが前記所定サイズの閾値より大きい
場合のみに、該テキストデータに対して実行されること
を特徴とする請求項４に記載の方法。
【請求項８】前記文字認識は、前記ブロック内のテキ
ストデータのサイズが前記所定サイズの閾値より小さい
場合のみに、該テキストデータに対して実行されること
を特徴とする請求項４に記載の方法。
【請求項９】前記所定サイズの閾値は、前記解析され
た文書ページ内の画素データのサイズの平均に基づいて
いることを特徴する請求項４に記載の方法。
【請求項１０】前記文字認識は、光学的文字認識であ
ることを特徴とする請求項４に記載の方法。
【請求項１１】文書ページの画像データを解析するペ
ージ解析システムに用い、画像データの分類の精度を向
上するためのコンピュータ実行可能処理ステップを記憶
したコンピュータ可読メモリであって、画素データとして文書ページの画像データを入力する入
力工程の処理ステップと、すべての連結画素を配置するために前記画素データを解
析する第１解析工程の処理ステップと、連結画素データをブロックに矩形化する矩形化工程の処
理ステップと、各ブロックに含まれる画像データのタイプを決定するた
めに各画素データのブロックを解析する第２解析工程の
処理ステップと、前記第２解析工程において、前記決定されたブロック内
の画像データのタイプに対応する属性を出力する出力工
程の処理ステップと、前記第２解析工程が前記ブロック内の画像データのタイ
プを決定できない場合、ブロック内の画像データを認識
するための文字認識を実行する実行工程の処理ステップ
とを備えることを特徴とするコンピュータ可読メモリ。
【請求項１２】前記第２解析工程の処理ステップで
は、前記画素データはテキストデータあるいは非テキス
トデータのいずれかに解析され、前記出力工程の処理ステップでは、前記画像データのブ
ロックがテキストデータであると決定された場合には、
テキストデータの属性を出力し、前記画像データのブロ
ックがが非テキストデータであると決定された場合に
は、非テキストデータの属性を出力することを特徴とす
る請求項１１記載のコンピュータ可読メモリ。
【請求項１３】前記文字認識は、光学的文字認識であ
ることを特徴とする請求項１１に記載のコンピュータ可
読メモリ。
【請求項１４】文書ページの画像データを解析するコ
ンピュータ実行可能処理ステップを記憶したコンピュー
タ可読メモリであって、画素データとして文書ページの画像データを入力する入
力工程の処理ステップと、連結された画素データを画像データのブロックへと合成
し矩形化する合成矩形化工程の処理ステップと、データのタイプとして前記画像データを解析し分類する
解析分類工程の処理ステップと、画像データのブロックがテキストデータとして分類さ
れ、前記テキストデータのサイズが所定サイズの閾値と
等しくない場合、該テキストデータに対し文字認識を実
行する実行工程の処理ステップとを備えることを特徴と
するコンピュータ可読メモリ。
【請求項１５】更に、前記実行工程の処理ステップで
は、前記ブロック化された画像データが認識された場合
には、自然画データの属性を出力することを特徴とする
請求項１４に記載のコンピュータ可読メモリ。
【請求項１６】更に、前記実行工程の処理ステップで
は、前記ブロック化された画像データが認識できない場
合には、未知データの属性を出力することを特徴とする
請求項１４に記載のコンピュータ可読メモリ。
【請求項１７】前記文字認識は、前記ブロック内のテ
キストデータのサイズが前記所定サイズの閾値より大き
い場合のみに、該テキストデータに対して実行されるこ
とを特徴とする請求項１４に記載のコンピュータ可読メ
モリ。
【請求項１８】前記文字認識は、前記ブロック内のテ
キストデータのサイズが前記所定サイズの閾値より小さ
い場合のみに、該テキストデータに対して実行されるこ
とを特徴とする請求項１４に記載のコンピュータ可読メ
モリ。
【請求項１９】前記所定サイズの閾値は、前記解析さ
れた文書ページ内の画素データのサイズの平均に基づい
ていることを特徴する請求項１４に記載のコンピュータ
可読メモリ。
【請求項２０】前記文字認識は、光学的文字認識であ
ることを特徴とする請求項１４に記載のコンピュータ可
読メモリ。
【請求項２１】文書ページのページ解析を実行する装
置であって、プロセッサによって実行可能なページ解析処理ステップ
と文書ページの画像を記憶するメモリと、プロセッサは、前記メモリに格納された（１）画素デー
タとして文書ページの画像データを入力し、（２）すべての連結画素を配置するために前記画素デー
タを解析し、（３）連結画素データをブロックに矩形化し、（４）各ブロックに含まれる画像データのタイプを決定
するために各画素データのブロックを解析し、（５）前記プロセッサによって解析されたブロック内の
画像データのタイプに対応する属性を出力し、（６）前記ブロック内の画像データのタイプを前記プロ
セッサが決定できない場合、該ブロック内の画像データ
を認識するための文字認識を実行する前記ページ解析処
理ステップを実行することを特徴とする装置。
【請求項２２】前記プロセッサは、前記画素データの
テキストデータあるいは非テキストデータの解析によっ
て各ブロックに含まれる画像データのタイプを決定する
ために画素データの各ブロックを解析し、前記プロセッサは、（１）前記画像データのブロックがテキストデータであ
ると決定される場合には、テキストデータの属性を
（２）前記画像データのブロックが非テキストデータで
あると決定される場合には、非テキストデータの属性を
出力することを特徴とする請求項２１に記載の装置。
【請求項２３】前記文字認識は、光学的文字認識であ
ることを特徴とする請求項２１に記載の装置。
【請求項２４】文書ページのページ解析を実行する装
置であって、プロセッサによって実行可能なページ解析
処理ステップと文書ページの画像を記憶するメモリと、プロセッサは、前記メモリに格納された（１）画素デー
タとして文書ページの画像データを入力し、（２）画素データを画像データのブロックへ合成して矩
形化し、（３）前記画像データをデータのタイプとして解析して
分類し、（４）画像データのブロックがテキストデータとして分
類され、前記テキストデータのサイズが所定サイズの閾
値と等しくない場合、該テキストデータに対し文字認識
を実行する前記ページ処理解析ステップを実行すること
を特徴とする装置。
【請求項２５】前記プロセッサは、前記ブロック化さ
れた画像データが認識された場合、自然画データの属性
を出力する前記メモリに記憶された処理ステップを実行
することを特徴とする請求項２４に記載の装置。
【請求項２６】前記プロセッサは、前記ブロック化さ
れた画像データを認識できない場合、未知データの属性
を出力することを特徴とする請求項２４に記載の装置。
【請求項２７】前記プロセッサは、前記ブロック内の
テキストデータのサイズが前記所定サイズの閾値より大
きい場合のみに、該テキストデータに文字認識を実行す
ることを特徴とする請求項２４に記載の装置。
【請求項２８】前記プロセッサは、前記ブロック内の
テキストデータのサイズが前記所定サイズの閾値より小
さい場合のみに、該テキストデータに文字認識を実行す
ることを特徴とする請求項２４に記載の装置。
【請求項２９】前記所定サイズの閾値は、前記解析さ
れた文書ページ内の画素データのサイズの平均に基づい
ていることを特徴する請求項２４に記載の装置。
【請求項３０】前記文字認識は、光学的文字認識であ
ることを特徴とする請求項２４に記載の装置。