JP4017489B2 - セグメント化方法 - Google Patents
セグメント化方法 Download PDFInfo
- Publication number
- JP4017489B2 JP4017489B2 JP2002288207A JP2002288207A JP4017489B2 JP 4017489 B2 JP4017489 B2 JP 4017489B2 JP 2002288207 A JP2002288207 A JP 2002288207A JP 2002288207 A JP2002288207 A JP 2002288207A JP 4017489 B2 JP4017489 B2 JP 4017489B2
- Authority
- JP
- Japan
- Prior art keywords
- background
- image
- text
- objects
- main
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/155—Segmentation; Edge detection involving morphological operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/187—Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
- G06T2207/10008—Still image; Photographic image from scanner, fax or copier
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20156—Automatic seed setting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30176—Document
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
- Facsimile Image Signal Circuits (AREA)
- Processing Or Creating Images (AREA)
- Editing Of Facsimile Originals (AREA)
- Image Processing (AREA)
- Character Input (AREA)
Description
【発明の属する技術分野】
本発明は画像処理に関する。本発明は、特にメインバックグラウンド、ローカルバックグラウンド、テキストオブジェクト、及びピクチャオブジェクトへの画像のセグメント化に関連して用いられ、特にこれらに関連して説明される。しかしながら、本発明を他の同様の用途に用いてもよいことが理解されよう。
【0002】
【従来の技術及び発明が解決しようとする課題】
ドキュメントの画像は一般に複数の領域を含み、各領域は異なる性質を示す。複数の領域を含むドキュメントの画像を正確に処理するために、異なるアルゴリズムを各タイプの領域に適用すべきである。例えば、テキスト領域は印刷前に強調する必要がある。しかしながら、ハーフトーンのピクチャは、モアレを防ぐためにまずローパスフィルタに通す必要がある。従って、一般にドキュメント画像をその構成領域にセグメント化する必要があり、その後で、画像処理技術を最も有効に適用することができる。しかしながら、既存のセグメント化アルゴリズムの殆どは、強調(enhancement)、レンダリング、又は圧縮など、特定の画像処理の用途のために設計されている。用途によって、同一画像のセグメント化が大幅に異なりうる。圧縮の場合、グラフィックの線はテキストのストロークと同じように処理されうる。しかし、編集の場合、グラフィックは、テキスト領域のようにフォアグラウンド及びバックグラウンドに分割される代わりに、ピクチャ領域のように全体として処理されなければならない。画像処理システムはたいていこれらの用途を多く含むため、複数のセグメント化を計算しなければならない場合がある。従って、全てではないにしても、多くの画像処理の用途に適したセグメント化アルゴリズムを開発することが望ましい。
【0003】
なお、従来の技術は上記課題を解決していない(例えば、特許文献1参照)。
【0004】
【特許文献1】
米国特許第5,767,978号明細書
【0005】
【課題を解決するための手段】
本発明は、バックグラウンドベースの画像セグメント化処理を提供する。本発明の1つの態様によると、この処理は、画像をメインバックグラウンド、ローカルバックグラウンド、及び第1のオブジェクトにセグメント化するステップを含み、第1のオブジェクトはメインバックグラウンド又はローカルバックグラウンド上にある。
【0006】
本発明の他の態様によると、この処理は、a)メインバックグラウンド、ローカルバックグラウンド、及び第1のオブジェクトへの画像の低解像度セグメント化を行うステップであって、第1のオブジェクトがメインバックグラウンド又はローカルバックグラウンド上にある、該ステップと、b)メインバックグラウンド、ローカルバックグラウンド、及び第1のオブジェクトのうちのいずれか2つによって共有される境界を、画像のオリジナルの解像度でリファインするステップと、を含む。
【0007】
本発明の他の態様に従って、画像をメインバックグラウンド、ローカルバックグラウンド、及びオブジェクトにセグメント化する方法が提供される。この方法は、a)画像のメインバックグラウンドを識別するステップと、b)メインバックグラウンド上の第1のオブジェクトを識別するステップと、c)第1のオブジェクトを、テキストオブジェクト、ピクチャオブジェクト、及び複合オブジェクトからなる類のグループのうち1つの類に分類するステップと、d)第1のオブジェクトを複合オブジェクトとして識別した場合、第1のオブジェクトのローカルバックグラウンドを識別するステップと、を含む。
【0008】
【発明の実施の形態】
図1を参照すると、本発明に従ったバックグラウンドベースのセグメント化処理100のフローチャートが提供されている。バックグラウンドベースのセグメント化処理100は、高解像度のドキュメント画像102のセグメント化用に設計されている。しかしながら、高解像度でのバックグラウンド検出及びセグメント化は計算上高価であり、その結果はハーフトーンノイズに影響されやすい。計算の複雑さを少なくし、ハーフトーンノイズを抑えるために、画像102は2つの異なる解像度(即ち、低解像度及びオリジナル(元の)解像度)で処理される。バックグラウンドベースのセグメント化処理100は、低解像度のドキュメント画像のセグメント化にも有用である。ドキュメント画像のオリジナル解像度を低くすると冗長性や不要な処理が生じうることを、当業者は認識するであろう。
【0009】
処理100は、セグメント化されるドキュメント画像102から始まる。次に、画像102をローパスフィルタに通し、大幅に間引きする(decimate)。(即ち、解像度を低くする。)そして、画像を低解像度セグメント化段階104によって低解像度で処理する。セグメント化の結果は、メインバックグラウンド及び1つ以上のオブジェクトの識別を含む。テキスト類又はピクチャ類に分類できないオブジェクトを、更にローカルバックグラウンド及びより小さなオブジェクトにセグメント化する。全てのオブジェクトをテキスト類又はピクチャ類に分類するまでこの処理を繰り返す。次に、セグメント化の結果をリファインするための処理のオリジナル解像度リファインメント段階106の際に、セグメント化段階104の結果を画像102にオーバーレイする。リファインメント段階106が完了すると、画像102のセグメント化処理100は終了108に達する。
【0010】
図2を参照すると、図1のバックグラウンドベースのセグメント化処理100から得られた結果の一例が提供されている。セグメント化処理は、メインバックグラウンド、ローカルバックグラウンド、及びオブジェクトを識別し、更にオブジェクトをテキスト類又はピクチャ類に分類する。図2に示される結果は、ドキュメント画像102がメインバックグラウンド204、2つのローカルバックグラウンド214、テキストオブジェクト208、及びピクチャオブジェクト210にセグメント化されたことを示している。この図の階層は、画像102のセグメント化における複数のレベル(即ち、220、230、240、250、260、及び270)を反映している。
【0011】
レベル220において、メインバックグラウンド204及びメインバックグラウンド上のオブジェクト206が識別されたことを、図は示している。レベル230において、メインバックグラウンド上のオブジェクト206がテキストオブジェクト208、ピクチャオブジェクト210、及び複合オブジェクト212に分類されたことを、図は示している。複合オブジェクト212は単に、テキストオブジェクト208又はピクチャオブジェクト210としての識別に必要な基準を満たさないオブジェクトである。レベル240において、複合オブジェクト212が更にローカルバックグラウンド214及びローカルバックグラウンド上のオブジェクト216にセグメント化されたことを、図は示している。レベル250では、レベル230のように、ローカルバックグラウンド216上のオブジェクトがテキストオブジェクト208、ピクチャオブジェクト210、及び複合オブジェクト212に分類されたことを、図は示している。レベル260では、レベル240のように、複合オブジェクト212が更にローカルバックグラウンド214及びローカルバックグラウンド上のオブジェクト216にセグメント化されたことを、図は示している。レベル270において、ローカルバックグラウンド上のオブジェクト216がテキストオブジェクト208及びピクチャオブジェクト210に分類されたことを、図は示している。ローカルバックグラウンドの更なる識別が不要であり、セグメント化処理が完了したため、複合オブジェクトがレベル270において残らなかったことに注意されたい。
【0012】
図3を参照すると、図1のバックグラウンドベースのセグメント化処理100の低解像度セグメント化104段階のフローチャートが提供されている。低解像度セグメント化104段階は、ドキュメント画像102をローパスフィルタに通して大幅に間引きし(302)、画像102の低解像度表現(即ち、間引きされた画像)を生成することによって始まる。次に、メインバックグラウンドを識別する(304)。メインバックグラウンド上のテキストオブジェクトを識別し、セグメント化し、分類する(306)。メインバックグラウンド上の他のオブジェクトも識別し、セグメント化する(308)。次いで、その他のオブジェクトをピクチャ類に分類する(310)か、又は、複合オブジェクト類に分類する(312)。
【0013】
複合オブジェクトを識別したら、それを更にセグメント化する。まず、ローカルバックグラウンドを識別する(314)。次に、ステップ306のように、ローカルバックグラウンド上のテキストオブジェクトを識別し、セグメント化し、分類する(316)。ローカルバックグラウンド上の他のオブジェクトも識別し、セグメント化する(318)。そして、その他のオブジェクトをピクチャ類に分類する(320)か、又は、複合オブジェクト類に分類する(322)。この時点で複合オブジェクトが残っている場合は、ステップ314に戻ってセグメント化を続ける。識別する複合オブジェクトがない場合、セグメント化処理100はオリジナル解像度リファインメント106段階に進む。
【0014】
図4を参照すると、図1のバックグラウンドベースのセグメント化処理100のオリジナル解像度リファインメント106段階のフローチャートが提供されている。リファインメント106は、低解像度セグメント化104段階のセグメント化及び識別の結果をオリジナル画像102にオーバーレイすることによって始まる。このことは、間引きされた画像から得られたセグメント化及び識別の結果を画像102のオリジナル解像度に補間する(402)ことによって達成される。メインバックグラウンド、並びに他の隣接するバックグラウンド及びオブジェクトに対し、各ローカルバックグラウンド及び各ピクチャオブジェクトの境界をオリジナル解像度でリファインする(404及び406)。テキストオブジェクトを識別し、セグメント化し、分類する(408)。各テキストオブジェクト毎に、境界と、テキスト文字のストロークによって取り囲まれる内部領域とをリファインする(410)。任意のリファインメントとして、各バックグラウンドがスイープ(sweep)であるか否かを判断する各バックグラウンドの再評価があり、肯定された場合は、ピクチャオブジェクトとして再分類する(412)。スイープのグラディエント(gradient)特性の維持が重要である場合は、オプション412を含めるべきである。オプション412を含めない場合、バックグラウンドはその領域の平均色を示す。オプション412を実施する場合、スイープとして識別されたバックグラウンドを全てピクチャオブジェクトとして再分類し、バックグラウンドはそのグラディエント特性を反映し続ける。全てのリファインメントが行われると、リファインメント106段階は完了し、セグメント化処理100は終了108に達する(図1)。
【0015】
図5乃至図10を参照すると、図1のバックグラウンドベースのセグメント化処理100の詳細なフローチャートが提供されている。図1と同様に、図5の処理100は、セグメント化されるドキュメント画像102で始まる。次に、画像102をローパスフィルタに通して大幅に間引きし(302)、画像の低解像度バージョンを生成する。画像102を大幅に間引きした後は、画像データ及びハーフトーンノイズの量はかなり減少されている。従って、画像のセグメント化、特にメインバックグラウンド及びローカルバックグラウンドの識別に、簡潔で効率的なアルゴリズムを用いることができる。
【0016】
まず、N×Nの一様なブロックを識別する(502)ことにより、大幅に間引きされた画像においてメインバックグラウンドを識別する(304)。3つのカラーチャネルのダイナミックレンジが全て所定の閾値未満である場合、N×Nのブロックを一様なブロックとして定義する。次に、一様なブロックをシードとして使用し、領域併合(region-growing)アルゴリズムを適用する(504)。領域併合は、隣接ピクセルの色差の評価に基づいている。第1のピクセルが、ある領域内の第2のピクセルと隣接しており、これらの2つのピクセル間の色差が所定の閾値未満である場合、第1ピクセルをその領域に属するものとして特徴づける。併合される各領域の平均色を計算し(506)、同様の平均色の領域を結合する(508)。最後に、併合された全ての領域のうち、境界領域(bounding area)が最も大きいものをメインバックグラウンドとして識別する(510)。
【0017】
図6を参照すると、通常、寸法が小さいことと境界線がはっきりしていることがテキストオブジェクトの特徴である。とはいえ、この定義は、殆どのテキストと同様に、細い線、アイコン及び小さな構造体を含む。圧縮などの画像処理の用途では、この扱いは一般に許容可能である。前述の定義を考えると、メインバックグラウンド上のテキストは、2つの1次元形態(morphological)操作(即ち、開口(opening))によって抽出される。1次元形態開口を水平方向に適用し(512)、メインバックグラウンド上のテキストオブジェクトを識別する(514)。同様に、1次元形態開口を垂直方向に適用し(516)、メインバックグラウンド上の更なるテキストオブジェクトを識別する(518)。構成エレメントのサイズは、抽出が必要なテキストのストロークの最大幅によって決定される。
【0018】
メインバックグラウンド204及びメインバックグラウンド上のテキストオブジェクト208を検出した後には、更なる分析を必要とする寸法の比較的大きなオブジェクトが残っている。複数のオブジェクトが互いに連結し、分類の難しい複雑な複合オブジェクトを形成している場合があるため、分析の出来るだけ早い段階で出来るだけ多くのオブジェクトを分離することが望ましい。個々のオブジェクトは、長いエッジで境界を成していることが多い。従って、垂直方向及び水平方向双方のエッジを検出し(520)、エッジのピクセルをメインバックグラウンドから除去する(522)。除去されたエッジを連結する連結コンポーネント分析を用いてメインバックグラウンド上のオブジェクトを識別する(524)。メインバックグラウンド上で識別されたオブジェクトを、更なる分析のために抽出する(526)。
【0019】
図7を参照すると、テキストオブジェクトに加え、又はこれとは別に、メインバックグラウンド上で識別されたオブジェクトは、ピクチャオブジェクト又は複合オブジェクトである。次に、各オブジェクトを分析し、分類する。第1のオブジェクトを分析のために選択する(528)。1つの実施の形態では、レヴァンカーら(Revankar et al.)の米国特許第5,767,978号のエッジ検出アルゴリズム(以下、このアルゴリズムを「レヴァンカー」と呼ぶ)を用いてエッジ検出を行う(530)。レヴァンカーにおいて、弱いエッジポイントと強いエッジポイントを識別し、弱いエッジポイント対強いエッジポイントの比を決定する(532)。この比が所定の閾値よりも大きい場合、オブジェクトをピクチャオブジェクトとして分類し(534)、分析はステップ542に進み、そうでない場合、分析はステップ536に続く。ステップ536では、再びレヴァンカーにおいて、弱いエッジポイント対エッジポイントの総数の比を決定する。同様に、この比が所定の閾値よりも大きい場合、オブジェクトをピクチャオブジェクトとして分類し(538)、分析はステップ542に進み、そうでない場合、分析はステップ540に続く。ステップ540では、オブジェクトを複合オブジェクトとして分類し、分析はステップ542へ続く。
【0020】
ステップ542において、処理は、現行のオブジェクトがメインバックグラウンドから抽出されたオブジェクトのうち最後のものであるか否かを判断する。現行のオブジェクトが最後のオブジェクトである場合、処理は複合オブジェクトの分析に進み、そうでない場合、次のオブジェクトを選択し(544)、最後のオブジェクトを分類するまでエッジ検出処理を繰り返す。
【0021】
図8を参照すると、複合オブジェクトは、しばしばローカルバックグラウンドと呼ばれる特有のバックグラウンドを有するため、他のタイプのオブジェクトとは異なる。複合オブジェクトの分析は、画像102全体の分析に類似している。複合オブジェクトの分析は、(1)ローカルバックグラウンドの識別、(2)テキストのセグメント化及び分類、並びに(3)オブジェクトのセグメント化及びピクチャオブジェクト類と複合オブジェクト類への分類、といった3つのステップを含む。これら3つのステップのうち、テキストのセグメント化及びオブジェクトの分類は、画像102全体の分析に関して前述した処理と同一である。しかしながら、ローカルバックグラウンドの識別は、メインバックグラウンドの識別とは異なる。
【0022】
次に、各複合オブジェクトを分析し、セグメント化し、分類する。第1の複合オブジェクトを分析のために選択する(546)。標準のエッジ検出(detector)を用いてエッジ検出を複合オブジェクトに対して行い、エッジのピクセルを複合オブジェクトから除去する(550)。次に、除去したエッジの境界外側にある各ピクセルをシードとして用い、領域併合アルゴリズムを適用する(552)。隣接するピクセルと領域との間の色差が所定の閾値未満である場合、隣接するピクセルをその領域に属するものとして特徴づける。併合された最大領域の寸法が所定の閾値よりも大きい場合、これをローカルバックグラウンドとして識別し、そうでない場合、複合オブジェクトをピクチャオブジェクトとして再分類する(554)。複合オブジェクトをピクチャオブジェクト210として再分類する場合、分析はステップ560に進み、そうでない場合、複合オブジェクトの分析はステップ556へ続く。
【0023】
ステップ556において、ローカルバックグラウンド上のテキストオブジェクトを識別し、セグメント化し、分類する。これは、メインバックグラウンド上のテキストオブジェクトの識別、セグメント化、及び分類と同じ態様で達成される。従って、ステップ512乃至ステップ518を複合オブジェクトに対して行う。ステップ518が完了すると、分析はステップ558に戻る。
【0024】
ステップ558において、ローカルバックグラウンド上の他のオブジェクトも識別し、セグメント化し、ピクチャオブジェクト類又は複合オブジェクト類に分類する。これは、メインバックグラウンド上の他のオブジェクトの識別、セグメント化、及び分類と同じ態様で達成される。従って、ステップ520乃至ステップ544を複合オブジェクトに対して行う。ローカルバックグラウンド上に識別される最後のオブジェクトを分類した後、分析はステップ560に戻る。
【0025】
ステップ560において、処理は、現行の複合オブジェクトが、識別される最後の複合オブジェクトであるか否かを判断する。そうである場合、処理はオリジナル解像度リファインメント段階106(図1)に進み、そうでない場合、次の複合オブジェクトを選択し(562)、最後の複合オブジェクトをセグメント化するまで複合オブジェクトの分析(即ち、548乃至560)を繰り返す。
【0026】
図9を参照すると、高解像度処理とも呼ばれるオリジナル解像度リファインメント段階106の際、低解像度セグメント化104の際に識別した、検出されたメインバックグラウンド及びローカルバックグラウンドをリファインし、更にテストする。リファインメント106は、低解像度セグメント化段階104のセグメント化及び分類の結果をオリジナル画像102にオーバーレイすることによって始まる。これは、低解像度から得られたセグメント化及び分類の結果を画像のオリジナル解像度に補間する(564)ことによって達成される。次に、色の類似度に基づき、各ローカルバックグラウンド及び各ピクチャオブジェクトの境界に沿ったピクセルに領域併合アルゴリズムを適用する(566)。領域併合は、メインバックグラウンド、他の隣接するバックグラウンド及びオブジェクトに対する境界を、オリジナル解像度でリファインする。
【0027】
境界をリファインした後、アルゴリズムを使用し、テキストオブジェクトの一般的な小さい寸法とはっきりした境界に基づいてテキストオブジェクトを識別する。少なくとも1つの寸法が所定の閾値よりも小さい構造体は全て、テキストオブジェクトとして識別する。1次元形態開口を水平方向に適用し(568)、テキストオブジェクトを識別する(570)。同様に、1次元形態開口を垂直方向に適用し(572)、更なるテキストオブジェクトを識別する(574)。識別した各テキストオブジェクトもセグメント化し、テキストオブジェクト208として分類する。
【0028】
図10を参照すると、テキストオブジェクト208を識別し、セグメント化し、分類した後、各テキストオブジェクトの境界に沿ったピクセル及び各テキストオブジェクトの内部領域に領域併合アルゴリズムを適用する(576)。領域併合は、メインバックグラウンド204、ローカルバックグラウンド214、テキストがオーバーレイする他のオブジェクト、及びテキストの文字のストロークによって囲まれる識別された内部領域(例えば、「o」の中央部分)に対する境界を、オリジナル解像度でリファインする。テキストオブジェクトをリファインした後は、より正確なテキストマスクが存在する。
【0029】
各バックグラウンドがスイープであるか否かを判断する各バックグラウンドの再評価412は、任意のリファインメントである。スイープのグラディエント特性の維持が重要である場合、オプション412を含めるべきである。オプション412を含めない場合、バックグラウンドはその領域の平均色を示す。オプション412を実施する場合、スイープとして識別されたバックグラウンドを全てピクチャオブジェクトとして再分類し、バックグラウンドはそのグラディエント特性を反映し続ける。低リスクのアプローチが好ましい場合は、オプション412を含めるべきである。
【0030】
オプション412を実施する場合、メインバックグラウンド及び各ローカルバックグラウンドに対してバックグラウンド一様性テストを実施する(578)。第1のバックグラウンドを分析のために選択する(580)。有界領域全体に対し、バックグラウンドをK×Kの構成に基づいた16のサブ領域に分割する(582)。実験的に、K=4を用いた。各サブ領域の平均色を計算する(584)。全てのサブ領域間の最大の色差を決定する(586)。最大の色差が所定の閾値よりも大きい場合、バックグラウンドをピクチャオブジェクトとして再分類し、そうでない場合、引き続きバックグラウンドセグメントとして識別する(588)。次に、処理は、現行のバックグラウンドが最後のバックグラウンドであるか否かを判断する(590)。現行のバックグラウンドが最後のバックグラウンドである場合、リファインメント106段階は完了し、セグメント化処理100は終了に達する(図1)。そうでない場合、次のバックグラウンドを選択し(592)、最後のバックグラウンドを再評価するまで一様性テストを繰り返す。
【図面の簡単な説明】
【図1】本発明に従ったバックグラウンドベースのセグメント化処理100のフローチャートである。
【図2】図1のバックグラウンドベースのセグメント化処理100から得られたセグメント化の結果の一例の図である。
【図3】図1のバックグラウンドベースのセグメント化処理100の低解像度セグメント化104段階のフローチャートである。
【図4】図1のバックグラウンドベースのセグメント化処理100のオリジナル解像度リファインメント106段階のフローチャートである。
【図5】図1のバックグラウンドベースのセグメント化処理100の詳細なフローチャートである。
【図6】図1のバックグラウンドベースのセグメント化処理100の詳細なフローチャートである。
【図7】図1のバックグラウンドベースのセグメント化処理100の詳細なフローチャートである。
【図8】図1のバックグラウンドベースのセグメント化処理100の詳細なフローチャートである。
【図9】図1のバックグラウンドベースのセグメント化処理100の詳細なフローチャートである。
【図10】図1のバックグラウンドベースのセグメント化処理100の詳細なフローチャートである。
【符号の説明】
100 セグメント化処理
102 ドキュメント画像
104 低解像度セグメント化
106 オリジナル解像度リファインメント
204 メインバックグラウンド
206 メインバックグラウンド上のオブジェクト
208 テキストオブジェクト
210 ピクチャオブジェクト
212 複合オブジェクト
214 ローカルバックグラウンド
216 ローカルバックグラウンド上のオブジェクト
Claims (4)
- a) 画像をメインバックグラウンド、ローカルバックグラウンド、及び第1のオブジェクトにセグメント化し、前記第1のオブジェクトが前記メインバックグラウンド又は前記ローカルバックグラウンド上にあり、
b) 前記画像のメインバックグラウンドを識別し、
c) 前記メインバックグラウンド上の第1のオブジェクトをセグメント化し、
d) 前記第1のオブジェクトを、テキストオブジェクト、ピクチャオブジェクト、複合オブジェクトからなる類のグループの1つの類に分類し、
e) 前記第1のオブジェクトが複合オブジェクトとして分類される場合、該第1のオブジェクトのローカルバックグラウンドを識別し、
f) 前記ローカルバックグラウンド上の第2のオブジェクトをセグメント化し、
g) 前記第2のオブジェクトを、テキストオブジェクト、ピクチャオブジェクト、複合オブジェクトからなる類のグループの1つの類に分類し、
h) 前記第2のオブジェクトが複合オブジェクトとして分類される場合、該第2のオブジェクトに対してe)〜g)を実行する、
画像のセグメント化方法。 - a) メインバックグラウンド、ローカルバックグラウンド、及び第1のオブジェクトへの画像の低解像度セグメント化を行い、前記第1のオブジェクトが前記メインバックグラウンド又は前記ローカルバックグラウンド上にあり、
b) 前記メインバックグラウンド、前記ローカルバックグラウンド、及び前記第1のオブジェクトのうちのいずれか2つによって共有される境界を、オリジナルの解像度の前記画像で補間する、
画像のセグメント化方法であって、
a)は、
c) 前記画像の解像度をローパスフィルタでフィルタリングすることにより低減し、
d) 前記画像のメインバックグラウンドを識別し、
e) 前記メインバックグラウンド上の第1のオブジェクトをセグメント化し、
f) 前記第1のオブジェクトを、テキストオブジェクト、ピクチャオブジェクト、複合オブジェクトからなる類のグループの1つの類に分類し、
g) 前記第1のオブジェクトが複合オブジェクトとして分類される場合、該第1のオブジェクトのローカルバックグラウンドを識別し、
h) 前記ローカルバックグラウンド上の第2のオブジェクトをセグメント化し、
i) 前記第2のオブジェクトを、テキストオブジェクト、ピクチャオブジェクト、複合オブジェクトからなる類のグループの1つの類に分類し、
j) 前記第2のオブジェクトが複合オブジェクトとして分類される場合、該第2のオブジェクトに対してg)〜i)を実行する、
ことを含む、
セグメント化方法。 - b)は、
k) ローカルバックグラウンドがセグメント化され、オブジェクトがピクチャオブジェクトとして分類される場合、該ローカルバックグラウンドおよびピクチャオブジェクトの境界を、オリジナルの解像度の前記画像で補間し、
l) オブジェクトがテキストオブジェクトとして分類される場合、該テキストオブジェクトの境界および内部を、オリジナルの解像度の前記画像で補間する、
ことを含む、
請求項2に記載のセグメント化方法。 - a) 画像のメインバックグラウンドを識別し、
b) 前記メインバックグラウンド上の第1のオブジェクトを識別し、
c) 前記第1のオブジェクトを、テキストオブジェクト、ピクチャオブジェクト、及び複合オブジェクトからなる類のグループのうち1つの類に分類し、
d) 前記第1のオブジェクトを複合オブジェクトとして識別した場合、前記第1のオブジェクトのローカルバックグラウンドを識別し、
e) 前記第1のオブジェクトが複合オブジェクトとして分類される場合、前記第1のオブジェクトの前記ローカルバックグラウンド上の第2のオブジェクトを識別し、
f) 前記第2のオブジェクトを、テキストオブジェクト、ピクチャオブジェクト、複合オブジェクトからなる類のグループの1つの類に分類し、
g) 前記第2のオブジェクトが複合オブジェクトとして分類される場合、該第2のオブジェクト上のローカルバックグラウンドを識別する、
画像のセグメント化方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/977,186 US6973213B2 (en) | 2001-10-12 | 2001-10-12 | Background-based image segmentation |
US977186 | 2001-10-12 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003143393A JP2003143393A (ja) | 2003-05-16 |
JP4017489B2 true JP4017489B2 (ja) | 2007-12-05 |
Family
ID=25524914
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002288207A Expired - Fee Related JP4017489B2 (ja) | 2001-10-12 | 2002-10-01 | セグメント化方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US6973213B2 (ja) |
EP (1) | EP1304651B1 (ja) |
JP (1) | JP4017489B2 (ja) |
BR (1) | BR0204103A (ja) |
Families Citing this family (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7254270B2 (en) * | 2002-07-09 | 2007-08-07 | Hewlett-Packard Development Company, L.P. | System and method for bounding and classifying regions within a graphical image |
US7715640B2 (en) * | 2002-11-05 | 2010-05-11 | Konica Minolta Business Technologies, Inc. | Image processing device, image processing method, image processing program and computer-readable recording medium on which the program is recorded |
US8056001B2 (en) * | 2003-04-10 | 2011-11-08 | Hewlett-Packard Development Company, L.P. | Method and apparatus for classifying elements of a document |
WO2004112923A1 (en) * | 2003-06-26 | 2004-12-29 | Tangam Gaming Technology Inc. | System, apparatus and method for automatically tracking a table game |
JP2005018529A (ja) * | 2003-06-27 | 2005-01-20 | Ricoh Co Ltd | 画像処理装置 |
US7379594B2 (en) * | 2004-01-28 | 2008-05-27 | Sharp Laboratories Of America, Inc. | Methods and systems for automatic detection of continuous-tone regions in document images |
US20050265600A1 (en) * | 2004-06-01 | 2005-12-01 | Xerox Corporation | Systems and methods for adjusting pixel classification using background detection |
US7272261B2 (en) * | 2004-06-04 | 2007-09-18 | Xerox Corporation | Method and system for classifying scanned-media |
US7424151B2 (en) * | 2004-06-04 | 2008-09-09 | Xerox Corporation | Method and system for image classification and halftone frequency detection |
US8204306B2 (en) * | 2004-06-14 | 2012-06-19 | Xerox Corporation | Method for image segmentation based on block clustering for improved processing of touching characters |
US8442311B1 (en) | 2005-06-30 | 2013-05-14 | Teradici Corporation | Apparatus and method for encoding an image generated in part by graphical commands |
US7782339B1 (en) | 2004-06-30 | 2010-08-24 | Teradici Corporation | Method and apparatus for generating masks for a multi-layer image decomposition |
US8086050B2 (en) * | 2004-08-25 | 2011-12-27 | Ricoh Co., Ltd. | Multi-resolution segmentation and fill |
US7302097B2 (en) * | 2004-09-15 | 2007-11-27 | Xerox Corporation | MRC image compression |
US7596265B2 (en) * | 2004-09-23 | 2009-09-29 | Hewlett-Packard Development Company, L.P. | Segmenting pixels in an image based on orientation-dependent adaptive thresholds |
KR100643759B1 (ko) * | 2004-12-01 | 2006-11-10 | 삼성전자주식회사 | 문서 압축 장치 및 그 방법 |
US8913830B2 (en) * | 2005-01-18 | 2014-12-16 | Siemens Aktiengesellschaft | Multilevel image segmentation |
US20070077987A1 (en) * | 2005-05-03 | 2007-04-05 | Tangam Gaming Technology Inc. | Gaming object recognition |
US7899258B2 (en) * | 2005-08-12 | 2011-03-01 | Seiko Epson Corporation | Systems and methods to convert images into high-quality compressed documents |
US7783117B2 (en) * | 2005-08-12 | 2010-08-24 | Seiko Epson Corporation | Systems and methods for generating background and foreground images for document compression |
FR2891382B1 (fr) * | 2005-09-23 | 2008-04-11 | Sagem Comm | Procede et systeme de reproduction de documents par segmentation et amelioration selective des images et des textes |
JP4623300B2 (ja) * | 2005-12-17 | 2011-02-02 | 富士ゼロックス株式会社 | 画像処理装置および画像処理プログラム |
US7668394B2 (en) * | 2005-12-21 | 2010-02-23 | Lexmark International, Inc. | Background intensity correction of a scan of a document |
JP4764231B2 (ja) * | 2006-03-31 | 2011-08-31 | キヤノン株式会社 | 画像処理装置、制御方法、コンピュータプログラム |
TWI323434B (en) * | 2006-11-30 | 2010-04-11 | Ind Tech Res Inst | Method of object segmentation for video |
US7856142B2 (en) * | 2007-01-26 | 2010-12-21 | Sharp Laboratories Of America, Inc. | Methods and systems for detecting character content in a digital image |
US8494304B2 (en) * | 2007-05-11 | 2013-07-23 | Xerox Corporation | Punched hole detection and removal |
US7894689B2 (en) * | 2007-05-31 | 2011-02-22 | Seiko Epson Corporation | Image stitching |
US8798148B2 (en) * | 2007-06-15 | 2014-08-05 | Physical Optics Corporation | Apparatus and method employing pre-ATR-based real-time compression and video frame segmentation |
US7873215B2 (en) * | 2007-06-27 | 2011-01-18 | Seiko Epson Corporation | Precise identification of text pixels from scanned document images |
US8014596B2 (en) * | 2007-10-30 | 2011-09-06 | Sharp Laboratories Of America, Inc. | Methods and systems for background color extrapolation |
US8086040B2 (en) * | 2007-12-05 | 2011-12-27 | Xerox Corporation | Text representation method and apparatus |
US8611661B2 (en) * | 2007-12-26 | 2013-12-17 | Intel Corporation | OCR multi-resolution method and apparatus |
US8009886B2 (en) * | 2008-01-03 | 2011-08-30 | General Electric Company | System and method for image registration |
JP5302768B2 (ja) * | 2008-06-26 | 2013-10-02 | キヤノン株式会社 | 画像処理装置及び画像処理方法 |
US8189917B2 (en) * | 2008-09-25 | 2012-05-29 | Sharp Laboratories Of America, Inc. | Methods and systems for locating text in a digital image |
US8780131B2 (en) * | 2008-12-19 | 2014-07-15 | Xerox Corporation | Systems and methods for text-based personalization of images |
US8271871B2 (en) * | 2009-04-30 | 2012-09-18 | Xerox Corporation | Automated method for alignment of document objects |
US9092668B2 (en) * | 2009-07-18 | 2015-07-28 | ABBYY Development | Identifying picture areas based on gradient image analysis |
US8340363B2 (en) | 2010-05-27 | 2012-12-25 | Palo Alto Research Center Incorporated | System and method for efficient interpretation of images in terms of objects and their parts |
US9218680B2 (en) * | 2010-09-01 | 2015-12-22 | K-Nfb Reading Technology, Inc. | Systems and methods for rendering graphical content and glyphs |
US8805056B2 (en) * | 2011-01-24 | 2014-08-12 | Xerox Corporation | Automatic detection and grouping of straight lines in images for personalization |
US8792682B2 (en) | 2011-04-21 | 2014-07-29 | Xerox Corporation | Method and system for identifying a license plate |
US8917934B2 (en) * | 2012-06-14 | 2014-12-23 | International Business Machines Corporation | Multi-cue object detection and analysis |
US10546210B2 (en) | 2014-02-17 | 2020-01-28 | Mobileye Vision Technologies Ltd. | Topology preserving intensity binning on reduced resolution grid of adaptive weighted cells |
US9615050B2 (en) | 2014-02-17 | 2017-04-04 | Mobileye Vision Technologies Ltd. | Topology preserving intensity binning on reduced resolution grid of adaptive weighted cells |
US10073543B2 (en) * | 2014-03-07 | 2018-09-11 | Htc Corporation | Image segmentation device and image segmentation method |
CN105608459B (zh) | 2014-10-29 | 2018-09-14 | 阿里巴巴集团控股有限公司 | 商品图片的分割方法及其装置 |
US9715624B1 (en) * | 2016-03-29 | 2017-07-25 | Konica Minolta Laboratory U.S.A., Inc. | Document image segmentation based on pixel classification |
US11776129B2 (en) * | 2020-12-16 | 2023-10-03 | Qualcomm Incorporated | Semantic refinement of image regions |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5737438A (en) * | 1994-03-07 | 1998-04-07 | International Business Machine Corp. | Image processing |
IL111901A (en) * | 1994-12-06 | 1999-08-17 | Gideon Rosenberg Dba Itec Init | Air filter and method of operating same |
US5956468A (en) * | 1996-07-12 | 1999-09-21 | Seiko Epson Corporation | Document segmentation system |
US5767978A (en) | 1997-01-21 | 1998-06-16 | Xerox Corporation | Image segmentation system |
US6453074B1 (en) * | 1997-03-31 | 2002-09-17 | Canon Kabushiki Kaisha | System for image decimation including selective filtering |
JP3780103B2 (ja) * | 1997-09-03 | 2006-05-31 | キヤノン株式会社 | 情報処理装置、情報処理方法、記憶媒体、及び、印刷システム |
-
2001
- 2001-10-12 US US09/977,186 patent/US6973213B2/en not_active Expired - Lifetime
-
2002
- 2002-10-01 JP JP2002288207A patent/JP4017489B2/ja not_active Expired - Fee Related
- 2002-10-10 BR BR0204103-0A patent/BR0204103A/pt not_active Application Discontinuation
- 2002-10-11 EP EP02022800.3A patent/EP1304651B1/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP1304651A2 (en) | 2003-04-23 |
EP1304651B1 (en) | 2013-08-07 |
US6973213B2 (en) | 2005-12-06 |
JP2003143393A (ja) | 2003-05-16 |
BR0204103A (pt) | 2003-09-16 |
EP1304651A3 (en) | 2011-03-30 |
US20030072487A1 (en) | 2003-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4017489B2 (ja) | セグメント化方法 | |
US6839466B2 (en) | Detecting overlapping images in an automatic image segmentation device with the presence of severe bleeding | |
EP1831823B1 (en) | Segmenting digital image and producing compact representation | |
US7379593B2 (en) | Method for image segmentation from proved detection of background and text image portions | |
US20050002566A1 (en) | Method and apparatus for discriminating between different regions of an image | |
US5073953A (en) | System and method for automatic document segmentation | |
US8422788B2 (en) | Automatic image straightening | |
US8368956B2 (en) | Methods and systems for segmenting a digital image into regions | |
Haddon et al. | Co-occurrence matrices for image analysis | |
EP1081648B1 (en) | Method for processing a digital image | |
KR20010110416A (ko) | 비디오 스트림 분류가능 심볼 고립 방법 및 시스템 | |
US20100021069A1 (en) | Pdf de-chunking and object classification | |
JP2008148298A (ja) | 画像における異なった内容の領域を識別する方法、画像における異なった内容の領域を識別する装置、および画像における異なった内容の領域を識別するコンピュータ・プログラムを具現するコンピュータ読み取り可能な媒体 | |
KR20050085355A (ko) | 분할된 이미지로부터 폴스 엣지들을 제거하는 방법 및 장치 | |
CN111539980A (zh) | 一种基于可见光的多目标追踪方法 | |
Aung et al. | Automatic license plate detection system for myanmar vehicle license plates | |
EP1439486A1 (en) | Segmenting an image via a graph | |
JP6377214B2 (ja) | テキスト検出方法および装置 | |
Liu et al. | A simple and fast text localization algorithm for indoor mobile robot navigation | |
Cheng et al. | Background identification based segmentation and multilayer tree representation of document images | |
US9225876B2 (en) | Method and apparatus for using an enlargement operation to reduce visually detected defects in an image | |
CN114255344A (zh) | 安检图像切分方法、装置、电子设备及计算机可读介质 | |
EP1612725A1 (en) | Image processing method and image processing device | |
Mtimet et al. | A layer-based segmentation method for compound images | |
Lin et al. | Detecting region of interest for cadastral images in Taiwan |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050916 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070424 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070724 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070821 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070918 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100928 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100928 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110928 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120928 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120928 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130928 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |