JP4017489B2 - セグメント化方法 - Google Patents

セグメント化方法 Download PDF

Info

Publication number
JP4017489B2
JP4017489B2 JP2002288207A JP2002288207A JP4017489B2 JP 4017489 B2 JP4017489 B2 JP 4017489B2 JP 2002288207 A JP2002288207 A JP 2002288207A JP 2002288207 A JP2002288207 A JP 2002288207A JP 4017489 B2 JP4017489 B2 JP 4017489B2
Authority
JP
Japan
Prior art keywords
background
image
text
objects
main
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002288207A
Other languages
English (en)
Other versions
JP2003143393A (ja
Inventor
ファン ジガン
チョン ホイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=25524914&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP4017489(B2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JP2003143393A publication Critical patent/JP2003143393A/ja
Application granted granted Critical
Publication of JP4017489B2 publication Critical patent/JP4017489B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/155Segmentation; Edge detection involving morphological operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10008Still image; Photographic image from scanner, fax or copier
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20156Automatic seed setting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30176Document

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Image Analysis (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • Processing Or Creating Images (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Character Input (AREA)
  • Image Processing (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は画像処理に関する。本発明は、特にメインバックグラウンド、ローカルバックグラウンド、テキストオブジェクト、及びピクチャオブジェクトへの画像のセグメント化に関連して用いられ、特にこれらに関連して説明される。しかしながら、本発明を他の同様の用途に用いてもよいことが理解されよう。
【0002】
【従来の技術及び発明が解決しようとする課題】
ドキュメントの画像は一般に複数の領域を含み、各領域は異なる性質を示す。複数の領域を含むドキュメントの画像を正確に処理するために、異なるアルゴリズムを各タイプの領域に適用すべきである。例えば、テキスト領域は印刷前に強調する必要がある。しかしながら、ハーフトーンのピクチャは、モアレを防ぐためにまずローパスフィルタに通す必要がある。従って、一般にドキュメント画像をその構成領域にセグメント化する必要があり、その後で、画像処理技術を最も有効に適用することができる。しかしながら、既存のセグメント化アルゴリズムの殆どは、強調(enhancement)、レンダリング、又は圧縮など、特定の画像処理の用途のために設計されている。用途によって、同一画像のセグメント化が大幅に異なりうる。圧縮の場合、グラフィックの線はテキストのストロークと同じように処理されうる。しかし、編集の場合、グラフィックは、テキスト領域のようにフォアグラウンド及びバックグラウンドに分割される代わりに、ピクチャ領域のように全体として処理されなければならない。画像処理システムはたいていこれらの用途を多く含むため、複数のセグメント化を計算しなければならない場合がある。従って、全てではないにしても、多くの画像処理の用途に適したセグメント化アルゴリズムを開発することが望ましい。
【0003】
なお、従来の技術は上記課題を解決していない(例えば、特許文献1参照)。
【0004】
【特許文献1】
米国特許第5,767,978号明細書
【0005】
【課題を解決するための手段】
本発明は、バックグラウンドベースの画像セグメント化処理を提供する。本発明の1つの態様によると、この処理は、画像をメインバックグラウンド、ローカルバックグラウンド、及び第1のオブジェクトにセグメント化するステップを含み、第1のオブジェクトはメインバックグラウンド又はローカルバックグラウンド上にある。
【0006】
本発明の他の態様によると、この処理は、a)メインバックグラウンド、ローカルバックグラウンド、及び第1のオブジェクトへの画像の低解像度セグメント化を行うステップであって、第1のオブジェクトがメインバックグラウンド又はローカルバックグラウンド上にある、該ステップと、b)メインバックグラウンド、ローカルバックグラウンド、及び第1のオブジェクトのうちのいずれか2つによって共有される境界を、画像のオリジナルの解像度でリファインするステップと、を含む。
【0007】
本発明の他の態様に従って、画像をメインバックグラウンド、ローカルバックグラウンド、及びオブジェクトにセグメント化する方法が提供される。この方法は、a)画像のメインバックグラウンドを識別するステップと、b)メインバックグラウンド上の第1のオブジェクトを識別するステップと、c)第1のオブジェクトを、テキストオブジェクト、ピクチャオブジェクト、及び複合オブジェクトからなる類のグループのうち1つの類に分類するステップと、d)第1のオブジェクトを複合オブジェクトとして識別した場合、第1のオブジェクトのローカルバックグラウンドを識別するステップと、を含む。
【0008】
【発明の実施の形態】
図1を参照すると、本発明に従ったバックグラウンドベースのセグメント化処理100のフローチャートが提供されている。バックグラウンドベースのセグメント化処理100は、高解像度のドキュメント画像102のセグメント化用に設計されている。しかしながら、高解像度でのバックグラウンド検出及びセグメント化は計算上高価であり、その結果はハーフトーンノイズに影響されやすい。計算の複雑さを少なくし、ハーフトーンノイズを抑えるために、画像102は2つの異なる解像度(即ち、低解像度及びオリジナル(元の)解像度)で処理される。バックグラウンドベースのセグメント化処理100は、低解像度のドキュメント画像のセグメント化にも有用である。ドキュメント画像のオリジナル解像度を低くすると冗長性や不要な処理が生じうることを、当業者は認識するであろう。
【0009】
処理100は、セグメント化されるドキュメント画像102から始まる。次に、画像102をローパスフィルタに通し、大幅に間引きする(decimate)。(即ち、解像度を低くする。)そして、画像を低解像度セグメント化段階104によって低解像度で処理する。セグメント化の結果は、メインバックグラウンド及び1つ以上のオブジェクトの識別を含む。テキスト類又はピクチャ類に分類できないオブジェクトを、更にローカルバックグラウンド及びより小さなオブジェクトにセグメント化する。全てのオブジェクトをテキスト類又はピクチャ類に分類するまでこの処理を繰り返す。次に、セグメント化の結果をリファインするための処理のオリジナル解像度リファインメント段階106の際に、セグメント化段階104の結果を画像102にオーバーレイする。リファインメント段階106が完了すると、画像102のセグメント化処理100は終了108に達する。
【0010】
図2を参照すると、図1のバックグラウンドベースのセグメント化処理100から得られた結果の一例が提供されている。セグメント化処理は、メインバックグラウンド、ローカルバックグラウンド、及びオブジェクトを識別し、更にオブジェクトをテキスト類又はピクチャ類に分類する。図2に示される結果は、ドキュメント画像102がメインバックグラウンド204、2つのローカルバックグラウンド214、テキストオブジェクト208、及びピクチャオブジェクト210にセグメント化されたことを示している。この図の階層は、画像102のセグメント化における複数のレベル(即ち、220、230、240、250、260、及び270)を反映している。
【0011】
レベル220において、メインバックグラウンド204及びメインバックグラウンド上のオブジェクト206が識別されたことを、図は示している。レベル230において、メインバックグラウンド上のオブジェクト206がテキストオブジェクト208、ピクチャオブジェクト210、及び複合オブジェクト212に分類されたことを、図は示している。複合オブジェクト212は単に、テキストオブジェクト208又はピクチャオブジェクト210としての識別に必要な基準を満たさないオブジェクトである。レベル240において、複合オブジェクト212が更にローカルバックグラウンド214及びローカルバックグラウンド上のオブジェクト216にセグメント化されたことを、図は示している。レベル250では、レベル230のように、ローカルバックグラウンド216上のオブジェクトがテキストオブジェクト208、ピクチャオブジェクト210、及び複合オブジェクト212に分類されたことを、図は示している。レベル260では、レベル240のように、複合オブジェクト212が更にローカルバックグラウンド214及びローカルバックグラウンド上のオブジェクト216にセグメント化されたことを、図は示している。レベル270において、ローカルバックグラウンド上のオブジェクト216がテキストオブジェクト208及びピクチャオブジェクト210に分類されたことを、図は示している。ローカルバックグラウンドの更なる識別が不要であり、セグメント化処理が完了したため、複合オブジェクトがレベル270において残らなかったことに注意されたい。
【0012】
図3を参照すると、図1のバックグラウンドベースのセグメント化処理100の低解像度セグメント化104段階のフローチャートが提供されている。低解像度セグメント化104段階は、ドキュメント画像102をローパスフィルタに通して大幅に間引きし(302)、画像102の低解像度表現(即ち、間引きされた画像)を生成することによって始まる。次に、メインバックグラウンドを識別する(304)。メインバックグラウンド上のテキストオブジェクトを識別し、セグメント化し、分類する(306)。メインバックグラウンド上の他のオブジェクトも識別し、セグメント化する(308)。次いで、その他のオブジェクトをピクチャ類に分類する(310)か、又は、複合オブジェクト類に分類する(312)。
【0013】
複合オブジェクトを識別したら、それを更にセグメント化する。まず、ローカルバックグラウンドを識別する(314)。次に、ステップ306のように、ローカルバックグラウンド上のテキストオブジェクトを識別し、セグメント化し、分類する(316)。ローカルバックグラウンド上の他のオブジェクトも識別し、セグメント化する(318)。そして、その他のオブジェクトをピクチャ類に分類する(320)か、又は、複合オブジェクト類に分類する(322)。この時点で複合オブジェクトが残っている場合は、ステップ314に戻ってセグメント化を続ける。識別する複合オブジェクトがない場合、セグメント化処理100はオリジナル解像度リファインメント106段階に進む。
【0014】
図4を参照すると、図1のバックグラウンドベースのセグメント化処理100のオリジナル解像度リファインメント106段階のフローチャートが提供されている。リファインメント106は、低解像度セグメント化104段階のセグメント化及び識別の結果をオリジナル画像102にオーバーレイすることによって始まる。このことは、間引きされた画像から得られたセグメント化及び識別の結果を画像102のオリジナル解像度に補間する(402)ことによって達成される。メインバックグラウンド、並びに他の隣接するバックグラウンド及びオブジェクトに対し、各ローカルバックグラウンド及び各ピクチャオブジェクトの境界をオリジナル解像度でリファインする(404及び406)。テキストオブジェクトを識別し、セグメント化し、分類する(408)。各テキストオブジェクト毎に、境界と、テキスト文字のストロークによって取り囲まれる内部領域とをリファインする(410)。任意のリファインメントとして、各バックグラウンドがスイープ(sweep)であるか否かを判断する各バックグラウンドの再評価があり、肯定された場合は、ピクチャオブジェクトとして再分類する(412)。スイープのグラディエント(gradient)特性の維持が重要である場合は、オプション412を含めるべきである。オプション412を含めない場合、バックグラウンドはその領域の平均色を示す。オプション412を実施する場合、スイープとして識別されたバックグラウンドを全てピクチャオブジェクトとして再分類し、バックグラウンドはそのグラディエント特性を反映し続ける。全てのリファインメントが行われると、リファインメント106段階は完了し、セグメント化処理100は終了108に達する(図1)。
【0015】
図5乃至図10を参照すると、図1のバックグラウンドベースのセグメント化処理100の詳細なフローチャートが提供されている。図1と同様に、図5の処理100は、セグメント化されるドキュメント画像102で始まる。次に、画像102をローパスフィルタに通して大幅に間引きし(302)、画像の低解像度バージョンを生成する。画像102を大幅に間引きした後は、画像データ及びハーフトーンノイズの量はかなり減少されている。従って、画像のセグメント化、特にメインバックグラウンド及びローカルバックグラウンドの識別に、簡潔で効率的なアルゴリズムを用いることができる。
【0016】
まず、N×Nの一様なブロックを識別する(502)ことにより、大幅に間引きされた画像においてメインバックグラウンドを識別する(304)。3つのカラーチャネルのダイナミックレンジが全て所定の閾値未満である場合、N×Nのブロックを一様なブロックとして定義する。次に、一様なブロックをシードとして使用し、領域併合(region-growing)アルゴリズムを適用する(504)。領域併合は、隣接ピクセルの色差の評価に基づいている。第1のピクセルが、ある領域内の第2のピクセルと隣接しており、これらの2つのピクセル間の色差が所定の閾値未満である場合、第1ピクセルをその領域に属するものとして特徴づける。併合される各領域の平均色を計算し(506)、同様の平均色の領域を結合する(508)。最後に、併合された全ての領域のうち、境界領域(bounding area)が最も大きいものをメインバックグラウンドとして識別する(510)。
【0017】
図6を参照すると、通常、寸法が小さいことと境界線がはっきりしていることがテキストオブジェクトの特徴である。とはいえ、この定義は、殆どのテキストと同様に、細い線、アイコン及び小さな構造体を含む。圧縮などの画像処理の用途では、この扱いは一般に許容可能である。前述の定義を考えると、メインバックグラウンド上のテキストは、2つの1次元形態(morphological)操作(即ち、開口(opening))によって抽出される。1次元形態開口を水平方向に適用し(512)、メインバックグラウンド上のテキストオブジェクトを識別する(514)。同様に、1次元形態開口を垂直方向に適用し(516)、メインバックグラウンド上の更なるテキストオブジェクトを識別する(518)。構成エレメントのサイズは、抽出が必要なテキストのストロークの最大幅によって決定される。
【0018】
メインバックグラウンド204及びメインバックグラウンド上のテキストオブジェクト208を検出した後には、更なる分析を必要とする寸法の比較的大きなオブジェクトが残っている。複数のオブジェクトが互いに連結し、分類の難しい複雑な複合オブジェクトを形成している場合があるため、分析の出来るだけ早い段階で出来るだけ多くのオブジェクトを分離することが望ましい。個々のオブジェクトは、長いエッジで境界を成していることが多い。従って、垂直方向及び水平方向双方のエッジを検出し(520)、エッジのピクセルをメインバックグラウンドから除去する(522)。除去されたエッジを連結する連結コンポーネント分析を用いてメインバックグラウンド上のオブジェクトを識別する(524)。メインバックグラウンド上で識別されたオブジェクトを、更なる分析のために抽出する(526)。
【0019】
図7を参照すると、テキストオブジェクトに加え、又はこれとは別に、メインバックグラウンド上で識別されたオブジェクトは、ピクチャオブジェクト又は複合オブジェクトである。次に、各オブジェクトを分析し、分類する。第1のオブジェクトを分析のために選択する(528)。1つの実施の形態では、レヴァンカーら(Revankar et al.)の米国特許第5,767,978号のエッジ検出アルゴリズム(以下、このアルゴリズムを「レヴァンカー」と呼ぶ)を用いてエッジ検出を行う(530)。レヴァンカーにおいて、弱いエッジポイントと強いエッジポイントを識別し、弱いエッジポイント対強いエッジポイントの比を決定する(532)。この比が所定の閾値よりも大きい場合、オブジェクトをピクチャオブジェクトとして分類し(534)、分析はステップ542に進み、そうでない場合、分析はステップ536に続く。ステップ536では、再びレヴァンカーにおいて、弱いエッジポイント対エッジポイントの総数の比を決定する。同様に、この比が所定の閾値よりも大きい場合、オブジェクトをピクチャオブジェクトとして分類し(538)、分析はステップ542に進み、そうでない場合、分析はステップ540に続く。ステップ540では、オブジェクトを複合オブジェクトとして分類し、分析はステップ542へ続く。
【0020】
ステップ542において、処理は、現行のオブジェクトがメインバックグラウンドから抽出されたオブジェクトのうち最後のものであるか否かを判断する。現行のオブジェクトが最後のオブジェクトである場合、処理は複合オブジェクトの分析に進み、そうでない場合、次のオブジェクトを選択し(544)、最後のオブジェクトを分類するまでエッジ検出処理を繰り返す。
【0021】
図8を参照すると、複合オブジェクトは、しばしばローカルバックグラウンドと呼ばれる特有のバックグラウンドを有するため、他のタイプのオブジェクトとは異なる。複合オブジェクトの分析は、画像102全体の分析に類似している。複合オブジェクトの分析は、(1)ローカルバックグラウンドの識別、(2)テキストのセグメント化及び分類、並びに(3)オブジェクトのセグメント化及びピクチャオブジェクト類と複合オブジェクト類への分類、といった3つのステップを含む。これら3つのステップのうち、テキストのセグメント化及びオブジェクトの分類は、画像102全体の分析に関して前述した処理と同一である。しかしながら、ローカルバックグラウンドの識別は、メインバックグラウンドの識別とは異なる。
【0022】
次に、各複合オブジェクトを分析し、セグメント化し、分類する。第1の複合オブジェクトを分析のために選択する(546)。標準のエッジ検出(detector)を用いてエッジ検出を複合オブジェクトに対して行い、エッジのピクセルを複合オブジェクトから除去する(550)。次に、除去したエッジの境界外側にある各ピクセルをシードとして用い、領域併合アルゴリズムを適用する(552)。隣接するピクセルと領域との間の色差が所定の閾値未満である場合、隣接するピクセルをその領域に属するものとして特徴づける。併合された最大領域の寸法が所定の閾値よりも大きい場合、これをローカルバックグラウンドとして識別し、そうでない場合、複合オブジェクトをピクチャオブジェクトとして再分類する(554)。複合オブジェクトをピクチャオブジェクト210として再分類する場合、分析はステップ560に進み、そうでない場合、複合オブジェクトの分析はステップ556へ続く。
【0023】
ステップ556において、ローカルバックグラウンド上のテキストオブジェクトを識別し、セグメント化し、分類する。これは、メインバックグラウンド上のテキストオブジェクトの識別、セグメント化、及び分類と同じ態様で達成される。従って、ステップ512乃至ステップ518を複合オブジェクトに対して行う。ステップ518が完了すると、分析はステップ558に戻る。
【0024】
ステップ558において、ローカルバックグラウンド上の他のオブジェクトも識別し、セグメント化し、ピクチャオブジェクト類又は複合オブジェクト類に分類する。これは、メインバックグラウンド上の他のオブジェクトの識別、セグメント化、及び分類と同じ態様で達成される。従って、ステップ520乃至ステップ544を複合オブジェクトに対して行う。ローカルバックグラウンド上に識別される最後のオブジェクトを分類した後、分析はステップ560に戻る。
【0025】
ステップ560において、処理は、現行の複合オブジェクトが、識別される最後の複合オブジェクトであるか否かを判断する。そうである場合、処理はオリジナル解像度リファインメント段階106(図1)に進み、そうでない場合、次の複合オブジェクトを選択し(562)、最後の複合オブジェクトをセグメント化するまで複合オブジェクトの分析(即ち、548乃至560)を繰り返す。
【0026】
図9を参照すると、高解像度処理とも呼ばれるオリジナル解像度リファインメント段階106の際、低解像度セグメント化104の際に識別した、検出されたメインバックグラウンド及びローカルバックグラウンドをリファインし、更にテストする。リファインメント106は、低解像度セグメント化段階104のセグメント化及び分類の結果をオリジナル画像102にオーバーレイすることによって始まる。これは、低解像度から得られたセグメント化及び分類の結果を画像のオリジナル解像度に補間する(564)ことによって達成される。次に、色の類似度に基づき、各ローカルバックグラウンド及び各ピクチャオブジェクトの境界に沿ったピクセルに領域併合アルゴリズムを適用する(566)。領域併合は、メインバックグラウンド、他の隣接するバックグラウンド及びオブジェクトに対する境界を、オリジナル解像度でリファインする。
【0027】
境界をリファインした後、アルゴリズムを使用し、テキストオブジェクトの一般的な小さい寸法とはっきりした境界に基づいてテキストオブジェクトを識別する。少なくとも1つの寸法が所定の閾値よりも小さい構造体は全て、テキストオブジェクトとして識別する。1次元形態開口を水平方向に適用し(568)、テキストオブジェクトを識別する(570)。同様に、1次元形態開口を垂直方向に適用し(572)、更なるテキストオブジェクトを識別する(574)。識別した各テキストオブジェクトもセグメント化し、テキストオブジェクト208として分類する。
【0028】
図10を参照すると、テキストオブジェクト208を識別し、セグメント化し、分類した後、各テキストオブジェクトの境界に沿ったピクセル及び各テキストオブジェクトの内部領域に領域併合アルゴリズムを適用する(576)。領域併合は、メインバックグラウンド204、ローカルバックグラウンド214、テキストがオーバーレイする他のオブジェクト、及びテキストの文字のストロークによって囲まれる識別された内部領域(例えば、「o」の中央部分)に対する境界を、オリジナル解像度でリファインする。テキストオブジェクトをリファインした後は、より正確なテキストマスクが存在する。
【0029】
各バックグラウンドがスイープであるか否かを判断する各バックグラウンドの再評価412は、任意のリファインメントである。スイープのグラディエント特性の維持が重要である場合、オプション412を含めるべきである。オプション412を含めない場合、バックグラウンドはその領域の平均色を示す。オプション412を実施する場合、スイープとして識別されたバックグラウンドを全てピクチャオブジェクトとして再分類し、バックグラウンドはそのグラディエント特性を反映し続ける。低リスクのアプローチが好ましい場合は、オプション412を含めるべきである。
【0030】
オプション412を実施する場合、メインバックグラウンド及び各ローカルバックグラウンドに対してバックグラウンド一様性テストを実施する(578)。第1のバックグラウンドを分析のために選択する(580)。有界領域全体に対し、バックグラウンドをK×Kの構成に基づいた16のサブ領域に分割する(582)。実験的に、K=4を用いた。各サブ領域の平均色を計算する(584)。全てのサブ領域間の最大の色差を決定する(586)。最大の色差が所定の閾値よりも大きい場合、バックグラウンドをピクチャオブジェクトとして再分類し、そうでない場合、引き続きバックグラウンドセグメントとして識別する(588)。次に、処理は、現行のバックグラウンドが最後のバックグラウンドであるか否かを判断する(590)。現行のバックグラウンドが最後のバックグラウンドである場合、リファインメント106段階は完了し、セグメント化処理100は終了に達する(図1)。そうでない場合、次のバックグラウンドを選択し(592)、最後のバックグラウンドを再評価するまで一様性テストを繰り返す。
【図面の簡単な説明】
【図1】本発明に従ったバックグラウンドベースのセグメント化処理100のフローチャートである。
【図2】図1のバックグラウンドベースのセグメント化処理100から得られたセグメント化の結果の一例の図である。
【図3】図1のバックグラウンドベースのセグメント化処理100の低解像度セグメント化104段階のフローチャートである。
【図4】図1のバックグラウンドベースのセグメント化処理100のオリジナル解像度リファインメント106段階のフローチャートである。
【図5】図1のバックグラウンドベースのセグメント化処理100の詳細なフローチャートである。
【図6】図1のバックグラウンドベースのセグメント化処理100の詳細なフローチャートである。
【図7】図1のバックグラウンドベースのセグメント化処理100の詳細なフローチャートである。
【図8】図1のバックグラウンドベースのセグメント化処理100の詳細なフローチャートである。
【図9】図1のバックグラウンドベースのセグメント化処理100の詳細なフローチャートである。
【図10】図1のバックグラウンドベースのセグメント化処理100の詳細なフローチャートである。
【符号の説明】
100 セグメント化処理
102 ドキュメント画像
104 低解像度セグメント化
106 オリジナル解像度リファインメント
204 メインバックグラウンド
206 メインバックグラウンド上のオブジェクト
208 テキストオブジェクト
210 ピクチャオブジェクト
212 複合オブジェクト
214 ローカルバックグラウンド
216 ローカルバックグラウンド上のオブジェクト

Claims (4)

  1. a) 画像をメインバックグラウンド、ローカルバックグラウンド、及び第1のオブジェクトにセグメント化し、前記第1のオブジェクトが前記メインバックグラウンド又は前記ローカルバックグラウンド上にあ
    b) 前記画像のメインバックグラウンドを識別し、
    c) 前記メインバックグラウンド上の第1のオブジェクトをセグメント化し、
    d) 前記第1のオブジェクトを、テキストオブジェクト、ピクチャオブジェクト、複合オブジェクトからなる類のグループの1つの類に分類し、
    e) 前記第1のオブジェクトが複合オブジェクトとして分類される場合、該第1のオブジェクトのローカルバックグラウンドを識別し、
    f) 前記ローカルバックグラウンド上の第2のオブジェクトをセグメント化し、
    g) 前記第2のオブジェクトを、テキストオブジェクト、ピクチャオブジェクト、複合オブジェクトからなる類のグループの1つの類に分類し、
    h) 前記第2のオブジェクトが複合オブジェクトとして分類される場合、該第2のオブジェクトに対してe)〜g)を実行する、
    画像のセグメント化方法
  2. a) メインバックグラウンド、ローカルバックグラウンド、及び第1のオブジェクトへの画像の低解像度セグメント化を行、前記第1のオブジェクトが前記メインバックグラウンド又は前記ローカルバックグラウンド上にあ
    b) 前記メインバックグラウンド、前記ローカルバックグラウンド、及び前記第1のオブジェクトのうちのいずれか2つによって共有される境界を、オリジナルの解像度の前記画像で補間する
    画像のセグメント化方法であって、
    a)は、
    c) 前記画像の解像度をローパスフィルタでフィルタリングすることにより低減し、
    d) 前記画像のメインバックグラウンドを識別し、
    e) 前記メインバックグラウンド上の第1のオブジェクトをセグメント化し、
    f) 前記第1のオブジェクトを、テキストオブジェクト、ピクチャオブジェクト、複合オブジェクトからなる類のグループの1つの類に分類し、
    g) 前記第1のオブジェクトが複合オブジェクトとして分類される場合、該第1のオブジェクトのローカルバックグラウンドを識別し、
    h) 前記ローカルバックグラウンド上の第2のオブジェクトをセグメント化し、
    i) 前記第2のオブジェクトを、テキストオブジェクト、ピクチャオブジェクト、複合オブジェクトからなる類のグループの1つの類に分類し、
    j) 前記第2のオブジェクトが複合オブジェクトとして分類される場合、該第2のオブジェクトに対してg)〜i)を実行する、
    ことを含む、
    セグメント化方法
  3. b)は、
    k) ローカルバックグラウンドがセグメント化され、オブジェクトがピクチャオブジェクトとして分類される場合、該ローカルバックグラウンドおよびピクチャオブジェクトの境界を、オリジナルの解像度の前記画像で補間し、
    l) オブジェクトがテキストオブジェクトとして分類される場合、該テキストオブジェクトの境界および内部を、オリジナルの解像度の前記画像で補間する、
    ことを含む、
    請求項2に記載のセグメント化方法。
  4. a) 画像のメインバックグラウンドを識別
    b) 前記メインバックグラウンド上の第1のオブジェクトを識別
    c) 前記第1のオブジェクトを、テキストオブジェクト、ピクチャオブジェクト、及び複合オブジェクトからなる類のグループのうち1つの類に分類
    d) 前記第1のオブジェクトを複合オブジェクトとして識別した場合、前記第1のオブジェクトのローカルバックグラウンドを識別
    e) 前記第1のオブジェクトが複合オブジェクトとして分類される場合、前記第1のオブジェクトの前記ローカルバックグラウンド上の第2のオブジェクトを識別し、
    f) 前記第2のオブジェクトを、テキストオブジェクト、ピクチャオブジェクト、複合オブジェクトからなる類のグループの1つの類に分類し、
    g) 前記第2のオブジェクトが複合オブジェクトとして分類される場合、該第2のオブジェクト上のローカルバックグラウンドを識別する、
    画像のセグメント化方法。
JP2002288207A 2001-10-12 2002-10-01 セグメント化方法 Expired - Fee Related JP4017489B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US977186 2001-10-12
US09/977,186 US6973213B2 (en) 2001-10-12 2001-10-12 Background-based image segmentation

Publications (2)

Publication Number Publication Date
JP2003143393A JP2003143393A (ja) 2003-05-16
JP4017489B2 true JP4017489B2 (ja) 2007-12-05

Family

ID=25524914

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002288207A Expired - Fee Related JP4017489B2 (ja) 2001-10-12 2002-10-01 セグメント化方法

Country Status (4)

Country Link
US (1) US6973213B2 (ja)
EP (1) EP1304651B1 (ja)
JP (1) JP4017489B2 (ja)
BR (1) BR0204103A (ja)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7254270B2 (en) * 2002-07-09 2007-08-07 Hewlett-Packard Development Company, L.P. System and method for bounding and classifying regions within a graphical image
US7715640B2 (en) * 2002-11-05 2010-05-11 Konica Minolta Business Technologies, Inc. Image processing device, image processing method, image processing program and computer-readable recording medium on which the program is recorded
US8056001B2 (en) * 2003-04-10 2011-11-08 Hewlett-Packard Development Company, L.P. Method and apparatus for classifying elements of a document
AU2004248872A1 (en) * 2003-06-26 2004-12-29 Tangam Gaming Technology Inc. System, apparatus and method for automatically tracking a table game
JP2005018529A (ja) * 2003-06-27 2005-01-20 Ricoh Co Ltd 画像処理装置
US7379594B2 (en) * 2004-01-28 2008-05-27 Sharp Laboratories Of America, Inc. Methods and systems for automatic detection of continuous-tone regions in document images
US20050265600A1 (en) * 2004-06-01 2005-12-01 Xerox Corporation Systems and methods for adjusting pixel classification using background detection
US7272261B2 (en) * 2004-06-04 2007-09-18 Xerox Corporation Method and system for classifying scanned-media
US7424151B2 (en) * 2004-06-04 2008-09-09 Xerox Corporation Method and system for image classification and halftone frequency detection
US8204306B2 (en) * 2004-06-14 2012-06-19 Xerox Corporation Method for image segmentation based on block clustering for improved processing of touching characters
US7782339B1 (en) 2004-06-30 2010-08-24 Teradici Corporation Method and apparatus for generating masks for a multi-layer image decomposition
US8442311B1 (en) 2005-06-30 2013-05-14 Teradici Corporation Apparatus and method for encoding an image generated in part by graphical commands
US8086050B2 (en) * 2004-08-25 2011-12-27 Ricoh Co., Ltd. Multi-resolution segmentation and fill
US7302097B2 (en) * 2004-09-15 2007-11-27 Xerox Corporation MRC image compression
US7596265B2 (en) * 2004-09-23 2009-09-29 Hewlett-Packard Development Company, L.P. Segmenting pixels in an image based on orientation-dependent adaptive thresholds
KR100643759B1 (ko) * 2004-12-01 2006-11-10 삼성전자주식회사 문서 압축 장치 및 그 방법
US8913830B2 (en) * 2005-01-18 2014-12-16 Siemens Aktiengesellschaft Multilevel image segmentation
AU2006201849A1 (en) * 2005-05-03 2006-11-23 Tangam Gaming Technology Inc. Gaming object position analysis and tracking
US7899258B2 (en) * 2005-08-12 2011-03-01 Seiko Epson Corporation Systems and methods to convert images into high-quality compressed documents
US7783117B2 (en) * 2005-08-12 2010-08-24 Seiko Epson Corporation Systems and methods for generating background and foreground images for document compression
FR2891382B1 (fr) * 2005-09-23 2008-04-11 Sagem Comm Procede et systeme de reproduction de documents par segmentation et amelioration selective des images et des textes
JP4623300B2 (ja) * 2005-12-17 2011-02-02 富士ゼロックス株式会社 画像処理装置および画像処理プログラム
US7668394B2 (en) * 2005-12-21 2010-02-23 Lexmark International, Inc. Background intensity correction of a scan of a document
JP4764231B2 (ja) * 2006-03-31 2011-08-31 キヤノン株式会社 画像処理装置、制御方法、コンピュータプログラム
TWI323434B (en) * 2006-11-30 2010-04-11 Ind Tech Res Inst Method of object segmentation for video
US7856142B2 (en) * 2007-01-26 2010-12-21 Sharp Laboratories Of America, Inc. Methods and systems for detecting character content in a digital image
US8494304B2 (en) * 2007-05-11 2013-07-23 Xerox Corporation Punched hole detection and removal
US7894689B2 (en) * 2007-05-31 2011-02-22 Seiko Epson Corporation Image stitching
US8798148B2 (en) * 2007-06-15 2014-08-05 Physical Optics Corporation Apparatus and method employing pre-ATR-based real-time compression and video frame segmentation
US7873215B2 (en) * 2007-06-27 2011-01-18 Seiko Epson Corporation Precise identification of text pixels from scanned document images
US8014596B2 (en) * 2007-10-30 2011-09-06 Sharp Laboratories Of America, Inc. Methods and systems for background color extrapolation
US8086040B2 (en) * 2007-12-05 2011-12-27 Xerox Corporation Text representation method and apparatus
US8611661B2 (en) * 2007-12-26 2013-12-17 Intel Corporation OCR multi-resolution method and apparatus
US8009886B2 (en) * 2008-01-03 2011-08-30 General Electric Company System and method for image registration
JP5302768B2 (ja) * 2008-06-26 2013-10-02 キヤノン株式会社 画像処理装置及び画像処理方法
US8189917B2 (en) * 2008-09-25 2012-05-29 Sharp Laboratories Of America, Inc. Methods and systems for locating text in a digital image
US8780131B2 (en) * 2008-12-19 2014-07-15 Xerox Corporation Systems and methods for text-based personalization of images
US8271871B2 (en) * 2009-04-30 2012-09-18 Xerox Corporation Automated method for alignment of document objects
US9092668B2 (en) * 2009-07-18 2015-07-28 ABBYY Development Identifying picture areas based on gradient image analysis
US8340363B2 (en) 2010-05-27 2012-12-25 Palo Alto Research Center Incorporated System and method for efficient interpretation of images in terms of objects and their parts
US9218680B2 (en) * 2010-09-01 2015-12-22 K-Nfb Reading Technology, Inc. Systems and methods for rendering graphical content and glyphs
US8805056B2 (en) * 2011-01-24 2014-08-12 Xerox Corporation Automatic detection and grouping of straight lines in images for personalization
US8792682B2 (en) 2011-04-21 2014-07-29 Xerox Corporation Method and system for identifying a license plate
US8917934B2 (en) * 2012-06-14 2014-12-23 International Business Machines Corporation Multi-cue object detection and analysis
US10546210B2 (en) 2014-02-17 2020-01-28 Mobileye Vision Technologies Ltd. Topology preserving intensity binning on reduced resolution grid of adaptive weighted cells
US9615050B2 (en) 2014-02-17 2017-04-04 Mobileye Vision Technologies Ltd. Topology preserving intensity binning on reduced resolution grid of adaptive weighted cells
US10073543B2 (en) * 2014-03-07 2018-09-11 Htc Corporation Image segmentation device and image segmentation method
CN105608459B (zh) 2014-10-29 2018-09-14 阿里巴巴集团控股有限公司 商品图片的分割方法及其装置
US9715624B1 (en) * 2016-03-29 2017-07-25 Konica Minolta Laboratory U.S.A., Inc. Document image segmentation based on pixel classification
US11776129B2 (en) * 2020-12-16 2023-10-03 Qualcomm Incorporated Semantic refinement of image regions

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG45100A1 (en) * 1994-03-07 1998-01-16 Ibm Improvements in image processing
IL111901A (en) * 1994-12-06 1999-08-17 Gideon Rosenberg Dba Itec Init Air filter and method of operating same
US5956468A (en) * 1996-07-12 1999-09-21 Seiko Epson Corporation Document segmentation system
US5767978A (en) 1997-01-21 1998-06-16 Xerox Corporation Image segmentation system
US6453074B1 (en) * 1997-03-31 2002-09-17 Canon Kabushiki Kaisha System for image decimation including selective filtering
JP3780103B2 (ja) * 1997-09-03 2006-05-31 キヤノン株式会社 情報処理装置、情報処理方法、記憶媒体、及び、印刷システム

Also Published As

Publication number Publication date
EP1304651A2 (en) 2003-04-23
US20030072487A1 (en) 2003-04-17
US6973213B2 (en) 2005-12-06
EP1304651B1 (en) 2013-08-07
JP2003143393A (ja) 2003-05-16
BR0204103A (pt) 2003-09-16
EP1304651A3 (en) 2011-03-30

Similar Documents

Publication Publication Date Title
JP4017489B2 (ja) セグメント化方法
US6839466B2 (en) Detecting overlapping images in an automatic image segmentation device with the presence of severe bleeding
EP1831823B1 (en) Segmenting digital image and producing compact representation
US7379593B2 (en) Method for image segmentation from proved detection of background and text image portions
US20050002566A1 (en) Method and apparatus for discriminating between different regions of an image
US5073953A (en) System and method for automatic document segmentation
US8422788B2 (en) Automatic image straightening
US8368956B2 (en) Methods and systems for segmenting a digital image into regions
Haddon et al. Co-occurrence matrices for image analysis
EP1081648B1 (en) Method for processing a digital image
KR20010110416A (ko) 비디오 스트림 분류가능 심볼 고립 방법 및 시스템
US20100021069A1 (en) Pdf de-chunking and object classification
JP2008148298A (ja) 画像における異なった内容の領域を識別する方法、画像における異なった内容の領域を識別する装置、および画像における異なった内容の領域を識別するコンピュータ・プログラムを具現するコンピュータ読み取り可能な媒体
KR20050085355A (ko) 분할된 이미지로부터 폴스 엣지들을 제거하는 방법 및 장치
CN111539980A (zh) 一种基于可见光的多目标追踪方法
Aung et al. Automatic license plate detection system for myanmar vehicle license plates
EP1439486A1 (en) Segmenting an image via a graph
JP6377214B2 (ja) テキスト検出方法および装置
Liu et al. A simple and fast text localization algorithm for indoor mobile robot navigation
Cheng et al. Background identification based segmentation and multilayer tree representation of document images
US9225876B2 (en) Method and apparatus for using an enlargement operation to reduce visually detected defects in an image
CN114255344A (zh) 安检图像切分方法、装置、电子设备及计算机可读介质
EP1612725A1 (en) Image processing method and image processing device
Mtimet et al. A layer-based segmentation method for compound images
Lin et al. Detecting region of interest for cadastral images in Taiwan

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050916

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070424

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070724

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070821

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070918

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100928

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100928

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110928

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120928

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120928

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130928

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees