JP2003143393A - 画像のセグメント化処理及び画像のセグメント化方法 - Google Patents

画像のセグメント化処理及び画像のセグメント化方法

Info

Publication number
JP2003143393A
JP2003143393A JP2002288207A JP2002288207A JP2003143393A JP 2003143393 A JP2003143393 A JP 2003143393A JP 2002288207 A JP2002288207 A JP 2002288207A JP 2002288207 A JP2002288207 A JP 2002288207A JP 2003143393 A JP2003143393 A JP 2003143393A
Authority
JP
Japan
Prior art keywords
background
objects
image
segmentation
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002288207A
Other languages
English (en)
Other versions
JP4017489B2 (ja
Inventor
Zhigang Fan
ファン ジガン
Hui Cheng
チョン ホイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=25524914&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP2003143393(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JP2003143393A publication Critical patent/JP2003143393A/ja
Application granted granted Critical
Publication of JP4017489B2 publication Critical patent/JP4017489B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/155Segmentation; Edge detection involving morphological operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10008Still image; Photographic image from scanner, fax or copier
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20156Automatic seed setting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30176Document

Abstract

(57)【要約】 【課題】 バックグラウンドベースのセグメント化処理
を用いた画像のセグメント化方法を提供する。 【解決手段】 ドキュメント画像102をローパスフィ
ルタに通し、大幅に間引きする。間引きされた画像を、
低解像度セグメント化104段階によって低解像度で処
理する。セグメント化の結果は、メインバックグラウン
ド及び1つ以上のオブジェクトの識別を含む。テキスト
類又はピクチャ類に分類できないオブジェクトを、更に
ローカルバックグラウンド及びより小さなオブジェクト
にセグメント化する。全てのオブジェクトをテキスト類
又はピクチャ類に分類するまで、この処理を繰り返す。
その結果を、オリジナル解像度リファインメント106
段階の際に画像102にオーバーレイし、セグメント化
をリファインする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は画像処理に関する。
本発明は、特にメインバックグラウンド、ローカルバッ
クグラウンド、テキストオブジェクト、及びピクチャオ
ブジェクトへの画像のセグメント化に関連して用いら
れ、特にこれらに関連して説明される。しかしながら、
本発明を他の同様の用途に用いてもよいことが理解され
よう。
【0002】
【従来の技術及び発明が解決しようとする課題】ドキュ
メントの画像は一般に複数の領域を含み、各領域は異な
る性質を示す。複数の領域を含むドキュメントの画像を
正確に処理するために、異なるアルゴリズムを各タイプ
の領域に適用すべきである。例えば、テキスト領域は印
刷前に強調する必要がある。しかしながら、ハーフトー
ンのピクチャは、モアレを防ぐためにまずローパスフィ
ルタに通す必要がある。従って、一般にドキュメント画
像をその構成領域にセグメント化する必要があり、その
後で、画像処理技術を最も有効に適用することができ
る。しかしながら、既存のセグメント化アルゴリズムの
殆どは、強調(enhancement)、レンダリング、又は圧縮
など、特定の画像処理の用途のために設計されている。
用途によって、同一画像のセグメント化が大幅に異なり
うる。圧縮の場合、グラフィックの線はテキストのスト
ロークと同じように処理されうる。しかし、編集の場
合、グラフィックは、テキスト領域のようにフォアグラ
ウンド及びバックグラウンドに分割される代わりに、ピ
クチャ領域のように全体として処理されなければならな
い。画像処理システムはたいていこれらの用途を多く含
むため、複数のセグメント化を計算しなければならない
場合がある。従って、全てではないにしても、多くの画
像処理の用途に適したセグメント化アルゴリズムを開発
することが望ましい。
【0003】なお、従来の技術は上記課題を解決してい
ない(例えば、特許文献1参照)。
【0004】
【特許文献1】米国特許第5,767,978号明細書
【0005】
【課題を解決するための手段】本発明は、バックグラウ
ンドベースの画像セグメント化処理を提供する。本発明
の1つの態様によると、この処理は、画像をメインバッ
クグラウンド、ローカルバックグラウンド、及び第1の
オブジェクトにセグメント化するステップを含み、第1
のオブジェクトはメインバックグラウンド又はローカル
バックグラウンド上にある。
【0006】本発明の他の態様によると、この処理は、
a)メインバックグラウンド、ローカルバックグラウン
ド、及び第1のオブジェクトへの画像の低解像度セグメ
ント化を行うステップであって、第1のオブジェクトが
メインバックグラウンド又はローカルバックグラウンド
上にある、該ステップと、b)メインバックグラウン
ド、ローカルバックグラウンド、及び第1のオブジェク
トのうちのいずれか2つによって共有される境界を、画
像のオリジナルの解像度でリファインするステップと、
を含む。
【0007】本発明の他の態様に従って、画像をメイン
バックグラウンド、ローカルバックグラウンド、及びオ
ブジェクトにセグメント化する方法が提供される。この
方法は、a)画像のメインバックグラウンドを識別する
ステップと、b)メインバックグラウンド上の第1のオ
ブジェクトを識別するステップと、c)第1のオブジェ
クトを、テキストオブジェクト、ピクチャオブジェク
ト、及び複合オブジェクトからなる類のグループのうち
1つの類に分類するステップと、d)第1のオブジェク
トを複合オブジェクトとして識別した場合、第1のオブ
ジェクトのローカルバックグラウンドを識別するステッ
プと、を含む。
【0008】
【発明の実施の形態】図1を参照すると、本発明に従っ
たバックグラウンドベースのセグメント化処理100の
フローチャートが提供されている。バックグラウンドベ
ースのセグメント化処理100は、高解像度のドキュメ
ント画像102のセグメント化用に設計されている。し
かしながら、高解像度でのバックグラウンド検出及びセ
グメント化は計算上高価であり、その結果はハーフトー
ンノイズに影響されやすい。計算の複雑さを少なくし、
ハーフトーンノイズを抑えるために、画像102は2つ
の異なる解像度(即ち、低解像度及びオリジナル(元
の)解像度)で処理される。バックグラウンドベースの
セグメント化処理100は、低解像度のドキュメント画
像のセグメント化にも有用である。ドキュメント画像の
オリジナル解像度を低くすると冗長性や不要な処理が生
じうることを、当業者は認識するであろう。
【0009】処理100は、セグメント化されるドキュ
メント画像102から始まる。次に、画像102をロー
パスフィルタに通し、大幅に間引きする(decimate)。
(即ち、解像度を低くする。)そして、画像を低解像度
セグメント化段階104によって低解像度で処理する。
セグメント化の結果は、メインバックグラウンド及び1
つ以上のオブジェクトの識別を含む。テキスト類又はピ
クチャ類に分類できないオブジェクトを、更にローカル
バックグラウンド及びより小さなオブジェクトにセグメ
ント化する。全てのオブジェクトをテキスト類又はピク
チャ類に分類するまでこの処理を繰り返す。次に、セグ
メント化の結果をリファインするための処理のオリジナ
ル解像度リファインメント段階106の際に、セグメン
ト化段階104の結果を画像102にオーバーレイす
る。リファインメント段階106が完了すると、画像1
02のセグメント化処理100は終了108に達する。
【0010】図2を参照すると、図1のバックグラウン
ドベースのセグメント化処理100から得られた結果の
一例が提供されている。セグメント化処理は、メインバ
ックグラウンド、ローカルバックグラウンド、及びオブ
ジェクトを識別し、更にオブジェクトをテキスト類又は
ピクチャ類に分類する。図2に示される結果は、ドキュ
メント画像102がメインバックグラウンド204、2
つのローカルバックグラウンド214、テキストオブジ
ェクト208、及びピクチャオブジェクト210にセグ
メント化されたことを示している。この図の階層は、画
像102のセグメント化における複数のレベル(即ち、
220、230、240、250、260、及び27
0)を反映している。
【0011】レベル220において、メインバックグラ
ウンド204及びメインバックグラウンド上のオブジェ
クト206が識別されたことを、図は示している。レベ
ル230において、メインバックグラウンド上のオブジ
ェクト206がテキストオブジェクト208、ピクチャ
オブジェクト210、及び複合オブジェクト212に分
類されたことを、図は示している。複合オブジェクト2
12は単に、テキストオブジェクト208又はピクチャ
オブジェクト210としての識別に必要な基準を満たさ
ないオブジェクトである。レベル240において、複合
オブジェクト212が更にローカルバックグラウンド2
14及びローカルバックグラウンド上のオブジェクト2
16にセグメント化されたことを、図は示している。レ
ベル250では、レベル230のように、ローカルバッ
クグラウンド216上のオブジェクトがテキストオブジ
ェクト208、ピクチャオブジェクト210、及び複合
オブジェクト212に分類されたことを、図は示してい
る。レベル260では、レベル240のように、複合オ
ブジェクト212が更にローカルバックグラウンド21
4及びローカルバックグラウンド上のオブジェクト21
6にセグメント化されたことを、図は示している。レベ
ル270において、ローカルバックグラウンド上のオブ
ジェクト216がテキストオブジェクト208及びピク
チャオブジェクト210に分類されたことを、図は示し
ている。ローカルバックグラウンドの更なる識別が不要
であり、セグメント化処理が完了したため、複合オブジ
ェクトがレベル270において残らなかったことに注意
されたい。
【0012】図3を参照すると、図1のバックグラウン
ドベースのセグメント化処理100の低解像度セグメン
ト化104段階のフローチャートが提供されている。低
解像度セグメント化104段階は、ドキュメント画像1
02をローパスフィルタに通して大幅に間引きし(30
2)、画像102の低解像度表現(即ち、間引きされた
画像)を生成することによって始まる。次に、メインバ
ックグラウンドを識別する(304)。メインバックグ
ラウンド上のテキストオブジェクトを識別し、セグメン
ト化し、分類する(306)。メインバックグラウンド
上の他のオブジェクトも識別し、セグメント化する(3
08)。次いで、その他のオブジェクトをピクチャ類に
分類する(310)か、又は、複合オブジェクト類に分
類する(312)。
【0013】複合オブジェクトを識別したら、それを更
にセグメント化する。まず、ローカルバックグラウンド
を識別する(314)。次に、ステップ306のよう
に、ローカルバックグラウンド上のテキストオブジェク
トを識別し、セグメント化し、分類する(316)。ロ
ーカルバックグラウンド上の他のオブジェクトも識別
し、セグメント化する(318)。そして、その他のオ
ブジェクトをピクチャ類に分類する(320)か、又
は、複合オブジェクト類に分類する(322)。この時
点で複合オブジェクトが残っている場合は、ステップ3
14に戻ってセグメント化を続ける。識別する複合オブ
ジェクトがない場合、セグメント化処理100はオリジ
ナル解像度リファインメント106段階に進む。
【0014】図4を参照すると、図1のバックグラウン
ドベースのセグメント化処理100のオリジナル解像度
リファインメント106段階のフローチャートが提供さ
れている。リファインメント106は、低解像度セグメ
ント化104段階のセグメント化及び識別の結果をオリ
ジナル画像102にオーバーレイすることによって始ま
る。このことは、間引きされた画像から得られたセグメ
ント化及び識別の結果を画像102のオリジナル解像度
に補間する(402)ことによって達成される。メイン
バックグラウンド、並びに他の隣接するバックグラウン
ド及びオブジェクトに対し、各ローカルバックグラウン
ド及び各ピクチャオブジェクトの境界をオリジナル解像
度でリファインする(404及び406)。テキストオ
ブジェクトを識別し、セグメント化し、分類する(40
8)。各テキストオブジェクト毎に、境界と、テキスト
文字のストロークによって取り囲まれる内部領域とをリ
ファインする(410)。任意のリファインメントとし
て、各バックグラウンドがスイープ(sweep)であるか否
かを判断する各バックグラウンドの再評価があり、肯定
された場合は、ピクチャオブジェクトとして再分類する
(412)。スイープのグラディエント(gradient)特性
の維持が重要である場合は、オプション412を含める
べきである。オプション412を含めない場合、バック
グラウンドはその領域の平均色を示す。オプション41
2を実施する場合、スイープとして識別されたバックグ
ラウンドを全てピクチャオブジェクトとして再分類し、
バックグラウンドはそのグラディエント特性を反映し続
ける。全てのリファインメントが行われると、リファイ
ンメント106段階は完了し、セグメント化処理100
は終了108に達する(図1)。
【0015】図5乃至図10を参照すると、図1のバッ
クグラウンドベースのセグメント化処理100の詳細な
フローチャートが提供されている。図1と同様に、図5
の処理100は、セグメント化されるドキュメント画像
102で始まる。次に、画像102をローパスフィルタ
に通して大幅に間引きし(302)、画像の低解像度バ
ージョンを生成する。画像102を大幅に間引きした後
は、画像データ及びハーフトーンノイズの量はかなり減
少されている。従って、画像のセグメント化、特にメイ
ンバックグラウンド及びローカルバックグラウンドの識
別に、簡潔で効率的なアルゴリズムを用いることができ
る。
【0016】まず、N×Nの一様なブロックを識別する
(502)ことにより、大幅に間引きされた画像におい
てメインバックグラウンドを識別する(304)。3つ
のカラーチャネルのダイナミックレンジが全て所定の閾
値未満である場合、N×Nのブロックを一様なブロック
として定義する。次に、一様なブロックをシードとして
使用し、領域併合(region-growing)アルゴリズムを適用
する(504)。領域併合は、隣接ピクセルの色差の評
価に基づいている。第1のピクセルが、ある領域内の第
2のピクセルと隣接しており、これらの2つのピクセル
間の色差が所定の閾値未満である場合、第1ピクセルを
その領域に属するものとして特徴づける。併合される各
領域の平均色を計算し(506)、同様の平均色の領域
を結合する(508)。最後に、併合された全ての領域
のうち、境界領域(bounding area)が最も大きいものを
メインバックグラウンドとして識別する(510)。
【0017】図6を参照すると、通常、寸法が小さいこ
とと境界線がはっきりしていることがテキストオブジェ
クトの特徴である。とはいえ、この定義は、殆どのテキ
ストと同様に、細い線、アイコン及び小さな構造体を含
む。圧縮などの画像処理の用途では、この扱いは一般に
許容可能である。前述の定義を考えると、メインバック
グラウンド上のテキストは、2つの1次元形態(morphol
ogical)操作(即ち、開口(opening))によって抽出され
る。1次元形態開口を水平方向に適用し(512)、メ
インバックグラウンド上のテキストオブジェクトを識別
する(514)。同様に、1次元形態開口を垂直方向に
適用し(516)、メインバックグラウンド上の更なる
テキストオブジェクトを識別する(518)。構成エレ
メントのサイズは、抽出が必要なテキストのストローク
の最大幅によって決定される。
【0018】メインバックグラウンド204及びメイン
バックグラウンド上のテキストオブジェクト208を検
出した後には、更なる分析を必要とする寸法の比較的大
きなオブジェクトが残っている。複数のオブジェクトが
互いに連結し、分類の難しい複雑な複合オブジェクトを
形成している場合があるため、分析の出来るだけ早い段
階で出来るだけ多くのオブジェクトを分離することが望
ましい。個々のオブジェクトは、長いエッジで境界を成
していることが多い。従って、垂直方向及び水平方向双
方のエッジを検出し(520)、エッジのピクセルをメ
インバックグラウンドから除去する(522)。除去さ
れたエッジを連結する連結コンポーネント分析を用いて
メインバックグラウンド上のオブジェクトを識別する
(524)。メインバックグラウンド上で識別されたオ
ブジェクトを、更なる分析のために抽出する(52
6)。
【0019】図7を参照すると、テキストオブジェクト
に加え、又はこれとは別に、メインバックグラウンド上
で識別されたオブジェクトは、ピクチャオブジェクト又
は複合オブジェクトである。次に、各オブジェクトを分
析し、分類する。第1のオブジェクトを分析のために選
択する(528)。1つの実施の形態では、レヴァンカ
ーら(Revankar et al.)の米国特許第5,767,97
8号のエッジ検出アルゴリズム(以下、このアルゴリズ
ムを「レヴァンカー」と呼ぶ)を用いてエッジ検出を行
う(530)。レヴァンカーにおいて、弱いエッジポイ
ントと強いエッジポイントを識別し、弱いエッジポイン
ト対強いエッジポイントの比を決定する(532)。こ
の比が所定の閾値よりも大きい場合、オブジェクトをピ
クチャオブジェクトとして分類し(534)、分析はス
テップ542に進み、そうでない場合、分析はステップ
536に続く。ステップ536では、再びレヴァンカー
において、弱いエッジポイント対エッジポイントの総数
の比を決定する。同様に、この比が所定の閾値よりも大
きい場合、オブジェクトをピクチャオブジェクトとして
分類し(538)、分析はステップ542に進み、そう
でない場合、分析はステップ540に続く。ステップ5
40では、オブジェクトを複合オブジェクトとして分類
し、分析はステップ542へ続く。
【0020】ステップ542において、処理は、現行の
オブジェクトがメインバックグラウンドから抽出された
オブジェクトのうち最後のものであるか否かを判断す
る。現行のオブジェクトが最後のオブジェクトである場
合、処理は複合オブジェクトの分析に進み、そうでない
場合、次のオブジェクトを選択し(544)、最後のオ
ブジェクトを分類するまでエッジ検出処理を繰り返す。
【0021】図8を参照すると、複合オブジェクトは、
しばしばローカルバックグラウンドと呼ばれる特有のバ
ックグラウンドを有するため、他のタイプのオブジェク
トとは異なる。複合オブジェクトの分析は、画像102
全体の分析に類似している。複合オブジェクトの分析
は、(1)ローカルバックグラウンドの識別、(2)テ
キストのセグメント化及び分類、並びに(3)オブジェ
クトのセグメント化及びピクチャオブジェクト類と複合
オブジェクト類への分類、といった3つのステップを含
む。これら3つのステップのうち、テキストのセグメン
ト化及びオブジェクトの分類は、画像102全体の分析
に関して前述した処理と同一である。しかしながら、ロ
ーカルバックグラウンドの識別は、メインバックグラウ
ンドの識別とは異なる。
【0022】次に、各複合オブジェクトを分析し、セグ
メント化し、分類する。第1の複合オブジェクトを分析
のために選択する(546)。標準のエッジ検出(detec
tor)を用いてエッジ検出を複合オブジェクトに対して行
い、エッジのピクセルを複合オブジェクトから除去する
(550)。次に、除去したエッジの境界外側にある各
ピクセルをシードとして用い、領域併合アルゴリズムを
適用する(552)。隣接するピクセルと領域との間の
色差が所定の閾値未満である場合、隣接するピクセルを
その領域に属するものとして特徴づける。併合された最
大領域の寸法が所定の閾値よりも大きい場合、これをロ
ーカルバックグラウンドとして識別し、そうでない場
合、複合オブジェクトをピクチャオブジェクトとして再
分類する(554)。複合オブジェクトをピクチャオブ
ジェクト210として再分類する場合、分析はステップ
560に進み、そうでない場合、複合オブジェクトの分
析はステップ556へ続く。
【0023】ステップ556において、ローカルバック
グラウンド上のテキストオブジェクトを識別し、セグメ
ント化し、分類する。これは、メインバックグラウンド
上のテキストオブジェクトの識別、セグメント化、及び
分類と同じ態様で達成される。従って、ステップ512
乃至ステップ518を複合オブジェクトに対して行う。
ステップ518が完了すると、分析はステップ558に
戻る。
【0024】ステップ558において、ローカルバック
グラウンド上の他のオブジェクトも識別し、セグメント
化し、ピクチャオブジェクト類又は複合オブジェクト類
に分類する。これは、メインバックグラウンド上の他の
オブジェクトの識別、セグメント化、及び分類と同じ態
様で達成される。従って、ステップ520乃至ステップ
544を複合オブジェクトに対して行う。ローカルバッ
クグラウンド上に識別される最後のオブジェクトを分類
した後、分析はステップ560に戻る。
【0025】ステップ560において、処理は、現行の
複合オブジェクトが、識別される最後の複合オブジェク
トであるか否かを判断する。そうである場合、処理はオ
リジナル解像度リファインメント段階106(図1)に
進み、そうでない場合、次の複合オブジェクトを選択し
(562)、最後の複合オブジェクトをセグメント化す
るまで複合オブジェクトの分析(即ち、548乃至56
0)を繰り返す。
【0026】図9を参照すると、高解像度処理とも呼ば
れるオリジナル解像度リファインメント段階106の
際、低解像度セグメント化104の際に識別した、検出
されたメインバックグラウンド及びローカルバックグラ
ウンドをリファインし、更にテストする。リファインメ
ント106は、低解像度セグメント化段階104のセグ
メント化及び分類の結果をオリジナル画像102にオー
バーレイすることによって始まる。これは、低解像度か
ら得られたセグメント化及び分類の結果を画像のオリジ
ナル解像度に補間する(564)ことによって達成され
る。次に、色の類似度に基づき、各ローカルバックグラ
ウンド及び各ピクチャオブジェクトの境界に沿ったピク
セルに領域併合アルゴリズムを適用する(566)。領
域併合は、メインバックグラウンド、他の隣接するバッ
クグラウンド及びオブジェクトに対する境界を、オリジ
ナル解像度でリファインする。
【0027】境界をリファインした後、アルゴリズムを
使用し、テキストオブジェクトの一般的な小さい寸法と
はっきりした境界に基づいてテキストオブジェクトを識
別する。少なくとも1つの寸法が所定の閾値よりも小さ
い構造体は全て、テキストオブジェクトとして識別す
る。1次元形態開口を水平方向に適用し(568)、テ
キストオブジェクトを識別する(570)。同様に、1
次元形態開口を垂直方向に適用し(572)、更なるテ
キストオブジェクトを識別する(574)。識別した各
テキストオブジェクトもセグメント化し、テキストオブ
ジェクト208として分類する。
【0028】図10を参照すると、テキストオブジェク
ト208を識別し、セグメント化し、分類した後、各テ
キストオブジェクトの境界に沿ったピクセル及び各テキ
ストオブジェクトの内部領域に領域併合アルゴリズムを
適用する(576)。領域併合は、メインバックグラウ
ンド204、ローカルバックグラウンド214、テキス
トがオーバーレイする他のオブジェクト、及びテキスト
の文字のストロークによって囲まれる識別された内部領
域(例えば、「o」の中央部分)に対する境界を、オリ
ジナル解像度でリファインする。テキストオブジェクト
をリファインした後は、より正確なテキストマスクが存
在する。
【0029】各バックグラウンドがスイープであるか否
かを判断する各バックグラウンドの再評価412は、任
意のリファインメントである。スイープのグラディエン
ト特性の維持が重要である場合、オプション412を含
めるべきである。オプション412を含めない場合、バ
ックグラウンドはその領域の平均色を示す。オプション
412を実施する場合、スイープとして識別されたバッ
クグラウンドを全てピクチャオブジェクトとして再分類
し、バックグラウンドはそのグラディエント特性を反映
し続ける。低リスクのアプローチが好ましい場合は、オ
プション412を含めるべきである。
【0030】オプション412を実施する場合、メイン
バックグラウンド及び各ローカルバックグラウンドに対
してバックグラウンド一様性テストを実施する(57
8)。第1のバックグラウンドを分析のために選択する
(580)。有界領域全体に対し、バックグラウンドを
K×Kの構成に基づいた16のサブ領域に分割する(5
82)。実験的に、K=4を用いた。各サブ領域の平均
色を計算する(584)。全てのサブ領域間の最大の色
差を決定する(586)。最大の色差が所定の閾値より
も大きい場合、バックグラウンドをピクチャオブジェク
トとして再分類し、そうでない場合、引き続きバックグ
ラウンドセグメントとして識別する(588)。次に、
処理は、現行のバックグラウンドが最後のバックグラウ
ンドであるか否かを判断する(590)。現行のバック
グラウンドが最後のバックグラウンドである場合、リフ
ァインメント106段階は完了し、セグメント化処理1
00は終了に達する(図1)。そうでない場合、次のバ
ックグラウンドを選択し(592)、最後のバックグラ
ウンドを再評価するまで一様性テストを繰り返す。
【図面の簡単な説明】
【図1】本発明に従ったバックグラウンドベースのセグ
メント化処理100のフローチャートである。
【図2】図1のバックグラウンドベースのセグメント化
処理100から得られたセグメント化の結果の一例の図
である。
【図3】図1のバックグラウンドベースのセグメント化
処理100の低解像度セグメント化104段階のフロー
チャートである。
【図4】図1のバックグラウンドベースのセグメント化
処理100のオリジナル解像度リファインメント106
段階のフローチャートである。
【図5】図1のバックグラウンドベースのセグメント化
処理100の詳細なフローチャートである。
【図6】図1のバックグラウンドベースのセグメント化
処理100の詳細なフローチャートである。
【図7】図1のバックグラウンドベースのセグメント化
処理100の詳細なフローチャートである。
【図8】図1のバックグラウンドベースのセグメント化
処理100の詳細なフローチャートである。
【図9】図1のバックグラウンドベースのセグメント化
処理100の詳細なフローチャートである。
【図10】図1のバックグラウンドベースのセグメント
化処理100の詳細なフローチャートである。
【符号の説明】
100 セグメント化処理 102 ドキュメント画像 104 低解像度セグメント化 106 オリジナル解像度リファインメント 204 メインバックグラウンド 206 メインバックグラウンド上のオブジェクト 208 テキストオブジェクト 210 ピクチャオブジェクト 212 複合オブジェクト 214 ローカルバックグラウンド 216 ローカルバックグラウンド上のオブジェクト
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ホイ チョン アメリカ合衆国 08807 ニュージャージ ー州 ブリッジウォーター シールズ レ ーン 80 Fターム(参考) 5B050 BA15 BA16 DA02 DA04 EA03 EA06 EA12 EA15 FA03 5C076 AA01 AA22 AA27 AA31 AA36 AA40 BB06 CA10 5L096 AA02 AA06 BA17 EA03 EA06 FA06 FA19 FA32 FA44 FA45 GA55

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 画像をメインバックグラウンド、ローカ
    ルバックグラウンド、及び第1のオブジェクトにセグメ
    ント化するステップを含み、前記第1のオブジェクトが
    前記メインバックグラウンド又は前記ローカルバックグ
    ラウンド上にある、画像のセグメント化処理。
  2. 【請求項2】 画像のセグメント化処理であって、 a)メインバックグラウンド、ローカルバックグラウン
    ド、及び第1のオブジェクトへの画像の低解像度セグメ
    ント化を行うステップであって、前記第1のオブジェク
    トが前記メインバックグラウンド又は前記ローカルバッ
    クグラウンド上にある、該ステップと、 b)前記メインバックグラウンド、前記ローカルバック
    グラウンド、及び前記第1のオブジェクトのうちのいず
    れか2つによって共有される境界を、前記画像のオリジ
    ナルの解像度でリファインするステップと、 を含む、前記処理。
  3. 【請求項3】 画像のセグメント化方法であって、 a)前記画像のメインバックグラウンドを識別するステ
    ップと、 b)前記メインバックグラウンド上の第1のオブジェク
    トを識別するステップと、 c)前記第1のオブジェクトを、テキストオブジェク
    ト、ピクチャオブジェクト、及び複合オブジェクトから
    なる類のグループのうち1つの類に分類するステップ
    と、 d)前記第1のオブジェクトを複合オブジェクトとして
    識別した場合、前記第1のオブジェクトのローカルバッ
    クグラウンドを識別するステップと、 を含む、前記方法。
JP2002288207A 2001-10-12 2002-10-01 セグメント化方法 Expired - Fee Related JP4017489B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US977186 2001-10-12
US09/977,186 US6973213B2 (en) 2001-10-12 2001-10-12 Background-based image segmentation

Publications (2)

Publication Number Publication Date
JP2003143393A true JP2003143393A (ja) 2003-05-16
JP4017489B2 JP4017489B2 (ja) 2007-12-05

Family

ID=25524914

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002288207A Expired - Fee Related JP4017489B2 (ja) 2001-10-12 2002-10-01 セグメント化方法

Country Status (4)

Country Link
US (1) US6973213B2 (ja)
EP (1) EP1304651B1 (ja)
JP (1) JP4017489B2 (ja)
BR (1) BR0204103A (ja)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7254270B2 (en) * 2002-07-09 2007-08-07 Hewlett-Packard Development Company, L.P. System and method for bounding and classifying regions within a graphical image
US7715640B2 (en) * 2002-11-05 2010-05-11 Konica Minolta Business Technologies, Inc. Image processing device, image processing method, image processing program and computer-readable recording medium on which the program is recorded
US8056001B2 (en) * 2003-04-10 2011-11-08 Hewlett-Packard Development Company, L.P. Method and apparatus for classifying elements of a document
WO2004112923A1 (en) * 2003-06-26 2004-12-29 Tangam Gaming Technology Inc. System, apparatus and method for automatically tracking a table game
JP2005018529A (ja) * 2003-06-27 2005-01-20 Ricoh Co Ltd 画像処理装置
US7379594B2 (en) * 2004-01-28 2008-05-27 Sharp Laboratories Of America, Inc. Methods and systems for automatic detection of continuous-tone regions in document images
US20050265600A1 (en) * 2004-06-01 2005-12-01 Xerox Corporation Systems and methods for adjusting pixel classification using background detection
US7272261B2 (en) * 2004-06-04 2007-09-18 Xerox Corporation Method and system for classifying scanned-media
US7424151B2 (en) * 2004-06-04 2008-09-09 Xerox Corporation Method and system for image classification and halftone frequency detection
US8204306B2 (en) * 2004-06-14 2012-06-19 Xerox Corporation Method for image segmentation based on block clustering for improved processing of touching characters
US8442311B1 (en) 2005-06-30 2013-05-14 Teradici Corporation Apparatus and method for encoding an image generated in part by graphical commands
US7782339B1 (en) 2004-06-30 2010-08-24 Teradici Corporation Method and apparatus for generating masks for a multi-layer image decomposition
US8086050B2 (en) * 2004-08-25 2011-12-27 Ricoh Co., Ltd. Multi-resolution segmentation and fill
US7302097B2 (en) * 2004-09-15 2007-11-27 Xerox Corporation MRC image compression
US7596265B2 (en) * 2004-09-23 2009-09-29 Hewlett-Packard Development Company, L.P. Segmenting pixels in an image based on orientation-dependent adaptive thresholds
KR100643759B1 (ko) * 2004-12-01 2006-11-10 삼성전자주식회사 문서 압축 장치 및 그 방법
US8913830B2 (en) * 2005-01-18 2014-12-16 Siemens Aktiengesellschaft Multilevel image segmentation
US20070077987A1 (en) * 2005-05-03 2007-04-05 Tangam Gaming Technology Inc. Gaming object recognition
US7783117B2 (en) * 2005-08-12 2010-08-24 Seiko Epson Corporation Systems and methods for generating background and foreground images for document compression
US7899258B2 (en) * 2005-08-12 2011-03-01 Seiko Epson Corporation Systems and methods to convert images into high-quality compressed documents
FR2891382B1 (fr) * 2005-09-23 2008-04-11 Sagem Comm Procede et systeme de reproduction de documents par segmentation et amelioration selective des images et des textes
JP4623300B2 (ja) * 2005-12-17 2011-02-02 富士ゼロックス株式会社 画像処理装置および画像処理プログラム
US7668394B2 (en) * 2005-12-21 2010-02-23 Lexmark International, Inc. Background intensity correction of a scan of a document
JP4764231B2 (ja) * 2006-03-31 2011-08-31 キヤノン株式会社 画像処理装置、制御方法、コンピュータプログラム
TWI323434B (en) * 2006-11-30 2010-04-11 Ind Tech Res Inst Method of object segmentation for video
US7856142B2 (en) * 2007-01-26 2010-12-21 Sharp Laboratories Of America, Inc. Methods and systems for detecting character content in a digital image
US8494304B2 (en) * 2007-05-11 2013-07-23 Xerox Corporation Punched hole detection and removal
US7894689B2 (en) * 2007-05-31 2011-02-22 Seiko Epson Corporation Image stitching
US8798148B2 (en) * 2007-06-15 2014-08-05 Physical Optics Corporation Apparatus and method employing pre-ATR-based real-time compression and video frame segmentation
US7873215B2 (en) * 2007-06-27 2011-01-18 Seiko Epson Corporation Precise identification of text pixels from scanned document images
US8014596B2 (en) * 2007-10-30 2011-09-06 Sharp Laboratories Of America, Inc. Methods and systems for background color extrapolation
US8086040B2 (en) * 2007-12-05 2011-12-27 Xerox Corporation Text representation method and apparatus
US8611661B2 (en) * 2007-12-26 2013-12-17 Intel Corporation OCR multi-resolution method and apparatus
US8009886B2 (en) * 2008-01-03 2011-08-30 General Electric Company System and method for image registration
JP5302768B2 (ja) * 2008-06-26 2013-10-02 キヤノン株式会社 画像処理装置及び画像処理方法
US8189917B2 (en) * 2008-09-25 2012-05-29 Sharp Laboratories Of America, Inc. Methods and systems for locating text in a digital image
US8780131B2 (en) * 2008-12-19 2014-07-15 Xerox Corporation Systems and methods for text-based personalization of images
US8271871B2 (en) * 2009-04-30 2012-09-18 Xerox Corporation Automated method for alignment of document objects
US9092668B2 (en) * 2009-07-18 2015-07-28 ABBYY Development Identifying picture areas based on gradient image analysis
US8340363B2 (en) 2010-05-27 2012-12-25 Palo Alto Research Center Incorporated System and method for efficient interpretation of images in terms of objects and their parts
US9218680B2 (en) * 2010-09-01 2015-12-22 K-Nfb Reading Technology, Inc. Systems and methods for rendering graphical content and glyphs
US8805056B2 (en) * 2011-01-24 2014-08-12 Xerox Corporation Automatic detection and grouping of straight lines in images for personalization
US8792682B2 (en) 2011-04-21 2014-07-29 Xerox Corporation Method and system for identifying a license plate
US8917934B2 (en) 2012-06-14 2014-12-23 International Business Machines Corporation Multi-cue object detection and analysis
US9615050B2 (en) 2014-02-17 2017-04-04 Mobileye Vision Technologies Ltd. Topology preserving intensity binning on reduced resolution grid of adaptive weighted cells
US10546210B2 (en) 2014-02-17 2020-01-28 Mobileye Vision Technologies Ltd. Topology preserving intensity binning on reduced resolution grid of adaptive weighted cells
US10073543B2 (en) * 2014-03-07 2018-09-11 Htc Corporation Image segmentation device and image segmentation method
CN105608459B (zh) 2014-10-29 2018-09-14 阿里巴巴集团控股有限公司 商品图片的分割方法及其装置
US9715624B1 (en) 2016-03-29 2017-07-25 Konica Minolta Laboratory U.S.A., Inc. Document image segmentation based on pixel classification
US11776129B2 (en) * 2020-12-16 2023-10-03 Qualcomm Incorporated Semantic refinement of image regions

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG45100A1 (en) * 1994-03-07 1998-01-16 Ibm Improvements in image processing
IL111901A (en) * 1994-12-06 1999-08-17 Gideon Rosenberg Dba Itec Init Air filter and method of operating same
US5956468A (en) * 1996-07-12 1999-09-21 Seiko Epson Corporation Document segmentation system
US5767978A (en) 1997-01-21 1998-06-16 Xerox Corporation Image segmentation system
US6453074B1 (en) * 1997-03-31 2002-09-17 Canon Kabushiki Kaisha System for image decimation including selective filtering
JP3780103B2 (ja) * 1997-09-03 2006-05-31 キヤノン株式会社 情報処理装置、情報処理方法、記憶媒体、及び、印刷システム

Also Published As

Publication number Publication date
US20030072487A1 (en) 2003-04-17
BR0204103A (pt) 2003-09-16
EP1304651B1 (en) 2013-08-07
US6973213B2 (en) 2005-12-06
EP1304651A2 (en) 2003-04-23
JP4017489B2 (ja) 2007-12-05
EP1304651A3 (en) 2011-03-30

Similar Documents

Publication Publication Date Title
US6973213B2 (en) Background-based image segmentation
AU708935B2 (en) Method for identifying objects using data processing techniques
EP0576961B1 (en) Method for automatic foreground and background detection in digital radiographic images
US6310967B1 (en) Normal and abnormal tissue identification system and method for medical images such as digital mammograms
US8594396B2 (en) Image processing apparatus, image processing method, and computer program product
US7512284B2 (en) Volumetric image enhancement system and method
EP1383082A2 (en) Interpolated image filtering method and apparatus
CA2454091A1 (en) Chromatin segmentation
US7142732B2 (en) Unsupervised scene segmentation
Cheng et al. Background identification based segmentation and multilayer tree representation of document images
US20040037475A1 (en) Method and apparatus for processing annotated screen capture images by automated selection of image regions
Sakthivel et al. Analysis of Medical Image Processing and its Application in Healthcare
Adiga Segmentation of volumetric tissue images using constrained active contour models
Sharma et al. Review paper on segmentation of color image using morphological processing
Mtimet et al. A layer-based segmentation method for compound images
Shabu et al. Detection of Brain Tumour by Image Fusion using SVM Classifier
Loncova et al. Segmentation of microscopic medical images using local binary patterns method
Mohammed et al. Resolution mosaic EM algorithm for medical image segmentation
Shabu et al. 1. Faculty of Computing, Sathyabama University, Chennai, India 2. Computer Science Department, Sri Venketeshwara College of Engineering, Sriperumbudur, India
Rauf et al. Brain Aneurysm Extraction in MRI Images
CN115861482A (zh) 一种背景填充方法、装置及设备
CN115082420A (zh) 一种基于深度学习的组织病理细胞核的实例分割方法
Mourya et al. An Introduction of Image Processing with MATLAB Tool

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050916

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070424

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070724

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070821

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070918

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100928

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100928

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110928

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120928

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120928

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130928

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees