JP4130915B2 - グラフィカルオブジェクトの境界情報の処理 - Google Patents

グラフィカルオブジェクトの境界情報の処理 Download PDF

Info

Publication number
JP4130915B2
JP4130915B2 JP2003560853A JP2003560853A JP4130915B2 JP 4130915 B2 JP4130915 B2 JP 4130915B2 JP 2003560853 A JP2003560853 A JP 2003560853A JP 2003560853 A JP2003560853 A JP 2003560853A JP 4130915 B2 JP4130915 B2 JP 4130915B2
Authority
JP
Japan
Prior art keywords
vertices
edge
boundary
code
contour
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003560853A
Other languages
English (en)
Other versions
JP2006501530A (ja
Inventor
フイタオ・ルオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HP Inc
Original Assignee
Hewlett Packard Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Co filed Critical Hewlett Packard Co
Publication of JP2006501530A publication Critical patent/JP2006501530A/ja
Application granted granted Critical
Publication of JP4130915B2 publication Critical patent/JP4130915B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/20Contour coding, e.g. using detection of edges
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects

Description

[発明の分野]
本発明は、包括的には、コンピュータグラフィックスに関し、より詳細には、グラフィカルオブジェクトの境界情報を処理するシステムおよび方法に関する。
[発明の背景]
さまざまな画像処理技法を可能にするために、いくつかのマルチメディアアプリケーションによって、形状符号化が利用されている。
例えば、デジタル写真エディタアプリケーションによって、形状符号化が利用されている。
形状が符号化または画定された後、デジタル写真エディタアプリケーションによって、ユーザは、符号化された形状内部のグラフィカル情報のみを変更することが可能になる。
例えば、形状内部のグラフィカル情報を、新たな背景上に「切り取りおよび貼り付け(cut-and-pasted)」することができる。
形状の符号化には、さまざまなデータ構造体およびアルゴリズムが使用されてきた。
例えば、領域ベースの手法が開発されている。
領域ベースの方式は、オブジェクト領域を表す1および背景領域を表す0を有する2値画像であるサポートマップによってオブジェクトを符号化する。
このように、形状符号化は、2値画像符号化問題に変換される。
例示の領域ベースのアルゴリズムは、ジョイントバイナリ画像グループ(JBIG)、JBIG2、およびムービングピクチャエキスパートグループ−4(MPEG−4)によって開発されたアルゴリズムを含む。
境界ベースのアルゴリズムも、多く利用される。
例えば、ユーザは、グラフィカル画像におけるオブジェクトの境界の各ピクセルを手動で選択することができる。
選択された各ピクセルの座標は、境界を画定するために記憶することができる。
さらに、記憶された座標によって画定された境界に近似するために、チェーン符号化、ポリゴン近似、高次の曲線当てはめ(スプライン)近似、ポリゴン近似とスプライン近似の組み合わせなど、さまざまな方式が使用されてきた。
これらの近似アルゴリズムは、境界を表すのに必要なデータ量をさまざまな度合いで削減する。
米国特許第5774595号 SCHUSTER G M ET AL: "OPERATIONALLY OPTIMAL VERTEX-BASED SHAPE CODING", IEEE SIGNAL PROCESSING MAGAZINE, IEEE INC. NEW YORK US, vol. 15 no. 6, November 1998 (1998-11), pages 91-108, ISSN 1053-5888 ORANGE C M ET AL: "Magnetic contour tracing", VISUALIZATION AND MACHINE VISION, 1994. PROCEEDINGS., IEEE WORKSHOP ON SEATTLE, WA, USA 24 JUNE 1994, LOS ALAMITOS, CA USA, 1994, IEEE COMPUT. SOC. 1994, pages 33-44, ISBN: 0-8186-5875-4 Huitao LuoおよびAlexandros Eleftheriadis著のDesigning an Interactive Tool for Video Object Segmentation and Annotation, ACM Multimedia 1999 T. H. Cormen、C. E. Leiserson、およびR. L. Rivest著のIntroduction to Algorithms, chapter 25.2, MIT Press, 1990 G. H. SchusterおよびA. K. Katsaggelos著「An Optimal Polygonal Boundary Encoding Scheme in the Rate Distortion Sense」IEEE Trans. Image Processing, vol.7, no.1, 1998
しかしながら、既知の形状符号化アルゴリズムは、基となるグラフィカル画像(例えば、ビットマップ、ビデオ画像など)を提示するのに利用されるアルゴリズムから独立したものとなっている。
したがって、既知の形状符号化アルゴリズムは、基となるグラフィカル画像とは別にかなりのデータ量を必要とする。
[発明の概要]
一実施の形態では、本発明は、グラフィカルオブジェクトの境界情報を処理する方法を対象とする。
この方法は、少なくとも境界情報によって画定されるグラフィカルオブジェクトを含むグラフィカル画像を受け取ること、境界情報から複数の頂点を決定すること、および少なくとも複数の頂点、グラフィカル画像、およびグラフィカル画像を解析することにより1組の頂点間の輪郭を検出するように働く所定の関数を利用して、近似された境界を作成することを含むことができる。
[発明の詳細な説明]
本発明の実施の形態は、グラフィカル画像においてオブジェクトの境界を画定する符号化情報に関係している。
これらの実施の形態では、境界はすでに画定されているものと仮定される。
例えば、ユーザが、グラフィカル画像から点を選択して境界を画定することができる。
境界は、例えば、グラフィカル画像からの1組のピクセルによって表すことができる。
図1は、本発明の実施の形態による例示のシステム100を示している。
このシステム100は、画像符号化101および形状符号化102を行う。
形状符号化102は、形状依存符号化(shape dependent coding)を行う。
具体的には、形状符号化102は、形状符号化102に関連付けられたデータで表される基となる画像を参照することにより、オブジェクトの形状または境界を画定する。
オブジェクトの境界は、基となるグラフィカル画像と高い相関性を有する。
この高度な相関性のため、形状符号化102は、境界を表すのに必要なデータ量を削減することができる。
形状符号化102は、境界のノード点要素の座標を直接符号化することによらずに、境界を表すのに必要なデータ量を削減する。
正確に言えば、形状符号化102は、原画像からの点要素を検出するメカニズムまたは機能によって境界を符号化する。
境界(または形状)と基となるグラフィカル画像との間の相関を除去することが、本発明以前の重要な課題であったことが理解されよう。
特に、テクスチャ画像とその画像の境界との間の相関は、数学的に閉じた形の解で表すのが非常に難しい。
本発明の実施の形態は、後に詳述するように、基となるグラフィカル画像から境界を漸進的に検出する「ラバーバンド関数(Rubberband function)」を使用する。
画像符号化101および形状符号化102により生成されたデータは、例えばネットワーク103を介して伝達される。
受信システムにおいて、画像は、まず復号される(104)。
次いで、それぞれのオブジェクトの境界が、復元された画像データを利用して復号される(105)。
具体的には、各境界を画定するデータは、1組の頂点を含む。
各頂点は、境界上の単一の点を表す。
一方、この1組の頂点は、境界上の点の比較的小さな部分集合を表す。
ラバーバンド関数は、復元された画像データを解析することによって頂点間の残りの点を検出し、境界の「欠けている点を満たす」。
さらに、後に詳述するように、各頂点に関連付けられたパラメータが、ラバーバンド関数を効率的に作動させ、かつ、基となるグラフィカル画像の解析を適切に拡大縮小するように、この関数のオペレーションを制限する。
画像および形状が復号されると、要求に応じて、さらなる処理106を行うことができる。
この処理は、適切なマルチメディアアプリケーションを介したユーザによる画像処理を含むことができる。
図2は、本発明の実施の形態を実施する例示のコンピュータシステム200のブロック図を示している。
このシステム200は、グラフィカル情報をユーザに提示する表示装置201を含む。
システム200は、ソフトウェア命令を実行する中央処理装置(CPU)202をさらに含む。
CPU202は、任意の汎用CPUとすることができ、CPU202が、本明細書で説明するような本発明のオペレーションをサポートする限り、本発明は、CPU202のアーキテクチャによって限定されるものではない。
また、コンピュータシステム200は、ランダムアクセスメモリ(RAM)203も含む。
このRAM203は、SRAM、DRAM、SDRAMなどとすることができる。
コンピュータシステム200は、ROM207を含む。
このROM207は、PROM,EPROM、EEPROMなどとすることができる。
RAM203およびROM207は、当該技術分野において既知なように、ユーザデータおよびシステムデータならびにプログラムを保持する。
本発明のさまざまな要素は、実行可能命令を介して実施された場合、基本的には、このようなさまざまな要素のオペレーションを定義するコードとなる。
実行可能命令またはコードは、可読媒体(例えば、ハードドライブ媒体、光媒体、PROM、EPROM、EEPROM、テープ媒体、カートリッジ媒体など)から得ることもできるし、通信媒体(例えば、インターネット)からデータ信号を介して伝達することもできる。
実際には、可読媒体には、情報の記憶または転送を行うことができるあらゆる媒体が含まれ得る。
例えば、本発明の実施の形態は、境界符号化アルゴリズム209(後に詳述)を定義する実行可能命令またはコードを、本発明の実施の形態に従って媒体ドライブ208(例えばハードドライブ)に記憶する。
これらの実行可能命令またはコードは、RAM203にロードして、CPU202によって実行することができる。
CPU202は、実行可能命令の制御の下、本発明の実施の形態に従って、グラフィカル画像204および境界定義205を処理し、符号化境界206を生成することができる。
さらに、コンピュータシステム200は、通信アダプタ210を備える。
この通信アダプタ210は、コンピュータシステム200をネットワーク211に接続するようになっている。
ネットワーク211は、電話ネットワーク、ローカルエリアネットワーク(LAN)および/またはワイドエリアネットワーク(WAN)、イーサネット(登録商標)ワーク、ならびに/またはインターネットワークの1つまたは複数のものとすることができる。
コンピュータシステム200は、符号化境界206を別のシステムへ通信して、この別のシステムが、本発明の実施の形態に従って、伝達された情報から境界を復元することを可能にすることができる。
本発明の実施の形態の読み手の理解を助けるために、次に図3を参照する。
この図3は、グラフィカル画像300を示している。
グラフィカル画像300は、境界301を含む。
境界301は、比較的大きな1組のピクセルとして表される。
後に詳述するように、本発明の実施の形態は、1組の頂点(図3に示すようなv、v、v、およびv)を選択する。
各頂点は、2つのパラメータ(w,s)に関連付けられている。
パラメータ「w」は、ラバーバンド関数の幅を表し、パラメータ「s」は、ラバーバンド関数の縮尺を表す。
ラバーバンド関数は、2つのパラメータを利用して、基となるグラフィカル画像の解析に基づき、隣接する頂点間の経路を定義する。
ラバーバンド関数が、基となるグラフィカル画像を解析するので、大幅な符号化の改善が達成される。
具体的には、基となるグラフィカル画像の解析によって、基となるグラフィカル画像と境界定義との間の相関の除去が可能になる。
符号化アルゴリズムを詳細に説明する前に、ラバーバンド関数を説明することが適当である。
ラバーバンド関数は、グラフィカル画像において選択されたまたは特定された点間の境界を漸進的に検出する関数である。
ラバーバンド関数を先に実施したものは、Huitao LuoおよびAlexandros Eleftheriadis著のDesigning an Interactive Tool for Video Object Segmentation and Annotation, ACM Multimedia 1999に詳細に説明されている。
この文献は、参照により本明細書に援用される。
本発明の実施の形態は、ラバーバンド関数のこの先に実施したものの機能の多くを利用する。
加えて、本発明の実施の形態は、縮尺パラメータsの使用など、本発明の特徴を追加して利用することもできる。
図4は、本発明の実施の形態に従ってラバーバンド関数により検出された境界401の例示の説明図を示している。
検出プロセスは、2つの頂点(vおよびv)を特定することにより行われる。
さらに、2つのパラメータを利用して、ラバーバンド関数のエッジ検出オペレーションが定義される。
最初に、パラメータ「w」を空間制約として利用し、検出プロセスに関連付けられた探索区域が限定される。
パラメータ「w」は、エッジ検出が実行される長方形402の幅を画定する。
次に、パラメータ「s」(図示せず)を利用して、後に詳述するように、勾配関数の縮尺が定義される。
ラバーバンド関数は、2つの頂点、供給されたパラメータ、および基となるグラフィカル画像を利用して、輪郭B'=(b',b',b',b',…b')を検出する。
ここで、b'は、検出された輪郭のi番目のピクセルであり、b'=vであり、b'=vである。
輪郭(B')は、基となるグラフィカル画像の勾配によって生成された重みに基づいて頂点(vおよびv)間の最短経路を計算することにより検出される。
さらに、ラバーバンド関数は、グラフとして画像をモデル化する。
このグラフは、各ピクセルが頂点であり、かつ、各頂点が(図5の頂点501によって示されるように)その8つの近傍ピクセルにリンクする8つのエッジのみを有するグラフである。
ラバーバンド関数の基本手順は、2つのステップ、すなわち以下のようなローカル特徴計算ステップおよびグラフ探索ステップを含む。
第1のステップにおいて、スケーラブルエッジ検出演算子によってローカル画像勾配の特徴が計算される。
この画像勾配の計算は、ローカル画像の所与の点における変化(例えば、グレースケール値または赤/緑/青(RGB)値の変化)の相対的な量を決定する。
さらに、画像勾配は、ローカルな近傍上の変化に基づいて決定することができる。
画像勾配の目的は、より大きな勾配に関連付けられた経路がより小さな距離または重みに関連付けられるように、最短経路解析を重み付けすることである。
この目的のため、スケーラブルカーネルを有するラプラシアン(Laplacian with scalable kernels)、ガウシアンのラプラシアン(LoG(Laplacian of Gaussian))演算子などの複数の異なる演算子を使用することができる。
図5にエッジ502として示すような各グラフエッジe(p,q)に対して、好ましくは、重みまたはローカル距離dist(p,q)を次のように定義することができる。
dist(p,q)=1/(勾配(q)+c)、
ここで、cは小さな定数である。
上記重みの定義により、画像は、重み付けされた有向グラフに変換される。
このグラフにおいて、ラバーバンド関数は、2つの頂点v、vを2つの基準点として使用する。
エッジ検出問題、すなわち、vからvへのオブジェクトの輪郭を検出することは、次に、最短経路探索解析として処理される。
具体的には、輪郭は、vから開始してvで終了する最短距離経路を特定することによって検出される。
この解析は、ダイクストラのアルゴリズム(例えば、T. H. Cormen、C. E. Leiserson、およびR. L. Rivest著のIntroduction to Algorithms, chapter 25.2, MIT Press, 1990を参照。
これによって、この文献の開示は、参照により本明細書に援用される)または例として後に詳述する制御されたフラッディングアルゴリズムを使用することによって行うことができる。
前述したように、vおよびvは、グラフ探索の基準点を決定し、wは、ラバーバンドの幅である。wは、vおよびvと共に、ダイクストラ探索アルゴリズムが実行される長方形の形状の近傍を画定する。この近傍の確定は、探索の複雑度を効果的に削減すると共に、近くの強い無関係な勾配の影響を除去することによってアルゴリズムの性能を改善する。
パラメータ「s」は、画像勾配が計算される縮尺または近傍を決定する。
一般的に言えば、大きな縮尺ほど、画像のテクスチャノイズを除去する一方、縮尺が小さいほど、空間局在性(spatial localization)の改善を提供する。
エッジ検出の目的ではあるが、検出結果が、形状符号化用に許容できる限り、wおよびsは共に、任意の値とすることができる。
さらに、wおよびsは、レートと歪みとのトレードオフを表すように選択することができる。
実施の形態では、wは、3つの値{1,15,31}から選択され、sは、4つの値{1,2,4,6}から選択される(共にピクセルにおいて)。
したがって、(これらの値に限定される)wおよびsは共に、本発明の実施の形態に従って符号化されるわずか2ビットのデータによって表すことができる。
好ましいコードワード設計に関するさらに詳細な内容は、後に詳述する。
本発明の実施の形態を厳密な数学的観点から説明する前に、例示のプロセスフローチャート600を示す図6を次に参照する。
このプロセスフローチャート600は、本発明の実施の形態による比較的高いレベルの境界情報処理を説明するものである。
ステップ601において、グラフィカル画像が受け取られる。
ステップ602において、グラフィカル画像におけるオブジェクトの境界定義が受け取られる。
例えば、ユーザは、境界の各点または各ピクセルを指定することができる。
この境界定義から、探索可能頂点集合が特定される(ステップ603)。
探索可能頂点集合は、最終的な境界符号化データ構造体の頂点として利用できる境界定義の許容可能な点を定義する。
探索可能頂点集合は、境界符号化アルゴリズムの複雑度を削減するために、境界定義ほど多くの点またはピクセルを含まないことが好ましい。
後に詳述するように、さまざまな判断基準を使用して、境界定義から点を選択し、探索可能頂点集合を形成することができる。
ステップ604において、探索可能頂点集合で選択された頂点対に対して、ラバーバンド関数が、各頂点対の間で、十分な精度を有する境界定義の各部分または各「エッジ」に近似するかどうかが判断される。
探索可能頂点集合における頂点対の解析は、アルゴリズムの複雑度を削減するために、選択された対に限定されることが好ましい。
歪み解析用の頂点対の選択の判断基準は、後に詳述する。
ステップ604において行われる判断は、2つの輪郭間の歪みまたは形状の差を評価するためのものである。
このため、複数のメトリックが適用可能である。
好ましい実施態様では、面積差メトリック(area difference metric)が使用される。
この場合、ステップ604における判断は、選択された各頂点対に対してラバーバンド関数によって検出された輪郭と、その頂点対間の境界定義の1組の点との間の閉区域が、歪み判断基準(Dmax)より小さいかどうかを評価する。
例えば、v20およびv35が、探索可能頂点集合の頂点であると仮定する。
さらに、v20=b57であり、v36=b72である(すなわち、v20は、境界定義のb57に対応し、v36は、境界定義のb72に対応する)と仮定する。
20およびv35が、歪み判断基準(Dmax)を満たす場合には、これは、ラバーバンド関数の処理を介して点b57から点b72によって画定される境界情報の各エッジを近似するために(それらの各パラメータw、sを有する)v20およびv35を利用できることを意味する。
ステップ605において、ステップ604で歪み判断基準(Dmax)を満たすと判断された頂点対から、頂点対集合(V)が形成される。
あるいは、歪み判断基準に従って頂点対を分離する代わりに、歪み判断基準を満たさない頂点対に無限大の距離または重みを割り当てて、最短経路解析からそれらを考慮しないようにすることができる(以下のステップ606を参照)。
頂点対集合(V)から、境界をトラバースする最短経路が、ステップ606において特定される。
上述したように、歪み判断基準を満たす各頂点対を利用して、各頂点対に関連付けられた各エッジを近似することができる。
最短経路は、最小の頂点数で境界全体をトラバースする経路である。
この最短経路の頂点は、集合Vとして指定される。
の頂点は、後に詳述するように、ステップ607において差分符号化(differentially encoded)される。
ステップ608において、各パラメータwおよびsが、差分符号化されたVの頂点に関連付けられて、本発明の実施の形態による符号化境界データ構造体を形成する。
ステップ609において、プロセスフローは終了する。
本発明の実施の形態を数学的により詳細に説明するには、いくつかの用語を定義することが適当である。
を境界のi番目のピクセルとすると、集合B={b,b,b,b,…b}は境界定義である。
l>kとなるBの2つの点(bおよびb)を与えると、エッジは、点bから点b(bおよびbを含む)として画定される。
点b,bに関連付けられたエッジと、ラバーバンド関数によって特定された検出境界との差を評価するために、エッジ歪み関数(d(b,b))が定義される。
上述したように、エッジによって囲まれた領域の面積サイズを使用することができ、検出境界を選択されたメトリックとして使用して、歪みを評価することができる。
読み手の便宜のため、図7は、エッジ703とラバーバンド関数が検出した境界702(これらの双方は点bおよびbを含む)とによって画定された区域701を図的に示している。
しかしながら、本発明の実施の形態に従って他の適切なメトリックを利用できることも理解されよう。
一般的に、符号化解析は、順序付けられた頂点集合
Figure 0004130915
およびその対応するエッジ集合E={e:e=e(v,vi+1),i=0,1,…,N−2,v∈V}の形で、境界定義(B)の最適な表現を見つけ出す。
ここで、vはi番目の頂点であり、NはVの頂点の総数であり、eはEのi番目のエッジである。
この表現において、各エッジe=e(v,vi+1)は、以下の4つ組に関連付けられる。
(f,p,v,vi+1),(i=0,1,…,N−2)
ここで、fは関数であり、所定の関数集合F={f(0),f(1),…}の1つであ
る。
(p,v,vi+1)は、関数fによって使用されて境界B'={b (i)
,b (i),…,b (i)}を生成するパラメータである。
は、一般に、頂点パラメータvおよびvi+1に加えてfによって使用されるパラメータを示すことに留意されたい。
'は、境界Bの部分表現とみなされる。
境界
Figure 0004130915
は、互いに連結されると、境界
Figure 0004130915
を構成する。
この境界B'は、元の境界Bの近似表現とみなされる。
最適化問題は、一般的なレートおよび歪みの意味で定式化することができる。
r(f,p,v,vi+1)が、エッジe(v,vi+1)を符号化するのに使用されるレート(例えば、ビットレート)を示すものとする。
この場合、境界全体の符号化レートは、
Figure 0004130915
となる。
したがって、最適化は次のように定式化される。
Figure 0004130915
ただし、以下を条件とする。
Figure 0004130915
F、P、Vは、f、p、vがそれぞれ選択される探索可能集合または許容可能集合を指すことに留意されたい。
加えて、形状差関数diff(B,B')は、BとB'との間の符号化歪みを評価する。
この関数は、2つの方法でエッジ歪みd(b,b)に関連付けることができる。
第1の方法は、以下の最大演算子である。
Figure 0004130915
第2の方法は、以下の総和演算子である。
Figure 0004130915
これより前では、本発明の実施の形態を読み手に説明する便宜上、最大演算子を実施する本発明の実施の形態を説明してきた。
総和演算子は、幾分、概念的にはより複雑ではあるが、総和演算子は、本発明の別の実施の形態に従って実施するのに比較的直接的なものである(例えば、G. H. SchusterおよびA. K. Katsaggelos著「An Optimal Polygonal Boundary Encoding Scheme in the Rate Distortion Sense」IEEE Trans. Image Processing, vol.7, no.1, 1998を参照。
これによって、この文献の開示は、参照により本明細書に援用される)。
上記に定式化された最適化問題は、最短経路グラフ探索問題としてモデル化され、動的計画法(DP)で解が求められる。
グラフのモデル化の基本原理は、符号化レートおよび各エッジの歪みの双方をローカルに決定できるということである。
順序付けられた頂点集合Vは、頂点集合Bから探索される一方、関数fおよびパラメータpは、ラバーバンドの定義空間から探索される。
上述したように、wを3つの値{1,15,31}から選択し、sを4つの値{1,2,4,6}から選択することによって、許容可能パラメータ集合Pが限定されることが好ましい。
Bから2つの任意の頂点b、bを与えると、bからbへのエッジを符号化する
のに必要なレートは、次のように決定される。
r(e(b,b))=r(f,p,b,b
ここで、(f,p)は、以下の式によって決定される。
Figure 0004130915
ここで、関数d()は、上記で定義した歪み関数である。
したがって、その結果として、この関数およびパラメータの探索は、頂点探索から分離することができる。
さらに、所与のエッジe(b,b)の重みは、頂点bおよびbによって一意に決定することができる。
したがって、所与のエッジの重み(w(b,b))を以下のように定義することができる。
(b,b)<Dmaxの場合には、w(b,b)=r(b,b)、それ以外の場合には、∞
ここで、d(b,b)=d(f,p,b,b)であり、上記で説明したように定義されるf、pを有する。
重み定義により、重み付けされた有向グラフGは、頂点集合V=Bおよびエッジ集合E={(b,b),∀k≠l}で定義される。
次に、上記で定義した最適化問題は、次のように、グラフGにおける最短経路問題として定式化することができる。
まず、最初の頂点v=bがすでに決定されていると仮定し、最適解Vの最初のi個の頂点{v,…,v}および各エッジ{e(v,v),…,e(vi―1,v)}を符号化するのに使用されるレートをRとして表記するものと仮定する。
この場合、その結果として、グラフGにおけるv=bからv=bへの最短経路に対応する(それ以外の場合には、Vは、仮定されるような最適解ではない)
Figure 0004130915
となる。
したがって、この問題は、n=1,2,…,N−1についてv=bからv=bへの最短経路を見つけ出すことにより漸進的に解くことができる。
閉じた境界Bの場合、
Figure 0004130915
であることに留意されたい。
また、
Figure 0004130915
でもある。
グローバルな最小値を見つけ出すために、Vの最初の頂点vを、Bのあらゆる頂点位置にわたって移動させて、対応する
Figure 0004130915
を比較することができる。
したがって、最小化問題は、数学的観点から解くことができる。
しかしながら、最短経路探索に基づくそのままの形の解は、容易に分かるほどの複雑度を有する。
その理由は、最短経路探索の各ラウンドは、θ(|V|+|E|)の複雑度を有する一方、最初の頂点vをあらゆる可能なものに変更することは、この複雑度をθ(|V|+|E|・|V|)にさらに増大させるからである。
したがって、以下の制約および発見的方法を利用して、複雑度を削減することが好ましい。
最初の頂点vは、最も曲率の高いBの点と決定される。
説明を簡単にするために、v=bとなるようにBのラベルを付け替えるものとする。
この発見的方法は、符号化品質にほとんど影響を与えることなく、最短経路探索の複雑度をθ(|V|+|E|)に削減する。
Gのエッジ集合は、E={(b,b),k<l}となるように限定される。
これにより、Gは、重み付けされた非循環有向グラフになり、探索の複雑度は、θ(|V|+|E|)にさらに削減される。
Bの各点bに対して、(l−k)<Lを要求することにより、Gの可能なエッジe(b,b)はさらに制約される。
ここで、Lは、発見的方法によって決定される定数である。
この要求により、|E|=L・|V|となり、複雑度はθ(L・|V|)となる。
Gの頂点数は、2つの方法により境界定義Bの点をサブサンプリングすることによって削減されることが好ましい。
第1に、頂点集合
Figure 0004130915
は、b (s)=bと設定して、次のように再帰的に成長することによって得られることが好ましい。
(s)=b,b∈Bが決定されたものと仮定すると、bi+1 (s)=bは、0<(l−k)<nかつd(b,b)<Dmaxを条件としてlを最大にするb∈Bを探すことによって決定される。
ここで、d()は、上記で定義した歪み関数であり、nは、発見的方法によって設定された定数である。
第2に、別の頂点集合
Figure 0004130915
が、所定の閾値よりも大きなローカルな曲率を有するBの点を特定することによって決定される。
次いで、Gの最終的なまたは探索可能な頂点集合が、V=B(s)∪B(c)として定義される。
一般的に言えば、Vが、nによってサブサンプリングされると、複雑度は、θ(L・|V|/n)になる。
一般的に、本発明の実施の形態に従って符号化された境界情報の符号化要素は、4つ組(f,p,v,vi+1)である。
本発明の実施の形態によれば、符号化要素は、好ましくは、符号化の4つ組(r,c,w,s)によって表すことができる。
ここで、(r,c)は、頂点vの行および列の座標であり、wおよびsは、それぞれ、エッジe(v,vi+1)に対応するラバーバンドの幅および縮尺である。
付加的な冗長を除去するために、頂点座標は、(dr,dc,w,s)の形に差分符号化されることが好ましい。
ここで、dr=r−ri−1,dc=c−ci−1である。
以下の表1は、本発明の実施の形態に従って境界を符号化するのに利用できる例示のコードワードを示している。
さらに、表2は、本発明の実施の形態に従って、符号化された形状データをバイナリファイルに保存する(または、ネットワークを介してそれらのデータをストリーミングする)のに使用される例示のビットストリーム構文を示している。
Figure 0004130915
Figure 0004130915
r[int(16)]は、整数変数「r」を16ビットで符号化することを指す一方、w[unit(2)]は、符号なし整数変数「w」を2ビットで符号化することを意味することに留意されたい。
本発明の実施の形態では、整数xをビット長lで符号化することは、xを2(l−1)で加えてxを[0,2)にマッピングすることにより実施される一方、符号なし整数をビット長lで符号化することは、その最も左のlビットを保存することを伴う。
表2では、差分座標(dr,dc)の符号化に使用されるビット長lは、頂点集合V全体にわたってそれらの絶対極大値を見つけ出すことによって決定される。
また、表2に記載したビットストリーム構文は、1つのオブジェクト(境界)のみを記載しているが、これを複数のオブジェクトのフォーマットに拡張することは簡単であることに留意することも適当である。
本発明の実施の形態は、既知の境界符号化アルゴリズムまたは形状符号化アルゴリズムにいくつかの利点を提供する。
具体的には、本発明の実施の形態によって、情報量を大幅に削減して境界を符号化することが可能になる。
具体的には、最小限の頂点数を選択して境界を表すことができる。
本発明の実施の形態は、この最小限の頂点数および基となる画像から境界を復元するので、この最小限の頂点数は、境界を記述するのに十分である。
したがって、本発明の実施の形態は、境界データと基となる画像データとの相関を除去するように働き、したがって、所望の符号化効率を達成する。
本発明の実施の形態によって、閉じた形の数学的表現を必要とせずに、境界データと基となる画像データとの相関を除去することがさらに可能になる。
その上、本発明の実施の形態は、探索可能頂点集合を生成すること、および、可能なエッジ集合を限定することによって符号化プロセスの複雑度をさらに削減し、それによって、ユーザ指向アプリケーションに適切な処理効率を達成する。
ラバーバンド関数は、効率的な方法で境界を符号化することに加えて、ユーザ入力に関連して境界を画定するのに利用することができる。
図8は、本発明の実施の形態に従って、ラバーバンド関数およびユーザとの対話を利用して境界定義を作成することを示す例示のフローチャート800を示している。
ステップ801において、入力画像が受け取られる。
この入力画像は、任意の個数の適切なグラフィカルフォーマットの1つとすることができる。
ステップ802において、入力画像(グレースケール表現またはカラー表現のいずれか)が、まず、スケーラブルエッジ検出器によって処理される。
複数の縮尺で勾配を計算することが有利である。
ステップ803において、ユーザとの対話および自動縮尺選択を利用して輪郭を成長させるために、ラバーバンドユーザインタフェースが使用される。
具体的には、ユーザは、グラフィカル画像の各オブジェクトの境界上で複数の頂点を選択する。
ステップ803において、ユーザが、例えばマウス周辺機器でユーザインタフェースを操作するに従って、対応する輪郭が、利用可能なローカル勾配情報に基づいて自動的に表示される。
上述したように、ラバーバンド関数は、2つの基準点間または2つの頂点間の輪郭を検出する。
さらに、ラバーバンド関数は、その探索解析を、2つの基準点および幅パラメータによって画定された長方形の区域に限定する。
このユーザインタフェースによって、ユーザは、基準点および幅パラメータを選択することが可能になる。
その上、縮尺パラメータは、後に詳述するように、ユーザとの対話から自動的に決定される。
検出された輪郭が、ユーザ入力によって定義された境界セグメントと一致すると、制御点(各頂点対)は、ユーザからの適切な入力(例えば、1つまたはいくつかのマウスクリック)によって固定することができる。
この対話プロセスは、閉じた境界が画定されるまで繰り返される。
ステップ804において、ユーザとの対話をさらに利用して、閉じた境界の後処理およびノード編集を実行することができる。
ステップ805において、ユーザが選択したオブジェクトを定義するために、オブジェクト記述データ構造体(例えば、境界定義、サポートマップなど)が作成される。
ステップ806において、グラフィカル情報(すなわち、入力画像およびオブジェクト記述データ構造体)を適切なフォーマットに変換することができる。
この適切なフォーマットには、画像交換フォーマット(GIF)、MPEG−4、ポータブルネットワークグラフィックス(PNG)などが含まれるが、これらに限定されるものではない。
ユーザ入力に関連してオブジェクトの境界を画定する本発明の実施の形態によれば、ラバーバンド関数の実施態様を、「制御されたフラッディング(Controlled Flooding)」アルゴリズムと呼ぶことができる。
この制御されたフラッディングアルゴリズムは、近傍のノイズの存在に対してより強固であるので、ダイクストラの探索アルゴリズムを上回る改良アルゴリズムである。
その上、ラバーバンド関数の他の実施態様を説明した初期の刊行物(例えば、Designing an Interactive Tool for Video Object Segmentation and Annotation, ACM Multimedia 1999)には、適応型閾値が開示されていないことが理解されよう。
制御されたフラッディングアルゴリズムでは、適応型閾値Tを使用して、グラフ探索プロセスが制御される。
あらゆるピクセル対の元のローカル距離がTよりも大きい場合には、その距離は無限大に設定される。
このように、グラフ探索が、これらの点に到達することが防止される。
後に詳述するように、このワークにおけるこのローカル距離の定義により、この閾値処理尺度は、グラフ探索が弱い勾配を有する領域に到達することを防止することと等価となる。
アルゴリズムは、一方の制御点から開始し、探索プロセスが他方の制御点に到達するまで、閾値をδ(δ>0)ずつ増加させるように制御して探索プロセスを繰り返す。
このように、強い近傍のエッジは、強いエッジによって2つの制御点に接続されないと、実際の輪郭の検出からこの探索アルゴリズムを逸らす確率が低くなる。
この概念を図9A〜図9Cに示す。
図9Aには、近傍のパターンを示す。
ユーザは、輪郭Bを所望の結果として、2つの制御点fおよびeを選択している。
しかしながら、別の輪郭Aが近傍に存在し、Aはより強い勾配を有するので、図9Bによって示すように、グローバルな最小値が得られると、グラフの探索結果は、輪郭Aに引き付けられる。
これは、ダイクストラのアルゴリズムが使用される場合に頻繁に発生する一般的な問題である。
しかしながら、制御されたフラッディングアルゴリズムが適用されると、制御点fおよびeから輪郭A上の点への探索経路が、閾値Tによって防止されるので、グラフ探索は、輪郭Aに到達することができない。
成功した探索結果を図9Cに示す。
制御されたフラッディングアルゴリズムを詳細に説明するには、補助データ構造体および関係する関数を定義することが適当である。
データ構造体Lは、探索プロセスをガイドするのに使用されるアクティブリストである。
以下の4つの関数が、L用に定義されている。
1.push(L,p,d)(プッシュ)は、ピクセルpおよびその(開始点からの)累積経路距離d=C(p)をリストに保存するのに使用される。
2.pop(L,p)(ポップ)は、累積経路が現リストにおいて最小であるピクセルpを取り出すのに使用される。
3.num(L)は、リストに保存されたピクセルの個数を返すのに使用される。
4.remove(L,p)(削除)は、ピクセルpがリストに存在する場合に、リストからピクセルpを削除するのに使用される。
Lを実施するのに利用されるデータ構造体に応じて、これらの関数を実施するのに、さまざまな実施態様を利用することができる。
データ構造体Lの例示の実施態様は、ピクセルの累積経路距離dに関して記憶されたリストである。
挿入/取り出し性能を改善するために、当該技術分野において既知の「バケット」構造体など、他のソート構造体を利用することもできる。
p,qが、2つの8接続ピクセルであると仮定すると、関数Dist(p,q)は、pとqとの間のローカル距離を定義する(関数Dist()の例示の定義は後に詳述する)。
N(p)は、ピクセルpの8接続近傍集合を示す。
さらに、ptr(p)を、ピクセルpの最適な経路ポインタとする。
すなわち、ptr(p)が、最適な経路上のその前のピクセルを指すものとする。
この場合、制御されたフラッディングアルゴリズムは、図10の擬似コードで表現することができる。
図10の擬似コードでは、ステップ1001〜1004は、補助データ構造体を初期化する。
ステップ1005〜1027は、探索解析を行う。
これらのステップのうち、ステップ1006〜1024は、(現閾値Tによって制約される)制約された探索関数である。
ステップ1010〜1012は、閾値比較を行い、閾値によって成長が制限されると、変数「flag_threshold(フラグ閾値)」が設定される。
ステップ1021〜1023では、「flag_threshold」が設定されていると、現在のピクセルが、バックアップアクティブリスト(L2)にプッシュされる。
このオペレーションの目的は、今後のプロセスの可能な開始ピクセルとしてこのピクセルを保存することである。
現アクティブリスト(L1)のすべてのピクセルが処理される(すなわち、グラフが、現閾値が許容するのと同程度に成長する)と、閾値が、ステップ1025においてδだけ増加され、バックアップアクティブリスト(L2)が、現アクティブリスト(L1)に移動され、他方の基準点e(終了点)に到達するまで、プロセス全体が繰り返される。
グラフ探索プロセスの精度を維持するのに重要な事項は、関数Dist(p,q)の適当なローカル距離定義を定義することである。
概念的には、この関数は、ピクセルp、qにおけるエッジの勾配の大きさおよび向きに関係付けられるべきである。
しかしながら、ユーザの主観的なエッジの理解が、画像のグレースケールまたはRGB成分における信号の不連続と異なることがある。
テクスチャ性の高い領域は、「均一」とみなすことができ、そのテクスチャに関連付けられた強い勾配は、ユーザの視点からは「エッジ」として見えない。
その理由は、観察の異なる縮尺に応じて、「均一性」の定義が変化するからである。
ユーザの予想と一致するセグメント化の結果を生成するには、適当な縮尺を選択することが有利である。
この目的を達成するために、ラバーバンドによって定義された近傍区域が利用される。
ユーザは、(関係する境界セグメントがラバーバンドの内部に位置することを確認するために)このラバーバンド長方形のサイズおよび位置を制御するので、自身がオブジェクトを観察する縮尺を暗に指定することも行う。
したがって、この近傍区域内の画像の特徴解析により、意図した縮尺を決定することが容易になる。
したがって、MDL(最小記述長(minimal description length))原理に基づくアルゴリズムが、自動的な縮尺の選択を行う。
本発明の実施の形態によれば、領域ベースエッジ検出器が利用される。
この領域ベースエッジ検出器は、異なる近傍のサイズに基づいてエッジ強度を計算するスケーラブル演算子である。
領域ベースエッジ検出器は、ラプラシアンやガウシアンのラプラシアン(LoG)などの従来のスケーラブル演算子よりも大きな空間局在性を実証する。
なお、領域ベースエッジ検出器が好ましいが、従来のスケーラブル演算子も、自動的な縮尺の選択に関連して本発明の実施の形態に従い利用することができる。
領域ベースエッジ検出器では、エッジは、異なる領域間の境界として検出される。
図11に示すように、ピクセルpについて、そのエッジの勾配は、3つの領域R=R+R、R、およびRにわたって解析される。
領域均一性関数(region homogeneity function)H(・)が定義され、勾配の大きさが、mag=1/2[H(R)+H(R)]−H(R)として定義される。
異なる角度を利用して勾配を検出するために、領域テンプレートをR(θ)、R(θ)、およびR(θ)に回転させることができる。
次いで、最終的な勾配(大きさおよび向き)が、次のように定義される。
Figure 0004130915
正確な勾配の定義は、均一性関数H(・)の定義ならびに近傍領域テンプレートR、R、およびRの定義に依存する。
本発明の実施の形態では、Rは、円盤であり、RおよびRは、それぞれ、各ピクセルを中心とする半円盤である。
向きは、範囲[0,π)から一様にサブサンプリングされた4つの角度にわたって計算される。
円盤の半径は、エッジ検出器の倍率sを表すのに使用される。
倍率sを含めることにより、前述の大きさおよび向きの方程式は、次のように表現することができる。
Figure 0004130915
均一性関数H(・)は、より柔軟な方法で設計することができる。
本発明の実施の形態によれば、標準偏差尺度が利用される。
ただし、任意の個数の他の適切な尺度を利用することもできる。
この標準偏差尺度は、次のように表現することができる。
Figure 0004130915
ここで、vは、ピクセル特徴ベクトル(pixel feature vector)であり、‖・‖は、ユークリッドノルムである。
Figure 0004130915
は、次のように定義される。
Figure 0004130915
さまざまな画像タイプに応じて、特徴ベクトルvの長さは、1(グレースケール)、3(RGB)、またはn(マルチスペクトル)とすることができる。
特定の演算子の縮尺sに対して、ローカル距離尺度が、上述した勾配定義に基づき定義される。
Figure 0004130915
を点pにおける勾配ベクトルとし、
Figure 0004130915
を、ベクトルp−qに垂直な単位ベクトルとする(上述したように、向きは、範囲[0,π)で計算され、したがって、この節で述べたすべてのベクトルは、この範囲にマッピングされる)。
この勾配は、まず、以下によって線形にマッピングされ、その大きさが[0,1]の範囲にされる。
Figure 0004130915
ここで、gmaxおよびgminは、それぞれ、画像全体にわたる極大の勾配の大きさおよび極小の勾配の大きさである。
次いで、2つの近傍ピクセル対pとqとの間のローカル距離が、次のように定義される。
Dist(p,q)=Distmag(p,q)+Distori(p,q)
ここで、Distmag(p,q)は、次のように定義される。
Figure 0004130915
また、Distori(p,q)は、次のように定義される。
Figure 0004130915
ここで、w、wは、重み係数であり、<,>は、ドット積演算子である。
したがって、説明したスケーラブルエッジ検出器およびローカル距離定義を制御されたフラッディングアルゴリズムと共に利用することにより、輪郭c(s)を、2つの基準点fおよびeとリンクして縮尺sで生成することができる。
次に、残りの事項は、適切な縮尺sを選択してアルゴリズムを実行することである。
設計の観点から、縮尺が小さいほど、その縮尺による輪郭の結果は、空間的により正確になるが、テクスチャの近傍に敏感になる一方、縮尺が大きいほど、その縮尺による輪郭の結果は、テクスチャ領域との分離が良好に行われるが、空間的な精度を失うおそれがある。
このエッジ指向型アルゴリズムは、局所化された解であるので、MDL原理を使用することにより、グローバルな尺度を組み合わせて、局所化されたバイアスが最終的な結果においてバランスされる。
一般的な意味として、MDL原理は、次のように定式化される。
Figure 0004130915
ここで、xは、記述/符号化される入力データであり、θは、モデル化パラメータであり、Pθ(x)は、θが与えられた場合のxの統計的分布であり、logPθ(x)およびDL(θ)は、データおよびモデル化パラメータの記述/符号化長である。
MDL原理によれば、データの符号化長およびモデル化パラメータの符号化長の合計を最小にすることによって、最適なデータモデル化方法が複数のモデルから選択される。
この原理を輪郭解析に関連付けるために、本発明の実施の形態は、図11に示すように、輪郭c(s)が、ラバーバンドの定義した近傍を2つの領域RおよびRに分離することを考慮する。
入力データは、この近傍のピクセル色である一方、モデル化パラメータは、(1)セグメント化輪郭c(s)、(2)領域RおよびRのそれぞれのピクセル色の統計的分布を記述するモデル化データを含む。
各領域の各ピクセル色成分が、空間的に独立し、同一のガウス分布を共有すると仮定すると、MDL方程式は、以下の閉じた形に変換される。
DL=N・logσ+N・logσ+DL(c(s))+定数
ここで、σおよびσは、それぞれ、領域RおよびRのピクセル色の標準偏差であり、DL(c(s))は、輪郭c(s)の符号化長である。
最初の2つの項は、グローバルな均一性尺度である一方、最後の項は、境界の滑らかさの尺度である。
したがって、最終的なセグメント化の結果は、導出されたMDL方程式から極小値を生成する輪郭c(s)から選択される。
オペレーション中、本発明の実施の形態は、4つの縮尺1、2、4、6(ピクセル)で候補となるセグメント化輪郭を計算することが好ましい。
可能な縮尺パラメータは、複雑度と性能とのトレードオフとして、特定の部分集合に限定される。
MDL方程式は、候補となる各セグメント化輪郭に適用される。
最終的なセグメント化の結果(選択された縮尺に関連付けられた結果)は、MDL方程式を最小にする候補である。
図12は、縮尺パラメータsの自動的な選択を示すフローチャート1200を示している。
ステップ1201において、グラフィカル画像の2つの頂点が(例えば、ユーザによって)特定される。
ステップ1202において、複数の輪郭が、2つの頂点間で検出される。
各輪郭は、異なる縮尺パラメータに関連付けられている。
ステップ1203において、(例えば、輪郭によって画定される領域間の分散を最小化することにより)MDL方程式を最小にする縮尺パラメータが、最適な縮尺パラメータとして選択される。
本発明の実施の形態は、ユーザとの対話と関連してオブジェクトの境界を画定するのに利用された場合にいくつかの利点を提供する。
具体的には、本発明の実施の形態は、自動的な縮尺の選択を使用することによって、主観的なユーザの予想とより多く一致することを達成する。
具体的には、2つの基準点間でラバーバンド関数を初期化する際に、ユーザによって画定された長方形区域内で、縮尺が解析される。
したがって、自動的な縮尺の選択は、ユーザの主観的な境界の知覚に関連して行われる。
特に、開示した自動的な縮尺の選択は、テクスチャ画像に関連した輪郭を検出する際に優れた性能を示す。
さらに、本発明の実施の形態は、適応型閾値探索判断基準を使用して、より高い空間的精度を達成することによって、強い近傍エッジによる異常な結果を生成する可能性が低い。
本発明の実施の形態による、境界情報を符号化する例示のシステムを示す図である。 本発明の実施の形態を実施するのに利用できる例示のコンピュータシステムを示す図である。 例示の境界および例示の頂点を含むグラフィカル画像を示す図である。 本発明の実施の形態に従ってラバーバンド関数により検出された例示の境界を示す図である。 本発明の実施の形態による例示のピクセルおよびその関連したエッジを示す図である。 図6は、本発明の実施の形態による境界情報処理ステップの例示のプロセスフローチャート600である。 本発明の実施の形態によるエッジおよびラバーバンド関数が検出した境界によって画定された例示の差分区域(difference area)を示す図である。 図8は、本発明の実施の形態によるオブジェクト境界の画定を示す例示のフローチャートである。 本発明の実施の形態によるグラフ探索プロセスの制御に適応型閾値を使用した場合に関連した例示の輪郭、および使用しない場合に関連した例示の輪郭を示す図である。 本発明の実施の形態によるグラフ探索プロセスの制御に適応型閾値を使用した場合に関連した例示の輪郭、および使用しない場合に関連した例示の輪郭を示す図である。 本発明の実施の形態によるグラフ探索プロセスの制御に適応型閾値を使用した場合に関連した例示の輪郭、および使用しない場合に関連した例示の輪郭を示す図である。 図10は、本発明の実施の形態による特定された頂点間の輪郭を検出する例示の擬似コードである。 本発明の実施の形態によるエッジ検出用の領域テンプレートを示す図である。 図12は、本発明の実施の形態による縮尺パラメータを自動的に選択するフローチャートである。
符号の説明
101・・・画像符号化、
102・・・形状符号化、
103・・・ネットワーク、
104・・・画像復号、
105・・・形状復号、
201・・・表示装置、
204・・・グラフィカル画像、
205・・・境界定義、
206・・・符号化境界、
208・・・媒体ドライブ、
209・・・境界符号化アルゴリズム、
210・・・通信アダプタ、
211・・・ネットワーク、

Claims (8)

  1. グラフィカルオブジェクトの境界情報を処理するコンピュータシステムであって、
    少なくとも前記境界情報(205)によって画定される前記グラフィカルオブジェクトを含むグラフィカル画像(204)を受け取るコードと、
    前記グラフィカル画像の1対の点(v1、v2)、エッジ検出に関連付けられた前記グラフィカル画像の探索区域における空間制約パラメータである第1のエッジ検出パラメータ、および、前記空間制約パラメータによって画定される領域で、前記グラフィカルオブジェクトに適用される勾配関数を定義する縮尺パラメータである第2のエッジ検出パラメータを使用し、前記1対の点(v1、v2)の間の輪郭(401)を検出するラバーバンド関数(Rubberband function)のコードであって、前記輪郭(401)は、前記勾配関数によって生成され、前記縮尺パラメータによって画定される領域にわたって計算される勾配に基づいて、前記1対の点(v1、v2)間の最短経路を計算することによって検出されるコードと、
    前記グラフィカル画像から前記グラフィカルオブジェクトの境界を漸進的に検出する前記ラバーバンド関数を使用して、前記境界情報から複数の頂点を決定するコードであって、前記検出するコードによって検出された、前記複数の頂点のうちの隣接する頂点間の各輪郭が、歪み判断基準内で前記境界情報の各エッジを近似するコードと
    を有し、
    前記受け取るコード、前記検出するコードおよび前記決定するコードは、前記コンピュータのRAM(203)にロードされ、前記コンピュータのCPU(202)によって実行されるシステム。
  2. 少なくともグラフィカル画像(204)、前記複数の頂点、および、前記検出するコードを利用して、近似された境界を作成するコード
    をさらに備える請求項1に記載のシステム。
  3. 前記決定するコードは、エッジに関連付けられた頂点対を解析し、
    前記エッジは、重み付けされた非循環グラフであるエッジ集合のうち2点をつなぐ線として画定され、
    前記線の長さは、発見的方法によって決定される定数よりも短い
    請求項1に記載のシステム。
  4. 前記決定するコードは、重み付けされた非循環グラフであるエッジ集合のエッジに関連付けられた頂点対を解析する
    請求項1に記載のシステム。
  5. 前記複数の頂点を決定するコードは、探索可能な頂点の集合からの頂点を解析し、
    前記探索可能な頂点の集合は、
    (a)所定の閾値よりも大きな曲率に関連付けられた頂点、および、
    (b)次の制約条件
    (i)隣接する頂点間の最大距離が、発見的方法によって設定された定数よりも小さいこと、および、
    (ii)前記検出するコードによって検出された隣接する頂点間の各輪郭が、歪み判断基準内で前記境界情報の各エッジを近似すること
    を条件として、
    前記隣接する頂点間の最大距離により再帰的に計算された頂点
    を含む
    請求項1に記載のシステム。
  6. コンピュータのCPU(202)が、前記コンピュータのRAM(203)にロードされたコードを実行し、グラフィカルオブジェクトの境界情報を処理する方法であって、
    少なくとも前記境界情報によって画定される前記グラフィカルオブジェクトを含むグラフィカル画像を受け取ること(601)と、
    ラバーバンド関数を使用して、前記グラフィカル画像の1対の点(v1、v2)の間の輪郭(401)を検出することであって、前記ラバーバンド関数は、前記1対の点(v1、v2)、エッジ検出に関連付けられた前記グラフィカル画像の探索区域における空間制約パラメータである第1のエッジ検出パラメータ、および、前記空間制約パラメータによって画定される領域で、前記グラフィカルオブジェクトに適用される勾配関数を定義する縮尺パラメータである第2のエッジ検出パラメータを使用し、前記輪郭(401)は、前記勾配関数によって生成され、前記縮尺パラメータによって画定される領域にわたって計算される勾配に基づいて、前記1対の点(v1、v2)間の最短経路を計算することによって検出されることと、
    前記グラフィカル画像から前記グラフィカルオブジェクトの境界を漸進的に検出する前記ラバーバンド関数を使用して、前記境界情報から複数の頂点を決定すること(605)であって、該複数の頂点のうちの隣接する頂点が、歪み判断基準内で前記境界情報の各エッジを近似する各輪郭に関連付けられ、前記各輪郭が検出されることと、
    少なくとも前記複数の頂点をデータ構造体で符号化し、前記データ構造体が前記境界情報を表すこと(607)と
    を含むグラフィカルオブジェクトの境界情報を処理する方法。
  7. 前記決定することは、エッジに関連付けられた頂点対を解析し、
    前記エッジは、重み付けされた非循環グラフであるエッジ集合のうち2点をつなぐ線として画定され、
    前記線の長さは、発見的方法によって決定される定数よりも短い
    請求項6に記載の方法。
  8. 前記決定することは、探索可能な頂点の集合から頂点を選択し、
    前記探索可能な頂点の集合は、
    (a)所定の閾値よりも大きな曲率に関連付けられた頂点、および、
    (b)次の制約条件
    (i)隣接する頂点間の最大距離が、発見的方法によって設定された定数よりも小さいこと、および
    (ii)隣接する頂点間の各輪郭が、歪み判断基準内で前記境界情報の各エッジを近似することを条件として、前記隣接する頂点間の最大距離により再帰的に計算される頂点を含む
    請求項6に記載の方法。
JP2003560853A 2002-01-14 2003-01-09 グラフィカルオブジェクトの境界情報の処理 Expired - Fee Related JP4130915B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/046,797 US7388988B2 (en) 2002-01-14 2002-01-14 Systems and methods for processing boundary information of a graphical object
PCT/US2003/000712 WO2003060829A1 (en) 2002-01-14 2003-01-09 Processing boundary information of a graphical object

Publications (2)

Publication Number Publication Date
JP2006501530A JP2006501530A (ja) 2006-01-12
JP4130915B2 true JP4130915B2 (ja) 2008-08-13

Family

ID=21945443

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003560853A Expired - Fee Related JP4130915B2 (ja) 2002-01-14 2003-01-09 グラフィカルオブジェクトの境界情報の処理

Country Status (6)

Country Link
US (1) US7388988B2 (ja)
EP (1) EP1466299A1 (ja)
JP (1) JP4130915B2 (ja)
AU (1) AU2003202277A1 (ja)
TW (1) TW200301874A (ja)
WO (1) WO2003060829A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7187800B2 (en) * 2002-08-02 2007-03-06 Computerized Medical Systems, Inc. Method and apparatus for image segmentation using Jensen-Shannon divergence and Jensen-Renyi divergence
US7139892B2 (en) * 2003-05-02 2006-11-21 Microsoft Corporation Implementation of memory access control using optimizations
US7567714B2 (en) * 2004-07-07 2009-07-28 The United States Of America As Represented By The Secretary Of The Navy System, method and apparatus for clustering features
US8116581B2 (en) * 2007-06-28 2012-02-14 Microsoft Corporation Efficient image representation by edges and low-resolution signal
TWI383336B (zh) * 2008-11-14 2013-01-21 Delta Electronics Inc 多邊形快速填色方法
US10789495B2 (en) 2016-12-21 2020-09-29 Volkswagen Ag System and method for 1D root association providing sparsity guarantee in image data
US10922824B1 (en) * 2019-08-13 2021-02-16 Volkswagen Ag Object tracking using contour filters and scalers
CN114255241B (zh) * 2021-11-16 2023-10-20 鹏城实验室 用于路径规划的区域分割方法、装置、设备及存储介质
CN114723911B (zh) * 2022-06-09 2022-10-11 自然资源部第二海洋研究所 基于d-p算法和最优路径的海底地理实体边界自动识别方法
CN117073534B (zh) * 2023-10-16 2024-04-02 宁德时代新能源科技股份有限公司 涂胶检测方法及极片涂胶系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2590702B1 (fr) * 1985-11-26 1990-07-27 Thomson Csf Procede de pontage entre elements de contours dans une image
JP2856229B2 (ja) * 1991-09-18 1999-02-10 財団法人ニューメディア開発協会 画像切り出し箇所検出方法
KR0171151B1 (ko) * 1995-03-20 1999-03-20 배순훈 곡률 계산 기법을 이용한 이미지 윤곽 근사화 장치
KR100209419B1 (ko) * 1996-07-09 1999-07-15 전주범 영상신호로 표현된 객체의 윤곽선 부호화 방법
US5974175A (en) * 1997-01-22 1999-10-26 Fujitsu Limited Image processing apparatus and method for detecting a contour of an object from images of a motion picture and extracting the object therefrom
FR2776798A1 (fr) * 1998-03-24 1999-10-01 Philips Electronics Nv Procede de traitement d'images incluant des etapes de segmentation d'une image multidimensionnelle et appareil d'imagerie medicale utilisant ce procede
WO1999052068A1 (en) * 1998-04-03 1999-10-14 Koninklijke Philips Electronics N.V. Image processing method and system involving contour detection steps

Also Published As

Publication number Publication date
AU2003202277A1 (en) 2003-07-30
WO2003060829A1 (en) 2003-07-24
TW200301874A (en) 2003-07-16
EP1466299A1 (en) 2004-10-13
US20030132947A1 (en) 2003-07-17
US7388988B2 (en) 2008-06-17
JP2006501530A (ja) 2006-01-12

Similar Documents

Publication Publication Date Title
CN111047516B (zh) 图像处理方法、装置、计算机设备和存储介质
Chang et al. Simultaneous motion estimation and segmentation
US6711278B1 (en) Tracking semantic objects in vector image sequences
US8818082B2 (en) Classifying blur state of digital image pixels
US8290253B1 (en) Method and apparatus for applying Gaussian Mixture Models to local image patches using an adaptive color lookup table
US7046850B2 (en) Image matching
EP0853293B1 (en) Subject image extraction method and apparatus
Jiang et al. Matching by linear programming and successive convexification
US8913830B2 (en) Multilevel image segmentation
US7536050B2 (en) Using graph cuts for editing photographs
US8224110B2 (en) Image processing apparatus and image processing method
KR101183391B1 (ko) 메트릭 임베딩에 의한 이미지 비교
JP2001034771A (ja) イメージオブジェクトの所望の輪郭をモデリングするための方法および装置、ならびにフレームのシーケンス内でイメージオブジェクトを追跡し、かつイメージオブジェクトの所望の輪郭をモデリングするための方法
US20030053705A1 (en) Image processing apparatus and method
KR20220137937A (ko) 투영 기반 메시 압축
Saito et al. Application of genetic algorithms to stereo matching of images
US9153203B2 (en) Temporally consistent superpixels
US20230051960A1 (en) Coding scheme for video data using down-sampling/up-sampling and non-linear filter for depth map
JP4130915B2 (ja) グラフィカルオブジェクトの境界情報の処理
CN111614996B (zh) 一种视频修复方法和系统
CN116645592A (zh) 一种基于图像处理的裂缝检测方法和存储介质
CN114742864A (zh) 皮带跑偏检测方法及装置
CN114494786A (zh) 一种基于多层协调卷积神经网络的细粒度图像分类方法
US20230316697A1 (en) Association method, association system, and non-transitory computer-readable storage medium
Wang Image matting with transductive inference

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070223

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20070327

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070403

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070823

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071018

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20080116

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20080123

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080410

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080502

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20080410

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080526

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110530

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110530

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120530

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130530

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130530

Year of fee payment: 5

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130530

Year of fee payment: 5

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130530

Year of fee payment: 5

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130530

Year of fee payment: 5

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130530

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees