JP2018524732A

JP2018524732A - 半自動画像セグメンテーション

Info

Publication number: JP2018524732A
Application number: JP2018500651A
Authority: JP
Inventors: 浩行武田; モハマドガラヴィ−アルカンサリ
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2015-07-21
Filing date: 2016-07-15
Publication date: 2018-08-30
Anticipated expiration: 2036-07-15
Also published as: EP3332356A1; CN107710228A; WO2017015117A1; KR101989756B1; KR20180017097A; US9443316B1; CN107710228B; JP6547990B2; EP3332356A4; EP3332356B1

Abstract

ユーザ（例えば、タッチ画面への接触）によって与えられた点の近くに位置するオブジェクトの入力画像に対し、半自動（瞬時）カラー画像セグメンテーションを実行する。ユーザ選択点の周囲の（ユーザ選択点の周囲に存在する、又はユーザ選択点を取り囲む）対象オブジェクトのサイズ、形状及び色数を決定し、画素が属する領域が前景又は背景のいずれであるかを判定する。このオブジェクトを取り囲むデータを除去し、又はマスクを反転させてオブジェクトのデータを除去するために利用できる２値オブジェクトマスクを生成する。
【選択図】図４

Description

〔関連出願との相互参照〕
該当なし

〔連邦政府が支援する研究又は開発に関する記述〕
該当なし

〔コンピュータプログラム付属書の引用による組み入れ〕
該当なし

〔著作権保護を受ける資料の通知〕
本特許文献中の資料の一部は、アメリカ合衆国及びその他の国の著作権法に従って著作権保護を受ける。著作権の権利所有者は、合衆国特許商標庁の一般公開ファイル又は記録内に表される通りに第三者が特許文献又は特許開示を複製することには異議を唱えないが、それ以外は全ての著作権を留保する。著作権所有者は、限定するわけではないが米国特許法施行規則§１．１４に従う権利を含め、本特許文献を秘密裏に保持しておく権利のいずれも本明細書によって放棄するものではない。

本発明は、一般に画像処理に関し、具体的には、半自動カラー画像セグメンテーションに関する。

画像セグメンテーションは、カラー画像を領域に区分化するプロセスである。最も単純な例は、既知の特性を有する前景オブジェクトを背景から分離するものである。

オブジェクトの画像範囲を周囲からセグメント化する様々な方法が試行されてきた。恐らく最も単純な方法は、閾値処理に基づくものである。例えば、ユーザ選択点が与えられた場合、セグメント化されるオブジェクトは、一定範囲内のユーザ選択点の色値（重心）と同様の色値を有する隣接画素の集合になる。この方法は、単一色のオブジェクトのみについて機能し、そうでない場合、ユーザは、複数の重心値を選択し、多色オブジェクトのセグメンテーションのためのカラー範囲を手動で選択して、選択されたオブジェクトの全ての要素を取得する必要がある。

「グラブカット」法は、２つのクラスのグレー範囲である前景及び背景が、前景画素又は背景画素の差異によって自動的に選択されるグレイスケール画像セグメンテーションのための「グラフカット」法の修正バージョンである別のカラー画像セグメンテーション法である。グラブカットでは、各前景クラス又は背景クラスをさらに複数のサブクラスに分割して多色オブジェクトを処理する。各サブクラスは、ベクトル値画素（すなわち、赤色、緑色及び青色）に起因して、重心色値及び共分散行列によって表される。伝統的な意味では、このようなモデルは混合モデルと呼ばれる。

カラー画素の確率密度関数は、重心及び共分散行列を用いてパラメータ化されたガウス関数の加重線形結合によって近似されることが多く、混合ガウスモデル（ＧＭＭ）と呼ばれる。未分類の画素は、ＧＭＭを用いて最も近いクラスに分類し、重心及び共分散行列を用いて未分類の画素と各クラスとの間の距離を計算する。この方法は、古典的なベイズ分類器にすぎない。グラブカットの新規性は、距離測度の修正項（又は平滑項）である。未分類の画素の周囲の局所勾配の分析が考慮され、この点が、グラブカットが閾値法よりも良好に機能する１つの理由である。しかしながら、グラブカットでは、ユーザが関心オブジェクトの周囲にボックスを入力する必要がある。実際には、このボックスは、オブジェクトの位置だけでなく大まかなサイズを示す。さらに、セグメント化されたオブジェクトのわずかな修正のためのユーザ入力も必要である。

しかしながら、上述したように、通常、正しい画像セグメンテーションは、正しいセグメンテーション結果に至るために多くのユーザ入力を伴う。

従って、これまでのセグメンテーション法の欠点を克服しながら半自動画像セグメンテーションを可能にするほど十分に正確な画像セグメンテーション法に対するニーズが存在する。

本開示では、ユーザが与えた点の近くに位置するオブジェクトを半自動的に（瞬時に）セグメント化することを目的にしてカラー画像を受け取る。これまでの方法は、ロバスト性、平滑項に起因する計算の複雑さ、及びユーザの入力の単純さの観点から、このレベルの半自動セグメンテーションを実行するには不正確であった。

図１Ａ〜図１Ｂに、半自動画像セグメンテーションの実施形態例を示す。図１Ａには、画像内のオブジェクトを選択しているユーザを示す。タッチ入力を示しているが、同様に、以下に限定するわけではないが、タッチ入力（接触及び非接触）、オブジェクトへのカーソル移動、及び表向きはセグメント化対象のオブジェクトが周囲に位置する画像内の特定の位置を指し示す同様の手段を含む他のユーザ選択入力を利用することもできると理解されたい。画像内のオブジェクトを指し示すと、そのオブジェクトに関連する画素が、図１Ｂに示す画素に自動的にセグメント化される。この例には、（背景を廃棄して）オブジェクトを単独でセグメント化することを示しているが、これとは別に、残りの画像からオブジェクトを削除することも、或いは本開示の教示から逸脱することなく別の形でセグメンテーションを利用することもできると理解されたい。

このセグメンテーションプロセスを正確に実行するために追加のユーザ入力は必要ない。従って、開示する方法は、ユーザ選択点の周囲の（ユーザ選択点の周囲に存在する、又はユーザ選択点を取り囲む）対象オブジェクトのサイズ、形状及び色数を半自動的に推定するように構成される。セグメンテーションが開始されると、方法は、画素が前景又は背景のどちらの領域に属するかを独自に判定する。ユーザ選択は、説明するプロセスの唯一の非自動化部分であるが、あまり好ましくはないものの、本発明の教示から逸脱することなく他のステップ（例えば、パラメータ選択、検証ステップ、セグメンテーション対象の選択など）を追加することもできる。本開示は、半自動画像セグメンテーションシステムの全体的枠組みを提示する。

本明細書の以下の部分では、本発明のさらなる態様を示すが、この詳細な説明は、本発明の好ましい実施形態に制限を課すことなく完全に開示することを目的とする。

本発明は、例示のみを目的とする以下の図面を参照することによってさらに完全に理解されるであろう。

本開示の実施形態に従って行われるオブジェクトのユーザ選択を示す画像である。本開示の実施形態による、周囲からセグメント化された選択オブジェクトを示す図である。本開示の実施形態による半自動セグメンテーションのフロー図である。本開示の実施形態による半自動セグメンテーションのフロー図である。本開示の実施形態による、既知のオブジェクトの半自動セグメンテーションのフロー図である。本開示の実施形態による、未知のオブジェクトの半自動セグメンテーションのフロー図である。本開示の実施形態による、期待値最大化（ＥＭ）を用いた半自動セグメンテーションのフロー図である。本開示の実施形態による、半自動画像セグメンテーション中のホール回復のフロー図である。本開示の実施形態による、半自動画像セグメンテーションプロセスのステップを詳述する画像である。本開示の実施形態による、半自動画像セグメンテーションプロセスのステップを詳述する画像である。本開示の実施形態による、半自動画像セグメンテーションプロセスのステップを詳述する画像である。本開示の実施形態による、半自動画像セグメンテーションプロセスのステップを詳述する画像である。本開示の実施形態による、半自動画像セグメンテーションプロセスのステップを詳述する画像である。本開示の実施形態による、半自動画像セグメンテーションプロセスのステップを詳述する画像である。

１．序文
本開示（システム／方法／装置）は、色ヒストグラムのコントラストによる顕著性検出のいくつかの要素を利用して、背景技術に見られるセグメンテーションの課題を克服するものである。

１．１．半自動セグメンテーション
本開示は、本明細書において人間オブジェクトとして例示する既知のオブジェクトと、本明細書において非人間オブジェクトとして例示する未知のオブジェクトという２つのタイプのオブジェクトを考慮するように構成される。これらの異なるオブジェクトタイプには、２つの異なるけれども同様の方法を利用する。

１．２．ＥＭ法
特に、ユーザ入力などに応じて、オブジェクトのサイズ及び形状、色数（すなわち、クラスパラメータ）を含む重要な情報がシステムに提供されない場合には、シングルタッチセグメンテーションの問題が課題となる。クラス情報（パラメータ）のない分類問題は、教師なし分類問題と呼ばれる。システムは、セグメンテーション問題の解決において、画素を分類してクラスパラメータを同時に推定するように構成される。１つの問題解決方法は、期待値最大化（ＥＭ）アルゴリズムと呼ばれる。本開示では、この方法を利用して、本開示の実施形態によるジョイントベイズ分類器を用いてクラスパラメータ及びオブジェクトマスクを推定する。

１．３．マルチスケールスキーム
セグメンテーションプロセスの安定性を改善して計算コストを抑えるために、マルチスケールスキームに依拠する。このマルチスケールプロセスでは、マスクを粗い解像度で推定した後に、より細かな解像度に徐々に精細化する。１６分の１（１／１６）の解像度にダウンスケーリングする例を示すが、本開示の実施形態は、入力画像を６４分の１（１／６４）の解像度にダウンスケーリングするようにも構成される。本開示は、本開示の教示から逸脱することなくあらゆる実用的レベルへのダウンスケーリングを利用することができると理解されたい。

１．４．既知のオブジェクトの識別
実際のセグメンテーションを実行する前に、システムは、本明細書では顔検出プロセス（方法）を用いて人間オブジェクトについて例示する既知のオブジェクト検出プロセスを実行して、所与の画像内に存在する可能性のあるあらゆる顔を発見する。検出された顔を使用して、関連する人間オブジェクトを事前にセグメント化する。次に、ユーザ選択点がいずれかの人間オブジェクトの領域内に存在するかどうかを判定する。選択点がこれらの人間オブジェクトのうちの１つの中に存在する場合、事前にセグメント化した結果を用いてオブジェクトマスクを初期化し、その後にオブジェクトマスクをより細かな解像度に精細化する。本開示の少なくとも１つの実施形態では、歩行者（全身人間）検出プロセス又はその他のオブジェクト検出方法を利用して、特定のオブジェクトの位置及びサイズを識別することができる。なお、顔検出プロセスは一例に過ぎず、当業者であれば、本開示から逸脱することなく、限定するわけではないが車両検出及び歩行者（全身人間）などを含む他の形のオブジェクト検出が利用可能であり、これらを同様に利用することもできると理解するであろう。

１．５．未知のオブジェクトの識別
この方法は、未知のオブジェクトについて、まずセグメンテーションプロセスに何らかの停止基準を設定した二分探索法によって最良の円形初期マスクサイズを検索する。セグメンテーションは、ＥＭ法が収束した時にのみ正常に終了する。最適な初期マスクサイズは、セグメンテーションプロセスがどのように終了したかに基づいて決定される。

２．技術的詳細及び実施形態
図２Ａ〜図２Ｂに、本開示による半自動セグメンテーションプロセスの実施形態例１０を示す。カラー画像などのオリジナル入力データ１２を、好ましくは深度マップ及びヒストグラムコントラスト、並びにユーザ選択点（ｘ、ｙ画像座標）と共に受け取り、これを複数の画像ダウンサンプリング段階を実行する画像ピラミッド構築部１４に提供する（１３）。第１のダウンサンプリング１６を実行し、オリジナル解像度の４分の１（１／４）、すなわち水平方向及び垂直方向の各々に２分の１（１／２）解像度だけ低減したものとして例示するような低解像度の画像を出力する（１８）。次に第２のダウンサンプリング２０を実行して、本明細書ではオリジナル画像解像度の１６分の１（１／１６）として示す、やはり低解像度を出力する（２２）。いくつかの実施形態では、１段階当たりのダウンサンプリング量を増加させ、又はダウンサンプリングの段階数を増加させることにより、画像をさらにダウンサンプリングすることもできる。ダウンサンプリングレベルを増加させると、入力画像が非常に高い画素数（例えば、高解像度又は大きな画像サイズ）を有する場合に特に有用である。このダウンスケーリング画像に対して、既知のオブジェクトセグメンテーション２４を実行する。このセグメンテーションは、本明細書では人間オブジェクトを考慮するように例示する、既知のオブジェクトの事前セグメンテーションである。ユーザが後続のセグメンテーション決定において異なる画像位置を選択した場合、この事前セグメンテーションの結果がメモリに記憶される。ユーザ選択点がいずれかの既知のオブジェクト内に存在するかどうかを判定する（２６）。存在する場合（３６）には、事前にセグメントした結果からユーザが選択したオブジェクトのセグメンテーションマスクを取得するオブジェクトマスク生成３８を実行してオブジェクトマスクを生成する（４０）。オブジェクトが既知のオブジェクトでない（ユーザが未知のタイプのオブジェクトを選択（例えば、タッチ）した）場合（２８）には、図４に示すような未知のオブジェクトセグメンテーションプロセス３０を実行する。未知のオブジェクトセグメンテーションに失敗した（３２）場合には、ユーザ選択点の周囲の所与の範囲を取り囲む円形マスクなどのデフォルトマスクが戻される。そうでなければ、未知のオブジェクトのオブジェクトマスクが生成される（３４）。その後、オブジェクトが既知であるか、それとも未知であるかに関わらず、最近傍法などによってオブジェクトマスクをアップスケーリングして（４２）マスクを出力する（４４）。なお、この例によれば、マスクは依然として４分の１（１／４）解像度などの低解像度である。

次に、オブジェクトマスク４４及び低解像度画像１８を使用して、より細かな画像解像度でセグメンテーションを実行する（４６）。この段階で、システムは、低画像解像度で推定された良好なマスクを既に有している。次に、方法は、図５で説明するような同じセグメンテーション法を使用して、アップスケーリングされたオブジェクトマスクを精細化する。このセグメンテーション中に不具合が生じた（４８）場合、セグメンテーションプロセスは停止され、アップスケーリングされた有効なマスクが最終結果として戻される。そうでなくセグメンテーションが正常な場合には、ここでは４分の１（１／４）解像度として示す低解像度などでマスクが出力される（５０）。次に、正常なオブジェクトマスクに対してアップスケーリング５２を実行して、オリジナル解像度の初期マスクを生成する（５４）。一般的には、このセグメンテーションプロセス及びアップスケーリングプロセスは、画像がダウンサンプリングされた回数と同じ回数だけ繰り返されると理解されたい。次に、オリジナル画像解像度でセグメンテーションを実行する（５６）。不具合が検出された（５８）場合、セグメンテーションプロセスは停止され、アップスケーリングされた有効なマスクが最終結果として戻される。正常なセグメンテーションでは、ホールのないオリジナル解像度のマスクが生成されて（６０）、ホール回復プロセス６２によって受け取られる。ホール回復に失敗した６４場合には、プロセスが停止されて、ホールのないオリジナル解像度のマスクが戻される。最後に、推定されるオブジェクトマスクにホール回復プロセスを適用して、図６に説明する方法などを使用してオブジェクトのホールを回復させて、推定されるオブジェクトマスクを出力する（６６）。

この図及びその他の図に示す開示するシステム／装置／方法は、プロセッサによる実行時に本開示の文章及び図全体を通じて説明する画像処理ステップを実行する命令を記憶する少なくとも１つのメモリ６９ｂに結合された少なくとも１つのプロセッサ６９ａなどを含むコンピュータ処理６８によって実行されることが好ましい画像処理を使用するものであると理解されたい。説明を単純にするために、各図には処理ブロックを示していない。

図３に、本開示による既知のオブジェクトのセグメンテーションの実施形態例７０を示す。最初に顔検出プロセス７２によっていずれかの顔の位置及びその大まかなサイズを発見することにより、大まかな人間オブジェクトセグメンテーションを実行する。これらの顔の各々について（７４）、顔の周囲の考えられる毛髪部分の境界（例えば、矩形）、及び毛髪境界の周囲の初期背景領域のための別の境界（例えば、矩形）を描き、顔の境界と毛髪の境界とを初期背景領域としてセグメンテーション７８を開始することなどによって、初期マスクを生成する７６。この初期セグメンテーション７８は、ダウンスケーリング画像、深度及びヒストグラムコントラスト８０を利用するように構成されることが好ましい。一例として、オリジナルの１／１６の解像度を利用することができる。次に、人間オブジェクトマスクを記憶する（８２）。ループは、次の顔８４に続き、ブロック７６に戻って、検出された顔の各々に関連する人間オブジェクトの全ての初期セグメンテーションを実行し終えるまで、さらに多くの人間オブジェクトのセグメンテーションを行う。本明細書において人間オブジェクトとして例示する既知のオブジェクトを識別する際には、様々な方法を単独で、又はあらゆる所望の組み合わせで利用することができると理解されたい。このプロセスが完了すると、推定された人間オブジェクトマスクが戻される（８６）。

深度マップ及びヒストグラムコントラストマップは別個の出願によって提供され、これらは本特許出願の主題ではない。深度マップ推定値は、例えば異なる焦点設定で取り込んだ一連の画像から取得することができる。ヒストグラムコントラストマップは、セグメンテーションプロセスの前に計算される。

セグメンテーションプロセスは、画素を前景又は背景に分類するものと見なすことができる。開示するセグメンテーションでは、画素色値（例えば、赤色、緑色、青色）を利用することに加え、各画素の深度及びヒストグラムコントラストを含むベクトルＸを、Ｘ＝［赤色、緑色、青色、深度、ヒストグラムコントラスト］として形成する。これに応じて、５×１ベクトルを分類することによって前景をセグメント化する。

図４に、本開示による未知のオブジェクトセグメンテーションの実施形態例９０を示す。このプロセスは、最適な初期マスクサイズの二分探索に応答して実行される。二分探索アルゴリズムの反復Ｎの最大数９４に合わせて、最小マスク直径ｄｍｉｎ及び最大マスク直径ｄｍａｘを初期化する（９２）。

ユーザ選択点９８の周囲に直径ｄ＝（ｄｍａｘ−ｄｍｉｎ）／２を設定し、これに前の試行からの背景領域を追加した初期円形オブジェクトマスクを生成する（９６）。最初のパスでは、初期背景の前景領域の周囲のわずかに大きな円が選択される。セグメンテーションプロセス１００は、ダウンスケーリング画像、深度及びヒストグラムコントラスト１０２（例えば、１／１６解像度）を用いて開始する。セグメンテーションに成功したかどうかを判定する（１０４）。セグメンテーションが正常に完了した場合、プロセスは、推定されるオブジェクトマスクを戻す探索によって停止する（１０６）。そうでなければ、失敗したセグメンテーションのための処理１１０を実行する（１０８）。時間切れ、又はセグメンテーション関数の最大反復数に達したこと、又はオブジェクトマスクサイズが最大サイズを超えたことによってセグメンテーションに失敗した場合、１１０において、ｄｍａｘ＝（ｄｍａｘ−ｄｍｉｎ）／２などのｄによってｄｍａｘを更新する。或いは、オブジェクトサイズが小さくなりすぎたことによってセグメンテーションに失敗した場合、ｄｍｉｎ＝（ｄｍａｘ−ｄｍｉｎ）／２などのｄによってｄｍｉｎを更新して円形マスクを出力し（１１２）、次のｎを選択して（１１４）ループ閾値のチェック（ｎ＞Ｎ）を行う（１１６）。Ｎに達していなかった場合には（１１８）、ブロック９４に戻る。そうでなくｎ＞Ｎの場合には、直径ｄの円形マスクを戻す（１２０）。

図５に、本開示による期待値最大化（ＥＭ）を用いたセグメンテーションの実施形態例１３０を示す。この方法は、画像、画像の深度、ヒストグラムコントラスト及び画像の初期マスクを含む情報が与えられると（１３２）、最初に平均二乗誤差に基づいて各前景又は背景の最適なクラス数を推定し（１３４）、単純量子化器（例えば、最小分散分類器）によって前景画素又は背景画素を量子化して、前景領域及び／又は背景領域の初期クラスを生成する。なお、入力画像は、ユーザのカメラ又はモバイル装置などの画像取り込み装置によって取り込まれる。深度マップは、当業で周知のように、カメラ又はモバイル装置のいずれかで動作する別個のアプリケーションによって推定される。

次に、画像内の評価点を発見（１３６）し、方法は、計算コストを抑えるために、前景−背景境界の付近に位置する点のみを評価する。次に、現在のクラスに基づいてクラスパラメータを更新（又は生成）１３８（Ｅステップ）した後に、本開示によるジョイントベイズ分類器を用いて画素を評価して、評価点の画素を分類１４０する（Ｍステップ）。次に、前景領域内からホールを取り除く（１４２）。いずれかの画素が動いたかどうかを判定する（１４４）。前景クラスと背景クラスとの間で画素が動いていない場合（１４６）、前景画素の次に未分類の画素を追加（１４８）した後にステップ１５０に進む。そうでなく画素が動いていた場合、実行経路１５８に進む。新たな領域が加わったかどうかを判定する（１５０）。新たな領域が加わっていない場合には、セグメンテーションが正常に完了してオブジェクトマスクが戻され（１５２）、そうでなければ新たな領域が存在する（１５４）。

いずれかの画素が動いていた場合、又はいずれかの新たな領域が加わった場合には、停止基準を評価する。マスクが小さすぎるかどうかの判定１５６、マスクが大きすぎるかどうかの判定１６０、最大反復に達したかどうかの判定１６２、ランタイム値に達したかどうかの判定１６４を含めて、停止基準を順にチェックする。これらの停止基準のいずれかが満たされている場合、セグメンテーションに失敗した旨の指示を戻すと同時に初期セグメンテーションマスクを戻し（１６５）、少なくとも１つの好ましい実施形態では、セグメンテーションに失敗した原因も戻す。戻されたセグメンテーション失敗の原因は、初期オブジェクトサイズの二分探索に使用されると理解されたい。停止基準がいずれも満たされていない場合には、ブロック１６６を実行して、ユーザがプロセスの取り消し／中断を行ったかどうかを判定する。ユーザがプロセスを取り消した場合には、一掃及び終了１６８を実行し、そうでなければステップ１３４に進んで別のセグメンテーションの試行を行う。

図６に、本開示による期待値最大化（ＥＭ）法を用いたホール回復の実施形態例１７０を示す。この方法は、画像、画像の深度、ヒストグラムコントラスト及び画像の初期マスクを含む情報が与えられると（１７２）、最初に平均二乗誤差に基づいて各前景又は背景の最適な適応的クラス数を推定し（１７４）、単純量子化器（例えば、最小分散分類器）によって前景画素又は背景画素を量子化して、これらの前景領域又は背景領域の初期クラスを生成する。前景画素が最も近い背景クラスにどれほど近いかを示す信頼マップを生成する（１７６）。次に、評価点を発見する１７８。なお、この実施形態は、信頼値の低い前景画素のみを評価する。次に、現在のクラスに基づいてクラスパラメータの更新（又は生成）を実行する（１８０）（Ｅステップ）。次に、ジョイントベイズ分類器を用いて画素を評価することにより、評価点の画素を分類する（１８２）（Ｍステップ）。ジョイントベイズ分類器は別個の出願であり、本出願の主題ではないと理解されたい。

いずれかの画素が動いたかどうかを判定する（１８４）。前景クラスと背景クラスとの間で画素が動いていない場合、セグメンテーションが正常に完了して（１８６）推定されたオブジェクトマスクを戻す。そうでなくいずれかの画素が動いていた場合（１８８）には、いくつかの停止基準を順に評価し、いずれかの停止基準が満たされている場合、セグメンテーションに失敗して（１９７）初期マスクを戻す。これらの停止基準は、マスクが小さすぎるかどうかの判定１９０、マスクが大きすぎるかどうかの判定１９２、最大反復数に達したかどうかの判定１９４、実行時間基準に達した／超えたかどうかの判定１９６を含む。停止基準がいずれも満たされていない場合には、最初にプロセスが取り消されたかどうかをチェック（１９８）した後にプロセスを続行する。プロセスが取り消された（２００）場合には、一掃及び終了を行い、そうでなければループの最初のステップ１７４に戻る。

３．半自動セグメンテーションの結果
図７Ａ〜図７Ｆに、本開示による人間オブジェクトの半自動セグメンテーションの例を示す。図７Ａには、人間オブジェクトの初期背景２１０を選択する第１のステップを示す。次に、顔の検出に応答して、顔の周囲２１２にボックスが描かれ、毛髪領域の周囲に背景領域のためのボックス描かれる（２１４）。図７Ｂでは、背景がグレー２１８、顔及び毛髪領域（前景）が白２２０、関心領域の外側が黒色範囲２１６である初期２値セグメンテーションマスクを生成する第２のステップを示す。図７Ｃには、本開示のジョイントベイズ分類器（JＢＣ）を用いて初期２値セグメンテーションマスクを精細化する第３のステップを示す。前景領域が現在のＲＯＩのエッジに達した場合、又は近すぎる場合には、左向き、右向き、上向き及び下向きに拡大する関心領域（ＲＯＩ）が示される。図７Ｄに、拡大されたオブジェクト範囲を示しており、これ自体をさらに拡大することもできる。図７Ｅには、停止基準の１つが満たされた時にセグメンテーションが終了する第４のステップを示す。図７Ｆには、推定されるセグメンテーションマスクの２値化に応答して人間オブジェクトを分離する、生成されたオブジェクトマスクを示す。

４．応用分野
上述したように、本開示の半自動セグメンテーションプロセスは、デジタルカメラ、又は画像を処理するように構成されたその他のコンピュータ装置内で応用することができる。開示したセグメンテーションの実装では、ヒストグラムコントラストを計算する関数を利用する。深度は別個の出願によって推定され、深度情報が利用可能でない場合、本開示の少なくとも１つの実施形態は、深度情報を使用せずにオブジェクトマスクを推定する。本開示は、背景からのオブジェクトのセグメント化、又は選択されたオブジェクトからの背景のセグメント化に加えて、ビデオ調査の分野、及びロボット産業における機械視野の分野などの他の用途で利用することもできる。

５．コンピュータプロセッサ上で実行される方法ステップ
提示した技術において説明した拡張は、様々な画像処理システム内に容易に実装することができる。特に、処理オーバヘッド要件は、ディスプレイ及びユーザインターフェイスを有するデジタルカメラ装置又は携帯電話機内で本方法を実行できるほど十分に低い。また、デジタルカメラ及び携帯電話機、並びに他の画像処理装置は、１又は２以上のコンピュータプロセッサ装置（例えば、ＣＰＵ、マイクロプロセッサ、マイクロコントローラ、コンピュータ対応ＡＳＩＣなど）及び関連するメモリ（例えば、ＲＡＭ、ＤＲＡＭ、ＮＶＲＡＭ、ＦＬＡＳＨ、コンピュータ可読媒体など）を含むように実装されることにより、メモリに記憶されてプロセッサ上で実行可能なプログラムが、本明細書で説明した様々なプロセス法のステップを実行することが好ましいと理解されたい。提示した技術は、メモリ及びコンピュータ可読媒体が非一時的なものであり、従って一時的電子信号を構成しない限り、これらに関して限定されるものではない。

本発明の実施形態は、コンピュータプログラム製品としても実装できる、本発明の実施形態による方法及びシステム、及び／又はアルゴリズム、数式又はその他の計算表現のフロー図を参照して説明することができる。この点、フロー図の各ブロック又はステップ、及びフロー図のブロック（及び／又はステップ）の組み合わせ、アルゴリズム、式、又は計算表現は、ハードウェア、ファームウェア、及び／又はコンピュータ可読プログラムコード論理の形で具体化された１又は２以上のコンピュータプログラム命令を含むソフトウェアなどの様々な手段によって実装することができる。理解されるように、このようなあらゆるコンピュータプログラム命令は、以下に限定されるわけではないが、汎用コンピュータ又は専用コンピュータ、又は機械を生産するためのその他のあらゆるプログラマブル処理装置を含むコンピュータ上にロードして、コンピュータ又はその他のプログラマブル処理装置上で実行されるコンピュータプログラム命令が、（単複の）フロー図の（単複の）ブロック内に特定される機能を実装するための手段を生み出すようにすることができる。

従って、フロー図のブロック、アルゴリズム、式、又は計算表現は、特定の機能を実行するための手段の組み合わせ、特定の機能を実行するためのステップの組み合わせ、及びコンピュータ可読プログラムコード論理手段の形で具体化されるような、特定の機能を実行するためのコンピュータプログラム命令をサポートする。また、本明細書で説明したフロー図の各ブロック、アルゴリズム、式、又は計算表現、及びこれらの組み合わせは、特定の機能又はステップを実行する専用ハードウェアベースのコンピュータシステム、又は専用ハードウェアとコンピュータ可読プログラムコード論理手段の組み合わせによって実装することもできると理解されるであろう。

さらに、コンピュータ可読プログラムコード論理などの形で具体化されるこれらのコンピュータプログラム命令を、コンピュータ又はその他のプログラマブル処理装置に特定の態様で機能するように指示することができるコンピュータ可読メモリに記憶して、これらのコンピュータ可読メモリに記憶された命令が、（単複の）フロー図の（単複の）ブロック内で指定される機能を実施する命令手段を含む製造の物品を生産するようにすることもできる。コンピュータプログラム命令をコンピュータ又はその他のプログラマブル処理装置上にロードし、コンピュータ又はその他のプログラマブル処理装置上で一連の動作ステップが実行されるようにしてコンピュータで実施される処理を生成し、コンピュータ又はその他のプログラマブル処理装置上で実行される命令が、（単複の）フロー図の（単複の）ブロック、（単複の）アルゴリズム、（単複の）式、又は（単複の）計算表現内に特定される機能を実施するためのステップを提供するようにすることもできる。

さらに、本明細書で使用する「プログラム」は、本明細書で説明した機能を実行するためにプロセッサが実行できる１又は２以上の命令を意味すると理解されるであろう。プログラムは、ソフトウェア、ファームウェア、又はソフトウェアとファームウェアとの組み合わせで具体化することができる。プログラムは、装置の非一時的媒体に局所的に記憶することも、又はサーバなどに遠隔的に記憶することもでき、或いはプログラムの全部又は一部を局所的に又は遠隔的に記憶することもできる。遠隔的に記憶されたプログラムは、ユーザが開始することによって、或いは１又は２以上の要因に基づいて自動的に装置にダウンロード（プッシュ）することができる。さらに、本明細書で使用するプロセッサ、中央処理装置（ＣＰＵ）及びコンピュータという用語は、プログラム、並びに入力／出力インターフェイス及び／又は周辺装置との通信を実行できる装置を示すために同義的に使用されると理解されるであろう。

本明細書の説明から、本開示は、限定ではないが以下の内容を含む複数の実施形態を含むことができると理解されるであろう。

１．画像オブジェクトを残りの画像から半自動的にセグメント化するための装置であって、（ａ）取り込まれたカラーデジタル画像の画像処理を行い、前記カラー画像内のセグメンテーションを適用すべきオブジェクトを識別するユーザ選択位置としてのユーザ選択入力を受け取るように構成されたプロセッサと、（ｂ）命令を記憶するメモリとを備え、（ｃ）前記命令は、プロセッサによって実行された時に、前記カラー画像内の前景としてのオブジェクトをその背景からセグメント化することを実行し、セグメント化は、（ｃ）（ｉ）オブジェクトのセグメント化の開始時に前記カラー画像をダウンスケーリングし、セグメンテーションが進行するにつれて１又は２以上のより細かな解像度を選択するステップと、（ｃ）（ｉｉ）ジョイントベイズ分類器を用いた期待値最大化（ＥＭ）を実行して近隣の画素を前景又は背景として分類し、同時に各画素の画素色値を利用することに応答してオブジェクトのクラスパラメータ及びオブジェクトマスクを推定するステップと、（ｃ）（ｉｉｉ）オブジェクトの前記セグメント化を実行しながら、二分探索を実行して最良の初期マスクサイズを決定し、オブジェクトの前記セグメント化中に停止基準をチェックし、ＥＭ収束に応答して正常なセグメンテーションを完了させるステップと、（ｄ）オブジェクトのオブジェクトマスクを生成するステップとを含む、装置。

２．前記命令は、プロセッサによって実行された時に、前景の画像オブジェクトを背景から分離するセグメンテーションを実行するように構成される、前述のいずれかの実施形態に記載の装置。

３．前記命令は、プロセッサによって実行された時に、深度情報又はヒストグラムコントラスト情報、或いはこれらの組み合わせを含むさらなる情報に応答して、ジョイントベイズ分類器を用いた期待値最大化（ＥＭ）を実行するように構成される、前述のいずれかの実施形態に記載の装置。

４．前記命令は、プロセッサによって実行された時に、画像オブジェクトが既知のオブジェクトであって、既知のオブジェクトの少なくとも一部を前記背景から識別するために使用される既知の特性を有する時に、事前セグメンテーションプロセスを実行するようにさらに構成される、前述のいずれかの実施形態に記載の装置。

５．前記既知のオブジェクトは、人間オブジェクト特性を有する人間である、前述のいずれかの実施形態に記載の装置。

６．前記命令は、プロセッサによって実行された時に、顔検出プロセスにおいて前記人間オブジェクト特性を利用して、人間オブジェクトを背景から事前にセグメント化する支援を行うように構成される、前述のいずれかの実施形態に記載の装置。

７．前記命令は、プロセッサによって実行された時に、検出された各顔の初期前景マスク、並びに検出された各顔の周囲の毛髪の部分に対して決定される境界、及び毛髪の境界を越えて初期背景領域として決定される別の境界を生成することによって前記事前セグメンテーションを実行するように構成される、前述のいずれかの実施形態に記載の装置。

８．前記命令は、プロセッサによって実行された時に、セグメンテーションを適用すべきオブジェクトを識別するための前記ユーザ選択位置に基づいて画像の前記セグメンテーションを実行するように構成され、オブジェクトのサイズ又は前記オブジェクトを取り囲む境界をユーザが入力又は別様に定義することを必要としない、前述のいずれかの実施形態に記載の装置。

９．前記命令は、プロセッサによって実行された時に、平均二乗誤差に基づいて前景画素及び／又は背景画素の最適な適応的クラス数を推定することによってジョイントベイズ分類器を用いた期待値最大化（ＥＭ）を実行し、量子化器によって前景画素及び／又は背景画素の量子化を実行して前景領域及び／又は背景領域の初期クラスを生成し、この初期クラスから、前景画素が最も近い背景クラスにどれほど近いかを示す信頼マップを生成し、現在のクラスに基づいてクラスパラメータの評価及び更新を行った（Ｅステップ）後に、ジョイントベイズ分類器を用いて画素を評価して評価点における画素を分類する（Ｍステップ）ように構成される、前述のいずれかの実施形態に記載の装置。

１０．前記命令は、プロセッサによって実行された時に、前記カラー画像が表示された画面上のタッチ入力を含む前記ユーザ選択位置に基づいて前記セグメンテーションを実行するように構成される、前述のいずれかの実施形態に記載の装置。

１１．画像オブジェクトを残りの画像から半自動的にセグメント化するための装置であって、（ａ）取り込まれたカラーデジタル画像の画像処理を行い、前記カラー画像内のセグメンテーションを適用すべきオブジェクトを識別するユーザ選択位置としてのユーザ選択入力を受け取るように構成されたプロセッサと、（ｂ）命令を記憶するメモリとを備え、（ｃ）前記命令は、プロセッサによって実行された時に、前記カラー画像内の前景としてのオブジェクトをその背景からセグメント化することを実行し、セグメント化は、（ｃ）（ｉ）オブジェクトのセグメント化の開始時に前記カラー画像をダウンスケーリングし、セグメンテーションが進行するにつれて１又は２以上のより細かな解像度を選択するステップと、（ｃ）（ｉｉ）ジョイントベイズ分類器を用いた期待値最大化（ＥＭ）を実行して前記ユーザ選択位置の近隣の画素を前景又は背景として分類し、同時に各画素の画素色値、深度及びヒストグラムコントラストを利用することに応答してオブジェクトのクラスパラメータ及びオブジェクトマスクを推定するステップと、（ｃ）（ｉｉｉ）オブジェクトの前記セグメント化を実行しながら、二分探索を実行して最良の初期マスクサイズを決定し、オブジェクトの前記セグメント化中に停止基準をチェックし、ＥＭ収束に応答して正常なセグメンテーションを完了させるステップと、（ｄ）オブジェクトのオブジェクトマスクをユーザによって選択されたものとして生成するステップとを含む、装置。

１２．前記命令は、プロセッサによって実行された時に、画像オブジェクトが既知のオブジェクトであって、既知のオブジェクトの少なくとも一部を背景画素から識別するために使用される既知の特性を有する時に、事前セグメンテーションプロセスを実行するようにさらに構成される、前述のいずれかの実施形態に記載の装置。

１３．前記既知のオブジェクトは、人間オブジェクト特性を有する人間である、前述のいずれかの実施形態に記載の装置。

１４．前記命令は、プロセッサによって実行された時に、顔検出プロセスにおいて前記人間オブジェクト特性を利用して、人間オブジェクトを背景から事前にセグメント化する支援を行うように構成される、前述のいずれかの実施形態に記載の装置。

１５．前記命令は、プロセッサによって実行された時に、検出された各顔の初期前景マスク、並びに検出された各顔の周囲の毛髪の部分に対して決定される境界、及び毛髪の境界を越えて初期背景領域として決定される別の境界を生成することによって前記事前セグメンテーションを実行するように構成される、前述のいずれかの実施形態に記載の装置。

１６．前記命令は、プロセッサによって実行された時に、セグメンテーションを適用すべき前記オブジェクトを識別するためのユーザ選択位置に基づいて画像の前記セグメンテーションを実行するように構成され、オブジェクトのサイズ又はオブジェクトを取り囲む境界をユーザが入力又は別様に定義することを必要としない、前述のいずれかの実施形態に記載の装置。

１７．前記命令は、プロセッサによって実行された時に、平均二乗誤差に基づいて前景画素及び／又は背景画素の最適な適応的クラス数を推定することによってジョイントベイズ分類器を用いた期待値最大化（ＥＭ）を実行し、量子化器によって前景画素及び／又は背景画素を量子化して前景領域及び／又は背景領域の初期クラスを生成し、初期クラスから、前景画素が最も近い背景クラスにどれほど近いかを示す信頼マップを生成し、現在のクラスに基づいてクラスパラメータの評価及び更新を行った（Ｅステップ）後に、ジョイントベイズ分類器を用いて画素を評価して評価点における画素を分類する（Ｍステップ）ように構成される、前述のいずれかの実施形態に記載の装置。

１８．前記命令は、プロセッサによって実行された時に、前記カラー画像が表示された画面上のタッチ入力を含む前記ユーザ選択位置に基づいて前記セグメンテーションを実行するように構成される、前述のいずれかの実施形態に記載の装置。

１９．画像オブジェクトを残りの画像から半自動的にセグメント化する方法であって、（ａ）画像処理機能を実行するように構成された画像処理装置内でカラー画像を受け取るステップと、（ｂ）前記カラー画像内のセグメンテーションを適用すべきオブジェクトを識別するユーザ選択位置としてのユーザ選択入力を受け取るステップと、（ｃ）前記カラー画像内の前景としてのオブジェクトをその背景からセグメント化するステップとを含み、前記ステップ（ｃ）は、（ｃ）（ｉ）オブジェクトのセグメント化の開始時に前記カラー画像をダウンスケーリングし、セグメンテーションが進行するにつれて１又は２以上のより細かな解像度を選択するステップと、（ｃ）（ｉｉ）ユーザ選択位置に近接する、又はその周囲のオブジェクトのサイズ、形状及び色数を推定し、前景又は背景のいずれであるかに関わらず、近隣の画素がどの領域に属するかを決定するステップと、（ｃ）（ｉｉｉ）ジョイントベイズ分類器を用いた期待値最大化（ＥＭ）を実行して近隣の画素を前景又は背景として分類し、同時にオブジェクトのクラスパラメータ及びオブジェクトマスクを推定するステップと、（ｃ）（ｉｖ）オブジェクトの前記セグメント化を実行しながら、二分探索を実行して最良の初期マスクサイズを決定し、オブジェクトの前記セグメント化中に停止基準をチェックし、ＥＭ収束に応答して正常なセグメンテーションを完了させるステップと、（ｄ）オブジェクトのオブジェクトマスクをユーザによって選択されたものとして生成するステップとを含む、方法。

２０．前記セグメンテーションは、前景の画像オブジェクトを背景から分離するように構成される、前述のいずれかの実施形態に記載の方法。

２１．セグメンテーションを実行する際に、セグメンテーション精度の向上に向けて、各画素の深度情報又はヒストグラムコントラスト情報、或いはこれらの組み合わせを利用して前景を背景から識別するステップをさらに含む、前述のいずれかの実施形態に記載の方法。

２２．前記画像オブジェクトは既知のオブジェクトであって、既知のオブジェクトの少なくとも一部を背景画素から識別する事前セグメンテーションプロセスにおいて利用される既知の特性を有する、前述のいずれかの実施形態に記載の方法。

２３．前記既知のオブジェクトは、人間オブジェクト特性を有する人間である、前述のいずれかの実施形態に記載の方法。

２４．人間オブジェクトを背景から事前にセグメント化する支援を行うように顔検出プロセスを利用する、前述のいずれかの実施形態に記載の方法。

２５．オブジェクトが、検出された各顔に初期前景マスク、並びに各検出された顔の周囲の毛髪の部分に対して決定される境界、及び毛髪の境界を越えて初期背景領域として決定される別の境界が生成された人間オブジェクトである場合、事前セグメンテーションプロセスを実行するステップをさらに含む、前述のいずれかの実施形態に記載の方法。

２６．前記カラー画像内のセグメンテーションを適用すべきオブジェクトを識別するための前記ユーザ選択位置は、オブジェクトのサイズ又はオブジェクトを取り囲む境界をユーザが入力又は別様に定義することを必要としない、前述のいずれかの実施形態に記載の方法。

２７．ジョイントベイズ分類器を用いた期待値最大化（ＥＭ）の実行中に、平均二乗誤差に基づいて前景画素及び／又は背景画素の最適な適応的クラス数を推定し、量子化器によって前景画素及び／又は背景画素の量子化を実行して前景領域及び／又は背景領域の初期クラスを生成し、この初期クラスから、前景画素が最も近い背景クラスにどれほど近いかを示す信頼マップを生成し、現在のクラスに基づいてクラスパラメータの評価及び更新を行った（Ｅステップ）後に、ジョイントベイズ分類器を用いて画素を評価して評価点における画素を分類する（Ｍステップ）、前述のいずれかの実施形態に記載の方法。

２８．前記ユーザ選択位置は、前記カラー画像が表示された画面上のタッチ入力を含む、前述のいずれかの実施形態に記載の方法。

本明細書の説明は多くの詳細を含んでいるが、これらは本開示の範囲を限定するものではなく、現在のところ好ましい実施形態の一部を例示するものにすぎないと解釈すべきである。従って、本開示の範囲は、当業者に明らかになると考えられる他の実施形態も完全に含むと理解されるであろう。

特許請求の範囲における単数形の要素についての言及は、別途明確に示していない限り「唯一の」を意味するものではなく、むしろ「１又は２以上の」を意味するものである。当業者に周知の本開示の実施形態の要素の構造的及び機能的同等物も、引用によって本明細書に明確に組み入れられ、本特許請求の範囲に含まれることが意図される。さらに、本開示の要素、構成要素又は方法ステップは、これらが特許請求の範囲に明示されているかどうかにかかわらず、一般に公開されることを意図するものではない。本明細書における請求項の要素については、この要素が「〜のための手段」という表現を使用して明確に示されていない限り、「ミーンズプラスファンクション」の要素として解釈すべきではない。また、本明細書における請求項の要素については、この要素が「〜のためのステップ」という表現を使用して明確に示されていない限り、「ステッププラスファンクション」の要素として解釈すべきではない。

９０未知のオブジェクトセグメンテーション
９２最大及び最小マスク直径ｄｍａｘ、ｄｍｉｎ
９４ｎ＝１〜Ｎの場合
９６ｄ＝（ｄｍａｘ、ｄｍｉｎ）／２による初期円形マスク生成
９８ユーザ選択点
１００セグメンテーション
１０２１／１６解像度のダウンスケーリング画像、深度及びヒストグラムコントラスト
１０４成功か？
１０６はい
１０８いいえ
１１０失敗したセグメンテーションのための処理
１１２円形マスクを出力
１１４次のｎ
１１６ｎ＞Ｎ？
１１８いいえ
１２０はい

Claims

画像オブジェクトを残りの画像から半自動的にセグメント化するための装置であって、
（ａ）取り込まれたカラーデジタル画像の画像処理を行い、セグメンテーションを適用すべきオブジェクトを識別するための前記カラー画像内のユーザ選択位置としてのユーザ選択入力を受け取るように構成されたプロセッサと、
（ｂ）命令を記憶するメモリと、
を備え、
（ｃ）前記命令が前記プロセッサによって実行されたときに、前記プロセッサが前記カラー画像内の前景としての前記オブジェクトをその背景からセグメント化することを実行し、前記命令は、
（ｉ）前記オブジェクトのセグメント化開始のときに前記カラー画像をダウンスケーリングし、セグメンテーションが進行するにつれて１又は２以上のより細かな解像度を選択するステップと、
（ｉｉ）ジョイントベイズ分類器を用いた期待値最大化（ＥＭ）を実行して近隣の画素を前景又は背景として分類し、同時に各画素の画素色値を利用することに応答して前記オブジェクトのクラスパラメータ及びオブジェクトマスクを推定するステップと、
（ｉｉｉ）前記オブジェクトの前記セグメント化を実行しながら、二分探索を実行して最良の初期マスクサイズを決定し、前記オブジェクトの前記セグメント化中に停止基準をチェックし、ＥＭ収束に応答して正常なセグメンテーションを完了させるステップと、
（ｉｖ）前記オブジェクトのオブジェクトマスクを生成するステップと、
を含む、
ことを特徴とする装置。
前記命令は、前記プロセッサによって実行されたときに、前記前景の画像オブジェクトを前記背景から分離するセグメンテーションを実行するように構成される、
請求項１に記載の装置。
前記命令は、前記プロセッサによって実行されたときに、深度情報又はヒストグラムコントラスト情報、或いはこれらの組み合わせを含むさらなる情報に応答して、ジョイントベイズ分類器を用いた期待値最大化（ＥＭ）を実行するように構成される、
請求項１に記載の装置。
前記命令は、前記プロセッサによって実行されたときに、前記画像オブジェクトが、既知のオブジェクトの少なくとも一部を前記背景から識別するように使用される既知の特性を有する前記既知のオブジェクトであるときに、事前セグメンテーションプロセスを実行するようにさらに構成される、
請求項１に記載の装置。
前記既知のオブジェクトは、人間オブジェクト特性を有する人間である、
請求項４に記載の装置。
前記命令は、前記プロセッサによって実行されたときに、顔検出プロセスにおいて前記人間オブジェクト特性を利用して、前記人間オブジェクトを前記背景から事前にセグメント化する支援を行うように構成される、
請求項５に記載の装置。
前記命令は、前記プロセッサによって実行されたときに、検出された各顔の初期前景マスク、並びに検出された各顔の周囲の毛髪の部分に対して決定される境界、及び前記毛髪の境界を越えて初期背景領域として決定される別の境界を生成することによって前記事前セグメンテーションを実行するように構成される、
請求項６に記載の装置。
前記命令は、前記プロセッサによって実行されたときに、セグメンテーションを適用すべき前記オブジェクトを識別するための前記ユーザ選択位置に基づいて前記画像の前記セグメンテーションを実行するように構成され、前記オブジェクトのサイズ又は前記オブジェクトを取り囲む境界を前記ユーザが入力又は別様に定義することを必要としない、
請求項１に記載の装置。
前記命令は、前記プロセッサによって実行されたときに、平均二乗誤差に基づいて前景画素及び／又は背景画素の最適な適応的クラス数を推定することによってジョイントベイズ分類器を用いた期待値最大化（ＥＭ）を実行し、量子化器によって前景画素及び／又は背景画素の量子化を実行して前景領域及び／又は背景領域の初期クラスを生成し、該初期クラスから、前記前景画素が最も近い背景クラスにどれほど近いかを示す信頼マップを生成し、現在のクラスに基づいてクラスパラメータの評価及び更新を行った（Ｅステップ）後に、ジョイントベイズ分類器を用いて画素を評価して評価点における画素を分類する（Ｍステップ）ように構成される、
請求項１に記載の装置。
前記命令は、前記プロセッサによって実行されたときに、前記カラー画像が表示された画面上のタッチ入力を含む前記ユーザ選択位置に基づいて前記セグメンテーションを実行するように構成される、
請求項１に記載の装置。
画像オブジェクトを残りの画像から半自動的にセグメント化するための装置であって、
（ａ）取り込まれたカラーデジタル画像の画像処理を行い、セグメンテーションを適用すべきオブジェクトを識別するための前記カラー画像内のユーザ選択位置としてのユーザ選択入力を受け取るように構成されたプロセッサと、
（ｂ）命令を記憶するメモリと、
を備え、
（ｃ）前記命令が前記プロセッサによって実行されたときに、前記プロセッサが前記カラー画像内の前景としての前記オブジェクトをその背景からセグメント化することを実行し、前記命令は、
（ｉ）前記オブジェクトのセグメント化開始のときに前記カラー画像をダウンスケーリングし、セグメンテーションが進行するにつれて１又は２以上のより細かな解像度を選択するステップと、
（ｉｉ）ジョイントベイズ分類器を用いた期待値最大化（ＥＭ）を実行して前記ユーザ選択位置の近隣の画素を前景又は背景として分類し、同時に各画素の画素色値、深度及びヒストグラムコントラストを利用することに応答して前記オブジェクトのクラスパラメータ及びオブジェクトマスクを推定するステップと、
（ｉｉｉ）前記オブジェクトの前記セグメント化を実行しながら、二分探索を実行して最良の初期マスクサイズを決定し、前記オブジェクトの前記セグメント化中に停止基準をチェックし、ＥＭ収束に応答して正常なセグメンテーションを完了させるステップと、
（ｉｖ）前記オブジェクトのオブジェクトマスクを前記ユーザによって選択されたものとして生成するステップと、
を含む、
ことを特徴とする装置。
前記命令は、前記プロセッサによって実行されたときに、前記画像オブジェクトが、既知のオブジェクトの少なくとも一部を背景画素から識別するように使用される既知の特性を有する前記既知のオブジェクトであるときに、事前セグメンテーションプロセスを実行するようにさらに構成される、
請求項１１に記載の装置。
前記既知のオブジェクトは、人間オブジェクト特性を有する人間である、
請求項１２に記載の装置。
前記命令は、前記プロセッサによって実行されたときに、顔検出プロセスにおいて前記人間オブジェクト特性を利用して、前記人間オブジェクトを前記背景から事前にセグメント化する支援を行うように構成される、
請求項１３に記載の装置。
前記命令は、前記プロセッサによって実行されたときに、検出された各顔の初期前景マスク、並びに検出された各顔の周囲の毛髪の部分に対して決定される境界、及び前記毛髪の境界を越えて初期背景領域として決定される別の境界を生成することによって前記事前セグメンテーションを実行するように構成される、
請求項１４に記載の装置。
前記命令は、前記プロセッサによって実行されたときに、セグメンテーションを適用すべき前記オブジェクトを識別するための前記ユーザ選択位置に基づいて前記画像の前記セグメンテーションを実行するように構成され、前記オブジェクトのサイズ又は前記オブジェクトを取り囲む境界を前記ユーザが入力又は別様に定義することを必要としない、
請求項１１に記載の装置。
前記命令は、前記プロセッサによって実行されたときに、平均二乗誤差に基づいて前景画素及び／又は背景画素の最適な適応的クラス数を推定することによってジョイントベイズ分類器を用いた期待値最大化（ＥＭ）を実行し、量子化器によって前景画素及び／又は背景画素を量子化して前景領域及び／又は背景領域の初期クラスを生成し、該初期クラスから、前記前景画素が最も近い背景クラスにどれほど近いかを示す信頼マップを生成し、現在のクラスに基づいてクラスパラメータの評価及び更新を行った（Ｅステップ）後に、ジョイントベイズ分類器を用いて画素を評価して評価点における画素を分類する（Ｍステップ）ように構成される、
請求項１１に記載の装置。
前記命令は、前記プロセッサによって実行されたときに、前記カラー画像が表示された画面上のタッチ入力を含む前記ユーザ選択位置に基づいて前記セグメンテーションを実行するように構成される、
請求項１１に記載の装置。
画像オブジェクトを残りの画像から半自動的にセグメント化する方法であって、
（ａ）画像処理機能を実行するように構成された画像処理装置内でカラー画像を受け取るステップと、
（ｂ）セグメンテーションを適用すべきオブジェクトを識別するための前記カラー画像内のユーザ選択位置としてのユーザ選択入力を受け取るステップと、
（ｃ）前記カラー画像内の前景としての前記オブジェクトをその背景からセグメント化するステップと、
を含み、前記ステップ（ｃ）は、
（ｉ）前記オブジェクトのセグメント化開始のときに前記カラー画像をダウンスケーリングし、セグメンテーションが進行するにつれて１又は２以上のより細かな解像度を選択するステップと、
（ｉｉ）前記ユーザ選択位置に近接する、又はその周囲の前記オブジェクトのサイズ、形状及び色数を推定し、前記前景又は前記背景のいずれであるかに関わらず、近隣の画素がどの領域に属するかを決定するステップと、
（ｉｉｉ）ジョイントベイズ分類器を用いた期待値最大化（ＥＭ）を実行して近隣の画素を前景又は背景として分類し、同時に前記オブジェクトのクラスパラメータ及びオブジェクトマスクを推定するステップと、
（ｉｖ）前記オブジェクトの前記セグメント化を実行しながら、二分探索を実行して最良の初期の円形のマスクサイズを決定し、前記オブジェクトの前記セグメント化中に停止基準をチェックし、ＥＭ収束に応答して正常なセグメンテーションを完了させるステップと、
（ｖ）前記オブジェクトのオブジェクトマスクを前記ユーザによって選択されたものとして生成するステップと、
を含む、
ことを特徴とする方法。
前記セグメンテーションは、前記前景の画像オブジェクトを前記背景から分離するように構成される、
請求項１９に記載の方法。
セグメンテーションを実行する際に、セグメンテーション精度の向上に向けて、各画素の深度情報又はヒストグラムコントラスト情報、或いはこれらの組み合わせを利用して前記前景を前記背景から識別するステップをさらに含む、
請求項１９に記載の方法。
前記画像オブジェクトは、既知のオブジェクトの少なくとも一部を背景画素から識別する事前セグメンテーションプロセスにおいて利用される既知の特性を有する既知のオブジェクトである、
請求項１９に記載の方法。
前記既知のオブジェクトは、人間オブジェクト特性を有する人間である、
請求項２２に記載の方法。
前記人間オブジェクトを前記背景から事前にセグメント化する支援を行うように顔検出プロセスを利用する、
請求項２３に記載の方法。
前記オブジェクトが、検出された各顔に初期前景マスク、並びに各検出された顔の周囲の毛髪の部分に対して決定される境界、及び前記毛髪の境界を越えて初期背景領域として決定される別の境界が生成された人間オブジェクトである場合、事前セグメンテーションプロセスを実行するステップをさらに含む、
請求項１９に記載の方法。
セグメンテーションを適用すべきオブジェクトを識別するための前記カラー画像内の前記ユーザ選択位置は、前記オブジェクトのサイズ又は前記オブジェクトを取り囲む境界を前記ユーザが入力又は別様に定義することを必要としない、
請求項１９に記載の方法。
ジョイントベイズ分類器を用いた期待値最大化（ＥＭ）の実行中に、平均二乗誤差に基づいて前景画素及び／又は背景画素の最適な適応的クラス数を推定し、量子化器によって前景画素及び／又は背景画素で量子化を実行して前景領域及び／又は背景領域の初期クラスを生成し、該初期クラスから、前記前景画素が最も近い背景クラスにどれほど近いかを示す信頼マップを生成し、現在のクラスに基づいてクラスパラメータの評価及び更新を行った（Ｅステップ）後に、ジョイントベイズ分類器を用いて画素を評価して評価点における画素を分類する（Ｍステップ）、
請求項１９に記載の方法。
前記ユーザ選択位置は、前記カラー画像が表示された画面上のタッチ入力を含む、
請求項１９に記載の方法。