JP2018524732A - 半自動画像セグメンテーション - Google Patents
半自動画像セグメンテーション Download PDFInfo
- Publication number
- JP2018524732A JP2018524732A JP2018500651A JP2018500651A JP2018524732A JP 2018524732 A JP2018524732 A JP 2018524732A JP 2018500651 A JP2018500651 A JP 2018500651A JP 2018500651 A JP2018500651 A JP 2018500651A JP 2018524732 A JP2018524732 A JP 2018524732A
- Authority
- JP
- Japan
- Prior art keywords
- segmentation
- background
- foreground
- image
- pixels
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/40—Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/04842—Selection of displayed objects or displayed text elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/143—Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/94—Hardware or software architectures specially adapted for image or video understanding
- G06V10/945—User interactive design; Environments; Toolboxes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/248—Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
- G06V30/2504—Coarse or fine approaches, e.g. resolution of ambiguities or multiscale approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/162—Detection; Localisation; Normalisation using pixel segmentation or colour matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20076—Probabilistic image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20092—Interactive image processing based on input by user
- G06T2207/20101—Interactive definition of point of interest, landmark or seed
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30232—Surveillance
Abstract
【選択図】図4
Description
該当なし
該当なし
該当なし
本特許文献中の資料の一部は、アメリカ合衆国及びその他の国の著作権法に従って著作権保護を受ける。著作権の権利所有者は、合衆国特許商標庁の一般公開ファイル又は記録内に表される通りに第三者が特許文献又は特許開示を複製することには異議を唱えないが、それ以外は全ての著作権を留保する。著作権所有者は、限定するわけではないが米国特許法施行規則§1.14に従う権利を含め、本特許文献を秘密裏に保持しておく権利のいずれも本明細書によって放棄するものではない。
本開示(システム/方法/装置)は、色ヒストグラムのコントラストによる顕著性検出のいくつかの要素を利用して、背景技術に見られるセグメンテーションの課題を克服するものである。
本開示は、本明細書において人間オブジェクトとして例示する既知のオブジェクトと、本明細書において非人間オブジェクトとして例示する未知のオブジェクトという2つのタイプのオブジェクトを考慮するように構成される。これらの異なるオブジェクトタイプには、2つの異なるけれども同様の方法を利用する。
特に、ユーザ入力などに応じて、オブジェクトのサイズ及び形状、色数(すなわち、クラスパラメータ)を含む重要な情報がシステムに提供されない場合には、シングルタッチセグメンテーションの問題が課題となる。クラス情報(パラメータ)のない分類問題は、教師なし分類問題と呼ばれる。システムは、セグメンテーション問題の解決において、画素を分類してクラスパラメータを同時に推定するように構成される。1つの問題解決方法は、期待値最大化(EM)アルゴリズムと呼ばれる。本開示では、この方法を利用して、本開示の実施形態によるジョイントベイズ分類器を用いてクラスパラメータ及びオブジェクトマスクを推定する。
セグメンテーションプロセスの安定性を改善して計算コストを抑えるために、マルチスケールスキームに依拠する。このマルチスケールプロセスでは、マスクを粗い解像度で推定した後に、より細かな解像度に徐々に精細化する。16分の1(1/16)の解像度にダウンスケーリングする例を示すが、本開示の実施形態は、入力画像を64分の1(1/64)の解像度にダウンスケーリングするようにも構成される。本開示は、本開示の教示から逸脱することなくあらゆる実用的レベルへのダウンスケーリングを利用することができると理解されたい。
実際のセグメンテーションを実行する前に、システムは、本明細書では顔検出プロセス(方法)を用いて人間オブジェクトについて例示する既知のオブジェクト検出プロセスを実行して、所与の画像内に存在する可能性のあるあらゆる顔を発見する。検出された顔を使用して、関連する人間オブジェクトを事前にセグメント化する。次に、ユーザ選択点がいずれかの人間オブジェクトの領域内に存在するかどうかを判定する。選択点がこれらの人間オブジェクトのうちの1つの中に存在する場合、事前にセグメント化した結果を用いてオブジェクトマスクを初期化し、その後にオブジェクトマスクをより細かな解像度に精細化する。本開示の少なくとも1つの実施形態では、歩行者(全身人間)検出プロセス又はその他のオブジェクト検出方法を利用して、特定のオブジェクトの位置及びサイズを識別することができる。なお、顔検出プロセスは一例に過ぎず、当業者であれば、本開示から逸脱することなく、限定するわけではないが車両検出及び歩行者(全身人間)などを含む他の形のオブジェクト検出が利用可能であり、これらを同様に利用することもできると理解するであろう。
この方法は、未知のオブジェクトについて、まずセグメンテーションプロセスに何らかの停止基準を設定した二分探索法によって最良の円形初期マスクサイズを検索する。セグメンテーションは、EM法が収束した時にのみ正常に終了する。最適な初期マスクサイズは、セグメンテーションプロセスがどのように終了したかに基づいて決定される。
図2A〜図2Bに、本開示による半自動セグメンテーションプロセスの実施形態例10を示す。カラー画像などのオリジナル入力データ12を、好ましくは深度マップ及びヒストグラムコントラスト、並びにユーザ選択点(x、y画像座標)と共に受け取り、これを複数の画像ダウンサンプリング段階を実行する画像ピラミッド構築部14に提供する(13)。第1のダウンサンプリング16を実行し、オリジナル解像度の4分の1(1/4)、すなわち水平方向及び垂直方向の各々に2分の1(1/2)解像度だけ低減したものとして例示するような低解像度の画像を出力する(18)。次に第2のダウンサンプリング20を実行して、本明細書ではオリジナル画像解像度の16分の1(1/16)として示す、やはり低解像度を出力する(22)。いくつかの実施形態では、1段階当たりのダウンサンプリング量を増加させ、又はダウンサンプリングの段階数を増加させることにより、画像をさらにダウンサンプリングすることもできる。ダウンサンプリングレベルを増加させると、入力画像が非常に高い画素数(例えば、高解像度又は大きな画像サイズ)を有する場合に特に有用である。このダウンスケーリング画像に対して、既知のオブジェクトセグメンテーション24を実行する。このセグメンテーションは、本明細書では人間オブジェクトを考慮するように例示する、既知のオブジェクトの事前セグメンテーションである。ユーザが後続のセグメンテーション決定において異なる画像位置を選択した場合、この事前セグメンテーションの結果がメモリに記憶される。ユーザ選択点がいずれかの既知のオブジェクト内に存在するかどうかを判定する(26)。存在する場合(36)には、事前にセグメントした結果からユーザが選択したオブジェクトのセグメンテーションマスクを取得するオブジェクトマスク生成38を実行してオブジェクトマスクを生成する(40)。オブジェクトが既知のオブジェクトでない(ユーザが未知のタイプのオブジェクトを選択(例えば、タッチ)した)場合(28)には、図4に示すような未知のオブジェクトセグメンテーションプロセス30を実行する。未知のオブジェクトセグメンテーションに失敗した(32)場合には、ユーザ選択点の周囲の所与の範囲を取り囲む円形マスクなどのデフォルトマスクが戻される。そうでなければ、未知のオブジェクトのオブジェクトマスクが生成される(34)。その後、オブジェクトが既知であるか、それとも未知であるかに関わらず、最近傍法などによってオブジェクトマスクをアップスケーリングして(42)マスクを出力する(44)。なお、この例によれば、マスクは依然として4分の1(1/4)解像度などの低解像度である。
図7A〜図7Fに、本開示による人間オブジェクトの半自動セグメンテーションの例を示す。図7Aには、人間オブジェクトの初期背景210を選択する第1のステップを示す。次に、顔の検出に応答して、顔の周囲212にボックスが描かれ、毛髪領域の周囲に背景領域のためのボックス描かれる(214)。図7Bでは、背景がグレー218、顔及び毛髪領域(前景)が白220、関心領域の外側が黒色範囲216である初期2値セグメンテーションマスクを生成する第2のステップを示す。図7Cには、本開示のジョイントベイズ分類器(JBC)を用いて初期2値セグメンテーションマスクを精細化する第3のステップを示す。前景領域が現在のROIのエッジに達した場合、又は近すぎる場合には、左向き、右向き、上向き及び下向きに拡大する関心領域(ROI)が示される。図7Dに、拡大されたオブジェクト範囲を示しており、これ自体をさらに拡大することもできる。図7Eには、停止基準の1つが満たされた時にセグメンテーションが終了する第4のステップを示す。図7Fには、推定されるセグメンテーションマスクの2値化に応答して人間オブジェクトを分離する、生成されたオブジェクトマスクを示す。
上述したように、本開示の半自動セグメンテーションプロセスは、デジタルカメラ、又は画像を処理するように構成されたその他のコンピュータ装置内で応用することができる。開示したセグメンテーションの実装では、ヒストグラムコントラストを計算する関数を利用する。深度は別個の出願によって推定され、深度情報が利用可能でない場合、本開示の少なくとも1つの実施形態は、深度情報を使用せずにオブジェクトマスクを推定する。本開示は、背景からのオブジェクトのセグメント化、又は選択されたオブジェクトからの背景のセグメント化に加えて、ビデオ調査の分野、及びロボット産業における機械視野の分野などの他の用途で利用することもできる。
提示した技術において説明した拡張は、様々な画像処理システム内に容易に実装することができる。特に、処理オーバヘッド要件は、ディスプレイ及びユーザインターフェイスを有するデジタルカメラ装置又は携帯電話機内で本方法を実行できるほど十分に低い。また、デジタルカメラ及び携帯電話機、並びに他の画像処理装置は、1又は2以上のコンピュータプロセッサ装置(例えば、CPU、マイクロプロセッサ、マイクロコントローラ、コンピュータ対応ASICなど)及び関連するメモリ(例えば、RAM、DRAM、NVRAM、FLASH、コンピュータ可読媒体など)を含むように実装されることにより、メモリに記憶されてプロセッサ上で実行可能なプログラムが、本明細書で説明した様々なプロセス法のステップを実行することが好ましいと理解されたい。提示した技術は、メモリ及びコンピュータ可読媒体が非一時的なものであり、従って一時的電子信号を構成しない限り、これらに関して限定されるものではない。
92 最大及び最小マスク直径 dmax、dmin
94 n=1〜Nの場合
96 d=(dmax、dmin)/2による初期円形マスク生成
98 ユーザ選択点
100 セグメンテーション
102 1/16解像度のダウンスケーリング画像、深度及びヒストグラムコントラスト
104 成功か?
106 はい
108 いいえ
110 失敗したセグメンテーションのための処理
112 円形マスクを出力
114 次のn
116 n>N?
118 いいえ
120 はい
Claims (28)
- 画像オブジェクトを残りの画像から半自動的にセグメント化するための装置であって、
(a)取り込まれたカラーデジタル画像の画像処理を行い、セグメンテーションを適用すべきオブジェクトを識別するための前記カラー画像内のユーザ選択位置としてのユーザ選択入力を受け取るように構成されたプロセッサと、
(b)命令を記憶するメモリと、
を備え、
(c)前記命令が前記プロセッサによって実行されたときに、前記プロセッサが前記カラー画像内の前景としての前記オブジェクトをその背景からセグメント化することを実行し、前記命令は、
(i)前記オブジェクトのセグメント化開始のときに前記カラー画像をダウンスケーリングし、セグメンテーションが進行するにつれて1又は2以上のより細かな解像度を選択するステップと、
(ii)ジョイントベイズ分類器を用いた期待値最大化(EM)を実行して近隣の画素を前景又は背景として分類し、同時に各画素の画素色値を利用することに応答して前記オブジェクトのクラスパラメータ及びオブジェクトマスクを推定するステップと、
(iii)前記オブジェクトの前記セグメント化を実行しながら、二分探索を実行して最良の初期マスクサイズを決定し、前記オブジェクトの前記セグメント化中に停止基準をチェックし、EM収束に応答して正常なセグメンテーションを完了させるステップと、
(iv)前記オブジェクトのオブジェクトマスクを生成するステップと、
を含む、
ことを特徴とする装置。 - 前記命令は、前記プロセッサによって実行されたときに、前記前景の画像オブジェクトを前記背景から分離するセグメンテーションを実行するように構成される、
請求項1に記載の装置。 - 前記命令は、前記プロセッサによって実行されたときに、深度情報又はヒストグラムコントラスト情報、或いはこれらの組み合わせを含むさらなる情報に応答して、ジョイントベイズ分類器を用いた期待値最大化(EM)を実行するように構成される、
請求項1に記載の装置。 - 前記命令は、前記プロセッサによって実行されたときに、前記画像オブジェクトが、既知のオブジェクトの少なくとも一部を前記背景から識別するように使用される既知の特性を有する前記既知のオブジェクトであるときに、事前セグメンテーションプロセスを実行するようにさらに構成される、
請求項1に記載の装置。 - 前記既知のオブジェクトは、人間オブジェクト特性を有する人間である、
請求項4に記載の装置。 - 前記命令は、前記プロセッサによって実行されたときに、顔検出プロセスにおいて前記人間オブジェクト特性を利用して、前記人間オブジェクトを前記背景から事前にセグメント化する支援を行うように構成される、
請求項5に記載の装置。 - 前記命令は、前記プロセッサによって実行されたときに、検出された各顔の初期前景マスク、並びに検出された各顔の周囲の毛髪の部分に対して決定される境界、及び前記毛髪の境界を越えて初期背景領域として決定される別の境界を生成することによって前記事前セグメンテーションを実行するように構成される、
請求項6に記載の装置。 - 前記命令は、前記プロセッサによって実行されたときに、セグメンテーションを適用すべき前記オブジェクトを識別するための前記ユーザ選択位置に基づいて前記画像の前記セグメンテーションを実行するように構成され、前記オブジェクトのサイズ又は前記オブジェクトを取り囲む境界を前記ユーザが入力又は別様に定義することを必要としない、
請求項1に記載の装置。 - 前記命令は、前記プロセッサによって実行されたときに、平均二乗誤差に基づいて前景画素及び/又は背景画素の最適な適応的クラス数を推定することによってジョイントベイズ分類器を用いた期待値最大化(EM)を実行し、量子化器によって前景画素及び/又は背景画素の量子化を実行して前景領域及び/又は背景領域の初期クラスを生成し、該初期クラスから、前記前景画素が最も近い背景クラスにどれほど近いかを示す信頼マップを生成し、現在のクラスに基づいてクラスパラメータの評価及び更新を行った(Eステップ)後に、ジョイントベイズ分類器を用いて画素を評価して評価点における画素を分類する(Mステップ)ように構成される、
請求項1に記載の装置。 - 前記命令は、前記プロセッサによって実行されたときに、前記カラー画像が表示された画面上のタッチ入力を含む前記ユーザ選択位置に基づいて前記セグメンテーションを実行するように構成される、
請求項1に記載の装置。 - 画像オブジェクトを残りの画像から半自動的にセグメント化するための装置であって、
(a)取り込まれたカラーデジタル画像の画像処理を行い、セグメンテーションを適用すべきオブジェクトを識別するための前記カラー画像内のユーザ選択位置としてのユーザ選択入力を受け取るように構成されたプロセッサと、
(b)命令を記憶するメモリと、
を備え、
(c)前記命令が前記プロセッサによって実行されたときに、前記プロセッサが前記カラー画像内の前景としての前記オブジェクトをその背景からセグメント化することを実行し、前記命令は、
(i)前記オブジェクトのセグメント化開始のときに前記カラー画像をダウンスケーリングし、セグメンテーションが進行するにつれて1又は2以上のより細かな解像度を選択するステップと、
(ii)ジョイントベイズ分類器を用いた期待値最大化(EM)を実行して前記ユーザ選択位置の近隣の画素を前景又は背景として分類し、同時に各画素の画素色値、深度及びヒストグラムコントラストを利用することに応答して前記オブジェクトのクラスパラメータ及びオブジェクトマスクを推定するステップと、
(iii)前記オブジェクトの前記セグメント化を実行しながら、二分探索を実行して最良の初期マスクサイズを決定し、前記オブジェクトの前記セグメント化中に停止基準をチェックし、EM収束に応答して正常なセグメンテーションを完了させるステップと、
(iv)前記オブジェクトのオブジェクトマスクを前記ユーザによって選択されたものとして生成するステップと、
を含む、
ことを特徴とする装置。 - 前記命令は、前記プロセッサによって実行されたときに、前記画像オブジェクトが、既知のオブジェクトの少なくとも一部を背景画素から識別するように使用される既知の特性を有する前記既知のオブジェクトであるときに、事前セグメンテーションプロセスを実行するようにさらに構成される、
請求項11に記載の装置。 - 前記既知のオブジェクトは、人間オブジェクト特性を有する人間である、
請求項12に記載の装置。 - 前記命令は、前記プロセッサによって実行されたときに、顔検出プロセスにおいて前記人間オブジェクト特性を利用して、前記人間オブジェクトを前記背景から事前にセグメント化する支援を行うように構成される、
請求項13に記載の装置。 - 前記命令は、前記プロセッサによって実行されたときに、検出された各顔の初期前景マスク、並びに検出された各顔の周囲の毛髪の部分に対して決定される境界、及び前記毛髪の境界を越えて初期背景領域として決定される別の境界を生成することによって前記事前セグメンテーションを実行するように構成される、
請求項14に記載の装置。 - 前記命令は、前記プロセッサによって実行されたときに、セグメンテーションを適用すべき前記オブジェクトを識別するための前記ユーザ選択位置に基づいて前記画像の前記セグメンテーションを実行するように構成され、前記オブジェクトのサイズ又は前記オブジェクトを取り囲む境界を前記ユーザが入力又は別様に定義することを必要としない、
請求項11に記載の装置。 - 前記命令は、前記プロセッサによって実行されたときに、平均二乗誤差に基づいて前景画素及び/又は背景画素の最適な適応的クラス数を推定することによってジョイントベイズ分類器を用いた期待値最大化(EM)を実行し、量子化器によって前景画素及び/又は背景画素を量子化して前景領域及び/又は背景領域の初期クラスを生成し、該初期クラスから、前記前景画素が最も近い背景クラスにどれほど近いかを示す信頼マップを生成し、現在のクラスに基づいてクラスパラメータの評価及び更新を行った(Eステップ)後に、ジョイントベイズ分類器を用いて画素を評価して評価点における画素を分類する(Mステップ)ように構成される、
請求項11に記載の装置。 - 前記命令は、前記プロセッサによって実行されたときに、前記カラー画像が表示された画面上のタッチ入力を含む前記ユーザ選択位置に基づいて前記セグメンテーションを実行するように構成される、
請求項11に記載の装置。 - 画像オブジェクトを残りの画像から半自動的にセグメント化する方法であって、
(a)画像処理機能を実行するように構成された画像処理装置内でカラー画像を受け取るステップと、
(b)セグメンテーションを適用すべきオブジェクトを識別するための前記カラー画像内のユーザ選択位置としてのユーザ選択入力を受け取るステップと、
(c)前記カラー画像内の前景としての前記オブジェクトをその背景からセグメント化するステップと、
を含み、前記ステップ(c)は、
(i)前記オブジェクトのセグメント化開始のときに前記カラー画像をダウンスケーリングし、セグメンテーションが進行するにつれて1又は2以上のより細かな解像度を選択するステップと、
(ii)前記ユーザ選択位置に近接する、又はその周囲の前記オブジェクトのサイズ、形状及び色数を推定し、前記前景又は前記背景のいずれであるかに関わらず、近隣の画素がどの領域に属するかを決定するステップと、
(iii)ジョイントベイズ分類器を用いた期待値最大化(EM)を実行して近隣の画素を前景又は背景として分類し、同時に前記オブジェクトのクラスパラメータ及びオブジェクトマスクを推定するステップと、
(iv)前記オブジェクトの前記セグメント化を実行しながら、二分探索を実行して最良の初期の円形のマスクサイズを決定し、前記オブジェクトの前記セグメント化中に停止基準をチェックし、EM収束に応答して正常なセグメンテーションを完了させるステップと、
(v)前記オブジェクトのオブジェクトマスクを前記ユーザによって選択されたものとして生成するステップと、
を含む、
ことを特徴とする方法。 - 前記セグメンテーションは、前記前景の画像オブジェクトを前記背景から分離するように構成される、
請求項19に記載の方法。 - セグメンテーションを実行する際に、セグメンテーション精度の向上に向けて、各画素の深度情報又はヒストグラムコントラスト情報、或いはこれらの組み合わせを利用して前記前景を前記背景から識別するステップをさらに含む、
請求項19に記載の方法。 - 前記画像オブジェクトは、既知のオブジェクトの少なくとも一部を背景画素から識別する事前セグメンテーションプロセスにおいて利用される既知の特性を有する既知のオブジェクトである、
請求項19に記載の方法。 - 前記既知のオブジェクトは、人間オブジェクト特性を有する人間である、
請求項22に記載の方法。 - 前記人間オブジェクトを前記背景から事前にセグメント化する支援を行うように顔検出プロセスを利用する、
請求項23に記載の方法。 - 前記オブジェクトが、検出された各顔に初期前景マスク、並びに各検出された顔の周囲の毛髪の部分に対して決定される境界、及び前記毛髪の境界を越えて初期背景領域として決定される別の境界が生成された人間オブジェクトである場合、事前セグメンテーションプロセスを実行するステップをさらに含む、
請求項19に記載の方法。 - セグメンテーションを適用すべきオブジェクトを識別するための前記カラー画像内の前記ユーザ選択位置は、前記オブジェクトのサイズ又は前記オブジェクトを取り囲む境界を前記ユーザが入力又は別様に定義することを必要としない、
請求項19に記載の方法。 - ジョイントベイズ分類器を用いた期待値最大化(EM)の実行中に、平均二乗誤差に基づいて前景画素及び/又は背景画素の最適な適応的クラス数を推定し、量子化器によって前景画素及び/又は背景画素で量子化を実行して前景領域及び/又は背景領域の初期クラスを生成し、該初期クラスから、前記前景画素が最も近い背景クラスにどれほど近いかを示す信頼マップを生成し、現在のクラスに基づいてクラスパラメータの評価及び更新を行った(Eステップ)後に、ジョイントベイズ分類器を用いて画素を評価して評価点における画素を分類する(Mステップ)、
請求項19に記載の方法。 - 前記ユーザ選択位置は、前記カラー画像が表示された画面上のタッチ入力を含む、
請求項19に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/804,433 | 2015-07-21 | ||
US14/804,433 US9443316B1 (en) | 2015-07-21 | 2015-07-21 | Semi-automatic image segmentation |
PCT/US2016/042510 WO2017015117A1 (en) | 2015-07-21 | 2016-07-15 | Semi-automatic image segmentation |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018524732A true JP2018524732A (ja) | 2018-08-30 |
JP6547990B2 JP6547990B2 (ja) | 2019-07-24 |
Family
ID=56881404
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018500651A Active JP6547990B2 (ja) | 2015-07-21 | 2016-07-15 | 半自動画像セグメンテーション |
Country Status (6)
Country | Link |
---|---|
US (1) | US9443316B1 (ja) |
EP (1) | EP3332356B1 (ja) |
JP (1) | JP6547990B2 (ja) |
KR (1) | KR101989756B1 (ja) |
CN (1) | CN107710228B (ja) |
WO (1) | WO2017015117A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020174862A1 (ja) * | 2019-02-28 | 2020-09-03 | ソニー株式会社 | 情報処理装置、情報処理方法および情報処理システム |
JP2022528294A (ja) * | 2019-07-15 | 2022-06-09 | グーグル エルエルシー | 深度を利用した映像背景減算法 |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103489107B (zh) * | 2013-08-16 | 2015-11-25 | 北京京东尚科信息技术有限公司 | 一种制作虚拟试衣模特图像的方法和装置 |
KR102161052B1 (ko) * | 2013-08-27 | 2020-09-29 | 삼성전자주식회사 | 영상에서 객체를 분리하는 방법 및 장치. |
AU2015212984A1 (en) * | 2014-01-28 | 2016-06-23 | Ventana Medical Systems, Inc. | Adaptive classification for whole slide tissue segmentation |
US10091435B2 (en) * | 2016-06-07 | 2018-10-02 | Disney Enterprises, Inc. | Video segmentation from an uncalibrated camera array |
US10692220B2 (en) * | 2017-10-18 | 2020-06-23 | International Business Machines Corporation | Object classification based on decoupling a background from a foreground of an image |
CN109993824B (zh) * | 2017-12-29 | 2023-08-04 | 深圳市优必选科技有限公司 | 图像处理方法、智能终端及具有存储功能的装置 |
US10515463B2 (en) * | 2018-04-20 | 2019-12-24 | Sony Corporation | Object segmentation in a sequence of color image frames by background image and background depth correction |
KR20200013453A (ko) * | 2018-07-30 | 2020-02-07 | 삼성전자주식회사 | 3차원 영상 표시 장치 및 영상 처리 방법 |
CN110889851B (zh) * | 2018-09-11 | 2023-08-01 | 苹果公司 | 针对深度和视差估计的语义分割的稳健用途 |
CN111223118A (zh) * | 2018-11-27 | 2020-06-02 | 富士通株式会社 | 图像处理装置、图像处理方法及计算机可读记录介质 |
US10839517B2 (en) * | 2019-02-21 | 2020-11-17 | Sony Corporation | Multiple neural networks-based object segmentation in a sequence of color image frames |
US11107219B2 (en) | 2019-07-22 | 2021-08-31 | Adobe Inc. | Utilizing object attribute detection models to automatically select instances of detected objects in images |
US11631234B2 (en) | 2019-07-22 | 2023-04-18 | Adobe, Inc. | Automatically detecting user-requested objects in images |
KR20210027894A (ko) * | 2019-09-03 | 2021-03-11 | 삼성전자주식회사 | 주행 보조 시스템, 전자 장치 및 그 동작 방법 |
CN111028261B (zh) * | 2019-11-15 | 2023-03-17 | 五邑大学 | 高精度半自动化图像数据标注方法、电子装置及存储介质 |
US11468110B2 (en) | 2020-02-25 | 2022-10-11 | Adobe Inc. | Utilizing natural language processing and multiple object detection models to automatically select objects in images |
US11055566B1 (en) | 2020-03-12 | 2021-07-06 | Adobe Inc. | Utilizing a large-scale object detector to automatically select objects in digital images |
CN111833239B (zh) * | 2020-06-01 | 2023-08-01 | 北京百度网讯科技有限公司 | 图像的翻译方法和装置、图像翻译模型的训练方法和装置 |
CN112215769A (zh) * | 2020-10-09 | 2021-01-12 | 深圳开立生物医疗科技股份有限公司 | 一种超声图像处理方法、装置及超声设备和存储介质 |
CN112529914B (zh) * | 2020-12-18 | 2021-08-13 | 北京中科深智科技有限公司 | 一种实时头发分割方法和系统 |
US11587234B2 (en) | 2021-01-15 | 2023-02-21 | Adobe Inc. | Generating class-agnostic object masks in digital images |
KR102336480B1 (ko) * | 2021-03-04 | 2021-12-07 | 주식회사 스누아이랩 | 자동 세그먼트 분류를 위한 영상처리장치 및 그 장치의 구동방법 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008257693A (ja) * | 2007-04-05 | 2008-10-23 | Mitsubishi Electric Research Laboratories Inc | シーン中に置き去りにされた物体を検出する方法 |
JP2014102820A (ja) * | 2012-10-19 | 2014-06-05 | Csr Technology Inc | 撮像装置上における自動シネマグラフの作成方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7203360B2 (en) | 2003-04-09 | 2007-04-10 | Lee Shih-Jong J | Learnable object segmentation |
US7876947B2 (en) | 2007-10-10 | 2011-01-25 | Siemens Medical Solutions Usa, Inc. | System and method for detecting tagged material using alpha matting |
US20140321756A9 (en) * | 2008-05-27 | 2014-10-30 | Samsung Electronics Co., Ltd. | System and method for circling detection based on object trajectory |
CN101588459B (zh) * | 2009-06-26 | 2011-01-05 | 北京交通大学 | 一种视频抠像处理方法 |
CN101814183B (zh) * | 2010-01-08 | 2012-03-28 | 清华大学 | 用于图像分割的方法及系统 |
GB201209382D0 (en) | 2012-05-25 | 2012-07-11 | Poikos Ltd | Body measurement |
CN102663757A (zh) * | 2012-04-20 | 2012-09-12 | 西安电子科技大学 | 基于核传递的半自动图像分割方法 |
CN104063876B (zh) * | 2014-01-10 | 2017-02-01 | 北京理工大学 | 一种交互式图像分割方法 |
-
2015
- 2015-07-21 US US14/804,433 patent/US9443316B1/en active Active
-
2016
- 2016-07-15 WO PCT/US2016/042510 patent/WO2017015117A1/en active Application Filing
- 2016-07-15 EP EP16828308.3A patent/EP3332356B1/en active Active
- 2016-07-15 KR KR1020187000532A patent/KR101989756B1/ko active IP Right Grant
- 2016-07-15 CN CN201680039591.0A patent/CN107710228B/zh active Active
- 2016-07-15 JP JP2018500651A patent/JP6547990B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008257693A (ja) * | 2007-04-05 | 2008-10-23 | Mitsubishi Electric Research Laboratories Inc | シーン中に置き去りにされた物体を検出する方法 |
JP2014102820A (ja) * | 2012-10-19 | 2014-06-05 | Csr Technology Inc | 撮像装置上における自動シネマグラフの作成方法 |
Non-Patent Citations (2)
Title |
---|
CHAD CARSON, 外3名: ""Blobworld:image segmentation using expectation-maximization and its application to image querying"", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, vol. 第24巻, 第8号, JPN6019008599, 7 November 2002 (2002-11-07), pages 1026 - 1038, ISSN: 0003995021 * |
STUART GEMAN, 外1名: ""Stochastic relaxation, gibbs distributions, and the bayesian restoration of images"", IEEE TRANSACTION ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, vol. 第PAMI−6巻, 第6号, JPN6019008600, November 1984 (1984-11-01), pages 721 - 741, ISSN: 0003995022 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020174862A1 (ja) * | 2019-02-28 | 2020-09-03 | ソニー株式会社 | 情報処理装置、情報処理方法および情報処理システム |
JP2022528294A (ja) * | 2019-07-15 | 2022-06-09 | グーグル エルエルシー | 深度を利用した映像背景減算法 |
JP7110502B2 (ja) | 2019-07-15 | 2022-08-01 | グーグル エルエルシー | 深度を利用した映像背景減算法 |
US11727577B2 (en) | 2019-07-15 | 2023-08-15 | Google Llc | Video background subtraction using depth |
Also Published As
Publication number | Publication date |
---|---|
EP3332356A1 (en) | 2018-06-13 |
CN107710228A (zh) | 2018-02-16 |
WO2017015117A1 (en) | 2017-01-26 |
KR101989756B1 (ko) | 2019-06-14 |
KR20180017097A (ko) | 2018-02-20 |
US9443316B1 (en) | 2016-09-13 |
CN107710228B (zh) | 2021-11-12 |
JP6547990B2 (ja) | 2019-07-24 |
EP3332356A4 (en) | 2019-03-20 |
EP3332356B1 (en) | 2021-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6547990B2 (ja) | 半自動画像セグメンテーション | |
CN110717489B (zh) | Osd的文字区域的识别方法、装置及存储介质 | |
Zhang et al. | Image segmentation based on 2D Otsu method with histogram analysis | |
US9922425B2 (en) | Video segmentation method | |
JP5223675B2 (ja) | 車両検知装置,車両検知方法並びに車両検知プログラム | |
US9576347B2 (en) | Structure analysis method for recovering missing structures in an image after object removal | |
JP4905931B2 (ja) | 人体領域抽出方法および装置並びにプログラム | |
JP4699298B2 (ja) | 人体領域抽出方法および装置並びにプログラム | |
JP2007510993A (ja) | 画像中のオブジェクト検出 | |
TWI494899B (zh) | 影像內週期性雜訊修補方法 | |
US10079974B2 (en) | Image processing apparatus, method, and medium for extracting feature amount of image | |
Wang et al. | Car license plate detection based on MSER | |
EP2821935B1 (en) | Vehicle detection method and device | |
Gilly et al. | A survey on license plate recognition systems | |
JPWO2012046426A1 (ja) | 物体検出装置、物体検出方法および物体検出プログラム | |
WO2016059643A1 (en) | System and method for pedestrian detection | |
JP2018142828A (ja) | 付着物検出装置および付着物検出方法 | |
JP6077785B2 (ja) | 対象物検出装置及びプログラム | |
CN106780646B (zh) | 一种适用多场景的无参数背景建模方法 | |
US9437008B1 (en) | Image segmentation using bayes risk estimation of scene foreground and background | |
Allebosch et al. | Edge based Foreground Background Estimation with Interior/Exterior Classification. | |
US20240037985A1 (en) | Cascaded detection of facial attributes | |
KR102131243B1 (ko) | 딥러닝 및 연결성 그래프에 기초한 식물 영역 추출 시스템 및 방법 | |
CN112926417A (zh) | 基于深度神经网络的行人检测方法、系统、设备及介质 | |
Gopinath et al. | Deep Learning based Automated Parking Lot Space Detection using Aerial Imagery |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190313 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190513 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190529 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190611 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6547990 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |