JP2018088247A - オブジェクトセグメンテーションのための前景マスク補正のための画像処理装置及び方法 - Google Patents

オブジェクトセグメンテーションのための前景マスク補正のための画像処理装置及び方法 Download PDF

Info

Publication number
JP2018088247A
JP2018088247A JP2017219758A JP2017219758A JP2018088247A JP 2018088247 A JP2018088247 A JP 2018088247A JP 2017219758 A JP2017219758 A JP 2017219758A JP 2017219758 A JP2017219758 A JP 2017219758A JP 2018088247 A JP2018088247 A JP 2018088247A
Authority
JP
Japan
Prior art keywords
mask
image
image processing
processing apparatus
estimated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017219758A
Other languages
English (en)
Other versions
JP6501092B2 (ja
Inventor
浩行 武田
Hiroyuki Takeda
浩行 武田
ガラヴィ−アルカンサリ モハンマド
Gharavi-Alkhansari Mohammad
ガラヴィ−アルカンサリ モハンマド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JP2018088247A publication Critical patent/JP2018088247A/ja
Application granted granted Critical
Publication of JP6501092B2 publication Critical patent/JP6501092B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/80Geometric correction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • G06T5/30Erosion or dilatation, e.g. thinning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/34Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20224Image subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2211/00Image generation
    • G06T2211/40Computed tomography
    • G06T2211/428Real-time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

【課題】動くオブジェクトが存在する画像から前景オブジェクトをセグメント化する。
【解決手段】オブジェクトセグメンテーションのための前景マスク補正のための画像処理装置及び方法は、一連の画像フレームの受け取りを含む。入力画像フレームに関連する深度情報を用いて、入力画像フレームと入力画像フレームの背景(BG)画像との間の差分を2値化することによって第1の前景(FG)マスクを推定する。推定された第1のFGマスクの境界領域における、第2のマスク値に更新すべき第1のマスク値を有する第1の画素の組を識別する。推定された第1のFGマスクの境界領域における第1の画素の組の識別に基づいて第2のFGマスクを決定する。
【選択図】図4

Description

〔関連出願との相互参照/引用による組み入れ〕
なし
本開示の様々な実施形態は、オブジェクトセグメンテーションのための画像処理に関する。具体的には、本開示の様々な実施形態は、オブジェクトセグメンテーションのための前景(FG)マスク補正のための画像処理装置及び方法に関する。
最近のビデオ監視システムの分野、ロボット工学及び自動車産業分野におけるマシンビジョンシステム、及び消費者向け電子(CE)装置の進歩は、画像処理技術の急速な技術開発に因るところが大きい。このような画像処理技術の1つに、いくつかのルールに基づいて画像を複数の領域に分割することを意味できる画像セグメンテーションがある。画像又はビデオの背景から前景オブジェクトを分離するセグメンテーション法は様々なものが知られているが、達成すべき目的に基づいて、複雑度、精度、計算リソース要件が異なる。
従来のビデオセグメンテーション法において前景オブジェクトをセグメント化する共通の方法は、新たに取り込んだ画像から所定の静止した背景画像を減算するものである。減算後に残った画素に、前景としてラベル付けすることができる。所定の静止した背景画像は、ビデオセグメンテーション処理の開始時に生成される完全に静止した背景画像とすることができる。ユーザは、画像取り込み装置を用いて複数の背景シーンの画像を取り込み、これらの複数の画像の平均を取って完全に静止した背景画像を生成することができる。従って、ユーザは、所定の静止した背景画像の生成中に、取り込んだシーン内に(ユーザを含む)動くオブジェクトが存在しないことを確実にする必要がある。さらに、画像取り込み装置が元の位置からずれた場合には、再び静止した背景画像を生成する必要があり、面倒になり得る。現在のところ、前景オブジェクトをセグメント化する別の方法は、深度センサからの深度情報を使用するものである。しかしながら、ほとんどの深度センサには深刻なノイズが存在するため、深度値に大きく依拠する取得された前景オブジェクト領域の境界が滑らかでないことが多い。深度センサからの深度値が無効となる結果、前景オブジェクト領域内にいくつかの望ましくない穴が存在することもある。
当業者には、説明したシステムと、本出願の残り部分において図面を参照しながら示す本開示のいくつかの態様とを比較することにより、従来の慣習的方法のさらなる制限及び不利点が明らかになるであろう。
少なくとも1つの図に実質的に示し、及び/又はこれらの図に関連して説明し、特許請求の範囲にさらに完全に示す、オブジェクトセグメンテーションのための前景マスク補正のための画像処理装置及び方法を提供することができる。
全体を通じて同じ要素を同じ参照符号によって示す添付図面を参照しながら本開示の以下の詳細な説明を検討することにより、本開示のこれらの及びその他の特徴及び利点を理解することができる。
本開示の実施形態による、オブジェクトセグメンテーションのための前景マスク補正のための例示的なネットワーク環境を示すブロック図である。 本開示の実施形態による、オブジェクトセグメンテーションのための前景マスク補正のための例示的な画像処理装置を示すブロック図である。 本開示の実施形態による、開示するオブジェクトセグメンテーションのための前景マスク補正のための画像処理装置及び方法を実装する例示的なシナリオを示す詳細なブロック図である。 本開示の実施形態による、オブジェクトセグメンテーションのための前景マスク補正のための例示的な動作を示すフローチャートである。
オブジェクトセグメンテーションのための前景マスク補正のための画像処理装置及び方法では、様々な実装を見出すことができる。本開示の例示的な態様は、画像取り込み装置から画像処理装置によって一連の画像フレームを受け取る方法を含むことができる。受け取った一連の画像フレームのうちの入力画像フレーム内で、オブジェクトの第1の前景(FG)マスクを推定することができる。第1のFGマスクは、入力画像フレームに関連する深度情報によって推定することができる。第1のFGマスクは、入力画像フレームと入力画像フレームの背景(BG)画像との間の差分を2値化することによって推定することができる。推定された第1のFGマスクの境界領域における、第2のマスク値に更新すべき第1のマスク値を有する第1の画素の組を識別することができる。推定された第1のFGマスクの境界領域における第1の画素の組の識別に少なくとも基づいて、第2のFGマスクを決定することができる。
ある実施形態によれば、入力画像フレームは、FG領域とBG領域とに分離することができる。分離されたBG領域は、BG画像に対応することができる。第1のFGマスクを推定する顔検出技術及び/又は人体検出技術に基づいて、分離されたFG領域から除去すべき1又は2以上のFG領域を検出することができる。
ある実施形態によれば、第1の画素の組は、境界領域に関連する各画素の色成分、深度成分及び空間位置によって識別することができる。入力画像フレームから導出されたエッジ情報に基づいて、1又は2以上のFGマスク補正パラメータを決定することができる。第1の画素の組の識別は、入力画像フレームから導出されたエッジ情報にさらに基づく。
ある実施形態によれば、第2のFGマスクの決定のための、推定された第1のFGマスクに関連する誤ってラベル付けされたマスク値の補正のために、境界領域の各境界画素に平均シフトフィルタを適用することができる。平均シフトフィルタの適用中には、境界領域の近傍の特定のウィンドウサイズ内の複数のサンプルベクトルを利用することができる。複数のサンプルベクトルは、境界領域に関連する各画素の色成分、深度成分及び空間位置に対応することができる。境界領域に関連する画素の空間位置は、画素の垂直座標及び水平座標によって指定される。
ある実施形態によれば、オブジェクトの第1のFGマスクの平滑化のために、第1の特定の次元のカーネル関数を選択することができる。第1の特定の次元のカーネル関数は、推定された第1のFGマスクの第1の部分が入力画像内の一様な領域に位置する場合に選択することができる。第1のFGマスクの平滑化のための選択は、推定された第1のFGマスクの第1の部分が、入力画像フレームから導出されたオブジェクトの対応するエッジと一致できるように行うことができる。さらに、推定された第1のFGマスクの第2の部分が、入力画像フレームから導出されたオブジェクトの対応するエッジと一致する場合には、第2の特定の次元のカーネル関数を選択することができる。
ある実施形態によれば、第2のFGマスクは、推定された第1のFGマスクの境界領域における第1の画素の組の識別に基づいて決定することができる。この決定されたオブジェクトの第2のFGマスクを用いて、一連の画像フレーム内に現れるオブジェクトをリアルタイム又は近リアルタイムで動的にセグメント化することができる。BG画像は、セグメンテーション中に周期的又は非周期的に更新することができる。
図1は、本開示の実施形態による、オブジェクトセグメンテーションのためのFGマスク補正のための例示的なネットワーク環境を示すブロック図である。図1には、ネットワーク環境100を示す。ネットワーク環境100は、画像処理装置102と、画像取り込み装置104と、ディスプレイ装置106と、通信ネットワーク108と、ユーザ110などの1又は2以上のユーザとを含むことができる。画像取り込み装置104によって取り込まれた一連の画像フレーム112も示す。一連の画像フレーム112は、オブジェクト114などの1又は2以上のオブジェクトを含むことができる。画像処理装置102は、通信ネットワーク108を介して画像取り込み装置104及びディスプレイ装置106に通信可能に結合することができる。
画像処理装置102は、画像取り込み装置104から通信ネットワーク108を介して一連の画像フレームを受け取るように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。画像処理装置102は、受け取った一連の画像フレームの入力画像フレーム内のオブジェクトの(初期FGマスクなどの)第1のFGマスクを推定するように構成することができる。画像処理装置102は、推定された第1のFGマスクの境界領域におけるいくつかの画素のマスク値の識別及び補正に基づいて、(補正されたFGマスクなどの)第2のFGマスクを決定するようにさらに構成することができる。画像処理装置102の例としては、以下に限定されるわけではないが、デジタルカメラ、カムコーダ、ヘッドマウント装置(HMD)、スマートフォン、スマートメガネ、ラップトップ、タブレット、拡張現実ベースの装置、メインフレームマシン、コンピュータ装置、及び/又はその他の消費者向け電子(CE)装置を挙げることができる。
画像取り込み装置104は、一連の画像フレームを取り込むように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。画像取り込み装置104は、一連の画像フレームの取り込みを可能にできる画像感知回路を含むことができる。画像取り込み装置104は、画像取り込み装置104によって取り込まれたシーンの構成及び/又は焦点合わせを行うように構成できるファインダを含むことができる。画像取り込み装置104の例としては、以下に限定されるわけではないが、少なくともカメラ、カムコーダ、画像センサ及び/又はアクションカムを挙げることができる。
ディスプレイ装置106は、画像取り込み装置104から受け取られた一連の画像フレームをレンダリングするように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。ディスプレイ装置106は、オブジェクトの第1のFGマスク及び第2のFGマスクをレンダリングするようにさらに構成することができる。ディスプレイ装置106の例としては、以下に限定されるわけではないが、ディスプレイ画面、テレビ(TV)、ラップトップ、タブレットコンピュータ、スマートフォン及び/又は光学ヘッドマウントディスプレイ装置を挙げることができる。
通信ネットワーク108は、画像処理装置102、画像取り込み装置104及びディスプレイ装置106が互いに通信できるようにする媒体を含むことができる。通信ネットワーク108の例としては、以下に限定されるわけではないが、インターネット、クラウドネットワーク、ロングタームエボリューション(LTE)ネットワーク、無線フィデリティ(Wi−Fi)ネットワーク、無線パーソナルエリアネットワーク(WPAN)、無線ローカルエリアネットワーク(WLAN)、ローカルエリアネットワーク(LAN)、無線広域ネットワーク(WWAN)、電話回線(POTS)、及び/又はメトロポリタンエリアネットワーク(MAN)を挙げことができる。ネットワーク環境100内の様々な装置は、様々な有線及び無線通信プロトコルに従って通信ネットワーク108に接続することができる。ネットワーク環境100は、ネットワーク環境100と呼ぶこともできる。このような有線及び無線通信プロトコルの例としては、以下に限定されるわけではないが、伝送制御プロトコル及びインターネットプロトコル(TCP/IP)、ユーザデータグラムプロトコル(UDP)、ハイパーテキスト転送プロトコル(HTTP)、ハイパーテキスト転送プロトコルセキュア(HTTPS)、ファイル転送プロトコル(FTP)、ZigBee、EDGE、赤外線(IR)、IEEE802.11、802.16、セルラー通信プロトコル、及び/又はBluetooth(BT)通信プロトコル、及び/又はこれらの変種を挙げることができる。
一連の画像フレーム112は、ユーザ110が画像取り込み装置104によって見て取り込んだシーンのビデオを意味する。一連の画像フレーム112は、オブジェクト114などの1又は2以上のオブジェクトを含むことができる。ある実施形態によれば、オブジェクト114は、一連の画像フレーム112からセグメント化すべき関心オブジェクトとすることができる。オブジェクト114の例としては、以下に限定されるわけではないが、人間オブジェクト、動物、或いは車両アイテム又はスポーツアイテムなどの非人間オブジェクト又は無生物オブジェクトを挙げることができる。
画像取り込み装置104は、動作時に一連の画像フレーム112を取り込むように構成することができる。画像取り込み装置104は、画像処理装置102の一体型ユニットとすることができる。或いは、画像取り込み装置104は、外部装置とすることもできる。このような場合、画像処理装置102は、取り込まれた一連の画像フレーム112を画像取り込み装置104から通信ネットワーク108を介して受け取ることができる。取り込まれた一連の画像フレーム112は、オブジェクト114(人間オブジェクト及び他の非人間オブジェクト又は無生物オブジェクト)などの1又は2以上のオブジェクトを含むことができる。
画像処理装置102は、受け取った一連の画像フレーム112のうちの入力画像フレームをFG領域及びBG領域に分離するように構成することができる。分離されたBG領域は、BG画像と呼ぶこともできる。画像処理装置102は、入力画像フレーム内の人間オブジェクトなどのオブジェクトの第1のFGマスクを推定するように構成することができる。第1のFGマスクは、入力画像フレームと入力画像フレームのBG画像との間の差分を2値化することによって推定することができる。さらに、第1のFGマスクの推定には、入力画像フレームに関連する深度情報を使用することもできる。2値化とは、カラー画像を、画素が黒と白などの2つの可能な値を有することができる2値画像に変換することを意味する。従って、入力画像フレームとBG画像との間の差分を2値化するということは、入力画像フレームと分離されたBG領域との間の画素値を減算して1又は2以上のFGマスクを取得することを意味することもできる。
従来の深度ベースのオブジェクトセグメンテーション法とは異なり、画像処理装置102は、画像処理装置102内に設けられた深度センサからの深度情報を選択的に使用する。画像処理装置102は、深度値が信頼できると見なされる特定の領域の深度値を選択的に利用する。例えば、シーンのほぼ全体について色成分(赤色、緑色及び青色)及び深度値などのBG画素値を入手できる場合、第1のFGマスクの生成を開始することができる。入力画像フレームと入力画像フレームのBG画像との間の差分の2値化後に、差分が特定の閾値よりも大きな領域を(単複の)第1のFGマスク候補とすることができる。換言すれば、オブジェクト114の第1のFGマスクは、入力画像フレームと入力画像フレームのBG画像との間の2値化した差分の特定の閾値に基づいて推定することができる。
画像処理装置102は、顔検出技術及び/又は人体検出技術に基づいて、分離されたFG領域から除去すべき1又は2以上のFG領域を検出するようにさらに構成することができる。例えば、人間以外のオブジェクトに対応するFG領域を除去することができる。第1のFGマスクは、さらなる処理及びFGマスク補正のために、1又は2以上の他のFGマスクから選択することができる。FG領域の1又は2以上のFGマスクからの第1のFGマスクの選択は、顔、人体、ジェスチャー、動き、形状及び/又はエッジの検出に基づいて実行することができる。例えば、一連の画像フレーム112内の検出してセグメント化すべきオブジェクトが人体である場合には、顔検出及び人体検出、又は他のタイプの認識又は検出技術を利用して、分離されたFG領域から望ましくないFG領域を排除することができる。この処理では、FG領域の1又は2以上のFGマスクの中から人間マスクなどの第1のFGマスク候補の大まかな初期推定を行うことができる。第1のFGマスク候補は、初期FGマスクとすることができ、これを処理して(第2のFGマスクなどの)改善されたFGマスクを取得することができる。その後、この改善されたFGマスクを、どのオブジェクト境界アーチファクトにも無関係な正確なオブジェクトセグメンテーションのために、一連の画像フレーム112のうちの次の画像フレーム内の同様のオブジェクトを発見するためのテンプレートとして使用することができる。
ある実施形態によれば、推定された第1のFGマスクの境界領域における各画素は、FGマスク値又はBGマスク値などの特定のマスク値を有することができる。画像処理装置102は、推定された第1のFGマスクの境界領域における、第2のマスク値に更新すべき第1のマスク値を有する第1の画素の組を識別するように構成することができる。第1のマスク値及び第2のマスク値は、FGマスク値及びBGマスク値の一方に対応することができる。第1の画素の組は、境界領域に関連する各画素の色成分、深度成分及び空間位置によって識別することができる。境界領域に関連する画素の空間位置は、画素の垂直座標及び水平座標に対応することができる。第1の画素の組の識別は、入力画像フレームから導出されたエッジ情報にさらに基づくことができる。
ある実施形態によれば、画像処理装置102は、推定された第1のFGマスクに関連する誤ってラベル付けされたマスク値を補正するために、境界領域の各境界画素に平均シフトフィルタを適用するように構成することができる。平均シフトフィルタの適用中には、境界領域の近傍の特定のウィンドウサイズ内の複数のサンプルベクトルを利用することができる。複数のサンプルベクトルは、境界領域に関連する各画素の色成分、深度成分及び空間位置に対応することができる。
ある実施形態によれば、画像処理装置102は、オブジェクト114の第1のFGマスクの平滑化のために、第1の特定の次元のカーネル関数を選択するように構成することができる。第1の特定の次元のカーネル関数は、推定された第1のFGマスクの第1の部分が入力画像内の平らなエリアなどの一様な領域内に位置する場合に選択することができる。第1のFGマスクの平滑化のための、第1の特定の次元のカーネル関数の選択は、推定された第1のFGマスクの第1の部分が、入力画像フレームから導出されたオブジェクトの対応するエッジと一致できるように行うことができる。或いは、推定された第1のFGマスクの第2の部分が、入力画像フレームから導出されたオブジェクトの対応するエッジと一致する場合には、第1のFGマスクの平滑化のために、第2の特定の次元のカーネル関数を選択することもできる。
ある実施形態によれば、画像処理装置102は、推定された第1のFGマスクの境界領域における第1の画素の組の識別に基づいて第2のFGマスクを決定するように構成することができる。第2のFGマスクは、推定された第1のFGマスクに関連する誤ってラベル付けされたマスク値の補正に基づいて取得することができる。第1のFGマスク補正の計算負荷を軽減するために、画像のFG領域全体ではなく、境界領域のFG/BG境界に隣接する一定数の画素に特異的に平均シフトフィルタを適用する。例えば、各境界画素について、狭い関心領域内で複数のサンプルベクトルを使用して、例えば「11×11」画素の特定のウィンドウサイズを使用して、総サンプル数(N)を(N=121)などに低減することができる。特定のウィンドウサイズ内のFG/BG境界に隣接する画素の誤ってラベル付けされたマスク値を補正する結果、画像処理装置102の計算負荷を低減させてオブジェクトの第2のFGマスクを素早く正確に決定できるようになる。
ある実施形態によれば、画像処理装置102は、第2のFGマスクを、一連の画像フレーム112のうちの次の画像フレーム内の同様のオブジェクトを発見するためのテンプレートとして使用することができる。従って、オブジェクトの第2のFGマスクが素早く正確に決定される結果、一連の画像フレーム112内に現れる人間オブジェクトなどのオブジェクト114をリアルタイム又は近リアルタイムで動的にセグメント化できるようになる。
従来の所定の完全に静止した背景画像による共通の前景オブジェクトセグメンテーション法とは対照的に、画像処理装置102は、セグメンテーション処理を開始するために完全に静止した背景画像を生成しなくてもよい。画像処理装置102は、セグメンテーション処理中に、ほぼ静止した背景画像及び深度値を絶えず学習及び/又は更新するように構成することができる。この点、画像処理装置102は、ほぼ静止した背景画像及び深度値を動的に更新するように構成される。この完全な静止からほぼ静止への緩和は、一連の画像フレーム112内のシーンの取り込み中に人間などのオブジェクトをシーンから外す必要がなくなるので有用である。さらに、たとえ画像取り込み装置104がその元の位置から偶発的に変位した場合でも、FGマスクの補正及びセグメンテーション処理に影響を与えないこともある。
図2は、本開示の実施形態による、オブジェクトセグメンテーションのためのFGマスク補正のための例示的な画像処理装置を示すブロック図である。図2の説明は、図1の要素に関連して行う。図2に示すように、画像処理装置102は、画像プロセッサ202と、メモリ204と、I/O装置206などの1又は2以上の入力/出力(I/O)装置と、ネットワークインターフェイス208とを含むことができる。画像処理装置102は、背景(BG)画像分離器202a、画素更新器202b及び前景(FG)マスク推定器202cなどの1又は2以上の専用処理ユニットをさらに含むことができる。画像プロセッサ202は、メモリ204、I/O装置206及びネットワークインターフェイス208に通信可能に結合することができる。ネットワークインターフェイス208は、画像プロセッサ202の制御下で通信ネットワーク108を介して画像取り込み装置104及びディスプレイ装置106と通信することができる。
画像プロセッサ202は、メモリ204に記憶された一連の命令を実行できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。画像プロセッサ202は、1又は2以上の専用ユニットに1又は2以上の特定の動作を実行する命令を与えるように構成することができる。画像プロセッサ202の例は、グラフィックス処理ユニット(GPU)、縮小命令セットコンピュータ(RISC)プロセッサ、特定用途向け集積回路(ASIC)プロセッサ、複合命令セットコンピュータ(CISC)プロセッサ、マイクロコントローラ、中央処理装置(CPU)、及び/又はその他の制御回路とすることができる。
BG画像分離器202aは、入力画像フレームをFG領域とBG領域に分離するように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。分離されたBG領域は、BG画像に対応することができる。BG画像分離器202aは、入力画像フレームとBG画像との間の差分を2値化して、オブジェクトの第1のFGマスクを推定することができる。BG画像分離器202aは、フレーム差分モデル、平均フィルタモデル、ガウス平均モデル及び背景混合モデルなどの1又は2以上のアルゴリズムに基づいてBG画像分離を実行することができる。
画素更新器202bは、推定された第1のFGマスクの境界領域における、第2のマスク値に更新すべき第1のマスク値を有する第1の画素の組を識別するように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。第1のマスク値及び第2のマスク値は、FGマスク値及びBGマスク値の一方に対応することができる。
FGマスク推定器202cは、推定された第1のFGマスクの境界領域における第1の画素の組の識別に基づいて第2のFGマスクを決定するように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。BG画像分離器202a、画素更新器202b及びFGマスク推定器202cなどの1又は2以上の専用処理ユニットは、画像処理装置102内の別個のプロセッサ又は回路として実装することができる。ある実施形態では、1又は2以上の専用処理ユニット及び画像プロセッサ202を、1又は2以上の専用処理ユニット及び画像プロセッサ202の機能を共同で実行する統合プロセッサ又はプロセッサ群として実装することができる。ある実施形態では、1又は2以上の専用処理ユニットを、画像プロセッサ202によって実行された時に画像処理装置102の機能及び動作を実行することができる、メモリ204に記憶された一連の命令として実装することができる。
メモリ204は、画像プロセッサ202、BG画像分離器202a、画素更新器202b及びFGマスク推定器202cが実行可能な機械語及び/又は命令セットを記憶するように構成できる好適なロジック、回路及び/又はインターフェイスを含むことができる。メモリ204は、受け取った一連の画像フレーム、FG領域、BG画像、第1のFGマスク、入力画像フレームに関連する深度情報、第1の画素の組及びそのマスク値、1又は2以上のFGマスク補正パラメータ、入力画像フレームから導出されたエッジ情報、並びに第2のFGマスクを記憶するように構成することができる。メモリ204の例としては、以下に限定されるわけではないが、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、電気的に消去可能なプログラマブルリードオンリメモリ(EEPROM)、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)、CPUキャッシュ及び/又はセキュアデジタル(SD)カードを挙げることができる。
I/O装置206は、ユーザ110などの1又は2以上のユーザから入力を受け取るように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。I/O装置206は、ユーザ110などの1又は2以上のユーザに出力を提供するようにさらに構成することができる。I/O装置206は、画像プロセッサ202と通信できる様々な入出力装置を含むことができる。入力装置の例としては、以下に限定されるわけではないが、タッチ画面、物理的入力ボタン、ジョイスティック、マイク及び/又はドッキングステーションを挙げることができる。出力装置の例としては、以下に限定されるわけではないが、内蔵又は一体型ディスプレイ画面、タッチ画面式ディスプレイ及び/又はスピーカを挙げることができる。
ネットワークインターフェイス208は、通信ネットワーク108を介してディスプレイ装置106などの外部ディスプレイに接続して通信するように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。ネットワークインターフェイス208は、通信ネットワーク108との有線又は無線通信をサポートする既知の技術を実装することができる。ネットワークインターフェイス208としては、以下に限定されるわけではないが、アンテナ、周波数変調(FM)ネットワークインターフェイス、無線周波数(RF)ネットワークインターフェイス、1又は2以上の増幅器、チューナ、1又は2以上の発振器、デジタルシグナルプロセッサ、コーダ・デコーダ(CODEC)チップセット、加入者識別モジュール(SIM)カード及び/又はローカルバッファを挙げることができる。ネットワークインターフェイス208は、インターネット、イントラネット、及び/又は、セルラー電話ネットワーク、無線ローカルエリアネットワーク(LAN)及び/又はメトロポリタンエリアネットワーク(MAN)などの無線ネットワークなどのネットワークと無線通信を介して通信することができる。無線通信は、ロングタームエボリューション(LTE)、グローバル・システム・フォー・モバイル・コミュニケーションズ(GSM)、拡張データGSM環境(EDGE)、広帯域符号分割多元接続(W−CDMA)、符号分割多元接続(CDMA)、時分割多元接続(TDMA)、Bluetooth、無線フィデリティ(Wi−Fi)(IEEE 802.11a、IEEE 802.11b、IEEE 802.11g及び/又はIEEE802.11nなど)、ボイスオーバーインターネットプロトコル(VoIP)、Wi−MAX、電子メールプロトコル、インスタントメッセージング及び/又はショートメッセージサービス(SMS)などの複数の通信規格、通信プロトコル及び通信技術のいずれかを使用することができる。
図1に示すような画像処理装置102によって実行される機能及び/又は動作は、画像プロセッサ202、及び/又はBG画像分離器202a、画素更新器202b及びFGマスク推定器202cなどの1又は2以上の専用処理ユニットによって実行することができる。画像プロセッサ202及び/又は1又は2以上の専用処理ユニットによって実行される他の動作については、例えば図3においてさらに説明する。
図3は、本開示の実施形態による、開示するオブジェクトセグメンテーションのためのFGマスク補正のための画像処理装置及び方法を実装する例示的なシナリオを示す詳細なブロック図である。図3の説明は、図1及び図2の要素に関連して行う。図3には、画像取り込み装置104によって取り込まれたビデオの入力画像フレーム302を示す。入力画像フレーム302は、人間オブジェクト304A、無生物オブジェクト304B及び背景(BG)領域306を含むことができる。入力画像フレーム302の一部の第1の拡大図308も示す。第1の拡大図308には、人間オブジェクト304Aの周囲の第1のFGマスクの第1のFGマスク境界310が示される。人間オブジェクト304Aのエッジ上の(点線で表す)理想的なFGマスク境界312、背景306の一様な領域上の第1のFGマスク境界310の第1の部分314A、及び第1のFGマスクの第1のFGマスク境界310の第2の部分314Bも示される。人間オブジェクト304Aの第2のFGマスクの第2のFGマスク境界318を含む入力画像フレーム302の一部の第2の拡大図316も示す。
カメラなどの画像取り込み装置104は、動作時にビデオなどの一連の画像フレーム112を取り込むように構成することができる。入力画像フレーム302は、取り込まれた一連の画像フレーム112のうちの1つとすることができる。画像プロセッサ202は、取り込まれた一連の画像フレーム112をネットワークインターフェイス208によって画像取り込み装置104から受け取ることができる。BG画像分離器202aは、入力画像フレーム302をFG領域及びBG領域306などの少なくとも2つの領域に分割することによって入力画像フレーム302をセグメント化するように構成することができる。分離されたBG領域306は、入力画像フレーム302のBG画像と呼ぶこともできる。分離されたBG領域306は、部分的に静止した画像とすることができる。部分的に静止したBG画像は、周期的又は非周期的に学習して更新することができる。部分的に静止したBG画像と共に、入力画像フレーム302に関連する深度情報も周期的又は非周期的に更新することができる。部分的に静止したBG画像は、画像取り込み装置104によって取り込まれたシーンから人間オブジェクト304Aを外す必要性を排除することができる。また、部分的に静止したBG画像は、画像取り込み装置104の偶発的な変位にも対応することができる。
FG領域は、人間オブジェクト304A及び無生物オブジェクト304Bなどの複数のオブジェクトを含むことができる。画像プロセッサ202は、分離されたFG領域から1又は2以上のFG領域を除去するように構成することができる。例えば、入力画像フレーム302内の検出してセグメント化すべきオブジェクトが人体である場合、顔検出及び人体検出又はその他のタイプの認識又は検出技術を利用して、分離されたFG領域から無生物オブジェクト304Bなどの望ましくないFG領域を排除することができる。この処理では、FG領域の1又は2以上のFGマスクの中からFG人間マスク候補の大まかな初期推定を行うことができる。
画像プロセッサ202は、入力画像フレーム302内の第1のFGマスク境界310を有する人間オブジェクト304Aの第1のFGマスクを推定するように構成することができる。シーンのほぼ全体について色成分(赤色、緑色及び青色)及び深度値などのBG画素値を入手できる場合、第1のFGマスクの生成を開始することができる。第1のFGマスクは、入力画像フレーム302と入力画像フレーム302の(BG領域306などの)BG画像との間の差分を2値化することによって推定することができる。さらに、第1のFGマスクの推定には、入力画像フレーム302に関連する深度情報を使用することもできる。画像プロセッサ202は、深度値が信頼できると見なされる特定の領域の深度値を選択的に利用する。
第1のFGマスク境界310を含む第1のFGマスクは、初期FGマスク境界とすることができ、人間オブジェクト304Aのエッジと一致しないこともある。理想的なオブジェクト境界は、人間オブジェクト304Aのエッジと一致する境界である。人間オブジェクト304Aのエッジ上に、理想的なFGマスク境界312などの理想的なオブジェクト境界の例を示している。従って、第1のFGマスク境界310を含む第1のFGマスクをさらに処理して、第2のFGマスク境界318を含む第2のFGマスクなどの改善されたFGマスクを取得することができる。推定された第1のFGマスクの境界領域内の各画素は、FGマスク値又はBGマスク値などの特定のマスク値を有することができる。
画素更新器202bは、推定された第1のFGマスクの第1のFGマスク境界310などの境界領域における、第2のマスク値に更新すべき第1のマスク値を有する第1の画素の組を識別するように構成することができる。第1のマスク値及び第2のマスク値は、FGマスク値及びBGマスク値の一方に対応することができる。例えば、推定された第1のFGマスクの第1のFGマスク境界310の近傍のいくつかの画素は、マスク値を誤って分類されていることがある。推定された第1のFGマスクの第1のFGマスク境界310の近傍では、例えば少なくとも50%を超える画素などの大半の画素がFG又はBGとして正しくラベル付けされていると仮定することができる。この仮定に従い、(ラベルとも呼ばれる)画素マスク値の統計的評価を実行して、マスク値が正しいか、それとも正しくないかを確認することができる。第1の画素の組は、FGマスク補正後に、(FGなどの)第2のマスク値に更新すべき(BGなどの)誤った第1のマスク値を有することがある。同様に、第1の画素の組は、FGマスク補正後に、BGなどの第2のマスク値に更新すべきFGなどの誤った第1のマスク値を有することもある。従って、誤って分類されたマスク値を有する第1のFGマスク内の(第1の画素の組として識別された)全ての画素を正しいマスク値に更新することが必要になり得る。
第1の画素の組は、第1のFGマスク境界310の近傍の領域などの境界領域に関連する各画素の色成分、深度成分及び空間位置によって識別することができる。境界領域に関連する画素の空間位置は、画素の垂直座標及び水平座標に対応することができる。第1の画素の組の識別は、入力画像フレーム302から導出されたエッジ情報にさらに基づくことができる。入力画像フレーム302から導出されたエッジ情報に少なくとも基づいて、1又は2以上のFGマスク補正パラメータを決定することができる。
ある実施形態によれば、画素更新器202bを、推定された第1のFGマスクに関連する誤ってラベル付けされたマスク値を補正するために、FGオブジェクト境界領域の各境界画素に平均シフトフィルタを適用するように構成することができる。平均シフトフィルタは、確率密度関数の最頻値(又はピーク)を発見することができ、平均シフトフィルタに関連する平均シフトベクトルは、密度が最大に増加した方向を指すことができる。平均シフトベクトルは、反復的にたどることができ、或いは平均シフトフィルタをl回などの複数回適用することによって最も近い最頻値を発見することができる。以下の所与の式(1)に従って、i=1〜Nの場合のi番目の画素の平均シフトフィルタリングを実行することができる。
Figure 2018088247
式中、
i (l+1)は、i=1〜Nの場合のi番目の画素の平均シフトフィルタに対応し、
nは、複数のサンプルベクトルに対応し、
Hは、多変量ガウス関数に対応し、
Figure 2018088247
=付加的ベクトル(AV)である。
入力画像フレーム302、n=1〜Nの第1のFGマスク境界310を含む最初に推定された第1のFGマスク、(分離されたBG領域306などの)推定された部分的に静止したBG画像、及び以下の数式(2)で与えられるようなn=N+1〜2Nの深度から、n番目の画素の複数のサンプルベクトルXnが決定される。ある実施形態によれば、反復的平均シフトフィルタ処理を利用して、第1のFGマスク境界310を含む最初に推定された第1のFGマスクを補正することができる。
n=N+1の場合、
Figure 2018088247
であり、
n=N+1〜2Nの場合、
Figure 2018088247
であり、ここではfn=0である。
(2)
式中、
nは赤色成分に対応し、Gnは緑色成分に対応し、
nは青色成分に対応し、Dnは深度成分に対応し、
nは高さ成分に対応し、wnは幅成分に対応し、
nはマスク値成分に対応する。
nは、第1のFGマスク境界310などの境界領域に関連する各画素のRGB色成分(Rn、Gn及びBn)などの色成分、深度成分Dnなどの深度情報、空間位置、及び画素「n」のマスク値成分によって計算することができる。境界領域に関連する画素「n」の空間位置は、n番目の画素の高さ成分hnなどの垂直座標と、幅成分wnなどの水平座標とに対応する。第1のFGマスク補正段階では、マスク値fnが、色値(RGB)、深度(D)及び画素の空間位置(h,w)によって補正すべき成分である。マスク値fnは、例えば0=BG及び1=FGなどの2値とすることができる。マスク値は、FGマスクフラグ又は画素FG/BGラベルと呼ぶこともできる。分離されたBG領域306内の全ての画素がBGに属することが分かっているので、(分離されたBG領域306などの)推定された部分的に静止したBG画像のn=N+1〜2Nの場合のマスク値fnは、ゼロ(0)に設定することができる。
ある実施形態によれば、平均シフトフィルタは、分離されたBG領域306などの推定された部分的に静止したBG画像及び深度から付加的ベクトル(AV)を利用することができる。n=N+1〜2Nの場合の所与の数式(2)では、平均シフトフィルタに複数のサンプルベクトルXnを含めることができ、この場合、全ての成分(R、G、B、h、w及びD)は、推定された部分的に静止したBG画像及び深度値から得られ、部分的に静止したBG画像内の各画素のマスク値はゼロである。これらの付加的ベクトル(AV)は、(画素のマスク値が実際にはBGである場合に)最初にFGとして誤ってラベル付けされた画素のマスク値の補正を効果的に支援する。
画像プロセッサ202は、推定された第1のFGマスクの境界領域における、第2のマスク値に更新すべき第1のマスク値を有する第1の画素の組を識別するように構成することができる。第1のマスク値及び第2のマスク値は、FGマスク値(FG=1)又はBGマスク値(BG=0)の一方に対応することができる。式(1)による平均シフトフィルタ処理により、最初に第1のマスク値で誤って分類された第1の画素の組を反復的に識別することができる。推定された第1のFGマスクの境界領域における、第2のマスク値に更新すべき第1のマスク値を有する第1の画素の組の識別は、推定された第1のFGマスクに関連する誤ってラベル付けされたマスク値を補正する補正段階と呼ぶことができる。
第1のFGマスク補正の計算負荷を軽減するために、式(1)による平均シフトフィルタは、入力画像フレーム302のFG領域全体ではなく、第1のFGマスク境界310などのFG/BG境界に隣接する一定数の画素に特異的に適用することができる。例えば、各境界画素「n」について、狭い関心領域内で複数のサンプルベクトルXnを使用して、例えば「11×11」画素の特定のウィンドウサイズを使用して、総サンプル数(N)を(N=121)などに低減することができる。総サンプル数(N)は、第2のマスク値に更新すべき誤って分類された第1のマスク値を有する画素を識別するために評価すべき総画素数を示す。
ある実施形態によれば、特定のウィンドウサイズ内の画素のマスク値fnを、以下の所与の式(3)によって補正することができる。特定のウィンドウサイズ内の画素のマスク値fnは、式(1)の反復的平均シフトフィルタ処理における最初に推定された第1のFGマスク内で補正することができる。
Figure 2018088247
ここでは、
i (l+1)が補正され、fi (l+1)>0.5の場合にはマスク値=1であり、そうでなければ0である。
ある実施形態によれば、第1のFGマスクの第1のFGマスク境界310などの境界領域は、マスク値(fn)成分に形態学的開閉操作を適用することによって平滑化することができる。例えば、多変量ガウスカーネル関数KHなどの好適な形状(輪郭)のカーネル関数を選択することができる。広いカーネルを選択した場合、平均シフトフィルタは、小型のカーネルと比べて多くの平滑化能力を有することができる。画素更新器202bは、人間オブジェクト304Aの第1のFGマスクの平滑化のための第1の特定の次元のカーネル関数を選択するように構成することができる。第1の特定の次元のカーネル関数は、推定された第1のFGマスクの第1の部分314Aなどの特定の部分が入力画像フレーム302内の平らなエリアなどの一様な背景領域に位置する場合に選択することができる。第1のFGマスクの平滑化のための第1の特定の次元のカーネル関数の選択は、推定された第1のFGマスクの第1の部分314Aが、入力画像フレーム302から導出された人間オブジェクト304Aの対応するエッジと一致できるように行うことができる。例えば、図示のように、推定された第1のFGマスクの第1の部分314Aは、理想的なFGマスク境界312から離れることなどによって人間オブジェクト304Aのエッジから逸脱することもある。或いは、図示のように、推定された第1のFGマスクの第2の部分314Bなどの特定の部分が、入力画像フレーム302から導出された人間オブジェクト304Aの対応するエッジとほとんど一致する場合には、第2の特定の次元のカーネル関数(小さなカーネル)を選択することもできる。例えば、図示のように、推定された第1のFGマスクの第2の部分314Bは、第2の部分314Bに対応する理想的なFGマスク境界312に類似する人間オブジェクト304Aのエッジ上でほぼ一致することができる。第1の特定の次元は、第2の特定の次元よりも大きなものとすることができる。平均シフトフィルタは、第1の特定の次元のカーネル関数では第2の特定の次元のカーネル関数に比べて高い平滑化能力を有することができるので、一様な領域内に位置する推定された第1のFGマスクの第1の部分314Aなどの境界領域が効果的に平滑化されるようになる。特定のウィンドウサイズ内のFG/BG境界に隣接する画素について誤ってラベル付けされたマスク値を補正する結果、画像プロセッサ202の計算負荷を低減させて人間オブジェクト304Aの第2のFGマスクを素早く正確に決定できるようになる。
FGマスク推定器202cは、推定された第1のFGマスクの第1のFGマスク境界310などのFGオブジェクト境界領域における第1の画素の組の識別に基づいて、第2のFGマスク境界318を有する第2のFGマスクを決定するように構成することができる。第2のFGマスクは、人間オブジェクト304Aの第1のFGマスクの平滑化に基づいて決定することができる。入力画像フレーム302の一部の第2の拡大図316に、人間オブジェクト304Aの第2のFGマスクの第2のFGマスク境界318を示す。画像取り込み装置104によって取り込まれた一連の画像フレームのうちの入力画像フレーム302及び後続の画像フレーム内に現れる人間オブジェクト304Aは、決定された人間オブジェクト304Aの第2のFGマスクによってリアルタイム又は近リアルタイムで動的にセグメント化することができる。
ある実施形態によれば、画像プロセッサ202を、画像処理装置102のディスプレイ画面などの出力装置上に第2のFGマスクをレンダリングするように構成することができる。或いは、画像プロセッサ202は、決定された第2のFGマスクを、通信ネットワーク108を介してディスプレイ装置106に送信するように構成することもできる。ディスプレイ装置106は、取り込まれたビデオの背景306からセグメント化した第2のFGマスクをリアルタイム又は近リアルタイムでレンダリングするように構成することができる。
図4は、本開示の実施形態による、オブジェクトセグメンテーションのための前景マスク補正のための例示的な方法を示すフローチャートである。図4には、フローチャート400を示す。フローチャート400の説明は、図1〜図3に関連して行う。画像処理装置102に実装される方法は、402から開始して414まで進む。
404において、画像取り込み装置104から一連の画像フレームを受け取ることができる。画像プロセッサ202は、取り込まれた一連の画像フレームをネットワークインターフェイス208によって画像取り込み装置104から受け取ることができる。406において、入力画像フレーム302などの入力画像フレームを、前景領域とBG領域306などの背景領域とに分離することができる。入力画像フレームは、取り込まれた一連の画像フレームのうちの1つとすることができる。分離されたBG領域は、入力画像フレームのBG画像と呼ぶこともできる。
408において、受け取った一連の画像フレームのうちの入力画像フレーム内の人間オブジェクト304Aなどのオブジェクトの第1のFGマスクを推定することができる。第1のFGマスクは、入力画像フレームに関連する深度情報と、入力画像フレームと入力画像フレームのBG画像との間の差分の2値化とによって推定することができる。推定された第1のFGマスクの第1のFGマスク境界310などの境界領域内の各画素は、FGマスク値又はBGマスク値などの特定のマスク値を有することができる。
410において、推定された第1のFGマスクの境界領域における、第2のマスク値に更新すべき第1のマスク値を有する第1の画素の組を識別することができる。第1の画素の組は、第1のFGマスク境界310の近傍の領域などの境界領域に関連する各画素の色成分、深度成分及び空間位置によって識別することができる。式(1)による平均シフトフィルタ処理により、最初に第1のマスク値で誤って分類された第1の画素の組を反復的に識別することができる。推定された第1のFGマスクの境界領域における、第2のマスク値に更新すべき第1のマスク値を有する第1の画素の組の識別は、推定された第1のFGマスクに関連する誤ってラベル付けされたマスク値を補正する補正段階と呼ぶことができる。例えば、マスク値fnは、第1のFGマスク補正段階において色値(RGB)、深度(D)及び画素の空間位置(h,w)によって補正すべき成分である。
412において、推定された第1のFGマスクの境界領域における識別された第1のマスク値を有する第1の画素の組を第2のマスク値に更新することができる。所与の式(3)によって、特定のウィンドウサイズ内の画素のマスク値fnを補正することができる。画素更新器202bは、推定された第1のFGマスクに関連する誤ってラベル付けされたマスク値の補正及び更新のために、FGオブジェクト境界領域の各境界画素に平均シフトフィルタを適用するように構成することができる。
414において、推定された第1のFGマスクの境界領域における第1の画素の組の識別に基づいて、第2のFGマスクを決定することができる。例えば、FGマスク推定器202cを、推定された第1のFGマスクの第1のFGマスク境界310などのFGオブジェクト境界領域における第1の画素の組の識別に基づいて、第2のFGマスク境界318を有する第2のFGマスクを決定するように構成することができる。
416において、一連の画像フレームのうちの入力画像フレーム及び後続の画像フレーム内に現れる人間オブジェクト304Aなどのオブジェクトを動的にセグメント化することができる。セグメント化は、決定されたオブジェクトの第2のFGマスクによってリアルタイム又は近リアルタイムで実行することができる。制御は、418に進んで終了する。
本開示の実施形態によれば、画像処理装置102などの画像処理装置は、画像プロセッサ202、BG画像分離器202a、画素更新器202b及びFGマスク推定器202c(図2)などの1又は2以上の回路を含むことができる。画像プロセッサ202は、画像取り込み装置104(図1)によって取り込まれた一連の画像フレームを受け取るように構成することができる。画像プロセッサ202は、受け取った一連の画像フレームのうちの入力画像フレーム内のオブジェクトの第1のFGマスクを推定するように構成することができる。第1のFGマスクは、入力画像フレームに関連する深度情報と、入力画像フレームと入力画像フレームのBG画像との間の差分の2値化とによって推定することができる。画素更新器202bは、推定された第1のFGマスクの境界領域における、第2のマスク値に更新すべき第1のマスク値を有する第1の画素の組を識別するように構成することができる。FGマスク推定器202cは、推定された第1のFGマスクの境界領域における第1の画素の組の識別に少なくとも基づいて第2のFGマスクを決定するように構成することができる。
画像処理装置102は、入力ビデオが取り込まれている間の異なる時点で動くオブジェクト、変形するオブジェクト(非硬質変形)、又は向きを変えるオブジェクトのビデオ監視又は追跡などの様々な応用分野で実装することができる。開示した画像処理装置102及び方法は、自律航法のための車両追跡のビデオ監視、ゲームシステム、又はこのような移動オブジェクトの他のリアルタイム又は近リアルタイムオブジェクト検出及びセグメンテーションなどの、実際の追跡用途に適することができる。
本開示の例示的な態様によれば、画像処理装置102は、ビデオ監視システムとすることができる。従って、本開示において、例えば図1〜図4で説明したような画像処理装置102が実行する全ての動作は、ビデオ監視システムが実行することもできる。例えば、ビデオ監視システムは、画像取り込み装置104によって取り込まれた一連の画像フレームを受け取り、決定された第2のFGマスクによって、人間オブジェクト304Aなどのオブジェクトのリアルタイム追跡及びセグメンテーションのために処理することができる。オブジェクトセグメンテーションの例については、図3に図示し説明した。
本開示の別の例示的な態様によれば、画像処理装置102をゲームシステムとすることができる。従って、本開示で説明したような画像処理装置102が実行する全ての動作は、ゲームシステムが実行することもできる。例えば、ゲームシステムは、ゲーム環境内のセグメント化された人間オブジェクト304Aなどの、ゲームシーン内のプレーヤをエミュレートするゲームキャラクタを提示することができる。この結果、決定された第2のFGマスクによって正確にセグメント化された人間オブジェクト304Aを、ユーザが選択した異なる背景と共に使用することができる。オブジェクトセグメンテーションの背景として、モノクロのブルースクリーンを必要としないこともできる。さらに、特定のウィンドウサイズ内のFG/BG境界に隣接する画素について誤ってラベル付けされたマスク値を補正する結果、人間オブジェクト304Aの第2のFGマスクを素早く正確に決定できるようになる。このような正確にセグメント化されたビデオ内の人間オブジェクト304Aをカットツーシェイプ(cut−to−shape)タイプのディスプレイ画面又は透明ディスプレイ画面上にレンダリングして現実味を高め、2次元(2D)ディスプレイ画面上で3次元(3D)効果をエミュレートし又は提供することができる。
従来の所定の完全に静止した背景画像による人間オブジェクト304Aなどの前景オブジェクトの共通のセグメンテーション法とは対照的に、画像処理装置102は、セグメンテーション処理を開始するために完全に静止した背景画像を生成しなくてもよい。BG画像分離器202aは、セグメンテーション処理全体を通じて、ほぼ静止した背景画像、及びI/O装置206の1又は2以上のセンサの深度センサから受け取られた深度値を絶えず学習又は更新する。この完全な静止からほぼ静止への緩和は、シーンの取り込み時に人間オブジェクト304Aをシーンから外す必要がなくなるので有用である。さらに、たとえ一連の画像フレーム(ビデオ)の取り込み時に画像取り込み装置104がその元の位置から偶発的に変位した場合でも、自動セグメンテーション処理に影響を与えないこともある。
別の従来のリアルタイムビデオセグメンテーション技術では、カラー画像及びその被写界深度を同時に取り込むことができる。人体マスクのデータベースをオフラインで作成して、(頭、首、肩、胸、腕、肘、手、腹、尻、脚、膝及び足などの)人体部分の名称をラベル付けすることができる。さらに、数多くの異なる姿勢の人体の深度情報を取り込むこともできる。このような従来の方法は、被写界深度が取り込まれる度に、取り込まれた被写界深度の様々な局所領域を走査し、データベースに記憶されている人間の姿勢にいずれかの良好な一致が存在するかどうかをチェックすることができる。従来の方法は、強い一致が見つかった場合に、人体が存在する深度範囲を大まかに計算することができる。従って、被写界深度を深度範囲情報によって2値化することで人間オブジェクトマスクを提供することができる。このような従来のリアルタイムビデオセグメンテーション技術は、深度ベースの方法である。このような深度ベースの方法とは対照的に、画像プロセッサ202及びその1又は2以上の専用回路は、人間オブジェクト304Aなどの前景オブジェクトをセグメント化するために深度値に大きく依存しない。ほとんどの深度センサには深刻なノイズが存在するため、深度値に大きく依拠する取得された前景領域の境界は、滑らかでない(正確なオブジェクトセグメンテーションのために許容できない)ことが多い。
画像処理装置102の別の利点は、式(1)による平均シフトフィルタを、一連の画像フレームの入力画像のFG領域全体ではなく、境界領域のFG/BG境界に隣接する一定数の画素に特異的に適用する点である。例えば、各境界画素「n」について、狭い関心領域内で複数のサンプルベクトルXnを使用して、例えば「11×11」画素の特定のウィンドウサイズを使用して、総サンプル数(N)を(N=121)などに低減することができる。特定のウィンドウサイズ内のFG/BG境界に隣接する画素の誤ってラベル付けされたマスク値を補正する結果、画像処理装置102の計算負荷を低減させてオブジェクトの第2のFGマスクを素早く正確に決定できるようになる。従って、画像処理装置によって行われる動作は、オブジェクトの検出及びセグメンテーションにおいて、従来の画像/ビデオセグメンテーション法と比べて画像処理装置102自体をロバストにすることができる。画像プロセッサ202、BG画像分離器202a、画素更新器202b及びFGマスク推定器202cなどの1又は2以上の回路は、画像処理装置102が人間オブジェクト304Aなどの所望のオブジェクトを発見し、これらをリアルタイム又は近リアルタイムで完全に自動的に(ユーザ入力を伴わずに)セグメント化できるようにする。セグメント化されたオブジェクトなどの結果は、入力ビデオの新たな画像が取り込まれた直後にもたらされる。セグメンテーション処理が開始されると、画像プロセッサ202は、初期FGマスクを反復的に補正して、図3に示すような人間オブジェクト304Aのエッジ上に境界が一致する理想的なFGマスク境界312などの理想的なFGマスクを取得する。この結果、第2のFGマスクの境界も人間オブジェクト304Aのエッジ上に一致することにより、人間オブジェクト304Aなどの所望のオブジェクトを背景から単独で正確にセグメント化する能力が画像処理装置102にもたらされる。
本開示の様々な実施形態は、オブジェクトセグメンテーションのために前景マスクを補正する画像処理のための機械及び/又はコンピュータが実行可能な一連の命令を記憶した非一時的コンピュータ可読媒体及び/又は非一時的コンピュータ可読記憶媒体、及び/又は非一時的機械可読媒体及び/又は非一時的機械可読記憶媒体を提供することができる。これらの一連の命令は、画像取り込み装置104から一連の画像フレームを受け取ることを含む動作を機械及び/又はコンピュータに実行させることができる。受け取られた一連の画像フレームのうちの入力画像フレーム内で、オブジェクトの第1の前景(FG)マスクを推定することができる。第1のFGマスクは、入力画像フレームに関連する深度情報を用いて、入力画像フレームと入力画像フレームの背景(BG)画像との間の差分を2値化することによって推定することができる。推定された第1のFGマスクの境界領域における、第2のマスク値に更新すべき第1のマスク値を有する第1の画素の組を識別することができる。第1の画素の組は、境界領域に関連する各画素の色成分、深度成分及び空間位置を用いて識別することができる。推定された第1のFGマスクの境界領域における第1の画素の組の識別に少なくとも基づいて、第2のFGマスクを決定することができる。
本開示は、ハードウェアの形で実現することも、又はハードウェアとソフトウェアの組み合わせの形で実現することもできる。本開示は、少なくとも1つのコンピュータシステム内で集中方式で実現することも、又は異なる要素を複数の相互接続されたコンピュータシステムにわたって分散できる分散方式で実現することもできる。本明細書で説明した方法を実行するように適合されたコンピュータシステム又はその他の装置が適することができる。ハードウェアとソフトウェアの組み合わせは、ロードされて実行された時に本明細書で説明した方法を実行するようにコンピュータシステムを制御することができるコンピュータプログラムを含む汎用コンピュータシステムとすることができる。本開示は、他の機能も実行する集積回路の一部を含むハードウェアの形で実現することができる。
本開示は、本明細書で説明した方法の実装を可能にする全ての特徴を含み、コンピュータシステムにロードされた時にこれらの方法を実行できるコンピュータプログラム製品に組み込むこともできる。本文脈におけるコンピュータプログラムとは、情報処理能力を有するシステムに、特定の機能を直接的に、或いはa)別の言語、コード又は表記法への変換、b)異なる内容形態での複製、のいずれか又は両方を行った後に実行させるように意図された命令セットの、あらゆる言語、コード又は表記法におけるあらゆる表現を意味する。
いくつかの実施形態を参照しながら本開示を説明したが、当業者であれば、本開示の範囲から逸脱することなく様々な変更を行うことができ、同等物を代用することができると理解するであろう。また、本開示の範囲から逸脱することなく、本開示の教示に特定の状況又は内容を適合させるための多くの変更を行うこともできる。従って、本開示は、開示した特定の実施形態に限定されるものではなく、特許請求の範囲に該当する全ての実施形態を含むことが意図されている。

Claims (20)

  1. 1又は2以上の回路を備えた画像処理装置であって、前記回路は、
    画像取り込み装置から一連の画像フレームを受け取り、
    前記受け取った一連の画像フレームのうちの入力画像フレームに関連する深度情報を用いて、前記入力画像フレームと該入力画像フレームの背景(BG)画像との間の差分を2値化することによって、前記入力画像フレーム内のオブジェクトの第1の前景(FG)マスクを推定し、
    前記推定された第1のFGマスクの境界領域における、第2のマスク値に更新すべき第1のマスク値を有する第1の画素の組を識別し、
    前記推定された第1のFGマスクの前記境界領域における前記第1の画素の組の前記識別に少なくとも基づいて第2のFGマスクを決定する、
    ように構成される、
    ことを特徴とする画像処理装置。
  2. 前記第1のマスク値及び前記第2のマスク値は、FGマスク値及びBGマスク値の一方に対応する、
    請求項1に記載の画像処理装置。
  3. 前記1又は2以上の回路は、前記入力画像フレームを前景領域と背景領域とに分離するようにさらに構成され、前記分離された背景領域は、前記BG画像に対応する、
    請求項1に記載の画像処理装置。
  4. 前記1又は2以上の回路は、前記第1のFGマスクの前記推定のための顔検出技術及び/又は人体検出技術に基づいて、前記分離された前景領域から除去すべき1又は2以上のFG領域を検出するようにさらに構成される、
    請求項3に記載の画像処理装置。
  5. 前記1又は2以上の回路は、前記境界領域における前記第2のマスク値に更新される前記第1のマスク値を有する前記第1の画素の組の前記識別のために、前記境界領域に関連する各画素の色成分、深度成分及び空間位置を利用するようにさらに構成される、
    請求項1に記載の画像処理装置。
  6. 前記1又は2以上の回路は、前記入力画像フレームから導出されたエッジ情報に少なくとも基づいて1又は2以上のFGマスク補正パラメータを決定するようにさらに構成され、前記第1の画素の組の前記識別は、前記入力画像フレームから導出された前記エッジ情報にさらに基づく、
    請求項1に記載の画像処理装置。
  7. 前記オブジェクトの前記第1のFGマスクは、前記入力画像フレームと前記入力画像フレームの前記BG画像との間の前記2値化された差分の特定の閾値に基づいて推定される、
    請求項1に記載の画像処理装置。
  8. 前記1又は2以上の回路は、前記第2のFGマスクの前記決定のための、前記推定された第1のFGマスクに関連する誤ってラベル付けされたマスク値の補正のために、前記境界領域の各境界画素に平均シフトフィルタを適用するようにさらに構成される、
    請求項1に記載の画像処理装置。
  9. 前記1又は2以上の回路は、前記平均シフトフィルタの適用中に、前記境界領域の近傍の特定のウィンドウサイズの複数のサンプルベクトルを利用するようにさらに構成され、前記複数のサンプルベクトルは、前記境界領域に関連する各画素の前記色成分、前記深度成分及び前記空間位置に対応する、
    請求項8に記載の画像処理装置。
  10. 前記1又は2以上の回路は、前記推定された第1のFGマスクの第1の部分が前記入力画像内の一様な領域に位置する場合、前記オブジェクトの前記第1のFGマスクの平滑化のために第1の特定の次元のカーネル関数を選択するようにさらに構成され、前記第1のFGマスクの平滑化のための前記選択は、前記推定された第1のFGマスクの前記第1の部分が、前記入力画像フレームから導出された前記オブジェクトの対応するエッジと一致できるように行われる、
    請求項1に記載の画像処理装置。
  11. 前記1又は2以上の回路は、前記推定された第1のFGマスクの第2の部分が、前記入力画像フレームから導出された前記オブジェクトの対応するエッジと一致する場合、第2の特定の次元のカーネル関数を選択するようにさらに構成される、
    請求項1に記載の画像処理装置。
  12. 前記境界領域に関連する画素の前記空間位置は、前記画素の垂直座標及び水平座標に対応する、
    請求項1に記載の画像処理装置。
  13. 前記1又は2以上の回路は、前記一連の画像フレーム内に現れる前記オブジェクトを、該オブジェクトの前記決定された第2のFGマスクを用いてリアルタイム又は近リアルタイムで動的にセグメント化するようにさらに構成される、
    請求項1に記載の画像処理装置。
  14. 前記1又は2以上の回路は、前記セグメント化中に前記BG画像を周期的又は非周期的に更新するようにさらに構成される、
    請求項13に記載の画像処理装置。
  15. オブジェクトセグメンテーションのための前景マスク補正のための画像処理方法であって、
    画像処理装置が、画像取り込み装置から一連の画像フレームを受け取るステップと、
    前記画像処理装置が、前記受け取った一連の画像フレームのうちの入力画像フレームに関連する深度情報を用いて、前記入力画像フレームと該入力画像フレームの背景(BG)画像との間の差分を2値化することによって、前記入力画像フレーム内のオブジェクトの第1の前景(FG)マスクを推定するステップと、
    前記画像処理装置が、前記推定された第1のFGマスクの境界領域における、第2のマスク値に更新すべき第1のマスク値を有する第1の画素の組を識別するステップと、
    前記画像処理装置が、前記推定された第1のFGマスクの前記境界領域における前記第1の画素の組の前記識別に少なくとも基づいて第2のFGマスクを決定するステップと、
    を含むことを特徴とする方法。
  16. 前記画像処理装置が、前記境界領域における前記第2のマスク値に更新される前記第1のマスク値を有する前記第1の画素の組の前記識別のために、前記境界領域に関連する各画素の色成分、深度成分及び空間位置を利用するステップをさらに含む、
    請求項15に記載の方法。
  17. 前記画像処理装置が、前記第2のFGマスクの前記決定のための、前記推定された第1のFGマスクに関連する誤ってラベル付けされたマスク値の補正のために、前記境界領域の各境界画素に平均シフトフィルタを適用するステップをさらに含む、
    請求項15に記載の方法。
  18. 前記推定された第1のFGマスクの第1の部分が前記入力画像内の一様な領域に位置する場合、前記画像処理装置が、前記オブジェクトの前記第1のFGマスクの平滑化のために第1の特定の次元のカーネル関数を選択するステップをさらに含む、
    請求項15に記載の方法。
  19. 前記推定された第1のFGマスクの第2の部分が、前記入力画像フレームから導出された前記オブジェクトの対応するエッジと一致する場合、前記画像処理装置が、第2の特定の次元のカーネル関数を選択するステップをさらに含む、
    請求項15に記載の方法。
  20. 前記画像処理装置が、前記一連の画像フレーム内に現れる前記オブジェクトを、該オブジェクトの前記決定された第2のFGマスクを用いてリアルタイム又は近リアルタイムで動的にセグメント化するステップをさらに含む、
    請求項15に記載の方法。
JP2017219758A 2016-11-28 2017-11-15 オブジェクトセグメンテーションのための前景マスク補正のための画像処理装置及び方法 Active JP6501092B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/361,723 2016-11-28
US15/361,723 US10198621B2 (en) 2016-11-28 2016-11-28 Image-Processing device and method for foreground mask correction for object segmentation

Publications (2)

Publication Number Publication Date
JP2018088247A true JP2018088247A (ja) 2018-06-07
JP6501092B2 JP6501092B2 (ja) 2019-04-17

Family

ID=60262849

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017219758A Active JP6501092B2 (ja) 2016-11-28 2017-11-15 オブジェクトセグメンテーションのための前景マスク補正のための画像処理装置及び方法

Country Status (5)

Country Link
US (1) US10198621B2 (ja)
EP (1) EP3327668B1 (ja)
JP (1) JP6501092B2 (ja)
KR (1) KR101958116B1 (ja)
CN (1) CN108122208B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022525845A (ja) * 2019-02-21 2022-05-20 ソニーグループ株式会社 一連のカラー画像フレームにおける複数のニューラルネットワークベースのオブジェクトセグメンテーション
JP2022531639A (ja) * 2019-05-09 2022-07-08 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド ビデオへの情報埋め込み方法、コンピュータ機器及びコンピュータプログラム

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10102642B2 (en) * 2015-11-25 2018-10-16 Omni Ai, Inc. Image driver that samples high-resolution image data
US10475186B2 (en) * 2016-06-23 2019-11-12 Intel Corportation Segmentation of objects in videos using color and depth information
KR20180056174A (ko) * 2016-11-18 2018-05-28 삼성전자주식회사 콘텐츠 처리 방법 및 이를 지원하는 전자 장치
CN110335288A (zh) * 2018-09-26 2019-10-15 惠州学院 一种视频前景目标提取方法及装置
US10825148B2 (en) * 2018-11-29 2020-11-03 Adobe Inc. Boundary-aware object removal and content fill
US11164319B2 (en) 2018-12-20 2021-11-02 Smith & Nephew, Inc. Machine learning feature vector generator using depth image foreground attributes
US11647277B2 (en) 2019-05-31 2023-05-09 Samsung Electronics Co., Ltd. Method of dynamic image adjustment in an electronic device including image sensor
US11323633B2 (en) 2019-07-01 2022-05-03 Bendix Commercial Vehicle Systems, Llc Automated creation of a freeform mask for automotive cameras
CN110634151B (zh) * 2019-08-01 2022-03-15 西安电子科技大学 一种单目标跟踪方法
US20210065408A1 (en) * 2019-08-29 2021-03-04 Yutou Technology (Hangzhou) Co., Ltd. Content generation n a visual enhancement device
US11607802B2 (en) * 2019-09-15 2023-03-21 X Development Llc Robotic control using action image(s) and critic network
US11200678B2 (en) 2019-09-17 2021-12-14 Sony Corporation Image-based mask frame interpolation
US11430179B2 (en) 2020-02-24 2022-08-30 Microsoft Technology Licensing, Llc Depth buffer dilation for remote rendering
US20210334975A1 (en) * 2020-04-23 2021-10-28 Nvidia Corporation Image segmentation using one or more neural networks
US11790535B2 (en) * 2020-05-12 2023-10-17 True Meeting Inc. Foreground and background segmentation related to a virtual three-dimensional (3D) video conference
KR20220102741A (ko) * 2021-01-14 2022-07-21 삼성전자주식회사 전자 장치 및 이의 제어 방법
KR20240079506A (ko) 2022-11-29 2024-06-05 한국전자통신연구원 마스크 업데이트 기반의 객체 인식 방법 및 전자장치

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003317096A (ja) * 2002-04-25 2003-11-07 Sharp Corp 画像処理方法および画像処理装置、それを備える画像形成装置ならびにプログラムおよび記録媒体
JP2006527443A (ja) * 2003-06-12 2006-11-30 本田技研工業株式会社 奥行き検出を用いた対象の向きの推定
JP2013244047A (ja) * 2012-05-23 2013-12-09 Toshiba Corp 超音波診断装置、画像処理装置、及びプログラム
JP2014164579A (ja) * 2013-02-26 2014-09-08 Oki Electric Ind Co Ltd 情報処理装置、プログラム及び情報処理方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7418113B2 (en) 2005-04-01 2008-08-26 Porikli Fatih M Tracking objects in low frame rate videos
US8565525B2 (en) * 2005-12-30 2013-10-22 Telecom Italia S.P.A. Edge comparison in segmentation of video sequences
US8131012B2 (en) 2007-02-08 2012-03-06 Behavioral Recognition Systems, Inc. Behavioral recognition system
CN102113015B (zh) * 2008-07-28 2017-04-26 皇家飞利浦电子股份有限公司 使用修补技术进行图像校正
US8111913B2 (en) * 2008-09-17 2012-02-07 Motorola Solutions, Inc. Countermeasures against original background retrieval
US8345102B2 (en) 2009-01-13 2013-01-01 Futurewei Technologies, Inc. Image processing system and method for object tracking
US9904852B2 (en) 2013-05-23 2018-02-27 Sri International Real-time object detection, tracking and occlusion reasoning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003317096A (ja) * 2002-04-25 2003-11-07 Sharp Corp 画像処理方法および画像処理装置、それを備える画像形成装置ならびにプログラムおよび記録媒体
JP2006527443A (ja) * 2003-06-12 2006-11-30 本田技研工業株式会社 奥行き検出を用いた対象の向きの推定
JP2013244047A (ja) * 2012-05-23 2013-12-09 Toshiba Corp 超音波診断装置、画像処理装置、及びプログラム
JP2014164579A (ja) * 2013-02-26 2014-09-08 Oki Electric Ind Co Ltd 情報処理装置、プログラム及び情報処理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宮下 広夢、竹内 広太、山口 真理子、長田 秀信、小野 朗: "センサとカメラを活用した高速・高精度な被写体抽出", 電子情報通信学会技術研究報告, vol. 116, no. 73, JPN7018003795, 26 May 2016 (2016-05-26), JP, pages 17 - 22, ISSN: 0003914438 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022525845A (ja) * 2019-02-21 2022-05-20 ソニーグループ株式会社 一連のカラー画像フレームにおける複数のニューラルネットワークベースのオブジェクトセグメンテーション
JP2022531639A (ja) * 2019-05-09 2022-07-08 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド ビデオへの情報埋め込み方法、コンピュータ機器及びコンピュータプログラム

Also Published As

Publication number Publication date
KR20180060977A (ko) 2018-06-07
CN108122208B (zh) 2023-05-16
EP3327668A1 (en) 2018-05-30
US10198621B2 (en) 2019-02-05
EP3327668B1 (en) 2020-01-08
CN108122208A (zh) 2018-06-05
US20180150955A1 (en) 2018-05-31
KR101958116B1 (ko) 2019-03-13
JP6501092B2 (ja) 2019-04-17

Similar Documents

Publication Publication Date Title
JP6501092B2 (ja) オブジェクトセグメンテーションのための前景マスク補正のための画像処理装置及び方法
US10380756B2 (en) Video processing system and method for object detection in a sequence of image frames
EP3537378B1 (en) Image processing apparatus and method for object boundary stabilization in an image of a sequence of images
KR101802146B1 (ko) 화상처리장치 및 화상처리방법
JP6655878B2 (ja) 画像認識方法及び装置、プログラム
JP7015017B2 (ja) 適応的前景マスクアップサンプリングに基づく一連のカラー画像フレームのオブジェクトセグメンテーション
KR102577957B1 (ko) 배경 이미지 및 배경 심도 보정에 의한 컬러 이미지 프레임들의 시퀀스에서의 객체 분할
US10102635B2 (en) Method for moving object detection by a Kalman filter-based approach
US10621730B2 (en) Missing feet recovery of a human object from an image sequence based on ground plane detection
US10460156B2 (en) Automated tracking and retaining of an articulated object in a sequence of image frames
KR102203884B1 (ko) 촬상 장치 및 제어 방법

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181029

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190305

R151 Written notification of patent or utility model registration

Ref document number: 6501092

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151