JP6357421B2 - オブジェクト認識装置、分類ツリー学習装置及びその動作方法 - Google Patents

オブジェクト認識装置、分類ツリー学習装置及びその動作方法 Download PDF

Info

Publication number
JP6357421B2
JP6357421B2 JP2014552125A JP2014552125A JP6357421B2 JP 6357421 B2 JP6357421 B2 JP 6357421B2 JP 2014552125 A JP2014552125 A JP 2014552125A JP 2014552125 A JP2014552125 A JP 2014552125A JP 6357421 B2 JP6357421 B2 JP 6357421B2
Authority
JP
Japan
Prior art keywords
object part
classification tree
visible
hidden
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014552125A
Other languages
English (en)
Other versions
JP2015505108A (ja
Inventor
イン ユ,ビョン
イン ユ,ビョン
ギュ チェー,チャン
ギュ チェー,チャン
ギョ リ,チャン
ギョ リ,チャン
ジュン ハン,ジェ
ジュン ハン,ジェ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2015505108A publication Critical patent/JP2015505108A/ja
Application granted granted Critical
Publication of JP6357421B2 publication Critical patent/JP6357421B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2134Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/24765Rule-based classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/06Ray-tracing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/08Volume rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/40Hidden part removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/005Tree description, e.g. octree, quadtree
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/422Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
    • G06V10/426Graphical representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/24Indexing scheme for image data processing or generation, in general involving graphical user interfaces [GUIs]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20048Transform domain processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Geometry (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Medical Informatics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Description

開示される技術は、オブジェクトを認識することのできるオブジェクト認識装置及びその動作方法とオブジェクト認識装置が用いる学習された分類ツリーを生成することのできる分類ツリー学習装置及びその動作方法に関する。
体動作をセンシングしてユーザインターフェースを制御する技術は、グラフィック基盤ゲームの入力手段を越えてインタラクティブビデオ(Interactive Video)を制御するための手段として積極的に活用される可能性を示す。
実施形態は、分析対象に対する単一深度映像を用いて分析対象の見える部分だけではなく見えない隠された部分までも認識する技術を提供する。
実施形態は、分析対象に対する単一深度映像から分析対象を構成する複数の構成(例えば、分析対象が人である場合、複数の構成は人の各身体部位−手、腕、足、胴体などになり得る)を認識する技術を提供する。
実施形態は、分析された結果に基づいて分析対象に関するボリュームを構成する技術を提供する。
一実施形態に係るオブジェクト認識装置は、分析対象に対する深度映像が入力される入力部と、分類ツリーを用いて前記深度映像から前記分析対象の可視オブジェクトパート及び前記分析対象の隠しオブジェクトパートを認識する処理部とを備える。
一実施形態に係るオブジェクト認識装置が分析対象の可視オブジェクトパート及び隠しオブジェクトパートを認識するとき用いる分類ツリーを生成する分類ツリー学習装置は、前記分析対象に関するトレーニングデータを用いて前記分類ツリーを生成する学習部を備えてもよい。
一実施形態に係るオブジェクト認識装置の動作方法は、分析対象に対する深度映像が入力されるステップと、分類ツリーを用いて前記深度映像から前記分析対象の可視オブジェクトパート及び前記分析対象の隠しオブジェクトパートを認識するステップとを含む。
一実施形態に係るオブジェクト認識装置が分析対象の可視オブジェクトパート及び隠しオブジェクトパートを認識するとき用いる分類ツリーを生成する分類ツリー学習装置の動作方法は、前記分析対象に関するトレーニングデータを用いて前記分類ツリーを生成するステップを含む。
実施形態は、分析対象に対する単一深度映像を用いて分析対象の見える部分だけではなく見えない隠された部分までも認識する技術を提供することができる。
実施形態は、分析対象に対する単一深度映像から分析対象を構成する複数の構成(例えば、分析対象が人である場合、複数の構成は人の各身体部位−手、腕、足、胴体などになり得る)を認識する技術を提供することができる。
実施形態は、分析された結果に基づいて分析対象に関するボリュームを構成する技術を提供することができる。
一実施形態に係るオブジェクト認識システムの動作を示す図である。 可視オブジェクトパートと隠しオブジェクトパートの実施形態を示す図である。 可視オブジェクトパートと隠しオブジェクトパートの実施形態を示す図である。 可視オブジェクトパートと隠しオブジェクトパートの実施形態を示す図である。 可視オブジェクトパートと隠しオブジェクトパートの実施形態を示す図である。 可視オブジェクトパートと隠しオブジェクトパートの実施形態を示す図である。 一実施形態に係る分類ツリー学習装置の動作を示す図である。 一実施形態に係る分類ツリー学習装置の構成を示す図である。 一実施形態に係る分類ツリー学習装置が光線−出力(Ray−Casting)方式を用いてトレーニングデータを生成する動作を示す図である。 一実施形態に係る分類ツリー学習装置がトレーニングデータを用いて分類ツリーを学習する動作を示す図である。 一実施形態に係る分類ツリー学習装置がトレーニングデータを用いて分類ツリーを学習する動作を示す図である。 学習部が分類ツリーを学習する動作の一実施形態を示す図である。 一実施形態に係るオブジェクト認識装置の構成を示す図である。 一実施形態に係るオブジェクト認識装置が複数の学習された分類ツリーを用いて入力された映像に対する認識を行う動作を示す図である。 オブジェクト認識装置の動作を示すフローチャートである。 一実施形態に係るオブジェクト認識装置が複数の学習された分類ツリーを用いる動作を示す図である。 一実施形態に係るオブジェクト認識装置が学習された分類ツリーに格納された情報を用いて分析された対象を認識する動作を示す図である。 一実施形態に係るオブジェクト認識装置が学習当時の3次元オブジェクトモデルと入力されたオブジェクトの大きさの差を反映してオブジェクト認識性能を向上させる動作を示す図である。 一実施形態に係るオブジェクト認識装置がリーフノードを決定する動作を示す図である。
以下、添付する図面を参照しながら実施形態を詳細に説明する。
図1は、一実施形態に係るオブジェクト認識システムの動作を示す図である。図1を参照すると、オブジェクト認識システムは、分析対象に対する単一深度映像(Single Depth Image)111を用いて分析対象の見える部分(Visible Part)だけではなく見えない隠された部分(Hidden Part)までも認識することができ、さらに分析された結果に基づいて分析対象に対するボリュームを構成することができる。加えて説明すると、オブジェクト認識システムは、何枚の深度映像を利用しなくても分析対象に対する一枚の深度映像から分析対象を構成する複数の構成(例えば、分析対象が人である場合、複数の構成は人の各身体部位−手、腕、足、胴体など−になり得る)を認識できる。分析対象は人、動物、物体などの様々なオブジェクトであってもよい。
オブジェクト認識システムは、分類ツリー学習装置とオブジェクト認識装置を構成として含んでもよい。分類ツリー学習装置は分類ツリーを学習してもよく、オブジェクト認識装置は、ここで学習された分類ツリー121、122を用いてもよい。オブジェクト認識装置は分類ツリー学習装置が生成した、学習された分類ツリー121、122を用いて深度映像111から分析対象の可視オブジェクトパート(Visible Object Part)及び隠しオブジェクトパート(Hidden Object Part)を認識する(120)。ここで、実施形態によってオブジェクト認識装置自ら学習された分類ツリー121、122を生成し、学習された分類ツリー121、122を用いて分析対象の可視/隠しオブジェクトパートを認識する。学習された分類ツリーは、必要に応じて図面に示すように複数使用してもよく、1つのみを使用してもよい。可視オブジェクトパートは、分析対象に対する映像で直接的に見える部分を示す。また、隠しオブジェクトパートは、映像の角度、撮影方向などにより直接見えない部分を示す。
実施形態に係るオブジェクト認識装置は、学習された分類ツリー121、122を用いて分析対象に対する可視レイヤと、1つまたは複数の隠しレイヤを復元する(130)。例えば、オブジェクト認識装置は、認識された結果から深度映像で直接見える部分(すなわち、可視パート)及び直接見えない部分(すなわち、隠しパート)に対する識別子(ID)をそれぞれ分類する(131)。また、オブジェクト認識装置は、認識された結果から隠しパートに対する深度値を復元する(132)。さらに、オブジェクト認識装置は、復元された情報に基づいて分析対象に対するボリュームを復元したりポーズを推定する(140)。
オブジェクト認識システムは、オブジェクトの認識が要求される全ての種類のデバイスに用いられてもよい。例えば、オブジェクト認識システムは、LFD(Large Format Display)を含むスマートTV、スマートフォン、カメラを含むモバイルデバイス、タブレット、ノート型パソコン、オールインワンPC(All−in−one PC)、デスクトップを含む個人用コンピュータなどに用いられてもよい。
また、オブジェクト認識システムは、アプリケーションとして用いられてもよい。例えば、オブジェクト認識システムは、エクササイズゲーム(Exercise Game、Exergame)、仮想スポーツ(Virtual Sports)、仮想環境(Virtual Entertainment)、グラフィックアニメーション(Graphical Animation)、ビデオオブジェクト探査(Video Object Exploration)、人体工学(Ergonomics)、人間ロボット相互動作(Human Robot Interaction)、監視(Surveillance)、家電製品用自然なUI(Natural User Interfaces for Consumer Electronics)などの技術分野に適用されてもよい。例えば、オブジェクト認識システムは、ミュージックビデオ、音楽放送市場、健康ビデオ市場などでインタラクティブビデオを制御するための技術として活用されてもよい。
以下、可視オブジェクトパート及び隠しオブジェクトパートについて説明し、オブジェクト認識装置及び分類ツリー学習装置の動作に対して詳細に説明する。
図2〜図6は、可視オブジェクトパートと隠しオブジェクトパートの実施形態を示す図である。可視オブジェクトパートはオブジェクトを撮影した映像(例えば、カラー映像または深度映像)で直接目で確認できる見える部分を示し、隠しアプリケーションパートは、他の部分に遮られて見えない後方の部分や内側の部分を示す。例えば、イメージセンサによってオブジェクトを撮影する場合、センナプレイン(Sensor Plane)に結像する部分を可視オブジェクトパートデータといい、オブジェクトのセルフオクルージョン(Self Occlusion)や他のオブジェクトによってオクルージョンが発生するオブジェクト領域を隠しオブジェクトパートデータという。
図2を参照すると、オブジェクトが正六面体である場合、正六面体に対する可視オブジェクトパートは正六面体の正面ビュー(Front View)202で見える3つの面であり、正六面体に対する隠しオブジェクトパートは正六面体の後方ビュー(Rear View)203で見える3つの面である。図3を参照すると、オブジェクトが人であり、人の左側の側面を撮影した映像である場合、可視オブジェクトパート301は左腕と左脚などを含む身体の一部になり、隠しオブジェクトパートデータ302は左腕と左脚によって遮られる右腕、左胴、右脚などになる。図4を参照すると、オブジェクトが人の右手であり、人の右手の左側の側面を撮影した映像である場合、可視オブジェクトパートデータ401は親指、人差し指などになり、隠しオブジェクトパートデータ403は中指の一部分402、薬指の一部分403などになる。
図2〜図4を参照して説明した隠しオブジェクトパートは、オブジェクトに対する撮影映像で他の部分によって遮られたり撮影センサと反対側にあるなどの理由によって直接見えない部分を示す。一方、実施形態に係る隠しオブジェクトパートはオブジェクト内部に位置する部分であってもよい。例えば、図5を参照すると、オブジェクトが人である場合、人に対する可視オブジェクトパート501は人の外観になり、人に対する隠しオブジェクトパート502は人の内部に存在する筋肉、骨格、内臓、心血管、神経系などである。また、図6を参照すると、オブジェクトが建築物である場合、可視オブジェクトパートデータ601は目に見える建築物の外形であり、隠しオブジェクトパートデータ602は建築物の内部構造である。
以下、図7a〜図9を参照して分類ツリー学習装置の動作に対して説明し、図10a〜図14bを参照してオブジェクト認識装置の動作に対して説明する。前に図2〜図6を参照して様々なオブジェクトの例を開示したが、以下の分類ツリー学習場分及びオブジェクト認識装置の動作は図3に示す人のポーズを例に挙げて説明する。
図7aは、一実施形態に係る分類ツリー学習装置の動作を示す図である。分類ツリー学習装置は、オブジェクト認識装置が分析対象の可視オブジェクトパート及び隠しオブジェクトパートを認識するとき用いる学習された分類ツリーを生成してもよい。実施形態によって、分類ツリー学習装置が分類ツリーを学習するための前処理過程として、オブジェクト認識システムは、オブジェクトに対する3次元オブジェクトモデル(3D Object Model)712を生成する。ここで、オブジェクト認識システムは、オブジェクトに対する物理的情報711から3次元オブジェクトモデル712を生成する(710)。また、オブジェクト認識システムは、オブジェクトに対するモーションキャプチャー721を行ってIK(inverse kinematics)動作を行い(720)モーションデータ722を収集し、収集したモーションデータ722を3次元オブジェクトモデル712に適用して3次元オブジェクトモデル712に関する情報を更新する(723)。
分類ツリー学習装置は、分類ツリーを学習するためのトレーニングデータ(Training Data)を生成するために更新された3次元オブジェクトモデル712を用いてボリューム分解(Volume decomposition)する(724)。分類ツリー学習装置は、レイ−キャスティング(Ray−Casting)方式を用いてボリューム分解を行う。分類ツリー学習装置は、ボリューム分解を行ってオブジェクトに対する識別子情報と深度値を収集し(725)、収集した情報に基づいてトレーニングデータを生成し、生成されたトレーニングデータを用いて分類ツリーを学習する(726)。実施形態に係る分類ツリー学習装置は、ランダムフォレスト(Random Forest)を分類ツリーとして用いる。
図7bは、一実施形態に係る分類ツリー学習装置の構成を示す図である。図7bを参照すると、分類ツリー学習装置は学習部730を含んでもよい。学習部730は、分析対象(オブジェクト)に関するトレーニングデータを用いて学習された分類ツリーを生成してもよい。すなわち、学習部730は、トレーニングデータを用いて分類ツリーを学習してもよい。実施形態に係る学習部730は、トレーニングデータを直接生成してもよい。学習部730は、出力部731、映像レイヤ生成部732、収集部733及びトレーニングデータ生成部734を備える。
図7cを参照すると、出力部731は、仮想カメラ751を用いて分析対象(例えば、人)の3次元オブジェクトモデル752の複数のボクセル(Voxel)に向かって光線を出力する。映像レイヤ生成部732は、光線が3次元オブジェクトモデル752の表面を透過する度毎に順次映像レイヤを生成してもよい。例えば、映像レイヤ生成部732は、光線が3次元オブジェクトモデル752を初めて透過する点(または、ボクセル)を集めて可視レイヤを生成してもよい。また、映像レイヤ生成部732は、光線が3次元オブジェクトモデル752を通過した後再び透過するとき(すなわち、2回透過する場合)、このような透過点(または、ボクセル)を集めて第1隠しレイヤを生成してもよい。同じ論理に基づいて、映像レイヤ生成部732は、第2、第3、第4隠しレイヤを生成する。隠しレイヤは、オブジェクトの形状、姿勢などと仮想カメラ751とオブジェクトとの間の方向などによって1つ生成されてもよく、複数生成されてもよい。
収集部733は、複数の各映像レイヤごとに光線が透過する表面のボクセルを識別子(Voxel ID)及び深度値(Depth Value)を収集してもよい。また、収集部733は、収集した識別子及び深度値を複数の映像レイヤそれぞれに格納してもよい。例えば、収集部733は、光線が3次元オブジェクトモデル752を初めて透過する点(または、ボクセル)に対する識別子を収集して可視レイヤに格納することで、可視レイヤに表示されたオブジェクトパートに対する識別子イメージ753を生成してもよい。また、収集部733は、光線が3次元オブジェクトモデル752を初めて透過する点(または、ボクセル)に対する深度値を収集して可視レイヤに格納することで、可視レイヤに対する深度値イメージ756を生成してもよい。このように収集部733は、光線が3次元オブジェクトモデル752を通過した後再び透過するとき(すなわち、2回透過する場合)、このような透過点(または、ボクセル)に対する識別子を収集して第1隠しレイヤに格納することで、第1隠しレイヤに表示されたオブジェクトパートに対する識別子イメージ754を生成してもよい。また、収集部733は、光線が3次元オブジェクトモデル752を通過した後再び透過するとき、このような透過点(または、ボクセル)に対する深度値を収集して第1隠しレイヤに格納することで、第1隠しレイヤに対する深度値イメージ757を生成してもよい。
同様に、収集部733は、第2、第3、第4隠しレイヤに対して第1隠しレイヤの動作を同一に適用してもよい。例えば、収集部733は、第2隠しレイヤに表示されたオブジェクトパートに対する識別子イメージ755及び第2隠しレイヤに対する深度値イメージ758を生成してもよい。
トレーニングデータ生成部734は、仮想カメラ751との距離が最小である映像レイヤ(すなわち、可視レイヤ)を可視オブジェクトパートに対するデータに設定してもよい。可視オブジェクトパートに対するデータは、識別子及び深度値を含んでもよい。同様に、トレーニングデータ生成部734は、残りの映像レイヤ(すなわち、隠しレイヤ)を識別子及び深度値を含む隠しオブジェクトパートに対するデータに設定してもよい。トレーニングデータ生成部734は、このように設定された可視オブジェクトパートに対するデータ及び隠しオブジェクトパートに対するデータを用いてトレーニングデータを生成してもよい。
以上で図7b〜図7cを参照して説明したように、学習部730は、分類ツリーを学習させるためのトレーニングデータを直接生成してもよい。しかし、学習部730がこれに限定することなく、別途の方法によって生成されたトレーニングデータを用いてもよい。以下、生成されたトレーニングデータを用いて分類ツリーを学習する動作に対して説明する。
図7d及び図8は、一実施形態に係る分類ツリー学習装置がトレーニングデータを用いて分類ツリーを学習する動作を示す図である。図7d及び図8を参照すると、分類ツリー学習装置は、トレーニングデータで分類ツリーの学習に用いる可視オブジェクトパートに対するデータD701と、隠しオブジェクトパートに対するデータD702を選択する(801)。再び説明すると、分類ツリー学習装置は、学習対象データDを任意に選択してもよい。ここで、オブジェクトの各パート(例えば、オブジェクトが人である場合、腕、足、胴、頭などのパート)が各クラス(class)を形成してもよい。
分類ツリー学習装置は、選択されたトレーニングデータを入力して分類ツリー703を生成して学習する(802)。再び説明すると、分類ツリー学習装置は、選択された学習対象データDを用いて分類ツリーを生成して学習してもよい。ここで、DはDとDに構成してもよい。
分類ツリー学習装置は、入力されたデータ(可視オブジェクトパートに対するデータD701と隠しオブジェクトパートに対するデータD702)がオブジェクトのいずれかのパートに該当するかを確率値に表示したヒストグラムを生成して各ノードに格納してもよい。一実施形態に係るヒストグラムの横軸は、複数のオブジェクトパートIDになり、縦軸は入力されたデータが横軸の複数のオブジェクトパートIDそれぞれに該当する確率値を示す。例えば、オブジェクトが人である場合、人に対するオブジェクトパートは頭、腕、胴、脚などである。ここで、分類ツリー学習装置は、分類ツリーの各ノードで人に対する映像が特定ノードで頭と認識される確率、腕と認識される確率、胴と認識される確率、脚と認識される確率などを表示したヒストグラムを生成してもよい。
分類ツリー703のルートノード(Root Node)704では、入力されたデータが自身のクラス(パート)に該当する確率が全て均等に演算して格納され得る。しかし、分類ツリー学習装置がトレーニングデータを継続して学習して分類ツリーの下位ノードに探索して行くほど、入力されたデータが該当する確率がクラスごとに差が発生することがある。したがって、分類ツリー703のリーフノード(Leaf Node)705では、入力されたデータが該当する確率が最も高いクラス(パート)が決定される。再び説明すると、学習が進行されてオブジェクトパート分類ツリー703のレベル(Level)が増加するほど次第に特定クラスの確率が高く保持され、他のクラスの確率は低くなる。
ここで、分類ツリー学習装置は、リーフノード705で可視オブジェクトパートデータD701に対する深度値と隠しオブジェクトパートデータD702に対する深度値との間の差値を演算して相対的深度値(Relative Depth Value)を演算し、リーフノード705にヒストグラムと共に格納してもよい。
実施形態に係る分類ツリー学習装置は、ステップ801〜802の動作を繰り返し行って複数の学習された分類ツリーを生成する(803)。例えば、分類ツリー学習装置は、K個の分類ツリーで構成されたランダムフォレスト(Random Forest)を学習するためにステップ801とステップ802をK回繰り返し行ってもよい。
図9は、学習部が分類ツリーを学習する動作の一実施形態を示す図である。図7b及び図9を参照すると、学習部730は分類ツリーを学習するために、特徴選択部741、特徴空間変換部742、閾値選択部743、分割部744、情報利益演算部745、及び分類ツリー生成部746を備える。
特徴選択部741は、複数の特徴セット(Feature Set)のいずれか1つの特徴を任意に選択する(901)。特徴空間変換部742は、選択した特徴を用いて可視オブジェクトパートに対するデータ及び隠しオブジェクトパートに対するデータを特徴空間に変換する(902)。ここで、可視オブジェクトパートに対するデータ及び隠しオブジェクトパートに対するデータは、トレーニングデータに含まれたデータを示す。
一実施形態に係る特徴は深度比較特徴であってもよく、特徴空間変換部742は、下記の(数式1−1)のような深度比較特徴(Depth Comparison Feature)式を用いて特徴空間変換を行う。
ここで、d(x)は映像Iでピクセルx(pixel x)の深度を示し、uとvはxから任意に選択されたオフセットポイントを示す。ここで、f(u、v)(I、x)は、分割部のスプリット関数で用いられてもよい。深度比較特徴の他の特徴が選択されてもよく、特徴空間変換部742は、特徴空間変換を行うために前記(数式1−1)の他にもレベルセット、HoG(Histogram of Gradient)などの特徴空間変換のための方法を用いてもよい。しかし、特徴空間変換部742がこのような方法で限定されて動作することはない。
閾値選択部743は、特徴空間の最小値と最大値の範囲内で閾値を任意に選択する(903)。(数式2−1)は、閾値選択部743が閾値tを特徴空間の最小値と最大値の範囲内で選択する動作を示す。
ここで、iはD及びDに属するデータを示す。また、DまたはDはイメージのピクセルであってもよく、イメージのパッチ(patch)であってもよいが、特定データ形態に限定されることはない。
分割部744は、閾値、特徴空間、及び可視オブジェクトパートに対するデータをスプリット関数に入力し、可視オブジェクトパートに対するデータを2種類に分割してもよい。このような2種類を便宜上左側と右側に呼ぶことにす。したがって、分割部744は、可視オブジェクトパートに対するデータを左側可視オブジェクトパートに対するデータ及び右側可視オブジェクトパートに対するデータに分割する(904)。分割部744が左側/右側可視オブジェクトパートのデータに分割する動作は、分類ツリーで現在ノードの下位ノードそれぞれ分割することである。したがって、所定のデータを左側データに分割するか右側に分割するかは任意に選択してもよい。
分割部744は、(数式2−2)のスプリット関数を用いて可視オブジェクトパートに対するデータを分割してもよい。
ここで、iはDに属するデータを示す。また、Dvleftは左側可視オブジェクトパートデータであり、Dvrightは右側可視オブジェクトパートデータである。分割部744は、iをスプリット関数f(x)に入力して演算された結果値が閾値tよりも小さければ、iを左側可視オブジェクトパートデータに分割し、演算された結果値が閾値tよりも大きいか同一であれば、iを右側可視オブジェクトパートデータに分割してもよい。
同様に、分割部744は、(数式2−3)のスプリット関数を用いて隠しオブジェクトパートに対するデータを分割してもよい。
ここで、Dhleftは左側隠しオブジェクトパートデータであり、Dhrightは右側隠しオブジェクトパートデータであり、Dは隠しオブジェクトパートデータである。
情報利益演算部745は、左側可視オブジェクトパートに対するデータ、右側可視オブジェクトパートに対するデータ、左側隠しオブジェクトパートに対するデータ、及び右側隠しオブジェクトパートに対するデータに関する情報利益を演算する(905)。例えば、情報利益演算部745は、左側可視オブジェクトパートに対するデータ及び右側可視オブジェクトパートに対するデータの第1中間情報利益を演算してもよい。また、情報利益演算部745は、左側隠しオブジェクトパートに対するデータ及び右側隠しオブジェクトパートに対するデータの第2中間情報利益を演算してもよい。第1、第2中間情報利益を演算した後、情報利益演算部745は第1中間情報利益及び第2中間情報利益に基づいて最終的な情報利益を演算してもよい。
第1、第2中間情報利益を算出する、例えば、情報利益演算部745は各ノードでシャノンエントロピー(E(D))に基づく(数式2−4)を用いてもい。
ここで、E(D)はシャノンエントロピーを示し、cはクラスの個数を示し、Cはi番目のオブジェクトパートクラスを示し、Dは特定のノードでのデータセット(Data Set)を示す。ここで、P(c|D)は、データDのうちi番目のオブジェクトパートクラスの確率を示す。ここで、確率は、データDの個数からi番目のオブジェクトパートクラスが占める個数の比率を示す。例えば、全体Dの個数が100であり、3番目の特定オブジェクトパートクラスの一例である手のボクセル個数が15である場合、P(c|D)の値は0.15となる。
実施形態に係る情報利益演算部745は、シャノンエントロピーだけではなくジニーエントロピー(Gini Entropy)などを用いて識別されるクラスセット(Discriminative Classes Set)が見つけられたか否かを測定する。
情報利益演算部745は、各ノードの可視オブジェクトパートデータの識別大きさΔEを(数式2−5)のように演算してもよい。
また、情報利益演算部745は、各ノードのn番目の隠しオブジェクトパートデータの識別大きさΔEhnを(数式2−6)のように演算してもよい。
(数式2−4)から2−6を用いて算出した値に基づいて、情報利益演算部745は最終的な情報利益を下記の(数式2−7)のように演算してもよい。
ここで、αの大きさを0から1の間に調整することによって、情報利益演算部745は、可視オブジェクトパートデータと隠しオブジェクトパートデータのいずれか一側に加重値をおいて情報利益を演算するかを調節する。例えば、情報利益演算部745は、可視オブジェクトパートデータの情報利益のみを考慮しようとすると、αを1に設定してもよい。また、αが1に近いほど可視オブジェクトパートデータが識別性のあるよう構成されたかを考慮することができ、0に近いほど隠しオブジェクトパートデータが識別性のあるよう構成されたかを考慮することができる。α=0.5である場合、情報利益演算部745は、可視オブジェクトパートデータと隠しオブジェクトパートデータを同じ重要度であると考慮してもよい。
分類ツリー生成部746は、演算された情報利益が予め設定された最適基準範囲内の値であるか否かを判断する(906)。情報利益が最適基準範囲の外にある場合、分類ツリー生成部746は閾値を任意に再び選択してもよい。また、再び選択された閾値を用いてステップ903〜906を繰り返し行う。情報利益が最適基準範囲内にある場合、分類ツリー生成部746は、分類ツリーの現在ノードに選択した特徴の値、閾値、左側可視オブジェクトパートに対するデータ、右側可視オブジェクトパートに対するデータ、左側隠しオブジェクトパートに対するデータ、及び右側隠しオブジェクトパートに対するデータを格納する(907)。
その後、分類ツリー生成部746は、閾値を再び選択してステップ903〜908を複数回(N回)繰り返し行う(908)。また、分類ツリー生成部746は、特徴を再び選択してステップ901〜909を複数回(M回)繰り返し行う(909)。ステップ903〜908をN回繰り返して行い、ステップ901〜909をM回繰り返し実行(Iteration)することで、N×M回のテストを介して最も小さいΔEvであるとき(繰り返し実行することによって最適の値を有するものと演算された最終的な情報利益、Best Gain E)の特徴及び閾値を探す目的を達成することができる。
分類ツリー生成部746は、現在ノードが停止基準を満足するかを判断する(910)。一例として、分類ツリー生成部746は、下記のi−iiiの条件の少なくとも1つ以上を満足する場合、現在ノードが停止基準を満足すると判断してもよい。
i.最終的な情報利益(Best Gain E)が基準値以下である場合
(例えば、Δ0.5である場合)
ii.分類ツリーのレベルが基準値以上である場合
(例えば、分類ツリーのレベルが25以上である場合)
iii.可視オブジェクトパートデータ及び隠しオブジェクトパートデータの量が基準値以下である場合
(例えば、データに属するボクセルの数が10個以下である場合)
分類ツリー生成部746は、現在ノードが停止基準を満足すると、現在ノードをリーフノードとして決定し、当該データセットに対して学習する動作を終了してもよい。可視オブジェクトパートの後に数回重畳した隠しオブジェクトパートがある場合、分類ツリー生成部746は、1つのリーフノードのうち隠しオブジェクトパートに対するヒストグラムを複数生成してもよい。再び説明すると、重畳したパートが数個ある場合、隠しオブジェクトパートは重畳した数だけ数個存在するが、分類ツリー生成部746は、隠しオブジェクトパートに対するヒストグラムを1つのリーフノードのうち複数生成することによって複数の隠しオブジェクトパートそれぞれに関する情報を格納してもよい。
分類ツリー生成部746は、それぞれのノードで可視オブジェクトパートに対する第1ヒストグラム及び隠しオブジェクトパートに対する第2ヒストグラムを生成してもよい。ここで、第1ヒストグラムは、分析対象に対する複数のオブジェクトパートそれぞれが可視オブジェクトパートに決定される確率を表示するヒストグラムであり、第2ヒストグラムは複数のオブジェクトパートそれぞれが隠しオブジェクトパートに決定される確率を表示するヒストグラムであってもよい。分類ツリー生成部746は、第1ヒストグラム及び第2ヒストグラムを分類ツリーの現在ノードに格納する(911、912)。
ここで、第1ヒストグラムの確率は、(数式2−4)で用いられた可視オブジェクトパートに対するP(c|D)の意味と同一である。また、第2ヒストグラムの確率は、(数式2−4)で用いられた隠しオブジェクトパートに対するP(c|D)の意味と同一である。
すなわち、学習が進行してリーフノードに残っているデータDのうち、可視オブジェクトパートに属する各クラスcに対する比率は確率で算出されて第1ヒストグラムに格納され、隠しオブジェクトパートに属する各クラスcに対する比率は確率で算出されて第2ヒストグラムに格納されてもよい。
分類ツリー生成部746は、現在ノードがリーフノードと決定されると、可視オブジェクトパートに対する深度値と隠しオブジェクトパートに対する深度値との間の差値を示す相対的深度値(Relative Depth Value)を演算して格納してもよい。したがって、オブジェクト認識装置が分類ツリー学習装置が生成した学習された分類ツリーを用いて分析対象を認識するとき、リーフノードに相応するよう格納された第1、第2ヒストグラム及び相対的深度値を用いることによって、分析対象の各パートを認識して分析対象のボリュームを再構成することができる。
分類ツリー生成部746がリーフノードを決定する動作を可視オブジェクトパートに対するデータ及び隠しオブジェクトパートに対するデータに対して表示すると、図14bのように示すことができる。
図14bを参照すると、分類ツリー生成部746は、最初に選択した特徴、閾値とスプリット関数を用いて可視オブジェクトパートに対するデータに含まれた可視レイヤ1410を1次分割(1st Split)1401する。また、分類ツリー生成部746は、停止基準を満足するまで特徴、閾値を再び選択して2次分割1402、3次分割1403などを行う。繰り返しの分割によって現在ノードが停止基準を満足する場合、分類ツリー生成部746は当該オブジェクトパートの部分1404をリーフノードとして決定してもよい。分類ツリー生成部746は、第1隠しレイヤ1420〜第n隠しレイヤ1430などに対しても可視レイヤ1410と同様に、繰り返し分割動作を行ってリーフノードを決定してもよい。
分類ツリー生成部746は、現在ノードが停止基準を満足しなければ、分類ツリーの現在ノードをスプリットノードとして決定する(913)。分類ツリー生成部746は、スプリットノードとして決定されたノードに選択した特徴の値、閾値、左側可視オブジェクトパートに対するデータ、右側可視オブジェクトパートに対するデータ、左側隠しオブジェクトパートに対するデータ、及び右側隠しオブジェクトパートに対するデータを格納してもよい。
また、分類ツリー生成部746は、左側可視オブジェクトパートに対するデータ(Dvleft)及び左側隠しオブジェクトパートに対するデータ(Dhleft)を入力として左側子ノード(Child node)を学習し(914)、右側可視オブジェクトパートに対するデータ(Dvright)及び右側隠しオブジェクトパートに対するデータ(Dhright)を入力として右側子ノードを学習する(915)。すなわち、分類ツリー生成部746は、現在ノードが停止基準を満足しなければ、左側可視/隠しオブジェクトパートに対するデータを入力データとして分類ツリーを再帰呼出し(Recursive Call)、右側可視/隠しオブジェクトパートに対するデータを入力データとして分類ツリーを再帰呼出してもよい。ここで、下位ノードを学習する動作は、ステップ901〜910の動作が同一に適用されてもよい。
以上は図7a〜図9を参照して分類ツリー学習装置が分類ツリーを学習する動作について説明した。以下、学習された分類ツリーを用いて分析対象に対する深度映像からオブジェクトパートを認識するオブジェクト認識装置の動作について説明する。
図10aは、一実施形態に係るオブジェクト認識装置の構成を示す図である。また、図11は、オブジェクト認識装置の動作を示すフローチャートである。図10aを参照すると、オブジェクト認識装置は、入力部1010及び処理部1020を備える。入力部1010は、分析対象に対する深度映像が入力される(1101)。分析対象は、人や物などのオブジェクトを示す。
処理部1020は、学習された分類ツリーを用いて深度映像から分析対象の可視オブジェクトパート及び分析対象の隠しオブジェクトパートを認識する(1102、1103)。図10bを参照すると、学習された分類ツリーが複数である場合に処理部1020は、複数の学習された分類ツリー1001、1002それぞれに分析対象に対する深度映像を入力し、分析対象の深度映像がどのような可視オブジェクトパートに対応してどのような隠しオブジェクトパートに対応するかを認識する。例えば、処理部1020は、学習された分類ツリーの各レベルのスプリットノードに学習によって格納された特徴vと閾値tを用いて、各ノードで左側に進行するか右側に進行するかを決定した後、最終的にはリーフノードに到達する。リーフノードに学習によって格納された可視オブジェクトパートに対するクラス確率ヒストグラムと隠しオブジェクトパートに対するクラス確率ヒストグラムを用いて、分析対象に対する深度映像がどのような可視オブジェクトパートに属し、どのような隠しオブジェクトパートに属するかを認識する。例えば、一実施形態に係る処理部1020は、複数の学習された分類ツリー1001、1002のリーフノードで認識された各結果の平均を用いて可視オブジェクトパート及び隠しオブジェクトパートを認識する。
オブジェクト認識装置はボリューム構成部1030をさらに含んでもよい。ボリューム構成部1030は、認識された可視オブジェクトパート及び認識された隠しオブジェクトパートを用いて1つのデータ空間に分析対象のボリュームを構成する(1104)。ボリューム構成部1030は、学習された分類ツリーのリーフノードに格納された相対的深度値を用いてボリュームを構成してもよい。すなわち、ボリューム構成部1030は、認識された可視オブジェクトパートに対する深度値と認識された隠しオブジェクトパートに対する深度値との間の差値を示すため、入力された深度値から相対的深度値を差し引いたり加えることによって、隠しオブジェクトパートの深度値を演算してもよく、ボリューム構成部1030は演算された値に基づいて分析対象に対するボリュームを構成してもよい。
実施形態によって構成されたボリュームに基づいて分析対象に対する付加情報を抽出する(1105)。このような付加情報抽出は、オブジェクト認識装置の処理部120が担当する。付加情報は、分析対象の形状、姿勢、キージョイント及び構造のうち少なくとも1つに関する情報を含んでもよい。
オブジェクト認識装置は、大きさ調整部1040をさらに含んでもよい。大きさ調整部1040について後で詳細に説明する。
図12は、オブジェクト認識装置が複数の学習された分類ツリーを用いる動作の一実施形態を示す図である。図12を参照すると、オブジェクト認識装置は分析対象に対する深度映像が入力され(1201)、複数の学習された分類ツリーのいずれか1つを用いて可視オブジェクトパート及び隠しオブジェクトパートを認識する(1202)。また、1つの学習された分類ツリーに対する認識動作を完了すると、他の学習された分類ツリーを用いてステップ1201及び1202を繰り返し行う。このように複数の学習された分類ツリーを用いて認識する動作を繰り返し行うことによって、オブジェクト認識装置は複数の学習された分類ツリーそれぞれに対する可視/隠しオブジェクトパートに対する確率値P、Pを取得してもよい。また、オブジェクト認識装置は、複数の学習された分類ツリーそれぞれに対する隠しオブジェクトパートに対する深度値Dを取得してもよい。
また、オブジェクト認識装置は、可視オブジェクトパートの確率及び隠しオブジェクトパートの確率の平均と隠しオブジェクトパートデータの平均深度値を算出する(1204、1205)。例えば、入力されるデータをIと仮定し、T個の学習された分類ツリーが提供されるとき、オブジェクト認識装置は可視オブジェクトパートが特定クラスCに属する確率Pを(数式3−1)のように演算してもよい。
オブジェクト認識装置は、最終的に(数式3−1)により求められるクラスCのうち最も高い確率値を有するクラスを可視オブジェクトパートの種類として選択してもよい。例えば、頭、腕、手、胴、足、脚のうち手の確率値が最も高ければ、オブジェクト認識装置は可視オブジェクトパートの種類として手を選択してもよい。
同様に、オブジェクト認識装置は、隠しオブジェクトパートが特定クラスChnに属する確率Pを(数式3−2)のように演算してもよい。可視オブジェクトパートの後に数回重畳した隠しオブジェクトパートが存在する場合、複数(n個)のCが存在する。
オブジェクト認識装置は、最終的に(数式3−2)によって求められるクラスCのうち最も高い確率値を有するクラスを重畳したn個の隠しオブジェクトパートそれぞれの種類として選択してもよい。例えば、最初の隠しレイヤで頭、腕、手、胴、足、脚のうち脚の確率値が最も高ければ、オブジェクト認識装置は第1隠しオブジェクトパートの種類として脚を選択してもよい。また、2番目の隠しレイヤで頭、腕、手、胴、足、脚のうち足の確率値が最も高ければ、オブジェクト認識装置は第2隠しオブジェクトパートの種類として足を選択してもよい。
図13は、オブジェクト認識装置が学習された分類ツリーに格納された情報を用いて分析された対象を認識する動作の一実施形態を示す図である。図13を参照すると、オブジェクト認識装置の処理部1020は、学習された分類ツリーに深度映像を入力してもよい。また、学習された分類ツリーの現在ノードがスプリットノードであるか否かを判断する(1301)。現在ノードがスプリットノード(Split Node)であれば、処理部1020は、スプリットノードに格納された特徴の値を読み出す(1302)。また、処理部1020は、スプリットノードに格納された閾値を読み出す(1303)。読み出された特徴の値及び閾値をスプリット関数に入力して処理部1020は結果値rを演算する(1304)。スプリット関数は、学習された分類ツリーのスプリットノードに格納されてもよい。
処理部1020は、演算された結果値に基づいて学習された分類ツリーの現在ノードに対する左側子ノード及び右側子ノードのいずれか1つのノードを探索してもよい。例えば、処理部1020は、演算された結果値rと閾値tの大きさを比較判断する(1305)。演算された結果値rが閾値tよりも小さければ、処理部1020は左側子ノードを探索し(1307)、演算された結果値rが閾値tと同一であるか大きければ、処理部1020は右側子ノードを探索する(1306)。この場合、(数式2)または(数式2−3)の例のように、分類ツリーが生成されるとき用いられた分類を同一に用いて子ノードを探索することを見せている。もちろん、分類ツリーを生成するとき他の分類が使用されれば、左側/右側は変わり得る。左側または右側ノードを探索すれば、処理部1020は、ステップ1301に再び戻って探索したノードがスプリットノードであるか否かを判断する。探索したノードがスプリットノードである場合、ステップ1301〜1307を繰り返し行う。
現地ノードがスプリットノードではなくリーフノードである場合、処理部1020は、リーフノードに格納された可視オブジェクトパートに対する第1ヒストグラムを読み出す(1308)。また、処理部1020は、隠しオブジェクトパートに対する第2ヒストグラムを読み出す(1309)。処理部1020は、読み出された第1ヒストグラムに基づいて深度映像から可視オブジェクトパートを認識し、第2ヒストグラムに基づいて深度映像から隠しオブジェクトパートを認識する。言い換えれば、処理部1020は、入力された深度映像がどの可視オブジェクトパートに該当するか、どの隠しオブジェクトパートに該当するかを認識することができる。
オブジェクトを認識する過程において、深度映像のオブジェクト大きさに関する情報を活用すれば、可視オブジェクト及び隠しオブジェクトの認識性能を高めることができる。そのために、オブジェクト認識装置は、入力オブジェクトの大きさを把握してオブジェクト認識装置内の認識方法を調整する大きさ調整部1040をさらに含んでもよい。大きさ調整部1040は、処理部1020の内部構成として位置してもよい。
図14aを参照すると、分類ツリー学習装置で用いたオブジェクトモデル(Trained Body Type)1441と実際に入力される深度映像のオブジェクトの体形は異なることもある。その結果、オブジェクト認識装置で可視オブジェクト及び隠しオブジェクトを認識することにおいて、修正されていないオリジナル特徴1442を適用した結果のように腰の部分が手に認識されるなどのエラーが発生することがある。このような問題を解決するために、大きさ調整部1040は入力オブジェクトの幅1444及び高さ1445を考慮し、図13に示す1304ステップで特徴空間に変換するとき反映してもよい。
大きさ調整部1040は、下記の(数式3−3)のような特徴空間変換式を図13の1304ステップで利用してもよい。
ここで、d(x)は映像Iでピクセルx(pixel x)の深度を示し、uとvはxから任意に選択されたオフセットポイント(offset point)を示す。また、演算子
は2次元で要素ワイズ乗算子(element−wise multiplication)を示す。
大きさ調整部1040は、前記(数式3−3)に用いられる幅W1444と高さH1445を有するオブジェクトタイプ(例えば、人体タイプ)に対する最適係数K W,Hを(数式3−4)のように演算してもよい。
ここで、K W,H=(W、H)は、オブジェクトタイプの幅W1444及び高さH1445に対応する特徴スケールを調整するための係数パラメータのセットを示す。また、Tは分類ツリーの数を示し、cは与えられたオブジェクトパート識別子bに対する各分類ツリーのオブジェクトパート確率を示す。
可視オブジェクト及び隠しオブジェクトの認識結果は、同一のクラスIDを有する複数のオブジェクトパート分布を含んでもよく、オブジェクトスケルトン(例えば、人体スケルトン)のジョイント位置Xは下記の(数式3−5)のようにベイジアン方法(Bayesian method)によって予測されることで正確度がより向上する。
ここで、Xは与えられたオブジェクト確率cのジョイント位置を示し、Sはシルエットマッチング確率を示し、Lはオブジェクトパート連続性を示す。最も高い確率を有する候補ジョイントXは全ての候補のうち選択されてもよく、選択されればオブジェクトのスケルトンを再現するために用いられてもよい。
先に説明したオブジェクト認識装置、分類ツリー学習装置及びその動作方法は、多様なコンピュータ手段によって行うことができるプログラム命令形態で実現され、コンピュータ読み出し可能媒体に記録してもよい。前記コンピュータ録媒体は、プログラム命令、データファイル、データ構造などを単独または組み合わせたものを含んでもよい。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読取可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスクのような磁気−光媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含んでもよい。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードを含む。上述のハードウェア装置は、本発明の動作を行うために1つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。
上述したように本発明を限定された実施形態と図面によって説明したが、本発明は、上記の実施形態に限定されることなく、本発明が属する分野における通常の知識を有する者であれば、このような実施形態から様々に修正及び変形が可能である。

Claims (12)

  1. 分析対象に対する深度映像が入力される入力部と、
    分類ツリーを用いて、前記深度映像から、前記分析対象の可視オブジェクトパート及び前記分析対象の隠しオブジェクトパートを認識する処理部と、
    前記認識された可視オブジェクトパート及び前記認識された隠しオブジェクトパートを用いて、1つのデータ空間に前記分析対象のボリュームを構成するボリューム構成部と、
    を備え、
    前記ボリューム構成部は、前記分類ツリーのリーフノードの中に保管されている相対的な深度値に基づいて前記ボリュームを構築し、かつ、前記相対的な深度値は、前記認識された可視オブジェクトパートの深度値と前記認識された隠しオブジェクトパートの深度値との間の差異を含む、ことを特徴とするオブジェクト認識装置。
  2. 前記処理部は、前記ボリュームに基づいて前記分析対象に対する付加情報を抽出することを特徴とする請求項1に記載のオブジェクト認識装置。
  3. 前記付加情報は、前記分析対象の形状、姿勢、キージョイント、及び構造のうち少なくとも1つに関する情報を含むことを特徴とする請求項2に記載のオブジェクト認識装置。
  4. 前記ボリューム構成部は、前記分類ツリーのリーフノードに格納された相対的深度値を用いて前記ボリュームを構成し、
    前記相対的深度値は、前記認識された可視オブジェクトパートに対する深度値と前記認識された隠しオブジェクトパートに対する深度値との間の差値を示すことを特徴とする請求項1に記載のオブジェクト認識装置。
  5. 前記処理部は、
    前記分類ツリーに前記深度映像を入力し、
    前記分類ツリーの現在ノードがスプリットノードであれば、前記スプリットノードに格納された特徴の値及び閾値を読み出し、前記特徴の値及び前記閾値をスプリット関数に入力して結果値を演算し、前記演算された結果値に基づいて前記現在ノードに対する左側子ノード及び右側子ノードのいずれか1つのノードを探索し、
    前記現在ノードがリーフノードであれば、前記リーフノードに格納された前記可視オブジェクトパートに対する第1ヒストグラム及び前記隠しオブジェクトパートに対する第2ヒストグラムを読み出し、前記第1ヒストグラムに基づいて前記深度映像から前記可視オブジェクトパートを認識して前記第2ヒストグラムに基づいて前記深度映像から前記隠しオブジェクトパートを認識することを特徴とする請求項1乃至4のいずれか一項に記載のオブジェクト認識装置。
  6. 前記処理部は、前記演算された結果値が前記閾値よりも小さければ、前記左側子ノードを探索し、前記演算された結果値が前記閾値と同一であるか大きければ、前記右側子ノードを探索することを特徴とする請求項5に記載のオブジェクト認識装置。
  7. 前記分析対象に対するオブジェクトモデルの幅及び高さのうち少なくとも1つの大きさを調整する大きさ調整部をさらに備えることを特徴とする請求項1乃至6のいずれか一項に記載のオブジェクト認識装置。
  8. 前記分類ツリーは、前記可視オブジェクトパートの確率値及び前記隠しオブジェクトパートの確率値を含むことを特徴とする請求項1乃至7のいずれか一項に記載のオブジェクト認識装置。
  9. 前記分類ツリーは、前記可視オブジェクトパートと前記隠しオブジェクトパートの相対的深度値を含むことを特徴とする請求項1乃至7のいずれか一項に記載のオブジェクト認識装置。
  10. 前記分類ツリーは、前記隠しオブジェクトパートの少なくとも一部分を複数のレイヤに表現することを特徴とする請求項1乃至7のいずれか一項に記載のオブジェクト認識装置。
  11. 分析対象に対する深度映像が入力されるステップと、
    分類ツリーを用いて前記深度映像から前記分析対象の可視オブジェクトパート及び前記分析対象の隠しオブジェクトパートを認識するステップと、
    前記認識された可視オブジェクトパート及び前記認識された隠しオブジェクトパートを用いて、1つのデータ空間に前記分析対象のボリュームを構成するステップと、
    を含み、
    前記ボリュームを構成するステップは、前記分類ツリーのリーフノードの中に保管されている相対的な深度値に基づいて前記ボリュームを構築し、かつ、前記相対的な深度値は、前記認識された可視オブジェクトパートの深度値と前記認識された隠しオブジェクトパートの深度値との間の差異を含む、
    ことを特徴とするオブジェクト認識装置の動作方法。
  12. プログラムが記録されたコンピュータで読み出し可能な記録媒体であって、
    プロセッサによって前記プログラムが実行されると、請求項11に記載の方法を実行する、
    コンピュータで読み出し可能な記録媒体。
JP2014552125A 2012-01-11 2013-01-09 オブジェクト認識装置、分類ツリー学習装置及びその動作方法 Active JP6357421B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
KR10-2012-0003585 2012-01-11
KR20120003585 2012-01-11
KR20120006181 2012-01-19
KR10-2012-0006181 2012-01-19
KR1020120106183A KR101919831B1 (ko) 2012-01-11 2012-09-25 오브젝트 인식 장치, 분류 트리 학습 장치 및 그 동작 방법
KR10-2012-0106183 2012-09-25
PCT/KR2013/000174 WO2013105783A1 (ko) 2012-01-11 2013-01-09 오브젝트 인식 장치, 분류 트리 학습 장치 및 그 동작 방법

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2017146234A Division JP6522060B2 (ja) 2012-01-11 2017-07-28 オブジェクト認識装置、分類ツリー学習装置及びその動作方法

Publications (2)

Publication Number Publication Date
JP2015505108A JP2015505108A (ja) 2015-02-16
JP6357421B2 true JP6357421B2 (ja) 2018-07-11

Family

ID=48993724

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2014552125A Active JP6357421B2 (ja) 2012-01-11 2013-01-09 オブジェクト認識装置、分類ツリー学習装置及びその動作方法
JP2017146234A Active JP6522060B2 (ja) 2012-01-11 2017-07-28 オブジェクト認識装置、分類ツリー学習装置及びその動作方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2017146234A Active JP6522060B2 (ja) 2012-01-11 2017-07-28 オブジェクト認識装置、分類ツリー学習装置及びその動作方法

Country Status (6)

Country Link
US (3) US9508152B2 (ja)
EP (1) EP2804111B1 (ja)
JP (2) JP6357421B2 (ja)
KR (1) KR101919831B1 (ja)
CN (1) CN103890752B (ja)
WO (1) WO2013105783A1 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10474793B2 (en) * 2013-06-13 2019-11-12 Northeastern University Systems, apparatus and methods for delivery and augmentation of behavior modification therapy and teaching
US9952042B2 (en) 2013-07-12 2018-04-24 Magic Leap, Inc. Method and system for identifying a user location
US9600897B2 (en) * 2013-10-31 2017-03-21 Nec Corporation Trajectory features and distance metrics for hierarchical video segmentation
KR102271853B1 (ko) 2014-03-21 2021-07-01 삼성전자주식회사 전자 장치, 영상 처리 방법, 및 컴퓨터 판독가능 기록매체
US9842274B2 (en) * 2014-03-28 2017-12-12 Xerox Corporation Extending data-driven detection to the prediction of object part locations
KR101982258B1 (ko) * 2014-09-19 2019-05-24 삼성전자주식회사 오브젝트 검출 방법 및 오브젝트 검출 장치
CN105760390B (zh) * 2014-12-17 2021-09-28 富泰华工业(深圳)有限公司 图片检索系统及方法
US9471836B1 (en) * 2016-04-01 2016-10-18 Stradvision Korea, Inc. Method for learning rejector by forming classification tree in use of training images and detecting object in test images, and rejector using the same
US10373319B2 (en) 2016-06-13 2019-08-06 International Business Machines Corporation Object tracking with a holographic projection
WO2018022011A1 (en) * 2016-07-26 2018-02-01 Hewlett-Packard Development Company, L.P. Indexing voxels for 3d printing
WO2018128424A1 (ko) * 2017-01-04 2018-07-12 가이아쓰리디 주식회사 3차원 지리 정보 시스템 웹 서비스를 제공하는 방법
CN110945537B (zh) * 2017-07-28 2023-09-22 索尼互动娱乐股份有限公司 训练装置、识别装置、训练方法、识别方法和程序
KR102440385B1 (ko) * 2017-11-28 2022-09-05 영남대학교 산학협력단 멀티 인식모델의 결합에 의한 행동패턴 인식방법 및 장치
CN108154104B (zh) * 2017-12-21 2021-10-15 北京工业大学 一种基于深度图像超像素联合特征的人体姿态估计方法
KR101862677B1 (ko) * 2018-03-06 2018-05-31 (주)휴톰 3차원 탄성 모델 렌더링 방법, 장치 및 프로그램
US11127189B2 (en) 2018-02-23 2021-09-21 Canon Kabushiki Kaisha 3D skeleton reconstruction from images using volumic probability data
GB2571307B (en) * 2018-02-23 2020-10-21 Canon Kk 3D skeleton reconstruction from images using volumic probability data
US10650233B2 (en) * 2018-04-25 2020-05-12 International Business Machines Corporation Identifying discrete elements of a composite object
US11423615B1 (en) * 2018-05-29 2022-08-23 HL Acquisition, Inc. Techniques for producing three-dimensional models from one or more two-dimensional images
KR101949727B1 (ko) * 2018-07-02 2019-02-19 한화시스템 주식회사 객체간 링크 생성 시스템 및 이의 동작 방법
US11335027B2 (en) 2018-09-28 2022-05-17 Hewlett-Packard Development Company, L.P. Generating spatial gradient maps for a person in an image
KR102280201B1 (ko) * 2018-11-23 2021-07-21 주식회사 스칼라웍스 머신 러닝을 이용하여 은닉 이미지를 추론하는 방법 및 장치
WO2020242047A1 (en) * 2019-05-30 2020-12-03 Samsung Electronics Co., Ltd. Method and apparatus for acquiring virtual object data in augmented reality
US11651621B2 (en) * 2019-10-23 2023-05-16 Samsung Electronics Co., Ltd. Electronic device and method for controlling the electronic device
US11741670B2 (en) * 2021-03-01 2023-08-29 Samsung Electronics Co., Ltd. Object mesh based on a depth image
US11785196B2 (en) * 2021-09-28 2023-10-10 Johnson Controls Tyco IP Holdings LLP Enhanced three dimensional visualization using artificial intelligence

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0928460B1 (en) * 1997-07-29 2003-01-29 Philips Electronics N.V. Method of reconstruction of tridimensional scenes and corresponding reconstruction device and decoding system
US7536044B2 (en) 2003-11-19 2009-05-19 Siemens Medical Solutions Usa, Inc. System and method for detecting and matching anatomical structures using appearance and shape
JP2005165791A (ja) 2003-12-03 2005-06-23 Fuji Xerox Co Ltd 対象物の追跡方法及び追跡システム
US20070053563A1 (en) 2005-03-09 2007-03-08 Zhuowen Tu Probabilistic boosting tree framework for learning discriminative models
JP4767718B2 (ja) 2006-02-24 2011-09-07 富士フイルム株式会社 画像処理方法および装置ならびにプログラム
US20090002489A1 (en) 2007-06-29 2009-01-01 Fuji Xerox Co., Ltd. Efficient tracking multiple objects through occlusion
US7925081B2 (en) 2007-12-12 2011-04-12 Fuji Xerox Co., Ltd. Systems and methods for human body pose estimation
US9165199B2 (en) * 2007-12-21 2015-10-20 Honda Motor Co., Ltd. Controlled human pose estimation from depth image streams
KR101335346B1 (ko) * 2008-02-27 2013-12-05 소니 컴퓨터 엔터테인먼트 유럽 리미티드 장면의 심도 데이터를 포착하고, 컴퓨터 액션을 적용하기 위한 방법들
KR20090093119A (ko) 2008-02-28 2009-09-02 홍익대학교 산학협력단 움직이는 객체 추적을 위한 다중 정보의 융합 방법
JP4889668B2 (ja) 2008-03-05 2012-03-07 三菱電機株式会社 物体検出装置
JP5212007B2 (ja) * 2008-10-10 2013-06-19 株式会社リコー 画像分類学習装置、画像分類学習方法、および画像分類学習システム
EP2249292A1 (en) 2009-04-03 2010-11-10 Siemens Aktiengesellschaft Decision making mechanism, method, module, and robot configured to decide on at least one prospective action of the robot
KR101109568B1 (ko) 2009-04-13 2012-01-31 한양대학교 산학협력단 행동유발성 확률모델을 이용한 로봇의 행동 선택 방법
US9182814B2 (en) * 2009-05-29 2015-11-10 Microsoft Technology Licensing, Llc Systems and methods for estimating a non-visible or occluded body part
CN101989326B (zh) * 2009-07-31 2015-04-01 三星电子株式会社 人体姿态识别方法和装置
JP2011059898A (ja) 2009-09-08 2011-03-24 Fujifilm Corp 画像解析装置、画像解析方法およびプログラム
US8665268B2 (en) 2009-09-22 2014-03-04 Siemens Aktiengesellschaft Image data and annotation processing system
KR101068465B1 (ko) 2009-11-09 2011-09-28 한국과학기술원 삼차원 물체 인식 시스템 및 방법
US8446492B2 (en) 2009-12-10 2013-05-21 Honda Motor Co., Ltd. Image capturing device, method of searching for occlusion region, and program
KR101671488B1 (ko) 2009-12-18 2016-11-01 에스케이텔레콤 주식회사 문맥상 사라진 특징점의 복원을 통한 물체 인식 방법
KR101077788B1 (ko) 2010-01-18 2011-10-28 한국과학기술원 이미지 내의 물체 인식 방법 및 장치
EP2383696A1 (en) 2010-04-30 2011-11-02 LiberoVision AG Method for estimating a pose of an articulated object model
EP2386998B1 (en) 2010-05-14 2018-07-11 Honda Research Institute Europe GmbH A Two-Stage Correlation Method for Correspondence Search
US8625897B2 (en) * 2010-05-28 2014-01-07 Microsoft Corporation Foreground and background image segmentation
KR20110133677A (ko) * 2010-06-07 2011-12-14 삼성전자주식회사 3d 영상 처리 장치 및 그 방법

Also Published As

Publication number Publication date
WO2013105783A1 (ko) 2013-07-18
US9508152B2 (en) 2016-11-29
US10867405B2 (en) 2020-12-15
CN103890752A (zh) 2014-06-25
KR20130082425A (ko) 2013-07-19
JP6522060B2 (ja) 2019-05-29
US20170039720A1 (en) 2017-02-09
JP2017208126A (ja) 2017-11-24
US20190122385A1 (en) 2019-04-25
US10163215B2 (en) 2018-12-25
US20150023557A1 (en) 2015-01-22
EP2804111A1 (en) 2014-11-19
EP2804111B1 (en) 2020-06-24
CN103890752B (zh) 2017-05-10
JP2015505108A (ja) 2015-02-16
KR101919831B1 (ko) 2018-11-19
EP2804111A4 (en) 2016-03-23

Similar Documents

Publication Publication Date Title
JP6357421B2 (ja) オブジェクト認識装置、分類ツリー学習装置及びその動作方法
Kamel et al. Deep convolutional neural networks for human action recognition using depth maps and postures
CN103718175B (zh) 检测对象姿势的设备、方法和介质
CN107155360B (zh) 用于对象检测的多层聚合
Ar et al. A computerized recognition system for the home-based physiotherapy exercises using an RGBD camera
Packer et al. A combined pose, object, and feature model for action understanding
US9058663B2 (en) Modeling human-human interactions for monocular 3D pose estimation
CN110073369A (zh) 时间差分模型的无监督学习技术
Kumar et al. Indian sign language recognition using graph matching on 3D motion captured signs
Vejdemo-Johansson et al. Cohomological learning of periodic motion
Papadopoulos et al. Human action recognition using 3d reconstruction data
Haggag et al. Semantic body parts segmentation for quadrupedal animals
Kumar et al. Early estimation model for 3D-discrete indian sign language recognition using graph matching
Muhamada et al. Review on recent computer vision methods for human action recognition
WO2024183454A1 (zh) 虚拟对象动画生成方法、装置、电子设备、计算机可读存储介质及计算机程序产品
Yi et al. Generating Human Interaction Motions in Scenes with Text Control
US11361467B2 (en) Pose selection and animation of characters using video data and training techniques
Devanne 3d human behavior understanding by shape analysis of human motion and pose
Neskorodieva et al. Real-time Classification, Localization and Tracking System (Based on Rhythmic Gymnastics)
US20240307783A1 (en) Plotting behind the scenes with learnable game engines
Tong Cross-modal learning from visual information for activity recognition on inertial sensors
Ray et al. PressureTransferNet: Human Attribute Guided Dynamic Ground Pressure Profile Transfer using 3D simulated Pressure Maps
Zhao Video Understanding: A Predictive Analytics Perspective
Zong Evaluation of Training Dataset and Neural Network Architectures for Hand Pose Estimation in Real Time
Okechukwu et al. A Less Convoluted Approach to 3D Pose Estimation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160105

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170309

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170328

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170728

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20170807

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20170901

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180618

R150 Certificate of patent or registration of utility model

Ref document number: 6357421

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250