JP2016091108A - 人体部位検出システムおよび人体部位検出方法 - Google Patents

人体部位検出システムおよび人体部位検出方法 Download PDF

Info

Publication number
JP2016091108A
JP2016091108A JP2014221586A JP2014221586A JP2016091108A JP 2016091108 A JP2016091108 A JP 2016091108A JP 2014221586 A JP2014221586 A JP 2014221586A JP 2014221586 A JP2014221586 A JP 2014221586A JP 2016091108 A JP2016091108 A JP 2016091108A
Authority
JP
Japan
Prior art keywords
human body
point
unit
feature amount
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014221586A
Other languages
English (en)
Inventor
新 浩治
Koji Arata
浩治 新
ラサング ポンサック
Lasang Pongsak
ラサング ポンサック
メイシェン シェン
Mei Shen Shen
メイシェン シェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Priority to JP2014221586A priority Critical patent/JP2016091108A/ja
Priority to US14/886,931 priority patent/US20160125243A1/en
Priority to EP15190927.2A priority patent/EP3016027A3/en
Publication of JP2016091108A publication Critical patent/JP2016091108A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/422Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
    • G06V10/426Graphical representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

【課題】様々な姿勢における部位の検出を精度よく、かつ、効果的に行うこと。【解決手段】人体部位検出システムは、人体の部位の特徴量を学習した結果である学習モデルを記憶する学習モデル記憶部106と、距離画像を取得する距離画像取得部102と、距離画像から人物領域を抽出する前方人物抽出部104と、人物領域と学習モデルに基づいて人体の部位を検出する人体部位検出部108と、を備え、人体部位検出部108は、人物領域における基本点を検出し、基本点から人物領域における第一点までの最短の測地経路に基づいて第一点における測地経路の方向を計算し、上記方向に応じて学習モデルにおける特徴量を計算した際の画素の位置を第一点の周りに回転させた位置にある画素を選択し、選択された画素における距離の情報に基づいて第一点における特徴量を計算し、第一点における特徴量と学習モデルとに基づいて人体の部位に対応するラベルを決定する。【選択図】図1

Description

本発明は、人体部位検出システムおよび人体部位検出方法に関する。
従来、所定の点からの距離の情報を含む距離画像を用いて、人体の部位を検出する技術が知られている。このような技術は、ゲーム、人間とコンピュータのインタラクション、監視システム、テレビ会議システム、ヘルスケア、ロボット、自動車等の分野に適用され得る。
例えば、このような技術をゲームの分野に適用することにより、ユーザは、キーボードやマウスを使用することなく、姿勢の変化やジェスチャによってゲーム機を操作し、ゲームを楽しむことが可能となる。
例えば、特許文献1には、三次元計測値である距離の情報を画素値として含む距離画像に基づいて人の姿勢を検出する方法が開示されている。この方法では、学習対象である距離画像の各画素に対して、近傍に存在する1つ以上のオフセット画素を選択し、これらの画素の画素値に基づいて各画素と人体の部位との関連付けを学習データとして記憶する。そして、人体の部位検出時には、距離画像において判定対象となる画素とオフセット画素の画素値と学習データに基づき、判定対象の画素と人体の部位との関連度を算出する。
米国特許出願公開第2013/0266182号明細書
上述した特許文献1の技術では、判定対象の画素とオフセット画素の位置関係は判定対象の画素ごとに固定であるため、学習データ生成に用いた距離画像における人物の姿勢に対して例えば肩を中心に腕を大きく回すなど、距離画像における部位の角度が大きく異なる場合には、判定対象となる画素とオフセット画素の画素値の特徴と、学習データの特徴が一致せず、人体の部位の検出が困難になる。
したがってこのような方法では、人体の部位の検出精度が低くなる可能性がある。また、高精度な部位の検出を実現するためには、人体の様々な姿勢に対応した非常に多くの学習データが必要になる。
本発明の目的は、様々な姿勢における部位の検出を精度よく、かつ、効果的に行うことを可能とする人体部位検出システムおよび人体部位検出方法を提供することである。
本発明の一態様に係る人体部位検出システムは、人体の部位の特徴量を学習した結果である学習モデルを記憶する記憶部と、距離画像を取得する取得部と、距離画像から人物領域を抽出する抽出部と、人物領域と学習モデルに基づいて、人体の部位を検出する人体部位検出部と、を備え、人体部位検出部は、人物領域における基本点を検出する基本点検出部と、基本点から人物領域における第一点までの最短の測地経路に基づいて、第一点における測地経路の方向を計算する計算部と、上記方向に応じて学習モデルにおける特徴量を計算した際の画素の位置を第一点の周りに回転させた位置にある距離画像上の画素を選択する選択部と、選択部により選択された画素における距離の情報に基づいて、第一点における特徴量を計算する特徴量計算部と、第一点における特徴量と学習モデルとに基づいて、人体の部位に対応するラベルを決定するラベル決定部と、を有する。
本発明の一態様に係る人体部位検出方法は、距離画像を取得する取得ステップと、距離画像から人物領域を抽出する抽出ステップと、人体の部位の特徴量を学習した結果である学習モデルを記憶部から読み出す読出ステップと、人物領域と学習モデルとに基づいて、人体の部位を検出する人体部位検出ステップと、を含み、人体部位検出ステップは、人物領域における基本点を検出する基本点検出ステップと、基本点から人物領域における第一点までの最短の測地経路に基づいて、第一点における測地経路の方向を計算する計算ステップと、上記方向に応じて学習モデルにおける特徴量を計算した際の画素の位置を第一点の周りに回転させた位置にある距離画像上の画素を選択する選択ステップと、選択ステップにおいて選択された画素における距離の情報に基づいて、第一点における特徴量を計算する特徴量計算ステップと、第一点における特徴量と学習モデルとに基づいて、人体の部位に対応するラベルを決定するラベル決定ステップと、を含む。
本発明によれば、様々な姿勢における部位の検出を精度よく、かつ、効果的に行うことができる。
本発明の実施の形態1に係る人体部位検出システムの構成の一例を示すブロック図 本発明の実施の形態1に係る人体部位検出部の構成の一例を示すブロック図 本実施の形態1に係る特徴量の計算処理の具体例を示す図 本発明の実施の形態1に係る異なる姿勢に対する特徴記述の不変性について説明する図 回転補正を行わない場合の画素のペアの選択方法を示す図 本実施の形態1に係る回転補正を行う場合の画素のペアの選択方法を示す図 本発明の実施の形態1に係る人体部位検知処理の処理手順の一例を示すフローチャート 本発明の実施の形態2に係る人体部位検出システムの構成の一例を示すブロック図 本発明の実施の形態2に係る超画素クラスタリングについて説明する図 本発明の実施の形態2に係る超画素による特徴量の計算について説明する図 本発明の実施の形態1、2に係る深層人工ニューラルネットワークについて説明する図 本発明の実施の形態1、2に係る人体の骨格関節について説明する図
以下、本発明の実施の形態について図面を参照しながら説明する。
(実施の形態1)
まず、本実施の形態に係る人体部位検出システム100の構成例について、図1を用いて説明する。図1は、本実施の形態に係る人体部位検出システム100の構成の一例を示すブロック図である。
図1に示すように、人体部位検出システム100は、距離画像取得部102、前方人物抽出部104、学習モデル記憶部106、人体部位検出部108を有する。
距離画像取得部102は、距離カメラまたは記録デバイスから距離画像を取得する。
前方人物抽出部104は、距離画像の距離の情報を用いて、背景よりも前方の人物の領域(以下、前方人物領域という)を抽出する。なお、前方人物抽出部104は、前方人物領域を三次元の連結成分分析に基づいて抽出してもよい。
学習モデル記憶部106は、人体の部位の特徴量を学習した結果得られる学習モデルのデータなどを記憶する。この学習モデルのデータには、特徴量を算出するために選択した画素の位置の情報や、後述する画素のペアの情報などが含まれる。
人体部位検出部108は、学習モデル記憶部106に記憶された学習モデルに基づいて、前方人物抽出部104により抽出された前方人物領域に含まれる人体の部位を検出し、検出した部位にその部位を示すラベルを割り当てる。
次に、図2を用いて、上述した人体部位検出部108の構成の一例について説明する。図2は、本実施の形態に係る人体部位検出部108の構成の一例を示すブロック図である。
図2に示すように、人体部位検出部108は、基本点検出部202、ベクトル計算部204、選択部206、特徴量計算部208、ラベル決定部210を有する。
基本点検出部202は、前方人物抽出部104によって抽出された前方人物領域における基本点を検出する。基本点とは、例えば、前方人物領域に含まれる各画素の実世界座標系における3次元座標の重心、平均値、または中央値に相当する位置にある点である。
図2に示すように、基本点検出部202は、距離画像から実世界座標系における三次元座標を得る三次元座標取得部202aと、得られた三次元座標を用いて前方人物領域における基本点を計算する基本点計算部202bとを有する。
ベクトル計算部204は、基本点から第一点までを最短距離で結ぶ測地経路を計算することで、第一点において測地方向を向く基準ベクトルを計算する。例えば、基準ベクトルは、前方人物領域の測地勾配に基づいて計算される。第一点とは、前方人物領域における所定の点であり、上記基本点とは異なる点である。
選択部206は、基準ベクトルの方向に応じて、学習モデルにおける特徴量を算出した際の画素のペアの位置を回転させた位置を計算し、その位置にある距離画像上の画素を特徴量の算出に用いる画素として選択する。画素のペアとは、第一点から所定の方向に所定の間隔だけ離れた2つの異なる画素である。
特徴量計算部208は、画素のペアの距離情報に基づいて、第一点における人体の部位の特徴量を計算する。この計算方法については、後に詳しく説明する。
ラベル決定部210は、第一点における人体の部位の特徴量と学習モデルに基づいて、人体の部位に対応するラベルを決定する。
図2に示すように、このラベル決定部210は、第一点における人体の部位の特徴量の入力を受け付ける入力部210aと、学習モデルから第一点における人体の部位の特徴量を探索する特徴探索部210bと、探索された特徴量から人体の部位に対応するラベルを決定する決定部210cとを有する。
ここで、特徴探索部210bは、第一点における人体の部位の特徴量の探索を、深層人工ニューラルネットワークを使用して行ってもよい。また、決定部210cは、ラベルの決定をロジスティック回帰分析により行ってもよい。
次に、上記特徴量計算部208による特徴量の計算方法の一例について説明する。
以下の説明において、I(p)は、距離画像I上の位置p=(x,y)Tにおける画素の距離を表す。そして、
は、カバレッジ
と特徴リストFにより定義される局所特徴記述子を表す。
ここで、カバレッジ
は、距離画像I内での局所特徴記述子の円形のカバー範囲であり、pcはカバー範囲の中心、rはカバー範囲の半径を表す。
また、特徴リストFは、画素のペアのリスト{P1, … , Pn}である。ここで、Pi(1≦i≦n:nは任意の整数)は、i番目の画素のペア
を表し、pu、pは画素のペアに含まれる2つの画素の位置を表す。
また、比較関数は、例えば下記の式(1)のように表される。
ここで、(pu,pv)は、特徴リストFにおける画素のペアであり、tは閾値である。例えば、閾値tは、比較関数τ(pu,pv)において、0と1の出現確率が同じになるような値に設定される。
上記比較関数τ(pu,pv)を特徴リストFに適用することにより、バイナリ列
が得られ、局所特徴記述子
の特徴ベクトルが得られる。
なお、局所特徴記述子が距離の変化に対して不変量となるようにするため、局所特徴記述子のカバー範囲は実世界空間に対して一定にすべきである。そのため、射影幾何学の知識に基づいて、距離画像のカバレッジ
の半径rを、以下のように定義してもよい。
ここで、I(pc)は、カバー範囲の中心pcに位置する画素における距離であり、αは実世界空間におけるカバー範囲の大きさと距離カメラの焦点距離とに基づいて決定される定数である。直観的には、被写体が距離カメラに近いほど、αの値は大きくすべきであり、逆も同様である。
ここで、姿勢の変化に対して不変性のある局所特徴記述子を得るため、学習モデルにおける特徴量を算出した際の画素のペアの位置を基準ベクトルの方向に応じて回転させた位置が計算され、その位置にある距離画像上の画素のペアが特徴量の算出に用いられる画素として選択される。基準ベクトルは、局所的記述子の基準方向を示すベクトルである。
局所的な特性に基づいて各局所特徴記述子に対して一貫性のある方向を与えることで、局所特徴記述子を方向に対して相対的に定義でき、結果として回転に対する一貫性を達成できる。なお、測地不変記述子としての局所特徴記述子のカバー範囲は
と表される。ここで、Γは局所特徴記述子の基準方向を表す。
次に、図3を用いて、本実施の形態おける特徴量の計算処理の具体例について説明する。図3A〜3Dに示す円は、第一点pcを中心とした半径rの円であり、上述した局所特徴記述子のカバー範囲を示している。
図3Aにおいて、例えば、画素のペアである画素puと画素pvとの比較により、式(1)の比較関数を用いて第一点pcにおける1ビットの特徴量が生成される。実際には、図3Bに示すように、複数の画素のペアの比較が行われ、それらの比較により得られた特徴量からバイナリ列が構成される。そして、このバイナリ列が、第一点pcにおける特徴量として用いられる。
なお、図3Cに示すように、画素のペアpu、pvは、基準ベクトルによって定義される極座標系によって特定される。この極座標系では、第一点pが極とされ、基準ベクトルの方向Γが極軸の方向とされる。
例えば、画素puが選択された場合、角度
と距離
の2つのパラメータが決定される。画素pについても同様である。
図3Dに示すように、画素のペアが複数ある場合も同様に、各ペアに含まれる画素に対し、角度と距離とが決定される。なお、角度θuは、基準ベクトルの方向Γから測った相対的な角度を示すので、全ての画素のペアは基準ベクトルに対して共変の関係となる。
なお、基準ベクトルは、例えば、以下のようにして計算される。以下では、fgは、前方人物抽出部104により距離画像から抽出された前方人物領域を表すものとし、poは、fgにおける基本点を表すものとする。
まず、画像fgから無向グラフG=(V,E)が生成される。このとき、点集合Vはfgの全ての点で構成され、枝集合Eはfgにおける隣接関係から構成される。各枝の重みは隣り合う点間のユークリッド距離に対応する。2点間の測地経路長は、最短経路の重み付き総和として定義され、例えばダイクストラアルゴリズムにより効率的に計算される。
図4の最も左の列には、fgにおける各点から基本点poまでの測地経路長を計算することにより得られる測地経路長マップが示されている。また、図4の左から2番目の列には、基本点poまでの距離が、等値線マップにより示されている。
そして、前方人物領域における各点における基準ベクトルの方向Γは、以下の式により計算される。
ここで、Idは、fgにおける各点から基本点poまでの測地経路長である。
方向Γの計算結果が、図4の左から3番目の列に示されている。このようにして計算される方向Γは、上記計算で得られた測地経路の方向となる。
次に、基準ベクトルの性質について説明する。図4の左から4番目の列は、3番目の列に示した4つの異なる姿勢における腕の部分(矩形で囲まれた部分)の拡大図である。
人体の部位を特定するため、第一点pcにおける特徴量を計算する際には、学習モデルにおける特徴量を算出した際の画素のペアの位置を基準ベクトルの方向Γに応じて回転させた位置が計算される。そして、その位置にある距離画像上の画素のペアが特徴量の算出に用いられる画素として選択される。
これにより、姿勢が異なったとしても、特徴量の算出に用いられる画素のペアの位置が人体の部位に対して安定することとなり、姿勢の変化に対する一貫性を得ることができる。
次に、画素のペアの具体的な選択方法について、図5、図6を用いて説明する。図5は、回転補正を行わない場合の画素のペアの選択方法を示す図であり、図6は、回転補正を行う場合の画素のペアの選択方法を示す図である。
図5A、図5Bに示すように、画素のペア302の回転補正を行わなければ、腕を回転させるなどして人の姿勢が変化しても、特徴量の算出に用いられる画素のペア302の位置は変わらない。この場合、前述の式(1)に基づいて算出される第一点304における特徴量は、図5Aの場合と図5Bの場合とで大きく異なる。
そのため、図5Aの姿勢において第一点304における特徴量を学習したとしても、その学習データに基づいて図5Bの姿勢における腕を特定することは難しい。
これに対し、画素のペア302の回転補正を行う場合、様々な姿勢における部位の検出を精度よくかつ効果的に行うことができる。以下、この点について詳しく説明する。
図6Aにおいて、基本点401は、前述のように、前方人物領域に含まれる各画素の実世界座標系における三次元座標に基づいて計算され得る。例えば、基本点401は、前方人物領域に含まれる各画素の実世界座標系における3次元座標の重心、平均値、または中央値に相当する位置にある点である。
また、第一点404における基準ベクトル406は、基本点401から第一点404までの最短測地経路408を計算することにより決定される。
そして、図6Bに示されるように、ある姿勢において第一点404における特徴量が画素のペア402を用いて算出され、その特徴量が学習データとして記憶される。この学習データは、人体の部位の特定を行う際に用いられる。
図6Cには、姿勢が変化した場合の画素のペア402の選択方法が示されている。図6Cに示すように、姿勢が変化した場合、基準ベクトル406の方向が回転するが、その回転に応じて、図6Bに示した画素のペア402の位置を回転させた位置が計算され、その位置にある距離画像上の画素のペア402が特徴量の算出に用いられる画素として選択される。
そして、選択された画素のペア402を用いて第一点404における特徴量が算出され、学習データとの比較により部位の特定が行われる。これにより、画素のペア402を用いた特徴量の計算の一貫性が保たれ、姿勢の変化に対する不変性が実現される。
次に、図7を用いて、本実施の形態における人体部位検出処理の処理手順の一例について説明する。図7は、本実施の形態における人体部位検出処理の一例を示すフローチャートである。
まず、人体部位検出システム100の距離画像取得部102は、距離カメラまたは記録デバイスから距離画像を取得する(ステップS102)。そして、前方人物抽出部104は、距離画像から前方人物領域を抽出する(ステップS104)。
続いて、基本点検出部202は、前方人物領域における基本点を検出する(ステップS106)。そして、ベクトル計算部204は、基本点から第一点までの最短測地経路を計算することで、第一点における基準ベクトルを計算する(ステップS108)。
その後、選択部206は、基準ベクトルの方向に応じて、学習モデルにおける特徴量を算出した際の画素のペアの位置を回転させた位置を計算し、その位置にある距離画像上の画素を特徴量の算出に用いられる画素として選択する(ステップS110)。
そして、特徴量計算部208は、選択された画素のペアの距離の情報に基づいて、第一点における特徴量を計算する(ステップS112)。この特徴量は、前述の式(1)を様々な画素のペアに対して適用することにより得られる局所的な特徴を表すバイナリ列である。
ラベル決定部210は、第一点における特徴量と学習モデルに基づいて、人体の部位に対応するラベルを決定する(ステップS114)。これにより、人体の部位が特定される。
以上説明したように、本実施の形態の人体部位検出システム100によれば、基準ベクトルの方向に応じて学習モデルにおける特徴量を算出した際の画素のペアの位置を回転させた位置を計算し、その位置にある距離画像上の画素を、特徴量の算出に用いる画素として選択するので、様々な姿勢における部位の検出を精度よくかつ効果的に行うことができる。
(実施の形態2)
なお、上記実施の形態1では、画素単位で部位の検出を行うこととしたが、複数の画素をまとめた超画素単位で部位の検出を行うこととしてもよい。本実施の形態2では、超画素単位で部位の検出を行う場合について説明する。
まず、本実施の形態に係る人体部位検出システム500の構成の一例について、図8を用いて説明する。図8は、本実施の形態に係る人体部位検出システム500の構成の一例を示すブロック図である。なお、図8では、図1に示した人体部位検出システム100の構成要素と同様のものには同一符号を付し、それらの説明は省略する。
図8に示すように、人体部位検出システム500は、図1を用いて説明した距離画像取得部102、前方人物抽出部104、学習モデル記憶部106、および、人体部位検出部108に加え、超画素クラスタリング部506を有する。
超画素クラスタリング部506は、距離画像における複数の画素を超画素に統合する。例えば、超画素クラスタリング部506は、前方人物領域を構成する約1万個の画素を数百個程度の超画素に統合する。ここで、超画素クラスタリング部506は、各超画素の距離として、各超画素に統合された複数の画素の距離の平均値の値などを設定する。
超画素に統合する方法は任意であるが、例えば、超画素クラスタリング部506は、距離画像に含まれる画素の実世界座標系における三次元座標(x,y,z)を計算し、その三次元座標(x,y,z)を用いて超画素への統合を行うこととしてもよい。
また、人体の部位を検出する処理の処理手順は、図7に示した処理手順と同様のものとなるが、本実施の形態では、図7におけるステップS104とステップS106の間で、超画素クラスタリング部506により、距離画像における複数の画素を超画素に統合する処理が実行される。また、ステップS106以降の各処理では、画素に対して処理を行う代わりに超画素に対する処理が実行される。
本実施の形態では、距離画像の複数の画素を超画素に統合することとしたが、これにより得られる利点の一つは、距離情報に含まれるノイズに対するロバスト性を改善できることである。
また、別の利点は、処理時間を大幅に改善できることである。この利点について、以下に詳しく説明する。
測地距離マップを生成するために必要なダイクストラアルゴリズムの計算時間は、O(|E|+|V|log|V|)である。ここで、|E|はグラフにおける枝の数であり、|V|はグラフにおける点の数である。処理時間は、前方人物領域fgにおける画素の数に直接関係するため、その画素の数を削減することができれば、処理時間を改善できる。
また、距離カメラや距離センサにより得られる距離情報にはノイズが含まれる。このノイズは、物体の影や、赤外線を用いた距離センサの場合には、例えば赤外線以上に強い環境光、赤外線を散乱させるオブジェクトの材質などの影響により生じる。画素単位の特徴量の計算では、このようなノイズの影響を受けやすい。
そこで、本実施の形態では、画素単位の構造が、超画素単位の構造に置き換えられる。例えば、カラー画像に対しては、超画素クラスタリングは、画素の要素[l,a,b,x,y]に基づいて行われる。ここで、l、a、bはLab色空間におけるカラー要素であり、x、yは画素の座標を表す。
一方、距離画像においては、クラスタリングは要素[x,y,z,L]に基づいて行われる。ここで、x、y、zは、実世界座標系における三次元座標であり、Lは画素のラベルである。Lはオプションであり、オフラインでの学習、評価処理において使用される。
上記Lを使用することで、図9Aおよび図9Bに示すように、同じ超画素に含まれる画素に一貫したラベルを付与することができる。例えば、頭部の画素602は、同じ人体部位ラベルを持ついくつかの超画素604に統合されている。実際のオンラインでの識別処理中には、超画素への統合に、実世界座標系における三次元座標[x,y,z]のみが使用されることとしてもよい。
各超画素の距離には、その超画素に属する全ての画素の距離の平均値が割り当てられる。そして、画素のペアの比較は、超画素のペアの比較に置き換えられる。
超画素による特徴量の計算の一例を図10に示す。図10には、第一点pcに対応する超画素702や、画素のペアpu704、pv706に対応する六角形の超画素Pu'708とPv'710を含む超画素が複数示されている。
ここで、画素のペアpu704、pv706はそれぞれ、超画素Pu'708、Pv'710にマッピングされ、前述の式(1)を用いた距離の比較は、超画素Pu'708、Pv'710に属する画素の距離の平均値を用いて行われる。なお、基準ベクトルの方向Γは、前方人物領域における基本点poに向かう最短測地経路の方向となる。
例えば、VGAサイズの距離画像の場合、前方人物領域は1万個程度の画素で構成されるが、超画素クラスタリングにより数百個程度にまとめることができる。よって、処理時間を劇的に削減することができる。さらに、各画素で異なる距離の情報は、超画素単位で平均値に置き換えられるので、ノイズに対するロバスト性を大幅に向上させることができる。
以上、本発明の実施の形態について説明してきたが、本実施の形態における人体部位検出システム100、500は、高次元の非線形データを深層ネットワークを用いて取り扱うこととしてもよい。深層ネットワークとは、例えば、SdA(Stacked denoising Autoencoders)に基づくものである。
SdAを通じて、データは元の特徴空間からある潜在的な表現へと非線形に射影される。これらの表現は、SdA−layerx特徴空間と呼ばれる。SdAでは、識別や認識に使用可能な判別情報を保存したまま、入力データにおける関連のない派生を除去することができる。
一方、SdAにおける最上位レイヤから深層レイヤへのデータの伝搬プロセスは、異なる抽象化能力を持つ潜在的な一連の表現を生成する。そして、レイヤが深くなるほど、抽象化のレベルは高くなる。
SdAによる深層人工ネットワークの構成の一例を図11に示す。図11の例では、深層ネットワークは、入力レイヤ802、3つの隠れたSdAレイヤ806、808、810、出力レイヤ814の5つのレイヤで構成されている。入力レイヤ802は、バイナリ列の特徴804を取り込む。最後の隠れたレイヤ810は、疎な判別用バイナリ列特徴812を生成する。
各レイヤはノードの集合816で構成され、各ノードは隣り合うレイヤ間で全て接続されている。入力レイヤ802におけるノードの数は、画素のペアの数nに等しい。
第一点における特徴量を表すバイナリ列は、入力レイヤ802に対する入力として、深層ネットワークに直接与えられる。そして、出力レイヤ814におけるノードの数dは、人体の部位を表すラベルの数と一致する。すなわち、ラベルの数は、人体の部位の数と一致する。
そして、ロジスティック回帰のような線形回帰識別が出力レイヤ814に適用され、人体の各部位の識別結果が得られることになる。
なお、人体の部位の特徴を学習するために、真値の学習データが作成される。この学習データは、距離画像における人体の部位に対応する真値ラベルを含んでいてもよい。また、ロバスト性を改善するため、複数の学習例が選ばれてよい。このような学習により、人体の部位の特徴を学習した学習モデルが得られる。
また、上記実施の形態では、人体の部位を特定することとしたが、人体の部位を連結する関節の位置をさらに推定することとしてもよい。
具体的には、図7のステップS114において決定された人体の部位に対応するラベルと、その人体の部位に対応する三次元座標とに基づいて、人体の関節の位置を推定する。
例えば、関節の位置は、人体の各部位の中央位置を計算し、その計算結果を用いることで推定される。場合によっては、関節の位置は、上記中央位置から移動させてもよい。
図12は、推定可能な人体の骨格関節の一例を示している。図12に示すように、推定可能な骨格関節は、例えば、右手902、左手904、右肘906、左肘908、右肩910、左肩912、頭914、首916、腰918、右尻920、左尻922である。右手902と左手904の関節は、人物の実際の手の位置に近くなるように、体からより遠い位置に移動させてもよい。これにより、使いやすさがより改善される。
推定された骨格関節は、人の動作、姿勢、仕草の認識に利用でき、また、デバイスのコントロール等にも有効である。
なお、上記人体部位検出システム100、500、および、それらに含まれるモジュールの演算装置は、一般にIC(Integrated Circuits)、ASIC(Application-Specific Integrated Circuits)、LSI(Large Scale Integrated Circuits)、DSP(Digital Signal Processor)等で実現され、また、PC(Personal Computer)に含まれるようなCPUベースのプロセッサでも実現可能である。
これらのモジュールは、単一の機能を有するLSIを統合するか、または複数の機能を有するひとつの統合LSIを用いることにより構成され得る。LSIの代わりに、回路の集積度が異なるICやシステムLSI、スーパーLSI、ウルトラLSI等でも上記モジュールは構成され得る。
さらに、統合を達成する手段はLSIに限らず、特別な回路や汎用目的のプロセッサなどであってもよい。例えば、特別なマイクロプロセッサ、例えばプログラム命令により指示できるDSP、LSIの製造後にプログラムすることができるFPGA(Field Programmable Gate Array)、LSIの接続や配置を再構成可能なプロセッサなども同じ目的に利用できる。
また、将来的には、より進んだ製造および処理技術を用いて、新しい技術によりLSIを置き換えてもよい。統合はそのような技術でも実現可能である。
実装においては、人体部位検出システム100、500は、例えば、デジタルスチルカメラまたはムービーカメラといった画像取得デバイス組み込まれてもよい。また、人体部位検出システム100、500は、例えば、プロ用キャプチャシステムのような画像キャプチャシステムとして動作するスタンドアロンデバイスに搭載されてもよい。
なお、本発明に係る人体部位検出システム100、500の適用範囲は上述した範囲に限定されるものではなく、人体部位検出システム100、500を他のタイプのデバイスに実装することも当然可能である。
本発明は、人体の部位を検出するシステムおよび方法に有用である。
100、500 人体部位検出システム
102 距離画像取得部
104 前方人物抽出部
106 学習モデル記憶部
108 人体部位検出部
202 基本点検出部
202a 三次元座標取得部
202b 基本点計算部
204 ベクトル計算部
206 選択部
208 特徴量計算部
210 ラベル決定部
210a 入力部
210b 特徴探索部
210c 決定部
506 超画素クラスタリング部

Claims (7)

  1. 人体の部位の特徴量を学習した結果である学習モデルを記憶する記憶部と、
    距離画像を取得する取得部と、
    前記距離画像から人物領域を抽出する抽出部と、
    前記人物領域と前記学習モデルに基づいて、前記人体の部位を検出する人体部位検出部と、を備え、
    前記人体部位検出部は、
    前記人物領域における基本点を検出する基本点検出部と、
    前記基本点から前記人物領域における第一点までの最短の測地経路に基づいて、前記第一点における前記測地経路の方向を計算する計算部と、
    前記方向に応じて前記学習モデルにおける特徴量を計算した際の画素の位置を前記第一点の周りに回転させた位置にある前記距離画像上の画素を選択する選択部と、
    前記選択部により選択された画素における距離の情報に基づいて、前記第一点における特徴量を計算する特徴量計算部と、
    前記第一点における特徴量と前記学習モデルとに基づいて、前記人体の部位に対応するラベルを決定するラベル決定部と、
    を有する人体部位検出システム。
  2. 前記距離画像における複数の画素を一つの超画素に統合し、前記超画素における距離の値を前記複数の画素の距離の値に基づいて決定するクラスタリング部をさらに備え、
    前記選択部は、前記方向に応じて前記学習モデルにおける特徴量を算出した際の超画素の位置を前記第一点の周りに回転させた位置にある前記距離画像上の超画素を選択し、
    前記特徴量計算部は、前記選択部により選択された超画素における距離の情報に基づいて、前記第一点における特徴量を計算する、
    請求項1記載の人体部位検出システム。
  3. 前記抽出部は、
    三次元空間における人物領域を特定することにより前記距離画像から前記人物領域を抽出する、
    請求項1記載の人体部位検出システム。
  4. 前記基本点検出部は、
    前記距離画像から三次元座標を得る三次元座標取得部と、
    前記三次元座標に基づいて前記基本点を計算する基本点計算部と、を有し、
    前記基本点は、
    前記人物領域に含まれる各画素の三次元座標における重心、平均値、または、中央値に相当する位置にある点である、
    請求項1記載の人体部位検出システム。
  5. 前記ラベル決定部は、
    前記第一点における特徴量の情報の入力を受け付ける入力部と、
    前記学習モデルから前記第一点における特徴量を探索する特徴探索部と、
    前記第一点における特徴量の探索結果に基づいて、前記人体の部位に対応するラベルを決定する決定部と、を有する、
    請求項1記載の人体部位検出システム。
  6. 前記ラベル決定部により決定されたラベルと、前記人体の部位に対応する三次元座標とに基づいて、人体の関節の位置を推定する推定部をさらに備える、
    請求項1記載の人体部位検出システム。
  7. 距離画像を取得する取得ステップと、
    前記距離画像から人物領域を抽出する抽出ステップと、
    人体の部位の特徴量を学習した結果である学習モデルを記憶部から読み出す読出ステップと、
    前記人物領域と前記学習モデルとに基づいて、前記人体の部位を検出する人体部位検出ステップと、を含み、
    前記人体部位検出ステップは、
    前記人物領域における基本点を検出する基本点検出ステップと、
    前記基本点から前記人物領域における第一点までの最短の測地経路に基づいて、前記第一点における前記測地経路の方向を計算する計算ステップと、
    前記方向に応じて前記学習モデルにおける特徴量を計算した際の画素の位置を前記第一点の周りに回転させた位置にある前記距離画像上の画素を選択する選択ステップと、
    前記選択ステップにおいて選択された画素における距離の情報に基づいて、前記第一点における特徴量を計算する特徴量計算ステップと、
    前記第一点における特徴量と前記学習モデルとに基づいて、前記人体の部位に対応するラベルを決定するラベル決定ステップと、
    を含む人体部位検出方法。
JP2014221586A 2014-10-30 2014-10-30 人体部位検出システムおよび人体部位検出方法 Pending JP2016091108A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2014221586A JP2016091108A (ja) 2014-10-30 2014-10-30 人体部位検出システムおよび人体部位検出方法
US14/886,931 US20160125243A1 (en) 2014-10-30 2015-10-19 Human body part detection system and human body part detection method
EP15190927.2A EP3016027A3 (en) 2014-10-30 2015-10-22 Human body part detection system and human body part detection method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014221586A JP2016091108A (ja) 2014-10-30 2014-10-30 人体部位検出システムおよび人体部位検出方法

Publications (1)

Publication Number Publication Date
JP2016091108A true JP2016091108A (ja) 2016-05-23

Family

ID=54360886

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014221586A Pending JP2016091108A (ja) 2014-10-30 2014-10-30 人体部位検出システムおよび人体部位検出方法

Country Status (3)

Country Link
US (1) US20160125243A1 (ja)
EP (1) EP3016027A3 (ja)
JP (1) JP2016091108A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018207365A1 (ja) 2017-05-12 2018-11-15 富士通株式会社 距離画像処理装置、距離画像処理システム、距離画像処理方法および距離画像処理プログラム
WO2018207351A1 (ja) 2017-05-12 2018-11-15 富士通株式会社 距離画像処理装置、距離画像処理システム、距離画像処理方法および距離画像処理プログラム
CN109564382A (zh) * 2016-08-29 2019-04-02 株式会社日立制作所 拍摄装置以及拍摄方法
WO2020184066A1 (ja) * 2019-03-13 2020-09-17 Necソリューションイノベータ株式会社 関節位置推定装置、関節位置推定方法およびコンピュータ読み取り可能な記録媒体

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11854308B1 (en) * 2016-02-17 2023-12-26 Ultrahaptics IP Two Limited Hand initialization for machine learning based gesture recognition
US11841920B1 (en) 2016-02-17 2023-12-12 Ultrahaptics IP Two Limited Machine learning based gesture recognition
US11714880B1 (en) 2016-02-17 2023-08-01 Ultrahaptics IP Two Limited Hand pose estimation for machine learning based gesture recognition
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
CN106875444B (zh) * 2017-01-19 2019-11-19 浙江大华技术股份有限公司 一种目标物定位方法及装置
CN109200576A (zh) * 2018-09-05 2019-01-15 深圳市三宝创新智能有限公司 机器人投影的体感游戏方法、装置、设备和存储介质
GB2586319B (en) * 2019-05-20 2022-10-26 Disney Entpr Inc Automated image synthesis using a comb neural network architecture
US11232296B2 (en) * 2019-07-10 2022-01-25 Hrl Laboratories, Llc Action classification using deep embedded clustering
CN111652047B (zh) * 2020-04-17 2023-02-28 福建天泉教育科技有限公司 基于彩色图和深度图的人体姿势识别方法及存储介质
CN112446871B (zh) * 2020-12-02 2022-11-15 山东大学 一种基于深度学习和OpenCV的隧道裂缝识别方法
CN114973305B (zh) * 2021-12-30 2023-03-28 昆明理工大学 一种针对拥挤人群的精确人体解析方法
CN114973334A (zh) * 2022-07-29 2022-08-30 浙江大华技术股份有限公司 人体部件关联方法、装置、电子装置和存储介质
CN116863469B (zh) * 2023-06-27 2024-05-14 首都医科大学附属北京潞河医院 一种基于深度学习的手术解剖部位识别标注方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8503720B2 (en) 2009-05-01 2013-08-06 Microsoft Corporation Human body pose estimation
CN102622606B (zh) * 2010-02-03 2013-07-31 北京航空航天大学 基于测地模型的人体骨骼提取和朝向判定方法
JP5820366B2 (ja) * 2010-10-08 2015-11-24 パナソニック株式会社 姿勢推定装置及び姿勢推定方法
KR101227569B1 (ko) * 2011-05-26 2013-01-29 한국과학기술연구원 골프 스윙 분석을 위한 신체 부위별 위치 추적 장치 및 방법
AU2011265383A1 (en) * 2011-12-20 2013-07-04 Canon Kabushiki Kaisha Geodesic superpixel segmentation
KR101849373B1 (ko) * 2012-01-31 2018-04-17 한국전자통신연구원 인체의 관절구조를 추정하기 위한 장치 및 방법
EP2674913B1 (en) * 2012-06-14 2014-07-23 Softkinetic Software Three-dimensional object modelling fitting & tracking.
JP6388205B2 (ja) * 2014-02-25 2018-09-12 パナソニックIpマネジメント株式会社 表示制御プログラム、表示制御装置、および表示装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHRISTIAN PLAGEMANN, VARUN GANAPATHI, DAPHNE KOLLER, SEBASTIAN THRUN: "Real-time identification and localization of body parts from depth images", 2010 IEEE INTERNATIONAL CONFERENCE ON ROBOTICS AND AUTOMATION, JPN6018018651, 3 May 2010 (2010-05-03), pages 3108 - 3113 *
JAMIE SHOTTON, ANDREW FITZGIBBON, MAT COOK, TOBY SHARP, MARK FINOCCHIO, RICHARD MOORE, ALEX KIPMAN,: "Real-time human pose recognition in parts from single depth images", COMPUTER VISION AND PATTERN RECOGNITION (CVPR), 2011 IEEE CONFERENCE ON, JPN6018018653, 20 June 2011 (2011-06-20), pages 1297 - 1304, XP032037818, DOI: doi:10.1109/CVPR.2011.5995316 *
押田康太郎: "視差の連続性に注目したステレオ画像における物体抽出", SSII2012 第18回画像センシングシンポジウム 講演論文集 [CD−ROM], JPN6018018652, June 2012 (2012-06-01), JP *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109564382A (zh) * 2016-08-29 2019-04-02 株式会社日立制作所 拍摄装置以及拍摄方法
CN109564382B (zh) * 2016-08-29 2021-03-23 株式会社日立制作所 拍摄装置以及拍摄方法
WO2018207365A1 (ja) 2017-05-12 2018-11-15 富士通株式会社 距離画像処理装置、距離画像処理システム、距離画像処理方法および距離画像処理プログラム
WO2018207351A1 (ja) 2017-05-12 2018-11-15 富士通株式会社 距離画像処理装置、距離画像処理システム、距離画像処理方法および距離画像処理プログラム
US11087493B2 (en) 2017-05-12 2021-08-10 Fujitsu Limited Depth-image processing device, depth-image processing system, depth-image processing method, and recording medium
US11138419B2 (en) 2017-05-12 2021-10-05 Fujitsu Limited Distance image processing device, distance image processing system, distance image processing method, and non-transitory computer readable recording medium
WO2020184066A1 (ja) * 2019-03-13 2020-09-17 Necソリューションイノベータ株式会社 関節位置推定装置、関節位置推定方法およびコンピュータ読み取り可能な記録媒体
JPWO2020184066A1 (ja) * 2019-03-13 2021-11-11 Necソリューションイノベータ株式会社 関節位置推定装置、関節位置推定方法およびプログラム

Also Published As

Publication number Publication date
US20160125243A1 (en) 2016-05-05
EP3016027A3 (en) 2016-06-15
EP3016027A2 (en) 2016-05-04

Similar Documents

Publication Publication Date Title
JP2016091108A (ja) 人体部位検出システムおよび人体部位検出方法
CN108052896B (zh) 基于卷积神经网络与支持向量机的人体行为识别方法
Iqbal et al. Hand pose estimation via latent 2.5 d heatmap regression
CN111199564B (zh) 智能移动终端的室内定位方法、装置与电子设备
CN108369741B (zh) 用于配准数据的方法和系统
US9330307B2 (en) Learning based estimation of hand and finger pose
US9189855B2 (en) Three dimensional close interactions
CN110782483B (zh) 基于分布式相机网络的多视图多目标跟踪方法及系统
JP2011174879A (ja) 位置姿勢推定装置及びその方法
CN113674416A (zh) 三维地图的构建方法、装置、电子设备及存储介质
Li et al. Hierarchical semantic parsing for object pose estimation in densely cluttered scenes
Fernández-Moral et al. Scene structure registration for localization and mapping
Falomir et al. Qualitative distances and qualitative image descriptions for representing indoor scenes in robotics
Führ et al. Camera self-calibration based on nonlinear optimization and applications in surveillance systems
Pire et al. Online object detection and localization on stereo visual SLAM system
Salman et al. Whisker-ratslam applied to 6d object identification and spatial localisation
CN115410233A (zh) 一种基于卡尔曼滤波和深度学习的手势姿态估计方法
CN108256563A (zh) 基于距离度量的视觉词典闭环检测方法与装置
CN109544632B (zh) 一种基于层次主题模型的语义slam对象关联方法
CN110991292A (zh) 动作识别比对方法、系统、计算机存储介质和电子装置
CN115862124A (zh) 视线估计方法、装置、可读存储介质及电子设备
KR101454692B1 (ko) 객체 추적장치 및 그 방법
Amorós et al. Topological Map Building and Path Estimation Using Global-appearance Image Descriptors.
Zhong et al. DynaTM-SLAM: Fast filtering of dynamic feature points and object-based localization in dynamic indoor environments
Wei et al. A star identification graph algorithm based on angular distance matching score transfer

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170518

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180514

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180522

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20181211