JP6532525B2 - ジェスチャー解析のための時間的セグメンテーションの方法及びシステム - Google Patents

ジェスチャー解析のための時間的セグメンテーションの方法及びシステム Download PDF

Info

Publication number
JP6532525B2
JP6532525B2 JP2017511692A JP2017511692A JP6532525B2 JP 6532525 B2 JP6532525 B2 JP 6532525B2 JP 2017511692 A JP2017511692 A JP 2017511692A JP 2017511692 A JP2017511692 A JP 2017511692A JP 6532525 B2 JP6532525 B2 JP 6532525B2
Authority
JP
Japan
Prior art keywords
gesture
cut
cuts
time series
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017511692A
Other languages
English (en)
Other versions
JP2017535830A (ja
Inventor
クエンティン オージュ,
クエンティン オージュ,
ヨンミャン ツァン,
ヨンミャン ツァン,
ハイソン グ,
ハイソン グ,
Original Assignee
コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド
コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド, コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド filed Critical コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド
Publication of JP2017535830A publication Critical patent/JP2017535830A/ja
Application granted granted Critical
Publication of JP6532525B2 publication Critical patent/JP6532525B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)

Description

関連出願の相互参照
本出願は、2014年8月29日に出願された米国特許出願番号14/473,679の利益を伴い、参照することによりその内容全体を本明細書の一部となす。
本発明は、ジェスチャー解析のための時間的セグメンテーションの方法及びシステムに関し、より詳細には、ジェスチャーの分類及び認識等のジェスチャー解析のための入力又は前処理モジュールとして用いることができるような人間の動作のフロー内のジェスチャーバウンダリを特定するための方法及びシステムに関する。
ジェスチャーの認識は、効率的な時間的セグメンテーションを用いる用途の一例であり、又は処理の前段階として人間の動作のフロー内のジェスチャーを見出す作業である。通常指示を伴わないで実行されるため、時間的セグメンテーションのステップにより、続いて行われるジェスチャーの認識が容易になる。
ジェスチャーの認識とセグメンテーションは、同時に又は連続的に実行することができる。例えば、隠れマルコフモデル(hidden Markov models(HMMs))、連続時間リカレントニューラルネットワーク(continuous−time recurrent neural networks(CTRNNs))、動的ベイエジアンネットワーク(dynamic Bayesian network(DBNs))又は条件付き確率場(conditional random fields(CRFs))等の直接的に時間側面のモデリングを行うことができる機械学習の枠組みを同時に行なわれるジェスチャーの認識及びセグメンテーションに用いることができる。時間的セグメンテーションも、認識の研究とは独立に研究されてきた。それにもかかわらず、時間的セグメンテーションが行われる際には、2つの主だったアプローチが支配的である。すなわち、時間クラスタリングと変動点検出である。
時間クラスタリング(temporal clustering(TC))は、複数の時系列をk個の時間クラスターに含まれる重複しないセグメントの集合に分解することを意味している。本質的にオフラインで行われるため、このアプローチでは、データの大局的な視点が利用され、クラスタリングにみられるようなクラスタラベルが与えられる。しかしながら、時間クラスタリングは、リアルタイムの用途には適していないかもしれない。
変動点の方法(change−point methods)は、信号理論と統計から得られる様々なツールに依っており、動作のフロー内のパターンの突然の変化を含むフレームを特定する。変動点の方法は、パラメータの分布についての仮定(人間の動作を解析する際には成立しない)を行った一変量の系列に限定されうるが、近年のカーネル法の使用によりこの限定の一部は取り除かれた。変動点の方法は、最近、時間的セグメンテーションの問題に応用されてきている。時間クラスタリングと異なり、変動点のアプローチは、しばしば指示を伴わないオンラインのアルゴリズムを生み出し、それらは、リアルタイムで実行可能で、時系列の局所的なパターンに基づいている。
時間的セグメンテーションにおける重要な進歩がなされたが、この問題は、視点の変化、部分遮蔽及び時空間変化を原因として、依然として、本質的に困難である。
一例としての実施形態によれば、被写体についての少なくとも1つのデータの3次元(3D)ビデオストリームを撮像するステップと、前記少なくとも1つのデータの3Dビデオストリームからスケルトンデータの時系列を抽出するステップと、内容が突然変化する複数の点を探索し、前記内容が突然変化する複数の点の各々を時間についてのカットとして特定するステップであり、ここで、複数の時間についてのカットが、前記スケルトンデータの時系列を区分する重複のない隣接するセグメントの組を規定するものであり、前記複数の時間についてのカットの各々を、加速度の変化率の局所的な極大値により与えられるカットのいずれかに精緻化するステップと、前記精緻化されたカットのうち、正の加速度を有するカットを特定するステップと、前記正の加速度を有する前記1つ若しくは複数の連続するカットの対の各々をジェスチャーバウンダリとして分類するステップとを備えることを特徴とするジェスチャーを認識する方法が開示されている。
一例としての実施形態によれば、被写体の少なくとも1つのデータの3次元(3D)ビデオストリームを撮像するためのビデオカメラと、前記少なくとも1つのデータの3Dビデオストリームからスケルトンデータの時系列を抽出するためのモジュールと、処理部とを備え、前記処理部は、内容が突然変化する複数の点を探索し、前記内容が突然変化する複数の点の各々を時間についてのカットとして特定するステップであり、ここで、複数の時間についてのカットが、前記スケルトンデータの時系列を区分する重複のない隣接するセグメントの組を規定するものであり、前記複数の時間についてのカットの各々を、加速度の変化率の局所的な極大値により与えられるカットのいずれかに精緻化するステップと、前記精緻化されたカットのうち、正の加速度を有するカットを特定するステップと、前記正の加速度を有する前記1つ若しくは複数の連続するカットの対の各々をジェスチャーバウンダリとして分類するステップとを行うように構成されていることを特徴とするジェスチャーを認識するためのシステムが開示されている。
一例としての実施形態によれば、ジェスチャーを認識するためのコンピュータ読取可能なコードを含むコンピュータプログラムであって、前記コンピュータプログラムは、コンピュータにより実行可能であり、前記コンピュータに、被写体についての少なくとも1つのデータの3次元(3D)ビデオストリームを撮像するステップと、前記少なくとも1つのデータの3Dビデオストリームからスケルトンデータの時系列を抽出するステップと、内容が突然変化する複数の点を探索し、前記内容が突然変化する複数の点の各々を時間についてのカットとして特定するステップであり、ここで、複数の時間についてのカットが、前記スケルトンデータの時系列を区分する重複のない隣接するセグメントの組を規定するものであり、前記複数の時間についてのカットの各々を、加速度の変化率の局所的な極大値により与えられるカットのいずれかに精緻化するステップと、前記精緻化されたカットのうち、正の加速度を有するカットを特定するステップと、前記正の加速度を有する前記1つ若しくは複数の連続するカットの対の各々をジェスチャーバウンダリとして分類するステップとを含むプロセスを実行させることを特徴とするコンピュータプログラムが開示されている。
上で述べた一般的な記載かつ以下で述べる詳細な記載の両者は、一例及び説明として述べられており、請求の範囲のさらなる説明となることが意図されていることが理解される。
添付した図面は、本発明のいっそうの理解を与えるために含まれ、本明細書の一部に組込まれ、一部を構成している。図面は、本発明の複数の実施形態を示し、詳細な説明と共に本発明の原理を説明する役割を果たす。
図1は、一例としての実施形態によるジェスチャー認識システムを示す。
図2は、ボディジョイントを示す人体のスケルトンシステムを示す。
図3は、一例としての実施形態によるジェスチャー認識システムを示す。
図4は、一例としての実施形態によるジェスチャー解析のための時間的セグメンテーションの方法を示すフローチャートである。
図5は、一例としての実施形態によるセグメンテーションを示す。
人間の動作のフローの中にジェスチャーを見出すという課題であるジェスチャーの時間的セグメンテーションを実行することを試みる際に、数多くの曖昧な点が生じうることが理解できる。例えば、いくつかのジェスチャーを間に休みをおかずに連続的に行う(そのようなジェスチャーは連続的ジェスチャーと称される)ことができる一方で、いくつかのジェスチャーは、その間に休みを含む。これは、動作のない状態から動作へあるいは動作から動作のない状態への突然の変化を単純に観察するのみによってはジェスチャーバウンダリをトリガするのを比較的不可能にしてしまいうる。
複数の変動点の方法のうちで、カーネル化時間切断(Kernelized Temporal Cut(KTC))アルゴリズムは、時間的セグメンテーションの問題をサイズが変化するスライディングウィンドウ内の2標本問題の系列としてモデル化し、それを最大平均差異(Maximum Mean Discrepancy(MMD)に基づいて検定統計量を用いて解く。一例としての実施形態によれば、ジェスチャー解析のための時間的セグメンテーションの方法及びシステムが開示され、それを、本明細書では、「運動学的カーネル化時間的セグメンテーション(Kinematic Kernelized Temporal Segmentation(KKTS))」と称する。
時間的セグメンテーション、すなわち人間の動作のフロー内でジェスチャーを見出すという課題は、多くのコンピュータビジョンの用途において非常に重要でありうる。例えば、RGB−Dセンサ(又はカメラ)及びそれらに関連したフレームワークからは、比較的容易で信頼性のあるスケルトンモデルを人間のユーザから抽出することができ、ジェスチャー認識用途の開発の機会を得ることができる。しかしながら、ジェスチャーの時間的セグメンテーションは、依然として、オープンで挑戦のしがいのある問題である。「ジェスチャー」を定義するのが困難でありうるためである。したがって、オーバーセグメンテーションとアンダーセグメンテーションの間で妥当なトレードオフを維持しつつ、指示を伴わないオンライン形式でジェスチャーバウンダリを検出するための方法及びシステムを手にすることは望ましいであろう。
一例としての実施形態によれば、ジェスチャー解析のための時間的セグメンテーションの方法及びシステムが開示され、それを、本明細書では、「運動学的カーネル化時間的セグメンテーション(Kinematic Kernelized Temporal Segmentation(KKTS))」と称する。例えば、一例としての実施形態によれば、本明細書で開示されるKKTSモジュール(又はアルゴリズム)は、リアルタイムで指示を伴わない形式で実行しつつ、ビデオストリーム又はスケルトン情報のフローからジェスチャーバウンダリを特定することができる。加えて、KKTSモジュール(又はアルゴリズム)は、続いて行われるいかなる分類ステップ又はアルゴリズムとは独立して用いることができ、それにより、本明細書で開示するシステム及び方法が、ジェスチャー認識システムを含むジェスチャー処理システムに組込むための理想的な用途となりうる。
図1に、一例としての実施形態によるジェスチャー認識システム100を示す。図1に示すように、システム100は、RGB−Dカメラ110を含みうる。RGB−Dカメラ110は、例えば、奥行き又は距離の機能を伴った赤、緑、青の色空間を有し、各画像に被写体すなわちユーザ102のカラー画像(RGB色空間)と奥行き又は距離を取得するために用いることができる。一例としての実施形態によれば、被写体すなわちユーザ102は、1つ又は複数のジェスチャーを行いうる。
一例としての実施形態によれば、システム100は、セグメンテーション・認識システム120とセグメンテーション・認識システム120からの結果を表示するように構成されたグラフィカルユーザインターフェース(GUI)を有する表示部130も含んでいることが好ましい。一例としての実施形態によれば、セグメンテーション・認識システム120及び/又は表示部130は、記憶部、処理部、オペレーティングシステム、開示するようなアルゴリズムを実行するための1つ又は複数のソフトウェアアプリケーション及び表示部すなわちグラフィカルユーザインターフェース(GUI)130を有するコンピュータ又は処理装置を含みうる。セグメンテーション・認識システム120及び/又はGUIすなわち表示部130は、スタンドアロンのコンピュータの一部でありえて、あるいは1つ又は複数のコンピュータ又は処理装置内に含まれうる。
図2に、RGB−Dカメラ120に向かった一例としてのユーザについてのスケルトン表示200を示す。スケルトン200は、人体の頭部、肩、手足を表す15個のジョイントと11本の線分からなる。図2に示すように、線分210は、ジョイント220により相互に接続され、一本の線分の動きは、他の線分により制限されている。さらに、部分すなわち線分210のいくつかは独立して動くことができ、他の線分は、例えば、頭部の動きのように比較的静止を保ちうる。
一例としての実施形態によれば、3D空間内の線分210の位置は、2つのジョイント220により決定することができる。例えば、3Dスケルトンフレームのために、15の身体のジョイントデータを抽出することができ、それらを人体の動きをシミュレートするために用いることができる。
図3に、一例としての実施形態によるジェスチャー認識システム300を示す。図3に示すように、ジェスチャー認識システム300は、データ取得モジュール310、時間的セグメンテーションモジュール320及びジェスチャー認識モジュール330を含む。
一例としての実施形態によれば、データ取得モジュール310は、1又は複数のジェスチャーを行う被写体についてのデータ312の少なくとも1つの3次元(3D)ビデオストリームを撮像する。データの3Dビデオストリームは、例えば、RGBフレーム312及び奥行きフレーム314を撮像するように構成されたRGB−Dカメラ120から得ることができる。一例としての実施形態によれば、スケルトンデータ318の時系列を本明細書で開示するようなポーズ推定316に基づいて少なくとも1つの3Dビデオストリームから抽出する。スケルトンデータ318の時系列は、例えば、複数のスケルトンジョイント220を含みうる。
一例としての実施形態によれば、スケルトンデータ318の時系列は、時間的セグメンテーションモジュール320に入力される。時間的セグメンテーションモジュール320は、KKTCモジュール324を有するKKTSモジュール322を含み、KKTCモジュール324は、少なくとも2つの時間についてのカット(temporal cut)326を生成するように構成されている。一例としての実施形態によれば、これらの少なくとも2つの時間についてのカット326は、スケルトンデータ318の時系列を区分する重複がない隣接したセグメントを規定する。続いて、時間についてのカット326は、KKTSモジュール322のセグメント切断(Cuts to Segment(CtS))モジュール328に入力することができ、時間についてのカット326の各々における加速度に基づいてジェスチャーを含むセグメントを特定する。例えば、もし、ある時間についてのカットにおいて加速度が正であるならば、その時間についてのカットと次の時間についてのカットの間のジェスチャーを含むセグメントで、例えば、ジェスチャーバウンダリ340が認識されうる。
一例としての実施形態によれば、ジェスチャー認識モジュール330には、スケルトンデータ318の時系列及びジェスチャーバウンダリ340が入力されうる。スケルトンデータ318の時系列及びジェスチャーバウンダリ340は、認識されるジェスチャー334の判定のために認識アルゴリズムすなわち分類システム332に入力することができる。
図4に、ジェスチャー分析のための時間的セグメンテーションの方法及びシステムの一例を示すフローチャート400を示す。このシステムは、運動学的カーネル化時間切断(Kinematic Kernelized Temporal Cuts(KKTC))モジュール324、選択的ハンズアップ(hands−up)判定機能モジュール370及びセグメント切断(Cuts to Segmetns(CtS))モジュール328を含む。
一例としての実施形態によれば、KKTSモジュール322に入力されるスケルトンジョイント220を、2つの方法すなわちアルゴリズムに分けて処理することができる。例えば、運動学的カーネル化時間切断(Kinematic Kernelized Temporal Cuts(KKTC))モジュール324とセグメント切断(Cuts to Segmetns(CtS))モジュール328である。一例としての実施形態によれば、KKTCモジュール324には、カメラ120の前でジェスチャーを行うユーザ102のスケルトンデータ318の時系列が入力され、本明細書で開示する時間についてのカット326を出力する。時間についてのカット326は、スケルトンデータ318の時系列を区分し重複のない隣接するセグメントを規定する。一例としての実施形態によれば、セグメント切断(Cuts to Segmetns(CtS))モジュール328は、時間についてのカットにより規定された全てのセグメントのうちでジェスチャー340を含むバウンダリを発見して出力する。
一例としての実施形態によれば、サイズTのデータ318のスケルトン情報の時系列は、
Figure 0006532525
として定義することができる。一例としての実施形態によれば、Xの各要素は、KKTSモジュール324に入力されるN個の3次元スケルトンジョイント220のベクトルである。
一例としての実施形態によれば、KKTSモジュール324は、同一の固定されたサイズの2つの連続したスライディングウィンドウ350、360を用いて、シークエンスをスキャンする。例えば、2つの連続したスライディングウィンドウを
Figure 0006532525

Figure 0006532525

を用いて定義することができる。これらは、それぞれ、スライディングウィンドウのサイズ、スライディングウィンドウを動かす際のステップ長(step length)と称される2つのパラメータである。
Figure 0006532525

及び
Figure 0006532525

が成り立つような任意のtについて、フレームtにおける左のスライディングウィンドウ、右のスライディングウィンドウについて、それぞれ、
Figure 0006532525

Figure 0006532525

が成立しているものとする。
一例としての実施形態によれば、X内で最大平均差異(Maximum Mean Discrepancy(MMD))350の推定値を計算するために2つのスライディングウィンドウを用いることができる。例えば、MMD350は、身体の全体運動を定量化するためにもちいることができ、以下のように定義することができる。
Figure 0006532525

ここでkは
Figure 0006532525

として定義することができるバンド幅
Figure 0006532525

のガウス核である。この量又は結果は、時間についてのカット326の位置を大まかに見出すためにKKTCモジュール324で用いることができる。
一例としての実施形態によれば、KKTSモジュール322は、MMDにおけるガウス核kで定義される以下のカーネル化運動学的量を用いることができる。
・時刻tにおける身体の大域的カーネル化速度
Figure 0006532525

計算された速度は、アルゴリズム内で直接用いられないが、次の2つの量を記述するのに用いられる。T=2がよい値でありうる。
・時刻tにおける身体の大域的カーネル化加速度
a(t)=v(t+T)−v(t−T
物理的には、これは、時間についての速度の変化率を指定している。T=1がよい値でありうる。一例としての実施形態によれば、これは、どのセグメントがジェスチャーを含んでいるか見出すためにCtSモジュール328により用いることができる。
・時刻tにおける身体の大域的カーネル化ジャーク
j(t)=v(t−T)−2v(t)+v(t+T
物理的には、身体の大域的カーネル化ジャークは、時間に関する加速度の変化率を指定している。T=4がよい値でありうる。一例としての実施形態によれば、加速度の変化率(すなわち、身体の大域的カーネル化ジャーク)を時間についてのカット326の比較的正確な位置を見出す又は特定するためにKKTCモジュール324において用いることができる。
一例としての実施形態によれば、選択的な「ハンズアップ(hands−up)」判定関数(又はモジュール)370を時間についてのカット326の特定を補助するために用いることもできる。これは、もし被写体又はユーザの手が下がっておらずに上がっていれば、ユーザは、ジェスチャーの最中であるという可能性が高くなるという仮定に基づいている。例えば、Dで表され、以下では「ハンズアップ」決定関数と称される以下の関数は、Xから取得した、時刻tにおける、Lで表される左手の垂直位置とRで表される右手の垂直位置の和として定義することができる。ハンズアップ判定370は、以下のように表すことができる。
D(t)=L(t)+R(t)
一例としての実施形態によれば、ハンズアップ判定を時間についてのカットの位置を大まかな位置から正確な位置へと位置を精緻化するためにKKTCモジュール324内で用いることができる。
一例としての実施形態によれば、KKTCモジュール324とCtSモジュール328の両方をビルドするのに上で導入された量は、さらに説明され一度組合される。これらの量により、ジェスチャーバウンダリ340を見出すことができる。
一例としての実施形態によれば、まず、時間についてのカットの大まかな位置を与えるスライディングウィンドウに沿ったMMDの局所的な極大値が得られる。正しい陽判定(positive)のカット及び誤った陰判定(negative)のカットの量は、ともに妥当でありうるが、カットの位置は、近似的である。実際に、例えば、カットの位置は、ジェスチャーの開始では遅すぎ、ジェスチャーの終わりでは早すぎるという傾向がありうる。それと並行して、ジャークの推定値の局所的な極大をカットの正確な位置(しかし、間違った陽判定を伴う)を求めるのに用いることができる。
一例としての実施形態によれば、MMDの極大値により与えられた各カットを、ジャークの局所的な極大値により与えられるカットに精緻化することができる。精緻化は、時間について進行する方向あるいは後退する方向に行われ、本明細書で開示される「ハンズアップ」判定関数の値を用いる。一例としての実施形態によれば、このステップでは、ユーザの手が下がっておらずに上がっているならば、ユーザはジェスチャーの最中である可能性が高いということが仮定されている。
一例としての実施形態によれば、プロセスの終わりには、時間についてのカットは、妥当かつ正確であり、時間についてのカットにはほとんど誤った陽判定がない。
一例としての実施形態によれば、KKTCモジュール324により行われるアルゴリズム又はステップは、アルゴリズム1に示されている。
Figure 0006532525
一度、隣接する重複のないセグメントがKKTCモジュール324により特定されると、CtSモジュール328が、加速度を用いてジェスチャーを含んだセグメントを特定するように構成されている。例えば、一例としての実施形態によれば、もしカット位置で加速度のカーネル化推定値が正値であるならば、このカットと次のカットの間のセグメントは、ジェスチャーを含んでいる。
CtSモジュール328のアルゴリズム又はステップは、アルゴリズム2に示されている。
Figure 0006532525
図5に、一例としての実施形態によるセグメンテーションを示す。図5に示すように、上から下に向かって、同期化されたRGBフレーム、スケルトンフレーム、検証用(手動による)セグメンテーション、KKTSにより生成されたセグメンテーションが示されている。ジェスチャーを含むセグメントに属するフレームは、背景が斜めにハッチングされている。ジェスチャーを含まないセグメントに属するフレームは、背景が白である。表示された2つのフレームの間にギャップがあることは、そこでカットが生じたことを意味している。図は、2つの連続的なジェスチャーを示している。それらの間に休みがない(すなわち、動きがない状態がない)ためである。一例としての実施形態によれば、KKTSは、それらを正しくセグメント化し、生成されたセグメンテーションは、検証用のセグメンテーションと整合している。
一例としての実施形態によれば、ジェスチャーを認識するためのコンピュータ読取可能なコードを含むコンピュータプログラムを記録した非一時的なコンピュータ読取可能な媒体であって、前記プログラムは、コンピュータにより実行可能であり、前記コンピュータに、被写体についての少なくとも1つのデータの3次元(3D)ビデオストリームを撮像するステップと、前記少なくとも1つのデータの3Dビデオストリームからスケルトンデータの時系列を抽出するステップと、内容が突然変化する複数の点を探索し、前記内容が突然変化する複数の点の各々を時間についてのカットとして特定するステップであって、複数の時間についてのカットが、前記スケルトンデータの時系列を区分する重複のない隣接するセグメントの組を規定するような特定するステップと、前記複数の時間についてのカットのうち、正の加速度を有する前記スケルトンデータの時系列の時間についてのカットを特定するステップと、前記正の加速度を有する前記1つ若しくは複数の連続するカットの対の各々をジェスチャーバウンダリとして分類するステップとを含むプロセスを実行させることを特徴とするコンピュータ読取可能記録媒体が開示される。
コンピュータで使用可能な媒体は、もちろん、磁気記録媒体、光磁気記録媒体、又は将来開発されるであろう任意の他の記録媒体であってよく、それら全ては、本発明に全く同様に適用可能であると考えられる。1次及び2次の複製製品その他を含むそのような媒体の複製は、上で述べた媒体と全く均等であると考えられる。さらに、本発明の実施形態がソフトウェアとハードウェアの組合せであったとしても、本発明の概念からは全く逸脱しない。本発明は、ソフトウェア部分が記録媒体にあらかじめ書込まれ、動作時に必要に応じて読込まれるように実行されてもよい。
当業者が、本発明の範囲又は概念から逸脱することなく、本発明の構造に様々な変更と変形を行うことができることは明らかであろう。上で述べたことを考慮すると、本発明の変更と変形が以下の請求項及びそれらの均等物の範囲に入る限り、本発明が、それらの変更と変形を含むことが意図されている。

Claims (18)

  1. 被写体についての少なくとも1つのデータの3次元(3D)ビデオストリームを撮像するステップと、
    前記少なくとも1つのデータの3Dビデオストリームからスケルトンデータの時系列を抽出するステップと、
    内容が突然変化する複数の点を探索し、前記内容が突然変化する複数の点の各々を時間についてのカットとして特定するステップであり、ここで、複数の時間についてのカットが、前記スケルトンデータの時系列を区分する重複のない隣接するセグメントの組を規定するものであり、
    前記複数の時間についてのカットの各々を、加速度の変化率の局所的な極大値により与えられるカットのいずれかに精緻化するステップと、
    前記精緻化されたカットのうち、正の加速度を有するカットを特定するステップと、
    前記正の加速度を有する前記1つ若しくは複数の連続するカットの対の各々をジェスチャーバウンダリとして分類するステップとを備えることを特徴とするジェスチャーを認識する方法。
  2. 前記スケルトンデータの時系列内で最大平均差異(MMD)の推定値を算出するステップと、
    前記MMDの推定値に基づいて、前記スケルトンデータの時系列のうちで時間についてのカットの推定を発生させるステップとを備えることを特徴とする請求項1に記載の方法。
  3. ある時刻(t)における左手のジョイント及び右手のジョイントの上下方向位置の和の関数であるハンズアップ判定関数の値を用いて、手が上がっているならばジェスチャーとして分類するステップを備えることを特徴とする請求項1又は2に記載の方法。
  4. 前記精緻化されたカットのうち正の加速度を有するカットを前記ジェスチャーの開始として分類するステップと、
    前記精緻化されたカットのうち負の加速度を有するカットを前記ジェスチャーの終了として分類するステップとを備えることを特徴とする請求項1から3のいずれか一項に記載の方法。
  5. 前記データの少なくとも1つの3Dビデオストリームからの前記スケルトンデータの時系列及び前記ジェスチャーバウンダリをジェスチャー認識モジュールに入力するステップと、
    前記ジェスチャーバウンダリをジェスチャーの種類として認識するステップとを備えることを特徴とする請求項1から4のいずれか一項に記載の方法。
  6. 被写体の少なくとも1つのデータの3次元(3D)ビデオストリームを撮像するためのビデオカメラと、
    前記少なくとも1つのデータの3Dビデオストリームからスケルトンデータの時系列を抽出するためのモジュールと、
    処理部とを備え、前記処理部は、
    内容が突然変化する複数の点を探索し、前記内容が突然変化する複数の点の各々を時間についてのカットとして特定するステップであり、ここで、複数の時間についてのカットが、前記スケルトンデータの時系列を区分する重複のない隣接するセグメントの組を規定するものであり、
    前記複数の時間についてのカットの各々を、加速度の変化率の局所的な極大値により与えられるカットのいずれかに精緻化するステップと、
    前記精緻化されたカットのうち、正の加速度を有するカットを特定するステップと、
    前記正の加速度を有する前記1つ若しくは複数の連続するカットの対の各々をジェスチャーバウンダリとして分類するステップとを行うように構成されていることを特徴とするジェスチャーを認識するためのシステム。
  7. 前記処理部により生成された結果を表示するための表示部であって、前記スケルトンデータの時系列から1つ若しくは複数のジェスチャーバウンダリを視覚的なフォーマットで表示する表示部を備えることを特徴とする請求項に記載のシステム。
  8. 前記処理部が、
    前記スケルトンデータの時系列内で最大平均差異(MMD)の推定値を算出するステップと、
    前記MMDの推定値に基づいて、前記スケルトンデータの時系列のうちで時間についてのカットの推定を発生させるステップとを行うように構成されていることを特徴とする請求項6又は7に記載のシステム。
  9. 前記処理部
    る時刻(t)における左手のジョイント及び右手のジョイントの上下方向位置の和の関数であるハンズアップ判定関数の値を用いて、手が上がっているならばジェスチャーとして分類するステップを行うように構成されていることを特徴とする請求項6から8のいずれか一項に記載のシステム。
  10. 前記処理部が、
    前記精緻化されたカットのうち正の加速度を有するカットを前記ジェスチャーの開始として分類するステップと、
    前記精緻化されたカットのうち負の加速度を有するカットを前記ジェスチャーの終了として分類するステップとを行うように構成されていることを特徴とする請求項6から9のいずれか一項に記載のシステム。
  11. 前記データの少なくとも1つの3Dビデオストリームからの前記スケルトンデータの時系列及び前記ジェスチャーバウンダリが入力され、前記ジェスチャーバウンダリをジェスチャーの種類として認識するように構成されたジェスチャー認識モジュールを備えることを特徴とする請求項6から10のいずれか一項に記載のシステム。
  12. 前記ビデオカメラは、RGB−Dカメラであり、前記RGB−Dカメラは、RGBフレームと奥行きフレームの時系列を生成することを特徴とする請求項6から11のいずれか一項に記載のシステム。
  13. 前記少なくとも1つのデータの3Dビデオストリームからスケルトンデータの時系列を抽出するためのモジュール及び前記処理部は、スタンドアロンのコンピュータ内にあることを特徴とする請求項6から12のいずれか一項に記載のシステム。
  14. ジェスチャーを認識するためのコンピュータ読取可能なコードを含むコンピュータプログラムであって、前記コンピュータプログラムは、コンピュータにより実行可能であり、前記コンピュータに、
    被写体についての少なくとも1つのデータの3次元(3D)ビデオストリームを撮像するステップと、
    前記少なくとも1つのデータの3Dビデオストリームからスケルトンデータの時系列を抽出するステップと、
    内容が突然変化する複数の点を探索し、前記内容が突然変化する複数の点の各々を時間についてのカットとして特定するステップであり、ここで、複数の時間についてのカットが、前記スケルトンデータの時系列を区分する重複のない隣接するセグメントの組を規定するものであり、
    前記複数の時間についてのカットの各々を、加速度の変化率の局所的な極大値により与えられるカットのいずれかに精緻化するステップと、
    前記精緻化されたカットのうち、正の加速度を有するカットを特定するステップと、
    前記正の加速度を有する前記1つ若しくは複数の連続するカットの対の各々をジェスチャーバウンダリとして分類するステップとを含むプロセスを実行させることを特徴とするコンピュータプログラム。
  15. 前記コンピュータに、
    前記スケルトンデータの時系列内で最大平均差異(MMD)の推定値を算出するステップと、
    前記MMDの推定値に基づいて、前記スケルトンデータの時系列のうちで時間についてのカットの推定を発生させるステップとを含むプロセスを実行させることを特徴とする請求項14に記載のコンピュータプログラム。
  16. 前記コンピュータに、
    ある時刻(t)における左手のジョイント及び右手のジョイントの上下方向位置の和の関数であるハンズアップ判定関数の値を用いて、手が上がっているならばジェスチャーとして分類するステップを含むプロセスを実行させることを特徴とする請求項14又は15に記載のコンピュータプログラム。
  17. 前記コンピュータに、
    前記精緻化されたカットのうち正の加速度を有するカットを前記ジェスチャーの開始として分類するステップと、
    前記精緻化されたカットのうち負の加速度を有するカットを前記ジェスチャーの終了として分類するステップとを含むプロセスを実行させることを特徴とする請求項14から16のいずれか一項に記載のコンピュータプログラム。
  18. 前記コンピュータに、
    前記データの少なくとも1つの3Dビデオストリームからの前記スケルトンデータの時系列及び前記ジェスチャーバウンダリをジェスチャー認識モジュールに入力するステップと、
    前記ジェスチャーバウンダリをジェスチャーの種類として認識するステップとを含むプロセスを実行させることを特徴とする請求項14から17のいずれか一項に記載のコンピュータプログラム。
JP2017511692A 2014-08-29 2015-08-27 ジェスチャー解析のための時間的セグメンテーションの方法及びシステム Active JP6532525B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/473,679 2014-08-29
US14/473,679 US20160078287A1 (en) 2014-08-29 2014-08-29 Method and system of temporal segmentation for gesture analysis
PCT/US2015/047095 WO2016033279A1 (en) 2014-08-29 2015-08-27 Method and system of temporal segmentation for gesture analysis

Publications (2)

Publication Number Publication Date
JP2017535830A JP2017535830A (ja) 2017-11-30
JP6532525B2 true JP6532525B2 (ja) 2019-06-19

Family

ID=55400546

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017511692A Active JP6532525B2 (ja) 2014-08-29 2015-08-27 ジェスチャー解析のための時間的セグメンテーションの方法及びシステム

Country Status (3)

Country Link
US (2) US20160078287A1 (ja)
JP (1) JP6532525B2 (ja)
WO (1) WO2016033279A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10726560B2 (en) * 2014-10-31 2020-07-28 Fyusion, Inc. Real-time mobile device capture and generation of art-styled AR/VR content
US10719939B2 (en) * 2014-10-31 2020-07-21 Fyusion, Inc. Real-time mobile device capture and generation of AR/VR content
US10242474B2 (en) 2015-07-15 2019-03-26 Fyusion, Inc. Artificially rendering images using viewpoint interpolation and extrapolation
US10222932B2 (en) 2015-07-15 2019-03-05 Fyusion, Inc. Virtual reality environment based manipulation of multilayered multi-view interactive digital media representations
US10147211B2 (en) 2015-07-15 2018-12-04 Fyusion, Inc. Artificially rendering images using viewpoint interpolation and extrapolation
US11095869B2 (en) 2015-09-22 2021-08-17 Fyusion, Inc. System and method for generating combined embedded multi-view interactive digital media representations
US11006095B2 (en) 2015-07-15 2021-05-11 Fyusion, Inc. Drone based capture of a multi-view interactive digital media
US11783864B2 (en) 2015-09-22 2023-10-10 Fyusion, Inc. Integration of audio into a multi-view interactive digital media representation
CN106296736B (zh) * 2016-08-08 2019-03-29 河海大学 一种仿记忆引导的模式识别方法
US11202017B2 (en) 2016-10-06 2021-12-14 Fyusion, Inc. Live style transfer on a mobile device
US10437879B2 (en) 2017-01-18 2019-10-08 Fyusion, Inc. Visual search using multi-view interactive digital media representations
US10313651B2 (en) 2017-05-22 2019-06-04 Fyusion, Inc. Snapshots at predefined intervals or angles
US11069147B2 (en) 2017-06-26 2021-07-20 Fyusion, Inc. Modification of multi-view interactive digital media representation
US11660526B2 (en) 2018-03-01 2023-05-30 Sony Interactive Entertainment Inc. Estimation apparatus, estimation method, and program
US10592747B2 (en) 2018-04-26 2020-03-17 Fyusion, Inc. Method and apparatus for 3-D auto tagging
CN109523526B (zh) * 2018-11-08 2021-10-22 腾讯科技(深圳)有限公司 组织结节检测及其模型训练方法、装置、设备和系统
US11532094B2 (en) * 2018-12-05 2022-12-20 Qualcomm Technologies, Inc. Systems and methods for three-dimensional pose determination
CN114303142A (zh) * 2019-08-29 2022-04-08 西铁城时计株式会社 影像生成装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0991011B1 (en) 1998-09-28 2007-07-25 Matsushita Electric Industrial Co., Ltd. Method and device for segmenting hand gestures
JP2000315259A (ja) * 1999-05-06 2000-11-14 Sharp Corp データベース作成装置及びデータベース作成プログラムを記録した記録媒体
JP4257421B2 (ja) * 2003-11-28 2009-04-22 独立行政法人産業技術総合研究所 動作体運動データ分節処理装置。
WO2008007471A1 (fr) 2006-07-10 2008-01-17 Kyoto University Procédé de suivi d'un marcheur et dispositif de suivi d'un marcheur
JP5238602B2 (ja) * 2009-05-14 2013-07-17 Kddi株式会社 映像コンテンツ生成装置及びコンピュータプログラム
US8538570B2 (en) * 2009-09-11 2013-09-17 University Of Delaware Process and system for manufacturing a customized orthosis
US9981193B2 (en) 2009-10-27 2018-05-29 Harmonix Music Systems, Inc. Movement based recognition and evaluation
US8334842B2 (en) * 2010-01-15 2012-12-18 Microsoft Corporation Recognizing user intent in motion capture system
JP5320332B2 (ja) * 2010-03-19 2013-10-23 株式会社コナミデジタルエンタテインメント ゲーム装置、ゲーム装置の制御方法、及びプログラム
US20110289455A1 (en) 2010-05-18 2011-11-24 Microsoft Corporation Gestures And Gesture Recognition For Manipulating A User-Interface
US20110292036A1 (en) 2010-05-31 2011-12-01 Primesense Ltd. Depth sensor with application interface
CN103415825B (zh) 2010-12-29 2016-06-01 汤姆逊许可公司 用于手势识别的系统和方法
JP5701714B2 (ja) 2011-08-05 2015-04-15 株式会社東芝 ジェスチャ認識装置、ジェスチャ認識方法およびジェスチャ認識プログラム
CN103926999B (zh) * 2013-01-16 2017-03-01 株式会社理光 手掌开合手势识别方法和装置、人机交互方法和设备
US9142034B2 (en) 2013-03-14 2015-09-22 Microsoft Technology Licensing, Llc Center of mass state vector for analyzing user motion in 3D images

Also Published As

Publication number Publication date
JP2017535830A (ja) 2017-11-30
US9953215B2 (en) 2018-04-24
US20170286760A1 (en) 2017-10-05
WO2016033279A1 (en) 2016-03-03
US20160078287A1 (en) 2016-03-17

Similar Documents

Publication Publication Date Title
JP6532525B2 (ja) ジェスチャー解析のための時間的セグメンテーションの方法及びシステム
CN105590312B (zh) 前景图像分割方法和装置
US20170161555A1 (en) System and method for improved virtual reality user interaction utilizing deep-learning
Keskin et al. Hand pose estimation and hand shape classification using multi-layered randomized decision forests
JP6030617B2 (ja) 画像処理装置および画像処理方法
US8879789B1 (en) Object analysis using motion history
KR20130066438A (ko) 영상 처리 장치 및 영상 처리 방법
JP5598751B2 (ja) 動作認識装置
JP2016085742A (ja) 前景画像分割方法及び前景画像分割装置
JP6236154B2 (ja) 動画コンテンツに現れる物体を表す動画タグクラウドを生成する方法
Gong et al. Foreground segmentation of live videos using locally competing 1SVMs
CN108596157B (zh) 一种基于运动检测的人群惊扰场景检测方法及系统
JP6331761B2 (ja) 判定装置、判定方法及び判定プログラム
Stillittano et al. Lip contour segmentation and tracking compliant with lip-reading application constraints
KR101959436B1 (ko) 배경인식을 이용한 물체 추적시스템
JP2010057105A (ja) オブジェクトの3次元追跡方法およびシステム
CN114241379A (zh) 一种乘客异常行为识别方法、装置、设备及乘客监控系统
CN105354549A (zh) 基于似物性估计的快速行人检测方法
JP2016081252A (ja) 画像処理装置および画像処理方法
Lowhur et al. Dense optical flow based emotion recognition classifier
Dey et al. Anomaly detection in crowded scene by pedestrians behaviour extraction using long short term method: a comprehensive study
Aitpayev et al. Semi-automatic annotation tool for sign languages
Collazos et al. Abandoned object detection on controlled scenes using kinect
Wang et al. Improving 3-D Zebrafish Tracking With Multiview Data Fusion and Global Association
Hatimi et al. New approach for detecting and tracking a moving object

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170921

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181005

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181016

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190514

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190521

R150 Certificate of patent or registration of utility model

Ref document number: 6532525

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250