JP2011253292A - 情報処理装置および方法、並びにプログラム - Google Patents

情報処理装置および方法、並びにプログラム Download PDF

Info

Publication number
JP2011253292A
JP2011253292A JP2010125967A JP2010125967A JP2011253292A JP 2011253292 A JP2011253292 A JP 2011253292A JP 2010125967 A JP2010125967 A JP 2010125967A JP 2010125967 A JP2010125967 A JP 2010125967A JP 2011253292 A JP2011253292 A JP 2011253292A
Authority
JP
Japan
Prior art keywords
posture
human body
information
gesture
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2010125967A
Other languages
English (en)
Inventor
Asuka Watanabe
明香 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2010125967A priority Critical patent/JP2011253292A/ja
Priority to US13/699,454 priority patent/US20130069867A1/en
Priority to CN201180025757.0A priority patent/CN102906670B/zh
Priority to RU2012150277/08A priority patent/RU2012150277A/ru
Priority to BR112012029938A priority patent/BR112012029938A2/pt
Priority to PCT/JP2011/002913 priority patent/WO2011151997A1/en
Priority to EP11789411.3A priority patent/EP2577426B1/en
Publication of JP2011253292A publication Critical patent/JP2011253292A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)
  • Position Input By Displaying (AREA)
  • Input From Keyboards Or The Like (AREA)

Abstract

【課題】簡単なジェスチャによる情報選択操作でもロバスト性の高いユーザインタフェースを実現できるようにする。
【解決手段】人体姿勢推定部52は、撮像部51により撮像された画像より人体の姿勢を推定し、推定結果である姿勢情報を姿勢認識部54、およびジェスチャ認識部56に出力する。姿勢認識部54は、姿勢情報に基づいて姿勢を認識し、認識した姿勢に対応する姿勢コマンドを情報選択制御部32に出力する。ジェスチャ認識部56は、姿勢情報を時系列に姿勢履歴データバッファ57に蓄積し、時系列の姿勢情報に基づいてジェスチャを認識し、認識したジェスチャに対応するジェスチャコマンドを情報選択制御部32に供給する。情報選択制御部32は、姿勢コマンド、またはジェスチャコマンドに基づいて、情報選択肢データベース33の選択肢となる情報を出力する。本発明は、情報処理装置に適用することができる。
【選択図】図1

Description

本発明は、情報処理装置および方法、並びにプログラムに関し、特に、ジェスチャによるロバストなユーザインタフェースを実現できるようにする情報処理装置および方法、並びにプログラムに関する。
近年、情報選択UI(ユーザインタフェース)の分野において、リモコンやキーボードなど情報入力装置を介する情報選択に代えて、手や指など体の一部を利用した非接触のジェスチャによるUIの研究が盛んになっている。
ジェスチャにより情報を選択させる手法としては、手や指先などの体の部位の移動を検知し、その移動量を画面上のカーソル位置と連動させるポインティング操作や、手の形状や姿勢と情報とを直接対応させる手法などが提案されている。このとき、情報選択操作は、ポインティング操作による情報選択と、手の形状などの情報による決定動作の組み合わせで実現されるものが多い。
より具体的には、情報選択操作で最もよく利用されるのが手の位置を認識して行われるポインティング操作である。これは手の動きによって情報選択を行うことができるため、直観的で非常にわかりやすい(非引用文献1参照)。
しかしながら、手の位置を認識する手法では、推定対象人体の手の位置によって、それが左右どちらの手であるのかを判断するのは難しい場合がある。例えば、静止画を利用した安価な手検出では手を肌色領域の検出と手形状とのマッチングで認識したりするが、これは手が重なった時点で左右の手の区別がつきにくくなる。そこで、赤外線等の測距センサを用いて奥行きを認識させるようにして区別する技術が提案されている(非引用文献2参照)。また、左右の手を同時に使用できない、左右の手を交差できない、あらかじめ決められた領域に手が入った場合しか認識できない、などの制約をつけて認識させる技術も提案されている(非引用文献3参照)。
保呂, 岡田, 稲邑, 稲葉, 視体積交差法を用いた実時間ポインティングジェスチャ認識, 日本機械学会ロボティクス・メカトロニクス講演会, 2006 赤堀, 今井, ジェスチャ入力を用いた情報家電インタフェースの開発, ITX2001, 2001 中村, 高橋, 田中, Hands-Popie:両手の動きを利用した日本語入力手法, WISS, 2006
しかしながら、非引用文献1の技術の場合、例えば、画面上に表示されたキーボードのような大きな選択肢から1の入力記号をポインティング操作で選択すると、手を挙げた状態を保持したまま、手や指などを大きく移動させる必要がありユーザが疲労し易くなる。また、小さな選択肢であっても、選択情報を表示する装置が大画面である場合、同様に手や指などの移動量が大きくなるので、やはり疲労し易くなる。
また、非引用文献2,3の場合、これは手が重なった時点で左右の手の区別がつきにくくなり、赤外線等の測距センサを用いて奥行きを認識できたとしても、センサからほぼ同じ距離にある手が交差しているとき、その区別は困難である可能性が高い。
これが故に、引用文献3で示されるような技術が提案されているが、左右の手を同時に使用できない、左右の手を交差できない、あらかじめ決められた領域に手が入った場合しか認識できない、などの制約があるため、ポインティング操作が制限される。
また、人間の空間認知特性により、離れた場所では実空間の認知空間に差が出来ると言われておりポインティングを大画面で行う際の課題とされている(新谷, 間下, 清川, 竹村, 大画面ポインティングシステムのための 画像特徴量を用いた指差し位置推定, ヒューマンインタフェースシンポジウム, 2009.参照)。
本発明はこのような状況に鑑みてなされたものであり、特に、簡単なジェスチャによる情報選択操作でもロバスト性の高いユーザインタフェースを実現できるようにするものである。
本発明の一側面の情報処理装置は、選択肢となる情報を格納する格納手段と、人体を含む画像を取得する画像取得手段と、前記画像取得手段により取得された画像より人体の姿勢を推定する人体姿勢推定手段と、前記人体姿勢推定手段により推定された人体姿勢に基づいて、前記格納手段より、前記選択肢となる情報を選択する選択手段とを含む。
人体の姿勢に対応付けて、姿勢コマンドを姿勢コマンドデータベースとして記憶する姿勢コマンドデータベース記憶手段と、前記人体姿勢推定手段により推定された人体の姿勢に基づいて、前記姿勢コマンドデータベースより対応付けて記憶されている姿勢コマンドを選択することにより、前記人体の姿勢を認識する姿勢認識手段とをさらに含ませるようにすることができ、前記選択手段には、前記姿勢認識手段により認識された姿勢に対応して選択された姿勢コマンドに基づいて、前記格納手段より、前記選択肢となる情報を選択させるようにすることができる。
前記人体姿勢推定手段により推定された人体の姿勢を時系列に蓄積する蓄積手段と、時系列の人体の姿勢に対応付けて、ジェスチャコマンドをジェスチャコマンドデータベースとして記憶するジェスチャコマンドデータベース記憶手段と、前記蓄積手段により蓄積されている時系列の人体の姿勢に基づいて、前記ジェスチャコマンドデータベースより対応付けて記憶されているジェスチャコマンドを選択することにより、前記人体のジェスチャを認識するジェスチャ認識手段とをさらに含ませるようにすることができ、前記選択手段には、前記ジェスチャ認識手段により認識されたジェスチャに対応して選択されたジェスチャコマンドに基づいて、前記格納手段より、前記選択肢となる情報を選択させるようにすることができる。
前記選択手段には、前記姿勢認識手段により認識された姿勢に対応して選択された姿勢コマンド、または前記ジェスチャ認識手段により認識されたジェスチャに対応して選択されたジェスチャコマンドに基づいて、前記格納手段より、前記選択肢となる情報を選択させるようにすることができる。
前記人体姿勢推定手段には、前記画像取得手段により取得された画像より人体の顔画像を抽出する顔画像抽出手段と、前記画像取得手段により取得された画像より人体のシルエットを抽出するシルエット抽出手段と、前記顔画像、および前記シルエットより、前記画像のうちの正規化処理領域を抽出する正規化処理領域抽出手段と、前記正規化処理領域より前記人体の姿勢を示す特徴量を抽出する特徴量抽出手段と、人体の姿勢に対応付けられた特徴量と、前記特徴量に対応付けて予め学習により求められている係数を記憶する姿勢係数データベース記憶手段と、前記特徴量抽出手段により抽出された特徴量からなるベクトルと、前記特徴量抽出手段により抽出された特徴量に対応付けて、前記姿勢係数データベース記憶手段に記憶されている係数からなるベクトルとの各要素の積和により求められる、前記画像に含まれる人体の各関節の座標および前記間接の角度を、前記人体の姿勢を示すパラメータとする姿勢情報を推定する姿勢推定手段をさらに含ませるようにすることができる。
前記人体姿勢推定手段には、前記姿勢推定手段により推定された人体の姿勢を示すパラメータとする姿勢情報を、前記人体の拘束条件により補正する補正手段をさらに含ませるようにすることができる。
本発明の一側面の情報処理方法は、選択肢となる情報を格納する格納手段と、人体を含む画像を取得する画像取得手段と、前記画像取得手段により取得された画像より人体の姿勢を推定する人体姿勢推定手段と、前記人体姿勢推定手段により推定された人体姿勢に基づいて、前記格納手段より、前記選択肢となる情報を選択する選択手段とを含む情報処理装置の情報処理方法であって、前記画像取得手段における、前記人体を含む画像を取得する画像取得ステップと、前記人体姿勢推定手段における、前記画像取得ステップの処理により取得された画像より人体の姿勢を推定する人体姿勢推定ステップと、前記選択手段における、前記人体姿勢推定ステップの処理により推定された人体姿勢に基づいて、前記格納手段より、前記選択肢となる情報を選択する選択ステップとを含む。
本発明の一側面のプログラムは、選択肢となる情報を格納する格納手段と、人体を含む画像を取得する画像取得手段と、前記画像取得手段により取得された画像より人体の姿勢を推定する人体姿勢推定手段と、前記人体姿勢推定手段により推定された人体姿勢に基づいて、前記格納手段より、前記選択肢となる情報を選択する選択手段とを含む情報処理装置を制御するコンピュータに、前記画像取得手段における、前記人体を含む画像を取得する画像取得ステップと、前記人体姿勢推定手段における、前記画像取得ステップの処理により取得された画像より人体の姿勢を推定する人体姿勢推定ステップと、前記選択手段における、前記人体姿勢推定ステップの処理により推定された人体姿勢に基づいて、前記格納手段より、前記選択肢となる情報を選択する選択ステップとを含む処理を実行させる。
本発明の一側面においては、選択肢となる情報が格納され、人体を含む画像が取得され、取得された画像より人体の姿勢が推定され、推定された人体姿勢に基づいて、前記選択肢となる情報が選択される。
本発明の情報処理装置は、独立した装置であっても良いし、情報処理を行うブロックであっても良い。
本発明の一側面によれば、ジェスチャによるロバスト性の高いユーザインタフェースを実現することが可能となる。
本発明を適用した情報入力装置の一実施の形態の構成例を示すブロック図である。 人体姿勢推定部の構成例を示す図である。 情報入力処理を説明するフローチャートである。 人体姿勢推定処理を説明するフローチャートである。 姿勢認識処理を説明するフローチャートである。 姿勢認識処理を説明する図である。 姿勢認識処理を説明する図である。 姿勢認識処理を説明する図である。 ジェスチャ認識処理を説明するフローチャートである。 情報選択処理を説明するフローチャートである。 情報選択処理を説明する図である。 情報選択処理を説明する図である。 情報選択処理を説明する図である。 情報選択処理を説明する図である。 情報選択処理を説明する図である。 情報選択処理を説明する図である。 汎用のパーソナルコンピュータの構成例を説明する図である。
[情報入力装置の構成例]
図1は、本発明を適用した情報入力装置のハードウェアの一実施の形態の構成例を示している。図1の情報入力装置11は、使用者である人体の動作(ジェスチャ)に応じて入力操作を認識し、対応する処理結果を表示するものである。
情報入力装置11は、非接触キャプチャ部31、情報選択制御部32、情報選択肢データベース33、情報機器システム制御部34、情報表示制御部35、および表示部36を備えている。
非接触キャプチャ部31は、使用者である人体を含む画像を撮像し、撮像した画像内の使用者である人体の姿勢に応じた姿勢コマンド、または姿勢の時系列であるジェスチャに応じたジェスチャコマンドを発生し、情報選択制御部32に供給する。すなわち、非接触キャプチャ部31は、使用者である人体に対して非接触の状態で、姿勢、またはジェスチャを認識し、対応する姿勢コマンド、またはジェスチャコマンドを発生して、情報選択制御部32に供給する。
より詳細には、非接触キャプチャ部31は、撮像部51、人体姿勢推定部52、姿勢記憶データベース53、姿勢認識部54、分類姿勢記憶データベース55、ジェスチャ認識部56、姿勢履歴データバッファ57、およびジェスチャ記憶データベース58を備えている。
撮像部51は、CCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)などの撮像素子からなり、情報選択制御部32により制御されて、使用者たる人体を含む画像を撮像し、撮像した画像を人体姿勢推定部52に供給する。
人体姿勢推定部52は、撮像部51より供給されてくる使用者たる人体を含む画像に基づいて、フレーム単位で人体の姿勢を認識し、認識した姿勢に対応する姿勢情報を姿勢認識部54、およびジェスチャ認識部56に供給する。より詳細には、人体姿勢推定部52は、撮像部51により撮像された画像の情報から人体の姿勢を示す複数の特徴量を抽出する。そして、人体姿勢推定部52は、抽出した複数の特徴量からなるベクトルと、姿勢毎の複数の特徴量からなるベクトルに基づいた学習により得られる、姿勢記憶データベース53に登録されている係数からなるベクトルとの各要素の積和により、姿勢毎の人体の関節の3次元空間上の座標、および角度の情報を推定し、これらをパラメータとする姿勢情報を求める。尚、人体姿勢推定部52については、図2を参照して詳細を後述する。
姿勢認識部54は、人体の関節の座標と角度の情報をパラメータとする姿勢情報に基づいて、分類姿勢記憶データベース55に予め分類された姿勢に対応付けて姿勢情報と共に登録されている姿勢コマンドを検索する。そして、姿勢認識部54は、検索された姿勢情報に対応付けて登録されている姿勢を使用者たる人体がとっているものと認識し、その姿勢に対応付けて、姿勢情報と共に登録されている姿勢コマンドを情報選択制御部32に供給する。
ジェスチャ認識部56は、人体姿勢推定部52よりフレーム単位で供給されてくる姿勢情報を順次所定時間分だけ姿勢履歴データバッファ57に蓄積する。そして、ジェスチャ認識部56は、ジェスチャ記憶データベース58に予め分類されているジェスチャに対応付けて登録されている時系列の姿勢情報を検索し、対応するジェスチャを検索する。ジェスチャ認識部56は、検索された時系列の姿勢情報に対応するジェスチャを、撮像されている人体が実行しているジェスチャとして認識する。ジェスチャ認識部56は、認識されたジェスチャに対応付けて登録されているジェスチャコマンドをジェスチャ記憶データベース58より読み出して、情報選択制御部32に供給する。
情報選択肢データベース33は、非接触キャプチャ部31より供給されてくる姿勢コマンド、またはジェスチャコマンドに対応付けて選択肢となる情報が登録されている。情報選択制御部32は、非接触キャプチャ部31より供給されてくる姿勢コマンド、またはジェスチャコマンドに基づいて、情報選択肢データベース33より選択肢となる情報を選択して情報機器システム制御部34、および情報表示制御部35に供給する。
情報機器システム制御部34は、情報選択制御部32より供給されてきた選択肢となる情報に基づいて、各種の処理を図示せぬシステムとして機能する情報機器、または単体で機能する情報機器に実行させる。
情報表示制御部35は、情報選択制御部32より供給されてくる選択肢として選択された情報に対応する情報をLCD(Liquid Crystal Display)などからなる表示部36に表示させる。
[人体姿勢推定部の構成例]
次に、図2を参照して、人体姿勢推定部52の詳細な構成例について説明する。
人体姿勢推定部52は、顔検出部71、シルエット抽出部72、正規化処理領域抽出部73、特徴量抽出部74、姿勢推定部75、および補正部76を備えている。顔検出部71は、撮像部51より供給されてくる画像より顔画像を検出し、検出した顔画像の大きさ、および位置を特定して、撮像部51より供給されてきた画像と共にシルエット抽出部72に供給する。シルエット抽出部72は、顔検出部71より供給されてきた撮像画像、顔画像の大きさ、および位置の情報に基づいて、撮像画像より、人体を構成するシルエットを抽出し、顔画像の情報、および撮像画像と共に正規化処理領域抽出部73に供給する。
正規化処理領域抽出部73は、撮像画像、顔画像の位置、および大きさの情報、並びに、シルエットの情報より、人体の姿勢情報の推定に用いる領域を撮像画像より正規化処理領域として抽出し、画像情報と共に特徴量抽出部74に供給する。特徴量抽出部74は、顔画像の位置、および大きさ、シルエット情報に加えて、撮像画像より、例えば、輪郭、エッジ強度、並びにエッジ方向といった複数の特徴量を抽出し、複数の特徴量を要素とするベクトルとして姿勢推定部75に供給する。
姿勢推定部75は、特徴量抽出部74より供給されてくる複数の特徴量を要素とするベクトルの情報に基づいて、姿勢記憶データベース53より複数の係数からなるベクトルを読み出す。尚、以降において、複数の特徴量を要素とするベクトルを特徴量ベクトルと称するものとする。また、特徴量ベクトルに対応付けて姿勢記憶データベース53に登録されている複数の係数からなるベクトルを係数ベクトルと称するものとする。すなわち、姿勢記憶データベース53には、予め学習により姿勢毎の特徴量ベクトルに対応して求められている係数ベクトル(係数セット)が記憶されている。姿勢推定部75は、読み出した係数ベクトルと特徴量ベクトルとの各要素毎の積和により姿勢情報を求め、補正部76に供給する。すなわち、ここで求めれらる姿勢情報とは、人体として設定されている複数の関節の座標位置、および関節の角度より構成される情報である。
補正部76は、姿勢推定部75により求められた姿勢情報に対して、人体の顔画像の大きさから求められる手足の長さなどの拘束条件に基づいて、姿勢情報を補正して、補正された姿勢情報を姿勢認識部54、およびジェスチャ認識部56に供給する。
[情報入力処理について]
次に、図3のフローチャートを参照して、情報入力処理について説明する。
ステップS11において、非接触キャプチャ部31の撮像部51は、使用者たる人物を含む領域の画像を撮像し、撮像した画像を人体姿勢推定部52に供給する。
ステップS12において、人体姿勢推定部52は、人体姿勢推定処理を実行して、人体の姿勢を推定して姿勢情報として姿勢認識部54、およびジェスチャ認識部56に供給する。
[人体姿勢推定処理]
ここで、図4のフローチャートを参照して、人体姿勢推定処理について説明する。
ステップS31において、顔検出部71は、撮像部51より供給されてくる撮像画像に基づいて、撮像された使用者たる人物の顔画像の位置、および大きさの情報を求め、求めた顔画像の情報、および撮像画像をシルエット抽出部72に供給する。より詳細には、顔検出部71は、画像内に使用者たる人物が存在するか否かを判断して、人物が存在するとき、顔画像の位置、および大きさを検出する。この際、顔検出部71は、複数の顔画像が存在する場合、複数の顔画像を識別する情報と共に、それぞれの顔画像の位置、および大きさを求める。顔検出部71は、例えば、Haarパターンと呼ばれる黒と白の矩形パターンを用いる方法により、顔画像の位置、および大きさを求める。Haarパターンによる顔画像の検出手法とは、目や口などは顔の他の部分よりも暗い事を利用したものであり、顔の明度をHarrパターンと呼ばれる特定のパターンの組み合わせで表し、それらのパターンの並び、座標、大きさ、数などによって顔画像を検出する手法である。
ステップS32において、シルエット抽出部72は、顔画像の検出と同様に、予め登録した背景領域との差分を計測することで人体などの前景領域を背景領域と分離する、いわゆる背景差分法により、前傾領域のみをシルエットとして抽出する。そして、シルエット抽出部72は、抽出したシルエット、顔画像の情報、および撮像画像を正規化処理領域抽出部73に供給する。尚、シルエット抽出部72は、シルエットを抽出するに当たり、背景差分法以外の方法で抽出するようにしてもよく、例えば、所定以上の動きを伴う領域を前景領域とする動き差分法などの、その他の一般的アルゴリズムを利用するようにしてもよいものである。
ステップS33において、正規化処理領域抽出部73は、顔画像の検出の結果である顔画像の位置、および大きさの情報を用いて姿勢推定の処理領域である正規化処理領域を設定する。そして、正規化処理領域抽出部73は、シルエット抽出部72により抽出された対象人体のシルエットと合わせて、背景領域の情報を除いた人体を構成する前景領域の部分のみからなる正規化処理領域を生成し、特徴量抽出部74に出力する。この正規化処理領域により、人体と撮像部51との位置関係を意識せずに人体の姿勢が推定可能となる。
ステップS34において、特徴量抽出部74は、正規化処理領域内の輪郭、エッジ強度、およびエッジ方向といった特徴量を抽出し、顔画像の位置、および大きさ、シルエット情報に加えて、複数の特徴量からなる特徴量ベクトルを形成して姿勢推定部75に供給する。
ステップS35において、姿勢推定部75は、供給されてきた特徴量ベクトルと姿勢に対応付けて予め学習により求められている係数ベクトル(係数セット)を姿勢記憶データベース53より読み出する。そして、姿勢推定部75は、特徴量ベクトルと係数ベクトルとの各要素毎の積和により各関節の3次元座標上の位置、および角度からなる姿勢情報を求め、補正部76に供給する。
ステップS36において、補正部76は、人体の顔画像の位置、および大きさと、人体の手足の長さなどの拘束条件に基づいて、各関節の位置と角度とからなる姿勢情報を補正する。ステップS37において、補正部76は、補正した姿勢情報を姿勢認識部54、およびジェスチャ認識部56に供給する。
ここで、特徴量ベクトルに基づいた学習により姿勢記憶データベース53に記憶される係数ベクトルについて説明する。
姿勢記憶データベース53は、上述したように、必要な姿勢の画像情報から得られる特徴量ベクトルとその姿勢に対応する3次元空間内の関節位置座標を複数組用意し、これらの対応関係を用いた学習により得られる係数ベクトルを記憶している。すなわち、正規化処理画像から得られる人体上半身部分全体の特徴量ベクトルと、人体の3次元空間内における関節位置座標の対応関係を求め人体の姿勢を推定することで、例えば、左右の手の交差など、様々な姿勢が認識可能となる。
係数ベクトルの学習には様々なアルゴリズムを利用することができる。ここでは重回帰分析を例として説明する。画像情報を変換して得られる特徴量ベクトルX∈R_m(∈:要素として含まれる)と人体の3次元空間における関節位置座標、および関節の角度などからなる姿勢情報を構成する要素からなる姿勢情報ベクトルX∈R_dの関係は、重回帰式で表現すると以下の式(1)で示されるような関係となる。
Figure 2011253292
ここで、mは使用する特徴量の次元、dは人体の3次元空間における関節位置座標ベクトルの次元を示す。εは残差ベクトルといい、学習に用いた人体の3次元空間における関節位置座標と重回帰分析によって求められる予測された3次元空間の位置座標との差を表す。ここでは、上半身姿勢を表すために、腰、頭と、両腕の肩、肘、手首の計8関節の3次元空間における位置座標(x,y,z)を推定するものとする。呼び出し側は、得られた特徴量ベクトルと学習によって得られる偏回帰係数ベクトルβ_(m×d)を乗算することで、人体の3次元空間における関節位置座標の予測値を得ることができる。姿勢記憶データベース53は、偏回帰係数ベクトルβ_(m×d)(係数セット)の要素を上述した係数ベクトルとして記憶するものとする。
前述の学習データセットを用いて係数ベクトルβを求める手法としては、例えば、リッジ回帰と呼ばれる重回帰分析が用いられる。通常の重回帰分析では以下の式(2)で示される評価関数に従って、予測値と真値(本発明では学習データの人体の3次元空間の関節位置座標、および関節の角度)の差の二乗が最小になるように偏回帰係数ベクトルβ_(m×d)を求められるように最小二乗法が用いられる。
Figure 2011253292
リッジ回帰では、最小二乗法の評価関数に任意パラメータλを含む項を追加し、下式が最小となるような偏回帰係数ベクトルβ_(m×d)を求める。
Figure 2011253292
ここでλは、重回帰式によって得られるモデルと、学習データとの適合度を制御するためのパラメータである。重回帰分析に限らず、学習アルゴリズムを用いる際には、過剰学習、あるいは過学習と呼ばれる問題を十分考慮しなければならないことが知られている。過剰学習とは、学習データに対しては学習されているが未知データに対しては適合できていない汎化性能の低い学習をいう。リッジ回帰に現れるパラメータλを含む項は、学習データに対する適合度を制御するパラメータとなっており、過剰学習を制御するのに有効である。パラメータλが小さいと学習データに対する適合度が高くなる代わりに未知データに対する適合度が低くなり、逆にパラメータλが大きいと学習データに対する適合度は低くなるが未知データに対する適合度は高くなる。より汎化性能の高い姿勢記憶データベースとなるようにパラメータλを調整する。
尚、3次元空間内の関節位置座標は、例えば、腰の中心位置を原点とした座標として求められる。また、重回帰分析により求められた係数ベクトルβと、特徴量ベクトルとの各要素の積和を用いて各座標位置および角度が求められても、学習の際、人体の手足などの各パーツの長さの関係については誤差を生じる事があるため、補正部76が、人体拘束条件、すなわち、各パーツ(手、足など)の長さの関係に基づく拘束条件に基づいて、姿勢情報を補正する。
以上の人体姿勢推定処理により、使用者たる人体の各関節の3次元空間内の関節位置座標と、その角度の情報が姿勢情報(姿勢情報ベクトル)として求められて、姿勢認識部54、およびジェスチャ認識部56に供給される。
ここで、図3のフローチャートの説明に戻る。
ステップS12の処理により、人体の姿勢情報が求められると、ステップS13において、姿勢認識部54は、姿勢認識処理を実行し、姿勢情報に基づいて、分類姿勢記憶データベース55に予め登録された姿勢毎の姿勢情報との比較により、いずれの姿勢であるかを認識する。そして、姿勢認識部54は、認識された姿勢に対応付けて分類姿勢記憶データベース55に登録されている姿勢コマンドを読み出して、情報選択制御部32に供給する。
[姿勢認識処理]
ここで、図5のフローチャートを参照して、姿勢認識処理について説明する。
ステップS51において、姿勢認識部54は、人体姿勢推定部52より供給されてくる、使用者たる人体の各関節の3次元空間内における位置座標の情報と、それぞれの角度の情報からなる姿勢情報を取得する。
ステップS52において、姿勢認識部54は、分類姿勢記憶データベース55に登録されている姿勢情報のうち、未処理の姿勢情報を読み出し、処理対象の姿勢情報に設定する。
ステップS53において、姿勢認識部54は、処理対象の姿勢情報と、人体姿勢推定部52より供給されてきた姿勢情報とを比較し、そのずれを求める。より詳細には、姿勢認識部54は、処理対象となる姿勢情報と取得した姿勢情報に含まれる関節の位置座標と角度の情報に基づいて、連続する2関節を結ぶパーツがなす角度の差分を求めて、これをずれとして求める。例えば、左肘と左手首関節を結ぶ左前腕をパーツの例とする場合、図6で示されるようにずれθが求められる。すなわち、図6のずれθは、処理対象となる予め登録されている姿勢情報に基づいた、上位の関節、すなわち左肘関節を原点とし、左肘から手首に向かうベクトルV1(a1,a2,a3)と、人体姿勢推定部52により推定された姿勢情報に基づいたベクトルV2(b1,b2,b3)との成す角である。ずれθは、以下の式(4)を計算することにより求められる。
Figure 2011253292
このように、姿勢認識部54は、姿勢情報により得られる全ての関節における角度のずれθを計算により求める。
ステップS54において、姿勢認識部54は、求められた全てのずれθが許容誤差θth内であるか否かを判定する。そして、ステップS54において、求められた全てのずれθが許容誤差θth内であると判定された場合、処理は、ステップS55に進む。
ステップS55において、姿勢認識部54は、人体姿勢推定部52より供給された姿勢情報が、処理対象となった姿勢情報に分類されている姿勢である可能性が高いとみなし、処理対象となった姿勢情報と、その姿勢情報に分類されている姿勢の情報を候補として記憶する。
一方、ステップS54において、求められた全てのずれθが許容誤差θth内ではないと判定された場合、処理対象となった姿勢情報の姿勢ではないものとみなし、ステップS55の処理がスキップされて、処理は、ステップS56に進む。
ステップS56において、姿勢認識部54は、未処理の姿勢情報が分類姿勢記憶データベース55にあるか否かを判定し、未処理の姿勢情報があると判定した場合、処理は、ステップS52に戻る。すなわち、未処理の姿勢情報がないと判定されるまで、ステップS52乃至S56の処理を繰り返す。そして、ステップS56において、未処理の姿勢情報がないと判定された場合、処理は、ステップS57に進む。
ステップS57において、姿勢認識部54は、候補となる姿勢の姿勢情報が記憶されているか否かを判定する。ステップS57において、例えば、記憶されている場合、処理は、ステップS58に進む。
ステップS58において、姿勢認識部54は、候補となる姿勢のうち、ずれθの合計が最小となる候補の姿勢に対応付けて、姿勢情報と共に分類姿勢記憶データベース55に登録されている姿勢コマンドを読み出して、情報選択制御部32に供給する。
一方、ステップS57において、候補となる姿勢の姿勢情報が記憶されていないと判定された場合、ステップS59において、姿勢認識部54は、分類されていない姿勢であることを示す姿勢コマンドを情報選択制御部32に供給する。
以上の処理により、予め分類されている姿勢に対応する姿勢情報が供給されてくると、対応する姿勢コマンドが情報選択制御部32に供給される。このため、予め分類される姿勢として、例えば、図7の左部で上から順に示されるように、使用者たる人体の左腕LHの掌が左肘に対して紙面向かって左方向、下方向、右方向、および上方向を指している姿勢を、それぞれ識別して認識することができる。また、図7の右部で示されるように、紙面の右から順に人物の前に仮想的に想定される領域211乃至215が右腕RHの掌で指し示しているような姿勢を識別して認識することが可能となる。
さらに、認識可能な姿勢については、図7で示されるもの以外でもよく、例えば、図8で示されるように、上から左腕LH1が紙面左上方で、かつ、右腕RH1が紙面右下方の姿勢、左腕LH2、および右腕RH2が紙面右上方の姿勢、左腕LH3、および右腕RH3が、それぞれ左右水平方向の姿勢、および左腕LH1、および右腕RH1が、交差している姿勢などの姿勢も識別して認識することができる。
すなわち、例えば、掌の位置のみで識別しようとすると、体からの位置関係などが不明となり、誤認識を発生させる恐れがあるが、人体の姿勢として認識するようにしているので、左右の腕を的確に識別することができ、誤認識の発生を抑制することが可能となる。また、姿勢として認識しているので、例えば、図8の最下段で示されるように、左右の腕が交差しても、それぞれの掌を識別することができるので、誤認識を低減させると共に、より複雑な姿勢をも識別する姿勢として登録しておくことが可能となる。さらに、右半身、または左半身の動きのみを登録しておけば、左右の腕の姿勢を、組み合わせとして認識することが可能となり、登録する姿勢情報を少なくしつつ、多くの複雑な姿勢についても識別して認識することが可能となる。
ここで、図3のフローチャートの説明に戻る。
ステップS13において、姿勢認識処理が実行されて、使用者たる人体の姿勢が認識されて姿勢コマンドが出力されると、処理は、ステップS14に進む。ステップS14において、ジェスチャ認識部56は、ジェスチャ認識処理を実行し、順次人体姿勢推定部52より供給されてくる姿勢情報に基づいて、ジェスチャ記憶データベース58に登録されているジェスチャ情報とを比較し、ジェスチャを認識する。そして、ジェスチャ認識部56は、認識したジェスチャに対応づけてジェスチャ記憶データベース55に登録されているジェスチャコマンドを情報選択制御部32に供給する。
[ジェスチャ認識処理]
ここで、図9のフローチャートを参照して、ジェスチャ認識処理について説明する。
ステップS71において、ジェスチャ認識部56は、人体姿勢推定部52より供給されてくる姿勢情報を、所定時間分だけ履歴として姿勢履歴データバッファ57に記憶させる。この際、ジェスチャ認識部56は、最も古いフレームの姿勢情報を、最も新しいフレームの姿勢情報で上書きし、所定時間分の姿勢情報をフレームの履歴と対応付けて時系列に記憶する。
ステップS72において、ジェスチャ認識部56は、姿勢履歴データバッファ57に履歴として記憶されている所定時間分の時系列の姿勢情報をジェスチャ情報として読み出す。
ステップS73において、ジェスチャ認識部56は、ジェスチャ記憶データベース58において予め登録されたジェスチャに対応付けて登録されているジェスチャ情報のうち、未処理のジェスチャ情報を処理対象ジェスチャ情報として読み出す。尚、ジェスチャ記憶データベース58には、予め登録されたジェスチャに対応する時系列の姿勢情報がジェスチャ情報として登録されている。また、ジェスチャ記憶データベース58には、各ジェスチャに対応付けて、ジェスチャコマンドも登録されている。
ステップS74において、ジェスチャ認識部56は、処理対象ジェスチャ情報と、姿勢履歴データバッファ57より読み出されたジェスチャ情報とをパターンマッチングにより比較する。より具体的には、ジェスチャ認識部56は、例えば、連続DP(Dynamic Programming)により、処理対象ジェスチャ情報と、姿勢履歴データバッファ57より読み出されたジェスチャ情報とをパターンマッチングにより比較する。連続DPは、入力となる時系列データの時間軸の伸縮を許して事前に登録した時系列データとパターンマッチを行うアルゴリズムで、事前学習がいらないという特徴がある。
ステップS75において、ジェスチャ認識部56は、パターンマッチングにより処理対象ジェスチャ情報と、姿勢履歴データバッファ57より読み出されたジェスチャ情報とが一致したか否かを判定する。ステップS75において、例えば、処理対象ジェスチャ情報と、姿勢履歴データバッファ57より読み出されたジェスチャ情報とが一致したと判定された場合、処理は、ステップS76に進む。
ステップS76において、ジェスチャ認識部56は、処理対象ジェスチャ情報に対応するジェスチャを候補として記憶する。
一方、ステップS75において、処理対象ジェスチャ情報と、姿勢履歴データバッファ57より読み出されたジェスチャ情報とが一致しないと判定された場合、ステップS76の処理は、スキップされる。
ステップS77において、ジェスチャ認識部56は、未処理のジェスチャ情報がジェスチャ記憶データベース58に登録されているか否かを判定する。ステップS77において、例えば、未処理のジェスチャ情報が登録されている場合、処理は、ステップS73に戻る。すなわち、未処理のジェスチャ情報がなくなるまで、ステップS73乃至S77の処理が繰り返される。そして、ステップS77において、未処理のジェスチャ情報がないと判定された場合、処理は、ステップS78に進む。
ステップS78において、ジェスチャ認識部56は、候補となるジェスチャが記憶されているか否かを判定する。ステップS78において、候補となるジェスチャが記憶されていると判定された場合、処理は、ステップS79に進む。
ステップS79において、ジェスチャ認識部56は、候補として記憶しているジェスチャのうち、パターンマッチングにより最も一致しているジェスチャが、使用者たる人体によりなされているものと認識する。そして、ジェスチャ認識部56は、認識したジェスチャに対応付けてジェスチャ記憶データベース58に記憶されているジェスチャコマンドを情報選択制御部32に供給する。
一方、ステップS78において、候補となるジェスチャが記憶されていない場合、登録されたジェスチャがなされていないものとみなし、ステップS80において、ジェスチャ認識部56は、登録されていないジェスチャがなされていることを示すジェスチャコマンドを情報選択制御部32に供給する。
すなわち、以上の処理により、例えば、姿勢履歴データバッファ57より読み出された時系列の姿勢情報からなるジェスチャ情報が、図7の左部最下段で示されるように左腕LHが左肘から上方を指している状態から、図7の左部最上段の矢印201で示されるように掌が順次移動して図中左上方を指している状態に移動するジェスチャであることが認識されるものとする。この場合、左腕が図7中の点線で示される円状に紙面の第2象限を反時計回りに移動するジェスチャであることが認識され、対応するジェスチャコマンドが出力される。
同様に、図7の左部最上段で示されるように左腕LHが左肘から紙面左方を指している状態から、図7の左部2段目の矢印202で示されるように掌が順次移動して図中下方を指している状態に移動するジェスチャであることが認識されるものとする。この場合、左腕が図7中の点線で示される円状に紙面の第3象限を反時計回りに移動するジェスチャであることが認識され、対応するジェスチャコマンドが出力される。
また、図7の左部2段目で示されるように左腕LHが左肘から紙面下方を指している状態から、図7の左部3段目の矢印203で示されるように掌が順次移動して図中紙面右方を指している状態に移動するジェスチャであることが認識されるものとする。この場合、左腕が図7中の点線で示される円状に紙面の第4象限を反時計回りに移動するジェスチャであることが認識され、対応するジェスチャコマンドが出力される。
そして、図7の左部3段目で示されるように左腕LHが左肘から紙面右方を指している状態から、図7の左部最下段の矢印204で示されるように掌が順次移動して図中紙面上方を指している状態に移動するジェスチャであることが認識されるものとする。この場合、左腕が図7中の点線で示される円状に紙面の第1象限を反時計回りに移動するジェスチャであることが認識され、対応するジェスチャコマンドが出力される。
さらに、図7の右部について、上から順に示されるように、右腕の掌が仮想的に設定されている領域211乃至215に順次移動することが認識されるものとする。この場合、右腕が水平に図中左方向に移動するジェスチャであることが認識され、対応するジェスチャコマンドが出力される。
同様に、図7の右部について、下から順に示されるように、右腕の掌が仮想的に設定されている領域215乃至211に順次移動することが認識されるものとする。この場合、右腕が水平に図中右方向に移動するジェスチャであることが認識され、対応するジェスチャコマンドが出力される。
このようにジェスチャが時系列に認識される姿勢情報に基づいて認識されるため、単に掌の移動軌跡などに基づいてジェスチャが認識される場合に、右腕の動作であるか、左腕の動作であるのかの識別がつかないといった誤認識が抑制される。結果として、ジェスチャの誤認識が抑制されて、適切にジェスチャを認識することが可能となる。
尚、認識されるジェスチャの例として円状に掌を回転させるジェスチャを90度単位で認識する例について説明してきたが、回転についてはそれ以外のジェスチャであっても良く、例えば、楕円状、菱形状、正方形状、または長方形状などであってもよいし、時計回りでもよい。また、回転の単位についても、90度のみならず、それ以外の角度であっても良い。
ここで、図10のフローチャートの説明に戻る。
ステップS14のジェスチャ認識処理によりジェスチャが認識されて、認識されたジェスチャに対応するジェスチャコマンドが情報選択制御部32に供給されると、処理は、ステップS15に進む。
ステップS15において、情報選択制御部32は、情報選択処理を実行し、姿勢コマンド、またはジェスチャコマンドに対応付けて、情報選択肢データベース33に登録されている選択肢となる情報を選択して、情報機器システム制御部34に供給して各種の処理を実行させると共に、情報表示制御部35に供給して、選択された情報を表示部36に表示する。
さらに、ステップS16において、情報選択制御部32は、姿勢コマンド、またはジェスチャコマンドにより処理の終了が指示されたか否かを判定し、終了が指示されていないと判定した場合、処理は、ステップS11に戻る。すなわち、処理の終了が指示されていない場合、ステップS11乃至S16の処理が繰り返される。そして、ステップS16において、処理の終了が指示されたと判定された場合、処理が終了する。
[情報選択処理]
ここで、図10のフローチャートを参照して、情報選択処理について説明する。尚、ここでは、仮名文字のいずれかを情報として選択する処理を例として説明するものとするが、その他の情報を選択するようにしてもよい。この際、図7の左部で示されるように、左腕により掌を90度回転させる毎に1文字分だけ子音(濁点等を子音としたものを含む)を移動させて選択し、右腕の水平方向の領域211乃至215のいずれかを掌で指すことにより母音を選択して、いずれかの仮名文字を選択する処理をする例について説明する。
ステップS101において、情報選択制御部32は、姿勢認識部54より供給されてくる姿勢コマンド、または、ジェスチャ認識部56より供給されてくるジェスチャコマンドが、開始を示す姿勢コマンド、またはジェスチャコマンドであるかを判定する。例えば、左腕により掌を360度回転させるジェスチャが開始を示すジェスチャである場合、左腕により掌を360度回転させるジェスチャが認識されると、開始を示すジェスチャが認識されたものとみなされて、処理は、ステップS102に進む。
ステップS102において、情報選択制御部32は、今現在選択されている子音および母音を「あ」行の「あ」に設定し、初期化する。一方、ステップS101において、開始を示すジェスチャではないと判定された場合、処理は、ステップS103に進む。
ステップS103において、情報選択制御部32は、ジェスチャコマンドにより認識されたジェスチャが反時計回りに90度左腕を回転させるジェスチャであったか否かを判定する。ステップS103において、ジェスチャコマンドにより認識されたジェスチャが反時計回りに90度左腕を回転させるジェスチャである場合、処理は、ステップS104に進む。
ステップS104において、情報選択制御部32は、情報選択肢データベース33に登録されている選択肢の情報を読み出し、今現在の子音に対して、時計回りに隣接する子音に移動して認識し、認識結果を情報機器システム制御部34および情報表示制御部35に供給する。
すなわち、例えば、図11の左部、または右部で示されるように、左腕による掌の回転で子音として、「あ」、「か」、「さ」、「た」、「な」、「は」、「ま」、「や」、「ら」、「わ」、「゛」が選択されるようになっているものとする。このような場合、図12の最上段の状態P1の選択位置251で示されるように、今現在の子音として「あ」行が選択されているとき、図12の2段目の状態P2の矢印261で示されるように左腕LH11から左腕L12のように掌が90度反時計回りに回転するジェスチャがなされると、図12の2段目P2の選択位置262で示されるように、時計回りに隣接する「か」行が選択される。
ステップS105において、情報表示制御部35は、今現在の子音に対して、時計回りに隣接する子音に移動して認識された子音を示す情報を表示部36に表示させる。すなわち、例えば、最初の状態においては、例えば、図12の最上段の状態P1における表示欄252で示されるように、情報表示制御部35は、子音のデフォルトの先頭位置である「あ」行を大きく表示して、今現在選択されている子音であることを示す情報を表示部36に表示させている。そして、ここでは、90度反時計回りに左腕LH11が掌を回転させることにより、情報表示制御部35は、情報選択制御部32より供給されてくる情報に基づいて、図12の2段目における表示欄263で示されるように、今現在選択されている子音が「か」に切り替わったことを示すように「か」を大きく表示するように切り替えて表示する。尚、このとき、表示欄263には、例えば、「か」を中心として、反時計周り方向に隣接する「わ」、「゛」、「あ」、および、時計周り方向に隣接する「さ」、「た」、「な」のみが表示される。このようにすることで、今現在選択されている子音の前後にどのような子音が選択できるのかが認識し易くされている。
同様に、この状態から、図12の3段目の状態P3で示されるように、さらに左腕LH12から左腕LH13のように90度、さらに掌が反時計回りに移動すると、ステップS103,S104の処理により、選択位置272で示されるように、「か」行に対して時計回りに隣接する「さ」が選択される。そして、ステップS105の処理により、情報表示制御部35が、図12の3段目の状態P3における表示欄273で示されるように、今現在選択されている子音が「さ」行に切り替わったことを示すように「さ」を大きく表示するように切り替えて表示する。
一方、ステップS103において、反時計回りに90度回転するジェスチャコマンドではないと判定された場合、処理は、ステップS106に進む。
ステップS106において、情報選択制御部32は、ジェスチャコマンドにより認識されたジェスチャが時計回りに90度左腕を回転させるジェスチャであったか否かを判定する。ステップS106において、例えば、ジェスチャコマンドにより認識されたジェスチャが時計回りに90度左腕を回転させるジェスチャである場合、処理は、ステップS107に進む。
ステップS107において、情報選択制御部32は、情報選択肢データベース33に登録されている選択肢の情報を読み出し、今現在の母音に対して、反時計回りに隣接する子音に移動して認識し、認識結果を情報機器システム制御部34および情報表示制御部35に供給する。
ステップS108において、情報表示制御部35は、今現在の子音に対して、反時計回りに隣接する子音に移動して認識された子音を示す情報を表示部36に表示させる。
すなわち、上述したステップS103乃至S105における時計回りに掌を回転させる場合と逆の処理となる。すなわち、例えば、図12の3段目の状態P3の状態から、4段目の状態P4の矢印281で示されるように、さらに左腕LH13から左腕LH11のように180度、時計回りに掌が移動すると、ステップS107,S108の処理により、選択位置282で示されるように、時計回りに90度回転したところで、隣接する「か」が選択され、さらに時計周りに90度回転したところで「あ」が選択される。そして、ステップS108の処理により、情報表示制御部35が、図12の4段目の状態P4における表示欄283で示されるように、今現在選択されている子音が「さ」行から「あ」行に切り替わったことを示すように「あ」を大きく表示するように切り替えて表示する。
一方、ステップS106において、時計回りに90度回転するジェスチャコマンドではないと判定された場合、処理は、ステップS109に進む。
ステップS109において、情報選択制御部32は、姿勢認識部54より供給されてくる姿勢コマンド、または、ジェスチャ認識部56より供給されてくるジェスチャコマンドが、母音を選択する姿勢コマンド、またはジェスチャコマンドであるかを判定する。例えば、右腕により掌を、図7で示されるように、人体の前方に仮想的にされた領域211乃至215のいずれかを選択し、そのいずれかにより母音を特定する姿勢である場合、右腕により掌が領域211乃至215のいずれかを指す姿勢を示す姿勢コマンドが認識され、母音を特定したことを示すジェスチャが認識されたものとみなされて、処理は、ステップS110に進む。
ステップS110において、情報選択制御部32は、情報選択肢データベース33に登録されている選択肢の情報を読み出し、姿勢として認識された右腕の掌の位置に対応する母音を認識し、認識結果を情報機器システム制御部34および情報表示制御部35に供給する。
すなわち、例えば、子音として「た」行が選択されている場合、図13の最上段で示されるように、右腕RH31により掌が、人体の前方に仮想的に設定される領域211を指している姿勢を示す姿勢コマンドが認識された場合、選択位置311で示されるように、母音として「た」が選択されたことが認識される。同様に、図13の2段目で示されるように、右腕RH32により掌が、人体の前方に仮想的に設定される領域212を指している姿勢を示す姿勢コマンドが認識された場合、母音として「ち」が選択されたことが認識される。また、図13の3乃至5段目で示されるように、右腕RH33乃至RH35により掌が、人体の前方に仮想的に設定される領域213乃至215を指している姿勢を示す姿勢コマンドが認識された場合、それぞれ母音として「つ」、「て」、「と」が選択されたことが認識される。
ステップS111において、情報表示制御部35は、表示部36に選択されてことが認識された母音に対応する文字を表示する。すなわち、例えば、図13における左部の表示位置311乃至315に対応するように選択された母音に対応する文字を表示する。
一方、ステップS109において、子音を特定するジェスチャではないと判定された場合、処理は、ステップS112に進む。
ステップS112において、情報選択制御部32は、姿勢認識部54より供給されてくる姿勢コマンド、または、ジェスチャ認識部56より供給されてくるジェスチャコマンドが、決定を選択する姿勢コマンド、またはジェスチャコマンドであるかを判定する。例えば、右腕により掌を、図7で示されるように、人体の前方に仮想的にされた領域211乃至215を連続的に移動して選択する、または、領域215乃至211を連続的に移動して選択するようなジェスチャである場合、決定したことを示すジェスチャが認識されたものとみなして、処理は、ステップS113に進む。
ステップS113において、情報選択制御部32は、今現在選択されている子音で、かつ、母音の文字を決定された文字として認識し、その旨を情報機器システム制御部34、および情報表示制御部35に供給する。
ステップS114において、情報表示制御部35は、情報選択制御部32より供給されてくる情報に基づいて、選択されていた文字が決定されたことを示すように表示部36に表示させる。
また、ステップS112において、決定を示すジェスチャではないと判定された場合、処理は、ステップS115に進む。
ステップS115において、情報選択制御部32は、姿勢認識部54より供給されてくる姿勢コマンド、または、ジェスチャ認識部56より供給されてくるジェスチャコマンドが、終了を指示する姿勢コマンド、またはジェスチャコマンドであるかを判定する。ステップS115において、終了を指示する姿勢コマンド、またはジェスチャコマンドではない場合、情報選択処理が、終了する。一方、ステップS115において、例えば、両腕を下げる姿勢を示す姿勢コマンドが供給されてきた場合、ステップS116において、情報選択制御部32は、終了を指示する姿勢コマンドが認識されたものとみなして、処理の終了を認識する。
以上のように説明した一連の処理を纏めると以下のようになる。
すなわち、図14の状態P11の使用者たる人体の左腕LH51で示されるように、矢印351で示されるように円を描くように掌が動くようなジェスチャがなされると開始が指示されたものとみなされて処理が開始される。このとき、図14の状態P11で示されるように、デフォルトで子音として「あ」行が選択されて、母音も「あ」が選択された状態となる。
そして、状態P11の左腕LH51が、状態P12の左腕LH52で示されるように矢印361方向に90度反時計回りに回転するジェスチャがなされると共に、右腕RH51が右腕RH52のように領域215を指す姿勢がなされるものとする。この場合、ジェスチャに伴って子音が、「あ」行から「か」行に移動し、さらに、姿勢により「か」行の「こ」が母音として特定される。この状態で決定を示すジェスチャがなされると、「こ」が選択される。
次に、状態P12の左腕LH52が、状態P13の左腕LH53で示されるように矢印371方向に270度時計回りに回転するジェスチャがなされると共に、右腕RH52がそのままで右腕RH53のように領域305を指す姿勢がなされるものとする。この場合、ジェスチャに伴って90度回転する毎に子音が、「あ」、および「゛」を経て「わ」行に移動し、さらに、姿勢により「わ」行の「ん」が母音として特定される。この状態で決定を示すジェスチャがなされると、「ん」が選択される。
また、状態P13の左腕LH53が、状態P14の左腕LH54で示されるように矢印381方向に450度反時計回りに回転するジェスチャがなされると共に、右腕RH53が右腕RH54のように領域212を指す姿勢がなされるものとする。この場合、ジェスチャに伴って90度回転する毎に子音が、「゛」、「あ」、「か」、「さ」および「た」を経て「な」行に移動し、さらに、姿勢により「な」行の「に」が母音として特定される。この状態で決定を示すジェスチャがなされると、「に」が選択される。
さらに、状態P14の左腕LH54が、状態P15の左腕LH55で示されるように矢印391方向に90度時計回りに回転するジェスチャがなされると共に、右腕RH54と同様に右腕RH55が領域212を指す姿勢がなされるものとする。この場合、ジェスチャに伴って90度回転することで子音が、「た」行に移動し、さらに、姿勢により「た」行の「ち」が母音として特定される。この状態で決定を示すジェスチャがなされると、「ち」が選択される。
そして、状態P15の左腕LH55が、状態P16の左腕LH56で示されるように矢印401方向に180度時計回りに回転するジェスチャがなされると共に、右腕RH55から右腕RH56のように領域211を指す姿勢がなされるものとする。この場合、ジェスチャに伴って90度回転することで子音が、「な」行を経て、「は」行に移動し、さらに、姿勢により「は」行の「は」が母音として特定される。この状態で決定を示すジェスチャがなされると、「は」が選択される。
最後に、状態P16で示されるように、左腕LH57、および右腕RH57で示されるように、終了を示すように両腕が下げられる一連のジェスチャ、および姿勢により、「こんにちは」が決定されて入力されることになる。
このように、左右の腕を使ったジェスチャ、および姿勢により文字を入力することが可能となる。この際、姿勢情報を利用することにより姿勢を認識し、姿勢情報の時系列の情報を利用してジェスチャを認識するようにしている。このため、人体のいずれか1のパーツの動きや位置に基づいて選択肢を選択して入力するような場合に、左右の腕の違いが識別できないといった誤認識を低減させることが可能となる。
以上においては、上半身の8関節とそのパーツの動きから得られる姿勢情報に基づいた文字の入力手法を例として説明してきたが、例えば、掌を握った状態(グー)、人差し指と中指のみを立てた状態(チョキ)、開いた状態(パー)の三種類の状態を特徴量に加えるようにしてもよい。このようにすることで、例えば、母音の特定方法を上述した方法と同様にしても、パーの状態のとき通常文字、チョキの状態のとき濁点、グーの状態のとき半濁点といった切替により、図11の右部で示されるように、姿勢コマンドによる母音の特定方法にバリエーションを増やすことが可能となる。
また、仮名文字のみならず、例えば、図15の左部で示されるように、回転ジェスチャにより「a」、「e」、「i」、「m」、「q」、「u」、「y」を、上述した子音のように選択できるようにしてもよい。そして、それぞれ「a」の場合、「a,b,c,d」が、「e」の場合、「e,f,g,h」が、「i」の場合、「i,j,k,l」が、「m」の場合「m,n,o,p」、「q」の場合、「q,r,s,t」が、「u」の場合、「u,v,w,x」が、「y」の場合、「y,z」が、それぞれ上述した母音の選択と同様できるようにしてもよい。
さらに、掌の状態による識別ができれば、図15の右部で示されるように、回転ジェスチャにより「a」、「h」、「l」、「q」、「w」を、上述した子音のように選択できるようにしてもよい。そして、それぞれ「a」の場合、「a,b,c,d,e,f,g」が、「h」の場合、「h,i,j,k」が、「l」の場合「l,m,n,o,p」、「q」の場合、「q,r,s,t,u,v」が、「w」の場合、「w,x,y,z」が、上述した母音の選択と同様できるようにしてもよい。
また、図15の右部で示される場合、掌の状態による識別を用いなくても、人体の前に仮想的に設定される領域211乃至215を増やすようにして対応してもよい。この場合、例えば、図16の状態P42で示されるように、領域501乃至509からなる9(=3×3)領域からなる構成とするようにしてもよい。
すなわち、例えば、図16の状態P41の使用者たる人体の左腕LH71で示されるように、矢印411で示されるように円を描くように掌が動くようなジェスチャがなされると開始が指示されたものとみなされて処理が開始される。このとき、図16の状態P41で示されるように、デフォルトで子音として「a」行が選択されて、母音も「a」が選択された状態となる。
そして、状態P41の左腕LH71が、状態P42の左腕LH72で示されるように矢印412方向に90度反時計回りに回転するジェスチャがなされると共に、右腕RH71が右腕RH72のように領域503を指す姿勢がなされると、ジェスチャに伴って子音が、「a」行から「h」行に移動し、さらに、姿勢により「h」行の「h」が母音として特定される。この状態で決定を示すジェスチャがなされると、「h」が選択される。
次に、状態P42の左腕LH72が、状態P43の左腕LH73で示されるように矢印413方向に90度時計回りに回転するジェスチャがなされると共に、右腕RH72が右腕RH73のように領域505を指す姿勢がなされると、ジェスチャに伴って90度回転する毎に子音が、「a」行に移動し、さらに、姿勢により「a」行の「e」が母音として特定される。この状態で決定を示すジェスチャがなされると、「e」が選択される。
また、状態P43の左腕LH73が、状態P44の左腕LH74で示されるように矢印414方向に180度反時計回りに回転するジェスチャがなされると共に、右腕RH73が右腕RH74のように領域503を指す姿勢がなされると、ジェスチャに伴って90度回転する毎に子音が、「h」を経て「l」行に移動し、さらに、姿勢により「l」行の「l」が母音として特定される。この状態で決定を示すジェスチャがなされると、「l」が選択される。
さらに、状態P45の左腕LH75および右腕RH75で示されるように、状態P44の状態が維持されたまま、決定を示すジェスチャがなされると、再び「l」が選択される。
そして、状態P46の左腕LH76のように、状態P45の左腕LH75が維持されて、右腕RH75から右腕RH76のように領域506を指す姿勢がなされると、姿勢により「l」行の「o」が母音として特定される。この状態で決定を示すジェスチャがなされると、「o」が選択される。
最後に、状態P47の左腕LH77、および右腕RH77で示されるように、終了を示すように両腕が下げられる一連のジェスチャ、および姿勢により、「Hello」が入力されることになる。
尚、以上においては、回転角度が90度ごとに子音を1文字移動させる例について説明してきたが、回転角度ではなく、例えば、回転速度に応じて子音の移動文字数を変化させても良く、高速であれば移動文字数を増やし、低速であれば移動文字数を減らすようにしてもよい。
また、姿勢情報としては、人体の各関節の3次元空間の位置座標と、角度とを用いる例について説明してきたが、掌の開閉、目や口などの開閉といった情報を加えるようにして区別できるようにしてもよい。
さらに、以上においては、仮名文字、またはアルファベットといった文字を選択肢として入力する例について説明してきたが、選択肢は文字のみに限るものではなく、ファイルリストやフォルダリストなどによりファイルやフォルダを選択できるようにしてもよい。この場合、ファイルやフォルダは、作成された日付やファイルサイズなどにより、上述した母音や子音のように識別して選択できるようにしてもよい。また、ファイルとしては、写真ファイルなどであってもよく、この場合、撮像された年、月、日、週、または時間といった情報により、上述した母音、または子音のように分類して、選択できるようにしてもよい。
以上によれば、人体の姿勢やジェスチャを認識する場合、左右の腕の交差などの部分的な隠蔽があった場合でも、左右の腕を区別して認識することができ、限られた空間を最大限に利用して、情報を入力することが可能となる。このため、腕の移動量を増やさずに大量の情報選択肢から所望の情報を選択することが可能となり、入力操作の手間に伴う入力意欲の減退を抑制することで、使用者の疲労を軽減し、操作性の高い情報選択処理を実現することが可能となる。
また、左右の手で別々のジェスチャを同時に認識することで、高速な情報選択が可能になると共に、一筆書きのような連続した動作での選択可能となる。さらに、回転や、スライド動作といった決定動作のための手形状の変化など、少数の単純なジェスチャのみで大量の情報を選択し、入力すること可能となるので、使用者に操作を覚え易く、初心者でも簡単に使用できるようにすることができるようなユーザインタフェースを実現することができる。
ところで、上述した一連の処理は、ハードウェアにより実行させることもできるが、ソフトウェアにより実行させることもできる。一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、記録媒体からインストールされる。
図17は、汎用のパーソナルコンピュータの構成例を示している。このパーソナルコンピュータは、CPU(Central Processing Unit)1001を内蔵している。CPU1001にはバス1004を介して、入出力インタ-フェイス1005が接続されている。バス1004には、ROM(Read Only Memory)1002およびRAM(Random Access Memory)1003が接続されている。
入出力インタ-フェイス1005には、ユーザが操作コマンドを入力するキーボード、マウスなどの入力デバイスよりなる入力部1006、処理操作画面や処理結果の画像を表示デバイスに出力する出力部1007、プログラムや各種データを格納するハードディスクドライブなどよりなる記憶部1008、LAN(Local Area Network)アダプタなどよりなり、インターネットに代表されるネットワークを介した通信処理を実行する通信部1009が接続されている。また、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)を含む)、光磁気ディスク(MD(Mini Disc)を含む)、もしくは半導体メモリなどのリムーバブルメディア1011に対してデータを読み書きするドライブ1010が接続されている。
CPU1001は、ROM1002に記憶されているプログラム、または磁気ディスク、光ディスク、光磁気ディスク、もしくは半導体メモリ等のリムーバブルメディア1011から読み出されて記憶部1008にインストールされ、記憶部1008からRAM1003にロードされたプログラムに従って各種の処理を実行する。RAM1003にはまた、CPU1001が各種の処理を実行する上において必要なデータなども適宜記憶される。
尚、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理は、もちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理を含むものである。
11 情報入力装置, 31 非接触キャプチャ部, 32 情報選択制御部, 33 情報選択肢データベース, 34 情報機器システム制御部, 35 情報表示制御部, 36 表示部, 51 撮像部, 52 人体姿勢推定部, 53 姿勢記憶データベース, 54 姿勢認識部, 55 分類姿勢記憶データベース, 56 ジェスチャ認識部, 57 姿勢履歴データバッファ, 58 ジェスチャ記憶データベース

Claims (8)

  1. 選択肢となる情報を格納する格納手段と、
    人体を含む画像を取得する画像取得手段と、
    前記画像取得手段により取得された画像より人体の姿勢を推定する人体姿勢推定手段と、
    前記人体姿勢推定手段により推定された人体姿勢に基づいて、前記格納手段より、前記選択肢となる情報を選択する選択手段と
    を含む情報処理装置。
  2. 人体の姿勢に対応付けて、姿勢コマンドを姿勢コマンドデータベースとして記憶する姿勢コマンドデータベース記憶手段と、
    前記人体姿勢推定手段により推定された人体の姿勢に基づいて、前記姿勢コマンドデータベースより対応付けて記憶されている姿勢コマンドを選択することにより、前記人体の姿勢を認識する姿勢認識手段とをさらに含み、
    前記選択手段は、前記姿勢認識手段により認識された姿勢に対応して選択された姿勢コマンドに基づいて、前記格納手段より、前記選択肢となる情報を選択する
    請求項1に記載の情報処理装置。
  3. 前記人体姿勢推定手段により推定された人体の姿勢を時系列に蓄積する蓄積手段と、
    時系列の人体の姿勢に対応付けて、ジェスチャコマンドをジェスチャコマンドデータベースとして記憶するジェスチャコマンドデータベース記憶手段と、
    前記蓄積手段により蓄積されている時系列の人体の姿勢に基づいて、前記ジェスチャコマンドデータベースより対応付けて記憶されているジェスチャコマンドを選択することにより、前記人体のジェスチャを認識するジェスチャ認識手段とをさらに含み、
    前記選択手段は、前記ジェスチャ認識手段により認識されたジェスチャに対応して選択されたジェスチャコマンドに基づいて、前記格納手段より、前記選択肢となる情報を選択する
    請求項1に記載の情報処理装置。
  4. 前記選択手段は、前記姿勢認識手段により認識された姿勢に対応して選択された姿勢コマンド、または前記ジェスチャ認識手段により認識されたジェスチャに対応して選択されたジェスチャコマンドに基づいて、前記格納手段より、前記選択肢となる情報を選択する
    請求項2または3に記載の情報処理装置。
  5. 前記人体姿勢推定手段は、
    前記画像取得手段により取得された画像より人体の顔画像を抽出する顔画像抽出手段と、
    前記画像取得手段により取得された画像より人体のシルエットを抽出するシルエット抽出手段と、
    前記顔画像、および前記シルエットより、前記画像のうちの正規化処理領域を抽出する正規化処理領域抽出手段と、
    前記正規化処理領域より前記人体の姿勢を示す特徴量を抽出する特徴量抽出手段と、
    人体の姿勢に対応付けられた特徴量と、前記特徴量に対応付けて予め学習により求められている係数を記憶する姿勢係数データベース記憶手段と、
    前記特徴量抽出手段により抽出された特徴量からなるベクトルと、前記特徴量抽出手段により抽出された特徴量に対応付けて、前記姿勢係数データベース記憶手段に記憶されている係数からなるベクトルとの各要素の積和により求められる、前記画像に含まれる人体の各関節の座標および前記間接の角度を、前記人体の姿勢を示すパラメータとする姿勢情報を推定する姿勢推定手段をさらに含む
    請求項1に記載の情報処理装置。
  6. 前記人体姿勢推定手段は、
    前記姿勢推定手段により推定された人体の姿勢を示すパラメータとする姿勢情報を、前記人体の拘束条件により補正する補正手段をさらに含む
    請求項5に記載の情報処理装置。
  7. 選択肢となる情報を格納する格納手段と、
    人体を含む画像を取得する画像取得手段と、
    前記画像取得手段により取得された画像より人体の姿勢を推定する人体姿勢推定手段と、
    前記人体姿勢推定手段により推定された人体姿勢に基づいて、前記格納手段より、前記選択肢となる情報を選択する選択手段と
    を含む情報処理装置の情報処理方法であって、
    前記画像取得手段における、前記人体を含む画像を取得する画像取得ステップと、
    前記人体姿勢推定手段における、前記画像取得ステップの処理により取得された画像より人体の姿勢を推定する人体姿勢推定ステップと、
    前記選択手段における、前記人体姿勢推定ステップの処理により推定された人体姿勢に基づいて、前記格納手段より、前記選択肢となる情報を選択する選択ステップと
    を含む情報処理方法。
  8. 選択肢となる情報を格納する格納手段と、
    人体を含む画像を取得する画像取得手段と、
    前記画像取得手段により取得された画像より人体の姿勢を推定する人体姿勢推定手段と、
    前記人体姿勢推定手段により推定された人体姿勢に基づいて、前記格納手段より、前記選択肢となる情報を選択する選択手段と
    を含む情報処理装置を制御するコンピュータに、
    前記画像取得手段における、前記人体を含む画像を取得する画像取得ステップと、
    前記人体姿勢推定手段における、前記画像取得ステップの処理により取得された画像より人体の姿勢を推定する人体姿勢推定ステップと、
    前記選択手段における、前記人体姿勢推定ステップの処理により推定された人体姿勢に基づいて、前記格納手段より、前記選択肢となる情報を選択する選択ステップと
    を含む処理を実行させるプログラム。
JP2010125967A 2010-06-01 2010-06-01 情報処理装置および方法、並びにプログラム Withdrawn JP2011253292A (ja)

Priority Applications (7)

Application Number Priority Date Filing Date Title
JP2010125967A JP2011253292A (ja) 2010-06-01 2010-06-01 情報処理装置および方法、並びにプログラム
US13/699,454 US20130069867A1 (en) 2010-06-01 2011-05-25 Information processing apparatus and method and program
CN201180025757.0A CN102906670B (zh) 2010-06-01 2011-05-25 信息处理设备和方法
RU2012150277/08A RU2012150277A (ru) 2010-06-01 2011-05-25 Устройство и способ обработки информации и программа
BR112012029938A BR112012029938A2 (pt) 2010-06-01 2011-05-25 aparelho, método para controle gestual de uma interface, implementado por computador, e, mídia de armazenamento legível por computador
PCT/JP2011/002913 WO2011151997A1 (en) 2010-06-01 2011-05-25 Information processing apparatus and method and program
EP11789411.3A EP2577426B1 (en) 2010-06-01 2011-05-25 Information processing apparatus and method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010125967A JP2011253292A (ja) 2010-06-01 2010-06-01 情報処理装置および方法、並びにプログラム

Publications (1)

Publication Number Publication Date
JP2011253292A true JP2011253292A (ja) 2011-12-15

Family

ID=45066390

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010125967A Withdrawn JP2011253292A (ja) 2010-06-01 2010-06-01 情報処理装置および方法、並びにプログラム

Country Status (7)

Country Link
US (1) US20130069867A1 (ja)
EP (1) EP2577426B1 (ja)
JP (1) JP2011253292A (ja)
CN (1) CN102906670B (ja)
BR (1) BR112012029938A2 (ja)
RU (1) RU2012150277A (ja)
WO (1) WO2011151997A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012239156A (ja) * 2011-04-26 2012-12-06 Ricoh Co Ltd 撮像装置、撮像方法および撮像プログラム
JP2017505965A (ja) * 2014-01-05 2017-02-23 マノモーション アーベー モバイル機器用三次元ジェスチャのリアルタイム認識及び追跡システム
JP2017211884A (ja) * 2016-05-26 2017-11-30 トヨタ紡織株式会社 動き検出システム
JP2020057139A (ja) * 2018-10-01 2020-04-09 トヨタ自動車株式会社 機器制御装置
JP2021005220A (ja) * 2019-06-26 2021-01-14 株式会社Nttドコモ 情報処理装置
JP2022181937A (ja) * 2021-05-27 2022-12-08 いすゞ自動車株式会社 情報処理装置

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9349040B2 (en) * 2010-11-19 2016-05-24 Microsoft Technology Licensing, Llc Bi-modal depth-image analysis
TW201328340A (zh) * 2011-12-27 2013-07-01 Hon Hai Prec Ind Co Ltd 乘客攔車提示系統及方法
WO2014002803A1 (ja) * 2012-06-25 2014-01-03 オムロン株式会社 モーションセンサ、物体動作検知方法及び遊技機
US10591998B2 (en) 2012-10-03 2020-03-17 Rakuten, Inc. User interface device, user interface method, program, and computer-readable information storage medium
US9880630B2 (en) 2012-10-03 2018-01-30 Rakuten, Inc. User interface device, user interface method, program, and computer-readable information storage medium
WO2014054717A1 (ja) * 2012-10-03 2014-04-10 楽天株式会社 ユーザインタフェース装置、ユーザインタフェース方法、プログラム及びコンピュータ可読情報記憶媒体
KR101956073B1 (ko) * 2012-12-20 2019-03-08 삼성전자주식회사 시각적 인디케이터를 이용하여 사용자 인터페이스를 제공하는 3차원 입체 영상 표시 장치 및 그 장치를 이용한 방법
KR20140136303A (ko) * 2013-05-20 2014-11-28 삼성전자주식회사 하이브리드 신체 인식을 위한 장치 및 방법
CN103295029A (zh) * 2013-05-21 2013-09-11 深圳Tcl新技术有限公司 手势控制终端的交互方法及装置
US10141930B2 (en) 2013-06-04 2018-11-27 Nvidia Corporation Three state latch
TWI506461B (zh) * 2013-07-16 2015-11-01 Univ Nat Taiwan Science Tech 人體動作的辨識方法與裝置
US9582737B2 (en) * 2013-09-13 2017-02-28 Qualcomm Incorporated Context-sensitive gesture classification
KR102120864B1 (ko) * 2013-11-06 2020-06-10 삼성전자주식회사 영상 처리 방법 및 장치
KR102265143B1 (ko) * 2014-05-16 2021-06-15 삼성전자주식회사 입력 처리 장치 및 방법
JP2016095795A (ja) 2014-11-17 2016-05-26 株式会社東芝 認識装置、方法、及びプログラム
TWI549069B (zh) * 2014-12-15 2016-09-11 Sheng Hui Meng Method and device for passenger barge
CN105094319B (zh) * 2015-06-30 2018-09-18 北京嘿哈科技有限公司 一种屏幕操控方法及装置
CN105979330A (zh) * 2015-07-01 2016-09-28 乐视致新电子科技(天津)有限公司 体感按键的定位方法及装置
JP6483556B2 (ja) * 2015-07-15 2019-03-13 株式会社東芝 操作認識装置、操作認識方法及びプログラム
CN110088422B (zh) * 2016-12-14 2022-03-08 福特全球技术公司 车库门控制系统和方法
JP7004218B2 (ja) * 2018-05-14 2022-01-21 オムロン株式会社 動作分析装置、動作分析方法、動作分析プログラム及び動作分析システム
US10739864B2 (en) * 2018-12-31 2020-08-11 International Business Machines Corporation Air writing to speech system using gesture and wrist angle orientation for synthesized speech modulation
CN112149466A (zh) * 2019-06-28 2020-12-29 富士通株式会社 手臂动作识别方法、装置及图像处理设备
CN110349180B (zh) * 2019-07-17 2022-04-08 达闼机器人有限公司 人体关节点预测方法及装置、动作类型识别方法及装置
CN114185429B (zh) * 2021-11-11 2024-03-26 杭州易现先进科技有限公司 手势关键点定位或姿态估计的方法、电子装置和存储介质
CN114783037B (zh) * 2022-06-17 2022-11-22 浙江大华技术股份有限公司 目标重识别方法、目标重识别装置和计算机可读存储介质

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000029621A (ja) 1998-07-10 2000-01-28 Sony Corp コンピュータ装置
US6710770B2 (en) * 2000-02-11 2004-03-23 Canesta, Inc. Quasi-three-dimensional method and apparatus to detect and localize interaction of user-object and virtual transfer device
JP2000296219A (ja) * 2000-01-01 2000-10-24 Samii Kk 遊技機
EP1148411A3 (en) * 2000-04-21 2005-09-14 Sony Corporation Information processing apparatus and method for recognising user gesture
US8059099B2 (en) * 2006-06-02 2011-11-15 Apple Inc. Techniques for interactive input to portable electronic devices
US20050215319A1 (en) * 2004-03-23 2005-09-29 Harmonix Music Systems, Inc. Method and apparatus for controlling a three-dimensional character in a three-dimensional gaming environment
JP2006172439A (ja) * 2004-11-26 2006-06-29 Oce Technologies Bv 手操作を用いたデスクトップスキャン
CN101536494B (zh) * 2005-02-08 2017-04-26 奥布隆工业有限公司 用于基于姿势的控制系统的系统和方法
US8531396B2 (en) * 2006-02-08 2013-09-10 Oblong Industries, Inc. Control system for navigating a principal dimension of a data space
US9052970B2 (en) * 2008-04-24 2015-06-09 Oblong Industries, Inc. Multi-process interactive systems and methods
DE102006037156A1 (de) * 2006-03-22 2007-09-27 Volkswagen Ag Interaktive Bedienvorrichtung und Verfahren zum Betreiben der interaktiven Bedienvorrichtung
US7721207B2 (en) * 2006-05-31 2010-05-18 Sony Ericsson Mobile Communications Ab Camera based control
JP4267648B2 (ja) * 2006-08-25 2009-05-27 株式会社東芝 インターフェース装置及びその方法
JP2008146243A (ja) 2006-12-07 2008-06-26 Toshiba Corp 情報処理装置、情報処理方法、及びプログラム
US8726194B2 (en) * 2007-07-27 2014-05-13 Qualcomm Incorporated Item selection using enhanced control
US9261979B2 (en) * 2007-08-20 2016-02-16 Qualcomm Incorporated Gesture-based mobile interaction
CN101842810B (zh) * 2007-10-30 2012-09-26 惠普开发有限公司 具有协作姿态检测的交互式显示系统
US8166421B2 (en) * 2008-01-14 2012-04-24 Primesense Ltd. Three-dimensional user interface
US20110115702A1 (en) * 2008-07-08 2011-05-19 David Seaberg Process for Providing and Editing Instructions, Data, Data Structures, and Algorithms in a Computer System
US9015638B2 (en) * 2009-05-01 2015-04-21 Microsoft Technology Licensing, Llc Binding users to a gesture based system and providing feedback to the users
US9019201B2 (en) * 2010-01-08 2015-04-28 Microsoft Technology Licensing, Llc Evolving universal gesture sets

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012239156A (ja) * 2011-04-26 2012-12-06 Ricoh Co Ltd 撮像装置、撮像方法および撮像プログラム
JP2017505965A (ja) * 2014-01-05 2017-02-23 マノモーション アーベー モバイル機器用三次元ジェスチャのリアルタイム認識及び追跡システム
JP2017211884A (ja) * 2016-05-26 2017-11-30 トヨタ紡織株式会社 動き検出システム
JP2020057139A (ja) * 2018-10-01 2020-04-09 トヨタ自動車株式会社 機器制御装置
JP7091983B2 (ja) 2018-10-01 2022-06-28 トヨタ自動車株式会社 機器制御装置
JP2021005220A (ja) * 2019-06-26 2021-01-14 株式会社Nttドコモ 情報処理装置
JP7287600B2 (ja) 2019-06-26 2023-06-06 株式会社Nttドコモ 情報処理装置
JP2022181937A (ja) * 2021-05-27 2022-12-08 いすゞ自動車株式会社 情報処理装置

Also Published As

Publication number Publication date
EP2577426B1 (en) 2019-12-11
CN102906670B (zh) 2015-11-25
EP2577426A4 (en) 2016-03-23
CN102906670A (zh) 2013-01-30
US20130069867A1 (en) 2013-03-21
WO2011151997A1 (en) 2011-12-08
BR112012029938A2 (pt) 2016-09-20
EP2577426A1 (en) 2013-04-10
RU2012150277A (ru) 2014-05-27

Similar Documents

Publication Publication Date Title
JP2011253292A (ja) 情報処理装置および方法、並びにプログラム
Zhou et al. A novel finger and hand pose estimation technique for real-time hand gesture recognition
US8897490B2 (en) Vision-based user interface and related method
US10156909B2 (en) Gesture recognition device, gesture recognition method, and information processing device
WO2017152794A1 (en) Method and device for target tracking
JP4372051B2 (ja) 手形状認識装置及びその方法
US20140071042A1 (en) Computer vision based control of a device using machine learning
JP2015095164A (ja) ジェスチャ認識装置およびジェスチャ認識装置の制御方法
US7203340B2 (en) Second order change detection in video
JP6066093B2 (ja) 手指形状推定装置、手指形状推定方法、及び手指形状推定プログラム
Yasen Vision-based control by hand-directional gestures converting to voice
KR101631011B1 (ko) 제스처 인식 장치 및 제스처 인식 장치의 제어 방법
CN105912126A (zh) 一种手势运动映射到界面的增益自适应调整方法
KR102181897B1 (ko) 눈동자 추적을 이용한 모바일 툴팁 방법 및 장치
US20220050528A1 (en) Electronic device for simulating a mouse
Siam et al. Human computer interaction using marker based hand gesture recognition
Dhamanskar et al. Human computer interaction using hand gestures and voice
US20150117712A1 (en) Computer vision based control of a device using machine learning
Anuj et al. Robust control of applications by hand-gestures
JP6877072B1 (ja) 領域抽出装置、領域抽出方法、及び領域抽出プログラム
Mangaiyarkarasi et al. Cursor control system using facial expressions for human-computer interaction
KR20240037067A (ko) 일반 카메라를 이용한 인공지능 기반 제스처 인식 장치와 그 방법
Noparlik et al. Hand Gesture Recognition System with Finite State Machine for Remote Desktop Control
Adams Using Gesture Recognition to Navigate Google Chrome
Sharma et al. Gesture Recognition using Cognitive AI and Deep Learning

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20130806