JP2015011404A - 動作認識処理装置 - Google Patents
動作認識処理装置 Download PDFInfo
- Publication number
- JP2015011404A JP2015011404A JP2013134250A JP2013134250A JP2015011404A JP 2015011404 A JP2015011404 A JP 2015011404A JP 2013134250 A JP2013134250 A JP 2013134250A JP 2013134250 A JP2013134250 A JP 2013134250A JP 2015011404 A JP2015011404 A JP 2015011404A
- Authority
- JP
- Japan
- Prior art keywords
- subject
- unit
- image
- motion
- control unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Abstract
【課題】被写体に係る情報を利用して、動作の認識対象を選択することができる動作認識処理装置、会議システム、動作認識処理方法、及びコンピュータプログラムを提供することにある。【解決手段】撮像することにより得られる画像を用いて、該画像に含まれる被写体の複数の部分を特定する特定部と、該特定部が特定した複数の部分から一の部分を選択する選択部と、該選択部が選択した一の部分の動作を認識する認識部と、該認識部が認識した動作が所定の動作である場合、該所定の動作に対応する処理を行う処理部とを備える動作認識処理装置1は、前記画像又は外部から前記被写体に係る情報を取得する取得部を備え、前記選択部は、該取得部が取得した情報に基づき、前記特定部が特定した複数の部分から一の部分を選択するようにしてある。【選択図】図2
Description
本発明は、画像に含まれる被写体の動作に基づき処理を行う動作認識処理装置に関する。
撮像された画像に含まれる被写体の動作を認識し、認識した動作が予め設定された所定の動作であった場合に、その所定の動作に対応する処理を行うことが可能な動作認識処理装置が知られている。被写体は撮像装置に向かって動作を行い、動作認識処理装置はその動作を認識する。特許文献1に開示されている動作認識処理装置は、撮像位置から被写体までの距離に応じて、動作を認識する感度を調節する。そのため、被写体が撮像位置から離れた場所にいた場合であっても特許文献1に開示されている動作認識処理装置は、認識対象の動作について誤認識を抑制することができる。
しかしながら、従来の動作認識処理装置においては、距離の情報を利用するだけでは被写体の動作を認識することができない虞があった。例えば、動作認識処理装置は被写体の一の部分を認識対象として選択し、選択した一の部分の動作を認識するとする。被写体は撮像位置に対して左向きに着座、即ち被写体の右腕の方が左腕よりも撮像位置に近い位置になるように着座していたとする。この場合、被写体は左腕により撮像装置に向かって動作をすることが自然と考えられるが、動作認識処理装置は右腕又は左腕の距離の情報を取得することができたとしても、右腕又は左腕の一方の動作を優先的に認識することを考慮していない。そのため、被写体が左腕で撮像装置に向かって動作を行っていたとしても、右腕を意図せず動かしていた場合、動作認識処理装置は右腕の動作を認識してしまい、被写体の自然な動作により動作認識処理装置に処理を行わせることができない虞がある。
本発明は斯かる事情に鑑みてなされたものであり、被写体に係る情報を利用して、動作の認識対象を選択することができる動作認識処理装置を提供することにある。
本発明に係る動作認識処理装置は、撮像することにより得られた画像を用いて、該画像に含まれる被写体の複数の部分を特定する特定部と、該特定部が特定した複数の部分から一の部分を選択する選択部と、該選択部が選択した一の部分の動作を認識する認識部と、該認識部が認識した動作が所定の動作である場合、該所定の動作に対応する処理を行う処理部とを備える動作認識処理装置であって、前記画像又は外部から前記被写体に係る情報を取得する取得部を備え、前記選択部は、該取得部が取得した情報に基づき、前記特定部が特定した複数の部分から一の部分を選択するようにしてあることを特徴とする。
本発明にあっては、特定部は撮像することにより得られた画像から、その画像に含まれる被写体の複数の部分を特定する。選択部は、特定部が特定した複数の部分から一の部分を選択する。認識部は、選択部が選択した一の部分の動作を認識する。認識部が認識した動作が所定の動作である場合、処理部はその所定の動作に対応する処理を行う。取得部は、画像から被写体に係る情報を取得する。選択部は、取得部が取得した情報に基づき、特定部が特定した複数の部分から一の部分を選択する。
本発明に係る動作認識処理装置は、前記被写体は人物であり、前記被写体に係る情報は前記画像内における該被写体の体又は顔の向きを含むことを特徴とする。
本発明にあっては、画像に含まれる被写体は人物である。取得部は、画像内における被写体の体又は顔の向きを含んだ情報を取得する。選択部は取得部が取得した画像内における被写体の体又は顔の向きに基づき、被写体の一の部分を選択する。
本発明に係る動作認識処理装置は、前記選択部は、前記被写体の体又は顔の向きが第1の向きであることが前記取得部により取得された情報に含まれるとき、前記被写体の一方の腕を選択するようにしてあり、前記被写体の体又は顔の向きが第2の向きであることが前記取得部により取得された情報に含まれるとき、前記被写体の他方の腕を選択するようにしてあることを特徴とする。
本発明にあっては、選択部は、取得部が取得した被写体の体又は顔の向きが第1の向きであったとき、被写体の一方の腕を選択する。選択部は、取得部が取得した被写体の体又は顔の向きが第2の向きであったとき、被写体の他方の腕を選択する。
本発明に係る動作認識処理装置は、前記被写体に係る情報は前記画像内における該被写体の位置を含むことを特徴とする。
本発明にあっては、取得部は、画像内における被写体の位置を含んだ情報を取得する。選択部は取得部が取得した画像内における被写体の位置に基づいて被写体の一の部分を選択する。
本発明に係る動作認識処理装置は、前記被写体は人物であり、前記選択部は、前記取得部が取得した位置が前記画像内の所定の第1領域に含まれているとき、前記被写体の一方の腕を選択するようにしてあり、前記取得部が取得した位置が前記画像内の前記第1領域とは異なる第2領域に含まれているとき、前記被写体の他方の腕を選択するようにしてあることを特徴とする。
本発明にあっては、被写体は人物である。選択部は、取得部が取得した位置が画像内における所定の第1領域に含まれるとき、被写体の一方の腕を選択する。また、選択部は、取得部が取得した位置が第1領域とは異なる所定の第2領域に含まれるとき、被写体の他方の腕を選択する。
本発明によれば、被写体に係る情報を利用して、動作の認識対象を選択することができる動作認識処理装置を提供することができる。
以下、本発明をその実施形態を示す図面に基づいて詳述する。なお、以下の各実施形態においては、本発明における動作認識処理装置に相当する端末装置を複数用い、各端末で出力される画像、映像、及び音声等の情報を他の端末装置間での共有を実現する会議システムについて説明する。
(実施形態1)
図1は、実施形態1における会議システムの構成を模式的に示す構成図である。実施形態1における会議システムは、ネットワーク2に接続された2つの端末装置1を含んで構成される。2つの端末装置1は、有線又は無線通信によってネットワーク2と接続し、ネットワーク2を介して通信する。一方の端末装置1で出力される画像、映像、及び音声の情報を他方の端末装置1へ送信する。一方の端末装置1から受信した画像、映像、及び音声を他方の端末装置1が出力することにより、2つの端末装置1間において画像、映像、及び音声を共有した会議を実現する。例えば、2つの端末装置1間において画像Aを共有し、一方の端末装置1が画像Aに変更を加えた場合、他方の端末装置1にその変更内容が送信される。他方の端末装置1は受信した変更内容を出力することにより変更内容を反映することができる。ネットワーク2は、会議が行われる会社組織内の社内LAN(Local Area Network)又はインターネット等の公衆通信網で構成される。なお、実施形態1においては、2つの端末装置1は、ネットワーク2を介して通信を行う例を示したが、2つの端末装置1同士が直接セッションを張って通信を行ってもよいし、サーバを介して通信を行ってもよい。
図1は、実施形態1における会議システムの構成を模式的に示す構成図である。実施形態1における会議システムは、ネットワーク2に接続された2つの端末装置1を含んで構成される。2つの端末装置1は、有線又は無線通信によってネットワーク2と接続し、ネットワーク2を介して通信する。一方の端末装置1で出力される画像、映像、及び音声の情報を他方の端末装置1へ送信する。一方の端末装置1から受信した画像、映像、及び音声を他方の端末装置1が出力することにより、2つの端末装置1間において画像、映像、及び音声を共有した会議を実現する。例えば、2つの端末装置1間において画像Aを共有し、一方の端末装置1が画像Aに変更を加えた場合、他方の端末装置1にその変更内容が送信される。他方の端末装置1は受信した変更内容を出力することにより変更内容を反映することができる。ネットワーク2は、会議が行われる会社組織内の社内LAN(Local Area Network)又はインターネット等の公衆通信網で構成される。なお、実施形態1においては、2つの端末装置1は、ネットワーク2を介して通信を行う例を示したが、2つの端末装置1同士が直接セッションを張って通信を行ってもよいし、サーバを介して通信を行ってもよい。
図2は、実施形態1における端末装置1の構成を示すブロック図である。端末装置1は、制御部100を備える。制御部100は、例えば一又は複数のCPU(Central Processing Unit)、マルチコアCPU等により構成される。また、制御部100にはバスを介して、一時記憶部101、記憶部102、入力部103、出力部104、通信処理部105、映像処理部106、音声処理部107、タイマ部108、及び読取部109が接続されている。制御部100は、後述の記憶部102に記憶されている制御プログラム4を読み出して実行することにより各部を制御する。
一時記憶部101は、SRAM(Static RAM)、DRAM(Dynamic RAM)等のメモリにより構成される。一時記憶部101は、制御部100が制御プログラム4による処理を行うことによって生ずる各種データを一時記憶する。
記憶部102は、EEPROM(Electrically Erasable and Programmable ROM)、フラッシュメモリ、HDD(Hard Disk Drive)等の不揮発性メモリにより構成される。記憶部102には、制御プログラム4が記憶されている。制御プログラム4は、端末装置1が本発明に係る動作認識処理装置として動作するためのプログラムである。
また、記憶部102にはモデルDB(DataBase)5が記憶されている。モデルDB5には、スケルトンモデルが記憶されている。図3は、モデルDB5に記憶されているスケルトンモデルを概念的に表した説明図である。スケルトンモデルとは、後述のカメラ116によって撮像された被写体を特定し、その被写体のジェスチャを認識するための人体の骨格を模したモデルである。ここで、ジェスチャとは、被写体が端末装置1に処理を行わせるための被写体の動作である。
スケルトンモデルは、人体の体幹に相当する中心部分51を有する。中心部分51の上部には、人体の右腕に相当する右腕部分52及び人体の左腕に相当する左腕部分53が接続され、中心部分51の下部には、人体の右脚に相当する右脚部分54、及び人体の左足に相当する左脚部分55が接続されている。
中心部分51は、頭部ジョイント51a、胸部ジョイント51b、腹部ジョイント51c、及び臀部ジョイント51dからなり、頭部ジョイント51a、胸部ジョイント51b、腹部ジョイント51c、及び臀部ジョイント51dの順に直列的に接続されている。
右腕部分52は、胸部ジョイント51bと接続されている右肩ジョイント52aと右肘ジョイント52b、右手首ジョイント52c、及び右手ジョイント52dとからなる。右腕部分52は、右肩ジョイント52a、右肘ジョイント52b、右手首ジョイント52c、及び右手ジョイント52dの順に直列的に接続されている。
左腕部分53は、胸部ジョイント51bに接続されている左肩ジョイント53aと左肘ジョイント53b、左手首ジョイント53c、及び左手ジョイント53dとからなる。左腕部分53は、左肩ジョイント53a、左肘ジョイント53b、左手首ジョイント53c、及び左手ジョイント53dの順に直列的に接続されている。
右脚部分54は、臀部ジョイント51dに接続されている右付け根ジョイント54aと右膝ジョイント54b、右足首ジョイント54c、及び右足ジョイント54dとからなる。右脚部分54は、右付け根ジョイント54a、右膝ジョイント54b、右足首ジョイント54c、及び右足ジョイント54dの順に直列的に接続されている。
左脚部分55は、臀部ジョイント51dに接続されている左付け根ジョイント55aと左膝ジョイント55b、左足首ジョイント55c、及び左足ジョイント55dとからなる。左脚部分55は、左付け根ジョイント55a、左膝ジョイント55b、左足首ジョイント55c、及び左足ジョイント55dの順に直列的に接続されている。
モデルDB5は、スケルトンモデルの各ジョイント及び各ジョイントの接続関係を対応付けて記憶している。接続関係は例えば、頭部ジョイント51aは胸部ジョイント51bと接続する関係、胸部ジョイント51bは頭部ジョイント51a、右肩52a、及び左肩53aと接続する関係を示す。制御部100は、カメラ116により撮像された被写体について、体の中心部分、左右の腕部分、及び左右の脚部分等の、被写体の体を構成する部分を推定する。制御部100は、推定した被写体の各部分に、スケルトンモデルの各ジョイントを適合する。なお、被写体にスケルトンモデルを適合させる処理についての詳細は後述する。
更に、記憶部102にはジェスチャDB6が記憶されている。ジェスチャDB6は、被写体のジェスチャ及び制御部100に行わせる処理コマンドを対応付けられているテーブルを記憶している。図4は、ジェスチャDB6に記憶されているテーブルを示す説明図である。テーブルには、後述のカメラ116によって撮像された被写体のジェスチャ毎に制御部100に行わせる処理コマンドが記憶されている。テーブルに示すジェスチャ1,2,3,・・・は夫々、所定の動作に対応する番号であり、その所定の動作はジェスチャDB6に別途記憶されている。例えば、ジェスチャが1の場合、ディスプレイ114に表示されている画面のページ送りを行う。ジェスチャはスケルトンモデルの時系列的な動きを示し、その詳細は後述する。
入力部103には、操作部113が接続されている。操作部113は、タブレットで構成される。操作部113は後述のディスプレイ114に内蔵され、端末用ペン(図示略)による操作を受け付ける。入力部103はユーザが操作部113を介して入力した各種情報を制御部100へ出力する。制御部100は入力部103から出力された情報に応じた処理を実行する。なお、実施形態1において操作部113は、タブレットで構成されていることを説明したが、マウス、キーボード等の入力機器により構成されてもよい。その場合、操作部113は、ディスプレイ114に内蔵されない。
出力部104には、液晶パネル、又は有機EL等を用いるディスプレイ114が接続されている。制御部100は、出力部104を介し、ディスプレイ114に会議システムで用いられるアプリケーション画面を出力し、アプリケーション画面内に共有させる画像を表示させる。また、出力部104はカメラ116で撮像した画像を表示させるようにしてもよい。その際、出力部104はカメラ116が撮像した画像をそのまま表示させてもよいし、画像の左右を反転させる処理を行った上で表示させてもよい。
通信処理部105は、端末装置1のネットワーク2を介した通信を実現させる。具体的には、ネットワーク2に接続されるネットワークI/F115と接続されており、ネットワーク2を介して送受信される情報のパケット化、パケットからの情報の読み取りなどを行う。なお、実施形態1の会議システムを実現するために、通信処理部105による画像、音声を送受信するための通信プロトコルは、H.323、SIP、又はHTTPなどのプロトコルを用いる。通信プロトコルはこれらに限られない。
映像処理部106には、撮像部に相当するカメラ116が接続されている。カメラ116は、1秒間に数十回又は数百回等の頻度で撮像し、撮像した画像に係る画像信号を連続して映像データとして映像処理部106へ出力する。映像処理部106は、制御部100の指令によりカメラ116の動作の制御を行うと共に、カメラ116にて撮像された映像データを取得する。
音声処理部107には、マイク117及びスピーカ118が接続されている。音声処理部107は、A/D変換機能を有し、マイク117によって集音された音声をサンプリングしてデジタルの音声データへ変換し、制御部100へ出力する。また、音声処理部107は制御部100から音声データが与えられた場合に、音声としてスピーカ118から出力させるようにD/A変換機能を有する。なお、マイク117はいわゆるマイクロホンアレーによって構成されてもよい。この場合、音声処理部107は音声が入力された方向に係る情報を取得し、音声データと共に制御部100へ出力する。
タイマ部108は、制御部100の指令により計時を開始及び終了することで時間を計時し、計時結果を制御部100に与える。
読取部109は、CD−ROM、DVD、ブルーレイディスク、又はフレキシブルディスク等である記録媒体3から情報を読み取ることが可能である。制御部100は、読取部109により読み出された記録媒体3に記録されているデータを、一時記憶部101に記憶するか、又は記憶部102に記憶する。記録媒体3には、制御部100が実行することにより端末装置1が本発明に係る情報処理装置として動作するための制御プログラム31が記録されている。記憶部102に記憶されている制御プログラム4は、記録媒体3から制御部100が読み出した制御プログラム31の複製であってもよい。
なお、実施形態1においては、操作部113、ディスプレイ114、カメラ116、マイク117、及びスピーカ118を端末装置1に内蔵する構成としたが、端末装置1に外部接続する構成としてもよい。
図5は、実施形態1における会議システムを使用する際の端末装置1及び人物の位置関係を模式的に示す平面図である。端末装置1が備えるディスプレイ114の正面に向かい、もう一方の端末装置1を使用している一又は複数の人物と人物M1〜M4が机Tを用いて会議をしている。
端末装置1の上部中央にはディスプレイ114の面と直交し、人物M1〜M4及び机Tを撮像可能な方向にカメラ116が搭載される。机Tは天板が略長方形であり、天板の長手方向はディスプレイ114の面と直交する方向に等しい。
人物M1は、カメラ116が撮像する方向から見て天板の右側の長辺における手前の位置に着座している。また人物M1の体及び顔は、カメラ116が撮像する方向から見て左側を向いている。ここで、実施形態1において、カメラ116が撮像する方向から見て右を第1方向とし、カメラ116から撮像する方向から見て左を第2方向とする。即ち人物M1の体及び顔は第2方向側を向いている。
人物M2は、人物M1と同じ天板の長辺における人物M1よりもディスプレイ114から遠い位置に着座している。また人物M2の体及び顔は、第2方向側を向いている。人物M3は、人物M1と異なる天板の長辺における人物M1とディスプレイ114からの距離が同程度の位置に着座している。また人物M3の体及び顔は、第1方向側を向いている。人物M4は、人物M3と同じ天板の長辺における人物M3よりもディスプレイ114から遠い位置に着座している。また人物M4の体及び顔は、第1方向側を向いている。
図6は、カメラ116が撮像した画像Bの説明図である。図6には、図5に示す端末装置1及び人物の位置関係において、カメラ116が撮像した画像が示されている。即ち画像Bには被写体として人物M1〜M4が含まれている。画像Bの座標系は、画像Bの左下を原点座標とし、原点座標から右へ向かう方向をx軸正方向、原点座標から上へ向かう方向をy軸正方向とする。ここで、x軸正方向は上述の第1方向であり、x軸負方向は上述の第2方向である。制御部100はスケルトンモデルを適合する処理、人物のジェスチャを認識する処理、及び複数の人物の中からジェスチャを認識する対象を選択する処理を、カメラ116が撮像した画像を処理することにより行う。
人物M1〜M4はカメラ116に向かってジェスチャDB6に記憶されているジェスチャを行う。カメラ116は、人物M1〜M4が行ったジェスチャを時系列的な画像として撮像する。制御部100は、カメラ116が時系列的に撮像した画像からジェスチャを認識し、そのジェスチャに対応する処理を行う。
図7及び図8は、実施形態1における人物のジェスチャにより端末装置1が行う動作の処理手順を示したフローチャートである。端末装置1の制御部100は、カメラ116が撮像した画像内の被写体についてモデル適合処理を行う(ステップS11)。具体的には、制御部100はカメラ116が撮像した画像から被写体を特定し、スケルトンモデルを適合する。スケルトンモデルを適合する方法としては例えば、画像から被写体に係る人物領域を抽出し、抽出した人物領域からスケルトンモデルの各ジョイントに相当する部分を推定する。その後、制御部100は推定した部分に対応する各ジョイントを適合することにより実現する。人物領域の抽出方法は色ヒストグラムを用いた手法等の公知の画像処理アルゴリズム、パターン認識アルゴリズム等を用いることができる。人物領域からスケルトンモデルの各ジョイントに相当する部分を推定する方法は、人物領域の形状及び各ジョイントに相当する部分を学習した分類器を用いて推定する等の公知の画像処理アルゴリズム、パターン認識アルゴリズム等を用いることができる。
実施形態1においては、画像内に複数の被写体が存在する場合、少なくとも一の被写体についてスケルトンモデルを適合すればよく、全ての被写体についてスケルトンモデルを適合してもよい。また、抽出した人物領域において、時系列的に撮像された画像間の特徴量の変化が大きいこと等の所定の基準を満たした一部の被写体についてスケルトンモデルを適合してもよい。また、スケルトンモデルが複数適合された場合、夫々を識別可能にするためにIDが付与される。また、スケルトンモデルを適合する際に、全てのジョイントについて適合する必要はなく、被写体が着座している等の被写体の状況によって左右の脚部分を除くジョイントを適合する等が行われてもよい。なお、ステップS11において、制御部100が制御プログラム4を実行することにより本発明における特定部として機能する。
制御部100は、ステップS11にて適合したスケルトンモデルの追跡を開始する(ステップS12)。スケルトンモデルの追跡とは、具体的にはステップS11にて適合されたスケルトンモデルの各ジョイントの画像内における座標を、撮像された各画像において制御部100が取得可能にすることである。即ち、ステップS11にてスケルトンモデルが適合された後は、制御部100は各画像においてスケルトンモデルを適合せずとも、各ジョイントの座標を取得することが可能となる。
制御部100は、ステップS11にて適合したスケルトンモデルの動きを認識し、そのスケルトンモデルが初期動作を行ったか否かを判定する(ステップS13)。初期動作は、例えばスケルトンモデルの右手ジョイント52d又は左手のジョイント53dにおける座標の1秒間の変位が所定の値以上であること等の予め設定された動作である。初期動作を行っていないと判定した場合(S13:NO)、制御部100はスケルトンモデルが初期動作を行うまで待機する。
初期動作を行ったと判定した場合(S13:YES)、制御部100は初期動作を行ったスケルトンモデルに係る被写体が複数人であるか否かを判定する(ステップS14)。具体的には、ステップS13で初期動作を行ったと判定した場合、制御部100は順次一時記憶部101にスケルトンモデルのIDを記憶し、ステップS14にて一時記憶部101に記憶されたIDの数を集計することにより判定する。複数人でないと判定した場合(S14:NO)、即ち初期動作を行った被写体が一人であると判定した場合、制御部100は処理をステップS16へ進める。
複数人であると判定した場合(S14:YES)、制御部100はその複数人からジェスチャを認識する対象者を選択する(ステップS15)。具体的には、制御部100はステップS14において判定された複数の被写体のスケルトンモデル夫々について、所定の基準ジョイント(例えば頭部ジョイント51a)の座標値を用いて選択する。制御部100は、y軸の座標値が最小の基準ジョイントを持つスケルトンモデルを選択する。ここで、基準ジョイントのy軸の座標値が最小のスケルトンモデルが複数あった場合、x軸の座標値が大きい基準ジョイントを持つスケルトンモデルを選択する。なお、基準ジョイントの座標値はステップS15の処理に遷移した後最初に撮像された画像内における座標値でもよく、所定の時間間隔に亘って撮像された複数の画像内夫々における座標値の平均値でもよい。また、ステップS15において制御部100は、制御プログラム4を実行することにより本発明に係る対象選択部として機能する。
次いで、制御部100は一の被写体に係るスケルトンモデルから、ジェスチャの認識対象の選択処理を行う(ステップS16)。ステップS16において、制御部100はスケルトンモデルのジョイントの中からジェスチャを認識する対象を一又は複数選択する。なお、ステップS16おける処理の詳細は後述する。
次いで、制御部100はカメラ116にて撮像されている被写体にジェスチャを認識可能であることを通知する(ステップS17)。被写体への通知は被写体に視覚的に行ってもよいし、聴覚的に行ってもよいし、その両方を組み合わせて行ってもよい。視覚的な通知とは、制御部100がジェスチャ認識を行う被写体のスケルトンモデルをディスプレイ114に表示すること、出力部104が被写体をディスプレイ114に表示させていたとき、ジェスチャ認識を行う被写体を指すように矢印記号を表示すること等である。聴覚的な通知とは、ジェスチャ認識を行う被写体の氏名や着座位置等の情報を音声データに変換し、スピーカ118によって音声を出力することである。
ステップS17にて通知を行った制御部100は、制御部100がジェスチャ認識を行う被写体が動作をしていない時間を計時するために、タイマ部108に指示を出し、計時を開始する(ステップS18)。
その後、制御部100はジェスチャ認識を行う被写体のジェスチャが開始したか否かを判定する(ステップS19)。具体的には、ステップS16にて選択された認識対象について、時系列的に撮像された画像間の座標の変位が所定の変位量を超えた場合に、制御部100はジェスチャを開始したと判定する。ジェスチャが開始していないと判定した場合(S19:NO)、制御部100はタイマ部108が計時をしている時間が所定時間を経過したか否かを判定する(ステップS20)。所定時間を経過していないと判定した場合(S20:NO)、制御部100は処理をステップS19へ戻す。所定時間を経過したと判定した場合(S20:YES)、制御部100は処理を終える。
ステップS19にてジェスチャが開始したと判定した場合(S19:YES)、制御部100は、ステップS16にて選択された認識対象に係るジョイントの座標値を順次一時記憶部101に記憶する(ステップS21)。具体的には、時系列的に撮像された画像において、制御部100は認識対象に係るジョイントの撮像された全ての画像又は所定の時間間隔毎の画像における座標値を一時記憶部101に記憶する。次いで、制御部100は、被写体のジェスチャが終了したか否かを判定する(ステップS22)。具体的には、時系列的に撮像された画像間の座標の変位が所定の変位量よりも少ない場合、所定時間以上座標の変位が無い場合等の所定の基準を満たした場合、制御部100はジェスチャが終了したと判定する。ジェスチャが終了していないと判定した場合(S22:NO)、制御部100はステップS21に処理を戻す。
ジェスチャが終了したと判定した場合(S22:YES)、制御部100はステップS21にて一時記憶部101に記憶された座標値に基づきジェスチャの解釈を行う(ステップS23)。具体的には、制御部100は一時記憶部101に記憶された座標値の推移から、ステップS16にて選択された認識対象のジョイントがカメラ116にて撮像された画像内においてどのような動きをしたかを解釈する。次いで制御部100は、解釈したジェスチャが記憶部102に記憶されているジェスチャDB6に存在するか否かを判定する(ステップS24)。存在しないと判定した場合(S24:NO)、制御部100は処理を終える。なお、ステップS19、ステップS21〜ステップS23において、制御部100が制御プログラム4を実行することにより本発明における認識部として機能する。
解釈したジェスチャがジェスチャDB6に存在すると判定した場合(S24:YES)、制御部100は、そのジェスチャに対応する処理コマンドを実行し(ステップS25)、処理を終える。なお、ステップS25において、制御部100が制御プログラム4を実行することにより本発明における処理部として機能する。
図9は、実施形態1における認識対象の選択処理のサブルーチンを示したフローチャートである。端末装置1が備える制御部100は、図7に示すステップS11にて適合したスケルトンモデルの頭部ジョイント51aの座標を参照し、映像処理部106を介して被写体の顔部分の画像を取得する(ステップS31)。その後制御部100は、取得した顔部分の画像から特徴点を抽出すること等によって被写体の顔の向きを検出する(ステップS32)。次いで、スケルトンモデル及びステップS32で検出した顔の向きから被写体の体の向きを推定する(ステップS33)。なお、ステップS31〜ステップS33において、制御部100が制御プログラム4を実行することにより本発明における取得部として機能する。
次いで、制御部100はステップS33にて推定した被写体の体の向きが第1方向側か否かを判定する(ステップS34)。第1方向側であると判定した場合(S34:YES)、制御部100は被写体のスケルトンモデルの左腕部分53を認識対象として選択し(ステップS35)、図7に示すステップS16へ処理を戻す。一方、第1方向側でないと判定した場合(S34:NO)、制御部100は被写体のスケルトンモデルの右腕部分52をジェスチャの認識対象として選択し(ステップS36)、図7に示すステップS16へ処理を戻す。なお、ステップS35及びステップS36で選択されるスケルトンモデルの右腕部分52及び左腕部分53は、右腕部分52及び左腕部分53夫々を構成する全てのジョイント選択する必要はなく、その中から一つ又は複数部分のジョイントを組み合わせて選択してよい。また、ステップS34及びステップS35並びにステップS34及びステップS36において、制御部100が制御プログラム4を実行することにより本発明の選択部として機能する。
以上の構成及び処理によって、端末装置1はカメラ116にて撮像された画像に含まれる被写体の複数の部分をスケルトンモデルの適合により特定することができる。また、端末装置1は画像に複数の被写体が含まれている場合、ジェスチャを認識する一の被写体を選択することができる。更に、端末装置1はジェスチャを認識する被写体の体の向きに基づき、認識対象となる被写体の部分を選択することができる。加えて、端末装置1は選択された認識対象からジェスチャを認識し、そのジェスチャに対応する処理を行うことができる。
(実施形態2)
上述の実施形態1においては、カメラ116にて撮像された画像についてのみ処理を行うことによって、画像に含まれる被写体の動作を認識した。実施形態2においては、端末装置1に距離画像センサ7を更に備える構成とすることにより、距離画像センサ7が取得した距離の情報を付加して画像に含まれる被写体の動作を認識することを示す。なお、その他の構成及び作用は上述の実施形態1と同様であるため、同様の構成には同様の符号を付し、その詳細な説明及びその作用効果の説明を省略する。
上述の実施形態1においては、カメラ116にて撮像された画像についてのみ処理を行うことによって、画像に含まれる被写体の動作を認識した。実施形態2においては、端末装置1に距離画像センサ7を更に備える構成とすることにより、距離画像センサ7が取得した距離の情報を付加して画像に含まれる被写体の動作を認識することを示す。なお、その他の構成及び作用は上述の実施形態1と同様であるため、同様の構成には同様の符号を付し、その詳細な説明及びその作用効果の説明を省略する。
図10は、実施形態2における端末装置1の構成を示すブロック図である。映像処理部106には、距離画像センサ7が接続されている。距離画像センサ7は図示しない投光部及び受光部を備え、その距離画像センサ7及び対象までの距離を検出する。距離画像センサ7は、投光部により赤外線等の光線を投光し、対象から反射した光線を受光部にて受光する。具体的な距離の検出方法としては、三角測量によって検出する方法、投光から受光までの時間(TOF(Time Of Flight))により検出する方法がある。三角測量によって検出する方法においては、対象が距離画像センサ7から遠くに離れるほど検出精度が低下する。一方、投光から受光までの時間により検出する方法では、検出精度の低下が少ない。
距離画像センサ7はカメラ116が撮像する範囲において、カメラ116が撮像した画像の奥行き方向の距離を検出できるように端末装置1に備えられる。画像の奥行き方向とは、図5に示す机Tの長手方向に等しい。以下、距離画像センサ7が検出する距離とは、カメラ116が撮像した画像の奥行き方向の距離を指す。なお、実施形態2において、距離画像センサ7を端末装置1に内蔵する構成としたが、端末装置1に外部接続する構成としてもよい。
映像処理部106は、カメラ116にて撮像された画像及び距離画像センサ7によって検出された距離によって、画像の座標系を3次元に拡張する。即ち、図6に示す画像Bはx軸及びy軸の直交する2軸の座標系であったが、実施形態2においては、更に画像の奥行き方向をz軸の正方向とするx軸、y軸、及びz軸の直交する3軸の座標系として画像を扱う。端末装置1は、画像の座標を3次元として処理をすることが可能となるため、画像の奥行き方向を含めたジェスチャを認識することができる。制御部100は、映像処理部106を介して、座標値を取得する。なお、距離画像センサ7によって検出された距離を制御部100が取得するとき、制御部100は距離取得部として機能する。
図11は、実施形態2における人物のジェスチャにより端末装置1が行う動作の処理手順を示したフローチャートである。なお、実施形態2において、ステップS41〜ステップS43までの処理は、図8に示すステップS18〜ステップS20までの処理と同様であるため、詳細な説明を省略する。また、ステップS45〜ステップS49までの処理は、図8中のステップS21〜ステップS25までの処理と同様であるため、詳細な説明を省略する。更に、ステップS41以前の以前の処理は、図7に示す処理と同様であるため詳細な説明を省略する。
ステップS42においてジェスチャが開始したと判定した場合(S42:YES)、制御部100は、後述の図12における認識対象の選択処理にて選択された認識対象のジェスチャについて座標値の補正をする(ステップS44)。具体的には、制御部100は、距離画像センサ7が検出した認識対象までの距離に応じて、予め決められた補正値によって、認識対象のz軸の座標値を補正する。上述のように距離画像センサ7が三角測量によって検出する方法を採用している場合、認識対象が距離画像センサ7から離れた距離にあったときに距離の検出精度が落ちるため、認識対象が距離画像センサ7の近くにいるか否かによってジェスチャの検出精度が変わる。ステップS44においては、検出精度を距離画像センサ7からの距離に依存しないように座標値の補正を行う。補正値は、距離画像センサ7の投光部及び受光部の位置関係などから予め設定する。なお、距離画像センサ7が投光から受光までの時間により検出する方法を採用している場合、ステップS44の処理は特に必要ない。
なお、モデル適合処理について、上述の実施形態1では図7に示すステップS11において、制御部100はカメラ116により撮像された画像を処理することによりスケルトンモデルの適合をしたが距離画像センサ7を用いてもよい。例えば、制御部100は、画像及び距離画像センサ7によって得られた画像の範囲における距離の情報を用いて人物領域を抽出する。
図12は、実施形態2における認識対象の選択処理のサブルーチンを示したフローチャートである。なお、以下に説明する箇所以外の処理については、図9において説明した処理と同様であるため、詳細な説明を省略する。制御部100は、一の被写体の体の向きを検出する(ステップS51)。具体的には、制御部100は、一の被写体のスケルトンモデルにおける右腕部分52又は右脚部分54のz軸の座標値と、左腕部分53又は左脚部分55のz軸の座標値とを比較することによって検出する。例えば、右肩ジョイント52aのz軸の座標値が左肩ジョイント53aのz軸の座標値よりも小さい場合、ステップS52において被写体は第1方向側を向いていることが検出される。一方、右肩ジョイント52aのz軸の座標値が左肩ジョイント53aのz軸の座標値よりも大きい場合、ステップS52において被写体は第2方向側を向いていることが検出される。なお、ステップS51において制御部100が制御プログラム4を実行することにより、本発明の取得部として機能する。
以上の構成及び処理によって、端末装置1は、距離画像センサ7にて検出される画像の奥行き方向の距離に応じて、ジェスチャの認識を行うことができる。また、距離画像センサ7によって画像の奥行き方向についての情報を処理することができるため、被写体の部分を特定するためのスケルトンモデルの適合をより精度よく行うことができる。更に、画像の奥行き方向についての情報により、より多種類のジェスチャを認識することができる。
(実施形態3)
上述の実施形態1及び2においては、被写体のジェスチャの認識対象を選択する際に、被写体の体の向きの情報を用いた。実施形態3においては、被写体のジェスチャの認識対象を選択する際に、被写体の画像内における位置を用いる例を示す。なお、その他の構成及び作用は上述の実施形態1及び2と同様であるため、同様の構成には同様の符号を付し、その詳細な説明及びその作用効果の説明を省略する。
上述の実施形態1及び2においては、被写体のジェスチャの認識対象を選択する際に、被写体の体の向きの情報を用いた。実施形態3においては、被写体のジェスチャの認識対象を選択する際に、被写体の画像内における位置を用いる例を示す。なお、その他の構成及び作用は上述の実施形態1及び2と同様であるため、同様の構成には同様の符号を付し、その詳細な説明及びその作用効果の説明を省略する。
図13は、実施形態3における認識対象の選択処理のサブルーチンを示したフローチャートである。端末装置1の制御部100は、ジェスチャ認識の対象者である一の被写体の位置を検出する(ステップS61)。具体的には上述の図7に示すステップS15における処理と同様に、制御部100は、一の被写体に係るスケルトンモデルが有する所定の基準ジョイント(例えば頭部ジョイント51a)の座標値を画像内における被写体の位置とし、一時記憶部101に記憶する。なお、ステップS61において制御部100が制御プログラム4を実行することにより、本発明の取得部として機能する。
次いで、制御部100は、ステップS61にて検出した位置が画像内の所定の位置よりも左側にあるか否かを判定する(ステップS62)。具体的には、制御部100はステップS61にて一時記憶した基準ジョイントのy軸の座標値が、所定の位置におけるy軸の座標値よりも小さい場合、左側にあると判定し、それ以外は右側にあると判定する。また、所定の位置とは、画像の中心等の予め設定された座標の値である。なお、所定の位置を基準とした左右の領域は夫々、本発明の第1領域及び第2領域に相当する。
所定の位置よりも左側にあると判定した場合(S62:YES)、制御部100は被写体の左腕部分を選択し(ステップS63)、メインルーチンに処理を戻す。所定の位置よりも右側にあると判定した場合(S62:NO)、制御部100は被写体の右腕部分を選択し(ステップS64)、メインルーチンに処理を戻す。なお、図13に示すサブルーチンのメインルーチンは、実施形態1において説明した処理手順、即ち図7及び図8に示す処理手順又は実施形態2において説明した処理手順、即ち図7及び図11に示す処理手順のどちらであってもよい。
以上の構成及び処理によって、端末装置1は被写体の画像における位置に基づいて認識対象を選択することができる。なお、実施形態3において、ステップS63では、制御部100は被写体の位置が所定の位置よりも左側にある場合、被写体の左腕を選択することを示したが、被写体のいる位置についてy軸の座標値が所定の範囲内にある場合に右腕部分を選択してもよい。ステップS64も同様に、被写体のいる位置についてy軸の座標値がステップS63で選択するときとは異なる所定の範囲内にあるか否かにより、左腕部分を選択してもよい。
(実施形態4)
上述の実施形態1〜3においては、ジェスチャを認識するための初期動作を行った被写体が複数人いた場合、予め設定された規則に従ってジェスチャを認識する被写体を選択した。実施形態4においては、初期動作を行った被写体の情報を用いてジェスチャ認識の対象者となる被写体を選択する例を示す。なお、その他の構成及び作用は上述の実施形態1〜3と同様であるため、同様の構成には同様の符号を付し、その詳細な説明及びその作用効果の説明を省略する。
上述の実施形態1〜3においては、ジェスチャを認識するための初期動作を行った被写体が複数人いた場合、予め設定された規則に従ってジェスチャを認識する被写体を選択した。実施形態4においては、初期動作を行った被写体の情報を用いてジェスチャ認識の対象者となる被写体を選択する例を示す。なお、その他の構成及び作用は上述の実施形態1〜3と同様であるため、同様の構成には同様の符号を付し、その詳細な説明及びその作用効果の説明を省略する。
図14は、実施形態4における人物のジェスチャにより端末装置1が行う動作の処理手順を示したフローチャートである。実施形態4において、ステップS71〜ステップS74及びステップS77における処理は、図7に示すステップS11〜ステップS14及びステップS17における処理と同様であるため詳細な説明を省略する。また、ステップS77以降の処理は、図8に示す処理又は図11に示す処理の何れであってもよい。
上述の実施形態1〜3においては、図7のステップS13にて説明したように、スケルトンモデルが初期動作を行ったと判定した場合、制御部100はスケルトンモデルのIDを順次一時記憶部101に記憶した。実施形態4においては、ステップS73においてスケルトンモデルが初期動作を行ったと判定した場合(S73:YES)、制御部100は、スケルトンモデルのID及び初期動作を行ったジョイント(例えば右手ジョイント52d)を対応付けて一時記憶部101に順次記憶する。なお、スケルトンモデルのIDと対応付けて一時記憶部101に記憶されるジョイントは、一又は複数の何れでもよい。
ステップS73にて初期動作を行ったスケルトンモデルに係る被写体が複数人であると判定した場合(S74:YES)、制御部100は後述の対象者及び認識対象選択処理を行う(ステップS75)。制御部100はステップS75において、複数人の被写体からジェスチャを認識する対象となる一の被写体を選択し、選択した被写体のジェスチャを認識する部分を選択する。一方、ステップS73にて初期動作を行ったスケルトンモデルに係る被写体が複数人でないと判定した場合(S74:NO)、制御部100は認識対象の選択処理を行う(ステップS76)。ここで、ステップS76における処理は、上述の図9、図12、又は図13に示す処理の何れであってもよい。
図15は、対象者及び認識対象の選択処理のサブルーチンを示したフローチャートである。制御部100は、上述の一時記憶部101に記憶されているスケルトンモデルのIDを読み出す(ステップS81)。次いで、制御部100は読み出したIDのスケルトンモデルに係る被写体の体の向きを検出する(ステップS82)。その後、制御部100はステップS82にて検出した被写体の体の向きが第1方向側か否かを判定する(ステップS83)。ここで、ステップS82及びステップS83における処理は、図12に示すステップS51及びステップS52の処理と同様であるため詳細な説明を省略する。
ステップS83において、第1方向側であると判定した場合(S83:YES)、制御部100は、ステップS81で読み出したIDのスケルトンモデルにおける初期動作が左腕部分53の動作か否かを判定する(ステップS84)。具体的には、制御部100は一時記憶部101を参照し、ステップS81で読み出したスケルトンモデルのIDにおいて、初期動作を行ったジョイントを読み出すことによって判定する。初期動作が左腕部分53の動作であると判定した場合(S84:YES)、制御部100はステップS81で読み出したIDのスケルトンモデルに係る被写体をジェスチャ認識の対象者とし、そのスケルトンモデルの左腕部分53をジェスチャの認識対象として選択し(ステップS85)、図14に示すステップS77に処理を戻す。なお、ステップS84において判定されるスケルトンモデルの左腕部分53は必ずしも、左腕部分53を構成する全てのジョイントについて動作しているか否かを判定する必要はなく、その中から一つのジョイント又は一部のジョイントが動作しているか否かを判定してよい。また、ステップS85で選択されるスケルトンモデルの左腕部分53は、左腕部分53を構成する全てのジョイント選択する必要はなく、その中から一つ又は複数部分のジョイントを組み合わせて選択してよい。
初期動作が左腕部分の動作でないと判定した場合(S84:NO)、制御部100は処理をステップS88へ進める。
一方、ステップS83において、第1方向側でないと判定した場合(ステップS83:NO)、制御部100は、ステップS81で読み出したIDのスケルトンモデルにおける初期動作が右腕部分52の動作か否かを判定する(ステップS86)。具体的には、制御部100は一時記憶部101を参照し、ステップS101で読み出したスケルトンモデルのIDにおいて、初期動作を行ったジョイントを読み出すことによって判定する。初期動作が右腕部分52の動作であると判定した場合(S86:YES)、制御部100はステップS81で読み出したIDのスケルトンモデルに係る被写体をジェスチャ認識の対象者とし、そのスケルトンモデルの右腕部分をジェスチャの認識対象として選択し(ステップS87)、図14に示すステップS77に処理を戻す。なお、ステップS86において判定されるスケルトンモデルの右腕部分52は必ずしも、右腕部分52を構成する全てのジョイントについて動作しているか否かを判定する必要はなく、その中から一つのジョイント又は一部のジョイントが動作しているか否かを判定してよい。また、ステップS87で選択されるスケルトンモデルの右腕部分52は、右腕部分52を構成する全てのジョイント選択する必要はなく、その中から一つ又は複数部分のジョイントを組み合わせて選択してよい。
一方、ステップS86において初期動作が右腕部分の動作ではないと判定した場合(S86:NO)、制御部100はステップS81で読み出したID及びそのIDに対応付けて記憶されている初期動作を行ったジョイントの情報を一時記憶部101から削除する(ステップS88)。
次いで、制御部100は一時記憶部101にスケルトンモデルのIDが存在するか否かを判定する(ステップS89)。IDが存在すると判定した場合(S89:YES)、制御部100は処理をステップS81へ戻す。
IDが存在しないと判定した場合(S89:NO)、制御部100は、ステップS81で読み出したIDのスケルトンモデルに係る被写体をジェスチャ認識の対象者とし、そのIDに対応する初期動作を行ったジョイントをジェスチャの認識対象として選択する(ステップS90)。その後制御部100は処理を図14に示すステップS77へ戻す。
以上の構成及び処理により、画像内に含まれる複数の被写体が初期動作をした場合であっても、夫々の被写体の情報に基づき、端末装置1がジェスチャ認識をする対象者及びその対象者の複数の部分からジェスチャの認識対象を選択することができる。なお、実施形態4においては、図15に示すステップS82の処理は、図9に示すステップS31〜ステップS33又は図13に示すステップS61と同様の処理を行ってもよい。
なお、上述の実施形態1〜4においては、2つの端末装置1間でネットワーク2を介して通信を行う会議システムにおいて、端末装置1夫々がジェスチャの認識をすることを説明したが、一の端末装置1のみの構成であってもよい。また、会議システムは、2つ以上の端末装置1間で通信を行うようにしてもよいし、端末装置1以外の画像、映像、及び音声等の情報が共有可能な端末装置と通信を行うようにしてもよい。
本発明に係る動作認識処理装置(1)は、撮像することにより得られた画像を用いて、該画像に含まれる被写体の複数の部分を特定する特定部(100)と、該特定部(100)が特定した複数の部分から一の部分を選択する選択部(100)と、該選択部(100)が選択した一の部分の動作を認識する認識部(100)と、該認識部(100)が認識した動作が所定の動作である場合、該所定の動作に対応する処理を行う処理部(100)とを備える動作認識処理装置(1)であって、前記画像又は外部から前記被写体に係る情報を取得する取得部(100)を備え、前記選択部(100)は、該取得部(100)が取得した情報に基づき、前記特定部(100)が特定した複数の部分から一の部分を選択するようにしてあることを特徴とする。
本発明においては、被写体に係る情報を利用して、動作の認識対象を選択することができる。
本発明に係る動作認識処理装置(1)は、前記被写体は人物であり、前記被写体に係る情報は前記画像内における該被写体の体又は顔の向きを含むことを特徴とする。
本発明においては、画像内の被写体の体又は顔の向きによって、動作の認識対象を選択することができる。
本発明に係る動作認識処理装置(1)は、前記選択部(100)は、前記被写体の体又は顔の向きが第1の向きであることが前記取得部(100)により取得された情報に含まれるとき、前記被写体の一方の腕を選択するようにしてあり、前記被写体の体又は顔の向きが第2の向きであることが前記取得部(100)により取得された情報に含まれるとき、前記被写体の他方の腕を選択するようにしてあることを特徴とする。
本発明においては、被写体の体又は顔の向きによって、被写体の右腕又は左腕の動作を優先的に認識することができる。
本発明に係る動作認識処理装置(1)は、前記被写体に係る情報は前記画像内における該被写体の位置を含むことを特徴とする。
本発明においては、画像内の被写体のいる位置によって、動作の認識対象を選択することができる。
本発明に係る動作認識処理装置(1)は、前記被写体は人物であり、前記選択部(100)は、前記取得部(100)が取得した位置が前記画像内の所定の第1領域に含まれているとき、前記被写体の一方の腕を選択するようにしてあり、前記取得部(100)が取得した位置が前記画像内の前記第1領域とは異なる第2領域に含まれているとき、前記被写体の他方の腕を選択するようにしてあることを特徴とする。
本発明においては、被写体が画像データ内の所定の位置よりも右側又は左側にいるかによって、被写体の右腕又は左腕の動作を優先的に認識することができる。
本発明に係る動作認識処理装置(1)は、前記選択部(100)が選択した一の部分及び所定の位置間の前記画像の奥行き方向に係る距離を取得する距離取得部(100)を備え、該距離取得部(100)が取得した距離に応じて前記選択部(100)が選択した一部の動作を認識し、処理を行うようにしてあることを特徴とする。
本発明においては、所定の位置から被写体のいる位置までの画像の奥行き方向に係る距離に応じて認識対象の動作を認識するため、誤認識を抑制することができる。
本発明に係る動作認識処理装置は(1)は、前記画像は複数の被写体を含み、前記認識部(100)が認識した動作に基づき、前記複数の被写体から一の被写体を選択する対象選択部(100)を備え、前記処理部(100)は、前記対象選択部(100)により選択された一の被写体に係る動作について処理を行うようにしてあることを特徴とする。
本発明においては、画像データ内に複数の被写体が存在する場合であっても、処理対象となる一の被写体を選択することができる。
本発明に係る会議システムにおいては、上述の何れか一つに記載の動作認識処理装置(1)を少なくとも一つ含む複数の動作認識処理装置(1)を備え、各動作認識処理装置(1)は、前記被写体を含む画像を撮像する撮像部(116)と、複数の他の認識処理装置(1)との間で前記撮像部(116)により撮像された画像の送受信を行う通信部(115)と、該通信部(115)が受信した画像を表示する表示部(114)とを備えることを特徴とする。
本発明においては、例えば、複数の遠隔の拠点間において通信により会議をする場合であっても、各拠点において、被写体の動作による処理をすることができる。
本発明に係る会議システムにおいては、前記処理部100は、前記表示部114の表示を変更するようにしてあることを特徴とする。
本願においては、被写体の動作によって表示を変更する処理をすることができる。
本発明に係る動作認識処理方法は、撮像することにより得られた画像を用いて、該画像に含まれる被写体の複数の部分を特定し、特定した複数の部分から一の部分を選択し、選択した一の部分の動作を認識し、認識した動作が所定の動作である場合、該所定の動作に対応する処理を行う動作認識処理方法において、前記画像又は外部から前記被写体に係る情報を取得し、取得した情報に基づき、前記複数の部分から一の部分を選択することを特徴とする。
本発明においては、被写体に係る情報を利用して、動作の認識対象を選択することができる。
本発明に係るコンピュータプログラムは、撮像することにより得られた画像を取得するコンピュータに、該画像に含まれる被写体の複数の部分を特定させ、特定させた複数の部分から一の部分を選択させ、選択した一の部分の動作を認識させ、認識させた動作が所定の動作である場合、該所定の動作に対応する処理を行わせるコンピュータプログラムにおいて、前記コンピュータに、前記画像から前記被写体に係る情報を取得させ、取得させた情報に基づき、前記複数の部分から一の部分を選択させることを特徴とする。
本発明においては、被写体に係る情報を利用して、動作の認識対象を選択することができる。
また、今回開示された実施形態は全ての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内での全ての変更が含まれることが意図される。
1 端末装置(動作認識処理装置)
7 距離画像センサ
3 記録媒体
31 制御プログラム
100 制御部(特定部、選択部、認識部、取得部、距離取得部、対象選択部、処理部)
114 ディスプレイ(表示部)
115 ネットワークI/F(通信部)
116 カメラ(撮像部)
7 距離画像センサ
3 記録媒体
31 制御プログラム
100 制御部(特定部、選択部、認識部、取得部、距離取得部、対象選択部、処理部)
114 ディスプレイ(表示部)
115 ネットワークI/F(通信部)
116 カメラ(撮像部)
Claims (5)
- 撮像することにより得られた画像を用いて、該画像に含まれる被写体の複数の部分を特定する特定部と、該特定部が特定した複数の部分から一の部分を選択する選択部と、該選択部が選択した一の部分の動作を認識する認識部と、該認識部が認識した動作が所定の動作である場合、該所定の動作に対応する処理を行う処理部とを備える動作認識処理装置であって、
前記画像又は外部から前記被写体に係る情報を取得する取得部を備え、
前記選択部は、該取得部が取得した情報に基づき、前記特定部が特定した複数の部分から一の部分を選択するようにしてあること
を特徴とする動作認識処理装置。 - 前記被写体は人物であり、
前記被写体に係る情報は前記画像内における該被写体の体又は顔の向きを含むこと
を特徴とする請求項1に記載の動作認識処理装置。 - 前記選択部は、
前記被写体の体又は顔の向きが第1の向きであることが前記取得部により取得された情報に含まれるとき、前記被写体の一方の腕を選択するようにしてあり、
前記被写体の体又は顔の向きが第2の向きであることが前記取得部により取得された情報に含まれるとき、前記被写体の他方の腕を選択するようにしてあること
を特徴とする請求項2に記載の動作認識処理装置。 - 前記被写体に係る情報は前記画像内における該被写体の位置を含むこと
を特徴とする請求項1に記載の動作認識処理装置。 - 前記被写体は人物であり、
前記選択部は、
前記取得部が取得した位置が前記画像内の所定の第1領域に含まれているとき、前記被写体の一方の腕を選択するようにしてあり、
前記取得部が取得した位置が前記画像内の前記第1領域とは異なる第2領域に含まれているとき、前記被写体の他方の腕を選択するようにしてあること
を特徴とする請求項4に記載の動作認識処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013134250A JP2015011404A (ja) | 2013-06-26 | 2013-06-26 | 動作認識処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013134250A JP2015011404A (ja) | 2013-06-26 | 2013-06-26 | 動作認識処理装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015011404A true JP2015011404A (ja) | 2015-01-19 |
Family
ID=52304542
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013134250A Pending JP2015011404A (ja) | 2013-06-26 | 2013-06-26 | 動作認識処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015011404A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016200858A (ja) * | 2015-04-07 | 2016-12-01 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP2017107503A (ja) * | 2015-12-11 | 2017-06-15 | 株式会社リコー | 情報処理装置、情報処理方法、プログラムおよびシステム |
WO2017187641A1 (ja) * | 2016-04-28 | 2017-11-02 | 富士通株式会社 | 骨格推定装置、骨格推定方法および骨格推定プログラム |
CN110546679A (zh) * | 2017-04-10 | 2019-12-06 | 富士通株式会社 | 识别装置、识别系统,识别方法以及识别程序 |
JP2020191665A (ja) * | 2020-08-03 | 2020-11-26 | パラマウントベッド株式会社 | 画像表示制御装置、画像表示システム及びプログラム |
-
2013
- 2013-06-26 JP JP2013134250A patent/JP2015011404A/ja active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016200858A (ja) * | 2015-04-07 | 2016-12-01 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP2017107503A (ja) * | 2015-12-11 | 2017-06-15 | 株式会社リコー | 情報処理装置、情報処理方法、プログラムおよびシステム |
WO2017187641A1 (ja) * | 2016-04-28 | 2017-11-02 | 富士通株式会社 | 骨格推定装置、骨格推定方法および骨格推定プログラム |
JPWO2017187641A1 (ja) * | 2016-04-28 | 2018-11-29 | 富士通株式会社 | 骨格推定装置、骨格推定方法および骨格推定プログラム |
US10839550B2 (en) | 2016-04-28 | 2020-11-17 | Fujitsu Limited | Non-transitory computer-readable recording medium for storing skeleton estimation program, skeleton estimation device, and skeleton estimation method |
CN110546679A (zh) * | 2017-04-10 | 2019-12-06 | 富士通株式会社 | 识别装置、识别系统,识别方法以及识别程序 |
CN110546679B (zh) * | 2017-04-10 | 2022-11-01 | 富士通株式会社 | 识别装置、识别系统,识别方法以及存储介质 |
JP2020191665A (ja) * | 2020-08-03 | 2020-11-26 | パラマウントベッド株式会社 | 画像表示制御装置、画像表示システム及びプログラム |
JP7041211B2 (ja) | 2020-08-03 | 2022-03-23 | パラマウントベッド株式会社 | 画像表示制御装置、画像表示システム及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3467707B1 (en) | System and method for deep learning based hand gesture recognition in first person view | |
JP4689107B2 (ja) | 自律行動ロボット | |
EP3341851B1 (en) | Gesture based annotations | |
JP5881136B2 (ja) | 情報処理装置及び方法、並びにプログラム | |
JP2019028843A (ja) | 人物の視線方向を推定するための情報処理装置及び推定方法、並びに学習装置及び学習方法 | |
WO2013149586A1 (zh) | 一种腕上手势操控系统和方法 | |
CN111163906B (zh) | 能够移动的电子设备及其操作方法 | |
US20100208038A1 (en) | Method and system for gesture recognition | |
JP2015011404A (ja) | 動作認識処理装置 | |
KR20150130483A (ko) | 평면의 자연스러운 특성 타겟들의 인시츄 생성 | |
JP2015176253A (ja) | ジェスチャ認識装置およびジェスチャ認識装置の制御方法 | |
JP2009157767A (ja) | 顔画像認識装置、顔画像認識方法、顔画像認識プログラムおよびそのプログラムを記録した記録媒体 | |
US20150379333A1 (en) | Three-Dimensional Motion Analysis System | |
JP2012079167A (ja) | 情報処理装置、情報処理システムおよび情報処理方法 | |
JP2009199417A (ja) | 顔追跡装置及び顔追跡方法 | |
JP2007280417A (ja) | 姿勢認識装置及び自律ロボット | |
JP2019048026A (ja) | 生体情報解析装置及び手肌解析方法 | |
CN108875506B (zh) | 人脸形状点跟踪方法、装置和系统及存储介质 | |
JPWO2016088410A1 (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP5408348B2 (ja) | ポインタ情報処理装置、ポインタ情報処理プログラムおよび会議システム | |
JP2020091658A (ja) | 撮像情報管理システム、撮像情報管理システムの制御方法及び撮像情報管理プログラム | |
US20180126561A1 (en) | Generation device, control method, robot device, call system, and computer-readable recording medium | |
KR101100240B1 (ko) | 멀티모달 상호작용을 이용한 로봇의 물체 학습 시스템 및 방법 | |
WO2020153038A1 (ja) | 情報処理装置、および情報処理方法 | |
JP7214092B2 (ja) | 画像制御装置、及びそのプログラム |