JP2015011404A

JP2015011404A - 動作認識処理装置

Info

Publication number: JP2015011404A
Application number: JP2013134250A
Authority: JP
Inventors: 康二佐藤; Koji Sato
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2013-06-26
Filing date: 2013-06-26
Publication date: 2015-01-19

Abstract

【課題】被写体に係る情報を利用して、動作の認識対象を選択することができる動作認識処理装置、会議システム、動作認識処理方法、及びコンピュータプログラムを提供することにある。【解決手段】撮像することにより得られる画像を用いて、該画像に含まれる被写体の複数の部分を特定する特定部と、該特定部が特定した複数の部分から一の部分を選択する選択部と、該選択部が選択した一の部分の動作を認識する認識部と、該認識部が認識した動作が所定の動作である場合、該所定の動作に対応する処理を行う処理部とを備える動作認識処理装置１は、前記画像又は外部から前記被写体に係る情報を取得する取得部を備え、前記選択部は、該取得部が取得した情報に基づき、前記特定部が特定した複数の部分から一の部分を選択するようにしてある。【選択図】図２

Description

本発明は、画像に含まれる被写体の動作に基づき処理を行う動作認識処理装置に関する。

撮像された画像に含まれる被写体の動作を認識し、認識した動作が予め設定された所定の動作であった場合に、その所定の動作に対応する処理を行うことが可能な動作認識処理装置が知られている。被写体は撮像装置に向かって動作を行い、動作認識処理装置はその動作を認識する。特許文献１に開示されている動作認識処理装置は、撮像位置から被写体までの距離に応じて、動作を認識する感度を調節する。そのため、被写体が撮像位置から離れた場所にいた場合であっても特許文献１に開示されている動作認識処理装置は、認識対象の動作について誤認識を抑制することができる。

特開２０１２−１３７９８９号公報

しかしながら、従来の動作認識処理装置においては、距離の情報を利用するだけでは被写体の動作を認識することができない虞があった。例えば、動作認識処理装置は被写体の一の部分を認識対象として選択し、選択した一の部分の動作を認識するとする。被写体は撮像位置に対して左向きに着座、即ち被写体の右腕の方が左腕よりも撮像位置に近い位置になるように着座していたとする。この場合、被写体は左腕により撮像装置に向かって動作をすることが自然と考えられるが、動作認識処理装置は右腕又は左腕の距離の情報を取得することができたとしても、右腕又は左腕の一方の動作を優先的に認識することを考慮していない。そのため、被写体が左腕で撮像装置に向かって動作を行っていたとしても、右腕を意図せず動かしていた場合、動作認識処理装置は右腕の動作を認識してしまい、被写体の自然な動作により動作認識処理装置に処理を行わせることができない虞がある。

本発明は斯かる事情に鑑みてなされたものであり、被写体に係る情報を利用して、動作の認識対象を選択することができる動作認識処理装置を提供することにある。

本発明に係る動作認識処理装置は、撮像することにより得られた画像を用いて、該画像に含まれる被写体の複数の部分を特定する特定部と、該特定部が特定した複数の部分から一の部分を選択する選択部と、該選択部が選択した一の部分の動作を認識する認識部と、該認識部が認識した動作が所定の動作である場合、該所定の動作に対応する処理を行う処理部とを備える動作認識処理装置であって、前記画像又は外部から前記被写体に係る情報を取得する取得部を備え、前記選択部は、該取得部が取得した情報に基づき、前記特定部が特定した複数の部分から一の部分を選択するようにしてあることを特徴とする。

本発明にあっては、特定部は撮像することにより得られた画像から、その画像に含まれる被写体の複数の部分を特定する。選択部は、特定部が特定した複数の部分から一の部分を選択する。認識部は、選択部が選択した一の部分の動作を認識する。認識部が認識した動作が所定の動作である場合、処理部はその所定の動作に対応する処理を行う。取得部は、画像から被写体に係る情報を取得する。選択部は、取得部が取得した情報に基づき、特定部が特定した複数の部分から一の部分を選択する。

本発明に係る動作認識処理装置は、前記被写体は人物であり、前記被写体に係る情報は前記画像内における該被写体の体又は顔の向きを含むことを特徴とする。

本発明にあっては、画像に含まれる被写体は人物である。取得部は、画像内における被写体の体又は顔の向きを含んだ情報を取得する。選択部は取得部が取得した画像内における被写体の体又は顔の向きに基づき、被写体の一の部分を選択する。

本発明に係る動作認識処理装置は、前記選択部は、前記被写体の体又は顔の向きが第１の向きであることが前記取得部により取得された情報に含まれるとき、前記被写体の一方の腕を選択するようにしてあり、前記被写体の体又は顔の向きが第２の向きであることが前記取得部により取得された情報に含まれるとき、前記被写体の他方の腕を選択するようにしてあることを特徴とする。

本発明にあっては、選択部は、取得部が取得した被写体の体又は顔の向きが第１の向きであったとき、被写体の一方の腕を選択する。選択部は、取得部が取得した被写体の体又は顔の向きが第２の向きであったとき、被写体の他方の腕を選択する。

本発明に係る動作認識処理装置は、前記被写体に係る情報は前記画像内における該被写体の位置を含むことを特徴とする。

本発明にあっては、取得部は、画像内における被写体の位置を含んだ情報を取得する。選択部は取得部が取得した画像内における被写体の位置に基づいて被写体の一の部分を選択する。

本発明に係る動作認識処理装置は、前記被写体は人物であり、前記選択部は、前記取得部が取得した位置が前記画像内の所定の第１領域に含まれているとき、前記被写体の一方の腕を選択するようにしてあり、前記取得部が取得した位置が前記画像内の前記第１領域とは異なる第２領域に含まれているとき、前記被写体の他方の腕を選択するようにしてあることを特徴とする。

本発明にあっては、被写体は人物である。選択部は、取得部が取得した位置が画像内における所定の第１領域に含まれるとき、被写体の一方の腕を選択する。また、選択部は、取得部が取得した位置が第１領域とは異なる所定の第２領域に含まれるとき、被写体の他方の腕を選択する。

本発明によれば、被写体に係る情報を利用して、動作の認識対象を選択することができる動作認識処理装置を提供することができる。

実施形態１における会議システムの構成を模式的に示す構成図である。実施形態１における端末装置の構成を示すブロック図である。モデルＤＢに記憶されているスケルトンモデルを概念的に表した説明図である。ジェスチャＤＢに記憶されているテーブルを示す説明図である。実施形態１における会議システムを使用する際の端末装置及び人物の位置関係を模式的に示す平面図である。カメラが撮像した画像の説明図である。実施形態１における人物のジェスチャにより端末装置が行う動作の処理手順を示したフローチャートである。実施形態１における人物のジェスチャにより端末装置が行う動作の処理手順を示したフローチャートである。実施形態１における認識対象の選択処理のサブルーチンを示したフローチャートである。実施形態２における端末装置の構成を示すブロック図である。実施形態２における人物のジェスチャにより端末装置が行う動作の処理手順を示したフローチャートである。実施形態２における認識対象の選択処理のサブルーチンを示したフローチャートである。実施形態３における認識対象の選択処理のサブルーチンを示したフローチャートである。実施形態４における人物のジェスチャにより端末装置が行う動作の処理手順を示したフローチャートである。対象者及び認識対象の選択処理のサブルーチンを示したフローチャートである。

以下、本発明をその実施形態を示す図面に基づいて詳述する。なお、以下の各実施形態においては、本発明における動作認識処理装置に相当する端末装置を複数用い、各端末で出力される画像、映像、及び音声等の情報を他の端末装置間での共有を実現する会議システムについて説明する。

（実施形態１）
図１は、実施形態１における会議システムの構成を模式的に示す構成図である。実施形態１における会議システムは、ネットワーク２に接続された２つの端末装置１を含んで構成される。２つの端末装置１は、有線又は無線通信によってネットワーク２と接続し、ネットワーク２を介して通信する。一方の端末装置１で出力される画像、映像、及び音声の情報を他方の端末装置１へ送信する。一方の端末装置１から受信した画像、映像、及び音声を他方の端末装置１が出力することにより、２つの端末装置１間において画像、映像、及び音声を共有した会議を実現する。例えば、２つの端末装置１間において画像Ａを共有し、一方の端末装置１が画像Ａに変更を加えた場合、他方の端末装置１にその変更内容が送信される。他方の端末装置１は受信した変更内容を出力することにより変更内容を反映することができる。ネットワーク２は、会議が行われる会社組織内の社内ＬＡＮ（Local Area Network）又はインターネット等の公衆通信網で構成される。なお、実施形態１においては、２つの端末装置１は、ネットワーク２を介して通信を行う例を示したが、２つの端末装置１同士が直接セッションを張って通信を行ってもよいし、サーバを介して通信を行ってもよい。

図２は、実施形態１における端末装置１の構成を示すブロック図である。端末装置１は、制御部１００を備える。制御部１００は、例えば一又は複数のＣＰＵ（Central Processing Unit）、マルチコアＣＰＵ等により構成される。また、制御部１００にはバスを介して、一時記憶部１０１、記憶部１０２、入力部１０３、出力部１０４、通信処理部１０５、映像処理部１０６、音声処理部１０７、タイマ部１０８、及び読取部１０９が接続されている。制御部１００は、後述の記憶部１０２に記憶されている制御プログラム４を読み出して実行することにより各部を制御する。

一時記憶部１０１は、ＳＲＡＭ（Static RAM）、ＤＲＡＭ（Dynamic RAM）等のメモリにより構成される。一時記憶部１０１は、制御部１００が制御プログラム４による処理を行うことによって生ずる各種データを一時記憶する。

記憶部１０２は、ＥＥＰＲＯＭ（Electrically Erasable and Programmable ROM）、フラッシュメモリ、ＨＤＤ（Hard Disk Drive）等の不揮発性メモリにより構成される。記憶部１０２には、制御プログラム４が記憶されている。制御プログラム４は、端末装置１が本発明に係る動作認識処理装置として動作するためのプログラムである。

また、記憶部１０２にはモデルＤＢ（DataBase）５が記憶されている。モデルＤＢ５には、スケルトンモデルが記憶されている。図３は、モデルＤＢ５に記憶されているスケルトンモデルを概念的に表した説明図である。スケルトンモデルとは、後述のカメラ１１６によって撮像された被写体を特定し、その被写体のジェスチャを認識するための人体の骨格を模したモデルである。ここで、ジェスチャとは、被写体が端末装置１に処理を行わせるための被写体の動作である。

スケルトンモデルは、人体の体幹に相当する中心部分５１を有する。中心部分５１の上部には、人体の右腕に相当する右腕部分５２及び人体の左腕に相当する左腕部分５３が接続され、中心部分５１の下部には、人体の右脚に相当する右脚部分５４、及び人体の左足に相当する左脚部分５５が接続されている。

中心部分５１は、頭部ジョイント５１ａ、胸部ジョイント５１ｂ、腹部ジョイント５１ｃ、及び臀部ジョイント５１ｄからなり、頭部ジョイント５１ａ、胸部ジョイント５１ｂ、腹部ジョイント５１ｃ、及び臀部ジョイント５１ｄの順に直列的に接続されている。

右腕部分５２は、胸部ジョイント５１ｂと接続されている右肩ジョイント５２ａと右肘ジョイント５２ｂ、右手首ジョイント５２ｃ、及び右手ジョイント５２ｄとからなる。右腕部分５２は、右肩ジョイント５２ａ、右肘ジョイント５２ｂ、右手首ジョイント５２ｃ、及び右手ジョイント５２ｄの順に直列的に接続されている。

左腕部分５３は、胸部ジョイント５１ｂに接続されている左肩ジョイント５３ａと左肘ジョイント５３ｂ、左手首ジョイント５３ｃ、及び左手ジョイント５３ｄとからなる。左腕部分５３は、左肩ジョイント５３ａ、左肘ジョイント５３ｂ、左手首ジョイント５３ｃ、及び左手ジョイント５３ｄの順に直列的に接続されている。

右脚部分５４は、臀部ジョイント５１ｄに接続されている右付け根ジョイント５４ａと右膝ジョイント５４ｂ、右足首ジョイント５４ｃ、及び右足ジョイント５４ｄとからなる。右脚部分５４は、右付け根ジョイント５４ａ、右膝ジョイント５４ｂ、右足首ジョイント５４ｃ、及び右足ジョイント５４ｄの順に直列的に接続されている。

左脚部分５５は、臀部ジョイント５１ｄに接続されている左付け根ジョイント５５ａと左膝ジョイント５５ｂ、左足首ジョイント５５ｃ、及び左足ジョイント５５ｄとからなる。左脚部分５５は、左付け根ジョイント５５ａ、左膝ジョイント５５ｂ、左足首ジョイント５５ｃ、及び左足ジョイント５５ｄの順に直列的に接続されている。

モデルＤＢ５は、スケルトンモデルの各ジョイント及び各ジョイントの接続関係を対応付けて記憶している。接続関係は例えば、頭部ジョイント５１ａは胸部ジョイント５１ｂと接続する関係、胸部ジョイント５１ｂは頭部ジョイント５１ａ、右肩５２ａ、及び左肩５３ａと接続する関係を示す。制御部１００は、カメラ１１６により撮像された被写体について、体の中心部分、左右の腕部分、及び左右の脚部分等の、被写体の体を構成する部分を推定する。制御部１００は、推定した被写体の各部分に、スケルトンモデルの各ジョイントを適合する。なお、被写体にスケルトンモデルを適合させる処理についての詳細は後述する。

更に、記憶部１０２にはジェスチャＤＢ６が記憶されている。ジェスチャＤＢ６は、被写体のジェスチャ及び制御部１００に行わせる処理コマンドを対応付けられているテーブルを記憶している。図４は、ジェスチャＤＢ６に記憶されているテーブルを示す説明図である。テーブルには、後述のカメラ１１６によって撮像された被写体のジェスチャ毎に制御部１００に行わせる処理コマンドが記憶されている。テーブルに示すジェスチャ１，２，３，・・・は夫々、所定の動作に対応する番号であり、その所定の動作はジェスチャＤＢ６に別途記憶されている。例えば、ジェスチャが１の場合、ディスプレイ１１４に表示されている画面のページ送りを行う。ジェスチャはスケルトンモデルの時系列的な動きを示し、その詳細は後述する。

入力部１０３には、操作部１１３が接続されている。操作部１１３は、タブレットで構成される。操作部１１３は後述のディスプレイ１１４に内蔵され、端末用ペン（図示略）による操作を受け付ける。入力部１０３はユーザが操作部１１３を介して入力した各種情報を制御部１００へ出力する。制御部１００は入力部１０３から出力された情報に応じた処理を実行する。なお、実施形態１において操作部１１３は、タブレットで構成されていることを説明したが、マウス、キーボード等の入力機器により構成されてもよい。その場合、操作部１１３は、ディスプレイ１１４に内蔵されない。

出力部１０４には、液晶パネル、又は有機ＥＬ等を用いるディスプレイ１１４が接続されている。制御部１００は、出力部１０４を介し、ディスプレイ１１４に会議システムで用いられるアプリケーション画面を出力し、アプリケーション画面内に共有させる画像を表示させる。また、出力部１０４はカメラ１１６で撮像した画像を表示させるようにしてもよい。その際、出力部１０４はカメラ１１６が撮像した画像をそのまま表示させてもよいし、画像の左右を反転させる処理を行った上で表示させてもよい。

通信処理部１０５は、端末装置１のネットワーク２を介した通信を実現させる。具体的には、ネットワーク２に接続されるネットワークＩ／Ｆ１１５と接続されており、ネットワーク２を介して送受信される情報のパケット化、パケットからの情報の読み取りなどを行う。なお、実施形態１の会議システムを実現するために、通信処理部１０５による画像、音声を送受信するための通信プロトコルは、Ｈ．３２３、ＳＩＰ、又はＨＴＴＰなどのプロトコルを用いる。通信プロトコルはこれらに限られない。

映像処理部１０６には、撮像部に相当するカメラ１１６が接続されている。カメラ１１６は、１秒間に数十回又は数百回等の頻度で撮像し、撮像した画像に係る画像信号を連続して映像データとして映像処理部１０６へ出力する。映像処理部１０６は、制御部１００の指令によりカメラ１１６の動作の制御を行うと共に、カメラ１１６にて撮像された映像データを取得する。

音声処理部１０７には、マイク１１７及びスピーカ１１８が接続されている。音声処理部１０７は、Ａ／Ｄ変換機能を有し、マイク１１７によって集音された音声をサンプリングしてデジタルの音声データへ変換し、制御部１００へ出力する。また、音声処理部１０７は制御部１００から音声データが与えられた場合に、音声としてスピーカ１１８から出力させるようにＤ／Ａ変換機能を有する。なお、マイク１１７はいわゆるマイクロホンアレーによって構成されてもよい。この場合、音声処理部１０７は音声が入力された方向に係る情報を取得し、音声データと共に制御部１００へ出力する。

タイマ部１０８は、制御部１００の指令により計時を開始及び終了することで時間を計時し、計時結果を制御部１００に与える。

読取部１０９は、ＣＤ−ＲＯＭ、ＤＶＤ、ブルーレイディスク、又はフレキシブルディスク等である記録媒体３から情報を読み取ることが可能である。制御部１００は、読取部１０９により読み出された記録媒体３に記録されているデータを、一時記憶部１０１に記憶するか、又は記憶部１０２に記憶する。記録媒体３には、制御部１００が実行することにより端末装置１が本発明に係る情報処理装置として動作するための制御プログラム３１が記録されている。記憶部１０２に記憶されている制御プログラム４は、記録媒体３から制御部１００が読み出した制御プログラム３１の複製であってもよい。

なお、実施形態１においては、操作部１１３、ディスプレイ１１４、カメラ１１６、マイク１１７、及びスピーカ１１８を端末装置１に内蔵する構成としたが、端末装置１に外部接続する構成としてもよい。

図５は、実施形態１における会議システムを使用する際の端末装置１及び人物の位置関係を模式的に示す平面図である。端末装置１が備えるディスプレイ１１４の正面に向かい、もう一方の端末装置１を使用している一又は複数の人物と人物Ｍ１〜Ｍ４が机Ｔを用いて会議をしている。

端末装置１の上部中央にはディスプレイ１１４の面と直交し、人物Ｍ１〜Ｍ４及び机Ｔを撮像可能な方向にカメラ１１６が搭載される。机Ｔは天板が略長方形であり、天板の長手方向はディスプレイ１１４の面と直交する方向に等しい。

人物Ｍ１は、カメラ１１６が撮像する方向から見て天板の右側の長辺における手前の位置に着座している。また人物Ｍ１の体及び顔は、カメラ１１６が撮像する方向から見て左側を向いている。ここで、実施形態１において、カメラ１１６が撮像する方向から見て右を第１方向とし、カメラ１１６から撮像する方向から見て左を第２方向とする。即ち人物Ｍ１の体及び顔は第２方向側を向いている。

人物Ｍ２は、人物Ｍ１と同じ天板の長辺における人物Ｍ１よりもディスプレイ１１４から遠い位置に着座している。また人物Ｍ２の体及び顔は、第２方向側を向いている。人物Ｍ３は、人物Ｍ１と異なる天板の長辺における人物Ｍ１とディスプレイ１１４からの距離が同程度の位置に着座している。また人物Ｍ３の体及び顔は、第１方向側を向いている。人物Ｍ４は、人物Ｍ３と同じ天板の長辺における人物Ｍ３よりもディスプレイ１１４から遠い位置に着座している。また人物Ｍ４の体及び顔は、第１方向側を向いている。

図６は、カメラ１１６が撮像した画像Ｂの説明図である。図６には、図５に示す端末装置１及び人物の位置関係において、カメラ１１６が撮像した画像が示されている。即ち画像Ｂには被写体として人物Ｍ１〜Ｍ４が含まれている。画像Ｂの座標系は、画像Ｂの左下を原点座標とし、原点座標から右へ向かう方向をｘ軸正方向、原点座標から上へ向かう方向をｙ軸正方向とする。ここで、ｘ軸正方向は上述の第１方向であり、ｘ軸負方向は上述の第２方向である。制御部１００はスケルトンモデルを適合する処理、人物のジェスチャを認識する処理、及び複数の人物の中からジェスチャを認識する対象を選択する処理を、カメラ１１６が撮像した画像を処理することにより行う。

人物Ｍ１〜Ｍ４はカメラ１１６に向かってジェスチャＤＢ６に記憶されているジェスチャを行う。カメラ１１６は、人物Ｍ１〜Ｍ４が行ったジェスチャを時系列的な画像として撮像する。制御部１００は、カメラ１１６が時系列的に撮像した画像からジェスチャを認識し、そのジェスチャに対応する処理を行う。

図７及び図８は、実施形態１における人物のジェスチャにより端末装置１が行う動作の処理手順を示したフローチャートである。端末装置１の制御部１００は、カメラ１１６が撮像した画像内の被写体についてモデル適合処理を行う（ステップＳ１１）。具体的には、制御部１００はカメラ１１６が撮像した画像から被写体を特定し、スケルトンモデルを適合する。スケルトンモデルを適合する方法としては例えば、画像から被写体に係る人物領域を抽出し、抽出した人物領域からスケルトンモデルの各ジョイントに相当する部分を推定する。その後、制御部１００は推定した部分に対応する各ジョイントを適合することにより実現する。人物領域の抽出方法は色ヒストグラムを用いた手法等の公知の画像処理アルゴリズム、パターン認識アルゴリズム等を用いることができる。人物領域からスケルトンモデルの各ジョイントに相当する部分を推定する方法は、人物領域の形状及び各ジョイントに相当する部分を学習した分類器を用いて推定する等の公知の画像処理アルゴリズム、パターン認識アルゴリズム等を用いることができる。

実施形態１においては、画像内に複数の被写体が存在する場合、少なくとも一の被写体についてスケルトンモデルを適合すればよく、全ての被写体についてスケルトンモデルを適合してもよい。また、抽出した人物領域において、時系列的に撮像された画像間の特徴量の変化が大きいこと等の所定の基準を満たした一部の被写体についてスケルトンモデルを適合してもよい。また、スケルトンモデルが複数適合された場合、夫々を識別可能にするためにＩＤが付与される。また、スケルトンモデルを適合する際に、全てのジョイントについて適合する必要はなく、被写体が着座している等の被写体の状況によって左右の脚部分を除くジョイントを適合する等が行われてもよい。なお、ステップＳ１１において、制御部１００が制御プログラム４を実行することにより本発明における特定部として機能する。

制御部１００は、ステップＳ１１にて適合したスケルトンモデルの追跡を開始する（ステップＳ１２）。スケルトンモデルの追跡とは、具体的にはステップＳ１１にて適合されたスケルトンモデルの各ジョイントの画像内における座標を、撮像された各画像において制御部１００が取得可能にすることである。即ち、ステップＳ１１にてスケルトンモデルが適合された後は、制御部１００は各画像においてスケルトンモデルを適合せずとも、各ジョイントの座標を取得することが可能となる。

制御部１００は、ステップＳ１１にて適合したスケルトンモデルの動きを認識し、そのスケルトンモデルが初期動作を行ったか否かを判定する（ステップＳ１３）。初期動作は、例えばスケルトンモデルの右手ジョイント５２ｄ又は左手のジョイント５３ｄにおける座標の１秒間の変位が所定の値以上であること等の予め設定された動作である。初期動作を行っていないと判定した場合（Ｓ１３：ＮＯ）、制御部１００はスケルトンモデルが初期動作を行うまで待機する。

初期動作を行ったと判定した場合（Ｓ１３：ＹＥＳ）、制御部１００は初期動作を行ったスケルトンモデルに係る被写体が複数人であるか否かを判定する（ステップＳ１４）。具体的には、ステップＳ１３で初期動作を行ったと判定した場合、制御部１００は順次一時記憶部１０１にスケルトンモデルのＩＤを記憶し、ステップＳ１４にて一時記憶部１０１に記憶されたＩＤの数を集計することにより判定する。複数人でないと判定した場合（Ｓ１４：ＮＯ）、即ち初期動作を行った被写体が一人であると判定した場合、制御部１００は処理をステップＳ１６へ進める。

複数人であると判定した場合（Ｓ１４：ＹＥＳ）、制御部１００はその複数人からジェスチャを認識する対象者を選択する（ステップＳ１５）。具体的には、制御部１００はステップＳ１４において判定された複数の被写体のスケルトンモデル夫々について、所定の基準ジョイント（例えば頭部ジョイント５１ａ）の座標値を用いて選択する。制御部１００は、ｙ軸の座標値が最小の基準ジョイントを持つスケルトンモデルを選択する。ここで、基準ジョイントのｙ軸の座標値が最小のスケルトンモデルが複数あった場合、ｘ軸の座標値が大きい基準ジョイントを持つスケルトンモデルを選択する。なお、基準ジョイントの座標値はステップＳ１５の処理に遷移した後最初に撮像された画像内における座標値でもよく、所定の時間間隔に亘って撮像された複数の画像内夫々における座標値の平均値でもよい。また、ステップＳ１５において制御部１００は、制御プログラム４を実行することにより本発明に係る対象選択部として機能する。

次いで、制御部１００は一の被写体に係るスケルトンモデルから、ジェスチャの認識対象の選択処理を行う（ステップＳ１６）。ステップＳ１６において、制御部１００はスケルトンモデルのジョイントの中からジェスチャを認識する対象を一又は複数選択する。なお、ステップＳ１６おける処理の詳細は後述する。

次いで、制御部１００はカメラ１１６にて撮像されている被写体にジェスチャを認識可能であることを通知する（ステップＳ１７）。被写体への通知は被写体に視覚的に行ってもよいし、聴覚的に行ってもよいし、その両方を組み合わせて行ってもよい。視覚的な通知とは、制御部１００がジェスチャ認識を行う被写体のスケルトンモデルをディスプレイ１１４に表示すること、出力部１０４が被写体をディスプレイ１１４に表示させていたとき、ジェスチャ認識を行う被写体を指すように矢印記号を表示すること等である。聴覚的な通知とは、ジェスチャ認識を行う被写体の氏名や着座位置等の情報を音声データに変換し、スピーカ１１８によって音声を出力することである。

ステップＳ１７にて通知を行った制御部１００は、制御部１００がジェスチャ認識を行う被写体が動作をしていない時間を計時するために、タイマ部１０８に指示を出し、計時を開始する（ステップＳ１８）。

その後、制御部１００はジェスチャ認識を行う被写体のジェスチャが開始したか否かを判定する（ステップＳ１９）。具体的には、ステップＳ１６にて選択された認識対象について、時系列的に撮像された画像間の座標の変位が所定の変位量を超えた場合に、制御部１００はジェスチャを開始したと判定する。ジェスチャが開始していないと判定した場合（Ｓ１９：ＮＯ）、制御部１００はタイマ部１０８が計時をしている時間が所定時間を経過したか否かを判定する（ステップＳ２０）。所定時間を経過していないと判定した場合（Ｓ２０：ＮＯ）、制御部１００は処理をステップＳ１９へ戻す。所定時間を経過したと判定した場合（Ｓ２０：ＹＥＳ）、制御部１００は処理を終える。

ステップＳ１９にてジェスチャが開始したと判定した場合（Ｓ１９：ＹＥＳ）、制御部１００は、ステップＳ１６にて選択された認識対象に係るジョイントの座標値を順次一時記憶部１０１に記憶する（ステップＳ２１）。具体的には、時系列的に撮像された画像において、制御部１００は認識対象に係るジョイントの撮像された全ての画像又は所定の時間間隔毎の画像における座標値を一時記憶部１０１に記憶する。次いで、制御部１００は、被写体のジェスチャが終了したか否かを判定する（ステップＳ２２）。具体的には、時系列的に撮像された画像間の座標の変位が所定の変位量よりも少ない場合、所定時間以上座標の変位が無い場合等の所定の基準を満たした場合、制御部１００はジェスチャが終了したと判定する。ジェスチャが終了していないと判定した場合（Ｓ２２：ＮＯ）、制御部１００はステップＳ２１に処理を戻す。

ジェスチャが終了したと判定した場合（Ｓ２２：ＹＥＳ）、制御部１００はステップＳ２１にて一時記憶部１０１に記憶された座標値に基づきジェスチャの解釈を行う（ステップＳ２３）。具体的には、制御部１００は一時記憶部１０１に記憶された座標値の推移から、ステップＳ１６にて選択された認識対象のジョイントがカメラ１１６にて撮像された画像内においてどのような動きをしたかを解釈する。次いで制御部１００は、解釈したジェスチャが記憶部１０２に記憶されているジェスチャＤＢ６に存在するか否かを判定する（ステップＳ２４）。存在しないと判定した場合（Ｓ２４：ＮＯ）、制御部１００は処理を終える。なお、ステップＳ１９、ステップＳ２１〜ステップＳ２３において、制御部１００が制御プログラム４を実行することにより本発明における認識部として機能する。

解釈したジェスチャがジェスチャＤＢ６に存在すると判定した場合（Ｓ２４：ＹＥＳ）、制御部１００は、そのジェスチャに対応する処理コマンドを実行し（ステップＳ２５）、処理を終える。なお、ステップＳ２５において、制御部１００が制御プログラム４を実行することにより本発明における処理部として機能する。

図９は、実施形態１における認識対象の選択処理のサブルーチンを示したフローチャートである。端末装置１が備える制御部１００は、図７に示すステップＳ１１にて適合したスケルトンモデルの頭部ジョイント５１ａの座標を参照し、映像処理部１０６を介して被写体の顔部分の画像を取得する（ステップＳ３１）。その後制御部１００は、取得した顔部分の画像から特徴点を抽出すること等によって被写体の顔の向きを検出する（ステップＳ３２）。次いで、スケルトンモデル及びステップＳ３２で検出した顔の向きから被写体の体の向きを推定する（ステップＳ３３）。なお、ステップＳ３１〜ステップＳ３３において、制御部１００が制御プログラム４を実行することにより本発明における取得部として機能する。

次いで、制御部１００はステップＳ３３にて推定した被写体の体の向きが第１方向側か否かを判定する（ステップＳ３４）。第１方向側であると判定した場合（Ｓ３４：ＹＥＳ）、制御部１００は被写体のスケルトンモデルの左腕部分５３を認識対象として選択し（ステップＳ３５）、図７に示すステップＳ１６へ処理を戻す。一方、第１方向側でないと判定した場合（Ｓ３４：ＮＯ）、制御部１００は被写体のスケルトンモデルの右腕部分５２をジェスチャの認識対象として選択し（ステップＳ３６）、図７に示すステップＳ１６へ処理を戻す。なお、ステップＳ３５及びステップＳ３６で選択されるスケルトンモデルの右腕部分５２及び左腕部分５３は、右腕部分５２及び左腕部分５３夫々を構成する全てのジョイント選択する必要はなく、その中から一つ又は複数部分のジョイントを組み合わせて選択してよい。また、ステップＳ３４及びステップＳ３５並びにステップＳ３４及びステップＳ３６において、制御部１００が制御プログラム４を実行することにより本発明の選択部として機能する。

以上の構成及び処理によって、端末装置１はカメラ１１６にて撮像された画像に含まれる被写体の複数の部分をスケルトンモデルの適合により特定することができる。また、端末装置１は画像に複数の被写体が含まれている場合、ジェスチャを認識する一の被写体を選択することができる。更に、端末装置１はジェスチャを認識する被写体の体の向きに基づき、認識対象となる被写体の部分を選択することができる。加えて、端末装置１は選択された認識対象からジェスチャを認識し、そのジェスチャに対応する処理を行うことができる。

（実施形態２）
上述の実施形態１においては、カメラ１１６にて撮像された画像についてのみ処理を行うことによって、画像に含まれる被写体の動作を認識した。実施形態２においては、端末装置１に距離画像センサ７を更に備える構成とすることにより、距離画像センサ７が取得した距離の情報を付加して画像に含まれる被写体の動作を認識することを示す。なお、その他の構成及び作用は上述の実施形態１と同様であるため、同様の構成には同様の符号を付し、その詳細な説明及びその作用効果の説明を省略する。

図１０は、実施形態２における端末装置１の構成を示すブロック図である。映像処理部１０６には、距離画像センサ７が接続されている。距離画像センサ７は図示しない投光部及び受光部を備え、その距離画像センサ７及び対象までの距離を検出する。距離画像センサ７は、投光部により赤外線等の光線を投光し、対象から反射した光線を受光部にて受光する。具体的な距離の検出方法としては、三角測量によって検出する方法、投光から受光までの時間（ＴＯＦ（Time Of Flight））により検出する方法がある。三角測量によって検出する方法においては、対象が距離画像センサ７から遠くに離れるほど検出精度が低下する。一方、投光から受光までの時間により検出する方法では、検出精度の低下が少ない。

距離画像センサ７はカメラ１１６が撮像する範囲において、カメラ１１６が撮像した画像の奥行き方向の距離を検出できるように端末装置１に備えられる。画像の奥行き方向とは、図５に示す机Ｔの長手方向に等しい。以下、距離画像センサ７が検出する距離とは、カメラ１１６が撮像した画像の奥行き方向の距離を指す。なお、実施形態２において、距離画像センサ７を端末装置１に内蔵する構成としたが、端末装置１に外部接続する構成としてもよい。

映像処理部１０６は、カメラ１１６にて撮像された画像及び距離画像センサ７によって検出された距離によって、画像の座標系を３次元に拡張する。即ち、図６に示す画像Ｂはｘ軸及びｙ軸の直交する２軸の座標系であったが、実施形態２においては、更に画像の奥行き方向をｚ軸の正方向とするｘ軸、ｙ軸、及びｚ軸の直交する３軸の座標系として画像を扱う。端末装置１は、画像の座標を３次元として処理をすることが可能となるため、画像の奥行き方向を含めたジェスチャを認識することができる。制御部１００は、映像処理部１０６を介して、座標値を取得する。なお、距離画像センサ７によって検出された距離を制御部１００が取得するとき、制御部１００は距離取得部として機能する。

図１１は、実施形態２における人物のジェスチャにより端末装置１が行う動作の処理手順を示したフローチャートである。なお、実施形態２において、ステップＳ４１〜ステップＳ４３までの処理は、図８に示すステップＳ１８〜ステップＳ２０までの処理と同様であるため、詳細な説明を省略する。また、ステップＳ４５〜ステップＳ４９までの処理は、図８中のステップＳ２１〜ステップＳ２５までの処理と同様であるため、詳細な説明を省略する。更に、ステップＳ４１以前の以前の処理は、図７に示す処理と同様であるため詳細な説明を省略する。

ステップＳ４２においてジェスチャが開始したと判定した場合（Ｓ４２：ＹＥＳ）、制御部１００は、後述の図１２における認識対象の選択処理にて選択された認識対象のジェスチャについて座標値の補正をする（ステップＳ４４）。具体的には、制御部１００は、距離画像センサ７が検出した認識対象までの距離に応じて、予め決められた補正値によって、認識対象のｚ軸の座標値を補正する。上述のように距離画像センサ７が三角測量によって検出する方法を採用している場合、認識対象が距離画像センサ７から離れた距離にあったときに距離の検出精度が落ちるため、認識対象が距離画像センサ７の近くにいるか否かによってジェスチャの検出精度が変わる。ステップＳ４４においては、検出精度を距離画像センサ７からの距離に依存しないように座標値の補正を行う。補正値は、距離画像センサ７の投光部及び受光部の位置関係などから予め設定する。なお、距離画像センサ７が投光から受光までの時間により検出する方法を採用している場合、ステップＳ４４の処理は特に必要ない。

なお、モデル適合処理について、上述の実施形態１では図７に示すステップＳ１１において、制御部１００はカメラ１１６により撮像された画像を処理することによりスケルトンモデルの適合をしたが距離画像センサ７を用いてもよい。例えば、制御部１００は、画像及び距離画像センサ７によって得られた画像の範囲における距離の情報を用いて人物領域を抽出する。

図１２は、実施形態２における認識対象の選択処理のサブルーチンを示したフローチャートである。なお、以下に説明する箇所以外の処理については、図９において説明した処理と同様であるため、詳細な説明を省略する。制御部１００は、一の被写体の体の向きを検出する（ステップＳ５１）。具体的には、制御部１００は、一の被写体のスケルトンモデルにおける右腕部分５２又は右脚部分５４のｚ軸の座標値と、左腕部分５３又は左脚部分５５のｚ軸の座標値とを比較することによって検出する。例えば、右肩ジョイント５２ａのｚ軸の座標値が左肩ジョイント５３ａのｚ軸の座標値よりも小さい場合、ステップＳ５２において被写体は第１方向側を向いていることが検出される。一方、右肩ジョイント５２ａのｚ軸の座標値が左肩ジョイント５３ａのｚ軸の座標値よりも大きい場合、ステップＳ５２において被写体は第２方向側を向いていることが検出される。なお、ステップＳ５１において制御部１００が制御プログラム４を実行することにより、本発明の取得部として機能する。

以上の構成及び処理によって、端末装置１は、距離画像センサ７にて検出される画像の奥行き方向の距離に応じて、ジェスチャの認識を行うことができる。また、距離画像センサ７によって画像の奥行き方向についての情報を処理することができるため、被写体の部分を特定するためのスケルトンモデルの適合をより精度よく行うことができる。更に、画像の奥行き方向についての情報により、より多種類のジェスチャを認識することができる。

（実施形態３）
上述の実施形態１及び２においては、被写体のジェスチャの認識対象を選択する際に、被写体の体の向きの情報を用いた。実施形態３においては、被写体のジェスチャの認識対象を選択する際に、被写体の画像内における位置を用いる例を示す。なお、その他の構成及び作用は上述の実施形態１及び２と同様であるため、同様の構成には同様の符号を付し、その詳細な説明及びその作用効果の説明を省略する。

図１３は、実施形態３における認識対象の選択処理のサブルーチンを示したフローチャートである。端末装置１の制御部１００は、ジェスチャ認識の対象者である一の被写体の位置を検出する（ステップＳ６１）。具体的には上述の図７に示すステップＳ１５における処理と同様に、制御部１００は、一の被写体に係るスケルトンモデルが有する所定の基準ジョイント（例えば頭部ジョイント５１ａ）の座標値を画像内における被写体の位置とし、一時記憶部１０１に記憶する。なお、ステップＳ６１において制御部１００が制御プログラム４を実行することにより、本発明の取得部として機能する。

次いで、制御部１００は、ステップＳ６１にて検出した位置が画像内の所定の位置よりも左側にあるか否かを判定する（ステップＳ６２）。具体的には、制御部１００はステップＳ６１にて一時記憶した基準ジョイントのｙ軸の座標値が、所定の位置におけるｙ軸の座標値よりも小さい場合、左側にあると判定し、それ以外は右側にあると判定する。また、所定の位置とは、画像の中心等の予め設定された座標の値である。なお、所定の位置を基準とした左右の領域は夫々、本発明の第１領域及び第２領域に相当する。

所定の位置よりも左側にあると判定した場合（Ｓ６２：ＹＥＳ）、制御部１００は被写体の左腕部分を選択し（ステップＳ６３）、メインルーチンに処理を戻す。所定の位置よりも右側にあると判定した場合（Ｓ６２：ＮＯ）、制御部１００は被写体の右腕部分を選択し（ステップＳ６４）、メインルーチンに処理を戻す。なお、図１３に示すサブルーチンのメインルーチンは、実施形態１において説明した処理手順、即ち図７及び図８に示す処理手順又は実施形態２において説明した処理手順、即ち図７及び図１１に示す処理手順のどちらであってもよい。

以上の構成及び処理によって、端末装置１は被写体の画像における位置に基づいて認識対象を選択することができる。なお、実施形態３において、ステップＳ６３では、制御部１００は被写体の位置が所定の位置よりも左側にある場合、被写体の左腕を選択することを示したが、被写体のいる位置についてｙ軸の座標値が所定の範囲内にある場合に右腕部分を選択してもよい。ステップＳ６４も同様に、被写体のいる位置についてｙ軸の座標値がステップＳ６３で選択するときとは異なる所定の範囲内にあるか否かにより、左腕部分を選択してもよい。

（実施形態４）
上述の実施形態１〜３においては、ジェスチャを認識するための初期動作を行った被写体が複数人いた場合、予め設定された規則に従ってジェスチャを認識する被写体を選択した。実施形態４においては、初期動作を行った被写体の情報を用いてジェスチャ認識の対象者となる被写体を選択する例を示す。なお、その他の構成及び作用は上述の実施形態１〜３と同様であるため、同様の構成には同様の符号を付し、その詳細な説明及びその作用効果の説明を省略する。

図１４は、実施形態４における人物のジェスチャにより端末装置１が行う動作の処理手順を示したフローチャートである。実施形態４において、ステップＳ７１〜ステップＳ７４及びステップＳ７７における処理は、図７に示すステップＳ１１〜ステップＳ１４及びステップＳ１７における処理と同様であるため詳細な説明を省略する。また、ステップＳ７７以降の処理は、図８に示す処理又は図１１に示す処理の何れであってもよい。

上述の実施形態１〜３においては、図７のステップＳ１３にて説明したように、スケルトンモデルが初期動作を行ったと判定した場合、制御部１００はスケルトンモデルのＩＤを順次一時記憶部１０１に記憶した。実施形態４においては、ステップＳ７３においてスケルトンモデルが初期動作を行ったと判定した場合（Ｓ７３：ＹＥＳ）、制御部１００は、スケルトンモデルのＩＤ及び初期動作を行ったジョイント（例えば右手ジョイント５２ｄ）を対応付けて一時記憶部１０１に順次記憶する。なお、スケルトンモデルのＩＤと対応付けて一時記憶部１０１に記憶されるジョイントは、一又は複数の何れでもよい。

ステップＳ７３にて初期動作を行ったスケルトンモデルに係る被写体が複数人であると判定した場合（Ｓ７４：ＹＥＳ）、制御部１００は後述の対象者及び認識対象選択処理を行う（ステップＳ７５）。制御部１００はステップＳ７５において、複数人の被写体からジェスチャを認識する対象となる一の被写体を選択し、選択した被写体のジェスチャを認識する部分を選択する。一方、ステップＳ７３にて初期動作を行ったスケルトンモデルに係る被写体が複数人でないと判定した場合（Ｓ７４：ＮＯ）、制御部１００は認識対象の選択処理を行う（ステップＳ７６）。ここで、ステップＳ７６における処理は、上述の図９、図１２、又は図１３に示す処理の何れであってもよい。

図１５は、対象者及び認識対象の選択処理のサブルーチンを示したフローチャートである。制御部１００は、上述の一時記憶部１０１に記憶されているスケルトンモデルのＩＤを読み出す（ステップＳ８１）。次いで、制御部１００は読み出したＩＤのスケルトンモデルに係る被写体の体の向きを検出する（ステップＳ８２）。その後、制御部１００はステップＳ８２にて検出した被写体の体の向きが第１方向側か否かを判定する（ステップＳ８３）。ここで、ステップＳ８２及びステップＳ８３における処理は、図１２に示すステップＳ５１及びステップＳ５２の処理と同様であるため詳細な説明を省略する。

ステップＳ８３において、第１方向側であると判定した場合（Ｓ８３：ＹＥＳ）、制御部１００は、ステップＳ８１で読み出したＩＤのスケルトンモデルにおける初期動作が左腕部分５３の動作か否かを判定する（ステップＳ８４）。具体的には、制御部１００は一時記憶部１０１を参照し、ステップＳ８１で読み出したスケルトンモデルのＩＤにおいて、初期動作を行ったジョイントを読み出すことによって判定する。初期動作が左腕部分５３の動作であると判定した場合（Ｓ８４：ＹＥＳ）、制御部１００はステップＳ８１で読み出したＩＤのスケルトンモデルに係る被写体をジェスチャ認識の対象者とし、そのスケルトンモデルの左腕部分５３をジェスチャの認識対象として選択し（ステップＳ８５）、図１４に示すステップＳ７７に処理を戻す。なお、ステップＳ８４において判定されるスケルトンモデルの左腕部分５３は必ずしも、左腕部分５３を構成する全てのジョイントについて動作しているか否かを判定する必要はなく、その中から一つのジョイント又は一部のジョイントが動作しているか否かを判定してよい。また、ステップＳ８５で選択されるスケルトンモデルの左腕部分５３は、左腕部分５３を構成する全てのジョイント選択する必要はなく、その中から一つ又は複数部分のジョイントを組み合わせて選択してよい。

初期動作が左腕部分の動作でないと判定した場合（Ｓ８４：ＮＯ）、制御部１００は処理をステップＳ８８へ進める。

一方、ステップＳ８３において、第１方向側でないと判定した場合（ステップＳ８３：ＮＯ）、制御部１００は、ステップＳ８１で読み出したＩＤのスケルトンモデルにおける初期動作が右腕部分５２の動作か否かを判定する（ステップＳ８６）。具体的には、制御部１００は一時記憶部１０１を参照し、ステップＳ１０１で読み出したスケルトンモデルのＩＤにおいて、初期動作を行ったジョイントを読み出すことによって判定する。初期動作が右腕部分５２の動作であると判定した場合（Ｓ８６：ＹＥＳ）、制御部１００はステップＳ８１で読み出したＩＤのスケルトンモデルに係る被写体をジェスチャ認識の対象者とし、そのスケルトンモデルの右腕部分をジェスチャの認識対象として選択し（ステップＳ８７）、図１４に示すステップＳ７７に処理を戻す。なお、ステップＳ８６において判定されるスケルトンモデルの右腕部分５２は必ずしも、右腕部分５２を構成する全てのジョイントについて動作しているか否かを判定する必要はなく、その中から一つのジョイント又は一部のジョイントが動作しているか否かを判定してよい。また、ステップＳ８７で選択されるスケルトンモデルの右腕部分５２は、右腕部分５２を構成する全てのジョイント選択する必要はなく、その中から一つ又は複数部分のジョイントを組み合わせて選択してよい。

一方、ステップＳ８６において初期動作が右腕部分の動作ではないと判定した場合（Ｓ８６：ＮＯ）、制御部１００はステップＳ８１で読み出したＩＤ及びそのＩＤに対応付けて記憶されている初期動作を行ったジョイントの情報を一時記憶部１０１から削除する（ステップＳ８８）。

次いで、制御部１００は一時記憶部１０１にスケルトンモデルのＩＤが存在するか否かを判定する（ステップＳ８９）。ＩＤが存在すると判定した場合（Ｓ８９：ＹＥＳ）、制御部１００は処理をステップＳ８１へ戻す。

ＩＤが存在しないと判定した場合（Ｓ８９：ＮＯ）、制御部１００は、ステップＳ８１で読み出したＩＤのスケルトンモデルに係る被写体をジェスチャ認識の対象者とし、そのＩＤに対応する初期動作を行ったジョイントをジェスチャの認識対象として選択する（ステップＳ９０）。その後制御部１００は処理を図１４に示すステップＳ７７へ戻す。

以上の構成及び処理により、画像内に含まれる複数の被写体が初期動作をした場合であっても、夫々の被写体の情報に基づき、端末装置１がジェスチャ認識をする対象者及びその対象者の複数の部分からジェスチャの認識対象を選択することができる。なお、実施形態４においては、図１５に示すステップＳ８２の処理は、図９に示すステップＳ３１〜ステップＳ３３又は図１３に示すステップＳ６１と同様の処理を行ってもよい。

なお、上述の実施形態１〜４においては、２つの端末装置１間でネットワーク２を介して通信を行う会議システムにおいて、端末装置１夫々がジェスチャの認識をすることを説明したが、一の端末装置１のみの構成であってもよい。また、会議システムは、２つ以上の端末装置１間で通信を行うようにしてもよいし、端末装置１以外の画像、映像、及び音声等の情報が共有可能な端末装置と通信を行うようにしてもよい。

本発明に係る動作認識処理装置（１）は、撮像することにより得られた画像を用いて、該画像に含まれる被写体の複数の部分を特定する特定部（１００）と、該特定部（１００）が特定した複数の部分から一の部分を選択する選択部（１００）と、該選択部（１００）が選択した一の部分の動作を認識する認識部（１００）と、該認識部（１００）が認識した動作が所定の動作である場合、該所定の動作に対応する処理を行う処理部（１００）とを備える動作認識処理装置（１）であって、前記画像又は外部から前記被写体に係る情報を取得する取得部（１００）を備え、前記選択部（１００）は、該取得部（１００）が取得した情報に基づき、前記特定部（１００）が特定した複数の部分から一の部分を選択するようにしてあることを特徴とする。

本発明においては、被写体に係る情報を利用して、動作の認識対象を選択することができる。

本発明に係る動作認識処理装置（１）は、前記被写体は人物であり、前記被写体に係る情報は前記画像内における該被写体の体又は顔の向きを含むことを特徴とする。

本発明においては、画像内の被写体の体又は顔の向きによって、動作の認識対象を選択することができる。

本発明に係る動作認識処理装置（１）は、前記選択部（１００）は、前記被写体の体又は顔の向きが第１の向きであることが前記取得部（１００）により取得された情報に含まれるとき、前記被写体の一方の腕を選択するようにしてあり、前記被写体の体又は顔の向きが第２の向きであることが前記取得部（１００）により取得された情報に含まれるとき、前記被写体の他方の腕を選択するようにしてあることを特徴とする。

本発明においては、被写体の体又は顔の向きによって、被写体の右腕又は左腕の動作を優先的に認識することができる。

本発明に係る動作認識処理装置（１）は、前記被写体に係る情報は前記画像内における該被写体の位置を含むことを特徴とする。

本発明においては、画像内の被写体のいる位置によって、動作の認識対象を選択することができる。

本発明に係る動作認識処理装置（１）は、前記被写体は人物であり、前記選択部（１００）は、前記取得部（１００）が取得した位置が前記画像内の所定の第１領域に含まれているとき、前記被写体の一方の腕を選択するようにしてあり、前記取得部（１００）が取得した位置が前記画像内の前記第１領域とは異なる第２領域に含まれているとき、前記被写体の他方の腕を選択するようにしてあることを特徴とする。

本発明においては、被写体が画像データ内の所定の位置よりも右側又は左側にいるかによって、被写体の右腕又は左腕の動作を優先的に認識することができる。

本発明に係る動作認識処理装置（１）は、前記選択部（１００）が選択した一の部分及び所定の位置間の前記画像の奥行き方向に係る距離を取得する距離取得部（１００）を備え、該距離取得部（１００）が取得した距離に応じて前記選択部（１００）が選択した一部の動作を認識し、処理を行うようにしてあることを特徴とする。

本発明においては、所定の位置から被写体のいる位置までの画像の奥行き方向に係る距離に応じて認識対象の動作を認識するため、誤認識を抑制することができる。

本発明に係る動作認識処理装置は（１）は、前記画像は複数の被写体を含み、前記認識部（１００）が認識した動作に基づき、前記複数の被写体から一の被写体を選択する対象選択部（１００）を備え、前記処理部（１００）は、前記対象選択部（１００）により選択された一の被写体に係る動作について処理を行うようにしてあることを特徴とする。

本発明においては、画像データ内に複数の被写体が存在する場合であっても、処理対象となる一の被写体を選択することができる。

本発明に係る会議システムにおいては、上述の何れか一つに記載の動作認識処理装置（１）を少なくとも一つ含む複数の動作認識処理装置（１）を備え、各動作認識処理装置（１）は、前記被写体を含む画像を撮像する撮像部（１１６）と、複数の他の認識処理装置（１）との間で前記撮像部（１１６）により撮像された画像の送受信を行う通信部（１１５）と、該通信部（１１５）が受信した画像を表示する表示部（１１４）とを備えることを特徴とする。

本発明においては、例えば、複数の遠隔の拠点間において通信により会議をする場合であっても、各拠点において、被写体の動作による処理をすることができる。

本発明に係る会議システムにおいては、前記処理部１００は、前記表示部１１４の表示を変更するようにしてあることを特徴とする。

本願においては、被写体の動作によって表示を変更する処理をすることができる。

本発明に係る動作認識処理方法は、撮像することにより得られた画像を用いて、該画像に含まれる被写体の複数の部分を特定し、特定した複数の部分から一の部分を選択し、選択した一の部分の動作を認識し、認識した動作が所定の動作である場合、該所定の動作に対応する処理を行う動作認識処理方法において、前記画像又は外部から前記被写体に係る情報を取得し、取得した情報に基づき、前記複数の部分から一の部分を選択することを特徴とする。

本発明に係るコンピュータプログラムは、撮像することにより得られた画像を取得するコンピュータに、該画像に含まれる被写体の複数の部分を特定させ、特定させた複数の部分から一の部分を選択させ、選択した一の部分の動作を認識させ、認識させた動作が所定の動作である場合、該所定の動作に対応する処理を行わせるコンピュータプログラムにおいて、前記コンピュータに、前記画像から前記被写体に係る情報を取得させ、取得させた情報に基づき、前記複数の部分から一の部分を選択させることを特徴とする。

また、今回開示された実施形態は全ての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内での全ての変更が含まれることが意図される。

１端末装置（動作認識処理装置）
７距離画像センサ
３記録媒体
３１制御プログラム
１００制御部（特定部、選択部、認識部、取得部、距離取得部、対象選択部、処理部）
１１４ディスプレイ（表示部）
１１５ネットワークＩ／Ｆ（通信部）
１１６カメラ（撮像部）

Claims

撮像することにより得られた画像を用いて、該画像に含まれる被写体の複数の部分を特定する特定部と、該特定部が特定した複数の部分から一の部分を選択する選択部と、該選択部が選択した一の部分の動作を認識する認識部と、該認識部が認識した動作が所定の動作である場合、該所定の動作に対応する処理を行う処理部とを備える動作認識処理装置であって、
前記画像又は外部から前記被写体に係る情報を取得する取得部を備え、
前記選択部は、該取得部が取得した情報に基づき、前記特定部が特定した複数の部分から一の部分を選択するようにしてあること
を特徴とする動作認識処理装置。
前記被写体は人物であり、
前記被写体に係る情報は前記画像内における該被写体の体又は顔の向きを含むこと
を特徴とする請求項１に記載の動作認識処理装置。
前記選択部は、
前記被写体の体又は顔の向きが第１の向きであることが前記取得部により取得された情報に含まれるとき、前記被写体の一方の腕を選択するようにしてあり、
前記被写体の体又は顔の向きが第２の向きであることが前記取得部により取得された情報に含まれるとき、前記被写体の他方の腕を選択するようにしてあること
を特徴とする請求項２に記載の動作認識処理装置。
前記被写体に係る情報は前記画像内における該被写体の位置を含むこと
を特徴とする請求項１に記載の動作認識処理装置。
前記被写体は人物であり、
前記選択部は、
前記取得部が取得した位置が前記画像内の所定の第１領域に含まれているとき、前記被写体の一方の腕を選択するようにしてあり、
前記取得部が取得した位置が前記画像内の前記第１領域とは異なる第２領域に含まれているとき、前記被写体の他方の腕を選択するようにしてあること
を特徴とする請求項４に記載の動作認識処理装置。