JP2016200858A

JP2016200858A - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP2016200858A
Application number: JP2015078328A
Authority: JP
Inventors: 清士吉川; Kiyoshi Yoshikawa; 大久保　厚志; Atsushi Okubo; 厚志大久保; 健宮下; Takeshi Miyashita
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2015-04-07
Filing date: 2015-04-07
Publication date: 2016-12-01
Anticipated expiration: 2035-04-07
Also published as: US20170330569A1; CN107430857B; CN107430857A; US10332519B2; WO2016163068A1; JP6592940B2; EP3281087A1

Abstract

【課題】ユーザの身体のうち少なくとも一部の部位の位置の推定精度を向上させる情報処理装置、情報処理方法及びプログラムを提供する。
【解決手段】ユーザＵａの体肢のうち少なくとも前腕に相当する部位Ｕ１１ａ、肘に相当する部位Ｕ１３ａ、肩に相当する部位Ｕ１５ａの、位置及び向きのうち少なくともいずれかを示す位置情報の時系列に沿った変化に基づき、ユーザの体幹のうち少なくとも口元に相当する部位Ｕ２１ａの位置を推定する推定部を備える。
【選択図】図２

Description

本開示は、情報処理装置、情報処理方法、及びプログラムに関する。

近年、テレビ受像機のような各種家電機器や、カーナビゲーションシステムのような車載機器等のような各種機器を操作するためのユーザインタフェース（ＵＩ：User Interface）は多様化してきている。このようなＵＩの中には、ユーザが、音声や視線の動き等により指示内容を提示することで、ボタンやタッチパネル等のような操作デバイスによる直接的な操作を介することなく、各種機器の操作を可能としたものもある。

特開２０１１−４１０９６号公報

また、近年では、各種機器が利用される状況も多様化してきており、例えば、１つの機器を複数のユーザが使用するといった状況も想定され得る。このような状況下で使用を想定して、音声や視線の動き等に基づき各種機器を操作可能とするＵＩとして、操作者であるユーザにより提示される、音声や視線の動き等の情報を精度よく検出するための仕組みについても検討されている。例えば、特許文献１には、ユーザの位置の推定結果に応じて、マイク等のような集音部の指向性を制御することで、当該ユーザからの音声をよりよい品質で集音可能とするための技術の一例が開示されている。

一方で、上記に説明したような、ユーザにより提示される音声や視線の動き等の情報の検出精度をより向上させるために、当該ユーザの口元や眼等のような、当該情報の発信元となる部位の位置を精度よく推定することが可能な仕組みが求められている。

そこで、本開示では、ユーザの身体のうち少なくとも一部の部位の位置の推定精度をより向上させることが可能な、情報処理装置、情報処理方法、及びプログラムを提案する。

本開示によれば、ユーザの体肢のうち少なくとも一部の第１の部位の、位置及び向きのうち少なくともいずれかを示す位置情報の時系列に沿った変化に基づき、当該ユーザの体幹のうち少なくとも一部の第２の部位の位置を推定する推定部を備える、情報処理装置が提供される。

また、本開示によれば、プロセッサが、ユーザの体肢のうち少なくとも一部の第１の部位の、位置及び向きのうち少なくともいずれかを示す位置情報の時系列に沿った変化に基づき、当該ユーザの体幹のうち少なくとも一部の第２の部位の位置を推定することを含む、情報処理方法が提供される。

また、本開示によれば、コンピュータに、ユーザの体肢のうち少なくとも一部の第１の部位の、位置及び向きのうち少なくともいずれかを示す位置情報の時系列に沿った変化に基づき、当該ユーザの体幹のうち少なくとも一部の第２の部位の位置を推定することを実行させる、プログラムが提供される。

以上説明したように本開示によれば、ユーザの身体のうち一部の部位の位置の推定精度をより向上させることが可能な、情報処理装置、情報処理方法、及びプログラムが提供される。

なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の一実施形態に係る情報処理装置の概略的な構成の一例について説明するための説明図である。センサボックスの構成及び動作の概要について説明するための説明図である。ユーザの身体のうち所定の部位の位置や向きを認識する方法の一例について説明するための説明図である。同実施形態に係る情報処理装置の概要について説明するための説明図である。体幹及び体肢に対応する部分を模式的に示した図である。同実施形態に係る情報処理装置の機能構成の一例を示したブロック図である。対象世界モデル更新部の動作の概要について説明するための説明図である。人間モデルのデータ構造の一例について説明するための説明図である。同実施形態に係る情報処理装置の一連の処理の流れの一例を示したフローチャートである。変形例１に係る情報処理装置の動作の一例について説明するための説明図である。変形例１に係る情報処理装置の動作の他の一例について説明するための説明図である。変形例１に係る情報処理装置の動作の他の一例について説明するための説明図である。変形例２に係る情報処理装置の概要について説明するための説明図である。変形例２に係る情報処理装置の概要について説明するための説明図である。変形例３に係る情報処理装置の概要について説明するための説明図である。変形例３に係る情報処理装置の概要について説明するための説明図である。同実施形態に係る情報処理装置のハードウェア構成の一例を示した図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

なお、説明は以下の順序で行うものとする。
１．概略的構成
２．機能構成
３．処理
４．変形例
４．１．変形例１：指向性制御の一例
４．２．変形例２：システム構成の一例
４．３．変形例３：車載装置への適用例
５．ハードウェア構成
６．まとめ

＜１．概略的構成＞
まず、図１を参照して、本開示の一実施形態に係る情報処理装置の概略的な構成の一例について説明する。図１は、本実施形態に係る情報処理装置１の概略的な構成の一例について説明するための説明図である。図１に示すように、本実施形態に係る情報処理装置１は、センサボックス２０ａ及び２０ｂと、表示情報を提示するための出力部３０と、情報処理装置１の各種動作を制御する制御部が設けられた本体１０とを含む。なお、以降の説明では、センサボックス２０ａ及び２０ｂを特に区別しない場合には、単に「センサボックス２０」と称する場合がある。

出力部３０は、所謂プロジェクタとして構成されており、所定の投影面に対して、提示対象となる表示情報（例えば、操作画面）を投影することで、ユーザに当該表示情報を提示する。例えば、図１に示す例では、出力部３０は、所謂単焦点プロジェクタとして構成されており、参照符号９０で示された壁面に対して、操作画面等の表示情報を投影することで、当該表示情報をユーザに提示している。なお、以降の説明では、出力部３０により情報（即ち、表示情報）が投影される領域（即ち、投影面）を、「領域Ｒ１０」と称する場合がある。

また、情報処理装置１は、ユーザが、指差し等のように腕や手を用いた動作（ジェスチャ）や、音声入力により操作可能に構成されている。センサボックス２０は、ユーザによる腕や手を用いた動作（ジェスチャ）や音声入力等のように、当該ユーザが情報処理装置１を操作するために提示する情報を認識するための構成である。なお、図１に示す例では、センサボックス２０として、センサボックス２０ａ及び２０ｂの２つが設けられているが、必ずしも同構成に限定するものではなく、センサボックス２０の数は特に限定されない。

ここで、図２を参照して、センサボックス２０の概略的な構成及び動作の概要について説明する。図２は、センサボックス２０の構成及び動作の概要について説明するための説明図であり、図１に示す情報処理装置１を、鉛直方向の上部から見下ろした場合における当該情報処理装置１の概略的な構成の一例を示している。なお、図２では、説明をわかりやすくするために、情報処理装置１の構成のうち、センサボックス２０ａ及び２０ｂと、出力部３０とを提示し、その他の構成については図示を省略している。

図２に示すように、センサボックス２０は、検知部２１と、集音部２３とを含む。

集音部２３は、所謂マイクロフォン等のようにユーザからの音声入力を集音するための集音デバイスとして構成され得る。即ち、集音部２３は、ユーザからの音声入力を、音響情報として集音する。

また、集音部２３は、所謂指向性デバイスとして構成されており、音響情報を集音する領域の指向性を制御可能に構成されている。例えば、図２において、参照符号Ｒ２３ａは、センサボックス２０ａに設けられた集音部２３が音響情報を集音する領域の向き及び広さ（即ち、指向性）を模式的に示している。同様に、参照符号Ｒ２３ｂは、センサボックス２０ｂに設けられた集音部２３が音響情報を集音する領域の向き及び広さを模式的に示している。なお、以降では、参照符号Ｒ２３ａで示された領域を「集音領域Ｒ２３ａ」と称する場合がある。同様に、参照符号Ｒ２３ｂで示された領域を「集音領域Ｒ２３ｂ」と称する場合がある。また、集音領域Ｒ２３ａ及びＲ２３ｂを特に区別しない場合には、単に「集音領域Ｒ２３」と称する場合がある。

なお、詳細は後述するが、本実施形態に係る情報処理装置１は、ユーザの口元の位置を推定し、推定結果に基づき、集音部２３が推定された口元の位置を向くように当該集音部２３の指向性を制御する。このような構成により、集音部２３は、対象となるユーザ（例えば、操作者として認識されたユーザ）からの音声入力を精度よく集音することが可能となる。

特に、図１及び図２に示すように、ユーザが複数存在するような状況下において、一方のユーザＵａから音声入力を集音する場合には、他方のユーザＵｂからの音声入力が雑音として作用する場合がある。このような状況下においても、集音部２３がユーザＵａの口元の方向を向くように当該集音部２３の指向性が制御されることで、当該集音部２３は、ユーザＵｂからの音声入力の影響を抑制し、ユーザＵａからの音声入力を精度よく集音することが可能となる。

検知部２１は、ユーザによる腕や手等の部位を用いた動作、即ち、当該部位の位置や向きを検出するための、各種情報を取得する。

例えば、図２に示す例では、情報処理装置１（具体的には、本体１０に設けられた制御部）は、検知部２１による検知結果に基づき、ユーザの前腕に相当する部位Ｕ１１の位置や向きの変化を時系列に沿って検出し、当該検出結果に基づき、当該部位Ｕ１１を用いたユーザの動作を認識する。

例えば、図２において、参照符号Ｕ１１ａは、ユーザＵａの前腕に相当する部位を示しており、参照符号Ｌ１ａは、当該部位Ｕ１１ａの軸（長軸）を模式的に示している。即ち、情報処理装置１は、検知部２１による検知結果に基づき、部位Ｕ１１ａの位置や向きを検出し、当該結果に応じて軸Ｌ１ａを特定することで、ユーザが部位Ｕ１１により指し示す、領域Ｒ１０の位置（ひいては、領域Ｒ１０中に表示された表示情報）を特定することが可能となる。また、情報処理装置１は、時系列に沿った部位Ｕ１１ａの位置や向きの変化の認識結果を、所定の動作（ジェスチャ）に対応する部位Ｕ１１の位置や向きの変化のパターン（以降では、「動作パターン」と称する場合がある）と照合することで、当該部位Ｕ１１ａを用いたユーザＵａの動作（ジェスチャ）を認識することが可能となる。

同様に、参照符号Ｕ１１ｂは、ユーザＵｂの前腕に相当する部位を示しており、参照符号Ｌ１ｂは、当該部位Ｕ１１ｂの軸（長軸）を模式的に示している。即ち、情報処理装置１は、部位Ｕ１１ｂの位置や向きの検出結果に基づき、ユーザＵｂが部位Ｕ１１ｂにより指し示す領域Ｒ１０の位置や、当該部位Ｕ１１ａを用いた動作（ジェスチャ）を認識する

検知部２１は、ステレオイメージセンサ等のような、所謂測距センサにより構成され得る。図２において、参照符号Ｒ２１ａは、センサボックス２０ａに設けられた検知部２１の検出範囲の向き及び広さを模式的に示している。同様に、参照符号Ｒ２１ｂは、センサボックス２０ｂに設けられた検知部２１の検出範囲の向き及び広さを模式的に示している。なお、以降の説明では、検出範囲Ｒ２１ａ及びＲ２１ｂを特に区別しない場合には、単に「検出範囲Ｒ２１」と称する場合がある。

ここで、図３を参照して、検知部２１として測距センサを適用した場合に、検知部２１による検知結果に基づき、ユーザの身体のうち所定の部位の位置や向きを認識する方法の一例について説明する。図３は、ユーザの身体のうち所定の部位の位置や向きを認識する方法の一例について説明するための説明図である。

例えば、検知部２１に、検出範囲Ｒ２１中を走査させながら、当該検出範囲Ｒ２１に存在するユーザとの間の距離を検出させ、当該検知部２１による各検出結果をマッピングすると、図３に示すような、各検出結果を示す点情報の集合が得られる。なお、以降では、図３に示すように、検知部２１による検出結果を示す点情報の集合を、「ポイントクラウド」と称する場合がある。

情報処理装置１は、検知部２１による検出結果に基づき取得したポイントクラウドのうち、例えば、各点情報の位置関係（分布の傾向）や、各点情報の時系列に沿った動きの傾向等に基づき、同じ物体と思われる点情報の集合を塊としてまとめる。情報処理装置１は、このようにして取得された各塊の中から、各塊の形状的な特徴、各塊間の位置関係、及び各塊の位置及び向きの変化等に基づき、所定の部位に相当する塊を抽出する。また、このとき、情報処理装置１は、例えば、各塊に含まれる点情報に対して主成分分析を施すことで、当該塊に含まれる点情報に基づく主成分（分散の最も大きい軸）を主軸として検出し、当該主軸の検出結果に基づき、塊の形状や向き（主軸の向き）を特定してもよい。

以上のような処理により、情報処理装置１は、例えば、図３に示すように、ユーザの右腕の前腕に相当する部位Ｕ１１に対応する長尺状の塊と、当該長尺状の塊の主軸Ｌ１とを、ポイントクラウド中から抽出することが可能となる。同様にして、情報処理装置１は、ユーザの左腕の前腕に相当する部位Ｕ１１’に対応する長尺状の塊と、当該長尺状の塊の主軸Ｌ１’とを、ポイントクラウド中から抽出することも可能であることは言うまでもない。

なお、情報処理装置１が、ユーザの所定の部位（例えば、図２における前腕に相当する部位Ｕ１１）の位置や向きを認識することができれば、検知部２１の構成は、上記に説明した所謂測距センサには限定されない。具体的な一例として、検知部２１は、被写体の画像を撮像するための撮像部として構成されていてもよい。この場合には、情報処理装置１は、検知部２１により撮像されたユーザの画像に対して画像解析を施すことで、所定の部位（例えば、前腕に相当する部位Ｕ１１）の位置や向きを検出してもよい。

また、情報処理装置１が、ユーザの所定の部位の位置や向きを認識できれば、当該認識のための情報を取得する主体は、必ずしもセンサボックス２０に設けられた検知部２１には限定されない。例えば、情報処理装置１は、ユーザの所定の部位に装着された所謂ウェアラブルデバイスの検出結果に基づき、当該所定の部位の位置や向きを認識してもよい。

具体的な一例として、ウェアラブルデバイスに、ＧＰＳ（Global Positioning System）や、加速度センサや角速度センサ等の各種センサ等の検出デバイスを設け、情報処理装置１は、当該検出デバイスの検出結果を利用してもよい。この場合には、情報処理装置１は、当該検出デバイスの検出結果に基づき、ウェアラブルデバイスの位置や向きを認識し、当該ウェアラブルデバイスの位置や向きの認識結果に基づき、ウェアラブルデバイスが装着された腕の位置や向きを認識すればよい。

また、他の一例として、ユーザの所定の部位の位置や向きの認識に、光学センサや赤外線センサ等のような、特定の検出範囲へのユーザ（換言すると、腕等の部位）の進入を検知するセンサを用いてもよい。具体的には、検出範囲が互いに異なる複数のセンサを設けることで、情報処理装置１は、各センサの検出結果に基づき、ユーザの腕等の部位が、いずれのセンサの検出範囲に位置しているかを認識することが可能となる。

また、本実施形態に係る情報処理装置１は、ユーザの所定の部位Ｕ１１の位置や向きの認識結果に基づき、当該ユーザの他の部位の位置や向きを推定する。例えば、図４は、本実施形態に係る情報処理装置１の概要について説明するための説明図であり、情報処理装置１が、部位Ｕ１１の認識結果に基づき、他の部位の位置や向きを推定するための処理の一例について説明するための図である。

例えば、図４に示す例では、情報処理装置１は、ユーザの前腕に相当する部位Ｕ１１の位置や向きの認識結果に基づき、当該ユーザの口元に相当する部位Ｕ２１の位置や向きを推定している。

具体的には、情報処理装置１は、前腕に相当する部位Ｕ１１の位置や向きの時系列に沿った変化に基づき、当該部位Ｕ１１の可動範囲を認識し、認識した可動範囲に基づき、部位Ｕ１１の動作の基点となる肘に相当する部位Ｕ１３の位置や向きを推定する。換言すると、情報処理装置１は、前腕に相当する部位Ｕ１１の動きの軌跡（即ち、部位Ｕ１１の位置や向きの履歴）に基づき、当該部位Ｕ１１の可動範囲を認識し、認識した可動範囲に基づき、肘に相当する部位Ｕ１３の位置や向きを推定する。また、情報処理装置１は、肘に相当する部位Ｕ１３の位置や向きの時系列に沿った変化に基づき、当該部位Ｕ１３の可動範囲を推定し、推定した可動範囲に基づき、部位Ｕ１３の動作の基点となる肩に相当する部位Ｕ１５の位置や向きを推定する。換言すると、情報処理装置１は、肘に相当する部位Ｕ１３の動きの軌跡（即ち、部位Ｕ１３の位置や向きの履歴）に基づき、当該部位Ｕ１３の可動範囲を認識し、認識した可動範囲に基づき、肩に相当する部位Ｕ１５の位置や向きを推定する。そして、情報処理装置１は、肩に相当する部位Ｕ１５の位置や向きの推定結果に基づき、口元に相当する部位Ｕ２１の位置を推定する。

また、このとき情報処理装置１は、他の方の腕についても同様にして、肩に相当する部位Ｕ１５’の位置や向きを推定し、当該推定結果を、口元に相当する部位Ｕ２１の推定に利用することで、当該部位Ｕ２１の推定の精度を向上させてもよい。

なお、図４に示す例はあくまで一例であり、情報処理装置１が、ユーザの一部の部位（例えば、部位Ｕ１１）の位置や向きの認識結果に基づき、他の部位（例えば、部位Ｕ２１）の位置や向きが推定できれば、対象となる部位は特に限定されない。

なお、情報処理装置１が位置や向きの推定対象とする部位は、ユーザの身体のうち、相対的に動きのより小さい部位が望ましい。推定対象となる部位としては、例えば、ユーザの体幹に含まれる、うち少なくとも一部の部位が挙げられる。

なお、本説明では、体幹とは、身体のうち、体肢を除いた部分を示すものとする。体幹には、例えば、頭部、頸部、胸部、腹部、骨盤部、及び尾部が含まれる。また、体肢とは、体幹から延びる手足に相当し、前肢（上肢）及び後肢（下肢）が含まれる。例えば、図５は、本説明において体幹及び体肢と称する部分を模式的に示した図である。図５において、参照符号Ｕ１０で示された部分が体肢に相当し、参照符号Ｕ２０で示された部分が体幹に相当する。

また、情報処理装置１が、検知部２１の検出結果に基づく認識の対象とする部位（即ち、他の部位の位置や向きを推定するために利用する部位）は、ユーザの身体のうち、相対的に動きのより大きい部位が望ましい。認識の対象となる部位としては、例えば、ユーザの体肢に含まれる、少なくとも一部の部位が挙げられる。また、他の一例として、可動範囲が所定の閾値以上（例えば、９０度以上）の部位が、検知部２１の検出結果に基づく認識の対象とされてもよい。また、他の一例として、動きの自由度として少なくとも２自由度を有する部位が、検知部２１の検出結果に基づく認識の対象とされてもよい。

以上のようにして、情報処理装置１は、ユーザの口元の位置を推定し、集音部２３の集音領域Ｒ２３推定した口元の方向を向くように、当該集音部２３の指向性を制御する。

例えば、図２に示す例の場合には、情報処理装置１は、ユーザＵａの前腕に相当する部位Ｕ１１ａの位置及び向きの変化に基づき、肘に相当する部位Ｕ１３ａ及び肩に相当する部位Ｕ１５ａの位置及び向きを、それぞれ順次推定する。そして、情報処理装置１は、肩に相当する部位Ｕ１５ａの推定結果に基づき、口元に相当する部位Ｕ２１ａの位置及び向きを推定し、センサボックス２０ａの集音部２３の集音領域Ｒ２３ａが当該部位Ｕ２１ａの方向を向くように、当該集音部２３の指向性を制御する。これにより、情報処理装置１は、センサボックス２０ａの集音部２３により、ユーザＵａからの音声入力を精度よく集音することが可能となる。

同様に、情報処理装置１は、ユーザＵｂの前腕に相当する部位Ｕ１１ｂの位置及び向きの変化に基づき、肘に相当する部位Ｕ１３ｂ及び肩に相当する部位Ｕ１５ｂの位置及び向きを、それぞれ順次推定する。そして、情報処理装置１は、肩に相当する部位Ｕ１５ｂの推定結果に基づき、口元に相当する部位Ｕ２１ｂの位置及び向きを推定し、センサボックス２０ｂの集音部２３の集音領域Ｒ２３ｂが当該部位Ｕ２１ｂの方向を向くように、当該集音部２３の指向性を制御する。これにより、情報処理装置１は、センサボックス２０ｂの集音部２３により、ユーザＵｂからの音声入力を精度よく集音することが可能となる。

以上のようにして、情報処理装置１は、ユーザによる腕や手を用いた動作を認識し、認識結果に応じて、ユーザが指し示す領域Ｒ１０中に表示された表示情報（各種コンテンツの表示オブジェクト）や、当該表示情報に対する操作の内容を認識する。また、情報処理装置１は、ユーザから発話された音声を集音し、集音した音声に対して所謂音声認識技術を適用することで、ユーザから音声入力により指示された内容を認識する。そして、情報処理装置１は、認識したユーザ操作に応じて各種処理（例えば、アプリケーション）を実行し、実行結果に応じて領域Ｒ１０に表示された表示情報が更新されるように、出力部３０の動作を制御する。

以上、図１〜図５を参照して、本実施形態に係る情報処理装置１の概要について説明した。

なお、上記に説明した例は、あくまで一例であり、情報処理装置１による指向性制御の対象は、必ずしもマイクロフォン等のような集音部２３には限定されない。

具体的な一例として、上記に説明した部位の推定と、当該推定結果に基づく指向性制御を、所謂、ユーザの視線の認識に係る処理に応用してもよい。この場合には、例えば、情報処理装置１は、ユーザの前腕に相当する部位Ｕ１１の位置及び向きの認識結果に基づき、肘、肩の順で位置及び向きを順次推定し、当該推定結果に基づき、ユーザの眼の位置及び向きを推定してもよい。そして、情報処理装置１は、被写体を撮像する撮像部の撮像領域が、ユーザの眼の方向を向くように、当該撮像部の向きを制御してもよい。

これにより、情報処理装置１は、ユーザの視線を認識するために、当該ユーザの眼の近傍の領域のみを撮像することが可能となり、画角の狭い撮像部を使用した場合においても、当該ユーザの視線を認識することが可能となる。また、当該情報処理装置１は、ユーザの眼の近傍のみを撮像することが可能となるため、当該眼の近傍を含むより広い領域を撮像する場合に比べて、視線認識のための画像処理の負荷を低減することが可能となる。

同様にして、上記に説明した部位の推定と、当該推定結果に基づく指向性制御を、所謂、ユーザの顔認識に係る処理に応用してもよい。この場合には、例えば、情報処理装置１は、ユーザの前腕に相当する部位Ｕ１１の位置及び向きの認識結果に基づき、肩に相当する部位Ｕ１５の位置及び向きを推定し、当該推定結果に基づき、ユーザの顔の位置及び向きを推定すればよい。そして、情報処理装置１は、被写体を撮像する撮像部の撮像領域が、ユーザの顔の方向を向くように、当該撮像部の向きを制御してもよい。

また、他の一例として、上記に説明した部位の推定と、当該推定結果に基づく指向性制御を、所謂、スピーカ等の音響デバイスの指向性制御に係る処理に応用してもよい。この場合には、例えば、情報処理装置１は、ユーザの前腕に相当する部位Ｕ１１の位置及び向きの認識結果に基づき、肩に相当する部位Ｕ１５の位置及び向きを推定し、当該推定結果に基づき、ユーザの耳の位置及び向きを推定してもよい。そして、情報処理装置１は、スピーカ等の音響デバイスが音響情報を出力する方向が、ユーザの耳の方向を向くように、当該音響デバイスの指向性を制御してもよい。

これにより、情報処理装置１は、ユーザが複数存在するような状況下においても、特定のユーザが音響情報を認識できるように、当該ユーザに向けて音響情報を出力することが可能となる。

＜２．機能構成＞
次に、図６を参照して、本実施形態に係る情報処理装置１の機能構成の一例について説明する。図６は、本実施形態に係る情報処理装置１の機能構成の一例を示したブロック図であり、図１に示した情報処理装置１の機能構成の一例を示している。

図６に示すように、本実施形態に係る情報処理装置１は、制御部１１と、センサボックス２０ａ及び２０ｂと、出力部３０と、記憶部４０とを含む。なお、センサボックス２０ａ及び２０ｂと、出力部３０とは、図２を参照して説明したセンサボックス２０ａ及び２０ｂと、出力部３０とにそれぞれ対応している。そのため、センサボックス２０ａ及び２０ｂと、出力部３０とについては、詳細な説明は省略する。なお、本説明では、図２に示す例と同様に、センサボックス２０（例えば、センサボックス２０ａ及び２０ｂのそれぞれ）は、検知部２１と、集音部２３とを含むものとする。

図６に示すように、制御部１１は、対象認識部１２と、音声認識部１３と、対象世界モデル更新部１４と、指向性制御部１５と、入力解析部１６と、処理実行部１７と、出力制御部１８とを含む。

対象認識部１２は、各センサボックス２０の検知部２１から、当該検知部２１の検出範囲Ｒ２１中に存在するオブジェクト（例えば、ユーザの身体の少なくとも一部）の検知結果を取得する。対象認識部１２は、取得した検知結果を解析することで、対象となる部位の情報を抽出し、抽出結果に基づき当該部位の位置や向きを認識する。

なお、検知部２１による検知結果に基づき、対象となる部位の位置や向きを認識する方法については、図３を参照して前述した通りである。即ち、図３に示す例の場合には、対象認識部１２は、測距センサとして構成された検知部２１の検知結果に基づき、ユーザの前腕に相当する部位Ｕ１１の位置や向きを認識する。なお、以降の説明では、対象認識部１２は、検知部２１による検知結果に基づき、ユーザの前腕に相当する部位Ｕ１１の位置や向きを認識するものとする。

そして、対象認識部１２は、対象となる部位Ｕ１１の位置や向きの認識結果を示す制御情報を、検知部２１ごと（もしくは、センサボックス２０ごと）に、対象世界モデル更新部１４に出力する。

音声認識部１３は、各センサボックスの集音部２３から、集音された音響情報を取得する。音声認識部１３は、取得した音響情報から音声区間を検出し、当該音響情報から当該音声区間に相当する部分（即ち、音響信号）を音声入力として抽出する。音声認識部１３は、抽出した音声入力を、所謂音声認識技術に基づき解析することで、文字情報に変換する。

そして、音声認識部１３は、音声認識技術に基づく解析の結果（以降では、「音声認識の結果」と称する場合がある）、即ち、音声入力が変換された文字情報を、集音部２３ごと（もしくは、センサボックス２０ごと）に、対象世界モデル更新部１４に出力する。

対象世界モデル更新部１４は、対象認識部１２から、対象となる部位Ｕ１１の位置や向きの認識結果を示す制御情報を、検知部２１ごとに取得する。

なお、このとき検知部２１ごとに取得される制御情報が示す、部位Ｕ１１の位置や向きは、当該検知部２１に対する部位Ｕ１１の相対的な位置関係を示している。そこで、対象世界モデル更新部１４は、各検知部２１の位置や向き（具体的には、検知部２１ごとの検出範囲Ｒ２１の位置関係）に基づき、検知部２１ごとの部位Ｕ１１の認識結果を統合し、各検知部２１が配置された空間中における当該部位Ｕ１１の絶対位置を認識する。

なお、各検知部２１間の位置関係については、対象世界モデル更新部１４は、事前のキャリブレーションや、ユーザからのデータ入力等に基づき、あらかじめ認識すればよい。また、他の一例として、対象世界モデル更新部１４は、各センサ間の位置関係を、各種センサの検知結果や、撮像部により撮像された画像の解析等に基づき、自動的に認識してもよい。

ここで、図７を参照して、対象世界モデル更新部１４の動作の概要について説明する。図７は、対象世界モデル更新部１４の動作の概要について説明するための説明図である。図７において、センサＡ〜Ｃは、例えば、センサボックス２０ごとに設けられた検知部２１を模式的に示している。また、参照符号Ｐ１〜Ｐ５は、各センサの検出対象となるオブジェクト（例えば、ユーザの身体の少なくとも一部）を模式的に示している。

図７に示す例では、センサＡの検出範囲中には、オブジェクトＰ１及びＰ２が存在している。また、センサＢの検出範囲中には、オブジェクトＰ２、Ｐ３、及びＰ４が存在している。このとき、オブジェクトＰ２は、センサＡ及びＢ双方の検出範囲中に存在していることとなる。同様に、センサＣの検出範囲中には、オブジェクトＰ４及びＰ５が存在している。このとき、オブジェクトＰ２は、センサＡ及びＢ双方の検出範囲中に存在していることとなる。

また、図７において、参照符号Ｄ１０ａで示されたデータは、センサＡの検知結果に基づき認識されたオブジェクトと、当該オブジェクトの位置情報とを示している。なお、このとき認識される各オブジェクトの位置情報は、センサＡを基準とした相対的な位置情報（即ち、相対空間座標）に相当する。また、以降の説明では、参照符号Ｄ１０ａで示されたデータを、センサＡに対応する「対象世界モデルＤ１０ａ」と称する場合がある。

例えば、対象世界モデルＤ１０ａにおいて、識別子「ＩＤＡ００１」で示された、相対空間座標（Ｘａ１，Ｙａ１，Ｚａ１）に位置するオブジェクトは、図７中のオブジェクトＰ１を示している。また、識別子「ＩＤＡ００２」で示された、相対空間座標（Ｘａ２，Ｙａ２，Ｚａ２）に位置するオブジェクトは、図７中のオブジェクトＰ２を示している。

また、参照符号Ｄ１０ｂで示されたデータは、センサＢの検知結果に基づき認識されたオブジェクトと、当該オブジェクトの位置情報とを示した、センサＢに対応する対象世界モデルＤ１０ｂに相当する。即ち、対象世界モデルＤ１０ｂにおいて、識別子「ＩＤＢ００１」で示されたデータはオブジェクトＰ２に対応している。同様に、識別子「ＩＤＢ００２」で示されたデータはオブジェクトＰ３に対応し、識別子「ＩＤＢ００３」で示されたデータはオブジェクトＰ４に対応している。

同様に、参照符号Ｄ１０ｃで示されたデータは、センサＣの検知結果に基づき認識されたオブジェクトと、当該オブジェクトの位置情報とを示した、センサＣに対応する対象世界モデルＤ１０ｃに相当する。即ち、対象世界モデルＤ１０ｃにおいて、識別子「ＩＤＣ００１」で示されたデータはオブジェクトＰ４に対応し、識別子「ＩＤＣ００２」で示されたデータはオブジェクトＰ５に対応している。

なお、以降の説明では、対象世界モデルＤ１０ａ〜Ｄ１０ｃを特に区別せずに、単に、センサごとの対象世界モデルを示す場合には、「対象世界モデルＤ１０」と称する場合がある。また、センサごとの対象世界モデルＤ１０が、対象認識部１２により、検知部２１ごとの、対象となる部位Ｕ１１の位置や向きの認識結果を示す制御情報に相当する。

対象世界モデル更新部１４は、検知部２１ごと（即ち、センサごと）に取得された対象世界モデルＤ１０を、あらかじめ認識した各検知部２１間の位置関係に基づき統合し、各検知部２１が配置された空間中における絶対位置を示す、対象世界モデルＤ３０を生成または更新する。

具体的な一例として、対象世界モデル更新部１４は、各検知部２１間の位置関係に基づき、各検知部２１それぞれの検出範囲Ｒ２１を、各検知部２１が配置された空間中の位置（絶対位置）としてマッピングする。なお、以降では、各検知部２１が配置された空間中の座標を、「絶対空間座標」と称する場合がある。

そして、対象世界モデル更新部１４は、検知部２１ごとの対象世界モデルＤ１０に基づき、各検知部２１により検知されたオブジェクトを、絶対空間座標中にマッピングする。なお、このとき対象世界モデル更新部１４は、各検知部２１間の位置関係に基づき、互いに異なる検知部２１間で検出された各オブジェクトの情報の中から、同一のオブジェクトを示す情報を関連付ける。

例えば、図７に示す例の場合には、対象世界モデル更新部１４は、センサＡ及びＢ間の位置関係に基づき、対象世界モデルＤ１０ａ中の「識別子ＩＤＡ００２」で示されたオブジェクトと、対象世界モデルＤ１０ｂ中の「識別子ＩＤＢ００１」で示されたオブジェクトとが、同一のオブジェクトであることを認識する。そのため、対象世界モデル更新部１４は、「識別子ＩＤＡ００２」で示されたオブジェクトと、「識別子ＩＤＢ００１」で示されたオブジェクトとを、対象オブジェクトとして、共通のオブジェクトＰ２を示す情報に関連付けている。

同様に、対象世界モデル更新部１４は、センサＢ及びＣ間の位置関係に基づき、対象世界モデルＤ１０ｂ中の「識別子ＩＤＢ００３」で示されたオブジェクトと、対象世界モデルＤ１０ｃ中の「識別子ＩＤＣ００１」で示されたオブジェクトとが、同一のオブジェクトであることを認識する。そのため、対象世界モデル更新部１４は、「識別子ＩＤＢ００３」で示されたオブジェクトと、「識別子ＩＤＣ００１」で示されたオブジェクトとを、対象オブジェクトとして、共通のオブジェクトＰ４を示す情報に関連付けている。

以上のようにして、対象世界モデル更新部１４は、検知部２１ごとに逐次取得された対象世界モデルＤ１０を、各検知部２１間の位置関係に基づき統合することで対象世界モデルＤ３０を生成または更新し、当該対象世界モデルＤ３０を時系列に沿って蓄積する。このようにして時系列に沿って蓄積された対象世界モデルＤ３０中には、例えば、対象となる部位（例えば、前腕に相当する部位Ｕ１１）の位置や向きの時系列に沿った変化が示されていることとなる

なお、人間の部位の中には、例えば、右腕と左腕とのように、互いに形状が類似する部位が存在する。一方で、このように互いに形状が類似する部位は、当該部位の位置や向きの認識結果（または推定結果）のみでは、判別が困難な場合がある。そこで、対象世界モデル更新部１４は、当該部位の時系列に沿った動きの特性（例えば、動きのベクトル、速度、加速度等）に基づき、互いに形状が類似する部位を判別してもよい。

具体的な一例として、右腕と左腕とでは、左右の動きの速度や加速度の変化が互いに異なる傾向にある。そのため、対象世界モデル更新部１４は、腕と認識した部位の動きの速度や加速度の変化に基づき、当該部位が右腕及び左腕のいずれに相当するかを判別してもよい。

また、他の一例として、右腕と左腕とでは、可動範囲（例えば、体幹に対する可動範囲）が互いに異なる傾向にある。そのため、対象世界モデル更新部１４は、腕と認識した部位のベクトルの変化に基づき、当該部位が右腕及び左腕のいずれに相当するかを判別してもよい。

また、対象世界モデル更新部１４は、時系列に沿って蓄積された対象世界モデルＤ３０に基づき、対象となる部位の可動範囲を認識し、認識した可動範囲に基づき、当該部位の動作の基点となる他の部位の位置や向きを推定する。

例えば、図３を参照して前述した例では、対象世界モデル更新部１４は、前腕に相当する部位Ｕ１１の可動範囲に基づき、当該部位Ｕ１１の動作の基点となる肘に相当する部位Ｕ１３の位置や向きを推定する。また、対象世界モデル更新部１４は、肘に相当する部位Ｕ１３の位置や向きの時系列に沿った変化に基づき、当該部位Ｕ１３の可動範囲を推定し、推定した可動範囲に基づき、部位Ｕ１３の動作の基点となる肩に相当する部位Ｕ１５の位置や向きを推定する。また、対象世界モデル更新部１４は、肩に相当する部位Ｕ１５の位置や向きの推定結果に基づき、口元に相当する部位Ｕ２１の位置を推定する。

そして、対象世界モデル更新部１４は、他の部位（例えば、図３に示す、部位Ｕ１３、Ｕ１５、及びＵ２１）の位置や向きの推定結果に基づき、対象世界モデルＤ３０を更新する。これにより、対象世界モデルＤ３０中に、他の部位の位置や向きを示す情報が記録される。なお、対象世界モデル更新部１４のうち、特に、当該他の部位の位置や向きを推定する部分が、「推定部」の一例に相当する。

以上のようにして、対象世界モデル更新部１４は、対象世界モデルＤ３０を生成または更新する。なお、対象世界モデル更新部１４は、生成または更新した当該対象世界モデルＤ３０を、例えば、記憶部４０に記憶させる。

また、対象世界モデル更新部１４は、対象世界モデルＤ３０に基づく各部位間の位置関係に基づき、各部位の時系列に沿った位置や向きを示す情報を、ユーザの身体を示すモデルに合わせこむことで、ユーザごとに統合したデータを生成する。なお、以降では、各部位の時系列に沿った位置や向きを示す情報が、ユーザごとに統合されたデータを、「人間モデルＤ５０」と称する場合がある。

例えば、図８は、ユーザごとに生成される人間モデルのデータ構造の一例について説明するための説明図である。

図８に示すように、人間モデルＤ５０には、ヘッダＤ５１と、部位ごとの時系列に沿った位置や向きの変化を示すデータＤ５５とが関連付けられる。データＤ５５には、認識または推定された部位ごとに、当該部位の位置や向きを示す位置情報Ｄ５５１が時系列に沿って関連付けられる。

また、ヘッダＤ５１には、人間モデルＤ５０の管理情報が格納される。当該管理情報には、各人間モデルＤ５０を識別するための識別情報や、人間モデルＤ５０中に含まれる各データ（例えば、データＤ５５）を抽出するための情報（例えば、アドレス）等が含まれる。

なお、このとき対象世界モデル更新部１４は、対象世界モデルＤ３０に基づく各部位間の位置関係や、各部位の検出結果に応じて認識される状況に応じて、各部位が、同じユーザの部位に相当するか、互いに異なるユーザの部位に相当するかを判別する。

具体的な一例として、対象世界モデル更新部１４は、右腕の前腕に相当する部位Ｕ１１と、左腕の前腕に相当する部位Ｕ１１’との距離が閾値以上離間している場合に、当該部位Ｕ１１及びＵ１１’を互いに異なるユーザの部位であるものと判別する。

また、他の一例として、対象世界モデル更新部１４は、右腕の前腕に相当する部位Ｕ１１が複数存在する場合には、当該複数の部位Ｕ１１それぞれを、互いに異なるユーザの部位であるものと判別する。

また、対象世界モデル更新部１４は、対象世界モデルＤ３０に基づき、部位ごとに時系列に沿った動きを追跡し、当該追跡結果に応じて、検出された各部位が、同じユーザの部位に相当するか、互いに異なるユーザの部位に相当するかを判別してもよい。

以上のようにして、対象世界モデル更新部１４は、対象世界モデルＤ３０に含まれる各部位の情報を、ユーザごとに統合して、人間モデルＤ５０を生成または更新する。

また、人間モデルＤ５０は、音声入力が変換された文字情報等のように、対応するユーザからの入力データＤ５３が関連付けられてもよい。

この場合には、例えば、対象世界モデル更新部１４は、後述する指向性制御部１５から、各集音部２３の集音領域Ｒ２３の向きや広さ（即ち、当該集音部２３の指向性）を示す情報を取得し、ユーザごとに推定された口元の位置と照合する。これにより、対象世界モデル更新部１４は、各集音部２３の指向性が、どのユーザの方向を向いているかを認識する。即ち、対象世界モデル更新部１４は、各集音部２３が、どのユーザの音声を集音しているかを認識することが可能となる。

そして、対象世界モデル更新部１４は、音声認識部１３から集音部２３ごとに取得した、音声認識の結果を示す情報Ｄ５３１（例えば、音声入力が変換された文字情報）を、当該集音部２３の指向性が向いているユーザに対応する人間モデルＤ５０に、入力データＤ５３として時系列に沿って関連付ければよい。

以上のようにして、対象世界モデル更新部１４は、対象世界モデルＤ３０に基づく各部位間の位置関係に基づき、各部位の時系列に沿った位置や向きを示す情報を、ユーザごとに統合することで、人間モデルＤ５０をユーザごとに生成または更新する。そして、対象世界モデル更新部１４は、ユーザごとに生成または更新した当該人間モデルＤ５０を、記憶部４０に記憶させる。

指向性制御部１５は、記憶部４０に記憶された人間モデルＤ５０に基づき、指向性デバイスの指向性を制御する。例えば、図６に示す例では、指向性制御部１５は、各センサボックス２０の集音部２３の指向性を制御する。

具体的には、指向性制御部１５は、記憶部４０にユーザごとに記憶された人間モデルＤ５０の更新状況を監視することで、ユーザごとに、口元に相当する部位Ｕ２１の位置や向きを認識する。そして、指向性制御部１５は、例えば、ユーザごとに認識した部位Ｕ２１の位置や向きに基づき、各集音部２３の集音領域Ｒ２３の向きが、認識した部位Ｕ２１の方向を向くように、当該集音部２３の動作を制御する。また、このとき、指向性制御部１５は、部位Ｕ２１の位置や向きの認識結果に応じて、各集音部２３の集音領域Ｒ２３の広さを制御してもよい。

また、指向性制御部１５は、各集音部２３の指向性の制御結果（即ち、各集音部２３の集音領域Ｒ２３の向きや広さ）を示す情報を、対象世界モデル更新部１４に通知してもよい。これにより、対象世界モデル更新部１４は、各集音部２３の指向性が、どのユーザの方向を向いているかを認識することが可能となる。

入力解析部１６は、記憶部４０に記憶された人間モデルＤ５０に基づき、各ユーザが情報処理装置１に対して行った操作の内容を認識するための構成である。

具体的には、入力解析部１６は、記憶部４０にユーザごとに記憶された人間モデルＤ５０の更新状況を監視することで、ユーザごとに、前腕に相当する部位Ｕ１１の位置や向きの変化を認識し、当該認識結果に基づき当該ユーザによる操作の内容を認識する。

この場合には、入力解析部１６は、例えば、後述する出力制御部１８から、操作画面中における各表示情報の位置を示す情報を事前に取得する。なお、出力部３０が、図１及ぶ図２に示すように、所謂プロジェクタとして構成されている場合には、本説明におかえる操作画面は、例えば、図１及び図２に示す領域Ｒ１０に相当する。

そして、入力解析部１６は、部位Ｕ１１の位置や向きの変化の認識結果と、出力制御部１８から取得した操作画面中における各表示情報の位置を示す情報とを照合することで、ユーザが部位Ｕ１１により指し示す操作画面中の位置（即ち、操作画面中に表示された表示情報）を特定する。これにより、入力解析部１６は、操作画面中に表示された表示情報の中から、ユーザが操作対象として指定した表示情報を特定することが可能となり、ひいては、当該表示情報に対応するコンテンツが操作対象となっていることを認識することが可能となる。

なお、出力部３０が、図１及び図２に示すように、所謂プロジェクタとして構成されている場合には、例えば、入力解析部１６は、所謂測距センサ等により投影面９０の位置を検出することで、領域Ｒ１０が投影される位置を認識すればよい。

また、出力部３０は、所謂液晶ディスプレイ（ＬＣＤ：Liquid Crystal Display）装置、有機ＥＬ（ＯＬＥＤ：Organic Light Emitting Diode）ディスプレイなどのデバイスとして構成されていてもよい。なお、この場合には、情報処理装置１の本体１０に対する出力部３０の相対的な位置に基づき、当該出力部３０の画面の位置を認識できることは言うまでもない。

また、入力解析部１６は、部位Ｕ１１の時系列に沿った位置や向きの変化の認識結果を、所定の動作（ジェスチャ）に対応する動作パターンと照合することで、当該部位Ｕ１１を用いたユーザの動作（ジェスチャ）を認識する。これにより、入力解析部１６は、ユーザが行った操作の内容を認識することが可能となる。

そして、入力解析部１６は、認識した操作内容が、操作対象の表示位置や表示態様を変更するための操作であると認識した場合には、当該操作対象と操作内容とを示す情報を出力制御部１８に出力する。これにより、出力制御部１８は、取得した操作対象及び操作内容を示す情報に基づき、当該操作対象の表示位置や表示態様を、当該操作内容に応じて制御することで、操作画面を更新することが可能となる。

また、入力解析部１６は、認識した操作内容が、操作対象となるコンテンツの機能を実行するための操作であると認識した場合には、対象となる当該機能を特定し、特定した機能を示す情報を処理実行部１７に出力する。この出力を受けて、処理実行部１７は、入力解析部１６に指定された機能（例えば、アプリケーション）を実行することとなる。

また、他の一例として、入力解析部１６は、記憶部４０にユーザごとに記憶された人間モデルＤ５０から、入力データＤ５３を抽出し、抽出した入力データＤ５３に基づき、ユーザによる操作の内容を認識してもよい。そこで、以下に、入力データＤ５３として、音声認識の結果を抽出した場合を例に、入力解析部１６の動作の一例について説明する。

入力解析部１６は、入力データＤ５３から抽出した音声認識の結果（即ち、音声入力が変換された文字情報）に対して、所謂自然言語処理技術に基づく解析（例えば、字句解析（形態素解析）、構文解析、及び意味解析等）を施す。これにより、入力解析部１６は、抽出した音声認識の結果に対する、自然言語処理技術に基づく解析の結果に基づき、ユーザからの指示内容を認識することが可能となる。

そして、入力解析部１６は、認識した指示内容が、操作画面の更新に関する指示であると認識した場合には、当該指示内容を示す情報を出力制御部１８に出力する。これにより、出力制御部１８は、取得した指示内容を示す情報に基づき、操作画面を更新することが可能となる。

また、入力解析部１６は、認識した指示内容が、所定の機能を実行するための指示であると認識した場合には、当該機能を示す情報を処理実行部１７に出力する。この出力を受けて、処理実行部１７は、入力解析部１６に指定された機能（例えば、アプリケーション）を実行することとなる。

処理実行部１７は、入力解析部１６から指定された機能（例えば、アプリケーション）を実行するためのデータ（例えば、ライブラリ）を、所定の記憶領域から読み出す。なお、各機能を実行するためのデータについては、例えば、記憶部４０に記憶させておけばよい。もちろん、処理実行部１７が、各機能を実行するためのデータを読み出し可能であれば、当該データが記憶される場所は特に限定されない。

そして、処理実行部１７は、読み出したデータに基づき、取得したパラメータを入力として指定された機能を実行し、当該機能の実行結果を出力制御部１８に出力する。

出力制御部１８は、操作画面を生成または更新し、当該操作画面を出力部３０に出力させるための構成である。

出力制御部１８は、処理実行部１７から各種機能の実行結果を受けて、当該実行結果が提示された、当該機能に対応する表示情報（例えば、操作インタフェース等）を操作画面中に提示する。これにより、操作画面が更新される。

また、出力制御部１８は、入力解析部１６から操作画面の更新に係る指示内容を示す情報（例えば、操作対象を操作内容を示す情報）を取得した場合には、当該指示内容に基づき操作画面を生成または更新する。

そして、出力制御部１８は、生成または更新された操作画面を出力部３０に出力させる。これにより、ユーザは、自身の操作に基づく結果を、出力部３０により出力された操作が画面を介して認識することが可能となる。

また、出力制御部１８は、操作画面中における各表示情報の位置を示す情報を入力解析部１６に出力してもよい。これにより、入力解析部１６は、操作画面中における各表示情報の位置を認識することが可能となる。

以上、図６〜図８を参照して、本実施形態に係る情報処理装置１の機能構成の一例について説明した。

なお、図６に示した情報処理装置１の機能構成はあくまで一例であり、上記に説明した情報処理装置１の各機能を実現可能であれば、その構成は、図６に示す例には限定されない。具体的な一例として、センサボックス２０や出力部３０が、情報処理装置１に対して、外部装置として外付けされていてもよい。また、他の一例として、制御部１１の各構成のうち、少なくとも一部の構成が、センサボックス２０や、出力部３０に設けられていてもよい。また、制御部１１の各構成のうち、少なくとも一部の構成が、外部装置（例えば、サーバ等）に設けられていてもよい。また、検知部２１と集音部２３とは、必ずしも同一筐体内（例えば、センサボックス２０内）に設けられている必要は無く、互いに異なる筐体内に設けられていてもよい。

＜３．処理＞
次に、図９を参照して、本実施形態に係る情報処理装置１の一連の処理の流れの一例について、特に、情報処理装置１による集音部２３の指向性の制御に着目して説明する。図９は、本実施形態に係る情報処理装置１の一連の処理の流れの一例を示したフローチャートである。

（ステップＳ１０１）
対象認識部１２は、各センサボックス２０の検知部２１から、当該検知部２１の検出範囲Ｒ２１中に存在するオブジェクト（例えば、ユーザの身体の少なくとも一部）の検知結果を取得する。対象認識部１２は、取得した検知結果を解析することで、例えば、前腕に相当する部位Ｕ１１の情報を抽出し、抽出結果に基づき当該部位Ｕ１１の位置や向きを認識する。

そして、対象認識部１２は、前腕に相当する部位Ｕ１１の位置や向きの認識結果を示す制御情報を、検知部２１ごと（もしくは、センサボックス２０ごと）に、対象世界モデル更新部１４に出力する。

対象世界モデル更新部１４は、対象認識部１２から、対象となる部位Ｕ１１の位置や向きの認識結果を示す制御情報（即ち、対象世界モデルＤ１０）を、検知部２１ごとに取得する。

具体的な一例として、対象世界モデル更新部１４は、各検知部２１間の位置関係に基づき、各検知部２１それぞれの検出範囲Ｒ２１を、各検知部２１が配置された空間中の位置（絶対位置）としてマッピングする。

そして、対象世界モデル更新部１４は、検知部２１ごとの対象世界モデルＤ１０に基づき、各検知部２１により検知された部位を、絶対空間座標中にマッピングする。なお、このとき対象世界モデル更新部１４は、各検知部２１間の位置関係に基づき、互いに異なる検知部２１間で検出された各部位の情報の中から、同一の部位を示す情報を関連付ける。

以上のようにして、対象世界モデル更新部１４は、検知部２１ごとに逐次取得された対象世界モデルＤ１０を、各検知部２１間の位置関係に基づき統合することで対象世界モデルＤ３０を生成または更新し、当該対象世界モデルＤ３０を時系列に沿って蓄積する。

（ステップＳ１０３）
また、対象世界モデル更新部１４は、検知された前腕に相当する部位Ｕ１１の時系列に沿った動きの特性（例えば、動きのベクトル、速度、加速度等）に基づき、当該部位Ｕ１１が、左右の腕のいずれに相当するかを推定する。

具体的な一例として、対象世界モデル更新部１４は、腕と認識した部位の動きの速度や加速度の変化に基づき、当該部位が右腕及び左腕のいずれに相当するかを判別してもよい。また、他の一例として、対象世界モデル更新部１４は、腕と認識した部位のベクトルの変化に基づき、当該部位が右腕及び左腕のいずれに相当するかを判別してもよい。なお、ステップＳ１０３として示した処理は、ステップＳ１０１や、後述するステップＳ１０５及びＳ１０７に係る処理と並行して実行されてもよい。

（ステップＳ１０５）
また、対象世界モデル更新部１４は、時系列に沿って蓄積された対象世界モデルＤ３０に基づき、対象となる部位の可動範囲を認識し、認識した可動範囲に基づき、当該部位の動作の基点となる他の部位の位置や向きを推定する。

例えば、対象世界モデル更新部１４は、前腕に相当する部位Ｕ１１の可動範囲に基づき、当該部位Ｕ１１の動作の基点となる肘に相当する部位Ｕ１３の位置や向きを推定する。

（ステップＳ１０７）
また、対象世界モデル更新部１４は、肘に相当する部位Ｕ１３の位置や向きの時系列に沿った変化に基づき、当該部位Ｕ１３の可動範囲を推定し、推定した可動範囲に基づき、部位Ｕ１３の動作の基点となる肩に相当する部位Ｕ１５の位置や向きを推定する。

（ステップＳ１０９）
次いで、対象世界モデル更新部１４は、肩に相当する部位Ｕ１５の位置や向きの推定結果に基づき、口元に相当する部位Ｕ２１の位置を推定する。

（ステップＳ１１１）
そして、対象世界モデル更新部１４は、他の部位（例えば、図３に示す、部位Ｕ１３、Ｕ１５、及びＵ２１）の位置や向きの推定結果に基づき、対象世界モデルＤ３０を更新する。これにより、対象世界モデルＤ３０中に、他の部位の位置や向きを示す情報が記録される。

また、対象世界モデル更新部１４は、対象世界モデルＤ３０に基づく各部位間の位置関係に基づき、各部位の時系列に沿った位置や向きを示す情報を、ユーザの身体を示すモデルに合わせこむことで、ユーザごとに統合した人間モデルＤ５０を生成する。

以上のようにして、対象世界モデル更新部１４は、対象世界モデルＤ３０に含まれる各部位の情報を、ユーザごとに統合して、人間モデルＤ５０を生成または更新する。そして、対象世界モデル更新部１４は、ユーザごとに生成または更新した当該人間モデルＤ５０を、記憶部４０に記憶させる。

（ステップＳ１１３）
指向性制御部１５は、記憶部４０に記憶された人間モデルＤ５０に基づき、各センサボックス２０の集音部２３等のような、所定の指向性デバイスの指向性を制御する。

（ステップＳ１１５）
以上のようにして、一連の処理の終了が指示されない限り（ステップＳ１１５、ＮＯ）、情報処理装置１は、各ユーザの口元に相当する部位Ｕ２１の位置や向きの変化を逐次監視し、監視結果に基づき各集音部２３の指向性を制御する。このような構成により、集音部２３は、対象となるユーザ（例えば、操作者として認識されたユーザ）からの音声入力を精度よく集音することが可能となる。

そして、一連の処理の終了が指示されると（ステップＳ１１５、ＹＥＳ）、情報処理装置１は、上記に説明した、ユーザの各部位の位置や向きの認識及び推定に係る処理や、各集音部２３の指向性の制御に係る処理を終了する。

以上、図９を参照して、本実施形態に係る情報処理装置１の一連の処理の流れの一例について説明した。

＜４．変形例＞
次に、本実施形態に係る情報処理装置１の変形例について説明する。

［４．１．変形例１：指向性制御の一例］
まず、変形例１として、本実施形態に係る情報処理装置１による指向性制御の一例について説明する。

例えば、図１０は、変形例１に係る情報処理装置１の動作の一例について説明するための説明図であり、情報処理装置１が、ユーザＵａ及びＵｂそれぞれの口元の位置の推定結果に応じて、各集音部２３の集音領域Ｒ２３の広さを制御する場合の一例を示している。

前述したように、本実施形態に係る情報処理装置１は、検知部２１による検知結果に基づき認識した部位（例えば、前腕）の、時系列に沿った位置や向きの変化に基づき、他の部位（例えば、肘、肩、口元等）の位置や向きを推定する。そのため、本実施形態に係る情報処理装置１では、例えば、前腕に相当する部位Ｕ１１の位置や向きの認識結果を示すサンプルデータが多いほど（特に、位置や向きの変化が大きいほど）、肘に相当する部位Ｕ１３の位置や向きの推定結果の信頼度が向上する。

一方で、本実施形態に係る情報処理装置１では、上記に説明した制御の特性上、例えば、前腕に相当する部位Ｕ１１の位置や向きの認識結果を示すサンプルデータが少ない場合には、肘に相当する部位Ｕ１３の位置や向きの推定結果の信頼度が低くなる場合もある。このことは、肘に相当する部位Ｕ１３の推定結果に基づき、肩に相当する部位Ｕ１５の位置や向きを推定する場合や、肩に相当する部位Ｕ１５の位置や向きの推定結果に基づき、口元に相当する部位Ｕ２１の位置や向きを推定する場合についても同様である。

そこで、図１０に示す例では、情報処理装置１は、指向性制御の基準となる部位の位置や向きの推定結果の信頼度に応じて、対象となるデバイス（例えば、集音部２３）の指向性を制御している。例えば、図１０に示す例では、ユーザＵａの口元の位置及び向きの推定結果は、ユーザＵｂの口元の位置の推定結果よりも信頼度がより高い場合について示している。

図１０に示す例では、情報処理装置１は、ユーザＵａの口元の位置及び向きの推定結果の信頼度が高いため、当該ユーザＵａからの音声入力を集音させる、センサボックス２０ａ側の集音部２３の集音領域Ｒ２３ａの広さがより狭くなるように、当該集音部２３の指向性を制御している。これにより、情報処理装置１は、ユーザＵａからの音声入力を、センサボックス２０ａ側の集音部２３を介してより精度よく集音することが可能となる。

また、情報処理装置１は、ユーザＵｂの口元の位置及び向きの推定結果の信頼度が低いため、当該ユーザＵｂからの音声入力を集音させる、センサボックス２０ｂ側の集音部２３の集音領域Ｒ２３ｂの広さがより広くなるように、当該集音部２３の指向性を制御している。これにより、情報処理装置１は、ユーザＵｂの口元の実際の位置及び向きが、推定結果と異なるような場合においても、当該ユーザＵｂからの音声入力を、センサボックス２０ｂ側の集音部２３を介して集音することが可能となる。

また、情報処理装置１は、口元の位置の推定結果の信頼度を示す情報をユーザに提示してもよい。例えば、図１０に示す例では、情報処理装置１は、ユーザＵａ及びＵｂそれぞれの口元の位置の推定結果の信頼度を示す表示情報ｖ２１及びｖ２１ａを、領域Ｒ１０に投影することで各ユーザに提示している。

具体的には、図１０に示す例では、情報処理装置１は、口元の位置の推定結果の信頼度が高いほど、対応する表示情報がより小さく提示されるように、当該表示情報の表示を制御する。

より具体的には、情報処理装置１は、ユーザＵａの口元の位置及び向きの推定結果の信頼度が高いため、当該ユーザＵａからの音声入力を集音させるセンサボックス２０ａに対応する表示情報ｖ２１ａを、信頼度に応じてより小さくなるように提示している。これにより、各ユーザは、例えば、ユーザＵａの口元の位置及び向きの推定結果の信頼度が高く、センサボックス２０ａ側の集音部２３の集音領域Ｒ２３ａがより狭くなるように、当該集音部２３の指向性が制御されていることを、視覚的に認識することが可能となる。

また、情報処理装置１は、ユーザＵｂの口元の位置及び向きの推定結果の信頼度が低いため、当該ユーザＵａからの音声入力を集音させるセンサボックス２０ｂに対応する表示情報ｖ２１ｂを、信頼度に応じてより大きくなるように提示している。これにより、各ユーザは、例えば、ユーザＵｂの口元の位置及び向きの推定結果の信頼度が低く、センサボックス２０ｂ側の集音部２３の集音領域Ｒ２３ｂがより広くなるように、当該集音部２３の指向性が制御されていることを、視覚的に認識することが可能となる。

また、図１１及び図１２は、変形例１に係る情報処理装置１の動作の他の一例について説明するための説明図である。図１１及び図１２に示す例では、情報処理装置１は、ユーザＵａ及びＵｂのうち、操作を行っているユーザが特定できたか否かに応じて、センサボックス２０ａ及び２０ｂそれぞれの集音部２３の指向性を制御している。

なお、情報処理装置１は、ユーザＵａ及びＵｂそれぞれの対象となる部位（例えば、前腕）の位置や向きの変化の検出結果に応じて、ユーザＵａ及びＵｂのうちいずれが操作を行っているかを認識してもよい。この場合には、情報処理装置１は、例えば、対象となる部位の位置や向きが、所定の閾値より大きく変化している側のユーザを操作者として認識してもよい。

また、情報処理装置１は、例えば、ユーザＵａ及びＵｂそれぞれからの音声入力の取得状況に応じて、ユーザＵａ及びＵｂのうちいずれが操作を行っているかを認識してもよい。この場合には、情報処理装置１は、音声入力が取得された側のユーザを操作者として認識してもよい。なお、このとき情報処理装置１は、例えば、各集音部２３の集音領域Ｒ２３の向きと、各集音部２３からの音響情報の集音状況（即ち、音声入力が集音されたか否か）に応じて、各ユーザからの音声入力の取得状況を認識すればよい。

ここで、図１１を参照する。図１１は、情報処理装置１が、複数人のユーザＵａ及びＵｂが存在することを認識し、かつ、ユーザＵａが操作者であるものと認識できた場合の一例について示している。なお、図１１において、参照符号Ｒ２３ａは、センサボックス２０ａ側の集音部２３の集音領域を示している。同様に、参照符号Ｒ２３ｂは、センサボックス２０ｂ側の集音部２３の集音領域を示している。

図１１に示す例では、情報処理装置１は、集音領域Ｒ２３ａ及びＲ２３ｂそれぞれの広さを狭め、当該集音領域Ｒ２３ａ及びＲ２３ｂそれぞれが、操作者であるユーザＵａ側を向くように、センサボックス２０ａ及び２０ｂそれぞれの集音部２３の指向性を制御している。このような制御により、情報処理装置１は、操作者であるユーザＵａからの音声入力の認識精度を向上させることが可能となる。

次いで、図１２を参照する。図１２は、情報処理装置１が、複数人のユーザＵａ及びＵｂが存在することを認識できたが、ユーザＵａ及びＵｂのうちいずれが操作者であるかを認識することが困難な場合について示している。具体的な一例として、ユーザＵａ及びＵｂの双方が発話している状況下では、情報処理装置１が、ユーザＵａ及びＵｂのうちいずれが操作者であるかを認識することが困難な場合がある。なお、図１２における、参照符号Ｒ２３ａ及びＲ２３ｂは、図１１に示す例と同様である。

図１２に示す例では、情報処理装置１は、集音領域Ｒ２３ａ及びＲ２３ｂの広さがより広くなるように、センサボックス２０ａ及び２０ｂそれぞれの集音部２３の指向性を制御している。このような制御により、情報処理装置１は、ユーザＵａ及びＵｂのいずれか、または双方が発話したとしても、発話者であるユーザからの音声入力を集音することが可能となる。

また、他の一例として、情報処理装置１は、ユーザＵａ及びＵｂのうちいずれが操作者であるかを認識することが困難な場合には、各集音部２３がそれぞれ異なるユーザから音声入力を集音するように、各集音部２３の指向性を制御してもよい。なお、この場合には、図１０を参照して説明したように、ユーザごとの対象となる部位の位置や向きの推定結果の信頼度に応じて、各集音部２３の集音領域Ｒ２３の広さを制御してもよい。

なお、上記に説明した例は、あくまで一例であり、情報処理装置１が、所定の部位の位置や向きの推定結果に応じて、所定のデバイスの指向性を制御できれば、その制御の内容や、制御対象となるデバイスの種別は特に限定されない。

以上、変形例１として、図１０〜図１２を参照して、本実施形態に係る情報処理装置１による指向性制御の一例について説明した。

［４．２．変形例２：システム構成の一例］
次に、変形例２として、本実施形態に係る情報処理装置のシステム構成の一例について、図１３及び図１４を参照して説明する。図１３及び図１４は、変形例２に係る情報処理装置の概要について説明するための説明図である。なお、以降の説明では、変形例２に係る情報処理装置を、前述した実施形態に係る情報処理装置１と区別するために、「情報処理装置１’」と称する場合がある。

例えば、図１３は、変形例２に係る情報処理装置１’の概略的な構成の一例について示している。図１３に示すように、変形例２に係る情報処理装置１’は、センサボックス２０と、表示情報を提示するための出力部３０と、情報処理装置１’の各種動作を制御する制御部が設けられた本体１０とを含む。なお、図１３に示した、本体１０、センサボックス２０、及び出力部３０は、図１を参照して説明した情報処理装置１における、本体１０、センサボックス２０、及び出力部３０に相当する。なお、本説明では、センサボックス２０は、前述した実施形態に係る情報処理装置１（図１及び図２参照）と同様に、ユーザの身体の少なくとも一部の部位の位置や向きを検知するための検知部２１と、ユーザからの音声入力を集音するための集音部２３とを含むものとする。

図１３に示す例では、情報処理装置１’は、例えば、テーブル１４０等の上方に、当該テーブル１４０の天面側を向くように設置される。情報処理装置１’は、テーブル１４０の天面を投影面として、出力部３０に表示情報を投影させることで、ユーザに対して当該表示情報を提示し、投影された表示情報に対する、情報処理装置１’を使用するユーザからの操作を受け付ける。なお、参照符号Ｒ１０は、出力部３０により情報（即ち、表示情報）が投影される領域（即ち、投影面）を示している。

センサボックス２０に設けられた集音部２３は、所謂マイクロフォンのような、ユーザが発する音声や、情報処理装置１’が置かれている環境の環境音等の音響情報を集音するための集音デバイスにより構成され得る。

また、センサボックス２０に設けられた検知部２１は、情報処理装置１’を使用するユーザの操作内容や、テーブル１４０に置かれている物体の形状や模様などを認識する。例えば、図１３に示す例では、検知部２１は、テーブル１４０の上方から当該テーブル１４０の天面上に向けて検知範囲が形成されるように設置される。すなわち、検知部２１は、情報が表示される対象となるテーブル１４０とは離隔して設けられる。

検知部２１は、前述した実施形態に係る情報処理装置１と同様に、所謂測距センサにより構成され得る。また、他の一例として、検知部２１は、例えば１つの撮像光学系（例えば、一連のレンズ群）でテーブル１４０を撮像するカメラや、２つの撮像光学系でテーブル１４０を撮像して奥行き方向の情報を記録することが可能なステレオカメラにより構成されてもよい。なお、本説明では、検知部２１は、所謂ステレオカメラとして構成されているものとして説明する。

検知部２１としてステレオカメラが用いられる場合には、そのステレオカメラには、例えば可視光カメラや赤外線カメラ等が適用され得る。検知部２１してステレオカメラが用いられることで、検知部２１は、深度情報を取得することが可能となる。検知部２１が、深度情報を取得することで、情報処理装置１’は、例えばテーブル１４０の上に置かれた手や物体等の実オブジェクトを検出することが可能となる。また検知部２１が、深度情報を取得することで、情報処理装置１’は、テーブル１４０へのユーザの手のような操作体の接触及び近接や、テーブル１４０からの操作体の離脱を検出することが可能となる。

このような構成により、情報処理装置１’は、テーブル１４０の天面上の領域Ｒ１０に投影された表示情報に対して、ユーザが手等の操作体による操作を認識し、当該操作の内容に応じて各種機能を実行することが可能となる。

また、情報処理装置１’は、上記に説明した検知部２１による検知結果に基づき、領域Ｒ１０に投影された表示情報を操作するために、検知部２１の検知領域Ｒ２１内を動作する手や腕等のような部位の位置や向きを認識することが可能である。即ち、変形例２に係る情報処理装置１’は、前述した実施形態に係る情報処理装置１（図１及び図２参照）と同様に、例えば、前腕に相当する部位Ｕ１１の時系列に沿った位置や向きの変化に基づき、口元に相当する部位Ｕ２１の位置や向きを推定することが可能である。

例えば、図１４は、変形例２に係る情報処理装置１’の概要について説明するための説明図であり、テーブル１４０の天面を鉛直方向の上部から見下ろした場合における、領域Ｒ１０とユーザとの間の位置関係の一例を示している。

図１４に示すように、ユーザＵｂが、領域Ｒ１０に投影された表示情報を手や腕等の操作体により操作をした場合に、情報処理装置１’は、検知部２１による検知結果に基づき、当該ユーザＵｂの前腕に相当する部位Ｕ１１の位置や向きを認識できる。これにより、情報処理装置１’は、当該部位Ｕ１１の位置や向きの認識結果に基づき、当該ユーザの口元に相当する部位Ｕ２１の位置や向きを推定すること可能となる。

具体的には、情報処理装置１’は、前腕に相当する部位Ｕ１１の位置や向きの時系列に沿った変化に基づき、当該部位Ｕ１１の可動範囲を認識し、認識した可動範囲に基づき、部位Ｕ１１の動作の基点となる肘に相当する部位Ｕ１３の位置や向きを推定する。また、情報処理装置１’は、肘に相当する部位Ｕ１３の位置や向きの時系列に沿った変化に基づき、当該部位Ｕ１３の可動範囲を推定し、推定した可動範囲に基づき、部位Ｕ１３の動作の基点となる肩に相当する部位Ｕ１５の位置や向きを推定する。そして、情報処理装置１’は、肩に相当する部位Ｕ１５の位置や向きの推定結果に基づき、口元に相当する部位Ｕ２１の位置を推定することが可能となる。

そして、情報処理装置１’は、口元に相当する部位Ｕ２１の位置や向きの推定結果に基づき、集音部２３の集音領域Ｒ２３が当該部位Ｕ２１の方向を向くように、集音部２３の指向性を制御してもよい。

特に、図１３及び図１４に示した、変形例２に係る情報処理装置１’では、検知部２１の検知結果に基づき位置や向きを認識可能な部位が、例えば、前腕に相当する部位Ｕ１１等に限定され、口元に相当する部位Ｕ２１等を直接認識することが困難な場合がある。このような状況下においても、変形例２に係る情報処理装置１’は、当該部位Ｕ１１の位置や向きの認識結果に基づき、直接認識することが困難な口元に相当する部位Ｕ２１の位置や向きを推定し、当該推定結果に基づき集音部２３の指向性を制御することが可能となる。

以上、変形例２として、図１３及び図１４を参照して、本実施形態に係る情報処理装置のシステム構成の一例について説明した。

［４．３．変形例３：車載装置への適用例］
次に、変形例３として、本実施形態に係る情報処理装置１の適用例として、情報処理装置１を車載装置に適用した場合の一例について、図１５及び図１６を参照して説明する。図１５及び図１６は、変形例３に係る情報処理装置１の概要について説明するための説明図である。

例えば、図１５は、変形例３に係る情報処理装置１の概略的な構成の一例について示している。変形例３に係る情報処理装置１は、ユーザが視線を動かすことで、当該視線の動きに基づき操作可能に構成されている。

図１５において、参照符号３１は、変形例３に係る情報処理装置１が、ユーザの視線の動きを検出するために、当該ユーザの眼の近傍の領域を撮像するための撮像部を示している。そのため、撮像部３１は、視線の変化を認識可能なフレームレートで画像を撮像できる性能を有していることが望ましい。なお、参照符号Ｒ３０は、撮像部３１の撮像領域を模式的に示している。

また、参照符号２５ａ及び２５ｂは、変形例３に係る情報処理装置１が、ユーザの腕の動きを認識するために、ユーザの腕や身体（特に上半身）を撮像するための撮像部を示している

例えば、撮像部２５ａは、運転席に座ったユーザＵａの上半身の画像を、当該ユーザＵａの前方から撮像できるように配置されている。参照符号Ｒ２５ａは、撮像部２５ａの撮像領域を模式的に示している。なお、撮像部２５ａは、運転席に座ったユーザＵａの上半身、特に、腕や肩を撮像領域Ｒ２５ａ中に収められる程度の画角を有していることが望ましい。

また、撮像部２５ｂは、運転席に座ったユーザＵａの画像を、鉛直方向の上方から撮像できるように配置されている。参照符号Ｒ２５ｂは、撮像部２５ｂの撮像領域を模式的に示している。なお、撮像部２５ｂは、運転席に座りハンドルを握るユーザＵａの腕を撮像領域Ｒ２５ｂ中に収められる程度の画角を有していることが望ましい。

以上のような構成に基づき、変形例３に係る情報処理装置１は、撮像部２５ａ及び２５ｂそれぞれに撮像された画像に基づき、ユーザＵａの腕の位置や向きの時系列に沿った変化を認識する。また、情報処理装置１は、ユーザＵａの腕の位置や向きの変化の認識結果に基づき、当該ユーザＵａの肩の位置を推定し、次いで、肩の位置の推定結果に基づき、ユーザＵａの眼の位置を推定する。

そして、情報処理装置１は、ユーザＵａの眼の位置の推定結果に基づき、撮像部３１の撮像領域Ｒ３０がユーザＵａの眼の方向を向くように、当該撮像部３１の向きを制御する。

このような構成により、変形例３に係る情報処理装置１は、撮像部３１として比較的画角の狭い撮像デバイスを適用することが可能となる。また、変形例３に係る情報処理装置１は、撮像部３１により、撮像される領域を比較的狭く絞り込むことが可能なため、より広い範囲の画像を撮像する場合に比べて、当該画像から視線の変化を認識するための解析に係る処理の負荷を軽減することが可能となる。

なお、図１５に示す例では、撮像部２５ａ及び２５ｂにより撮像された画像は、ユーザＵａの腕の位置及び向きの時系列に沿った変化を認識するために用いられる。そのため、撮像部２５ａ及び２５ｂとしては、ユーザＵａの腕の位置及び向きの変化を認識できる程度のフレームレートで画像を撮像できる性能があればよく、必ずしも高フレームレートのものを用いる必要はない。

また、図１５に示した撮像部２５ａ及び２５ｂの設置例は、あくまで一例であり、撮像された画像に基づきユーザＵａの腕の位置及び向きの変化を認識できれば、当該画像を撮像するための撮像部の設置位置は特に限定されない。

例えば、図１６は、ユーザＵａの腕の位置及び向きの変化を認識するための画像を撮像する撮像部の設置例を示している。図１６に示す例では、ユーザの首元に設置されるウェアラブルデバイス２７に、当該ユーザの腕の画像を撮像するための撮像部２９が設けられている。参照符号Ｒ２９は、撮像部２９の撮像領域を模式的に示している。

図１６に示す例では、撮像部２９は、ウェアラブルデバイス２７により、ユーザＵａの胸元の近傍に、当該ユーザＵａの前方側に向けた方向を向くように保持される。これにより、撮像部２９は、ユーザＵａが運転席に座ってハンドルを握った場合に、当該ユーザＵａの胸元の近傍から、前方に延びた当該ユーザＵａの腕の画像を撮像することが可能となる。

なお、上記に説明した例では、情報処理装置１が、ユーザの眼の位置の推定結果に基づき撮像部３１の指向性を制御する例について説明したが、位置や向きの推定対象となる部位や、指向性制御の対象となるデバイスは特に限定されない。

具体的な一例として、変形例３に情報処理装置１は、ユーザＵａが音声入力を行うための集音部を備え、当該集音部の指向性を制御してもよい。この場合には、情報処理装置１は、ユーザＵａの腕の位置や向きの時系列に沿った変化に基づき、当該ユーザＵａの口元の位置を推定し、当該推定結果に基づき、集音部の集音領域がユーザＵａ口元の方向を向くように、当該集音部の指向性を制御してもよい。

以上、変形例３として、図１５及び図１６を参照して、本実施形態に係る情報処理装置１の適用例として、情報処理装置１を車載装置に適用した場合の一例について説明した。

特に、自動車内の空間は、各種検知デバイス（例えば、図１５に示した撮像部２５ａ及び２５ｂ）を設置可能な位置が限られている場合が多く、ユーザＵａの眼や口元等のように特定の部位の位置や向きを直接検出することが困難な場合がある。このような状況下においても、本実施形態に係る情報処理装置１は、ユーザＵａの身体のうち少なくとも一部の部位の位置や向きの時系列に沿った変化を認識できれば、当該認識結果に基づき、ユーザＵａの眼や口元の位置や向きを推定することが可能となる。

なお、上記では、眼や口元等のように特定の部位の位置や向きの推定対象となるユーザＵａが運転手の場合について説明したが、対象となるユーザは、必ずしも運転手に限定されるものではない。例えば、運転手以外の搭乗者の眼や口元等のように特定の部位の位置や向きの推定し、当該推定結果に基づき、撮像部や集音部等のデバイスの指向性を制御してもよい。なお、運転手以外の搭乗者を対象とする場合には、当該搭乗者の腕の位置や向きの時系列に沿った変化を検出できるように、各種検知デバイスを設置することが望ましいことは言うまでもない。具体的な一例として、車内の天井に比較的画角の広い撮像部を設け、情報処理装置１は、当該撮像部が撮像した画像に基づき、搭乗者の腕の位置や向きの変化を認識すればよい。

＜５．ハードウェア構成＞
次に、図１７を参照して、本開示の各実施形態に係る情報処理装置１のハードウェア構成の一例について説明する。図１７は、本開示の実施形態に係る情報処理装置１のハードウェア構成の一例を示した図である。

図１７に示すように、本実施形態に係る情報処理装置１は、プロセッサ９０１と、メモリ９０３と、ストレージ９０５と、操作デバイス９０７と、報知デバイス９０９と、検知デバイス９１１と、集音デバイス９１３と、バス９１７とを含む。また、情報処理装置１は、通信デバイス９１５を含んでもよい。

プロセッサ９０１は、例えばＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）又はＳｏＣ（System on Chip）であってよく、情報処理装置１の様々な処理を実行する。プロセッサ９０１は、例えば、各種演算処理を実行するための電子回路により構成することが可能である。なお、前述した制御部１１の各構成は、プロセッサ９０１により実現され得る。

メモリ９０３は、ＲＡＭ（Random Access Memory）及びＲＯＭ（Read Only Memory）を含み、プロセッサ９０１により実行されるプログラム及びデータを記憶する。ストレージ９０５は、半導体メモリ又はハードディスクなどの記憶媒体を含み得る。例えば、前述した記憶部４０は、メモリ９０３及びストレージ９０５の少なくともいずれか、もしくは、双方の組み合わせにより実現され得る。

操作デバイス９０７は、ユーザが所望の操作を行うための入力信号を生成する機能を有する。操作デバイス９０７は、例えば、タッチパネルとして構成され得る。また、他の一例として、操作デバイス９０７は、例えばボタン、スイッチ、及びキーボードなどユーザが情報を入力するための入力部と、ユーザによる入力に基づいて入力信号を生成し、プロセッサ９０１に供給する入力制御回路などから構成されてよい。

報知デバイス９０９は、出力デバイスの一例であり、例えば、液晶ディスプレイ（ＬＣＤ：Liquid Crystal Display）装置、有機ＥＬ（ＯＬＥＤ：Organic Light Emitting Diode）ディスプレイなどのデバイスであってよい。この場合には、報知デバイス９０９は、画面を表示することにより、ユーザに対して所定の情報を報知することができる。また、報知デバイス９０９は、所謂プロジェクタのように、投影面に対して所定の情報を投影することで、当該情報をユーザに報知してもよい。なお、前述した出力部３０は、報知デバイス９０９により実現され得る。

また、報知デバイス９０９は、スピーカ等のように、所定の音響信号を出力することで、所定の情報をユーザに報知するデバイスであってもよい。

また、上記に示した報知デバイス９０９の例はあくまで一例であり、ユーザに対して所定の情報を報知可能であれば、報知デバイス９０９の態様は特に限定されない。具体的な一例として、報知デバイス９０９は、ＬＥＤ（Light Emitting Diode）のように、点灯又は点滅のパターンにより、所定の情報をユーザに報知するデバイスであってもよい。また、報知デバイス９０９は、所謂バイブレータのように、振動することで、所定の情報をユーザに報知するデバイスであってもよい。

集音デバイス９１３は、マイクロフォン等のような、ユーザから発せられた音声や周囲の環境の音響を集音し、音響情報（音響信号）として取得するためのデバイスである。また、集音デバイス９１３は、集音された音声や音響を示すアナログの音響信号を示すデータを音響情報として取得してもよいし、当該アナログの音響信号をデジタルの音響信号に変換し、変換後のデジタルの音響信号を示すデータを音響情報として取得してもよい。なお、前述した集音部２３は、集音デバイス９１３により実現され得る。

通信デバイス９１５は、情報処理装置１が備える通信手段であり、ネットワークを介して外部装置と通信する。通信デバイス９１５は、有線または無線用の通信インタフェースである。通信デバイス９１５を、無線通信インタフェースとして構成する場合には、当該通信デバイス９１５は、通信アンテナ、ＲＦ（Radio Frequency）回路、ベースバンドプロセッサなどを含んでもよい。

通信デバイス９１５は、外部装置から受信した信号に各種の信号処理を行う機能を有し、受信したアナログ信号から生成したデジタル信号をプロセッサ９０１に供給することが可能である。

検知デバイス９１１は、各種状態を検知するためのデバイスである。検知デバイス９１１は、例えば、ステレオイメージセンサ等のような、所謂測距センサにより構成され得る。なお、前述した検知部２１は、検知デバイス９１１により実現され得る。

バス９１７は、プロセッサ９０１、メモリ９０３、ストレージ９０５、操作デバイス９０７、報知デバイス９０９、検知デバイス９１１、集音デバイス９１３、及び通信デバイス９１５を相互に接続する。バス９１７は、複数の種類のバスを含んでもよい。

また、コンピュータに内蔵されるプロセッサ、メモリ、及びストレージなどのハードウェアを、上記した情報処理装置１が有する構成と同等の機能を発揮させるためのプログラムも作成可能である。また、当該プログラムを記録した、コンピュータに読み取り可能な記憶媒体も提供され得る。

＜６．まとめ＞
以上、説明したように、本実施形態に係る情報処理装置１は、ユーザの体肢のうち少なくとも一部の部位の時系列に沿った位置や向きの変化に基づき、当該ユーザの体幹のうち少なくとも一部の部位の位置や向きを推定する。このような構成により、本実施形態に係る情報処理装置１は、特定の部位の位置や向きを直接認識することが困難な状況下においても、他の部位の位置や向きの変化の認識結果に基づき、当該特定の部位の位置や向きを推定することが可能となる。

また、本実施形態に係る情報処理装置１は、少なくとも一部の部位の位置や向きの認識結果（または、推定結果）を示すサンプルデータが多いほど、当該一部の部位の位置や向きの変化に基づく、他の部位の位置や向きの推定結果の信頼度が向上する。そのため、本実施形態に係る情報処理装置１は、ユーザの腕等の少なくとも一部の部位の位置や向きの変化を継続的に監視することで、当該ユーザの眼や口元等のような他の部位の位置や向きの推定精度をより向上させることが可能となる。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）
ユーザの体肢のうち少なくとも一部の第１の部位の、位置及び向きのうち少なくともいずれかを示す位置情報の時系列に沿った変化に基づき、当該ユーザの体幹のうち少なくとも一部の第２の部位の位置を推定する推定部
を備える、情報処理装置。
（２）
前記第２の部位の位置の推定結果に基づき、所定のデバイスの指向性を制御する指向性制御部を備える、前記（１）に記載の情報処理装置。
（３）
前記デバイスは集音デバイスであり、
前記集音デバイスにより集音された音声を認識する音声認識部を備え、
前記音声認識部は、認識した前記音声の話者を、前記第２の部位の位置が推定された前記ユーザであるものと認識する、
前記（２）に記載の情報処理装置。
（４）
前記推定部は、前記第２の部位として、前記ユーザの口元の位置を推定し、
前記指向性制御部は、前記集音デバイスが当該口元の方向を向くように、当該集音デバイスの指向性を制御する、
前記（３）に記載の情報処理装置。
（５）
前記デバイスは、被写体の画像を撮像する撮像デバイスであり、
前記推定部は、前記第２の部位として、前記ユーザの顔の少なくとも一部の部位の位置を推定し、
前記指向性制御部は、前記撮像デバイスが当該一部の部位の方向を向くように、当該撮像デバイスの向きを制御する、
前記（２）に記載の情報処理装置。
（６）
前記指向性制御部は、前記第２の部位の位置の推定結果の信頼度に基づき、前記所定のデバイスの指向性を制御する、前記（２）〜（５）のいずれか一項に記載の情報処理装置。
（７）
前記第２の部位の位置の推定結果の信頼度を示す情報を、所定の出力部に出力させる出力制御部を備える、前記（１）〜（６）のいずれか一項に記載の情報処理装置。
（８）
前記推定部は、動きの自由度として少なくとも２自由度を有する前記第１の部位の前記位置情報の時系列に沿った変化に基づき、前記第２の部位の位置を推定する、前記（１）〜（７）のいずれか一項に記載の情報処理装置。
（９）
前記推定部は、可動範囲が所定の広さ以上の前記第１の部位の前記位置情報の時系列に沿った変化に基づき、前記第２の部位の位置を推定する、前記（１）〜（７）のいずれか一項に記載の情報処理装置。
（１０）
前記第１の部位の、前記位置情報を検知するための検知部を備える、前記（１）〜（７）のいずれか一項に記載の情報処理装置。
（１１）
前記検知部は、前記ユーザまでの距離を検知し、
前記推定部は、複数の前記距離の検知結果に基づき、前記第１の部位の前記位置情報を算出する、前記（１０）に記載の情報処理装置。
（１２）
前記推定部は、複数の前記距離の検知結果に対して主成分分析を施すことで、前記第１の部位の前記位置情報を算出する、前記（１１）に記載の情報処理装置。
（１３）
前記第１の部位は、前記ユーザの腕のうち少なくとも一部の部位である、前記（１）〜（１２）のいずれか一項に記載の情報処理装置。
（１４）
前記推定部は、前記第１の部位が、右腕及び左腕のうちのいずれに対応するかを推定する、前記（１３）に記載の情報処理装置。
（１５）
前記推定部は、前記第１の部位の速度または加速度の変化に基づき、当該第１の部位が、右腕及び左腕のうちのいずれに対応するかを推定する、前記（１４）に記載の情報処理装置。
（１６）
前記推定部は、前記第１の部位の可動範囲に基づき、当該第１の部位が、右腕及び左腕のうちのいずれに対応するかを推定する、前記（１４）に記載の情報処理装置。
（１７）
前記推定部は、前記第１の部位の動きの軌跡に基づき、前記第２の部位の位置を推定する、前記（１）〜（１６）のいずれか一項に記載の情報処理装置。
（１８）
プロセッサが、ユーザの体肢のうち少なくとも一部の第１の部位の、位置及び向きのうち少なくともいずれかを示す位置情報の時系列に沿った変化に基づき、当該ユーザの体幹のうち少なくとも一部の第２の部位の位置を推定する
ことを含む、情報処理方法。
（１９）
コンピュータに、
ユーザの体肢のうち少なくとも一部の第１の部位の、位置及び向きのうち少なくともいずれかを示す位置情報の時系列に沿った変化に基づき、当該ユーザの体幹のうち少なくとも一部の第２の部位の位置を推定する
ことを実行させる、プログラム。

１情報処理装置
１０本体
１１制御部
１２対象認識部
１３音声認識部
１４対象世界モデル更新部
１５指向性制御部
１６入力解析部
１７処理実行部
１８出力制御部
２０センサボックス
２１検知部
２３集音部
３０出力部
４０記憶部

Claims

ユーザの体肢のうち少なくとも一部の第１の部位の、位置及び向きのうち少なくともいずれかを示す位置情報の時系列に沿った変化に基づき、当該ユーザの体幹のうち少なくとも一部の第２の部位の位置を推定する推定部
を備える、情報処理装置。
前記第２の部位の位置の推定結果に基づき、所定のデバイスの指向性を制御する指向性制御部を備える、請求項１に記載の情報処理装置。
前記デバイスは集音デバイスであり、
前記集音デバイスにより集音された音声を認識する音声認識部を備え、
前記音声認識部は、認識した前記音声の話者を、前記第２の部位の位置が推定された前記ユーザであるものと認識する、
請求項２に記載の情報処理装置。
前記推定部は、前記第２の部位として、前記ユーザの口元の位置を推定し、
前記指向性制御部は、前記集音デバイスが当該口元の方向を向くように、当該集音デバイスの指向性を制御する、
請求項３に記載の情報処理装置。
前記デバイスは、被写体の画像を撮像する撮像デバイスであり、
前記推定部は、前記第２の部位として、前記ユーザの顔の少なくとも一部の部位の位置を推定し、
前記指向性制御部は、前記撮像デバイスが当該一部の部位の方向を向くように、当該撮像デバイスの向きを制御する、
請求項２に記載の情報処理装置。
前記指向性制御部は、前記第２の部位の位置の推定結果の信頼度に基づき、前記所定のデバイスの指向性を制御する、請求項２に記載の情報処理装置。
前記第２の部位の位置の推定結果の信頼度を示す情報を、所定の出力部に出力させる出力制御部を備える、請求項１に記載の情報処理装置。
前記推定部は、動きの自由度として少なくとも２自由度を有する前記第１の部位の前記位置情報の時系列に沿った変化に基づき、前記第２の部位の位置を推定する、請求項１に記載の情報処理装置。
前記推定部は、可動範囲が所定の広さ以上の前記第１の部位の前記位置情報の時系列に沿った変化に基づき、前記第２の部位の位置を推定する、請求項１に記載の情報処理装置。
前記第１の部位の、前記位置情報を検知するための検知部を備える、請求項１に記載の情報処理装置。
前記検知部は、前記ユーザまでの距離を検知し、
前記推定部は、複数の前記距離の検知結果に基づき、前記第１の部位の前記位置情報を算出する、請求項１０に記載の情報処理装置。
前記推定部は、複数の前記距離の検知結果に対して主成分分析を施すことで、前記第１の部位の前記位置情報を算出する、請求項１１に記載の情報処理装置。
前記第１の部位は、前記ユーザの腕のうち少なくとも一部の部位である、請求項１に記載の情報処理装置。
前記推定部は、前記第１の部位が、右腕及び左腕のうちのいずれに対応するかを推定する、請求項１３に記載の情報処理装置。
前記推定部は、前記第１の部位の速度または加速度の変化に基づき、当該第１の部位が、右腕及び左腕のうちのいずれに対応するかを推定する、請求項１４に記載の情報処理装置。
前記推定部は、前記第１の部位の可動範囲に基づき、当該第１の部位が、右腕及び左腕のうちのいずれに対応するかを推定する、請求項１４に記載の情報処理装置。
前記推定部は、前記第１の部位の動きの軌跡に基づき、前記第２の部位の位置を推定する、請求項１に記載の情報処理装置。
プロセッサが、ユーザの体肢のうち少なくとも一部の第１の部位の、位置及び向きのうち少なくともいずれかを示す位置情報の時系列に沿った変化に基づき、当該ユーザの体幹のうち少なくとも一部の第２の部位の位置を推定する
ことを含む、情報処理方法。
コンピュータに、
ユーザの体肢のうち少なくとも一部の第１の部位の、位置及び向きのうち少なくともいずれかを示す位置情報の時系列に沿った変化に基づき、当該ユーザの体幹のうち少なくとも一部の第２の部位の位置を推定する
ことを実行させる、プログラム。