JP2019113928A

JP2019113928A - 情報処理装置、情報処理方法、および記録媒体

Info

Publication number: JP2019113928A
Application number: JP2017245033A
Authority: JP
Inventors: 誠司鈴木; Seiji Suzuki; 健太郎井田; Kentaro Ida
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2017-12-21
Filing date: 2017-12-21
Publication date: 2019-07-11
Also published as: CN111492339A; WO2019123754A1; EP3731076A1; US11449451B2; EP3731076A4; KR20200101912A; US20210081343A1

Abstract

【課題】どの制御対象機器に操作コマンドが発行されたかをユーザに直感的に気付かせることが可能な情報処理装置、情報処理方法、および記録媒体を提供する。【解決手段】制御対象機器の場所にユーザの視線を誘導する処理と、前記視線の誘導のタイミングに応じて、前記制御対象機器における操作コマンドの実行タイミングを制御する処理と、を行う制御部を備える、情報処理装置。【選択図】図７

Description

本開示は、情報処理装置、情報処理方法、および記録媒体に関する。

近年、スマートフォン、タブレット端末、及びデジタルサイネージ等の情報処理装置が広く普及しており、このような複雑な処理及び表現が可能な情報処理装置における表示オブジェクト（即ち、ＵＩ：User Interface）に関する開発が、様々な観点で行われている。例えば、ユーザがより直観的に操作可能なＵＩ、複雑な操作を簡易に実現可能なＵＩ、ユーザの利便性を向上させるＵＩ等が開発されている。その一例として、例えば下記特許文献１には、テーブル上にＵＩを表示して、ＵＩとユーザとのインタラクションを実現する技術が開示されている。

また、近年は、ＩｏＴ（Internet of Things）の普及に伴い、家電であってもネットワークに接続され、他デバイスと協調動作するものが増えてきている。

特開２０１５−９０５２４号公報

従来、テレビなどのデバイスが他の機器と連携することなく、単独で動作していたため、ユーザの操作に対するフィードバックもデバイス上に設置されたディスプレイやＬＥＤなどを用いれば十分であった。しかしながら、ＩｏＴの普及に伴い、家電であってもネットワークに接続され、他デバイスと協調動作するものが増えてくると（例えば、テーブル上に表示されたＵＩとの連動など）、ユーザがデバイスのフィードバックに気付き難いという問題が生じる。

そこで、本開示では、どの制御対象機器に操作コマンドが発行されたかをユーザに直感的に気付かせることが可能な情報処理装置、情報処理方法、および記録媒体を提案する。

本開示によれば、制御対象機器の場所にユーザの視線を誘導する処理と、前記視線の誘導のタイミングに応じて、前記制御対象機器における操作コマンドの実行タイミングを制御する処理と、を行う制御部を備える、情報処理装置を提案する。

本開示によれば、プロセッサが、制御対象機器の場所にユーザの視線を誘導することと、前記視線の誘導のタイミングに応じて、前記制御対象機器における操作コマンドの実行タイミングを制御することと、を含む、情報処理方法を提案する。

本開示によれば、コンピュータを、制御対象機器の場所にユーザの視線を誘導する処理と、前記視線の誘導のタイミングに応じて、前記制御対象機器における操作コマンドの実行タイミングを制御する処理と、を行う制御部として機能させるためのプログラムが記録された、記録媒体を提案する。

以上説明したように本開示によれば、どの制御対象機器に操作コマンドが発行されたかをユーザに直感的に気付かせることが可能となる。

なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の一実施形態による情報処理システムの概要について説明する図である。本実施形態に係るシステムの構成の一例を示すブロック図である。本実施形態に係る音声によるエージェントの呼び出しについて説明する図である。本実施形態に係るメニューＵＩによるエージェントの呼び出しについて説明する図である。本実施形態に係るシステムの情報処理装置において実行されるデバイス制御の流れの一例を示すフローチャートである。本実施形態に係るデバイスによる憑依表現処理の流れの一例を示すフローチャートである。本実施形態に係るエージェント画像によるデバイスまでの視線誘導及び憑依表現について説明する図である。本実施形態に係るエージェント画像によるデバイスまでの視線誘導における軌跡の算出について説明する図である。本実施形態に係るエージェント画像の移動時における変形の一例について説明する図である。本実施形態に係るエージェントの憑依表現の一例について説明する図である。本実施形態に係るシステムによる憑依表現処理の流れの一例を示すフローチャートである。本実施形態に係るシステムの対戦型ボルダリングへの応用例について説明する図である。本実施形態に係るシステムの変形ロボットへの応用例について説明する図である。本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、説明は以下の順序で行うものとする。
１．本開示の一実施形態による情報処理システムの概要
２．構成例
２−１．出力装置２００
２−２．センサ装置３００
２−３情報処理装置１００
３．動作処理
３−１．エージェントの呼び出し
３−２．デバイス制御の流れ
３−３．デバイスによる憑依表現処理
３−４．システムによる憑依表現処理
３−５．補足
４．応用例
５．ハードウェア構成例
６．まとめ

＜＜１．本開示の一実施形態による情報処理システムの概要＞＞
図１は、本開示の一実施形態による情報処理システムの概要について説明する図である。本実施形態による情報処理システムは、情報処理装置１００（図１では不図示）、出力装置２００（図１では、一例としてプロジェクタ２１０とＴＶ２２０を図示）及びセンサ装置３００を含む。

センサ装置３００は、様々な情報をセンシングする装置である。例えば、センサ装置３００は、カメラ、デプスセンサ、及びマイクロフォン等を含み、ユーザ及びユーザがいる空間に関する情報をセンシングする。例えば、センサ装置３００は、ユーザの位置、姿勢、動き、視線、部屋の形状、及び家具の配置等をセンシングする。

出力装置２００は、情報処理装置１００からの様々な情報を出力する装置であって、例えばプロジェクタ２１０やＴＶ２２０を想定する。プロジェクタ２１０は、センサ装置３００がセンシングする空間に含まれる壁、床、テーブル、又はその他家具等の任意の場所（即ち、領域）を投影場所（即ち、投影面又は投影領域）として情報を投影可能である。なお、投影場所は、平面に限定されず、曲面であってもよいし、複数の面に分かれていてもよい。また、プロジェクタ２１０は、空間内のどこへでも投影できるよう、複数台、若しくは所謂ムービングプロジェクタにより実現される。

出力装置２００及びセンサ装置３００は、単数であってもよいし複数であってもよい。

図１に示す例では、プロジェクタ２１０により、テーブル３０の天面に表示画像２０が表示されている。表示画像２０は、ユーザ入力に対するアプリケーションからのインタラクションを示す表示オブジェクトであって、例えば静止画、動画（映像）、メニュー画面又はコントロール画面といった各種ＵＩ等である。

表示画像２０に対するユーザによる操作入力はセンサ装置３００により検出されるため、ユーザは、表示画像２０上で操作体、例えば手を接触又は近接させて動かすことで、表示画像２０に対し各種の操作入力を行うことができる。

表示画像２０の表示位置は、テーブル３０の天面に限定されず、空間内における壁、床、又は家具等の任意の場所であってよく、自動的に、またはユーザによる指示に従って制御される。

ここで、空間内の機器（例えば家電等のＩｏＴデバイス）が情報処理装置１００と通信接続されている場合、情報処理装置１００は、テーブル３０に表示したコントロール画面（表示画像２０）に対するユーザによる操作入力において、各機器のＯＮ／ＯＦＦ等の制御が可能となる。この際、ユーザはコントロール画面を見ながら操作するため、実際にどの機器が自分のコントロール下で動作しているのか気付き難い場合がある。また、例えばコントロール画面の操作によりユーザが家の中を映画モードに切り替えた場合、テレビの画質設定が映画モードになり、オーディオシステムが重低音モードになり、天井照明が暗くなる等、多数のデバイスが協調動作するが、多くの変化が同時に起きるため、ユーザは一瞬では何が起きたか理解できない場合もある。

ここでは一例としてテーブル３０に表示されたコントロール画面からの操作を例にして問題点を説明したが、ユーザがスマートフォン上で動作するアプリケーションを用いて操作した場合も同様の問題が生じる。

このような問題に対処するため、本開示では、ユーザに対する適切なフィードバックを提示し、どの制御対象機器に操作コマンドが発行されたかをユーザに直感的に気付かせることを可能とする仕組みを提案する。

具体的には、本開示では、操作コマンドを実行するデバイスの位置、すなわち制御対象機器の場所にユーザの視線を誘導し、当該視線の誘導のタイミングに応じて、制御対象機器における操作コマンドの実行タイミングを制御する処理を行う。具体的には、制御対象機器にユーザの視線を誘導し、誘導完了後に当該制御対象機器に操作コマンドが作用したことを示すフィードバック（可能であればデバイスの特性を活かしたフィードバック表現）を提示するよう制御することで、制御対象機器への作用をユーザに直感的に気付かせることを可能とする。

＜＜２．構成＞＞
図２は、本実施形態に係るシステム１の構成の一例を示すブロック図である。図２に示すように、システム１は、情報処理装置１００、出力装置２００及びセンサ装置３００を含む。

＜２−１．出力装置２００＞
出力装置２００は、プロジェクタ２１０、ＴＶ２２０、タブレット２３０、スマートフォン２４０、ＰＣ２５０、スピーカ２６０、及び単一指向性スピーカ２７０を含む。なお、システム１は、出力装置２００として、これらのうち一つ又は複数の組み合わせを含んでも良いし、同一種類の装置を複数含んでも良い。

プロジェクタ２１０は、空間の任意の場所に画像を投影する投影装置である。プロジェクタ２１０は、例えば固定型の広角プロジェクタであってもよいし、Ｐａｎ／Ｔｉｌｔ駆動型等の投影方向を変更可能な可動部を備えるいわゆるムービングプロジェクタであってもよい。ＴＶ２２０は、テレビジョン放送の電波を受信して、画像及び音声を出力する装置である。タブレット２３０は、典型的にはスマートフォン２４０より大きな画面を有する無線通信可能なモバイル機器であり、画像、音声及び振動等を出力可能である。スマートフォン２４０は、典型的にはタブレット２３０より小さな画面を有する無線通信可能なモバイル機器であり、画像、音声及び振動等を出力可能である。ＰＣ２５０は、固定型のデスクトップＰＣであってもよいし、モバイル型のノートＰＣであってもよく、画像及び音声等を出力可能である。スピーカ２６０は、ＤＡＣ（Digital Analog Converter）およびアンプを介して、音声データをアナログ信号に変換し、出力（再生）する。単一指向性スピーカ２７０は、単一の方向に指向性を形成可能なスピーカである。

出力装置２００は、情報処理装置１００による制御に基づいて情報を出力する。情報処理装置１００は、出力する情報の内容に加えて、出力方法も制御可能である。例えば、情報処理装置１００は、プロジェクタ２１０の投影方向を制御したり、単一指向性スピーカ２７０の指向性を制御したりすることができる。

なお、出力装置２００は、上述した構成要素以外の任意の出力が可能な構成要素を含んでいてもよい。例えば、出力装置２００は、ＨＭＤ（Head Mounted Display）、ＡＲ（Augmented Reality）グラス、及び時計型デバイス等のウェアラブルデバイスを含んでいてもよい。

また、出力装置２００は、照明装置、空調装置、又は音楽再生装置等を含んでいてもよい。

＜２−２．センサ装置３００＞
センサ装置３００は、カメラ３１０、デプスセンサ３２０及びマイクロフォン３３０を含む。

カメラ３１０は、ＲＧＢカメラ等の、レンズ系、駆動系、及び撮像素子を有し、画像（静止画像又は動画像）を撮像する撮像装置である。デプスセンサ３２０は、赤外線測距装置、超音波測距装置、ＬｉＤＡＲ（Laser Imaging Detection and Ranging）又はステレオカメラ等の深度情報を取得する装置である。マイクロフォン３３０は、周囲の音を収音し、アンプおよびＡＤＣ（Analog Digital Converter）を介してデジタル信号に変換した音声データを出力する装置である。マイクロフォン３３０は、アレイマイクであってもよい。

センサ装置３００は、情報処理装置１００による制御に基づいて情報をセンシングする。例えば、情報処理装置１００は、カメラ３１０のズーム率及び撮像方向を制御することができる。

なお、センサ装置３００は、上述した構成要素以外の任意のセンシングが可能な構成要素を含んでいてもよい。例えば、センサ装置３００は、マウス、キーボード、タッチパネル、ボタン、スイッチ及びレバー等、ユーザによって情報が入力される装置を含んでいてもよい。また、センサ装置３００は、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、照度センサ、力センサ、超音波センサ、気圧センサ、ガスセンサ（Co2）、サーモカメラ等の各種のセンサを含み得る。

＜２−３．情報処理装置１００＞
情報処理装置１００は、Ｉ／Ｆ（Interface）部１１０、ジェスチャ検出部１２０、ユーザ検出部１３０、環境検出部１４０、機器検出部１５０、記憶部１６０、及び制御部１７０を含む。

・Ｉ／Ｆ部１１０
Ｉ／Ｆ部１１０は、情報処理装置１００と他の機器とを接続するための接続装置である。Ｉ／Ｆ部１１０は、例えばＵＳＢ（Universal Serial Bus）コネクタ等により実現され、出力装置２００及びセンサ装置３００の各構成要素との間で情報の入出力を行う。

・ジェスチャ検出部１２０
ジェスチャ検出部１２０は、センサ装置３００によりセンシングされた情報に基づいてユーザのジェスチャ情報を検出する機能を有する。ジェスチャ情報は、例えばデプスカメラ、サーモカメラ、ＲＧＢカメラ、又は超音波センサ等により検出され得る。ジェスチャ情報は、例えばユーザの手の動き、腕の動き、姿勢（例えばボーン情報）、視線、タッチ操作等の情報である。より具体的には、ジェスチャ検出部１２０は、指差しや頭の動き、視線等による方向を指し示す動作や、壁、床、テーブル、又はその他家具等の投影場所に対するタッチ操作を、ジェスチャ情報として検出する。タッチ操作は、壁、床、又は家具等に投影された表示画像に対するユーザによる操作入力としても検出される。例えばテーブル３０に表示画像２０が表示されている場合、ジェスチャ検出部１２０は、センサ装置３００から入力された撮像画像やデプス情報を解析して表示画面上に位置するユーザの手や指の位置や深度情報（換言すると、三次元情報）を取得し、高さ方向におけるテーブル３０へのユーザの手の接触若しくは近接、及びテーブル３０からの手の離脱を検出する。本明細書では、ユーザが情報に表示画面に手等の操作体を接触又は近接させることを、まとめて単に「接触」とも称する。

ジェスチャ検出部１２０は、検出したジェスチャ情報を制御部１７０に出力する。

・ユーザ検出部１３０
ユーザ検出部１３０は、センサ装置３００によりセンシングされた情報に基づいてユーザに関する情報（ユーザ情報）を検出する機能を有する。

ユーザ情報は、センサ装置３００によりセンシングされる空間内におけるユーザの位置及び人数を示す情報を含み得る。ユーザの位置及び人数は、サーモカメラ、ＲＧＢカメラ、赤外線センサ又は超音波センサ等により検出され得る。

ユーザ情報は、ユーザの視線を示す情報を含み得る。ユーザの視線を示す情報は、視点の位置及び視線方向を示す情報を含む。またユーザの視線を示す情報は、ユーザの顔や頭の向きを示す情報であってもよいし、さらに眼球の向きを示す情報であってもよい。ユーザの視線を示す情報は、ＲＧＢカメラ、赤外線カメラ、又はユーザに装着された接眼カメラ等により得られるユーザの目の画像を解析することで検出され得る。

ユーザ情報は、ユーザの姿勢を示す情報を含み得る。ユーザの姿勢を示す情報は、ＲＧＢカメラ又は赤外線カメラ等により得られる画像を解析することで検出され得る。

ユーザ情報は、ユーザの発話音声を示す情報を含み得る。ユーザの発話音声を示す情報は、マイクロフォンにより得られる音声情報を解析することで検出され得る。

ユーザ検出部１３０は、検出したユーザ情報を制御部１７０に出力する。

・環境検出部１４０
環境検出部１４０は、センサ装置３００によりセンシングされた情報に基づいて環境情報を検出する機能を有する。環境情報は、ユーザがいる空間に関する情報である。環境情報は多様な情報を含み得る。

環境情報は、ユーザがいる空間の形状を示す情報を含み得る。空間の形状を示す情報は、例えば、壁面、天井、床、ドア、家具、及び生活用品等の、空間を形成する物体の形状を示す情報を含む。空間の形状を示す情報は、２次元情報であってもよいし、ポイントクラウド等の３次元情報であってもよい。空間の形状を示す情報は、例えば赤外線測距、超音波測距、又はステレオカメラにより得られる深度情報に基づいて検出され得る。

環境情報は、投影面の状態を示す情報を含み得る。投影面の状態は、例えば投影面の凹凸及び色を意味する。投影面の凹凸は、例えばＬｉＤＡＲにより得られる深度情報に基づいて検出され得る。投影面の色は、例えばＲＧＢカメラにより撮像された画像を解析することで検出され得る。

環境情報は、投影面の明るさを示す情報を含み得る。投影面の明るさは、照度センサ又はＲＧＢカメラにより検出され得る。

環境情報は、空間内の物体の位置（三次元位置）を示す情報を含み得る。例えば、部屋の中のコップ、椅子、テーブル、及び電子機器等の位置は、画像認識により検出され得る。また、例えば、部屋の中のスマートフォンの位置は、スマートフォンと無線ＬＡＮのアクセスポイントとの通信に係る電波強度により検出され得る。

環境情報は、環境音を含み得る。環境音は、マイクロフォンにより検出され得る。

環境検出部１４０は、検出した環境情報を制御部１７０に出力する。

機器検出部１５０は、空間内の機器に関する情報（機器情報）を検出する機能を有する。機器情報は、機器の存在及び機器の三次元位置を含み得る。

情報処理装置１００は、Ｉ／Ｆ部１１０を介して各機器（出力装置２００）と接続する。例えばＩ／Ｆ部１１０は、無線／有線ＬＡＮ（Local Area Network）、ＤＬＮＡ（登録商標）（Digital Living Network Alliance）、Ｗｉ−Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＵＳＢ接続、又はその他専用線等により空間内の各機器と接続する。機器検出部１５０は、Ｉ／Ｆ部１１０を介して各機器が接続されることでその機器の存在を把握する。

機器の三次元位置は、センサ装置３００によりセンシングされた情報に基づいて特定され得る。例えば機器検出部１５０は、機器に設けられた再帰性反射材を、センサ装置３００のＩＲ（infrared）カメラで撮影した赤外線画像の解析により抽出し、空間内における機器の位置を特定してもよい。また、機器検出部１５０は、機器に設けられた特定パターン（メーカー名、又は二次元バーコード等）を、センサ装置３００のカメラ（ＲＧＢカメラ）で撮影した撮影画像の解析により抽出し、空間内における機器の位置を特定してもよい。また、機器検出部１５０は、機器毎に発信されるユニークな超音波を、センサ装置３００のマイクロフォンで取得し、空間内における機器の位置を特定してもよい。また、機器検出部１５０は、ユーザによる場所指定の動作（指差し、タッチ、視線、又はマーカーを置く等）と登録操作（ＵＩ選択、又は音声発話等）をセンサ装置３００によりセンシングし、空間内における機器の位置を特定してもよい。

機器検出部１５０は、検出した機器情報を制御部１７０に出力する。

以上、空間内の人、環境、及び機器に関する情報を検出する機能について説明した。本明細書において、ジェスチャ検出部１２０、ユーザ検出部１３０、環境検出部１４０、及び機器検出部１５０による各情報の検出は、空間認識に相当し、得られた情報（空間の環境センシング処理の結果）は、空間情報とも称す。

・制御部１７０
制御部１７０は、各種プログラムに従って情報処理装置１００内の動作全般を制御する。制御部１７０は、表示制御部１７１、及び音響制御部１７３を含む。表示制御部１７１は、出力装置２００による表示を制御する。音響制御部１７３は、出力装置２００による音声出力を制御する。

また、制御部１７０は、Ｉ／Ｆ部１１０を介して接続する各種機器の動作制御を行い得る。情報処理装置１００により制御を行うことが可能な機器を「制御対象機器」とも称す。制御対象機器には、上述した出力装置２００の例の他、洗濯機や冷蔵庫等のＩｏＴ家電、玩具、家具、自家用車等の様々なＩｏＴデバイス、及び床暖房、ふろ給湯器、浴室乾燥機、ドア／窓の施錠、窓シャッター、車庫等のホーム設備も含まれる。制御部１７０は、所定の制御を指示するコマンド（制御信号）を、Ｉ／Ｆ部１１０を介して制御対象機器へ送信する。

また、制御部１７０は、空間内から取得した情報に基づいて、操作コマンドを取得する。

例えば制御部１７０は、ユーザの音声発話、操作入力（ジェスチャや、空間内に表示したコントロール画面に対する操作）、又はユーザの状況等を解析し、制御対象機器の制御に関する操作コマンドを取得する。

具体的には、例えば制御部１７０は、マイクロフォン３３０により集音した音声情報（発話音声）から、音声認識エンジンを用いて文字列を取得し、さらに構文解析を行ってユーザの発話内容を認識し、操作トリガを検出する。操作トリガは、所定のキーワード（例えばシステムの名称、システムへの呼び掛け等）又は動作の指示（例えば「表示して」、「見せて」、「○○モードに移行」、「電気をつけて」等）であってもよい。トリガが検出された場合、制御部１７０は、操作コマンドの生成を行う。操作コマンドとは、空間内の機器に何等かの動作を実行させるための制御信号である。制御部１７０は、認識したユーザの発話内容から、制御対象機器と制御内容を取得し、操作コマンドを生成する。例えば「テレビをつけて」とユーザが発話した場合、制御部１７０は、「ＴＶ＿ＯＮコマンド」として有効に認識する。

また、制御部１７０は、ユーザが寒そうにしてる等の状況を解析し、暖房を点ける等の有効コマンドを認識してもよい。この場合、制御部１７０は、エージェントを表示させて「暖房を点けますか？」、「暖房を点けますね」等とユーザにコマンド内容を提示してから操作コマンドの発行を行うようにしてもよい。

次いで、制御部１７０は、生成した操作コマンドを制御対象機器に発行（送信）する前に、ユーザの視線誘導処理を行う。すなわち、本実施形態による制御部１７０は、ユーザの視線を制御対象機器に誘導し、誘導タイミングに応じて、制御対象機器の動作を制御する（制御対象機器における操作コマンドの実行タイミングを制御する）ことで、制御対象機器への作用をユーザに直感的に気付かせることを可能とする。視線誘導処理は、例えば画像又は音声により行う。例えば制御部１７０は、視線誘導が終了するタイミングで制御対象機器に操作コマンドを送信する制御を行う。視線誘導が終了するタイミングとは、例えば誘導画像が制御対象機器の位置に到達した場合である。「制御対象機器の位置に到達した場合」は、例えば、誘導画像が制御対象機器の端から所定の距離以内、または制御対象機器の重心位置から所定の距離以内に入った場合に到達したと判定してもよい。より具体的には、例えば制御部１７０は、プロジェクタ２１０により誘導画像をユーザの視線方向に表示し、誘導画像を制御対象機器の位置まで移動させることで、ユーザの視線を制御対象機器に誘導する。そして、誘導画像を制御対象機器の位置まで移動させた後、制御部１７０は、操作コマンドを制御対象機器に発行して制御対象機器を動作させる（例えばＴＶの電源をＯＮにする等）。なお、「視線誘導が終了するタイミング」は上記の例に限定されず、例えば、誘導画像が制御対象機器の位置に到達し、かつ、ユーザの視線方向が制御対象機器に向いた場合としてもよい。若しくは、「視線誘導が終了するタイミング」は、誘導画像が制御対象機器の位置に到達し、かつ、制御対象機器から操作コマンドの実行準備完了通知を受信した場合（予め制御対象機器に操作コマンドの実行準備指示コマンドを情報処理装置１００が送信していることが前提となる）としてもよい。

さらに、制御部１７０は、誘導画像を制御対象機器の位置まで移動させた後、操作コマンドを制御対象機器に発行する前に、制御対象機器に対して誘導画像の憑依表現を出力する制御を行った上で、操作コマンドを制御対象機器に発行するようにしてもよい。憑依表現を出力することで、システムのコントロールが制御対象機器に作用したことを直感的にユーザに示すことが可能となる。憑依表現を出力する制御とは、例えば制御対象機器からの音声出力、画像表示、振動、又は動き、若しくは、プロジェクタ２１０による制御対象機器への所定画像の投影が想定される。例えば誘導画像を制御対象機器の位置まで移動させた後に制御対象機器が少し動くと、ユーザは、システムのコントロールが制御対象機器に作用していることを直感的に認識することができる。また、制御部１７０は、このような憑依表現の出力制御が終了したタイミングで、制御対象機器に操作コマンドを発行するようにしてもよい。

また、制御部１７０は、発話者の特定を行うことも可能である。本システムでは、ユーザ検出部１３０および環境検出部１４０により、空間内の全ユーザの位置や姿勢が定期的に認識されているため、制御部１７０は、マイクロフォンで一定以上の音量の音声信号を取得した場合に、マイクアレイを用いて発話者の方向を特定し、予め認識している全ユーザの位置を参照して発話者を特定する。これにより、例えば制御部１７０は、上述したように発話者の視線方向に誘導画像を表示することが可能となる。

・記憶部１６０
記憶部１６０は、制御部１７０の処理に用いられるプログラムや演算パラメータ等を記憶するＲＯＭ（Read Only Memory）、および適宜変化するパラメータ等を一時記憶するＲＡＭ（Random Access Memory）により実現される。また、記憶部１６０は、ジェスチャ検出部１２０により検出されたジェスチャ情報、ユーザ検出部１３０により検出されたユーザ情報、環境検出部１４０により検出された環境情報、及び機器検出部１５０により検出された機器情報等を記憶する。

以上、本実施形態による情報処理装置１００の構成について具体的に説明した。なお情報処理装置１００の構成は、図２に示す例に限定されない。例えば、情報処理装置１００が出力装置２００及びセンサ装置３００と同じ空間内にあってもよいし、他の空間にあってもよい。また、情報処理装置１００がネットワーク上にあってもよい。また、情報処理装置１００の少なくとも一部の構成が外部装置にあってもよい。情報処理装置１００の各構成を適宜分散することで、リアルタイム性の向上や処理負担の軽減、さらにはセキュリティを担保することが可能となる。

＜＜３．動作処理＞＞
続いて、本実施形態による情報処理システムの動作処理について図面を用いて具体的に説明する。

＜３−１．エージェントの呼び出し＞
まず、ユーザは、音声又はジェスチャによりエージェントの呼び出しを行う。情報処理装置１００は、センサ装置３００により空間から取得した情報を解析し、エージェントの名前やシステムへの呼び掛けが行われた場合や、所定のジェスチャを認識した場合に、プロジェクタ２１０によりエージェント画像を投影する。

図３は、本実施形態に係る音声によるエージェントの呼び出しについて説明する図である。図３左に示すように、例えばユーザが「マイケル」というエージェントの名前を発話した場合、情報処理装置１００は、発話とユーザの方向（発話者の位置）をアレイマイクにより特定する。次いで、情報処理装置１００は、特定した方向にいるユーザをデプスカメラで捉え、顔向き（もしくは視線）の方向Ｖを認識する。次に、情報処理装置１００は、図３右に示すように、その顔向きの方向Ｖの先に、プロジェクタ２１０を用いてエージェント画像１０を表示する。

図４は、本実施形態に係るコントロールＵＩによるエージェントの呼び出しについて説明する図である。図４左に示すように、ユーザがテーブルや壁などをタップした場合、情報処理装置１００は、図４中央に示すように、タップした場所にメニューＵＩ２１をプロジェクタ２１０により投影表示する。そして、ユーザがメニューＵＩ２１の中から「Agent」という項目を選択した場合、情報処理装置１００はエージェント画像１０を投影表示する。この場合はタップした場所にエージェント画像１０が表示される。

＜３−２．デバイス制御の流れ＞
このようにエージェントを呼び出したのち、ユーザがエージェントを介してデバイス（機器）の制御を行う場合の動作処理について、図５を参照して説明する。図５は、本実施形態に係るシステム１の情報処理装置１００において実行されるデバイス制御の流れの一例を示すフローチャートである。

図５に示すように、まず、情報処理装置１００は、マイクロフォン３３０から取得した音声情報に基づいてユーザの発話認識を行う（ステップＳ１０３）。例えばユーザがエージェントに対して、「テレビつけて」と発話した場合、情報処理装置１００は、発話内容を解析して、ＴＶ＿ＯＮコマンドとして有効に認識する。

次に、情報処理装置１００は、ユーザの発話音声から、有効な操作コマンドを認識する（ステップＳ１０６）。有効なコマンドであった場合、情報処理装置１００は、そのコマンドの送信先デバイス（制御対象機器）を判定する。例えば「テレビつけて」であれば、ＴＶ２２０であるし、「音楽流して」であれば音楽プレイヤー（またはスピーカー２６０）である。発話認識に失敗した場合（ステップＳ１０６／Ｎｏ）、情報処理装置１００は何もせずに終了してもよいし、「もう一度言ってください」等とユーザに再度発話を促してもよい。

次いで、情報処理装置１００は、判定した送信先デバイスが憑依表現可能なデバイスであるか否かを判断する（ステップＳ１０９）。憑依表現とは、システムが対象のデバイスに作用したことをユーザに直感的に把握させるためデバイスのフィードバックである。エージェントがデバイスに乗り移ったように見せるため、「憑依表現」と称している。デバイスのフィードバックは、例えば画像表示、音声出力、振動、または所定の動き等により行うことが想定される。情報処理装置１００は、例えばＴＶ２２０はディスプレイを有しているため、憑依表現可能であると判定できる。なお、憑依表現が可能である否かは、情報処理装置１００からデバイスに問い合わせてもよいし、予めデバイスから取得した機器情報に基づいて判断してもよい。

次に、デバイスが憑依表現可能である場合（ステップＳ１０９／Ｙｅｓ）、情報処理装置１００は、デバイスによる憑依表現を行うよう制御する（ステップＳ１１２）。詳細については図６を参照して後述する。

一方、デバイスが憑依表現に対応していない場合（ステップＳ１０９／Ｎｏ）、情報処理装置１００は、システムによる憑依表現を行うよう制御する（ステップＳ１１５）。システムによる憑依表現とは、制御対象のデバイス以外のデバイスを用いた制御であって、例えばプロジェクタ２１０により制御対象のデバイスに所定の画像投影等を行い、制御対象のデバイスが動いているように見せたりする。詳細については図６を参照して後述する。

そして、憑依表現の出力完了後、情報処理装置１００はデバイスに操作コマンドを発行（送信）する（ステップＳ１１８）。例えば、認識した有効コマンドがＴＶ＿ＯＮコマンドの場合、情報処理装置１００は、ＴＶ２２０を前回設定していた入力に切り替えるよう指示する操作コマンドを発行する。具体的には、例えば、前回電源オフ時に地上デジタル放送３ｃｈにしていたのであれば、ＤＩＧＩＴＡＬ＿３ＣＨコマンドを発行する。この場合、情報処理装置１００は、ＨＤＭＩ１（HDMI（登録商標）：High-Definition Multimedia Interface）に信号を送出する。憑依表現の出力完了は、例えばデバイスで憑依表現出力を行った場合、デバイスからの完了通知受信により判断することが可能である。また、システムで憑依表現出力を行った場合は、例えばシステム側の完了通知受信により判断することが可能である。

＜３−３．デバイスによる憑依表現処理＞
図６は、本実施形態に係るデバイスによる憑依表現処理の流れの一例を示すフローチャートである。

図６に示すように、まず、情報処理装置１００は、デバイスに憑依準備コマンドを出力する（ステップＳ１２３）。憑依準備コマンドとは、憑依表現出力の準備であって、デバイスをフィードバック提示可能な状態にするものである。例えばＴＶ２２０の場合であれば、電源をＯＮにし、ＨＤＭＩ１に切り換える等である。ＴＶ２２０の入力を切り替える手法としては、ＤＬＮＡ（登録商標）を用いてもよいし、専用のＷｅｂＡＰＩを用いてもよい。

次に、デバイスによる憑依準備が完了すると（ステップＳ１２６／Ｙｅｓ）、情報処理装置１００は、視線誘導を開始する（ステップＳ１２９）。デバイスによる憑依準備の完了は、デバイスから準備完了通知を受信することで確認してもよいし、所定時間経過後（タイムアウト）により準備完了とみなしてもよい。

視線誘導は、ユーザの視線をデバイスへ誘導する処理であって、例えばユーザの視線方向に誘導画像を表示して行う。本実施形態では、既に表示しているエージェント画像１０（図３、図４参照）を誘導画像として用いる。例えば、情報処理装置１００は、図７左上に示すように、エージェント画像１０を現在の表示位置（ユーザの視線方向に表示されている）からＴＶ２２０に移動させることで、視線誘導を実現する。

この際、情報処理装置１００は、視線誘導の軌跡４２を算出する。ここで、図８に、視線誘導の軌跡算出について説明する図を示す。情報処理装置１００は、図８に示すように、例えばエージェント画像１０の移動元地点Ｍ１、ユーザの視点位置Ｐ、及びエージェント画像１０の移動先地点Ｍ２の３点を含む平面４０を規定し、その平面４０と実空間上の壁面との交線を算出して、軌跡４２としてもよい。なお、実空間上の壁面はデプスカメラ等により認識されている。また、軌跡４２上に絵画やその他オブジェクトがあり、映像投影に不向きな場合、情報処理装置１００は、障害物を避ける軌跡を算出してもよい。

情報処理装置１００は、算出した軌跡４２に従って、視線誘導アニメーションを出力する。具体的には、図７左に示すように、エージェント画像１０が現在位置から軌跡４２を辿ってＴＶ２２０に移動するよう投影制御する。この際、情報処理装置１００は、エージェント画像１０を視線誘導しやすい形に変化させてもよい。例えば、図９に示すように、エージェント画像１０を単なる点の形状に変形させてから移動させ、ＴＶ２２０の位置に到達した場合は元のエージェント画像１０に戻すようにしてもよい。

また、情報処理装置１００は、視線誘導開始直後は、エージェント画像１０の移動スピードをゆっくり目に（ユーザが目で追うのに十分な速度に）設定してもよい。これにより、ユーザがエージェント画像１０を見失わないようにすることができる。また、情報処理装置１００は、ユーザの視線方向をデプスカメラ等で認識することで、ユーザがエージェント画像１０を目で追えているか逐次判定し、見失っているようであれば、エージェント画像１０をその場に待機させたり、明滅させたりするなどして、ユーザに再度発見させる制御を行ってもよい。

次いで、視線誘導が終了すると（ステップＳ１３２／Ｙｅｓ）、情報処理装置１００は、デバイスに憑依表現出力コマンドを発行する（ステップＳ１３５）。視線誘導の終了は、誘導画像がデバイスに到達した時点で終了としてもよいし、誘導画像がデバイスに到達し、かつ、ユーザがデバイスの方向を見た場合に終了としてもよい。若しくは、誘導画像がデバイスに到達し、かつ、所定時間が経過した場合に終了としてもよい。

ここで、憑依表現の一例について説明する。例えば移動先がＴＶ２２０の場合、情報処理装置１００は、エージェント画像１０がＴＶ２２０の位置に到達した際に、エージェント画像１０の出力先をプロジェクタ２１０から、ＴＶ２２０へと切り替える。これにより、図７の右上に示すように、ＴＶ２２０にエージェント画像１０が表示され、エージェントがＴＶ２２０に憑依したかのようにユーザに認識させることが可能となる。この際、プロジェクタ２１０からの出力（すなわち視線誘導）とＴＶ２２０からの出力（すなわち憑依表現の出力）の切り替えは一括で行うのではなく、図１０に示すように、エージェント画像１０の一部がＴＶ２２０の画面端に入り込むよう、エージェント画像１０を分割して一時的にプロジェクタ２１０とＴＶ２２０の両方から同時に出力するようにしてもよい。図１０に示す例では、エージェント画像１０は、プロジェクタ２１０からの投影画像１１と、ＴＶ２２０による表示画像２２１により形成されている。これにより、より効果的に、エージェントがＴＶ２２０に憑依したかのように見せることができる。なお、視線誘導中にエージェント画像１０を図９に示すような点の表現にしていた場合は、移動先到達後に通常の表現に戻してもよい。このように、視線誘導と憑依表現が同時に行われてもよい。

そして、情報処理装置１００は、憑依表現の出力完了を確認する（ステップＳ１３８）。憑依表現の出力完了は、デバイスからの憑依表現出力完了通知を受信した場合に判断してもよいし、憑依表現出力コマンドを発行してから所定時間経過した場合（タイムアウト）であってもよい。若しくは、ユーザが憑依表現を見た場合に憑依表現完了と判断してもよい。そして、憑依表現出力が完了すると、情報処理装置１００は、図５を参照して説明したように、デバイスに操作コマンドを発行し、デバイスにおいて操作コマンドを実行させる。具体的には、例えば図７の右下に示すように、ＴＶ２２０において前回設定していたチャンネルに入力が切り替えられる。

以上、本実施形態による憑依表現処理の一例について説明した。なお図６に示す動作処理は一例であって、本開示は図６に示す例に限定されない。例えば、ステップＳ１２３〜Ｓ１２６に示す憑依表現の準備処理と、ステップＳ１２９〜Ｓ１３２に示す視線誘導処理が並列して行われてもよい。視線誘導終了時点で憑依表現の準備が完了していればよい。なお、情報処理装置１００は、憑依表現の準備が完了に視線誘導の終了タイミングを合わせるよう制御してもよい。例えば、エージェント画像１０に遠回りをさせたり無駄な動きをさせたり移動速度を遅くさせたりして対象のデバイスに到着する時間（視線誘導の終了するタイミング）を調整してもよい。

また、例えばステップＳ１３２とステップＳ１３５は、図６に示す順番で行われてなくともよい。すなわち、図１０に示すように、視線誘導と憑依表現が同時に行われてもよく、情報処理装置１００は、憑依表現出力コマンド発行後に視線誘導を終了する処理を行ってもよい。

＜３−４．システムによる憑依表現処理＞
図１１は、本実施形態に係るシステムによる憑依表現処理の流れの一例を示すフローチャートである。デバイスが憑依表現に対応していない場合は、システム側で憑依表現を出力する。

図１１に示すように、まず、情報処理装置１００は、視線誘導を開始する（ステップＳ１５３）。視線誘導の詳細については、上述したステップＳ１２９〜Ｓ１３２と同様である。

次に、視線誘導が終了すると（ステップＳ１５６／Ｙｅｓ）、情報処理装置１００は、システム側で憑依表現を出力する処理を行う（ステップＳ１５９）。システム側での憑依表現の出力とは、すなわち制御対象のデバイス（憑依表現の出力に対応していないデバイス）以外のデバイスを用いて、制御対象のデバイスによるフィードバックのようにユーザに見せる制御である。例えば、情報処理装置１００は、プロジェクタ２１０などで制御対象のデバイスに所定の画像を投影して憑依表現を出力したり、デバイス周辺を光らせたり、プロジェクションマッピング等により、あたかもデバイスが動いているかのようにユーザに錯覚させる映像を投影してもよい。

そして、情報処理装置１００は、憑依表現の出力完了を確認する（ステップＳ１６２）。憑依表現の出力完了は、憑依表現の出力を行っている他のデバイス、例えばプロジェクタ２１０からの憑依表現出力完了通知を受信した場合に判断してもよいし、憑依表現出力をプロジェクタ２１０により開始してから所定時間経過した場合（タイムアウト）であってもよい。若しくは、ユーザが憑依表現を見た場合に、憑依表現完了と判断してもよい。

以上、本実施形態による憑依表現処理の一例について説明した。なお図１１に示す動作処理は一例であって、本開示は図１１に示す例に限定されない。例えばステップＳ１５６とステップＳ１５９は、図１１に示す順番で行われてなくともよい。すなわち、視線誘導と憑依表現が同時に行われてもよく、情報処理装置１００は、憑依表現出力制御後に視線誘導を終了する処理を行ってもよい。

また、情報処理装置１００は、ステップＳ１５３〜ステップＳ１６２に示す処理と並行して、制御対象のデバイスに操作コマンド実行の準備を指示する準備コマンドを出力してもよい。例えば制御対処のデバイスが起動に時間がかかるものである場合は操作コマンドの発行前に起動させておくことで、起動の間に視線誘導と憑依表現を行い、憑依表現の出力完了後に待ち時間なく操作コマンドを実行させることが可能となる。

＜３−５．補足＞
以上、本実施形態によるデバイス制御の処理の流れについて具体的に説明した。なお、図５、図６、および図１１に示す動作処理は一例であって、本開示は図５、図６、および図１１に示す例に限定されない。例えば、エージェントが憑依したように見せる憑依表現の出力は必須ではなく、情報処理装置１００は、視線誘導後に、操作コマンドをデバイスに発行するようにしてもよい。この際、情報処理装置１００は、誘導画像がデバイスの位置に到達した場合、誘導画像がデバイスの位置に到達して所定時間経過した場合、誘導画像がデバイスの位置に到達し、かつ、ユーザがデバイスを見ている場合、又はデバイスから操作コマンド実行準備完了通知を受信した場合に（デバイスには予め操作コマンド実行準備コマンドを送信している）、操作コマンドをデバイスに発行してデバイスでの操作コマンドを実行させてもよい。

また、情報処理装置１００は、視線誘導が終了するタイミングを算出し、予め操作コマンドをデバイスに発行してもよい。例えば情報処理装置１００は、視線誘導にかかる時間を算出し、Ｎ秒後に操作コマンドを実行すると指示する指示コマンドを送出してもよい。また、デバイス側で視線誘導の終了タイミングを認識し、操作コマンドの実行タイミングを制御してもよい。例えば、デバイスは、情報処理装置１００から視線誘導完了の通知を受信した場合に、操作コマンドを実行するようにしてもよいし、情報処理装置１００から視線誘導完了の通知を受信し、かつ所定時間経過後又はユーザがデバイスを見ている場合に、操作コマンドを実行するようにしてもよい。

また、情報処理装置１００は、憑依表現が終了するタイミングをデバイス側で判断したのち、操作コマンドを実行するよう指示する指示コマンドを予め発行してもよい。例えばデバイスは、指示コマンドに従い、デバイスにおいて憑依表現の出力が完了した場合、憑依表現を出力してから所定時間経過した場合、又は憑依表現を出力し、かつ、ユーザの視線方向がデバイスに向いた場合（ユーザが憑依表現を視認した場合）に、憑依表現を完了して操作コマンドを実行する。

＜＜４．応用例＞＞
本開示によるシステムは、ホームシステムへの適用に限定されず、例えばエンターテインメントへの応用も可能である。

（対戦型ボルタリング）
例えば、対戦型ボルダリングにおいて、一方のユーザによる発話に応じて何らかの制御を行う際に、制御先への視線誘導を行うエフェクトを出力するようにしてもよい。図１２は、対戦型ボルダリングへの応用例について説明する図である。

図１２に示す例では、ユーザＡおよびユーザＢが壁面に登りながら対戦する対戦型ボルダリングにおいて、相手側のホールを順番に言い合い、言われた場所が使えなくなるゲームを想定する。例えば図１２上段に示すように、ユーザＡが「Ｂの５」と発話した場合、システム１は、図１２下段に示すように、エフェクト画像１５がユーザＡの付近から相手側の指定のホールまで飛び、相手側の指定のホールを攻撃して使えないようにするエフェクトを出力してもよい。

また、対戦型ボルダリングにおいて、左右両陣に分かれ、各自の両手両足を好きな場所に固定し、その後、順番にエリアを言い合い、先に相手の両手両足を言い当てた方が勝ちとするゲームでも、同様にエフェクトを出力する制御を行い得る。

また、このようなエフェクトは、対戦型ボルダリングに限定されず、チェスや将棋等にも応用可能である。

（変形ロボット）
図１３は、本システムの変形ロボットへの応用例について説明する図である。図１３に示すロボット２５は、音声で変形するロボットである。例えばユーザが「ミキサー車」とロボット２５を選択した場合、システム１は、エージェント画像１０をロボット２５の位置まで移動させてユーザの視線誘導処理を行い、さらにロボット２５の周辺にエフェクト画像２７を投影し、エージェントがロボット２５に憑依したように見せる表現を出力する。一方で、システム１は、視線誘導および憑依表現の間にロボット２５に対して変形を開始するための準備動作を行わせるよう準備コマンドを送出する。これにより、憑依表現出力完了後に、変形を開始させることができる。

（憑依表現の派生例）
例えばユーザが「８時に目覚ましセットして」と発話した場合、システム１は、エージェントを目覚まし時計に憑依させるが、目覚まし時計の憑依表現出力としては、例えば時計の針がぐるりと一周する、アラーム音が一瞬鳴る等であってもよい。

また、例えばユーザが「ポットでお湯沸かして」と発話した場合、システム１は、エージェントを電気ポットに憑依させるが、電気ポットの憑依表現出力としては、例えば電気ポットから湯気のようなものが噴出しているように見える映像を投影してもよいし、電気ポットの蓋を一瞬開け閉めさせてもよい。

また、例えばユーザが「おばあちゃんに電話して」と発話した場合、システム１は、エージェントを電話に憑依させるが、電話の憑依表現出力としては、例えば電話からダイヤル音を鳴らしてもよい。

また、例えばユーザが「お風呂を沸かして」と発話した場合、システム１は、エージェントを浴室に憑依させるが、浴室の憑依表現出力としては、例えばエージェント画像を浴室の方に移動させて視線誘導を行い、浴室の近くにあるスピーカ等から「お風呂を沸かします」等の音声を出力するようにしてもよい。

また、例えばユーザが「扇風機をつけて」と発話した場合、システム１は、エージェントを扇風機に憑依させるが、扇風機の憑依表現出力としては、例えば扇風機の首を軽く左右に振らせるようにしてもよい。

また、例えばユーザが「音楽を流して」と発話した場合、システム１は、エージェントをスピーカに憑依させるが、スピーカの憑依表現出力としては、例えばスピーカから一瞬音（効果音）を出してもよいし、照明付きスピーカである場合は、照明を一瞬明滅させてもよい。

（有効コマンド認識のトリガ）
システム１は、ユーザの音声発話、ジェスチャー、又はユーザの状況に限らず、空間内の環境に応じて有効コマンドを認識するようにしてもよい。例えば室内の気温が所定の最適温度よりも高い場合、「気温が高いのでエアコンをつけますね」等とシステム側からユーザに提示を行って有効コマンドの実行を開始してもよい。

（デバイスの状態に応じて憑依表現の変形）
例えば、既にＴＶ２２０の電源がついている場合、憑依表現出力のためにＴＶ２２０の映像を切り替えるとユーザの視聴を妨げてしまう恐れがある。この場合、システム１は、ＴＶ２２０の周りをプロジェクションで光らせるなどして、憑依を表現してもよい。

また、例えば、既にＴＶ２２０の電源がついており、ユーザがエージェントに「５ｃｈにして」とＴＶ２２０のチャンネルを変えさせる場合は、憑依表現の出力やＴＶ２２０への準備コマンドの発行を行わなくともよい。この場合、ユーザとしては即座に反応して欲しいコマンドであるため、システム１は、即時に操作コマンドを発行してもよい。また、既にユーザがＴＶ２２０を見ている場合、システム１は、エージェント画像１０はＴＶ２２０の周辺に表示し、即座に操作コマンドを実行させる。

（視線誘導の応用例）
視線誘導の表現として、エージェントそのものが移動するのではなく、エージェントは当初の位置に留まったまま、コマンドを可視化し、デバイスに向かって移動するような表現を行ってもよい。例えば、システム１は、エージェント画像１０からデバイスの位置に電波を飛ばすようなエフェクトを投影するようにしてもよい。

また、ユーザが「テレビと電気をつけて」と発話した場合、まずＴＶ２２０に視線誘導を行って電源をつけた上で、その後、ＴＶ２２０から電気（照明装置又は照明装置のスイッチ）に向かって視線誘導し、電気をつけるようにしてもよい。または、エージェント画像１０からＴＶ２２０と電気（照明装置）に向かって順次又は同時にコマンドが発行されていることを可視化するエフェクトを投影してもよい。

＜＜５．ハードウェア構成例＞＞
最後に、図１４を参照して、本実施形態に係る情報処理装置のハードウェア構成について説明する。図１４は、本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。なお、図１４に示す情報処理装置９００は、例えば、図２に示した情報処理装置１００を実現し得る。本実施形態に係る情報処理装置１００による情報処理は、ソフトウェアと、以下に説明するハードウェアとの協働により実現される。

図１４に示すように、情報処理装置９００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９０１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９０２、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９０３及びホストバス９０４ａを備える。また、情報処理装置９００は、ブリッジ９０４、外部バス９０４ｂ、インタフェース９０５、入力装置９０６、出力装置９０７、ストレージ装置９０８、ドライブ９０９、接続ポート９１１及び通信装置９１３を備える。情報処理装置９００は、ＣＰＵ９０１に代えて、又はこれとともに、電気回路、ＤＳＰ若しくはＡＳＩＣ等の処理回路を有してもよい。

ＣＰＵ９０１は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置９００内の動作全般を制御する。また、ＣＰＵ９０１は、マイクロプロセッサであってもよい。ＲＯＭ９０２は、ＣＰＵ９０１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ９０３は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。ＣＰＵ９０１は、例えば、図２に示すジェスチャ検出部１２０、ユーザ検出部１３０、環境検出部１４０、機器検出部１５０、及び制御部１７０を形成し得る。

ＣＰＵ９０１、ＲＯＭ９０２及びＲＡＭ９０３は、ＣＰＵバスなどを含むホストバス９０４ａにより相互に接続されている。ホストバス９０４ａは、ブリッジ９０４を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス９０４ｂに接続されている。なお、必ずしもホストバス９０４ａ、ブリッジ９０４および外部バス９０４ｂを分離構成する必要はなく、１つのバスにこれらの機能を実装してもよい。

入力装置９０６は、例えば、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチ及びレバー等、ユーザによって情報が入力される装置によって実現される。また、入力装置９０６は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置９００の操作に対応した携帯電話やＰＤＡ等の外部接続機器であってもよい。さらに、入力装置９０６は、例えば、上記の入力手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、ＣＰＵ９０１に出力する入力制御回路などを含んでいてもよい。情報処理装置９００のユーザは、この入力装置９０６を操作することにより、情報処理装置９００に対して各種のデータを入力したり処理動作を指示したりすることができる。

出力装置９０７は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で形成される。このような装置として、ＣＲＴディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ＥＬディスプレイ装置、レーザープロジェクタ、ＬＥＤプロジェクタ及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置や、プリンタ装置等がある。出力装置９０７は、例えば、情報処理装置９００が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置９００が行った各種処理により得られた結果を、テキスト、イメージ、表、グラフ等、様々な形式で視覚的に表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して聴覚的に出力する。

ストレージ装置９０８は、情報処理装置９００の記憶部の一例として形成されたデータ格納用の装置である。ストレージ装置９０８は、例えば、ＨＤＤ等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により実現される。ストレージ装置９０８は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置９０８は、ＣＰＵ９０１が実行するプログラムや各種データ及び外部から取得した各種のデータ等を格納する。ストレージ装置９０８は、例えば、図２に示す記憶部１６０を形成し得る。

ドライブ９０９は、記憶媒体用リーダライタであり、情報処理装置９００に内蔵、あるいは外付けされる。ドライブ９０９は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記録されている情報を読み出して、ＲＡＭ９０３に出力する。また、ドライブ９０９は、リムーバブル記憶媒体に情報を書き込むこともできる。

接続ポート９１１は、外部機器と接続されるインタフェースであって、例えばＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）などによりデータ伝送可能な外部機器との接続口である。接続ポート９１１は、例えば、図２に示すＩ／Ｆ部１１０を形成し得る。そして、接続ポート９１１は、図２に示す出力装置２００及びセンサ装置３００に接続される。

通信装置９１３は、例えば、ネットワーク９２０に接続するための通信デバイス等で形成された通信インタフェースである。通信装置９１３は、例えば、有線若しくは無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）又はＷＵＳＢ（ＷｉｒｅｌｅｓｓＵＳＢ）用の通信カード等である。また、通信装置９１３は、光通信用のルータ、ＡＤＳＬ（ＡｓｙｍｍｅｔｒｉｃＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）用のルータ又は各種通信用のモデム等であってもよい。この通信装置９１３は、例えば、インターネットや他の通信機器との間で、例えばＴＣＰ／ＩＰ等の所定のプロトコルに則して信号等を送受信することができる。通信装置９１３は、例えば、図２に示すＩ／Ｆ部１１０を形成し得る。そして、通信装置９１３は、図２に示す出力装置２００及びセンサ装置３００と通信し得る。

なお、ネットワーク９２０は、ネットワーク９２０に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク９２０は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などを含んでもよい。また、ネットワーク９２０は、ＩＰ−ＶＰＮ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ−ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）などの専用回線網を含んでもよい。

以上、本実施形態に係る情報処理装置９００の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて実現されていてもよいし、各構成要素の機能に特化したハードウェアにより実現されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。

なお、上述のような本実施形態に係る情報処理装置９００の各機能を実現するためのコンピュータプログラムを作製し、ＰＣ等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。

＜＜６．まとめ＞＞
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

例えば、上述した情報処理装置１００に内蔵されるＣＰＵ、ＲＯＭ、およびＲＡＭ等のハードウェアに、情報処理装置１００の機能を発揮させるためのコンピュータプログラムも作成可能である。また、当該コンピュータプログラムを記憶させたコンピュータ読み取り可能な記憶媒体も提供される。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

なお、本技術は以下のような構成も取ることができる。
（１）
制御対象機器の場所にユーザの視線を誘導する処理と、
前記視線の誘導のタイミングに応じて、前記制御対象機器における操作コマンドの実行タイミングを制御する処理と、を行う制御部を備える、情報処理装置。
（２）
前記制御部は、
前記視線の誘導が終了したタイミングで、前記制御対象機器に前記操作コマンドを送信する制御を行う、前記（１）に記載の情報処理装置。
（３）
前記制御部は、
前記視線の誘導が終了するタイミングで前記操作コマンドを実行するよう指示する指示コマンドを、前記制御対象機器に送信する制御を行う、前記（１）に記載の情報処理装置。
（４）
前記制御部は、
前記制御対象機器の空間内における３次元位置情報を取得し、
投影装置から誘導画像を投影し、前記制御対象機器の位置まで移動させることで、前記ユーザの視線誘導を行う、前記（２）または（３）に記載の情報処理装置。
（５）
前記視線の誘導が終了するタイミングは、前記誘導画像が前記制御対象機器の位置に到達した場合である、前記（４）に記載の情報処理装置。
（６）
前記視線の誘導が終了するタイミングは、前記誘導画像が前記制御対象機器の位置に到達し、かつ、前記ユーザの視線方向が前記制御対象機器に向いた場合である、前記（４）に記載の情報処理装置。
（７）
前記視線の誘導が終了するタイミングは、前記誘導画像が前記制御対象機器の位置に到達し、かつ、前記制御対象機器から前記操作コマンドの実行準備完了通知を受信した場合である、前記（４）に記載の情報処理装置。
（８）
前記制御部は、
前記誘導画像を前記制御対象機器の位置まで移動させた後、前記制御対象機器に対して憑依表現を出力する制御を行い、
前記憑依表現の出力制御が完了したタイミングで、前記制御対象機器に前記操作コマンドを送信する制御を行う、前記（４）〜（６）のいずれか１項に記載の情報処理装置。
（９）
前記制御部は、
前記誘導画像が前記制御対象機器の位置に到達した後、前記制御対象機器に前記憑依表現の出力コマンドを送信する、前記（８）に記載の情報処理装置。
（１０）
前記制御部は、
前記制御対象機器における前記憑依表現の出力完了通知を受信した場合に、前記制御対象機器に前記操作コマンドを送信する制御を行う、前記（９）に記載の情報処理装置。
（１１）
前記憑依表現の前記出力コマンドは、前記制御対象機器による所定の音声出力、画像表示、振動、または動きを指示するコマンドである、前記（９）または（１０）に記載の情報処理装置。
（１２）
前記憑依表現の前記出力コマンドは、前記制御対象機器の表示部に前記誘導画像を表示することを指示するコマンドである、前記（１１）に記載の情報処理装置。
（１３）
前記制御部は、
前記制御対象機器に、前記憑依表現の出力完了後、前記憑依表現を出力してから所定時間経過後、又は前記憑依表現を出力し、かつ、前記ユーザの視線方向が前記制御対象機器に向いた場合、前記憑依表現を完了して前記操作コマンドを実行するよう指示する指示コマンドを、前記制御対象機器に送信する制御を行う、前記（９）〜（１２）のいずれか１項に記載の情報処理装置。
（１４）
前記制御部は、
前記誘導画像が前記制御対象機器の位置に到達した後、前記憑依表現の出力制御として、前記制御対象機器に対して前記誘導画像を投影する制御を行う、前記（８）に記載の情報処理装置。
（１５）
前記制御部は、
前記制御対象機器に前記誘導画像を投影した後、所定時間経過後又は前記ユーザの視線方向が前記制御対象機器に向いた場合、前記誘導画像の投影を終了し、前記制御対象機器に前記操作コマンドを送信する制御を行う、前記（１４）に記載の情報処理装置。
（１６）
前記制御部は、
前記ユーザの発話音声から取得した指示に基づいて前記操作コマンドを生成する、前記（１）〜（１５）のいずれか１項に記載の情報処理装置。
（１７）
前記制御部は、
前記ユーザの状況に基づいて前記操作コマンドを生成する、前記（１）〜（１５）のいずれか１項に記載の情報処理装置。
（１８）
プロセッサが、
制御対象機器の場所にユーザの視線を誘導することと、
前記視線の誘導のタイミングに応じて、前記制御対象機器における操作コマンドの実行タイミングを制御することと、
を含む、情報処理方法。
（１９）
コンピュータを、
制御対象機器の場所にユーザの視線を誘導する処理と、
前記視線の誘導のタイミングに応じて、前記制御対象機器における操作コマンドの実行タイミングを制御する処理と、を行う制御部として機能させるためのプログラムが記録された、記録媒体。

１０エージェント画像
４０平面
４２軌跡
１００情報処理装置
１１０Ｉ／Ｆ部
１２０ジェスチャ検出部
１３０ユーザ検出部
１４０環境検出部
１５０機器検出部
１６０記憶部
１７０制御部
１７１表示制御部
１７３音響制御部
２００出力装置
２１０プロジェクタ
２３０タブレット
２４０スマートフォン
２６０スピーカ
２７０単一指向性スピーカ
３００センサ装置
３１０カメラ
３２０デプスセンサ
３３０マイクロフォン

Claims

制御対象機器の場所にユーザの視線を誘導する処理と、
前記視線の誘導のタイミングに応じて、前記制御対象機器における操作コマンドの実行タイミングを制御する処理と、を行う制御部を備える、情報処理装置。
前記制御部は、
前記視線の誘導が終了したタイミングで、前記制御対象機器に前記操作コマンドを送信する制御を行う、請求項１に記載の情報処理装置。
前記制御部は、
前記視線の誘導が終了するタイミングで前記操作コマンドを実行するよう指示する指示コマンドを、前記制御対象機器に送信する制御を行う、請求項１に記載の情報処理装置。
前記制御部は、
前記制御対象機器の空間内における３次元位置情報を取得し、
投影装置から誘導画像を投影し、前記制御対象機器の位置まで移動させることで、前記ユーザの視線誘導を行う、請求項２に記載の情報処理装置。
前記視線の誘導が終了するタイミングは、前記誘導画像が前記制御対象機器の位置に到達した場合である、請求項４に記載の情報処理装置。
前記視線の誘導が終了するタイミングは、前記誘導画像が前記制御対象機器の位置に到達し、かつ、前記ユーザの視線方向が前記制御対象機器に向いた場合である、請求項４に記載の情報処理装置。
前記視線の誘導が終了するタイミングは、前記誘導画像が前記制御対象機器の位置に到達し、かつ、前記制御対象機器から前記操作コマンドの実行準備完了通知を受信した場合である、請求項４に記載の情報処理装置。
前記制御部は、
前記誘導画像を前記制御対象機器の位置まで移動させた後、前記制御対象機器に対して憑依表現を出力する制御を行い、
前記憑依表現の出力制御が完了したタイミングで、前記制御対象機器に前記操作コマンドを送信する制御を行う、請求項４に記載の情報処理装置。
前記制御部は、
前記誘導画像が前記制御対象機器の位置に到達した後、前記制御対象機器に前記憑依表現の出力コマンドを送信する、請求項８に記載の情報処理装置。
前記制御部は、
前記制御対象機器における前記憑依表現の出力完了通知を受信した場合に、前記制御対象機器に前記操作コマンドを送信する制御を行う、請求項９に記載の情報処理装置。
前記憑依表現の前記出力コマンドは、前記制御対象機器による所定の音声出力、画像表示、振動、または動きを指示するコマンドである、請求項９に記載の情報処理装置。
前記憑依表現の前記出力コマンドは、前記制御対象機器の表示部に前記誘導画像を表示することを指示するコマンドである、請求項１１に記載の情報処理装置。
前記制御部は、
前記制御対象機器に、前記憑依表現の出力完了後、前記憑依表現を出力してから所定時間経過後、又は前記憑依表現を出力し、かつ、前記ユーザの視線方向が前記制御対象機器に向いた場合、前記憑依表現を完了して前記操作コマンドを実行するよう指示する指示コマンドを、前記制御対象機器に送信する制御を行う、請求項９に記載の情報処理装置。
前記制御部は、
前記誘導画像が前記制御対象機器の位置に到達した後、前記憑依表現の出力制御として、前記制御対象機器に対して前記誘導画像を投影する制御を行う、請求項８に記載の情報処理装置。
前記制御部は、
前記制御対象機器に前記誘導画像を投影した後、所定時間経過後又は前記ユーザの視線方向が前記制御対象機器に向いた場合、前記誘導画像の投影を終了し、前記制御対象機器に前記操作コマンドを送信する制御を行う、請求項１４に記載の情報処理装置。
前記制御部は、
前記ユーザの発話音声から取得した指示に基づいて前記操作コマンドを生成する、請求項１に記載の情報処理装置。
前記制御部は、
前記ユーザの状況に基づいて前記操作コマンドを生成する、請求項１に記載の情報処理装置。
プロセッサが、
制御対象機器の場所にユーザの視線を誘導することと、
前記視線の誘導のタイミングに応じて、前記制御対象機器における操作コマンドの実行タイミングを制御することと、
を含む、情報処理方法。
コンピュータを、
制御対象機器の場所にユーザの視線を誘導する処理と、
前記視線の誘導のタイミングに応じて、前記制御対象機器における操作コマンドの実行タイミングを制御する処理と、を行う制御部として機能させるためのプログラムが記録された、記録媒体。