JP7444060B2

JP7444060B2 - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP7444060B2
Application number: JP2020532268A
Authority: JP
Inventors: 翔滝谷; 俊元御供; 正資武田; 伸英西山; 久美子児山
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2018-07-25
Filing date: 2019-07-08
Publication date: 2024-03-06
Anticipated expiration: 2039-07-08
Also published as: CN112424731A; US10877781B2; JPWO2020022039A1; US11307877B2; WO2020022039A1; CN112424731B; US20200034162A1; US20210081224A1

Description

本技術は、ユーザのコンテキストに応じてユーザが操作するユーザインタフェースの切り替えやユーザが視聴するコンテンツの再生を制御することが可能な情報処理装置、情報処理方法及びプログラムに関する。

下記特許文献１には、ユーザとデバイスとの距離や、ユーザ間の距離に応じてコンテンツを提示することが開示されている。

特開２０１０－１９１４８７号公報

しかしながら、上記特許文献１に記載の技術では、ユーザの状況に応じて提示するコンテンツ自体を変えることはできるが、コンテンツの再生内容やコンテンツを操作するためのユーザインタフェースを切り替えることはできない。

以上のような事情に鑑み、本技術の目的は、ユーザコンテキストに応じて、ユーザにとって最適なユーザインタフェースを提示し、またはコンテンツの再生内容を制御することが可能な情報処理装置、情報処理方法及びプログラムを提供することにある。

上記目的を達成するため、本技術の一形態に係る情報処理装置は、ユーザ状態、ユーザプロファイルまたはユーザ環境情報を含むユーザコンテキスト情報に基づいて、複数のユーザインタフェースのうちユーザに提示するユーザインタフェースを決定する制御部を有する。

この構成により情報処理装置は、ユーザコンテキストに応じて、ユーザにとって最適なユーザインタフェースを提示することができる。ここでユーザ状態とは、例えばユーザの位置、情報処理装置からの距離、行動、視線、顔の向き、姿勢、表情、ポーズ、生体情報等である。ユーザプロファイルとは、氏名情報、アカウント情報、属性情報、身体情報、嗜好情報、行動履歴情報、人間関係情報等である。またユーザ環境情報とは、情報処理装置が置かれた場所の騒音値、温度、湿度、照度、明度、時刻等、情報処理装置が有するカメラやマイクその他のセンシング機器から取得した情報の他、他の機器から取得したセンシング情報も含む。

ここで、ユーザインタフェースとは、所定の入力手段による入力をユーザに促すための情報提示手段のことである。入力手段としては、例えば音声入力、タッチ入力、ボタン入力、ジェスチャ入力、視線入力、リモコン入力等を含んでもよい。また情報提示手段としては、画面出力、音声出力等を含んでもよい。
上記複数のユーザインタフェースは、音声入力用ユーザインタフェースとタッチ入力用ユーザインタフェース、ジェスチャ入力用ＵＩ、ボタン入力用ＵＩ、視線入力用ＵＩ、リモコン入力用ＵＩ等を含んでもよい。ここで、例えば音声入力用ＵＩとは、ユーザに音声入力を促すための情報提示手段のことであり、例えば画面出力による情報提示や音声出力による情報提示等が含まれる。

上記制御部は、上記ユーザと当該情報処理装置との間の距離が所定距離以内であると判断した場合に、上記提示するユーザインタフェースとして上記タッチ入力用ユーザインタフェースを決定し、上記距離が上記所定距離より大きいと判断した場合に、上記提示するユーザインタフェースとして上記音声入力用ユーザインタフェース、ジェスチャ入力用ＵＩ、視線入力用ＵＩ、リモコン入力用ＵＩのいずれかを決定してもよい。

これにより情報処理装置は、ユーザが画面内容を視認できるまたは触ることができる距離にいる場合にはタッチ入力用ＵＩを提示し、ユーザが画面内容を視認しづらいまたは触りづらい距離にいる場合には音声入力用ＵＩ、ジェスチャ入力用ＵＩ、視線入力用ＵＩ、リモコン入力用ＵＩのいずれかを提示することで、ユーザの利便性を向上させることができる。

上記制御部は、上記ユーザの視線が当該情報処理装置を向いていると判断した場合に、上記タッチ入力用ユーザインタフェースまたは上記音声入力用ユーザインタフェースに第１の情報量を含ませてもよい。また制御部は、上記ユーザの視線が当該情報処理装置を向いていないと判断した場合に、上記タッチ入力用ユーザインタフェースまたは上記音声入力用ユーザインタフェースに上記第１の情報量よりも少ない第２の情報量を含ませてもよい。

これにより情報処理装置は、ユーザが情報処理装置を見ている場合には詳細なＵＩ、見ていない場合には簡素なＵＩというように、視線に応じてユーザに最適なＵＩを提示することができる。ここで情報量には、コンテンツ、メニュー、ボタン、メタ情報等の数が含まれる。

上記制御部は、当該情報処理装置を含む所定領域内に複数のユーザが存在すると判断した場合、上記複数のユーザのうち当該情報処理装置から最も近いまたは最も遠い位置に存在すると判断されたユーザを基準に上記提示するユーザインタフェースを決定してもよい。

また上記制御部は、当該情報処理装置を含む所定領域内に複数のユーザが存在すると判断した場合、上記複数のユーザのうち当該情報処理装置に視線を向けていると判断されたユーザを基準に上記提示するユーザインタフェースを決定してもよい。

これにより情報処理装置は、ユーザが複数存在する場合でもいずれかのユーザに合わせたＵＩを提示することができる。

上記制御部は、当該情報処理装置の周囲で検出される音のレベルに応じて、上記提示するユーザインタフェースの判断に用いる上記所定距離を変更してもよい。

これにより情報処理装置は、周囲の音声入力環境の良否に応じて提示インタフェース切替用の閾値を変更することで、音声入力用インタフェースにおける入力エラーを防ぐことができる。

上記制御部は、上記ユーザが横たわっていることが検出された場合、上記提示するユーザインタフェースとして上記音声入力用ユーザインタフェースを決定してもよい。

これにより情報処理装置は、例えばユーザがベッドに寝そべっている場合等には音声入力用のＵＩを提示することで、ユーザがわざわざ起きてタッチ操作する手間が生じるのを回避することができる。

また上記制御部は、上記ユーザの両手が塞がっていることを画像認識等で認識した場合、上記提示するユーザインタフェースとして上記音声入力用ユーザインタフェースを決定してもよい。

これにより情報処理装置は、ユーザの手が塞がっているにもかかわらずタッチ入力用ＵＩがユーザに提示されユーザがそのままでは操作ができない不便が生じるのを回避することができる。

本技術の他の形態に係る情報処理装置は、ユーザ状態、ユーザプロファイルまたはユーザ環境情報を含むユーザコンテキスト情報、または、他の装置から収集されたセンシング情報に基づいて、コンテンツが有する複数の再生ステップの切替を制御するステップ切替情報を生成する制御部を有する。

この構成により情報処理装置は、ユーザコンテキストまたは他の機器からのセンシング情報に応じて、コンテンツの再生内容を制御することができる。他の機器とは例えば調理器具（コンロ、レンジ、ミキサー等）、冷蔵庫、カメラ等であり、センシング情報とは例えばコンロやレンジの加熱時間や冷蔵庫内の食材情報等である。

上記コンテンツは、上記再生ステップと再生時刻とが関連付けられた動画コンテンツであってもよい。この場合上記制御部は、上記ステップ切替情報及び上記再生時刻に基づいて、上記動画コンテンツの再生を制御してもよい。

これにより情報処理装置は、動画コンテンツのポーズ、再生、巻き戻し、早送り等を、ユーザのコンテキストに合わせて制御することができる。

上記制御部は、音声入力部から入力された音声から所定のワードを認識した場合、または、撮像部から入力された画像から所定のジェスチャを認識した場合に、上記ステップ切替情報を生成してもよい。

これにより情報処理装置は、ユーザからの指示を的確に認識してコンテンツを切り替えることができる。ここで所定のワードとは、例えば「次おしえて」「Next」「Go」「OK」等であり、所定のジェスチャとは、例えばスワイプ、ハンドサイン（グッドポーズ等）、まばたき等である。

上記コンテンツは、調理レシピを上記再生ステップに対応する調理工程毎に説明したレシピコンテンツであってもよい。この場合上記制御部は、上記センシング情報に基づいてユーザの行動を認識し、現在の再生ステップに対応する調理工程が終了したと判断した場合に上記ステップ切替情報を生成してもよい。

これにより情報処理装置は、ユーザから明示的な指示を受けなくともユーザの行動から調理工程の終了を判断して次の調理工程の再生ステップを再生させることができる。ユーザの行動とは、例えばユーザが包丁で食材を切る工程における包丁を上下に動かす動作や、ボウルで食材を混ぜる工程における箸やヘラを回転させる動作等である。

また上記制御部は、上記センシング情報に基づいて、上記調理レシピに含まれる食材の状態を認識し、現在の再生ステップに対応する調理工程が終了したと判断した場合に上記ステップ切替情報を生成してもよい。

これにより情報処理装置は、ユーザから明示的な指示を受けなくとも、センシング情報によって認識可能な食材の状態から調理工程の終了を判断して次の調理工程の再生ステップを再生させることができる。ここでセンシング情報としては、例えばみじん切り工程において包丁に内蔵されたセンサがみじん切り状態（所定の加速度・角速度等）を検知した後にそれが終了したという情報や、所定時間の加熱工程においてコンロに内蔵されたセンサが鍋の重さを認識して所定時間の加熱を検知したという情報等である。

また上記制御部は、上記レシピコンテンツの各調理工程を解析し、各調理工程の到来時に、当該各調理工程に関連するユーザの調理器具または当該調理器具近傍の装置に、所定のアノテーション情報の出力を指示する指示信号を送信してもよい。

これにより情報処理装置は、各調理工程において使用する調理器具をユーザに容易に把握させることができる。所定のアノテーション情報とは、例えば光や音の出力である。

また上記制御部は、上記レシピコンテンツの各調理工程を解析し、少なくともいずれかの調理工程の少なくとも一部の実施を指示する指示信号を、当該調理工程で使用されるユーザの調理器具へ送信してもよい。

これにより情報処理装置は、少なくとも一部の工程においてユーザの代わりに調理を実施することができる。

本技術の他の形態に係る情報処理方法は、
ユーザ状態、ユーザプロファイルまたはユーザ環境情報を含むユーザコンテキスト情報を取得し、
上記ユーザコンテキスト情報に基づいて、複数のユーザインタフェースのうちユーザに提示するユーザインタフェースを決定する、ことを含む。

本技術の他の形態に係る情報処理方法は、
ユーザ状態、ユーザプロファイルまたはユーザ環境情報を含むユーザコンテキスト情報、または、他の装置から収集されたセンシング情報を取得し、
上記ユーザコンテキスト情報または上記センシング情報に基づいて、コンテンツが有する複数の再生ステップの切替を制御するステップ切替情報を生成する、ことを含む。

本技術の他の形態に係るプログラムは、情報処理装置に、
ユーザ状態、ユーザプロファイルまたはユーザ環境情報を含むユーザコンテキスト情報を取得するステップと、
上記ユーザコンテキスト情報に基づいて、複数のユーザインタフェースのうちユーザに提示するユーザインタフェースを決定するステップと、を実行させる。

本技術の他の形態に係るプログラムは、情報処理装置に、
ユーザ状態、ユーザプロファイルまたはユーザ環境情報を含むユーザコンテキスト情報、または、他の装置から収集されたセンシング情報を取得するステップと、
上記ユーザコンテキスト情報または上記センシング情報に基づいて、コンテンツが有する複数の再生ステップの切替を制御するステップ切替情報を生成するステップと、を実行させる。

以上のように、本技術によれば、ユーザコンテキストに応じて、ユーザにとって最適なユーザインタフェースを提示し、またはコンテンツの再生内容を制御することができる。しかし、当該効果は本技術を限定するものではない。

本技術の第１実施形態に係る音楽再生システムの構成を示した図である。上記音楽再生システムが有する情報処理端末の外観を示した図である。上記情報処理端末のハードウェア構成を示した図である。上記情報処理端末の機能ブロックを示した図である。上記音楽再生システムが有する情報処理サーバの機能ブロックを示した図である。上記情報処理端末が表示可能な各種ユーザインタフェースの例を示した図である。上記情報処理端末によるユーザインタフェースの遷移例を示した図である。上記音楽再生システムにおけるユーザインタフェースの表示処理の流れを示したフローチャートである。上記情報処理端末に音声入力される楽曲再生指示の例を示した図である。上記図８の各最終ステップにおいて表示されるユーザインタフェースの例を示した図である。上記音楽再生システムにおけるユーザインタフェース切替のための領域範囲を説明した図である。上記音楽再生システムにおける領域範囲に応じたユーザインタフェースの表示処理の流れを示したフローチャートである。上記音楽再生システムにおけるユーザの視線も考慮したユーザインタフェースの表示処理の流れを示したフローチャートである。上記情報処理端末に音声入力される楽曲変更指示の例を示した図である。上記図１４の各最終ステップにおいて表示されるユーザインタフェースの例を示した図である。上記情報処理端末を複数のユーザが操作する場合の各ユーザの位置と領域範囲との関係について説明した図である。上記音楽再生システムにおける上記複数のユーザの位置に応じたユーザインタフェースの表示処理の流れを示したフローチャートである。上記音楽再生システムにおいてユーザが情報処理端末に近い位置にいる場合に表示されるユーザインタフェースの他の例を示した図である。上記音楽再生システムにおいてユーザが情報処理端末に遠い位置にいる場合に表示されるユーザインタフェースの他の例を示した図である。上記音楽再生システムにおいて表示されるユーザインタフェースの解像度の変更について説明した図である。上記音楽再生システムがレシピ再生システムに適用された場合に表示されるユーザインタフェースの例を示した図である。本技術の第２実施形態に係るレシピ再生システムにおけるレシピの選択処理の流れについて説明した図である。上記レシピ再生システムにおけるレシピの調理開始前の通知処理について説明した図である。上記レシピ再生システムにおけるレシピの選択処理の他の例について説明した図である。上記レシピ再生システムにおける再生ステップの切替処理の例を示した図である。上記レシピ再生システムにおける動画コンテンツを用いたレシピデータの例を示した図である。上記レシピ再生システムにおける動画コンテンツを用いた再生ステップの切替処理の例を示した図である。上記レシピ再生システムにおける動画コンテンツを用いた再生ステップの切替処理の流れを示したフローチャートである。上記レシピ再生システムにおけるレシピ再生以外の情報処理端末の機能について説明した図である。

以下、本技術に係る実施形態を、図面を参照しながら説明する。

＜第１実施形態＞
まず、本技術の第１実施形態について説明する。

［システムの概要］
図１は、本技術の第１実施形態に係る音楽再生システムの構成を示した図である。

同図に示すように、本システムは、情報処理端末１００と情報処理サーバ２００とを有し、両者はインターネット等のネットワーク５０を介して通信可能とされている。

情報処理端末１００は、例えばタッチパネル型ディスプレイ付のスマートスピーカである。ユーザは、情報処理端末１００にインストールされた様々なアプリケーションを、音声入力とタッチ入力の双方によって操作可能である。

情報処理端末１００に入力された音声はクラウド上の情報処理サーバ２００へ送信され、情報処理サーバ２００が当該音声をテキストに変換して、当該テキストに応じた処理を実行し、その処理結果に応じた音声を情報処理端末１００へ送信する。情報処理端末１００は、当該音声を再生する。

また情報処理端末１００にタッチ入力によって指示された処理は、基本的には情報処理サーバ２００ではなく情報処理端末１００によって実行される。

本実施形態では、情報処理端末１００は、上記音声入力用のユーザインタフェース（以下、ＵＩ）とタッチ入力用のＵＩとをユーザコンテキストに応じて切り替えてユーザに提示する。

ユーザコンテキストには、ユーザ状態、ユーザプロファイルまたはユーザ環境情報が含まれる。ユーザ状態とは、例えばユーザの位置、情報処理端末１００からの距離、行動、視線、顔の向き、姿勢、表情、ポーズ、生体情報等である。ユーザプロファイルとは、氏名情報、アカウント情報、属性情報、身体情報、嗜好情報、行動履歴情報、人間関係情報等である。またユーザ環境情報とは、情報処理端末が置かれた場所の騒音値、温度、湿度、照度、明度、時刻等、情報処理端末が有するカメラやマイクその他のセンシング機器から取得した情報の他、他の機器から取得したセンシング情報も含む。

［情報処理端末のハードウェア構成］
次に、上記情報処理端末１００のハードウェア構成について説明する。

図２は、上記情報処理端末１００の外観を示した図である。また図３は、上記情報処理端末１００のハードウェア構成例を示したブロック図である。

図２に示すように、上記情報処理端末１００は、例えば、正面視矩形で、テーブル、棚、床等に載置可能なデスクトップ型の筐体を有する。

また図３に示すように、情報処理端末１００は、ＣＰＵ（Central Processing Unit）１１、ＲＯＭ（Read Only Memory）１２、およびＲＡＭ（Random Access Memory）１３を含む。また、情報処理端末１００は、ホストバス１４、ブリッジ１５、外部バス１６、インタフェース１７、入力装置１８、出力装置１９、ストレージ装置２０、ドライブ２１、接続ポート２２、通信装置２３を含んでもよい。さらに、情報処理端末１００は、必要に応じて、撮像装置２６、およびセンサ２７を含んでもよい。情報処理端末１００は、ＣＰＵ１１に代えて、またはこれとともに、ＤＳＰ（Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、またはＦＰＧＡ（Field-Programmable Gate Array）などの処理回路を有してもよい。

ＣＰＵ１１は、演算処理装置および制御装置として機能し、ＲＯＭ１２、ＲＡＭ１３、ストレージ装置２０、またはリムーバブル記録媒体２４に記録された各種プログラムに従って、情報処理端末１００内の動作全般またはその一部を制御する。ＲＯＭ１２は、ＣＰＵ１１が使用するプログラムや演算パラメータなどを記憶する。ＲＡＭ１３は、ＣＰＵ１１の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一次記憶する。ＣＰＵ１１、ＲＯＭ１２、およびＲＡＭ１３は、ＣＰＵバスなどの内部バスにより構成されるホストバス１４により相互に接続されている。さらに、ホストバス１４は、ブリッジ１５を介して、ＰＣＩ（Peripheral Component Interconnect/Interface）バスなどの外部バス１６に接続されている。

入力装置１８は、例えば、タッチパネル、物理ボタン、スイッチおよびレバーなど、ユーザによって操作される装置である。入力装置１８は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理端末１００の操作に対応したスマートフォンやスマートウォッチなどの外部接続機器２５であってもよい。入力装置１８は、ユーザが入力した情報に基づいて入力信号を生成してＣＰＵ１１に出力する入力制御回路を含む。ユーザは、この入力装置１８を操作することによって、情報処理端末１００に対して各種のデータを入力したり処理動作を指示したりする。

図２に示すように、本実施形態では上記入力装置１８として、正面中央から上部にかけて設けられたタッチパネルと、例えば上面に設けられたマイクロフォン、その他物理ボタン（電源ボタン、ボリューム調整ボタン等）等が設けられる。

出力装置１９は、取得した情報をユーザに対して視覚や聴覚、触覚などの感覚を用いて通知することが可能な装置で構成される。出力装置１９は、例えば、ＬＣＤ（Liquid Crystal Display）または有機ＥＬ（Electro-Luminescence）ディスプレイなどの表示装置、スピーカなどの音声出力装置などでありうる。出力装置１９は、情報処理端末１００の処理により得られた結果を、テキストもしくは画像などの映像、音声もしくは音響などの音声、またはバイブレーションなどとして出力する。

図２に示すように、本実施形態では上記出力装置１９として、上記タッチパネルと一体的に設けられたディスプレイと、当該ディスプレイの下部に設けられたスピーカ等が設けられる。

図２に示したディスプレイの画面はホーム画面の例を示しており、例えば時刻、気象情報、ログインユーザ情報の他、動画アプリケーション、音楽アプリケーション、料理アプリケーション、カメラアプリケーション等の各アプリケーションを起動するための複数のアイコンｉが表示されている。

ストレージ装置２０は、情報処理端末１００の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置２０は、例えば、ＨＤＤ（Hard Disk Drive）などの磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。ストレージ装置２０は、例えばＣＰＵ１１が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。

ドライブ２1は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体２４のためのリーダライタであり、情報処理端末１００に内蔵、あるいは外付けされる。ドライブ２1は、装着されているリムーバブル記録媒体２４に記録されている情報を読み出して、ＲＡＭ１３に出力する。また、ドライブ２1は、装着されているリムーバブル記録媒体２４に記録を書き込む。

接続ポート２２は、機器を情報処理端末１００に接続するためのポートである。接続ポート２２は、例えば、ＵＳＢ（Universal Serial Bus）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Small Computer System Interface）ポートなどでありうる。また、接続ポート２２は、ＲＳ－２３２Ｃポート、光オーディオ端子、ＨＤＭＩ（登録商標）（High-Definition Multimedia Interface）ポートなどであってもよい。接続ポート２２に外部接続機器２５を接続することで、情報処理端末１００と外部接続機器２５との間で各種のデータが交換されうる。

通信装置２３は、例えば、通信ネットワーク５０に接続するための通信デバイスなどで構成された通信インタフェースである。通信装置２３は、例えば、ＬＡＮ（Local Area Network）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ－Ｆｉ、またはＷＵＳＢ（Wireless USB）用の通信カードなどでありうる。また、通信装置２３は、光通信用のルータ、ＡＤＳＬ（Asymmetric Digital Subscriber Line）用のルータ、または、各種通信用のモデムなどであってもよい。通信装置２３は、例えば、インターネットや他の通信機器との間で、ＴＣＰ／ＩＰなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置２３に接続される通信ネットワーク５０は、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内ＬＡＮ、赤外線通信、ラジオ波通信または衛星通信などを含みうる。

撮像装置２６は、例えば、ＣＭＯＳ（Complementary Metal Oxide Semiconductor）またはＣＣＤ（Charge Coupled Device）などの撮像素子、および撮像素子への被写体像の結像を制御するためのレンズなどの各種の部材を用いて実空間を撮像し、撮像画像を生成するカメラである。撮像装置２６は、静止画を撮像するものであってもよいし、また動画を撮像するものであってもよい。

センサ２７は、例えば、加速度センサ、角速度センサ、地磁気センサ、照度センサ、温度センサ、気圧センサ、または音センサ（マイクロフォン）などの各種のセンサである。センサ２７は、例えば情報処理端末１００の筐体の姿勢など、情報処理端末１００自体の状態に関する情報や、情報処理端末１００の周辺の明るさや騒音など、情報処理端末１００の周辺環境に関する情報を取得する。また、センサ２７は、ＧＰＳ（Global Positioning System）信号を受信して装置の緯度、経度および高度を測定するＧＰＳ受信機を含んでもよい。

上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々の技術レベルに応じて適宜変更されうる。

［情報処理端末の機能ブロック構成］
図４は、上記情報処理端末１００の機能ブロックを示した図である。

同図に示すように、情報処理端末１００は、機能ブロック（ソフトウェアモジュール）として、制御部１１０、センサ部１２０、音声入力部１３０、タッチ入力部１４０、撮像部１５０、表示部１６０、音声出力部１７０、及び通信部１８０を有する。

制御部１１０は、ＣＰＵ１１と協働して情報処理端末１００の各機能ブロックの処理を統括的に制御する。

センサ部１２０は、上記センサ２７で検出したセンシングデータを制御部１１０へ受け渡す。

音声入力部１３０は、上記入力装置１８としてのマイクロフォンへ入力された音声から変換された音声信号を制御部１１０へ送る。タッチ入力部１４０は、入力装置１８としてのタッチパネルにより感知されたタッチ位置の情報を情報信号として制御部１１０へ送る。撮像部１５０は、制御部１１０からの指令に基づき撮像装置２６によって画像を撮像し、また撮像された画像をデジタルデータとして制御部１１０へ送る。

表示部１６０は、上記出力装置１９としてのタッチパネル上に、上記ホーム画面の他、起動された各種アプリケーションのＧＵＩ（Graphical User Interface；以下、ＵＩとも称する。）を表示する。

上述したように、本実施形態では、主に音楽アプリケーションによって、音声入力用のＵＩとタッチ入力用のＵＩとが、ユーザのコンテキストに応じて切り替えて表示される。

音声出力部１７０は、制御部１１０からの指令に基づいて、上記出力装置１９としてのスピーカから音声を出力させる。

通信部１８０は、上記通信装置２３と協働してネットワーク５０を介して上記情報処理サーバ２００等の他の機器と通信する。例えば通信部１８０は、ユーザから入力された音声データを情報処理サーバ２００へ送信する。

これらの各機能は、情報処理サーバ２００ではなく情報処理端末１００その他の外部端末またはクラウド上の機器に設けられていてもよい。特に、上記音声入力部１３０、撮像部１５０及び表示部１６０は、外部接続機器に設けられてもよい。

［情報処理サーバの機能ブロック構成］
図５は、上記情報処理サーバ２００の機能ブロックを示した図である。

同図に示すように、情報処理サーバ２００は、機能ブロックとして、制御部２１０、通信部２２０、音声認識部２３０、意味解析部２４０、ユーザ認識部２５０、及びユーザ状態推定部２６０を有し、提示情報ＤＢ（データベース）２７０及びユーザＤＢ２８０の各データベースを有する。

制御部２１０は、情報処理サーバ２００のＣＰＵと協働して情報処理サーバ２００の各機能ブロックの処理を統括的に制御する。

通信部２２０は、ネットワーク５０を介して情報処理端末１００等の他の機器と通信し、例えば情報処理端末１００から音声データを受信して音声認識部２３０及び制御部２１０へ送り、制御部２１０による処理結果を示すデータを情報処理端末１００へ送信する。

音声認識部２３０は、情報処理端末１００から受信した音声データを音声認識により処理してテキストデータへ変換し、意味解析部２４０へ送る。

意味解析部２４０は、ユーザＤＢ２８０を参照して、上記テキストデータの意味を解析し、当該解析した意味を示すデータを制御部２１０へ送る。制御部２１０は、当該データに対応する提示データを提示情報データベース２７０から抽出して通信部２２０を介して情報処理端末１００へ送信する。

ユーザ認識部２５０は、通信部２２０によって受信された、情報処理端末１００のカメラによる撮像画像データから人物を認識する。

ユーザ状態推定部２６０は、上記認識されたユーザの状態（または行動）を、ユーザＤＢ２８０を参照して推定し、推定結果を制御部２１０へ送る。制御部２１０は当該推定結果に対応する提示データを提示情報データベース２７０から抽出して通信部２２０を介して情報処理端末１００へ送信する。

これらの各機能は、情報処理サーバ２００ではなく情報処理端末１００その他の外部端末またはクラウド上の機器に設けられていてもよい。

［情報処理端末のユーザインタフェース例］
次に、上記情報処理端末１００が上記各アプリケーションのうち音楽アプリケーションの実行中に表示部１６０に表示可能なＵＩ例について説明する。図６は当該各種ユーザインタフェースの例を示した図である。また図７は当該ＵＩの遷移例を示した図である。

図６Ａは、特定の楽曲の再生中におけるＵＩであり、例えば下部にシークバー、再生ボタン、早送りボタン、巻き戻しボタン等のコントロール部が配置され、その上部に、当該楽曲、アーティスト、収録アルバムの名前、アルバムジャケット画像等が配置されている。

同図Ｂ乃至同図Ｅは、ユーザが楽曲を選ぶための楽曲リスト画面の例である。同図Ｂは、音声入力用のリスト画面であり、例えばアルバムジャケット画像をメインとした各アルバムの情報が横方向に３つ並べて表示されている。同図Ｃは、タッチ入力用のリスト画面であり、上記Ｂの音声入力用のリスト画面と比較して、リスト方向が縦方向となり、各アルバムジャケット画像が小さくなり、各アルバムに含まれる複数の楽曲に関する情報もリスト表示されている。同図Ｄ及びＥは、上記Ｂ及びＣのリスト画面がスクロールバーによりそれぞれ横方向、縦方向にスクロール操作可能とされたバージョンである。

同図Ｆは、同図Ａの再生画面と同図Ｅのタッチ入力用のリスト画面とが組み合わされた画面である。

詳細は後述するが、音声入力用のＵＩは、ユーザが情報処理端末１００から離れておりタッチ入力できない（見づらい）位置に存在する場合に提示されることが想定されており、それが有する情報（画像オブジェクトやテキスト、リスト項目等）の量が小さく、粒度が大きく設定されている。逆に、タッチ入力用のＵＩは、ユーザが情報処理端末１００に近くタッチ入力できる（見やすい）位置に存在する場合に提示されることが想定されており、それが有する情報の量は大きく、粒度は小さく設定されている。

情報処理端末１００は、このようなＵＩの中から、ユーザのコンテキスト（位置等）に応じて適切なものを選択して表示する。例えば、図７に示すように、情報処理端末１００は、再生画面からリスト画面へ遷移する場合、ユーザがタッチ入力に適した状態であれば同図Ｂのようにタッチ入力用の詳細なリスト画面を表示し、ユーザがタッチ入力に適した状態にない場合には同図Ｃのように音声入力用の比較的簡易なリスト画面を表示する。

［音楽再生システムの動作］
次に、以上のように構成された音楽再生システムの動作について説明する。当該動作は、情報処理端末１００や情報処理サーバ２００のＣＰＵ及び通信部等のハードウェアと、記憶部に記憶されたアプリケーション等のソフトウェアとの協働により実行される。以下の説明では、便宜上、主に情報処理端末１００のＣＰＵ１１及び情報処理サーバ２００の制御部２１０を動作主体として説明する。

図８は、情報処理端末１００による、トリガに対するＵＩの表示処理の流れを示したフローチャートである。

同図に示すように、情報処理端末１００のＣＰＵ１１は、入力装置１８、撮像装置２６、センサ２７等から随時情報を取得し（ステップ８１）、当該情報から、トリガが受け付けられたか否かを判断する（ステップ８２）。

例えばトリガが楽曲再生指示である場合、その入力元としては、ユーザの音声入力、タッチ入力及びリモートコントローラ操作が有り得る。例えば、上記図２で示したホーム画面の表示状態から、図８に示すように、ユーザの音声発話により、音楽アプリケーションによる特定のアーティストの楽曲の再生が指示されたとする（ステップ８２のＹｅｓ）。

なお、当該指示の音声は、冒頭に所定のウェイクワード部分を有し、その後にスキル名（アプリケーション等の機能名）部分、アタランス部分、ローンチ部分を有する。これらの部分の区分け及び上記トリガ受付の有無の判断は、情報処理サーバ２００の音声認識部２３０及び意味解析部２４０によって実行される。

するとＣＰＵ１１は、指示元のユーザの状態、具体的にはユーザの位置を推定する（ステップ８３）。当該ユーザ位置の推定は、撮像装置２６による撮像画像を基に、情報処理サーバ２００のユーザ状態推定部２６０によって実行される。

当該ユーザ位置は、撮像画像以外にも、例えばユーザからの複数のマイクロフォンへの入力音声への到達時間差に基づいて推定されてもよいし、ユーザが所持するスマートフォン等の端末から受信されたＧＰＳ（Global Positioning System）情報やＶＰＳ（Virtual Positioning System）情報から推定されてもよい。また、ビーコン（ＢＬＥ（Bluetooth Low Energy））情報や自律航法（Dead Reckoning）を用いた測位技術によりユーザ位置が推定されてもよい。

ユーザ位置が推定できた場合（ステップ８４のＹｅｓ）、情報処理サーバ２００の制御部２１０は、上記撮像画像等を基に、当該ユーザ位置が、情報処理端末１００から所定の距離以内か否かを判断する（ステップ８５）する。所定の距離は例えば０．５ｍ、１ｍ、２ｍ等であるが、これに限られない。

ユーザ位置が所定の距離以内であると判断した場合、制御部２１０は、上記再生指示に含まれるアーティストのアルバムをユーザにタッチで選択させるためのタッチ入力用のＵＩをタッチパネル上に表示するよう指示する指示信号を情報処理端末１００へ送信する。これを受けて情報処理端末１００のＣＰＵ１１は、図１０Ｂに示すようなタッチ入力用ＵＩを表示するようにタッチパネルを制御する（ステップ８６）。

ユーザが所定の距離外であると判断した場合、制御部２１０は、上記アルバムをユーザに音声で選択させるための音声入力用のＵＩをタッチパネル上に表示するよう指示する指示信号を情報処理端末１００へ送信する。これを受けて情報処理端末１００のＣＰＵ１１は、図１０Ｃに示すような音声入力用ＵＩを表示するようにタッチパネルを制御する（ステップ８７）。

上記ステップ８４において、ユーザ位置が推定できないと判断した場合（Ｎｏ）、制御部２１０は、例えば上記再生指示に含まれるアーティストのアルバムをランダムにまたはリスト順の先頭からピックアップし、当該アルバムの曲を最初からまたはランダムに再生した再生用ＵＩをタッチパネル上に表示するよう指示する指示信号を情報処理端末１００へ送信する。これを受けて情報処理端末１００のＣＰＵ１１は、図１０Ｄに示すような再生用ＵＩを表示するようにタッチパネルを制御する（ステップ８８）。

また制御部２１０は、上記所定の距離として第１の距離と第２の距離（第１距離＜第２の距離）を設定し、ユーザ位置が第１の距離以内である場合にはタッチ入力用ＵＩ、第２の距離外である場合には音声入力用ＵＩ、第１の距離と第２の距離の間である場合にはジェスチャ入力用ＵＩ、視線入力用ＵＩ、またはリモコン入力用ＵＩ等の他のＵＩを表示するよう、指示信号を情報処理端末１００へ送信してもよい。

（ユーザの存在する範囲に基づくＵＩ表示）
ＣＰＵ１１は、上記ユーザ位置に関する判断基準として、所定の距離の代わりに、所定の領域範囲を使ってもよい。図１１は、当該領域範囲を説明した図である。

同図Ａに示すように、ＣＰＵ１１は、情報処理端末１００の正面から例えば上記所定距離以内かつ左右６０度程度以内の領域範囲を、タッチ入力用ＵＩの領域範囲Ａ１として設定し、それ以外の領域範囲を、音声入力用ＵＩの領域範囲Ａ２として設定してもよい。

また同図Ｂに示すように、ＣＰＵ１１は、情報処理端末１００の正面から例えば上記所定距離以内かつ左右６０度以内の領域範囲を、タッチ入力用ＵＩの領域範囲Ａ１として設定し、上記正面から上記所定距離より大きくかつ左右６０度以内の領域範囲を、音声入力用ＵＩの領域範囲Ａ２として設定し、それ以外の領域範囲（ユーザからＵＩが見えない範囲）を単なる再生用ＵＩの領域範囲Ａ３として設定してもよい。また領域範囲Ａ３は、画面（ＵＩ）非表示（スピーカのみ作動）の領域範囲として設定されてもよい。

図１２は、当該領域範囲に応じたＵＩの表示処理の流れを示したフローチャートである。

同図において、ステップ１２１～ステップ１２４までの処理は上記図８のステップ８１～ステップ８４までの処理と同様である。

ステップ１２４においてユーザ位置が推定できると判断した場合（Ｙｅｓ）、情報処理サーバ２００の制御部２１０は、ユーザが、情報処理端末１００のディスプレイが見える第１の範囲（図１１Ｂの領域範囲Ａ１及びＡ２）に存在するか否かを判断する（ステップ１２５）。

ユーザが第１の範囲内に存在すると判断した場合（Ｙｅｓ）、制御部２１０は、ユーザがディスプレイにタッチ可能な第２の範囲内（図１１Ｂの領域範囲Ａ１）に存在するか否かを判断する（ステップ１２６）。

ユーザが第２の範囲内に存在するとの判断した場合（Ｙｅｓ）、上記再生指示に含まれるアーティストのアルバムをユーザにタッチで選択させるためのタッチ入力用のＵＩをタッチパネル上に表示するよう指示する指示信号を情報処理端末１００へ送信する。これを受けて情報処理端末１００のＣＰＵ１１は、図１０Ｂに示すようなタッチ入力用ＵＩを表示するようにタッチパネルを制御する（ステップ１２７）。

ユーザが第１の範囲内かつ第２の範囲外（図１１Ｂの領域範囲Ａ２）に存在すると判断した場合、制御部２１０は、上記アルバムをユーザに音声で選択させるための音声入力用のＵＩをタッチパネル上に表示するよう指示する指示信号を情報処理端末１００へ送信する。これを受けて情報処理端末１００のＣＰＵ１１は、図１０Ｃに示すような音声入力用ＵＩを表示するようにタッチパネルを制御する（ステップ１２８）。

上記ステップ１２４において、ユーザ位置が推定できないと判断した場合（Ｎｏ）、制御部２１０は、上記図８のステップ８８と同様に、再生用ＵＩをタッチパネル上に表示するよう指示する指示信号を情報処理端末１００へ送信する。これを受けてＣＰＵ１１は、図１０Ｄに示すような再生用ＵＩを表示するようにタッチパネルを制御する（ステップ１２９）。

上記領域範囲Ａ１とＡ２がより細分化され、例えばＡ１とＡ２の間にＡ４が設定されてもよい。この場合制御部２１０は、ユーザが領域範囲Ａ４に存在すると判断した場合にはジェスチャ入力用ＵＩ、視線入力用ＵＩ、またはリモコン入力用ＵＩ等の他のＵＩを表示するよう、指示信号を情報処理端末１００へ送信してもよい。

（ユーザの視線も考慮したＵＩ表示）
ＣＰＵ１１は、上記ユーザ位置に関する判断基準として、上記領域範囲に加えて、ユーザの視線（ユーザが情報処理端末１００のディスプレイを見ているか否か）を使ってもよい。

図１３は、情報処理端末１００による、当該ユーザの視線も考慮したＵＩの表示処理の流れを示したフローチャートである。

同図において、ステップ１３１～ステップ１３６までの処理は上記図１２のステップ１２１～ステップ１２６までの処理と同様である。この例では、トリガとして、例えば、図１４に示すように、ユーザから、現在再生中の楽曲の別の曲への変更指示が音声入力により受け付けられたものとする。

ステップ１３６において、ユーザがタッチ可能な第２の範囲内に存在すると判断した場合（Ｙｅｓ）、及び、第２の範囲外に存在すると判断した場合（Ｎｏ）、情報処理サーバ２００の制御部２１０は、例えば撮像装置２６による撮像画像を基に、ユーザの視線が情報処理端末１００のディスプレイを向いているか否かを判断する（ステップ１３７、ステップ１３８）。

ユーザが第２の範囲内でディスプレイを向いていると判断した場合（ステップ１３７のＹｅｓ）、制御部２１０は、タッチ入力用のＵＩであって情報量が多いものを表示するとともに、例えば「ピピッ」といった単純な効果音を出力したり、ＬＥＤを点灯させたりすることを指示する指示信号を情報処理端末１００へ送信する。これを受けて情報処理端末１００のＣＰＵ１１は、図１５Ｂに示すようなタッチ入力用ＵＩ（情報量大）を表示するようにタッチパネルを制御するとともに上記効果音を出力するようにスピーカを制御し、またはＬＥＤを点灯する（ステップ１３９）。

通知を効果音またはＬＥＤとしたのは、ユーザがディスプレイを見ている場合に詳細な音声案内はユーザにとって邪魔であると考えられるためである。また情報量とは、具体的には、コンテンツ（楽曲）数、メニュー数、スクロールバー、メタ情報等である。

ユーザが第２の範囲内でディスプレイを向いていないと判断した場合（ステップ１３７のＮｏ）、制御部２１０は、タッチ入力用のＵＩであって情報量が上記より少ないものを表示すると共に、例えば、「こちらの曲はどうでしょう？」といったユーザの視線をディスプレイに誘導させるような音声案内を出力するよう指示する指示信号を情報処理端末１００へ送信する。これを受けて情報処理端末１００のＣＰＵ１１は、図１５Ｃに示すようなタッチ入力用ＵＩ（情報量小）を表示するようにタッチパネルを制御すると共に上記音声案内を出力するようにスピーカを制御する（ステップ１４０）。

ユーザが第２の範囲外でディスプレイを向いていると判断した場合（ステップ１３８のＹｅｓ）、制御部２１０は、音声入力用のＵＩであって情報量が多いものを表示するとともに、例えば「ピピッ」といった単純な効果音を出力したり、ＬＥＤを点灯させたりするよう指示する指示信号を情報処理端末１００へ送信する。これを受けて情報処理端末１００のＣＰＵ１１は、図１５Ｄに示すような音声入力用ＵＩ（情報量大）を表示するようにタッチパネルを制御すると共に効果音を出力するようにスピーカを制御し、またはＬＥＤを点灯する（ステップ１４１）。

ユーザが第２の範囲外でディスプレイを向いていないと判断した場合（ステップ１３８のＮｏ）、制御部２１０は、音声入力用のＵＩであって情報量が上記より少ないものを表示すると共に、例えば、「こちらの曲はどうでしょう？」といった音声案内を出力するよう指示する指示信号を情報処理地端末１００へ送信する。これを受けて情報処理端末１００のＣＰＵ１１は、図１５Ｅに示すような音声入力用ＵＩ（情報量小）を表示するようにタッチパネルを制御すると共に上記音声案内を出力するようにスピーカを制御する（ステップ１４２）。

ユーザの位置が推測できない（ステップ）１３４のＮｏ）またはユーザが第１の範囲外に存在する（ステップ１３５のＮｏ）と判断した場合、制御部２１０は、現在の再生用ＵＩは変化させずに、楽曲のみ他の曲（例えば再生中のアルバムの次の曲）に切り替えるとともに、例えば、「ＳｏｎｇＢ１を再生します」といった切替先の曲を説明する音声案内を出力するよう指示する指示信号を情報処理端末１００へ送信する。これを受けて情報処理端末１００のＣＰＵ１１は、図１５Ｆに示すようにＵＩを変更せずにコンテンツを切替えるようにタッチパネルを制御し、音声案内を出力するようにスピーカを制御する（ステップ１４３）。

（ユーザが複数存在する場合）
ここまでは、情報処理端末１００のユーザが１人であることを前提に説明したが、情報処理端末１００を複数のユーザが操作する場合も考えられる。

図１６は、情報処理端末１００を複数のユーザが操作する場合の各ユーザの位置と領域範囲との関係について説明した図である。

同図に示すように、情報処理端末１００の周囲にはユーザＵ１とユーザＵ２の２人のユーザが存在している。ユーザＵ１は、情報処理端末１００のディスプレイが見えない領域範囲、すなわち、表示用ＵＩの領域範囲Ａ３に存在しており、ユーザＵ２は、情報処理端末１００のディスプレイにタッチ可能な領域範囲、すなわち、タッチ選択用ＵＩの領域範囲Ａ１に存在している。情報処理端末１００は、このような複数のユーザの存在する領域に応じてＵＩを表示する。

図１７は、上記複数のユーザの位置する領域に応じた情報処理端末１００のＵＩ表示処理の流れを示したフローチャートである。

同図に示すように、情報処理端末１００のＣＰＵ１１は、入力装置１８、撮像装置２６、センサ２７等から随時情報を取得し（ステップ１７１）、当該情報から、トリガが受け付けられたか否かを判断する（ステップ１７２）。

トリガが受け付けられた（例えば楽曲切替指示の音声が入力された）と判断した場合（Ｙｅｓ）、情報処理サーバ２００のユーザ認識部２５０は、例えば撮像装置２６による撮像画像を基に、情報処理端末１００の周囲にユーザが複数存在するか否かを判断する（ステップ１７３）。

ユーザが複数存在しないと判断した場合（Ｎｏ）には、情報処理サーバ２００及び情報処理端末１００は、上記図８のステップ８３以降、図１２のステップ１２３以降、または図１３のステップ１３３以降の処理を実行する。

ユーザが複数存在すると判断した場合（Ｙｅｓ）、ユーザ認識部２５０は、上記撮像画像等から、ユーザが上記領域範囲Ａ１乃至Ａ３のうち異なる領域範囲に存在するか否かを判断する（ステップ１７４）。

複数のユーザが同じ領域範囲に存在すると判断した場合（Ｎｏ）、情報処理サーバ２００及び情報処理端末１００は、ユーザが１人である場合と同様、上記図８のステップ８３以降、図１２のステップ１２３以降、または図１３のステップ１３３以降の処理を実行する（ステップ１８２）。

複数のユーザが異なる領域範囲に存在すると判断した場合（Ｙｅｓ）、ユーザ認識部２５０は、上記撮像画像等を基に、情報処理装置１００のディスプレイが見えないユーザ、すなわち、上記領域範囲Ａ３に位置するユーザはいるか否かを判断する（ステップ１７５）。

ディスプレイが見えないユーザが存在すると判断した場合（Ｙｅｓ）、ユーザ認識部２５０は、上記撮像画像等を基に、ディスプレイにタッチできるユーザは存在するか否かを判断する（ステップ１７６）。

ディスプレイにタッチできるユーザが存在すると判断した場合（Ｙｅｓ）、制御部２１０は、タッチできるユーザのタッチ入力用のＵＩを表示すると共に、ディスプレイが見えないユーザに対してビームフォーミング（特定の方向に向けた音波の送信）によって上記図１３で説明したのと同様の音声案内を出力するよう指示する指示信号を情報処理端末１００へ送信する。これを受けて情報処理端末１００のＣＰＵ１１は、タッチ入力用ＵＩを表示するとともに、例えば情報処理端末１００の後方の上記領域範囲Ａ３に対応するスピーカのみを用いて、上記ディスプレイが見えないユーザへの指向性を有する音声案内を出力するようにスピーカを制御する（ステップ１７８）。これにより、ディスプレイが見えるユーザは上記音声案内によって邪魔されずに済み、ディスプレイが見えないユーザには適切な情報が提供される。

ディスプレイにタッチできるユーザが存在しないと判断した場合（Ｎｏ）、制御部２１０は、ディスプレイが見えるユーザ用に音声入力用ＵＩを表示すると共に、ディスプレイが見えないユーザに向けて、上記音声案内を出力するよう指示する指示信号を情報処理端末１００へ送信する。これを受けて情報処理端末１００のＣＰＵ１１は、音声入力用ＵＩを表示すると共に上記と同様にビームフォーミングにより音声案内を出力するようにスピーカを制御する（ステップ１７９）。

上記ステップ１７５においてディスプレイが見えないユーザはいないと判断した場合（Ｎｏ）、制御部２１０は、指示ユーザ（トリガを発したユーザ）がタッチ操作可能か（領域範囲Ａ１に存在するか）否かを判断する（ステップ１７７）。

ここで、指示ユーザの特定は、情報処理端末１００が有する複数のマイクロフォンのうち、トリガの音声が入力されたマイクロフォンの位置と、上記撮像画像中のユーザの位置との照合によって行われてもよい。

上記指示ユーザがタッチ可能と判断した場合（Ｙｅｓ）、制御部２１０は、上記タッチ入力用ＵＩを表示すると共に、図１３の場合と同様の効果音を出力またはＬＥＤを点灯するよう指示する指示信号を情報処理端末１００へ送信する。これを受けて情報処理端末１００のＣＰＵ１１は、タッチ入力用ＵＩを表示するようにタッチパネルを制御すると共に、効果音を出力するようにスピーカを制御し、またはＬＥＤを点灯する（ステップ１８０）。

上記指示ユーザがタッチ不可能と判断した場合（Ｎｏ）、制御部２１０は、上記音声入力用ＵＩを表示すると共に、上記効果音を出力またはＬＥＤを点灯するよう指示する指示信号を情報処理地端末１００へ送信する。これを受けて情報処理端末１００のＣＰＵ１１は、上記音声入力用ＵＩを表示するようにタッチパネルを制御すると共に、効果音を出力するようにスピーカを制御するまたはＬＥＤを点灯する（ステップ１８１）。

上記ビームフォーミングによる音声案内は、情報処理端末１００のディスプレイが見えないユーザに対してのみならず、ディスプレイが見えるユーザに対しても出力されてもよい。この際、ＣＰＵ１１は、ディスプレイが見えないユーザに対する音声案内の内容とディスプレイが見えるユーザに対する音声案内の内容とを異ならせて出力するようにスピーカを制御してもよい。また、複数ユーザのうち特定の指示ユーザのみが操作するような場合、ＣＰＵ１１は、上記指示ユーザに対してのみビームフォーミングで音声案内を出力するようにスピーカを制御してもよい。

また、ＣＰＵ１１は、情報処理サーバ２００と協働して、複数のユーザのうち、情報処理端末１００に最も遠いユーザまたは最も近いユーザの位置を特定し、その位置に合わせて（その位置が領域範囲Ａ１乃至Ａ３のうちいずれであるかに応じて）ＵＩを表示するようにタッチパネルを制御してもよい。

また、ＣＰＵ１１は、複数のユーザの位置の中間（平均）位置を特定し、その位置に合わせてＵＩを表示するようにタッチパネルを制御してもよい。

さらに、ＣＰＵ１１は、複数のユーザのうち、ディスプレイに視線を向けているユーザを特定し、当該ユーザの位置に合わせてＵＩを表示するようにタッチパネルを制御してもよい。

上記の例では、ユーザからの指示が明確である場合の例が示されたが、ユーザの指示が曖昧である場合もある。ＣＰＵ１１は、この場合の処理についてもユーザの情報処理端末１００からの距離、存在する領域範囲、情報処理端末１００に視線が向いているか否かを例えば撮像装置２６の撮像画像から判断し、その判断結果に応じて実行してもよい。これには音楽アプリケーション以外のアプリケーションやサービスに関する処理も含まれてもよい。上記距離及び領域範囲は、情報処理端末１００が有する距離センサや外部センサ（距離センサ、室内カメラ等）のセンシングデータによって判断されてもよい。

例えば、ユーザから、「（ねえエージェント）Artist A」との音声が入力された場合であって、ユーザが情報処理端末１００にタッチできる位置にいたり、視線を向けていた場合には、ＣＰＵ１１は、図１８に示すように、アーティストＡの楽曲を選択させるためのリスト表示の他、アーティストＡに関するウェブ検索やニュース表示を選択用メニューとして含むＵＩを表示してもよい。

また、ユーザの指示が曖昧な場合であって、ユーザが情報処理端末１００から距離がある位置に居たり、視線を向けていない場合には、ＣＰＵ１１は、指示内容を音声で聞き返したり、実行処理を予測して勝手に再生処理やリスト表示処理を実行してもよい。図１９は、「（ねえエージェント）アーティストＡ」との音声が入力された場合にＣＰＵ１１が「アーティストＡの楽曲の再生が指示された」と予測して実行する様子を示している。

またＣＰＵ１１は、情報処理端末１００の周辺音のレベルが所定値以上の場合や、テレビ等の他のＡＶ機器が起動されているなど、センシング情報から音声入力環境が悪いと推定される場合には、より操作入力手段として確実なタッチ入力用ＵＩを提示する距離／範囲を広げてもよい。

例えばＣＰＵ１１は、タッチ入力用ＵＩと音声入力用ＵＩのいずれを表示するかの基準となる情報処理端末１００からユーザまでの距離が、音声入力環境が良好な場合に１ｍであるとすると、上記所定値以上の周辺音レベルを検出した場合や他のＡＶ機器が起動されている場合には、上記基準距離を３ｍに変更してもよい。これにより、音声入力用インタフェースにおける入力エラーが防止される。

また、ＣＰＵ１１は、上記音声入力環境に応じて、音声入力における認識感度または精度をユーザに示すためのＵＩ、アイコン、バー等をディスプレイ上に表示してもよい。例えばＣＰＵ１１は、図２の画面上部のバーやアイコン群中央のマイクアイコンの色を変更してもよい（例えば、音声入力環境が良好な場合：赤色, 不良な場合：青色）。

これにより、例えばＣＰＵ１１が、音声認識精度が悪いためにタッチ入力用ＵＩを表示した際、ユーザは、音声認識がうまく行かなかったためにタッチＵＩが表示されていることが直感的に理解でき、自然と、音声入力ではなく、タッチによる入力を選択することができる。

以上の説明において、ＣＰＵ１１は、さらに、ユーザの姿勢を考慮してＵＩの表示を切り替えてもよい。すなわち、ＣＰＵ１１は、ユーザが情報処理端末１００に近い位置に存在している場合であっても、ユーザが横たわっていることが検出された場合には、音声入力用ＵＩを表示してもよい。これにより、横たわっているユーザがわざわざ起きてタッチ操作する手間が生じるのが回避される。姿勢情報は、撮像装置２６の撮像画像や外部センサ（ベッド内のセンサ、ユーザが装着しているウェアラブル端末、室内カメラ等）から取得される。

または、ＣＰＵ１１は、ユーザが横たわっていることが検出された場合には上記再生用ＵＩを表示してもよい。これにより、横たわっているユーザがディスプレイも見ていないような場合には、わざわざディスプレイ上のＵＩを見て処理を選択する煩わしさが回避される。

上述の例において、タッチ入力用ＵＩと音声入力用ＵＩについては、音楽アプリケーションに予め備えられていることが前提とされていた。しかし、アプリケーションやサービスによっては、そのようなタッチ入力用ＵＩと音声入力用ＵＩが用意されていないことも考えられる。その場合ＣＰＵ１１は、サービス側でタッチ／音声入力用ではないものの、異なるパターンのＵＩが用意されている場合には、それらをタッチ／音声入力用に利用してもよい。

例えばＣＰＵ１１は、コンテンツ数が多いＵＩとコンテンツ数が少ないＵＩとが存在する場合には、前者をタッチ入力用、後者を音声入力用に用いる。またタブレット用ページとスマートフォン用ページとが用意されている場合には、ＣＰＵ１１は、前者をタッチ入力用、後者を音声入力用に用いてもよい。

また、サービス側のウェブページがレスポンシブデザインにより作成されている場合には、ＣＰＵ１１は、仮想的にページの解像度情報を変更し、図２０に示すように、高解像度のページ（同図Ａ）をタッチ入力用ＵＩに、低解像度のページ（同図ＢまたはＣ）を音声入力用ＵＩに、それぞれ用いてもよい。

また、上記のような異なるパターンのＵＩが用意されていない場合、ＣＰＵ１１は、コンテンツ（画像やフォント）のサイズを変更することで、タッチ入力用ＵＩと音声入力用ＵＩとを区別して表示してもよい。

また、ＣＰＵ１１は、サービス側のページにリンクや選択肢が存在する場合、タッチ入力用ＵＩとして用いる場合にはそのページをそのまま表示し、そのページを音声入力用ＵＩとして用いる場合には、それらリンクや選択肢に番号等の音声指示用アイコンを付与してもよい。

これにより情報処理端末１００は、タッチ入力用ＵＩと音声入力用ＵＩが予め備えられていないアプリケーションやサービスにおいても、入力手段に応じた適切なＵＩを提供することができる。

上記の例では、音楽アプリケーションにおけるＵＩを説明したが、他のアプリケーションにおいても同様にユーザの距離、範囲、視線等のコンテキストに応じた音声入力用／タッチ入力用ＵＩの切替処理が実現可能である。

例として、料理アプリケーションにおけるＵＩにおいて表示されるＵＩとして、図８のステップ８６乃至８８、図１０Ｂ乃至Ｄに対応するＵＩを図２１に示す。

同図Ａがタッチ入力用ＵＩ、同図Ｂが音声入力用ＵＩ、同図Ｃが再生用ＵＩである。タッチ入力用ＵＩにおいては、画面情報量（文字情報量）が多く、またそれと共に出力される音声情報は少ない。音声入力用ＵＩにおいては画面情報量が少なく（文字情報が写真に置き換わる）、付随する音声情報も少ない。再生用ＵＩにおいては、画面情報量が少なく、音声情報量が多くなっている。

上述の例において、情報処理端末１００及び情報処理サーバ２００は、ユーザの位置、視線、姿勢、表情の少なくとも１つとその際にユーザによって使用されたＵＩまたはユーザからの指示内容とを紐付けて学習することで、ＵＩを決定してもよい。

学習手法としては、例えばニューラルネットワークやディープラーニングが用いられる。ニューラルネットワークとは、人間の脳神経回路を模倣したモデルであって、入力層、中間層（隠れ層）、出力層の３種類の層から成る。また、ディープラーニングとは、多層構造のニューラルネットワークを用いたモデルであって、各層で特徴的な学習を繰り返し、大量データの中に潜んでいる複雑なパターンを学習することができる。ディープラーニングは、例えば画像内のオブジェクトや音声内の単語を識別する用途として用いられる。

ディープラーニングが用いられる場合、その入力はユーザの位置、姿勢、表情、視線等であり、出力はタッチ入力用ＵＩ、音声入力用ＵＩ等であってもよい。

また、このような機械学習を実現するハードウェア構造としては、ニューラルネットワークの概念を組み込まれたニューロチップ／ニューロモーフィック・チップが用いられ得る。

また、機械学習の問題設定には、教師あり学習、教師なし学習、半教師学習、強化学習、逆強化学習、能動学習、転移学習等がある。例えば教師あり学習は、与えられたラベル付きの学習データ（教師データ）に基づいて特徴量を学習する。これにより、未知のデータのラベルを導くことが可能となる。

また、教師なし学習は、ラベルが付いていない学習データを大量に分析して特徴量を抽出し、抽出した特徴量に基づいてクラスタリングを行う。これにより、膨大な未知のデータに基づいて傾向の分析や未来予測を行うことが可能となる。

また、半教師学習は、教師あり学習と教師なし学習を混在させたものであって、教師あり学習で特徴量を学ばせた後、教師なし学習で膨大な訓練データを与え、自動的に特徴量を算出させながら繰り返し学習を行う方法である。

また、強化学習は、ある環境内におけるエージェントが現在の状態を観測して取るべき行動を決定する問題を扱うものである。エージェントは、行動を選択することで環境から報酬を習得し、一連の行動を通じて報酬が最も多く得られるような方策を学習する。このように、ある環境における最適解を学習することで、人間の判断力を再現し、また、人間を超える判断力をコンピュータに習得させることが可能となる。

上述の例では、切替対象のＵＩとしてタッチ入力用ＵＩと音声入力用ＵＩが示されたが、ジェスチャ入力用ＵＩ、視線入力用ＵＩ、リモコン入力用ＵＩ等、他のＵＩが切替表示されてもよい。例えばＣＰＵ１１は、上記の例においてタッチ入力用ＵＩに代えて視線入力用ＵＩ、音声入力用ＵＩに代えてジェスチャ入力用ＵＩを表示するようにタッチパネルを制御してもよい。

上述の例では、ユーザと情報処理端末１００との距離、ユーザの存在する領域範囲、ユーザの視線が情報処理端末１００を向いているか等の判断結果を基にＵＩの表示が切り替えられた。しかし、ＣＰＵ１１は、ユーザの聴覚や視覚に関するプロファイル情報に基づいてＵＩの表示を切り替えてもよい。例えばＣＰＵ１１は、プロファイル情報から、認識したユーザが聴覚障害を有すると判断した場合にはタッチ入力用ＵＩを表示し、ユーザが聴覚障害を有さないと判断した場合には音声入力用ＵＩを表示するようにタッチパネルを制御してもよい。またＣＰＵ１１は、認識したユーザが聴覚障害を有すると判断した場合には、上記の例において音声入力用ＵＩに代えてジェスチャ入力用ＵＩや視線入力用ＵＩ、またはリモコン入力用ＵＩを表示するようにタッチパネルを制御してもよい。

＜第２実施形態＞
次に、本技術の第２実施形態について説明する。本実施形態において上記第１実施形態と同様の機能及び構成を有する箇所について同一の符号を付し、重複する説明は省略又は簡略化する。

上述の実施形態では、音楽アプリケーションにおける楽曲再生のためのＵＩが、ユーザコンテキストに応じて変更される処理が示された。ところで、料理レシピや電子書籍等のコンテンツは、音楽や動画等のメディアコンテンツと異なり、再生後にユーザがページを進める等の操作が必要となる(Step-by-Step)。

本実施形態では、ユーザ状態(位置／姿勢／視線／表情等)、ユーザプロファイルまたはユーザ環境情報を含むユーザコンテキスト情報、または、他の装置から収集されたセンシング情報に基づいて、コンテンツが有する複数の再生ステップの切替を制御する処理について、料理アプリケーション（レシピ再生システム）を例に説明する。

料理アプリケーションは、例えばCook padや、Allrecipes.comのようなユーザ投稿型サービスからインターネットを介してレシピ、画像、コンテンツ等の情報をダウンロードし、上記再生ステップの切替を制御しながら表示するものであってもよいし、または、それら情報を上記再生ステップの切替を制御しながらストリーミング再生するものであってもよい。

図２２は、本実施形態に係るレシピ再生システムにおけるレシピの再生処理の流れについて説明した図である。

同図Ａに示すように、ユーザは図２に示したホーム画面から、音声入力によって料理アプリケーションを起動して、特定の料理のレシピ（たとえばオムレツ）の検索を指示する。

情報処理端末１００のＣＰＵ１１は、当該音声入力を認識すると、同図Ｂに示すように、該当する料理のレシピの検索結果をディスプレイに表示するとともに、検索結果数を音声によってユーザに知らせる。

ユーザは、当該検索結果の中から、同図Ｃに示すように、音声入力によって特定のレシピを「本日のメニュー」へ追加することを指示する。

ＣＰＵ１１は、当該音声入力を認識すると、上記レシピを上記「本日のメニュー」に追加したページをディスプレイに表示すると共に、その追加の旨及び各レシピの調理時間を音声によってユーザに知らせる。調理時間は、レシピをサービスへ投稿するユーザが入力してもよいし、実際にレシピを作ったユーザが投稿して追加的に登録されてもよい。また、サービス側が、レシピを再生した複数のユーザの所要時間を記録し、その平均を出力してもよい。

この際、ＣＰＵ１１は、複数のレシピについて「一品ずつ料理」「まとめて料理」を選択させるためのボタンも表示する。「一品ずつ料理」とは、一品ずつ料理を作成するモードであり、調理する料理の順序は、情報処理端末１００が提案する（ユーザ選択も可）。「まとめて料理」とは、複数選択されたレシピをまとめて料理する手順を情報処理端末１００が提示するモードである。本実施形態では、同図Ｅに示すように、「まとめて料理」がユーザから音声入力により指示されたものとする。

「まとめて料理」に関しては既存の手法が用いられてもよい。すなわち、ＣＰＵ１１は、レシピ内に記載の作業（切る、炒める、煮る等）や人数、ユーザプロファイル内の作業環境（コンロ数、鍋や包丁の数等）に基づいて、時間を最小にする最適化問題を解く。

ＣＰＵ１１は、上記ユーザからのレシピ検索指示に代えて、冷蔵庫内の食材をセンシングデータとして取得して、当該食材を含むレシピをユーザに提案してもよい。この場合、冷蔵庫にセンサ（カメラ等）及び送信機が設けられ、センサで検知した食材に関する情報が送信機によりセンシングデータとして情報処理端末１００へ送信される。

図２３は、上記レシピ再生システムにおけるレシピの調理開始前の料理アプリケーションの画面について説明した図である。

情報処理端末１００は、料理開始前に、例えば同図破線部分に示すように、材料準備等の通知メッセージを表示する。通知メッセージ例としては以下のようなものが想定される。

・レシピデータとユーザプロファイルを比較し、レシピデータの中に、ユーザプロファイルに登録されているアレルギー食品が含まれている場合、ＣＰＵ１１は警告をディスプレイに表示する。当該警告は警告音または警告メッセージとしてスピーカから出力されてもよい。
・冷蔵庫や棚に代替材料があることがセンシングデータから検出された場合、ＣＰＵ１１は、当該代替食材を提案する（例：大豆→ひよこ豆。）。
・ＣＰＵ１１は、情報処理端末１００にインストールされているヘルスケアアプリから運動情報やダイエット情報を取得して、レシピのカロリー情報が所定値を上回っている場合には、警告をディスプレイに表示してもよい。当該警告は警告音または警告メッセージとしてスピーカから出力されてもよい。
・ＣＰＵ１１は、冷蔵庫等の食材の中でレシピの食材から不足している材料を、ＥＣ（Electronic Commerce）サイトのカート／ウィッシュリストに追加するか提案してもよい。
・ＣＰＵ１１は、家族ユーザの所在情報を参照して、家族ユーザが外出していることが検出された場合は、そのユーザに食材を買うように、情報処理端末１００からそのユーザのスマートフォン等の携帯機器へメッセージを送るか確認してもよい。そしてＣＰＵ１１は、当該買い物が家族ユーザに許可された場合、そのユーザの推定帰宅時刻に合わせてレシピの順序を変更するようにしてもよい。

次に、レシピ再生開始前の機能として、調理時刻の設定処理について説明する。

ユーザから調理完成時刻の指定があった際、ＣＰＵ１１、調理開始時刻の変更を提案してもよい。例えばＣＰＵ１１は、ユーザが希望する調理完成時刻と推定調理時間を比較して、ユーザが所望する時刻よりも早く完成してしまう場合、適切な調理開始時刻をユーザに提案しても良い。

他にも、上記まとめてレシピ作成においては、ＣＰＵ１１は、最短調理時間ではなく、ユーザが所望する時刻と近くなるように調理時間の最適化を行ってもよい。

また、レシピが動画コンテンツの場合は、ＣＰＵ１１は、動画再生速度を調整することで、調理完成時刻を調整するようにしてもよい。

また、調理終了予定時刻がユーザの所望する調理完成時刻を過ぎてしまうと判断した場合、ＣＰＵ１１は、より短い調理時刻のレシピを提案するようにしてもよい。

またＣＰＵ１１は、外出者の位置情報および過去の行動履歴情報を取得して、推定帰宅時刻に基づいて、ユーザへ調理開始時刻を提示してもよい。

またＣＰＵ１１は、ユーザの過去のレシピ再生回数に応じて、経験値（Exp.）を設定して、レベルを定め、メニュー検索時に、ユーザレベルに応じたメニューを提示してもよい。図２４は、当該レシピの提案画面の例を示した図であり、経験値（Exp.）が３２５であるユーザに応じたメニューが提案されている。

またＣＰＵ１１は、ユーザが過去に料理したレシピ情報に応じて、レシピを提示してもよい。例えば、レシピ毎に、使用した材料や作業（炒める、切る）の情報が情報処理サーバ２００に記憶されている場合、それらに応じて、例えばユーザの使用頻度の高い食材や調理法を使ったレシピを提案してもよい。

次に、レシピデータについて説明する。図２６は、本実施形態における動画コンテンツを用いたレシピデータの例を示した図である。

同図に示すように、レシピデータは、レシピが有する各再生ステップ名、各再生ステップの動画の開始時刻、各再生ステップに対応する調理工程の内容、当該調理工程に含まれるユーザの作業、材料、数量、使用器具に関するデータを有する。

これらのうち、作業、材料、数量、器具に関するデータは、ユーザが設定してもよい。これに代えて、ステップ名及び内容は、ユーザが設定して、動画時刻、作業、材料、数量、器具については、動画や内容からシステム（情報処理端末１００または情報処理サーバ２００）が推定して設定してもよい。

次に、レシピ再生時における情報処理端末１００及び情報処理サーバ２００の動作について説明する。図２５は、情報処理端末１００及び情報処理サーバ２００によるレシピの再生ステップの切替処理の例を示した図である。

同図Ａに示すように、再生されるレシピは、複数のステップを有する動画コンテンツ（レシピ動画）として構成されて情報処理サーバ２００上に記憶されており、ステップ毎にＴＴＳ（Timestamped Transport Stream）によって再生される。

当該レシピ動画においては、各ステップ（の開始時）が動画コンテンツ上の再生時刻と紐づけてマーキングされている。当該マーキングは、投稿者やサービス利用者が設定してもよいし、サービス利用者の一時停止が多い箇所を情報処理サーバ２００が解析して自動的に設定してもよい。また情報処理サーバ２００がレシピ動画を解析して、自動的にマーキングしてもよい。

同図Ａに示すように、レシピ動画は、ステップ単位で再生され、次のマーキングされている再生位置（次のステップの開始時刻）まで再生されると、動画が自動的に一時停止するようになっている。

そして、ＣＰＵ１１は、同図Ｂ及びＣに示すように、ユーザから切替トリガを取得すると、レシピ動画の次のステップを再生する。切替トリガの認識は、情報処理サーバ２００の制御部２１０によって実行され、処理結果が情報処理端末１００へ送信される。

また、レシピ動画の再生画面の例えば左下には、通知領域として、ユーザへ情報処理端末１００からの通知を表示する領域が設けられている。また当該通知領域への表示に加えて、同内容が音声として出力されてもよい。

通知内容の例として、同図Ａに示すように、ユーザの作業を情報処理サーバ２００が解析して、アドバイスを生成することが挙げられる。当該アドバイスは、情報処理サーバ２００の制御部２１０が、撮像装置２６からの入力を解析して生成したり（混ぜ方が足りない、野菜のカットが大きすぎる等）、調理器具から取得した情報をもとに生成してもよい（火力が弱いです、炒めすぎです）。

また、料理アプリケーション以外のアプリケーションやサービスに対するユーザからの指示があった際（例えば、音楽再生、ニュース再生等）、ＣＰＵ１１は、現在行っている調理作業の情報を用いて当該指示に対応する処理に反映させてもよい。例えばユーザから、「おすすめの音楽を再生して」といった音声指示があった際に、ＣＰＵ１１は、情報処理サーバ２００の制御部２１０と協働して、「オムレツがタイトルに入っている曲」を検索して再生したり、「残り調理時間と再生時間が近いプレイリスト」を検索して再生したりしてもよい。これによりＣＰＵ１１は、調理中のユーザをよりリラックスさせたりユーザに調理に有益な情報を与えたりすることができる。

また、上記再生ステップの切替トリガとしては、意図的なユーザからの指示によるものと、ＣＰＵ１１が判断して自動で切り替えるものとがある。

前者の例としては、「次おしえて」「Next」「Go」「OK」といった音声指示が挙げられる。

また、ＣＰＵ１１及び制御部２１０は、ユーザの指示としてユーザのジェスチャや視線をカメラから認識してもよい。ジェスチャ例としては、スワイプ動作、所定のハンドサイン（グッドポーズ等）、まばたき等が挙げられる。誤指示防止のため、ＣＰＵ１１及び制御部２１０は、音声とジェスチャ（または視線）の両方が検出された場合のみ、次の再生ステップに切り替えてもよい。

後者の例としては、ＣＰＵ１１及び制御部２１０は、カメラ画像からユーザの行動や食材の状態を認識し、ユーザが現在の再生ステップに対応する調理作業を完了したと判断した場合に再生ステップを切り替えてもよい。

また、他のデバイス（コンロ、スマート包丁、ウェアラブル端末等）からのセンシング情報を基にＣＰＵ１１及び制御部２１０が現在の再生ステップに対応する調理作業が完了したと判断した場合に再生ステップを切り替えてもよい。

例えば、再生ステップにおけるレシピからの指示が「○分間加熱してください」であった場合、コンロが、重さで鍋が置かれていることを認識し、○分間の加熱を検知したことをＣＰＵ１１及び制御部２１０が検知した場合、ＣＰＵ１１は再生ステップを次に切り替える。

また、再生ステップにおけるレシピからの指示が「みじん切りをしてください」であった場合、スマート包丁内のセンサがみじん切り（垂直方向の頻繁な移動）を検知し、その後、みじん切りを検知しなくなったこと（または包丁が置かれたこと）が、センシング情報により検知された場合、ＣＰＵ１１は再生ステップを次に切り替える。

また、ＣＰＵ１１は、ユーザが身に付けているウェアラブル端末のセンシング情報に基づいて料理関連の行動認識を行ってもよい。例えばＣＰＵ１１及び制御部２１０は、スマートリストバンドに含まれる加速度センサ、ジャイロセンサの情報を取得し、それに基づいて、料理行動を学習（切る、炒めもの、混ぜる等）して、ユーザの行動を認識し、各調理工程に含まれる料理行動が終了したと判断した場合に再生ステップを次に切り替える。

このように、ＣＰＵ１１はユーザから明示的な指示を受けなくとも、ユーザの行動またはセンシング情報によって認識可能な食材の状態から調理工程の終了を判断して次の調理工程の再生ステップへ切り替えることができる。

図２８は、当該再生ステップの切替処理の流れを示したフローチャートである。

同図に示すように、まずＣＰＵ１１は、上述のようにユーザの検索指示等に基づいて情報処理サーバ２００からレシピ情報を取得する（ステップ２８１）。

続いてＣＰＵ１１及び制御部２１０は、上述したように、調理時間や食材等、レシピの最適化処理を実行する（ステップ２８２）。

続いてＣＰＵ１１は、レシピ動画のうちステップＮ（Ｎ＝１）を再生する（ステップ２８３）。

続いてＣＰＵ１１は、ステップＮの再生が終了するとレシピ動画を一時停止する（ステップ２８４）。

続いてＣＰＵ１１及び制御部２１０は、上記切替トリガを受け付けたか否かを判断する（ステップ２８５）。

当該切替トリガの認識は、上述のように主に情報処理サーバ２００の制御部２１０によって実行される。制御部２１０は、切替トリガを認識すると、再生ステップを切替を指示するステップ切替情報を生成し、情報処理端末１００へ送信する。

切り替えトリガを受け付けた（ステップ切替情報を受信した）と判断した場合（Ｙｅｓ）、ＣＰＵ１１は、レシピ動画に次のステップが有るか否かを判断する（ステップ２８６）。

次のステップが有ると判断した場合（Ｙｅｓ）、ＣＰＵ１１は、上記Ｎをインクリメントして再生ステップを次のステップに進めて（ステップ２８７）、上記ステップ２８３以降の処理を、最終再生ステップまで繰り返す。

切替トリガの認識は情報処理端末１００のＣＰＵ１１によって実行されてもよく、この場合、ＣＰＵ１１が、切替トリガを認識し、次のステップを認識すると、上記ステップ切替情報を生成する。この場合のステップ切替情報は、料理アプリケーションに対するレシピ動画の次のステップへの切替指示となる。

上記フローチャートでは、ＣＰＵ１１は、レシピ動画の再生、一時停止、再生再開によって再生ステップを切り替えたが、例えばユーザの指示があった場合にはレシピ動画を所定時間分または次の再生ステップまで早送りしたり、所定時間分または前の再生ステップへ巻き戻ししたりしてもよい。

次に、情報処理端末１００及び情報処理サーバ２００による、レシピ動画の再生以外のレシピに関する機能について説明する。図２９は、当該機能について説明した図である。

情報処理端末１００は、ユーザ指示がなくても調理工程に含まれる処理を自動実行してもよい。これによりユーザの指示の手間及び調理の手間が省かれる。

すなわち、ＣＰＵ１１及び制御部２１０は、レシピのステップ内容を解析して、情報処理端末１００が処理可能な作業が含まれていると判断した場合に、自ら調理器具を制御したり、ユーザへメッセージを通知したりしてもよい。

具体的には、同図Ａに示すように、レシピに「３分間煮込みます」と記載されている場合、ＣＰＵ１１は、タイマーに制御信号を送信して、「３分間タイマーをセット」する。そしてＣＰＵ１１は、ユーザがコンロをつけることを認識したり、「タイマースタート」と発した場合に、上記セットしたタイマーをスタートさせる信号を送信する。

また、レシピに中火で加熱する旨の記載が含まれる場合であって、コンロから弱火または強火による加熱のセンシング情報を受信した場合、ＣＰＵ１１は、「火力を中火に変化させます」といった音声案内と共に、コンロを中火に制御するための信号を送信する。

またＣＰＵ１１及び制御部２１０は、場合によって危険を伴う調理工程の場合は、自動処理前に、ユーザに処理実行を確認する。

例えば、レシピのステップに「中火で炒める」「ミキサーで刻む」といった記載があり、ＣＰＵ１１及び制御部２１０は、「コンロを中火で点火」「ミキサーをスタートする」を認識すると、「コンロ」や「ミキサー」が危険調理器具として設定されているため、自動的に処理を実行しないで、例えば「コンロを中火で点火しますか？」といった音声によりユーザへ確認する。これにより危険調理器具を用いた自動処理による危険が回避される。

またＣＰＵ１１及び制御部２１０は、調理器具に対してユーザの注意を惹くアノテーション処理を実行してもよい。

すなわち、ＣＰＵ１１及び制御部２１０は、同図Ｂに示すように、レシピのステップ内容を解析して、そのステップと関連する調理器具に光や音を発せさせる。これによりＣＰＵ１１は、各調理工程において使用する調理器具をユーザに容易に把握させることができる。

その際、ＣＰＵ１１は、調理器具自体に指示信号を送信して光／音を発させてもよいし、同図Ｃに示すように、調理器具の近傍の装置に指示信号を送信して光／音を発させてもよい。また。調理器具ではなく、ステップと関連する「動作／作業」を識別して、ユーザがその動作を普段行う場所の色や明るさを変化させるように指示する指示信号を照明装置へ送信することで、ユーザを当該場所へ誘導してもよい。

＜変形例＞
本発明は上述の実施形態にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更され得る。

上述の各実施形態において、認識、解析、ＤＢ等の機能は情報処理サーバ２００の制御部２１０が実行していたが、その一部または全てを情報処理端末１００のＣＰＵ１１が実行してもよい。

上述の第１実施形態では、ＵＩとして音声入力用のＵＩとタッチ入力用のＵＩとが示されたが、ＵＩはこれらに限られない。例えばマウス操作用またはリモートコントロール用のＵＩに本技術が適用されてもよい。

上述の第２実施形態では、動画コンテンツとしてレシピ動画が示されたが、動画はこれに限られない。

＜その他＞
本技術は以下のような構成もとることができる。
（１）
ユーザ状態、ユーザプロファイルまたはユーザ環境情報を含むユーザコンテキスト情報に基づいて、複数のユーザインタフェースのうちユーザに提示するユーザインタフェースを決定する制御部
を具備する情報処理装置。
（２）
前記複数のユーザインタフェースは、音声入力用ユーザインタフェースとタッチ入力用ユーザインタフェースを含む、
上記（１）に記載の情報処理装置。
（３）
前記制御部は、
前記ユーザと当該情報処理装置との間の距離が所定距離以内であると判断した場合に、前記提示するユーザインタフェースとして前記タッチ入力用ユーザインタフェースを決定し、
前記距離が前記所定距離より大きいと判断した場合に、前記提示するユーザインタフェースとして前記音声入力用ユーザインタフェースを決定する
上記（２）に記載の情報処理装置。
（４）
前記制御部は、
前記ユーザの視線が当該情報処理装置を向いていると判断した場合に、前記タッチ入力用ユーザインタフェースまたは前記音声入力用ユーザインタフェースに第１の情報量を含ませ、
前記ユーザの視線が当該情報処理装置を向いていないと判断した場合に、前記タッチ入力用ユーザインタフェースまたは前記音声入力用ユーザインタフェースに前記第１の情報量よりも少ない第２の情報量を含ませる
上記（２）または（３）に記載の情報処理装置。
（５）
前記制御部は、当該情報処理装置を含む所定領域内に複数のユーザが存在すると判断した場合、前記複数のユーザのうち当該情報処理装置から最も近いまたは最も遠い位置に存在すると判断されたユーザを基準に前記提示するユーザインタフェースを決定する
上記（１）から（４）までのいずれかに記載の情報処理装置。
（６）
前記制御部は、当該情報処理装置を含む所定領域内に複数のユーザが存在すると判断した場合、前記複数のユーザのうち当該情報処理装置に視線を向けていると判断されたユーザを基準に前記提示するユーザインタフェースを決定する
上記（１）から（４）までのいずれかに記載の情報処理装置。
（７）
前記制御部は、当該情報処理装置の周囲で検出される音のレベルに応じて、前記提示するユーザインタフェースの判断に用いる前記所定距離を変更する
上記（１）から（６）までのいずれかに記載の情報処理装置。
（８）
前記制御部は、前記ユーザが横たわっていることが検出された場合、前記提示するユーザインタフェースとして前記音声入力用ユーザインタフェースを決定する
上記（２）から（８）までのいずれかに記載の情報処理装置。
（９）
ユーザ状態、ユーザプロファイルまたはユーザ環境情報を含むユーザコンテキスト情報、または、他の装置から収集されたセンシング情報に基づいて、コンテンツが有する複数の再生ステップの切替を制御するステップ切替情報を生成する制御部
を具備する情報処理装置。
（１０）
前記コンテンツは、前記再生ステップと再生時刻とが関連付けられた動画コンテンツであり、
前記制御部は、前記ステップ切替情報及び前記再生時刻に基づいて、前記動画コンテンツの再生を制御する
上記（９）に記載の情報処理装置。
（１１）

前記制御部は、音声入力部から入力された音声から所定のワードを認識した場合、または、撮像部から入力された画像から所定のジェスチャを認識した場合に、前記ステップ切替情報を生成する
上記（９）または（１０）に記載の情報処理装置。
（１２）
前記コンテンツは、調理レシピを前記再生ステップに対応する調理工程毎に説明したレシピコンテンツである、
上記（９）または（１１）に記載の情報処理装置。
（１３）
前記制御部は、前記センシング情報に基づいてユーザの行動を認識し、現在の再生ステップに対応する工程が終了したと判断した場合に前記ステップ切替情報を生成する
上記（９）から（１２）までのいずれかに記載の情報処理装置。
（１４）
前記制御部は、前記センシング情報に基づいて、前記調理レシピに含まれる食材の状態を認識し、現在の再生ステップに対応する調理工程が終了したと判断した場合に前記ステップ切替情報を生成する
上記（１２）または（１３）に記載の情報処理装置。
（１５）
前記制御部は、前記レシピコンテンツの各調理工程を解析し、各調理工程の到来時に、当該各調理工程に関連するユーザの調理器具または当該調理器具近傍の装置に、所定のアノテーション情報の出力を指示する指示信号を送信する
上記（１２）から（１４）までのいずれかに記載の情報処理装置。
（１６）
前記制御部は、前記レシピコンテンツの各調理工程を解析し、少なくともいずれかの調理工程の少なくとも一部の実施を指示する指示信号を、当該調理工程で使用されるユーザの調理器具へ送信する
上記（１２）から（１６）までのいずれかに記載の情報処理装置。
（１７）
ユーザ状態、ユーザプロファイルまたはユーザ環境情報を含むユーザコンテキスト情報を取得し、
前記ユーザコンテキスト情報に基づいて、複数のユーザインタフェースのうちユーザに提示するユーザインタフェースを決定する
情報処理方法。
（１８）
ユーザ状態、ユーザプロファイルまたはユーザ環境情報を含むユーザコンテキスト情報、または、他の装置から収集されたセンシング情報を取得し、
前記ユーザコンテキスト情報または前記センシング情報に基づいて、コンテンツが有する複数の再生ステップの切替を制御するステップ切替情報を生成する
情報処理方法。
（１９）
情報処理装置に、
ユーザ状態、ユーザプロファイルまたはユーザ環境情報を含むユーザコンテキスト情報を取得するステップと、
前記ユーザコンテキスト情報に基づいて、複数のユーザインタフェースのうちユーザに提示するユーザインタフェースを決定するステップと
を実行させるプログラム。
（２０）
情報処理装置に、
ユーザ状態、ユーザプロファイルまたはユーザ環境情報を含むユーザコンテキスト情報、または、他の装置から収集されたセンシング情報を取得するステップと、
前記ユーザコンテキスト情報または前記センシング情報に基づいて、コンテンツが有する複数の再生ステップの切替を制御するステップ切替情報を生成するステップと
を実行させるプログラム。

Claims

ユーザ状態、ユーザプロファイルまたはユーザ環境情報を含むユーザコンテキスト情報に基づいて、複数のコンテンツから再生するコンテンツを選択するための複数のユーザインタフェースのうちユーザに提示するユーザインタフェースを決定する制御部
を具備する情報処理装置であって、
前記制御部は、
前記ユーザと当該情報処理装置との間の距離が所定距離以内であると判断した場合に、前記提示するユーザインタフェースとしてタッチ入力用ユーザインタフェースを決定し、
前記距離が前記所定距離より大きいと判断した場合に、前記提示するユーザインタフェースとして音声入力用ユーザインタフェースを決定し、
前記距離が判断できなかった場合に、前記複数のコンテンツのうちいずれかのコンテンツを再生させる
情報処理装置。
前記制御部は、
前記ユーザの視線が当該情報処理装置を向いていると判断した場合に、前記タッチ入力用ユーザインタフェースまたは前記音声入力用ユーザインタフェースに第１の情報量を含ませ、
前記ユーザの視線が当該情報処理装置を向いていないと判断した場合に、前記タッチ入力用ユーザインタフェースまたは前記音声入力用ユーザインタフェースに前記第１の情報量よりも少ない第２の情報量を含ませる
請求項１に記載の情報処理装置。
前記制御部は、当該情報処理装置を含む所定領域内に複数のユーザが存在すると判断した場合、前記複数のユーザのうち当該情報処理装置から最も近いまたは最も遠い位置に存在すると判断されたユーザを基準に前記提示するユーザインタフェースを決定する
請求項１に記載の情報処理装置。
前記制御部は、当該情報処理装置を含む所定領域内に複数のユーザが存在すると判断した場合、前記複数のユーザのうち当該情報処理装置に視線を向けていると判断されたユーザを基準に前記提示するユーザインタフェースを決定する
請求項１に記載の情報処理装置。
前記制御部は、当該情報処理装置の周囲で検出される音のレベルに応じて、前記提示するユーザインタフェースの判断に用いる前記所定距離を変更する
請求項１に記載の情報処理装置。
前記制御部は、前記ユーザが横たわっていることが検出された場合、前記提示するユーザインタフェースとして前記音声入力用ユーザインタフェースを決定する
請求項１に記載の情報処理装置。
情報処理装置による情報処理方法であって、
ユーザと当該情報処理装置との間の距離を示す情報を取得し、
前記ユーザと当該情報処理装置との間の距離が所定距離以内であると判断した場合に、複数のコンテンツから再生するコンテンツを選択するための複数のユーザインタフェースのうちユーザに提示するユーザインタフェースとして、タッチ入力用ユーザインタフェースを決定し、
前記距離が前記所定距離より大きいと判断した場合に、前記提示するユーザインタフェースとして音声入力用ユーザインタフェースを決定し、
前記距離を示す情報が取得できなかった場合に、前記複数のコンテンツのうちいずれかのコンテンツを再生させる
情報処理方法。
情報処理装置に、
ユーザと当該情報処理装置との間の距離を示す情報を取得するステップと、
前記ユーザと当該情報処理装置との間の距離が所定距離以内であると判断した場合に、複数のコンテンツから再生するコンテンツを選択するための複数のユーザインタフェースのうちユーザに提示するユーザインタフェースとして、タッチ入力用ユーザインタフェースを決定するステップと、
前記距離が前記所定距離より大きいと判断した場合に、前記提示するユーザインタフェースとして音声入力用ユーザインタフェースを決定するステップと、
前記距離を示す情報が取得できなかった場合に、前記複数のコンテンツのうちいずれかのコンテンツを再生させるステップと
を実行させるプログラム。