JP7444060B2 - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP7444060B2
JP7444060B2 JP2020532268A JP2020532268A JP7444060B2 JP 7444060 B2 JP7444060 B2 JP 7444060B2 JP 2020532268 A JP2020532268 A JP 2020532268A JP 2020532268 A JP2020532268 A JP 2020532268A JP 7444060 B2 JP7444060 B2 JP 7444060B2
Authority
JP
Japan
Prior art keywords
user
information processing
information
user interface
processing device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020532268A
Other languages
English (en)
Other versions
JPWO2020022039A1 (ja
Inventor
翔 滝谷
俊元 御供
正資 武田
伸英 西山
久美子 児山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JPWO2020022039A1 publication Critical patent/JPWO2020022039A1/ja
Application granted granted Critical
Publication of JP7444060B2 publication Critical patent/JP7444060B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44505Configuring for program initiating, e.g. using registry, configuration files
    • G06F9/4451User profiles; Roaming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04812Interaction techniques based on cursor appearance or behaviour, e.g. being affected by the presence of displayed objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04886Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures by partitioning the display area of the touch-screen or the surface of the digitising tablet into independently controllable areas, e.g. virtual keyboards or menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback

Description

本技術は、ユーザのコンテキストに応じてユーザが操作するユーザインタフェースの切り替えやユーザが視聴するコンテンツの再生を制御することが可能な情報処理装置、情報処理方法及びプログラムに関する。
下記特許文献1には、ユーザとデバイスとの距離や、ユーザ間の距離に応じてコンテンツを提示することが開示されている。
特開2010-191487号公報
しかしながら、上記特許文献1に記載の技術では、ユーザの状況に応じて提示するコンテンツ自体を変えることはできるが、コンテンツの再生内容やコンテンツを操作するためのユーザインタフェースを切り替えることはできない。
以上のような事情に鑑み、本技術の目的は、ユーザコンテキストに応じて、ユーザにとって最適なユーザインタフェースを提示し、またはコンテンツの再生内容を制御することが可能な情報処理装置、情報処理方法及びプログラムを提供することにある。
上記目的を達成するため、本技術の一形態に係る情報処理装置は、ユーザ状態、ユーザプロファイルまたはユーザ環境情報を含むユーザコンテキスト情報に基づいて、複数のユーザインタフェースのうちユーザに提示するユーザインタフェースを決定する制御部を有する。
この構成により情報処理装置は、ユーザコンテキストに応じて、ユーザにとって最適なユーザインタフェースを提示することができる。ここでユーザ状態とは、例えばユーザの位置、情報処理装置からの距離、行動、視線、顔の向き、姿勢、表情、ポーズ、生体情報等である。ユーザプロファイルとは、氏名情報、アカウント情報、属性情報、身体情報、嗜好情報、行動履歴情報、人間関係情報等である。またユーザ環境情報とは、情報処理装置が置かれた場所の騒音値、温度、湿度、照度、明度、時刻等、情報処理装置が有するカメラやマイクその他のセンシング機器から取得した情報の他、他の機器から取得したセンシング情報も含む。
ここで、ユーザインタフェースとは、所定の入力手段による入力をユーザに促すための情報提示手段のことである。入力手段としては、例えば音声入力、タッチ入力、ボタン入力、ジェスチャ入力、視線入力、リモコン入力等を含んでもよい。また情報提示手段としては、画面出力、音声出力等を含んでもよい。
上記複数のユーザインタフェースは、音声入力用ユーザインタフェースとタッチ入力用ユーザインタフェース、ジェスチャ入力用UI、ボタン入力用UI、視線入力用UI、リモコン入力用UI等を含んでもよい。ここで、例えば音声入力用UIとは、ユーザに音声入力を促すための情報提示手段のことであり、例えば画面出力による情報提示や音声出力による情報提示等が含まれる。
上記制御部は、上記ユーザと当該情報処理装置との間の距離が所定距離以内であると判断した場合に、上記提示するユーザインタフェースとして上記タッチ入力用ユーザインタフェースを決定し、上記距離が上記所定距離より大きいと判断した場合に、上記提示するユーザインタフェースとして上記音声入力用ユーザインタフェース、ジェスチャ入力用UI、視線入力用UI、リモコン入力用UIのいずれかを決定してもよい。
これにより情報処理装置は、ユーザが画面内容を視認できるまたは触ることができる距離にいる場合にはタッチ入力用UIを提示し、ユーザが画面内容を視認しづらいまたは触りづらい距離にいる場合には音声入力用UI、ジェスチャ入力用UI、視線入力用UI、リモコン入力用UIのいずれかを提示することで、ユーザの利便性を向上させることができる。
上記制御部は、上記ユーザの視線が当該情報処理装置を向いていると判断した場合に、上記タッチ入力用ユーザインタフェースまたは上記音声入力用ユーザインタフェースに第1の情報量を含ませてもよい。また制御部は、上記ユーザの視線が当該情報処理装置を向いていないと判断した場合に、上記タッチ入力用ユーザインタフェースまたは上記音声入力用ユーザインタフェースに上記第1の情報量よりも少ない第2の情報量を含ませてもよい。
これにより情報処理装置は、ユーザが情報処理装置を見ている場合には詳細なUI、見ていない場合には簡素なUIというように、視線に応じてユーザに最適なUIを提示することができる。ここで情報量には、コンテンツ、メニュー、ボタン、メタ情報等の数が含まれる。
上記制御部は、当該情報処理装置を含む所定領域内に複数のユーザが存在すると判断した場合、上記複数のユーザのうち当該情報処理装置から最も近いまたは最も遠い位置に存在すると判断されたユーザを基準に上記提示するユーザインタフェースを決定してもよい。
また上記制御部は、当該情報処理装置を含む所定領域内に複数のユーザが存在すると判断した場合、上記複数のユーザのうち当該情報処理装置に視線を向けていると判断されたユーザを基準に上記提示するユーザインタフェースを決定してもよい。
これにより情報処理装置は、ユーザが複数存在する場合でもいずれかのユーザに合わせたUIを提示することができる。
上記制御部は、当該情報処理装置の周囲で検出される音のレベルに応じて、上記提示するユーザインタフェースの判断に用いる上記所定距離を変更してもよい。
これにより情報処理装置は、周囲の音声入力環境の良否に応じて提示インタフェース切替用の閾値を変更することで、音声入力用インタフェースにおける入力エラーを防ぐことができる。
上記制御部は、上記ユーザが横たわっていることが検出された場合、上記提示するユーザインタフェースとして上記音声入力用ユーザインタフェースを決定してもよい。
これにより情報処理装置は、例えばユーザがベッドに寝そべっている場合等には音声入力用のUIを提示することで、ユーザがわざわざ起きてタッチ操作する手間が生じるのを回避することができる。
また上記制御部は、上記ユーザの両手が塞がっていることを画像認識等で認識した場合、上記提示するユーザインタフェースとして上記音声入力用ユーザインタフェースを決定してもよい。
これにより情報処理装置は、ユーザの手が塞がっているにもかかわらずタッチ入力用UIがユーザに提示されユーザがそのままでは操作ができない不便が生じるのを回避することができる。
本技術の他の形態に係る情報処理装置は、ユーザ状態、ユーザプロファイルまたはユーザ環境情報を含むユーザコンテキスト情報、または、他の装置から収集されたセンシング情報に基づいて、コンテンツが有する複数の再生ステップの切替を制御するステップ切替情報を生成する制御部を有する。
この構成により情報処理装置は、ユーザコンテキストまたは他の機器からのセンシング情報に応じて、コンテンツの再生内容を制御することができる。他の機器とは例えば調理器具(コンロ、レンジ、ミキサー等)、冷蔵庫、カメラ等であり、センシング情報とは例えばコンロやレンジの加熱時間や冷蔵庫内の食材情報等である。
上記コンテンツは、上記再生ステップと再生時刻とが関連付けられた動画コンテンツであってもよい。この場合上記制御部は、上記ステップ切替情報及び上記再生時刻に基づいて、上記動画コンテンツの再生を制御してもよい。
これにより情報処理装置は、動画コンテンツのポーズ、再生、巻き戻し、早送り等を、ユーザのコンテキストに合わせて制御することができる。
上記制御部は、音声入力部から入力された音声から所定のワードを認識した場合、または、撮像部から入力された画像から所定のジェスチャを認識した場合に、上記ステップ切替情報を生成してもよい。
これにより情報処理装置は、ユーザからの指示を的確に認識してコンテンツを切り替えることができる。ここで所定のワードとは、例えば「次おしえて」「Next」「Go」「OK」等であり、所定のジェスチャとは、例えばスワイプ、ハンドサイン(グッドポーズ等)、まばたき等である。
上記コンテンツは、調理レシピを上記再生ステップに対応する調理工程毎に説明したレシピコンテンツであってもよい。この場合上記制御部は、上記センシング情報に基づいてユーザの行動を認識し、現在の再生ステップに対応する調理工程が終了したと判断した場合に上記ステップ切替情報を生成してもよい。
これにより情報処理装置は、ユーザから明示的な指示を受けなくともユーザの行動から調理工程の終了を判断して次の調理工程の再生ステップを再生させることができる。ユーザの行動とは、例えばユーザが包丁で食材を切る工程における包丁を上下に動かす動作や、ボウルで食材を混ぜる工程における箸やヘラを回転させる動作等である。
また上記制御部は、上記センシング情報に基づいて、上記調理レシピに含まれる食材の状態を認識し、現在の再生ステップに対応する調理工程が終了したと判断した場合に上記ステップ切替情報を生成してもよい。
これにより情報処理装置は、ユーザから明示的な指示を受けなくとも、センシング情報によって認識可能な食材の状態から調理工程の終了を判断して次の調理工程の再生ステップを再生させることができる。ここでセンシング情報としては、例えばみじん切り工程において包丁に内蔵されたセンサがみじん切り状態(所定の加速度・角速度等)を検知した後にそれが終了したという情報や、所定時間の加熱工程においてコンロに内蔵されたセンサが鍋の重さを認識して所定時間の加熱を検知したという情報等である。
また上記制御部は、上記レシピコンテンツの各調理工程を解析し、各調理工程の到来時に、当該各調理工程に関連するユーザの調理器具または当該調理器具近傍の装置に、所定のアノテーション情報の出力を指示する指示信号を送信してもよい。
これにより情報処理装置は、各調理工程において使用する調理器具をユーザに容易に把握させることができる。所定のアノテーション情報とは、例えば光や音の出力である。
また上記制御部は、上記レシピコンテンツの各調理工程を解析し、少なくともいずれかの調理工程の少なくとも一部の実施を指示する指示信号を、当該調理工程で使用されるユーザの調理器具へ送信してもよい。
これにより情報処理装置は、少なくとも一部の工程においてユーザの代わりに調理を実施することができる。
本技術の他の形態に係る情報処理方法は、
ユーザ状態、ユーザプロファイルまたはユーザ環境情報を含むユーザコンテキスト情報を取得し、
上記ユーザコンテキスト情報に基づいて、複数のユーザインタフェースのうちユーザに提示するユーザインタフェースを決定する、ことを含む。
本技術の他の形態に係る情報処理方法は、
ユーザ状態、ユーザプロファイルまたはユーザ環境情報を含むユーザコンテキスト情報、または、他の装置から収集されたセンシング情報を取得し、
上記ユーザコンテキスト情報または上記センシング情報に基づいて、コンテンツが有する複数の再生ステップの切替を制御するステップ切替情報を生成する、ことを含む。
本技術の他の形態に係るプログラムは、情報処理装置に、
ユーザ状態、ユーザプロファイルまたはユーザ環境情報を含むユーザコンテキスト情報を取得するステップと、
上記ユーザコンテキスト情報に基づいて、複数のユーザインタフェースのうちユーザに提示するユーザインタフェースを決定するステップと、を実行させる。
本技術の他の形態に係るプログラムは、情報処理装置に、
ユーザ状態、ユーザプロファイルまたはユーザ環境情報を含むユーザコンテキスト情報、または、他の装置から収集されたセンシング情報を取得するステップと、
上記ユーザコンテキスト情報または上記センシング情報に基づいて、コンテンツが有する複数の再生ステップの切替を制御するステップ切替情報を生成するステップと、を実行させる。
以上のように、本技術によれば、ユーザコンテキストに応じて、ユーザにとって最適なユーザインタフェースを提示し、またはコンテンツの再生内容を制御することができる。しかし、当該効果は本技術を限定するものではない。
本技術の第1実施形態に係る音楽再生システムの構成を示した図である。 上記音楽再生システムが有する情報処理端末の外観を示した図である。 上記情報処理端末のハードウェア構成を示した図である。 上記情報処理端末の機能ブロックを示した図である。 上記音楽再生システムが有する情報処理サーバの機能ブロックを示した図である。 上記情報処理端末が表示可能な各種ユーザインタフェースの例を示した図である。 上記情報処理端末によるユーザインタフェースの遷移例を示した図である。 上記音楽再生システムにおけるユーザインタフェースの表示処理の流れを示したフローチャートである。 上記情報処理端末に音声入力される楽曲再生指示の例を示した図である。 上記図8の各最終ステップにおいて表示されるユーザインタフェースの例を示した図である。 上記音楽再生システムにおけるユーザインタフェース切替のための領域範囲を説明した図である。 上記音楽再生システムにおける領域範囲に応じたユーザインタフェースの表示処理の流れを示したフローチャートである。 上記音楽再生システムにおけるユーザの視線も考慮したユーザインタフェースの表示処理の流れを示したフローチャートである。 上記情報処理端末に音声入力される楽曲変更指示の例を示した図である。 上記図14の各最終ステップにおいて表示されるユーザインタフェースの例を示した図である。 上記情報処理端末を複数のユーザが操作する場合の各ユーザの位置と領域範囲との関係について説明した図である。 上記音楽再生システムにおける上記複数のユーザの位置に応じたユーザインタフェースの表示処理の流れを示したフローチャートである。 上記音楽再生システムにおいてユーザが情報処理端末に近い位置にいる場合に表示されるユーザインタフェースの他の例を示した図である。 上記音楽再生システムにおいてユーザが情報処理端末に遠い位置にいる場合に表示されるユーザインタフェースの他の例を示した図である。 上記音楽再生システムにおいて表示されるユーザインタフェースの解像度の変更について説明した図である。 上記音楽再生システムがレシピ再生システムに適用された場合に表示されるユーザインタフェースの例を示した図である。 本技術の第2実施形態に係るレシピ再生システムにおけるレシピの選択処理の流れについて説明した図である。 上記レシピ再生システムにおけるレシピの調理開始前の通知処理について説明した図である。 上記レシピ再生システムにおけるレシピの選択処理の他の例について説明した図である。 上記レシピ再生システムにおける再生ステップの切替処理の例を示した図である。 上記レシピ再生システムにおける動画コンテンツを用いたレシピデータの例を示した図である。 上記レシピ再生システムにおける動画コンテンツを用いた再生ステップの切替処理の例を示した図である。 上記レシピ再生システムにおける動画コンテンツを用いた再生ステップの切替処理の流れを示したフローチャートである。 上記レシピ再生システムにおけるレシピ再生以外の情報処理端末の機能について説明した図である。
以下、本技術に係る実施形態を、図面を参照しながら説明する。
<第1実施形態>
まず、本技術の第1実施形態について説明する。
[システムの概要]
図1は、本技術の第1実施形態に係る音楽再生システムの構成を示した図である。
同図に示すように、本システムは、情報処理端末100と情報処理サーバ200とを有し、両者はインターネット等のネットワーク50を介して通信可能とされている。
情報処理端末100は、例えばタッチパネル型ディスプレイ付のスマートスピーカである。ユーザは、情報処理端末100にインストールされた様々なアプリケーションを、音声入力とタッチ入力の双方によって操作可能である。
情報処理端末100に入力された音声はクラウド上の情報処理サーバ200へ送信され、情報処理サーバ200が当該音声をテキストに変換して、当該テキストに応じた処理を実行し、その処理結果に応じた音声を情報処理端末100へ送信する。情報処理端末100は、当該音声を再生する。
また情報処理端末100にタッチ入力によって指示された処理は、基本的には情報処理サーバ200ではなく情報処理端末100によって実行される。
本実施形態では、情報処理端末100は、上記音声入力用のユーザインタフェース(以下、UI)とタッチ入力用のUIとをユーザコンテキストに応じて切り替えてユーザに提示する。
ユーザコンテキストには、ユーザ状態、ユーザプロファイルまたはユーザ環境情報が含まれる。ユーザ状態とは、例えばユーザの位置、情報処理端末100からの距離、行動、視線、顔の向き、姿勢、表情、ポーズ、生体情報等である。ユーザプロファイルとは、氏名情報、アカウント情報、属性情報、身体情報、嗜好情報、行動履歴情報、人間関係情報等である。またユーザ環境情報とは、情報処理端末が置かれた場所の騒音値、温度、湿度、照度、明度、時刻等、情報処理端末が有するカメラやマイクその他のセンシング機器から取得した情報の他、他の機器から取得したセンシング情報も含む。
[情報処理端末のハードウェア構成]
次に、上記情報処理端末100のハードウェア構成について説明する。
図2は、上記情報処理端末100の外観を示した図である。また図3は、上記情報処理端末100のハードウェア構成例を示したブロック図である。
図2に示すように、上記情報処理端末100は、例えば、正面視矩形で、テーブル、棚、床等に載置可能なデスクトップ型の筐体を有する。
また図3に示すように、情報処理端末100は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、およびRAM(Random Access Memory)13を含む。また、情報処理端末100は、ホストバス14、ブリッジ15、外部バス16、インタフェース17、入力装置18、出力装置19、ストレージ装置20、ドライブ21、接続ポート22、通信装置23を含んでもよい。さらに、情報処理端末100は、必要に応じて、撮像装置26、およびセンサ27を含んでもよい。情報処理端末100は、CPU11に代えて、またはこれとともに、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、またはFPGA(Field-Programmable Gate Array)などの処理回路を有してもよい。
CPU11は、演算処理装置および制御装置として機能し、ROM12、RAM13、ストレージ装置20、またはリムーバブル記録媒体24に記録された各種プログラムに従って、情報処理端末100内の動作全般またはその一部を制御する。ROM12は、CPU11が使用するプログラムや演算パラメータなどを記憶する。RAM13は、CPU11の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一次記憶する。CPU11、ROM12、およびRAM13は、CPUバスなどの内部バスにより構成されるホストバス14により相互に接続されている。さらに、ホストバス14は、ブリッジ15を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス16に接続されている。
入力装置18は、例えば、タッチパネル、物理ボタン、スイッチおよびレバーなど、ユーザによって操作される装置である。入力装置18は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理端末100の操作に対応したスマートフォンやスマートウォッチなどの外部接続機器25であってもよい。入力装置18は、ユーザが入力した情報に基づいて入力信号を生成してCPU11に出力する入力制御回路を含む。ユーザは、この入力装置18を操作することによって、情報処理端末100に対して各種のデータを入力したり処理動作を指示したりする。
図2に示すように、本実施形態では上記入力装置18として、正面中央から上部にかけて設けられたタッチパネルと、例えば上面に設けられたマイクロフォン、その他物理ボタン(電源ボタン、ボリューム調整ボタン等)等が設けられる。
出力装置19は、取得した情報をユーザに対して視覚や聴覚、触覚などの感覚を用いて通知することが可能な装置で構成される。出力装置19は、例えば、LCD(Liquid Crystal Display)または有機EL(Electro-Luminescence)ディスプレイなどの表示装置、スピーカなどの音声出力装置などでありうる。出力装置19は、情報処理端末100の処理により得られた結果を、テキストもしくは画像などの映像、音声もしくは音響などの音声、またはバイブレーションなどとして出力する。
図2に示すように、本実施形態では上記出力装置19として、上記タッチパネルと一体的に設けられたディスプレイと、当該ディスプレイの下部に設けられたスピーカ等が設けられる。
図2に示したディスプレイの画面はホーム画面の例を示しており、例えば時刻、気象情報、ログインユーザ情報の他、動画アプリケーション、音楽アプリケーション、料理アプリケーション、カメラアプリケーション等の各アプリケーションを起動するための複数のアイコンiが表示されている。
ストレージ装置20は、情報処理端末100の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置20は、例えば、HDD(Hard Disk Drive)などの磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。ストレージ装置20は、例えばCPU11が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。
ドライブ21は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体24のためのリーダライタであり、情報処理端末100に内蔵、あるいは外付けされる。ドライブ21は、装着されているリムーバブル記録媒体24に記録されている情報を読み出して、RAM13に出力する。また、ドライブ21は、装着されているリムーバブル記録媒体24に記録を書き込む。
接続ポート22は、機器を情報処理端末100に接続するためのポートである。接続ポート22は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)ポートなどでありうる。また、接続ポート22は、RS-232Cポート、光オーディオ端子、HDMI(登録商標)(High-Definition Multimedia Interface)ポートなどであってもよい。接続ポート22に外部接続機器25を接続することで、情報処理端末100と外部接続機器25との間で各種のデータが交換されうる。
通信装置23は、例えば、通信ネットワーク50に接続するための通信デバイスなどで構成された通信インタフェースである。通信装置23は、例えば、LAN(Local Area Network)、Bluetooth(登録商標)、Wi-Fi、またはWUSB(Wireless USB)用の通信カードなどでありうる。また、通信装置23は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、または、各種通信用のモデムなどであってもよい。通信装置23は、例えば、インターネットや他の通信機器との間で、TCP/IPなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置23に接続される通信ネットワーク50は、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内LAN、赤外線通信、ラジオ波通信または衛星通信などを含みうる。
撮像装置26は、例えば、CMOS(Complementary Metal Oxide Semiconductor)またはCCD(Charge Coupled Device)などの撮像素子、および撮像素子への被写体像の結像を制御するためのレンズなどの各種の部材を用いて実空間を撮像し、撮像画像を生成するカメラである。撮像装置26は、静止画を撮像するものであってもよいし、また動画を撮像するものであってもよい。
センサ27は、例えば、加速度センサ、角速度センサ、地磁気センサ、照度センサ、温度センサ、気圧センサ、または音センサ(マイクロフォン)などの各種のセンサである。センサ27は、例えば情報処理端末100の筐体の姿勢など、情報処理端末100自体の状態に関する情報や、情報処理端末100の周辺の明るさや騒音など、情報処理端末100の周辺環境に関する情報を取得する。また、センサ27は、GPS(Global Positioning System)信号を受信して装置の緯度、経度および高度を測定するGPS受信機を含んでもよい。
上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々の技術レベルに応じて適宜変更されうる。
[情報処理端末の機能ブロック構成]
図4は、上記情報処理端末100の機能ブロックを示した図である。
同図に示すように、情報処理端末100は、機能ブロック(ソフトウェアモジュール)として、制御部110、センサ部120、音声入力部130、タッチ入力部140、撮像部150、表示部160、音声出力部170、及び通信部180を有する。
制御部110は、CPU11と協働して情報処理端末100の各機能ブロックの処理を統括的に制御する。
センサ部120は、上記センサ27で検出したセンシングデータを制御部110へ受け渡す。
音声入力部130は、上記入力装置18としてのマイクロフォンへ入力された音声から変換された音声信号を制御部110へ送る。タッチ入力部140は、入力装置18としてのタッチパネルにより感知されたタッチ位置の情報を情報信号として制御部110へ送る。撮像部150は、制御部110からの指令に基づき撮像装置26によって画像を撮像し、また撮像された画像をデジタルデータとして制御部110へ送る。
表示部160は、上記出力装置19としてのタッチパネル上に、上記ホーム画面の他、起動された各種アプリケーションのGUI(Graphical User Interface;以下、UIとも称する。)を表示する。
上述したように、本実施形態では、主に音楽アプリケーションによって、音声入力用のUIとタッチ入力用のUIとが、ユーザのコンテキストに応じて切り替えて表示される。
音声出力部170は、制御部110からの指令に基づいて、上記出力装置19としてのスピーカから音声を出力させる。
通信部180は、上記通信装置23と協働してネットワーク50を介して上記情報処理サーバ200等の他の機器と通信する。例えば通信部180は、ユーザから入力された音声データを情報処理サーバ200へ送信する。
これらの各機能は、情報処理サーバ200ではなく情報処理端末100その他の外部端末またはクラウド上の機器に設けられていてもよい。特に、上記音声入力部130、撮像部150及び表示部160は、外部接続機器に設けられてもよい。
[情報処理サーバの機能ブロック構成]
図5は、上記情報処理サーバ200の機能ブロックを示した図である。
同図に示すように、情報処理サーバ200は、機能ブロックとして、制御部210、通信部220、音声認識部230、意味解析部240、ユーザ認識部250、及びユーザ状態推定部260を有し、提示情報DB(データベース)270及びユーザDB280の各データベースを有する。
制御部210は、情報処理サーバ200のCPUと協働して情報処理サーバ200の各機能ブロックの処理を統括的に制御する。
通信部220は、ネットワーク50を介して情報処理端末100等の他の機器と通信し、例えば情報処理端末100から音声データを受信して音声認識部230及び制御部210へ送り、制御部210による処理結果を示すデータを情報処理端末100へ送信する。
音声認識部230は、情報処理端末100から受信した音声データを音声認識により処理してテキストデータへ変換し、意味解析部240へ送る。
意味解析部240は、ユーザDB280を参照して、上記テキストデータの意味を解析し、当該解析した意味を示すデータを制御部210へ送る。制御部210は、当該データに対応する提示データを提示情報データベース270から抽出して通信部220を介して情報処理端末100へ送信する。
ユーザ認識部250は、通信部220によって受信された、情報処理端末100のカメラによる撮像画像データから人物を認識する。
ユーザ状態推定部260は、上記認識されたユーザの状態(または行動)を、ユーザDB280を参照して推定し、推定結果を制御部210へ送る。制御部210は当該推定結果に対応する提示データを提示情報データベース270から抽出して通信部220を介して情報処理端末100へ送信する。
これらの各機能は、情報処理サーバ200ではなく情報処理端末100その他の外部端末またはクラウド上の機器に設けられていてもよい。
[情報処理端末のユーザインタフェース例]
次に、上記情報処理端末100が上記各アプリケーションのうち音楽アプリケーションの実行中に表示部160に表示可能なUI例について説明する。図6は当該各種ユーザインタフェースの例を示した図である。また図7は当該UIの遷移例を示した図である。
図6Aは、特定の楽曲の再生中におけるUIであり、例えば下部にシークバー、再生ボタン、早送りボタン、巻き戻しボタン等のコントロール部が配置され、その上部に、当該楽曲、アーティスト、収録アルバムの名前、アルバムジャケット画像等が配置されている。
同図B乃至同図Eは、ユーザが楽曲を選ぶための楽曲リスト画面の例である。同図Bは、音声入力用のリスト画面であり、例えばアルバムジャケット画像をメインとした各アルバムの情報が横方向に3つ並べて表示されている。同図Cは、タッチ入力用のリスト画面であり、上記Bの音声入力用のリスト画面と比較して、リスト方向が縦方向となり、各アルバムジャケット画像が小さくなり、各アルバムに含まれる複数の楽曲に関する情報もリスト表示されている。同図D及びEは、上記B及びCのリスト画面がスクロールバーによりそれぞれ横方向、縦方向にスクロール操作可能とされたバージョンである。
同図Fは、同図Aの再生画面と同図Eのタッチ入力用のリスト画面とが組み合わされた画面である。
詳細は後述するが、音声入力用のUIは、ユーザが情報処理端末100から離れておりタッチ入力できない(見づらい)位置に存在する場合に提示されることが想定されており、それが有する情報(画像オブジェクトやテキスト、リスト項目等)の量が小さく、粒度が大きく設定されている。逆に、タッチ入力用のUIは、ユーザが情報処理端末100に近くタッチ入力できる(見やすい)位置に存在する場合に提示されることが想定されており、それが有する情報の量は大きく、粒度は小さく設定されている。
情報処理端末100は、このようなUIの中から、ユーザのコンテキスト(位置等)に応じて適切なものを選択して表示する。例えば、図7に示すように、情報処理端末100は、再生画面からリスト画面へ遷移する場合、ユーザがタッチ入力に適した状態であれば同図Bのようにタッチ入力用の詳細なリスト画面を表示し、ユーザがタッチ入力に適した状態にない場合には同図Cのように音声入力用の比較的簡易なリスト画面を表示する。
[音楽再生システムの動作]
次に、以上のように構成された音楽再生システムの動作について説明する。当該動作は、情報処理端末100や情報処理サーバ200のCPU及び通信部等のハードウェアと、記憶部に記憶されたアプリケーション等のソフトウェアとの協働により実行される。以下の説明では、便宜上、主に情報処理端末100のCPU11及び情報処理サーバ200の制御部210を動作主体として説明する。
図8は、情報処理端末100による、トリガに対するUIの表示処理の流れを示したフローチャートである。
同図に示すように、情報処理端末100のCPU11は、入力装置18、撮像装置26、センサ27等から随時情報を取得し(ステップ81)、当該情報から、トリガが受け付けられたか否かを判断する(ステップ82)。
例えばトリガが楽曲再生指示である場合、その入力元としては、ユーザの音声入力、タッチ入力及びリモートコントローラ操作が有り得る。例えば、上記図2で示したホーム画面の表示状態から、図8に示すように、ユーザの音声発話により、音楽アプリケーションによる特定のアーティストの楽曲の再生が指示されたとする(ステップ82のYes)。
なお、当該指示の音声は、冒頭に所定のウェイクワード部分を有し、その後にスキル名(アプリケーション等の機能名)部分、アタランス部分、ローンチ部分を有する。これらの部分の区分け及び上記トリガ受付の有無の判断は、情報処理サーバ200の音声認識部230及び意味解析部240によって実行される。
するとCPU11は、指示元のユーザの状態、具体的にはユーザの位置を推定する(ステップ83)。当該ユーザ位置の推定は、撮像装置26による撮像画像を基に、情報処理サーバ200のユーザ状態推定部260によって実行される。
当該ユーザ位置は、撮像画像以外にも、例えばユーザからの複数のマイクロフォンへの入力音声への到達時間差に基づいて推定されてもよいし、ユーザが所持するスマートフォン等の端末から受信されたGPS(Global Positioning System)情報やVPS(Virtual Positioning System)情報から推定されてもよい。また、ビーコン(BLE(Bluetooth Low Energy))情報や自律航法(Dead Reckoning)を用いた測位技術によりユーザ位置が推定されてもよい。
ユーザ位置が推定できた場合(ステップ84のYes)、情報処理サーバ200の制御部210は、上記撮像画像等を基に、当該ユーザ位置が、情報処理端末100から所定の距離以内か否かを判断する(ステップ85)する。所定の距離は例えば0.5m、1m、2m等であるが、これに限られない。
ユーザ位置が所定の距離以内であると判断した場合、制御部210は、上記再生指示に含まれるアーティストのアルバムをユーザにタッチで選択させるためのタッチ入力用のUIをタッチパネル上に表示するよう指示する指示信号を情報処理端末100へ送信する。これを受けて情報処理端末100のCPU11は、図10Bに示すようなタッチ入力用UIを表示するようにタッチパネルを制御する(ステップ86)。
ユーザが所定の距離外であると判断した場合、制御部210は、上記アルバムをユーザに音声で選択させるための音声入力用のUIをタッチパネル上に表示するよう指示する指示信号を情報処理端末100へ送信する。これを受けて情報処理端末100のCPU11は、図10Cに示すような音声入力用UIを表示するようにタッチパネルを制御する(ステップ87)。
上記ステップ84において、ユーザ位置が推定できないと判断した場合(No)、制御部210は、例えば上記再生指示に含まれるアーティストのアルバムをランダムにまたはリスト順の先頭からピックアップし、当該アルバムの曲を最初からまたはランダムに再生した再生用UIをタッチパネル上に表示するよう指示する指示信号を情報処理端末100へ送信する。これを受けて情報処理端末100のCPU11は、図10Dに示すような再生用UIを表示するようにタッチパネルを制御する(ステップ88)。
また制御部210は、上記所定の距離として第1の距離と第2の距離(第1距離<第2の距離)を設定し、ユーザ位置が第1の距離以内である場合にはタッチ入力用UI、第2の距離外である場合には音声入力用UI、第1の距離と第2の距離の間である場合にはジェスチャ入力用UI、視線入力用UI、またはリモコン入力用UI等の他のUIを表示するよう、指示信号を情報処理端末100へ送信してもよい。
(ユーザの存在する範囲に基づくUI表示)
CPU11は、上記ユーザ位置に関する判断基準として、所定の距離の代わりに、所定の領域範囲を使ってもよい。図11は、当該領域範囲を説明した図である。
同図Aに示すように、CPU11は、情報処理端末100の正面から例えば上記所定距離以内かつ左右60度程度以内の領域範囲を、タッチ入力用UIの領域範囲A1として設定し、それ以外の領域範囲を、音声入力用UIの領域範囲A2として設定してもよい。
また同図Bに示すように、CPU11は、情報処理端末100の正面から例えば上記所定距離以内かつ左右60度以内の領域範囲を、タッチ入力用UIの領域範囲A1として設定し、上記正面から上記所定距離より大きくかつ左右60度以内の領域範囲を、音声入力用UIの領域範囲A2として設定し、それ以外の領域範囲(ユーザからUIが見えない範囲)を単なる再生用UIの領域範囲A3として設定してもよい。また領域範囲A3は、画面(UI)非表示(スピーカのみ作動)の領域範囲として設定されてもよい。
図12は、当該領域範囲に応じたUIの表示処理の流れを示したフローチャートである。
同図において、ステップ121~ステップ124までの処理は上記図8のステップ81~ステップ84までの処理と同様である。
ステップ124においてユーザ位置が推定できると判断した場合(Yes)、情報処理サーバ200の制御部210は、ユーザが、情報処理端末100のディスプレイが見える第1の範囲(図11Bの領域範囲A1及びA2)に存在するか否かを判断する(ステップ125)。
ユーザが第1の範囲内に存在すると判断した場合(Yes)、制御部210は、ユーザがディスプレイにタッチ可能な第2の範囲内(図11Bの領域範囲A1)に存在するか否かを判断する(ステップ126)。
ユーザが第2の範囲内に存在するとの判断した場合(Yes)、上記再生指示に含まれるアーティストのアルバムをユーザにタッチで選択させるためのタッチ入力用のUIをタッチパネル上に表示するよう指示する指示信号を情報処理端末100へ送信する。これを受けて情報処理端末100のCPU11は、図10Bに示すようなタッチ入力用UIを表示するようにタッチパネルを制御する(ステップ127)。
ユーザが第1の範囲内かつ第2の範囲外(図11Bの領域範囲A2)に存在すると判断した場合、制御部210は、上記アルバムをユーザに音声で選択させるための音声入力用のUIをタッチパネル上に表示するよう指示する指示信号を情報処理端末100へ送信する。これを受けて情報処理端末100のCPU11は、図10Cに示すような音声入力用UIを表示するようにタッチパネルを制御する(ステップ128)。
上記ステップ124において、ユーザ位置が推定できないと判断した場合(No)、制御部210は、上記図8のステップ88と同様に、再生用UIをタッチパネル上に表示するよう指示する指示信号を情報処理端末100へ送信する。これを受けてCPU11は、図10Dに示すような再生用UIを表示するようにタッチパネルを制御する(ステップ129)。
上記領域範囲A1とA2がより細分化され、例えばA1とA2の間にA4が設定されてもよい。この場合制御部210は、ユーザが領域範囲A4に存在すると判断した場合にはジェスチャ入力用UI、視線入力用UI、またはリモコン入力用UI等の他のUIを表示するよう、指示信号を情報処理端末100へ送信してもよい。
(ユーザの視線も考慮したUI表示)
CPU11は、上記ユーザ位置に関する判断基準として、上記領域範囲に加えて、ユーザの視線(ユーザが情報処理端末100のディスプレイを見ているか否か)を使ってもよい。
図13は、情報処理端末100による、当該ユーザの視線も考慮したUIの表示処理の流れを示したフローチャートである。
同図において、ステップ131~ステップ136までの処理は上記図12のステップ121~ステップ126までの処理と同様である。この例では、トリガとして、例えば、図14に示すように、ユーザから、現在再生中の楽曲の別の曲への変更指示が音声入力により受け付けられたものとする。
ステップ136において、ユーザがタッチ可能な第2の範囲内に存在すると判断した場合(Yes)、及び、第2の範囲外に存在すると判断した場合(No)、情報処理サーバ200の制御部210は、例えば撮像装置26による撮像画像を基に、ユーザの視線が情報処理端末100のディスプレイを向いているか否かを判断する(ステップ137、ステップ138)。
ユーザが第2の範囲内でディスプレイを向いていると判断した場合(ステップ137のYes)、制御部210は、タッチ入力用のUIであって情報量が多いものを表示するとともに、例えば「ピピッ」といった単純な効果音を出力したり、LEDを点灯させたりすることを指示する指示信号を情報処理端末100へ送信する。これを受けて情報処理端末100のCPU11は、図15Bに示すようなタッチ入力用UI(情報量大)を表示するようにタッチパネルを制御するとともに上記効果音を出力するようにスピーカを制御し、またはLEDを点灯する(ステップ139)。
通知を効果音またはLEDとしたのは、ユーザがディスプレイを見ている場合に詳細な音声案内はユーザにとって邪魔であると考えられるためである。また情報量とは、具体的には、コンテンツ(楽曲)数、メニュー数、スクロールバー、メタ情報等である。
ユーザが第2の範囲内でディスプレイを向いていないと判断した場合(ステップ137のNo)、制御部210は、タッチ入力用のUIであって情報量が上記より少ないものを表示すると共に、例えば、「こちらの曲はどうでしょう?」といったユーザの視線をディスプレイに誘導させるような音声案内を出力するよう指示する指示信号を情報処理端末100へ送信する。これを受けて情報処理端末100のCPU11は、図15Cに示すようなタッチ入力用UI(情報量小)を表示するようにタッチパネルを制御すると共に上記音声案内を出力するようにスピーカを制御する(ステップ140)。
ユーザが第2の範囲外でディスプレイを向いていると判断した場合(ステップ138のYes)、制御部210は、音声入力用のUIであって情報量が多いものを表示するとともに、例えば「ピピッ」といった単純な効果音を出力したり、LEDを点灯させたりするよう指示する指示信号を情報処理端末100へ送信する。これを受けて情報処理端末100のCPU11は、図15Dに示すような音声入力用UI(情報量大)を表示するようにタッチパネルを制御すると共に効果音を出力するようにスピーカを制御し、またはLEDを点灯する(ステップ141)。
ユーザが第2の範囲外でディスプレイを向いていないと判断した場合(ステップ138のNo)、制御部210は、音声入力用のUIであって情報量が上記より少ないものを表示すると共に、例えば、「こちらの曲はどうでしょう?」といった音声案内を出力するよう指示する指示信号を情報処理地端末100へ送信する。これを受けて情報処理端末100のCPU11は、図15Eに示すような音声入力用UI(情報量小)を表示するようにタッチパネルを制御すると共に上記音声案内を出力するようにスピーカを制御する(ステップ142)。
ユーザの位置が推測できない(ステップ)134のNo)またはユーザが第1の範囲外に存在する(ステップ135のNo)と判断した場合、制御部210は、現在の再生用UIは変化させずに、楽曲のみ他の曲(例えば再生中のアルバムの次の曲)に切り替えるとともに、例えば、「Song B1を再生します」といった切替先の曲を説明する音声案内を出力するよう指示する指示信号を情報処理端末100へ送信する。これを受けて情報処理端末100のCPU11は、図15Fに示すようにUIを変更せずにコンテンツを切替えるようにタッチパネルを制御し、音声案内を出力するようにスピーカを制御する(ステップ143)。
(ユーザが複数存在する場合)
ここまでは、情報処理端末100のユーザが1人であることを前提に説明したが、情報処理端末100を複数のユーザが操作する場合も考えられる。
図16は、情報処理端末100を複数のユーザが操作する場合の各ユーザの位置と領域範囲との関係について説明した図である。
同図に示すように、情報処理端末100の周囲にはユーザU1とユーザU2の2人のユーザが存在している。ユーザU1は、情報処理端末100のディスプレイが見えない領域範囲、すなわち、表示用UIの領域範囲A3に存在しており、ユーザU2は、情報処理端末100のディスプレイにタッチ可能な領域範囲、すなわち、タッチ選択用UIの領域範囲A1に存在している。情報処理端末100は、このような複数のユーザの存在する領域に応じてUIを表示する。
図17は、上記複数のユーザの位置する領域に応じた情報処理端末100のUI表示処理の流れを示したフローチャートである。
同図に示すように、情報処理端末100のCPU11は、入力装置18、撮像装置26、センサ27等から随時情報を取得し(ステップ171)、当該情報から、トリガが受け付けられたか否かを判断する(ステップ172)。
トリガが受け付けられた(例えば楽曲切替指示の音声が入力された)と判断した場合(Yes)、情報処理サーバ200のユーザ認識部250は、例えば撮像装置26による撮像画像を基に、情報処理端末100の周囲にユーザが複数存在するか否かを判断する(ステップ173)。
ユーザが複数存在しないと判断した場合(No)には、情報処理サーバ200及び情報処理端末100は、上記図8のステップ83以降、図12のステップ123以降、または図13のステップ133以降の処理を実行する。
ユーザが複数存在すると判断した場合(Yes)、ユーザ認識部250は、上記撮像画像等から、ユーザが上記領域範囲A1乃至A3のうち異なる領域範囲に存在するか否かを判断する(ステップ174)。
複数のユーザが同じ領域範囲に存在すると判断した場合(No)、情報処理サーバ200及び情報処理端末100は、ユーザが1人である場合と同様、上記図8のステップ83以降、図12のステップ123以降、または図13のステップ133以降の処理を実行する(ステップ182)。
複数のユーザが異なる領域範囲に存在すると判断した場合(Yes)、ユーザ認識部250は、上記撮像画像等を基に、情報処理装置100のディスプレイが見えないユーザ、すなわち、上記領域範囲A3に位置するユーザはいるか否かを判断する(ステップ175)。
ディスプレイが見えないユーザが存在すると判断した場合(Yes)、ユーザ認識部250は、上記撮像画像等を基に、ディスプレイにタッチできるユーザは存在するか否かを判断する(ステップ176)。
ディスプレイにタッチできるユーザが存在すると判断した場合(Yes)、制御部210は、タッチできるユーザのタッチ入力用のUIを表示すると共に、ディスプレイが見えないユーザに対してビームフォーミング(特定の方向に向けた音波の送信)によって上記図13で説明したのと同様の音声案内を出力するよう指示する指示信号を情報処理端末100へ送信する。これを受けて情報処理端末100のCPU11は、タッチ入力用UIを表示するとともに、例えば情報処理端末100の後方の上記領域範囲A3に対応するスピーカのみを用いて、上記ディスプレイが見えないユーザへの指向性を有する音声案内を出力するようにスピーカを制御する(ステップ178)。これにより、ディスプレイが見えるユーザは上記音声案内によって邪魔されずに済み、ディスプレイが見えないユーザには適切な情報が提供される。
ディスプレイにタッチできるユーザが存在しないと判断した場合(No)、制御部210は、ディスプレイが見えるユーザ用に音声入力用UIを表示すると共に、ディスプレイが見えないユーザに向けて、上記音声案内を出力するよう指示する指示信号を情報処理端末100へ送信する。これを受けて情報処理端末100のCPU11は、音声入力用UIを表示すると共に上記と同様にビームフォーミングにより音声案内を出力するようにスピーカを制御する(ステップ179)。
上記ステップ175においてディスプレイが見えないユーザはいないと判断した場合(No)、制御部210は、指示ユーザ(トリガを発したユーザ)がタッチ操作可能か(領域範囲A1に存在するか)否かを判断する(ステップ177)。
ここで、指示ユーザの特定は、情報処理端末100が有する複数のマイクロフォンのうち、トリガの音声が入力されたマイクロフォンの位置と、上記撮像画像中のユーザの位置との照合によって行われてもよい。
上記指示ユーザがタッチ可能と判断した場合(Yes)、制御部210は、上記タッチ入力用UIを表示すると共に、図13の場合と同様の効果音を出力またはLEDを点灯するよう指示する指示信号を情報処理端末100へ送信する。これを受けて情報処理端末100のCPU11は、タッチ入力用UIを表示するようにタッチパネルを制御すると共に、効果音を出力するようにスピーカを制御し、またはLEDを点灯する(ステップ180)。
上記指示ユーザがタッチ不可能と判断した場合(No)、制御部210は、上記音声入力用UIを表示すると共に、上記効果音を出力またはLEDを点灯するよう指示する指示信号を情報処理地端末100へ送信する。これを受けて情報処理端末100のCPU11は、上記音声入力用UIを表示するようにタッチパネルを制御すると共に、効果音を出力するようにスピーカを制御するまたはLEDを点灯する(ステップ181)。
上記ビームフォーミングによる音声案内は、情報処理端末100のディスプレイが見えないユーザに対してのみならず、ディスプレイが見えるユーザに対しても出力されてもよい。この際、CPU11は、ディスプレイが見えないユーザに対する音声案内の内容とディスプレイが見えるユーザに対する音声案内の内容とを異ならせて出力するようにスピーカを制御してもよい。また、複数ユーザのうち特定の指示ユーザのみが操作するような場合、CPU11は、上記指示ユーザに対してのみビームフォーミングで音声案内を出力するようにスピーカを制御してもよい。
また、CPU11は、情報処理サーバ200と協働して、複数のユーザのうち、情報処理端末100に最も遠いユーザまたは最も近いユーザの位置を特定し、その位置に合わせて(その位置が領域範囲A1乃至A3のうちいずれであるかに応じて)UIを表示するようにタッチパネルを制御してもよい。
また、CPU11は、複数のユーザの位置の中間(平均)位置を特定し、その位置に合わせてUIを表示するようにタッチパネルを制御してもよい。
さらに、CPU11は、複数のユーザのうち、ディスプレイに視線を向けているユーザを特定し、当該ユーザの位置に合わせてUIを表示するようにタッチパネルを制御してもよい。
上記の例では、ユーザからの指示が明確である場合の例が示されたが、ユーザの指示が曖昧である場合もある。CPU11は、この場合の処理についてもユーザの情報処理端末100からの距離、存在する領域範囲、情報処理端末100に視線が向いているか否かを例えば撮像装置26の撮像画像から判断し、その判断結果に応じて実行してもよい。これには音楽アプリケーション以外のアプリケーションやサービスに関する処理も含まれてもよい。上記距離及び領域範囲は、情報処理端末100が有する距離センサや外部センサ(距離センサ、室内カメラ等)のセンシングデータによって判断されてもよい。
例えば、ユーザから、「(ねえエージェント)Artist A」との音声が入力された場合であって、ユーザが情報処理端末100にタッチできる位置にいたり、視線を向けていた場合には、CPU11は、図18に示すように、アーティストAの楽曲を選択させるためのリスト表示の他、アーティストAに関するウェブ検索やニュース表示を選択用メニューとして含むUIを表示してもよい。
また、ユーザの指示が曖昧な場合であって、ユーザが情報処理端末100から距離がある位置に居たり、視線を向けていない場合には、CPU11は、指示内容を音声で聞き返したり、実行処理を予測して勝手に再生処理やリスト表示処理を実行してもよい。図19は、「(ねえエージェント)アーティストA」との音声が入力された場合にCPU11が「アーティストAの楽曲の再生が指示された」と予測して実行する様子を示している。
またCPU11は、情報処理端末100の周辺音のレベルが所定値以上の場合や、テレビ等の他のAV機器が起動されているなど、センシング情報から音声入力環境が悪いと推定される場合には、より操作入力手段として確実なタッチ入力用UIを提示する距離/範囲を広げてもよい。
例えばCPU11は、タッチ入力用UIと音声入力用UIのいずれを表示するかの基準となる情報処理端末100からユーザまでの距離が、音声入力環境が良好な場合に1mであるとすると、上記所定値以上の周辺音レベルを検出した場合や他のAV機器が起動されている場合には、上記基準距離を3mに変更してもよい。これにより、音声入力用インタフェースにおける入力エラーが防止される。
また、CPU11は、上記音声入力環境に応じて、音声入力における認識感度または精度をユーザに示すためのUI、アイコン、バー等をディスプレイ上に表示してもよい。例えばCPU11は、図2の画面上部のバーやアイコン群中央のマイクアイコンの色を変更してもよい(例えば、音声入力環境が良好な場合:赤色, 不良な場合:青色)。
これにより、例えばCPU11が、音声認識精度が悪いためにタッチ入力用UIを表示した際、ユーザは、音声認識がうまく行かなかったためにタッチUIが表示されていることが直感的に理解でき、自然と、音声入力ではなく、タッチによる入力を選択することができる。
以上の説明において、CPU11は、さらに、ユーザの姿勢を考慮してUIの表示を切り替えてもよい。すなわち、CPU11は、ユーザが情報処理端末100に近い位置に存在している場合であっても、ユーザが横たわっていることが検出された場合には、音声入力用UIを表示してもよい。これにより、横たわっているユーザがわざわざ起きてタッチ操作する手間が生じるのが回避される。姿勢情報は、撮像装置26の撮像画像や外部センサ(ベッド内のセンサ、ユーザが装着しているウェアラブル端末、室内カメラ等)から取得される。
または、CPU11は、ユーザが横たわっていることが検出された場合には上記再生用UIを表示してもよい。これにより、横たわっているユーザがディスプレイも見ていないような場合には、わざわざディスプレイ上のUIを見て処理を選択する煩わしさが回避される。
上述の例において、タッチ入力用UIと音声入力用UIについては、音楽アプリケーションに予め備えられていることが前提とされていた。しかし、アプリケーションやサービスによっては、そのようなタッチ入力用UIと音声入力用UIが用意されていないことも考えられる。その場合CPU11は、サービス側でタッチ/音声入力用ではないものの、異なるパターンのUIが用意されている場合には、それらをタッチ/音声入力用に利用してもよい。
例えばCPU11は、コンテンツ数が多いUIとコンテンツ数が少ないUIとが存在する場合には、前者をタッチ入力用、後者を音声入力用に用いる。またタブレット用ページとスマートフォン用ページとが用意されている場合には、CPU11は、前者をタッチ入力用、後者を音声入力用に用いてもよい。
また、サービス側のウェブページがレスポンシブデザインにより作成されている場合には、CPU11は、仮想的にページの解像度情報を変更し、図20に示すように、高解像度のページ(同図A)をタッチ入力用UIに、低解像度のページ(同図BまたはC)を音声入力用UIに、それぞれ用いてもよい。
また、上記のような異なるパターンのUIが用意されていない場合、CPU11は、コンテンツ(画像やフォント)のサイズを変更することで、タッチ入力用UIと音声入力用UIとを区別して表示してもよい。
また、CPU11は、サービス側のページにリンクや選択肢が存在する場合、タッチ入力用UIとして用いる場合にはそのページをそのまま表示し、そのページを音声入力用UIとして用いる場合には、それらリンクや選択肢に番号等の音声指示用アイコンを付与してもよい。
これにより情報処理端末100は、タッチ入力用UIと音声入力用UIが予め備えられていないアプリケーションやサービスにおいても、入力手段に応じた適切なUIを提供することができる。
上記の例では、音楽アプリケーションにおけるUIを説明したが、他のアプリケーションにおいても同様にユーザの距離、範囲、視線等のコンテキストに応じた音声入力用/タッチ入力用UIの切替処理が実現可能である。
例として、料理アプリケーションにおけるUIにおいて表示されるUIとして、図8のステップ86乃至88、図10B乃至Dに対応するUIを図21に示す。
同図Aがタッチ入力用UI、同図Bが音声入力用UI、同図Cが再生用UIである。タッチ入力用UIにおいては、画面情報量(文字情報量)が多く、またそれと共に出力される音声情報は少ない。音声入力用UIにおいては画面情報量が少なく(文字情報が写真に置き換わる)、付随する音声情報も少ない。再生用UIにおいては、画面情報量が少なく、音声情報量が多くなっている。
上述の例において、情報処理端末100及び情報処理サーバ200は、ユーザの位置、視線、姿勢、表情の少なくとも1つとその際にユーザによって使用されたUIまたはユーザからの指示内容とを紐付けて学習することで、UIを決定してもよい。
学習手法としては、例えばニューラルネットワークやディープラーニングが用いられる。ニューラルネットワークとは、人間の脳神経回路を模倣したモデルであって、入力層、中間層(隠れ層)、出力層の3種類の層から成る。また、ディープラーニングとは、多層構造のニューラルネットワークを用いたモデルであって、各層で特徴的な学習を繰り返し、大量データの中に潜んでいる複雑なパターンを学習することができる。ディープラーニングは、例えば画像内のオブジェクトや音声内の単語を識別する用途として用いられる。
ディープラーニングが用いられる場合、その入力はユーザの位置、姿勢、表情、視線等であり、出力はタッチ入力用UI、音声入力用UI等であってもよい。
また、このような機械学習を実現するハードウェア構造としては、ニューラルネットワークの概念を組み込まれたニューロチップ/ニューロモーフィック・チップが用いられ得る。
また、機械学習の問題設定には、教師あり学習、教師なし学習、半教師学習、強化学習、逆強化学習、能動学習、転移学習等がある。例えば教師あり学習は、与えられたラベル付きの学習データ(教師データ)に基づいて特徴量を学習する。これにより、未知のデータのラベルを導くことが可能となる。
また、教師なし学習は、ラベルが付いていない学習データを大量に分析して特徴量を抽出し、抽出した特徴量に基づいてクラスタリングを行う。これにより、膨大な未知のデータに基づいて傾向の分析や未来予測を行うことが可能となる。
また、半教師学習は、教師あり学習と教師なし学習を混在させたものであって、教師あり学習で特徴量を学ばせた後、教師なし学習で膨大な訓練データを与え、自動的に特徴量を算出させながら繰り返し学習を行う方法である。
また、強化学習は、ある環境内におけるエージェントが現在の状態を観測して取るべき行動を決定する問題を扱うものである。エージェントは、行動を選択することで環境から報酬を習得し、一連の行動を通じて報酬が最も多く得られるような方策を学習する。このように、ある環境における最適解を学習することで、人間の判断力を再現し、また、人間を超える判断力をコンピュータに習得させることが可能となる。
上述の例では、切替対象のUIとしてタッチ入力用UIと音声入力用UIが示されたが、ジェスチャ入力用UI、視線入力用UI、リモコン入力用UI等、他のUIが切替表示されてもよい。例えばCPU11は、上記の例においてタッチ入力用UIに代えて視線入力用UI、音声入力用UIに代えてジェスチャ入力用UIを表示するようにタッチパネルを制御してもよい。
上述の例では、ユーザと情報処理端末100との距離、ユーザの存在する領域範囲、ユーザの視線が情報処理端末100を向いているか等の判断結果を基にUIの表示が切り替えられた。しかし、CPU11は、ユーザの聴覚や視覚に関するプロファイル情報に基づいてUIの表示を切り替えてもよい。例えばCPU11は、プロファイル情報から、認識したユーザが聴覚障害を有すると判断した場合にはタッチ入力用UIを表示し、ユーザが聴覚障害を有さないと判断した場合には音声入力用UIを表示するようにタッチパネルを制御してもよい。またCPU11は、認識したユーザが聴覚障害を有すると判断した場合には、上記の例において音声入力用UIに代えてジェスチャ入力用UIや視線入力用UI、またはリモコン入力用UIを表示するようにタッチパネルを制御してもよい。
<第2実施形態>
次に、本技術の第2実施形態について説明する。本実施形態において上記第1実施形態と同様の機能及び構成を有する箇所について同一の符号を付し、重複する説明は省略又は簡略化する。
上述の実施形態では、音楽アプリケーションにおける楽曲再生のためのUIが、ユーザコンテキストに応じて変更される処理が示された。ところで、料理レシピや電子書籍等のコンテンツは、音楽や動画等のメディアコンテンツと異なり、再生後にユーザがページを進める等の操作が必要となる(Step-by-Step)。
本実施形態では、ユーザ状態(位置/姿勢/視線/表情等)、ユーザプロファイルまたはユーザ環境情報を含むユーザコンテキスト情報、または、他の装置から収集されたセンシング情報に基づいて、コンテンツが有する複数の再生ステップの切替を制御する処理について、料理アプリケーション(レシピ再生システム)を例に説明する。
料理アプリケーションは、例えばCook padや、Allrecipes.comのようなユーザ投稿型サービスからインターネットを介してレシピ、画像、コンテンツ等の情報をダウンロードし、上記再生ステップの切替を制御しながら表示するものであってもよいし、または、それら情報を上記再生ステップの切替を制御しながらストリーミング再生するものであってもよい。
図22は、本実施形態に係るレシピ再生システムにおけるレシピの再生処理の流れについて説明した図である。
同図Aに示すように、ユーザは図2に示したホーム画面から、音声入力によって料理アプリケーションを起動して、特定の料理のレシピ(たとえばオムレツ)の検索を指示する。
情報処理端末100のCPU11は、当該音声入力を認識すると、同図Bに示すように、該当する料理のレシピの検索結果をディスプレイに表示するとともに、検索結果数を音声によってユーザに知らせる。
ユーザは、当該検索結果の中から、同図Cに示すように、音声入力によって特定のレシピを「本日のメニュー」へ追加することを指示する。
CPU11は、当該音声入力を認識すると、上記レシピを上記「本日のメニュー」に追加したページをディスプレイに表示すると共に、その追加の旨及び各レシピの調理時間を音声によってユーザに知らせる。調理時間は、レシピをサービスへ投稿するユーザが入力してもよいし、実際にレシピを作ったユーザが投稿して追加的に登録されてもよい。また、サービス側が、レシピを再生した複数のユーザの所要時間を記録し、その平均を出力してもよい。
この際、CPU11は、複数のレシピについて「一品ずつ料理」「まとめて料理」を選択させるためのボタンも表示する。「一品ずつ料理」とは、一品ずつ料理を作成するモードであり、調理する料理の順序は、情報処理端末100が提案する(ユーザ選択も可)。「まとめて料理」とは、複数選択されたレシピをまとめて料理する手順を情報処理端末100が提示するモードである。本実施形態では、同図Eに示すように、「まとめて料理」がユーザから音声入力により指示されたものとする。
「まとめて料理」に関しては既存の手法が用いられてもよい。すなわち、CPU11は、レシピ内に記載の作業(切る、炒める、煮る等)や人数、ユーザプロファイル内の作業環境(コンロ数、鍋や包丁の数等)に基づいて、時間を最小にする最適化問題を解く。
CPU11は、上記ユーザからのレシピ検索指示に代えて、冷蔵庫内の食材をセンシングデータとして取得して、当該食材を含むレシピをユーザに提案してもよい。この場合、冷蔵庫にセンサ(カメラ等)及び送信機が設けられ、センサで検知した食材に関する情報が送信機によりセンシングデータとして情報処理端末100へ送信される。
図23は、上記レシピ再生システムにおけるレシピの調理開始前の料理アプリケーションの画面について説明した図である。
情報処理端末100は、料理開始前に、例えば同図破線部分に示すように、材料準備等の通知メッセージを表示する。通知メッセージ例としては以下のようなものが想定される。
・レシピデータとユーザプロファイルを比較し、レシピデータの中に、ユーザプロファイルに登録されているアレルギー食品が含まれている場合、CPU11は警告をディスプレイに表示する。当該警告は警告音または警告メッセージとしてスピーカから出力されてもよい。
・冷蔵庫や棚に代替材料があることがセンシングデータから検出された場合、CPU11は、当該代替食材を提案する(例:大豆→ひよこ豆。)。
・CPU11は、情報処理端末100にインストールされているヘルスケアアプリから運動情報やダイエット情報を取得して、レシピのカロリー情報が所定値を上回っている場合には、警告をディスプレイに表示してもよい。当該警告は警告音または警告メッセージとしてスピーカから出力されてもよい。
・CPU11は、冷蔵庫等の食材の中でレシピの食材から不足している材料を、EC(Electronic Commerce)サイトのカート/ウィッシュリストに追加するか提案してもよい。
・CPU11は、家族ユーザの所在情報を参照して、家族ユーザが外出していることが検出された場合は、そのユーザに食材を買うように、情報処理端末100からそのユーザのスマートフォン等の携帯機器へメッセージを送るか確認してもよい。そしてCPU11は、当該買い物が家族ユーザに許可された場合、そのユーザの推定帰宅時刻に合わせてレシピの順序を変更するようにしてもよい。
次に、レシピ再生開始前の機能として、調理時刻の設定処理について説明する。
ユーザから調理完成時刻の指定があった際、CPU11、調理開始時刻の変更を提案してもよい。例えばCPU11は、ユーザが希望する調理完成時刻と推定調理時間を比較して、ユーザが所望する時刻よりも早く完成してしまう場合、適切な調理開始時刻をユーザに提案しても良い。
他にも、上記まとめてレシピ作成においては、CPU11は、最短調理時間ではなく、ユーザが所望する時刻と近くなるように調理時間の最適化を行ってもよい。
また、レシピが動画コンテンツの場合は、CPU11は、動画再生速度を調整することで、調理完成時刻を調整するようにしてもよい。
また、調理終了予定時刻がユーザの所望する調理完成時刻を過ぎてしまうと判断した場合、CPU11は、より短い調理時刻のレシピを提案するようにしてもよい。
またCPU11は、外出者の位置情報および過去の行動履歴情報を取得して、推定帰宅時刻に基づいて、ユーザへ調理開始時刻を提示してもよい。
またCPU11は、ユーザの過去のレシピ再生回数に応じて、経験値(Exp.)を設定して、レベルを定め、メニュー検索時に、ユーザレベルに応じたメニューを提示してもよい。図24は、当該レシピの提案画面の例を示した図であり、経験値(Exp.)が325であるユーザに応じたメニューが提案されている。
またCPU11は、ユーザが過去に料理したレシピ情報に応じて、レシピを提示してもよい。例えば、レシピ毎に、使用した材料や作業(炒める、切る)の情報が情報処理サーバ200に記憶されている場合、それらに応じて、例えばユーザの使用頻度の高い食材や調理法を使ったレシピを提案してもよい。
次に、レシピデータについて説明する。図26は、本実施形態における動画コンテンツを用いたレシピデータの例を示した図である。
同図に示すように、レシピデータは、レシピが有する各再生ステップ名、各再生ステップの動画の開始時刻、各再生ステップに対応する調理工程の内容、当該調理工程に含まれるユーザの作業、材料、数量、使用器具に関するデータを有する。
これらのうち、作業、材料、数量、器具に関するデータは、ユーザが設定してもよい。これに代えて、ステップ名及び内容は、ユーザが設定して、動画時刻、作業、材料、数量、器具については、動画や内容からシステム(情報処理端末100または情報処理サーバ200)が推定して設定してもよい。
次に、レシピ再生時における情報処理端末100及び情報処理サーバ200の動作について説明する。図25は、情報処理端末100及び情報処理サーバ200によるレシピの再生ステップの切替処理の例を示した図である。
同図Aに示すように、再生されるレシピは、複数のステップを有する動画コンテンツ(レシピ動画)として構成されて情報処理サーバ200上に記憶されており、ステップ毎にTTS(Timestamped Transport Stream)によって再生される。
当該レシピ動画においては、各ステップ(の開始時)が動画コンテンツ上の再生時刻と紐づけてマーキングされている。当該マーキングは、投稿者やサービス利用者が設定してもよいし、サービス利用者の一時停止が多い箇所を情報処理サーバ200が解析して自動的に設定してもよい。また情報処理サーバ200がレシピ動画を解析して、自動的にマーキングしてもよい。
同図Aに示すように、レシピ動画は、ステップ単位で再生され、次のマーキングされている再生位置(次のステップの開始時刻)まで再生されると、動画が自動的に一時停止するようになっている。
そして、CPU11は、同図B及びCに示すように、ユーザから切替トリガを取得すると、レシピ動画の次のステップを再生する。切替トリガの認識は、情報処理サーバ200の制御部210によって実行され、処理結果が情報処理端末100へ送信される。
また、レシピ動画の再生画面の例えば左下には、通知領域として、ユーザへ情報処理端末100からの通知を表示する領域が設けられている。また当該通知領域への表示に加えて、同内容が音声として出力されてもよい。
通知内容の例として、同図Aに示すように、ユーザの作業を情報処理サーバ200が解析して、アドバイスを生成することが挙げられる。当該アドバイスは、情報処理サーバ200の制御部210が、撮像装置26からの入力を解析して生成したり(混ぜ方が足りない、野菜のカットが大きすぎる等)、調理器具から取得した情報をもとに生成してもよい(火力が弱いです、炒めすぎです)。
また、料理アプリケーション以外のアプリケーションやサービスに対するユーザからの指示があった際(例えば、音楽再生、ニュース再生等)、CPU11は、現在行っている調理作業の情報を用いて当該指示に対応する処理に反映させてもよい。例えばユーザから、「おすすめの音楽を再生して」といった音声指示があった際に、CPU11は、情報処理サーバ200の制御部210と協働して、「オムレツがタイトルに入っている曲」を検索して再生したり、「残り調理時間と再生時間が近いプレイリスト」を検索して再生したりしてもよい。これによりCPU11は、調理中のユーザをよりリラックスさせたりユーザに調理に有益な情報を与えたりすることができる。
また、上記再生ステップの切替トリガとしては、意図的なユーザからの指示によるものと、CPU11が判断して自動で切り替えるものとがある。
前者の例としては、「次おしえて」「Next」「Go」「OK」といった音声指示が挙げられる。
また、CPU11及び制御部210は、ユーザの指示としてユーザのジェスチャや視線をカメラから認識してもよい。ジェスチャ例としては、スワイプ動作、所定のハンドサイン(グッドポーズ等)、まばたき等が挙げられる。誤指示防止のため、CPU11及び制御部210は、音声とジェスチャ(または視線)の両方が検出された場合のみ、次の再生ステップに切り替えてもよい。
後者の例としては、CPU11及び制御部210は、カメラ画像からユーザの行動や食材の状態を認識し、ユーザが現在の再生ステップに対応する調理作業を完了したと判断した場合に再生ステップを切り替えてもよい。
また、他のデバイス(コンロ、スマート包丁、ウェアラブル端末等)からのセンシング情報を基にCPU11及び制御部210が現在の再生ステップに対応する調理作業が完了したと判断した場合に再生ステップを切り替えてもよい。
例えば、再生ステップにおけるレシピからの指示が「○分間加熱してください」であった場合、コンロが、重さで鍋が置かれていることを認識し、○分間の加熱を検知したことをCPU11及び制御部210が検知した場合、CPU11は再生ステップを次に切り替える。
また、再生ステップにおけるレシピからの指示が「みじん切りをしてください」であった場合、スマート包丁内のセンサがみじん切り(垂直方向の頻繁な移動)を検知し、その後、みじん切りを検知しなくなったこと(または包丁が置かれたこと)が、センシング情報により検知された場合、CPU11は再生ステップを次に切り替える。
また、CPU11は、ユーザが身に付けているウェアラブル端末のセンシング情報に基づいて料理関連の行動認識を行ってもよい。例えばCPU11及び制御部210は、スマートリストバンドに含まれる加速度センサ、ジャイロセンサの情報を取得し、それに基づいて、料理行動を学習(切る、炒めもの、混ぜる等)して、ユーザの行動を認識し、各調理工程に含まれる料理行動が終了したと判断した場合に再生ステップを次に切り替える。
このように、CPU11はユーザから明示的な指示を受けなくとも、ユーザの行動またはセンシング情報によって認識可能な食材の状態から調理工程の終了を判断して次の調理工程の再生ステップへ切り替えることができる。
図28は、当該再生ステップの切替処理の流れを示したフローチャートである。
同図に示すように、まずCPU11は、上述のようにユーザの検索指示等に基づいて情報処理サーバ200からレシピ情報を取得する(ステップ281)。
続いてCPU11及び制御部210は、上述したように、調理時間や食材等、レシピの最適化処理を実行する(ステップ282)。
続いてCPU11は、レシピ動画のうちステップN(N=1)を再生する(ステップ283)。
続いてCPU11は、ステップNの再生が終了するとレシピ動画を一時停止する(ステップ284)。
続いてCPU11及び制御部210は、上記切替トリガを受け付けたか否かを判断する(ステップ285)。
当該切替トリガの認識は、上述のように主に情報処理サーバ200の制御部210によって実行される。制御部210は、切替トリガを認識すると、再生ステップを切替を指示するステップ切替情報を生成し、情報処理端末100へ送信する。
切り替えトリガを受け付けた(ステップ切替情報を受信した)と判断した場合(Yes)、CPU11は、レシピ動画に次のステップが有るか否かを判断する(ステップ286)。
次のステップが有ると判断した場合(Yes)、CPU11は、上記Nをインクリメントして再生ステップを次のステップに進めて(ステップ287)、上記ステップ283以降の処理を、最終再生ステップまで繰り返す。
切替トリガの認識は情報処理端末100のCPU11によって実行されてもよく、この場合、CPU11が、切替トリガを認識し、次のステップを認識すると、上記ステップ切替情報を生成する。この場合のステップ切替情報は、料理アプリケーションに対するレシピ動画の次のステップへの切替指示となる。
上記フローチャートでは、CPU11は、レシピ動画の再生、一時停止、再生再開によって再生ステップを切り替えたが、例えばユーザの指示があった場合にはレシピ動画を所定時間分または次の再生ステップまで早送りしたり、所定時間分または前の再生ステップへ巻き戻ししたりしてもよい。
次に、情報処理端末100及び情報処理サーバ200による、レシピ動画の再生以外のレシピに関する機能について説明する。図29は、当該機能について説明した図である。
情報処理端末100は、ユーザ指示がなくても調理工程に含まれる処理を自動実行してもよい。これによりユーザの指示の手間及び調理の手間が省かれる。
すなわち、CPU11及び制御部210は、レシピのステップ内容を解析して、情報処理端末100が処理可能な作業が含まれていると判断した場合に、自ら調理器具を制御したり、ユーザへメッセージを通知したりしてもよい。
具体的には、同図Aに示すように、レシピに「3分間煮込みます」と記載されている場合、CPU11は、タイマーに制御信号を送信して、「3分間タイマーをセット」する。そしてCPU11は、ユーザがコンロをつけることを認識したり、「タイマースタート」と発した場合に、上記セットしたタイマーをスタートさせる信号を送信する。
また、レシピに中火で加熱する旨の記載が含まれる場合であって、コンロから弱火または強火による加熱のセンシング情報を受信した場合、CPU11は、「火力を中火に変化させます」といった音声案内と共に、コンロを中火に制御するための信号を送信する。
またCPU11及び制御部210は、場合によって危険を伴う調理工程の場合は、自動処理前に、ユーザに処理実行を確認する。
例えば、レシピのステップに「中火で炒める」「ミキサーで刻む」といった記載があり、CPU11及び制御部210は、「コンロを中火で点火」「ミキサーをスタートする」を認識すると、「コンロ」や「ミキサー」が危険調理器具として設定されているため、自動的に処理を実行しないで、例えば「コンロを中火で点火しますか?」といった音声によりユーザへ確認する。これにより危険調理器具を用いた自動処理による危険が回避される。
またCPU11及び制御部210は、調理器具に対してユーザの注意を惹くアノテーション処理を実行してもよい。
すなわち、CPU11及び制御部210は、同図Bに示すように、レシピのステップ内容を解析して、そのステップと関連する調理器具に光や音を発せさせる。これによりCPU11は、各調理工程において使用する調理器具をユーザに容易に把握させることができる。
その際、CPU11は、調理器具自体に指示信号を送信して光/音を発させてもよいし、同図Cに示すように、調理器具の近傍の装置に指示信号を送信して光/音を発させてもよい。また。調理器具ではなく、ステップと関連する「動作/作業」を識別して、ユーザがその動作を普段行う場所の色や明るさを変化させるように指示する指示信号を照明装置へ送信することで、ユーザを当該場所へ誘導してもよい。
<変形例>
本発明は上述の実施形態にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更され得る。
上述の各実施形態において、認識、解析、DB等の機能は情報処理サーバ200の制御部210が実行していたが、その一部または全てを情報処理端末100のCPU11が実行してもよい。
上述の第1実施形態では、UIとして音声入力用のUIとタッチ入力用のUIとが示されたが、UIはこれらに限られない。例えばマウス操作用またはリモートコントロール用のUIに本技術が適用されてもよい。
上述の第2実施形態では、動画コンテンツとしてレシピ動画が示されたが、動画はこれに限られない。
<その他>
本技術は以下のような構成もとることができる。
(1)
ユーザ状態、ユーザプロファイルまたはユーザ環境情報を含むユーザコンテキスト情報に基づいて、複数のユーザインタフェースのうちユーザに提示するユーザインタフェースを決定する制御部
を具備する情報処理装置。
(2)
前記複数のユーザインタフェースは、音声入力用ユーザインタフェースとタッチ入力用ユーザインタフェースを含む、
上記(1)に記載の情報処理装置。
(3)
前記制御部は、
前記ユーザと当該情報処理装置との間の距離が所定距離以内であると判断した場合に、前記提示するユーザインタフェースとして前記タッチ入力用ユーザインタフェースを決定し、
前記距離が前記所定距離より大きいと判断した場合に、前記提示するユーザインタフェースとして前記音声入力用ユーザインタフェースを決定する
上記(2)に記載の情報処理装置。
(4)
前記制御部は、
前記ユーザの視線が当該情報処理装置を向いていると判断した場合に、前記タッチ入力用ユーザインタフェースまたは前記音声入力用ユーザインタフェースに第1の情報量を含ませ、
前記ユーザの視線が当該情報処理装置を向いていないと判断した場合に、前記タッチ入力用ユーザインタフェースまたは前記音声入力用ユーザインタフェースに前記第1の情報量よりも少ない第2の情報量を含ませる
上記(2)または(3)に記載の情報処理装置。
(5)
前記制御部は、当該情報処理装置を含む所定領域内に複数のユーザが存在すると判断した場合、前記複数のユーザのうち当該情報処理装置から最も近いまたは最も遠い位置に存在すると判断されたユーザを基準に前記提示するユーザインタフェースを決定する
上記(1)から(4)までのいずれかに記載の情報処理装置。
(6)
前記制御部は、当該情報処理装置を含む所定領域内に複数のユーザが存在すると判断した場合、前記複数のユーザのうち当該情報処理装置に視線を向けていると判断されたユーザを基準に前記提示するユーザインタフェースを決定する
上記(1)から(4)までのいずれかに記載の情報処理装置。
(7)
前記制御部は、当該情報処理装置の周囲で検出される音のレベルに応じて、前記提示するユーザインタフェースの判断に用いる前記所定距離を変更する
上記(1)から(6)までのいずれかに記載の情報処理装置。
(8)
前記制御部は、前記ユーザが横たわっていることが検出された場合、前記提示するユーザインタフェースとして前記音声入力用ユーザインタフェースを決定する
上記(2)から(8)までのいずれかに記載の情報処理装置。
(9)
ユーザ状態、ユーザプロファイルまたはユーザ環境情報を含むユーザコンテキスト情報、または、他の装置から収集されたセンシング情報に基づいて、コンテンツが有する複数の再生ステップの切替を制御するステップ切替情報を生成する制御部
を具備する情報処理装置。
(10)
前記コンテンツは、前記再生ステップと再生時刻とが関連付けられた動画コンテンツであり、
前記制御部は、前記ステップ切替情報及び前記再生時刻に基づいて、前記動画コンテンツの再生を制御する
上記(9)に記載の情報処理装置。
(11)

前記制御部は、音声入力部から入力された音声から所定のワードを認識した場合、または、撮像部から入力された画像から所定のジェスチャを認識した場合に、前記ステップ切替情報を生成する
上記(9)または(10)に記載の情報処理装置。
(12)
前記コンテンツは、調理レシピを前記再生ステップに対応する調理工程毎に説明したレシピコンテンツである、
上記(9)または(11)に記載の情報処理装置。
(13)
前記制御部は、前記センシング情報に基づいてユーザの行動を認識し、現在の再生ステップに対応する工程が終了したと判断した場合に前記ステップ切替情報を生成する
上記(9)から(12)までのいずれかに記載の情報処理装置。
(14)
前記制御部は、前記センシング情報に基づいて、前記調理レシピに含まれる食材の状態を認識し、現在の再生ステップに対応する調理工程が終了したと判断した場合に前記ステップ切替情報を生成する
上記(12)または(13)に記載の情報処理装置。
(15)
前記制御部は、前記レシピコンテンツの各調理工程を解析し、各調理工程の到来時に、当該各調理工程に関連するユーザの調理器具または当該調理器具近傍の装置に、所定のアノテーション情報の出力を指示する指示信号を送信する
上記(12)から(14)までのいずれかに記載の情報処理装置。
(16)
前記制御部は、前記レシピコンテンツの各調理工程を解析し、少なくともいずれかの調理工程の少なくとも一部の実施を指示する指示信号を、当該調理工程で使用されるユーザの調理器具へ送信する
上記(12)から(16)までのいずれかに記載の情報処理装置。
(17)
ユーザ状態、ユーザプロファイルまたはユーザ環境情報を含むユーザコンテキスト情報を取得し、
前記ユーザコンテキスト情報に基づいて、複数のユーザインタフェースのうちユーザに提示するユーザインタフェースを決定する
情報処理方法。
(18)
ユーザ状態、ユーザプロファイルまたはユーザ環境情報を含むユーザコンテキスト情報、または、他の装置から収集されたセンシング情報を取得し、
前記ユーザコンテキスト情報または前記センシング情報に基づいて、コンテンツが有する複数の再生ステップの切替を制御するステップ切替情報を生成する
情報処理方法。
(19)
情報処理装置に、
ユーザ状態、ユーザプロファイルまたはユーザ環境情報を含むユーザコンテキスト情報を取得するステップと、
前記ユーザコンテキスト情報に基づいて、複数のユーザインタフェースのうちユーザに提示するユーザインタフェースを決定するステップと
を実行させるプログラム。
(20)
情報処理装置に、
ユーザ状態、ユーザプロファイルまたはユーザ環境情報を含むユーザコンテキスト情報、または、他の装置から収集されたセンシング情報を取得するステップと、
前記ユーザコンテキスト情報または前記センシング情報に基づいて、コンテンツが有する複数の再生ステップの切替を制御するステップ切替情報を生成するステップと
を実行させるプログラム。

Claims (8)

  1. ユーザ状態、ユーザプロファイルまたはユーザ環境情報を含むユーザコンテキスト情報に基づいて、複数のコンテンツから再生するコンテンツを選択するための複数のユーザインタフェースのうちユーザに提示するユーザインタフェースを決定する制御部
    を具備する情報処理装置であって
    前記制御部は、
    前記ユーザと当該情報処理装置との間の距離が所定距離以内であると判断した場合に、前記提示するユーザインタフェースとしてタッチ入力用ユーザインタフェースを決定し、
    前記距離が前記所定距離より大きいと判断した場合に、前記提示するユーザインタフェースとして音声入力用ユーザインタフェースを決定し、
    前記距離が判断できなかった場合に、前記複数のコンテンツのうちいずれかのコンテンツを再生させる
    情報処理装置。
  2. 前記制御部は、
    前記ユーザの視線が当該情報処理装置を向いていると判断した場合に、前記タッチ入力用ユーザインタフェースまたは前記音声入力用ユーザインタフェースに第1の情報量を含ませ、
    前記ユーザの視線が当該情報処理装置を向いていないと判断した場合に、前記タッチ入力用ユーザインタフェースまたは前記音声入力用ユーザインタフェースに前記第1の情報量よりも少ない第2の情報量を含ませる
    請求項に記載の情報処理装置。
  3. 前記制御部は、当該情報処理装置を含む所定領域内に複数のユーザが存在すると判断した場合、前記複数のユーザのうち当該情報処理装置から最も近いまたは最も遠い位置に存在すると判断されたユーザを基準に前記提示するユーザインタフェースを決定する
    請求項に記載の情報処理装置。
  4. 前記制御部は、当該情報処理装置を含む所定領域内に複数のユーザが存在すると判断した場合、前記複数のユーザのうち当該情報処理装置に視線を向けていると判断されたユーザを基準に前記提示するユーザインタフェースを決定する
    請求項に記載の情報処理装置。
  5. 前記制御部は、当該情報処理装置の周囲で検出される音のレベルに応じて、前記提示するユーザインタフェースの判断に用いる前記所定距離を変更する
    請求項に記載の情報処理装置。
  6. 前記制御部は、前記ユーザが横たわっていることが検出された場合、前記提示するユーザインタフェースとして前記音声入力用ユーザインタフェースを決定する
    請求項に記載の情報処理装置。
  7. 情報処理装置による情報処理方法であって、
    ーザと当該情報処理装置との間の距離を示す情報を取得し、
    前記ユーザと当該情報処理装置との間の距離が所定距離以内であると判断した場合に、複数のコンテンツから再生するコンテンツを選択するための複数のユーザインタフェースのうちユーザに提示するユーザインタフェースとして、タッチ入力用ユーザインタフェースを決定し、
    前記距離が前記所定距離より大きいと判断した場合に、前記提示するユーザインタフェースとして音声入力用ユーザインタフェースを決定し、
    前記距離を示す情報が取得できなかった場合に、前記複数のコンテンツのうちいずれかのコンテンツを再生させる
    情報処理方法。
  8. 情報処理装置に、
    ーザと当該情報処理装置との間の距離を示す情報を取得するステップと、
    前記ユーザと当該情報処理装置との間の距離が所定距離以内であると判断した場合に、複数のコンテンツから再生するコンテンツを選択するための複数のユーザインタフェースのうちユーザに提示するユーザインタフェースとして、タッチ入力用ユーザインタフェースを決定するステップと、
    前記距離が前記所定距離より大きいと判断した場合に、前記提示するユーザインタフェースとして音声入力用ユーザインタフェースを決定するステップと、
    前記距離を示す情報が取得できなかった場合に、前記複数のコンテンツのうちいずれかのコンテンツを再生させるステップと
    を実行させるプログラム。
JP2020532268A 2018-07-25 2019-07-08 情報処理装置、情報処理方法及びプログラム Active JP7444060B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862703145P 2018-07-25 2018-07-25
US62/703,145 2018-07-25
PCT/JP2019/026942 WO2020022039A1 (ja) 2018-07-25 2019-07-08 情報処理装置、情報処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2020022039A1 JPWO2020022039A1 (ja) 2021-08-02
JP7444060B2 true JP7444060B2 (ja) 2024-03-06

Family

ID=69179545

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020532268A Active JP7444060B2 (ja) 2018-07-25 2019-07-08 情報処理装置、情報処理方法及びプログラム

Country Status (4)

Country Link
US (2) US10877781B2 (ja)
JP (1) JP7444060B2 (ja)
CN (1) CN112424731B (ja)
WO (1) WO2020022039A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2020148978A1 (ja) * 2019-01-15 2021-12-02 ソニーグループ株式会社 情報処理装置及び情報処理方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002084989A (ja) 2000-09-12 2002-03-26 Toshiba Corp 調理情報提供装置
JP2010067104A (ja) 2008-09-12 2010-03-25 Olympus Corp デジタルフォトフレーム、情報処理システム、制御方法、プログラム及び情報記憶媒体
WO2012063560A1 (ja) 2010-11-10 2012-05-18 日本電気株式会社 画像処理システム、画像処理方法、及び画像処理プログラムを記憶した記憶媒体
JP2016126704A (ja) 2015-01-08 2016-07-11 コニカミノルタ株式会社 情報処理装置、入力手段選択方法、およびコンピュータプログラム
JP2016139356A (ja) 2015-01-29 2016-08-04 日本電信電話株式会社 調理支援装置、調理支援方法、及び調理支援プログラム
JP2018049448A (ja) 2016-09-21 2018-03-29 京セラ株式会社 電子機器、プログラムおよび制御方法
JP2018509014A (ja) 2014-12-22 2018-03-29 マイクロソフト テクノロジー ライセンシング,エルエルシー デバイスにわたる、デジタルパーソナルアシスタントエージェントの調整
WO2018066190A1 (ja) 2016-10-07 2018-04-12 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5263088B2 (ja) * 2009-08-31 2013-08-14 ソニー株式会社 情報処理装置、プログラム、および情報処理システム
US9104307B2 (en) * 2011-05-27 2015-08-11 Microsoft Technology Licensing, Llc Multi-application environment
US20130147793A1 (en) * 2011-12-09 2013-06-13 Seongyeom JEON Mobile terminal and controlling method thereof
US8990274B1 (en) * 2012-05-10 2015-03-24 Audible, Inc. Generating a presentation associated with a set of instructions
US9159116B2 (en) * 2013-02-13 2015-10-13 Google Inc. Adaptive screen interfaces based on viewing distance
US20140359499A1 (en) * 2013-05-02 2014-12-04 Frank Cho Systems and methods for dynamic user interface generation and presentation
KR20150081012A (ko) * 2014-01-03 2015-07-13 삼성전자주식회사 사용자 단말 장치 및 그 제어 방법
EP3105666B1 (en) * 2014-02-10 2020-04-22 Samsung Electronics Co., Ltd. User terminal device and displaying method thereof
KR102119843B1 (ko) * 2014-02-10 2020-06-05 삼성전자주식회사 사용자 단말 장치 및 이의 디스플레이 방법
US20180158288A1 (en) * 2014-04-10 2018-06-07 Twin Harbor Labs Llc Methods and apparatus for notifying a user of the operating condition of a household appliance
US9788039B2 (en) * 2014-06-23 2017-10-10 Google Inc. Camera system API for third-party integrations
KR20160015843A (ko) * 2014-07-31 2016-02-15 삼성전자주식회사 디스플레이 장치 및 그 디스플레이 장치를 제어하는 방법
US20160085430A1 (en) * 2014-09-24 2016-03-24 Microsoft Corporation Adapting user interface to interaction criteria and component properties
EP3214555B1 (en) * 2014-10-27 2019-12-25 Sony Corporation Information processing device, information processing method, and computer program for context sharing
CN105677149B (zh) * 2015-12-31 2020-03-24 联想(北京)有限公司 电子设备和显示处理方法
US20170348854A1 (en) * 2015-12-16 2017-12-07 Mbl Limited Robotic manipulation methods and systems for executing a domain-specific application in an instrumented environment with containers and electronic minimanipulation libraries
US11507064B2 (en) * 2016-05-09 2022-11-22 Strong Force Iot Portfolio 2016, Llc Methods and systems for industrial internet of things data collection in downstream oil and gas environment
US20180136979A1 (en) * 2016-06-06 2018-05-17 Sitting Man, Llc Offer-based computing enviroments
KR102626633B1 (ko) * 2016-11-17 2024-01-18 엘지전자 주식회사 단말기 및 그 제어 방법
US20180176662A1 (en) * 2016-12-20 2018-06-21 Frymaster L.L.C. Data communication apparatus for a kitchen appliance
US20180184152A1 (en) * 2016-12-23 2018-06-28 Vitaly M. Kirkpatrick Distributed wireless audio and/or video transmission
US11297470B2 (en) * 2017-01-17 2022-04-05 Qualcomm Incorporated User location aware smart event handling

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002084989A (ja) 2000-09-12 2002-03-26 Toshiba Corp 調理情報提供装置
JP2010067104A (ja) 2008-09-12 2010-03-25 Olympus Corp デジタルフォトフレーム、情報処理システム、制御方法、プログラム及び情報記憶媒体
WO2012063560A1 (ja) 2010-11-10 2012-05-18 日本電気株式会社 画像処理システム、画像処理方法、及び画像処理プログラムを記憶した記憶媒体
JP2018509014A (ja) 2014-12-22 2018-03-29 マイクロソフト テクノロジー ライセンシング,エルエルシー デバイスにわたる、デジタルパーソナルアシスタントエージェントの調整
JP2016126704A (ja) 2015-01-08 2016-07-11 コニカミノルタ株式会社 情報処理装置、入力手段選択方法、およびコンピュータプログラム
JP2016139356A (ja) 2015-01-29 2016-08-04 日本電信電話株式会社 調理支援装置、調理支援方法、及び調理支援プログラム
JP2018049448A (ja) 2016-09-21 2018-03-29 京セラ株式会社 電子機器、プログラムおよび制御方法
WO2018066190A1 (ja) 2016-10-07 2018-04-12 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
CN112424731A (zh) 2021-02-26
US10877781B2 (en) 2020-12-29
JPWO2020022039A1 (ja) 2021-08-02
US11307877B2 (en) 2022-04-19
WO2020022039A1 (ja) 2020-01-30
CN112424731B (zh) 2024-04-12
US20200034162A1 (en) 2020-01-30
US20210081224A1 (en) 2021-03-18

Similar Documents

Publication Publication Date Title
US11620103B2 (en) User interfaces for audio media control
US11785387B2 (en) User interfaces for managing controllable external devices
AU2020203023B2 (en) Intelligent automated assistant for TV user interactions
US9674426B2 (en) Devices and methods for capturing and interacting with enhanced digital images
US9602729B2 (en) Devices and methods for capturing and interacting with enhanced digital images
JP6044079B2 (ja) 情報処理装置、情報処理方法及びプログラム
US11937021B2 (en) Camera and visitor user interfaces
CN103797440B (zh) 具有用户反馈的基于姿势的用户界面
US20170185276A1 (en) Method for electronic device to control object and electronic device
CN109120981A (zh) 信息列表展示方法、装置及存储介质
US20180088969A1 (en) Method and device for presenting instructional content
US20160357400A1 (en) Devices and Methods for Capturing and Interacting with Enhanced Digital Images
WO2022170828A1 (zh) 显示设备及数据采集方法
KR20230003649A (ko) 제어가능한 외부 디바이스들을 관리하기 위한 사용자 인터페이스
WO2021032092A1 (zh) 显示设备
KR101847200B1 (ko) 객체 제어 방법 및 시스템
US11188145B2 (en) Gesture control systems
JP7444060B2 (ja) 情報処理装置、情報処理方法及びプログラム
WO2022164644A1 (en) Displaying a contextualized widget
Zambon Mixed Reality-based Interaction for the Web of Things
CN115620193A (zh) 一种显示设备及健身视频播放方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220520

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20220520

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230605

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231031

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240123

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240205

R151 Written notification of patent or utility model registration

Ref document number: 7444060

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151