JP2017069687A

JP2017069687A - 情報処理装置及び情報処理方法並びにプログラム

Info

Publication number: JP2017069687A
Application number: JP2015191485A
Authority: JP
Inventors: 安田　亮平; Ryohei Yasuda; 亮平安田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2015-09-29
Filing date: 2015-09-29
Publication date: 2017-04-06
Also published as: WO2017056604A1; CN108028957A; CN108028957B; US20180260187A1; US10712998B2

Abstract

【課題】周囲からの情報が聴覚的又は視覚的に制限されたユーザに対する周囲からの話掛け動作を示す話掛け動作情報が特定され、ユーザと当該ユーザに話し掛けた人物とのコミュニケーションを向上する。【解決手段】情報処理装置は、周囲からの情報が聴覚的又は視覚的に制限される装置を利用しているユーザに対する、周囲からの話掛け動作を検出する検出部と、話掛け動作が検出された場合に、モニタリングされている周囲情報に基づき話掛け動作を示す話掛け動作情報を特定する特定部と、を備える。【選択図】図５

Description

本開示は、情報処理装置及び情報処理方法並びにプログラムに関する。

近年、ノイズキャンセル機能付きのヘッドホン装置又はイヤホン装置や、頭部装着型ディスプレイ（ＨＭＤ：ＨｅａｄＭｏｕｎｔｅｄＤｉｓｐｌａｙ）装置が普及してきている。これらの装置を利用するユーザは、周囲からの情報が聴覚的に又は視覚的に遮断され、容易に没入感を体験できるようになっている。一方、これらの装置を利用するユーザは、没入感を味わえる反面、周囲の人物から話し掛けられたことを認知することが困難となる。

これに対して、特許文献１には、ユーザの外部の状況を表す外部情報に基づいて、外部情報をユーザに対して通知する必要度を判断し、判断された必要度に基づいて、ユーザに対する外部情報の通知状態を切り替える技術が開示されている。かかる技術によれば、遮蔽型ＨＭＤ装置を装着しているユーザと外部の人物とがより円滑にコミュニケーションを取ることができる。

国際公開第２０１４／１５６３８８号

しかしながら、特許文献１に開示された技術では、外部情報をユーザに対して通知する必要度に応じて、外部の画像情報や音声情報がユーザに対して表示又は出力されるが、ユーザが話し掛けられた時点からの画像情報や音声情報が表示又は出力されるものではない。周囲の人物は、ユーザに一旦話し掛けた後に、ユーザがいる方向とは異なる方向を向いたり、ユーザから離れたりし得る。その場合、外部の画像情報や音声情報が表示又は出力されたとしても、誰から話し掛けられたのか分からなくなることが考えられる。これに対して、周囲の人物がユーザに話し掛けた際の、話し掛けた人物の動作が特定できれば、ユーザと当該ユーザに話し掛けた人物とのコミュニケーションがさらに向上すると考えられる。

そこで、本開示では、周囲からの情報が聴覚的又は視覚的に制限されたユーザに対する周囲からの話掛け動作を示す話掛け動作情報が特定され、ユーザと当該ユーザに話し掛けた人物とのコミュニケーションを向上可能な、新規かつ改良された情報処理装置及び情報処理方法又はプログラムを提案する。

本開示によれば、周囲からの情報が聴覚的又は視覚的に制限される装置を利用しているユーザに対する、周囲からの話掛け動作を検出する検出部と、話掛け動作が検出された場合に、モニタリングされている周囲情報に基づき話掛け動作を示す話掛け動作情報を特定する特定部と、を備える、情報処理装置が提供される。

また、本開示によれば、周囲からの情報が聴覚的又は視覚的に制限される装置を利用しているユーザに対する、周囲からの話掛け動作を検出することと、話掛け動作が検出された場合に、モニタリングされている周囲情報に基づき話掛け動作を示す話掛け動作情報を特定することと、を含む、情報処理方法が提供される。

また、本開示によれば、コンピュータに、周囲からの情報が聴覚的又は視覚的に制限される装置を利用しているユーザに対する、周囲からの話掛け動作を検出する機能と、話掛け動作が検出された場合に、モニタリングされている周囲情報に基づき話掛け動作を示す話掛け動作情報を特定する機能と、を実現させるためのプログラムが提供される。

以上説明したように本開示によれば、周囲からの情報が聴覚的又は視覚的に制限されたユーザに対する周囲からの話掛け動作を示す話掛け動作情報が特定され、ユーザと当該ユーザに話し掛けた人物とのコミュニケーションの向上を図ることができようになる。

なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

第１の実施の形態にかかる情報処理システムの使用状態を示す説明図である。同実施形態にかかる情報処理システムの構成の一例を示す機能ブロック図である。同実施形態にかかる情報処理装置の統合制御部の構成の一例を示す機能ブロック図である。人物がユーザを見ているか否かを判定する方法の例について示す説明図である。特定部が特定する話掛け動作情報の一覧を示す図である。画像表示を変化させる例を示す説明図である。話し掛けている人物がいる方向をアイコンで示した説明図である。話し掛けている人物がいる方向をレーダマップで示した説明図である。レーダマップの別の例を示す説明図である。発話内容のテキストメッセージを表示した例を示す説明図である。同実施形態にかかる情報処理装置による処理を示すフローチャートである。音声情報のタイムシフト再生処理を示す説明図である。音声情報のタイムシフト再生処理を示すフローチャートである。同実施形態の第１の変形例にかかる情報処理装置の統合制御部の構成の一例を示す機能ブロック図である。話掛け履歴情報の例を示す説明図である。動画シーンを再生している様子を示す説明図である。同実施形態の第２の変形例にかかる情報処理装置の統合制御部の構成の一例を示す機能ブロック図である。ユーザへの通知動作が許可されている状態を周囲の人物へ通知する様子を示す説明図である。ユーザへの通知動作が禁止されている状態を周囲の人物へ通知する様子を示す説明図である。ユーザの状態を周囲の人物へ通知する様子を示す説明図である。同実施形態の第４の変形例にかかる情報処理システムの使用状態を示す説明図である。同実施形態の第４の変形例にかかる情報処理システムの構成の一例を示す機能ブロック図である。第２の実施の形態にかかる情報処理システムの構成の一例を示す機能ブロック図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

なお、説明は以下の順序で行うものとする。
１．第１の実施の形態
１−１．情報処理システムの概要
１−２．情報処理システムの構成
１−３．情報処理装置
１−４．装置による処理
１−５．第１の実施の形態のまとめ
１−６．変形例
２．第２の実施の形態
３．第３の実施の形態

＜＜１．第１の実施の形態＞＞
＜１−１．情報処理システムの概要＞
まず、本開示の第１の実施の形態にかかる情報処理装置１１０を備える情報処理システムの全体概要について説明する。図１は、本実施形態にかかる情報処理システムの使用状態を示す説明図である。かかる情報処理システムでは、周囲からの情報が聴覚的に又は視覚的に制限される装置（以下、「没入体感装置」ともいう。）を装着したユーザＡがいる空間の画像及び音声が、撮像部１０ａ，１０ｂ及び図示しない集音部を用いてモニタリングされている。ここでは、没入体感装置として、ＨＭＤ装置１００及びノイズキャンセル機能付きのヘッドホン装置３０が示されている。

また、ＨＭＤ装置１００の情報処理装置１１０は、例えば、周囲の人物ＸによるユーザＡへの話掛け動作を検出した場合には、モニタリングされている画像情報及び音声情報に基づいて、当該話掛け動作を示す情報（以下、「話掛け動作情報」という。）を特定する。そして、情報処理装置１１０は、特定された話掛け動作情報に基づいてＨＭＤ装置１００及びヘッドホン装置３０のうちの少なくとも一方を制御し、ユーザＡに対して話し掛けられていることを通知する。これにより、没入体験をしているユーザＡが、周囲からの話掛け動作を認識することができる。

なお、以下、撮像装置等により撮像されるユーザＡの周囲の画像を「周囲画像」ともいい、集音部等により集音されるユーザＡの周囲の音声を「周囲音声」ともいう。また、話掛け動作を示す情報である「話掛け動作情報」とは、ユーザＡがいる空間に備えられた各種の装置によって検知され、情報処理装置１１０によって取得可能な情報のうち、ユーザＡの周囲の人物Ｘ，Ｙ，ＺがユーザＡに対して話し掛けているときの動きや発話を内容に含む情報を意味する。

＜１−２．情報処理システムの構成＞
次に、本実施形態にかかる情報処理システムの構成の一例について説明する。図２は、情報処理システムの構成の一例を示す機能ブロック図である。本実施形態にかかる情報処理システムは、撮像装置１０と、ヘッドホン装置３０と、ＨＭＤ装置１００とを備えている。

［１−２−１．撮像装置］
撮像装置１０は、撮像部１０ａ，１０ｂと、制御部１２と、通信部１４とを備え、没入体感装置を装着しているユーザＡの周囲をモニタリングする。通信部１４は、ＨＭＤ装置１００の情報処理装置１１０と通信を行う。具体的には、通信部１４は、制御部１２から提供される視線情報を情報処理装置１１０に送信する。視線情報は、情報処理装置１１０において、ユーザＡの周囲に、ユーザＡの方向を向いている人物がいないかを判断するために用いられる。

制御部１２は、撮像装置１０の動作を制御する。具体的に、制御部１２は、あらかじめ設定された時間間隔で撮像部１０ａ，１０ｂに撮像を指示し、撮像部１０ａ，１０ｂの撮像により得られる周囲画像の情報である周囲画像情報に基づいて視線情報を生成する。そして、制御部１２は、通信部１４に、生成した視線情報を周囲画像情報とともに情報処理装置１１０に向けて送信する。例えば、制御部１２は、撮像部１０ａ，１０ｂから提供される周囲画像に含まれる人物を解析することによって、人物の視線を検出し、検出した視線を示す視線情報を生成する。なお、視線の検出には、例えば、虹彩もしくは瞳孔の位置又は人体の頭部の動き等に基づく視線検出技術等の一般的な技術が用いられる。

撮像部１０ａ，１０ｂは、制御部１２の指示に基づいて撮像を行う。具体的に、撮像部１０ａ，１０ｂは、ユーザＡの周囲を動画又は静止画の形式で撮像し、撮像により得られる周囲画像を制御部１２に提供する。例えば、撮像部１０ａ，１０ｂは、光を集光する撮影レンズ及びズームレンズなどの撮像光学系、及びＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）又はＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）等の信号変換素子を備えることができる。また、撮像部１０ａ，１０ｂは、ＩＲ（Ｉｎｆｒａｒｅｄ）カメラであってもよく、上記の可視光カメラとＩＲカメラとの組み合わせであってもよい。

本実施形態の情報処理システムでは、２台の撮像部１０ａ，１０ｂを備えるが、撮像部の数は２台に限られない。撮像部は１台であってもよいし、２台以上であってもよい。また、撮像部１０ａ，１０ｂは、壁等に固定されたものであってもよく、移動式のものであってもよい。この場合、移動式の撮像部とは、ユーザＡあるいは周囲の人物Ｘ，Ｙ，Ｚが頭部等に装着して利用するカメラも含み得る。

なお、制御部１２は、撮像部１０ａ，１０ｂにより撮像された周囲画像情報に基づいて、ユーザＡの周囲にいる人物Ｘ，Ｙ，Ｚの視線の代わりに顔向きを検出し、当該顔向き情報を周囲画像情報とともに情報処理装置１１０に送信してもよい。顔向きの検出には、例えば、顔面の構成要素の特徴点に基づく顔向き検出技術等の一般的な技術が用いられる。

［１−２−２．没入体感装置］
没入体感装置としてのＨＭＤ装置１００は、ゴーグル状の形状を有する表示装置５０を装着したユーザＡに対して、周囲からの情報を視覚的に制限した状態で、ユーザＡの眼の前で各種の視覚的な情報を表示する。ユーザＡは、同時に、ヘッドホン装置３０を装着し、周囲からの情報を聴覚的にも制限された状態で、提供されるコンテンツの音声であるコンテンツ音声を視聴することにより、没入体験をすることができる。ＨＭＤ装置１００は、表示装置５０と情報処理装置１１０とを備える。

表示装置５０は、ゴーグル状の形状の内側に位置し、ユーザＡの顔面側に向けられる画像表示部５２と、ゴーグル状の形状の外側に位置し、ユーザＡの顔面とは反対側に向けられる外部通知部５６とを有する。例えば、画像表示部５２は、情報処理装置１１０によって制御され、ユーザＡの右眼及び左眼に対応する位置にそれぞれ設けられた二つの表示画面からなり、ユーザＡに対して三次元画像（３Ｄ画像）を提供することができる。

ユーザＡは、画像表示部５２の表示画面を参照することにより、例えば映画やビデオゲーム等のコンテンツの画像であるコンテンツ画像を楽しむことができる。また、画像表示部５２は、ユーザＡの周囲の人物によるユーザＡへの話掛け動作が検出された場合に、ユーザＡに対する通知表示を行う。なお、画像表示部５２は、一つの表示画面からなるものであってもよい。

外部通知部５６は、ユーザＡの周囲に向けて情報を提示する。外部通知部５６は、画像情報を表示するものに限られず、ＬＥＤ（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）等の照明光の点灯状態によって、周囲の人物に情報を提示するものであってもよい。なお、本実施形態のシステムでは、ＨＭＤ装置１００の表示装置５０が、外部通知部５６を備えていなくてもよい。

情報処理装置１１０は、ＨＭＤ装置１００及びそれに接続されたヘッドホン装置３０を統合的に制御する。情報処理装置１１０は、通信部１１２と、記憶部１１４と、統合制御部１２０とを備える。

通信部１１２は、撮像装置１０や表示装置５０、ヘッドホン装置３０と通信を行う。具体的に、通信部１１２は、撮像装置１０から視線情報及び周囲画像情報を受信し、ヘッドホン装置３０から周囲音声の情報である周囲音声情報を受信する。周囲画像情報及び周囲音声情報は、ユーザＡのいる空間をモニタリングしている周囲情報の一例である。また、通信部１１２は、表示装置５０に画像情報あるいは駆動信号を送信し、ヘッドホン装置３０に音声情報を送信する。通信部１１２の行う通信は、有線通信であってもよく、無線通信であってもよい。

記憶部１１４は、統合制御部１２０の制御処理に関連する情報を記憶する。具体的に、記憶部１１４は、受信される視線情報、周囲画像情報及び周囲音声情報、表示装置５０に表示させる画像情報等を記憶する。記憶部１１４は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等の記憶素子とし得る。また、情報処理装置１１０は、統合制御部１２０により実行されるソフトウェアプログラムや、各種の制御処理に用いるパラメータ等を記憶したり、ユーザＡに提供される種々のコンテンツのデータを記憶したりする図示しない記憶装置を備え得る。

統合制御部１２０は、受信される視線情報や周囲画像情報、周囲音声情報に基づいて、ユーザＡの周囲の人物によるユーザＡへの話掛け動作を検出する処理を行う。また、統合制御部１２０は、ユーザＡへの話掛け動作が検出された場合に、モニタリングされている周囲情報に基づき話掛け動作情報を特定し、ユーザＡに対して、ユーザＡが話し掛けられていることを通知する各種の処理を行う。統合制御部１２０の具体的な機能構成については後述する。

［１−２−３．ヘッドホン装置］
没入体感装置としてのヘッドホン装置３０は、ＨＭＤ装置１００に接続されて、ＨＭＤ装置１００の操作音や、提供されるコンテンツに付随する音声であるコンテンツ音声を出力する。かかるヘッドホン装置３０は、ノイズキャンセル機能を有してもよい。音声を出力する機器は、ヘッドホン装置３０に限られず、例えばイヤホン装置であってもよい。ヘッドホン装置３０は、音声出力部３４と、集音部３２と、制御部３６と、通信部３８とを備える。

通信部３８は、ＨＭＤ装置１００の情報処理装置１１０と通信を行う。具体的には、通信部３８は、情報処理装置１１０から提供されるコンテンツ音声や操作音等の音声情報を受信する。また、通信部３８は、集音部３２により集音された周囲音声情報を情報処理装置１１０に送信する。周囲音声情報は、情報処理装置１１０において、周囲の人物によるユーザＡに対する発話の有無を判断するために用いられる。

音声出力部３４は、制御部３６により制御され、コンテンツ音声や操作音等を出力する。また、音声出力部３４は、ユーザＡの周囲の人物によるユーザＡへの話掛け動作が検出された場合に、ユーザＡに対する音声による通知を行う。集音部３２は、ユーザＡの周囲をモニタリングするために音声を集音し、周囲音声信号を制御部３６に提供する。集音部３２は、例えば、少なくとも二つのマイクロホンからなり、両耳に対応するスピーカーボックスやヘッドバンド等に設けられてもよい。複数のマイクロホンにより周囲音声を集音することにより、音源定位処理によって、音源の位置を推定することが可能になる。

制御部３６は、通信部３８に、周囲音声信号を情報処理装置１１０に送信させる。また、制御部３６は、情報処理装置１１０から送信されるコンテンツ音声や操作音の情報に基づき、音声出力部３４に音声出力をさせる。制御部３６は、例えば、コンテンツ音声が出力されている間、周囲の音をユーザＡに聞こえにくくするノイズキャンセル制御を実行する。例えば、制御部３６は、情報処理装置１１０からの送信される音声情報に対応する波長に対して、集音部３２によって集められた周囲の音声の波長を反転させて重ね合わせて、音声出力部３４から出力させてもよい。これにより、ユーザＡは、周囲の音が聞こえにくくなって、さらに没入感を得やすくなっている。

なお、本実施形態では、集音部３２がヘッドホン装置３０の構成要素となっているが、集音部３２がＨＭＤ装置１００の表示装置５０に設けられてもよい。あるいは、集音部３２は、ＨＭＤ装置１００やヘッドホン装置３０とは独立した装置として、情報処理装置１１０に直接接続されていてもよい。また、ヘッドホン装置３０の制御部３６を省略し、当該制御部３６の機能を、ＨＭＤ装置１００の情報処理装置１１０が有してもよい。

また、上述したＨＭＤ装置１００の表示装置５０に設けられたような外部通知部５６が、ヘッドホン装置３０に設けられていてもよい。あるいは、ＨＭＤ装置１００の表示装置５０の外部通知部５６と併せて、ヘッドホン装置３０にも外部通知部が設けられてもよい。ヘッドホン装置３０に外部通知部を設ける場合、例えば、左右の耳にそれぞれ対応するスピーカーボックスの外側面や、当該スピーカーボックスを接続するヘッドバンドに外部通知部を設け得る。

＜１−３．情報処理装置＞
次に、情報処理装置１１０の具体的な構成例について詳細に説明する。図３は、情報処理装置１１０の統合制御部１２０の構成の一例を示す機能ブロック図である。かかる情報処理装置１１０において、統合制御部１２０は、検出部１２２と、特定部１２４と、内部通知制御部１２６と、禁止処理部１２８とを備える。これらの各部は、具体的には、ＣＰＵによるソフトウェアプログラムの実行により実現される機能部である。

［１−３−１．検出部］
検出部１２２は、視線情報、周囲画像情報及び周囲音声情報に基づいて、ユーザＡの周囲の人物によるユーザＡへの話掛け動作を検出する。具体的に、検出部１２２は、周囲の人物がユーザＡの方向を向いた状態で発話をしたと判断される場合に、ユーザＡが話し掛けられたことを検出し得る。例えば、検出部１２２は、受信された視線情報に基づき定められる人物Ｘの視野範囲にユーザＡが存在している場合に、周囲の人物ＸがユーザＡを見ていると判断してもよい。人物ＸがユーザＡを見ていると判断された場合、検出部１２２は、記憶部１１４に、受信される画像情報及び音声情報の記録を開始させてもよい。また、検出部１２２は、ユーザＡを見ている人物Ｘの方向から集音される周囲音声の音声レベルが所定レベル以上になったときに、当該人物Ｘが発話をしたと判断してもよい。

図４は、人物ＸがユーザＡを見ているか否かを判定する方法の例について示す説明図である。図４に示す例では、人物Ｘの視線方向に基づいて視野範囲が定められ、当該視野範囲にユーザＡが位置しているか否かが判定される。視野範囲は、検出される視線方向を、人物Ｘの両眼の間の位置を中心として適宜の角度で左右両方向に回転させて定められる範囲とし得る。かかる視野範囲がなす角度θは、例えば４５°とし得るが、これに限られない。また、視野範囲は、人物Ｘからの距離によって制限されてもよい。ユーザＡの位置は、例えば、ＨＭＤ装置１００の表示装置５０に備えられたＧＰＳセンサにより検出される情報に基づいて特定してもよい。

このとき、周囲の人物Ｘの視野範囲に、ユーザＡだけでなく、他の人物も存在する場合等、当該人物ＸがユーザＡを見ているか否かの確度が低い場合には、ユーザＡを見ていると判定しないようにしてもよい。これにより、ユーザＡが実際には話し掛けられていないにもかかわらず、話掛け動作が検出されるおそれを低減することができる。

また、検出部１２２は、ユーザＡを見ている人物Ｘがいると判断した場合に、発話検出処理を行う。例えば、ユーザＡを見ている人物Ｘが検出されたときに、ビームフォーミング処理によって当該人物Ｘがいる方向の周囲音声を集音部３２に集音させてもよい。そして、検出部１２２は、受信された特定の方向の周囲音声の音声レベルが、所定レベル以上になったときに、人物ＸがユーザＡに対して話し掛けたと判定してもよい。これにより、ユーザＡが話し掛けられていないにもかかわらず、ユーザＡの周囲音声が偶然大きくなった場合に、ユーザＡが話し掛けられたと判定されるおそれが低減される。

なお、発話検出処理は上記の方法に限られない。例えば、検出部１２２は、受信される周囲音声の音声レベルにより発話検出をする代わりに、受信される周囲音声のトーンの変化に基づいて、ユーザＡを見ている人物ＸがユーザＡに話し掛けたと判定してもよい。あるいは、検出部１２２は、受信される周囲画像情報に基づいて、ユーザＡを見ている人物Ｘの口の動きを検出し、口の動きと併せて周囲音声の音声レベルが所定レベル以上になったときに、人物ＸがユーザＡに対して話し掛けたと判定してもよい。

また、検出部１２２は、受信される音声情報に含まれる発話を音声認識処理し、当該音声認識結果に基づいて、ユーザＡを見ている人物ＸがユーザＡに話し掛けたと判定してもよい。例えば、発話中に、ユーザＡの名前やニックネーム等、ユーザＡを特定可能な言葉が含まれる場合に、検出部１２２は、ユーザＡを見ている人物ＸがユーザＡに話し掛けたと判定してもよい。

［１−３−２．特定部］
特定部１２４は、ユーザＡの周囲の人物ＸによるユーザＡへの話掛け動作が検出されたときに、受信される周囲画像情報、視線情報及び周囲音声情報に基づいて、話掛け動作情報を特定する。特定部１２４は、特定される話掛け動作情報を、記憶部１１４に記憶させる。上述のとおり、話掛け動作情報には、ユーザＡの周囲の人物Ｘ，Ｙ，ＺがユーザＡに対して話し掛けているときの動きや発話の情報が含まれ得る。

（１−３−２−１．音声情報及び画像情報）
本実施形態では、検出部１２２によって、周囲の人物ＸによるユーザＡへの話掛け動作が検出されたときに、特定部１２４は、引き続き受信され記憶部１１４に記録される画像情報のうち、当該人物Ｘが含まれる画像情報を話掛け動作情報の一つとして特定してもよい。また、検出部１２２によって、周囲の人物ＸによるユーザＡへの話掛け動作が検出されたときに、特定部１２４は、引き続き受信され記憶部１１４に記録される音声情報のうち、人物Ｘの発話と思われる音声情報を話掛け動作情報の一つとして特定してもよい。このとき、特定部１２４は、音声情報に含まれる発話の音声認識結果をテキスト化してもよい。

また、特定部１２４は、例えば、継続して受信される音声情報が途切れたときまでの動画像及び音声を話掛け動作情報として特定してもよい。具体的に、特定部１２４は、継続して受信される音声情報が途切れて所定時間が経過したときに、人物ＸによるユーザＡへの話掛け動作が終了したと見做して、画像情報及び音声情報を話掛け動作情報の特定を終了してもよい。さらに、特定部１２４は、ユーザＡを見ていた人物Ｘの視野範囲からユーザＡの位置が外れたときに、記憶部１１４による画像情報及び音声情報の記録を停止させてもよい。

なお、特定される話掛け動作情報の終期は、音声情報が途切れた時点に限られない。例えば、特定部１２４は、ユーザＡに対して話し掛けた人物Ｘの口の動きを画像情報で分析し、当該人物Ｘの口の動きが止まった時点を話掛け動作情報の終期としてもよい。また、特定部１２４は、音声情報の音声レベルが所定レベル未満になって所定時間経過した時点を、話掛け動作情報の終期としてもよい。また、記憶部１１４による画像情報及び音声情報の記録を停止させる時期は、ユーザＡを見ていた人物Ｘの視野範囲からユーザＡの位置が外れた時点に限られない。特定部１２４は、話掛け動作情報の特定を終了するときに、同時に、画像情報及び音声情報の記録を停止させてもよい。その他、特定部１２４は、話掛け動作が検出された後の適宜の条件の成立時に、画像情報及び音声情報の記録を停止させてもよい。

（１−３−２−２．位置情報）
特定部１２４は、画像情報及び音声情報の記録と併せて、ユーザＡと当該ユーザＡに話し掛けた人物Ｘとの位置情報を特定してもよい。その際に、特定部１２４は、ユーザＡが存在する空間におけるユーザＡと人物Ｘとの相対位置だけでなく、ユーザＡが向いている方向に対して人物Ｘがどの位置にいるかを特定してもよい。ユーザＡが向いている方向は、例えば、ＨＭＤ装置１００の表示装置５０に備えられるＧＰＳセンサによる位置情報や、撮像装置１０から送信される画像情報に基づいて検出してもよい。また、ユーザＡに話し掛ける人物Ｘの位置は、例えば、受信される画像情報及び視線情報に基づいて検出してもよい。

（１−３−２−３．人物属性情報）
特定部１２４は、画像情報及び音声情報の記録と併せて、ユーザＡに対して話し掛けた人物Ｘの属性情報を特定し、記憶部１１４に記憶させてもよい。具体的に、特定部１２４は、人物Ｘの名前やＩＤ、性別、ユーザＡとの関係性等の情報を特定してもよい。例えば、特定部１２４は、撮像装置１０から送信される画像情報に基づいて、顔認識処理や特徴量演算の方法により、あらかじめ記憶部１１４等に記憶されたデータベースを参照して人物を特定し、当該データベースに紐付けられた属性情報を特定してもよい。

例えば、ユーザＡに対して話し掛けた人物Ｘが、ユーザＡにとって会社の同僚や上司のような仕事上の関係にある人である場合には、当該人物Ｘが話し掛けてくる理由が仕事に関することである可能性が高い。また、当該人物Ｘが、ユーザＡの友人や家族のようなプライベート上の関係にある人である場合には、当該人物Ｘが話し掛けてくる理由がプライベートに関することである可能性が高い。したがって、ユーザＡに対して話し掛けた人物Ｘの属性情報を特定することにより、ユーザＡは、話掛け動作に対して反応すべき必要性を判断しやすくなる。

（１−３−２−４．その他の特定情報）
特定部１２４は、上記した情報以外に、ユーザＡが人物Ｘから話し掛けられた日時や、話し掛けられたときに利用しているコンテンツの情報を特定し、記憶部１１４に記憶させてもよい。コンテンツの情報は、利用しているコンテンツの種類あるいは名称であってよい。例えば、特定部１２４は、『使用コンテンツ＝映画「映画タイトル○○」』や『使用コンテンツ＝ビデオゲーム「ゲームタイトル○○」』、『使用コンテンツ＝ミュージック「アルバムタイトル○○」』等のように、コンテンツの情報を特定してもよい。

あるいは、特定部１２４は、話し掛けられたときに利用していたコンテンツの画像データを特定し、記憶部１１４に記憶させてもよい。記憶させる画像データは、例えば、視聴していたコンテンツ画像の静止画のデータや、音楽コンテンツのアルバムのデザインの画像データとしてもよい。ユーザＡが話し掛けられたときに利用していたコンテンツの情報をともに特定することにより、話し掛けられたときの状況がコンテンツの内容に関連づけられ、ユーザＡが話掛け動作情報を後で確認したときに思い出しやすくなる。

（１−３−２−５．特定情報一覧）
図５は、それぞれの話掛け動作に対して特定部１２４が特定し得る情報の一覧を例示している。特定部１２４は、ユーザＡに対する人物Ｘの話掛け動作が検出されたときに、日時、撮像装置１０により撮像された画像情報、集音部３２により集音された音声情報、発話内容のテキスト情報、話し掛けた人物Ｘの属性情報、話し掛けられたときに利用していたコンテンツの情報を特定し、話掛け動作情報群として記憶部１１４に記憶させてもよい。

［１−３−３．内部通知制御部］
内部通知制御部１２６は、特定部１２４によって特定された話掛け動作情報に基づいて、ユーザＡに対する通知を行う。ここで、ユーザＡに対する通知には、表示装置５０の画像表示部５２の表示画面に画像を表示させ、及び、ヘッドホン装置３０の音声出力部３４から音声を出力させることの少なくとも一方が含まれ得る。例えば、内部通知制御部１２６は、特定部１２４により特定され、記憶部１１４に記憶された話掛け動作情報を再生してもよい。その際に、内部通知制御部１２６は、以下の通知方法のうちのいずれか一つ又は複数を組み合わせて、話掛け動作情報を再生してもよい。

（１−３−３−１．通知方法１：音声タイムシフト再生）
内部通知制御部１２６は、特定部１２４により特定される音声情報を、タイムシフト再生により、ユーザＡの周囲の人物Ｘが実際に話し掛けた時刻から遅れて再生してもよい。このとき、人物Ｘの発話が終了する前から再生を開始してもよいし、人物Ｘの発話が終了した後で再生を開始してもよい。周囲の人物Ｘの発話の音声情報がタイムシフト再生されることにより、ユーザＡは、話し掛けられたときの発話を始めから聞くことができる。

これにより、ユーザＡは、まさに話し掛けられたときの様子を知ることができるため、例えば、話し掛けた人物Ｘの感情の状態や緊急度合い等を把握しやすくなる。したがって、ユーザＡは、話掛け動作に対して反応した方がよいかを判断できるようになり、ユーザＡと話し掛けた人物Ｘとの間のコミュニケーションが向上し得る。また、話し掛けた理由の緊急度が低い場合には、ユーザＡは、引き続きＨＭＤ装置１００により提供されるコンテンツを楽しむことができるため、没入感が失われにくくなる。

また、タイムシフト再生を行う場合、内部通知制御部１２６は、現実の発話時期から、対応する音声情報の再生時期までの遅延時間を徐々に短くし、リアルタイムの音声に切り替えてもよい。例えば、内部通知制御部１２６は、記憶部１１４に一旦記憶させた音声情報を、１．５倍程度の適宜の倍率の速度で再生しつつ、遅延時間が最小になった後に、ノイズキャンセル機能をオフにさせて、周囲音声が直接ユーザＡに視聴されるようにしてもよい。

（１−３−３−２．通知方法２：画像タイムシフト再生）
内部通知制御部１２６は、特定部１２４により特定される画像情報を、音声情報の再生の場合と同様に、タイムシフト再生してもよい。また、画像情報のタイムシフト再生を行う場合、内部通知制御部１２６は、記憶部１１４に一旦記憶させた画像情報を、１．５倍程度の適宜の倍率の速度で再生しつつ、遅延時間が最小になった後に、撮像装置１０から送信される画像情報を画像表示部５２に表示させてもよい。これにより、ユーザＡは、画像情報に基づいて話し掛けられたときの様子を知ることができるため、話し掛けた人物Ｘの感情の状態や緊急度合い等を把握しやすくなる。したがって、ユーザＡと話し掛けた人物Ｘとの間のコミュニケーションが向上し得るとともに、ユーザＡの没入感が失われにくくなる。

また、内部通知制御部１２６は、特定された画像情報を画像表示部５２に表示させる際には、表示画面の全体に話掛け動作情報としての画像情報を表示させてもよい。あるいは、内部通知制御部１２６は、特定された画像情報を画像表示部５２に表示させる際に、話掛け動作情報としての画像情報を、利用しているコンテンツ画像に対して重畳表示させてもよい。特定された画像情報をコンテンツ画像に重畳表示させることにより、例えば、ユーザＡが、利用中のコンテンツに集中したい場合に、周囲の人物Ｘの話掛け動作に対する反応をせずに、コンテンツの利用を継続することができる。

なお、特定された画像情報を、音声情報と併せてタイムシフト再生する場合には、内部通知制御部１２６は、同じ時刻に録画あるいは録音された画像情報及び音声情報が同時に再生されるように制御を行い得る。

（１−３−３−３．通知方法３：再生準備）
内部通知制御部１２６は、特定された画像情報及び音声情報のうちの少なくとも一方を再生するにあたり、あらかじめ準備動作をさせてもよい。例えば、内部通知制御部１２６は、特定された音声情報を再生する前に、当該音声がユーザＡに聞こえやすくなるように、コンテンツ音声の音量を小さくしてもよい。また、内部通知制御部１２６は、特定された話掛け動作情報を再生する前に、現在利用している音楽コンテンツや動画コンテンツ、テレビゲーム等の再生や進行を一時的に停止させてもよい。

また、内部通知制御部１２６は、特定された音声情報を再生する前に、ヘッドホン装置３０のノイズキャンセル機能を一時的に停止させてもよい。これにより、周囲の音声が聞き取りやすくなって、周囲の人物Ｘからの話掛け動作に対して反応した後に、リアルタイムで会話をすることができるようになる。

かかる準備動作の開始指示は、例えば、検出部１２２により、周囲の人物ＸによるユーザＡへの話掛け動作が検出されたときに出力されてよい。そして、内部通知制御部１２６は、かかる準備動作が実行され始めた後に、話掛け動作情報の再生を開始してよい。また、内部通知制御部１２６は、話掛け動作情報の再生を停止するときに、同時に、かかる準備動作を終了してよい。

また、内部通知制御部１２６は、これらの再生準備に先立って、数秒後にコンテンツが一時停止されることをユーザＡに予告してもよい。例えば、内部通知制御部１２６は、再生準備の開始指示を出力する３〜５秒前に、あらかじめ設定された通知音や音声、あるいは、アイコン表示やテキスト表示等によって、再生準備動作の予告をさせてもよい。これにより、利用中のコンテンツが突然停止してユーザＡが驚くことを防ぐことができる。あるいは、ユーザＡは、情報処理装置１１０によってコンテンツが停止される前に、適宜のタイミングで自らコンテンツを停止させることができる。

（１−３−３−４．通知方法４：バーチャルサラウンド）
内部通知制御部１２６は、ユーザＡの向きに対する人物Ｘの位置情報が特定されている場合には、音声情報を再生する際に、当該位置情報に基づいて音声情報を出力させてもよい。具体的に、内部通知制御部１２６は、バーチャルサラウンド技術を利用して、人物Ｘがいる方向から音声が聞こえるように音声出力を制御してもよい。バーチャルサラウンドは、例えば、ヘッドホン装置３０の左右のスピーカーボックスから出力する音声信号をバイノーラル信号化するとともに、クロストークを打消す処理を行うことによって実現し得る。

あるいは、内部通知制御部１２６は、頭部伝達関数を再現することによってヘッドホン装置３０により立体音響効果を得る手法である音像定位処理を実行し、人物Ｘがいる方向から音声情報が聞こえるようにしてもよい。このように音声出力による通知を行うことにより、ユーザＡが話し掛けられたことを知ったときに、話し掛けた人物Ｘがいる方向に向いて反応しやすくなる。これにより、ユーザＡと話し掛けた人物Ｘとのコミュニケーションの向上が図られる。

（１−３−３−５．通知方法５：表示態様変化）
内部通知制御部１２６は、特定された画像情報を画像表示部５２に表示させる際に、画像表示の態様を変化させてもよい。例えば、図６に示すように、内部通知制御部１２６は、検出部１２２が周囲の人物ＸによるユーザＡへの話掛け動作を検出してからの話掛け動作の継続時間に基づいて、重畳表示させる画像Ｐの大きさを変化させてもよい。図６の例では、話掛け動作の継続時間が長くなるにつれて、重畳表示させる画像Ｐが次第に大きくなっている。これにより、ユーザＡに対して、話し掛けられている時間を認識させることができ、話し掛けている人物Ｘへの反応を促すことができる。一方、話掛け動作の継続時間に基づいて、重畳表示させる画像Ｐの大きさを次第に小さくすることにより、反応する意思がユーザＡにない場合に、ユーザＡが話掛け動作を気にすることなくコンテンツの利用を継続することができる。

なお、画像の表示の仕方を変化させる方法は、画像の大きさを変化させることに限られない。例えば、内部通知制御部１２６は、重畳表示させる画像の透明度を変化させてもよい。話掛け動作の継続時間に基づいて、重畳表示させる画像の透明度を次第に低下させることにより、反応する意思がユーザＡにない場合に、ユーザＡが話掛け動作を気にすることなくコンテンツの利用を継続することができる。一方、話掛け動作の継続時間に基づいて、重畳表示させる画像の透明度を次第に上昇させることにより、ユーザＡに対して、人物Ｘへの反応を促すことができる。

（１−３−３−６．通知方法６：アニメーション表示）
内部通知制御部１２６は、特定された話掛け動作情報に基づいて、アイコンやアニメーションを画像表示部５２に表示させてもよい。例えば、図７に示すように、ユーザＡの向いている方向に対する人物Ｘの位置情報に基づき、人物Ｘが存在している方向を吹き出しや矢印等のアイコンＩで表示してもよい。かかるアイコンＩの表示を行うことにより、ユーザＡが、話し掛けている人物Ｘの位置を容易に把握することができ、反応する際に、人物Ｘがいる方向に向かって返事をすることができる。したがって、ユーザＡと人物Ｘとのコミュニケーションが円滑になり得る。

（１−３−３−７．通知方法７：レーダ表示）
内部通知制御部１２６は、特定された話掛け動作情報に基づいて、ユーザＡの向きに対するユーザＡに話し掛けた人物Ｘの位置情報を画像表示部５２にレーダ表示させてもよい。例えば、図８は、ユーザＡを上から見下ろした形で、ユーザＡの位置を中心とするレーダマップＬＭ中に、ユーザＡに話し掛けた人物Ｘがいる方向を表示した例を示す。図８に示したレーダマップＬＭの表示の例では、上方が、現在のユーザＡ自身が向いている方向を示す。すなわち、この例は、ユーザＡが、右後方から人物Ｘに話し掛けられていることを示している。

この例では、話し掛けている人物Ｘがいる位置に当該人物Ｘの顔画像が表示されているが、適宜の図形であってもよい。また、表示される人物Ｘの表示は、ユーザＡの向いている方向に対する人物Ｘの位置の変化に応じて変化させてもよい。例えば、内部通知制御部１２６は、ユーザＡ又は人物Ｘの移動に伴って、人物Ｘを示す顔画像あるいは図形を移動させてよい。また、図９に示すように、内部通知制御部１２６は、ＨＭＤ装置１００の表示装置５０等に設けられる地磁気センサ等によって取得し得る東西南北の方位情報を表示させてもよい。

このようなレーダ表示を行うことにより、ユーザＡが、話し掛けている人物Ｘの位置を容易に把握することができ、反応する際に、人物Ｘがいる方向に向かって返事をすることができる。また、例えば、話掛け動作情報として特定された音声情報をタイムシフト再生している間に、かかるレーダ表示がされていれば、タイムシフト再生中に、話し掛けた人物ＸがそのままユーザＡの周囲にいるか否かを知ることができる。したがって、ユーザＡと人物Ｘとのコミュニケーションが円滑になり得る。

また、内部通知制御部１２６は、話し掛けている人物ＸとユーザＡとの距離を示す情報をレーダ表示中に表示させてもよい。例えば、図８及び図９のレーダ表示の例では、人物ＸとユーザＡとの距離に応じて、人物Ｘの顔画像とユーザＡの位置表示との間に表示される図形（三角形の図形）の数が異なっている。なお、人物ＸとユーザＡとの距離の表示方法は、図８及び図９の例に限られない。

また、内部通知制御部１２６は、レーダ表示中に、話し掛けている人物Ｘ以外に、ユーザＡの周囲に存在する人物を併せて表示させてもよい。この場合、話し掛けた人物ＸがユーザＡに分かるように、人物Ｘの表示に特徴を持たせてもよい。例えば、話し掛けた人物Ｘの表示を、他の人物の表示よりも大きくさせたり、点滅させたりしてもよい。また、話し掛けた人物Ｘ以外の人物の表示の透明度を高めてもよい。

（１−３−３−８．通知方法８：テキスト表示）
内部通知制御部１２６は、特定された話掛け動作情報に基づいて、テキストメッセージＴＭを表示させてもよい。例えば、図１０に示すように、内部通知制御部１２６は、特定部１２４により特定された発話のテキスト情報を表示させてもよい。図１０では、「○○さん、ちょっといい？」とのテキストメッセージＴＭが表示されている。その他、表示させるテキストメッセージＴＭは、あらかじめ設定された固定メッセージとしてもよい。固定メッセージは、特定された話掛け動作情報群に含まれる情報に基づき、記憶部１１４等に記憶されたメッセージ群の中から選択されて、表示されてもよい。例えば、特定された人物Ｘの位置情報に基づいて、「右後ろの人から話し掛けられています。」等のように表示させることができる。

（１−３−３−９．通知方法９：人物属性表示）
内部通知制御部１２６は、特定された話掛け動作情報に基づいて、話し掛けた人物Ｘの属性情報を画像表示部５２に表示させてもよい。具体的に、内部通知制御部１２６は、特定部１２４により特定された人物Ｘの名前、ＩＤ、性別、ユーザＡとの関係性等の情報を画像表示部５２に表示してもよい。人物Ｘの属性情報が表示されることにより、ユーザＡは、話し掛けた人物Ｘを容易に知ることができ、反応すべき優先度合いを判断することができる。

［１−３−４．禁止処理部］
禁止処理部１２８は、内部通知制御部１２６による、ユーザＡが話し掛けられたことをユーザＡに対して通知する制御を禁止する。例えば、ユーザＡがＨＭＤ装置１００やヘッドホン装置３０を装着した状態で眠っている場合や、ユーザＡがコンテンツに集中している場合等、ユーザＡが話し掛けられたくない場合が考えられる。禁止処理部１２８は、そのような場合に、ユーザＡに対して、話し掛けられたことが通知されないようにする。

（１−３−４−１．ユーザ状態による禁止）
例えば、禁止処理部１２８は、ユーザＡの状態を示す情報に基づいて、内部通知制御部１２６による画像表示部５２や音声出力部３４への通知処理を禁止してもよい。例えば、禁止処理部１２８は、ユーザＡ自身によって通知動作を禁止するよう設定されている場合に、内部通知制御部１２６による通知処理を禁止してもよい。あるいは、禁止処理部１２８は、ユーザＡが睡眠中の場合や、ユーザＡの集中レベルが所定レベル以上の場合に、内部通知制御部１２６による通知処理を禁止してもよい。ユーザＡが睡眠中であるか否かや、ユーザＡの集中レベルは、例えば、ユーザＡの心拍数や発汗状態、脳波等を検出する生体センサの検出情報に基づき判定してもよい。あるいは、ユーザＡが睡眠中であるか否かは、ＨＭＤ装置１００の表示装置５０に設けられるユーザＡの視線を検出するセンサの検出情報に基づき判定してもよい。

（１−３−４−２．人物属性による禁止）
禁止処理部１２８は、特定された話掛け動作情報に含まれる、話し掛けた人物Ｘの属性情報に基づいて、内部通知制御部１２６による通知処理を禁止してもよい。例えば、話し掛けた人物ＸがユーザＡの知らない人物であったり、あるいは、ユーザＡ自身が通知を禁止するよう設定した人物であったりする場合に、禁止処理部１２８は、内部通知制御部１２６による通知処理を禁止してもよい。これにより、ユーザＡは、話し掛けてくる人物によって、あらかじめ反応の優先度を決めておくことができ、没入感が損なわれるおそれを低減することができる。

（１−３−４−３．時間設定による禁止）
禁止処理部１２８は、あらかじめ設定される時間に、内部通知制御部１２６による画像表示部５２や音声出力部３４への通知処理を禁止してもよい。例えば、ユーザＡは、内部通知制御部１２６による通知処理の禁止を開始する時刻及び解除する時刻をあらかじめ設定したり、通知処理を禁止する時間をあらかじめタイマ設定したりすることにより、通知処理を禁止する時間を管理してもよい。これにより、ユーザＡは、あらかじめ決められた時間の間、没入体験を阻害されないようにしてもよい。また、あらかじめ設定した時間を周囲の人物に知らせておくことにより、周囲の人物にとっても話し掛けたにもかかわらず反応されないことによる不満を感じることがなくなる。

（１−３−４−４．周囲音量による禁止）
禁止処理部１２８は、周囲音声の音声レベルが、現在聞いているコンテンツ音声の音声レベルよりも所定以上大きい場合に、内部通知制御部１２６による音声出力部３４への通知処理を禁止してもよい。例えば、禁止処理部１２８は、現在聞いているコンテンツ音声の音声レベルに対する周囲音声の音声レベルの比率によって、通知処理を禁止するか否かを判定してもよい。また、禁止処理部１２８は、現在聞いているコンテンツ音声の音声レベルと周囲音声の音声レベルとの差によって、通知処理を禁止するか否かを判定してもよい。これにより、ユーザＡに対して、急に大きな音声を聞かせないようにして、ユーザＡが驚かないようにすることができる。

（１−３−４−５．コンテンツの状態による禁止）
禁止処理部１２８は、現在利用しているコンテンツの状態に基づいて、内部通知制御部１２６による音声出力部３４への通知処理を禁止してもよい。例えば、禁止処理部１２８は、現在視聴している映画や、利用しているビデオゲームにおいて、ユーザＡに集中状態が求められる特定のシーンやタイミングで、通知処理を禁止してもよい。かかる特定のシーンやタイミングは、あらかじめコンテンツごとに設定されていてもよく、あるいは、コンテンツ音声の盛り上がりやコンテンツ画像の色合いの変化等に基づいて判断されてもよい。また、禁止処理部１２８は、ユーザＡがあらかじめ禁止設定をした種類や特定のコンテンツが利用されているときに、通知処理を禁止してもよい。これにより、ユーザＡが、利用しているコンテンツで盛り上がっているにもかかわらず、周囲の人物から話し掛けられて、没入感が損なわれるおそれを低減することができる。

＜１−４．装置による処理＞
次に、本実施形態にかかる情報処理装置１１０による処理の一例について説明する。図１１は、情報処理装置１１０による処理を概念的に示すフローチャートである。

［１−４−１．基本フロー］
まず、情報処理装置１１０は、ＨＭＤ装置１００及びヘッドホン装置３０を装着したユーザＡに視線を向けている人物がいるか否かを判定する（ステップＳ１２）。具体的に、情報処理装置１１０の検出部１２２は、撮像装置１０から送信される周囲画像情報及び視線情報に基づき、ユーザＡの周囲に、視野範囲にユーザＡの位置が含まれる人物がいるか否かを判定する。このとき、ユーザＡの位置がある人物の視野範囲に含まれるものの、ユーザＡの近くに別の人物がいる場合には、ユーザＡに視線を向けている人物がいると判定しないようにしてもよい。

情報処理装置１１０は、ユーザＡに視線を向けている人物がいないと判定される場合（Ｓ１２：Ｎｏ）、ステップＳ２２に進む。この場合、情報処理装置１１０は、記憶部１１４による画像情報及び音声情報の記録を停止状態にした後（ステップＳ２２）、ステップＳ１２に戻る。一方、情報処理装置１１０は、ユーザＡに視線を向けている人物Ｘがいると判定される場合（Ｓ１２：Ｙｅｓ）、ステップＳ１４に進む。次いで、情報処理装置１１０は、引き続き受信される画像情報及び音声情報を記憶部１１４に記録させる。

次いで、情報処理装置１１０は、ユーザＡに視線を向けている人物ＸがユーザＡに対して話し掛けているか否かを判定する（ステップＳ１６）。具体的に、検出部１２２は、集音部３２により集音されて送信される周囲音声情報に基づいて発話検出処理を行う。例えば、検出部１２２は、ビームフォーミング処理により、ユーザＡを見ている人物Ｘがいる方向の周囲音声を集音部３２に集音させ、受信された周囲音声の音声レベルが所定レベル以上になっているか否かを判定する。検出部１２２は、受信された周囲音声のトーンの変化に基づいて、上記判定を行ってもよい。

情報処理装置１１０は、ユーザＡに視線を向けている人物がユーザＡに話し掛けていると判定されない場合（Ｓ１６：Ｎｏ）、ステップＳ１２に戻って、フローを繰り返す。一方、情報処理装置１１０は、ユーザＡに視線を向けている人物ＸがユーザＡに話し掛けていると判定された場合（Ｓ１６：Ｙｅｓ）、ステップＳ１８に進む。次いで、情報処理装置１１０は、記憶部１１４に記録される画像情報及び音声情報に基づいて、人物ＸによるユーザＡに対する話掛け動作を示す情報を特定する（ステップＳ１８）。

具体的に、情報処理装置１１０の特定部１２４は、人物ＸによるユーザＡへの話掛け動作が検出されたときに、引き続き受信され記録されている画像情報のうち、当該人物Ｘが含まれる画像情報を話掛け動作情報の一つとして特定してもよい。また、特定部１２４は、人物ＸによるユーザＡへの話掛け動作が検出されたときに、引き続き受信され記録されている音声情報のうち、当該人物Ｘの発話と思われる音声情報を話掛け動作情報の一つとして特定してもよい。

このとき、特定部１２４は、音声情報に含まれる人物Ｘの発話を音声認識し、テキスト化してもよい。また、特定部１２４は、画像情報及び音声情報と併せて、ユーザＡと人物Ｘとの位置情報や、人物Ｘの属性情報、話し掛けられた日時、話し掛けられたときに利用していたコンテンツの情報等を特定してもよい。また、特定部１２４は、例えば、人物ＸによるユーザＡに対する発話が所定時間以上途切れたときに、話掛け動作情報の特定を終了する。

情報処理装置１１０は、特定された話掛け動作情報を記憶部１１４に記憶させる。例えば、特定部１２４は、図５に示すような話掛け動作情報群として、記憶部１１４に記憶させる。

次いで、情報処理装置１１０は、記憶部１１４による画像情報及び音声情報の記録を停止させる（ステップＳ２０）。具体的に、特定部１２４は、話掛け動作情報の特定を終了した後、人物Ｘの視線がユーザＡから外れたときに、記憶部１１４による画像情報及び音声情報の記録を停止させる。以降、情報処理装置１１０は、ステップＳ１２に戻って、これまで説明したフローを繰り返し行う。

以上のように、本実施形態にかかる情報処理装置１１０は、没入体感装置としてのＨＭＤ装置１００及びヘッドホン装置３０を装着したユーザＡに対して、当該ユーザＡの周囲の人物Ｘが話し掛けたときに、話掛け動作情報を特定し、記憶部１１４に記憶する。これにより、ユーザＡは、話し掛けられた時点から遅れて話掛け動作が通知される際に、ユーザＡが話し掛けられている様子を知ることができる。

［１−４−２．タイムシフト再生処理］
次に、本実施形態にかかる情報処理装置１１０による処理の例として、話掛け動作情報としての音声情報を特定し、当該音声情報をタイムシフト再生するフローについて説明する。図１２は、情報処理装置１１０による音声情報のタイムシフト再生処理を示す説明図であり、上段に録音データを示し、下段に再生データを示す。また、図１３は、情報処理装置１１０による音声情報のタイムシフト再生処理を概念的に示すフローチャートである。

まず、情報処理装置１１０は、時刻Ａにおいて、撮像装置１０から送信される画像情報及び視線情報に基づいて、ユーザＡの方向を見ている人物を検出する（ステップＳ３２）。具体的には、検出部１２２は、図１１のフローチャートにおけるステップＳ１２の処理にしたがって、周囲の人物の視線情報により特定される視野範囲にユーザＡの位置が含まれるか否かにより、当該判定を行ってもよい。

ユーザＡの方向を見る人物が検出されると、情報処理装置１１０は、記憶部１１４に、受信される音声情報の記録を開始させる（ステップＳ３４）。具体的には、検出部１２２は、ユーザＡの方向を見る人物Ｘが検出された後に引き続き受信される音声情報を記憶部１１４に記憶させる。

次いで、情報処理装置１１０は、時刻Ｂにおいて、ユーザＡの方向を見ている人物Ｘが発話したことを検出する（ステップＳ３６）。具体的には、検出部１２２は、図１１のフローチャートにおけるステップＳ１６の処理にしたがって発話検出処理を行い、人物Ｘがいる方向の音声レベルが所定レベル以上になっているか否かにより、当該判定を行ってもよい。

ユーザＡを見ている人物Ｘの発話が検出されると、情報処理装置１１０は、発話が検出された時刻Ｂ以降に受信される音声情報を、話掛け動作情報として特定し、記憶部１１４に記憶させる（ステップＳ３８）。具体的に、特定部１２４は、発話が検出された以降に受信される音声情報を、話掛け動作情報の一つとして記憶部１１４に記憶させる。

さらに、情報処理装置１１０は、話掛け動作情報として特定され記憶される音声情報の再生準備を開始する（ステップＳ４０）。具体的に、内部通知制御部１２６は、ユーザＡが現在視聴しているコンテンツ音声の音量を小さくさせたり、現在利用しているコンテンツの再生や進行を一時的に停止させたりしてもよい。あるいは、内部通知制御部１２６は、ヘッドホン装置３０のノイズキャンセル機能を一時的に停止させてもよい。

次いで、情報処理装置１１０は、時刻Ｃにおいて、話掛け動作情報として特定され記憶されている音声情報の再生を開始させる（ステップＳ４２）。具体的に、内部通知制御部１２６は、人物Ｘによる実際の発話のタイミングから少し遅れて、記録された音声情報を再生し、ヘッドホン装置３０の音声出力部３４から出力させる。内部通知制御部１２６は、再生準備が整った後に速やかに音声情報の再生を開始させてもよいし、あらかじめ設定された時間差で音声情報の再生を開始させてもよい。このとき、バーチャルサウンド技術により、人物Ｘがいる方向から音声が聞こえるようにしてもよい。

次いで、情報処理装置１１０は、時刻Ｄにおいて、人物Ｘによる発話の終了を検出する（ステップＳ４４）。具体的に、特定部１２４は、人物Ｘのいる方向からの音声情報が途切れて所定時間経過した場合に、人物Ｘによる発話の終了を検出してもよい。これにより、話掛け動作情報としての音声情報の特定が終了する。

人物Ｘによる発話の終了が検出された時刻Ｄでは、情報処理装置１１０は、音声情報の再生を停止させる（ステップＳ４６）。具体的に、内部通知制御部１２６は、ステップＳ４４で特定が終了されるまでの音声情報を再生させた後に、再生を停止させる。

次いで、情報処理装置１１０は、時刻Ｅにおいて、ユーザＡの方向を見ていた人物Ｘの視線がユーザＡから外れたことを検出する（ステップＳ４８）。具体的に、検出部１２２は、受信される画像情報及び視線情報に基づいて、ユーザＡの位置が、ユーザＡを見ていた人物Ｘの視野範囲から外れたか否かにより、当該判定を行ってもよい。

ユーザＡの方向を見ていた人物Ｘの視線がユーザＡから外れたことが検出されると、情報処理装置１１０は、記憶部１１４による、画像情報及び音声情報の記録を停止させる。ステップＳ４４において発話の終了が検出された時点で、人物Ｘの視線がユーザＡから外れている場合には、音声情報の再生を停止させることと併せて、画像情報及び音声情報の記録を停止させてもよい。

なお、ここでは話掛け動作情報としての音声情報のタイムシフト再生処理について説明したが、話掛け動作情報として特定される画像情報についても同様の手順でタイムシフト再生させてもよい。また、音声情報及び画像情報を同じタイミングでタイムシフト再生させることによって、ユーザＡは、自身が話し掛けられている様子を視覚及び聴覚で知ることができる。

このように、情報処理装置１１０は、人物ＸによるユーザＡの話掛け動作を検出したときに、受信される画像情報及び音声情報から話掛け動作情報を特定し、タイムシフト再生させる。したがって、ユーザＡは、自身が話し掛けられた後の様子ではなく、話し掛けられているときの様子を知ることができる。これにより、ユーザＡは、話し掛けている人物Ｘの感情の状態や緊急度合い等を知った上で反応することができ、ユーザＡと、ユーザＡに話し掛けている人物Ｘとのコミュニケーションを向上させることができる。

＜１−５．第１の実施の形態のまとめ＞
以上のように、本開示の第１の実施の形態によれば、情報処理装置１１０は、ユーザＡの周囲の画像情報や、周囲の人物の視線情報、周囲の音声情報を受信し、これらの周囲情報に基づいて、周囲の人物ＸによるユーザＡへの話掛け動作を検出する。そして、情報処理装置１１０は、周囲の人物Ｘによる話掛け動作を検出した場合、受信された周囲情報に基づいて、話掛け動作情報を特定する。このため、人物ＸがユーザＡに話し掛けた時点から、話し掛けられていることをユーザＡに通知するまでの間に時間差が生じる場合であっても、ユーザＡに話し掛けられたことを通知する際に、自身が話し掛けられているときの様子を知らせることができる。その結果、ユーザＡは、人物Ｘの話し掛けの状態に応じて、反応の要否や反応の示し方を判断することができ、ユーザＡとユーザＡに話し掛ける人物Ｘとのコミュニケーションを向上させることができる。

また、情報処理装置１１０は、ユーザＡに話し掛ける人物Ｘの画像情報、及び、人物Ｘの発話内容を含む音声情報と併せて、ユーザＡの向きに対する人物Ｘの位置情報や人物Ｘの属性情報、話し掛けられた日時、利用していたコンテンツの情報を話掛け動作情報として特定し得る。これにより、ユーザＡは、人物Ｘに話し掛けられたときの情報をより詳細に知ることができ、人物Ｘへの反応の要否や反応の示し方をより判断しやすくなる。

また、情報処理装置１１０は、特定した話掛け動作情報に基づいて、画像表示部５２に画像を表示させ、及び、音声出力部３４から音声を出力させ得る。このとき、情報処理装置１１０は、画像情報及び音声情報をタイムシフト再生させることにより、ユーザＡが話し掛けられた時点からユーザＡに通知されるまでに時間差が生じる場合であっても、ユーザＡは話し掛けられているときの様子を知ることができる。

また、情報処理装置１１０は、特定された画像情報及び音声情報を再生する前に、コンテンツを一時停止させたり、音量を下げたり、あるいは、ヘッドホン装置３０のノイズキャンセル機能を一時停止させる等の準備動作をさせ得る。これにより、ユーザＡは、話し掛けられたことを知らせる通知を認識しやすくなって、話し掛けた人物Ｘとのコミュニケーションを向上させることができる。

また、情報処理装置１１０は、特定された音声情報を再生する際に、人物Ｘがいる方向から音声が聞こえるように音声出力を制御し得る。これにより、ユーザＡは、人物Ｘからの話し掛けに反応する際に、人物Ｘのいる方向に向かって返事をすることができる。

また、情報処理装置１１０は、特定された画像情報を表示させる際に、話し掛けられている時間に基づいて、画像表示を変化させ得る。これにより、ユーザＡに対して、話し掛けている人物Ｘへの反応を促したり、あるいは、画像表示を次第に目立たなくしてコンテンツの利用を継続させやすくしたりすることができる。

また、情報処理装置１１０は、ユーザＡに対して、話し掛けられていることを通知する際に、アニメーション表示やレーダ表示を用いて、ユーザＡの向きに対する人物Ｘの位置情報を提供し得る。これにより、ユーザＡは、人物Ｘの話し掛けに反応する際に、人物Ｘのいる方向に向かって返事をすることができる。また、話掛け動作情報がタイムシフト再生される場合には、タイムシフト再生中に、話し掛けた人物Ｘがそのまま周囲にいるか否かを知ることができる

また、情報処理装置１１０は、ユーザＡに対して話し掛けられていることを通知する際に、テキストメッセージを画像表示部５２に表示させ得る。これにより、ユーザＡは、人物Ｘによる話掛け動作あるいは人物Ｘの発話内容を視覚的に認知することができる。

また、情報処理装置１１０は、ユーザＡに対して話し掛けられていることを通知する際に、人物Ｘの属性情報を画像表示部５２に表示させ得る。これにより、ユーザＡは、話し掛けた人物Ｘを容易に知ることができ、反応すべき優先度合いを判断することができる。

また、情報処理装置１１０は、所定の条件下において、話し掛けられていることをユーザＡに対して通知する制御を禁止し得る。これにより、ユーザＡが没入体感装置を装着したまま眠っている場合や、コンテンツに集中している場合等、ユーザＡが話し掛けられたくないような場合に、通知動作が行われることがなくなる。

＜１−６．変形例＞（第１実施形態：割込み処理→履歴保存の態様）
以上、本開示の第１の実施の形態について説明した。なお、本実施形態は、上述の例に限定されない。以下、本実施形態の変形例のいくつかを説明する。

［１−６−１．第１の変形例］
本実施形態の第１の変形例として、情報処理装置１１０は、特定部１２４により特定された話掛け動作情報に基づいて、ユーザＡが話し掛けられたときの履歴情報である話掛け履歴情報を生成してもよい。具体的には、情報処理装置１１０は、周囲の人物によるユーザＡへの話掛け動作を検出するごとに、受信される画像情報及び音声情報に基づいて話掛け動作情報を特定し、記憶部１１４に記憶させる。そして、情報処理装置１１０は、ユーザＡの入力操作により履歴確認動作が選択された場合に、それまでに記憶されている話掛け動作情報に基づいて話掛け履歴情報を生成し、画像表示部５２に一覧表示させる。これにより、ユーザＡは、例えばコンテンツの利用を終了した後で、当該コンテンツを利用している間にユーザＡに話し掛けてきた人物、及びそのときの様子を確認することができる。

図１４は、第１の変形例にかかる情報処理装置１１０の統合制御部１２０の構成の一例を示す機能ブロック図である。かかる統合制御部１２０は、第１の実施の形態にかかる統合制御部１２０に、履歴生成部１３６が付加されている。検出部１２２、特定部１２４、内部通知制御部１２６及び禁止処理部１２８は、それぞれ上述した各部と同様の機能を有し得る。履歴生成部１３６は、ユーザＡの入力操作により履歴確認動作が選択された場合に、記憶部１１４を参照して話掛け動作情報に基づき話掛け履歴情報を生成する。内部通知制御部１２６は、生成された話掛け履歴情報を画像表示部５２に表示させる。

図１５は、画像表示部５２に表示させる履歴表示の一例を示す。かかる履歴表示の例では、話し掛けられたときに視聴していたコンテンツ画像Ｓ、話し掛けられた時間Ｔ、話し掛けた人物の顔写真Ｆ、発話内容の音声認識結果Ｖ、及び、話し掛けられたときに禁止処理中であったことを示すアイコンＨが表示されている。また、コンテンツ画像Ｓ及び時間Ｔは、非表示選択ボタンＮ１，Ｎ２を選択することによって、非表示とすることができる。

かかる履歴表示の例において、コンテンツ画像Ｓは、話し掛けられたときの動画シーンの静止画像である。ユーザＡがかかるコンテンツ画像Ｓを選択したときに、履歴生成部１３６は、当該動画シーンを再生させてもよい。例えば、履歴生成部１３６は、話し掛けられたときから数秒（例えば５秒）遡って動画シーンを再生させてもよい。あるいは、履歴生成部１３６は、当該コンテンツ画像Ｓのシーンから数秒間動画シーンを再生させてもよい。このとき、履歴生成部１３６は、動画シーンを再生させる際に、話し掛けられたときに内部通知制御部１２６により実行された通知処理を再現させてもよい。例えば、図１６に示すように、履歴生成部１３６は、動画シーンの再生に伴って、レーダマップＬＭを重畳表示させたり、発話の音声情報を出力させたりしてもよい。

また、履歴生成部１３６は、発話内容の音声認識結果Ｖを表示させる際に、発話内容の全文ではなく、冒頭から所定の文字数を表示させてもよい。また、履歴生成部１３６は、表示されたテキストメッセージの続きがある場合には、「・・・」等の、続きがあることを示す表示をさせてもよい。さらに、履歴生成部１３６は、ユーザＡが発話内容の音声認識結果のいずれかをカーソル選択している間に、テキストメッセージをスクロール表示させてもよい。

このように、本実施形態の第１の変形例によれば、情報処理装置１１０は、ユーザＡに対する話掛け動作の履歴を表示させることができる。したがって、ユーザＡは、没入体感装置を装着していた間における話掛け動作を、時間が経過した後に確認することができる。これにより、ユーザＡは、睡眠中であったり、コンテンツに集中していたりしたために反応できなかった人物に対して、後に要件の確認等をすることができるようになり、ユーザＡとユーザＡに話し掛けた人物とのコミュニケーションの向上を図ることができる。

なお、上述の例では、履歴生成部１３６は、ユーザＡの入力操作にしたがって話掛け履歴情報を生成していたが、利用していたコンテンツの終了時又は停止時に、自動的に話掛け履歴情報を生成し、画像表示部５２に表示させてもよい。また、図１５に示した履歴表示は一例に過ぎず、表示されている話掛け動作情報の一部が省略されていてもよいし、別の話掛け動作情報に置き換えられ、又は、別の話掛け動作情報が追加されていてもよい。

［１−６−２．第２の変形例］
本実施形態の第２の変形例として、情報処理装置１１０は、表示装置５０の外部通知部５６に、周囲への通知表示をさせてもよい。例えば、情報処理装置１１０は、ユーザＡに話し掛けても良い状態か否か、情報処理システムの対応状態、あるいはユーザＡの状態を、周囲に通知させてもよい。これにより、没入体感装置を装着したユーザＡの周囲にいる人物が、ユーザＡに対して話し掛けて良い状況か否かを事前に判断したり、ユーザＡに話し掛けている間に、話し掛けていることが伝わっているのか不安に感じたりしないようにすることができる。

図１７は、第２の変形例にかかる情報処理装置１１０の統合制御部１２０の構成の一例を示す機能ブロック図である。かかる統合制御部１２０は、第１の実施の形態にかかる統合制御部１２０に、外部通知制御部１３２が付加されている。検出部１２２、特定部１２４、内部通知制御部１２６及び禁止処理部１２８は、それぞれ上述した各部と同様の機能を有し得る。外部通知制御部１３２は、検出部１２２、特定部１２４、又は禁止処理部１２８の動作又は設定に基づいて、所定の通知表示を表示装置５０の外部通知部５６に表示させる。

具体的に、外部通知制御部１３２は、禁止処理部１２８の設定に基づいて、現在、ユーザＡへの通知動作の許可状態を外部通知部５６に表示させてもよい。図１８は、ユーザＡへの通知動作が許可されている状態を示し、図１９は、ユーザＡへの通知動作が禁止されている状態を示している。例えば、外部通知制御部１３２は、ユーザＡへの通知動作が許可されている場合にはＨＭＤ装置１００の表示装置５０の外部通知部５６に表示させない一方、ユーザＡへの通知動作が禁止されている場合には表示装置５０の外部通知部５６に禁止状態を示すアイコンＩＨを表示させてもよい。また、ヘッドホン装置３０のスピーカーボックスに外部通知部が設けられている場合、外部通知制御部１３２は、ユーザＡへの通知動作が許可されているときには青色を、ユーザＡへの通知動作が禁止されている場合には赤色を、外部通知部に表示させてもよい。

また、外部通知制御部１３２は、ユーザＡへの通知動作の許可状態を表示させるにあたり、ユーザＡの対応可能状態を通知させてもよい。例えば、音声だけであれば聞くことができること、緊急案件であれば話し掛けてもよいこと、すぐに対応可能であること、あるいは、話し掛けることで追ってコンタクトすること、等を周囲の人物に伝える表示をさせてもよい。これにより、周囲の人物の利便性を向上させることができる。

また、外部通知制御部１３２は、検出部１２２が、ユーザＡの方向を見ている人物を検出している間、情報処理システムの対応状態を通知表示させてもよい。例えば、外部通知制御部１３２は、検出部１２２が、ユーザＡの方向を見ている人物を検出していることを周囲に通知するために、表示装置５０あるいはヘッドホン装置３０に設けられたＬＥＤ等の光源を点滅させてもよい。また、外部通知制御部１３２は、検出部１２２が、周囲の人物によるユーザＡへの話掛け動作を検出して、記憶部１１４に対して、受信される画像情報や音声情報の記録を開始させた場合に、録画あるいは録音中であることを示すインジケータを点灯させてもよい。さらに、外部通知制御部１３２は、画像情報や音声情報を記録している間、集音される音声の大きさに応じて、表示を変化させてもよい。例えば、外部通知制御部１３２は、音声レベルに応じて、表示を点滅させたり、アニメーションにより変化させたりしてもよい。

また、外部通知制御部１３２は、ユーザＡの状態を外部通知部５６に表示させてもよい。例えば、外部通知制御部１３２は、ユーザＡに取り付けられた生体センサ等により検出される生体情報に基づいて、ユーザＡの状態を表示させてもよい。生体センサは、例えば、ユーザＡの心拍数や発汗状態、脳波等を検出し得るセンサであって、検出される生体情報は情報処理装置１１０によって読み込み可能になっている。

図２０は、外部通知制御部１３２により、ユーザＡの状態がＨＭＤ装置１００の表示装置５０の外部通知部５６に表示されている例を示す。例えば、外部通知制御部１３２は、脳波等の情報に基づいて、ユーザＡが眠っていると判断される場合、外部通知部５６のＬＥＤ表示ＬＤの明るさを暗くさせてもよい。また、外部通知制御部１３２は、生体情報に基づいてユーザＡの集中度を推定し、外部通知部５６にレベルメータＬＩを表示させてもよい。

また、外部通知制御部１３２は、生体情報に基づいて、ユーザＡが意識を失ったことを検出した場合には、ＨＭＤ装置１００あるいはヘッドホン装置３０に備えられる音声出力部等から大音量で警告音等を出力させるとともに、全ての光源を点滅させてもよい。これにより、周囲の人物が、ユーザＡの異常に気付きやすくなる。

外部通知制御部１３２は、上記のような通知表示をさせる際に、周囲の人物、あるいは、話し掛けている人物の位置情報に基づいて、通知表示をさせる部分や装置を異ならせてもよい。例えば、外部通知制御部１３２は、周囲の人物、あるいは、話し掛けている人物の位置の方向に表示が向けられるように、通知表示をさせる部分や装置を異ならせてもよい。

また、外部通知制御部１３２は、周囲の人物、あるいは、話し掛けている人物の属性情報に基づいて、通知表示をさせる部分や装置、表示内容を異ならせてもよい。例えば、外部通知制御部１３２は、人物の身長に応じて表示位置を異ならせてもよい。あるいは、外部通知制御部１３２は、人物の年齢層、ユーザＡとの関係性、特定の人物等に応じて、表示内容を異ならせてもよい。これにより、周囲の人物に対して通知表示を見やすくさせたり、周囲の人物を不快にさせないようにしたりできる。

このように、本実施形態の第２の変形例によれば、外部通知制御部１３２が、ユーザＡに話し掛けても良い状態か否か、情報処理システムの対応状態、あるいはユーザＡの状態を、外部通知部５６に通知表示させる。これにより、ユーザＡの周囲の人物の利便性や快適性を高めることができる。また、かかる通知表示がされることにより、ユーザＡの周囲にいる人物であって、ユーザＡに話し掛けようとしていない人物の注意を引くこともできる。

［１−６−３．第３の変形例］
本実施形態の第３の変形例として、情報処理装置１１０は、ユーザＡの周囲の人物の視線方向あるいは顔向きの代わりに、人物の動作に基づいてユーザＡに対する関心の有無を検出してもよい。具体的に、検出部１２２は、ユーザＡの周囲の人物の動作に基づいてユーザＡに関心のある人物を特定し、さらに、当該人物が発話をしたと判定されたときに、当該人物によるユーザＡへの話掛け動作を検出してもよい。

ユーザＡに対する関心の有無を判断するための動作としては、例えば、ユーザＡに対して接近することや、特定のジェスチャをすることが挙げられる。特定のジェスチャは、ユーザＡに対して腕を伸ばす、手を振る等、ユーザＡに対して話し掛けようとする意思を表す仕草であってよい。検出部１２２は、これらの人物の動作を、撮像装置１０から送信される画像情報に基づいて検出してもよい。

このように、本実施形態の第３の変形例によれば、検出部１２２が、ユーザＡの周囲の人物の動作に基づき、ユーザＡに対する関心の有無を検出し、当該人物が発話をしたと判定されたときに、当該人物によるユーザＡへの話掛け動作を検出する。これにより、当該人物がユーザＡの方を向いていない状態でユーザＡに話し掛けた場合であっても、検出部１２２は、当該話掛け動作を検出することができる。したがって、ユーザＡに話し掛けた人物が、ユーザＡからの反応がないことによって不快になるおそれを低減することができ、ユーザＡとユーザＡに話し掛けた人物とのコミュニケーションを向上させることができる。

［１−６−４．第４の変形例］
本実施形態の第４の変形例として、情報処理装置１１０は、ユーザＡの周囲の人物の視線方向の代わりに、周囲の人物が頭部等に装着している撮像装置により撮像される画像情報に基づいて、ユーザＡの顔向きを検出してもよい。具体的に、検出部１２２は、周囲の人物が装着している撮像装置により撮像される画像情報にユーザＡが含まれる場合に、当該人物がユーザＡの方向に顔を向けていると判断し、さらに、当該人物が発話をしたと判定されたときに、当該人物による話掛け動作を検出してもよい。

図２１は、第４の変形例の情報処理システムの使用状態を示す説明図である。かかる情報処理システムでは、没入体感装置を装着したユーザＡがいる空間にいる人物Ｘ，Ｙ，Ｚが装着している頭部装着型の撮像装置６０Ａ，６０Ｂ，６０Ｃにより、ユーザＡの周囲の画像情報がモニタリングされている。また、かかる情報処理システムにおいても、ユーザＡが利用するヘッドホン装置３０等に備えられた集音部３２によって集音される音声情報がモニタリングされている。

第４の変形例の情報処理装置１１０では、各人物Ｘ，Ｙ，Ｚが装着している頭部装着型の撮像装置６０Ａ，６０Ｂ，６０Ｃによって撮像される画像情報が、ユーザＡの周囲の人物Ｘ，Ｙ，ＺがユーザＡの方向を向いているかを判断するために用いられる。そして、情報処理装置１１０は、ユーザＡを含む画像情報を送信してきた撮像装置６０Ａを装着している人物Ｘによる発話を検出したときに、当該人物ＸによるユーザＡへの話掛け動作を検出する。情報処理装置１１０は、人物ＸによるユーザＡへの話掛け動作を検出した場合には、受信される画像情報及び音声情報に基づいて話掛け動作情報を特定し、当該話掛け動作情報に基づいて、ユーザＡに対して話し掛けられていることを通知する。

図２２は、第４の変形例の情報処理システムの構成の一例を示す機能ブロック図である。かかる情報処理システムは、頭部装着型撮像装置６０Ａ，６０Ｂ，６０Ｃと、ヘッドホン装置３０と、ＨＭＤ装置１００とを備えている。撮像装置６０Ａ，６０Ｂ，６０Ｃは、それぞれ撮像部６１が一つである点、及び、制御部６２による視線情報の生成機能が省略されてもよい点を除いて、上述の撮像装置１０と同様の構成とすることができる。また、情報処理装置１１０の基本的な機能構成は、図３に例示した機能ブロック図により示される。

第４の変形例では、検出部１２２は、撮像装置６０Ａ，６０Ｂ，６０Ｃにより撮像される画像情報、及び、集音部３２で集音される音声情報に基づいて、ユーザＡの周囲の人物によるユーザＡへの話掛け動作を検出する。例えば、検出部１２２は、受信された画像情報に基づき、撮像装置６０Ａにより撮像された画像情報にユーザＡが含まれている場合に、当該撮像装置６０Ａを装着している人物ＸがユーザＡの方向に顔を向けていると判断してもよい。さらに、検出部１２２は、当該人物Ｘが発話をしたと判定されたときに、当該人物ＸによるユーザＡへの話掛け動作を検出してもよい。

検出部１２２は、例えば、画像処理によって、ＨＭＤ装置１００の表示装置５０やヘッドホン装置３０を装着した人物が映っているか否かを判断することによって、受信される画像情報にユーザＡが含まれているか否かを判定してもよい。あるいは、ＨＭＤ装置１００の表示装置５０又はヘッドホン装置３０の一部に識別標識等を設けておき、検出部１２２は、画像情報中に当該識別標識を検出した場合に、ユーザＡが含まれていると判定してもよい。

このように、本実施形態の第４の変形例によれば、検出部１２２が、ユーザＡの周囲の人物Ｘ，Ｙ，Ｚが装着している撮像装置６０Ａ，６０Ｂ，６０Ｃにより撮像された画像情報に基づき、人物ＸがユーザＡの方向へ顔を向けていることを検出する。また、検出部１２２は、当該人物Ｘが発話をしたと判定されたときに、当該人物ＸによるユーザＡへの話掛け動作を検出する。これにより、視線情報の生成処理を伴わずに、検出部１２２は、当該話掛け動作を検出することができる。

＜＜２．第２の実施の形態＞＞
本開示にかかる第２の実施の形態として、ＨＭＤ装置やヘッドホン装置のような没入体感装置をユーザが装着しない場合であっても、ユーザが視覚的にあるいは聴覚的に周囲から制限され得る状態において、本技術を適用した例について説明する。

ユーザＡが閉鎖空間の内部に入ることで、ＨＭＤ装置やヘッドホン装置のような没入体感装置をユーザが装着しない場合であっても、周辺の視野や音声が制限される場面がある。例えば、楽器や歌の練習をしたりするなど、大音量を伴う行為をする場合に使用される防音室の内部では、ユーザは、外部の情報が視覚的に及び聴覚的に制限され得る。また、疲労回復や健康増進のために使用される酸素カプセル装置の内部では、ユーザは、外部の情報が視覚的に及び聴覚的に制限され得る。さらに、近年では、電気自動車等においても、内部の乗員が、外部の情報を視覚的に及び聴覚的に制限され得る移動体が開発されている。

かかる閉鎖空間内にいるユーザＡに対して、当該閉鎖空間の外からユーザＡに話し掛けた場合、ユーザＡは話し掛けられたことに気付かず、コミュニケーションを確保しづらいと考えられる。本開示の情報処理装置を備えた情報処理システムは、かかる閉鎖空間内のユーザＡと、閉鎖空間外の人物とのコミュニケーションの向上にも利用し得る。

図２３は、本実施形態にかかる情報処理システムの構成の一例を示す機能ブロック図である。本実施形態にかかる情報処理システムは、第１の実施の形態にかかる情報処理システムと同様の構成要素により構成され得る。また、各構成要素が持つ機能についても、第１の実施の形態にかかる情報処理システムと同様とし得る。

このうち、撮像装置１０は、閉鎖空間ＣＳの外部を撮像可能な位置に設けられる。撮像装置１０は、閉鎖空間構成体９０に取り付けられてもよく、閉鎖空間構成体９０が存在する空間のいずれかの位置に設置されてもよい。集音部３２は、閉鎖空間ＣＳの外部の音声を集音可能な位置に設けられる。集音部３２の数は一つに限定されない。画像表示部５２及び音声出力部３４は、閉鎖空間構成体９０の内部に設けられる。画像表示部５２は、ＨＭＤ装置の表示装置であってもよく、表示パネルや投射型表示装置等の表示機器であってもよい。音声出力部３４は、ヘッドホン装置又はイヤホン装置であってもよく、スピーカ装置であってもよい。外部通知部５６は、閉鎖空間ＣＳの外部から視認可能な位置に設けられる。外部通知部５６は、閉鎖空間構成体９０に取り付けられてもよく、閉鎖空間構成体９０が存在する空間のいずれかの位置に設置されてもよい。情報処理装置１１０は、システム全体と情報を送受信可能であれば、設置する位置は特に限定されない。

本実施形態にかかる情報処理システムにおいても、情報処理装置１１０が、受信される視線情報や周囲画像情報、周囲音声情報に基づいて、閉鎖空間ＣＳの外にいる人物による、ユーザＡへの話掛け動作を検出する処理を行う。また、情報処理装置１１０は、閉鎖空間ＣＳ内のユーザＡへの話掛け動作が検出された場合に、モニタリングされている周囲情報から話掛け動作情報を特定し、ユーザＡに対して、ユーザＡが話し掛けられていることを通知する各種の処理を行う。情報処理装置１１０の具体的な処理内容については、第１の実施の形態で説明した各種処理内容を適用し得る。

また、本実施形態にかかる情報処理システムでは、例えば、閉鎖空間構成体９０の一部が瞬間調光ガラスにより構成されている場合、外部からの話掛け動作を検出したときに、情報処理装置１１０の内部通知制御部１２６は、瞬間調光ガラスを透過状態にすることで、内部のユーザＡに話し掛けられていることを通知してもよい。また、本実施形態にかかる情報処理システムでは、内部通知制御部１２６は、閉鎖空間構成体９０の内壁面等に、当該壁の外部の映像を表示させてもよい。さらに、本実施形態にかかる情報処理システムでは、閉鎖空間構成体９０が複数の窓を備える場合、外部から話し掛ける人物がいる方向の窓へと、内部のユーザＡの視線を誘導する表示を、他の窓や内壁面等に表示させてもよい。

このように、本実施形態にかかる情報処理システムにおいても、情報処理装置１１０は、閉鎖空間ＣＳの外部にいる人物による、閉鎖空間ＣＳの内部にいるユーザＡへの話掛け動作を検出し、話掛け動作情報を特定することができる。また、情報処理装置１１０は、特定した話掛け動作情報に基づいて、閉鎖空間ＣＳの内部のユーザＡに対する通知処理を行う。これにより、内部にいるユーザＡは、自身が話し掛けられたときの様子を知ることができる。したがって、ユーザＡは、外部の人物の話し掛けの状態に応じて、反応の要否や反応の示し方を判断することができ、ユーザＡとユーザＡに話し掛ける人物とのコミュニケーションを向上させることができる。

＜＜３．第３の実施の形態＞＞
本開示にかかる第３の実施の形態として、第２の実施の形態の適用例のようにユーザＡが完全な閉鎖空間に置かれるのではなく、外部を限定的に視認することができる空間（以下、「準閉鎖空間」ともいう。）にユーザＡが置かれた状態において、本技術を適用した例について説明する。

例えば、周囲が全体的に又は部分的にパーティションで仕切られたスペースで、学習や仕事をする場合等において、側方の一部や上部は空間的に遮られていないものの、ユーザＡが向いている方向によっては、外部の情報が視覚的に又は聴覚的に制限される場合がある。また、トレーニングマシーンや乗用のシミュレーションマシン等、ユーザの側方は空間的に遮られていないものの、ユーザの前後や上部が空間的に遮られ、外部の情報が視覚的に又は聴覚的に制限される場合がある。

かかる準閉鎖空間内にいるユーザＡに対して、当該準閉鎖空間の外からユーザＡに話し掛けた場合、ユーザＡが向いている方向によっては、ユーザＡは話し掛けられたことに気付きにくく、コミュニケーションを確保しづらいと考えられる。本開示の情報処理装置を備えた情報処理システムは、かかる準閉鎖空間内のユーザＡと、準閉鎖空間外の人物とのコミュニケーションの向上にも利用し得る。

本実施形態にかかる情報処理システムの構成は、図２３に例示した情報処理システムの構成と同様とし得る。ただし、本実施形態では、準閉鎖空間の外部を撮像する撮像装置１０や、外部の周囲音声を集音する集音部３２は、主として、ユーザＡから見て、空間的に遮られている方向に備えられてもよい。

本実施形態にかかる情報処理システムにおいても、情報処理装置１１０が、受信される視線情報や周囲画像情報、周囲音声情報に基づいて、準閉鎖空間（ＣＳ）の外にいる人物による、ユーザＡへの話掛け動作を検出する処理を行う。また、情報処理装置１１０は、準閉鎖空間(ＣＳ)内のユーザＡへの話掛け動作が検出された場合に、モニタリングされている周囲情報から話掛け動作情報を特定し、ユーザＡに対して、ユーザＡが話し掛けられていることを通知する各種の処理を行う。情報処理装置１１０の具体的な処理内容については、第１の実施の形態で説明した各種処理内容を適用し得る。

また、本実施形態にかかる情報処理システムおいても、第２の実施の形態にかかる情報処理システムの場合と同様に、瞬間調光ガラスを利用した通知動作や、外部映像表示、ユーザＡの視線を誘導する表示を行ってもよい。さらに、本実施形態にかかる情報処理システムでは、準閉鎖空間の内部のユーザＡの視線を検出し、ユーザＡが、外部から話し掛ける人物がいる方向を向いていると判定される場合には、情報処理装置１１０は、視角的な通知表示を行わないようにしてもよい。

また、本実施形態にかかる情報処理システムでは、ユーザＡが音声出力部３４を利用している場合に、情報処理装置１１０は、音声出力部３４から出力されている音波の指向特性、音量、ユーザＡの頭部の位置等の情報に基づいて、ユーザＡが外部からの話し掛けに伴う音声を直接聞き取ることができるかを判定してもよい。そして、情報処理装置１１０は、ユーザＡが外部からの話し掛けに伴う音声を直接聞き取りにくいと判定される場合にのみ、音声出力による通知を行わせてもよい。情報処理装置１１０は、音声出力のオンオフだけではなく、通知音声の音量を調節してもよい。

このように、本実施形態にかかる情報処理システムにおいても、情報処理装置１１０は、準閉鎖空間の外部にいる人物による、準閉鎖空間の内部にいるユーザＡへの話掛け動作を検出し、話掛け動作情報を特定することができる。また、情報処理装置１１０は、特定した話掛け動作情報に基づいて、準閉鎖空間の内部のユーザＡに対する通知処理を行う。これにより、内部にいるユーザＡは、自身が話し掛けられたときの様子を知ることができる。したがって、ユーザＡは、外部の人物の話し掛けの状態に応じて、反応の要否や反応の示し方を判断することができ、ユーザＡとユーザＡに話し掛ける人物とのコミュニケーションを向上させることができる。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

例えば、第１の実施の形態では、没入体感装置としてＨＭＤ装置１００及びヘッドホン装置３０を例に採って説明したが、本開示の技術はかかる例に限られない。例えば、没入体感装置として、脳に対して視聴情報の信号を直接送り、仮想現実を体験可能な頭部装着型の装置を利用している場合であっても、本技術を適用することができる。この場合においても、情報処理装置１１０は、第１の実施の形態で例示した処理を実行することによって、ユーザＡと、ユーザＡに話し掛ける人物とのコミュニケーションを向上させることができる。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示にかかる技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）周囲からの情報が聴覚的又は視覚的に制限される装置を利用しているユーザに対する、周囲からの話掛け動作を検出する検出部と、
前記話掛け動作が検出された場合に、モニタリングされている周囲情報に基づき前記話掛け動作を示す話掛け動作情報を特定する特定部と、
を備える、情報処理装置。
（２）前記モニタリングされている周囲情報は、音声情報及び画像情報のうちの少なくとも一方の情報を含む、前記（１）に記載の情報処理装置。
（３）特定された前記話掛け動作情報に基づいて前記ユーザへの通知制御を行う内部通知制御部を備える、前記（１）又は（２）に記載の情報処理装置。
（４）前記内部通知制御部は、特定された前記話掛け動作情報としての音声情報及び画像情報のうちの少なくとも一方の情報をタイムシフト再生する、前記（３）に記載の情報処理装置。
（５）前記内部通知制御部は、前記タイムシフト再生による遅延時間を徐々に短くし、リアルタイムの音声出力又は画像表示に切り替える、前記（４）に記載の情報処理装置。
（６）前記内部通知制御部は、前記話掛け動作を行う人物の位置情報を取得し、前記話掛け動作情報と併せて当該位置情報に基づいて前記ユーザへの通知制御を行う、前記（３）〜（５）のいずれか１項に記載の情報処理装置。
（７）前記内部通知制御部は、前記話掛け動作を行う人物の位置情報を取得し、当該位置情報に基づいて音声情報を出力させる、前記（６）に記載の情報処理装置。
（８）前記内部通知制御部は、前記位置情報に基づいて画像表示部にマップ表示させる、前記（６）又は（７）に記載の情報処理装置。
（９）前記内部通知制御部は、前記ユーザが利用しているコンテンツ音声の音量を小さくした後、特定された前記話掛け動作情報としての音声情報を出力させる、前記（３）〜（８）のいずれか１項に記載の情報処理装置。
（１０）前記装置は、ノイズキャンセル機能を有するヘッドホン装置又はイヤホン装置を含み、
前記内部通知制御部は、前記ノイズキャンセル機能を抑制又は停止した後、特定された前記話掛け動作情報としての音声情報を出力させる、前記（３）〜（９）のいずれか１項に記載の情報処理装置。
（１１）前記内部通知制御部は、前記ユーザが利用しているコンテンツを停止した後、前記ユーザへの通知を行わせる、前記（３）〜（１０）のいずれか１項に記載の情報処理装置。
（１２）前記内部通知制御部は、前記コンテンツを停止する前に、予告動作を行わせる、前記（１１）に記載の情報処理装置。
（１３）前記内部通知制御部は、前記ユーザが利用しているコンテンツ画像に周囲の画像を重畳表示させる、前記（３）〜（１２）のいずれか１項に記載の情報処理装置。
（１４）前記ユーザへの通知制御の許可状態を周囲に通知する外部通知制御部を備える、前記（１）〜（１３）のいずれか１項に記載の情報処理装置。
（１５）前記外部通知制御部は、前記ユーザの方向を向いている人物が検出されたときに前記ユーザへの通知制御の許可状態を通知させる、前記（１４）に記載の情報処理装置。
（１６）前記外部通知制御部は、前記話掛け動作に伴う音声の録音状態又は画像の録画状態を周囲に通知させる、前記（１４）又は（１５）に記載の情報処理装置。
（１７）特定された前記話掛け動作情報に基づいて、話掛け履歴情報を生成する履歴生成部を備える、前記（１）〜（１６）のいずれか１項に記載の情報処理装置。
（１８）前記話掛け履歴情報は、話し掛け時刻、話し掛け時に利用していたコンテンツ、話掛け動作を行った人物、話し掛け時の発話内容、及び前記ユーザへの通知制御の禁止状態のうちの少なくとも一つの情報を含む、前記（１７）に記載の情報処理装置。
（１９）周囲からの情報が聴覚的又は視覚的に制限される装置を利用しているユーザに対する、周囲からの話掛け動作を検出することと、
前記話掛け動作が検出された場合に、モニタリングされている周囲情報に基づき前記話掛け動作を示す話掛け動作情報を特定することと、
を含む、情報処理方法。
（２０）コンピュータに、
周囲からの情報が聴覚的又は視覚的に制限される装置を利用しているユーザに対する、周囲からの話掛け動作を検出する機能と、
前記話掛け動作が検出された場合に、モニタリングされている周囲情報に基づき前記話掛け動作を示す話掛け動作情報を特定する機能と、
を実現させるためのプログラム。

１０撮像装置
３０ヘッドホン装置
３２集音部
３４音声出力部
５０表示装置
５２画像表示部
５６外部通知部
６０Ａ・６０Ｂ・６０Ｃ頭部装着型撮像装置
１００ＨＭＤ装置
１１０情報処理装置
１２０統合制御部

Claims

周囲からの情報が聴覚的又は視覚的に制限される装置を利用しているユーザに対する、周囲からの話掛け動作を検出する検出部と、
前記話掛け動作が検出された場合に、モニタリングされている周囲情報に基づき前記話掛け動作を示す話掛け動作情報を特定する特定部と、
を備える、情報処理装置。
前記モニタリングされている周囲情報は、音声情報及び画像情報のうちの少なくとも一方の情報を含む、請求項１に記載の情報処理装置。
特定された前記話掛け動作情報に基づいて前記ユーザへの通知制御を行う内部通知制御部を備える、請求項１に記載の情報処理装置。
前記内部通知制御部は、特定された前記話掛け動作情報としての音声情報及び画像情報のうちの少なくとも一方の情報をタイムシフト再生する、請求項３に記載の情報処理装置。
前記内部通知制御部は、前記タイムシフト再生による遅延時間を徐々に短くし、リアルタイムの音声出力又は画像表示に切り替える、請求項４に記載の情報処理装置。
前記内部通知制御部は、前記話掛け動作を行う人物の位置情報を取得し、前記話掛け動作情報と併せて当該位置情報に基づいて前記ユーザへの通知制御を行う、請求項３に記載の情報処理装置。
前記内部通知制御部は、前記話掛け動作を行う人物の位置情報を取得し、当該位置情報に基づいて音声情報を出力させる、請求項６に記載の情報処理装置。
前記内部通知制御部は、前記位置情報に基づいて画像表示部にマップ表示させる、請求項６に記載の情報処理装置。
前記内部通知制御部は、前記ユーザが利用しているコンテンツ音声の音量を小さくした後、特定された前記話掛け動作情報としての音声情報を出力させる、請求項３に記載の情報処理装置。
前記装置は、ノイズキャンセル機能を有するヘッドホン装置又はイヤホン装置を含み、
前記内部通知制御部は、前記ノイズキャンセル機能を抑制又は停止した後、特定された前記話掛け動作情報としての音声情報を出力させる、請求項３に記載の情報処理装置。
前記内部通知制御部は、前記ユーザが利用しているコンテンツを停止した後、前記ユーザへの通知を行わせる、請求項３に記載の情報処理装置。
前記内部通知制御部は、前記コンテンツを停止する前に、予告動作を行わせる、請求項１１に記載の情報処理装置。
前記内部通知制御部は、前記ユーザが利用しているコンテンツ画像に周囲の画像を重畳表示させる、請求項３に記載の情報処理装置。
前記ユーザへの通知制御の許可状態を周囲に通知する外部通知制御部を備える、請求項１に記載の情報処理装置。
前記外部通知制御部は、前記ユーザの方向を向いている人物が検出されたときに前記ユーザへの通知制御の許可状態を通知させる、請求項１４に記載の情報処理装置。
前記外部通知制御部は、前記話掛け動作に伴う音声の録音状態又は画像の録画状態を周囲に通知させる、請求項１４に記載の情報処理装置。
特定された前記話掛け動作情報に基づいて、話掛け履歴情報を生成する履歴生成部を備える、請求項１に記載の情報処理装置。
前記話掛け履歴情報は、話し掛け時刻、話し掛け時に利用していたコンテンツ、話掛け動作を行った人物、話し掛け時の発話内容、及び前記ユーザへの通知制御の禁止状態のうちの少なくとも一つの情報を含む、請求項１７に記載の情報処理装置。
周囲からの情報が聴覚的又は視覚的に制限される装置を利用しているユーザに対する、周囲からの話掛け動作を検出することと、
前記話掛け動作が検出された場合に、モニタリングされている周囲情報に基づき前記話掛け動作を示す話掛け動作情報を特定することと、
を含む、情報処理方法。
コンピュータに、
周囲からの情報が聴覚的又は視覚的に制限される装置を利用しているユーザに対する、周囲からの話掛け動作を検出する機能と、
前記話掛け動作が検出された場合に、モニタリングされている周囲情報に基づき前記話掛け動作を示す話掛け動作情報を特定する機能と、
を実現させるためのプログラム。